CN104064183B - 一种基于动态hmm观察符号数的提高语音识别准确率的方法 - Google Patents

一种基于动态hmm观察符号数的提高语音识别准确率的方法 Download PDF

Info

Publication number
CN104064183B
CN104064183B CN201410279788.4A CN201410279788A CN104064183B CN 104064183 B CN104064183 B CN 104064183B CN 201410279788 A CN201410279788 A CN 201410279788A CN 104064183 B CN104064183 B CN 104064183B
Authority
CN
China
Prior art keywords
hmm
observation
recognition
model
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410279788.4A
Other languages
English (en)
Other versions
CN104064183A (zh
Inventor
刘明
王明江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN201410279788.4A priority Critical patent/CN104064183B/zh
Publication of CN104064183A publication Critical patent/CN104064183A/zh
Application granted granted Critical
Publication of CN104064183B publication Critical patent/CN104064183B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为大规模孤立词语音识别提供了一种提高识别准确率的方法,本发明的方法针对不同的孤立词动态的建立了隐马尔科夫模型观察符号数,解决了不同的孤立词因观察符号数相同而识别准确率低的问题。实验结果表明,本发明的方法在稍许增加识别计算量的前提下,有效地提高了大规模孤立词语音识别的准确率。本发明的方法可以动态调整识别模型的参数,相比于传统的基于统计概率的静态模型的语音识别,采用本发明方法的优势在于针对不同用户自适应的调整识别模型的参数,从而提高识别的准确率。待识别孤立词为10240词,实验结果表明,本发明的方法将总的识别率的平均值由96.3%提高到了99.2%。

Description

一种基于动态HMM观察符号数的提高语音识别准确率的方法
技术领域
本发明涉及孤立词语音识别领域,具体涉及一种提高大规模孤立词语音识别的准确率的方法。
背景技术
隐马尔科夫(HMM)模型是一种反映事件跳转概率、观察样本出现概率的非常好的数学模型,因此将语音特征参数按照一定的算法进行处理,得到HMM概率模型。HMM模型由马尔可夫链演变而来,在语音处理的各个领域获得广泛应用。语音的HMM概率模板的建立,需要语音的特征参数向量的聚类编码,语音向量编码,概率模板训练过程进行前向、后向概率计算,直到得到一个收敛的概率模型。
声学模型通常是将获取的语音特征参数使用特定的概率算法进行训练后产生。在基于HMM的语音识别中,一个声学模型就是一个HMM模型,通常是将获取的语音特征参数使用HMM概率跳转算法进行训练后产生HMM模型集合。待识别语音经过提取和HMM模型一致的特征参数,采用后向贝叶斯概率算法,计算出后验概率,产生最大的后验概率的HMM概率模板所代表的语音样本即为待识别语音。
对语音数据而言,主要是时频采样和频谱变换,有略微时频特性差异的语音都可以建立相应的HMM模型。其次,模型训练就是利用现有的样本对HMM的参数进行调整,使之能够准确描述不同语音对应的语音概率特征。建立模型的过程实际上是对语音做数学建模,并且假定相应的语音特识别概率由这些数学模型计算得到,并且有一个极值。对HMM来说,主要是确定模型的基本拓扑结构,包括事件数目、事件的跳转模式和跳转概率、观察序列概率等。
每个汉语孤立词的HMM观察符号数目是不相同的。孤立词的数量越大,数学模型中概率统计的状态越多,对应到HMM参数中,即不同的词汇其对应的HMM符号数目越多。随着孤立词个数的增加,若使用同一个HMM符号数来代表语音帧向量的内在联系,显然会使识别的准确率下降。
发明内容
为解决现有技术中存在的问题,本发明提出了一种通过动态改变HMM模型的观察符号数目来提高大规模孤立词语音识别准确率的方法,解决了随着识别孤立词数量的增加而识别准确率下降的问题。
本发明通过以下技术方案实现:
一种基于动态HMM观察符号数的提高大规模孤立词语音识别准确率的方法,包括以下步骤:
A.给出初始的HMM模型的事件数和观察符号数,并对模型进行训练,经语音识别过程后,得到一个初始的HMM模型;其中,初始事件数为40,观察符号数目为32,观察序列个数为20,HMM事件跳转概率矩阵为40×20,由观察序列的个数和观察符号数目可以得到一个20×32的观察序列概率矩阵;初始事件概率矢量是一个1×20的行矩阵;
B.初始的事件数N取40,动态地改变N值,步长为2,训练过程中改变HMM事件数来观察每个词汇的识别准确率并进行记录,每个词汇识别准确率百分比最高的HMM事件数N作为该词汇的最优HMM事件数;
C.对于训练所用词库中的每一个词汇,固定步骤B中的HMM的事件数N;动态的改变HMM观察符号数M,步长为2,继续训练得到新的HMM模型,并用训练所用词库中的语音进行孤立词语音识别,待所有词都识别完成后,统计每次改变HMM观察符号数所得到的识别准确率;重复该步骤,找到准确率最大时所对应的HMM观察符号数M;
D.用户的语音录入后经过特征参数提取,结合步骤C得到的HMM模型参数,经过前向概率计算并给出识别结果;然后,自动将该用户录入的词汇的语音结合词库中对应词汇的语音进行训练,重新改变HMM的观察符号数M,并计算得到针对特定人的最佳HMM观察符号数。
本发明的有益效果是:根据初始HMM事件数和符号数训练得到的HMM模型进行孤立词语音识别,观察识别的准确率;在固定HMM事件数的情况下,改变HMM观察符号数,继续训练得到新的HMM模型并进行孤立词语音识别,重复上述过程,对比每次不同观察符号数时的识别率,最大值所对应的观察符号数既是最优的;用户通过输入非标准语音词汇,算法通过学习,自适应改变HMM的观察符号数这一参数来使识别的准确率最大。相比于传统的基于统计概率的静态模型的语音识别,采用本发明方法的优势在于针对不同用户自适应的调整识别模型的参数,从而提高识别的准确率。待识别孤立词为10240词,实验结果表明,本发明的方法将总的识别率的平均值由96.3%提高到了99.2%。
附图说明
图1是本发明的基于动态HMM观察符号数的提高语音识别准确率的方法的流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
本发明使用的隐马尔可夫HMM模型概率参数如下:
(1)N,HMM模型中的事件数。HMM模型中事件数是隐含的,在以后的表述中,标记模型中的各个事件为{S1,S2,...,SN},在t时刻所处的事件为qt
(2)M,HMM模型中每个事件下可以观察到序列中的元素的数目,即观察符号数。标记各个观察符号为V={v1,v2,L,vM},观察序列为O={o1,o2,L,oT},其中ot为集合V中的一种观察符号,T为观察序列长度。
(3)事件转移概率分布A=[aij],其中
aij=p[qt+1=Sj|qt=Si] 1≤i≤N,1≤j≤.。
(4)观察序列概率分布B=[bj(k)],其中
bj(k)=p[ot=vk|qt=Sj]1≤k≤M,1≤j≤.。
(5)初始事件概率分布π=[πi],其中
πi=P[q1=Si] 1≤i≤N。
待识别孤立词中识别正确的词的数目除以所有的待识别孤立词,得到的百分比结果用于表示识别的准确率。
根据Baum-Welch算法由语音特征参数经过聚类计算后得到的编码来计算HMM模型参数时,初始事件概率分布不重要,只要满足概率的和为1即可,只会对计算过程中的迭代次数有轻微影响。因此本发明的初始事件概率分布πi=1/N。
在具体的计算实现过程中,本发明采用的算法为贝叶斯前向、后向概率计算和Baum-welch算法,附图1是本发明的方法的实现的流程图,详述如下:
1.首先给出初始的HMM模型的事件数和观察符号数;然后,开始对模型进行训练。经语音识别过程后,得到一个初始的HMM模型,此时,该概率模型对不同的词汇不是最优的。模型的参数包括事件数N,每个事件对应的观察符号数M。对离散HMM,观察符号数原则上由样本空间决定,但受计算量的限制,一般可取16~64,经实验,除了某些词,大部分词的M在24~50之间识别的准确率不会有太大波动。
本发明采用HMM的初始事件数为40,观察符号数目为32,观察序列个数为20,HMM事件跳转概率矩阵为40×20维,由观察序列的个数和观察符号数目可以得到一个20×32的观察序列概率矩阵;初始事件概率矢量是一个1×20的行矩阵。
2.获得语音识别结果的准确率,用待识别孤立词中识别正确的词的数目除以所有的待识别孤立词,得到的结果以百分比来标识所述准确率。初始的事件数N取40,动态改变中步长为2。训练过程中改变HMM事件数来观察每个词汇的识别准确率并进行记录。每个词汇识别准曲率百分比最高的HMM事件数作为该词汇的最优HMM事件数。
3.对于每个词汇,固定步骤2中的HMM模型的事件数,动态的改变HMM观察符号数M,M的值的改变步长为2。继续训练得到新的HMM模型,并用训练所用词库中的语音进行孤立词语音识别。待所有词都识别完成后,统计每次改变HMM观察符号数所得到的识别准确率。重复该步骤,找到准确率最大时所对应的HMM观察符号数。
实验表明,在固定了每个词汇最优的HMM事件数目后,通过改变HMM观察符号数,待识别孤立词为10240词时,多次识别准确率的最大值为99.2%;此时,每个词所对应的HMM的观察符号数就是最优的,若继续变化HMM的观察符号数,不论增大还是减小,准确率都会低于99.2%。
4.用户输入语音词汇实现自适应学习,用户的语音录入后,经过参数提取后,结合步骤3得到的词库中的每个词汇的HMM模型参数,经前向概率计算后,得到所有的概率,经过排序,找出最大的概率值,那么此时用户录入的词汇就是最大概率值所对应的那个词库中的词汇。之后,系统使用该用户录入的词汇的语音结合词库中的这个词汇的语音,重新训练得到该词汇的新的HMM模型,即新的观察符号数。
至此,本发明的方法实现了语音识别算法自适应地学习调整模型参数。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (3)

1.一种基于动态HMM观察符号数的提高语音识别准确率的方法,其特征在于,所述方法包括以下步骤:
A.给出初始的HMM模型的参数,所述参数包括事件数和观察符号数,并对模型进行训练,经语音识别过程后,得到一个初始的HMM模型;其中,初始事件数为40,观察符号数目为32,观察序列个数为20,HMM事件跳转概率矩阵为40×20,由观察序列的个数和观察符号数目可以得到一个20×32的观察序列概率矩阵;初始事件概率矢量是一个1×20的行矩阵;
B.初始的事件数N取40,动态地改变N值,步长为2,训练过程中改变HMM事件数来观察每个词汇的识别准确率并进行记录,每个词汇识别准曲率百分比最高的HMM事件数N作为该词汇的最优HMM事件数;
C.对于训练所用词库中的每一个词汇,固定步骤B中的HMM的事件数N;动态的改变HMM观察符号数M,步长为2,继续训练得到新的HMM模型,并用训练所用词库中的语音进行孤立词语音识别,待所有词都识别完成后,统计每次改变HMM观察符号数所得到的识别准确率;重复该步骤,找到准确率最大时所对应的HMM观察符号数M;
D.用户的语音录入后经过特征参数提取,结合步骤C得到的HMM模型参数,经过前向概率计算并给出识别结果后;然后,自动将该用户录入的非标准语音词汇的语音结合词库中对应词汇的语音进行训练,重新改变HMM的观察符号数M,并计算得到针对特定人的最佳HMM观察符号数。
2.根据权利要求1所述的方法,其特征在于:用待识别孤立词中识别正确的词的数目除以所有的待识别孤立词,得到的结果以百分比来表示所述准确率。
3.根据权利要求1所述的方法,其特征在于:所述步骤C中,找到准确率最大时所对应的HMM观察符号数M,具体为:待识别孤立词为10240词时,多次识别准确率的最大值为99.2%。
CN201410279788.4A 2014-06-20 2014-06-20 一种基于动态hmm观察符号数的提高语音识别准确率的方法 Expired - Fee Related CN104064183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410279788.4A CN104064183B (zh) 2014-06-20 2014-06-20 一种基于动态hmm观察符号数的提高语音识别准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410279788.4A CN104064183B (zh) 2014-06-20 2014-06-20 一种基于动态hmm观察符号数的提高语音识别准确率的方法

Publications (2)

Publication Number Publication Date
CN104064183A CN104064183A (zh) 2014-09-24
CN104064183B true CN104064183B (zh) 2017-12-08

Family

ID=51551862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410279788.4A Expired - Fee Related CN104064183B (zh) 2014-06-20 2014-06-20 一种基于动态hmm观察符号数的提高语音识别准确率的方法

Country Status (1)

Country Link
CN (1) CN104064183B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920839A (en) * 1993-01-13 1999-07-06 Nec Corporation Word recognition with HMM speech, model, using feature vector prediction from current feature vector and state control vector values
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN102254087A (zh) * 2010-05-20 2011-11-23 索尼公司 数据处理设备、数据处理方法和程序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920839A (en) * 1993-01-13 1999-07-06 Nec Corporation Word recognition with HMM speech, model, using feature vector prediction from current feature vector and state control vector values
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN102254087A (zh) * 2010-05-20 2011-11-23 索尼公司 数据处理设备、数据处理方法和程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种改进的隐马尔可夫模型在语音识别中的应用;胡磊等;《信息与控制》;20071231;第36卷(第6期);全文 *
孤立词语音识别算法优化的研究和实现;刘德;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315(第03期);摘要、第4章 *

Also Published As

Publication number Publication date
CN104064183A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
Wang et al. Vqmivc: Vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion
Zhang et al. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection.
CN101989424B (zh) 语音处理设备和方法
CN109326277B (zh) 半监督的音素强制对齐模型建立方法及系统
CN110085215B (zh) 一种基于生成对抗网络的语言模型数据增强方法
US10217457B2 (en) Learning from interactions for a spoken dialog system
CN102074234A (zh) 语音变异模型建立装置、方法及语音辨识系统和方法
CN108319666A (zh) 一种基于多模态舆情分析的供电服务评估方法
CN101645269A (zh) 一种语种识别系统及方法
CN101447184A (zh) 基于音素混淆的中英文双语语音识别方法
CN107808660A (zh) 训练神经网络语言模型的方法和装置及语音识别方法和装置
Emillia et al. Isolated word recognition using ergodic hidden markov models and genetic algorithm
CN116136957A (zh) 一种基于意图一致性的文本纠错方法、装置和介质
CN110853629A (zh) 一种基于深度学习的语音识别数字的方法
WO2015134579A1 (en) System and method to correct for packet loss in asr systems
CN107168946A (zh) 一种医疗文本数据的命名实体识别方法
CN106897265A (zh) 词向量训练方法及装置
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN110136699A (zh) 一种基于文本相似度的意图识别方法
CN111179918B (zh) 联结主义时间分类和截断式注意力联合在线语音识别技术
CN104064179B (zh) 一种基于动态hmm事件数的提高语音识别准确率的方法
CN1298533A (zh) 用于特殊领域或方言的语音识别器
CN104064183B (zh) 一种基于动态hmm观察符号数的提高语音识别准确率的方法
CN116137149B (zh) 语音识别方法、装置和设备
CN118522278A (zh) 一种语音识别方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171208

Termination date: 20210620