JPH08248983A

JPH08248983A - 音声認識装置

Info

Publication number: JPH08248983A
Application number: JP4975795A
Authority: JP
Inventors: Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1995-03-09
Filing date: 1995-03-09
Publication date: 1996-09-27

Abstract

(57)【要約】【目的】音声認識において発声の速度が平均より速
い、又は遅い場合にも高い認識率を有する音声認識装置
を得る。【構成】対立候補音声標準モデル生成手段１１は、尤
度最大基準で決定される認識結果７に対しての対立候補
１０を記憶している対立候補記憶手段９を参照して、対
立候補１０の音声標準モデル１２を生成し、対立候補照
合手段１３は、対立候補１０の音声標準モデル１２から
対立候補１０の各音素の継続時間長１４を求め、再検定
手段１７は、予め推定し平均継続時間長記憶手段１５に
記憶した平均継続時間長１６と、尤度最大基準で決定さ
れる認識結果７の音素の継続時間長データ８と、対立候
補１０の音素の継続時間長データ１４とに基づいて認識
結果１８を出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、連続発声された音声
を認識する装置の改良に関する。

【０００２】

【従来の技術】音声認識で有効な方式であるleft-to-ri
ght型のＨＭＭ(Hidden Markov Model)は図４の基本ＨＭ
Ｍの動作を説明する説明図に示すように幾つかの状態Ｓ
iと状態間を結ぶアークによって構成される。図４のａi
jは状態ｉからｊへのアーク遷移確率、ｂij(Ｘ)はｉか
らｊへのアーク上での音声の特徴ベクトルＸの出力確率
である。ＨＭＭを用いた音声認識は、予め必要なカテゴ
リ数だけモデルを用意しておき、未知の入力音声特徴ベ
クトルに対してその尤度を最大にするカテゴリを認識結
果とするものである。基本ＨＭＭでは状態ｉにｎ時間留
まる確率は次の数式１で与えられ、ｎと共に指数関数的
に減少する。

【０００３】

【数１】

【０００４】母音等の音声の定常区間は類似した音響特
徴が連続する現象がある。このような定常区間では対応
する状態に長く留まるのが理想であり、数式１はこれを
うまく表現していない。これはＨＭＭの大きな欠点の一
つであった。このため文献“確率モデルによる音声認
識”（中川聖一著、電子情報通信学会、平成４年４月１
日３版発行）で述べられている解決法としては、（１）
状態数を多くする方法、（２）後処理法、（３）継続時
間分布モデルを導入する方法がある。（１）の状態数を
多くする方法は、母音等の定常区間に対応する入力音声
には数多くの状態を対応させるものであり、例えば子音
区間には１〜３状態、母音区間には３〜８状態を対応さ
せる方法である。（２）の後処理法は、間接的に継続時
間を制御する方法である。これはビタビ演算によって最
適状態遷移系列を求めた後で、状態ｉに留まった継続時
間長からその継続時間の尤度を求めて、最適状態系列の
尤度に加えることで尤度を補正する方法である。（３）
の継続時間分布モデルを導入する方法は、音声の継続時
間長の確率分布モデルを最適状態遷移系列を求めるビタ
ビ演算中に組み入れて尤度の算出を行うことにより継続
時間を制御する方法である。確率分布としては、予め学
習によって推定された平均値、分散値で定義しているポ
アソン分布やガンマ分布を用いる。

【０００５】図５は、これらの手法に基づく連続分布型
音素ＨＭＭを用いた音声認識装置の構成図の一例であ
る。図５において、１は音声の入力信号、２は入力信号
１を入力して音響分析を行なう音響分析手段、３は音響
分析手段２が出力する音声特徴ベクトル時系列、４は音
声標準モデルとして、学習用音声データを用いて学習し
た音素ＨＭＭと、その継続時間パラメータであるところ
の音素継続時間の平均と分散とが格納されている音声標
準モデル記憶手段、５は音声標準モデル記憶手段４から
入力する音声標準モデル、６は音声特徴ベクトル時系列
３と音声標準モデル５とを入力して、ビタビ演算によっ
て最適状態遷移系列を求め、尤度が最大である単語を認
識結果７として出力する照合手段である。

【０００６】次に動作について、連続分布型音素ＨＭＭ
による音声認識の場合を例にとり説明する。認識対象語
彙であるところの単語のモデルは音素ＨＭＭの連鎖の記
述で表現され、１音素に対し１状態が割り当てられてい
る。入力信号１は音響分析手段２によって音響分析さ
れ、音声特徴ベクトル時系列３に変換されて照合手段６
に入力される。照合手段６は、音声特徴ベクトル時系列
３に対して、前記音声標準モデル記憶手段４の出力であ
る音声標準モデル５を用いて生成した認識語彙の単語を
表す音素ＨＭＭの連鎖に従い、各単語に対する最適状態
遷移系列をビタビ演算により求め、この単語尤度が最大
となる音素ＨＭＭの連鎖を音素ラベル列に変換したもの
を尤度最大基準の認識結果７として出力する。前記文献
で述べている継続時間分布モデルを導入したビタビ演算
を下式に示す。

【０００７】

【数２】

【０００８】ここで、ｒiは時間０における状態ｉの確
率、Ｉfは時間Ｔの時に留まっている状態の集合であ
る。ｆ(i,t)は時刻ｔにおける状態ｉの尤度、ａij は状
態ｉからｊへの遷移確率、ｂij(ｙt)は状態ｉからｊへ
のアーク上での時間ｔにおける音声特徴ベクトルｙの出
力確率、ｄi（τ）は状態ｉに留まる継続時間長τに対
する尤度であり、確率分布モデルを用いる。確率分布と
しては、音声標準モデル記憶手段５に記憶されている平
均値、分散値によって定義されているポアソン分布やガ
ンマ分布を用いる。この継続時間長の平均値、分散値
は、学習によって予め推定された値である。αは継続時
間長尤度とそれ以外の尤度との整合をとるための重み付
け係数である。認識対象の単語を表す音素ＨＭＭの連鎖
に対して以上の処理をそれぞれ行い、Ｌが最大である単
語を尤度最大基準の認識結果７として出力する。Ｌが最
大の単語に関して各ｆ(i,t)毎でmaxを与えたｉをポイン
タとして保存しておいて、逆時間方向へたどってｉT,ｉ
T-1,...,ｉ0を求めれば、最適パスの状態系列がＳi0,Ｓ
i2,...,Ｓitとして求まり、各音素の継続時間長が得ら
れる。例えば最適パスの状態系列がＳ1,Ｓ1,Ｓ1,Ｓ2,Ｓ
3,Ｓ3であったなら、継続時間長は第１音素が３、第２
音素が１、第３音素が２となる。以上の動作により、音
声認識が実行され、その認識結果が得られる。

【０００９】

【発明が解決しようとする課題】従来の音声認識装置で
は、照合手段で継続時間長の尤度を求めるために用いる
音声標準モデルの継続時間長の平均値、分散値等のパラ
メータは、学習用音声データによって得られた固定値で
あるため、入力される音声の発声速度が学習用の平均的
なデータに比べ極端に速い、または遅い場合には、認識
性能が著しく劣化するという問題点があった。

【００１０】この発明は上記のような問題点を解決する
ためになされたものであり、発声速度が平均より速い、
又は遅い場合にも高い認識率を有する音声認識装置を得
ることを目的としている。

【００１１】

【課題を解決するための手段】この発明に係る音声認識
装置は、入力音声の音響分析を行なって得られた音声の
音響特徴ベクトル時系列に対して、予め用意した音声標
準モデルを用いて認識結果を決定する音声認識装置にお
いて、前記音響特徴ベクトル時系列を入力し、この入力
した前記音響特徴ベクトル時系列に対して尤度が最大で
ある前記音声標準モデルを選択して出力するとともに、
この選択した前記音声標準モデルを用いて前記音響特徴
ベクトル時系列を音声素片に分解し、この分解した各音
声素片の継続時間長を求める照合手段と、前記認識結果
に対する対立候補を予め記憶する対立候補記憶手段と、
前記照合手段が選択して出力した前記音声標準モデルと
前記対立候補記憶手段に記憶された前記対立候補とに基
づいて前記対立候補の音声標準モデルを生成する対立候
補音声標準モデル生成手段と、この生成した前記対立候
補の音声標準モデルと前記音響特徴ベクトル時系列とを
入力し、この入力した前記対立候補の音声標準モデルを
用いて前記音響特徴ベクトル時系列を音声素片に分解
し、この分解した各音声素片の継続時間長を求める対立
候補照合手段と、予め推定した音声素片の平均継続時間
長を記憶する平均継続時間長記憶手段と、前記照合手段
により求めた継続時間長と前記対立候補照合手段により
求めた継続時間長と前記平均継続時間長記憶手段に記憶
された平均継続時間長とに基づいて前記認識結果を決定
する再検定手段とを備えたものである。

【００１２】

【作用】この発明に係る音声認識装置において、前記照
合手段は、音響特徴ベクトル時系列に対して尤度が最大
である音声標準モデルを選択して出力するとともに、こ
の選択した音声標準モデルを用いて前記音響特徴ベクト
ル時系列を音声素片に分解し、この分解した各音声素片
の継続時間長を求める。前記対立候補音声標準モデル生
成手段は、前記照合手段が選択して出力した尤度最大基
準の音声標準モデルを用い、この音声標準モデルに対し
ての対立候補を前記対立候補記憶手段から入力し、対立
候補の音声標準モデルを生成する。前記対立候補照合手
段は、前記対立候補の音声標準モデルを用いて前記音響
特徴ベクトル時系列を音声素片に分解し、前記対立候補
の音声素片の継続時間長を求める。前記再検定手段は、
前記照合手段により求めた継続時間長と前記対立候補照
合手段により求めた継続時間長と前記平均継続時間長記
憶手段に予め記憶された平均継続時間長とに基づいて前
記認識結果を決定する。

【００１３】

【実施例】

実施例１．図１はこの発明の一実施例を示す音声認識装
置の構成図である。従来例と同様のものは同じ符号を付
し説明を省略する。６は音響特徴ベクトル時系列３を入
力し、この入力した音響特徴ベクトル時系列３に対して
尤度が最大である音声標準モデル５を選択し、この選択
した音声標準モデル５の連鎖を音素ラベルで表した尤度
最大基準の認識結果７を出力するとともに、選択した音
声標準モデル５を用いて音響特徴ベクトル時系列３を音
素に分解し、この分解した各音素の尤度最大基準の継続
時間長データ８を求める照合手段、９は認識誤りを生じ
易い単語、又は単語列の対である対立候補１０を記憶し
ている対立候補記憶手段、１１は照合手段６の出力であ
る尤度最大基準の認識結果７を入力し、対立候補１０と
音声標準モデル５とを参照することで対立候補１０の音
声標準モデル１２を生成する対立候補音声標準モデル生
成手段、１３は対立候補音声標準モデル生成手段１１に
より出力される対立候補１０の音声標準モデル１２と音
響特徴ベクトル時系列３とを入力し、対立候補１０の音
声標準モデル１２である音素ＨＭＭの連鎖に従ってビタ
ビ演算によって最適状態遷移系列を求め、対立候補１０
の各音素の継続時間長データ１４を出力する対立候補照
合手段、１５は予め推定した音素の平均継続時間長１６
を記憶している平均継続時間長記憶手段、１７は照合手
段６より出力される尤度最大基準の継続時間長データ８
と、対立候補照合手段１３より出力される対立候補１０
の継続時間長データ１４と、平均継続時間長記憶手段１
５に記憶された平均継続時間長１６とを入力し、平均継
続時間長１６と尤度最大基準の継続時間長データ８の比
と、平均継続時間長１６と対立候補１０の継続時間長デ
ータ１４の比とを比較することにより再検定認識結果１
８を決定する継続時間長による再検定手段である。

【００１４】次に動作について説明する。但し従来例と
同様な処理を行なう部分については説明を省略する。対
立候補音声標準モデル生成手段１１は、照合手段６によ
り尤度最大基準で決定された音素ＨＭＭの連鎖を音素ラ
ベルに変換した尤度最大基準の認識結果７に対して、対
立候補記憶手段９と音声標準モデル記憶手段４を参照す
ることで対立候補１０の音声標準モデル１２を生成す
る。対立候補記憶手段９は、上述のように予め誤り易い
単語、又は単語列の対を記憶しておくものであり、例え
ば、桁用語を含んだ連続数字の場合では、図２に示す対
立候補を音素ラベル表記で保持している。図２の左側に
記されている単語、又は単語列が尤度最大基準の認識結
果７内に含まれているならば、図２の右側に記されてい
る単語、又は単語列に置き換えたものが対立候補１０と
なる。例えば、尤度最大基準の認識結果７が■seN hjak
u■であった場合は、■hjaku■の部分を■ni hjaku■で
置き換えた■seN ni hjaku■が対立候補１０の音素ラベ
ルとなり、この対立候補１０の音素ラベルを音素ＨＭＭ
の連鎖の記述で表した音声標準モデル１２が対立候補音
声標準モデル生成手段１１の出力となる。

【００１５】対立候補照合手段１３は、音声特徴ベクト
ル時系列３に対し対立候補音声標準モデル生成手段１１
によって出力される対立候補１０の音声標準モデル１２
の音素ＨＭＭの連鎖に従い、ビタビ演算によって対立候
補１０の最適状態遷移系列を求め、対立候補１０の音素
の継続時間長データ１４を出力する。ビタビ演算は例え
ば前記数式２に示されている処理を行う。前記数式２を
用いたビタビ演算では、各音素の継続時間長は各ｆ(i,
t)毎でmaxを与えたｉをポインタとして保存しておい
て、逆時間方向へたどってｉT,ｉT-1,...,ｉ0を求め、
最適パスの状態系列Ｓi0,Ｓi2,...,Ｓitを得ることで抽
出される。

【００１６】再検定手段１７は、照合手段６より出力さ
れる尤度最大基準の継続時間長データ８と、対立候補照
合手段１３より出力される対立候補１０の継続時間長デ
ータ１４と、平均継続時間長記憶手段１５に記憶された
平均継続時間長１６とを入力し、平均継続時間長１６と
尤度最大基準の継続時間長データ８の比と、平均継続時
間長１６と対立候補１０の継続時間長データ１４の比と
を比較することにより再検定認識結果１８を出力する。
再検定認識結果１８の決定は次式によって算出される数
値α及びβの大小関係で行う。α≦βなら照合手段６の
出力である尤度最大基準の認識結果７を、またα＞βで
あるなら対立候補１０の音声標準モデル１２を再検定認
識結果１８として出力する。

【００１７】

【数３】

【００１８】ここでＵαは、尤度最大基準での認識結果
７の音素中で尤度最大基準の継続時間長データ８が対立
候補１０の音素の継続時間長データ１４と異なる音素の
集合、Ｕβは、対立候補１０の音素中で継続時間長デー
タ１４が尤度最大基準の継続時間長データ８と異なる音
素の集合、Ｕvは、Ｕα、Ｕβの前後の数個の音素であ
り、その継続時間長が尤度最大基準での認識結果７と対
立候補１０において同一のものの集合、ｄiは音素ｉの
継続時間長、Ｄiは予め推定されている音素ｉの平均継
続時間長である。

【００１９】図３に例をあげて説明する。この例は入力
音声は■seN ni hjaku■であるが、尤度最大基準では■
seN hjaku■（図３(a)）と認識された場合である。この
とき対立候補音声標準モデル生成手段１１によって対立
候補として■seN ni hjaku■（図３(b)）という音声標
準モデル１２が生成される。ここで上述した定義によっ
てＵαに属する音素としては図３(a)におけるＮ、ｈ、
ｊ、またＵβに属する音素としては、図３(b)における
Ｎ、ｎ、ｉ、ｈ、ｊが抽出される。また、図３(a),(b)
では数式４で定義されているところの、予め推定された
音素ｉの平均継続時間長Ｄiと、音素ｉの継続時間長ｄi
との比をプロットしている。

【００２０】

【数４】

【００２１】数式４の値が１に近い程、予め推定されて
いた継続時間長に近いことになり、継続時間長に対する
尤度は大きくなる。従って、従来方法では図３の例の場
合、図３(b)が正解であるにもかかわらず図３(a)の方が
継続時間長の尤度が大きくなってしまい、図３(a)と誤
認識する。これは、入力音声の発話速度が学習データの
平均発話速度より速いために生じる。すなわち、図３
(a)のように■ni■を欠落させた候補の方が音素の数が
少ないので、図３(b)の■ni■の前後にあたる数個の音
素（図３(a)の例では、Ｎ、ｈ、ｊ）に割り当てられる
継続時間長が図３(b)のＮ、ｈ、ｊより長くなり、結果
として図３(b)の場合よりも尤度が大きくなる。これ
に対しこの実施例では、尤度最大基準の認識結果７及び
対立候補１０の音声標準モデル１２を構成する音素の正
規化継続時間長のばらつきの度合いを前記数式３によっ
て求め、再検定を行うものである。正規化継続時間長
は、入力音声と学習データの平均発話速度との比を表し
ており、一発話中では各音素毎の正規化継続時間はあま
りばらつかないという性質を利用したものである。図３
のような継続時間長の場合には前記数式３は図３(b)が
(a)よりも小さな値を示す。従って対立候補１０の音声
標準モデル１２である■seN ni hjaku■が再検定認識結
果１８として出力され正しい認識結果が得られる。

【００２２】以上のように、対立候補音声標準モデル生
成手段１１は、尤度最大基準で決定される認識結果７に
対しての対立候補を記憶している対立候補記憶手段９を
参照し、対立候補１０の音声標準モデル１２を生成し、
対立候補照合手段１３は、対立候補１０の各音素の継続
時間長データ１４を求め、再検定手段１７は、予め推定
した音素の平均継続時間長１６と尤度最大基準で決定さ
れる認識結果７の音素の継続時間長データ８の比と、前
記平均継続時間長１６と対立候補１０の音素の継続時間
長データ１４の比を比較して再検定認識結果１８を出力
するようにしたので、発声が速い、または遅い場合の継
続時間長の尤度の不整合による認識誤りを再検定でき、
認識精度の向上が得られる。

【００２３】実施例２．実施例１では、継続時間を抽出
する音声素片単位を音素としたが、音声素片は音素片、
音節、単語のいずれでも良い。

【００２４】実施例３．実施例１では、音素の正規化し
た継続時間長の値によって再検定を行なったが、音声の
スペクトル情報を加えた再検定を行なっても良い。

【００２５】実施例４．実施例１では、尤度最大基準の
認識結果に対して対立候補を生成する方法であったが、
尤度の大きい上位の単語に対して、対立候補の生成を行
ない、それらを再検定の対象とし、再検定認識結果を出
力するようにしても良い。

【００２６】

【発明の効果】この発明によれば、尤度最大基準で決定
される認識結果に対しての対立候補を記憶している対立
候補記憶手段を参照し、対立候補の音声標準モデルを生
成する対立候補音声標準モデル生成手段と、この生成し
た音声標準モデルの各音素の継続時間長を求める対立候
補照合手段と、前記尤度最大基準で決定される認識結果
の継続時間長、前記対立候補照合手段により求めた継続
時間長、及び、予め推定し平均継続時間長記憶手段に記
憶した平均継続時間長とに基づいて再検定認識結果を決
定する再検定手段とを備えたので、発声の速度が速い、
または遅い場合に生じる継続時間長の尤度の不整合によ
る誤認識を再検定でき、高精度の音声認識装置を得るこ
とができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す音声認識装置の機能
ブロック構成図である。

【図２】本発明の一実施例での対立候補記憶手段に記
憶されている対立候補の一例である。

【図３】本発明の一実施例での再検定手段を説明する
ための図である。

【図４】基本ＨＭＭの動作を説明する説明図である。

【図５】従来の音声認識装置の機能ブロック構成図で
ある。

【符号の説明】

１入力信号、２音響分析手段、３音声特徴ベクト
ル時系列、４音声標準モデル記憶手段、５音声標準
モデル、６照合手段、７尤度最大基準の認識結果、
８尤度最大基準の継続時間長データ、９対立候補記
憶手段、１０対立候補、１１対立候補音声標準モデル
生成手段、１２対立候補の音声標準モデル、１３対
立候補照合手段、１４対立候補の継続時間長データ、
１５平均継続時間長記憶手段、１６平均継続時間長、
１７再検定手段、１８再検定認識結果

Claims

【特許請求の範囲】

【請求項１】入力音声の音響分析を行なって得られた
音声の音響特徴ベクトル時系列に対して、予め用意した
音声標準モデルを用いて認識結果を決定する音声認識装
置において、前記音響特徴ベクトル時系列を入力し、この入力した前
記音響特徴ベクトル時系列に対して尤度が最大である前
記音声標準モデルを選択して出力するとともに、この選
択した前記音声標準モデルを用いて前記音響特徴ベクト
ル時系列を音声素片に分解し、この分解した各音声素片
の継続時間長を求める照合手段と、前記認識結果に対する対立候補を予め記憶する対立候補
記憶手段と、前記照合手段が選択して出力した前記音声標準モデルと
前記対立候補記憶手段に記憶された前記対立候補とに基
づいて前記対立候補の音声標準モデルを生成する対立候
補音声標準モデル生成手段と、この生成した前記対立候補の音声標準モデルと前記音響
特徴ベクトル時系列とを入力し、この入力した前記対立
候補の音声標準モデルを用いて前記音響特徴ベクトル時
系列を音声素片に分解し、この分解した各音声素片の継
続時間長を求める対立候補照合手段と、予め推定した音声素片の平均継続時間長を記憶する平均
継続時間長記憶手段と、前記照合手段により求めた継続時間長と前記対立候補照
合手段により求めた継続時間長と前記平均継続時間長記
憶手段に記憶された平均継続時間長とに基づいて前記認
識結果を決定する再検定手段とを備えたことを特徴とす
る音声認識装置。