JPH09127977A

JPH09127977A - 音声認識方法

Info

Publication number: JPH09127977A
Application number: JP28031495A
Authority: JP
Inventors: Takashi Miki; 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-10-27
Filing date: 1995-10-27
Publication date: 1997-05-16
Anticipated expiration: 2015-10-27
Also published as: JP3251480B2

Abstract

(57)【要約】【課題】音声認識において、ヒドンマルコフモデルと
音声特徴ベクトルとの間の尤度算出を、認識精度を劣化
させずに簡略に行なう。【解決手段】尤度として前向き確率Ｃ_itを求めるに当
り、現フレーム番号ｔの音声特徴ベクトルｘ_t と基準フ
レーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄ
ｔｓが閾値ＤＴＳを越える場合は、出力確率Ｂ_ji(x_t)を
ヒドンマルコフモデルから求め、参照確率Ｂ_jiを当該出
力確率Ｂ_ji(x_t)に書き換えた後に、参照確率Ｂ_jiを読み
出して前向き確率Ｃ_itを求める。距離ｄｔｓが閾値ＤＴ
Ｓ以下となる場合は、これらベクトルｘ_t 、ｘ_qsが近似
するので、現フレーム番号ｔの出力確率Ｂ_ji(x_t)を参照
確率Ｂ_jiで近似できる。そこでこの場合は、参照確率Ｂ
_jiを書き換えずに、従って現フレーム番号ｔの出力確率
Ｂ_ji(x_t)をヒドンマルコフモデルから求める演算を行な
わずに、参照確率Ｂ_jiを読み出して前向き確率Ｃ_itを求
める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、認識照合用の標
準パタンにヒドンマルコフモデルを用いた音声認識方法
に関する。

【０００２】

【従来の技術】ヒドンマルコフモデル（Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ。以下、ＨＭＭ）は、音声パ
タンのような発声速度に伴う時間変動、発声の個人差や
調音結合などの揺らぎを含むパタンを適切に表現でき、
このため音声認識の分野において広く用いられている。
音声認識で用いるＨＭＭは、いくつかの状態例えばＳ₀
〜Ｓ₃ と、状態Ｓ_i から状態Ｓ_j に遷移する確率ａ_ij及
びその遷移の際に出力される音声特徴ベクトルｘの出力
確率ｂ_ij(x) を有し、一般に、出力確率ｂ_ij(x)を、複
数個の正規分布から成る無相関混合正規分布で表現す
る。

【０００３】ＨＭＭを用いた音声認識方法では、音声信
号から、音声区間の各フレーム毎に音声特徴ベクトルｘ
_t を抽出し、次いで音声特徴ベクトルｘ_t の出力確率ｂ
_ij(x_t)を求める。出力確率ｂ_ij(x_t)として、典型的に
は、ｂ_ij(x_t)＝Σ｛λ_ijm ｂ_ijm(x_t) ｝を算出する。こ
こで、λ_ijm は無相関混合正規分布における第ｍ番目の
正規分布の重み、ｂ_ijm(x_t) は無相関混合正規分布にお
ける第ｍ番目の正規分布から求めた音声特徴ベクトルｘ
_t の出力確率（重み付け無しの出力確率）を表す。

【０００４】そして音声区間の始端フレームから終端フ
レームまでに抽出された音声特徴ベクトルｘ_t の時系列
とＨＭＭとの間の尤度を、各音声特徴ベクトルｘ_t の出
力確率ｂ_ij(x_t)を用いて、求める。標準パタンとして用
意された各ＨＭＭ毎に尤度を求め、最大の尤度を得たＨ
ＭＭに付与されているカテゴリを認識結果とする。

【０００５】

【発明が解決しようとする課題】しかしながら音声特徴
ベクトルｘ_t の出力確率ｂ_ij(x_t)＝Σ｛λ_ijm ｂ
_ijm(x_t) ｝を求めるには膨大な計算が必要であり、従っ
て音声特徴ベクトルｘ_t の時系列とＨＭＭとの尤度を高
速に求めることは難しい。

【０００６】このため、音声特徴ベクトルｘ_t の出力確
率ｂ_ij(x_t)を、誤差を抑えつつ、より簡略に求めること
が望まれていた。

【０００７】

【課題を解決するための手段】前述の課題を解決するた
め、請求項１〜８の発明の音声認識方法はそれぞれ、音
声区間の始端フレームから終端フレームまでに抽出され
た音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、ｘ_T と
ヒドンマルコフモデルとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ
₂ 、……、ｘ_T ）｝を求め、最大の尤度を得たヒドンマ
ルコフモデルに付与されているカテゴリを、当該音声区
間内の音声信号に対する認識結果とする音声認識方法に
おいて、

【０００８】

【数４】

【０００９】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉで示される各式を用いて尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝を求めるに当り、次の如く処理を行なうこ
とを特徴とする。

【００１０】＜請求項１〜２の発明＞すなわち、請求項
１の発明の音声認識方法にあっては、基準フレーム番号
ｑｓと参照確率ｂ_jiとを格納する記憶部を設け、参照確
率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの各場合の前向
き確率ｃ_itを順次に求める。

【００１１】そして（１）．ｔ＝１のときは、基準フレ
ーム番号ｑｓを１に初期化すると共に、全てのｊ、ｉに
ついて、出力確率ｂ_ji(x_t)をヒドンマルコフモデルから
求め当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値とし
て書き込み、参照確率ｂ_jiの書込み終了後に各参照確率
ｂ_jiを読み出して前向き確率ｃ_itを求める処理（１Ａ）
と、処理（１Ａ）の終了後、現フレーム番号ｔに１を加
算する処理（１Ｂ）とを行なう。

【００１２】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と基準フレーム番号ｑｓ
の音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを閾値ＤＴ
Ｓと比較し、当該比較結果がｄｔｓ＞ＤＴＳとなる場合
に、基準フレーム番号ｑｓを現フレーム番号ｔに書き換
えると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)
をヒドンマルコフモデルから求めて参照確率ｂ_jiを当該
出力確率ｂ_ji(x_t)に書き換え、該参照確率ｂ_jiの書換え
終了後に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを
求め、当該比較結果がｄｔｓ≦ＤＴＳとなる場合に、参
照確率ｂ_jiの書き換えを行なわずに各参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求める処理（１Ｃ）と、処理
（１Ｃ）の終了後、現フレーム番号ｔに１を加算する処
理（１Ｄ）とを行なう。

【００１３】このように請求項１の発明では、参照確率
ｂ_jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率ｂ_ji(x₁)とし、基準フレーム番号ｑ
ｓの初期値を、始端フレームのフレーム番号１とする。

【００１４】そして現フレーム番号ｔの音声特徴ベクト
ルｘ_t と基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
との間の距離ｄｔｓを閾値ＤＴＳと比較する。ｄｔｓ＞
ＤＴＳの場合は、基準フレーム番号ｑｓの書換えと参照
確率ｂ_jiの書換えとを行ない、書き換えた参照確率ｂ_ji
を読み出して前向き確率ｃ_itを求める。ｄｔｓ≦ＤＴＳ
の場合は、基準フレーム番号ｑｓの書換えと参照確率ｂ
_jiの書換えとは行なわず、書換えを行なわなかった参照
確率ｂ_jiを読み出して前向き確率ｃ_itを求める。

【００１５】従って記憶部に格納される参照確率ｂ
_jiは、基準フレーム番号ｑｓのフレームでヒドンマルコ
フモデルから求めた出力確率ｂ_ji(x_t)である。

【００１６】そしてｄｔｓ＞ＤＴＳの場合は、距離ｄｔ
ｓが閾値ＤＴＳを越えるので現フレーム番号ｔの音声特
徴ベクトルｘ_t が書換え前の基準フレーム番号ｑｓの音
声特徴ベクトルｘ_qsに近似しない場合であり、従って現
フレーム番号ｔの出力確率ｂ_ji(x_t)は、書換え前の基準
フレーム番号ｑｓの出力確率ｂ_ji(x_qs) すなわち参照確
率ｂ_jiで近似できない。そこで参照確率ｂ_jiを、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)に書き換え、この書き換
えた参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。また参照確率ｂ_jiを、現フレーム番号ｔの出力確率
ｂ_ji(x_t)に書き換えるので、基準フレーム番号ｑｓを現
フレーム番号ｔに書き換える。

【００１７】ｄｔｓ≦ＤＴＳの場合は、距離ｄｔｓが閾
値ＤＴＳ以下となるので現フレーム番号ｔの音声特徴ベ
クトルｘ_t と書換えを行なわない基準フレーム番号ｑｓ
の音声特徴ベクトルｘ_qsとが近似的に等しくなる場合で
あり、従って現フレーム番号ｔの出力確率ｂ_ji(x_t)は、
基準フレーム番号ｑｓの出力確率ｂ_ji(x_qs) すなわち参
照確率ｂ_jiに近似的に等しくなる。そこで参照確率ｂ_ji
の書換えを行なわずに、参照確率ｂ_jiを読み出して前向
き確率ｃ_itを求める。また参照確率ｂ_jiの書換えを行な
わないので、基準フレーム番号ｑｓの書換えを行なわな
い。

【００１８】このようにｄｔｓ＞ＤＴＳの場合は、参照
確率ｂ_jiの書換えを行なった後に、従って現フレーム番
号ｔの出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求
める演算を行なった後に、参照確率ｂ_jiを読み出して前
向き確率ｃ_itを求める。さらに距離ｄｔｓ≦閾値ＤＴＳ
の場合は、参照確率ｂ_jiの書換えを行なわずに、従って
現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマルコフ
モデルから求める演算を行なわずに、参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求めるので、前向き確率ｃ_it
の誤差を抑えつつ、演算量を減少させることができる。

【００１９】この場合の前向き確率ｃ_itの誤差とは、ｄ
ｔｓ≦ＤＴＳの場合に出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求める演算を行なわずに得た前向き確率ｃ
_itと、そのような演算の簡略化を行なわずに得た前向き
確率ｃ_itとの差である。

【００２０】閾値ＤＴＳを大きくするに従って、演算の
削減量は増えるが、前向き確率ｃ_itの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率ｃ
_itを求めることができるように、閾値ＤＴＳの値を定め
る必要がある。

【００２１】また請求項２の発明の音声認識方法にあっ
ては、請求項１の発明の音声認識方法において、次の如
く処理を行なう。

【００２２】（１）．ｔ＝１のときは、基準フレーム番
号ｑｓを１に、及び、スキップ数ｓｋｉｐｓを０に初期
化すると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x
_t)をヒドンマルコフモデルから求め当該出力確率ｂ_ji(x
_t)を参照確率ｂ_jiの初期値として書き込み、参照確率ｂ
_jiの書込み終了後に各参照確率ｂ_jiを読み出して前向き
確率ｃ_itを求める処理（１Ａ）と、処理（１Ａ）の終了
後、現フレーム番号ｔに１を加算する処理（１Ｂ）とを
行なう。

【００２３】（２）．２≦ｔ≦Ｔのときは、スキップ数
ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共に、現フ
レーム番号ｔの音声特徴ベクトルｘ_t と基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを閾
値ＤＴＳと比較し、当該比較結果がｓｋｉｐｓ＞ＮＳＫ
ＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場合に、スキップ
数ｓｋｉｐｓを０に初期化し、及び、基準フレーム番号
ｑｓを現フレーム番号ｔに書き換えると共に、全ての
ｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフモ
デルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x_t)に
書き換え、該参照確率ｂ_jiの書換え終了後に各参照確率
ｂ_jiを読み出して前向き確率ｃ_itを求め、当該比較結果
がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳとなる
場合に、スキップ数ｓｋｉｐｓに１を加算すると共に、
参照確率ｂ_jiの書換えを行なわずに各参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求める処理（１Ｃ）と、処理
（１Ｃ）の終了後、現フレーム番号ｔに１を加算する処
理（１Ｄ）とを行なう。

【００２４】このように請求項２の発明では、参照確率
ｂ_jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率ｂ_ji(x₁)とし、基準フレーム番号ｑ
ｓの初期値を、始端フレームのフレーム番号１とし、ス
キップ数ｓｋｉｐｓの初期値を０とする。

【００２５】そしてスキップ数ｓｋｉｐｓを閾値ＮＳＫ
ＩＰＳと比較すると共に、現フレーム番号ｔの音声特徴
ベクトルｘ_t と基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsとの間の距離ｄｔｓを閾値ＤＴＳと比較する。ｓ
ｋｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳの場合
は、スキップ数ｓｋｉｐｓの初期化と基準フレーム番号
ｑｓの書換えと参照確率ｂ_jiの書換えとを行ない、書き
換えた参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳの場
合は、スキップ数ｓｋｉｐｓのカウントアップを行な
い、基準フレーム番号ｑｓの書換えと参照確率ｂ_jiの書
換えとは行なわず、書換えを行なわなかった参照確率ｂ
_jiを読み出して前向き確率ｃ_itを求める。

【００２６】従って記憶部に格納される参照確率ｂ
_jiは、基準フレーム番号ｑｓのフレームでヒドンマルコ
フモデルから求めた出力確率ｂ_ji(x_t)である。

【００２７】そしてｄｔｓ＞ＤＴＳの場合は、距離ｄｔ
ｓが閾値ＤＴＳを越えるので現フレーム番号ｔの音声特
徴ベクトルｘ_t が書換え前の基準フレーム番号ｑｓの音
声特徴ベクトルｘ_qsに近似しない場合であり、従って現
フレーム番号ｔの出力確率ｂ_ji(x_t)を、書換え前の基準
フレーム番号ｑｓの出力確率ｂ_ji(x_qs) すなわち参照確
率ｂ_jiで近似できない。そこで参照確率ｂ_jiを、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)に書き換え、この書き換
えた参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。また参照確率ｂ_jiを、現フレーム番号ｔの出力確率
ｂ_ji(x_t)に書き換えるので、基準フレーム番号ｑｓを現
フレーム番号ｔに書き換える。スキップ数ｓｋｉｐｓ
は、ｓｋｉｐｓ≦ＮＳＫＩＰＳとなる範囲内で参照確率
ｂ_jiの書換えを行なわなかった回数を表すものであるの
で、スキップ数ｓｋｉｐｓを初期化する。

【００２８】ｓｋｉｐｓ＞ＮＳＫＩＰＳの場合は、参照
確率ｂ_jiの書換えを行なわなかった回数ｓｋｉｐｓが閾
値ＮＳＫＩＰＳを越えるので現フレーム番号ｔと基準フ
レーム番号ｑｓとの時間的隔たりが大きくなり、従って
誤差が増大する可能性が高い。そこで誤差を低減すべ
く、参照確率ｂ_jiの書換えを行なう。従って参照確率ｂ
_jiを、現フレーム番号ｔの出力確率ｂ_ji(x_t)に書き換え
るので、基準フレーム番号ｑｓを現フレーム番号ｔに書
き換える。またスキップ数ｓｋｉｐｓは、ｓｋｉｐｓ≦
ＮＳＫＩＰＳとなる範囲内で参照確率ｂ_jiの書換えを行
なわなかった回数を表すものであるので、スキップ数ｓ
ｋｉｐｓを初期化する。

【００２９】ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦Ｄ
ＴＳの場合は、ｄｔｓ≦ＤＴＳであるので現フレーム番
号ｔの音声特徴ベクトルｘ_t と書換えを行なわない基準
フレーム番号ｑｓの音声特徴ベクトルｘ_qsとが近似的に
等しくなる場合であり、従って現フレーム番号ｔの出力
確率ｂ_ji(x_t)は、書換えを行なわない基準フレーム番号
ｑｓの出力確率ｂ_ji(x_qs) すなわち参照確率ｂ_jiに近似
的に等しくなる。しかもｓｋｉｐｓ≦ＮＳＫＩＰＳであ
り、従って参照確率ｂ_jiの書換えを行なわなかった回数
ｓｋｉｐｓが閾値ＮＳＫＩＰＳ以下であるので現フレー
ム番号ｔと基準フレーム番号ｑｓとの時間的隔たりが小
さく、従って誤差が増大する可能性は低い。そこで参照
確率ｂ_jiの書換えを行なわずに、参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める。従って参照確率ｂ_jiの書
換えを行なわないので、基準フレーム番号ｑｓの書換え
を行なわない。またスキップ数ｓｋｉｐｓは、ｓｋｉｐ
ｓ≦ＮＳＫＩＰＳとなる範囲内で参照確率ｂ_jiの書換え
を行なわなかった回数を表すものであるので、スキップ
数ｓｋｉｐｓに１を加算してスキップ数ｓｋｉｐｓをカ
ウントアップする。

【００３０】このようにｓｋｉｐｓ＞ＮＳＫＩＰＳ若し
くはｄｔｓ＞ＤＴＳの場合は、参照確率ｂ_jiの書換えを
行なった後に、従って現フレーム番号ｔの出力確率ｂ_ji
(x_t)をヒドンマルコフモデルから求める演算を行なった
後に、参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。さらにｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴ
Ｓの場合は、参照確率ｂ_jiの書換えを行なわずに、従っ
て現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求める演算を行なわずに、参照確率ｂ_jiを
読み出して前向き確率ｃ_itを求めるので、前向き確率ｃ
_itの誤差を抑えつつ、演算量を減少させることができ
る。

【００３１】この場合の前向き確率ｃ_itの誤差とは、ｓ
ｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳの場合に出
力確率ｂ_ji(x_t)をヒドンマルコフモデルから求める演算
を行なわずに得た前向き確率ｃ_itと、そのような演算の
簡略化を行なわずに得た前向き確率ｃ_itとの差である。

【００３２】閾値ＤＴＳを大きくするに従って、演算の
削減量は増えるが、前向き確率ｃ_itの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率ｃ
_itを求めることができるように、閾値ＤＴＳの値を定め
る必要がある。

【００３３】＜請求項３〜６の発明＞さらに請求項３の
発明の音声認識方法にあっては、ヒドンマルコフモデル
において遷移元となる状態Ｓ_j に、定常部及び過渡部の
いずれかの種別ｓを付与し、定常部基準フレーム番号ｑ
ｓ、過渡部基準フレーム番号ｑｔと、参照確率ｂ_jiとを
格納する記憶部を設け、該参照確率ｂ_jiを用いて、ｔ＝
１、２、……、Ｔの各場合の前向き確率ｃ_itを順次に求
める。

【００３４】そして（１）．ｔ＝１のときは、定常部基
準フレーム番号ｑｓ、過渡部基準フレーム番号ｑｔをそ
れぞれ１に初期化すると共に、全てのｊ、ｉについて、
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求め当該
出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書き込
み、参照確率ｂ_jiの書込み終了後に各参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求める処理（２Ａ）と、処理
（２Ａ）の終了後、現フレーム番号ｔに１を加算する処
理（２Ｂ）とを行なう。

【００３５】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と定常部基準フレーム番
号ｑｓの音声特徴ベクトル_qsとの間の距離ｄｔｓを閾値
ＤＴＳと比較し、比較結果がｄｔｓ＞ＤＴＳとなる場合
に、定常部基準フレーム番号ｑｓを現フレーム番号ｔに
書き換える処理（２Ｃ）と、現フレーム番号ｔの音声特
徴ベクトルｘ_t と過渡部基準フレーム番号ｑｔの音声特
徴ベクトルｘ_qtとの間の距離ｄｔｔを閾値ＤＴＴと比較
し、当該比較結果がｄｔｔ＞ＤＴＴとなる場合に、過渡
部基準フレーム番号ｑｔを現フレーム番号ｔに書き換え
る処理（２Ｄ）と、処理（２Ｃ）及び（２Ｄ）の終了
後、ｊ＝１、２、……、Ｊの各ｊ毎に、出力確率ｂ_ji(x
_t)を与える状態遷移の遷移元Ｓ_j に付与されている種別
ｓを判定する処理（２Ｅ）と、処理（２Ｅ）の種別判定
結果が定常部であった場合に、処理（２Ｃ）の比較結果
がｄｔｓ＞ＤＴＳであれば、当該種別判定結果を得たｊ
に関しては全てのｉについて、出力確率ｂ_ji(x_t)をヒド
ンマルコフモデルから求めて参照確率ｂ_jiを当該出力確
率ｂ_ji(x_t)に書き換え、処理（２Ｅ）の種別判定結果が
定常部であった場合に、処理（２Ｃ）の比較判定結果が
ｄｔｓ≦ＤＴＳであれば、当該種別判定結果を得たｊに
関しては参照確率ｂ_jiの書換えを行なわず、処理（２
Ｅ）の種別判定結果が過渡部であった場合に、処理（２
Ｄ）の比較結果がｄｔｔ＞ＤＴＴであれば、当該種別判
定結果を得たｊに関しては全てのｉについて、出力確率
ｂ_ji(x_t)をヒドンマルコフモデルから求めて参照確率ｂ
_jiを当該出力確率ｂ_ji(x_t)に書き換え、処理（２Ｅ）の
種別判定結果が過渡部であった場合に、処理（２Ｄ）の
比較判定結果がｄｔｔ≦ＤＴＴであれば、当該種別判定
結果を得たｊに関しては参照確率ｂ_jiの書換えを行なわ
ない処理（２Ｆ）と、ｊ＝１、２、……、Ｊの個々のｊ
毎に処理（２Ｆ）を行ない、全てのｊにつき前記処理
（２Ｆ）を終了したら、各参照確率ｂ_jiを読み出して前
向き確率ｃ_itを求める処理（２Ｇ）と、処理（２Ｇ）の
終了後、現フレーム番号ｔに１を加算する処理（２Ｈ）
とを行なう。

【００３６】このように請求項３の発明では、ｊ＝１、
２、……、Ｊの個々のｊ毎に、出力確率ｂ_ji(x_t)を与え
る状態遷移の、遷移元Ｓ_j に付与されている種別ｓを判
定する。

【００３７】種別ｓが定常部である場合は、定常部に関
わる距離ｄｔｓが閾値ＤＴＳを越えれば、当該種別を得
たｊに関しては、現フレーム番号ｔの出力確率ｂ_ji(x_t)
をヒドンマルコフモデルから求めそして参照確率ｂ_jiを
当該出力確率ｂ_ji(x_t)に書き換え、然る後に、参照確率
ｂ_jiを読み出して前向き確率ｃ_itを求める。また定常部
に関わる距離ｄｔｓが閾値ＤＴＳ以下であれば、当該種
別ｓを得たｊに関しては、参照確率ｂ_jiの書換えを行な
わずに、従って現フレーム番号ｔの出力確率ｂ_ji(x_t)を
ヒドンマルコフモデルから求めずに、参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求める。これがため種別ｓが
定常部であるという判定結果を得たｊに関し、前向き確
率ｃ_itの誤差を抑えつつ、演算量を減少させることがで
きる。

【００３８】この場合の前向き確率ｃ_itの誤差とは、種
別ｓが定常部であるという判定結果を得たｊに関して、
ｄｔｓ≦ＤＴＳの場合に出力確率ｂ_ji(x_t)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
ｃ_itと、そのような演算の簡略化を行なわずに得た前向
き確率ｃ_itとの間の差である。

【００３９】定常部に関わる距離ｄｔｓ、閾値ＤＴＳの
比較結果に応じて、参照確率ｂ_jiの書換えを行なうの
は、次の理由による。すなわちｄｔｓ＞ＤＴＳであれば
定常部基準フレーム番号ｑｓの書換えを行なうこととな
るが、ｄｔｓ＞ＤＴＳであるので現フレーム番号ｔの音
声特徴ベクトルｘ_t はこの書換え前の定常部基準フレー
ム番号ｑｓの音声特徴ベクトルｘ_qsに近似せず、従って
現フレーム番号ｔの音声特徴ベクトルｘ_t は定常部基準
フレーム番号ｑｓの音声特徴ベクトルｘ_qsからの変化が
大きいので、現フレーム番号ｔの出力確率ｂ_ji(x_t)を参
照確率ｂ_jiで近似することはできない。また距離ｄｔｓ
≦閾値ＤＴＳであれば定常部基準フレーム番号ｑｓの書
換えを行なわないこととなるが、ｄｔｓ≦ＤＴＳである
ので現フレーム番号ｔの音声特徴ベクトルｘ_t は書換え
を行なわない定常部基準フレーム番号ｑｓの音声特徴ベ
クトルｘ_qsと近似的に等しくなり、従って現フレーム番
号ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番号
ｑｓの音声特徴ベクトルｘ_qsからの変化が少ないので、
現フレーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで
近似することができる。

【００４０】同様に種別ｓが過渡部である場合は、過渡
部に関わる距離ｄｔｔが閾値ＤＴＴを越えれば、当該種
別ｓを得たｊに関しては、現フレーム番号ｔの出力確率
ｂ_ji(x_t)をヒドンマルコフモデルから求めそして参照確
率ｂ_jiを当該出力確率ｂ_ji(x _t)に書き換え、然る後に、
参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める。ま
た過渡部に関わる距離ｄｔｔが閾値ＤＴＴ以下であれ
ば、当該種別ｓを得たｊに関しては、参照確率ｂ_jiの書
換えを行なわずに、従って現フレーム番号ｔの出力確率
ｂ_ji(x_t)をヒドンマルコフモデルから求めずに、参照確
率ｂ_jiを読み出して前向き確率ｃ_itを求める。これがた
め種別ｓが過渡部であるという判定結果を得たｊに関
し、前向き確率ｃ_itの誤差を抑えつつ、演算量を減少さ
せることができる。

【００４１】この場合の前向き確率ｃ_itの誤差とは、種
別ｓが過渡部であるという判定結果を得たｊに関して、
ｄｔｔ≦ＤＴＴの場合に出力確率ｂ_ji(x_t)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
ｃ_itと、そのような演算の簡略化を行なわずに得た前向
き確率ｃ_itとの間の差である。

【００４２】過渡部に関わる距離ｄｔｔ、閾値ＤＴＴの
比較結果に応じて、参照確率ｂ_jiの書換えを行なうの
は、次の理由による。すなわちｄｔｔ＞ＤＴＴであれば
過渡部基準フレーム番号ｑｔの書換えを行なうこととな
るが、ｄｔｔ＞ＤＴＴであるので現フレーム番号ｔの音
声特徴ベクトルｘ_t はこの書換え前の過渡部基準フレー
ム番号ｑｔの音声特徴ベクトルｘ_qtに近似せず、従って
現フレーム番号ｔの音声特徴ベクトルｘ_t は過渡部基準
フレーム番号ｑｔの音声特徴ベクトルｘ_qtからの変化が
大きいので、現フレーム番号ｔの出力確率ｂ_ji(x_t)を参
照確率ｂ_jiで近似することはできない。また距離ｄｔｔ
≦閾値ＤＴＴであれば過渡部基準フレーム番号ｑｔの書
換えを行なわないこととなるが、ｄｔｔ≦ＤＴＴである
ので現フレーム番号ｔの音声特徴ベクトルｘ_t は書換え
を行なわない過渡部基準フレーム番号ｑｔの音声特徴ベ
クトルｘ_qtと近似的に等しくなり、従って現フレーム番
号ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番号
ｑｔの音声特徴ベクトルｘ_qtからの変化が小さいので、
現フレーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで
近似することができる。

【００４３】さらに請求項３の発明において、種別ｓが
定常部である場合の閾値ＤＴＳと種別ｓが過渡部である
場合の閾値ＤＴＴとをそれぞれ個別に設定する理由は、
次の理由に依る。

【００４４】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルｘ_t の変化は大き
いので、種別ｓが過渡部である場合に用いる閾値ＤＴＴ
を小さくすることにより、前向き確率ｃ_itの誤差を小さ
くすることが望まれる。

【００４５】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルｘ_t の変化は小
さいので、種別ｓが定常部である場合に用いる閾値ＤＴ
Ｓを大きくしても前向き確率ｃ_itの誤差を小さくするこ
とができる。閾値ＤＴＳを大きくすることは、演算量の
削減に寄与する。

【００４６】従って種別ｓが過渡部である場合に用いる
閾値ＤＴＴに値の小さいものを用いると共に、種別ｓが
定常部である場合に用いる閾値ＤＴＳに値の大きいもの
を用いることにより、より効果的に前向き確率ｃ_itの誤
差を小さくしつつ、演算量を削減することができる。

【００４７】また請求項４の発明の音声認識方法にあっ
ては、請求項３の発明の音声認識方法において、処理
（２Ｃ）及び（２Ｄ）の終了後、処理（２Ｅ）を行な
う。

【００４８】このように請求項４の発明では、ｄｔｓ、
ＤＴＳの比較結果に応じて定常部基準フレーム番号ｑｓ
を書き換える処理（２Ｃ）とｄｔｃ、ＤＴＣの比較結果
に応じて過渡部基準フレーム番号ｑｃを書き換える処理
（２Ｄ）とを行ない、然る後、現フレーム番号ｔの出力
確率ｂ_ji(x_t)を与える状態遷移の、遷移元Ｓ_j に付与さ
れている種別ｓを判定する処理（２Ｅ）を行なう。従っ
て定常部基準フレーム番号ｑｓの書換え処理（２Ｃ）と
過渡部基準フレーム番号ｑｃの書換え処理（２Ｄ）と
を、種別ｓの判定処理（２Ｅ）を行なう前に終了して、
ｊ＝１、２、……、Ｊの個々のｊ毎には行なわないの
で、処理量を減らすことができる。種別ｓの判定処理
（２Ｅ）を行なった後に、これら書換え処理（２Ｃ）、
（２Ｄ）を行なうようにすると、個々のｊ毎に、これら
書換え処理（２Ｃ）、（２Ｄ）を行なうこととなり処理
量が増える。

【００４９】尚、処理量は増えるが、請求項３の発明に
おいて、処理（２Ｅ）の終了後に、処理（２Ｃ）及び
（２Ｄ）を行なうようにしても良い。

【００５０】また請求項５の発明の音声認識方法にあっ
ては、請求項３記載の音声認識方法において、ヒドンマ
ルコフモデルにおいて遷移元となる状態Ｓ_j に、定常部
及び過渡部のいずれかの種別ｓを付与し、定常部基準フ
レーム番号ｑｓ、過渡部基準フレーム番号ｑｔと、参照
確率ｂ_jiとを格納する記憶部を設け、該参照確率ｂ_jiを
用いて、ｔ＝１、２、……、Ｔの各場合の前向き確率ｃ
_itを順次に求める。

【００５１】そして（１）．ｔ＝１のときは、定常部ス
キップ数ｓｋｉｐｓ、過渡部スキップ数ｓｋｉｐｔをそ
れぞれ０に、及び、定常部基準フレーム番号ｑｓ、過渡
部基準フレーム番号ｑｔをそれぞれ１に初期化すると共
に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドン
マルコフモデルから求め当該出力確率ｂ_ji(x_t)を参照確
率ｂ_jiの初期値として書き込み、参照確率ｂ_jiの書込み
終了後に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを
求める処理（２Ａ）と、処理（２Ａ）の終了後、現フレ
ーム番号ｔに１を加算する処理（２Ｂ）とを行なう。

【００５２】（２）．２≦ｔ≦Ｔのときは、定常部スキ
ップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共
に、現フレーム番号ｔの音声特徴ベクトルｘ_t と定常部
基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の
距離ｄｔｓを閾値ＤＴＳと比較し、当該比較結果がｓｋ
ｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場
合に、定常部スキップ数ｓｋｉｐｓを０に初期化し、及
び、定常部基準フレーム番号ｑｓを現フレーム番号ｔに
書き換え、当該比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳか
つｄｔｓ≦ＤＴＳとなる場合に、定常部スキップ数ｓｋ
ｉｐｓに１を加算する処理（２Ｃ）と、過渡部スキップ
数ｓｋｉｐｔを閾値ＮＳＫＩＰＴと比較すると共に、現
フレーム番号ｔの音声特徴ベクトルｘ_t と過渡部基準フ
レーム番号ｑｔの音声特徴ベクトルｘ_qtとの間の距離ｄ
ｔｔを閾値ＤＴＴと比較し、当該比較結果がｓｋｉｐｔ
＞ＮＳＫＩＰＴ若しくはｄｔｔ＞ＤＴＴとなる場合に、
過渡部スキップ数ｓｋｉｐｔを０に初期化し、及び、過
渡部基準フレーム番号ｑｔを現フレーム番号ｔに書き換
え、当該比較結果がｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔ
ｔ≦ＤＴＴとなる場合に、過渡部スキップ数ｓｋｉｐｔ
に１を加算する処理（２Ｄ）と、処理（２Ｃ）、（２
Ｄ）の終了後、ｊ＝１、２、……、Ｊの各ｊ毎に、出力
確率ｂ_ji(x_t)を与える状態遷移の遷移元Ｓ_j に付与され
ている種別ｓを判定する処理（２Ｅ）と、処理（２Ｅ）
の種別判定結果が定常部であった場合に、処理（２Ｃ）
の比較結果がｓｋｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ
＞ＤＴＳであれば、当該種別判定結果を得たｊに関して
は全てのｉについて、出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x
_t)に書き換え、処理（４Ｅ）の種別判定結果が定常部で
あった場合に、処理（２Ｃ）の比較結果がｓｋｉｐｓ≦
ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳであれば、当該種別判
定結果を得たｊに関しては参照確率ｂ_jiの書換えを行な
わず、処理（２Ｅ）の種別判定結果が過渡部であった場
合に、処理（２Ｄ）の比較結果がｓｋｉｐｔ＞ＮＳＫＩ
ＰＴ若しくはｄｔｔ＞ＤＴＴであれば、当該種別判定結
果を得たｊに関しては全てのｉについて、出力確率ｂ_ji
(x_t)をヒドンマルコフモデルから求めて参照確率ｂ_jiを
当該出力確率ｂ_ji(x_t)に書き換え、処理（２Ｅ）の種別
判定結果が過渡部であった場合に、処理（２Ｄ）の比較
結果がｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ≦ＤＴＴで
あれば、当該種別判定結果を得たｊに関しては参照確率
ｂ_jiの書換えを行なわない処理（２Ｆ）と、ｊ＝１、
２、……、Ｊの個々のｊ毎に該処理（２Ｆ）を行ない、
全てのｊにつき該処理（２Ｆ）を終了したら、各参照確
率ｂ_jiを読み出して前向き確率ｃ_itを求める処理（２
Ｇ）と、処理（２Ｇ）の終了後、現フレーム番号ｔに１
を加算する処理（２Ｈ）とを行なう。

【００５３】このように請求項５の発明では、ｊ＝１、
２、……、Ｊの個々のｊ毎に、出力確率ｂ_ji(x_t)を与え
る状態遷移の、遷移元Ｓ_j に付与されている種別ｓを判
定する。

【００５４】種別ｓの判定結果が定常部である場合に、
定常部に関わるスキップ数ｓｋｉｐｓが閾値ＮＳＫＩＰ
Ｓを越えるか若しくは定常部に関わる距離ｄｔｓが閾値
ＤＴＳを越えるかすれば、当該種別を得たｊに関して
は、現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマル
コフモデルから求めそして参照確率ｂ_jiを当該出力確率
ｂ_ji(x_t)に書き換え、然る後に、参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める。また種別ｓの判定結果が
定常部である場合に、定常部に関わるスキップ数ｓｋｉ
ｐｓが閾値ＮＳＫＩＰＳ以下となりかつ定常部に関わる
距離ｄｔｓが閾値ＤＴＳ以下となれば、当該種別ｓを得
たｊに関しては、参照確率ｂ_jiの書換えを行なわずに、
従って現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマ
ルコフモデルから求めずに、参照確率ｂ_jiを読み出して
前向き確率ｃ_itを求める。これがため種別ｓが定常部で
あるという判定結果を得たｊに関し、前向き確率ｃ_itの
誤差を抑えつつ、演算量を減少させることができる。

【００５５】この場合の前向き確率ｃ_itの誤差とは、種
別ｓが定常部であるという判定結果を得たｊに関して、
ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳの場合に
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率ｃ_itと、そのような演算
の簡略化を行なわずに得た前向き確率ｃ_itとの間の差で
ある。

【００５６】定常部に関わる距離ｄｔｓ、閾値ＤＴＳの
比較結果とスキップ数ｓｋｉｐｓ、閾値ＮＳＫＩＰＳの
比較結果とに応じて、参照確率ｂ_jiの書き換えを行なう
のは次の理由による。

【００５７】ｄｔｓ＞ＤＴＳの場合は、現フレーム番号
ｔの音声特徴ベクトルｘ_t は、基準フレーム番号ｑｓの
音声特徴ベクトルｘ_qsに近似せず、従って現フレーム番
号ｔの音声特徴ベクトルｘ_t は基準フレーム番号ｑｓの
音声特徴ベクトルｘ_qsからの変化が大きいので、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで近似す
ることができない。そこで参照確率ｂ_jiの書き換えを行
なう。

【００５８】ｓｋｉｐｓ＞ＮＳＫＩＰＳの場合は、距離
ｄｔｓが閾値ＤＴＳ以下となった回数ｓｋｉｐｓが閾値
ＮＳＫＩＰＳを越えるので現フレーム番号ｔと基準フレ
ーム番号ｑｓとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率ｂ_jiの書き換えを行なう。

【００５９】ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦Ｄ
ＴＳの場合は、ｄｔｓ≦ＤＴＳであるので現フレーム番
号ｔの音声特徴ベクトルｘ_t は、基準フレーム番号ｑｓ
の音声特徴ベクトルｘ_qsに近似し、従って現フレーム番
号ｔの音声特徴ベクトルｘ_tは基準フレーム番号ｑｓの
音声特徴ベクトルｘ_qsからの変化が少ないので、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで近似す
ることができる。しかもｓｋｉｐｓ≦ＮＳＫＩＰＳであ
り従って距離ｄｔｓが閾値ＤＴＳ以下となった回数ｓｋ
ｉｐｓが閾値ＮＳＫＩＰＳ以下であるので現フレーム番
号ｔと基準フレーム番号ｑｓとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率ｂ_jiの書き換えを行なわな
い。

【００６０】同様に種別ｓの判定結果が過渡部である場
合に、過渡部に関わるスキップ数ｓｋｉｐｔが閾値ＮＳ
ＫＩＰＴを越えるか若しくは過渡部に関わる距離ｄｔｔ
が閾値ＤＴＴを越えるかすれば、当該種別を得たｊに関
しては、現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドン
マルコフモデルから求めそして参照確率ｂ_jiを当該出力
確率ｂ_ji(x_t)に書き換え、然る後に、参照確率ｂ_jiを読
み出して前向き確率ｃ_itを求める。また種別ｓの判定結
果が過渡部である場合に、過渡部に関わるスキップ数ｓ
ｋｉｐｔが閾値ＮＳＫＩＰＴ以下となりかつ過渡部に関
わる距離ｄｔｔが閾値ＤＴＴ以下となれば、当該種別ｓ
を得たｊに関しては、参照確率ｂ_jiの書換えを行なわず
に、従って現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒド
ンマルコフモデルから求めずに、参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める。これがため種別ｓが過渡
部であるという判定結果を得たｊに関し、前向き確率ｃ
_itの誤差を抑えつつ、演算量を減少させることができ
る。

【００６１】この場合の前向き確率ｃ_itの誤差とは、種
別ｓが過渡部であるという判定結果を得たｊに関して、
ｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ≦ＤＴＴの場合に
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率ｃ_itと、そのような演算
の簡略化を行なわずに得た前向き確率ｃ_itとの間の差で
ある。

【００６２】過渡部に関わる距離ｄｔｔ、閾値ＤＴＴの
比較結果とスキップ数ｓｋｉｐｔ、閾値ＮＳＫＩＰＴの
比較結果とに応じて、参照確率ｂ_jiの書き換えを行なう
のは次の理由による。

【００６３】ｄｔｔ＞ＤＴＴの場合は、現フレーム番号
ｔの音声特徴ベクトルｘ_t は、基準フレーム番号ｑｔの
音声特徴ベクトルｘ_qtに近似せず、従って現フレーム番
号ｔの音声特徴ベクトルｘ_t は基準フレーム番号ｑｔの
音声特徴ベクトルｘ_qtからの変化が大きいので、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで近似す
ることができない。そこで参照確率ｂ_jiの書き換えを行
なう。

【００６４】ｓｋｉｐｔ＞ＮＳＫＩＰＴの場合は、距離
ｄｔｔが閾値ＤＴＴ以下となった回数ｓｋｉｐｔが閾値
ＮＳＫＩＰＴを越えるので現フレーム番号ｔと基準フレ
ーム番号ｑｔとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率ｂ_jiの書き換えを行なう。

【００６５】ｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ≦Ｄ
ＴＴの場合は、ｄｔｔ≦ＤＴＴであるので現フレーム番
号ｔの音声特徴ベクトルｘ_t は、基準フレーム番号ｑｔ
の音声特徴ベクトルｘ_qtに近似し、従って現フレーム番
号ｔの音声特徴ベクトルｘ_tは基準フレーム番号ｑｔの
音声特徴ベクトルｘ_qtからの変化が少ないので、現フレ
ーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ_jiで近似す
ることができる。しかもｓｋｉｐｔ≦ＮＳＫＩＰＴであ
り従って距離ｄｔｔが閾値ＤＴＴ以下となった回数ｓｋ
ｉｐｔが閾値ＮＳＫＩＰＴ以下であるので現フレーム番
号ｔと基準フレーム番号ｑｔとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率ｂ_jiの書き換えを行なわな
い。

【００６６】さらに請求項５の発明において、種別ｓが
定常部である場合の閾値ＤＴＳ、ＮＳＫＩＰＳと種別ｓ
が過渡部である場合の閾値ＤＴＴ、ＮＳＫＩＰＴとをそ
れぞれ個別に設定する理由は、次に述べる理由に依る。

【００６７】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルｘ_t の変化は大き
いので、種別ｓが過渡部である場合に用いる閾値ＤＴ
Ｔ、ＮＳＫＩＰＴを小さくすることにより、前向き確率
ｃ_itの誤差を小さくすることが望まれる。

【００６８】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルｘ_t の変化は小
さいので、種別ｓが定常部である場合に用いる閾値ＤＴ
Ｓ、ＮＳＫＩＰＳを大きくしても前向き確率ｃ_itの誤差
を小さくすることができる。閾値ＤＴＳ、ＮＳＫＩＰＳ
を大きくすることは、演算量の削減に寄与する。

【００６９】従って種別ｓが過渡部である場合に用いる
閾値ＤＴＴ、ＮＳＫＩＰＴに値の小さいものを用いると
共に、種別ｓが定常部である場合に用いる閾値ＤＴＳ、
ＮＳＫＩＰＳに値の大きいものを用いることにより、よ
り効果的に前向き確率ｃ_itの誤差を小さくしつつ、演算
量を削減することができる。

【００７０】また請求項６の発明の音声認識方法にあっ
ては、請求項５の発明の音声認識方法において、処理
（２Ｃ）及び（２Ｄ）の終了後、処理（２Ｅ）を行な
う。

【００７１】このように請求項６の発明では、ｓｋｉｐ
ｓ、ＮＳＫＩＰＳの比較結果及びｄｔｓ、ＤＴＳの比較
結果に応じて定常部スキップ数ｓｋｉｐｓの初期化若し
くはカウントアップと定常部基準フレーム番号ｑｓの書
換えとを行なう処理（２Ｃ）と、ｓｋｉｐｔ、ＮＳＫＩ
ＰＴの比較結果及びｄｔｔ、ＤＴＴの比較結果に応じて
過渡部スキップ数ｓｋｉｐｔの初期化若しくはカウント
アップと過渡部基準フレーム番号ｑｔの書換えとを行な
う処理（２Ｄ）とを行ない、然る後、現フレーム番号ｔ
の出力確率ｂ_ji(x_t)を与える状態遷移の、遷移元Ｓ_j に
付与されている種別ｓを判定する処理（２Ｅ）を行な
う。従ってこれらスキップ数、基準フレーム番号に関わ
る処理（２Ｃ）、（２Ｄ）を、種別ｓの判定処理（２
Ｅ）を行なう前に終了して、ｊ＝１、２、……、Ｊの個
々のｊ毎には行なわないので、処理量を減らすことがで
きる。種別ｓの判定処理（２Ｅ）を行なった後に、これ
らスキップ数、基準フレーム番号に関わる書換え処理
（２Ｃ）、（２Ｄ）を行なうようにすると、個々のｊ毎
に、これらスキップ数、基準フレーム番号に関わる処理
（２Ｃ）、（２Ｄ）を行なうこととなり処理量が増え
る。

【００７２】尚、処理量は増えるが、請求項５の発明に
おいて、処理（２Ｅ）の終了後に処理（２Ｃ）及び（２
Ｄ）を行なうようにしても良い。

【００７３】＜請求項７〜８の発明＞さらに請求項７の
発明の音声認識方法にあっては、前向き確率基準フレー
ム番号ｑｃ、出力確率基準フレーム番号ｑｓと、参照確
率ｂ_jiとを格納する記憶部を設け、参照確率ｂ_jiを用い
て、ｔ＝１、２、……、Ｔの各場合の前向き確率ｃ_itを
順次に求める。

【００７４】そして（１）．ｔ＝１のときは、前向き確
率基準フレーム番号ｑｃ、出力確率基準フレーム番号ｑ
ｓをそれぞれ１に初期化すると共に、全てのｊ、ｉにつ
いて、出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求
め当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として
書き込み、参照確率ｂ_jiの書込み終了後に各参照確率ｂ
_jiを読み出して前向き確率ｃ_itを求める処理（３Ａ）
と、処理（３Ａ）の終了後、現フレーム番号ｔに１を加
算する処理（３Ｂ）とを行なう。

【００７５】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と前向き確率基準フレー
ム番号ｑｃの音声特徴ベクトルｘ_qcとの間の距離ｄｔｃ
を閾値ＤＴＣと比較する処理（３Ｃ）と、処理（３Ｃ）
の比較結果がｄｔｃ≦ＤＴＣとなる場合に、前向き確率
ｃ_itは直前フレームの前向き確率ｃ_i(t-1)に等しいもの
として前向き確率ｃ_itを求める演算を終了する処理（３
Ｄ）と、処理（３Ｃ）の比較結果がｄｔｃ＞ＤＴＣとな
る場合に、前向き確率基準フレーム番号ｑｃを現フレー
ム番号ｔに書き換える処理（３Ｅ）と、処理（３Ｅ）の
終了後、現フレーム番号ｔの音声特徴ベクトルｘ_t と出
力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsと
の間の距離ｄｔｓを閾値ＤＴＳと比較し、当該比較結果
がｄｔｓ＞ＤＴＳとなる場合に、出力確率基準フレーム
番号ｑｓを現フレーム番号ｔに書き換えると共に、全て
のｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフ
モデルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x_t)
に書き換え、参照確率ｂ_jiの書換え終了後に各参照確率
ｂ_jiを読み出して前向き確率ｃ_itを求め、当該比較結果
がｄｔｓ≦ＤＴＳとなる場合に、参照確率ｂ_jiの書き換
えを行なわずに各参照確率ｂ_jiを読み出して前向き確率
ｃ_itを求める処理（３Ｆ）と、処理（３Ｄ）若しくは
（３Ｆ）の終了後、現フレーム番号ｔに１を加算する処
理（３Ｇ）とを行なう。

【００７６】このように請求項７の発明では、参照確率
ｂ_jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率ｂ_ji(x₁)とする。そして前向き確率
基準フレーム番号ｑｃの初期値と、出力確率基準フレー
ム番号ｑｓの初期値とをそれぞれ、始端フレームのフレ
ーム番号１とする。

【００７７】そして現フレーム番号ｔの音声特徴ベクト
ルｘ_t と前向き確率基準フレーム番号ｑｃの音声特徴ベ
クトルｘ_qcとの間の距離ｄｔｃを閾値ＤＴＣと比較す
る。ｄｔｃ≦ＤＴＣの場合は、現フレーム番号ｔの前向
き確率ｃ_itは直前フレームの前向き確率ｃ_i(t-1)に等し
いものとして、前向き確率ｃ_itを求める演算を終了す
る。

【００７８】またｄｔｃ＞ＤＴＣの場合は、前向き確率
基準フレーム番号ｑｃを現フレーム番号ｔに書き換え、
然る後、現フレーム番号ｔの音声特徴ベクトルｘ_t と基
準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距
離ｄｔｓを閾値ＤＴＳと比較する。ｄｔｓ＞ＤＴＳの場
合は、基準フレーム番号ｑｓの書換えと参照確率ｂ_jiの
書換えとを行ない、書き換えた参照確率ｂ_jiを読み出し
て前向き確率ｃ_itを求める。ｄｔｓ≦ＤＴＳの場合は、
基準フレーム番号ｑｓの書換えと参照確率ｂ_jiの書換え
とは行なわず、書換えを行なわなかった参照確率ｂ_jiを
読み出して前向き確率ｃ_itを求める。

【００７９】ｄｔｃ≦ＤＴＣの場合は、距離ｄｔｃが閾
値ＤＴＣ以下となるので現フレーム番号ｔの音声特徴ベ
クトルｘ_t と前向き確率基準フレーム番号ｑｃの音声特
徴ベクトルｘ_qcとが近似的に等しくなる場合であり、従
って現フレーム番号ｔの前向き確率ｃ_itは前向き確率基
準フレーム番号ｑｃの音声特徴ベクトルｘ_qcからの変化
が小さくなるので、現フレーム番号ｔの前向き確率ｃ_it
は直前フレームの前向き確率ｃ_i(t-1)で近似できる。そ
こで現フレーム番号ｔの前向き確率ｃ_itは直前フレーム
の前向き確率ｃ_i(t-1)に等しいものとして、前向き確率
ｃ_itを求める演算を終了する。

【００８０】ｄｔｃ＞ＤＴＣの場合は、距離ｄｔｃが閾
値ＤＴＣを越えるので現フレーム番号ｔの音声特徴ベク
トルｘ_t と前向き確率基準フレーム番号ｑｃの音声特徴
ベクトルｘ_qcとが近似しない場合であり、従って現フレ
ーム番号ｔの音声特徴ベクトルｘ_t は前向き確率基準フ
レーム番号ｑｃの音声特徴ベクトルｘ_qcからの変化が大
きくなるので、現フレーム番号ｔの前向き確率ｃ_itは直
前フレームの前向き確率Ｃ_i(t-1)で近似できない。そこ
で参照確率ｂ_jiを読み出して現フレーム番号ｔの前向き
確率ｃ_itを求める演算を行なうこととなるので、前向き
確率基準フレーム番号ｑｃを現フレーム番号ｔに書き換
える。

【００８１】また記憶部に格納される参照確率ｂ_jiは、
出力確率基準フレーム番号ｑｓのフレームでヒドンマル
コフモデルから求めた出力確率ｂ_ji(x_t)である。

【００８２】そしてｄｔｓ＞ＤＴＳの場合は、距離ｄｔ
ｓが閾値ＤＴＳを越えるので現フレーム番号ｔの音声特
徴ベクトルｘ_t と書換え前の出力確率基準フレーム番号
ｑｓの音声特徴ベクトルｘ_qsとが近似しない場合であ
り、従って現フレーム番号ｔの音声特徴ベクトルｘ_t は
出力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
からの変化が大きくなるので、現フレーム番号ｔの出力
確率ｂ_ji(x_t)を、書換え前の出力確率基準フレーム番号
ｑｓの出力確率ｂ_ji(x_qs) すなわち参照確率ｂ_jiで近似
できない。そこで現フレーム番号ｔの出力確率ｂ_ji(x_t)
をヒドンマルコフモデルから求め、参照確率ｂ_jiを当該
出力確率ｂ_ji(x_t)に書き換えた後に参照確率ｂ_jiを読み
出して前向き確率ｃ_itを求める。また参照確率ｂ_jiを、
現フレーム番号ｔの出力確率ｂ_ji(x_t)に書き換えるの
で、出力確率基準フレーム番号ｑｓを現フレーム番号ｔ
に書き換える。

【００８３】ｄｔｓ≦ＤＴＳの場合は、距離ｄｔｓが閾
値ＤＴＳ以下となるので現フレーム番号ｔの音声特徴ベ
クトルｘ_t と書換えを行なわない出力確率基準フレーム
番号ｑｓの音声特徴ベクトルｘ_qsとが近似的に等しくな
る場合であり、従って現フレーム番号ｔの音声特徴ベク
トルｘ_t は出力確率基準フレーム番号ｑｓの音声特徴ベ
クトルｘ_qsからの変化が小さくなるので、現フレーム番
号ｔの出力確率ｂ_ji(x_t)を、出力確率基準フレーム番号
ｑｓの出力確率ｂ_ji(x_qs) すなわち参照確率ｂ_jiで近似
できる。そこで参照確率ｂ_jiの書換えを行なわずに、参
照確率ｂ_jiを読み出して前向き確率ｃ_itを求める。また
参照確率ｂ_jiの書換えを行なわないので、出力確率基準
フレーム番号ｑｓの書換えを行なわない。

【００８４】このようにｄｔｃ≦ＤＴＣの場合は、現フ
レーム番号ｔの前向き確率ｃ_itは直前フレームの前向き
確率ｃ_i(t-1)に等しいものとして前向き確率ｃ_itを求め
る演算を終了し、出力確率ｂ_ji(x_t)を求める演算を行な
わない。そしてｄｔｃ＞ＤＴＣの場合にｄｔｓ＞ＤＴＳ
であれば、参照確率ｂ_jiの書換えを行なった後に、従っ
て現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求める演算を行なった後に、参照確率ｂ_ji
を読み出して前向き確率ｃ_itを求める。またｄｔｃ＞Ｄ
ＴＣの場合にｄｔｓ≦ＤＴＳであれば、参照確率ｂ_jiの
書換えを行なわずに、従って現フレーム番号ｔの出力確
率ｂ_ji(x_t)をヒドンマルコフモデルから求める演算を行
なわずに、参照確率ｂ_jiを読み出して前向き確率ｃ_itを
求めるので、前向き確率ｃ_itの誤差を抑えつつ、演算量
を減少させることができる。

【００８５】この場合の前向き確率ｃ_itの誤差とは、ｄ
ｔｃ≦ＤＴＣ若しくはｄｔｓ≦ＤＴＳの場合に出力確率
ｂ_ji(x_t)をヒドンマルコフモデルから求める演算を行な
わずに得た前向き確率ｃ_itと、そのような演算の簡略化
を行なわずに得た前向き確率ｃ_itとの差である。

【００８６】閾値ＤＴＣ、ＤＴＳを大きくするに従っ
て、演算の削減量は増えるが、前向き確率ｃ_itの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率ｃ_itを求めることができるように、閾値ＤＴＣ、
ＤＴＳの値を定める必要がある。

【００８７】また請求項８の発明の音声認識方法にあっ
ては、請求項７の発明の音声認識方法において、次の如
く処理を行なう。

【００８８】（１）．ｔ＝１のときは、前向き確率基準
フレーム番号ｑｃ、出力確率基準フレーム番号ｑｓをそ
れぞれ１に、及び、前向き確率スキップ数ｓｋｉｐｃ、
出力確率スキップ数ｓｋｉｐｓをそれぞれ０に初期化す
ると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)を
ヒドンマルコフモデルから求め当該出力確率ｂ_ji(x_t)を
参照確率ｂ_jiの初期値として書き込み、該参照確率ｂ_ji
の書込み終了後に各参照確率ｂ_jiを読み出して前向き確
率ｃ_itを求める処理（３Ａ）と、処理（３Ａ）の終了
後、現フレーム番号ｔに１を加算する処理（３Ｂ）とを
行なう。

【００８９】（２）．２≦ｔ≦Ｔのときは、前向き確率
スキップ数ｓｋｉｐｃを閾値ＮＳＫＩＰＣと比較すると
共に、現フレーム番号ｔの音声特徴ベクトルｘ_t と前向
き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qcと
の間の距離ｄｔｃを閾値ＤＴＣと比較する処理（３Ｃ）
と、処理（３Ｃ）の比較結果がｓｋｉｐｃ≦ＮＳＫＩＰ
Ｃかつｄｔｃ≦ＤＴＣとなる場合に、前向き確率ｃ_itは
直前フレームの前向き確率ｃ_i(t-1)に等しいものとして
前向き確率ｃ_itを求める演算を終了すると共に、前向き
確率スキップ数ｓｋｉｐｃ、出力確率スキップ数ｓｋｉ
ｐｓにそれぞれ１を加算する処理（３Ｄ）と、処理（３
Ｃ）の比較結果がｓｋｉｐｃ＞ＮＳＫＩＰＣ若しくはｄ
ｔｃ＞ＤＴＣとなる場合に、前向き確率スキップ数ｓｋ
ｉｐｃを０に初期化し、及び、前向き確率基準フレーム
番号ｑｃを現フレーム番号ｔに書き換える処理（３Ｅ）
と、処理（３Ｅ）の終了後、出力確率スキップ数ｓｋｉ
ｐｓを閾値ＮＳＫＩＰＳと比較すると共に、現フレーム
番号ｔの音声特徴ベクトルｘ_t と出力確率基準フレーム
番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを
閾値ＤＴＳと比較し、当該比較結果がｓｋｉｐｓ＞ＮＳ
ＫＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場合に、出力確
率スキップ数ｓｋｉｐｓを０に初期化し、及び、出力確
率基準フレーム番号ｑｓを現フレーム番号ｔに書き換え
ると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)を
ヒドンマルコフモデルから求めて参照確率ｂ_jiを当該出
力確率ｂ_ji(x_t)に書き換え、参照確率ｂ_jiの書換え終了
後に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求
め、当該比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔ
ｓ≦ＤＴＳとなる場合に、出力確率スキップ数ｓｋｉｐ
ｓに１を加算すると共に、参照確率ｂ_ji(x_t)の書換えを
行なわずに各参照確率ｂ_jiを読み出して前向き確率ｃ_it
を求める処理（３Ｆ）と、処理（３Ｄ）若しくは（３
Ｆ）の終了後、現フレーム番号ｔに１を加算する処理
（３Ｇ）とを行なう。

【００９０】このように請求項８の発明では、参照確率
ｂ_jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率ｂ_ji(x₁)とする。そして前向き確率
基準フレーム番号ｑｃの初期値と、出力確率基準フレー
ム番号ｑｓの初期値とをそれぞれ、始端フレームのフレ
ーム番号１とする。また前向き確率スキップ数ｓｋｉｐ
ｃの初期値と、出力確率スキップ数ｓｋｉｐｓの初期値
とをそれぞれ、０とする。

【００９１】そして前向き確率スキップ数ｓｋｉｐｃを
閾値ＮＳＫＩＰＣと比較すると共に、現フレーム番号ｔ
の音声特徴ベクトルｘ_t と前向き確率基準フレーム番号
ｑｃの音声特徴ベクトルｘ_qcとの間の距離ｄｔｃを閾値
ＤＴＣと比較する。ｓｋｉｐｃ≦ＮＳＫＩＰＣかつｄｔ
ｃ≦ＤＴＣの場合は、現フレーム番号ｔの前向き確率ｃ
_itは直前フレームの前向き確率ｃ_i(t-1)に等しいものと
して前向き確率ｃ_itを求める演算を終了すると共に、前
向き確率スキップ数ｓｋｉｐｃのカウントアップと出力
確率スキップ数ｓｋｉｐｓのカウントアップとを行な
う。

【００９２】またｓｋｉｐｃ＞ＮＳＫＩＰＣ若しくはｄ
ｔｃ＞ＤＴＣの場合は、前向き確率基準フレーム番号ｑ
ｃを現フレーム番号ｔに書き換えると共に前向き確率ス
キップ数ｓｋｉｐｃを初期化し、然る後、出力確率スキ
ップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共に
現フレーム番号ｔの音声特徴ベクトルｘ_t と出力確率基
準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距
離ｄｔｓを閾値ＤＴＳと比較する。ｓｋｉｐｓ＞ＮＳＫ
ＩＰＳ若しくはｄｔｓ＞ＤＴＳの場合は、出力確率スキ
ップ数ｓｋｉｐｓの初期化と出力確率基準フレーム番号
ｑｓの書換えと参照確率ｂ_jiの書換えとを行ない、書き
換えた参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳの場
合は、出力確率スキップ数ｓｋｉｐｓのカウントアップ
は行ない、出力確率基準フレーム番号ｑｓの書換えと参
照確率ｂ_jiの書換えとは行なわずに、書換えを行なわな
かった参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る。

【００９３】ｓｋｉｐｃ≦ＮＳＫＩＰＣかつｄｔｃ≦Ｄ
ＴＣの場合は、ｄｔｃ≦ＤＴＣであるので現フレーム番
号ｔの音声特徴ベクトルｘ_t は前向き確率基準フレーム
番号ｑｃの音声特徴ベクトルｘ_qcに近似し、従って現フ
レーム番号ｔの音声特徴ベクトルｘ_t は前向き確率基準
フレーム番号ｑｃの音声特徴ベクトルｘ_qcからの変化が
小さいので、現フレーム番号ｔの前向き確率ｃ_itは直前
フレームの前向き確率ｃ_i(t-1)で近似できる。しかもｓ
ｋｉｐｃ≦ＮＳＫＩＰＣであり従って直前フレームの前
向き確率ｃ_i(t-1)の書換えを行なわなかった回数ｓｋｉ
ｐｃが閾値ＮＳＫＩＰＣ以下であるので現フレーム番号
ｔと前向き確率基準フレーム番号ｑｃとの時間的隔たり
が小さくなる。従って誤差が増大する可能性が低いので
演算量を削減すべく、現フレーム番号ｔの前向き確率ｃ
_itは直前フレームの前向き確率ｃ_i(t-1)に等しいものと
して、前向き確率ｃ_itを求める演算を終了する。従って
参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める演算
も出力確率ｂ_jiの書換えも行なわないので、前向き確率
基準フレーム番号ｑｃの書換えも出力確率基準フレーム
番号ｑｓの書換えも行なわない。また前向き確率スキッ
プ数ｓｋｉｐｃは、ｓｋｉｐｃ≦ＮＳＫＩＰＣとなる範
囲内で現フレーム番号ｔの前向き確率ｃ_itを直前フレー
ムの前向き確率ｃ_i(t-1)で近似して前向き確率ｃ_itの演
算を終了した回数を表すものであるので、前向き確率ス
キップ数ｑｃに１を加算して前向き確率スキップ数ｑｃ
をカウントアップする。さらに出力確率スキップ数ｓｋ
ｉｐｓは、ｓｋｉｐｓ≦ＮＳＫＩＰＳとなる範囲内で参
照確率ｂ_jiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数ｓｋｉｐｓに１を加算し
て出力確率スキップ数ｓｋｉｐｓをカウントアップす
る。

【００９４】ｄｔｃ＞ＤＴＣの場合は、距離ｄｔｃが閾
値ＤＴＣを越えるので現フレーム番号ｔの音声特徴ベク
トルｘ_t と前向き確率基準フレーム番号ｑｃの音声特徴
ベクトルｘ_qcとが近似しない場合であり、従って現フレ
ーム番号ｔの音声特徴ベクトルｘ_t は前向き確率基準フ
レーム番号ｑｃの音声特徴ベクトルｘ_qcからの変化が大
きくなるので、現フレーム番号ｔの前向き確率ｃ_itは直
前フレームの前向き確率ｃ_i(t-1)で近似できない。そこ
で参照確率ｂ_jiを読み出して現フレーム番号ｔの前向き
確率ｃ_itを求める演算を行なうこととなるので、前向き
確率基準フレーム番号ｑｃを現フレーム番号ｔに書き換
える。また前向き確率スキップ数ｓｋｉｐｃは、ｓｋｉ
ｐｃ≦ＮＳＫＩＰＣとなる範囲内で現フレーム番号ｔの
前向き確率ｃ_itを直前フレームの前向き確率ｃ_i(t-1)で
近似して前向き確率ｃ_itの演算を終了した回数を表すも
のであるので、前向き確率スキップ数ｓｋｉｐｃを０に
初期化する。

【００９５】ｓｋｉｐｃ＞ＮＳＫＩＰＣの場合は、現フ
レーム番号ｔの前向き確率ｃ_itを直前フレームの前向き
確率ｃ_i(t-1)で近似して前向き確率ｃ_itの演算を終了し
た回数ｓｋｉｐｃが閾値ＮＳＫＩＰＣを越えるので現フ
レーム番号ｔと前向き確率基準フレーム番号ｑｃとの時
間的隔たりが大きくなり、従って誤差が増大する可能性
が高いので誤差を低減するべく、参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める演算を行なう。そこで前向
き確率基準フレーム番号ｑｃを現フレーム番号ｔに書き
換える。また前向き確率スキップ数ｓｋｉｐｃは、ｓｋ
ｉｐｃ≦ＮＳＫＩＰＣとなる範囲内で現フレーム番号ｔ
の前向き確率ｃ_itを直前フレームの前向き確率ｃ_i(t-1)
で近似して前向き確率ｃ_itの演算を終了した回数を表す
ものであるので、前向き確率スキップ数ｓｋｉｐｃを初
期化する。

【００９６】また記憶部に格納される参照確率ｂ_jiは、
出力確率基準フレーム番号ｑｓのフレームでヒドンマル
コフモデルから求めた出力確率ｂ_ji(x_t)である。

【００９７】そしてｄｔｓ＞ＤＴＳの場合は、距離ｄｔ
ｓが閾値ＤＴＳを越えるので現フレーム番号ｔの音声特
徴ベクトルｘ_t と書換え前の出力確率基準フレーム番号
ｑｓの音声特徴ベクトルｘ_qsとが近似しない場合であ
り、現フレーム番号ｔの音声特徴ベクトルｘ_t は出力確
率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsからの
変化が大きいので、現フレーム番号ｔの出力確率ｂ_ji(x
_t)を、出力確率基準フレーム番号ｑｓの出力確率ｂ_ji(x
_qs) すなわち参照確率ｂ_jiで近似できない。そこで参照
確率ｂ_jiを、現フレーム番号ｔの出力確率ｂ_ji(x_t)に書
き換え、この書き換えた参照確率ｂ_jiを読み出して前向
き確率ｃ_itを求める。また参照確率ｂ_jiを、現フレーム
番号ｔの出力確率ｂ_ji(x_t)に書き換えるので、出力確率
基準フレーム番号ｑｓを現フレーム番号ｔに書き換え
る。そして出力確率スキップ数ｓｋｉｐｓは、ｓｋｉｐ
ｓ≦ＮＳＫＩＰＳとなる範囲内で参照確率ｂ_jiの書換え
を行なわなかった回数を表すものであるので、出力確率
スキップ数ｓｋｉｐｓを初期化する。

【００９８】ｓｋｉｐｓ＞ＮＳＫＩＰＳの場合は、参照
確率ｂ_jiの書換えを行なわなかった回数ｓｋｉｐｓが閾
値ＮＳＫＩＰＳを越えるので現フレーム番号ｔと出力確
率基準フレーム番号ｑｓとの時間的隔たりが大きくな
り、従って誤差が増大する可能性が高いので誤差を低減
すべく、参照確率ｂ_jiの書換えを行なう。従って参照確
率ｂ_jiを、現フレーム番号ｔの出力確率ｂ_ji(x_t)に書き
換えるので、出力確率基準フレーム番号ｑｓを現フレー
ム番号ｔに書き換える。そして出力確率スキップ数ｓｋ
ｉｐｓは、ｓｋｉｐｓ≦ＮＳＫＩＰＳとなる範囲内で参
照確率ｂ_jiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数ｓｋｉｐｓを初期化す
る。

【００９９】ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦Ｄ
ＴＳの場合は、ｄｔｓ≦ＤＴＳであるので現フレーム番
号ｔの音声特徴ベクトルｘ_t と出力確率基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsとが近似的に等しくなる
場合であり、従って現フレーム番号ｔの出力確率ｂ_ji(x
_t)は、出力確率基準フレーム番号ｑｓの出力確率ｂ_ji(x
_qs) すなわち参照確率ｂ_jiに近似的に等しくなる。しか
もｓｋｉｐｓ≦ＮＳＫＩＰＳであり従って参照確率ｂ_ji
の書換えを行なわなかった回数ｓｋｉｐｓが閾値ＮＳＫ
ＩＰＳ以下であるので、現フレーム番号ｔと出力確率基
準フレーム番号ｑｓとの時間的隔たりが小さく従って誤
差が増大する可能性は低い。そこで参照確率ｂ_jiの書換
えを行なわずに、参照確率ｂ_jiを読み出して前向き確率
ｃ_itを求める。従って参照確率ｂ_jiの書換えを行なわな
かったので、出力確率基準フレーム番号ｑｓの書換えを
行なわない。そして出力確率スキップ数ｓｋｉｐｓは、
ｓｋｉｐｓ≦ＮＳＫＩＰＳとなる範囲内で参照確率ｂ_ji
の書換えを行なわなかった回数を表すものであるので、
出力確率スキップ数ｓｋｉｐｓに１を加算してスキップ
数ｓｋｉｐｓをカウントアップする。

【０１００】このようにｓｋｉｐｃ≦ＮＳＫＩＰＣかつ
ｄｔｃ≦ＤＴＣの場合は、現フレーム番号ｔの前向き確
率ｃ_itは直前フレームの前向き確率ｃ_i(t-1)に等しいも
のとして前向き確率ｃ_itを求める演算を終了し、出力確
率ｂ_ji(x_t)を求める演算を行なわない。またｓｋｉｐｃ
＞ＮＳＫＩＰＣ若しくはｄｔｃ＞ＤＴＣの場合に、ｓｋ
ｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳであれ
ば、参照確率ｂ_jiの書換えを行なった後に、従って現フ
レーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマルコフモデ
ルから求める演算を行なった後に、参照確率ｂ_jiを読み
出して前向き確率ｃ_itを求める。さらにｓｋｉｐｃ＞Ｎ
ＳＫＩＰＣ若しくはｄｔｃ＞ＤＴＣの場合に、ｓｋｉｐ
ｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳであれば、参照確
率ｂ_jiの書換えを行なわずに、従って現フレーム番号ｔ
の出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求める
演算を行なわずに、参照確率ｂ_jiを読み出して前向き確
率ｃ_itを求めるので、前向き確率ｃ_itの誤差を抑えつ
つ、演算量を減少させることができる。

【０１０１】この場合の前向き確率ｃ_itの誤差とは、ｓ
ｋｉｐｃ≦ＮＳＫＩＰＣかつｄｔｃ≦ＤＴＣの場合、若
しくは、ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳ
の場合に出力確率ｂ_ji(x_t)をヒドンマルコフモデルから
求める演算を行なわずに得た前向き確率ｃ_itと、そのよ
うな演算の簡略化を行なわずに得た前向き確率ｃ_itとの
差である。

【０１０２】閾値ＤＴＣ、ＤＴＳを大きくするに従っ
て、演算の削減量は増えるが、前向き確率ｃ_itの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率ｃ_itを求めることができるように、閾値ＤＴＣ、
ＤＴＳの値を定める必要がある。

【０１０３】

【発明の実施の形態】

＜請求項１の発明の第一実施形態＞図１は請求項１の発
明の第一実施形態の実施に用いて好適な音声認識装置の
構成例を示す機能ブロック図である。

【０１０４】同図に示す音声認識装置１０は、辞書部１
２、音響処理部１４、音声区間検出部１６、照合部１８
及び参照情報記憶部２０を備える。

【０１０５】辞書部１２は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部２０は、基準フレー
ム番号ｑｓと参照確率ｂ_jiとを格納する。

【０１０６】音響処理部１４は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部１６は、入力音声信号から音声区間を検
出する。

【０１０７】照合部１８は、請求項１の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列ｘ₁ 、ｘ₂ 、……、ｘ_T とヒドンマルコフモデル
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
次式（１）〜（３）を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。

【０１０８】

【数５】

【０１０９】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉ尤度を求める際には、参照情報記憶部２０に格納してあ
る参照確率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの各場
合の前向き確率ｃ_itを、次ぎの如くして順次に求める。

【０１１０】（１）．ｔ＝１のときは、基準フレーム番
号ｑｓを１に初期化すると共に、全てのｊ、ｉについ
て、出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求め
当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書
き込み、参照確率ｂ_jiの書込み終了後に各参照確率ｂ_ji
を読み出して前向き確率ｃ_itを求める処理（１Ａ）と、
処理（１Ａ）の終了後、現フレーム番号ｔに１を加算す
る処理（１Ｂ）とを行なう。

【０１１１】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と基準フレーム番号ｑｓ
の音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを閾値ＤＴ
Ｓと比較し、当該比較結果がｄｔｓ＞ＤＴＳとなる場合
に、基準フレーム番号ｑｓを現フレーム番号ｔに書き換
えると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)
をヒドンマルコフモデルから求めて参照確率ｂ_jiを当該
出力確率ｂ_ji(x_t)に書き換え、参照確率ｂ_jiの書換え終
了後に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求
め、当該比較結果がｄｔｓ≦ＤＴＳとなる場合に、参照
確率ｂ_jiの書き換えを行なわずに各参照確率ｂ_jiを読み
出して前向き確率ｃ_itを求める処理（１Ｃ）と、処理
（１Ｃ）の終了後、現フレーム番号ｔに１を加算する処
理（１Ｄ）とを行なう。

【０１１２】図２はヒドンマルコフモデルの説明に供す
る図である。辞書部１２に格納されているヒドンマルコ
フモデル（Hidden Markov Model 。以下、ＨＭＭ）は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリｚ毎に
複数のＨＭＭを用意し、ＨＭＭとカテゴリｚとを相対応
付けて辞書部１２に格納する。

【０１１３】ＨＭＭは、総個数Ｉ個の状態Ｓ₁ 〜Ｓ_I か
ら成る状態の集合１と、音声特徴ベクトルｘの集合２
と、状態遷移確率ａ_jiの集合３と、出力確率ｂ_ji(x) の
集合４と、初期状態確率Ф_i の集合５と、最終状態Ｆの
集合６とにより定義される。但し、

【０１１４】

【数６】

【０１１５】ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊａ_ji：状態Ｓ_j から状態Ｓ_i に遷移する確率ｂ_ji(x) ：状態Ｓ_j から状態Ｓ_i に遷移する際に音声特
徴ベクトルｘが出力される確率 Ф_i ：初期状態がＳ_i である確率例えば図２の例において、ａ₁₂は状態Ｓ₁ から状態Ｓ₂
に遷移する確率及びｂ₁₂(x) は状態Ｓ₁ から状態Ｓ₂ に
遷移したとき音声特徴ベクトルｘが出力される確率、ま
たａ₂₂は状態Ｓ₂ から状態Ｓ₂ に遷移する確率及びｂ₂₂
(x) は状態Ｓ₂から状態Ｓ₂ に遷移したとき音声特徴ベ
クトルｘが出力される確率を表す。

【０１１６】ＨＭＭを定義するための集合１〜６は、統
計的手法によって、各カテゴリｚ毎に個別に求められ
る。すなわちカテゴリｚに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合１〜６を求
める。

【０１１７】出力確率ｂ_ji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルｘの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。

【０１１８】次に音声認識装置１０の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。

【０１１９】音響処理部１４は、入力音声信号から、各
フレーム毎に音声特徴ベクトルｘ_t＝（ｘ_t1、ｘ_t2、…
…、ｘ_tp）を抽出する。ここでｐは音声特徴ベクトルｘ
_t の次数及びｘ_t1〜ｘ_tpは音声特徴ベクトルｘ_t のベク
トル成分を表す。ｔは音声特徴ベクトルｘ_t が抽出され
たフレームに付与されている番号である。後述するＨＭ
Ｍとの照合の段階では音声区間の始端フレームのフレー
ム番号ｔを１として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
ｔを付与してあれば良い。

【０１２０】音声特徴ベクトルｘ_t のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちＬＰＣ分析
により求められるＬＰＣケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルｘ_t を抽出する例につき説明する。

【０１２１】音響処理部１４は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯（チャネル）の信号成分に分離し、
それぞれ周波数帯が異なる総個数ｐ個の信号成分ｘ1 〜
ｘp を得る。次いで音響処理部１４は、信号成分ｘ1を
整流し、フレーム単位に、整流した信号成分ｘ1 （信号
成分ｘ1 の絶対値）の平均値を得る。この平均値は、整
流した信号成分ｘ1 を１フレーム分の時間幅で除して得
られる。第ｔ番目のフレームにおいて得られる信号成分
ｘ1 の平均値を、音声特徴ベクトルｘ_t の成分ｘ_t1とし
て抽出する。同様にして、残りの信号成分ｘ2 〜ｘp か
ら、音声特徴ベクトルｘ_t の成分ｘ_t2〜ｘ_tpを抽出す
る。

【０１２２】次に音声区間検出部１６は、音響処理部１
４からの音声特徴ベクトルｘ_t に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語１個分の音声信号が含まれる
区間である。

【０１２３】照合部１８は、区間情報と音声特徴ベクト
ルｘ_t とを音声区間検出部１６から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルｘ_t の時系列ｘ₁ 、ｘ₂ 、……、ｘ_T を生
成する。この際、始端フレームのフレーム番号ｔを１と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号ｔを昇順に書き改める。

【０１２４】そして照合部１８はベクトル時系列ｘ₁ 、
ｘ₂ 、……、ｘ_T と辞書部１２に格納されているＨＭＭ
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
辞書部１２の各ＨＭＭ毎に個別に求め、最大の尤度を得
たＨＭＭに対し付与されているカテゴリｚを、認識結果
として出力する。

【０１２５】ここで、式（１）で示されるＰ（ｘ₁ 、ｘ
₂ 、……、ｘ_T ）は、ＨＭＭにおいてベクトル時系列ｘ
₁ 、ｘ₂ 、……、ｘ_T が出現する確率である。

【０１２６】

【数７】

【０１２７】（１）式中のｃ_iTは、ＨＭＭにおいて初期
状態から遷移を開始しベクトル時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を出力して状態Ｓ_i に至る前向き確率、＊ｉは
Ｓ_i ∈Ｆを満たすｉ（最終状態Ｆに属する状態Ｓ_i に付
与されている番号ｉ）であって、従ってｉ＝＊ｉとなる
前向き確率ｃ_iTのなかで最大の前向き確率ｃ_iTを、出現
確率Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）とするものである。

【０１２８】前向き確率ｃ_iTは、ビタビアルゴリズムに
より、式（２）〜（３）に示す漸化式を用いて近似的に
求められる。ｃ_i0＝Ф_i ……（２）

【０１２９】

【数８】

【０１３０】ＨＭＭにおいて、音声特徴ベクトルｘ_t を
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列ｘ₁ 〜ｘ_t を出力して状態Ｓ_i に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式（３）に示されるよ
うに、各遷移パス毎に計算したｃ_j(t-1)ａ_jiｂ_ji(x_t)の
うち最大のｃ_j(t-1)ａ_jiｂ_ji(x_t)を前向き確率ｃ_itとす
る。この計算法はビタビ法と呼ばれる。

【０１３１】（３）式中の出力確率ｂ_ji(x_t)を、ここで
は次式（４）の如く定義する。

【０１３２】

【数９】

【０１３３】但し、ｍ＝１、２、……、Ｍｇ_jim(x_t) ：総個数Ｍ個の正規分布から成る無相関混合
正規分布において第ｍ番目の正規分布から算出される音
声特徴ベクトルｘ_t の重み付け確率（４）式中の重み付け確率ｇ_jim(x_t) は、次式（５）〜
（７）を用いて表される。

【０１３４】ｇ_jim(x_t) ＝λ_jim ｂ_jim(x_t) ……（５）ｂ_jim(x_t) ＝（２π）^-p/2｜ρ_jim ｜^-1/2 exp｛−Ｄ_jimt ² ／２｝ ……（６）Ｄ_jimt ² ＝（ｘ_t −μ_jim ）’ρ_jim ^-1(ｘ_t −μ_jim ） ……（７） λ_jim ：第ｍ番目の正規分布の重みｂ_jim(x_t) ：第ｍ番目の正規分布から算出される音声特
徴ベクトルｘ_t の重み無し確率 ρ_jim ：第ｍ番目の正規分布の分散・供分散行列 μ_jim ：第ｍ番目の正規分布の平均ベクトルＤ_jimt：音声特徴ベクトルｘ_t と第ｍ番目の正規分布と
の間の距離を表すマハラビスの汎距離（ｘ_t −μ_jim ）’：（ｘ_t −μ_jim ）の転置行列尚、出力確率ｂ_ji(x_t)としては種々のものを用いること
ができ、（４）式のもののほか例えば、次式（８）の如
く定義したものを用いても良い。（８）式は、総個数Ｍ
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率ｇ_ijm(x_t) のう
ち最大の重み付け確率ｇ_jim(x_t) を、出力確率ｂ_ji(x_t)
として検出することを表す。

【０１３５】

【数１０】

【０１３６】さらに対数化した遷移確率Ａ_ji＝ln
（ａ_ji）、対数化した出力確率Ｂ_ji(x_t)＝ln｛ｂ
_ji(x_t)｝、及び、対数化した前向き確率Ｃ_it＝ln
（ｃ_it）と表せば、式（１）〜（３）を変形して、尤度
ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_t ）｝の算出に関する
（９）〜（１１）式が得られる。

【０１３７】

【数１１】

【０１３８】（９）〜（１１）式はｔの漸化式であるか
ら、ｔ＝１、２、……、Ｔのときの対数化した前向き確
率Ｃ_itを、次式（１２）〜（１６）の如く順次に計算で
きる。

【０１３９】

【数１２】

【０１４０】ＨＭＭ照合部１８は、ｉ＝１、２、……Ｉ
の全てのｉについてｔ＝Ｔの対数化した前向き確率Ｃ_iT
を得ると、ｉ＝＊ｉなる対数化した前向き確率Ｃ_iTのな
かで最大のＣ_iTを、尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得る。辞書部１２に格納されているすべて
のＨＭＭについて、各ＨＭＭ毎に、尤度ln｛Ｐ（ｘ₁、
ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度を得たＨＭＭ
に付与されているカテゴリｚを、当該時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T を得た入力音声信号に対する認識結果と
して出力する。

【０１４１】次に請求項１の発明の第一実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
３及び図４はこの１個のＨＭＭに着目した処理の流れを
示す図である。この例では、出力確率ｂ_ji(x_t)、前向き
確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した出力
確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数化し
た参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉとして
説明する。

【０１４２】照合部１８は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部１６から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０１４３】次に照合部１８は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０１４４】次に照合部１８は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を対数化した参照
確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０１４５】参照情報記憶部３２には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域save B_jiを設けて
ある。従って参照情報記憶部３２は、Ｂ₁₁、Ｂ₁₂、…
…、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、……、Ｂ_J1、
Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納するＪ×Ｉ個の
格納領域を有する。そこで図にあっては、参照確率Ｂ_ji
の初期値を格納する処理を、save B_ji＝B_ji(x₁) と表し
ている。

【０１４６】次に照合部１８は、基準フレーム番号ｑｓ
を現フレーム番号１に初期化し（Ｓ５）、然る後、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率Ｃ_i1を式（１１）に従って求める（Ｓ６）。

【０１４７】次に照合部１８は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０１４８】（１−１Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部１８は現フレーム番号ｔの音声特徴
ベクトルｘ_t と基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsとの間の距離ｄｔｓを、次式（１７）に従って求
める（Ｓ９）。

【０１４９】

【数１３】

【０１５０】但し、ｘ_tk：現フレーム番号ｔの音声特徴ベクトルｘ_t のベク
トル成分ｘ_qsk ：基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
のベクトル成分次に照合部１８は、距離ｄｔｓと閾値ＤＴＳとを比較し
てこれらベクトルｘ_t及びｘ_qsが近似的に等しいか否か
を判定する（Ｓ１０）。

【０１５１】Ｓ１０で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t と
基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとが近似
せず従って現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照
確率Ｂ_jiで近似できないので、参照確率Ｂ_jiの書き換え
を行なうこととなる。そこで基準フレーム番号ｑｓを現
フレーム番号ｔに書き換える（Ｓ１１）。然る後、ｊ＝
１、２、……、Ｊ及びｉ＝１、２、……、Ｉの全ての
ｊ、ｉについて、対数化した出力確率Ｂ_ji(x_t)を式
（４）〜（７）に従って求め、参照確率Ｂ_jiを、当該出
力確率Ｂ_ji(x_t)に書き換える（Ｓ１２）。この参照確率
Ｂ_jiの書換え終了後に各参照確率Ｂ_jiを読み出し、ｉ＝
１、２、……、Ｉの全てのｉについて、前向き確率Ｃ_it
を式（１１）に従って求める（Ｓ１３）。然る後、音声
区間の次のフレームにつき処理を行なうべくＳ７の処理
に戻る。尚、Ｓ１２で参照確率Ｂ_jiを書き換える処理
を、図にあってはsave B_ji＝B_ji(x_t) と表している。

【０１５２】この場合のＳ１３で読み出した参照確率Ｂ
_jiは、Ｓ１２において求めた現フレーム番号ｔの出力確
率Ｂ_ji(x_t)であり、従ってこの場合のＳ１３では、現フ
レーム番号ｔの出力確率Ｂ_ji(x_t)を用いて前向き確率Ｃ
_itを求めることとなる。

【０１５３】またＳ１０で距離ｄｔｓが閾値ＤＴＳ以下
である場合には、現フレーム番号ｔの音声特徴ベクトル
ｘ_t は基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsに
近似的に等しく従って現フレーム番号ｔの出力確率Ｂ_ji
(x_t)は参照確率Ｂ_jiに近似的に等しくなるので、参照確
率Ｂ_jiの書換えは行なわないこととなる。そこで出力確
率Ｂ_ji(x_t)を式（４）〜（７）を用いて算出せずに、各
参照確率Ｂ_jiを読み出し、ｉ＝１、２、……、Ｉの全て
のｉについて、対数化した前向き確率Ｃ_itを式（１１）
に従って求める（Ｓ１３）。然る後、音声区間の次のフ
レームにつき処理を行なうべくＳ７の処理に戻る。

【０１５４】この場合のＳ１３で読み出した参照確率Ｂ
_jiは、基準フレーム番号ｑｓのフレームで求めた出力確
率Ｂ_ji(x_qs) であり、従ってこの場合のＳ１３では、基
準フレーム番号ｑｓの出力確率Ｂ_ji(x_qs) を用いて前向
き確率Ｃ_itを求めることとなる。

【０１５５】（１−１Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトル時系列ｘ₁ 、ｘ₂ 、……、ｘ
_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求め
る処理を終了する（終了）。

【０１５６】照合部１８は、辞書部１２に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に図３、図４に示
すＳ１〜Ｓ１３の処理を行なって尤度（前向き確率
Ｃ_iT）を求め、そして最大の尤度を得たＨＭＭのカテゴ
リを、当該音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を抽出した入力音声信号に対する認識結果とし
て、次段の装置（図示せず）へ出力する。

【０１５７】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、距離ｄｔｓ
が閾値ＤＴＳ以下となる場合に、出力確率Ｂ_ji(x_t)を式
（４）〜（７）から求める演算を行なわずに、前向き確
率Ｃ_itを求めるので、演算量を大幅に削減できる。しか
もこのような演算の簡略化は、距離ｄｔｓが閾値ＤＴＳ
以下となる場合に行なうので、演算の簡略化を行なって
も、前向き確率Ｃ_itの誤差を小さくできる。

【０１５８】この出願の発明者のシミュレーション結果
によれば、出力確率Ｂ_ji(x_t)を求めるための演算量を、
演算の簡略化を行なわない場合の約１／５となるよう
に、閾値ＤＴＳを定めた場合と、演算の簡略化を行なわ
ない場合とで、音声認識の認識精度に顕著な差を生じな
い例が数多く存在した。

【０１５９】＜請求項１の発明の第二実施形態＞請求項
１の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部１８を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置１０を
用いることができる。

【０１６０】すなわち照合部１８は、尤度を求める際
に、参照情報記憶部２０に格納してある参照確率ｂ_jiを
用いて、ｔ＝１、２、……、Ｔの各場合の前向き確率ｃ
_itを、次ぎの如くして順次に求める。

【０１６１】（１）．ｔ＝１のときは、基準フレーム番
号ｑｓを１に、及び、スキップ数ｓｋｉｐｓを０に初期
化すると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x
_t)をヒドンマルコフモデルから求め当該出力確率ｂ_ji(x
_t)を参照確率ｂ_jiの初期値として書き込み、参照確率ｂ
_jiの書込み終了後に各参照確率ｂ_jiを読み出して前向き
確率ｃ_itを求める処理（１Ａ）と、処理（１Ａ）の終了
後、現現フレーム番号ｔに１を加算する処理（１Ｂ）と
を行なう。

【０１６２】（２）．２≦ｔ≦Ｔのときは、スキップ数
ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共に、現フ
レーム番号ｔの音声特徴ベクトルｘ_t と基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを閾
値ＤＴＳと比較し、当該比較結果がｓｋｉｐｓ＞ＮＳＫ
ＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場合に、スキップ
数ｓｋｉｐｓを０に初期化し、及び、基準フレーム番号
ｑｓを現フレーム番号ｔに書き換えると共に、全ての
ｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフモ
デルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x_t)に
書き換え、この参照確率ｂ_jiの書換え終了後に各参照確
率ｂ_jiを読み出して前向き確率ｃ_itを求め、当該比較結
果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳとな
る場合に、スキップ数ｓｋｉｐｓに１を加算すると共
に、参照確率ｂ_jiの書換えを行なわずに各参照確率ｂ_ji
を読み出して前向き確率ｃ_itを求める処理（１Ｃ）と、
処理（１Ｃ）の終了後、現フレーム番号ｔに１を加算す
る処理（１Ｄ）とを行なう。

【０１６３】次に請求項１の発明の第二実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
５及び図６は、この１個のＨＭＭに着目した処理の流れ
を示す図である。この例では、出力確率ｂ_ji(x_t)、前向
き確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した出
力確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数化
した参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉとし
て説明する。

【０１６４】照合部１８は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部１６から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０１６５】次に照合部１８は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０１６６】次に照合部１８は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を対数化した出力
確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０１６７】参照情報記憶部３２には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域をsave B_jiを設け
てある。従って参照情報記憶部３２は、Ｂ₁₁、Ｂ₁₂、…
…、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、……、Ｂ_J1、
Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納するＪ×Ｉ個の
格納領域を有する。そこで図にあっては、参照確率Ｂ_ji
の初期値を格納する処理をsave B_ji＝B_ji(x₁) と表して
いる。

【０１６８】次に照合部１８は、基準フレーム番号ｑｓ
を現フレーム番号１に初期化すると共にスキップ数ｓｋ
ｉｐｓを０に初期化する（Ｓ５）。然る後、ｉ＝１、
２、……、Ｉの全てのｉについて、対数化した前向き確
率Ｃ_i1を式（１１）に従って求める（Ｓ６）。

【０１６９】次に照合部１８は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０１７０】（１−２Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、スキップ数ｓｋｉｐｓと閾値ＮＳＫＩＰＳ
との比較判定を行なう（Ｓ９）。

【０１７１】Ｓ９でスキップ数ｓｋｉｐｓが閾値ＮＳＫ
ＩＰＳを越える場合は、現フレーム番号ｔと基準フレー
ム番号ｑｓとの時間的隔たりが大きく従って誤差が増大
する可能性が高いので誤差を低減すべく、参照確率Ｂ_ji
の書換えを行なうこととなる。そこでスキップ数ｓｋｉ
ｐｓを０に初期化すると共に基準フレーム番号ｑｓを現
フレーム番号ｔに書き換える（Ｓ１０）。然る後、ｊ＝
１、２、……、Ｊ及びｉ＝１、２、……、Ｉの全ての
ｊ、ｉについて、対数化した出力確率Ｂ_ji(x_t)を式
（４）〜（７）に従って求め、参照確率Ｂ_jiを当該出力
確率Ｂ_ji(x_t)に書き換える（Ｓ１１）。この参照確率Ｂ
_jiの書換え終了後に各参照確率Ｂ_jiを読み出し、ｉ＝
１、２、……、Ｉの全てのｉについて、前向き確率Ｃ_it
を式（１１）に従って求める（Ｓ１２）。然る後、音声
区間の次のフレームにつき処理を行なうべくＳ７の処理
に戻る。尚、Ｓ１１で参照確率Ｂ_jiを書き換える処理
を、図にあってはsave B_ji＝B_ji(x_t) と表している。

【０１７２】この場合のＳ１２で読み出した参照確率Ｂ
_jiは、Ｓ１１において求めた現フレーム番号ｔの出力確
率Ｂ_ji(x_t)であり、従ってこの場合のＳ１２では、現フ
レーム番号ｔの出力確率Ｂ_ji(x_t)を用いて前向き確率Ｃ
_itを求めることとなる。

【０１７３】Ｓ９でスキップ数ｓｋｉｐｓが閾値ＮＳＫ
ＩＰＳ以下となる場合は、照合部１８は、現フレーム番
号ｔの音声特徴ベクトルｘ_t と基準フレーム番号ｑｓの
音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを求め（Ｓ１
３）、求めた距離ｄｔｓを閾値ＤＴＳと比較してこれら
ベクトルｘ_t 及びｘ_qsが近似的に等しいか否かを判定す
る（Ｓ１４）。

【０１７４】Ｓ１４で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t と
基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとが近似
せず従って現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照
確率Ｂ_jiで近似できないので、参照確率Ｂ_jiの書き換え
を行なうこととなる。そこでＳ１０〜Ｓ１２の処理を行
ない、然る後、音声区間の次のフレームにつき処理を行
なうべくＳ７の処理に戻る。

【０１７５】Ｓ１４で距離ｄｔｓが閾値ＤＴＳ以下であ
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsに近似
的に等しく従って現フレーム番号ｔの出力確率Ｂ_ji(x_t)
は参照確率Ｂ_jiに近似的に等しくなるので、参照確率Ｂ
_jiの書換えは行なわないこととなる。そこでスキップ数
ｓｋｉｐｓに１を加算してスキップ数ｓｋｉｐｓをカウ
ントアップし（Ｓ１５）、然る後、出力確率Ｂ_ji(x_t)を
式（４）〜（７）を用いて算出せずに、参照確率Ｂ_jiを
読み出し、ｉ＝１、２、……、Ｉの全てのｉについて、
対数化した前向き確率Ｃ_itを式（１１）に従って求める
（Ｓ１２）。然る後、音声区間の次のフレームにつき処
理を行なうべくＳ７の処理に戻る。

【０１７６】この場合のＳ１２で読み出した参照確率Ｂ
_jiは、基準フレーム番号ｑｓのフレームで求めた出力確
率Ｂ_ji(x_t)であり、従ってこの場合のＳ１２では、基準
フレーム番号ｑｓの出力確率Ｂ_ji(x_qs) を用いて前向き
確率Ｃ_itを求めることとなる。

【０１７７】（１−２Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、
ｘ_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求
める処理を終了する（終了）。

【０１７８】照合部１８は、辞書部１２に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に、図５、図６に
示すＳ１〜Ｓ１５の処理を行なって尤度（前向き確率Ｃ
_iT）を求め、求めた尤度のうち最大の尤度を検出する。
そして最大の尤度を得たＨＭＭのカテゴリを、当該音声
特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、ｘ_T を抽出し
た入力音声信号に対する認識結果として、次段の装置
（図示せず）へ出力する。

【０１７９】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、スキップ数
ｓｋｉｐｓが閾値ＮＳＫＩＰＳ以下となりかつ距離ｄｔ
ｓが閾値ＤＴＳ以下となる場合に、出力確率Ｂ_ji(x_t)を
式（４）〜（７）から求める演算を行なわずに、前向き
確率Ｃ_itを求めるので、大幅に演算量を削減できる。し
かもこのような演算の簡略化は、スキップ数ｓｋｉｐｓ
が閾値ＮＳＫＩＰＳ以下となりかつ距離ｄｔｓが閾値Ｄ
ＴＳ以下となる場合に行なうので、演算の簡略化を行な
っても、前向き確率Ｃ_itの誤差を小さくできる。

【０１８０】請求項１の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。

【０１８１】＜請求項３の発明の第一実施形態＞図７は
請求項３の発明の第一実施形態の実施に用いて好適な音
声認識装置の構成例を示す機能ブロック図である。

【０１８２】同図に示す音声認識装置２２は、辞書部２
４、音響処理部２６、音声区間検出部２８、照合部３０
及び参照情報記憶部３２を備える。

【０１８３】辞書部２４は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。ヒドンマルコフモデルにおいて音声
特徴ベクトルｘの出力確率ｂ_ji(x) を与える状態遷移の
遷移元となる状態Ｓ_j には、定常部及び過渡部のいずれ
かの種別ｓを付与してある。参照情報記憶部３２は、定
常部基準フレーム番号ｑｓ、過渡部基準フレーム番号ｑ
ｔと、参照確率ｂ_jiとを格納する。

【０１８４】音響処理部２６は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部２８は、入力音声信号から音声区間を検
出する。

【０１８５】照合部３０は、請求項３の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列ｘ₁ 、ｘ₂ 、……、ｘ_T とヒドンマルコフモデル
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
次式（１）〜（３）を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。

【０１８６】

【数１４】

【０１８７】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉ尤度を求める際には、参照情報記憶部３２に格納されて
いる参照確率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの各
場合の前向き確率ｃ_itを、次の如くして順次に求める。

【０１８８】（１）．ｔ＝１のときは、定常部基準フレ
ーム番号ｑｓ、過渡部基準フレーム番号ｑｔをそれぞれ
１に初期化すると共に、全てのｊ、ｉについて、出力確
率ｂ_ji(x_t)をヒドンマルコフモデルから求め当該出力確
率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書き込み、該
参照確率ｂ_jiの書込み終了後に各参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める処理（２Ａ）を行なう。そ
して処理（２Ａ）の終了後、現フレーム番号ｔに１を加
算する処理（２Ｂ）を行なう。

【０１８９】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と定常部基準フレーム番
号ｑｓの音声特徴ベクトル_qsとの間の距離ｄｔｓを閾値
ＤＴＳと比較し、当該比較結果がｄｔｓ＞ＤＴＳとなる
場合に、定常部基準フレーム番号ｑｓを現フレーム番号
ｔに書き換える処理（２Ｃ）と、現フレーム番号ｔの音
声特徴ベクトルｘ_t と過渡部基準フレーム番号ｑｔの音
声特徴ベクトルｘ_qtとの間の距離ｄｔｔを閾値ＤＴＴと
比較し、当該比較結果がｄｔｔ＞ＤＴＴとなる場合に、
過渡部基準フレーム番号ｑｔを現フレーム番号ｔに書き
換える処理（２Ｄ）とを行ない、これら処理（２Ｃ）及
び（２Ｄ）の終了後、ｊ＝１、２、……、Ｊの各ｊ毎
に、出力確率ｂ_ji(x_t)を与える状態遷移の遷移元Ｓ_j に
付与されている種別ｓを判定する処理（２Ｅ）を行な
う。

【０１９０】そして処理（２Ｅ）の種別判定結果が定常
部であった場合に、処理（２Ｃ）の比較結果がｄｔｓ＞
ＤＴＳであれば、当該種別判定結果を得たｊに関しては
全てのｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフ
モデルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x_t)
に書き換え、処理（２Ｅ）の種別判定結果が定常部であ
った場合に、処理（２Ｃ）の比較結果がｄｔｓ≦ＤＴＳ
であれば、当該種別判定結果を得たｊに関しては参照確
率ｂ_jiの書換えを行なわず、処理（２Ｅ）の種別判定結
果が過渡部であった場合に、処理（２Ｄ）の比較結果が
ｄｔｔ＞ＤＴＴであれば、当該種別判定結果を得たｊに
関しては全てのｉについて、出力確率ｂ_ji(x_t)をヒドン
マルコフモデルから求めて参照確率ｂ_jiを当該出力確率
ｂ_ji(x_t)に書き換え、処理（２Ｅ）の種別判定結果が過
渡部であった場合に、処理（２Ｄ）の比較結果がｄｔｔ
≦ＤＴＴであれば、当該種別判定結果を得たｊに関して
は参照確率ｂ_jiの書換えを行なわない処理（２Ｆ）を行
なう。

【０１９１】そしてｊ＝１、２、……、Ｊの個々のｊ毎
に処理（２Ｆ）を行ない、全てのｊにつき処理（２Ｆ）
を終了したら、各参照確率ｂ_jiを読み出して前向き確率
ｃ_itを求める処理（２Ｇ）を行なう。処理（２Ｇ）の終
了後、現フレーム番号ｔに１を加算する処理（２Ｈ）を
行なう。

【０１９２】図８はヒドンマルコフモデルの説明に供す
る図である。辞書部２４に格納されているヒドンマルコ
フモデル（Hidden Markov Model 。以下、ＨＭＭ）は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリｚ毎に
複数のＨＭＭを用意し、ＨＭＭとカテゴリｚとを相対応
付けて辞書部２４に格納する。

【０１９３】ＨＭＭは、総個数Ｉ個の状態Ｓ₁ 〜Ｓ_I か
ら成る状態の集合１と、音声特徴ベクトルｘの集合２
と、状態遷移確率ａ_jiの集合３と、出力確率ｂ_ji(x) の
集合４と、初期状態確率Ф_i の集合５と、最終状態Ｆの
集合６とにより定義される。そしてＨＭＭにおいて出力
確率ｂ_ji(x) を与える状態遷移の遷移元Ｓ_j に対して
は、定常部及び過渡部のいずれかの種別ｓを付与してあ
る。但し、

【０１９４】

【数１５】

【０１９５】ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊａ_ji：状態Ｓ_j から状態Ｓ_i に遷移する確率ｂ_ji(x) ：状態Ｓ_j から状態Ｓ_i に遷移する際に音声特
徴ベクトルｘが出力される確率 Ф_i ：初期状態がＳ_i である確率例えば図２の例において、ａ₁₂は状態Ｓ₁ から状態Ｓ₂
に遷移する確率及びｂ₁₂(x) は状態Ｓ₁ から状態Ｓ₂ に
遷移したとき音声特徴ベクトルｘが出力される確率、ま
たａ₂₂は状態Ｓ₂ から状態Ｓ₂ に遷移する確率及びｂ₂₂
(x) は状態Ｓ₂から状態Ｓ₂ に遷移したとき音声特徴ベ
クトルｘが出力される確率を表す。さらに出力確率ｂ₁₁
(x) を与える状態遷移Ｓ₁ →Ｓ₁ の遷移元Ｓ₁ に対して
は、種別ｓとして過渡部が、また出力確率ｂ₁₂(x) を与
える状態遷移Ｓ₁ →Ｓ₂ に対しては、種別ｓとして定常
部が付与してある。

【０１９６】ＨＭＭを定義するための集合１〜６は、統
計的手法によって、各カテゴリｚ毎に個別に求められ
る。すなわちカテゴリｚに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合１〜６を求
める。この際、出力確率ｂ_ji(x) を与える状態遷移が音
声信号の定常部及び過渡部のいずれであるかも調べて、
当該状態遷移の遷移元Ｓ_j に対し定常部及び過渡部のい
ずれかの種別ｓを付与する。

【０１９７】出力確率ｂ_ji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルｘの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。

【０１９８】次に音声認識装置２２の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。

【０１９９】音響処理部２６は、入力音声信号から、各
フレーム毎に音声特徴ベクトルｘ_t＝（ｘ_t1、ｘ_t2、…
…、ｘ_tp）を抽出する。ここでｐは音声特徴ベクトルｘ
_t の次数及びｘ_t1〜ｘ_tpは音声特徴ベクトルｘ_t のベク
トル成分を表す。ｔは音声特徴ベクトルｘ_t が抽出され
たフレームに付与されている番号である。後述するＨＭ
Ｍとの照合の段階では音声区間の始端フレームのフレー
ム番号ｔを１として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
ｔを付与してあれば良い。

【０２００】音声特徴ベクトルｘ_t のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちＬＰＣ分析
により求められるＬＰＣケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルｘ_t を抽出する例につき説明する。

【０２０１】音響処理部２６は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯（チャネル）の信号成分に分離し、
それぞれ周波数帯が異なる総個数ｐ個の信号成分ｘ1 〜
ｘp を得る。次いで音響処理部２６は、信号成分ｘ1を
整流し、フレーム単位に、整流した信号成分ｘ1 （信号
成分ｘ1 の絶対値）の平均値を得る。この平均値は、整
流した信号成分ｘ1 を１フレーム分の時間幅で除して得
られる。第ｔ番目のフレームにおいて得られる信号成分
ｘ1 の平均値を、音声特徴ベクトルｘ_t の成分ｘ_t1とし
て抽出する。同様にして、残りの信号成分ｘ2 〜ｘp か
ら、音声特徴ベクトルｘ_t の成分ｘ_t2〜ｘ_tpを抽出す
る。

【０２０２】次に音声区間検出部２８は、音響処理部２
６からの音声特徴ベクトルｘ_t に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語１個分の音声信号が含まれる
区間である。

【０２０３】照合部３０は、区間情報と音声特徴ベクト
ルｘ_t とを音声区間検出部２８から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルｘ_t の時系列ｘ₁ 、ｘ₂ 、……、ｘ_T を生
成する。この際、始端フレームのフレーム番号ｔを１と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号ｔを昇順に書き改める。

【０２０４】そして照合部３０はベクトル時系列ｘ₁ 、
ｘ₂ 、……、ｘ_T と辞書部２４に格納されているＨＭＭ
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
辞書部２４の各ＨＭＭ毎に個別に求め、最大の尤度を得
たＨＭＭに対し付与されているカテゴリｚを、認識結果
として出力する。

【０２０５】ここで、式（１）で示されるＰ（ｘ₁ 、ｘ
₂ 、……、ｘ_T ）は、ＨＭＭにおいてベクトル時系列ｘ
₁ 、ｘ₂ 、……、ｘ_T が出現する確率である。

【０２０６】

【数１６】

【０２０７】（１）式中のｃ_iTは、ＨＭＭにおいて初期
状態から遷移を開始しベクトル時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を出力して状態Ｓ_i に至る前向き確率、＊ｉは
Ｓ_i ∈Ｆを満たすｉ（最終状態Ｆに属する状態Ｓ_i に付
与されている番号ｉ）であって、従ってｉ＝＊ｉとなる
前向き確率ｃ_iTのなかで最大の前向き確率ｃ_iTを、出現
確率Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）とするものである。

【０２０８】前向き確率ｃ_iTは、ビタビアルゴリズムに
より、式（２）〜（３）に示す漸化式を用いて近似的に
求められる。ｃ_i0＝Ф_i ……（２）

【０２０９】

【数１７】

【０２１０】ＨＭＭにおいて、音声特徴ベクトルｘ_t を
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列ｘ₁ 〜ｘ_t を出力して状態Ｓ_i に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式（３）に示されるよ
うに、各遷移パス毎に計算したｃ_j(t-1)ａ_jiｂ_ji(x_t)の
うち最大のｃ_j(t-1)ａ_jiｂ_ji(x_t)を、前向き確率ｃ_itと
する。この計算法はビタビ法と呼ばれる。

【０２１１】（３）式中の出力確率ｂ_ji(x_t)を、ここで
は次式（４）の如く定義する。

【０２１２】

【数１８】

【０２１３】但し、ｍ＝１、２、……、Ｍｇ_jim(x_t) ：総個数Ｍ個の正規分布から成る無相関混合
正規分布において第ｍ番目の正規分布から算出される音
声特徴ベクトルｘ_t の重み付け確率（４）式中の重み付け確率ｇ_jim(x_t) は、次式（５）〜
（７）を用いて表される。

【０２１４】ｇ_jim(x_t) ＝λ_jim ｂ_jim(x_t) ……（５）ｂ_jim(x_t) ＝（２π）^-p/2｜ρ_jim ｜^-1/2 exp｛−Ｄ_jimt ² ／２｝ ……（６）Ｄ_jimt ² ＝（ｘ_t −μ_jim ）’ρ_jim ^-1(ｘ_t −μ_jim ） ……（７） λ_jim ：第ｍ番目の正規分布の重みｂ_jim(x_t) ：第ｍ番目の正規分布から算出される音声特
徴ベクトルｘ_t の重み無し確率 ρ_jim ：第ｍ番目の正規分布の分散・供分散行列 μ_jim ：第ｍ番目の正規分布の平均ベクトルＤ_jimt：音声特徴ベクトルｘ_t と第ｍ番目の正規分布と
の間の距離を表すマハラビスの汎距離（ｘ_t −μ_jim ）’：（ｘ_t −μ_jim ）の転置行列尚、出力確率ｂ_ji(x_t)としては種々のものを用いること
ができ、（４）式のもののほか例えば、次式（８）の如
く定義したものを用いても良い。（８）式は、総個数Ｍ
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率ｇ_jim(x_t) のう
ち最大の重み付け確率ｇ_jim(x_t) を、出力確率ｂ_ji(x_t)
として検出することを表す。

【０２１５】

【数１９】

【０２１６】さらに対数化した遷移確率Ａ_ji＝ln
（ａ_ji）、対数化した出力確率Ｂ_ji(x_t)＝ln｛ｂ
_ji(x_t)｝、及び、対数化した前向き確率Ｃ_it＝ln
（ｃ_it）と表せば、式（１）〜（３）を変形して、尤度
ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_t ）｝の算出に関する
（９）〜（１１）式が得られる。

【０２１７】

【数２０】

【０２１８】（９）〜（１１）式はｔの漸化式であるか
ら、ｔ＝１、２、……、Ｔのときの対数化した前向き確
率Ｃ_itを、次式（１２）〜（１６）の如く順次に計算で
きる。

【０２１９】

【数２１】

【０２２０】ＨＭＭ照合部３０は、ｉ＝１、２、……、
Ｉの全てのｉにつきｔ＝Ｔの対数化した前向き確率Ｃ_iT
を得ると、ｉ＝＊ｉなる対数化した前向き確率Ｃ_iTのな
かで最大のＣ_iTを、尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得る。辞書部２４に格納されているすべて
のＨＭＭについて、各ＨＭＭ毎に、尤度ln｛Ｐ（ｘ₁、
ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度を得たＨＭＭ
に付与されているカテゴリｚを、当該時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T を得た入力音声信号に対する認識結果と
して出力する。

【０２２１】次に請求項３の発明の第一実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
９〜図１１は、この１個のＨＭＭに着目した処理の流れ
を示す図である。この例では、出力確率ｂ_ji(x_t)、前向
き確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した出
力確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数化
した参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉとし
て説明する。

【０２２２】照合部３０は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部２８から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０２２３】次に照合部３０は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０２２４】次に照合部３０は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を対数化した参照
確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０２２５】参照情報記憶部３２には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域save B_jiを設けて
ある。従って参照情報記憶部３２は、Ｂ₁₁、Ｂ₁₂、…
…、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、……、Ｂ_J1、
Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納するＪ×Ｉ個の
格納領域を有する。そこで図にあっては、参照確率Ｂ_ji
の初期値を格納する処理を、save B_ji＝B_ji(x₁) と表し
ている。

【０２２６】次に照合部３０は、定常部基準フレーム番
号ｑｓ、過渡部基準フレーム番号ｑｔをそれぞれ、現フ
レーム番号１に初期化し（Ｓ５）、然る後、ｉ＝１、
２、……、Ｉの全てのｉについて、対数化した前向き確
率Ｃ_i1を式（１１）に従って求める（Ｓ６）。

【０２２７】次に照合部３０は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０２２８】（２−１Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部３０は現フレーム番号ｔの音声特徴
ベクトルｘ_t と定常部基準フレーム番号ｑｓの音声特徴
ベクトルｘ_qsとの間の距離ｄｔｓを、次式（１７）に従
って求める（Ｓ９）。

【０２２９】

【数２２】

【０２３０】但し、ｘ_tk：現フレーム番号ｔの音声特徴ベクトルｘ_t のベク
トル成分ｘ_qsk ：定常部基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsのベクトル成分次に照合部３０は、定常部に関わる距離ｄｔｓと閾値Ｄ
ＴＳとを比較してこれらベクトルｘ_t 及びｘ_qsが近似的
に等しいか否かを判定する（Ｓ１０）。

【０２３１】Ｓ１０で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsに
近似せず従って現フレーム番号ｔの音声特徴ベクトルｘ
_t は定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ
_qsからの変化が大きいので、定常部基準フレーム番号ｑ
ｓを現フレーム番号ｔに書き換えると共に定常部に関わ
る比較結果mode sとして、ｄｔｓ＞ＤＴＳを表す情報TR
UEを書き込む（Ｓ１１）。

【０２３２】Ｓ１０で距離ｄｔｓが閾値ＤＴＳ以下とな
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
に近似的に等しくなり従って現フレーム番号ｔの音声特
徴ベクトルｘ_t は定常部基準フレーム番号ｑｓの音声特
徴ベクトルｘ_qsからの変化が小さいので、定常部基準フ
レーム番号ｑｓの書換えは行なわないと共に定常部に関
わる比較結果mode sとして、ｄｔｓ≦ＤＴＳを表す情報
FALSE を書き込む（Ｓ１２）。

【０２３３】Ｓ１１若しくはＳ１２の処理を終了した
ら、次に照合部３０は現フレーム番号ｔの音声特徴ベク
トルｘ_t と過渡部基準フレーム番号ｑｔの音声特徴ベク
トルｘ_qtとの間の距離ｄｔｔを、次式（１８）に従って
求める（Ｓ１３）。

【０２３４】

【数２３】

【０２３５】但し、ｘ_tk：現フレーム番号ｔの音声特徴ベクトルｘ_t のベク
トル成分ｘ_qtk ：過渡部基準フレーム番号ｑｔの音声特徴ベクト
ルｘ_qtのベクトル成分次に照合部３０は、過渡部に関わる距離ｄｔｔと閾値Ｄ
ＴＴとを比較してこれらベクトルｘ_t 及びｘ_qtが近似的
に等しいか否かを判定する（Ｓ１４）。

【０２３６】Ｓ１４で距離ｄｔｔが閾値ＤＴＴを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t が
過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ_qtに
近似せず従って現フレーム番号ｔの音声特徴ベクトルｘ
_t は過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ
_qtからの変化が大きいので、過渡部基準フレーム番号ｑ
ｔを現フレーム番号ｔに書き換えると共に過渡部に関わ
る比較結果mode tとして、ｄｔｔ＞ＤＴＴを表す情報TR
UEを書き込む（Ｓ１５）。

【０２３７】Ｓ１４で距離ｄｔｔが閾値ＤＴＴ以下とな
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ_qt
に近似的に等しくなり従って現フレーム番号ｔの音声特
徴ベクトルｘ_t は過渡部基準フレーム番号ｑｔの音声特
徴ベクトルｘ_qtからの変化が小さいので、過渡部基準フ
レーム番号ｑｔの書換えは行なわないと共に過渡部に関
わる比較結果mode tとして、ｄｔｔ≦ＤＴＴを表す情報
FALSE を書き込む（Ｓ１６）。

【０２３８】Ｓ１５若しくはＳ１６の処理を終了した
ら、次に照合部３０は、遷移元Ｓ_j の番号ｊ（番号ｊは
ヒドンマルコフモデルにおいて状態遷移の遷移元Ｓ_j に
付与されている番号）を初期値１に設定し（Ｓ１７）、
然る後、遷移元Ｓ_j の番号ｊが最大の番号Ｊ（ここでは
Ｊ＝Ｉ）を越えるか否かを判定する（Ｓ１８）。

【０２３９】Ｓ１８でｊ≦Ｊであれば、次に照合部３０
は、遷移元Ｓ_j に付与されている種別ｓが定常部及び過
渡部のいずれであるかを判定する（Ｓ１９）。

【０２４０】Ｓ１９の種別判定結果が定常部である場合
は、次に照合部３０は定常部に関わる比較結果mode sを
参照して、定常部に関わる距離ｄｔｓが閾値ＤＴＳを越
えていたか否かを判定する（Ｓ２０）。

【０２４１】Ｓ２０で比較結果mode sがｄｔｓ＞ＤＴＳ
であったことを表す情報TRUEであれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t が定常部基準フレーム番号ｑ
ｓの音声特徴ベクトルｘ_qsに近似せず従って現フレーム
番号ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsからの変化が大きいの
で、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ
_jiで近似できない。そこで照合部３０は、ｊ＝１、２、
……、Ｊ及びｉ＝１、２、……、Ｉの全てのｊ、ｉにつ
いて、対数化した出力確率Ｂ_ji(x_t)を式（４）〜（７）
に従って求め、参照確率Ｂ_jiを、当該出力確率Ｂ_ji(x_t)
に書き換える（Ｓ２１）。次に照合部３０は、次の番号
ｊにつき処理を行なうべく、遷移元Ｓ_j の番号ｊに１を
加算し（Ｓ２２）、然る後、Ｓ１８の処理を行なう。
尚、Ｓ２１で参照確率Ｂ_jiを書き換える処理を、図にあ
ってはsave B_ji＝B_ji(x_t) と表している。

【０２４２】Ｓ２０で比較結果mode sがｄｔｓ≦ＤＴＳ
であったことを表す情報FALSE であれば、現フレーム番
号ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番号
ｑｓの音声特徴ベクトルｘ_qsに近似的に等しく従って現
フレーム番号ｔの音声特徴ベクトルｘ_t は定常部基準フ
レーム番号ｑｓの音声特徴ベクトルｘ_qsからの変化が小
さいので、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照
確率Ｂ_jiで近似できる。そこで照合部３０は、Ｓ２１の
処理を行なわずに、従って出力確率Ｂ_ji(x_t)を式（４）
〜（７）に従って求める処理も参照確率Ｂ_jiを書き換え
る処理も行なわずに、次の番号ｊにつき処理を行なうべ
く、遷移元Ｓ_j の番号ｊに１を加算し（Ｓ２２）、然る
後、Ｓ１８の処理を行なう。

【０２４３】Ｓ１９の種別判定結果が過渡部である場合
は、次に照合部３０は過渡部に関わる比較結果mode tを
参照して、過渡部に関わる距離ｄｔｔが閾値ＤＴＴを越
えていたか否かを判定する（Ｓ２３）。

【０２４４】Ｓ２３で比較結果mode tがｄｔｔ＞ＤＴＴ
であったことを表す情報TRUEであれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番号ｑ
ｔの音声特徴ベクトルｘ_qtに近似せず従って現フレーム
番号ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番
号ｑｔの音声特徴ベクトルｘ_qtからの変化が大きいの
で、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ
_jiで近似できない。そこで照合部３０は、ｊ＝１、２、
……、Ｊ及びｉ＝１、２、……、Ｉの全てのｊ、ｉにつ
いて、対数化した出力確率Ｂ_ji(x_t)を式（４）〜（７）
に従って求め、参照確率Ｂ_jiを、当該出力確率Ｂ_ji(x_t)
に書き換える（Ｓ２１）。次に照合部３０は、次の番号
ｊにつき処理を行なうべく、遷移元Ｓ_j の番号ｊに１を
加算し（Ｓ２２）、然る後、Ｓ１８の処理を行なう。

【０２４５】Ｓ２３で比較結果mode tがｄｔｔ≦ＤＴＴ
であったことを表す情報FALSE であれば、現フレーム番
号ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番号
ｑｔの音声特徴ベクトルｘ_qtに近似的に等しくなり従っ
て現フレーム番号ｔの音声特徴ベクトルｘ_t は過渡部基
準フレーム番号ｑｔの音声特徴ベクトルｘ_qtからの変化
が小さいので、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は
参照確率Ｂ_jiで近似できる。そこで照合部３０は、Ｓ２
１の処理を行なわずに、従って出力確率Ｂ_ji(x_t)を式
（４）〜（７）に従って求める処理も参照確率Ｂ_jiを書
き換える処理も行なわずに、次の番号ｊにつき処理を行
なうべく、遷移元Ｓ_j の番号ｊに１を加算し（Ｓ２
２）、然る後、Ｓ１８の処理を行なう。

【０２４６】そしてｊ＝１、２、……、Ｊの全てのｊに
つきＳ１９〜Ｓ２３の処理を終了すると、Ｓ１８の処理
でｊ＞Ｊ（ここではＪ＝Ｉ）との判定結果を得るので、
Ｓ１８でｊ＞Ｊであれば、次に照合部３０は、各参照確
率Ｂ_jiを読み出し、ｉ＝１、２、……、Ｉの全てのｉに
ついて、前向き確率Ｃ_itを式（１１）に従って求める
（Ｓ２４）。然る後、音声区間の次のフレームにつき処
理を行なうべくＳ７の処理に戻る。

【０２４７】（２−１Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトル時系列ｘ₁ 、ｘ₂ 、……、ｘ
_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求め
る処理を終了する（終了）。

【０２４８】照合部３０は、辞書部２４に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に図９〜図１１に
示すＳ１〜Ｓ２３の処理を行なって尤度（前向き確率Ｃ
_iT）を求め、そして最大の尤度を得たＨＭＭのカテゴリ
を、当該音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_T を抽出した入力音声信号に対する認識結果として、
次段の装置（図示せず）へ出力する。

【０２４９】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、遷移元Ｓ_j
が定常部である場合に距離ｄｔｓが閾値ＤＴＳ以下とな
るか、若しくは、遷移元Ｓ_j が過渡部である場合に距離
ｄｔｔが閾値ＤＴＴ以下となるかした場合に、出力確率
Ｂ_ji(x_t)を式（４）〜（７）から求める演算を行なわず
に、前向き確率Ｃ_itを求めるので、演算量を大幅に削減
できる。しかもこのような演算の簡略化は、遷移元Ｓ_j
が定常部である場合に距離ｄｔｓが閾値ＤＴＳ以下とな
るか若しくは遷移元Ｓ_j が過渡部である場合に距離ｄｔ
ｔが閾値ＤＴＴ以下となるかした場合に、行なうので、
演算の簡略化を行なっても、前向き確率Ｃ_itの誤差を小
さくできる。

【０２５０】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルｘ_t の変化は大きいので、
遷移元Ｓ_j の種別ｓが過渡部である場合には、過渡部に
関わる閾値ＤＴＴを小さく設定することにより前向き確
率Ｃ_itの誤差を小さくすることが望まれる。

【０２５１】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルｘ_t の変化は小さ
いので、遷移元Ｓ_j の種別ｓが定常部である場合には、
定常部に関わる閾値ＤＴＳを大きくしても前向き確率Ｃ
_itの誤差を小さくすることができる。

【０２５２】従って定常部に関わる閾値ＤＴＳとして値
の大きなものを用いると共に、過渡部に関わる閾値ＤＴ
Ｔとして値の小さなものを用いることにより、前向き確
率Ｃ_itの誤差をなるべく小さくしつつ、演算量を削減す
ることができる。

【０２５３】この出願の発明者のシミュレーション結果
によれば、図９〜図１１に示すこの例において、前向き
確率Ｃ_itを求めるための演算量が、演算の簡略化を行な
わない場合の約１／５となるように、定常部に関わる閾
値ＤＴＳ及び過渡部に関わる閾値ＤＴＴを定めても、図
９〜図１１に示すこの例と、演算の簡略化を行なわない
場合とで、音声認識の認識精度に顕著な差を生じないば
かりか、むしろ認識精度が向上する例が数多く存在し
た。

【０２５４】＜請求項３の発明の第二実施形態＞請求項
３の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部３０を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置１０を
用いることができる。

【０２５５】すなわち照合部３０は、尤度を求める際
に、参照情報記憶部３２に格納されている参照確率ｂ_ji
を用いて、ｔ＝１、２、……、Ｔの各場合の前向き確率
ｃ_itを、次ぎの如くして順次に求める。

【０２５６】（１）．ｔ＝１のときは、定常部スキップ
数ｓｋｉｐｓ、過渡部スキップ数ｓｋｉｐｔをそれぞれ
０に、及び、定常部基準フレーム番号ｑｓ、過渡部基準
フレーム番号ｑｔをそれぞれ１に初期化すると共に、全
てのｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求め当該出力確率ｂ_ji(x_t)を参照確率ｂ_ji
の初期値として書き込み、参照確率ｂ_jiの書込み終了後
に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める
処理（２Ａ）を行なう。

【０２５７】そして処理（２Ａ）の終了後、現フレーム
番号ｔに１を加算する処理（２Ｂ）を行なう。

【０２５８】（２）．２≦ｔ≦Ｔのときは、定常部スキ
ップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共
に、現フレーム番号ｔの音声特徴ベクトルｘ_t と定常部
基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の
距離ｄｔｓを閾値ＤＴＳと比較し、当該比較結果がｓｋ
ｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場
合に、定常部スキップ数ｓｋｉｐｓを０に初期化し、及
び、定常部基準フレーム番号ｑｓを現フレーム番号ｔに
書き換え、当該比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳか
つｄｔｓ≦ＤＴＳとなる場合に、定常部スキップ数ｓｋ
ｉｐｓに１を加算する処理（２Ｃ）と、過渡部スキップ
数ｓｋｉｐｔを閾値ＮＳＫＩＰＴと比較すると共に、現
フレーム番号ｔの音声特徴ベクトルｘ_t と過渡部基準フ
レーム番号ｑｔの音声特徴ベクトルｘ_qtとの間の距離ｄ
ｔｔを閾値ＤＴＴと比較し、当該比較結果がｓｋｉｐｔ
＞ＮＳＫＩＰＴ若しくはｄｔｔ＞ＤＴＴとなる場合に、
過渡部スキップ数ｓｋｉｐｔを０に初期化し、及び、過
渡部基準フレーム番号ｑｔを現フレーム番号ｔに書き換
え、当該比較結果がｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔ
ｔ≦ＤＴＴとなる場合に、過渡部スキップ数ｓｋｉｐｔ
に１を加算する処理（２Ｄ）とを行なう。

【０２５９】そして処理（２Ｃ）、（２Ｄ）の終了後、
ｊ＝１、２、……、Ｊの各ｊ毎に、出力確率ｂ_ji(x_t)を
与える状態遷移の遷移元Ｓ_j に付与されている種別ｓを
判定する処理（２Ｅ）を行なう。

【０２６０】そして処理（２Ｅ）の種別判定結果が定常
部であった場合に、処理（２Ｃ）の比較結果がｓｋｉｐ
ｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳであれば、当
該種別判定結果を得たｊに関しては全てのｉについて、
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求めて参
照確率ｂ_jiを当該出力確率ｂ_ji(x_t)に書き換え、処理
（２Ｅ）の種別判定結果が定常部であった場合に、処理
（２Ｃ）の比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄ
ｔｓ≦ＤＴＳであれば、当該種別判定結果を得たｊに関
しては参照確率ｂ_jiの書換えを行なわず、処理（２Ｅ）
の種別判定結果が過渡部であった場合に、処理（２Ｄ）
の比較結果がｓｋｉｐｔ＞ＮＳＫＩＰＴ若しくはｄｔｔ
＞ＤＴＴであれば、当該種別判定結果を得たｊに関して
は全てのｉについて、出力確率ｂ_ji(x_t)をヒドンマルコ
フモデルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x
_t)に書き換え、処理（２Ｅ）の種別判定結果が過渡部で
あった場合に、処理（２Ｄ）の比較結果がｓｋｉｐｔ≦
ＮＳＫＩＰＴかつｄｔｔ≦ＤＴＴであれば、当該種別判
定結果を得たｊに関しては参照確率ｂ_jiの書換えを行な
わない処理（２Ｆ）を行なう。

【０２６１】そしてｊ＝１、２、……、Ｊの個々のｊ毎
に該処理（２Ｆ）を行ない、全てのｊにつき処理（２
Ｆ）を終了したら、各参照確率ｂ_jiを読み出して前向き
確率ｃ_itを求める処理（２Ｇ）を行なう。

【０２６２】そして処理（２Ｇ）の終了後、現フレーム
番号ｔに１を加算する処理（２Ｈ）を行なう。

【０２６３】次に請求項３の発明の第二実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
１２〜図１４は、この１個のＨＭＭに着目した処理の流
れを示す図である。この例では、出力確率ｂ_ji(x_t)、前
向き確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した
出力確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数
化した参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉと
して説明する。

【０２６４】照合部３０は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部２８から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０２６５】次に照合部３０は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０２６６】次に照合部３０は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を対数化した参照
確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０２６７】参照情報記憶部３２には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域save B_jiを設けて
ある。従って参照情報記憶部３２は、Ｂ₁₁、Ｂ₁₂、…
…、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、……、Ｂ_J1、
Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納するＪ×Ｉ個の
格納領域を有する。そこで図にあっては、参照確率Ｂ_ji
の初期値を格納する処理を、save B_ji＝B_ji(x₁) と表し
ている。

【０２６８】次に照合部３０は、定常部スキップ数ｓｋ
ｉｐｓ、過渡部スキップ数ｓｋｉｐｔをそれぞれ、０に
初期化すると共に定常部基準フレーム番号ｑｓ、過渡部
基準フレーム番号ｑｔをそれぞれ、現フレーム番号１に
初期化し（Ｓ５）、然る後、ｉ＝１、２、……、Ｉの全
てのｉについて、対数化した前向き確率Ｃ_i1を式（１
１）に従って求める（Ｓ６）。

【０２６９】次に照合部３０は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０２７０】（２−２Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、定常部スキップ数ｓｋｉｐｓと閾値ＮＳＫ
ＩＰＳとの比較判定を行なう（Ｓ９）。

【０２７１】Ｓ９で定常部スキップ数ｓｋｉｐｓが閾値
ＮＳＫＩＰＳを越える場合は、定常部に関わる距離ｄｔ
ｓが閾値ＤＴＳ以下となった回数ｓｋｉｐｓが閾値ＮＳ
ＫＩＰＳを越え従って現フレーム番号ｔと定常部基準フ
レーム番号ｑｓとの時間的隔たりが大きくなるので、誤
差が増大する可能性が高い。そこで定常部スキップ数ｓ
ｋｉｐｓを０に初期化すると共に定常部基準フレーム番
号ｑｓを現フレーム番号ｔに書き換え、さらに定常部に
関わる比較結果mode sとして、ｓｋｉｐｓ＞ＮＳＫＩＰ
Ｓ若しくはｄｔｓ＞ＤＴＳであったことを表す情報TRUE
を書き込む（Ｓ１０）。

【０２７２】Ｓ９で定常部スキップ数ｓｋｉｐｓが閾値
ＮＳＫＩＰＳ以下である場合は、次に照合部３０は現フ
レーム番号ｔの音声特徴ベクトルｘ_t と定常部基準フレ
ーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔ
ｓを式（１７）に従って求め（Ｓ１１）、然る後、定常
部に関わる距離ｄｔｓを閾値ＤＴＳと比較してこれらベ
クトルｘ_t 及びｘ_qsが近似的に等しいか否かを判定する
（Ｓ１２）。

【０２７３】Ｓ１２で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsに
近似せず従って現フレーム番号ｔの音声特徴ベクトルｘ
_t は定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ
_qsからの変化が大きい。そこで定常部スキップ数ｓｋｉ
ｐｓを０に初期化すると共に定常部基準フレーム番号ｑ
ｓを現フレーム番号ｔに書き換え、さらに定常部に関わ
る比較結果mode sとして、ｓｋｉｐｓ＞ＮＳＫＩＰＳ若
しくはｄｔｓ＞ＤＴＳであったことを表す情報TRUEを書
き込む（Ｓ１０）。

【０２７４】Ｓ１２で距離ｄｔｓが閾値ＤＴＳ以下であ
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
に近似的に等しく従って現フレーム番号ｔの音声特徴ベ
クトルｘ_t は定常部基準フレーム番号ｑｓの音声特徴ベ
クトルｘ_qsからの変化が小さい。そこで定常部スキップ
数ｓｋｉｐｓに１を加算して定常部スキップ数ｓｋｉｐ
ｓをカウントアップすると共に、定常部に関わる比較結
果mode sとして、ｓｋｉｐｓ≦ＮＳＫＩＰＴかつｄｔｓ
≦ＤＴＳであったことを表す情報FALSE を書き込む（Ｓ
１３）。

【０２７５】Ｓ１０若しくはＳ１３の処理を終了した
ら、次に照合部３０は過渡部スキップ数ｓｋｉｐｔと閾
値ＮＳＫＩＰＴとの比較判定を行なう（Ｓ１４）。

【０２７６】Ｓ１４で過渡部スキップ数ｓｋｉｐｔが閾
値ＮＳＫＩＰＴを越える場合は、過渡部に関わる距離ｄ
ｔｔが閾値ＤＴＴ以下となった回数ｓｋｉｐｔが閾値Ｎ
ＳＫＩＰＴを越え従って現フレーム番号ｔと過渡部基準
フレーム番号ｑｔとの時間的隔たりが大きくなるので、
誤差が増大する可能性が高い。そこで過渡部スキップ数
ｓｋｉｐｔを０に初期化すると共に過渡部基準フレーム
番号ｑｔを現フレーム番号ｔに書き換え、さらに過渡部
に関わる比較結果mode tとして、ｓｋｉｐｔ＞ＮＳＫＩ
ＰＴ若しくはｄｔｔ＞ＤＴＴであったことを表す情報TR
UEを書き込む（Ｓ１５）。

【０２７７】Ｓ１４で過渡部スキップ数ｓｋｉｐｔが閾
値ＮＳＫＩＰＴ以下である場合は、次に照合部３０は現
フレーム番号ｔの音声特徴ベクトルｘ_t と過渡部基準フ
レーム番号ｑｔの音声特徴ベクトルｘ_qtとの間の距離ｄ
ｔｔを式（１８）に従って求め（Ｓ１６）、然る後、過
渡部に関わる距離ｄｔｔを閾値ＤＴＴと比較してこれら
ベクトルｘ_t 及びｘ_qtが近似的に等しいか否かを判定す
る（Ｓ１７）。

【０２７８】Ｓ１７で距離ｄｔｔが閾値ＤＴＴを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ_qtに
近似せず従って現フレーム番号ｔの音声特徴ベクトルｘ
_t は過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ
_qtからの変化が大きい。そこで過渡部スキップ数ｓｋｉ
ｐｔを０に初期化すると共に過渡部基準フレーム番号ｑ
ｔを現フレーム番号ｔに書き換え、さらに過渡部に関わ
る比較結果mode tとして、ｓｋｉｐｔ＞ＮＳＫＩＰＴ若
しくはｄｔｔ＞ＤＴＴであったことを表す情報TRUEを書
き込む（Ｓ１５）。

【０２７９】Ｓ１７で距離ｄｔｔが閾値ＤＴＴ以下であ
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ_qt
に近似的に等しく従って現フレーム番号ｔの音声特徴ベ
クトルｘ_t は過渡部基準フレーム番号ｑｔの音声特徴ベ
クトルｘ_qtからの変化が小さい。そこで過渡部スキップ
数ｓｋｉｐｔに１を加算して過渡部スキップ数ｓｋｉｐ
ｔをカウントアップすると共に、過渡部に関わる比較結
果mode tとして、ｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ
≦ＤＴＴであったことを表す情報FALSE を書き込む（Ｓ
１８）。

【０２８０】Ｓ１５若しくはＳ１８の処理を終了した
ら、次に照合部３０は、遷移元Ｓ_j の番号ｊ（番号ｊは
ヒドンマルコフモデルにおいて状態遷移の遷移元Ｓ_j に
付与されている番号）を初期値１に設定し（Ｓ１９）、
然る後、遷移元Ｓ_j の番号ｊが最大の番号Ｊ（ここでは
Ｊ＝Ｉ）を越えるか否かを判定する（Ｓ２０）。

【０２８１】Ｓ２０でｊ≦Ｊであれば、次に照合部３０
は、遷移元Ｓ_j に付与されている種別ｓが定常部及び過
渡部のいずれであるかを判定する（Ｓ２１）。

【０２８２】Ｓ２１の種別判定結果が定常部である場合
は、次に照合部３０は定常部に関わる比較結果mode sを
参照して、定常部に関わるスキップ数ｓｋｉｐｓ、閾値
ＮＳＫＩＰＳの比較結果及び距離ｄｔｓ、閾値ＤＴＳの
比較結果がどのようになっているかを判定する（Ｓ２
２）。

【０２８３】Ｓ２２で比較結果mode sがｓｋｉｐｓ＞Ｎ
ＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳであったことを表す
情報TRUEであれば、照合部３０は、ｊ＝１、２、……、
Ｊ及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、
対数化した出力確率Ｂ_ji(x_t)を式（４）〜（７）に従っ
て求め、参照確率Ｂ_jiを、当該出力確率Ｂ_ji(x_t)に書き
換える（Ｓ２３）。次に照合部３０は、次の番号ｊにつ
き処理を行なうべく、遷移元Ｓ_j の番号ｊに１を加算し
（Ｓ２４）、然る後、Ｓ２０の処理を行なう。尚、Ｓ２
３で参照確率Ｂ_jiを書き換える処理を、図にあってはsa
ve B_ji＝B_ji(x_t) と表している。

【０２８４】ｓｋｉｐｓ＞ＮＳＫＩＰＳであれば、定常
部に関わる距離ｄｔｓが閾値ＤＴＳ以下となった回数ｓ
ｋｉｐｓが閾値ＮＳＫＩＰＳを越えたので現フレーム番
号ｔと定常部基準フレーム番号ｑｓとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために、参照確率Ｂ_jiを書き換える。

【０２８５】ｄｔｓ＞ＤＴＳであれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番号ｑ
ｓの音声特徴ベクトルｘ_qsに近似せず従って現フレーム
番号ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsからの変化が大きいの
で、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ
_jiで近似できない。そこで参照確率Ｂ_jiを書き換える。

【０２８６】Ｓ２２で比較結果mode sがｓｋｉｐｓ≦Ｎ
ＳＫＩＰＳかつｄｔｓ≦ＤＴＳであったことを表す情報
FALSE であれば、照合部３０は、Ｓ２３の処理を行なわ
ずに、従って出力確率Ｂ_ji(x_t)を式（４）〜（７）に従
って求める処理も参照確率Ｂ _jiを書き換える処理も行な
わずに、次の番号ｊにつき処理を行なうべく、遷移元Ｓ
_j の番号ｊに１を加算し（Ｓ２４）、然る後、Ｓ２０の
処理を行なう。

【０２８７】ｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦Ｄ
ＴＳであれば、ｓｋｉｐｓ≦ＮＳＫＩＰＳなので定常部
に関わる距離ｄｔｓが閾値ＤＴＳ以下となった回数ｓｋ
ｉｐｓは閾値ＮＳＫＩＰＳを越えず、従って現フレーム
番号ｔと定常部基準フレーム番号ｑｓとの時間的隔たり
は小さくなるので誤差が増大する可能性は低い。しかも
ｄｔｓ≦ＤＴＳなので現フレーム番号ｔの音声特徴ベク
トルｘ_t は定常部基準フレーム番号ｑｓの音声特徴ベク
トルｘ_qsに近似的に等しくなり従って現フレーム番号ｔ
の音声特徴ベクトルｘ_t は定常部基準フレーム番号ｑｓ
の音声特徴ベクトルｘ_qsからの変化が小さいので、現フ
レーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ_jiで近似
的できる。そこで参照確率Ｂ_jiを書き換えずに読み出し
て、前向き確率Ｃ_itを求める。

【０２８８】Ｓ２１の種別判定結果が過渡部である場合
は、次に照合部３０は過渡部に関わる比較結果mode tを
参照して、過渡部に関わるスキップ数ｓｋｉｐｔ、閾値
ＮＳＫＩＰＴの比較結果及び距離ｄｔｔ、閾値ＤＴＴの
比較結果がどのようになっているかを判定する（Ｓ２
５）。

【０２８９】Ｓ２５で比較結果mode tがｓｋｉｐｔ＞Ｎ
ＳＫＩＰＴ若しくはｄｔｔ＞ＤＴＴであったことを表す
情報TRUEであれば、照合部３０は、ｊ＝１、２、……、
Ｊ及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、
対数化した出力確率Ｂ_ji(x_t)を式（４）〜（７）に従っ
て求め、参照確率Ｂ_jiを、当該出力確率Ｂ_ji(x_t)に書き
換える（Ｓ２３）。次に照合部３０は、次の番号ｊにつ
き処理を行なうべく、遷移元Ｓ_j の番号ｊに１を加算し
（Ｓ２４）、然る後Ｓ２０の処理を行なう。

【０２９０】ｓｋｉｐｔ＞ＮＳＫＩＰＴであれば、過渡
部に関わる距離ｄｔｔが閾値ＤＴＴ以下となった回数ｓ
ｋｉｐｔが閾値ＮＳＫＩＰＴを越えたので現フレーム番
号ｔと過渡部基準フレーム番号ｑｔとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために参照確率Ｂ_jiを書き換える。

【０２９１】ｄｔｔ＞ＤＴＴであれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番号ｑ
ｔの音声特徴ベクトルｘ_qtに近似せず従って現フレーム
番号ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番
号ｑｔの音声特徴ベクトルｘ_qtからの変化が大きいの
で、現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ
_jiで近似できない。そこで誤差を低減するために参照確
率Ｂ_jiを書き換える。

【０２９２】Ｓ２５で比較結果mode tがｓｋｉｐｔ≦Ｎ
ＳＫＩＰＴかつｄｔｔ≦ＤＴＴであったことを表す情報
FALSE であれば、照合部３０は、Ｓ２３の処理を行なわ
ずに、従って出力確率Ｂ_ji(x_t)を式（４）〜（７）に従
って求める処理も参照確率Ｂ_jiを書き換える処理も行な
わずに、次の番号ｊにつき処理を行なうべく、遷移元Ｓ
_j の番号ｊに１を加算し（Ｓ２４）、然る後、Ｓ２０の
処理を行なう。

【０２９３】ｓｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ≦Ｄ
ＴＴであれば、ｓｋｉｐｔ≦ＮＳＫＩＰＴなので過渡部
に関わる距離ｄｔｔが閾値ＤＴＴ以下となった回数ｓｋ
ｉｐｔは閾値ＮＳＫＩＰＴを越えず、従って現フレーム
番号ｔと過渡部基準フレーム番号ｑｔとの時間的隔たり
が小さくなるので誤差が増大する可能性は低い。しかも
ｄｔｔ≦ＤＴＴであるので現フレーム番号ｔの音声特徴
ベクトルｘ_t は過渡部基準フレーム番号ｑｔの音声特徴
ベクトルｘ_qtに近似的に等しくなり従って現フレーム番
号ｔの音声特徴ベクトルｘ_t は過渡部基準フレーム番号
ｑｔの音声特徴ベクトルｘ_qtからの変化が小さいので、
現フレーム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ_jiで
近似できる。そこで参照確率Ｂ_jiの書き換えを行なわな
い。

【０２９４】そしてｊ＝１、２、……、Ｊの全てのｊに
つきＳ２０〜Ｓ２５の処理を終了すると、Ｓ２０の処理
でｊ＞Ｊ（ここではＪ＝Ｉ）との判定結果を得るので、
Ｓ２０でｊ＞Ｊであれば、次に照合部３０は、各参照確
率Ｂ_jiを読み出し、ｉ＝１、２、……、Ｉの全てのｉに
ついて、前向き確率Ｃ_itを式（１１）に従って求める
（Ｓ２６）。然る後、音声区間の次のフレームにつき処
理を行なうべくＳ７の処理に戻る。

【０２９５】（２−２Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトル時系列ｘ₁ 、ｘ₂ 、……、ｘ
_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求め
る処理を終了する（終了）。

【０２９６】照合部３０は、辞書部２４に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に図１２〜図１４
に示すＳ１〜Ｓ２６の処理を行なって尤度（前向き確率
Ｃ_iT）を求め、そして最大の尤度を得たＨＭＭのカテゴ
リを、当該音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を抽出した入力音声信号に対する認識結果とし
て、次段の装置（図示せず）へ出力する。

【０２９７】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、遷移元Ｓ_j
が定常部である場合にスキップ数ｓｋｉｐｓが閾値ＮＳ
ＫＩＰＳ以下となりかつ距離ｄｔｓが閾値ＤＴＳ以下で
あれば、出力確率Ｂ_ji(x_t)を式（４）〜（７）から求め
る演算を行なわずに、参照確率Ｂ_jiを読み出して前向き
確率Ｃ_itを求める。また遷移元Ｓ_j が過渡部である場合
にスキップ数ｓｋｉｐｔが閾値ＮＳＫＩＰＴ以下となり
かつ距離ｄｔｔが閾値ＤＴＴ以下であれば、出力確率Ｂ
_ji(x_t)を式（４）〜（７）から求める演算を行なわず
に、前向き確率Ｃ_itを求めるので、大幅に演算量を削減
できる。しかもこのような演算の簡略化は、遷移元Ｓ_j
が定常部である場合にスキップ数ｓｋｉｐｓが閾値ＮＳ
ＫＩＰＳ以下となりかつ距離ｄｔｓが閾値ＤＴＳ以下と
なるか、遷移元Ｓ_j が過渡部である場合にスキップ数ｓ
ｋｉｐｔが閾値ＮＳＫＩＰＴ以下となりかつ距離ｄｔｔ
が閾値ＤＴＴ以下となる場合かのいずれかの場合に行な
うので、演算の簡略化を行なっても、前向き確率Ｃ_itの
誤差を小さくできる。

【０２９８】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルｘ_t の変化は大きいので、
遷移元Ｓ_j の種別ｓが過渡部である場合には、過渡部に
関わる閾値ＮＳＫＩＰＴ、ＤＴＴを小さく設定すること
により前向き確率Ｃ_itの誤差を小さくすることが望まれ
る。

【０２９９】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルｘ_t の変化は小さ
いので、遷移元Ｓ_j の種別ｓが定常部である場合には、
定常部に関わる閾値ＮＳＫＩＰＳ、ＤＴＳを大きくして
も前向き確率Ｃ_itの誤差を小さくすることができる。

【０３００】従って定常部に関わる閾値ＮＳＫＩＰＳ、
ＤＴＳに値の大きいものを用いると共に、過渡部に関わ
る閾値ＮＳＫＩＰＴ、ＤＴＴに値の小さなものを用いる
ことにより、前向き確率Ｃ_itの誤差をなるべく小さくし
つつ、演算量を削減することができる。

【０３０１】請求項３の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。

【０３０２】尚、遷移元Ｓ_j に対し付与される定常部、
過渡部の種別ｓは、例えば以下に述べるようにして定め
ることができる。

【０３０３】第一の例は、出力確率ｂ_ji(x_t)を定めるパ
ラメータのひとつｂ_jim(x_t) に着目するものである。
（６）式にも示すように、ｂ_jim(x_t) ＝（２π）^-p/2｜
ρ_jim｜^-1/2 exp｛Ｄ_jimt ² ／２｝であって、この式
（６）中の分散・供分散行列の大きさ｜ρ_jim ｜が、任
意好適に定めた閾値ＴＨＬを越える場合に、当該出力確
率ｂ_ji(x_t)を与える遷移元Ｓ_j の種別ｓを過渡部と判定
し、また分散・供分散行列の大きさ｜ρ_jim ｜が閾値Ｔ
ＨＬ以下となる場合に、当該出力確率ｂ_ji(x_t)を与える
遷移元Ｓ_j の種別ｓを定常部と判定する。従ってこの場
合には、分散・供分散行列の大きさ｜ρ_jim ｜が種別ｓ
を表し、この｜ρ_jim ｜と閾値ＴＨＬとの比較判定が、
種別ｓの判定ということになる。

【０３０４】第二の例は、出力確率ｂ_ji(x_t)を与える状
態遷移が母音の状態遷移に対応する場合に、当該状態遷
移の遷移元Ｓ_j に対し定常部であることを表す情報を、
また出力確率ｂ_ji(x_t)を与える状態遷移が子音の状態遷
移に対応する場合に、当該状態遷移の遷移元Ｓ_j に対し
過渡部であることを表す情報を、予め付与しておくとい
うものである。

【０３０５】第三の例は、出力確率ｂ_ji(x_t)を与える状
態遷移が、母音の状態遷移及びｐ、ｔ、ｋ、ｒ以外の子
音の状態遷移に対応する場合に、当該状態遷移の遷移元
Ｓ_jに対し定常部であることを表す情報を、また出力確
率ｂ_ji(x_t)を与える状態遷移が子音ｐ、ｔ、ｋ、ｒの状
態遷移に対応する場合に、当該状態遷移の遷移元Ｓ_jに
対し過渡部であることを表す情報を、予め付与しておく
というものである。

【０３０６】＜請求項７の発明の第一実施形態＞図１５
は請求項７の発明の第一実施形態の実施に用いて好適な
音声認識装置の構成例を示す機能ブロック図である。

【０３０７】同図に示す音声認識装置３４は、辞書部３
６、音響処理部３８、音声区間検出部４０、照合部４２
及び参照情報記憶部４４を備える。

【０３０８】辞書部３６は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部４４は、前向き確率
基準フレーム番号ｑｃ、出力確率基準フレーム番号ｑｓ
と、参照確率ｂ_jiとを格納する。

【０３０９】音響処理部３８は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部４０は、入力音声信号から音声区間を検
出する。

【０３１０】照合部４２は、請求項７の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列ｘ₁ 、ｘ₂ 、……、ｘ_T とヒドンマルコフモデル
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
次式（１）〜（３）を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。

【０３１１】

【数２４】

【０３１２】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉ尤度を求める際には、参照情報記憶部４４に格納してあ
る参照確率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの各場
合の前向き確率ｃ_itを、次の如くして順次に求める。

【０３１３】（１）．ｔ＝１のときは、前向き確率基準
フレーム番号ｑｃ、出力確率基準フレーム番号ｑｓをそ
れぞれ１に初期化すると共に、全てのｊ、ｉについて、
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求め当該
出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書き込
み、該参照確率ｂ_jiの書込み終了後に各参照確率ｂ_jiを
読み出して前向き確率ｃ_itを求める処理（３Ａ）を行な
う。そして処理（３Ａ）の終了後、現フレーム番号ｔに
１を加算する処理（３Ｂ）を行なう。

【０３１４】（２）．２≦ｔ≦Ｔのときは、現フレーム
番号ｔの音声特徴ベクトルｘ_t と前向き確率基準フレー
ム番号ｑｃの音声特徴ベクトルｘ_qcとの間の距離ｄｔｃ
を閾値ＤＴＣと比較する処理（３Ｃ）と、この処理（３
Ｃ）の比較結果がｄｔｃ≦ＤＴＣとなる場合に、前向き
確率ｃ_itは直前フレームの前向き確率ｃ_i(t-1)に等しい
ものとして前向き確率ｃ_itを求める演算を終了する処理
（３Ｄ）と、この処理（３Ｃ）の比較結果がｄｔｃ＞Ｄ
ＴＣとなる場合に、前向き確率基準フレーム番号ｑｃを
現フレーム番号ｔに書き換える処理（３Ｅ）とを行な
う。

【０３１５】そして処理（３Ｅ）の終了後、現フレーム
番号ｔの音声特徴ベクトルｘ_t と出力確率基準フレーム
番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを
閾値ＤＴＳと比較し、当該比較結果がｄｔｓ＞ＤＴＳと
なる場合に、出力確率基準フレーム番号ｑｓをフレーム
番号ｔに書き換えると共に、全てのｊ、ｉについて、出
力確率ｂ_ji(x_t)をヒドンマルコフモデルから求めて参照
確率ｂ_jiを当該出力確率ｂ_ji(x_t)に書き換え、参照確率
ｂ_jiの書換え終了後に各参照確率ｂ_jiを読み出して前向
き確率ｃ_itを求め、当該比較結果がｄｔｓ≦ＤＴＳとな
る場合に、参照確率ｂ_jiの書き換えを行なわずに各参照
確率ｂ_jiを読み出して前向き確率ｃ_itを求める処理（３
Ｆ）を行なう。

【０３１６】そして処理（３Ｄ）若しくは（３Ｆ）の終
了後、現フレーム番号ｔに１を加算する処理（３Ｇ）を
行なう。

【０３１７】図１６はヒドンマルコフモデルの説明に供
する図である。辞書部３６に格納されているヒドンマル
コフモデル（Hidden Markov Model 。以下、ＨＭＭ）
は、音声認識一単位分の音声信号を表現する。音声認識
の一単位は、単語単位、音素単位或はそのほかとするこ
とができるが、ここでは単語単位とする。各カテゴリｚ
毎に複数のＨＭＭを用意し、ＨＭＭとカテゴリｚとを相
対応付けて辞書部３６に格納する。

【０３１８】ＨＭＭは、総個数Ｉ個の状態Ｓ₁ 〜Ｓ_I か
ら成る状態の集合１と、音声特徴ベクトルｘの集合２
と、状態遷移確率ａ_jiの集合３と、出力確率ｂ_ji(x) の
集合４と、初期状態確率Ф_i の集合５と、最終状態Ｆの
集合６とにより定義される。但し、

【０３１９】

【数２５】

【０３２０】ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊａ_ji：状態Ｓ_j から状態Ｓ_i に遷移する確率ｂ_ji(x) ：状態Ｓ_j から状態Ｓ_i に遷移する際に音声特
徴ベクトルｘが出力される確率 Ф_i ：初期状態がＳ_i である確率例えば図１４の例において、ａ₁₂は状態Ｓ₁ から状態Ｓ
₂ に遷移する確率及びｂ₁₂(x) は状態Ｓ₁ から状態Ｓ₂
に遷移したとき音声特徴ベクトルｘが出力される確率、
またａ₂₂は状態Ｓ₂ から状態Ｓ₂ に遷移する確率及びｂ
₂₂(x) は状態Ｓ ₂ から状態Ｓ₂ に遷移したとき音声特徴
ベクトルｘが出力される確率を表す。

【０３２１】ＨＭＭを定義するための集合１〜６は、統
計的手法によって、各カテゴリｚ毎に個別に求められ
る。すなわちカテゴリｚに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合１〜６を求
める。

【０３２２】出力確率ｂ_ji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルｘの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。

【０３２３】次に音声認識装置３４の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。

【０３２４】音響処理部３８は、入力音声信号から、各
フレーム毎に音声特徴ベクトルｘ_t＝（ｘ_t1、ｘ_t2、…
…、ｘ_tp）を抽出する。ここでｐは音声特徴ベクトルｘ
_t の次数及びｘ_t1〜ｘ_tpは音声特徴ベクトルｘ_t のベク
トル成分を表す。ｔは音声特徴ベクトルｘ_t が抽出され
たフレームに付与されている番号である。後述するＨＭ
Ｍとの照合の段階では音声区間の始端フレームのフレー
ム番号ｔを１として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
ｔを付与してあれば良い。

【０３２５】音声特徴ベクトルｘ_t のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちＬＰＣ分析
により求められるＬＰＣケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルｘ_t を抽出する例につき説明する。

【０３２６】音響処理部３８は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯（チャネル）の信号成分に分離し、
それぞれ周波数帯が異なる総個数ｐ個の信号成分ｘ1 〜
ｘp を得る。次いで音響処理部３８は、信号成分ｘ1を
整流し、フレーム単位に、整流した信号成分ｘ1 （信号
成分ｘ1 の絶対値）の平均値を得る。この平均値は、整
流した信号成分ｘ1 を１フレーム分の時間幅で除して得
られる。第ｔ番目のフレームにおいて得られる信号成分
ｘ1 の平均値を、音声特徴ベクトルｘ_t の成分ｘ_t1とし
て抽出する。同様にして、残りの信号成分ｘ2 〜ｘp か
ら、音声特徴ベクトルｘ_t の成分ｘ_t2〜ｘ_tpを抽出す
る。

【０３２７】次に音声区間検出部４０は、音響処理部３
８からの音声特徴ベクトルｘ_t に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語１個分の音声信号が含まれる
区間である。

【０３２８】照合部４２は、区間情報と音声特徴ベクト
ルｘ_t とを音声区間検出部４０から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルｘ_t の時系列ｘ₁ 、ｘ₂ 、……、ｘ_T を生
成する。この際、始端フレームのフレーム番号ｔを１と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号ｔを昇順に書き改める。

【０３２９】そして照合部４２はベクトル時系列ｘ₁ 、
ｘ₂ 、……、ｘ_T と辞書部３６に格納されているＨＭＭ
との間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を、
辞書部３６の各ＨＭＭ毎に個別に求め、最大の尤度を得
たＨＭＭに対し付与されているカテゴリｚを、認識結果
として出力する。

【０３３０】ここで、式（１）で示されるＰ（ｘ₁ 、ｘ
₂ 、……、ｘ_T ）は、ＨＭＭにおいてベクトル時系列ｘ
₁ 、ｘ₂ 、……、ｘ_T が出現する確率である。

【０３３１】

【数２６】

【０３３２】（１）式中のｃ_iTは、ＨＭＭにおいて初期
状態から遷移を開始しベクトル時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を出力して状態Ｓ_i に至る前向き確率、＊ｉは
Ｓ_i ∈Ｆを満たすｉ（最終状態Ｆに属する状態Ｓ_i に付
与されている番号ｉ）であって、従ってｉ＝＊ｉとなる
前向き確率ｃ_iTのなかで最大の前向き確率ｃ_iTを、出現
確率Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）とするものである。

【０３３３】前向き確率ｃ_iTは、ビタビアルゴリズムに
より、式（２）〜（３）に示す漸化式を用いて近似的に
求められる。ｃ_i0＝Ф_i ……（２）

【０３３４】

【数２７】

【０３３５】ＨＭＭにおいて、音声特徴ベクトルｘ_t を
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列ｘ₁ 〜ｘ_t を出力して状態Ｓ_i に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式（３）に示されるよ
うに、各遷移パス毎に計算したｃ_j(t-1)ａ_jiｂ_ji(x_t)の
うち最大のｃ_j(t-1)ａ_jiｂ_ji(x_t)を前向き確率ｃ_itとす
る。この計算方法は、ビタビ法と呼ばれている。

【０３３６】（３）式中の出力確率ｂ_ji(x_t)を、ここで
は次式（４）の如く定義する。

【０３３７】

【数２８】

【０３３８】但し、ｍ＝１、２、……、Ｍｇ_jim(x_t) ：総個数Ｍ個の正規分布から成る無相関混合
正規分布において第ｍ番目の正規分布から算出される音
声特徴ベクトルｘ_t の重み付け確率（４）式中の重み付け確率ｇ_jim(x_t) は、次式（５）〜
（７）を用いて表される。

【０３３９】ｇ_jim(x_t) ＝λ_jim ｂ_jim(x_t) ……（５）ｂ_jim(x_t) ＝（２π）^-p/2｜ρ_jim ｜^-1/2 exp｛−Ｄ_jimt ² ／２｝ ……（６）Ｄ_jimt ² ＝（ｘ_t −μ_jim ）’ρ_jim ^-1(ｘ_t −μ_jim ） ……（７） λ_jim ：第ｍ番目の正規分布の重みｂ_jim(x_t) ：第ｍ番目の正規分布から算出される音声特
徴ベクトルｘ_t の重み無し確率 ρ_jim ：第ｍ番目の正規分布の分散・供分散行列 μ_jim ：第ｍ番目の正規分布の平均ベクトルＤ_jimt：音声特徴ベクトルｘ_t と第ｍ番目の正規分布と
の間の距離を表すマハラビスの汎距離（ｘ_t −μ_jim ）’：（ｘ_t −μ_jim ）の転置行列尚、出力確率ｂ_ji(x_t)としては種々のものを用いること
ができ、（４）式のもののほか例えば、次式（８）の如
く定義したものを用いても良い。（８）式は、総個数Ｍ
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率ｇ_jim(x_t) のう
ち最大の重み付け確率ｇ_jim(x_t) を、出力確率ｂ_ji(x_t)
として検出することを表す。

【０３４０】

【数２９】

【０３４１】さらに対数化した遷移確率Ａ_ji＝ln
（ａ_ji）、対数化した出力確率Ｂ_ji(x_t)＝ln｛ｂ
_ji(x_t)｝、及び、対数化した前向き確率Ｃ_it＝ln
（ｃ_it）と表せば、式（１）〜（３）を変形して、尤度
ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_t ）｝の算出に関する
（９）〜（１１）式が得られる。

【０３４２】

【数３０】

【０３４３】（９）〜（１１）式はｔの漸化式であるか
ら、ｔ＝１、２、……、Ｔのときの対数化した前向き確
率Ｃ_itを、次式（１２）〜（１６）の如く順次に計算で
きる。

【０３４４】

【数３１】

【０３４５】ＨＭＭ照合部４２は、ｉ＝１、２、……、
Ｉの全てのｉにつきｔ＝Ｔの対数化した前向き確率Ｃ_iT
を得ると、ｉ＝＊ｉなる対数化した前向き確率Ｃ_iTのな
かで最大のＣ_iTを、尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得る。辞書部３６に格納されているすべて
のＨＭＭについて、各ＨＭＭ毎に、尤度ln｛Ｐ（ｘ₁、
ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度を得たＨＭＭ
に付与されているカテゴリｚを、当該時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T を得た入力音声信号に対する認識結果と
して出力する。

【０３４６】次に請求項７の発明の第一実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
１７〜図１９はこの１個のＨＭＭに着目した処理の流れ
を示す図である。この例では、出力確率ｂ_ji(x_t)、前向
き確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した出
力確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数化
した参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉとし
て説明する。

【０３４７】照合部４２は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部４０から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０３４８】次に照合部４２は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０３４９】次に照合部４２は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を、対数化した参
照確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０３５０】参照情報記憶部４４には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域save B_jiを設けて
ある。従って参照情報記憶部４４は、参照確率Ｂ₁₁、Ｂ
₁₂、……、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、……、
Ｂ_J1、Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納するＪ×
Ｉ個の格納領域を有する。そこで図にあっては、参照確
率Ｂ_jiの初期値を格納する処理を、save B_ji＝B_ji(x₁)
と表している。

【０３５１】次に照合部４２は、前向き確率基準フレー
ム番号ｑｃ、出力確率基準フレーム番号ｑｓをそれぞれ
現フレーム番号１に初期化する（Ｓ５）。

【０３５２】然る後、ｉ＝１、２、……、Ｉの全てのｉ
について、対数化した前向き確率Ｃ_i1を式（１１）に従
って求める（Ｓ６）。

【０３５３】次に照合部４２は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０３５４】（３−１Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部４２は現フレーム番号ｔの音声特徴
ベクトルｘ_t と前向き確率基準フレーム番号ｑｃの音声
特徴ベクトルｘ_qcとの間の距離ｄｔｃを、次式（１９）
に従って求める（Ｓ９）。

【０３５５】

【数３２】

【０３５６】但し、ｘ_tk：現フレーム番号ｔの音声特徴ベクトルｘ_t のベク
トル成分ｘ_qck ：前向き確率基準フレーム番号ｑｃの音声特徴ベ
クトルｘ_qcのベクトル成分次に照合部４２は、距離ｄｔｃと閾値ＤＴＣとを比較し
てこれらベクトルｘ_t及びｘ_qcが近似的に等しいか否か
を判定する（Ｓ１０）。

【０３５７】Ｓ１０で距離ｄｔｃが閾値ＤＴＣ以下であ
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は前向き確率基準フレーム番号ｑｃの音声特徴ベクトル
ｘ_qcに近似し従って現フレーム番号ｔの音声特徴ベクト
ルｘ_t は前向き確率基準フレーム番号ｑｃの音声特徴ベ
クトルｘ_qcからの変化が小さいので、現フレーム番号ｔ
の前向き確率Ｃ_itは直前フレームの前向き確率Ｃ_i(t-1)
で近似できる。そこで現フレーム番号ｔの前向き確率Ｃ
_itは直前フレームの前向き確率Ｃ_i(t-1)に等しいものと
して、前向き確率Ｃ_itを求める演算を終了する（Ｓ１
１）。然る後、音声区間の次のフレームにつき処理を行
なうべくＳ７の処理に戻る。

【０３５８】Ｓ１０で距離ｄｔｃが閾値ＤＴＣを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
前向き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ
_qcに近似せず従って現フレーム番号ｔの音声特徴ベクト
ルｘ_t は前向き確率基準フレーム番号ｑｃの音声特徴ベ
クトルｘ_qcからの変化が大きいので、現フレーム番号ｔ
の前向き確率Ｃ_itは直前フレームの前向き確率Ｃ_i(t-1)
で近似できない。そこで前向き確率基準フレーム番号ｑ
ｃを現フレーム番号ｔに書き換える（Ｓ１２）。

【０３５９】そしてＳ１２の終了後、照合部４２は現フ
レーム番号ｔの音声特徴ベクトルｘ_t と出力確率基準フ
レーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄ
ｔｓを、次式（１７）に従って求める（Ｓ１３）。

【０３６０】

【数３３】

【０３６１】但し、ｘ_tk：現フレーム番号ｔの音声特徴ベクトルｘ_t のベク
トル成分ｘ_qsk ：基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
のベクトル成分次に照合部４２は、距離ｄｔｓと閾値ＤＴＳとを比較し
てこれらベクトルｘ_t及びｘ_qsが近似的に等しいか否か
を判定する（Ｓ１４）。

【０３６２】Ｓ１４で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
出力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
に近似せず従って現フレーム番号ｔの音声特徴ベクトル
ｘ_t は出力確率基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsからの変化が大きいので、現フレーム番号ｔの出
力確率Ｂ_ji(x_t)を参照確率Ｂ_jiで近似できない。そこで
出力確率基準フレーム番号ｑｓを現フレーム番号ｔに書
き換える（Ｓ１５）。然る後、ｊ＝１、２、……、Ｊ及
びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対数
化した出力確率Ｂ_ji(x_t)を式（４）〜（７）に従って求
め、参照確率Ｂ_jiを、当該出力確率Ｂ_ji(x_t)に書き換え
る（Ｓ１６）。この参照確率Ｂ_jiの書換え終了後に各参
照確率Ｂ_jiを読み出し、ｉ＝１、２、……、Ｉの全ての
ｉについて、前向き確率Ｃ_itを式（１１）に従って求め
る（Ｓ１３）。然る後、音声区間の次のフレームにつき
処理を行なうべくＳ７の処理に戻る。尚、Ｓ１６で参照
確率Ｂ_jiを書き換える処理を、図にあってはsave B_ji＝
B_ji(x_t) と表している。

【０３６３】この場合のＳ１７で読み出した参照確率Ｂ
_jiは、Ｓ１６において求めた現フレーム番号ｔの出力確
率Ｂ_ji(x_t)であり、従ってこの場合のＳ１７では、現フ
レーム番号ｔの出力確率Ｂ_ji(x_t)を用いて、前向き確率
Ｃ_itを求めることとなる。

【０３６４】またＳ１４で距離ｄｔｓが閾値ＤＴＳ以下
である場合には、現フレーム番号ｔの音声特徴ベクトル
ｘ_t は出力確率基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsに近似的に等しく従って現フレーム番号ｔの音声
特徴ベクトルｘ_t は出力確率基準フレーム番号ｑｓの音
声特徴ベクトルｘ_qsからの変化が小さいので、現フレー
ム番号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ_jiで近似でき
る。そこで出力確率Ｂ_ji(x_t)を式（４）〜（７）を用い
て算出せずに、各参照確率Ｂ_jiを読み出し、ｉ＝１、
２、……、Ｉの全てのｉについて、対数化した前向き確
率Ｃ_itを式（１１）に従って求める（Ｓ１７）。然る
後、音声区間の次のフレームにつき処理を行なうべくＳ
７の処理に戻る。

【０３６５】この場合のＳ１７で読み出した参照確率Ｂ
_jiは、出力確率基準フレーム番号ｑｓのフレームで求め
た出力確率Ｂ_ji(x_qs) であり、従ってこの場合のＳ１７
では、出力確率基準フレーム番号ｑｓの出力確率Ｂ_ji(x
_qs) を用いて前向き確率Ｃ_itを求めることとなる。

【０３６６】（３−１Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトル時系列ｘ₁ 、ｘ₂ 、……、ｘ
_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ
_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求め
る処理を終了する（終了）。

【０３６７】照合部４２は、辞書部３６に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に図１７〜図１９
に示すＳ１〜Ｓ１７の処理を行なって尤度（前向き確率
Ｃ_iT）を求め、そして最大の尤度を得たＨＭＭのカテゴ
リを、当該音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T を抽出した入力音声信号に対する認識結果とし
て、次段の装置（図示せず）へ出力する。

【０３６８】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、前向き確率
Ｃ_itに関わる距離ｄｔｃが閾値ＤＴＣとなる場合に、出
力確率Ｂ_ji(x_t)を式（４）〜（７）から求める演算も前
向き確率Ｃ_itを式（３）若しくは式（１１）から求める
演算も行なわずに、前向き確率Ｃ_itは直前フレームの前
向き確率Ｃ_i(t-1)に等しいものとして前向き確率Ｃ_itを
求める演算を終了する。さらに出力確率Ｂ_ji(x_t)に関わ
る距離ｄｔｓが閾値ＤＴＳ以下となる場合に、出力確率
Ｂ_ji(x_t)を式（４）〜（７）から求める演算を行なわず
に、参照確率Ｂ_jiを用いて前向き確率Ｃ_itを求めるの
で、演算量を大幅に削減できる。しかもこのような演算
の簡略化は、前向き確率Ｃ_itに関わる距離ｄｔｃが閾値
ＤＴＣ以下となる場合若しくは出力確率Ｂ_ji(x_t)に関わ
る距離ｄｔｓが閾値ＤＴＳ以下となる場合に行なうの
で、演算を簡略化しても、前向き確率Ｃ_itの誤差を小さ
くすることができる。

【０３６９】この出願の発明者のシミュレーション結果
によれば、前向き確率Ｃ_itを得るための演算量が、演算
の簡略化を行なわない場合の約１／２となるように、前
向き確率Ｃ_itに関わる閾値ＤＴＣを定め、かつ、出力確
率Ｂ_ji(x_t)を得るための演算量が、演算の簡略化を行な
わない場合の約１／５となるように、出力確率Ｂ_ji(x_t)
に関わる閾値ＤＴＳを定めても、音声認識の精度低下は
ほとんど見られなかった。

【０３７０】＜請求項７の発明の第二実施形態＞請求項
７の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部４２を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置３４を
用いることができる。

【０３７１】すなわち照合部４２は、尤度を求める際
に、参照情報記憶部４４に格納してある参照確率ｂ_jiを
用いて、ｔ＝１、２、……、Ｔの各場合の前向き確率ｃ
_itを、次ぎの如くして順次に求める。

【０３７２】（１）．ｔ＝１のときは、前向き確率基準
フレーム番号ｑｃ、出力確率基準フレーム番号ｑｓをそ
れぞれ１に、及び、前向き確率スキップ数ｓｋｉｐｃ、
出力確率スキップ数ｓｋｉｐｓをそれぞれ０に初期化す
ると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)を
ヒドンマルコフモデルから求め当該出力確率ｂ_ji(x_t)を
参照確率ｂ_jiの初期値として書き込み、この参照確率ｂ
_jiの書込み終了後に各参照確率ｂ_jiを読み出して前向き
確率ｃ_itを求める処理（３Ａ）を行なう。そして処理
（３Ａ）の終了後、現フレーム番号ｔに１を加算する処
理（３Ｂ）を行なう。

【０３７３】（２）．２≦ｔ≦Ｔのときは、前向き確率
スキップ数ｓｋｉｐｃを閾値ＮＳＫＩＰＣと比較すると
共に、現フレーム番号ｔの音声特徴ベクトルｘ_t と前向
き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qcと
の間の距離ｄｔｃを閾値ＤＴＣと比較する処理（３Ｃ）
と、この処理（３Ｃ）の比較結果がｓｋｉｐｃ≦ＮＳＫ
ＩＰＣかつｄｔｃ≦ＤＴＣとなる場合に、前向き確率ｃ
_itは直前フレームの前向き確率ｃ_i(t-1)に等しいものと
して前向き確率ｃ_itを求める演算を終了すると共に前向
き確率スキップ数ｓｋｉｐｃ、出力確率スキップ数ｓｋ
ｉｐｓにそれぞれ、１を加算する処理（３Ｄ）と、この
処理（３Ｃ）の比較結果がｓｋｉｐｃ＞ＮＳＫＩＰＣ若
しくはｄｔｃ＞ＤＴＣとなる場合に、前向き確率スキッ
プ数ｓｋｉｐｃを０に初期化し、及び、前向き確率基準
フレーム番号ｑｃを現フレーム番号ｔに書き換える処理
（３Ｅ）とを行なう。

【０３７４】そして処理（３Ｅ）の終了後、出力確率ス
キップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると共
に、現フレーム番号ｔの音声特徴ベクトルｘ_t と出力確
率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間
の距離ｄｔｓを閾値ＤＴＳと比較し、当該比較結果がｓ
ｋｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる
場合に、出力確率スキップ数ｓｋｉｐｓを０に初期化
し、及び、出力確率基準フレーム番号ｑｓを現フレーム
番号ｔに書き換えると共に、全てのｊ、ｉについて、出
力確率ｂ_ji(x_t)をヒドンマルコフモデルから求めて参照
確率ｂ_jiを当該出力確率ｂ_ji(x_t)に書き換え、この参照
確率ｂ_jiの書換え終了後に各参照確率ｂ_jiを読み出して
前向き確率ｃ_itを求め、当該比較結果がｓｋｉｐｓ≦Ｎ
ＳＫＩＰＳかつｄｔｓ≦ＤＴＳとなる場合に、出力確率
スキップ数ｓｋｉｐｓに１を加算すると共に、参照確率
ｂ_ji(x_t)の書換えを行なわずに各参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める処理（３Ｆ）を行なう。

【０３７５】そして処理（３Ｄ）若しくは（３Ｆ）の終
了後、現フレーム番号ｔに１を加算する処理（３Ｇ）を
行なう。

【０３７６】次に請求項７の発明の第二実施形態におい
て、ＨＭＭと音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、…
…、ｘ_T との間の尤度を求める処理の流れであって、１
個のＨＭＭに着目した処理の流れについて説明する。図
２０〜図２２は、この１個のＨＭＭに着目した処理の流
れを示す図である。この例では、出力確率ｂ_ji(x_t)、前
向き確率ｃ_it及び参照確率ｂ_jiをそれぞれ、対数化した
出力確率Ｂ_ji(x_t)、対数化した前向き確率Ｃ_it及び対数
化した参照確率Ｂ_jiとし、ｉ＝ｊ＝１、２、……、Ｉと
して説明する。

【０３７７】照合部４２は、区間情報及び音声特徴ベク
トルｘ_t を音声区間検出部４０から入力すると、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率の初期値Ｃ_i0を式（１０）に従って設定する（Ｓ
１）。

【０３７８】次に照合部４２は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号ｔをｔ＝１に
初期化する（Ｓ２）。

【０３７９】次に照合部４２は、ｊ＝１、２、……、Ｊ
及びｉ＝１、２、……、Ｉの全てのｊ、ｉについて、対
数化した出力確率Ｂ_ji(x₁)を式（４）〜（７）に従って
求め（Ｓ３）、当該出力確率Ｂ_ji(x₁)を、対数化した出
力確率Ｂ_jiの初期値として書き込む（Ｓ４）。

【０３８０】参照情報記憶部４４には、ｊ＝１、２、…
…、Ｊ及びｉ＝１、２、……、Ｉの各ｊ、ｉ毎に個別
に、参照確率Ｂ_jiを格納する格納領域をsave B_jiを設け
てある。従って参照情報記憶部４４は、出力参照確率Ｂ
₁₁、Ｂ₁₂、……、Ｂ_1I、Ｂ₂₁、Ｂ₂₂、……、Ｂ_2I、…
…、Ｂ_J1、Ｂ_J2、……、Ｂ_JIをそれぞれ個別に格納する
Ｊ×Ｉ個の格納領域を有する。そこで図にあっては、参
照確率Ｂ_jiの初期値を格納する処理を、save B_ji＝B
_ji(x₁) と表している。

【０３８１】次に照合部４２は、前向き確率基準フレー
ム番号ｑｃ、出力確率基準フレーム番号ｑｓをそれぞれ
現フレーム番号１に初期化すると共に、前向き確率スキ
ップ数ｓｋｉｐｃ、出力確率スキップ数ｓｋｉｐｓをそ
れぞれ０に初期化する（Ｓ５）。然る後、照合部４２
は、ｉ＝１、２、……、Ｉの全てのｉについて、対数化
した前向き確率Ｃ_i1を式（１１）に従って求める（Ｓ
６）。

【０３８２】次に照合部４２は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号ｔに１を加算
し（Ｓ７）、然る後、現フレーム番号ｔと終端フレーム
のフレーム番号Ｔとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する（Ｓ８）。

【０３８３】（３−２Ａ：Ｓ８でｔ≦Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームの番号Ｔ以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、前向き確率スキップ数ｓｋｉｐｃと閾値Ｎ
ＳＫＩＰＣとの比較判定を行なう（Ｓ９）。

【０３８４】Ｓ９で前向き確率スキップ数ｓｋｉｐｃが
閾値ＮＳＫＩＰＣを越える場合は、現フレーム番号ｔの
前向き確率Ｃ_itを直前フレームの前向き確率Ｃ_i(t-1)で
近似して前向き確率Ｃ_itを求める演算を終了した回数ｓ
ｋｉｐｃが閾値ＮＳＫＩＰＣを越えるので現フレーム番
号ｔと前向き確率基準フレーム番号ｑｃとの時間的隔た
りが大きくなり、従って誤差が増大する可能性が高い。
そこで参照確率Ｂ_jiを読み出して前向き確率Ｃ_itを求め
ることとなるので、前向き確率スキップ数ｓｋｉｐｃを
０に初期化すると共に、前向き確率基準フレーム番号ｑ
ｃを現フレーム番号ｔに書き換える（Ｓ１０）。

【０３８５】またＳ９で前向き確率スキップ数ｓｋｉｐ
ｃが閾値ＮＳＫＩＰＣ以下となる場合は、照合部４２
は、現フレーム番号ｔの音声特徴ベクトルｘ_t と前向き
確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qcとの
間の距離ｄｔｃを式（１９）に従って求め（Ｓ１１）、
求めた距離ｄｔｃを閾値ＤＴＣと比較してこれらベクト
ルｘ_t 及びｘ_qcが近似的に等しいか否かを判定する（Ｓ
１２）。

【０３８６】Ｓ１２で距離ｄｔｃが閾値ＤＴＣを越える
場合は、現フレーム番号ｔの音声特徴ベクトルｘ_t は前
向き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qc
に近似せず従って現フレーム番号ｔの音声特徴ベクトル
ｘ_t は前向き確率基準フレーム番号ｑｃの音声特徴ベク
トルｘ_qcからの変化が大きいので、現フレーム番号ｔの
前向き確率Ｃ_itは直前フレームの前向き確率Ｃ_i(t-1)で
近似できない。そこで参照確率Ｂ_jiを読み出して前向き
確率Ｃ_itを求めることとなるので、前向き確率スキップ
数ｓｋｉｐｃを０に初期化すると共に、前向き確率基準
フレーム番号ｑｃを現フレーム番号ｔに書き換える（Ｓ
１０）。

【０３８７】またＳ１２で距離ｄｔｃが閾値ＤＴＣ以下
である場合は、ｓｋｉｐｃ≦ＮＳＫＩＰＣかつｄｔｃ≦
ＤＴＣである場合である。ｓｋｉｐｃ≦ＮＳＫＩＰＣの
場合、現フレーム番号ｔの前向き確率Ｃ_itを直前フレー
ムの前向き確率Ｃ_i(t-1)で近似して前向き確率Ｃ_itの演
算を終了した回数ｓｋｉｐｃが閾値ＮＳＫＩＰＣを越え
たので、現フレーム番号ｔと前向き確率基準フレーム番
号ｑｃとの時間的隔たりが小さく、従って誤差が増大す
る可能性は低い。しかもｄｔｃ≦ＤＴＣの場合、現フレ
ーム番号ｔの音声特徴ベクトルｘ_t は前向き確率基準フ
レーム番号ｑｃの音声特徴ベクトルｘ_qcに近似的に等し
く従って現フレーム番号ｔの音声特徴ベクトルｘ_t は前
向き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qc
からの変化が小さいので、現フレーム番号ｔの前向き確
率Ｃ_itは直前フレームの前向き確率Ｃ_i(t-1)で近似でき
る。従って参照確率Ｂ_jiを読み出して前向き確率Ｃ_itを
求める演算も参照確率Ｂ_jiの書換えも行なわない。そこ
で現フレーム番号ｔの前向き確率Ｃ_itは直前フレームの
前向き確率Ｃ_i(t-1)に等しいものとして現フレーム番号
ｔの前向き確率Ｃ_itを求める演算を終了すると共に、前
向き確率スキップ数ｓｋｉｐｃ、出力確率スキップ数ｓ
ｋｉｐｓにそれぞれ１を加算してこれらスキップ数ｓｋ
ｉｐｃ、ｓｋｉｐｓをそれぞれカウントアップする（Ｓ
１３）。然る後、音声区間の次のフレームにつき処理を
行なうべくＳ７の処理に戻る。

【０３８８】前向き確率スキップ数ｓｋｉｐｃが閾値Ｎ
ＳＫＩＰＣを越えるか若しくは距離ｄｔｃが閾値ＤＴＣ
を越えるかした場合にＳ１０を行なったら、次に出力確
率スキップ数ｓｋｉｐｓと閾値ＮＳＫＩＰＳとの比較判
定を行なう（Ｓ１４）。

【０３８９】Ｓ１４で出力確率スキップ数ｓｋｉｐｓが
閾値ＮＳＫＩＰＳを越える場合は、参照確率Ｂ_jiの書換
えを行なわなかった回数ｓｋｉｐｓが閾値ＮＳＫＩＰＳ
を越えるので現フレーム番号ｔと出力確率基準フレーム
番号ｑｓとの時間的隔たりが大きくなり、従って誤差が
増大する可能性が高い。そこで誤差を低減すべく、参照
確率Ｂ_jiの書換えを行なうこととなる。そこで出力確率
スキップ数ｓｋｉｐｓを０に初期化すると共に出力確率
基準フレーム番号ｑｓを現フレーム番号ｔに書き換える
（Ｓ１５）。然る後、ｊ＝１、２、……、Ｊ及びｉ＝
１、２、……、Ｉの全てのｊ、ｉについて、対数化した
出力確率Ｂ_ji(x_t)を式（４）〜（７）に従って求め、参
照確率Ｂ_jiを当該出力確率Ｂ_ji(x_t)に書き換える（Ｓ１
６）。そしてこの参照確率Ｂ_jiの書換え終了後に各参照
確率Ｂ_jiを読み出し、ｉ＝１、２、……、Ｉの全てのｉ
について、前向き確率Ｃ_itを式（１１）に従って求める
（Ｓ１７）。然る後、音声区間の次のフレームにつき処
理を行なうべくＳ７の処理に戻る。尚、図にあっては、
Ｓ１６で参照確率Ｂ_jiを書き換える処理をsave B_ji＝B
_ji(x_t) と表す。

【０３９０】この場合のＳ１７で読み出した参照確率Ｂ
_jiは、Ｓ１６において求めた現フレーム番号ｔの出力確
率Ｂ_ji(x_t)であり、従ってこの場合のＳ１７では現フレ
ーム番号ｔの出力確率Ｂ_ji(x_t)を用いて前向き確率Ｃ_it
を求めることとなる。

【０３９１】Ｓ１４で出力確率スキップ数ｓｋｉｐｓが
閾値ＮＳＫＩＰＳ以下となる場合は、照合部４２は、現
フレーム番号ｔの音声特徴ベクトルｘ_t と出力確率基準
フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離
ｄｔｓを求め（Ｓ１８）、求めた距離ｄｔｓを閾値ＤＴ
Ｓと比較してこれらベクトルｘ_t 及びｘ_qsが近似的に等
しいか否かを判定する（Ｓ１９）。

【０３９２】Ｓ１９で距離ｄｔｓが閾値ＤＴＳを越える
場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t は
出力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
に近似せず従って現フレーム番号ｔの音声特徴ベクトル
ｘ_t は出力確率基準フレーム番号ｑｓの音声特徴ベクト
ルｘ_qsからの変化が大きいので、現フレーム番号ｔの出
力確率Ｂ_ji(x_t)は参照確率Ｂ_jiで近似できない。従って
参照確率Ｂ_jiの書き換えを行なうこととなる。そこでＳ
１５〜Ｓ１７の処理を行ない、然る後、音声区間の次の
フレームにつき処理を行なうべくＳ７の処理に戻る。

【０３９３】Ｓ１９で距離ｄｔｓが閾値ＤＴＳ以下であ
る場合には、現フレーム番号ｔの音声特徴ベクトルｘ_t
は出力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ
_qsに近似的に等しく従って現フレーム番号ｔの音声特徴
ベクトルｘ_t は出力確率基準フレーム番号ｑｓの音声特
徴ベクトルｘ_qsからの変化が小さいので、現フレーム番
号ｔの出力確率Ｂ_ji(x_t)は参照確率Ｂ_jiで近似できる。
従って参照確率Ｂ_jiの書換えは行なわないこととなる。
そこで出力確率スキップ数ｓｋｉｐｓに１を加算して出
力確率スキップ数ｓｋｉｐｓをカウントアップする（Ｓ
２０）。然る後、出力確率Ｂ_ji(x_t)を式（４）〜（７）
を用いて算出せずに参照確率Ｂ_jiを読み出して、ｉ＝
１、２、……、Ｉの全てのｉについて、対数化した前向
き確率Ｃ_itを式（１１）に従って求める（Ｓ１７）。然
る後、音声区間の次のフレームにつき処理を行なうべく
Ｓ７の処理に戻る。

【０３９４】この場合のＳ１７で読み出した参照確率Ｂ
_jiは、出力確率基準フレーム番号ｑｓのフレームで求め
た出力確率Ｂ_ji(x_t)であり、従ってこの場合のＳ１７で
は出力確率基準フレーム番号ｑｓの出力確率Ｂ_ji(x_qs)
を用いて前向き確率Ｃ_itを求めることとなる。

【０３９５】（３−２Ｂ：Ｓ８でｔ＞Ｔの場合）Ｓ８で
現フレーム番号ｔが終端フレームのフレーム番号Ｔより
も大きい場合は、ｉ＝１、２、……、Ｉの全てのｉにつ
いて前向き確率Ｃ_iTを求め終えたので、式（９）に従っ
てｉ＝＊ｉ成る前向き確率Ｃ_iTのうち最大の前向き確率
Ｃ_iTを、音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_T とＨＭＭとの間の尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、……、
ｘ_T ）｝として得、然る後、当該ＨＭＭにつき尤度を求
める処理を終了する（終了）。

【０３９６】照合部４２は、辞書部３６に格納されてい
る全てのＨＭＭについて、各ＨＭＭ毎に、図２０〜図２
２に示すＳ１〜Ｓ２０の処理を行なって尤度（前向き確
率Ｃ_iT）を求め、求めた尤度のうち最大の尤度を検出す
る。そして最大の尤度を得たＨＭＭのカテゴリを、当該
音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、ｘ_T を抽
出した入力音声信号に対する認識結果として、次段の装
置（図示せず）へ出力する。

【０３９７】上述のように尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝＝Ｃ_iTを求める過程において、前向き確率
Ｃ_itに関わるスキップ数ｓｋｉｐｃが閾値ＮＳＫＩＰＣ
以下となりかつ距離ｄｔｃが閾値ＤＴＳ以下となる場合
に、出力確率Ｂ_ji(x_t)を式（４）〜（７）から求める演
算も前向き確率Ｃ_itを式（３）若しくは式（１１）から
求める演算も行なわずに、前向き確率Ｃ_itは直前フレー
ムの前向き確率Ｃ_i(t-1)に等しいものとして前向き確率
Ｃ_itを求める演算を終了する。また出力確率Ｂ_ji(x_t)に
関わるスキップ数ｓｋｉｐｓが閾値ＮＳＫＩＰＳ以下と
なりかつ距離ｄｔｓが閾値ＤＴＳ以下となる場合に、出
力確率Ｂ_ji(x_t)を式（４）〜（７）から求める演算を行
なわずに、前向き確率Ｃ_itを求めるので、大幅に演算量
を削減できる。しかもこのような演算の簡略化は、前向
き確率Ｃ_itに関わるスキップ数ｓｋｉｐｃが閾値ＮＳＫ
ＩＰＣ以下となりかつ距離ｄｔｃが閾値ＤＴＣ以下とな
る場合か出力確率Ｂ_ji(x_t)に関わるスキップ数ｓｋｉｐ
ｓが閾値ＮＳＫＩＰＳ以下となりかつ距離ｄｔｓが閾値
ＤＴＳ以下となる場合かのいずれかの場合に行なうの
で、演算の簡略化を行なっても、前向き確率Ｃ_itの誤差
を小さくできる。

【０３９８】請求項７の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。

【０３９９】

【発明の効果】上述した説明からも明らかなように、請
求項１の発明の音声認識方法によれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t と基準フレーム番号ｑｓの音
声特徴ベクトルｘ_qsとの間の距離ｄｔｓが閾値ＤＴＳ以
下（ｄｔｓ≦ＤＴＳ）となる場合は、参照確率ｂ_jiの書
換えを行なわずに従って現フレーム番号ｔの出力確率ｂ
_ji(x_t)をヒドンマルコフモデルから求める演算を行なわ
ずに、参照確率ｂ_jiを読み出して現フレーム番号ｔの前
向き確率ｃ_itを求めるので、演算量を大幅に削減でき
る。

【０４００】しかもｄｔｓ≦ＤＴＳとなる場合に、現フ
レーム番号ｔの音声特徴ベクトルｘ_t は基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsからの変化が小さいの
で、現フレーム番号ｔの出力確率ｂ_ji(x_t)を参照確率ｂ
_jiで近似できる。従ってこのようにｄｔｓ≦ＤＴＳとな
る場合に演算を簡略化して前向き確率ｃ_itを求めても、
前向き確率ｃ_itの誤差を小さくできる。

【０４０１】これがため音声認識を行なう際の、尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝＝Ｃ_iTを求める過程
において、前向き確率ｃ_itの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。

【０４０２】さらに請求項３の発明の音声認識方法によ
れば、現フレーム番号ｔの出力確率ｂ_ji(x_t)を与える遷
移元Ｓ_j の種別ｓが定常部である場合に、現フレーム番
号ｔの音声特徴ベクトルｘ_t と定常部基準フレーム番号
ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓが閾値
ＤＴＳ以下（ｄｔｓ≦ＤＴＳ）であれば、当該種別ｓを
得たｊに関しては、参照確率ｂ_jiの書換えを行なわずに
従って現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマ
ルコフモデルから求める演算を行なわずに、参照確率ｂ
_jiを読み出して現フレーム番号ｔの前向き確率ｃ_itを求
める。また現フレーム番号ｔの出力確率ｂ_ji(x_t)を与え
る遷移元Ｓ_j の種別ｓが過渡部である場合に、現フレー
ム番号ｔの音声特徴ベクトルｘ_t と過渡部基準フレーム
番号ｑｔの音声特徴ベクトルｘ_qtとの間の距離ｄｔｔが
閾値ＤＴＴ以下（ｄｔｔ≦ＤＴＴ）であれば、当該種別
ｓを得たｊに関しては、参照確率ｂ_jiの書換えを行なわ
ずに従って現フレーム番号ｔの出力確率ｂ_ji(x_t)をヒド
ンマルコフモデルから求める演算を行なわずに、参照確
率ｂ_jiを読み出して現フレーム番号ｔの前向き確率ｃ_it
を求める。このように定常部の場合はｄｔｓ≦ＤＴＳ及
び過渡部の場合はｄｔｔ≦ＤＴＴであれば、参照確率ｂ
_jiの書換えを行なわずに前向き確率ｃ_itを求めるので、
演算量を大幅に低減できる。

【０４０３】ｄｔｓ≦ＤＴＳであれば、現フレーム番号
ｔの音声特徴ベクトルｘ_t は定常部基準フレーム番号ｑ
ｓの音声特徴ベクトルｘ_qsからの変化が小さいので、当
該種別ｓを得たｊに関しては、現フレーム番号ｔの出力
確率ｂ_ji(x_t)を参照確率ｂ_jiで近似できる。またｄｔｔ
≦ＤＴＴであれば、現フレーム番号ｔの音声特徴ベクト
ルｘ_t は過渡部基準フレーム番号ｑｔの音声特徴ベクト
ルｘ_qtからの変化が小さいので、当該種別ｓを得たｊに
関して、現フレーム番号ｔの出力確率ｂ_ｊｉ（ｘ_ｔ）を
参照確率ｂ_ｊｉで近似できる。従ってこのようにｄｔｓ
≦ＤＴＳ若しくはｄｔｔ≦ＤＴＴの場合に演算を簡略化
して前向き確率ｃ_itを求めても、前向き確率ｃ_itの誤差
を小さくできる。

【０４０４】これがため音声認識を行なう際の、尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝＝Ｃ_iTを求める過程
において、前向き確率ｃ_itの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。

【０４０５】さらに請求項７の発明の音声認識方法によ
れば、現フレーム番号ｔの音声特徴ベクトルｘ_t と前向
き確率基準フレーム番号ｑｃの音声特徴ベクトルｘ_qcと
の間の距離ｄｔｃが閾値ＤＴＣ以下となる（ｄｔｃ≦Ｄ
ＴＣとなる）場合は、現フレーム番号ｔの前向き確率ｃ
_itは直前フレームの前向き確率ｃ_i(t-1)に等しいものと
して前向き確率ｃ_itを求める演算を終了する。また距離
ｄｔｃが閾値ＤＴＣを越える（ｄｔｃ＞ＤＴＣとなる）
場合に、現フレーム番号ｔの音声特徴ベクトルｘ_t と出
力確率基準フレーム番号ｑｓの音声特徴ベクトルｘ_qsと
の間の距離ｄｔｓが閾値ＤＴＳ以下（ｄｔｓ≦ＤＴＳ）
となれば、参照確率ｂ_jiの書換えを行なわずに従って現
フレーム番号ｔの出力確率ｂ_ji(x_t)をヒドンマルコフモ
デルから求める演算を行なわずに、参照確率ｂ_jiを読み
出して現フレーム番号ｔの前向き確率ｃ_itを求める。こ
のようにｄｔｃ≦ＤＴＣ若しくはｄｔｓ≦ＤＴＳとなる
場合に、参照確率ｂ_jiの書換えを行なわずに前向き確率
ｃ_itを求めるので、演算量を大幅に削減できる。

【０４０６】しかもｄｔｃ≦ＤＴＣとなる場合に、現フ
レーム番号ｔの音声特徴ベクトルｘ_t は前向き確率基準
フレーム番号ｑｃの音声特徴ベクトルｘ_qcからの変化が
小さいので、現フレーム番号ｔの前向き確率ｃ_itを直前
フレームの前向き確率ｃ_i(t-1)で近似できる。またｄｔ
ｓ≦ＤＴＳ以下となる場合に、現フレーム番号ｔの音声
特徴ベクトルｘ_t は基準フレーム番号ｑｓの音声特徴ベ
クトルｘ_qsからの変化が小さいので、現フレーム番号ｔ
の出力確率ｂ_ji(x_t)を参照確率ｂ_jiで近似できる。従っ
てこのようにｄｔｃ≦ＤＴＣ若しくはｄｔｓ≦ＤＴＳの
場合に演算を簡略化して前向き確率ｃ_itを求めても、前
向き確率ｃ_itの誤差を小さくできる。

【０４０７】これがため音声認識を行なう際の、尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝＝Ｃ_iTを求める過程
において、前向き確率ｃ_itの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。

【図面の簡単な説明】

【図１】請求項１の発明の実施に用いて好適な装置構成
の一例を示す図である。

【図２】ヒドンマルコフモデルの説明に供する図であ
る。

【図３】請求項１の発明の第一実施形態の説明に供する
流れ図である。

【図４】請求項１の発明の第一実施形態の説明に供する
流れ図である。

【図５】請求項１の発明の第二実施形態の説明に供する
流れ図である。

【図６】請求項１の発明の第二実施形態の説明に供する
流れ図である。

【図７】請求項３の発明の実施に用いて好適な装置構成
の一例を示す図である。

【図８】ヒドンマルコフモデルの説明に供する図であ
る。

【図９】請求項３の発明の第一実施形態の説明に供する
流れ図である。

【図１０】請求項３の発明の第一実施形態の説明に供す
る流れ図である。

【図１１】請求項３の発明の第一実施形態の説明に供す
る流れ図である。

【図１２】請求項３の発明の第二実施形態の説明に供す
る流れ図である。

【図１３】請求項３の発明の第二実施形態の説明に供す
る流れ図である。

【図１４】請求項３の発明の第二実施形態の説明に供す
る流れ図である。

【図１５】請求項７の発明の実施に用いて好適な装置構
成の一例を示す図である。

【図１６】ヒドンマルコフモデルの説明に供する図であ
る。

【図１７】請求項７の発明の第一実施形態の説明に供す
る流れ図である。

【図１８】請求項７の発明の第一実施形態の説明に供す
る流れ図である。

【図１９】請求項７の発明の第一実施形態の説明に供す
る流れ図である。

【図２０】請求項７の発明の第二実施形態の説明に供す
る流れ図である。

【図２１】請求項７の発明の第二実施形態の説明に供す
る流れ図である。

【図２２】請求項７の発明の第二実施形態の説明に供す
る流れ図である。

【符号の説明】

１０、２２、３４：音声認識装置１２、２４、３６：辞書部１４、２６、３８：音響処理部１６、２８、４０：音声区間検出部１８、３０、４２：照合部２０、３２、４４：参照情報記憶部

Claims

【特許請求の範囲】

【請求項１】音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T とヒドンマルコフモデルとの間の尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、【数１】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉで示される各式を用いて尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝を求めるに当り、基準フレーム番号ｑｓと参照確率ｂ_jiとを格納する記憶
部を設け、該参照確率ｂ_jiを用いて、ｔ＝１、２、…
…、Ｔの各場合の前向き確率ｃ_itを順次に求め、
（１）．ｔ＝１のときは、基準フレーム番号ｑｓを１に初期化すると共に、全ての
ｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフモ
デルから求め当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初
期値として書き込み、該参照確率ｂ_jiの書込み終了後に
各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める処
理（１Ａ）と、該処理（１Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（１Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、現フレーム番号ｔの音声特徴ベクトルｘ_t と基準フレー
ム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓ
を閾値ＤＴＳと比較し、該比較結果がｄｔｓ＞ＤＴＳと
なる場合に、基準フレーム番号ｑｓを現フレーム番号ｔ
に書き換えると共に、全てのｊ、ｉについて、出力確率
ｂ_ji(x_t)をヒドンマルコフモデルから求めて参照確率ｂ
_jiを当該出力確率ｂ_ji(x_t)に書き換え、該参照確率ｂ_ji
の書換え終了後に各参照確率ｂ_jiを読み出して前向き確
率ｃ_itを求め、該比較結果がｄｔｓ≦ＤＴＳとなる場合
に、参照確率ｂ_jiの書き換えを行なわずに各参照確率ｂ
_jiを読み出して前向き確率ｃ_itを求める処理（１Ｃ）
と、該処理（１Ｃ）の終了後、現フレーム番号ｔに１を加算
する処理（１Ｄ）とを行なうことを特徴とする音声認識
方法。
【請求項２】請求項１記載の音声認識方法において、
（１）．ｔ＝１のときは、基準フレーム番号ｑｓを１に、及び、スキップ数ｓｋｉ
ｐｓを０に初期化すると共に、全てのｊ、ｉについて、
出力確率ｂ_ji(x_t)をヒドンマルコフモデルから求め当該
出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書き込
み、該参照確率ｂ_jiの書込み終了後に各参照確率ｂ_jiを
読み出して前向き確率ｃ_itを求める処理（１Ａ）と、該処理（１Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（１Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、スキップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較すると
共に、現フレーム番号ｔの音声特徴ベクトルｘ_t と基準
フレーム番号ｑｓの音声特徴ベクトルｘ_qsとの間の距離
ｄｔｓを閾値ＤＴＳと比較し、該比較結果がｓｋｉｐｓ
＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳとなる場合に、
スキップ数ｓｋｉｐｓを０に初期化し、及び、基準フレ
ーム番号ｑｓを現フレーム番号ｔに書き換えると共に、
全てのｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマル
コフモデルから求めて参照確率ｂ_jiを当該出力確率ｂ_ji
(x_t)に書き換え、該参照確率ｂ_jiの書換え終了後に各参
照確率ｂ_jiを読み出して前向き確率ｃ_itを求め、該比較
結果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦ＤＴＳと
なる場合に、スキップ数ｓｋｉｐｓに１を加算すると共
に、参照確率ｂ_jiの書換えを行なわずに各参照確率ｂ_ji
を読み出して前向き確率ｃ_itを求める処理（１Ｃ）と、該処理（１Ｃ）の終了後、現フレーム番号ｔに１を加算
する処理（１Ｄ）とを行なうことを特徴とする音声認識
方法。
【請求項３】音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T とヒドンマルコフモデルとの間の尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、【数２】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドンマルコフモデルにおいて最終状態となる状
態Ｓ_i に付与されている状態番号ｉで示される各式を用いて尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝を求めるに当り、ヒドンマルコフモデルにおいて遷移元となる状態Ｓ_j
に、定常部及び過渡部のいずれかの種別ｓを付与し、定常部基準フレーム番号ｑｓ、過渡部基準フレーム番号
ｑｔと、参照確率ｂ_jiとを格納する記憶部を設け、該参
照確率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの各場合の
前向き確率ｃ_itを順次に求め、（１）．ｔ＝１のとき
は、定常部基準フレーム番号ｑｓ、過渡部基準フレーム番号
ｑｔをそれぞれ１に初期化すると共に、全てのｊ、ｉに
ついて、出力確率ｂ_ji(x_t)をヒドンマルコフモデルから
求め当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値とし
て書き込み、該参照確率ｂ_jiの書込み終了後に各参照確
率ｂ_jiを読み出して前向き確率ｃ_itを求める処理（２
Ａ）と、該処理（２Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（２Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、現フレーム番号ｔの音声特徴ベクトルｘ_t と定常部基準
フレーム番号ｑｓの音声特徴ベクトル_qsとの間の距離ｄ
ｔｓを閾値ＤＴＳと比較し、該比較結果がｄｔｓ＞ＤＴ
Ｓとなる場合に、定常部基準フレーム番号ｑｓを現フレ
ーム番号ｔに書き換える処理（２Ｃ）と、現フレーム番号ｔの音声特徴ベクトルｘ_t と過渡部基準
フレーム番号ｑｔの音声特徴ベクトルｘ_qtとの間の距離
ｄｔｔを閾値ＤＴＴと比較し、該比較結果がｄｔｔ＞Ｄ
ＴＴとなる場合に、過渡部基準フレーム番号ｑｔを現フ
レーム番号ｔに書き換える処理（２Ｄ）と、前記処理（２Ｃ）及び（２Ｄ）の終了後、ｊ＝１、２、
……、Ｊの各ｊ毎に、出力確率ｂ_ji(x_t)を与える状態遷
移の遷移元Ｓ_j に付与されている種別ｓを判定する処理
（２Ｅ）と、該処理（２Ｅ）の種別判定結果が定常部であった場合
に、前記処理（２Ｃ）の比較結果がｄｔｓ＞ＤＴＳであ
れば、当該種別判定結果を得たｊに関しては全てのｉに
ついて、出力確率ｂ_ji(x_t)をヒドンマルコフモデルから
求めて参照確率ｂ_jiを当該出力確率ｂ_ji(x_t)に書き換
え、該処理（２Ｅ）の種別判定結果が定常部であった場
合に、前記処理（２Ｃ）の比較結果がｄｔｓ≦ＤＴＳで
あれば、当該種別判定結果を得たｊに関しては参照確率
ｂ_jiの書換えを行なわず、該処理（２Ｅ）の種別判定結
果が過渡部であった場合に、前記処理（２Ｄ）の比較結
果がｄｔｔ＞ＤＴＴであれば、当該種別判定結果を得た
ｊに関しては全てのｉについて、出力確率ｂ_ji(x_t)をヒ
ドンマルコフモデルから求めて参照確率ｂ_jiを当該出力
確率ｂ_ji(x_t)に書き換え、該処理（２Ｅ）の種別判定結
果が過渡部であった場合に、前記処理（２Ｄ）の比較結
果がｄｔｔ≦ＤＴＴであれば、当該種別判定結果を得た
ｊに関しては参照確率ｂ_jiの書換えを行なわない処理
（２Ｆ）と、ｊ＝１、２、……、Ｊの個々のｊ毎に前記処理（２Ｆ）
を行ない、全てのｊにつき前記処理（２Ｆ）を終了した
ら、各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る処理（２Ｇ）と、該処理（２Ｇ）の終了後、現フレーム番号ｔに１を加算
する処理（２Ｈ）とを行なうことを特徴とする音声認識
方法。
【請求項４】請求項３記載の音声認識方法において、処理（２Ｃ）及び（２Ｄ）の終了後、処理（２Ｅ）を行
なうことを特徴とする音声認識方法。
【請求項５】請求項３記載の音声認識方法において、
（１）．ｔ＝１のときは、定常部スキップ数ｓｋｉｐｓ、過渡部スキップ数ｓｋｉ
ｐｔをそれぞれ０に、及び、定常部基準フレーム番号ｑ
ｓ、過渡部基準フレーム番号ｑｔをそれぞれ１に初期化
すると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)
をヒドンマルコフモデルから求め当該出力確率ｂ_ji(x_t)
を参照確率ｂ_jiの初期値として書き込み、該参照確率ｂ
_jiの書込み終了後に各参照確率ｂ_jiを読み出して前向き
確率ｃ_itを求める処理（２Ａ）と、該処理（２Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（２Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、定常部スキップ数ｓｋｉｐｓを閾値ＮＳＫＩＰＳと比較
すると共に、現フレーム番号ｔの音声特徴ベクトルｘ_t
と定常部基準フレーム番号ｑｓの音声特徴ベクトルｘ_qs
との間の距離ｄｔｓを閾値ＤＴＳと比較し、該比較結果
がｓｋｉｐｓ＞ＮＳＫＩＰＳ若しくはｄｔｓ＞ＤＴＳと
なる場合に、定常部スキップ数ｓｋｉｐｓを０に初期化
し、及び、定常部基準フレーム番号ｑｓを現フレーム番
号ｔに書き換え、該比較結果がｓｋｉｐｓ≦ＮＳＫＩＰ
Ｓかつｄｔｓ≦ＤＴＳとなる場合に、定常部スキップ数
ｓｋｉｐｓに１を加算する処理（２Ｃ）と、過渡部スキップ数ｓｋｉｐｔを閾値ＮＳＫＩＰＴと比較
すると共に、現フレーム番号ｔの音声特徴ベクトルｘ_t
と過渡部基準フレーム番号ｑｔの音声特徴ベクトルｘ_qt
との間の距離ｄｔｔを閾値ＤＴＴと比較し、該比較結果
がｓｋｉｐｔ＞ＮＳＫＩＰＴ若しくはｄｔｔ＞ＤＴＴと
なる場合に、過渡部スキップ数ｓｋｉｐｔを０に初期化
し、及び、過渡部基準フレーム番号ｑｔを現フレーム番
号ｔに書き換え、該比較結果がｓｋｉｐｔ≦ＮＳＫＩＰ
Ｔかつｄｔｔ≦ＤＴＴとなる場合に、過渡部スキップ数
ｓｋｉｐｔに１を加算する処理（２Ｄ）と、前記処理（２Ｃ）、（２Ｄ）の終了後、ｊ＝１、２、…
…、Ｊの各ｊ毎に、出力確率ｂ_ji(x_t)を与える状態遷移
の遷移元Ｓ_j に付与されている種別ｓを判定する処理
（２Ｅ）と、該処理（２Ｅ）の種別判定結果が定常部であった場合
に、前記処理（２Ｃ）の比較結果がｓｋｉｐｓ＞ＮＳＫ
ＩＰＳ若しくはｄｔｓ＞ＤＴＳであれば、当該種別判定
結果を得たｊに関しては全てのｉについて、出力確率ｂ
_ji(x_t)をヒドンマルコフモデルから求めて参照確率ｂ_ji
を当該出力確率ｂ_ji(x_t)に書き換え、該処理（２Ｅ）の
種別判定結果が定常部であった場合に、前記処理（２
Ｃ）の比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ
≦ＤＴＳであれば、当該種別判定結果を得たｊに関して
は参照確率ｂ_jiの書換えを行なわず、該処理（２Ｅ）の
種別判定結果が過渡部であった場合に、前記処理（２
Ｄ）の比較結果がｓｋｉｐｔ＞ＮＳＫＩＰＴ若しくはｄ
ｔｔ＞ＤＴＴであれば、当該種別判定結果を得たｊに関
しては全てのｉについて、出力確率ｂ_ji(x_t)をヒドンマ
ルコフモデルから求めて参照確率ｂ_jiを当該出力確率ｂ
_ji(x_t)に書き換え、該処理（２Ｅ）の種別判定結果が過
渡部であった場合に、前記処理（２Ｄ）の比較結果がｓ
ｋｉｐｔ≦ＮＳＫＩＰＴかつｄｔｔ≦ＤＴＴであれば、
当該種別判定結果を得たｊに関しては参照確率ｂ_jiの書
換えを行なわない処理（２Ｆ）と、ｊ＝１、２、……、Ｊの個々のｊ毎に該処理（２Ｆ）を
行ない、全てのｊにつき該処理（２Ｆ）を終了したら、
各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める処
理（２Ｇ）と、該処理（２Ｇ）の終了後、現フレーム番号ｔに１を加算
する処理（２Ｈ）とを行なうことを特徴とする音声認識
方法。
【請求項６】請求項５記載の音声認識方法において、処理（２Ｃ）及び（２Ｄ）の終了後、処理（２Ｅ）を行
なうことを特徴とする音声認識方法。
【請求項７】音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列ｘ₁ 、ｘ
₂ 、……、ｘ_T とヒドンマルコフモデルとの間の尤度ln
｛Ｐ（ｘ₁ 、ｘ₂ 、……、ｘ_T ）｝を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、【数３】但し、ｉ：ｉ＝１、２、……、Ｉｊ：ｊ＝１、２、……、Ｊ Ф_i ：ヒドンマルコフモデルにおいて初期状態がＳ_i で
ある確率ａ_ji：ヒドンマルコフモデルにおいて状態Ｓ_j から状態
Ｓ_i に遷移する確率ｘ_t ：音声区間内の第ｔ番目のフレームで抽出された音
声特徴ベクトル（１≦ｔ≦Ｔであって、第１番目のフレ
ームは音声区間の始端フレームを及び第Ｔ番目のフレー
ムは音声区間の終端フレームを表す）ｂ_ji(x_t)：ヒドンマルコフモデルにおいて状態Ｓ_j から
状態Ｓ_i に遷移するとき出力される音声特徴ベクトルｘ
_t の出力確率ｃ_it：ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列ｘ₁ 、ｘ₂ 、……、
ｘ_t を出力して状態Ｓ_i に至る前向き確率＊ｉ：ヒドン
マルコフモデルにおいて最終状態となる状態Ｓ_i に付与
されている状態番号ｉで示される各式を用いて尤度ln｛Ｐ（ｘ₁ 、ｘ₂ 、…
…、ｘ_T ）｝を求めるに当り、前向き確率基準フレーム番号ｑｃ、出力確率基準フレー
ム番号ｑｓと、参照確率ｂ_jiとを格納する記憶部を設
け、該参照確率ｂ_jiを用いて、ｔ＝１、２、……、Ｔの
各場合の前向き確率ｃ_itを順次に求め、（１）．ｔ＝１
のときは、前向き確率基準フレーム番号ｑｃ、出力確率基準フレー
ム番号ｑｓをそれぞれ１に初期化すると共に、全ての
ｊ、ｉについて、出力確率ｂ_ji(x_t)をヒドンマルコフモ
デルから求め当該出力確率ｂ_ji(x_t)を参照確率ｂ_jiの初
期値として書き込み、該参照確率ｂ_jiの書込み終了後に
各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求める処
理（３Ａ）と、該処理（３Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（３Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、現フレーム番号ｔの音声特徴ベクトルｘ_t と前向き確率
基準フレーム番号ｑｃの音声特徴ベクトルｘ_qcとの間の
距離ｄｔｃを閾値ＤＴＣと比較する処理（３Ｃ）と、該処理（３Ｃ）の比較結果がｄｔｃ≦ＤＴＣとなる場合
に、前向き確率ｃ_itは直前フレームの前向き確率ｃ
_i(t-1)に等しいものとして前向き確率ｃ_itを求める演算
を終了する処理（３Ｄ）と、該処理（３Ｃ）の比較結果がｄｔｃ＞ＤＴＣとなる場合
に、前向き確率基準フレーム番号ｑｃを現フレーム番号
ｔに書き換える処理（３Ｅ）と、該処理（３Ｅ）の終了後、現フレーム番号ｔの音声特徴
ベクトルｘ_t と出力確率基準フレーム番号ｑｓの音声特
徴ベクトルｘ_qsとの間の距離ｄｔｓを閾値ＤＴＳと比較
し、該比較結果がｄｔｓ＞ＤＴＳとなる場合に、出力確
率基準フレーム番号ｑｓを現フレーム番号ｔに書き換え
ると共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)を
ヒドンマルコフモデルから求めて参照確率ｂ_jiを当該出
力確率ｂ_ji(x_t)に書き換え、該参照確率ｂ_jiの書換え終
了後に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求
め、該比較結果がｄｔｓ≦ＤＴＳとなる場合に、参照確
率ｂ_jiの書き換えを行なわずに各参照確率ｂ_jiを読み出
して前向き確率ｃ_itを求める処理（３Ｆ）と、前記処理（３Ｄ）若しくは（３Ｆ）の終了後、現フレー
ム番号ｔに１を加算する処理（３Ｇ）とを行なうことを
特徴とする音声認識方法。
【請求項８】請求項７記載の音声認識方法において、
（１）．ｔ＝１のときは、前向き確率基準フレーム番号ｑｃ、出力確率基準フレー
ム番号ｑｓをそれぞれ１に、及び、前向き確率ステップ
数ｓｋｉｐｃ、出力確率ステップ数ｓｋｉｐｓをそれぞ
れ０に初期化すると共に、全てのｊ、ｉについて、出力
確率ｂ_ji(x_t)をヒドンマルコフモデルから求め当該出力
確率ｂ_ji(x_t)を参照確率ｂ_jiの初期値として書き込み、
該参照確率ｂ_jiの書込み終了後に各参照確率ｂ_jiを読み
出して前向き確率ｃ_itを求める処理（３Ａ）と、該処理（３Ａ）の終了後、現フレーム番号ｔに１を加算
する処理（３Ｂ）とを行ない、（２）．２≦ｔ≦Ｔのと
きは、前向き確率スキップ数ｓｋｉｐｃを閾値ＮＳＫＩＰＣと
比較すると共に、現フレーム番号ｔの音声特徴ベクトル
ｘ_t と前向き確率基準フレーム番号ｑｃの音声特徴ベク
トルｘ_qcとの間の距離ｄｔｃを閾値ＤＴＣと比較する処
理（３Ｃ）と、該処理（３Ｃ）の比較結果がｓｋｉｐｃ≦ＮＳＫＩＰＣ
かつｄｔｃ≦ＤＴＣとなる場合に、前向き確率ｃ_itは直
前フレームの前向き確率ｃ_i(t-1)に等しいものとして前
向き確率ｃ_itを求める演算を終了すると共に、前向き確
率スキップ数ｓｋｉｐｃ、出力確率スキップ数ｓｋｉｐ
ｓにそれぞれ１を加算する処理（３Ｄ）と、該処理（３Ｃ）の比較結果がｓｋｉｐｃ＞ＮＳＫＩＰＣ
若しくはｄｔｃ＞ＤＴＣとなる場合に、前向き確率スキ
ップ数ｓｋｉｐｃを０に初期化し、及び、前向き確率基
準フレーム番号ｑｃを現フレーム番号ｔに書き換える処
理（３Ｅ）と、該処理（３Ｅ）の終了後、出力確率スキップ数ｓｋｉｐ
ｓを閾値ＮＳＫＩＰＳと比較すると共に、現フレーム番
号ｔの音声特徴ベクトルｘ_t と出力確率基準フレーム番
号ｑｓの音声特徴ベクトルｘ_qsとの間の距離ｄｔｓを閾
値ＤＴＳと比較し、該比較結果がｓｋｉｐｓ＞ＮＳＫＩ
ＰＳ若しくはｄｔｓ＞ＤＴＳとなる場合に、出力確率ス
キップ数ｓｋｉｐｓを０に初期化し、及び、出力確率基
準フレーム番号ｑｓを現フレーム番号ｔに書き換えると
共に、全てのｊ、ｉについて、出力確率ｂ_ji(x_t)をヒド
ンマルコフモデルから求めて参照確率ｂ_jiを当該出力確
率ｂ_ji(x_t)に書き換え、該参照確率ｂ_jiの書換え終了後
に各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め、
該比較結果がｓｋｉｐｓ≦ＮＳＫＩＰＳかつｄｔｓ≦Ｄ
ＴＳとなる場合に、出力確率スキップ数ｓｋｉｐｓに１
を加算すると共に、参照確率ｂ_ji(x_t)の書換えを行なわ
ずに各参照確率ｂ_jiを読み出して前向き確率ｃ_itを求め
る処理（３Ｆ）と、前記処理（３Ｄ）若しくは（３Ｆ）の終了後、現フレー
ム番号ｔに１を加算する処理（３Ｇ）とを行なうことを
特徴とする音声認識方法。