JPH09127977A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH09127977A JPH09127977A JP28031495A JP28031495A JPH09127977A JP H09127977 A JPH09127977 A JP H09127977A JP 28031495 A JP28031495 A JP 28031495A JP 28031495 A JP28031495 A JP 28031495A JP H09127977 A JPH09127977 A JP H09127977A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- frame number
- dts
- feature vector
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 319
- 239000013598 vector Substances 0.000 claims abstract description 473
- 238000004364 calculation method Methods 0.000 claims abstract description 106
- 230000008569 process Effects 0.000 claims description 278
- 230000007704 transition Effects 0.000 claims description 201
- 230000001052 transient effect Effects 0.000 claims description 81
- 238000007476 Maximum Likelihood Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 description 48
- 230000008859 change Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 230000001174 ascending effect Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
音声特徴ベクトルとの間の尤度算出を、認識精度を劣化
させずに簡略に行なう。 【解決手段】 尤度として前向き確率Citを求めるに当
り、現フレーム番号tの音声特徴ベクトルxt と基準フ
レーム番号qsの音声特徴ベクトルxqsとの間の距離d
tsが閾値DTSを越える場合は、出力確率Bji(xt)を
ヒドンマルコフモデルから求め、参照確率Bjiを当該出
力確率Bji(xt)に書き換えた後に、参照確率Bjiを読み
出して前向き確率Citを求める。距離dtsが閾値DT
S以下となる場合は、これらベクトルxt 、xqsが近似
するので、現フレーム番号tの出力確率Bji(xt)を参照
確率Bjiで近似できる。そこでこの場合は、参照確率B
jiを書き換えずに、従って現フレーム番号tの出力確率
Bji(xt)をヒドンマルコフモデルから求める演算を行な
わずに、参照確率Bjiを読み出して前向き確率Citを求
める。
Description
準パタンにヒドンマルコフモデルを用いた音声認識方法
に関する。
Markov Model。以下、HMM)は、音声パ
タンのような発声速度に伴う時間変動、発声の個人差や
調音結合などの揺らぎを含むパタンを適切に表現でき、
このため音声認識の分野において広く用いられている。
音声認識で用いるHMMは、いくつかの状態例えばS0
〜S3 と、状態Si から状態Sj に遷移する確率aij及
びその遷移の際に出力される音声特徴ベクトルxの出力
確率bij(x) を有し、一般に、出力確率bij(x)を、複
数個の正規分布から成る無相関混合正規分布で表現す
る。
号から、音声区間の各フレーム毎に音声特徴ベクトルx
t を抽出し、次いで音声特徴ベクトルxt の出力確率b
ij(xt)を求める。出力確率bij(xt)として、典型的に
は、bij(xt)=Σ{λijm bijm(xt) }を算出する。こ
こで、λijm は無相関混合正規分布における第m番目の
正規分布の重み、bijm(xt) は無相関混合正規分布にお
ける第m番目の正規分布から求めた音声特徴ベクトルx
t の出力確率(重み付け無しの出力確率)を表す。
レームまでに抽出された音声特徴ベクトルxt の時系列
とHMMとの間の尤度を、各音声特徴ベクトルxt の出
力確率bij(xt)を用いて、求める。標準パタンとして用
意された各HMM毎に尤度を求め、最大の尤度を得たH
MMに付与されているカテゴリを認識結果とする。
ベクトルxt の出力確率bij(xt)=Σ{λijm b
ijm(xt) }を求めるには膨大な計算が必要であり、従っ
て音声特徴ベクトルxt の時系列とHMMとの尤度を高
速に求めることは難しい。
率bij(xt)を、誤差を抑えつつ、より簡略に求めること
が望まれていた。
め、請求項1〜8の発明の音声認識方法はそれぞれ、音
声区間の始端フレームから終端フレームまでに抽出され
た音声特徴ベクトルの時系列x1 、x2 、……、xT と
ヒドンマルコフモデルとの間の尤度ln{P(x1 、x
2 、……、xT )}を求め、最大の尤度を得たヒドンマ
ルコフモデルに付与されているカテゴリを、当該音声区
間内の音声信号に対する認識結果とする音声認識方法に
おいて、
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、次の如く処理を行なうこ
とを特徴とする。
1の発明の音声認識方法にあっては、基準フレーム番号
qsと参照確率bjiとを格納する記憶部を設け、参照確
率bjiを用いて、t=1、2、……、Tの各場合の前向
き確率citを順次に求める。
ーム番号qsを1に初期化すると共に、全てのj、iに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求め当該出力確率bji(xt)を参照確率bjiの初期値とし
て書き込み、参照確率bjiの書込み終了後に各参照確率
bjiを読み出して前向き確率citを求める処理(1A)
と、処理(1A)の終了後、現フレーム番号tに1を加
算する処理(1B)とを行なう。
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、該参照確率bjiの書換え
終了後に各参照確率bjiを読み出して前向き確率citを
求め、当該比較結果がdts≦DTSとなる場合に、参
照確率bjiの書き換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
bjiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とする。
ルxt と基準フレーム番号qsの音声特徴ベクトルxqs
との間の距離dtsを閾値DTSと比較する。dts>
DTSの場合は、基準フレーム番号qsの書換えと参照
確率bjiの書換えとを行ない、書き換えた参照確率bji
を読み出して前向き確率citを求める。dts≦DTS
の場合は、基準フレーム番号qsの書換えと参照確率b
jiの書換えとは行なわず、書換えを行なわなかった参照
確率bjiを読み出して前向き確率citを求める。
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)は、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
bji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない基準フレーム番号qs
の音声特徴ベクトルxqsとが近似的に等しくなる場合で
あり、従って現フレーム番号tの出力確率bji(xt)は、
基準フレーム番号qsの出力確率bji(xqs) すなわち参
照確率bjiに近似的に等しくなる。そこで参照確率bji
の書換えを行なわずに、参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiの書換えを行な
わないので、基準フレーム番号qsの書換えを行なわな
い。
確率bjiの書換えを行なった後に、従って現フレーム番
号tの出力確率bji(xt)をヒドンマルコフモデルから求
める演算を行なった後に、参照確率bjiを読み出して前
向き確率citを求める。さらに距離dts≦閾値DTS
の場合は、参照確率bjiの書換えを行なわずに、従って
現フレーム番号tの出力確率bji(xt)をヒドンマルコフ
モデルから求める演算を行なわずに、参照確率bjiを読
み出して前向き確率citを求めるので、前向き確率cit
の誤差を抑えつつ、演算量を減少させることができる。
ts≦DTSの場合に出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに得た前向き確率c
itと、そのような演算の簡略化を行なわずに得た前向き
確率citとの差である。
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
ては、請求項1の発明の音声認識方法において、次の如
く処理を行なう。
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現フレーム番号tに1を加算する処理(1B)とを
行なう。
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、該参照確率bjiの書換え終了後に各参照確率
bjiを読み出して前向き確率citを求め、当該比較結果
がskips≦NSKIPSかつdts≦DTSとなる
場合に、スキップ数skipsに1を加算すると共に、
参照確率bjiの書換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
bjiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とし、ス
キップ数skipsの初期値を0とする。
IPSと比較すると共に、現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを閾値DTSと比較する。s
kips>NSKIPS若しくはdts>DTSの場合
は、スキップ数skipsの初期化と基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、スキップ数skipsのカウントアップを行な
い、基準フレーム番号qsの書換えと参照確率bjiの書
換えとは行なわず、書換えを行なわなかった参照確率b
jiを読み出して前向き確率citを求める。
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)を、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
bji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。スキップ数skips
は、skips≦NSKIPSとなる範囲内で参照確率
bjiの書換えを行なわなかった回数を表すものであるの
で、スキップ数skipsを初期化する。
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと基準フ
レーム番号qsとの時間的隔たりが大きくなり、従って
誤差が増大する可能性が高い。そこで誤差を低減すべ
く、参照確率bjiの書換えを行なう。従って参照確率b
jiを、現フレーム番号tの出力確率bji(xt)に書き換え
るので、基準フレーム番号qsを現フレーム番号tに書
き換える。またスキップ数skipsは、skips≦
NSKIPSとなる範囲内で参照確率bjiの書換えを行
なわなかった回数を表すものであるので、スキップ数s
kipsを初期化する。
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と書換えを行なわない基準
フレーム番号qsの音声特徴ベクトルxqsとが近似的に
等しくなる場合であり、従って現フレーム番号tの出力
確率bji(xt)は、書換えを行なわない基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiに近似
的に等しくなる。しかもskips≦NSKIPSであ
り、従って参照確率bjiの書換えを行なわなかった回数
skipsが閾値NSKIPS以下であるので現フレー
ム番号tと基準フレーム番号qsとの時間的隔たりが小
さく、従って誤差が増大する可能性は低い。そこで参照
確率bjiの書換えを行なわずに、参照確率bjiを読み出
して前向き確率citを求める。従って参照確率bjiの書
換えを行なわないので、基準フレーム番号qsの書換え
を行なわない。またスキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、スキップ
数skipsに1を加算してスキップ数skipsをカ
ウントアップする。
くはdts>DTSの場合は、参照確率bjiの書換えを
行なった後に、従って現フレーム番号tの出力確率bji
(xt)をヒドンマルコフモデルから求める演算を行なった
後に、参照確率bjiを読み出して前向き確率citを求め
る。さらにskips≦NSKIPSかつdts≦DT
Sの場合は、参照確率bjiの書換えを行なわずに、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに、参照確率bjiを
読み出して前向き確率citを求めるので、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
kips≦NSKIPSかつdts≦DTSの場合に出
力確率bji(xt)をヒドンマルコフモデルから求める演算
を行なわずに得た前向き確率citと、そのような演算の
簡略化を行なわずに得た前向き確率citとの差である。
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
発明の音声認識方法にあっては、ヒドンマルコフモデル
において遷移元となる状態Sj に、定常部及び過渡部の
いずれかの種別sを付与し、定常部基準フレーム番号q
s、過渡部基準フレーム番号qtと、参照確率bjiとを
格納する記憶部を設け、該参照確率bjiを用いて、t=
1、2、……、Tの各場合の前向き確率citを順次に求
める。
準フレーム番号qs、過渡部基準フレーム番号qtをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、参照確率bjiの書込み終了後に各参照確率bjiを読
み出して前向き確率citを求める処理(2A)と、処理
(2A)の終了後、現フレーム番号tに1を加算する処
理(2B)とを行なう。
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、比較結果がdts>DTSとなる場合
に、定常部基準フレーム番号qsを現フレーム番号tに
書き換える処理(2C)と、現フレーム番号tの音声特
徴ベクトルxt と過渡部基準フレーム番号qtの音声特
徴ベクトルxqtとの間の距離dttを閾値DTTと比較
し、当該比較結果がdtt>DTTとなる場合に、過渡
部基準フレーム番号qtを現フレーム番号tに書き換え
る処理(2D)と、処理(2C)及び(2D)の終了
後、j=1、2、……、Jの各j毎に、出力確率bji(x
t)を与える状態遷移の遷移元Sj に付与されている種別
sを判定する処理(2E)と、処理(2E)の種別判定
結果が定常部であった場合に、処理(2C)の比較結果
がdts>DTSであれば、当該種別判定結果を得たj
に関しては全てのiについて、出力確率bji(xt)をヒド
ンマルコフモデルから求めて参照確率bjiを当該出力確
率bji(xt)に書き換え、処理(2E)の種別判定結果が
定常部であった場合に、処理(2C)の比較判定結果が
dts≦DTSであれば、当該種別判定結果を得たjに
関しては参照確率bjiの書換えを行なわず、処理(2
E)の種別判定結果が過渡部であった場合に、処理(2
D)の比較結果がdtt>DTTであれば、当該種別判
定結果を得たjに関しては全てのiについて、出力確率
bji(xt)をヒドンマルコフモデルから求めて参照確率b
jiを当該出力確率bji(xt)に書き換え、処理(2E)の
種別判定結果が過渡部であった場合に、処理(2D)の
比較判定結果がdtt≦DTTであれば、当該種別判定
結果を得たjに関しては参照確率bjiの書換えを行なわ
ない処理(2F)と、j=1、2、……、Jの個々のj
毎に処理(2F)を行ない、全てのjにつき前記処理
(2F)を終了したら、各参照確率bjiを読み出して前
向き確率citを求める処理(2G)と、処理(2G)の
終了後、現フレーム番号tに1を加算する処理(2H)
とを行なう。
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
わる距離dtsが閾値DTSを越えれば、当該種別を得
たjに関しては、現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求めそして参照確率bjiを
当該出力確率bji(xt)に書き換え、然る後に、参照確率
bjiを読み出して前向き確率citを求める。また定常部
に関わる距離dtsが閾値DTS以下であれば、当該種
別sを得たjに関しては、参照確率bjiの書換えを行な
わずに、従って現フレーム番号tの出力確率bji(xt)を
ヒドンマルコフモデルから求めずに、参照確率bjiを読
み出して前向き確率citを求める。これがため種別sが
定常部であるという判定結果を得たjに関し、前向き確
率citの誤差を抑えつつ、演算量を減少させることがで
きる。
別sが定常部であるという判定結果を得たjに関して、
dts≦DTSの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
citと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdts>DTSであれば
定常部基準フレーム番号qsの書換えを行なうこととな
るが、dts>DTSであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の定常部基準フレー
ム番号qsの音声特徴ベクトルxqsに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は定常部基準
フレーム番号qsの音声特徴ベクトルxqsからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dts
≦閾値DTSであれば定常部基準フレーム番号qsの書
換えを行なわないこととなるが、dts≦DTSである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない定常部基準フレーム番号qsの音声特徴ベ
クトルxqsと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsからの変化が少ないので、
現フレーム番号tの出力確率bji(xt)を参照確率bjiで
近似することができる。
部に関わる距離dttが閾値DTTを越えれば、当該種
別sを得たjに関しては、現フレーム番号tの出力確率
bji(xt)をヒドンマルコフモデルから求めそして参照確
率bjiを当該出力確率bji(x t)に書き換え、然る後に、
参照確率bjiを読み出して前向き確率citを求める。ま
た過渡部に関わる距離dttが閾値DTT以下であれ
ば、当該種別sを得たjに関しては、参照確率bjiの書
換えを行なわずに、従って現フレーム番号tの出力確率
bji(xt)をヒドンマルコフモデルから求めずに、参照確
率bjiを読み出して前向き確率citを求める。これがた
め種別sが過渡部であるという判定結果を得たjに関
し、前向き確率citの誤差を抑えつつ、演算量を減少さ
せることができる。
別sが過渡部であるという判定結果を得たjに関して、
dtt≦DTTの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
citと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdtt>DTTであれば
過渡部基準フレーム番号qtの書換えを行なうこととな
るが、dtt>DTTであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の過渡部基準フレー
ム番号qtの音声特徴ベクトルxqtに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は過渡部基準
フレーム番号qtの音声特徴ベクトルxqtからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dtt
≦閾値DTTであれば過渡部基準フレーム番号qtの書
換えを行なわないこととなるが、dtt≦DTTである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率bji(xt)を参照確率bjiで
近似することができる。
定常部である場合の閾値DTSと種別sが過渡部である
場合の閾値DTTとをそれぞれ個別に設定する理由は、
次の理由に依る。
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DTT
を小さくすることにより、前向き確率citの誤差を小さ
くすることが望まれる。
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
Sを大きくしても前向き確率citの誤差を小さくするこ
とができる。閾値DTSを大きくすることは、演算量の
削減に寄与する。
閾値DTTに値の小さいものを用いると共に、種別sが
定常部である場合に用いる閾値DTSに値の大きいもの
を用いることにより、より効果的に前向き確率citの誤
差を小さくしつつ、演算量を削減することができる。
ては、請求項3の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
DTSの比較結果に応じて定常部基準フレーム番号qs
を書き換える処理(2C)とdtc、DTCの比較結果
に応じて過渡部基準フレーム番号qcを書き換える処理
(2D)とを行ない、然る後、現フレーム番号tの出力
確率bji(xt)を与える状態遷移の、遷移元Sj に付与さ
れている種別sを判定する処理(2E)を行なう。従っ
て定常部基準フレーム番号qsの書換え処理(2C)と
過渡部基準フレーム番号qcの書換え処理(2D)と
を、種別sの判定処理(2E)を行なう前に終了して、
j=1、2、……、Jの個々のj毎には行なわないの
で、処理量を減らすことができる。種別sの判定処理
(2E)を行なった後に、これら書換え処理(2C)、
(2D)を行なうようにすると、個々のj毎に、これら
書換え処理(2C)、(2D)を行なうこととなり処理
量が増える。
おいて、処理(2E)の終了後に、処理(2C)及び
(2D)を行なうようにしても良い。
ては、請求項3記載の音声認識方法において、ヒドンマ
ルコフモデルにおいて遷移元となる状態Sj に、定常部
及び過渡部のいずれかの種別sを付与し、定常部基準フ
レーム番号qs、過渡部基準フレーム番号qtと、参照
確率bjiとを格納する記憶部を設け、該参照確率bjiを
用いて、t=1、2、……、Tの各場合の前向き確率c
itを順次に求める。
キップ数skips、過渡部スキップ数skiptをそ
れぞれ0に、及び、定常部基準フレーム番号qs、過渡
部基準フレーム番号qtをそれぞれ1に初期化すると共
に、全てのj、iについて、出力確率bji(xt)をヒドン
マルコフモデルから求め当該出力確率bji(xt)を参照確
率bjiの初期値として書き込み、参照確率bjiの書込み
終了後に各参照確率bjiを読み出して前向き確率citを
求める処理(2A)と、処理(2A)の終了後、現フレ
ーム番号tに1を加算する処理(2B)とを行なう。
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)と、処理(2C)、(2
D)の終了後、j=1、2、……、Jの各j毎に、出力
確率bji(xt)を与える状態遷移の遷移元Sj に付与され
ている種別sを判定する処理(2E)と、処理(2E)
の種別判定結果が定常部であった場合に、処理(2C)
の比較結果がskips>NSKIPS若しくはdts
>DTSであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(4E)の種別判定結果が定常部で
あった場合に、処理(2C)の比較結果がskips≦
NSKIPSかつdts≦DTSであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わず、処理(2E)の種別判定結果が過渡部であった場
合に、処理(2D)の比較結果がskipt>NSKI
PT若しくはdtt>DTTであれば、当該種別判定結
果を得たjに関しては全てのiについて、出力確率bji
(xt)をヒドンマルコフモデルから求めて参照確率bjiを
当該出力確率bji(xt)に書き換え、処理(2E)の種別
判定結果が過渡部であった場合に、処理(2D)の比較
結果がskipt≦NSKIPTかつdtt≦DTTで
あれば、当該種別判定結果を得たjに関しては参照確率
bjiの書換えを行なわない処理(2F)と、j=1、
2、……、Jの個々のj毎に該処理(2F)を行ない、
全てのjにつき該処理(2F)を終了したら、各参照確
率bjiを読み出して前向き確率citを求める処理(2
G)と、処理(2G)の終了後、現フレーム番号tに1
を加算する処理(2H)とを行なう。
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
定常部に関わるスキップ数skipsが閾値NSKIP
Sを越えるか若しくは定常部に関わる距離dtsが閾値
DTSを越えるかすれば、当該種別を得たjに関して
は、現フレーム番号tの出力確率bji(xt)をヒドンマル
コフモデルから求めそして参照確率bjiを当該出力確率
bji(xt)に書き換え、然る後に、参照確率bjiを読み出
して前向き確率citを求める。また種別sの判定結果が
定常部である場合に、定常部に関わるスキップ数ski
psが閾値NSKIPS以下となりかつ定常部に関わる
距離dtsが閾値DTS以下となれば、当該種別sを得
たjに関しては、参照確率bjiの書換えを行なわずに、
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求めずに、参照確率bjiを読み出して
前向き確率citを求める。これがため種別sが定常部で
あるという判定結果を得たjに関し、前向き確率citの
誤差を抑えつつ、演算量を減少させることができる。
別sが定常部であるという判定結果を得たjに関して、
skips≦NSKIPSかつdts≦DTSの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
比較結果とスキップ数skips、閾値NSKIPSの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
tの音声特徴ベクトルxt は、基準フレーム番号qsの
音声特徴ベクトルxqsに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
dtsが閾値DTS以下となった回数skipsが閾値
NSKIPSを越えるので現フレーム番号tと基準フレ
ーム番号qsとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qs
の音声特徴ベクトルxqsに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskips≦NSKIPSであ
り従って距離dtsが閾値DTS以下となった回数sk
ipsが閾値NSKIPS以下であるので現フレーム番
号tと基準フレーム番号qsとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
合に、過渡部に関わるスキップ数skiptが閾値NS
KIPTを越えるか若しくは過渡部に関わる距離dtt
が閾値DTTを越えるかすれば、当該種別を得たjに関
しては、現フレーム番号tの出力確率bji(xt)をヒドン
マルコフモデルから求めそして参照確率bjiを当該出力
確率bji(xt)に書き換え、然る後に、参照確率bjiを読
み出して前向き確率citを求める。また種別sの判定結
果が過渡部である場合に、過渡部に関わるスキップ数s
kiptが閾値NSKIPT以下となりかつ過渡部に関
わる距離dttが閾値DTT以下となれば、当該種別s
を得たjに関しては、参照確率bjiの書換えを行なわず
に、従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求めずに、参照確率bjiを読み出
して前向き確率citを求める。これがため種別sが過渡
部であるという判定結果を得たjに関し、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
別sが過渡部であるという判定結果を得たjに関して、
skipt≦NSKIPTかつdtt≦DTTの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
比較結果とスキップ数skipt、閾値NSKIPTの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
tの音声特徴ベクトルxt は、基準フレーム番号qtの
音声特徴ベクトルxqtに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
dttが閾値DTT以下となった回数skiptが閾値
NSKIPTを越えるので現フレーム番号tと基準フレ
ーム番号qtとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
TTの場合は、dtt≦DTTであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qt
の音声特徴ベクトルxqtに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskipt≦NSKIPTであ
り従って距離dttが閾値DTT以下となった回数sk
iptが閾値NSKIPT以下であるので現フレーム番
号tと基準フレーム番号qtとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
定常部である場合の閾値DTS、NSKIPSと種別s
が過渡部である場合の閾値DTT、NSKIPTとをそ
れぞれ個別に設定する理由は、次に述べる理由に依る。
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DT
T、NSKIPTを小さくすることにより、前向き確率
citの誤差を小さくすることが望まれる。
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
S、NSKIPSを大きくしても前向き確率citの誤差
を小さくすることができる。閾値DTS、NSKIPS
を大きくすることは、演算量の削減に寄与する。
閾値DTT、NSKIPTに値の小さいものを用いると
共に、種別sが定常部である場合に用いる閾値DTS、
NSKIPSに値の大きいものを用いることにより、よ
り効果的に前向き確率citの誤差を小さくしつつ、演算
量を削減することができる。
ては、請求項5の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
s、NSKIPSの比較結果及びdts、DTSの比較
結果に応じて定常部スキップ数skipsの初期化若し
くはカウントアップと定常部基準フレーム番号qsの書
換えとを行なう処理(2C)と、skipt、NSKI
PTの比較結果及びdtt、DTTの比較結果に応じて
過渡部スキップ数skiptの初期化若しくはカウント
アップと過渡部基準フレーム番号qtの書換えとを行な
う処理(2D)とを行ない、然る後、現フレーム番号t
の出力確率bji(xt)を与える状態遷移の、遷移元Sj に
付与されている種別sを判定する処理(2E)を行な
う。従ってこれらスキップ数、基準フレーム番号に関わ
る処理(2C)、(2D)を、種別sの判定処理(2
E)を行なう前に終了して、j=1、2、……、Jの個
々のj毎には行なわないので、処理量を減らすことがで
きる。種別sの判定処理(2E)を行なった後に、これ
らスキップ数、基準フレーム番号に関わる書換え処理
(2C)、(2D)を行なうようにすると、個々のj毎
に、これらスキップ数、基準フレーム番号に関わる処理
(2C)、(2D)を行なうこととなり処理量が増え
る。
おいて、処理(2E)の終了後に処理(2C)及び(2
D)を行なうようにしても良い。
発明の音声認識方法にあっては、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsと、参照確
率bjiとを格納する記憶部を設け、参照確率bjiを用い
て、t=1、2、……、Tの各場合の前向き確率citを
順次に求める。
率基準フレーム番号qc、出力確率基準フレーム番号q
sをそれぞれ1に初期化すると共に、全てのj、iにつ
いて、出力確率bji(xt)をヒドンマルコフモデルから求
め当該出力確率bji(xt)を参照確率bjiの初期値として
書き込み、参照確率bjiの書込み終了後に各参照確率b
jiを読み出して前向き確率citを求める処理(3A)
と、処理(3A)の終了後、現フレーム番号tに1を加
算する処理(3B)とを行なう。
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、処理(3C)
の比較結果がdtc≦DTCとなる場合に、前向き確率
citは直前フレームの前向き確率ci(t-1)に等しいもの
として前向き確率citを求める演算を終了する処理(3
D)と、処理(3C)の比較結果がdtc>DTCとな
る場合に、前向き確率基準フレーム番号qcを現フレー
ム番号tに書き換える処理(3E)と、処理(3E)の
終了後、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqsと
の間の距離dtsを閾値DTSと比較し、当該比較結果
がdts>DTSとなる場合に、出力確率基準フレーム
番号qsを現フレーム番号tに書き換えると共に、全て
のj、iについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、参照確率bjiの書換え終了後に各参照確率
bjiを読み出して前向き確率citを求め、当該比較結果
がdts≦DTSとなる場合に、参照確率bjiの書き換
えを行なわずに各参照確率bjiを読み出して前向き確率
citを求める処理(3F)と、処理(3D)若しくは
(3F)の終了後、現フレーム番号tに1を加算する処
理(3G)とを行なう。
bjiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。
ルxt と前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcとの間の距離dtcを閾値DTCと比較す
る。dtc≦DTCの場合は、現フレーム番号tの前向
き確率citは直前フレームの前向き確率ci(t-1)に等し
いものとして、前向き確率citを求める演算を終了す
る。
基準フレーム番号qcを現フレーム番号tに書き換え、
然る後、現フレーム番号tの音声特徴ベクトルxt と基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。dts>DTSの場
合は、基準フレーム番号qsの書換えと参照確率bjiの
書換えとを行ない、書き換えた参照確率bjiを読み出し
て前向き確率citを求める。dts≦DTSの場合は、
基準フレーム番号qsの書換えと参照確率bjiの書換え
とは行なわず、書換えを行なわなかった参照確率bjiを
読み出して前向き確率citを求める。
値DTC以下となるので現フレーム番号tの音声特徴ベ
クトルxt と前向き確率基準フレーム番号qcの音声特
徴ベクトルxqcとが近似的に等しくなる場合であり、従
って現フレーム番号tの前向き確率citは前向き確率基
準フレーム番号qcの音声特徴ベクトルxqcからの変化
が小さくなるので、現フレーム番号tの前向き確率cit
は直前フレームの前向き確率ci(t-1)で近似できる。そ
こで現フレーム番号tの前向き確率citは直前フレーム
の前向き確率ci(t-1)に等しいものとして、前向き確率
citを求める演算を終了する。
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率Ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、従って現フレーム番号tの音声特徴ベクトルxt は
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
からの変化が大きくなるので、現フレーム番号tの出力
確率bji(xt)を、書換え前の出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できない。そこで現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求め、参照確率bjiを当該
出力確率bji(xt)に書き換えた後に参照確率bjiを読み
出して前向き確率citを求める。また参照確率bjiを、
現フレーム番号tの出力確率bji(xt)に書き換えるの
で、出力確率基準フレーム番号qsを現フレーム番号t
に書き換える。
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとが近似的に等しくな
る場合であり、従って現フレーム番号tの音声特徴ベク
トルxt は出力確率基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さくなるので、現フレーム番
号tの出力確率bji(xt)を、出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できる。そこで参照確率bjiの書換えを行なわずに、参
照確率bjiを読み出して前向き確率citを求める。また
参照確率bjiの書換えを行なわないので、出力確率基準
フレーム番号qsの書換えを行なわない。
レーム番号tの前向き確率citは直前フレームの前向き
確率ci(t-1)に等しいものとして前向き確率citを求め
る演算を終了し、出力確率bji(xt)を求める演算を行な
わない。そしてdtc>DTCの場合にdts>DTS
であれば、参照確率bjiの書換えを行なった後に、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なった後に、参照確率bji
を読み出して前向き確率citを求める。またdtc>D
TCの場合にdts≦DTSであれば、参照確率bjiの
書換えを行なわずに、従って現フレーム番号tの出力確
率bji(xt)をヒドンマルコフモデルから求める演算を行
なわずに、参照確率bjiを読み出して前向き確率citを
求めるので、前向き確率citの誤差を抑えつつ、演算量
を減少させることができる。
tc≦DTC若しくはdts≦DTSの場合に出力確率
bji(xt)をヒドンマルコフモデルから求める演算を行な
わずに得た前向き確率citと、そのような演算の簡略化
を行なわずに得た前向き確率citとの差である。
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
ては、請求項7の発明の音声認識方法において、次の如
く処理を行なう。
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、該参照確率bji
の書込み終了後に各参照確率bjiを読み出して前向き確
率citを求める処理(3A)と、処理(3A)の終了
後、現フレーム番号tに1を加算する処理(3B)とを
行なう。
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqcと
の間の距離dtcを閾値DTCと比較する処理(3C)
と、処理(3C)の比較結果がskipc≦NSKIP
Cかつdtc≦DTCとなる場合に、前向き確率citは
直前フレームの前向き確率ci(t-1)に等しいものとして
前向き確率citを求める演算を終了すると共に、前向き
確率スキップ数skipc、出力確率スキップ数ski
psにそれぞれ1を加算する処理(3D)と、処理(3
C)の比較結果がskipc>NSKIPC若しくはd
tc>DTCとなる場合に、前向き確率スキップ数sk
ipcを0に初期化し、及び、前向き確率基準フレーム
番号qcを現フレーム番号tに書き換える処理(3E)
と、処理(3E)の終了後、出力確率スキップ数ski
psを閾値NSKIPSと比較すると共に、現フレーム
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がskips>NS
KIPS若しくはdts>DTSとなる場合に、出力確
率スキップ数skipsを0に初期化し、及び、出力確
率基準フレーム番号qsを現フレーム番号tに書き換え
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求めて参照確率bjiを当該出
力確率bji(xt)に書き換え、参照確率bjiの書換え終了
後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がskips≦NSKIPSかつdt
s≦DTSとなる場合に、出力確率スキップ数skip
sに1を加算すると共に、参照確率bji(xt)の書換えを
行なわずに各参照確率bjiを読み出して前向き確率cit
を求める処理(3F)と、処理(3D)若しくは(3
F)の終了後、現フレーム番号tに1を加算する処理
(3G)とを行なう。
bjiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。また前向き確率スキップ数skip
cの初期値と、出力確率スキップ数skipsの初期値
とをそれぞれ、0とする。
閾値NSKIPCと比較すると共に、現フレーム番号t
の音声特徴ベクトルxt と前向き確率基準フレーム番号
qcの音声特徴ベクトルxqcとの間の距離dtcを閾値
DTCと比較する。skipc≦NSKIPCかつdt
c≦DTCの場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に、前
向き確率スキップ数skipcのカウントアップと出力
確率スキップ数skipsのカウントアップとを行な
う。
tc>DTCの場合は、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換えると共に前向き確率ス
キップ数skipcを初期化し、然る後、出力確率スキ
ップ数skipsを閾値NSKIPSと比較すると共に
現フレーム番号tの音声特徴ベクトルxt と出力確率基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。skips>NSK
IPS若しくはdts>DTSの場合は、出力確率スキ
ップ数skipsの初期化と出力確率基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、出力確率スキップ数skipsのカウントアップ
は行ない、出力確率基準フレーム番号qsの書換えと参
照確率bjiの書換えとは行なわずに、書換えを行なわな
かった参照確率bjiを読み出して前向き確率citを求め
る。
TCの場合は、dtc≦DTCであるので現フレーム番
号tの音声特徴ベクトルxt は前向き確率基準フレーム
番号qcの音声特徴ベクトルxqcに近似し、従って現フ
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citは直前
フレームの前向き確率ci(t-1)で近似できる。しかもs
kipc≦NSKIPCであり従って直前フレームの前
向き確率ci(t-1)の書換えを行なわなかった回数ski
pcが閾値NSKIPC以下であるので現フレーム番号
tと前向き確率基準フレーム番号qcとの時間的隔たり
が小さくなる。従って誤差が増大する可能性が低いので
演算量を削減すべく、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して、前向き確率citを求める演算を終了する。従って
参照確率bjiを読み出して前向き確率citを求める演算
も出力確率bjiの書換えも行なわないので、前向き確率
基準フレーム番号qcの書換えも出力確率基準フレーム
番号qsの書換えも行なわない。また前向き確率スキッ
プ数skipcは、skipc≦NSKIPCとなる範
囲内で現フレーム番号tの前向き確率citを直前フレー
ムの前向き確率ci(t-1)で近似して前向き確率citの演
算を終了した回数を表すものであるので、前向き確率ス
キップ数qcに1を加算して前向き確率スキップ数qc
をカウントアップする。さらに出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsに1を加算し
て出力確率スキップ数skipsをカウントアップす
る。
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。また前向き確率スキップ数skipcは、ski
pc≦NSKIPCとなる範囲内で現フレーム番号tの
前向き確率citを直前フレームの前向き確率ci(t-1)で
近似して前向き確率citの演算を終了した回数を表すも
のであるので、前向き確率スキップ数skipcを0に
初期化する。
レーム番号tの前向き確率citを直前フレームの前向き
確率ci(t-1)で近似して前向き確率citの演算を終了し
た回数skipcが閾値NSKIPCを越えるので現フ
レーム番号tと前向き確率基準フレーム番号qcとの時
間的隔たりが大きくなり、従って誤差が増大する可能性
が高いので誤差を低減するべく、参照確率bjiを読み出
して前向き確率citを求める演算を行なう。そこで前向
き確率基準フレーム番号qcを現フレーム番号tに書き
換える。また前向き確率スキップ数skipcは、sk
ipc≦NSKIPCとなる範囲内で現フレーム番号t
の前向き確率citを直前フレームの前向き確率ci(t-1)
で近似して前向き確率citの演算を終了した回数を表す
ものであるので、前向き確率スキップ数skipcを初
期化する。
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、現フレーム番号tの音声特徴ベクトルxt は出力確
率基準フレーム番号qsの音声特徴ベクトルxqsからの
変化が大きいので、現フレーム番号tの出力確率bji(x
t)を、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiで近似できない。そこで参照
確率bjiを、現フレーム番号tの出力確率bji(xt)に書
き換え、この書き換えた参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiを、現フレーム
番号tの出力確率bji(xt)に書き換えるので、出力確率
基準フレーム番号qsを現フレーム番号tに書き換え
る。そして出力確率スキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、出力確率
スキップ数skipsを初期化する。
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと出力確
率基準フレーム番号qsとの時間的隔たりが大きくな
り、従って誤差が増大する可能性が高いので誤差を低減
すべく、参照確率bjiの書換えを行なう。従って参照確
率bjiを、現フレーム番号tの出力確率bji(xt)に書き
換えるので、出力確率基準フレーム番号qsを現フレー
ム番号tに書き換える。そして出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsを初期化す
る。
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と出力確率基準フレーム番
号qsの音声特徴ベクトルxqsとが近似的に等しくなる
場合であり、従って現フレーム番号tの出力確率bji(x
t)は、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiに近似的に等しくなる。しか
もskips≦NSKIPSであり従って参照確率bji
の書換えを行なわなかった回数skipsが閾値NSK
IPS以下であるので、現フレーム番号tと出力確率基
準フレーム番号qsとの時間的隔たりが小さく従って誤
差が増大する可能性は低い。そこで参照確率bjiの書換
えを行なわずに、参照確率bjiを読み出して前向き確率
citを求める。従って参照確率bjiの書換えを行なわな
かったので、出力確率基準フレーム番号qsの書換えを
行なわない。そして出力確率スキップ数skipsは、
skips≦NSKIPSとなる範囲内で参照確率bji
の書換えを行なわなかった回数を表すものであるので、
出力確率スキップ数skipsに1を加算してスキップ
数skipsをカウントアップする。
dtc≦DTCの場合は、現フレーム番号tの前向き確
率citは直前フレームの前向き確率ci(t-1)に等しいも
のとして前向き確率citを求める演算を終了し、出力確
率bji(xt)を求める演算を行なわない。またskipc
>NSKIPC若しくはdtc>DTCの場合に、sk
ips>NSKIPS若しくはdts>DTSであれ
ば、参照確率bjiの書換えを行なった後に、従って現フ
レーム番号tの出力確率bji(xt)をヒドンマルコフモデ
ルから求める演算を行なった後に、参照確率bjiを読み
出して前向き確率citを求める。さらにskipc>N
SKIPC若しくはdtc>DTCの場合に、skip
s≦NSKIPSかつdts≦DTSであれば、参照確
率bjiの書換えを行なわずに、従って現フレーム番号t
の出力確率bji(xt)をヒドンマルコフモデルから求める
演算を行なわずに、参照確率bjiを読み出して前向き確
率citを求めるので、前向き確率citの誤差を抑えつ
つ、演算量を減少させることができる。
kipc≦NSKIPCかつdtc≦DTCの場合、若
しくは、skips≦NSKIPSかつdts≦DTS
の場合に出力確率bji(xt)をヒドンマルコフモデルから
求める演算を行なわずに得た前向き確率citと、そのよ
うな演算の簡略化を行なわずに得た前向き確率citとの
差である。
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
明の第一実施形態の実施に用いて好適な音声認識装置の
構成例を示す機能ブロック図である。
2、音響処理部14、音声区間検出部16、照合部18
及び参照情報記憶部20を備える。
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部20は、基準フレー
ム番号qsと参照確率bjiとを格納する。
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部16は、入力音声信号から音声区間を検
出する。
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部20に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次ぎの如くして順次に求める。
号qsを1に初期化すると共に、全てのj、iについ
て、出力確率bji(xt)をヒドンマルコフモデルから求め
当該出力確率bji(xt)を参照確率bjiの初期値として書
き込み、参照確率bjiの書込み終了後に各参照確率bji
を読み出して前向き確率citを求める処理(1A)と、
処理(1A)の終了後、現フレーム番号tに1を加算す
る処理(1B)とを行なう。
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、参照確率bjiの書換え終
了後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がdts≦DTSとなる場合に、参照
確率bjiの書き換えを行なわずに各参照確率bjiを読み
出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
る図である。辞書部12に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部12に格納する。
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2 に
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
4からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
ルxt とを音声区間検出部16から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
x2 、……、xT と辞書部12に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部12の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
Si ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)ajibji(xt)の
うち最大のcj(t-1)ajibji(xt)を前向き確率citとす
る。この計算法はビタビ法と呼ばれる。
は次式(4)の如く定義する。
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gijm(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
の全てのiについてt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部12に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1、
x2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
3及び図4はこの1個のHMMに着目した処理の流れを
示す図である。この例では、出力確率bji(xt)、前向き
確率cit及び参照確率bjiをそれぞれ、対数化した出力
確率Bji(xt)、対数化した前向き確率Cit及び対数化し
た参照確率Bjiとし、i=j=1、2、……、Iとして
説明する。
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1、
BJ2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
を現フレーム番号1に初期化し(S5)、然る後、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Ci1を式(11)に従って求める(S6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部18は現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを、次式(17)に従って求
める(S9)。
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部18は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S10)。
場合には、現フレーム番号tの音声特徴ベクトルxt と
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこで基準フレーム番号qsを現
フレーム番号tに書き換える(S11)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを、当該出
力確率Bji(xt)に書き換える(S12)。この参照確率
Bjiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S13)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S12で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
jiは、S12において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS13では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
である場合には、現フレーム番号tの音声特徴ベクトル
xt は基準フレーム番号qsの音声特徴ベクトルxqsに
近似的に等しく従って現フレーム番号tの出力確率Bji
(xt)は参照確率Bjiに近似的に等しくなるので、参照確
率Bjiの書換えは行なわないこととなる。そこで出力確
率Bji(xt)を式(4)〜(7)を用いて算出せずに、各
参照確率Bjiを読み出し、i=1、2、……、Iの全て
のiについて、対数化した前向き確率Citを式(11)
に従って求める(S13)。然る後、音声区間の次のフ
レームにつき処理を行なうべくS7の処理に戻る。
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xqs) であり、従ってこの場合のS13では、基
準フレーム番号qsの出力確率Bji(xqs) を用いて前向
き確率Citを求めることとなる。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
る全てのHMMについて、各HMM毎に図3、図4に示
すS1〜S13の処理を行なって尤度(前向き確率
CiT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、距離dts
が閾値DTS以下となる場合に、出力確率Bji(xt)を式
(4)〜(7)から求める演算を行なわずに、前向き確
率Citを求めるので、演算量を大幅に削減できる。しか
もこのような演算の簡略化は、距離dtsが閾値DTS
以下となる場合に行なうので、演算の簡略化を行なって
も、前向き確率Citの誤差を小さくできる。
によれば、出力確率Bji(xt)を求めるための演算量を、
演算の簡略化を行なわない場合の約1/5となるよう
に、閾値DTSを定めた場合と、演算の簡略化を行なわ
ない場合とで、音声認識の認識精度に顕著な差を生じな
い例が数多く存在した。
1の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部18を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
に、参照情報記憶部20に格納してある参照確率bjiを
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現現フレーム番号tに1を加算する処理(1B)と
を行なう。
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、この参照確率bjiの書換え終了後に各参照確
率bjiを読み出して前向き確率citを求め、当該比較結
果がskips≦NSKIPSかつdts≦DTSとな
る場合に、スキップ数skipsに1を加算すると共
に、参照確率bjiの書換えを行なわずに各参照確率bji
を読み出して前向き確率citを求める処理(1C)と、
処理(1C)の終了後、現フレーム番号tに1を加算す
る処理(1D)とを行なう。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
5及び図6は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した出力
確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1、
BJ2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理をsave Bji=Bji(x1) と表して
いる。
を現フレーム番号1に初期化すると共にスキップ数sk
ipsを0に初期化する(S5)。然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、スキップ数skipsと閾値NSKIPS
との比較判定を行なう(S9)。
IPSを越える場合は、現フレーム番号tと基準フレー
ム番号qsとの時間的隔たりが大きく従って誤差が増大
する可能性が高いので誤差を低減すべく、参照確率Bji
の書換えを行なうこととなる。そこでスキップ数ski
psを0に初期化すると共に基準フレーム番号qsを現
フレーム番号tに書き換える(S10)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを当該出力
確率Bji(xt)に書き換える(S11)。この参照確率B
jiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S12)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S11で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
jiは、S11において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS12では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
IPS以下となる場合は、照合部18は、現フレーム番
号tの音声特徴ベクトルxt と基準フレーム番号qsの
音声特徴ベクトルxqsとの間の距離dtsを求め(S1
3)、求めた距離dtsを閾値DTSと比較してこれら
ベクトルxt 及びxqsが近似的に等しいか否かを判定す
る(S14)。
場合には、現フレーム番号tの音声特徴ベクトルxt と
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこでS10〜S12の処理を行
ない、然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は基準フレーム番号qsの音声特徴ベクトルxqsに近似
的に等しく従って現フレーム番号tの出力確率Bji(xt)
は参照確率Bjiに近似的に等しくなるので、参照確率B
jiの書換えは行なわないこととなる。そこでスキップ数
skipsに1を加算してスキップ数skipsをカウ
ントアップし(S15)、然る後、出力確率Bji(xt)を
式(4)〜(7)を用いて算出せずに、参照確率Bjiを
読み出し、i=1、2、……、Iの全てのiについて、
対数化した前向き確率Citを式(11)に従って求める
(S12)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xt)であり、従ってこの場合のS12では、基準
フレーム番号qsの出力確率Bji(xqs) を用いて前向き
確率Citを求めることとなる。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトルの時系列x1 、x2 、……、
xT とHMMとの間の尤度ln{P(x1 、x2 、……、
xT )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
る全てのHMMについて、各HMM毎に、図5、図6に
示すS1〜S15の処理を行なって尤度(前向き確率C
iT)を求め、求めた尤度のうち最大の尤度を検出する。
そして最大の尤度を得たHMMのカテゴリを、当該音声
特徴ベクトルの時系列x1 、x2 、……、xT を抽出し
た入力音声信号に対する認識結果として、次段の装置
(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、スキップ数
skipsが閾値NSKIPS以下となりかつ距離dt
sが閾値DTS以下となる場合に、出力確率Bji(xt)を
式(4)〜(7)から求める演算を行なわずに、前向き
確率Citを求めるので、大幅に演算量を削減できる。し
かもこのような演算の簡略化は、スキップ数skips
が閾値NSKIPS以下となりかつ距離dtsが閾値D
TS以下となる場合に行なうので、演算の簡略化を行な
っても、前向き確率Citの誤差を小さくできる。
ング処理を行なう音声認識装置の全てに適用できる。
請求項3の発明の第一実施形態の実施に用いて好適な音
声認識装置の構成例を示す機能ブロック図である。
4、音響処理部26、音声区間検出部28、照合部30
及び参照情報記憶部32を備える。
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。ヒドンマルコフモデルにおいて音声
特徴ベクトルxの出力確率bji(x) を与える状態遷移の
遷移元となる状態Sj には、定常部及び過渡部のいずれ
かの種別sを付与してある。参照情報記憶部32は、定
常部基準フレーム番号qs、過渡部基準フレーム番号q
tと、参照確率bjiとを格納する。
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部28は、入力音声信号から音声区間を検
出する。
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部32に格納されて
いる参照確率bjiを用いて、t=1、2、……、Tの各
場合の前向き確率citを、次の如くして順次に求める。
ーム番号qs、過渡部基準フレーム番号qtをそれぞれ
1に初期化すると共に、全てのj、iについて、出力確
率bji(xt)をヒドンマルコフモデルから求め当該出力確
率bji(xt)を参照確率bjiの初期値として書き込み、該
参照確率bjiの書込み終了後に各参照確率bjiを読み出
して前向き確率citを求める処理(2A)を行なう。そ
して処理(2A)の終了後、現フレーム番号tに1を加
算する処理(2B)を行なう。
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、当該比較結果がdts>DTSとなる
場合に、定常部基準フレーム番号qsを現フレーム番号
tに書き換える処理(2C)と、現フレーム番号tの音
声特徴ベクトルxt と過渡部基準フレーム番号qtの音
声特徴ベクトルxqtとの間の距離dttを閾値DTTと
比較し、当該比較結果がdtt>DTTとなる場合に、
過渡部基準フレーム番号qtを現フレーム番号tに書き
換える処理(2D)とを行ない、これら処理(2C)及
び(2D)の終了後、j=1、2、……、Jの各j毎
に、出力確率bji(xt)を与える状態遷移の遷移元Sj に
付与されている種別sを判定する処理(2E)を行な
う。
部であった場合に、処理(2C)の比較結果がdts>
DTSであれば、当該種別判定結果を得たjに関しては
全てのiについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、処理(2E)の種別判定結果が定常部であ
った場合に、処理(2C)の比較結果がdts≦DTS
であれば、当該種別判定結果を得たjに関しては参照確
率bjiの書換えを行なわず、処理(2E)の種別判定結
果が過渡部であった場合に、処理(2D)の比較結果が
dtt>DTTであれば、当該種別判定結果を得たjに
関しては全てのiについて、出力確率bji(xt)をヒドン
マルコフモデルから求めて参照確率bjiを当該出力確率
bji(xt)に書き換え、処理(2E)の種別判定結果が過
渡部であった場合に、処理(2D)の比較結果がdtt
≦DTTであれば、当該種別判定結果を得たjに関して
は参照確率bjiの書換えを行なわない処理(2F)を行
なう。
に処理(2F)を行ない、全てのjにつき処理(2F)
を終了したら、各参照確率bjiを読み出して前向き確率
citを求める処理(2G)を行なう。処理(2G)の終
了後、現フレーム番号tに1を加算する処理(2H)を
行なう。
る図である。辞書部24に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部24に格納する。
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。そしてHMMにおいて出力
確率bji(x) を与える状態遷移の遷移元Sj に対して
は、定常部及び過渡部のいずれかの種別sを付与してあ
る。但し、
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2 に
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。さらに出力確率b11
(x) を与える状態遷移S1 →S1 の遷移元S1 に対して
は、種別sとして過渡部が、また出力確率b12(x) を与
える状態遷移S1 →S2 に対しては、種別sとして定常
部が付与してある。
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。この際、出力確率bji(x) を与える状態遷移が音
声信号の定常部及び過渡部のいずれであるかも調べて、
当該状態遷移の遷移元Sj に対し定常部及び過渡部のい
ずれかの種別sを付与する。
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部26は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
6からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
ルxt とを音声区間検出部28から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
x2 、……、xT と辞書部24に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部24の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
Si ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)ajibji(xt)の
うち最大のcj(t-1)ajibji(xt)を、前向き確率citと
する。この計算法はビタビ法と呼ばれる。
は次式(4)の如く定義する。
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部24に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1、
x2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
9〜図11は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1、
BJ2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
号qs、過渡部基準フレーム番号qtをそれぞれ、現フ
レーム番号1に初期化し(S5)、然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部30は現フレーム番号tの音声特徴
ベクトルxt と定常部基準フレーム番号qsの音声特徴
ベクトルxqsとの間の距離dtsを、次式(17)に従
って求める(S9)。
トル成分 xqsk :定常部基準フレーム番号qsの音声特徴ベクト
ルxqsのベクトル成分 次に照合部30は、定常部に関わる距離dtsと閾値D
TSとを比較してこれらベクトルxt 及びxqsが近似的
に等しいか否かを判定する(S10)。
場合には、現フレーム番号tの音声特徴ベクトルxt は
定常部基準フレーム番号qsの音声特徴ベクトルxqsに
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きいので、定常部基準フレーム番号q
sを現フレーム番号tに書き換えると共に定常部に関わ
る比較結果mode sとして、dts>DTSを表す情報TR
UEを書き込む(S11)。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は定常部基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、定常部基準フ
レーム番号qsの書換えは行なわないと共に定常部に関
わる比較結果mode sとして、dts≦DTSを表す情報
FALSE を書き込む(S12)。
ら、次に照合部30は現フレーム番号tの音声特徴ベク
トルxt と過渡部基準フレーム番号qtの音声特徴ベク
トルxqtとの間の距離dttを、次式(18)に従って
求める(S13)。
トル成分 xqtk :過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtのベクトル成分 次に照合部30は、過渡部に関わる距離dttと閾値D
TTとを比較してこれらベクトルxt 及びxqtが近似的
に等しいか否かを判定する(S14)。
場合には、現フレーム番号tの音声特徴ベクトルxt が
過渡部基準フレーム番号qtの音声特徴ベクトルxqtに
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きいので、過渡部基準フレーム番号q
tを現フレーム番号tに書き換えると共に過渡部に関わ
る比較結果mode tとして、dtt>DTTを表す情報TR
UEを書き込む(S15)。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は過渡部基準フレーム番号qtの音声特
徴ベクトルxqtからの変化が小さいので、過渡部基準フ
レーム番号qtの書換えは行なわないと共に過渡部に関
わる比較結果mode tとして、dtt≦DTTを表す情報
FALSE を書き込む(S16)。
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj に
付与されている番号)を初期値1に設定し(S17)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S18)。
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S19)。
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わる距離dtsが閾値DTSを越
えていたか否かを判定する(S20)。
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt が定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
尚、S21で参照確率Bjiを書き換える処理を、図にあ
ってはsave Bji=Bji(xt) と表している。
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsに近似的に等しく従って現
フレーム番号tの音声特徴ベクトルxt は定常部基準フ
レーム番号qsの音声特徴ベクトルxqsからの変化が小
さいので、現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できる。そこで照合部30は、S21の
処理を行なわずに、従って出力確率Bji(xt)を式(4)
〜(7)に従って求める処理も参照確率Bjiを書き換え
る処理も行なわずに、次の番号jにつき処理を行なうべ
く、遷移元Sj の番号jに1を加算し(S22)、然る
後、S18の処理を行なう。
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わる距離dttが閾値DTTを越
えていたか否かを判定する(S23)。
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtに近似的に等しくなり従っ
て現フレーム番号tの音声特徴ベクトルxt は過渡部基
準フレーム番号qtの音声特徴ベクトルxqtからの変化
が小さいので、現フレーム番号tの出力確率Bji(xt)は
参照確率Bjiで近似できる。そこで照合部30は、S2
1の処理を行なわずに、従って出力確率Bji(xt)を式
(4)〜(7)に従って求める処理も参照確率Bjiを書
き換える処理も行なわずに、次の番号jにつき処理を行
なうべく、遷移元Sj の番号jに1を加算し(S2
2)、然る後、S18の処理を行なう。
つきS19〜S23の処理を終了すると、S18の処理
でj>J(ここではJ=I)との判定結果を得るので、
S18でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S24)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
る全てのHMMについて、各HMM毎に図9〜図11に
示すS1〜S23の処理を行なって尤度(前向き確率C
iT)を求め、そして最大の尤度を得たHMMのカテゴリ
を、当該音声特徴ベクトルの時系列x1 、x2 、……、
xT を抽出した入力音声信号に対する認識結果として、
次段の装置(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか、若しくは、遷移元Sj が過渡部である場合に距離
dttが閾値DTT以下となるかした場合に、出力確率
Bji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、演算量を大幅に削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか若しくは遷移元Sj が過渡部である場合に距離dt
tが閾値DTT以下となるかした場合に、行なうので、
演算の簡略化を行なっても、前向き確率Citの誤差を小
さくできる。
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値DTTを小さく設定することにより前向き確
率Citの誤差を小さくすることが望まれる。
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値DTSを大きくしても前向き確率C
itの誤差を小さくすることができる。
の大きなものを用いると共に、過渡部に関わる閾値DT
Tとして値の小さなものを用いることにより、前向き確
率Citの誤差をなるべく小さくしつつ、演算量を削減す
ることができる。
によれば、図9〜図11に示すこの例において、前向き
確率Citを求めるための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、定常部に関わる閾
値DTS及び過渡部に関わる閾値DTTを定めても、図
9〜図11に示すこの例と、演算の簡略化を行なわない
場合とで、音声認識の認識精度に顕著な差を生じないば
かりか、むしろ認識精度が向上する例が数多く存在し
た。
3の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部30を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
に、参照情報記憶部32に格納されている参照確率bji
を用いて、t=1、2、……、Tの各場合の前向き確率
citを、次ぎの如くして順次に求める。
数skips、過渡部スキップ数skiptをそれぞれ
0に、及び、定常部基準フレーム番号qs、過渡部基準
フレーム番号qtをそれぞれ1に初期化すると共に、全
てのj、iについて、出力確率bji(xt)をヒドンマルコ
フモデルから求め当該出力確率bji(xt)を参照確率bji
の初期値として書き込み、参照確率bjiの書込み終了後
に各参照確率bjiを読み出して前向き確率citを求める
処理(2A)を行なう。
番号tに1を加算する処理(2B)を行なう。
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)とを行なう。
j=1、2、……、Jの各j毎に、出力確率bji(xt)を
与える状態遷移の遷移元Sj に付与されている種別sを
判定する処理(2E)を行なう。
部であった場合に、処理(2C)の比較結果がskip
s>NSKIPS若しくはdts>DTSであれば、当
該種別判定結果を得たjに関しては全てのiについて、
出力確率bji(xt)をヒドンマルコフモデルから求めて参
照確率bjiを当該出力確率bji(xt)に書き換え、処理
(2E)の種別判定結果が定常部であった場合に、処理
(2C)の比較結果がskips≦NSKIPSかつd
ts≦DTSであれば、当該種別判定結果を得たjに関
しては参照確率bjiの書換えを行なわず、処理(2E)
の種別判定結果が過渡部であった場合に、処理(2D)
の比較結果がskipt>NSKIPT若しくはdtt
>DTTであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(2E)の種別判定結果が過渡部で
あった場合に、処理(2D)の比較結果がskipt≦
NSKIPTかつdtt≦DTTであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わない処理(2F)を行なう。
に該処理(2F)を行ない、全てのjにつき処理(2
F)を終了したら、各参照確率bjiを読み出して前向き
確率citを求める処理(2G)を行なう。
番号tに1を加算する処理(2H)を行なう。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
12〜図14は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1、
BJ2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
ips、過渡部スキップ数skiptをそれぞれ、0に
初期化すると共に定常部基準フレーム番号qs、過渡部
基準フレーム番号qtをそれぞれ、現フレーム番号1に
初期化し(S5)、然る後、i=1、2、……、Iの全
てのiについて、対数化した前向き確率Ci1を式(1
1)に従って求める(S6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、定常部スキップ数skipsと閾値NSK
IPSとの比較判定を行なう(S9)。
NSKIPSを越える場合は、定常部に関わる距離dt
sが閾値DTS以下となった回数skipsが閾値NS
KIPSを越え従って現フレーム番号tと定常部基準フ
レーム番号qsとの時間的隔たりが大きくなるので、誤
差が増大する可能性が高い。そこで定常部スキップ数s
kipsを0に初期化すると共に定常部基準フレーム番
号qsを現フレーム番号tに書き換え、さらに定常部に
関わる比較結果mode sとして、skips>NSKIP
S若しくはdts>DTSであったことを表す情報TRUE
を書き込む(S10)。
NSKIPS以下である場合は、次に照合部30は現フ
レーム番号tの音声特徴ベクトルxt と定常部基準フレ
ーム番号qsの音声特徴ベクトルxqsとの間の距離dt
sを式(17)に従って求め(S11)、然る後、定常
部に関わる距離dtsを閾値DTSと比較してこれらベ
クトルxt 及びxqsが近似的に等しいか否かを判定する
(S12)。
場合には、現フレーム番号tの音声特徴ベクトルxt は
定常部基準フレーム番号qsの音声特徴ベクトルxqsに
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きい。そこで定常部スキップ数ski
psを0に初期化すると共に定常部基準フレーム番号q
sを現フレーム番号tに書き換え、さらに定常部に関わ
る比較結果mode sとして、skips>NSKIPS若
しくはdts>DTSであったことを表す情報TRUEを書
き込む(S10)。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は定常部基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さい。そこで定常部スキップ
数skipsに1を加算して定常部スキップ数skip
sをカウントアップすると共に、定常部に関わる比較結
果mode sとして、skips≦NSKIPTかつdts
≦DTSであったことを表す情報FALSE を書き込む(S
13)。
ら、次に照合部30は過渡部スキップ数skiptと閾
値NSKIPTとの比較判定を行なう(S14)。
値NSKIPTを越える場合は、過渡部に関わる距離d
ttが閾値DTT以下となった回数skiptが閾値N
SKIPTを越え従って現フレーム番号tと過渡部基準
フレーム番号qtとの時間的隔たりが大きくなるので、
誤差が増大する可能性が高い。そこで過渡部スキップ数
skiptを0に初期化すると共に過渡部基準フレーム
番号qtを現フレーム番号tに書き換え、さらに過渡部
に関わる比較結果mode tとして、skipt>NSKI
PT若しくはdtt>DTTであったことを表す情報TR
UEを書き込む(S15)。
値NSKIPT以下である場合は、次に照合部30は現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを式(18)に従って求め(S16)、然る後、過
渡部に関わる距離dttを閾値DTTと比較してこれら
ベクトルxt 及びxqtが近似的に等しいか否かを判定す
る(S17)。
場合には、現フレーム番号tの音声特徴ベクトルxt は
過渡部基準フレーム番号qtの音声特徴ベクトルxqtに
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きい。そこで過渡部スキップ数ski
ptを0に初期化すると共に過渡部基準フレーム番号q
tを現フレーム番号tに書き換え、さらに過渡部に関わ
る比較結果mode tとして、skipt>NSKIPT若
しくはdtt>DTTであったことを表す情報TRUEを書
き込む(S15)。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtからの変化が小さい。そこで過渡部スキップ
数skiptに1を加算して過渡部スキップ数skip
tをカウントアップすると共に、過渡部に関わる比較結
果mode tとして、skipt≦NSKIPTかつdtt
≦DTTであったことを表す情報FALSE を書き込む(S
18)。
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj に
付与されている番号)を初期値1に設定し(S19)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S20)。
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S21)。
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わるスキップ数skips、閾値
NSKIPSの比較結果及び距離dts、閾値DTSの
比較結果がどのようになっているかを判定する(S2
2)。
SKIPS若しくはdts>DTSであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後、S20の処理を行なう。尚、S2
3で参照確率Bjiを書き換える処理を、図にあってはsa
ve Bji=Bji(xt) と表している。
部に関わる距離dtsが閾値DTS以下となった回数s
kipsが閾値NSKIPSを越えたので現フレーム番
号tと定常部基準フレーム番号qsとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために、参照確率Bjiを書き換える。
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで参照確率Bjiを書き換える。
SKIPSかつdts≦DTSであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率B jiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
TSであれば、skips≦NSKIPSなので定常部
に関わる距離dtsが閾値DTS以下となった回数sk
ipsは閾値NSKIPSを越えず、従って現フレーム
番号tと定常部基準フレーム番号qsとの時間的隔たり
は小さくなるので誤差が増大する可能性は低い。しかも
dts≦DTSなので現フレーム番号tの音声特徴ベク
トルxt は定常部基準フレーム番号qsの音声特徴ベク
トルxqsに近似的に等しくなり従って現フレーム番号t
の音声特徴ベクトルxt は定常部基準フレーム番号qs
の音声特徴ベクトルxqsからの変化が小さいので、現フ
レーム番号tの出力確率Bji(xt)は参照確率Bjiで近似
的できる。そこで参照確率Bjiを書き換えずに読み出し
て、前向き確率Citを求める。
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わるスキップ数skipt、閾値
NSKIPTの比較結果及び距離dtt、閾値DTTの
比較結果がどのようになっているかを判定する(S2
5)。
SKIPT若しくはdtt>DTTであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後S20の処理を行なう。
部に関わる距離dttが閾値DTT以下となった回数s
kiptが閾値NSKIPTを越えたので現フレーム番
号tと過渡部基準フレーム番号qtとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために参照確率Bjiを書き換える。
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで誤差を低減するために参照確
率Bjiを書き換える。
SKIPTかつdtt≦DTTであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率Bjiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
TTであれば、skipt≦NSKIPTなので過渡部
に関わる距離dttが閾値DTT以下となった回数sk
iptは閾値NSKIPTを越えず、従って現フレーム
番号tと過渡部基準フレーム番号qtとの時間的隔たり
が小さくなるので誤差が増大する可能性は低い。しかも
dtt≦DTTであるので現フレーム番号tの音声特徴
ベクトルxt は過渡部基準フレーム番号qtの音声特徴
ベクトルxqtに近似的に等しくなり従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率Bji(xt)は参照確率Bjiで
近似できる。そこで参照確率Bjiの書き換えを行なわな
い。
つきS20〜S25の処理を終了すると、S20の処理
でj>J(ここではJ=I)との判定結果を得るので、
S20でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S26)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
る全てのHMMについて、各HMM毎に図12〜図14
に示すS1〜S26の処理を行なって尤度(前向き確率
CiT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下で
あれば、出力確率Bji(xt)を式(4)〜(7)から求め
る演算を行なわずに、参照確率Bjiを読み出して前向き
確率Citを求める。また遷移元Sj が過渡部である場合
にスキップ数skiptが閾値NSKIPT以下となり
かつ距離dttが閾値DTT以下であれば、出力確率B
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、大幅に演算量を削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下と
なるか、遷移元Sj が過渡部である場合にスキップ数s
kiptが閾値NSKIPT以下となりかつ距離dtt
が閾値DTT以下となる場合かのいずれかの場合に行な
うので、演算の簡略化を行なっても、前向き確率Citの
誤差を小さくできる。
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値NSKIPT、DTTを小さく設定すること
により前向き確率Citの誤差を小さくすることが望まれ
る。
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値NSKIPS、DTSを大きくして
も前向き確率Citの誤差を小さくすることができる。
DTSに値の大きいものを用いると共に、過渡部に関わ
る閾値NSKIPT、DTTに値の小さなものを用いる
ことにより、前向き確率Citの誤差をなるべく小さくし
つつ、演算量を削減することができる。
ング処理を行なう音声認識装置の全てに適用できる。
過渡部の種別sは、例えば以下に述べるようにして定め
ることができる。
ラメータのひとつbjim(xt) に着目するものである。
(6)式にも示すように、bjim(xt) =(2π)-p/2|
ρjim|-1/2 exp{Djimt 2 /2}であって、この式
(6)中の分散・供分散行列の大きさ|ρjim |が、任
意好適に定めた閾値THLを越える場合に、当該出力確
率bji(xt)を与える遷移元Sj の種別sを過渡部と判定
し、また分散・供分散行列の大きさ|ρjim |が閾値T
HL以下となる場合に、当該出力確率bji(xt)を与える
遷移元Sj の種別sを定常部と判定する。従ってこの場
合には、分散・供分散行列の大きさ|ρjim |が種別s
を表し、この|ρjim |と閾値THLとの比較判定が、
種別sの判定ということになる。
態遷移が母音の状態遷移に対応する場合に、当該状態遷
移の遷移元Sj に対し定常部であることを表す情報を、
また出力確率bji(xt)を与える状態遷移が子音の状態遷
移に対応する場合に、当該状態遷移の遷移元Sj に対し
過渡部であることを表す情報を、予め付与しておくとい
うものである。
態遷移が、母音の状態遷移及びp、t、k、r以外の子
音の状態遷移に対応する場合に、当該状態遷移の遷移元
Sjに対し定常部であることを表す情報を、また出力確
率bji(xt)を与える状態遷移が子音p、t、k、rの状
態遷移に対応する場合に、当該状態遷移の遷移元Sjに
対し過渡部であることを表す情報を、予め付与しておく
というものである。
は請求項7の発明の第一実施形態の実施に用いて好適な
音声認識装置の構成例を示す機能ブロック図である。
6、音響処理部38、音声区間検出部40、照合部42
及び参照情報記憶部44を備える。
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部44は、前向き確率
基準フレーム番号qc、出力確率基準フレーム番号qs
と、参照確率bjiとを格納する。
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部40は、入力音声信号から音声区間を検
出する。
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部44に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次の如くして順次に求める。
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、該参照確率bjiの書込み終了後に各参照確率bjiを
読み出して前向き確率citを求める処理(3A)を行な
う。そして処理(3A)の終了後、現フレーム番号tに
1を加算する処理(3B)を行なう。
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、この処理(3
C)の比較結果がdtc≦DTCとなる場合に、前向き
確率citは直前フレームの前向き確率ci(t-1)に等しい
ものとして前向き確率citを求める演算を終了する処理
(3D)と、この処理(3C)の比較結果がdtc>D
TCとなる場合に、前向き確率基準フレーム番号qcを
現フレーム番号tに書き換える処理(3E)とを行な
う。
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がdts>DTSと
なる場合に、出力確率基準フレーム番号qsをフレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、参照確率
bjiの書換え終了後に各参照確率bjiを読み出して前向
き確率citを求め、当該比較結果がdts≦DTSとな
る場合に、参照確率bjiの書き換えを行なわずに各参照
確率bjiを読み出して前向き確率citを求める処理(3
F)を行なう。
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
する図である。辞書部36に格納されているヒドンマル
コフモデル(Hidden Markov Model 。以下、HMM)
は、音声認識一単位分の音声信号を表現する。音声認識
の一単位は、単語単位、音素単位或はそのほかとするこ
とができるが、ここでは単語単位とする。各カテゴリz
毎に複数のHMMを用意し、HMMとカテゴリzとを相
対応付けて辞書部36に格納する。
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図14の例において、a12は状態S1 から状態S
2 に遷移する確率及びb12(x) は状態S1 から状態S2
に遷移したとき音声特徴ベクトルxが出力される確率、
またa22は状態S2 から状態S2 に遷移する確率及びb
22(x) は状態S 2 から状態S2 に遷移したとき音声特徴
ベクトルxが出力される確率を表す。
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部38は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
8からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
ルxt とを音声区間検出部40から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
x2 、……、xT と辞書部36に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部36の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
Si ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)ajibji(xt)の
うち最大のcj(t-1)ajibji(xt)を前向き確率citとす
る。この計算方法は、ビタビ法と呼ばれている。
は次式(4)の如く定義する。
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部36に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1、
x2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
17〜図19はこの1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した参
照確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部44は、参照確率B11、B
12、……、B1I、B21、B22、……、B2I、……、
BJ1、BJ2、……、BJIをそれぞれ個別に格納するJ×
I個の格納領域を有する。そこで図にあっては、参照確
率Bjiの初期値を格納する処理を、save Bji=Bji(x1)
と表している。
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化する(S5)。
について、対数化した前向き確率Ci1を式(11)に従
って求める(S6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部42は現フレーム番号tの音声特徴
ベクトルxt と前向き確率基準フレーム番号qcの音声
特徴ベクトルxqcとの間の距離dtcを、次式(19)
に従って求める(S9)。
トル成分 xqck :前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcのベクトル成分 次に照合部42は、距離dtcと閾値DTCとを比較し
てこれらベクトルxt及びxqcが近似的に等しいか否か
を判定する(S10)。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は前向き確率基準フレーム番号qcの音声特徴ベクトル
xqcに近似し従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が小さいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できる。そこで現フレーム番号tの前向き確率C
itは直前フレームの前向き確率Ci(t-1)に等しいものと
して、前向き確率Citを求める演算を終了する(S1
1)。然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
場合には、現フレーム番号tの音声特徴ベクトルxt は
前向き確率基準フレーム番号qcの音声特徴ベクトルx
qcに近似せず従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が大きいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できない。そこで前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S12)。
レーム番号tの音声特徴ベクトルxt と出力確率基準フ
レーム番号qsの音声特徴ベクトルxqsとの間の距離d
tsを、次式(17)に従って求める(S13)。
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部42は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S14)。
場合には、現フレーム番号tの音声特徴ベクトルxt は
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
xt は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)を参照確率Bjiで近似できない。そこで
出力確率基準フレーム番号qsを現フレーム番号tに書
き換える(S15)。然る後、j=1、2、……、J及
びi=1、2、……、Iの全てのj、iについて、対数
化した出力確率Bji(xt)を式(4)〜(7)に従って求
め、参照確率Bjiを、当該出力確率Bji(xt)に書き換え
る(S16)。この参照確率Bjiの書換え終了後に各参
照確率Bjiを読み出し、i=1、2、……、Iの全ての
iについて、前向き確率Citを式(11)に従って求め
る(S13)。然る後、音声区間の次のフレームにつき
処理を行なうべくS7の処理に戻る。尚、S16で参照
確率Bjiを書き換える処理を、図にあってはsave Bji=
Bji(xt) と表している。
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では、現フ
レーム番号tの出力確率Bji(xt)を用いて、前向き確率
Citを求めることとなる。
である場合には、現フレーム番号tの音声特徴ベクトル
xt は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsに近似的に等しく従って現フレーム番号tの音声
特徴ベクトルxt は出力確率基準フレーム番号qsの音
声特徴ベクトルxqsからの変化が小さいので、現フレー
ム番号tの出力確率Bji(xt)は参照確率Bjiで近似でき
る。そこで出力確率Bji(xt)を式(4)〜(7)を用い
て算出せずに、各参照確率Bjiを読み出し、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Citを式(11)に従って求める(S17)。然る
後、音声区間の次のフレームにつき処理を行なうべくS
7の処理に戻る。
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xqs) であり、従ってこの場合のS17
では、出力確率基準フレーム番号qsの出力確率Bji(x
qs) を用いて前向き確率Citを求めることとなる。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
る全てのHMMについて、各HMM毎に図17〜図19
に示すS1〜S17の処理を行なって尤度(前向き確率
CiT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、前向き確率
Citに関わる距離dtcが閾値DTCとなる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算も前
向き確率Citを式(3)若しくは式(11)から求める
演算も行なわずに、前向き確率Citは直前フレームの前
向き確率Ci(t-1)に等しいものとして前向き確率Citを
求める演算を終了する。さらに出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に、出力確率
Bji(xt)を式(4)〜(7)から求める演算を行なわず
に、参照確率Bjiを用いて前向き確率Citを求めるの
で、演算量を大幅に削減できる。しかもこのような演算
の簡略化は、前向き確率Citに関わる距離dtcが閾値
DTC以下となる場合若しくは出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に行なうの
で、演算を簡略化しても、前向き確率Citの誤差を小さ
くすることができる。
によれば、前向き確率Citを得るための演算量が、演算
の簡略化を行なわない場合の約1/2となるように、前
向き確率Citに関わる閾値DTCを定め、かつ、出力確
率Bji(xt)を得るための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、出力確率Bji(xt)
に関わる閾値DTSを定めても、音声認識の精度低下は
ほとんど見られなかった。
7の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部42を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置34を
用いることができる。
に、参照情報記憶部44に格納してある参照確率bjiを
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、この参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(3A)を行なう。そして処理
(3A)の終了後、現フレーム番号tに1を加算する処
理(3B)を行なう。
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqcと
の間の距離dtcを閾値DTCと比較する処理(3C)
と、この処理(3C)の比較結果がskipc≦NSK
IPCかつdtc≦DTCとなる場合に、前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に前向
き確率スキップ数skipc、出力確率スキップ数sk
ipsにそれぞれ、1を加算する処理(3D)と、この
処理(3C)の比較結果がskipc>NSKIPC若
しくはdtc>DTCとなる場合に、前向き確率スキッ
プ数skipcを0に初期化し、及び、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える処理
(3E)とを行なう。
キップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と出力確
率基準フレーム番号qsの音声特徴ベクトルxqsとの間
の距離dtsを閾値DTSと比較し、当該比較結果がs
kips>NSKIPS若しくはdts>DTSとなる
場合に、出力確率スキップ数skipsを0に初期化
し、及び、出力確率基準フレーム番号qsを現フレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、この参照
確率bjiの書換え終了後に各参照確率bjiを読み出して
前向き確率citを求め、当該比較結果がskips≦N
SKIPSかつdts≦DTSとなる場合に、出力確率
スキップ数skipsに1を加算すると共に、参照確率
bji(xt)の書換えを行なわずに各参照確率bjiを読み出
して前向き確率citを求める処理(3F)を行なう。
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
20〜図22は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した出
力確率Bjiの初期値として書き込む(S4)。
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部44は、出力参照確率B
11、B12、……、B1I、B21、B22、……、B2I、…
…、BJ1、BJ2、……、BJIをそれぞれ個別に格納する
J×I個の格納領域を有する。そこで図にあっては、参
照確率Bjiの初期値を格納する処理を、save Bji=B
ji(x1) と表している。
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化すると共に、前向き確率スキ
ップ数skipc、出力確率スキップ数skipsをそ
れぞれ0に初期化する(S5)。然る後、照合部42
は、i=1、2、……、Iの全てのiについて、対数化
した前向き確率Ci1を式(11)に従って求める(S
6)。
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、前向き確率スキップ数skipcと閾値N
SKIPCとの比較判定を行なう(S9)。
閾値NSKIPCを越える場合は、現フレーム番号tの
前向き確率Citを直前フレームの前向き確率Ci(t-1)で
近似して前向き確率Citを求める演算を終了した回数s
kipcが閾値NSKIPCを越えるので現フレーム番
号tと前向き確率基準フレーム番号qcとの時間的隔た
りが大きくなり、従って誤差が増大する可能性が高い。
そこで参照確率Bjiを読み出して前向き確率Citを求め
ることとなるので、前向き確率スキップ数skipcを
0に初期化すると共に、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S10)。
cが閾値NSKIPC以下となる場合は、照合部42
は、現フレーム番号tの音声特徴ベクトルxt と前向き
確率基準フレーム番号qcの音声特徴ベクトルxqcとの
間の距離dtcを式(19)に従って求め(S11)、
求めた距離dtcを閾値DTCと比較してこれらベクト
ルxt 及びxqcが近似的に等しいか否かを判定する(S
12)。
場合は、現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
に近似せず従って現フレーム番号tの音声特徴ベクトル
xt は前向き確率基準フレーム番号qcの音声特徴ベク
トルxqcからの変化が大きいので、現フレーム番号tの
前向き確率Citは直前フレームの前向き確率Ci(t-1)で
近似できない。そこで参照確率Bjiを読み出して前向き
確率Citを求めることとなるので、前向き確率スキップ
数skipcを0に初期化すると共に、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える(S
10)。
である場合は、skipc≦NSKIPCかつdtc≦
DTCである場合である。skipc≦NSKIPCの
場合、現フレーム番号tの前向き確率Citを直前フレー
ムの前向き確率Ci(t-1)で近似して前向き確率Citの演
算を終了した回数skipcが閾値NSKIPCを越え
たので、現フレーム番号tと前向き確率基準フレーム番
号qcとの時間的隔たりが小さく、従って誤差が増大す
る可能性は低い。しかもdtc≦DTCの場合、現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcに近似的に等し
く従って現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
からの変化が小さいので、現フレーム番号tの前向き確
率Citは直前フレームの前向き確率Ci(t-1)で近似でき
る。従って参照確率Bjiを読み出して前向き確率Citを
求める演算も参照確率Bjiの書換えも行なわない。そこ
で現フレーム番号tの前向き確率Citは直前フレームの
前向き確率Ci(t-1)に等しいものとして現フレーム番号
tの前向き確率Citを求める演算を終了すると共に、前
向き確率スキップ数skipc、出力確率スキップ数s
kipsにそれぞれ1を加算してこれらスキップ数sk
ipc、skipsをそれぞれカウントアップする(S
13)。然る後、音声区間の次のフレームにつき処理を
行なうべくS7の処理に戻る。
SKIPCを越えるか若しくは距離dtcが閾値DTC
を越えるかした場合にS10を行なったら、次に出力確
率スキップ数skipsと閾値NSKIPSとの比較判
定を行なう(S14)。
閾値NSKIPSを越える場合は、参照確率Bjiの書換
えを行なわなかった回数skipsが閾値NSKIPS
を越えるので現フレーム番号tと出力確率基準フレーム
番号qsとの時間的隔たりが大きくなり、従って誤差が
増大する可能性が高い。そこで誤差を低減すべく、参照
確率Bjiの書換えを行なうこととなる。そこで出力確率
スキップ数skipsを0に初期化すると共に出力確率
基準フレーム番号qsを現フレーム番号tに書き換える
(S15)。然る後、j=1、2、……、J及びi=
1、2、……、Iの全てのj、iについて、対数化した
出力確率Bji(xt)を式(4)〜(7)に従って求め、参
照確率Bjiを当該出力確率Bji(xt)に書き換える(S1
6)。そしてこの参照確率Bjiの書換え終了後に各参照
確率Bjiを読み出し、i=1、2、……、Iの全てのi
について、前向き確率Citを式(11)に従って求める
(S17)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。尚、図にあっては、
S16で参照確率Bjiを書き換える処理をsave Bji=B
ji(xt) と表す。
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では現フレ
ーム番号tの出力確率Bji(xt)を用いて前向き確率Cit
を求めることとなる。
閾値NSKIPS以下となる場合は、照合部42は、現
フレーム番号tの音声特徴ベクトルxt と出力確率基準
フレーム番号qsの音声特徴ベクトルxqsとの間の距離
dtsを求め(S18)、求めた距離dtsを閾値DT
Sと比較してこれらベクトルxt 及びxqsが近似的に等
しいか否かを判定する(S19)。
場合には、現フレーム番号tの音声特徴ベクトルxt は
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
xt は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)は参照確率Bjiで近似できない。従って
参照確率Bjiの書き換えを行なうこととなる。そこでS
15〜S17の処理を行ない、然る後、音声区間の次の
フレームにつき処理を行なうべくS7の処理に戻る。
る場合には、現フレーム番号tの音声特徴ベクトルxt
は出力確率基準フレーム番号qsの音声特徴ベクトルx
qsに近似的に等しく従って現フレーム番号tの音声特徴
ベクトルxt は出力確率基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、現フレーム番
号tの出力確率Bji(xt)は参照確率Bjiで近似できる。
従って参照確率Bjiの書換えは行なわないこととなる。
そこで出力確率スキップ数skipsに1を加算して出
力確率スキップ数skipsをカウントアップする(S
20)。然る後、出力確率Bji(xt)を式(4)〜(7)
を用いて算出せずに参照確率Bjiを読み出して、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Citを式(11)に従って求める(S17)。然
る後、音声区間の次のフレームにつき処理を行なうべく
S7の処理に戻る。
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xt)であり、従ってこの場合のS17で
は出力確率基準フレーム番号qsの出力確率Bji(xqs)
を用いて前向き確率Citを求めることとなる。
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
CiTを、音声特徴ベクトルの時系列x1 、x2 、……、
xT とHMMとの間の尤度ln{P(x1 、x2 、……、
xT )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
る全てのHMMについて、各HMM毎に、図20〜図2
2に示すS1〜S20の処理を行なって尤度(前向き確
率CiT)を求め、求めた尤度のうち最大の尤度を検出す
る。そして最大の尤度を得たHMMのカテゴリを、当該
音声特徴ベクトルの時系列x1 、x2 、……、xT を抽
出した入力音声信号に対する認識結果として、次段の装
置(図示せず)へ出力する。
…、xT )}=CiTを求める過程において、前向き確率
Citに関わるスキップ数skipcが閾値NSKIPC
以下となりかつ距離dtcが閾値DTS以下となる場合
に、出力確率Bji(xt)を式(4)〜(7)から求める演
算も前向き確率Citを式(3)若しくは式(11)から
求める演算も行なわずに、前向き確率Citは直前フレー
ムの前向き確率Ci(t-1)に等しいものとして前向き確率
Citを求める演算を終了する。また出力確率Bji(xt)に
関わるスキップ数skipsが閾値NSKIPS以下と
なりかつ距離dtsが閾値DTS以下となる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算を行
なわずに、前向き確率Citを求めるので、大幅に演算量
を削減できる。しかもこのような演算の簡略化は、前向
き確率Citに関わるスキップ数skipcが閾値NSK
IPC以下となりかつ距離dtcが閾値DTC以下とな
る場合か出力確率Bji(xt)に関わるスキップ数skip
sが閾値NSKIPS以下となりかつ距離dtsが閾値
DTS以下となる場合かのいずれかの場合に行なうの
で、演算の簡略化を行なっても、前向き確率Citの誤差
を小さくできる。
ング処理を行なう音声認識装置の全てに適用できる。
求項1の発明の音声認識方法によれば、現フレーム番号
tの音声特徴ベクトルxt と基準フレーム番号qsの音
声特徴ベクトルxqsとの間の距離dtsが閾値DTS以
下(dts≦DTS)となる場合は、参照確率bjiの書
換えを行なわずに従って現フレーム番号tの出力確率b
ji(xt)をヒドンマルコフモデルから求める演算を行なわ
ずに、参照確率bjiを読み出して現フレーム番号tの前
向き確率citを求めるので、演算量を大幅に削減でき
る。
レーム番号tの音声特徴ベクトルxt は基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が小さいの
で、現フレーム番号tの出力確率bji(xt)を参照確率b
jiで近似できる。従ってこのようにdts≦DTSとな
る場合に演算を簡略化して前向き確率citを求めても、
前向き確率citの誤差を小さくできる。
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
れば、現フレーム番号tの出力確率bji(xt)を与える遷
移元Sj の種別sが定常部である場合に、現フレーム番
号tの音声特徴ベクトルxt と定常部基準フレーム番号
qsの音声特徴ベクトルxqsとの間の距離dtsが閾値
DTS以下(dts≦DTS)であれば、当該種別sを
得たjに関しては、参照確率bjiの書換えを行なわずに
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求める演算を行なわずに、参照確率b
jiを読み出して現フレーム番号tの前向き確率citを求
める。また現フレーム番号tの出力確率bji(xt)を与え
る遷移元Sj の種別sが過渡部である場合に、現フレー
ム番号tの音声特徴ベクトルxt と過渡部基準フレーム
番号qtの音声特徴ベクトルxqtとの間の距離dttが
閾値DTT以下(dtt≦DTT)であれば、当該種別
sを得たjに関しては、参照確率bjiの書換えを行なわ
ずに従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求める演算を行なわずに、参照確
率bjiを読み出して現フレーム番号tの前向き確率cit
を求める。このように定常部の場合はdts≦DTS及
び過渡部の場合はdtt≦DTTであれば、参照確率b
jiの書換えを行なわずに前向き確率citを求めるので、
演算量を大幅に低減できる。
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsからの変化が小さいので、当
該種別sを得たjに関しては、現フレーム番号tの出力
確率bji(xt)を参照確率bjiで近似できる。またdtt
≦DTTであれば、現フレーム番号tの音声特徴ベクト
ルxt は過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtからの変化が小さいので、当該種別sを得たjに
関して、現フレーム番号tの出力確率bji(xt)を
参照確率bjiで近似できる。従ってこのようにdts
≦DTS若しくはdtt≦DTTの場合に演算を簡略化
して前向き確率citを求めても、前向き確率citの誤差
を小さくできる。
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
れば、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqcと
の間の距離dtcが閾値DTC以下となる(dtc≦D
TCとなる)場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了する。また距離
dtcが閾値DTCを越える(dtc>DTCとなる)
場合に、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqsと
の間の距離dtsが閾値DTS以下(dts≦DTS)
となれば、参照確率bjiの書換えを行なわずに従って現
フレーム番号tの出力確率bji(xt)をヒドンマルコフモ
デルから求める演算を行なわずに、参照確率bjiを読み
出して現フレーム番号tの前向き確率citを求める。こ
のようにdtc≦DTC若しくはdts≦DTSとなる
場合に、参照確率bjiの書換えを行なわずに前向き確率
citを求めるので、演算量を大幅に削減できる。
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citを直前
フレームの前向き確率ci(t-1)で近似できる。またdt
s≦DTS以下となる場合に、現フレーム番号tの音声
特徴ベクトルxt は基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さいので、現フレーム番号t
の出力確率bji(xt)を参照確率bjiで近似できる。従っ
てこのようにdtc≦DTC若しくはdts≦DTSの
場合に演算を簡略化して前向き確率citを求めても、前
向き確率citの誤差を小さくできる。
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
の一例を示す図である。
る。
流れ図である。
流れ図である。
流れ図である。
流れ図である。
の一例を示す図である。
る。
流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
成の一例を示す図である。
る。
る流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
る流れ図である。
Claims (8)
- 【請求項1】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数1】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi で
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 基準フレーム番号qsと参照確率bjiとを格納する記憶
部を設け、該参照確率bjiを用いて、t=1、2、…
…、Tの各場合の前向き確率citを順次に求め、
(1).t=1のときは、 基準フレーム番号qsを1に初期化すると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求め当該出力確率bji(xt)を参照確率bjiの初
期値として書き込み、該参照確率bjiの書込み終了後に
各参照確率bjiを読み出して前向き確率citを求める処
理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
する処理(1B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と基準フレー
ム番号qsの音声特徴ベクトルxqsとの間の距離dts
を閾値DTSと比較し、該比較結果がdts>DTSと
なる場合に、基準フレーム番号qsを現フレーム番号t
に書き換えると共に、全てのj、iについて、出力確率
bji(xt)をヒドンマルコフモデルから求めて参照確率b
jiを当該出力確率bji(xt)に書き換え、該参照確率bji
の書換え終了後に各参照確率bjiを読み出して前向き確
率citを求め、該比較結果がdts≦DTSとなる場合
に、参照確率bjiの書き換えを行なわずに各参照確率b
jiを読み出して前向き確率citを求める処理(1C)
と、 該処理(1C)の終了後、現フレーム番号tに1を加算
する処理(1D)とを行なうことを特徴とする音声認識
方法。 - 【請求項2】 請求項1記載の音声認識方法において、
(1).t=1のときは、 基準フレーム番号qsを1に、及び、スキップ数ski
psを0に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、該参照確率bjiの書込み終了後に各参照確率bjiを
読み出して前向き確率citを求める処理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
する処理(1B)とを行ない、(2).2≦t≦Tのと
きは、 スキップ数skipsを閾値NSKIPSと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と基準
フレーム番号qsの音声特徴ベクトルxqsとの間の距離
dtsを閾値DTSと比較し、該比較結果がskips
>NSKIPS若しくはdts>DTSとなる場合に、
スキップ数skipsを0に初期化し、及び、基準フレ
ーム番号qsを現フレーム番号tに書き換えると共に、
全てのj、iについて、出力確率bji(xt)をヒドンマル
コフモデルから求めて参照確率bjiを当該出力確率bji
(xt)に書き換え、該参照確率bjiの書換え終了後に各参
照確率bjiを読み出して前向き確率citを求め、該比較
結果がskips≦NSKIPSかつdts≦DTSと
なる場合に、スキップ数skipsに1を加算すると共
に、参照確率bjiの書換えを行なわずに各参照確率bji
を読み出して前向き確率citを求める処理(1C)と、 該処理(1C)の終了後、現フレーム番号tに1を加算
する処理(1D)とを行なうことを特徴とする音声認識
方法。 - 【請求項3】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数2】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi で
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 ヒドンマルコフモデルにおいて遷移元となる状態Sj
に、定常部及び過渡部のいずれかの種別sを付与し、 定常部基準フレーム番号qs、過渡部基準フレーム番号
qtと、参照確率bjiとを格納する記憶部を設け、該参
照確率bjiを用いて、t=1、2、……、Tの各場合の
前向き確率citを順次に求め、(1).t=1のとき
は、 定常部基準フレーム番号qs、過渡部基準フレーム番号
qtをそれぞれ1に初期化すると共に、全てのj、iに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求め当該出力確率bji(xt)を参照確率bjiの初期値とし
て書き込み、該参照確率bjiの書込み終了後に各参照確
率bjiを読み出して前向き確率citを求める処理(2
A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
する処理(2B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と定常部基準
フレーム番号qsの音声特徴ベクトルqsとの間の距離d
tsを閾値DTSと比較し、該比較結果がdts>DT
Sとなる場合に、定常部基準フレーム番号qsを現フレ
ーム番号tに書き換える処理(2C)と、 現フレーム番号tの音声特徴ベクトルxt と過渡部基準
フレーム番号qtの音声特徴ベクトルxqtとの間の距離
dttを閾値DTTと比較し、該比較結果がdtt>D
TTとなる場合に、過渡部基準フレーム番号qtを現フ
レーム番号tに書き換える処理(2D)と、 前記処理(2C)及び(2D)の終了後、j=1、2、
……、Jの各j毎に、出力確率bji(xt)を与える状態遷
移の遷移元Sj に付与されている種別sを判定する処理
(2E)と、 該処理(2E)の種別判定結果が定常部であった場合
に、前記処理(2C)の比較結果がdts>DTSであ
れば、当該種別判定結果を得たjに関しては全てのiに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求めて参照確率bjiを当該出力確率bji(xt)に書き換
え、該処理(2E)の種別判定結果が定常部であった場
合に、前記処理(2C)の比較結果がdts≦DTSで
あれば、当該種別判定結果を得たjに関しては参照確率
bjiの書換えを行なわず、該処理(2E)の種別判定結
果が過渡部であった場合に、前記処理(2D)の比較結
果がdtt>DTTであれば、当該種別判定結果を得た
jに関しては全てのiについて、出力確率bji(xt)をヒ
ドンマルコフモデルから求めて参照確率bjiを当該出力
確率bji(xt)に書き換え、該処理(2E)の種別判定結
果が過渡部であった場合に、前記処理(2D)の比較結
果がdtt≦DTTであれば、当該種別判定結果を得た
jに関しては参照確率bjiの書換えを行なわない処理
(2F)と、 j=1、2、……、Jの個々のj毎に前記処理(2F)
を行ない、全てのjにつき前記処理(2F)を終了した
ら、各参照確率bjiを読み出して前向き確率citを求め
る処理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
する処理(2H)とを行なうことを特徴とする音声認識
方法。 - 【請求項4】 請求項3記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
なうことを特徴とする音声認識方法。 - 【請求項5】 請求項3記載の音声認識方法において、
(1).t=1のときは、 定常部スキップ数skips、過渡部スキップ数ski
ptをそれぞれ0に、及び、定常部基準フレーム番号q
s、過渡部基準フレーム番号qtをそれぞれ1に初期化
すると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求め当該出力確率bji(xt)
を参照確率bjiの初期値として書き込み、該参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(2A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
する処理(2B)とを行ない、(2).2≦t≦Tのと
きは、 定常部スキップ数skipsを閾値NSKIPSと比較
すると共に、現フレーム番号tの音声特徴ベクトルxt
と定常部基準フレーム番号qsの音声特徴ベクトルxqs
との間の距離dtsを閾値DTSと比較し、該比較結果
がskips>NSKIPS若しくはdts>DTSと
なる場合に、定常部スキップ数skipsを0に初期化
し、及び、定常部基準フレーム番号qsを現フレーム番
号tに書き換え、該比較結果がskips≦NSKIP
Sかつdts≦DTSとなる場合に、定常部スキップ数
skipsに1を加算する処理(2C)と、 過渡部スキップ数skiptを閾値NSKIPTと比較
すると共に、現フレーム番号tの音声特徴ベクトルxt
と過渡部基準フレーム番号qtの音声特徴ベクトルxqt
との間の距離dttを閾値DTTと比較し、該比較結果
がskipt>NSKIPT若しくはdtt>DTTと
なる場合に、過渡部スキップ数skiptを0に初期化
し、及び、過渡部基準フレーム番号qtを現フレーム番
号tに書き換え、該比較結果がskipt≦NSKIP
Tかつdtt≦DTTとなる場合に、過渡部スキップ数
skiptに1を加算する処理(2D)と、 前記処理(2C)、(2D)の終了後、j=1、2、…
…、Jの各j毎に、出力確率bji(xt)を与える状態遷移
の遷移元Sj に付与されている種別sを判定する処理
(2E)と、 該処理(2E)の種別判定結果が定常部であった場合
に、前記処理(2C)の比較結果がskips>NSK
IPS若しくはdts>DTSであれば、当該種別判定
結果を得たjに関しては全てのiについて、出力確率b
ji(xt)をヒドンマルコフモデルから求めて参照確率bji
を当該出力確率bji(xt)に書き換え、該処理(2E)の
種別判定結果が定常部であった場合に、前記処理(2
C)の比較結果がskips≦NSKIPSかつdts
≦DTSであれば、当該種別判定結果を得たjに関して
は参照確率bjiの書換えを行なわず、該処理(2E)の
種別判定結果が過渡部であった場合に、前記処理(2
D)の比較結果がskipt>NSKIPT若しくはd
tt>DTTであれば、当該種別判定結果を得たjに関
しては全てのiについて、出力確率bji(xt)をヒドンマ
ルコフモデルから求めて参照確率bjiを当該出力確率b
ji(xt)に書き換え、該処理(2E)の種別判定結果が過
渡部であった場合に、前記処理(2D)の比較結果がs
kipt≦NSKIPTかつdtt≦DTTであれば、
当該種別判定結果を得たjに関しては参照確率bjiの書
換えを行なわない処理(2F)と、 j=1、2、……、Jの個々のj毎に該処理(2F)を
行ない、全てのjにつき該処理(2F)を終了したら、
各参照確率bjiを読み出して前向き確率citを求める処
理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
する処理(2H)とを行なうことを特徴とする音声認識
方法。 - 【請求項6】 請求項5記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
なうことを特徴とする音声認識方法。 - 【請求項7】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数3】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi で
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
Si に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
xt を出力して状態Si に至る前向き確率*i:ヒドン
マルコフモデルにおいて最終状態となる状態Si に付与
されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsと、参照確率bjiとを格納する記憶部を設
け、該参照確率bjiを用いて、t=1、2、……、Tの
各場合の前向き確率citを順次に求め、(1).t=1
のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsをそれぞれ1に初期化すると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求め当該出力確率bji(xt)を参照確率bjiの初
期値として書き込み、該参照確率bjiの書込み終了後に
各参照確率bjiを読み出して前向き確率citを求める処
理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
する処理(3B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と前向き確率
基準フレーム番号qcの音声特徴ベクトルxqcとの間の
距離dtcを閾値DTCと比較する処理(3C)と、 該処理(3C)の比較結果がdtc≦DTCとなる場合
に、前向き確率citは直前フレームの前向き確率c
i(t-1)に等しいものとして前向き確率citを求める演算
を終了する処理(3D)と、 該処理(3C)の比較結果がdtc>DTCとなる場合
に、前向き確率基準フレーム番号qcを現フレーム番号
tに書き換える処理(3E)と、 該処理(3E)の終了後、現フレーム番号tの音声特徴
ベクトルxt と出力確率基準フレーム番号qsの音声特
徴ベクトルxqsとの間の距離dtsを閾値DTSと比較
し、該比較結果がdts>DTSとなる場合に、出力確
率基準フレーム番号qsを現フレーム番号tに書き換え
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求めて参照確率bjiを当該出
力確率bji(xt)に書き換え、該参照確率bjiの書換え終
了後に各参照確率bjiを読み出して前向き確率citを求
め、該比較結果がdts≦DTSとなる場合に、参照確
率bjiの書き換えを行なわずに各参照確率bjiを読み出
して前向き確率citを求める処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
ム番号tに1を加算する処理(3G)とを行なうことを
特徴とする音声認識方法。 - 【請求項8】 請求項7記載の音声認識方法において、
(1).t=1のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsをそれぞれ1に、及び、前向き確率ステップ
数skipc、出力確率ステップ数skipsをそれぞ
れ0に初期化すると共に、全てのj、iについて、出力
確率bji(xt)をヒドンマルコフモデルから求め当該出力
確率bji(xt)を参照確率bjiの初期値として書き込み、
該参照確率bjiの書込み終了後に各参照確率bjiを読み
出して前向き確率citを求める処理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
する処理(3B)とを行ない、(2).2≦t≦Tのと
きは、 前向き確率スキップ数skipcを閾値NSKIPCと
比較すると共に、現フレーム番号tの音声特徴ベクトル
xt と前向き確率基準フレーム番号qcの音声特徴ベク
トルxqcとの間の距離dtcを閾値DTCと比較する処
理(3C)と、 該処理(3C)の比較結果がskipc≦NSKIPC
かつdtc≦DTCとなる場合に、前向き確率citは直
前フレームの前向き確率ci(t-1)に等しいものとして前
向き確率citを求める演算を終了すると共に、前向き確
率スキップ数skipc、出力確率スキップ数skip
sにそれぞれ1を加算する処理(3D)と、 該処理(3C)の比較結果がskipc>NSKIPC
若しくはdtc>DTCとなる場合に、前向き確率スキ
ップ数skipcを0に初期化し、及び、前向き確率基
準フレーム番号qcを現フレーム番号tに書き換える処
理(3E)と、 該処理(3E)の終了後、出力確率スキップ数skip
sを閾値NSKIPSと比較すると共に、現フレーム番
号tの音声特徴ベクトルxt と出力確率基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、該比較結果がskips>NSKI
PS若しくはdts>DTSとなる場合に、出力確率ス
キップ数skipsを0に初期化し、及び、出力確率基
準フレーム番号qsを現フレーム番号tに書き換えると
共に、全てのj、iについて、出力確率bji(xt)をヒド
ンマルコフモデルから求めて参照確率bjiを当該出力確
率bji(xt)に書き換え、該参照確率bjiの書換え終了後
に各参照確率bjiを読み出して前向き確率citを求め、
該比較結果がskips≦NSKIPSかつdts≦D
TSとなる場合に、出力確率スキップ数skipsに1
を加算すると共に、参照確率bji(xt)の書換えを行なわ
ずに各参照確率bjiを読み出して前向き確率citを求め
る処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
ム番号tに1を加算する処理(3G)とを行なうことを
特徴とする音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP28031495A JP3251480B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP28031495A JP3251480B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09127977A true JPH09127977A (ja) | 1997-05-16 |
| JP3251480B2 JP3251480B2 (ja) | 2002-01-28 |
Family
ID=17623274
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP28031495A Expired - Fee Related JP3251480B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3251480B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007011027A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
| JP2008015120A (ja) * | 2006-07-04 | 2008-01-24 | Toshiba Corp | 音声認識装置及びその方法 |
| US7813925B2 (en) | 2005-04-11 | 2010-10-12 | Canon Kabushiki Kaisha | State output probability calculating method and apparatus for mixture distribution HMM |
-
1995
- 1995-10-27 JP JP28031495A patent/JP3251480B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7813925B2 (en) | 2005-04-11 | 2010-10-12 | Canon Kabushiki Kaisha | State output probability calculating method and apparatus for mixture distribution HMM |
| JP2007011027A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
| JP2008015120A (ja) * | 2006-07-04 | 2008-01-24 | Toshiba Corp | 音声認識装置及びその方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3251480B2 (ja) | 2002-01-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7054810B2 (en) | Feature vector-based apparatus and method for robust pattern recognition | |
| US5625749A (en) | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation | |
| JP3114468B2 (ja) | 音声認識方法 | |
| CN112614510B (zh) | 一种音频质量评估方法及装置 | |
| CN106875936B (zh) | 语音识别方法及装置 | |
| KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
| JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
| AU744678B2 (en) | Pattern recognition using multiple reference models | |
| US6999929B2 (en) | Recognizing speech by selectively canceling model function mixture components | |
| Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
| JP3444108B2 (ja) | 音声認識装置 | |
| JP3251480B2 (ja) | 音声認識方法 | |
| Gas et al. | Discriminant neural predictive coding applied to phoneme recognition | |
| JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
| Harding et al. | On the use of Machine Learning Methods for Speech and Voicing Classification. | |
| JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
| Li et al. | Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra | |
| JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
| JP2006201265A (ja) | 音声認識装置 | |
| Zheng et al. | Improved maximum mutual information estimation training of continuous density HMMs. | |
| Silva et al. | A novel intelligent system for speech recognition | |
| CN119851694B (zh) | 一种音素的筛选方法、装置、电子设备及可读存储介质 | |
| Olsen | Speaker verification based on phonetic decision making. | |
| JP2658426B2 (ja) | 音声認識方法 | |
| JPH0968996A (ja) | 音声認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20011106 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081116 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081116 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091116 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091116 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |