JPH09127977A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH09127977A
JPH09127977A JP28031495A JP28031495A JPH09127977A JP H09127977 A JPH09127977 A JP H09127977A JP 28031495 A JP28031495 A JP 28031495A JP 28031495 A JP28031495 A JP 28031495A JP H09127977 A JPH09127977 A JP H09127977A
Authority
JP
Japan
Prior art keywords
probability
frame number
dts
feature vector
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28031495A
Other languages
English (en)
Other versions
JP3251480B2 (ja
Inventor
Takashi Miki
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP28031495A priority Critical patent/JP3251480B2/ja
Publication of JPH09127977A publication Critical patent/JPH09127977A/ja
Application granted granted Critical
Publication of JP3251480B2 publication Critical patent/JP3251480B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識において、ヒドンマルコフモデルと
音声特徴ベクトルとの間の尤度算出を、認識精度を劣化
させずに簡略に行なう。 【解決手段】 尤度として前向き確率Citを求めるに当
り、現フレーム番号tの音声特徴ベクトルxt と基準フ
レーム番号qsの音声特徴ベクトルxqsとの間の距離d
tsが閾値DTSを越える場合は、出力確率Bji(xt)を
ヒドンマルコフモデルから求め、参照確率Bjiを当該出
力確率Bji(xt)に書き換えた後に、参照確率Bjiを読み
出して前向き確率Citを求める。距離dtsが閾値DT
S以下となる場合は、これらベクトルxt 、xqsが近似
するので、現フレーム番号tの出力確率Bji(xt)を参照
確率Bjiで近似できる。そこでこの場合は、参照確率B
jiを書き換えずに、従って現フレーム番号tの出力確率
ji(xt)をヒドンマルコフモデルから求める演算を行な
わずに、参照確率Bjiを読み出して前向き確率Citを求
める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、認識照合用の標
準パタンにヒドンマルコフモデルを用いた音声認識方法
に関する。
【0002】
【従来の技術】ヒドンマルコフモデル(Hidden
Markov Model。以下、HMM)は、音声パ
タンのような発声速度に伴う時間変動、発声の個人差や
調音結合などの揺らぎを含むパタンを適切に表現でき、
このため音声認識の分野において広く用いられている。
音声認識で用いるHMMは、いくつかの状態例えばS0
〜S3 と、状態Si から状態Sj に遷移する確率aij
びその遷移の際に出力される音声特徴ベクトルxの出力
確率bij(x) を有し、一般に、出力確率bij(x)を、複
数個の正規分布から成る無相関混合正規分布で表現す
る。
【0003】HMMを用いた音声認識方法では、音声信
号から、音声区間の各フレーム毎に音声特徴ベクトルx
t を抽出し、次いで音声特徴ベクトルxt の出力確率b
ij(xt)を求める。出力確率bij(xt)として、典型的に
は、bij(xt)=Σ{λijmijm(xt) }を算出する。こ
こで、λijm は無相関混合正規分布における第m番目の
正規分布の重み、bijm(xt) は無相関混合正規分布にお
ける第m番目の正規分布から求めた音声特徴ベクトルx
t の出力確率(重み付け無しの出力確率)を表す。
【0004】そして音声区間の始端フレームから終端フ
レームまでに抽出された音声特徴ベクトルxt の時系列
とHMMとの間の尤度を、各音声特徴ベクトルxt の出
力確率bij(xt)を用いて、求める。標準パタンとして用
意された各HMM毎に尤度を求め、最大の尤度を得たH
MMに付与されているカテゴリを認識結果とする。
【0005】
【発明が解決しようとする課題】しかしながら音声特徴
ベクトルxt の出力確率bij(xt)=Σ{λijm
ijm(xt) }を求めるには膨大な計算が必要であり、従っ
て音声特徴ベクトルxt の時系列とHMMとの尤度を高
速に求めることは難しい。
【0006】このため、音声特徴ベクトルxt の出力確
率bij(xt)を、誤差を抑えつつ、より簡略に求めること
が望まれていた。
【0007】
【課題を解決するための手段】前述の課題を解決するた
め、請求項1〜8の発明の音声認識方法はそれぞれ、音
声区間の始端フレームから終端フレームまでに抽出され
た音声特徴ベクトルの時系列x1 、x2 、……、xT
ヒドンマルコフモデルとの間の尤度ln{P(x1 、x
2 、……、xT )}を求め、最大の尤度を得たヒドンマ
ルコフモデルに付与されているカテゴリを、当該音声区
間内の音声信号に対する認識結果とする音声認識方法に
おいて、
【0008】
【数4】
【0009】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、次の如く処理を行なうこ
とを特徴とする。
【0010】<請求項1〜2の発明>すなわち、請求項
1の発明の音声認識方法にあっては、基準フレーム番号
qsと参照確率bjiとを格納する記憶部を設け、参照確
率bjiを用いて、t=1、2、……、Tの各場合の前向
き確率citを順次に求める。
【0011】そして(1).t=1のときは、基準フレ
ーム番号qsを1に初期化すると共に、全てのj、iに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求め当該出力確率bji(xt)を参照確率bjiの初期値とし
て書き込み、参照確率bjiの書込み終了後に各参照確率
jiを読み出して前向き確率citを求める処理(1A)
と、処理(1A)の終了後、現フレーム番号tに1を加
算する処理(1B)とを行なう。
【0012】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、該参照確率bjiの書換え
終了後に各参照確率bjiを読み出して前向き確率cit
求め、当該比較結果がdts≦DTSとなる場合に、参
照確率bjiの書き換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
【0013】このように請求項1の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とする。
【0014】そして現フレーム番号tの音声特徴ベクト
ルxt と基準フレーム番号qsの音声特徴ベクトルxqs
との間の距離dtsを閾値DTSと比較する。dts>
DTSの場合は、基準フレーム番号qsの書換えと参照
確率bjiの書換えとを行ない、書き換えた参照確率bji
を読み出して前向き確率citを求める。dts≦DTS
の場合は、基準フレーム番号qsの書換えと参照確率b
jiの書換えとは行なわず、書換えを行なわなかった参照
確率bjiを読み出して前向き確率citを求める。
【0015】従って記憶部に格納される参照確率b
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
【0016】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)は、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
ji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。
【0017】dts≦DTSの場合は、距離dtsが閾
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない基準フレーム番号qs
の音声特徴ベクトルxqsとが近似的に等しくなる場合で
あり、従って現フレーム番号tの出力確率bji(xt)は、
基準フレーム番号qsの出力確率bji(xqs) すなわち参
照確率bjiに近似的に等しくなる。そこで参照確率bji
の書換えを行なわずに、参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiの書換えを行な
わないので、基準フレーム番号qsの書換えを行なわな
い。
【0018】このようにdts>DTSの場合は、参照
確率bjiの書換えを行なった後に、従って現フレーム番
号tの出力確率bji(xt)をヒドンマルコフモデルから求
める演算を行なった後に、参照確率bjiを読み出して前
向き確率citを求める。さらに距離dts≦閾値DTS
の場合は、参照確率bjiの書換えを行なわずに、従って
現フレーム番号tの出力確率bji(xt)をヒドンマルコフ
モデルから求める演算を行なわずに、参照確率bjiを読
み出して前向き確率citを求めるので、前向き確率cit
の誤差を抑えつつ、演算量を減少させることができる。
【0019】この場合の前向き確率citの誤差とは、d
ts≦DTSの場合に出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに得た前向き確率c
itと、そのような演算の簡略化を行なわずに得た前向き
確率citとの差である。
【0020】閾値DTSを大きくするに従って、演算の
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
【0021】また請求項2の発明の音声認識方法にあっ
ては、請求項1の発明の音声認識方法において、次の如
く処理を行なう。
【0022】(1).t=1のときは、基準フレーム番
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現フレーム番号tに1を加算する処理(1B)とを
行なう。
【0023】(2).2≦t≦Tのときは、スキップ数
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、該参照確率bjiの書換え終了後に各参照確率
jiを読み出して前向き確率citを求め、当該比較結果
がskips≦NSKIPSかつdts≦DTSとなる
場合に、スキップ数skipsに1を加算すると共に、
参照確率bjiの書換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
【0024】このように請求項2の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とし、ス
キップ数skipsの初期値を0とする。
【0025】そしてスキップ数skipsを閾値NSK
IPSと比較すると共に、現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを閾値DTSと比較する。s
kips>NSKIPS若しくはdts>DTSの場合
は、スキップ数skipsの初期化と基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、スキップ数skipsのカウントアップを行な
い、基準フレーム番号qsの書換えと参照確率bjiの書
換えとは行なわず、書換えを行なわなかった参照確率b
jiを読み出して前向き確率citを求める。
【0026】従って記憶部に格納される参照確率b
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
【0027】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)を、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
ji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。スキップ数skips
は、skips≦NSKIPSとなる範囲内で参照確率
jiの書換えを行なわなかった回数を表すものであるの
で、スキップ数skipsを初期化する。
【0028】skips>NSKIPSの場合は、参照
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと基準フ
レーム番号qsとの時間的隔たりが大きくなり、従って
誤差が増大する可能性が高い。そこで誤差を低減すべ
く、参照確率bjiの書換えを行なう。従って参照確率b
jiを、現フレーム番号tの出力確率bji(xt)に書き換え
るので、基準フレーム番号qsを現フレーム番号tに書
き換える。またスキップ数skipsは、skips≦
NSKIPSとなる範囲内で参照確率bjiの書換えを行
なわなかった回数を表すものであるので、スキップ数s
kipsを初期化する。
【0029】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と書換えを行なわない基準
フレーム番号qsの音声特徴ベクトルxqsとが近似的に
等しくなる場合であり、従って現フレーム番号tの出力
確率bji(xt)は、書換えを行なわない基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiに近似
的に等しくなる。しかもskips≦NSKIPSであ
り、従って参照確率bjiの書換えを行なわなかった回数
skipsが閾値NSKIPS以下であるので現フレー
ム番号tと基準フレーム番号qsとの時間的隔たりが小
さく、従って誤差が増大する可能性は低い。そこで参照
確率bjiの書換えを行なわずに、参照確率bjiを読み出
して前向き確率citを求める。従って参照確率bjiの書
換えを行なわないので、基準フレーム番号qsの書換え
を行なわない。またスキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、スキップ
数skipsに1を加算してスキップ数skipsをカ
ウントアップする。
【0030】このようにskips>NSKIPS若し
くはdts>DTSの場合は、参照確率bjiの書換えを
行なった後に、従って現フレーム番号tの出力確率bji
(xt)をヒドンマルコフモデルから求める演算を行なった
後に、参照確率bjiを読み出して前向き確率citを求め
る。さらにskips≦NSKIPSかつdts≦DT
Sの場合は、参照確率bjiの書換えを行なわずに、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに、参照確率bji
読み出して前向き確率citを求めるので、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
【0031】この場合の前向き確率citの誤差とは、s
kips≦NSKIPSかつdts≦DTSの場合に出
力確率bji(xt)をヒドンマルコフモデルから求める演算
を行なわずに得た前向き確率citと、そのような演算の
簡略化を行なわずに得た前向き確率citとの差である。
【0032】閾値DTSを大きくするに従って、演算の
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
【0033】<請求項3〜6の発明>さらに請求項3の
発明の音声認識方法にあっては、ヒドンマルコフモデル
において遷移元となる状態Sj に、定常部及び過渡部の
いずれかの種別sを付与し、定常部基準フレーム番号q
s、過渡部基準フレーム番号qtと、参照確率bjiとを
格納する記憶部を設け、該参照確率bjiを用いて、t=
1、2、……、Tの各場合の前向き確率citを順次に求
める。
【0034】そして(1).t=1のときは、定常部基
準フレーム番号qs、過渡部基準フレーム番号qtをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、参照確率bjiの書込み終了後に各参照確率bjiを読
み出して前向き確率citを求める処理(2A)と、処理
(2A)の終了後、現フレーム番号tに1を加算する処
理(2B)とを行なう。
【0035】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、比較結果がdts>DTSとなる場合
に、定常部基準フレーム番号qsを現フレーム番号tに
書き換える処理(2C)と、現フレーム番号tの音声特
徴ベクトルxt と過渡部基準フレーム番号qtの音声特
徴ベクトルxqtとの間の距離dttを閾値DTTと比較
し、当該比較結果がdtt>DTTとなる場合に、過渡
部基準フレーム番号qtを現フレーム番号tに書き換え
る処理(2D)と、処理(2C)及び(2D)の終了
後、j=1、2、……、Jの各j毎に、出力確率bji(x
t)を与える状態遷移の遷移元Sj に付与されている種別
sを判定する処理(2E)と、処理(2E)の種別判定
結果が定常部であった場合に、処理(2C)の比較結果
がdts>DTSであれば、当該種別判定結果を得たj
に関しては全てのiについて、出力確率bji(xt)をヒド
ンマルコフモデルから求めて参照確率bjiを当該出力確
率bji(xt)に書き換え、処理(2E)の種別判定結果が
定常部であった場合に、処理(2C)の比較判定結果が
dts≦DTSであれば、当該種別判定結果を得たjに
関しては参照確率bjiの書換えを行なわず、処理(2
E)の種別判定結果が過渡部であった場合に、処理(2
D)の比較結果がdtt>DTTであれば、当該種別判
定結果を得たjに関しては全てのiについて、出力確率
ji(xt)をヒドンマルコフモデルから求めて参照確率b
jiを当該出力確率bji(xt)に書き換え、処理(2E)の
種別判定結果が過渡部であった場合に、処理(2D)の
比較判定結果がdtt≦DTTであれば、当該種別判定
結果を得たjに関しては参照確率bjiの書換えを行なわ
ない処理(2F)と、j=1、2、……、Jの個々のj
毎に処理(2F)を行ない、全てのjにつき前記処理
(2F)を終了したら、各参照確率bjiを読み出して前
向き確率citを求める処理(2G)と、処理(2G)の
終了後、現フレーム番号tに1を加算する処理(2H)
とを行なう。
【0036】このように請求項3の発明では、j=1、
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
【0037】種別sが定常部である場合は、定常部に関
わる距離dtsが閾値DTSを越えれば、当該種別を得
たjに関しては、現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求めそして参照確率bji
当該出力確率bji(xt)に書き換え、然る後に、参照確率
jiを読み出して前向き確率citを求める。また定常部
に関わる距離dtsが閾値DTS以下であれば、当該種
別sを得たjに関しては、参照確率bjiの書換えを行な
わずに、従って現フレーム番号tの出力確率bji(xt)を
ヒドンマルコフモデルから求めずに、参照確率bjiを読
み出して前向き確率citを求める。これがため種別sが
定常部であるという判定結果を得たjに関し、前向き確
率citの誤差を抑えつつ、演算量を減少させることがで
きる。
【0038】この場合の前向き確率citの誤差とは、種
別sが定常部であるという判定結果を得たjに関して、
dts≦DTSの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
itと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
【0039】定常部に関わる距離dts、閾値DTSの
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdts>DTSであれば
定常部基準フレーム番号qsの書換えを行なうこととな
るが、dts>DTSであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の定常部基準フレー
ム番号qsの音声特徴ベクトルxqsに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は定常部基準
フレーム番号qsの音声特徴ベクトルxqsからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dts
≦閾値DTSであれば定常部基準フレーム番号qsの書
換えを行なわないこととなるが、dts≦DTSである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない定常部基準フレーム番号qsの音声特徴ベ
クトルxqsと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsからの変化が少ないので、
現フレーム番号tの出力確率bji(xt)を参照確率bji
近似することができる。
【0040】同様に種別sが過渡部である場合は、過渡
部に関わる距離dttが閾値DTTを越えれば、当該種
別sを得たjに関しては、現フレーム番号tの出力確率
ji(xt)をヒドンマルコフモデルから求めそして参照確
率bjiを当該出力確率bji(x t)に書き換え、然る後に、
参照確率bjiを読み出して前向き確率citを求める。ま
た過渡部に関わる距離dttが閾値DTT以下であれ
ば、当該種別sを得たjに関しては、参照確率bjiの書
換えを行なわずに、従って現フレーム番号tの出力確率
ji(xt)をヒドンマルコフモデルから求めずに、参照確
率bjiを読み出して前向き確率citを求める。これがた
め種別sが過渡部であるという判定結果を得たjに関
し、前向き確率citの誤差を抑えつつ、演算量を減少さ
せることができる。
【0041】この場合の前向き確率citの誤差とは、種
別sが過渡部であるという判定結果を得たjに関して、
dtt≦DTTの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
itと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
【0042】過渡部に関わる距離dtt、閾値DTTの
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdtt>DTTであれば
過渡部基準フレーム番号qtの書換えを行なうこととな
るが、dtt>DTTであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の過渡部基準フレー
ム番号qtの音声特徴ベクトルxqtに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は過渡部基準
フレーム番号qtの音声特徴ベクトルxqtからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dtt
≦閾値DTTであれば過渡部基準フレーム番号qtの書
換えを行なわないこととなるが、dtt≦DTTである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率bji(xt)を参照確率bji
近似することができる。
【0043】さらに請求項3の発明において、種別sが
定常部である場合の閾値DTSと種別sが過渡部である
場合の閾値DTTとをそれぞれ個別に設定する理由は、
次の理由に依る。
【0044】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DTT
を小さくすることにより、前向き確率citの誤差を小さ
くすることが望まれる。
【0045】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
Sを大きくしても前向き確率citの誤差を小さくするこ
とができる。閾値DTSを大きくすることは、演算量の
削減に寄与する。
【0046】従って種別sが過渡部である場合に用いる
閾値DTTに値の小さいものを用いると共に、種別sが
定常部である場合に用いる閾値DTSに値の大きいもの
を用いることにより、より効果的に前向き確率citの誤
差を小さくしつつ、演算量を削減することができる。
【0047】また請求項4の発明の音声認識方法にあっ
ては、請求項3の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
【0048】このように請求項4の発明では、dts、
DTSの比較結果に応じて定常部基準フレーム番号qs
を書き換える処理(2C)とdtc、DTCの比較結果
に応じて過渡部基準フレーム番号qcを書き換える処理
(2D)とを行ない、然る後、現フレーム番号tの出力
確率bji(xt)を与える状態遷移の、遷移元Sj に付与さ
れている種別sを判定する処理(2E)を行なう。従っ
て定常部基準フレーム番号qsの書換え処理(2C)と
過渡部基準フレーム番号qcの書換え処理(2D)と
を、種別sの判定処理(2E)を行なう前に終了して、
j=1、2、……、Jの個々のj毎には行なわないの
で、処理量を減らすことができる。種別sの判定処理
(2E)を行なった後に、これら書換え処理(2C)、
(2D)を行なうようにすると、個々のj毎に、これら
書換え処理(2C)、(2D)を行なうこととなり処理
量が増える。
【0049】尚、処理量は増えるが、請求項3の発明に
おいて、処理(2E)の終了後に、処理(2C)及び
(2D)を行なうようにしても良い。
【0050】また請求項5の発明の音声認識方法にあっ
ては、請求項3記載の音声認識方法において、ヒドンマ
ルコフモデルにおいて遷移元となる状態Sj に、定常部
及び過渡部のいずれかの種別sを付与し、定常部基準フ
レーム番号qs、過渡部基準フレーム番号qtと、参照
確率bjiとを格納する記憶部を設け、該参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを順次に求める。
【0051】そして(1).t=1のときは、定常部ス
キップ数skips、過渡部スキップ数skiptをそ
れぞれ0に、及び、定常部基準フレーム番号qs、過渡
部基準フレーム番号qtをそれぞれ1に初期化すると共
に、全てのj、iについて、出力確率bji(xt)をヒドン
マルコフモデルから求め当該出力確率bji(xt)を参照確
率bjiの初期値として書き込み、参照確率bjiの書込み
終了後に各参照確率bjiを読み出して前向き確率cit
求める処理(2A)と、処理(2A)の終了後、現フレ
ーム番号tに1を加算する処理(2B)とを行なう。
【0052】(2).2≦t≦Tのときは、定常部スキ
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)と、処理(2C)、(2
D)の終了後、j=1、2、……、Jの各j毎に、出力
確率bji(xt)を与える状態遷移の遷移元Sj に付与され
ている種別sを判定する処理(2E)と、処理(2E)
の種別判定結果が定常部であった場合に、処理(2C)
の比較結果がskips>NSKIPS若しくはdts
>DTSであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(4E)の種別判定結果が定常部で
あった場合に、処理(2C)の比較結果がskips≦
NSKIPSかつdts≦DTSであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わず、処理(2E)の種別判定結果が過渡部であった場
合に、処理(2D)の比較結果がskipt>NSKI
PT若しくはdtt>DTTであれば、当該種別判定結
果を得たjに関しては全てのiについて、出力確率bji
(xt)をヒドンマルコフモデルから求めて参照確率bji
当該出力確率bji(xt)に書き換え、処理(2E)の種別
判定結果が過渡部であった場合に、処理(2D)の比較
結果がskipt≦NSKIPTかつdtt≦DTTで
あれば、当該種別判定結果を得たjに関しては参照確率
jiの書換えを行なわない処理(2F)と、j=1、
2、……、Jの個々のj毎に該処理(2F)を行ない、
全てのjにつき該処理(2F)を終了したら、各参照確
率bjiを読み出して前向き確率citを求める処理(2
G)と、処理(2G)の終了後、現フレーム番号tに1
を加算する処理(2H)とを行なう。
【0053】このように請求項5の発明では、j=1、
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
【0054】種別sの判定結果が定常部である場合に、
定常部に関わるスキップ数skipsが閾値NSKIP
Sを越えるか若しくは定常部に関わる距離dtsが閾値
DTSを越えるかすれば、当該種別を得たjに関して
は、現フレーム番号tの出力確率bji(xt)をヒドンマル
コフモデルから求めそして参照確率bjiを当該出力確率
ji(xt)に書き換え、然る後に、参照確率bjiを読み出
して前向き確率citを求める。また種別sの判定結果が
定常部である場合に、定常部に関わるスキップ数ski
psが閾値NSKIPS以下となりかつ定常部に関わる
距離dtsが閾値DTS以下となれば、当該種別sを得
たjに関しては、参照確率bjiの書換えを行なわずに、
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求めずに、参照確率bjiを読み出して
前向き確率citを求める。これがため種別sが定常部で
あるという判定結果を得たjに関し、前向き確率cit
誤差を抑えつつ、演算量を減少させることができる。
【0055】この場合の前向き確率citの誤差とは、種
別sが定常部であるという判定結果を得たjに関して、
skips≦NSKIPSかつdts≦DTSの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
【0056】定常部に関わる距離dts、閾値DTSの
比較結果とスキップ数skips、閾値NSKIPSの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
【0057】dts>DTSの場合は、現フレーム番号
tの音声特徴ベクトルxt は、基準フレーム番号qsの
音声特徴ベクトルxqsに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
【0058】skips>NSKIPSの場合は、距離
dtsが閾値DTS以下となった回数skipsが閾値
NSKIPSを越えるので現フレーム番号tと基準フレ
ーム番号qsとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
【0059】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qs
の音声特徴ベクトルxqsに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskips≦NSKIPSであ
り従って距離dtsが閾値DTS以下となった回数sk
ipsが閾値NSKIPS以下であるので現フレーム番
号tと基準フレーム番号qsとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
【0060】同様に種別sの判定結果が過渡部である場
合に、過渡部に関わるスキップ数skiptが閾値NS
KIPTを越えるか若しくは過渡部に関わる距離dtt
が閾値DTTを越えるかすれば、当該種別を得たjに関
しては、現フレーム番号tの出力確率bji(xt)をヒドン
マルコフモデルから求めそして参照確率bjiを当該出力
確率bji(xt)に書き換え、然る後に、参照確率bjiを読
み出して前向き確率citを求める。また種別sの判定結
果が過渡部である場合に、過渡部に関わるスキップ数s
kiptが閾値NSKIPT以下となりかつ過渡部に関
わる距離dttが閾値DTT以下となれば、当該種別s
を得たjに関しては、参照確率bjiの書換えを行なわず
に、従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求めずに、参照確率bjiを読み出
して前向き確率citを求める。これがため種別sが過渡
部であるという判定結果を得たjに関し、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
【0061】この場合の前向き確率citの誤差とは、種
別sが過渡部であるという判定結果を得たjに関して、
skipt≦NSKIPTかつdtt≦DTTの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
【0062】過渡部に関わる距離dtt、閾値DTTの
比較結果とスキップ数skipt、閾値NSKIPTの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
【0063】dtt>DTTの場合は、現フレーム番号
tの音声特徴ベクトルxt は、基準フレーム番号qtの
音声特徴ベクトルxqtに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
【0064】skipt>NSKIPTの場合は、距離
dttが閾値DTT以下となった回数skiptが閾値
NSKIPTを越えるので現フレーム番号tと基準フレ
ーム番号qtとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
【0065】skipt≦NSKIPTかつdtt≦D
TTの場合は、dtt≦DTTであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qt
の音声特徴ベクトルxqtに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskipt≦NSKIPTであ
り従って距離dttが閾値DTT以下となった回数sk
iptが閾値NSKIPT以下であるので現フレーム番
号tと基準フレーム番号qtとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
【0066】さらに請求項5の発明において、種別sが
定常部である場合の閾値DTS、NSKIPSと種別s
が過渡部である場合の閾値DTT、NSKIPTとをそ
れぞれ個別に設定する理由は、次に述べる理由に依る。
【0067】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DT
T、NSKIPTを小さくすることにより、前向き確率
itの誤差を小さくすることが望まれる。
【0068】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
S、NSKIPSを大きくしても前向き確率citの誤差
を小さくすることができる。閾値DTS、NSKIPS
を大きくすることは、演算量の削減に寄与する。
【0069】従って種別sが過渡部である場合に用いる
閾値DTT、NSKIPTに値の小さいものを用いると
共に、種別sが定常部である場合に用いる閾値DTS、
NSKIPSに値の大きいものを用いることにより、よ
り効果的に前向き確率citの誤差を小さくしつつ、演算
量を削減することができる。
【0070】また請求項6の発明の音声認識方法にあっ
ては、請求項5の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
【0071】このように請求項6の発明では、skip
s、NSKIPSの比較結果及びdts、DTSの比較
結果に応じて定常部スキップ数skipsの初期化若し
くはカウントアップと定常部基準フレーム番号qsの書
換えとを行なう処理(2C)と、skipt、NSKI
PTの比較結果及びdtt、DTTの比較結果に応じて
過渡部スキップ数skiptの初期化若しくはカウント
アップと過渡部基準フレーム番号qtの書換えとを行な
う処理(2D)とを行ない、然る後、現フレーム番号t
の出力確率bji(xt)を与える状態遷移の、遷移元Sj
付与されている種別sを判定する処理(2E)を行な
う。従ってこれらスキップ数、基準フレーム番号に関わ
る処理(2C)、(2D)を、種別sの判定処理(2
E)を行なう前に終了して、j=1、2、……、Jの個
々のj毎には行なわないので、処理量を減らすことがで
きる。種別sの判定処理(2E)を行なった後に、これ
らスキップ数、基準フレーム番号に関わる書換え処理
(2C)、(2D)を行なうようにすると、個々のj毎
に、これらスキップ数、基準フレーム番号に関わる処理
(2C)、(2D)を行なうこととなり処理量が増え
る。
【0072】尚、処理量は増えるが、請求項5の発明に
おいて、処理(2E)の終了後に処理(2C)及び(2
D)を行なうようにしても良い。
【0073】<請求項7〜8の発明>さらに請求項7の
発明の音声認識方法にあっては、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsと、参照確
率bjiとを格納する記憶部を設け、参照確率bjiを用い
て、t=1、2、……、Tの各場合の前向き確率cit
順次に求める。
【0074】そして(1).t=1のときは、前向き確
率基準フレーム番号qc、出力確率基準フレーム番号q
sをそれぞれ1に初期化すると共に、全てのj、iにつ
いて、出力確率bji(xt)をヒドンマルコフモデルから求
め当該出力確率bji(xt)を参照確率bjiの初期値として
書き込み、参照確率bjiの書込み終了後に各参照確率b
jiを読み出して前向き確率citを求める処理(3A)
と、処理(3A)の終了後、現フレーム番号tに1を加
算する処理(3B)とを行なう。
【0075】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、処理(3C)
の比較結果がdtc≦DTCとなる場合に、前向き確率
itは直前フレームの前向き確率ci(t-1)に等しいもの
として前向き確率citを求める演算を終了する処理(3
D)と、処理(3C)の比較結果がdtc>DTCとな
る場合に、前向き確率基準フレーム番号qcを現フレー
ム番号tに書き換える処理(3E)と、処理(3E)の
終了後、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqs
の間の距離dtsを閾値DTSと比較し、当該比較結果
がdts>DTSとなる場合に、出力確率基準フレーム
番号qsを現フレーム番号tに書き換えると共に、全て
のj、iについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、参照確率bjiの書換え終了後に各参照確率
jiを読み出して前向き確率citを求め、当該比較結果
がdts≦DTSとなる場合に、参照確率bjiの書き換
えを行なわずに各参照確率bjiを読み出して前向き確率
itを求める処理(3F)と、処理(3D)若しくは
(3F)の終了後、現フレーム番号tに1を加算する処
理(3G)とを行なう。
【0076】このように請求項7の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。
【0077】そして現フレーム番号tの音声特徴ベクト
ルxt と前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcとの間の距離dtcを閾値DTCと比較す
る。dtc≦DTCの場合は、現フレーム番号tの前向
き確率citは直前フレームの前向き確率ci(t-1)に等し
いものとして、前向き確率citを求める演算を終了す
る。
【0078】またdtc>DTCの場合は、前向き確率
基準フレーム番号qcを現フレーム番号tに書き換え、
然る後、現フレーム番号tの音声特徴ベクトルxt と基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。dts>DTSの場
合は、基準フレーム番号qsの書換えと参照確率bji
書換えとを行ない、書き換えた参照確率bjiを読み出し
て前向き確率citを求める。dts≦DTSの場合は、
基準フレーム番号qsの書換えと参照確率bjiの書換え
とは行なわず、書換えを行なわなかった参照確率bji
読み出して前向き確率citを求める。
【0079】dtc≦DTCの場合は、距離dtcが閾
値DTC以下となるので現フレーム番号tの音声特徴ベ
クトルxt と前向き確率基準フレーム番号qcの音声特
徴ベクトルxqcとが近似的に等しくなる場合であり、従
って現フレーム番号tの前向き確率citは前向き確率基
準フレーム番号qcの音声特徴ベクトルxqcからの変化
が小さくなるので、現フレーム番号tの前向き確率cit
は直前フレームの前向き確率ci(t-1)で近似できる。そ
こで現フレーム番号tの前向き確率citは直前フレーム
の前向き確率ci(t-1)に等しいものとして、前向き確率
itを求める演算を終了する。
【0080】dtc>DTCの場合は、距離dtcが閾
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率Ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。
【0081】また記憶部に格納される参照確率bjiは、
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
【0082】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、従って現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
からの変化が大きくなるので、現フレーム番号tの出力
確率bji(xt)を、書換え前の出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できない。そこで現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求め、参照確率bjiを当該
出力確率bji(xt)に書き換えた後に参照確率bjiを読み
出して前向き確率citを求める。また参照確率bjiを、
現フレーム番号tの出力確率bji(xt)に書き換えるの
で、出力確率基準フレーム番号qsを現フレーム番号t
に書き換える。
【0083】dts≦DTSの場合は、距離dtsが閾
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとが近似的に等しくな
る場合であり、従って現フレーム番号tの音声特徴ベク
トルxt は出力確率基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さくなるので、現フレーム番
号tの出力確率bji(xt)を、出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できる。そこで参照確率bjiの書換えを行なわずに、参
照確率bjiを読み出して前向き確率citを求める。また
参照確率bjiの書換えを行なわないので、出力確率基準
フレーム番号qsの書換えを行なわない。
【0084】このようにdtc≦DTCの場合は、現フ
レーム番号tの前向き確率citは直前フレームの前向き
確率ci(t-1)に等しいものとして前向き確率citを求め
る演算を終了し、出力確率bji(xt)を求める演算を行な
わない。そしてdtc>DTCの場合にdts>DTS
であれば、参照確率bjiの書換えを行なった後に、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なった後に、参照確率bji
を読み出して前向き確率citを求める。またdtc>D
TCの場合にdts≦DTSであれば、参照確率bji
書換えを行なわずに、従って現フレーム番号tの出力確
率bji(xt)をヒドンマルコフモデルから求める演算を行
なわずに、参照確率bjiを読み出して前向き確率cit
求めるので、前向き確率citの誤差を抑えつつ、演算量
を減少させることができる。
【0085】この場合の前向き確率citの誤差とは、d
tc≦DTC若しくはdts≦DTSの場合に出力確率
ji(xt)をヒドンマルコフモデルから求める演算を行な
わずに得た前向き確率citと、そのような演算の簡略化
を行なわずに得た前向き確率citとの差である。
【0086】閾値DTC、DTSを大きくするに従っ
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
【0087】また請求項8の発明の音声認識方法にあっ
ては、請求項7の発明の音声認識方法において、次の如
く処理を行なう。
【0088】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、該参照確率bji
の書込み終了後に各参照確率bjiを読み出して前向き確
率citを求める処理(3A)と、処理(3A)の終了
後、現フレーム番号tに1を加算する処理(3B)とを
行なう。
【0089】(2).2≦t≦Tのときは、前向き確率
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcを閾値DTCと比較する処理(3C)
と、処理(3C)の比較結果がskipc≦NSKIP
Cかつdtc≦DTCとなる場合に、前向き確率cit
直前フレームの前向き確率ci(t-1)に等しいものとして
前向き確率citを求める演算を終了すると共に、前向き
確率スキップ数skipc、出力確率スキップ数ski
psにそれぞれ1を加算する処理(3D)と、処理(3
C)の比較結果がskipc>NSKIPC若しくはd
tc>DTCとなる場合に、前向き確率スキップ数sk
ipcを0に初期化し、及び、前向き確率基準フレーム
番号qcを現フレーム番号tに書き換える処理(3E)
と、処理(3E)の終了後、出力確率スキップ数ski
psを閾値NSKIPSと比較すると共に、現フレーム
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がskips>NS
KIPS若しくはdts>DTSとなる場合に、出力確
率スキップ数skipsを0に初期化し、及び、出力確
率基準フレーム番号qsを現フレーム番号tに書き換え
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求めて参照確率bjiを当該出
力確率bji(xt)に書き換え、参照確率bjiの書換え終了
後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がskips≦NSKIPSかつdt
s≦DTSとなる場合に、出力確率スキップ数skip
sに1を加算すると共に、参照確率bji(xt)の書換えを
行なわずに各参照確率bjiを読み出して前向き確率cit
を求める処理(3F)と、処理(3D)若しくは(3
F)の終了後、現フレーム番号tに1を加算する処理
(3G)とを行なう。
【0090】このように請求項8の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。また前向き確率スキップ数skip
cの初期値と、出力確率スキップ数skipsの初期値
とをそれぞれ、0とする。
【0091】そして前向き確率スキップ数skipcを
閾値NSKIPCと比較すると共に、現フレーム番号t
の音声特徴ベクトルxt と前向き確率基準フレーム番号
qcの音声特徴ベクトルxqcとの間の距離dtcを閾値
DTCと比較する。skipc≦NSKIPCかつdt
c≦DTCの場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に、前
向き確率スキップ数skipcのカウントアップと出力
確率スキップ数skipsのカウントアップとを行な
う。
【0092】またskipc>NSKIPC若しくはd
tc>DTCの場合は、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換えると共に前向き確率ス
キップ数skipcを初期化し、然る後、出力確率スキ
ップ数skipsを閾値NSKIPSと比較すると共に
現フレーム番号tの音声特徴ベクトルxt と出力確率基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。skips>NSK
IPS若しくはdts>DTSの場合は、出力確率スキ
ップ数skipsの初期化と出力確率基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、出力確率スキップ数skipsのカウントアップ
は行ない、出力確率基準フレーム番号qsの書換えと参
照確率bjiの書換えとは行なわずに、書換えを行なわな
かった参照確率bjiを読み出して前向き確率citを求め
る。
【0093】skipc≦NSKIPCかつdtc≦D
TCの場合は、dtc≦DTCであるので現フレーム番
号tの音声特徴ベクトルxt は前向き確率基準フレーム
番号qcの音声特徴ベクトルxqcに近似し、従って現フ
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citは直前
フレームの前向き確率ci(t-1)で近似できる。しかもs
kipc≦NSKIPCであり従って直前フレームの前
向き確率ci(t-1)の書換えを行なわなかった回数ski
pcが閾値NSKIPC以下であるので現フレーム番号
tと前向き確率基準フレーム番号qcとの時間的隔たり
が小さくなる。従って誤差が増大する可能性が低いので
演算量を削減すべく、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して、前向き確率citを求める演算を終了する。従って
参照確率bjiを読み出して前向き確率citを求める演算
も出力確率bjiの書換えも行なわないので、前向き確率
基準フレーム番号qcの書換えも出力確率基準フレーム
番号qsの書換えも行なわない。また前向き確率スキッ
プ数skipcは、skipc≦NSKIPCとなる範
囲内で現フレーム番号tの前向き確率citを直前フレー
ムの前向き確率ci(t-1)で近似して前向き確率citの演
算を終了した回数を表すものであるので、前向き確率ス
キップ数qcに1を加算して前向き確率スキップ数qc
をカウントアップする。さらに出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsに1を加算し
て出力確率スキップ数skipsをカウントアップす
る。
【0094】dtc>DTCの場合は、距離dtcが閾
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。また前向き確率スキップ数skipcは、ski
pc≦NSKIPCとなる範囲内で現フレーム番号tの
前向き確率citを直前フレームの前向き確率ci(t-1)
近似して前向き確率citの演算を終了した回数を表すも
のであるので、前向き確率スキップ数skipcを0に
初期化する。
【0095】skipc>NSKIPCの場合は、現フ
レーム番号tの前向き確率citを直前フレームの前向き
確率ci(t-1)で近似して前向き確率citの演算を終了し
た回数skipcが閾値NSKIPCを越えるので現フ
レーム番号tと前向き確率基準フレーム番号qcとの時
間的隔たりが大きくなり、従って誤差が増大する可能性
が高いので誤差を低減するべく、参照確率bjiを読み出
して前向き確率citを求める演算を行なう。そこで前向
き確率基準フレーム番号qcを現フレーム番号tに書き
換える。また前向き確率スキップ数skipcは、sk
ipc≦NSKIPCとなる範囲内で現フレーム番号t
の前向き確率citを直前フレームの前向き確率ci(t-1)
で近似して前向き確率citの演算を終了した回数を表す
ものであるので、前向き確率スキップ数skipcを初
期化する。
【0096】また記憶部に格納される参照確率bjiは、
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
【0097】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、現フレーム番号tの音声特徴ベクトルxt は出力確
率基準フレーム番号qsの音声特徴ベクトルxqsからの
変化が大きいので、現フレーム番号tの出力確率bji(x
t)を、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiで近似できない。そこで参照
確率bjiを、現フレーム番号tの出力確率bji(xt)に書
き換え、この書き換えた参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiを、現フレーム
番号tの出力確率bji(xt)に書き換えるので、出力確率
基準フレーム番号qsを現フレーム番号tに書き換え
る。そして出力確率スキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、出力確率
スキップ数skipsを初期化する。
【0098】skips>NSKIPSの場合は、参照
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと出力確
率基準フレーム番号qsとの時間的隔たりが大きくな
り、従って誤差が増大する可能性が高いので誤差を低減
すべく、参照確率bjiの書換えを行なう。従って参照確
率bjiを、現フレーム番号tの出力確率bji(xt)に書き
換えるので、出力確率基準フレーム番号qsを現フレー
ム番号tに書き換える。そして出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsを初期化す
る。
【0099】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と出力確率基準フレーム番
号qsの音声特徴ベクトルxqsとが近似的に等しくなる
場合であり、従って現フレーム番号tの出力確率bji(x
t)は、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiに近似的に等しくなる。しか
もskips≦NSKIPSであり従って参照確率bji
の書換えを行なわなかった回数skipsが閾値NSK
IPS以下であるので、現フレーム番号tと出力確率基
準フレーム番号qsとの時間的隔たりが小さく従って誤
差が増大する可能性は低い。そこで参照確率bjiの書換
えを行なわずに、参照確率bjiを読み出して前向き確率
itを求める。従って参照確率bjiの書換えを行なわな
かったので、出力確率基準フレーム番号qsの書換えを
行なわない。そして出力確率スキップ数skipsは、
skips≦NSKIPSとなる範囲内で参照確率bji
の書換えを行なわなかった回数を表すものであるので、
出力確率スキップ数skipsに1を加算してスキップ
数skipsをカウントアップする。
【0100】このようにskipc≦NSKIPCかつ
dtc≦DTCの場合は、現フレーム番号tの前向き確
率citは直前フレームの前向き確率ci(t-1)に等しいも
のとして前向き確率citを求める演算を終了し、出力確
率bji(xt)を求める演算を行なわない。またskipc
>NSKIPC若しくはdtc>DTCの場合に、sk
ips>NSKIPS若しくはdts>DTSであれ
ば、参照確率bjiの書換えを行なった後に、従って現フ
レーム番号tの出力確率bji(xt)をヒドンマルコフモデ
ルから求める演算を行なった後に、参照確率bjiを読み
出して前向き確率citを求める。さらにskipc>N
SKIPC若しくはdtc>DTCの場合に、skip
s≦NSKIPSかつdts≦DTSであれば、参照確
率bjiの書換えを行なわずに、従って現フレーム番号t
の出力確率bji(xt)をヒドンマルコフモデルから求める
演算を行なわずに、参照確率bjiを読み出して前向き確
率citを求めるので、前向き確率citの誤差を抑えつ
つ、演算量を減少させることができる。
【0101】この場合の前向き確率citの誤差とは、s
kipc≦NSKIPCかつdtc≦DTCの場合、若
しくは、skips≦NSKIPSかつdts≦DTS
の場合に出力確率bji(xt)をヒドンマルコフモデルから
求める演算を行なわずに得た前向き確率citと、そのよ
うな演算の簡略化を行なわずに得た前向き確率citとの
差である。
【0102】閾値DTC、DTSを大きくするに従っ
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
【0103】
【発明の実施の形態】
<請求項1の発明の第一実施形態>図1は請求項1の発
明の第一実施形態の実施に用いて好適な音声認識装置の
構成例を示す機能ブロック図である。
【0104】同図に示す音声認識装置10は、辞書部1
2、音響処理部14、音声区間検出部16、照合部18
及び参照情報記憶部20を備える。
【0105】辞書部12は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部20は、基準フレー
ム番号qsと参照確率bjiとを格納する。
【0106】音響処理部14は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部16は、入力音声信号から音声区間を検
出する。
【0107】照合部18は、請求項1の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
【0108】
【数5】
【0109】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部20に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次ぎの如くして順次に求める。
【0110】(1).t=1のときは、基準フレーム番
号qsを1に初期化すると共に、全てのj、iについ
て、出力確率bji(xt)をヒドンマルコフモデルから求め
当該出力確率bji(xt)を参照確率bjiの初期値として書
き込み、参照確率bjiの書込み終了後に各参照確率bji
を読み出して前向き確率citを求める処理(1A)と、
処理(1A)の終了後、現フレーム番号tに1を加算す
る処理(1B)とを行なう。
【0111】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、参照確率bjiの書換え終
了後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がdts≦DTSとなる場合に、参照
確率bjiの書き換えを行なわずに各参照確率bjiを読み
出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
【0112】図2はヒドンマルコフモデルの説明に供す
る図である。辞書部12に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部12に格納する。
【0113】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
【0114】
【数6】
【0115】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。
【0116】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
【0117】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
【0118】次に音声認識装置10の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
【0119】音響処理部14は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
【0120】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
【0121】音響処理部14は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
【0122】次に音声区間検出部16は、音響処理部1
4からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
【0123】照合部18は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部16から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
【0124】そして照合部18はベクトル時系列x1
2 、……、xT と辞書部12に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部12の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
【0125】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
【0126】
【数7】
【0127】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
【0128】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
【0129】
【数8】
【0130】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を前向き確率citとす
る。この計算法はビタビ法と呼ばれる。
【0131】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
【0132】
【数9】
【0133】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
【0134】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gijm(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
【0135】
【数10】
【0136】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
【0137】
【数11】
【0138】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
【0139】
【数12】
【0140】HMM照合部18は、i=1、2、……I
の全てのiについてt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部12に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
【0141】次に請求項1の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
3及び図4はこの1個のHMMに着目した処理の流れを
示す図である。この例では、出力確率bji(xt)、前向き
確率cit及び参照確率bjiをそれぞれ、対数化した出力
確率Bji(xt)、対数化した前向き確率Cit及び対数化し
た参照確率Bjiとし、i=j=1、2、……、Iとして
説明する。
【0142】照合部18は、区間情報及び音声特徴ベク
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0143】次に照合部18は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0144】次に照合部18は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
【0145】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
【0146】次に照合部18は、基準フレーム番号qs
を現フレーム番号1に初期化し(S5)、然る後、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Ci1を式(11)に従って求める(S6)。
【0147】次に照合部18は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0148】(1−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部18は現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを、次式(17)に従って求
める(S9)。
【0149】
【数13】
【0150】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部18は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S10)。
【0151】S10で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこで基準フレーム番号qsを現
フレーム番号tに書き換える(S11)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを、当該出
力確率Bji(xt)に書き換える(S12)。この参照確率
jiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S13)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S12で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
【0152】この場合のS13で読み出した参照確率B
jiは、S12において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS13では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
【0153】またS10で距離dtsが閾値DTS以下
である場合には、現フレーム番号tの音声特徴ベクトル
t は基準フレーム番号qsの音声特徴ベクトルxqs
近似的に等しく従って現フレーム番号tの出力確率Bji
(xt)は参照確率Bjiに近似的に等しくなるので、参照確
率Bjiの書換えは行なわないこととなる。そこで出力確
率Bji(xt)を式(4)〜(7)を用いて算出せずに、各
参照確率Bjiを読み出し、i=1、2、……、Iの全て
のiについて、対数化した前向き確率Citを式(11)
に従って求める(S13)。然る後、音声区間の次のフ
レームにつき処理を行なうべくS7の処理に戻る。
【0154】この場合のS13で読み出した参照確率B
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xqs) であり、従ってこの場合のS13では、基
準フレーム番号qsの出力確率Bji(xqs) を用いて前向
き確率Citを求めることとなる。
【0155】(1−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
【0156】照合部18は、辞書部12に格納されてい
る全てのHMMについて、各HMM毎に図3、図4に示
すS1〜S13の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
【0157】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、距離dts
が閾値DTS以下となる場合に、出力確率Bji(xt)を式
(4)〜(7)から求める演算を行なわずに、前向き確
率Citを求めるので、演算量を大幅に削減できる。しか
もこのような演算の簡略化は、距離dtsが閾値DTS
以下となる場合に行なうので、演算の簡略化を行なって
も、前向き確率Citの誤差を小さくできる。
【0158】この出願の発明者のシミュレーション結果
によれば、出力確率Bji(xt)を求めるための演算量を、
演算の簡略化を行なわない場合の約1/5となるよう
に、閾値DTSを定めた場合と、演算の簡略化を行なわ
ない場合とで、音声認識の認識精度に顕著な差を生じな
い例が数多く存在した。
【0159】<請求項1の発明の第二実施形態>請求項
1の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部18を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
【0160】すなわち照合部18は、尤度を求める際
に、参照情報記憶部20に格納してある参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
【0161】(1).t=1のときは、基準フレーム番
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現現フレーム番号tに1を加算する処理(1B)と
を行なう。
【0162】(2).2≦t≦Tのときは、スキップ数
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、この参照確率bjiの書換え終了後に各参照確
率bjiを読み出して前向き確率citを求め、当該比較結
果がskips≦NSKIPSかつdts≦DTSとな
る場合に、スキップ数skipsに1を加算すると共
に、参照確率bjiの書換えを行なわずに各参照確率bji
を読み出して前向き確率citを求める処理(1C)と、
処理(1C)の終了後、現フレーム番号tに1を加算す
る処理(1D)とを行なう。
【0163】次に請求項1の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
5及び図6は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
【0164】照合部18は、区間情報及び音声特徴ベク
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0165】次に照合部18は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0166】次に照合部18は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した出力
確率Bjiの初期値として書き込む(S4)。
【0167】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理をsave Bji=Bji(x1) と表して
いる。
【0168】次に照合部18は、基準フレーム番号qs
を現フレーム番号1に初期化すると共にスキップ数sk
ipsを0に初期化する(S5)。然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
【0169】次に照合部18は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0170】(1−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、スキップ数skipsと閾値NSKIPS
との比較判定を行なう(S9)。
【0171】S9でスキップ数skipsが閾値NSK
IPSを越える場合は、現フレーム番号tと基準フレー
ム番号qsとの時間的隔たりが大きく従って誤差が増大
する可能性が高いので誤差を低減すべく、参照確率Bji
の書換えを行なうこととなる。そこでスキップ数ski
psを0に初期化すると共に基準フレーム番号qsを現
フレーム番号tに書き換える(S10)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを当該出力
確率Bji(xt)に書き換える(S11)。この参照確率B
jiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S12)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S11で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
【0172】この場合のS12で読み出した参照確率B
jiは、S11において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS12では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
【0173】S9でスキップ数skipsが閾値NSK
IPS以下となる場合は、照合部18は、現フレーム番
号tの音声特徴ベクトルxt と基準フレーム番号qsの
音声特徴ベクトルxqsとの間の距離dtsを求め(S1
3)、求めた距離dtsを閾値DTSと比較してこれら
ベクトルxt 及びxqsが近似的に等しいか否かを判定す
る(S14)。
【0174】S14で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこでS10〜S12の処理を行
ない、然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
【0175】S14で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は基準フレーム番号qsの音声特徴ベクトルxqsに近似
的に等しく従って現フレーム番号tの出力確率Bji(xt)
は参照確率Bjiに近似的に等しくなるので、参照確率B
jiの書換えは行なわないこととなる。そこでスキップ数
skipsに1を加算してスキップ数skipsをカウ
ントアップし(S15)、然る後、出力確率Bji(xt)を
式(4)〜(7)を用いて算出せずに、参照確率Bji
読み出し、i=1、2、……、Iの全てのiについて、
対数化した前向き確率Citを式(11)に従って求める
(S12)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
【0176】この場合のS12で読み出した参照確率B
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xt)であり、従ってこの場合のS12では、基準
フレーム番号qsの出力確率Bji(xqs) を用いて前向き
確率Citを求めることとなる。
【0177】(1−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトルの時系列x1 、x2 、……、
T とHMMとの間の尤度ln{P(x1 、x2 、……、
T )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
【0178】照合部18は、辞書部12に格納されてい
る全てのHMMについて、各HMM毎に、図5、図6に
示すS1〜S15の処理を行なって尤度(前向き確率C
iT)を求め、求めた尤度のうち最大の尤度を検出する。
そして最大の尤度を得たHMMのカテゴリを、当該音声
特徴ベクトルの時系列x1 、x2 、……、xT を抽出し
た入力音声信号に対する認識結果として、次段の装置
(図示せず)へ出力する。
【0179】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、スキップ数
skipsが閾値NSKIPS以下となりかつ距離dt
sが閾値DTS以下となる場合に、出力確率Bji(xt)を
式(4)〜(7)から求める演算を行なわずに、前向き
確率Citを求めるので、大幅に演算量を削減できる。し
かもこのような演算の簡略化は、スキップ数skips
が閾値NSKIPS以下となりかつ距離dtsが閾値D
TS以下となる場合に行なうので、演算の簡略化を行な
っても、前向き確率Citの誤差を小さくできる。
【0180】請求項1の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
【0181】<請求項3の発明の第一実施形態>図7は
請求項3の発明の第一実施形態の実施に用いて好適な音
声認識装置の構成例を示す機能ブロック図である。
【0182】同図に示す音声認識装置22は、辞書部2
4、音響処理部26、音声区間検出部28、照合部30
及び参照情報記憶部32を備える。
【0183】辞書部24は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。ヒドンマルコフモデルにおいて音声
特徴ベクトルxの出力確率bji(x) を与える状態遷移の
遷移元となる状態Sj には、定常部及び過渡部のいずれ
かの種別sを付与してある。参照情報記憶部32は、定
常部基準フレーム番号qs、過渡部基準フレーム番号q
tと、参照確率bjiとを格納する。
【0184】音響処理部26は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部28は、入力音声信号から音声区間を検
出する。
【0185】照合部30は、請求項3の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
【0186】
【数14】
【0187】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部32に格納されて
いる参照確率bjiを用いて、t=1、2、……、Tの各
場合の前向き確率citを、次の如くして順次に求める。
【0188】(1).t=1のときは、定常部基準フレ
ーム番号qs、過渡部基準フレーム番号qtをそれぞれ
1に初期化すると共に、全てのj、iについて、出力確
率bji(xt)をヒドンマルコフモデルから求め当該出力確
率bji(xt)を参照確率bjiの初期値として書き込み、該
参照確率bjiの書込み終了後に各参照確率bjiを読み出
して前向き確率citを求める処理(2A)を行なう。そ
して処理(2A)の終了後、現フレーム番号tに1を加
算する処理(2B)を行なう。
【0189】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、当該比較結果がdts>DTSとなる
場合に、定常部基準フレーム番号qsを現フレーム番号
tに書き換える処理(2C)と、現フレーム番号tの音
声特徴ベクトルxt と過渡部基準フレーム番号qtの音
声特徴ベクトルxqtとの間の距離dttを閾値DTTと
比較し、当該比較結果がdtt>DTTとなる場合に、
過渡部基準フレーム番号qtを現フレーム番号tに書き
換える処理(2D)とを行ない、これら処理(2C)及
び(2D)の終了後、j=1、2、……、Jの各j毎
に、出力確率bji(xt)を与える状態遷移の遷移元Sj
付与されている種別sを判定する処理(2E)を行な
う。
【0190】そして処理(2E)の種別判定結果が定常
部であった場合に、処理(2C)の比較結果がdts>
DTSであれば、当該種別判定結果を得たjに関しては
全てのiについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、処理(2E)の種別判定結果が定常部であ
った場合に、処理(2C)の比較結果がdts≦DTS
であれば、当該種別判定結果を得たjに関しては参照確
率bjiの書換えを行なわず、処理(2E)の種別判定結
果が過渡部であった場合に、処理(2D)の比較結果が
dtt>DTTであれば、当該種別判定結果を得たjに
関しては全てのiについて、出力確率bji(xt)をヒドン
マルコフモデルから求めて参照確率bjiを当該出力確率
ji(xt)に書き換え、処理(2E)の種別判定結果が過
渡部であった場合に、処理(2D)の比較結果がdtt
≦DTTであれば、当該種別判定結果を得たjに関して
は参照確率bjiの書換えを行なわない処理(2F)を行
なう。
【0191】そしてj=1、2、……、Jの個々のj毎
に処理(2F)を行ない、全てのjにつき処理(2F)
を終了したら、各参照確率bjiを読み出して前向き確率
itを求める処理(2G)を行なう。処理(2G)の終
了後、現フレーム番号tに1を加算する処理(2H)を
行なう。
【0192】図8はヒドンマルコフモデルの説明に供す
る図である。辞書部24に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部24に格納する。
【0193】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。そしてHMMにおいて出力
確率bji(x) を与える状態遷移の遷移元Sj に対して
は、定常部及び過渡部のいずれかの種別sを付与してあ
る。但し、
【0194】
【数15】
【0195】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。さらに出力確率b11
(x) を与える状態遷移S1 →S1 の遷移元S1 に対して
は、種別sとして過渡部が、また出力確率b12(x) を与
える状態遷移S1 →S2 に対しては、種別sとして定常
部が付与してある。
【0196】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。この際、出力確率bji(x) を与える状態遷移が音
声信号の定常部及び過渡部のいずれであるかも調べて、
当該状態遷移の遷移元Sj に対し定常部及び過渡部のい
ずれかの種別sを付与する。
【0197】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
【0198】次に音声認識装置22の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
【0199】音響処理部26は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
【0200】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
【0201】音響処理部26は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部26は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
【0202】次に音声区間検出部28は、音響処理部2
6からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
【0203】照合部30は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部28から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
【0204】そして照合部30はベクトル時系列x1
2 、……、xT と辞書部24に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部24の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
【0205】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
【0206】
【数16】
【0207】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
【0208】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
【0209】
【数17】
【0210】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を、前向き確率cit
する。この計算法はビタビ法と呼ばれる。
【0211】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
【0212】
【数18】
【0213】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
【0214】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
【0215】
【数19】
【0216】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
【0217】
【数20】
【0218】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
【0219】
【数21】
【0220】HMM照合部30は、i=1、2、……、
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部24に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
【0221】次に請求項3の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
9〜図11は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
【0222】照合部30は、区間情報及び音声特徴ベク
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0223】次に照合部30は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0224】次に照合部30は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
【0225】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
【0226】次に照合部30は、定常部基準フレーム番
号qs、過渡部基準フレーム番号qtをそれぞれ、現フ
レーム番号1に初期化し(S5)、然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
【0227】次に照合部30は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0228】(2−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部30は現フレーム番号tの音声特徴
ベクトルxt と定常部基準フレーム番号qsの音声特徴
ベクトルxqsとの間の距離dtsを、次式(17)に従
って求める(S9)。
【0229】
【数22】
【0230】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :定常部基準フレーム番号qsの音声特徴ベクト
ルxqsのベクトル成分 次に照合部30は、定常部に関わる距離dtsと閾値D
TSとを比較してこれらベクトルxt 及びxqsが近似的
に等しいか否かを判定する(S10)。
【0231】S10で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
定常部基準フレーム番号qsの音声特徴ベクトルxqs
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きいので、定常部基準フレーム番号q
sを現フレーム番号tに書き換えると共に定常部に関わ
る比較結果mode sとして、dts>DTSを表す情報TR
UEを書き込む(S11)。
【0232】S10で距離dtsが閾値DTS以下とな
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は定常部基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、定常部基準フ
レーム番号qsの書換えは行なわないと共に定常部に関
わる比較結果mode sとして、dts≦DTSを表す情報
FALSE を書き込む(S12)。
【0233】S11若しくはS12の処理を終了した
ら、次に照合部30は現フレーム番号tの音声特徴ベク
トルxt と過渡部基準フレーム番号qtの音声特徴ベク
トルxqtとの間の距離dttを、次式(18)に従って
求める(S13)。
【0234】
【数23】
【0235】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqtk :過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtのベクトル成分 次に照合部30は、過渡部に関わる距離dttと閾値D
TTとを比較してこれらベクトルxt 及びxqtが近似的
に等しいか否かを判定する(S14)。
【0236】S14で距離dttが閾値DTTを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
過渡部基準フレーム番号qtの音声特徴ベクトルxqt
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きいので、過渡部基準フレーム番号q
tを現フレーム番号tに書き換えると共に過渡部に関わ
る比較結果mode tとして、dtt>DTTを表す情報TR
UEを書き込む(S15)。
【0237】S14で距離dttが閾値DTT以下とな
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は過渡部基準フレーム番号qtの音声特
徴ベクトルxqtからの変化が小さいので、過渡部基準フ
レーム番号qtの書換えは行なわないと共に過渡部に関
わる比較結果mode tとして、dtt≦DTTを表す情報
FALSE を書き込む(S16)。
【0238】S15若しくはS16の処理を終了した
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj
付与されている番号)を初期値1に設定し(S17)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S18)。
【0239】S18でj≦Jであれば、次に照合部30
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S19)。
【0240】S19の種別判定結果が定常部である場合
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わる距離dtsが閾値DTSを越
えていたか否かを判定する(S20)。
【0241】S20で比較結果mode sがdts>DTS
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt が定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
尚、S21で参照確率Bjiを書き換える処理を、図にあ
ってはsave Bji=Bji(xt) と表している。
【0242】S20で比較結果mode sがdts≦DTS
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsに近似的に等しく従って現
フレーム番号tの音声特徴ベクトルxt は定常部基準フ
レーム番号qsの音声特徴ベクトルxqsからの変化が小
さいので、現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できる。そこで照合部30は、S21の
処理を行なわずに、従って出力確率Bji(xt)を式(4)
〜(7)に従って求める処理も参照確率Bjiを書き換え
る処理も行なわずに、次の番号jにつき処理を行なうべ
く、遷移元Sj の番号jに1を加算し(S22)、然る
後、S18の処理を行なう。
【0243】S19の種別判定結果が過渡部である場合
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わる距離dttが閾値DTTを越
えていたか否かを判定する(S23)。
【0244】S23で比較結果mode tがdtt>DTT
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
【0245】S23で比較結果mode tがdtt≦DTT
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtに近似的に等しくなり従っ
て現フレーム番号tの音声特徴ベクトルxt は過渡部基
準フレーム番号qtの音声特徴ベクトルxqtからの変化
が小さいので、現フレーム番号tの出力確率Bji(xt)は
参照確率Bjiで近似できる。そこで照合部30は、S2
1の処理を行なわずに、従って出力確率Bji(xt)を式
(4)〜(7)に従って求める処理も参照確率Bjiを書
き換える処理も行なわずに、次の番号jにつき処理を行
なうべく、遷移元Sj の番号jに1を加算し(S2
2)、然る後、S18の処理を行なう。
【0246】そしてj=1、2、……、Jの全てのjに
つきS19〜S23の処理を終了すると、S18の処理
でj>J(ここではJ=I)との判定結果を得るので、
S18でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S24)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
【0247】(2−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
【0248】照合部30は、辞書部24に格納されてい
る全てのHMMについて、各HMM毎に図9〜図11に
示すS1〜S23の処理を行なって尤度(前向き確率C
iT)を求め、そして最大の尤度を得たHMMのカテゴリ
を、当該音声特徴ベクトルの時系列x1 、x2 、……、
T を抽出した入力音声信号に対する認識結果として、
次段の装置(図示せず)へ出力する。
【0249】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか、若しくは、遷移元Sj が過渡部である場合に距離
dttが閾値DTT以下となるかした場合に、出力確率
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、演算量を大幅に削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか若しくは遷移元Sj が過渡部である場合に距離dt
tが閾値DTT以下となるかした場合に、行なうので、
演算の簡略化を行なっても、前向き確率Citの誤差を小
さくできる。
【0250】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値DTTを小さく設定することにより前向き確
率Citの誤差を小さくすることが望まれる。
【0251】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値DTSを大きくしても前向き確率C
itの誤差を小さくすることができる。
【0252】従って定常部に関わる閾値DTSとして値
の大きなものを用いると共に、過渡部に関わる閾値DT
Tとして値の小さなものを用いることにより、前向き確
率Citの誤差をなるべく小さくしつつ、演算量を削減す
ることができる。
【0253】この出願の発明者のシミュレーション結果
によれば、図9〜図11に示すこの例において、前向き
確率Citを求めるための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、定常部に関わる閾
値DTS及び過渡部に関わる閾値DTTを定めても、図
9〜図11に示すこの例と、演算の簡略化を行なわない
場合とで、音声認識の認識精度に顕著な差を生じないば
かりか、むしろ認識精度が向上する例が数多く存在し
た。
【0254】<請求項3の発明の第二実施形態>請求項
3の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部30を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
【0255】すなわち照合部30は、尤度を求める際
に、参照情報記憶部32に格納されている参照確率bji
を用いて、t=1、2、……、Tの各場合の前向き確率
itを、次ぎの如くして順次に求める。
【0256】(1).t=1のときは、定常部スキップ
数skips、過渡部スキップ数skiptをそれぞれ
0に、及び、定常部基準フレーム番号qs、過渡部基準
フレーム番号qtをそれぞれ1に初期化すると共に、全
てのj、iについて、出力確率bji(xt)をヒドンマルコ
フモデルから求め当該出力確率bji(xt)を参照確率bji
の初期値として書き込み、参照確率bjiの書込み終了後
に各参照確率bjiを読み出して前向き確率citを求める
処理(2A)を行なう。
【0257】そして処理(2A)の終了後、現フレーム
番号tに1を加算する処理(2B)を行なう。
【0258】(2).2≦t≦Tのときは、定常部スキ
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)とを行なう。
【0259】そして処理(2C)、(2D)の終了後、
j=1、2、……、Jの各j毎に、出力確率bji(xt)を
与える状態遷移の遷移元Sj に付与されている種別sを
判定する処理(2E)を行なう。
【0260】そして処理(2E)の種別判定結果が定常
部であった場合に、処理(2C)の比較結果がskip
s>NSKIPS若しくはdts>DTSであれば、当
該種別判定結果を得たjに関しては全てのiについて、
出力確率bji(xt)をヒドンマルコフモデルから求めて参
照確率bjiを当該出力確率bji(xt)に書き換え、処理
(2E)の種別判定結果が定常部であった場合に、処理
(2C)の比較結果がskips≦NSKIPSかつd
ts≦DTSであれば、当該種別判定結果を得たjに関
しては参照確率bjiの書換えを行なわず、処理(2E)
の種別判定結果が過渡部であった場合に、処理(2D)
の比較結果がskipt>NSKIPT若しくはdtt
>DTTであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(2E)の種別判定結果が過渡部で
あった場合に、処理(2D)の比較結果がskipt≦
NSKIPTかつdtt≦DTTであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わない処理(2F)を行なう。
【0261】そしてj=1、2、……、Jの個々のj毎
に該処理(2F)を行ない、全てのjにつき処理(2
F)を終了したら、各参照確率bjiを読み出して前向き
確率citを求める処理(2G)を行なう。
【0262】そして処理(2G)の終了後、現フレーム
番号tに1を加算する処理(2H)を行なう。
【0263】次に請求項3の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
12〜図14は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
【0264】照合部30は、区間情報及び音声特徴ベク
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0265】次に照合部30は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0266】次に照合部30は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
【0267】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
【0268】次に照合部30は、定常部スキップ数sk
ips、過渡部スキップ数skiptをそれぞれ、0に
初期化すると共に定常部基準フレーム番号qs、過渡部
基準フレーム番号qtをそれぞれ、現フレーム番号1に
初期化し(S5)、然る後、i=1、2、……、Iの全
てのiについて、対数化した前向き確率Ci1を式(1
1)に従って求める(S6)。
【0269】次に照合部30は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0270】(2−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、定常部スキップ数skipsと閾値NSK
IPSとの比較判定を行なう(S9)。
【0271】S9で定常部スキップ数skipsが閾値
NSKIPSを越える場合は、定常部に関わる距離dt
sが閾値DTS以下となった回数skipsが閾値NS
KIPSを越え従って現フレーム番号tと定常部基準フ
レーム番号qsとの時間的隔たりが大きくなるので、誤
差が増大する可能性が高い。そこで定常部スキップ数s
kipsを0に初期化すると共に定常部基準フレーム番
号qsを現フレーム番号tに書き換え、さらに定常部に
関わる比較結果mode sとして、skips>NSKIP
S若しくはdts>DTSであったことを表す情報TRUE
を書き込む(S10)。
【0272】S9で定常部スキップ数skipsが閾値
NSKIPS以下である場合は、次に照合部30は現フ
レーム番号tの音声特徴ベクトルxt と定常部基準フレ
ーム番号qsの音声特徴ベクトルxqsとの間の距離dt
sを式(17)に従って求め(S11)、然る後、定常
部に関わる距離dtsを閾値DTSと比較してこれらベ
クトルxt 及びxqsが近似的に等しいか否かを判定する
(S12)。
【0273】S12で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
定常部基準フレーム番号qsの音声特徴ベクトルxqs
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きい。そこで定常部スキップ数ski
psを0に初期化すると共に定常部基準フレーム番号q
sを現フレーム番号tに書き換え、さらに定常部に関わ
る比較結果mode sとして、skips>NSKIPS若
しくはdts>DTSであったことを表す情報TRUEを書
き込む(S10)。
【0274】S12で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は定常部基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さい。そこで定常部スキップ
数skipsに1を加算して定常部スキップ数skip
sをカウントアップすると共に、定常部に関わる比較結
果mode sとして、skips≦NSKIPTかつdts
≦DTSであったことを表す情報FALSE を書き込む(S
13)。
【0275】S10若しくはS13の処理を終了した
ら、次に照合部30は過渡部スキップ数skiptと閾
値NSKIPTとの比較判定を行なう(S14)。
【0276】S14で過渡部スキップ数skiptが閾
値NSKIPTを越える場合は、過渡部に関わる距離d
ttが閾値DTT以下となった回数skiptが閾値N
SKIPTを越え従って現フレーム番号tと過渡部基準
フレーム番号qtとの時間的隔たりが大きくなるので、
誤差が増大する可能性が高い。そこで過渡部スキップ数
skiptを0に初期化すると共に過渡部基準フレーム
番号qtを現フレーム番号tに書き換え、さらに過渡部
に関わる比較結果mode tとして、skipt>NSKI
PT若しくはdtt>DTTであったことを表す情報TR
UEを書き込む(S15)。
【0277】S14で過渡部スキップ数skiptが閾
値NSKIPT以下である場合は、次に照合部30は現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを式(18)に従って求め(S16)、然る後、過
渡部に関わる距離dttを閾値DTTと比較してこれら
ベクトルxt 及びxqtが近似的に等しいか否かを判定す
る(S17)。
【0278】S17で距離dttが閾値DTTを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
過渡部基準フレーム番号qtの音声特徴ベクトルxqt
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きい。そこで過渡部スキップ数ski
ptを0に初期化すると共に過渡部基準フレーム番号q
tを現フレーム番号tに書き換え、さらに過渡部に関わ
る比較結果mode tとして、skipt>NSKIPT若
しくはdtt>DTTであったことを表す情報TRUEを書
き込む(S15)。
【0279】S17で距離dttが閾値DTT以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtからの変化が小さい。そこで過渡部スキップ
数skiptに1を加算して過渡部スキップ数skip
tをカウントアップすると共に、過渡部に関わる比較結
果mode tとして、skipt≦NSKIPTかつdtt
≦DTTであったことを表す情報FALSE を書き込む(S
18)。
【0280】S15若しくはS18の処理を終了した
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj
付与されている番号)を初期値1に設定し(S19)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S20)。
【0281】S20でj≦Jであれば、次に照合部30
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S21)。
【0282】S21の種別判定結果が定常部である場合
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わるスキップ数skips、閾値
NSKIPSの比較結果及び距離dts、閾値DTSの
比較結果がどのようになっているかを判定する(S2
2)。
【0283】S22で比較結果mode sがskips>N
SKIPS若しくはdts>DTSであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後、S20の処理を行なう。尚、S2
3で参照確率Bjiを書き換える処理を、図にあってはsa
ve Bji=Bji(xt) と表している。
【0284】skips>NSKIPSであれば、定常
部に関わる距離dtsが閾値DTS以下となった回数s
kipsが閾値NSKIPSを越えたので現フレーム番
号tと定常部基準フレーム番号qsとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために、参照確率Bjiを書き換える。
【0285】dts>DTSであれば、現フレーム番号
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで参照確率Bjiを書き換える。
【0286】S22で比較結果mode sがskips≦N
SKIPSかつdts≦DTSであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率B jiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
【0287】skips≦NSKIPSかつdts≦D
TSであれば、skips≦NSKIPSなので定常部
に関わる距離dtsが閾値DTS以下となった回数sk
ipsは閾値NSKIPSを越えず、従って現フレーム
番号tと定常部基準フレーム番号qsとの時間的隔たり
は小さくなるので誤差が増大する可能性は低い。しかも
dts≦DTSなので現フレーム番号tの音声特徴ベク
トルxt は定常部基準フレーム番号qsの音声特徴ベク
トルxqsに近似的に等しくなり従って現フレーム番号t
の音声特徴ベクトルxt は定常部基準フレーム番号qs
の音声特徴ベクトルxqsからの変化が小さいので、現フ
レーム番号tの出力確率Bji(xt)は参照確率Bjiで近似
的できる。そこで参照確率Bjiを書き換えずに読み出し
て、前向き確率Citを求める。
【0288】S21の種別判定結果が過渡部である場合
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わるスキップ数skipt、閾値
NSKIPTの比較結果及び距離dtt、閾値DTTの
比較結果がどのようになっているかを判定する(S2
5)。
【0289】S25で比較結果mode tがskipt>N
SKIPT若しくはdtt>DTTであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後S20の処理を行なう。
【0290】skipt>NSKIPTであれば、過渡
部に関わる距離dttが閾値DTT以下となった回数s
kiptが閾値NSKIPTを越えたので現フレーム番
号tと過渡部基準フレーム番号qtとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために参照確率Bjiを書き換える。
【0291】dtt>DTTであれば、現フレーム番号
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで誤差を低減するために参照確
率Bjiを書き換える。
【0292】S25で比較結果mode tがskipt≦N
SKIPTかつdtt≦DTTであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率Bjiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
【0293】skipt≦NSKIPTかつdtt≦D
TTであれば、skipt≦NSKIPTなので過渡部
に関わる距離dttが閾値DTT以下となった回数sk
iptは閾値NSKIPTを越えず、従って現フレーム
番号tと過渡部基準フレーム番号qtとの時間的隔たり
が小さくなるので誤差が増大する可能性は低い。しかも
dtt≦DTTであるので現フレーム番号tの音声特徴
ベクトルxt は過渡部基準フレーム番号qtの音声特徴
ベクトルxqtに近似的に等しくなり従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率Bji(xt)は参照確率Bji
近似できる。そこで参照確率Bjiの書き換えを行なわな
い。
【0294】そしてj=1、2、……、Jの全てのjに
つきS20〜S25の処理を終了すると、S20の処理
でj>J(ここではJ=I)との判定結果を得るので、
S20でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S26)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
【0295】(2−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
【0296】照合部30は、辞書部24に格納されてい
る全てのHMMについて、各HMM毎に図12〜図14
に示すS1〜S26の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
【0297】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下で
あれば、出力確率Bji(xt)を式(4)〜(7)から求め
る演算を行なわずに、参照確率Bjiを読み出して前向き
確率Citを求める。また遷移元Sj が過渡部である場合
にスキップ数skiptが閾値NSKIPT以下となり
かつ距離dttが閾値DTT以下であれば、出力確率B
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、大幅に演算量を削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下と
なるか、遷移元Sj が過渡部である場合にスキップ数s
kiptが閾値NSKIPT以下となりかつ距離dtt
が閾値DTT以下となる場合かのいずれかの場合に行な
うので、演算の簡略化を行なっても、前向き確率Cit
誤差を小さくできる。
【0298】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値NSKIPT、DTTを小さく設定すること
により前向き確率Citの誤差を小さくすることが望まれ
る。
【0299】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値NSKIPS、DTSを大きくして
も前向き確率Citの誤差を小さくすることができる。
【0300】従って定常部に関わる閾値NSKIPS、
DTSに値の大きいものを用いると共に、過渡部に関わ
る閾値NSKIPT、DTTに値の小さなものを用いる
ことにより、前向き確率Citの誤差をなるべく小さくし
つつ、演算量を削減することができる。
【0301】請求項3の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
【0302】尚、遷移元Sj に対し付与される定常部、
過渡部の種別sは、例えば以下に述べるようにして定め
ることができる。
【0303】第一の例は、出力確率bji(xt)を定めるパ
ラメータのひとつbjim(xt) に着目するものである。
(6)式にも示すように、bjim(xt) =(2π)-p/2
ρjim-1/2 exp{Djimt 2 /2}であって、この式
(6)中の分散・供分散行列の大きさ|ρjim |が、任
意好適に定めた閾値THLを越える場合に、当該出力確
率bji(xt)を与える遷移元Sj の種別sを過渡部と判定
し、また分散・供分散行列の大きさ|ρjim |が閾値T
HL以下となる場合に、当該出力確率bji(xt)を与える
遷移元Sj の種別sを定常部と判定する。従ってこの場
合には、分散・供分散行列の大きさ|ρjim |が種別s
を表し、この|ρjim |と閾値THLとの比較判定が、
種別sの判定ということになる。
【0304】第二の例は、出力確率bji(xt)を与える状
態遷移が母音の状態遷移に対応する場合に、当該状態遷
移の遷移元Sj に対し定常部であることを表す情報を、
また出力確率bji(xt)を与える状態遷移が子音の状態遷
移に対応する場合に、当該状態遷移の遷移元Sj に対し
過渡部であることを表す情報を、予め付与しておくとい
うものである。
【0305】第三の例は、出力確率bji(xt)を与える状
態遷移が、母音の状態遷移及びp、t、k、r以外の子
音の状態遷移に対応する場合に、当該状態遷移の遷移元
jに対し定常部であることを表す情報を、また出力確
率bji(xt)を与える状態遷移が子音p、t、k、rの状
態遷移に対応する場合に、当該状態遷移の遷移元Sj
対し過渡部であることを表す情報を、予め付与しておく
というものである。
【0306】<請求項7の発明の第一実施形態>図15
は請求項7の発明の第一実施形態の実施に用いて好適な
音声認識装置の構成例を示す機能ブロック図である。
【0307】同図に示す音声認識装置34は、辞書部3
6、音響処理部38、音声区間検出部40、照合部42
及び参照情報記憶部44を備える。
【0308】辞書部36は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部44は、前向き確率
基準フレーム番号qc、出力確率基準フレーム番号qs
と、参照確率bjiとを格納する。
【0309】音響処理部38は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部40は、入力音声信号から音声区間を検
出する。
【0310】照合部42は、請求項7の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
【0311】
【数24】
【0312】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部44に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次の如くして順次に求める。
【0313】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、該参照確率bjiの書込み終了後に各参照確率bji
読み出して前向き確率citを求める処理(3A)を行な
う。そして処理(3A)の終了後、現フレーム番号tに
1を加算する処理(3B)を行なう。
【0314】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、この処理(3
C)の比較結果がdtc≦DTCとなる場合に、前向き
確率citは直前フレームの前向き確率ci(t-1)に等しい
ものとして前向き確率citを求める演算を終了する処理
(3D)と、この処理(3C)の比較結果がdtc>D
TCとなる場合に、前向き確率基準フレーム番号qcを
現フレーム番号tに書き換える処理(3E)とを行な
う。
【0315】そして処理(3E)の終了後、現フレーム
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がdts>DTSと
なる場合に、出力確率基準フレーム番号qsをフレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、参照確率
jiの書換え終了後に各参照確率bjiを読み出して前向
き確率citを求め、当該比較結果がdts≦DTSとな
る場合に、参照確率bjiの書き換えを行なわずに各参照
確率bjiを読み出して前向き確率citを求める処理(3
F)を行なう。
【0316】そして処理(3D)若しくは(3F)の終
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
【0317】図16はヒドンマルコフモデルの説明に供
する図である。辞書部36に格納されているヒドンマル
コフモデル(Hidden Markov Model 。以下、HMM)
は、音声認識一単位分の音声信号を表現する。音声認識
の一単位は、単語単位、音素単位或はそのほかとするこ
とができるが、ここでは単語単位とする。各カテゴリz
毎に複数のHMMを用意し、HMMとカテゴリzとを相
対応付けて辞書部36に格納する。
【0318】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
【0319】
【数25】
【0320】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図14の例において、a12は状態S1 から状態S
2 に遷移する確率及びb12(x) は状態S1 から状態S2
に遷移したとき音声特徴ベクトルxが出力される確率、
またa22は状態S2 から状態S2 に遷移する確率及びb
22(x) は状態S 2 から状態S2 に遷移したとき音声特徴
ベクトルxが出力される確率を表す。
【0321】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
【0322】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
【0323】次に音声認識装置34の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
【0324】音響処理部38は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
【0325】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
【0326】音響処理部38は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部38は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
【0327】次に音声区間検出部40は、音響処理部3
8からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
【0328】照合部42は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部40から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
【0329】そして照合部42はベクトル時系列x1
2 、……、xT と辞書部36に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部36の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
【0330】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
【0331】
【数26】
【0332】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
【0333】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
【0334】
【数27】
【0335】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を前向き確率citとす
る。この計算方法は、ビタビ法と呼ばれている。
【0336】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
【0337】
【数28】
【0338】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
【0339】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
【0340】
【数29】
【0341】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
【0342】
【数30】
【0343】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
【0344】
【数31】
【0345】HMM照合部42は、i=1、2、……、
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部36に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
【0346】次に請求項7の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
17〜図19はこの1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
【0347】照合部42は、区間情報及び音声特徴ベク
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0348】次に照合部42は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0349】次に照合部42は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した参
照確率Bjiの初期値として書き込む(S4)。
【0350】参照情報記憶部44には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部44は、参照確率B11、B
12、……、B1I、B21、B22、……、B2I、……、
J1、BJ2、……、BJIをそれぞれ個別に格納するJ×
I個の格納領域を有する。そこで図にあっては、参照確
率Bjiの初期値を格納する処理を、save Bji=Bji(x1)
と表している。
【0351】次に照合部42は、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化する(S5)。
【0352】然る後、i=1、2、……、Iの全てのi
について、対数化した前向き確率Ci1を式(11)に従
って求める(S6)。
【0353】次に照合部42は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0354】(3−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部42は現フレーム番号tの音声特徴
ベクトルxt と前向き確率基準フレーム番号qcの音声
特徴ベクトルxqcとの間の距離dtcを、次式(19)
に従って求める(S9)。
【0355】
【数32】
【0356】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqck :前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcのベクトル成分 次に照合部42は、距離dtcと閾値DTCとを比較し
てこれらベクトルxt及びxqcが近似的に等しいか否か
を判定する(S10)。
【0357】S10で距離dtcが閾値DTC以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は前向き確率基準フレーム番号qcの音声特徴ベクトル
qcに近似し従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が小さいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できる。そこで現フレーム番号tの前向き確率C
itは直前フレームの前向き確率Ci(t-1)に等しいものと
して、前向き確率Citを求める演算を終了する(S1
1)。然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
【0358】S10で距離dtcが閾値DTCを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
前向き確率基準フレーム番号qcの音声特徴ベクトルx
qcに近似せず従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が大きいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できない。そこで前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S12)。
【0359】そしてS12の終了後、照合部42は現フ
レーム番号tの音声特徴ベクトルxt と出力確率基準フ
レーム番号qsの音声特徴ベクトルxqsとの間の距離d
tsを、次式(17)に従って求める(S13)。
【0360】
【数33】
【0361】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部42は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S14)。
【0362】S14で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)を参照確率Bjiで近似できない。そこで
出力確率基準フレーム番号qsを現フレーム番号tに書
き換える(S15)。然る後、j=1、2、……、J及
びi=1、2、……、Iの全てのj、iについて、対数
化した出力確率Bji(xt)を式(4)〜(7)に従って求
め、参照確率Bjiを、当該出力確率Bji(xt)に書き換え
る(S16)。この参照確率Bjiの書換え終了後に各参
照確率Bjiを読み出し、i=1、2、……、Iの全ての
iについて、前向き確率Citを式(11)に従って求め
る(S13)。然る後、音声区間の次のフレームにつき
処理を行なうべくS7の処理に戻る。尚、S16で参照
確率Bjiを書き換える処理を、図にあってはsave Bji
Bji(xt) と表している。
【0363】この場合のS17で読み出した参照確率B
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では、現フ
レーム番号tの出力確率Bji(xt)を用いて、前向き確率
itを求めることとなる。
【0364】またS14で距離dtsが閾値DTS以下
である場合には、現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsに近似的に等しく従って現フレーム番号tの音声
特徴ベクトルxt は出力確率基準フレーム番号qsの音
声特徴ベクトルxqsからの変化が小さいので、現フレー
ム番号tの出力確率Bji(xt)は参照確率Bjiで近似でき
る。そこで出力確率Bji(xt)を式(4)〜(7)を用い
て算出せずに、各参照確率Bjiを読み出し、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Citを式(11)に従って求める(S17)。然る
後、音声区間の次のフレームにつき処理を行なうべくS
7の処理に戻る。
【0365】この場合のS17で読み出した参照確率B
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xqs) であり、従ってこの場合のS17
では、出力確率基準フレーム番号qsの出力確率Bji(x
qs) を用いて前向き確率Citを求めることとなる。
【0366】(3−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
【0367】照合部42は、辞書部36に格納されてい
る全てのHMMについて、各HMM毎に図17〜図19
に示すS1〜S17の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
【0368】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、前向き確率
itに関わる距離dtcが閾値DTCとなる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算も前
向き確率Citを式(3)若しくは式(11)から求める
演算も行なわずに、前向き確率Citは直前フレームの前
向き確率Ci(t-1)に等しいものとして前向き確率Cit
求める演算を終了する。さらに出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に、出力確率
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、参照確率Bjiを用いて前向き確率Citを求めるの
で、演算量を大幅に削減できる。しかもこのような演算
の簡略化は、前向き確率Citに関わる距離dtcが閾値
DTC以下となる場合若しくは出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に行なうの
で、演算を簡略化しても、前向き確率Citの誤差を小さ
くすることができる。
【0369】この出願の発明者のシミュレーション結果
によれば、前向き確率Citを得るための演算量が、演算
の簡略化を行なわない場合の約1/2となるように、前
向き確率Citに関わる閾値DTCを定め、かつ、出力確
率Bji(xt)を得るための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、出力確率Bji(xt)
に関わる閾値DTSを定めても、音声認識の精度低下は
ほとんど見られなかった。
【0370】<請求項7の発明の第二実施形態>請求項
7の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部42を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置34を
用いることができる。
【0371】すなわち照合部42は、尤度を求める際
に、参照情報記憶部44に格納してある参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
【0372】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、この参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(3A)を行なう。そして処理
(3A)の終了後、現フレーム番号tに1を加算する処
理(3B)を行なう。
【0373】(2).2≦t≦Tのときは、前向き確率
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcを閾値DTCと比較する処理(3C)
と、この処理(3C)の比較結果がskipc≦NSK
IPCかつdtc≦DTCとなる場合に、前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に前向
き確率スキップ数skipc、出力確率スキップ数sk
ipsにそれぞれ、1を加算する処理(3D)と、この
処理(3C)の比較結果がskipc>NSKIPC若
しくはdtc>DTCとなる場合に、前向き確率スキッ
プ数skipcを0に初期化し、及び、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える処理
(3E)とを行なう。
【0374】そして処理(3E)の終了後、出力確率ス
キップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と出力確
率基準フレーム番号qsの音声特徴ベクトルxqsとの間
の距離dtsを閾値DTSと比較し、当該比較結果がs
kips>NSKIPS若しくはdts>DTSとなる
場合に、出力確率スキップ数skipsを0に初期化
し、及び、出力確率基準フレーム番号qsを現フレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、この参照
確率bjiの書換え終了後に各参照確率bjiを読み出して
前向き確率citを求め、当該比較結果がskips≦N
SKIPSかつdts≦DTSとなる場合に、出力確率
スキップ数skipsに1を加算すると共に、参照確率
ji(xt)の書換えを行なわずに各参照確率bjiを読み出
して前向き確率citを求める処理(3F)を行なう。
【0375】そして処理(3D)若しくは(3F)の終
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
【0376】次に請求項7の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
20〜図22は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
【0377】照合部42は、区間情報及び音声特徴ベク
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
【0378】次に照合部42は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
【0379】次に照合部42は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した出
力確率Bjiの初期値として書き込む(S4)。
【0380】参照情報記憶部44には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部44は、出力参照確率B
11、B12、……、B1I、B21、B22、……、B2I、…
…、BJ1、BJ2、……、BJIをそれぞれ個別に格納する
J×I個の格納領域を有する。そこで図にあっては、参
照確率Bjiの初期値を格納する処理を、save Bji=B
ji(x1) と表している。
【0381】次に照合部42は、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化すると共に、前向き確率スキ
ップ数skipc、出力確率スキップ数skipsをそ
れぞれ0に初期化する(S5)。然る後、照合部42
は、i=1、2、……、Iの全てのiについて、対数化
した前向き確率Ci1を式(11)に従って求める(S
6)。
【0382】次に照合部42は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
【0383】(3−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、前向き確率スキップ数skipcと閾値N
SKIPCとの比較判定を行なう(S9)。
【0384】S9で前向き確率スキップ数skipcが
閾値NSKIPCを越える場合は、現フレーム番号tの
前向き確率Citを直前フレームの前向き確率Ci(t-1)
近似して前向き確率Citを求める演算を終了した回数s
kipcが閾値NSKIPCを越えるので現フレーム番
号tと前向き確率基準フレーム番号qcとの時間的隔た
りが大きくなり、従って誤差が増大する可能性が高い。
そこで参照確率Bjiを読み出して前向き確率Citを求め
ることとなるので、前向き確率スキップ数skipcを
0に初期化すると共に、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S10)。
【0385】またS9で前向き確率スキップ数skip
cが閾値NSKIPC以下となる場合は、照合部42
は、現フレーム番号tの音声特徴ベクトルxt と前向き
確率基準フレーム番号qcの音声特徴ベクトルxqcとの
間の距離dtcを式(19)に従って求め(S11)、
求めた距離dtcを閾値DTCと比較してこれらベクト
ルxt 及びxqcが近似的に等しいか否かを判定する(S
12)。
【0386】S12で距離dtcが閾値DTCを越える
場合は、現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は前向き確率基準フレーム番号qcの音声特徴ベク
トルxqcからの変化が大きいので、現フレーム番号tの
前向き確率Citは直前フレームの前向き確率Ci(t-1)
近似できない。そこで参照確率Bjiを読み出して前向き
確率Citを求めることとなるので、前向き確率スキップ
数skipcを0に初期化すると共に、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える(S
10)。
【0387】またS12で距離dtcが閾値DTC以下
である場合は、skipc≦NSKIPCかつdtc≦
DTCである場合である。skipc≦NSKIPCの
場合、現フレーム番号tの前向き確率Citを直前フレー
ムの前向き確率Ci(t-1)で近似して前向き確率Citの演
算を終了した回数skipcが閾値NSKIPCを越え
たので、現フレーム番号tと前向き確率基準フレーム番
号qcとの時間的隔たりが小さく、従って誤差が増大す
る可能性は低い。しかもdtc≦DTCの場合、現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcに近似的に等し
く従って現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
からの変化が小さいので、現フレーム番号tの前向き確
率Citは直前フレームの前向き確率Ci(t-1)で近似でき
る。従って参照確率Bjiを読み出して前向き確率Cit
求める演算も参照確率Bjiの書換えも行なわない。そこ
で現フレーム番号tの前向き確率Citは直前フレームの
前向き確率Ci(t-1)に等しいものとして現フレーム番号
tの前向き確率Citを求める演算を終了すると共に、前
向き確率スキップ数skipc、出力確率スキップ数s
kipsにそれぞれ1を加算してこれらスキップ数sk
ipc、skipsをそれぞれカウントアップする(S
13)。然る後、音声区間の次のフレームにつき処理を
行なうべくS7の処理に戻る。
【0388】前向き確率スキップ数skipcが閾値N
SKIPCを越えるか若しくは距離dtcが閾値DTC
を越えるかした場合にS10を行なったら、次に出力確
率スキップ数skipsと閾値NSKIPSとの比較判
定を行なう(S14)。
【0389】S14で出力確率スキップ数skipsが
閾値NSKIPSを越える場合は、参照確率Bjiの書換
えを行なわなかった回数skipsが閾値NSKIPS
を越えるので現フレーム番号tと出力確率基準フレーム
番号qsとの時間的隔たりが大きくなり、従って誤差が
増大する可能性が高い。そこで誤差を低減すべく、参照
確率Bjiの書換えを行なうこととなる。そこで出力確率
スキップ数skipsを0に初期化すると共に出力確率
基準フレーム番号qsを現フレーム番号tに書き換える
(S15)。然る後、j=1、2、……、J及びi=
1、2、……、Iの全てのj、iについて、対数化した
出力確率Bji(xt)を式(4)〜(7)に従って求め、参
照確率Bjiを当該出力確率Bji(xt)に書き換える(S1
6)。そしてこの参照確率Bjiの書換え終了後に各参照
確率Bjiを読み出し、i=1、2、……、Iの全てのi
について、前向き確率Citを式(11)に従って求める
(S17)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。尚、図にあっては、
S16で参照確率Bjiを書き換える処理をsave Bji=B
ji(xt) と表す。
【0390】この場合のS17で読み出した参照確率B
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では現フレ
ーム番号tの出力確率Bji(xt)を用いて前向き確率Cit
を求めることとなる。
【0391】S14で出力確率スキップ数skipsが
閾値NSKIPS以下となる場合は、照合部42は、現
フレーム番号tの音声特徴ベクトルxt と出力確率基準
フレーム番号qsの音声特徴ベクトルxqsとの間の距離
dtsを求め(S18)、求めた距離dtsを閾値DT
Sと比較してこれらベクトルxt 及びxqsが近似的に等
しいか否かを判定する(S19)。
【0392】S19で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)は参照確率Bjiで近似できない。従って
参照確率Bjiの書き換えを行なうこととなる。そこでS
15〜S17の処理を行ない、然る後、音声区間の次の
フレームにつき処理を行なうべくS7の処理に戻る。
【0393】S19で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は出力確率基準フレーム番号qsの音声特徴ベクトルx
qsに近似的に等しく従って現フレーム番号tの音声特徴
ベクトルxt は出力確率基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、現フレーム番
号tの出力確率Bji(xt)は参照確率Bjiで近似できる。
従って参照確率Bjiの書換えは行なわないこととなる。
そこで出力確率スキップ数skipsに1を加算して出
力確率スキップ数skipsをカウントアップする(S
20)。然る後、出力確率Bji(xt)を式(4)〜(7)
を用いて算出せずに参照確率Bjiを読み出して、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Citを式(11)に従って求める(S17)。然
る後、音声区間の次のフレームにつき処理を行なうべく
S7の処理に戻る。
【0394】この場合のS17で読み出した参照確率B
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xt)であり、従ってこの場合のS17で
は出力確率基準フレーム番号qsの出力確率Bji(xqs)
を用いて前向き確率Citを求めることとなる。
【0395】(3−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトルの時系列x1 、x2 、……、
T とHMMとの間の尤度ln{P(x1 、x2 、……、
T )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
【0396】照合部42は、辞書部36に格納されてい
る全てのHMMについて、各HMM毎に、図20〜図2
2に示すS1〜S20の処理を行なって尤度(前向き確
率CiT)を求め、求めた尤度のうち最大の尤度を検出す
る。そして最大の尤度を得たHMMのカテゴリを、当該
音声特徴ベクトルの時系列x1 、x2 、……、xT を抽
出した入力音声信号に対する認識結果として、次段の装
置(図示せず)へ出力する。
【0397】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、前向き確率
itに関わるスキップ数skipcが閾値NSKIPC
以下となりかつ距離dtcが閾値DTS以下となる場合
に、出力確率Bji(xt)を式(4)〜(7)から求める演
算も前向き確率Citを式(3)若しくは式(11)から
求める演算も行なわずに、前向き確率Citは直前フレー
ムの前向き確率Ci(t-1)に等しいものとして前向き確率
itを求める演算を終了する。また出力確率Bji(xt)に
関わるスキップ数skipsが閾値NSKIPS以下と
なりかつ距離dtsが閾値DTS以下となる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算を行
なわずに、前向き確率Citを求めるので、大幅に演算量
を削減できる。しかもこのような演算の簡略化は、前向
き確率Citに関わるスキップ数skipcが閾値NSK
IPC以下となりかつ距離dtcが閾値DTC以下とな
る場合か出力確率Bji(xt)に関わるスキップ数skip
sが閾値NSKIPS以下となりかつ距離dtsが閾値
DTS以下となる場合かのいずれかの場合に行なうの
で、演算の簡略化を行なっても、前向き確率Citの誤差
を小さくできる。
【0398】請求項7の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
【0399】
【発明の効果】上述した説明からも明らかなように、請
求項1の発明の音声認識方法によれば、現フレーム番号
tの音声特徴ベクトルxt と基準フレーム番号qsの音
声特徴ベクトルxqsとの間の距離dtsが閾値DTS以
下(dts≦DTS)となる場合は、参照確率bjiの書
換えを行なわずに従って現フレーム番号tの出力確率b
ji(xt)をヒドンマルコフモデルから求める演算を行なわ
ずに、参照確率bjiを読み出して現フレーム番号tの前
向き確率citを求めるので、演算量を大幅に削減でき
る。
【0400】しかもdts≦DTSとなる場合に、現フ
レーム番号tの音声特徴ベクトルxt は基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が小さいの
で、現フレーム番号tの出力確率bji(xt)を参照確率b
jiで近似できる。従ってこのようにdts≦DTSとな
る場合に演算を簡略化して前向き確率citを求めても、
前向き確率citの誤差を小さくできる。
【0401】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
【0402】さらに請求項3の発明の音声認識方法によ
れば、現フレーム番号tの出力確率bji(xt)を与える遷
移元Sj の種別sが定常部である場合に、現フレーム番
号tの音声特徴ベクトルxt と定常部基準フレーム番号
qsの音声特徴ベクトルxqsとの間の距離dtsが閾値
DTS以下(dts≦DTS)であれば、当該種別sを
得たjに関しては、参照確率bjiの書換えを行なわずに
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求める演算を行なわずに、参照確率b
jiを読み出して現フレーム番号tの前向き確率citを求
める。また現フレーム番号tの出力確率bji(xt)を与え
る遷移元Sj の種別sが過渡部である場合に、現フレー
ム番号tの音声特徴ベクトルxt と過渡部基準フレーム
番号qtの音声特徴ベクトルxqtとの間の距離dttが
閾値DTT以下(dtt≦DTT)であれば、当該種別
sを得たjに関しては、参照確率bjiの書換えを行なわ
ずに従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求める演算を行なわずに、参照確
率bjiを読み出して現フレーム番号tの前向き確率cit
を求める。このように定常部の場合はdts≦DTS及
び過渡部の場合はdtt≦DTTであれば、参照確率b
jiの書換えを行なわずに前向き確率citを求めるので、
演算量を大幅に低減できる。
【0403】dts≦DTSであれば、現フレーム番号
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsからの変化が小さいので、当
該種別sを得たjに関しては、現フレーム番号tの出力
確率bji(xt)を参照確率bjiで近似できる。またdtt
≦DTTであれば、現フレーム番号tの音声特徴ベクト
ルxt は過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtからの変化が小さいので、当該種別sを得たjに
関して、現フレーム番号tの出力確率bji(x)を
参照確率bjiで近似できる。従ってこのようにdts
≦DTS若しくはdtt≦DTTの場合に演算を簡略化
して前向き確率citを求めても、前向き確率citの誤差
を小さくできる。
【0404】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
【0405】さらに請求項7の発明の音声認識方法によ
れば、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcが閾値DTC以下となる(dtc≦D
TCとなる)場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了する。また距離
dtcが閾値DTCを越える(dtc>DTCとなる)
場合に、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqs
の間の距離dtsが閾値DTS以下(dts≦DTS)
となれば、参照確率bjiの書換えを行なわずに従って現
フレーム番号tの出力確率bji(xt)をヒドンマルコフモ
デルから求める演算を行なわずに、参照確率bjiを読み
出して現フレーム番号tの前向き確率citを求める。こ
のようにdtc≦DTC若しくはdts≦DTSとなる
場合に、参照確率bjiの書換えを行なわずに前向き確率
itを求めるので、演算量を大幅に削減できる。
【0406】しかもdtc≦DTCとなる場合に、現フ
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citを直前
フレームの前向き確率ci(t-1)で近似できる。またdt
s≦DTS以下となる場合に、現フレーム番号tの音声
特徴ベクトルxt は基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さいので、現フレーム番号t
の出力確率bji(xt)を参照確率bjiで近似できる。従っ
てこのようにdtc≦DTC若しくはdts≦DTSの
場合に演算を簡略化して前向き確率citを求めても、前
向き確率citの誤差を小さくできる。
【0407】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
【図面の簡単な説明】
【図1】請求項1の発明の実施に用いて好適な装置構成
の一例を示す図である。
【図2】ヒドンマルコフモデルの説明に供する図であ
る。
【図3】請求項1の発明の第一実施形態の説明に供する
流れ図である。
【図4】請求項1の発明の第一実施形態の説明に供する
流れ図である。
【図5】請求項1の発明の第二実施形態の説明に供する
流れ図である。
【図6】請求項1の発明の第二実施形態の説明に供する
流れ図である。
【図7】請求項3の発明の実施に用いて好適な装置構成
の一例を示す図である。
【図8】ヒドンマルコフモデルの説明に供する図であ
る。
【図9】請求項3の発明の第一実施形態の説明に供する
流れ図である。
【図10】請求項3の発明の第一実施形態の説明に供す
る流れ図である。
【図11】請求項3の発明の第一実施形態の説明に供す
る流れ図である。
【図12】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
【図13】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
【図14】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
【図15】請求項7の発明の実施に用いて好適な装置構
成の一例を示す図である。
【図16】ヒドンマルコフモデルの説明に供する図であ
る。
【図17】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
【図18】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
【図19】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
【図20】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
【図21】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
【図22】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
【符号の説明】
10、22、34:音声認識装置 12、24、36:辞書部 14、26、38:音響処理部 16、28、40:音声区間検出部 18、30、42:照合部 20、32、44:参照情報記憶部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声区間の始端フレームから終端フレー
    ムまでに抽出された音声特徴ベクトルの時系列x1 、x
    2 、……、xT とヒドンマルコフモデルとの間の尤度ln
    {P(x1 、x2 、……、xT )}を求め、最大の尤度
    を得たヒドンマルコフモデルに付与されているカテゴリ
    を、当該音声区間内の音声信号に対する認識結果とする
    音声認識方法において、 【数1】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
    ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
    i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
    声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
    ームは音声区間の始端フレームを及び第T番目のフレー
    ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
    状態Si に遷移するとき出力される音声特徴ベクトルx
    t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
    を開始し音声特徴ベクトルの時系列x1 、x2 、……、
    t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
    態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
    …、xT )}を求めるに当り、 基準フレーム番号qsと参照確率bjiとを格納する記憶
    部を設け、該参照確率bjiを用いて、t=1、2、…
    …、Tの各場合の前向き確率citを順次に求め、
    (1).t=1のときは、 基準フレーム番号qsを1に初期化すると共に、全ての
    j、iについて、出力確率bji(xt)をヒドンマルコフモ
    デルから求め当該出力確率bji(xt)を参照確率bjiの初
    期値として書き込み、該参照確率bjiの書込み終了後に
    各参照確率bjiを読み出して前向き確率citを求める処
    理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
    する処理(1B)とを行ない、(2).2≦t≦Tのと
    きは、 現フレーム番号tの音声特徴ベクトルxt と基準フレー
    ム番号qsの音声特徴ベクトルxqsとの間の距離dts
    を閾値DTSと比較し、該比較結果がdts>DTSと
    なる場合に、基準フレーム番号qsを現フレーム番号t
    に書き換えると共に、全てのj、iについて、出力確率
    ji(xt)をヒドンマルコフモデルから求めて参照確率b
    jiを当該出力確率bji(xt)に書き換え、該参照確率bji
    の書換え終了後に各参照確率bjiを読み出して前向き確
    率citを求め、該比較結果がdts≦DTSとなる場合
    に、参照確率bjiの書き換えを行なわずに各参照確率b
    jiを読み出して前向き確率citを求める処理(1C)
    と、 該処理(1C)の終了後、現フレーム番号tに1を加算
    する処理(1D)とを行なうことを特徴とする音声認識
    方法。
  2. 【請求項2】 請求項1記載の音声認識方法において、
    (1).t=1のときは、 基準フレーム番号qsを1に、及び、スキップ数ski
    psを0に初期化すると共に、全てのj、iについて、
    出力確率bji(xt)をヒドンマルコフモデルから求め当該
    出力確率bji(xt)を参照確率bjiの初期値として書き込
    み、該参照確率bjiの書込み終了後に各参照確率bji
    読み出して前向き確率citを求める処理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
    する処理(1B)とを行ない、(2).2≦t≦Tのと
    きは、 スキップ数skipsを閾値NSKIPSと比較すると
    共に、現フレーム番号tの音声特徴ベクトルxt と基準
    フレーム番号qsの音声特徴ベクトルxqsとの間の距離
    dtsを閾値DTSと比較し、該比較結果がskips
    >NSKIPS若しくはdts>DTSとなる場合に、
    スキップ数skipsを0に初期化し、及び、基準フレ
    ーム番号qsを現フレーム番号tに書き換えると共に、
    全てのj、iについて、出力確率bji(xt)をヒドンマル
    コフモデルから求めて参照確率bjiを当該出力確率bji
    (xt)に書き換え、該参照確率bjiの書換え終了後に各参
    照確率bjiを読み出して前向き確率citを求め、該比較
    結果がskips≦NSKIPSかつdts≦DTSと
    なる場合に、スキップ数skipsに1を加算すると共
    に、参照確率bjiの書換えを行なわずに各参照確率bji
    を読み出して前向き確率citを求める処理(1C)と、 該処理(1C)の終了後、現フレーム番号tに1を加算
    する処理(1D)とを行なうことを特徴とする音声認識
    方法。
  3. 【請求項3】 音声区間の始端フレームから終端フレー
    ムまでに抽出された音声特徴ベクトルの時系列x1 、x
    2 、……、xT とヒドンマルコフモデルとの間の尤度ln
    {P(x1 、x2 、……、xT )}を求め、最大の尤度
    を得たヒドンマルコフモデルに付与されているカテゴリ
    を、当該音声区間内の音声信号に対する認識結果とする
    音声認識方法において、 【数2】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
    ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
    i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
    声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
    ームは音声区間の始端フレームを及び第T番目のフレー
    ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
    状態Si に遷移するとき出力される音声特徴ベクトルx
    t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
    を開始し音声特徴ベクトルの時系列x1 、x2 、……、
    t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
    態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
    …、xT )}を求めるに当り、 ヒドンマルコフモデルにおいて遷移元となる状態Sj
    に、定常部及び過渡部のいずれかの種別sを付与し、 定常部基準フレーム番号qs、過渡部基準フレーム番号
    qtと、参照確率bjiとを格納する記憶部を設け、該参
    照確率bjiを用いて、t=1、2、……、Tの各場合の
    前向き確率citを順次に求め、(1).t=1のとき
    は、 定常部基準フレーム番号qs、過渡部基準フレーム番号
    qtをそれぞれ1に初期化すると共に、全てのj、iに
    ついて、出力確率bji(xt)をヒドンマルコフモデルから
    求め当該出力確率bji(xt)を参照確率bjiの初期値とし
    て書き込み、該参照確率bjiの書込み終了後に各参照確
    率bjiを読み出して前向き確率citを求める処理(2
    A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
    する処理(2B)とを行ない、(2).2≦t≦Tのと
    きは、 現フレーム番号tの音声特徴ベクトルxt と定常部基準
    フレーム番号qsの音声特徴ベクトルqsとの間の距離d
    tsを閾値DTSと比較し、該比較結果がdts>DT
    Sとなる場合に、定常部基準フレーム番号qsを現フレ
    ーム番号tに書き換える処理(2C)と、 現フレーム番号tの音声特徴ベクトルxt と過渡部基準
    フレーム番号qtの音声特徴ベクトルxqtとの間の距離
    dttを閾値DTTと比較し、該比較結果がdtt>D
    TTとなる場合に、過渡部基準フレーム番号qtを現フ
    レーム番号tに書き換える処理(2D)と、 前記処理(2C)及び(2D)の終了後、j=1、2、
    ……、Jの各j毎に、出力確率bji(xt)を与える状態遷
    移の遷移元Sj に付与されている種別sを判定する処理
    (2E)と、 該処理(2E)の種別判定結果が定常部であった場合
    に、前記処理(2C)の比較結果がdts>DTSであ
    れば、当該種別判定結果を得たjに関しては全てのiに
    ついて、出力確率bji(xt)をヒドンマルコフモデルから
    求めて参照確率bjiを当該出力確率bji(xt)に書き換
    え、該処理(2E)の種別判定結果が定常部であった場
    合に、前記処理(2C)の比較結果がdts≦DTSで
    あれば、当該種別判定結果を得たjに関しては参照確率
    jiの書換えを行なわず、該処理(2E)の種別判定結
    果が過渡部であった場合に、前記処理(2D)の比較結
    果がdtt>DTTであれば、当該種別判定結果を得た
    jに関しては全てのiについて、出力確率bji(xt)をヒ
    ドンマルコフモデルから求めて参照確率bjiを当該出力
    確率bji(xt)に書き換え、該処理(2E)の種別判定結
    果が過渡部であった場合に、前記処理(2D)の比較結
    果がdtt≦DTTであれば、当該種別判定結果を得た
    jに関しては参照確率bjiの書換えを行なわない処理
    (2F)と、 j=1、2、……、Jの個々のj毎に前記処理(2F)
    を行ない、全てのjにつき前記処理(2F)を終了した
    ら、各参照確率bjiを読み出して前向き確率citを求め
    る処理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
    する処理(2H)とを行なうことを特徴とする音声認識
    方法。
  4. 【請求項4】 請求項3記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
    なうことを特徴とする音声認識方法。
  5. 【請求項5】 請求項3記載の音声認識方法において、
    (1).t=1のときは、 定常部スキップ数skips、過渡部スキップ数ski
    ptをそれぞれ0に、及び、定常部基準フレーム番号q
    s、過渡部基準フレーム番号qtをそれぞれ1に初期化
    すると共に、全てのj、iについて、出力確率bji(xt)
    をヒドンマルコフモデルから求め当該出力確率bji(xt)
    を参照確率bjiの初期値として書き込み、該参照確率b
    jiの書込み終了後に各参照確率bjiを読み出して前向き
    確率citを求める処理(2A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
    する処理(2B)とを行ない、(2).2≦t≦Tのと
    きは、 定常部スキップ数skipsを閾値NSKIPSと比較
    すると共に、現フレーム番号tの音声特徴ベクトルxt
    と定常部基準フレーム番号qsの音声特徴ベクトルxqs
    との間の距離dtsを閾値DTSと比較し、該比較結果
    がskips>NSKIPS若しくはdts>DTSと
    なる場合に、定常部スキップ数skipsを0に初期化
    し、及び、定常部基準フレーム番号qsを現フレーム番
    号tに書き換え、該比較結果がskips≦NSKIP
    Sかつdts≦DTSとなる場合に、定常部スキップ数
    skipsに1を加算する処理(2C)と、 過渡部スキップ数skiptを閾値NSKIPTと比較
    すると共に、現フレーム番号tの音声特徴ベクトルxt
    と過渡部基準フレーム番号qtの音声特徴ベクトルxqt
    との間の距離dttを閾値DTTと比較し、該比較結果
    がskipt>NSKIPT若しくはdtt>DTTと
    なる場合に、過渡部スキップ数skiptを0に初期化
    し、及び、過渡部基準フレーム番号qtを現フレーム番
    号tに書き換え、該比較結果がskipt≦NSKIP
    Tかつdtt≦DTTとなる場合に、過渡部スキップ数
    skiptに1を加算する処理(2D)と、 前記処理(2C)、(2D)の終了後、j=1、2、…
    …、Jの各j毎に、出力確率bji(xt)を与える状態遷移
    の遷移元Sj に付与されている種別sを判定する処理
    (2E)と、 該処理(2E)の種別判定結果が定常部であった場合
    に、前記処理(2C)の比較結果がskips>NSK
    IPS若しくはdts>DTSであれば、当該種別判定
    結果を得たjに関しては全てのiについて、出力確率b
    ji(xt)をヒドンマルコフモデルから求めて参照確率bji
    を当該出力確率bji(xt)に書き換え、該処理(2E)の
    種別判定結果が定常部であった場合に、前記処理(2
    C)の比較結果がskips≦NSKIPSかつdts
    ≦DTSであれば、当該種別判定結果を得たjに関して
    は参照確率bjiの書換えを行なわず、該処理(2E)の
    種別判定結果が過渡部であった場合に、前記処理(2
    D)の比較結果がskipt>NSKIPT若しくはd
    tt>DTTであれば、当該種別判定結果を得たjに関
    しては全てのiについて、出力確率bji(xt)をヒドンマ
    ルコフモデルから求めて参照確率bjiを当該出力確率b
    ji(xt)に書き換え、該処理(2E)の種別判定結果が過
    渡部であった場合に、前記処理(2D)の比較結果がs
    kipt≦NSKIPTかつdtt≦DTTであれば、
    当該種別判定結果を得たjに関しては参照確率bjiの書
    換えを行なわない処理(2F)と、 j=1、2、……、Jの個々のj毎に該処理(2F)を
    行ない、全てのjにつき該処理(2F)を終了したら、
    各参照確率bjiを読み出して前向き確率citを求める処
    理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
    する処理(2H)とを行なうことを特徴とする音声認識
    方法。
  6. 【請求項6】 請求項5記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
    なうことを特徴とする音声認識方法。
  7. 【請求項7】 音声区間の始端フレームから終端フレー
    ムまでに抽出された音声特徴ベクトルの時系列x1 、x
    2 、……、xT とヒドンマルコフモデルとの間の尤度ln
    {P(x1 、x2 、……、xT )}を求め、最大の尤度
    を得たヒドンマルコフモデルに付与されているカテゴリ
    を、当該音声区間内の音声信号に対する認識結果とする
    音声認識方法において、 【数3】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
    ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
    i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
    声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
    ームは音声区間の始端フレームを及び第T番目のフレー
    ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
    状態Si に遷移するとき出力される音声特徴ベクトルx
    t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
    を開始し音声特徴ベクトルの時系列x1 、x2 、……、
    t を出力して状態Si に至る前向き確率*i:ヒドン
    マルコフモデルにおいて最終状態となる状態Si に付与
    されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
    …、xT )}を求めるに当り、 前向き確率基準フレーム番号qc、出力確率基準フレー
    ム番号qsと、参照確率bjiとを格納する記憶部を設
    け、該参照確率bjiを用いて、t=1、2、……、Tの
    各場合の前向き確率citを順次に求め、(1).t=1
    のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
    ム番号qsをそれぞれ1に初期化すると共に、全ての
    j、iについて、出力確率bji(xt)をヒドンマルコフモ
    デルから求め当該出力確率bji(xt)を参照確率bjiの初
    期値として書き込み、該参照確率bjiの書込み終了後に
    各参照確率bjiを読み出して前向き確率citを求める処
    理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
    する処理(3B)とを行ない、(2).2≦t≦Tのと
    きは、 現フレーム番号tの音声特徴ベクトルxt と前向き確率
    基準フレーム番号qcの音声特徴ベクトルxqcとの間の
    距離dtcを閾値DTCと比較する処理(3C)と、 該処理(3C)の比較結果がdtc≦DTCとなる場合
    に、前向き確率citは直前フレームの前向き確率c
    i(t-1)に等しいものとして前向き確率citを求める演算
    を終了する処理(3D)と、 該処理(3C)の比較結果がdtc>DTCとなる場合
    に、前向き確率基準フレーム番号qcを現フレーム番号
    tに書き換える処理(3E)と、 該処理(3E)の終了後、現フレーム番号tの音声特徴
    ベクトルxt と出力確率基準フレーム番号qsの音声特
    徴ベクトルxqsとの間の距離dtsを閾値DTSと比較
    し、該比較結果がdts>DTSとなる場合に、出力確
    率基準フレーム番号qsを現フレーム番号tに書き換え
    ると共に、全てのj、iについて、出力確率bji(xt)を
    ヒドンマルコフモデルから求めて参照確率bjiを当該出
    力確率bji(xt)に書き換え、該参照確率bjiの書換え終
    了後に各参照確率bjiを読み出して前向き確率citを求
    め、該比較結果がdts≦DTSとなる場合に、参照確
    率bjiの書き換えを行なわずに各参照確率bjiを読み出
    して前向き確率citを求める処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
    ム番号tに1を加算する処理(3G)とを行なうことを
    特徴とする音声認識方法。
  8. 【請求項8】 請求項7記載の音声認識方法において、
    (1).t=1のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
    ム番号qsをそれぞれ1に、及び、前向き確率ステップ
    数skipc、出力確率ステップ数skipsをそれぞ
    れ0に初期化すると共に、全てのj、iについて、出力
    確率bji(xt)をヒドンマルコフモデルから求め当該出力
    確率bji(xt)を参照確率bjiの初期値として書き込み、
    該参照確率bjiの書込み終了後に各参照確率bjiを読み
    出して前向き確率citを求める処理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
    する処理(3B)とを行ない、(2).2≦t≦Tのと
    きは、 前向き確率スキップ数skipcを閾値NSKIPCと
    比較すると共に、現フレーム番号tの音声特徴ベクトル
    t と前向き確率基準フレーム番号qcの音声特徴ベク
    トルxqcとの間の距離dtcを閾値DTCと比較する処
    理(3C)と、 該処理(3C)の比較結果がskipc≦NSKIPC
    かつdtc≦DTCとなる場合に、前向き確率citは直
    前フレームの前向き確率ci(t-1)に等しいものとして前
    向き確率citを求める演算を終了すると共に、前向き確
    率スキップ数skipc、出力確率スキップ数skip
    sにそれぞれ1を加算する処理(3D)と、 該処理(3C)の比較結果がskipc>NSKIPC
    若しくはdtc>DTCとなる場合に、前向き確率スキ
    ップ数skipcを0に初期化し、及び、前向き確率基
    準フレーム番号qcを現フレーム番号tに書き換える処
    理(3E)と、 該処理(3E)の終了後、出力確率スキップ数skip
    sを閾値NSKIPSと比較すると共に、現フレーム番
    号tの音声特徴ベクトルxt と出力確率基準フレーム番
    号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
    値DTSと比較し、該比較結果がskips>NSKI
    PS若しくはdts>DTSとなる場合に、出力確率ス
    キップ数skipsを0に初期化し、及び、出力確率基
    準フレーム番号qsを現フレーム番号tに書き換えると
    共に、全てのj、iについて、出力確率bji(xt)をヒド
    ンマルコフモデルから求めて参照確率bjiを当該出力確
    率bji(xt)に書き換え、該参照確率bjiの書換え終了後
    に各参照確率bjiを読み出して前向き確率citを求め、
    該比較結果がskips≦NSKIPSかつdts≦D
    TSとなる場合に、出力確率スキップ数skipsに1
    を加算すると共に、参照確率bji(xt)の書換えを行なわ
    ずに各参照確率bjiを読み出して前向き確率citを求め
    る処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
    ム番号tに1を加算する処理(3G)とを行なうことを
    特徴とする音声認識方法。
JP28031495A 1995-10-27 1995-10-27 音声認識方法 Expired - Fee Related JP3251480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28031495A JP3251480B2 (ja) 1995-10-27 1995-10-27 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28031495A JP3251480B2 (ja) 1995-10-27 1995-10-27 音声認識方法

Publications (2)

Publication Number Publication Date
JPH09127977A true JPH09127977A (ja) 1997-05-16
JP3251480B2 JP3251480B2 (ja) 2002-01-28

Family

ID=17623274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28031495A Expired - Fee Related JP3251480B2 (ja) 1995-10-27 1995-10-27 音声認識方法

Country Status (1)

Country Link
JP (1) JP3251480B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011027A (ja) * 2005-06-30 2007-01-18 Canon Inc 音声認識方法及び音声認識装置
JP2008015120A (ja) * 2006-07-04 2008-01-24 Toshiba Corp 音声認識装置及びその方法
US7813925B2 (en) 2005-04-11 2010-10-12 Canon Kabushiki Kaisha State output probability calculating method and apparatus for mixture distribution HMM

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813925B2 (en) 2005-04-11 2010-10-12 Canon Kabushiki Kaisha State output probability calculating method and apparatus for mixture distribution HMM
JP2007011027A (ja) * 2005-06-30 2007-01-18 Canon Inc 音声認識方法及び音声認識装置
JP2008015120A (ja) * 2006-07-04 2008-01-24 Toshiba Corp 音声認識装置及びその方法

Also Published As

Publication number Publication date
JP3251480B2 (ja) 2002-01-28

Similar Documents

Publication Publication Date Title
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
US5625749A (en) Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
JP3114468B2 (ja) 音声認識方法
CN112614510B (zh) 一种音频质量评估方法及装置
CN106875936B (zh) 语音识别方法及装置
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
AU744678B2 (en) Pattern recognition using multiple reference models
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
Poorjam et al. A parametric approach for classification of distortions in pathological voices
JP3444108B2 (ja) 音声認識装置
JP3251480B2 (ja) 音声認識方法
Gas et al. Discriminant neural predictive coding applied to phoneme recognition
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Harding et al. On the use of Machine Learning Methods for Speech and Voicing Classification.
JPH0823758B2 (ja) 話者適応形音声認識装置
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2006201265A (ja) 音声認識装置
Zheng et al. Improved maximum mutual information estimation training of continuous density HMMs.
Silva et al. A novel intelligent system for speech recognition
CN119851694B (zh) 一种音素的筛选方法、装置、电子设备及可读存储介质
Olsen Speaker verification based on phonetic decision making.
JP2658426B2 (ja) 音声認識方法
JPH0968996A (ja) 音声認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees