JPH0968996A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0968996A JPH0968996A JP7225224A JP22522495A JPH0968996A JP H0968996 A JPH0968996 A JP H0968996A JP 7225224 A JP7225224 A JP 7225224A JP 22522495 A JP22522495 A JP 22522495A JP H0968996 A JPH0968996 A JP H0968996A
- Authority
- JP
- Japan
- Prior art keywords
- ijm
- normal distribution
- logarithmic value
- feature vector
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000009826 distribution Methods 0.000 claims abstract description 146
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 65
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 8
- 230000007704 transition Effects 0.000 description 19
- 238000001514 detection method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】
【課題】 隠れマルコフモデルを標準パタンに用いた音
声認識において認識速度を向上する。 【解決手段】 無相関混合正規分布を備える隠れマルコ
フモデルから入力音声特徴ベクトルの出力確率を求める
場合に、無相関混合正規分布の各正規分布から求まる出
力確率のうち最大の出力確率を、入力音声特徴ベクトル
の出力確率とする。各正規分布から求まる出力確率を算
出する際に、直前のフレームにおいて無相関混合正規分
布の第Q番目の正規分布から求めた出力確率が最大とな
った場合には、次のフレームにおいても第Q番目の正規
分布から求めた出力確率が最大となる可能性が高い。従
ってこの第Q番目の正規分布から求めた出力確率を最大
値候補として、各正規分布から求める出力確率を算出途
上で最大値候補と比較し、その比較結果に応じて出力確
率の算出を打ち切ることにより目的を達成できる。
声認識において認識速度を向上する。 【解決手段】 無相関混合正規分布を備える隠れマルコ
フモデルから入力音声特徴ベクトルの出力確率を求める
場合に、無相関混合正規分布の各正規分布から求まる出
力確率のうち最大の出力確率を、入力音声特徴ベクトル
の出力確率とする。各正規分布から求まる出力確率を算
出する際に、直前のフレームにおいて無相関混合正規分
布の第Q番目の正規分布から求めた出力確率が最大とな
った場合には、次のフレームにおいても第Q番目の正規
分布から求めた出力確率が最大となる可能性が高い。従
ってこの第Q番目の正規分布から求めた出力確率を最大
値候補として、各正規分布から求める出力確率を算出途
上で最大値候補と比較し、その比較結果に応じて出力確
率の算出を打ち切ることにより目的を達成できる。
Description
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモ
デルを用いた音声認識方法に関する。
デルを用いた音声認識方法に関する。
【0002】
例えば文献:中川聖一”確率モデルによる音声認識”
電子情報通信学会(1988) ISBN−4−885
52−072−Xにも開示されているように、音声認識
では、音声標準パタンとして、隠れマルコフ・モデル
(HiddenMarkov Model。以下、HM
Mと呼ぶ)を広く用いている。音声標準パタンとなるH
MMは、いくつかの状態例えばS0 〜S3 と、状態Si
からSjに遷移する確率aij及びその遷移の際にある音
声シンボルベクトルVt が出力される確率bij(Vt)とで
表される。出力確率bij(Vt)は、一般に、複数個の正規
分布から成る無相関混合正規分布により表される。
電子情報通信学会(1988) ISBN−4−885
52−072−Xにも開示されているように、音声認識
では、音声標準パタンとして、隠れマルコフ・モデル
(HiddenMarkov Model。以下、HM
Mと呼ぶ)を広く用いている。音声標準パタンとなるH
MMは、いくつかの状態例えばS0 〜S3 と、状態Si
からSjに遷移する確率aij及びその遷移の際にある音
声シンボルベクトルVt が出力される確率bij(Vt)とで
表される。出力確率bij(Vt)は、一般に、複数個の正規
分布から成る無相関混合正規分布により表される。
【0003】HMMを用いた音声認識では、入力音声信
号から、音声区間の各フレーム毎に入力音声特徴ベクト
ルxt を抽出する。次いでHMMの無相関混合正規分布
を用いて、入力音声特徴ベクトルxt の出力確率bij(x
t)=Σ{λijm bijm(xt) }を算出する。ここで、λ
ijm は無相関混合正規分布における第m番目の正規分布
の重み、bijm は無相関混合正規分布における第m番目
の正規分布から求めた入力音声特徴ベクトルxt の重み
無し確率を示す。
号から、音声区間の各フレーム毎に入力音声特徴ベクト
ルxt を抽出する。次いでHMMの無相関混合正規分布
を用いて、入力音声特徴ベクトルxt の出力確率bij(x
t)=Σ{λijm bijm(xt) }を算出する。ここで、λ
ijm は無相関混合正規分布における第m番目の正規分布
の重み、bijm は無相関混合正規分布における第m番目
の正規分布から求めた入力音声特徴ベクトルxt の重み
無し確率を示す。
【0004】次いで音声区間の始端フレームから終端フ
レームまでに抽出された入力音声特徴ベクトルxt の時
系列とHMMとの間の尤度を、これら各入力音声特徴ベ
クトルxt の出力確率bij(xt)を用いて求める。各HM
M毎に尤度を求め、最大の尤度を得たHMMに付与され
ているカテゴリ名を、その入力音声信号の認識結果とす
る。
レームまでに抽出された入力音声特徴ベクトルxt の時
系列とHMMとの間の尤度を、これら各入力音声特徴ベ
クトルxt の出力確率bij(xt)を用いて求める。各HM
M毎に尤度を求め、最大の尤度を得たHMMに付与され
ているカテゴリ名を、その入力音声信号の認識結果とす
る。
【0005】
【発明が解決しようとする課題】しかしながら入力音声
特徴ベクトルxt の出力確率bij(xt)として、Σ{λ
ijm bijm(xt) }を求めるのでは、計算量が増大するた
め、入力音声特徴ベクトルxt の時系列とHMMとの間
の尤度を高速に計算することが難しい。従って出力確率
bij(xt)を、精度の低下を抑えつつ、より簡略に求める
ことが望まれていた。
特徴ベクトルxt の出力確率bij(xt)として、Σ{λ
ijm bijm(xt) }を求めるのでは、計算量が増大するた
め、入力音声特徴ベクトルxt の時系列とHMMとの間
の尤度を高速に計算することが難しい。従って出力確率
bij(xt)を、精度の低下を抑えつつ、より簡略に求める
ことが望まれていた。
【0006】
【課題を解決するための手段】前述の課題を解決するた
め、この発明の音声認識方法は、隠れマルコフモデルを
音声標準パタンとし、この隠れマルコフモデルは、互い
に無相関な複数個の正規分布を有し当該モデルから出力
される音声シンボルベクトルの出力確率を表す無相関混
合正規分布を備え、音声区間内の始端フレームから終端
フレームまでに抽出された入力音声特徴ベクトルの時系
列と隠れマルコフモデルとの間の尤度を、各入力音声特
徴ベクトルの出力確率の対数値を用いて計算し、最大の
尤度を得た隠れマルコフモデルに付与されているカテゴ
リ名を、当該音声区間の入力音声信号に対する認識結果
とする音声認識方法において、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を、入力音声特徴ベクトルxt の出
力確率bij(xt)の対数値に用いて、隠れマルコフモデル
との間の尤度を計算するに当り、t≧2のときに第t番
目のフレームにおいて最大の対数値Gijm(xt) を検出す
るための最大値候補と、t≧2のときに第t−1番目の
フレームにおいて最大の対数値Gijm(xt) を得た正規分
布がいずれであるかを表すインデックスとを格納する参
照情報記憶部を設け、t=1では、総個数M個の全正規
分布について各正規分布毎に対数値Gijm(xt) を算出し
て、最大の対数値Gijm(xt) を検出し、該最大の対数値
Gijm(xt) を第1番目のフレームにおける入力音声特徴
ベクトルxt の出力確率bij(xt)の対数値とすると共に
該最大の対数値Gijm(xt) を得た正規分布に対応するイ
ンデックスを格納し、t≧2では、(1)まずインデッ
クスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部のインデックスを書換えると共に、当該最大値候補
を、出力確率bij(xt)の対数値に用いて、隠れマルコフ
モデルとの間の尤度を計算することを特徴とする。
め、この発明の音声認識方法は、隠れマルコフモデルを
音声標準パタンとし、この隠れマルコフモデルは、互い
に無相関な複数個の正規分布を有し当該モデルから出力
される音声シンボルベクトルの出力確率を表す無相関混
合正規分布を備え、音声区間内の始端フレームから終端
フレームまでに抽出された入力音声特徴ベクトルの時系
列と隠れマルコフモデルとの間の尤度を、各入力音声特
徴ベクトルの出力確率の対数値を用いて計算し、最大の
尤度を得た隠れマルコフモデルに付与されているカテゴ
リ名を、当該音声区間の入力音声信号に対する認識結果
とする音声認識方法において、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を、入力音声特徴ベクトルxt の出
力確率bij(xt)の対数値に用いて、隠れマルコフモデル
との間の尤度を計算するに当り、t≧2のときに第t番
目のフレームにおいて最大の対数値Gijm(xt) を検出す
るための最大値候補と、t≧2のときに第t−1番目の
フレームにおいて最大の対数値Gijm(xt) を得た正規分
布がいずれであるかを表すインデックスとを格納する参
照情報記憶部を設け、t=1では、総個数M個の全正規
分布について各正規分布毎に対数値Gijm(xt) を算出し
て、最大の対数値Gijm(xt) を検出し、該最大の対数値
Gijm(xt) を第1番目のフレームにおける入力音声特徴
ベクトルxt の出力確率bij(xt)の対数値とすると共に
該最大の対数値Gijm(xt) を得た正規分布に対応するイ
ンデックスを格納し、t≧2では、(1)まずインデッ
クスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部のインデックスを書換えると共に、当該最大値候補
を、出力確率bij(xt)の対数値に用いて、隠れマルコフ
モデルとの間の尤度を計算することを特徴とする。
【0007】このような発明によれば、総個数M個の各
正規分布から算出される重み付け確率gijm(xt) の対数
値のなかで最大の対数値Gijm(xt) を、入力音声特徴ベ
クトルxt の出力確率bij(xt)の対数値に用いて、隠れ
マルコフモデルとの間の尤度を計算する。これは、総個
数M個の各正規分布から算出される重み付け確率g
ijm(xt) のなかで最大の重み付け確率gijm(xt) を、入
力音声特徴ベクトルxt の出力確率bij(xt)に用いるこ
とに、他ならない。
正規分布から算出される重み付け確率gijm(xt) の対数
値のなかで最大の対数値Gijm(xt) を、入力音声特徴ベ
クトルxt の出力確率bij(xt)の対数値に用いて、隠れ
マルコフモデルとの間の尤度を計算する。これは、総個
数M個の各正規分布から算出される重み付け確率g
ijm(xt) のなかで最大の重み付け確率gijm(xt) を、入
力音声特徴ベクトルxt の出力確率bij(xt)に用いるこ
とに、他ならない。
【0008】これに対し、従来において典型的に用いら
れていた音声特徴ベクトルxt の出力確率bij(xt)は、
無相関混合正規分布の各正規分布から求めた重み付け確
率gijm(xt) =λijm bijm(xt) の線形和Σ{λijm b
ijm(xt) }である。
れていた音声特徴ベクトルxt の出力確率bij(xt)は、
無相関混合正規分布の各正規分布から求めた重み付け確
率gijm(xt) =λijm bijm(xt) の線形和Σ{λijm b
ijm(xt) }である。
【0009】ところで隠れマルコフモデルが備える総個
数M個の正規分布は互いに無相関であるので、重み付け
確率gijm(xt) が最大とならない正規分布と入力音声特
徴ベクトルxt との間の距離は、重み付け確率g
ijm(xt) が最大となる正規分布との距離よりも長くな
る。
数M個の正規分布は互いに無相関であるので、重み付け
確率gijm(xt) が最大とならない正規分布と入力音声特
徴ベクトルxt との間の距離は、重み付け確率g
ijm(xt) が最大となる正規分布との距離よりも長くな
る。
【0010】これがため最大とならない重み付け確率g
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。
【0011】また重み付け確率gijm(xt) の対数値G
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、λijm 及び|
ρijm |は一定であり従ってEijm は一定であるので、
算出途上の対数値Gijm(xt) はEijm をピークとして−
Dijmt 2 /2の演算の一演算間隔毎に減少してゆく。こ
こで−Dijm 2/2の演算の一演算間隔とは、−Dijmt 2
/2の算出過程において、入力音声特徴ベクトルxt の
一ベクトル成分について行なわれる演算の開始から終了
までの間隔を表す。
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、λijm 及び|
ρijm |は一定であり従ってEijm は一定であるので、
算出途上の対数値Gijm(xt) はEijm をピークとして−
Dijmt 2 /2の演算の一演算間隔毎に減少してゆく。こ
こで−Dijm 2/2の演算の一演算間隔とは、−Dijmt 2
/2の算出過程において、入力音声特徴ベクトルxt の
一ベクトル成分について行なわれる演算の開始から終了
までの間隔を表す。
【0012】これがため、−Dijm 2/2の演算の、一又
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し(上記(2)の処理)、算出途上の
対数値Gijm(xt) が最大値候補よりも小さくなったら、
当該対数値Gijm(xt) の算出を算出途上で終了すること
により(上記(3−A)の処理)、最大の対数値G
ijm(xt) 検出に要する計算量を減少させることができ
る。
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し(上記(2)の処理)、算出途上の
対数値Gijm(xt) が最大値候補よりも小さくなったら、
当該対数値Gijm(xt) の算出を算出途上で終了すること
により(上記(3−A)の処理)、最大の対数値G
ijm(xt) 検出に要する計算量を減少させることができ
る。
【0013】しかも第t−1番目のフレームの入力音声
特徴ベクトルxt-1 と第t番目のフレームの入力音声特
徴ベクトルxt とは、時間的に近接しているので、これ
らベクトルxt 及びxt-1 の成分は互いに類似する可能
性が高い。
特徴ベクトルxt-1 と第t番目のフレームの入力音声特
徴ベクトルxt とは、時間的に近接しているので、これ
らベクトルxt 及びxt-1 の成分は互いに類似する可能
性が高い。
【0014】従って第t−1番目のフレームにおいて第
I番目の正規分布から求めた重み付け確率gijI(xt-1)
の対数値GijI(xt-1) が最大の対数値Gijm(xt-1) とな
った場合、次の第t番目のフレームにおいても第I番目
の正規分布から求めた重み付け確率gijI(xt) の対数値
GijI(xt) が最大の対数値Gijm(xt) となる可能性が高
い。
I番目の正規分布から求めた重み付け確率gijI(xt-1)
の対数値GijI(xt-1) が最大の対数値Gijm(xt-1) とな
った場合、次の第t番目のフレームにおいても第I番目
の正規分布から求めた重み付け確率gijI(xt) の対数値
GijI(xt) が最大の対数値Gijm(xt) となる可能性が高
い。
【0015】これがため、この第I番目の正規分布から
求めた対数値GijI(xt) を最大値候補の初期値として
(上記(1)の処理)、算出途上の対数値Gijm(xt) が
最大値候補よりも小さくなったら、当該対数値G
ijm(xt) の算出を算出途上で終了することにより(上記
(3−A)の処理)、最大の対数値Gijm(xt) 検出に要
する計算量を減少させることができる。
求めた対数値GijI(xt) を最大値候補の初期値として
(上記(1)の処理)、算出途上の対数値Gijm(xt) が
最大値候補よりも小さくなったら、当該対数値G
ijm(xt) の算出を算出途上で終了することにより(上記
(3−A)の処理)、最大の対数値Gijm(xt) 検出に要
する計算量を減少させることができる。
【0016】
【発明の実施の形態】図1はこの発明の音声認識方法の
実施に用いて好適な音声認識装置の一構成例を概略的に
示す機能ブロック図である。
実施に用いて好適な音声認識装置の一構成例を概略的に
示す機能ブロック図である。
【0017】同図に示す音声認識装置10は、辞書部1
2、音響処理部14、音声区間検出部16、HMM照合
部18及び参照情報記憶部20を備える。
2、音響処理部14、音声区間検出部16、HMM照合
部18及び参照情報記憶部20を備える。
【0018】辞書部12は、音声標準パタンとして隠れ
マルコフモデルを格納する。隠れマルコフモデルは、互
いに無相関な複数個の正規分布を有し当該モデルから出
力される音声シンボルベクトルの出力確率を表す無相関
混合正規分布を備える。
マルコフモデルを格納する。隠れマルコフモデルは、互
いに無相関な複数個の正規分布を有し当該モデルから出
力される音声シンボルベクトルの出力確率を表す無相関
混合正規分布を備える。
【0019】音響処理部14は、一定時間幅のフレーム
毎に、入力音声信号から入力音声特徴ベクトルを抽出す
る。音声区間検出部16は、入力音声信号から音声区間
を検出する。
毎に、入力音声信号から入力音声特徴ベクトルを抽出す
る。音声区間検出部16は、入力音声信号から音声区間
を検出する。
【0020】HMM照合部18は、音声区間の始端フレ
ームから終端フレームまでに抽出された入力音声特徴ベ
クトルの時系列と隠れマルコフモデルとの間の尤度を、
各入力音声特徴ベクトルの出力確率を用いて計算し、最
大の尤度を得た隠れマルコフモデルに付与されているカ
テゴリ名を、当該音声区間の入力音声信号に対する認識
結果とする。
ームから終端フレームまでに抽出された入力音声特徴ベ
クトルの時系列と隠れマルコフモデルとの間の尤度を、
各入力音声特徴ベクトルの出力確率を用いて計算し、最
大の尤度を得た隠れマルコフモデルに付与されているカ
テゴリ名を、当該音声区間の入力音声信号に対する認識
結果とする。
【0021】ここで、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 (xt −μijm )’:(xt −μijm )’は(xt −μ
ijm )の転置行列を表す、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、隠れマルコフモデルとの間の尤度計算に用
いる入力音声特徴ベクトルxt の出力確率bij(xt)の対
数値として、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を用いる。
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 (xt −μijm )’:(xt −μijm )’は(xt −μ
ijm )の転置行列を表す、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、隠れマルコフモデルとの間の尤度計算に用
いる入力音声特徴ベクトルxt の出力確率bij(xt)の対
数値として、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を用いる。
【0022】参照情報記憶部20は、t≧2のときに第
t番目のフレームにおいて最大の対数値Gijm(xt) を検
出するための最大値候補と、t≧2のときに第t−1番
目のフレームにおいて最大の対数値Gijm(xt) を得た正
規分布がいずれであるかを表すインデックスとを格納す
る。
t番目のフレームにおいて最大の対数値Gijm(xt) を検
出するための最大値候補と、t≧2のときに第t−1番
目のフレームにおいて最大の対数値Gijm(xt) を得た正
規分布がいずれであるかを表すインデックスとを格納す
る。
【0023】そしてHMM照合部18は、始端フレーム
から終端フレームまでに出力された入力音声特徴ベクト
ルxt の時系列と隠れマルコフモデルとの間の尤度を、
次の如くして行なう。
から終端フレームまでに出力された入力音声特徴ベクト
ルxt の時系列と隠れマルコフモデルとの間の尤度を、
次の如くして行なう。
【0024】すなわちt=1の場合は、総個数M個の全
正規分布について各正規分布毎に対数値Gijm(xt) を算
出して、最大の対数値Gijm(xt) を検出し、この最大の
対数値Gijm(xt) を第1番目のフレームにおける入力音
声特徴ベクトルxt の出力確率bij(xt)の対数値とする
と共にこの最大の対数値Gijm(xt) を得た正規分布に対
応するインデックスを格納する。
正規分布について各正規分布毎に対数値Gijm(xt) を算
出して、最大の対数値Gijm(xt) を検出し、この最大の
対数値Gijm(xt) を第1番目のフレームにおける入力音
声特徴ベクトルxt の出力確率bij(xt)の対数値とする
と共にこの最大の対数値Gijm(xt) を得た正規分布に対
応するインデックスを格納する。
【0025】そしてt≧2の場合には、(1)まずイン
デックスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部20のインデックスを書換えると共に、当該最大値候
補を、出力確率bij(xt)の対数値に用いて、隠れマルコ
フモデルとの間の尤度を計算する。
デックスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部20のインデックスを書換えると共に、当該最大値候
補を、出力確率bij(xt)の対数値に用いて、隠れマルコ
フモデルとの間の尤度を計算する。
【0026】図2は音声標準パタンに用いる隠れマルコ
フモデルの説明に供する図である。音声標準パタンに用
いる隠れマルコフモデル(以下、HMM)は、音声認識
一単位分ここでは単語1個分の音声信号であって、カテ
ゴリzを付与されている音声信号を表現している。各カ
テゴリ毎に個別に複数のHMMを用意し、HMMとカテ
ゴリzとを、相対応付けて辞書部12に格納する。
フモデルの説明に供する図である。音声標準パタンに用
いる隠れマルコフモデル(以下、HMM)は、音声認識
一単位分ここでは単語1個分の音声信号であって、カテ
ゴリzを付与されている音声信号を表現している。各カ
テゴリ毎に個別に複数のHMMを用意し、HMMとカテ
ゴリzとを、相対応付けて辞書部12に格納する。
【0027】HMMは、総個数I個の状態S1 〜SI か
ら成る状態の集合1と、音声シンボルベクトルxの集合
2と、状態遷移確率aijの集合3と、出力確率bij(x)
の集合4と、初期状態確率Фi の集合5と、最終状態F
の集合6とにより定義される。
ら成る状態の集合1と、音声シンボルベクトルxの集合
2と、状態遷移確率aijの集合3と、出力確率bij(x)
の集合4と、初期状態確率Фi の集合5と、最終状態F
の集合6とにより定義される。
【0028】
【数1】
【0029】例えば図2の例において、a12は状態S1
から状態S2 に遷移する確率及びb12(x) は状態S1 か
ら状態S2 に遷移したとき音声シンボルベクトルxが出
力される確率、またa22は状態S2 から状態S2 に遷移
する確率及びb22(x) は状態S2 から状態S2 に遷移し
たとき音声シンボルベクトルxが出力される確率を表
す。
から状態S2 に遷移する確率及びb12(x) は状態S1 か
ら状態S2 に遷移したとき音声シンボルベクトルxが出
力される確率、またa22は状態S2 から状態S2 に遷移
する確率及びb22(x) は状態S2 から状態S2 に遷移し
たとき音声シンボルベクトルxが出力される確率を表
す。
【0030】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発生法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発生法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
【0031】出力確率bij(x) は、互いに無相関であり
かつそれぞれ音声シンボルベクトルxの関数である複数
個の正規分布から成る無相関混合正規分布(無相関連続
確率密度分布)により表現される。無相関混合正規分布
は、数学的取り扱いが簡単でしかも表現能力が高いとい
う利点を有する。
かつそれぞれ音声シンボルベクトルxの関数である複数
個の正規分布から成る無相関混合正規分布(無相関連続
確率密度分布)により表現される。無相関混合正規分布
は、数学的取り扱いが簡単でしかも表現能力が高いとい
う利点を有する。
【0032】次に音声認識装置10の動作説明ととも
に、この実施例の音声認識方法の処理の流れにつき具体
的に説明する。
に、この実施例の音声認識方法の処理の流れにつき具体
的に説明する。
【0033】音響処理部14は、入力音声信号から、各
フレーム毎に入力音声特徴ベクトルxt を抽出する。こ
の時点で入力音声特徴ベクトルxt に付与されるフレー
ム番号tは、音響処理開始時点のフレームを第t=1番
目のフレームとして、順次に付与された番号であり、こ
のフレーム番号tは、後述するHMM照合部18におい
て、音声区間の始端フレームを第1番目(t=1)のフ
レームとして、音声区間の始端フレームから終端フレー
ムまで順次に付与された番号に書き改められる。
フレーム毎に入力音声特徴ベクトルxt を抽出する。こ
の時点で入力音声特徴ベクトルxt に付与されるフレー
ム番号tは、音響処理開始時点のフレームを第t=1番
目のフレームとして、順次に付与された番号であり、こ
のフレーム番号tは、後述するHMM照合部18におい
て、音声区間の始端フレームを第1番目(t=1)のフ
レームとして、音声区間の始端フレームから終端フレー
ムまで順次に付与された番号に書き改められる。
【0034】入力音声特徴ベクトルxt は、xt =(x
t1、xt2、……、xtp)と表せる。pは入力音声特徴ベ
クトルxt の次数、及びxt1〜xtpは入力音声特徴ベク
トルxt のベクトル成分を表す。
t1、xt2、……、xtp)と表せる。pは入力音声特徴ベ
クトルxt の次数、及びxt1〜xtpは入力音声特徴ベク
トルxt のベクトル成分を表す。
【0035】入力音声特徴ベクトルxt のベクトル成分
としては、例えば、中心周波数が異なる複数のバンドパ
スフィルタから成る帯域フィルタ群に入力音声信号を入
力したときの各フィルタ出力から得たものや、入力音声
信号をフーリエ解析して得られるパワースペクトル成分
や、或は、入力音声信号の線形予測分析すなわちLPC
分析により求められるLPCケプストラム係数を、用い
ることができる。ここでは帯域フィルタ群を用いて入力
音声特徴ベクトルxt を抽出する例につき説明する。
としては、例えば、中心周波数が異なる複数のバンドパ
スフィルタから成る帯域フィルタ群に入力音声信号を入
力したときの各フィルタ出力から得たものや、入力音声
信号をフーリエ解析して得られるパワースペクトル成分
や、或は、入力音声信号の線形予測分析すなわちLPC
分析により求められるLPCケプストラム係数を、用い
ることができる。ここでは帯域フィルタ群を用いて入力
音声特徴ベクトルxt を抽出する例につき説明する。
【0036】音響処理部14は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、入力音声特徴ベクトルxt の成分xt1
として抽出する。同様にして、残りの信号成分x2 〜x
p から、入力音声特徴ベクトルxt の成分xt2〜xtpを
抽出する。
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、入力音声特徴ベクトルxt の成分xt1
として抽出する。同様にして、残りの信号成分x2 〜x
p から、入力音声特徴ベクトルxt の成分xt2〜xtpを
抽出する。
【0037】次に音声区間検出部16は、音響処理部1
4からの入力音声特徴ベクトルxtに基づいて、音声区
間の始端フレーム及び終端フレームを検出し、どのフレ
ームが音声区間の始端フレーム及び終端フレームである
かを表す区間情報を生成する。音声区間は、音声認識一
単位分の音声信号が含まれる区間である。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。
4からの入力音声特徴ベクトルxtに基づいて、音声区
間の始端フレーム及び終端フレームを検出し、どのフレ
ームが音声区間の始端フレーム及び終端フレームである
かを表す区間情報を生成する。音声区間は、音声認識一
単位分の音声信号が含まれる区間である。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。
【0038】HMM照合部18は、区間情報と入力音声
特徴ベクトルxt とを音声区間検出部16から入力し
て、音声区間の始端フレームから終端フレームまでに抽
出された入力音声特徴ベクトルxt の時系列x1 〜xT
を生成する。ここで、フレーム番号tは、音声区間の始
端フレームを第1番目(t=1)のフレームとして、音
声区間の始端フレームから終端フレームまで順次に付与
された番号に書き改められる。
特徴ベクトルxt とを音声区間検出部16から入力し
て、音声区間の始端フレームから終端フレームまでに抽
出された入力音声特徴ベクトルxt の時系列x1 〜xT
を生成する。ここで、フレーム番号tは、音声区間の始
端フレームを第1番目(t=1)のフレームとして、音
声区間の始端フレームから終端フレームまで順次に付与
された番号に書き改められる。
【0039】そしてHMM照合部18はベクトル時系列
x1 〜xT と辞書部12に格納されているHMMとの間
の尤度ln{P(x1 〜xT )}を求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
x1 〜xT と辞書部12に格納されているHMMとの間
の尤度ln{P(x1 〜xT )}を求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
【0040】ここで、P(x1 〜xT )はHMMにおい
てベクトル時系列x1 〜xT が出現する確率であって、
次式(1)の如く表される。
てベクトル時系列x1 〜xT が出現する確率であって、
次式(1)の如く表される。
【0041】
【数2】
【0042】(1)式において、*iはSi ∈Fを満た
すi(最終状態Fに属する状態Siに付与されている番
号i)であって、従ってi=*iとなる前向き確率ciT
のなかで最大の前向き確率ciTを、出現確率P(x1 〜
xT )とするものである。
すi(最終状態Fに属する状態Siに付与されている番
号i)であって、従ってi=*iとなる前向き確率ciT
のなかで最大の前向き確率ciTを、出現確率P(x1 〜
xT )とするものである。
【0043】前向き確率ciTは、ビタビアルゴリズムに
より、次式(2)〜(3)に示す漸化式を用いて近似的
に求められる。
より、次式(2)〜(3)に示す漸化式を用いて近似的
に求められる。
【0044】
【数3】
【0045】ここで、ln(aij)=Aij、ln{b
ij(xt)}=Bij(xt)、ln(cit)=Citと表せば(以
下、遷移対数値Aij、出力対数値Bij、前向き対数値C
iTと称する)、式(1)〜(3)を変形して、尤度ln
{P(x1 〜xt )}の算出に関する(4)〜(6)式
が得られる。
ij(xt)}=Bij(xt)、ln(cit)=Citと表せば(以
下、遷移対数値Aij、出力対数値Bij、前向き対数値C
iTと称する)、式(1)〜(3)を変形して、尤度ln
{P(x1 〜xt )}の算出に関する(4)〜(6)式
が得られる。
【0046】
【数4】
【0047】(5)〜(6)式はtの漸化式であるか
ら、t=1、2、……、Tとなる場合の各前向き対数値
CiTを、次式の如く順次に計算できる。
ら、t=1、2、……、Tとなる場合の各前向き対数値
CiTを、次式の如く順次に計算できる。
【0048】
【数5】
【0049】HMMにおいて、初期状態からベクトル系
列x1 〜xt を生成して状態Si に至る遷移パスは一つ
又は複数存在し、ほとんどの場合に複数の遷移パスが存
在する。複数の遷移パスが存在する場合、各遷移パス毎
に前向き対数値CiTが求められ、従って各遷移パスに対
応した複数の前向き対数値CiTを得ることとなる。
列x1 〜xt を生成して状態Si に至る遷移パスは一つ
又は複数存在し、ほとんどの場合に複数の遷移パスが存
在する。複数の遷移パスが存在する場合、各遷移パス毎
に前向き対数値CiTが求められ、従って各遷移パスに対
応した複数の前向き対数値CiTを得ることとなる。
【0050】HMM照合部18は、カテゴリzを付与さ
れたHMMにおいて、前向き対数値CiTを求め、i=*
iとなる前向き対数値CiTのなかで最大の前向き対数値
CiTを、ベクトル時系列x1 〜xT と当該HMMとの間
の尤度ln{P(x1 〜xT )}として得る。そして辞書
部12に格納されているすべてのHMMについて、各H
MM毎に、尤度ln{P(x1 〜xT )}を求め、最大の
尤度ln{P(x1 〜xT )}を得たHMMに付与されて
いるカテゴリzを、ベクトル時系列x1 〜xTを得た入
力音声信号の認識結果として出力する。
れたHMMにおいて、前向き対数値CiTを求め、i=*
iとなる前向き対数値CiTのなかで最大の前向き対数値
CiTを、ベクトル時系列x1 〜xT と当該HMMとの間
の尤度ln{P(x1 〜xT )}として得る。そして辞書
部12に格納されているすべてのHMMについて、各H
MM毎に、尤度ln{P(x1 〜xT )}を求め、最大の
尤度ln{P(x1 〜xT )}を得たHMMに付与されて
いるカテゴリzを、ベクトル時系列x1 〜xTを得た入
力音声信号の認識結果として出力する。
【0051】上述の尤度ln{P(x1 〜xT )}を算出
する過程において、最も複雑な演算は、出力対数値Bij
(xt)を求める演算である。この演算を高速に行なうた
め、出力確率bij(xt)を次式(12)の如く定義する。
出力確率bij(xt)は、総個数M個の正規分布を有する無
相関混合正規分布を備えた隠れマルコフモデルから、入
力音声特徴ベクトルxt が出力される確率である。
する過程において、最も複雑な演算は、出力対数値Bij
(xt)を求める演算である。この演算を高速に行なうた
め、出力確率bij(xt)を次式(12)の如く定義する。
出力確率bij(xt)は、総個数M個の正規分布を有する無
相関混合正規分布を備えた隠れマルコフモデルから、入
力音声特徴ベクトルxt が出力される確率である。
【0052】
【数6】
【0053】(12)式中のgijm(xt) は、総個数M個
の正規分布から成る無相関混合正規分布において第m番
目の正規分布から算出される入力音声特徴ベクトルxt
の重み付け確率であって、次式(13)〜(15)を用
いて表すことができる。
の正規分布から成る無相関混合正規分布において第m番
目の正規分布から算出される入力音声特徴ベクトルxt
の重み付け確率であって、次式(13)〜(15)を用
いて表すことができる。
【0054】
【数7】
【0055】(13)式中のλijm は第m番目の正規分
布の重み、及びbijm(xt) は第m番目の正規分布から算
出される入力音声特徴ベクトルxt の重み無し確率であ
る。重み無し確率bijm(xt) は式(14)で表され、式
(14)中のpは入力音声特徴ベクトルxt の次数、ρ
ijm は第m番目の正規分布の分散・供分散行列、及びD
ijmtは入力音声特徴ベクトルxt と第m番目の正規分布
との間の距離を表すマハラビスの汎距離である。マハラ
ビスの汎距離Dijmtは式(15)で表され、式(15)
中のμijm は第m番目の正規分布の平均ベクトル、(x
t −μijm )’は(xt −μijm )の転置行列である。
布の重み、及びbijm(xt) は第m番目の正規分布から算
出される入力音声特徴ベクトルxt の重み無し確率であ
る。重み無し確率bijm(xt) は式(14)で表され、式
(14)中のpは入力音声特徴ベクトルxt の次数、ρ
ijm は第m番目の正規分布の分散・供分散行列、及びD
ijmtは入力音声特徴ベクトルxt と第m番目の正規分布
との間の距離を表すマハラビスの汎距離である。マハラ
ビスの汎距離Dijmtは式(15)で表され、式(15)
中のμijm は第m番目の正規分布の平均ベクトル、(x
t −μijm )’は(xt −μijm )の転置行列である。
【0056】(12)式は、総個数M個の正規分布から
成る無相関混合正規分布において個々の正規分布から得
られる重み付け確率gijm(xt) のうち最大となる重み付
け確率gijm(xt) を、入力音声特徴ベクトルxt の出力
確率bij(xt)として検出することを表す。
成る無相関混合正規分布において個々の正規分布から得
られる重み付け確率gijm(xt) のうち最大となる重み付
け確率gijm(xt) を、入力音声特徴ベクトルxt の出力
確率bij(xt)として検出することを表す。
【0057】従来における典型的な出力確率bij(xt)は
重み付け確率gijm(xt) の線形和として表されるが、
(12)式の如く出力確率bij(xt)として最大の重み付
け確率gijm(xt) を用いても、従来の出力確率bij(xt)
と近似的に等しい出力確率bij(xt)を得ることができ
る。無相関混合正規分布においては総個数M個の正規分
布は互いに無相関であるので、最大とならなかった重み
付け確率gijm(xt) は最大の重み付け確率gijm(xt) に
比して微小な値となると考えられるからである。
重み付け確率gijm(xt) の線形和として表されるが、
(12)式の如く出力確率bij(xt)として最大の重み付
け確率gijm(xt) を用いても、従来の出力確率bij(xt)
と近似的に等しい出力確率bij(xt)を得ることができ
る。無相関混合正規分布においては総個数M個の正規分
布は互いに無相関であるので、最大とならなかった重み
付け確率gijm(xt) は最大の重み付け確率gijm(xt) に
比して微小な値となると考えられるからである。
【0058】そして出力確率bij(xt)の対数値Bij(xt)
(以下、出力対数値Bij(xt))は、式(12)を用い
て、次式(16)の如く表せる。
(以下、出力対数値Bij(xt))は、式(12)を用い
て、次式(16)の如く表せる。
【0059】
【数8】
【0060】(16)式中の重み付け対数値Gijm(xt)
は、重み付け確率gijm(xt) の対数値であって、式(1
3)〜(15)を用いて次式(17)の如く表せる。
は、重み付け確率gijm(xt) の対数値であって、式(1
3)〜(15)を用いて次式(17)の如く表せる。
【0061】
【数9】
【0062】ここで重み付け対数値Gijm(xt) に着目す
る。HMMの無相関混合正規分布を構成する総個数M個
の正規分布は、全て無相関であるので、各正規分布の分
散・供分散行列ρijm は対角行列となる。
る。HMMの無相関混合正規分布を構成する総個数M個
の正規分布は、全て無相関であるので、各正規分布の分
散・供分散行列ρijm は対角行列となる。
【0063】分散・供分散行列ρijm (無相関混合正規
分布の第m番目のρijm )の第r行第s列の要素をA
ijmrs 、入力音声特徴ベクトルxt の第r番目の成分を
Br 、及び、平均ベクトルμijm (無相関混合正規分布
の第m番目のμijm )の第r番目の成分をCijmrと表せ
ば、(15)式は次式(18)の如く変形できる。
分布の第m番目のρijm )の第r行第s列の要素をA
ijmrs 、入力音声特徴ベクトルxt の第r番目の成分を
Br 、及び、平均ベクトルμijm (無相関混合正規分布
の第m番目のμijm )の第r番目の成分をCijmrと表せ
ば、(15)式は次式(18)の如く変形できる。
【0064】
【数10】
【0065】分散・供分散行列ρijm は対角行列である
からr≠sではAijmrs =0であり従って(18)式は
次式(19)の如く変形できる。
からr≠sではAijmrs =0であり従って(18)式は
次式(19)の如く変形できる。
【0066】
【数11】
【0067】しかも分散・供分散行列ρijm は逆相関行
列であるから、Aijmrr ≧0が成り立つので、(19)
式中のAijmrr ・(Br −Cijmr)2 の各項は非負であ
り従ってDijmt 2 ≧0である。
列であるから、Aijmrr ≧0が成り立つので、(19)
式中のAijmrr ・(Br −Cijmr)2 の各項は非負であ
り従ってDijmt 2 ≧0である。
【0068】従って(17)式において、Eijm は各正
規分布毎に定まる一定の値でありかつDijmt 2 ≧0であ
るので、算出途上の重み付け対数値Gijm(xt) は、E
ijm から(19)式中のAijmrr ・(Br −Cijmr)2
の各項を順次に減じた値なる。換言すれば、算出途上の
Gijm(xt) の値は、Eijm をピークとして、入力音声特
徴ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆく。
規分布毎に定まる一定の値でありかつDijmt 2 ≧0であ
るので、算出途上の重み付け対数値Gijm(xt) は、E
ijm から(19)式中のAijmrr ・(Br −Cijmr)2
の各項を順次に減じた値なる。換言すれば、算出途上の
Gijm(xt) の値は、Eijm をピークとして、入力音声特
徴ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆく。
【0069】次に図3及び図4を参照して、HMM照合
部18が行なう尤度計算の流れについて説明する。図3
はt=1のとき最大の重み付け対数値Gijm(xt) を算出
する場合の動作フロー及び図4はt≧2のとき最大の重
み付け対数値Gijm(xt) を算出する場合の動作フローを
示す。
部18が行なう尤度計算の流れについて説明する。図3
はt=1のとき最大の重み付け対数値Gijm(xt) を算出
する場合の動作フロー及び図4はt≧2のとき最大の重
み付け対数値Gijm(xt) を算出する場合の動作フローを
示す。
【0070】まずHMM照合部18は、前向き対数値の
初期値Ci0を設定する。次にHMM照合部18は、t=
1のときの前向き対数値Cit、すなわち始端フレーム
(第1番目のフレーム)の入力音声特徴ベクトルxt に
ついて、前向き対数値Citを求める。
初期値Ci0を設定する。次にHMM照合部18は、t=
1のときの前向き対数値Cit、すなわち始端フレーム
(第1番目のフレーム)の入力音声特徴ベクトルxt に
ついて、前向き対数値Citを求める。
【0071】このためHMM照合部18は、HMMにお
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の各正
規分布から重み付け対数値Gijm(xt) を算出し、最大の
重み付け対数値Gijm(xt) を検出し(図3のS1)、そ
して最大の重み付け対数値Gijm(xt) を入力音声特徴ベ
クトルxt の出力対数値Bij(xt)として格納すると共
に、当該最大の重み付け対数値Gijm(xt) を得た正規分
布の番号mをインデックスQijとして格納する(図3の
S2)。対応する音声シンボルベクトルを出力する状態
遷移が複数存在する場合には、各状態遷移毎に、音声シ
ンボルベクトルの出力確率を表す無相関混合正規分布が
存在するので、これら各無相関混合正規分布をそれぞれ
入力音声特徴ベクトルxt の無相関混合正規分布に用い
て、各状態遷移毎に個別の出力対数値Bij(xt)及びイン
デックスQijを得て格納する。
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の各正
規分布から重み付け対数値Gijm(xt) を算出し、最大の
重み付け対数値Gijm(xt) を検出し(図3のS1)、そ
して最大の重み付け対数値Gijm(xt) を入力音声特徴ベ
クトルxt の出力対数値Bij(xt)として格納すると共
に、当該最大の重み付け対数値Gijm(xt) を得た正規分
布の番号mをインデックスQijとして格納する(図3の
S2)。対応する音声シンボルベクトルを出力する状態
遷移が複数存在する場合には、各状態遷移毎に、音声シ
ンボルベクトルの出力確率を表す無相関混合正規分布が
存在するので、これら各無相関混合正規分布をそれぞれ
入力音声特徴ベクトルxt の無相関混合正規分布に用い
て、各状態遷移毎に個別の出力対数値Bij(xt)及びイン
デックスQijを得て格納する。
【0072】次いでHMM照合部18は、算出し終えた
出力対数値Bij(xt)を用いて、t=1のときの前向き対
数値Citを算出する。
出力対数値Bij(xt)を用いて、t=1のときの前向き対
数値Citを算出する。
【0073】次にHMM照合部18は、t≧2のときの
入力音声特徴ベクトルxt の前向き対数値Citを算出す
る。
入力音声特徴ベクトルxt の前向き対数値Citを算出す
る。
【0074】このためHMM照合部18は、HMMにお
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の正規
分布のなかからインデックスQijに対応する第Qij番目
の正規分布を検索し、この正規分布から重み付け対数値
Gijm(xt) を算出する。そして算出した重み付け対数値
Gijm(xt) を最大値候補GijQ(xt) として格納し、然る
後、正規分布の番号mをm=1に初期化する(図4のS
1)。
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の正規
分布のなかからインデックスQijに対応する第Qij番目
の正規分布を検索し、この正規分布から重み付け対数値
Gijm(xt) を算出する。そして算出した重み付け対数値
Gijm(xt) を最大値候補GijQ(xt) として格納し、然る
後、正規分布の番号mをm=1に初期化する(図4のS
1)。
【0075】次いで正規分布の番号mがインデックスQ
ijと等しいか否かを判定する(図4のS2)。
ijと等しいか否かを判定する(図4のS2)。
【0076】図4のS2で番号mがインデックスQijで
ない場合には、第m番目の正規分布を用いて、重み付け
対数値Gijm(xt) の算出を開始し(図4のS3)、まず
Gijm(xt) のEijm の項を算出し(図4のS4)、然る
後、Gijm(xt) のDijmt 2 の項の演算を、一演算間隔又
は複数演算間隔だけ、行なう(図4のS5)。一演算間
隔は入力音声特徴ベクトルxt の成分1個分について行
なわれる演算間隔である。次いで算出途上の重み付け対
数値Gijm(xt) が、最大値候補GijQ(xt) より大きいか
否かを判定する(図4のS6)。
ない場合には、第m番目の正規分布を用いて、重み付け
対数値Gijm(xt) の算出を開始し(図4のS3)、まず
Gijm(xt) のEijm の項を算出し(図4のS4)、然る
後、Gijm(xt) のDijmt 2 の項の演算を、一演算間隔又
は複数演算間隔だけ、行なう(図4のS5)。一演算間
隔は入力音声特徴ベクトルxt の成分1個分について行
なわれる演算間隔である。次いで算出途上の重み付け対
数値Gijm(xt) が、最大値候補GijQ(xt) より大きいか
否かを判定する(図4のS6)。
【0077】図4のS6でGijm(xt) >GijQ(xt) であ
れば、Dijmt 2 の演算を入力音声特徴ベクトルxt のす
べての成分について終了したか否かを判定し(図4のS
7)、Dijmt 2 の演算を終了していなければS5の演算
に戻る。Dijmt 2 の演算を終了したならば、当該演算を
終了した重み付け対数値Gijm(xt) を、最大値候補G
ijQ(xt) として書換えると共に、当該演算を終了した重
み付け対数値Gijm(xt)を得た正規分布の番号mをイン
デックスQijとして書き換える(S8)。然る後、総個
数M個の正規分布すべてについて処理を終了したか否か
を判定し(S9)、終了していなければ正規分布の番号
mに1を加算し(S11)、然る後、S2の処理に戻
り、終了していればこのとき格納されている最大値候補
GijQ(xt) を入力音声信号xt の出力対数値Bij(xt)と
して格納する(S10)。図4のS6でGijm(xt) ≦G
ijQ(xt) であれば、S7〜S8の処理を行なわずに、S
9の処理を行なう。
れば、Dijmt 2 の演算を入力音声特徴ベクトルxt のす
べての成分について終了したか否かを判定し(図4のS
7)、Dijmt 2 の演算を終了していなければS5の演算
に戻る。Dijmt 2 の演算を終了したならば、当該演算を
終了した重み付け対数値Gijm(xt) を、最大値候補G
ijQ(xt) として書換えると共に、当該演算を終了した重
み付け対数値Gijm(xt)を得た正規分布の番号mをイン
デックスQijとして書き換える(S8)。然る後、総個
数M個の正規分布すべてについて処理を終了したか否か
を判定し(S9)、終了していなければ正規分布の番号
mに1を加算し(S11)、然る後、S2の処理に戻
り、終了していればこのとき格納されている最大値候補
GijQ(xt) を入力音声信号xt の出力対数値Bij(xt)と
して格納する(S10)。図4のS6でGijm(xt) ≦G
ijQ(xt) であれば、S7〜S8の処理を行なわずに、S
9の処理を行なう。
【0078】またS2でm=Qijであれば、S3〜S8
の処理を行なわずに、S9の処理を行なう。
の処理を行なわずに、S9の処理を行なう。
【0079】対応する音声シンボルベクトルを出力する
状態遷移が複数存在する場合には、各状態遷移毎に、音
声シンボルベクトルの出力確率を表す無相関混合正規分
布が存在するので、これら各無相関混合正規分布をそれ
ぞれ入力音声特徴ベクトルxt の無相関混合正規分布に
用いて、各状態遷移毎に個別に、図4のS1〜S11の
処理を行なう。
状態遷移が複数存在する場合には、各状態遷移毎に、音
声シンボルベクトルの出力確率を表す無相関混合正規分
布が存在するので、これら各無相関混合正規分布をそれ
ぞれ入力音声特徴ベクトルxt の無相関混合正規分布に
用いて、各状態遷移毎に個別に、図4のS1〜S11の
処理を行なう。
【0080】t=2〜Tの各入力音声特徴ベクトルxt
につき出力対数値Bij(xt)を得る毎に、前向き対数値C
itを求め、最終的に得た前向き対数値CiTを、入力音声
特徴ベクトルx1 〜xT とHMMとの間の尤度として得
る。
につき出力対数値Bij(xt)を得る毎に、前向き対数値C
itを求め、最終的に得た前向き対数値CiTを、入力音声
特徴ベクトルx1 〜xT とHMMとの間の尤度として得
る。
【0081】既に説明したように、算出途上のG
ijm(xt) の値は、Eijm をピークとして、入力音声特徴
ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆくので、図4のS6の判定においてGijm(xt) >G
ijQ(xt) となる場合に、当該算出途上のGijm(xt) の算
出を終了することにより、無駄な演算を省略して演算速
度を向上できる。
ijm(xt) の値は、Eijm をピークとして、入力音声特徴
ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆくので、図4のS6の判定においてGijm(xt) >G
ijQ(xt) となる場合に、当該算出途上のGijm(xt) の算
出を終了することにより、無駄な演算を省略して演算速
度を向上できる。
【0082】また直前のフレームで最大の重み付け対数
値Gijm(xt) を得た正規分布の番号mすなわちインデッ
クスQijを格納し、次のフレームにおいてインデックス
Qijに対応する正規分布から求めた重み付け対数値G
ijm(xt) を最大値候補とすることにより、無駄な演算を
省略して演算速度を向上できる。これは直前のフレーム
と次のフレームとで入力音声特徴ベクトルxt は類似し
ているので、次のフレームにおいてもインデックスQij
に対応する正規分布から求めた重み付け対数値G
ijm(xt) が最大となる可能性が高いからである。
値Gijm(xt) を得た正規分布の番号mすなわちインデッ
クスQijを格納し、次のフレームにおいてインデックス
Qijに対応する正規分布から求めた重み付け対数値G
ijm(xt) を最大値候補とすることにより、無駄な演算を
省略して演算速度を向上できる。これは直前のフレーム
と次のフレームとで入力音声特徴ベクトルxt は類似し
ているので、次のフレームにおいてもインデックスQij
に対応する正規分布から求めた重み付け対数値G
ijm(xt) が最大となる可能性が高いからである。
【0083】
【発明の効果】上述した説明からも明らかなように、こ
の発明の音声認識方法によれば、隠れマルコフモデルが
備える総個数M個の正規分布は互いに無相関であるの
で、重み付け確率gijm(xt) が最大とならない正規分布
と入力音声特徴ベクトルxt との間の距離は、重み付け
確率gijm(xt) が最大となる正規分布との距離よりも長
くなる。これがため最大とならない重み付け確率g
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。
の発明の音声認識方法によれば、隠れマルコフモデルが
備える総個数M個の正規分布は互いに無相関であるの
で、重み付け確率gijm(xt) が最大とならない正規分布
と入力音声特徴ベクトルxt との間の距離は、重み付け
確率gijm(xt) が最大となる正規分布との距離よりも長
くなる。これがため最大とならない重み付け確率g
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。
【0084】また重み付け確率gijm(xt) の対数値G
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、Eijm は一定
であるので、算出途上の対数値Gijm(xt) はEijm をピ
ークとして−Dijmt 2 /2の演算の一演算間隔毎に減少
してゆく。
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、Eijm は一定
であるので、算出途上の対数値Gijm(xt) はEijm をピ
ークとして−Dijmt 2 /2の演算の一演算間隔毎に減少
してゆく。
【0085】これがため、−Dijm 2/2の演算の、一又
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し、算出途上の対数値Gijm(xt) が最
大値候補よりも小さくなったら、当該対数値Gijm(xt)
の算出を算出途上で終了することにより、最大の対数値
Gijm(xt) 検出に要する計算量を減少させることができ
る。
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し、算出途上の対数値Gijm(xt) が最
大値候補よりも小さくなったら、当該対数値Gijm(xt)
の算出を算出途上で終了することにより、最大の対数値
Gijm(xt) 検出に要する計算量を減少させることができ
る。
【0086】しかも直前のフレームの入力音声特徴ベク
トルxt-1 と次のフレームの入力音声特徴ベクトルxt
とは、時間的に近接しているので、これらベクトルxt
及びxt-1 の成分は互いに類似する可能性が高い。従っ
て第t−1番目のフレームにおいて第I番目の正規分布
から求めた重み付け確率gijI(xt-1) の対数値GijI(x
t-1) が最大の対数値Gijm(xt-1) となった場合、次の
第t番目のフレームにおいても第I番目の正規分布から
求めた重み付け確率gijI(xt) の対数値GijI(xt) が最
大の対数値Gijm(xt) となる可能性が高い。
トルxt-1 と次のフレームの入力音声特徴ベクトルxt
とは、時間的に近接しているので、これらベクトルxt
及びxt-1 の成分は互いに類似する可能性が高い。従っ
て第t−1番目のフレームにおいて第I番目の正規分布
から求めた重み付け確率gijI(xt-1) の対数値GijI(x
t-1) が最大の対数値Gijm(xt-1) となった場合、次の
第t番目のフレームにおいても第I番目の正規分布から
求めた重み付け確率gijI(xt) の対数値GijI(xt) が最
大の対数値Gijm(xt) となる可能性が高い。
【0087】これがため、この第I番目の正規分布から
求めた対数値GijI(xt) を最大値候補の初期値として、
算出途上の対数値Gijm(xt) が最大値候補よりも小さく
なったら、当該対数値Gijm(xt) の算出を算出途上で終
了することにより、最大の対数値Gijm(xt) 検出に要す
る計算量を減少させることができる。
求めた対数値GijI(xt) を最大値候補の初期値として、
算出途上の対数値Gijm(xt) が最大値候補よりも小さく
なったら、当該対数値Gijm(xt) の算出を算出途上で終
了することにより、最大の対数値Gijm(xt) 検出に要す
る計算量を減少させることができる。
【図1】この発明の実施に用いて好適な音声認識装置の
構成を概略的に示す図である。
構成を概略的に示す図である。
【図2】HMMの説明に供する図である。
【図3】t=1のときの重み付け対数値Gijm(xt) を算
出する場合の動作フローである。
出する場合の動作フローである。
【図4】t≧2のときの重み付け対数値Gijm(xt) を算
出する場合の動作フローである。
出する場合の動作フローである。
10:音声認識装置 12:辞書部 14:音響処理部 16:音声区間検出部 18:HMM照合部 20:参照情報記憶部
Claims (1)
- 【請求項1】 隠れマルコフモデルを音声標準パタンと
し、該隠れマルコフモデルは、互いに無相関な複数個の
正規分布を有し当該モデルから出力される音声シンボル
ベクトルの出力確率を表す無相関混合正規分布を備え、
音声区間内の始端フレームから終端フレームまでに抽出
された入力音声特徴ベクトルの時系列と隠れマルコフモ
デルとの間の尤度を、各入力音声特徴ベクトルの出力確
率の対数値を用いて、計算し、最大の尤度を得た隠れマ
ルコフモデルに付与されているカテゴリ名を、当該音声
区間の入力音声信号に対する認識結果とする音声認識方
法において、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、 bijm(xt) =(2π)-p/2|ρijm |-1/2exp {−D
ijmt 2 /2}、 Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。)とするとき、総個数M個の各正規分布から算
出される重み付け確率gijm(xt) の対数値Gijm(xt) の
なかで最大の対数値Gijm(xt) を、入力音声特徴ベクト
ルxt の出力確率bij(xt)の対数値に用いて、隠れマル
コフモデルとの間の尤度を計算するに当り、 t≧2のときに第t番目のフレームにおいて最大の対数
値Gijm(xt) を検出するための最大値候補と、t≧2の
ときに第t−1番目のフレームにおいて最大の対数値G
ijm(xt) を得た正規分布がいずれであるかを表すインデ
ックスとを格納する参照情報記憶部を設け、 t=1では、 総個数M個の全正規分布について各正規分布毎に対数値
Gijm(xt) を算出して、最大の対数値Gijm(xt) を検出
し、該最大の対数値Gijm(xt) を第1番目のフレームに
おける入力音声特徴ベクトルxt の出力確率bij(xt)の
対数値とすると共に該最大の対数値Gijm(xt) を得た正
規分布に対応するインデックスを格納し、 t≧2では、(1)まずインデックスに対応する正規分
布を用いて算出した対数値Gijm(xt)を最大値候補とし
て格納し、(2)総個数M個の正規分布のうちインデッ
クスに対応しない残りの正規分布を用いた対数値G
ijm(xt) の算出では、−Dijmt 2 /2の項を算出するた
めの演算の一又は複数の演算間隔毎に、算出途上の対数
値Gijm(xt) を、最大値候補と比較し、(3−A)算出
途上の対数値Gijm(xt) が最大値候補より小さくなった
ら、当該対数値Gijm(xt) の算出を終了し、然る後、残
りの次の正規分布につき対数値Gijm (xt)の算出を開始
し、(3−B)算出途上の対数値Gijm(xt) が最大値候
補より小さくなることなく、当該対数値Gijm(xt) の算
出を終了したら、最大値候補を当該対数値Gijm
(xt)に書き換え、然る後、残りの次の正規分布につ
き対数値Gijm(xt) の算出を開始し、(4)総
個数M個の全正規分布について対数値Gijm(xt) の算出
を終了したら、このとき格納されている最大値候補を得
た正規分布に対応するインデックスに、参照情報記憶部
のインデックスを書換えると共に、当該最大値候補を、
出力確率bij(xt)の対数値に用いて、隠れマルコフモデ
ルとの間の尤度を計算することを特徴とする音声認識方
法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7225224A JPH0968996A (ja) | 1995-09-01 | 1995-09-01 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7225224A JPH0968996A (ja) | 1995-09-01 | 1995-09-01 | 音声認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0968996A true JPH0968996A (ja) | 1997-03-11 |
Family
ID=16825938
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7225224A Withdrawn JPH0968996A (ja) | 1995-09-01 | 1995-09-01 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0968996A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007011027A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
| JP2015152704A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
| JP2015152705A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
-
1995
- 1995-09-01 JP JP7225224A patent/JPH0968996A/ja not_active Withdrawn
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007011027A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
| JP2015152704A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
| JP2015152705A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
| US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
| US5072452A (en) | Automatic determination of labels and Markov word models in a speech recognition system | |
| EP0314908B1 (en) | Automatic determination of labels and markov word models in a speech recognition system | |
| AU665745B2 (en) | Methods and apparatus for verifying the originator of a sequence of operations | |
| EP0617827B1 (en) | Composite expert | |
| EP0715298B1 (en) | Reduction of search space in speech recognition using phone boundaries and phone ranking | |
| EP0921519B1 (en) | Technique for adaptation of hidden Markov Models for speech recognition | |
| JPH0372998B2 (ja) | ||
| JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
| JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
| JP2011065120A (ja) | すべての言語の音声識別及び音声識別を利用した単字入力の方法 | |
| JPH06274200A (ja) | 音声コード化装置及び方法 | |
| JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
| JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
| EP0453649A2 (en) | Method and apparatus for modeling words with composite Markov models | |
| Altınçay et al. | An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification | |
| Kumar et al. | Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review | |
| US6393397B1 (en) | Cohort model selection apparatus and method | |
| WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
| JPH11143486A (ja) | 話者適応装置および方法 | |
| JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
| JPH0968996A (ja) | 音声認識方法 | |
| US20020133343A1 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
| EP0435336B1 (en) | Reference pattern learning system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20021105 |