JPH05257492A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH05257492A JPH05257492A JP4055713A JP5571392A JPH05257492A JP H05257492 A JPH05257492 A JP H05257492A JP 4055713 A JP4055713 A JP 4055713A JP 5571392 A JP5571392 A JP 5571392A JP H05257492 A JPH05257492 A JP H05257492A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- hmm
- unit
- continuous hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】
【目的】厖大な学習データと計算量を必要とせず、高精
度に音声を認識することができるようにする。 【構成】発声された音声を特徴抽出部1に入力して、そ
の入力音声の特徴抽出を行なわせ、求めた特徴ベクトル
xを音声認識のために修正連続HMM処理部2に入力す
る。修正連続HMM処理部2は、識別すべきカテゴリk
ごとに、また連続HMMのモデルの各ステートsごとに
用意されている直交化ベクトルφm (k,s)および遷移確
率p(k,i,j) を、直交化ベクトルセット・遷移確率格納
部3から呼び出し、特徴抽出部1によって求められた特
徴ベクトルを、この呼び出したパラメータで表現された
連続HMMを通して認識する。
度に音声を認識することができるようにする。 【構成】発声された音声を特徴抽出部1に入力して、そ
の入力音声の特徴抽出を行なわせ、求めた特徴ベクトル
xを音声認識のために修正連続HMM処理部2に入力す
る。修正連続HMM処理部2は、識別すべきカテゴリk
ごとに、また連続HMMのモデルの各ステートsごとに
用意されている直交化ベクトルφm (k,s)および遷移確
率p(k,i,j) を、直交化ベクトルセット・遷移確率格納
部3から呼び出し、特徴抽出部1によって求められた特
徴ベクトルを、この呼び出したパラメータで表現された
連続HMMを通して認識する。
Description
【0001】
【産業上の利用分野】本発明は発声された音声を高精度
に認識するのに好適な音声認識方式に関する。
に認識するのに好適な音声認識方式に関する。
【0002】
【従来の技術】音声を一定の符号系列に変換するベクト
ル量子化を行ない、量子化符号系列をHidden Markov Mo
del (以下、HMMと呼ぶ)で認識する離散HMM方式
が近年成功を収めている。しかし、ベクトル量子化の際
に量子化誤差を生じるため、この方式はHMMの性能を
生かしきれないという問題がある。
ル量子化を行ない、量子化符号系列をHidden Markov Mo
del (以下、HMMと呼ぶ)で認識する離散HMM方式
が近年成功を収めている。しかし、ベクトル量子化の際
に量子化誤差を生じるため、この方式はHMMの性能を
生かしきれないという問題がある。
【0003】そこで、量子化誤差を減らすために連続出
力確率分布HMM(以下、連続HMMと呼ぶ)が用いら
れるようになった。連続HMMは、各カテゴリk(音韻
もしくは単語など)ごとに、遷移ネットワークモデルで
表現されている。各遷移ネットワークは、それを構成す
る各ステートs毎に平均ベクトルμ(k,s) と共分散行列
C(k,s) を有している。
力確率分布HMM(以下、連続HMMと呼ぶ)が用いら
れるようになった。連続HMMは、各カテゴリk(音韻
もしくは単語など)ごとに、遷移ネットワークモデルで
表現されている。各遷移ネットワークは、それを構成す
る各ステートs毎に平均ベクトルμ(k,s) と共分散行列
C(k,s) を有している。
【0004】HMMは図2に示すようにN個の状態
S1 ,S2 ,……,SN を持つ。初期状態は通常、図の
ように左端の状態に、また最終状態は右端に限定されて
いる。音声認識では、ある確率(遷移確率)で状態を遷
移するモデルが使われる。遷移の際には、ある確率(出
力確率)で特徴ベクトルを出力するが特徴ベクトルを出
力しないで状態を遷移するナル遷移を導入することもあ
る。観測できるのは特徴ベクトル系列だけであることか
らhidden(隠れ)markov model(HMM)と呼ばれてい
る。連続HMMでは、モデルMは以下の2つがパラメー
タとなる。 遷移確率p(k,i,j) :カテゴリkのモデルで状態Si に
いてSj に遷移する確率 出力確率g(k,i,j) :
S1 ,S2 ,……,SN を持つ。初期状態は通常、図の
ように左端の状態に、また最終状態は右端に限定されて
いる。音声認識では、ある確率(遷移確率)で状態を遷
移するモデルが使われる。遷移の際には、ある確率(出
力確率)で特徴ベクトルを出力するが特徴ベクトルを出
力しないで状態を遷移するナル遷移を導入することもあ
る。観測できるのは特徴ベクトル系列だけであることか
らhidden(隠れ)markov model(HMM)と呼ばれてい
る。連続HMMでは、モデルMは以下の2つがパラメー
タとなる。 遷移確率p(k,i,j) :カテゴリkのモデルで状態Si に
いてSj に遷移する確率 出力確率g(k,i,j) :
【0005】カテゴリkのモデルで状態Si からSj へ
の遷移の際に、特徴ベクトルxを出力する確率。Si →
Si の自己ループとSi →Sj の遷移の際に、同じ特徴
ベクトルを出力すると仮定する場合は、g(k,i,j) →g
(k,s) と状態sでまとめて書くことができる。以下で
は、説明の簡単化のために、g(k,s) を用いて説明す
る。HMMの評価は、モデルMが特徴ベクトル系列X=
x1 ,x2 ……を出力する条件付き確率Pr (X|M)
を各モデルMについて求めることになる。
の遷移の際に、特徴ベクトルxを出力する確率。Si →
Si の自己ループとSi →Sj の遷移の際に、同じ特徴
ベクトルを出力すると仮定する場合は、g(k,i,j) →g
(k,s) と状態sでまとめて書くことができる。以下で
は、説明の簡単化のために、g(k,s) を用いて説明す
る。HMMの評価は、モデルMが特徴ベクトル系列X=
x1 ,x2 ……を出力する条件付き確率Pr (X|M)
を各モデルMについて求めることになる。
【0006】図3は連続HMMを用いた従来の音声認識
方式の例を示している。図3において、特徴抽出部11
で音声の特徴抽出後、同抽出部11で求められた特徴ベ
クトルxが切替部SWを介して連続HMM処理部12に
入力される。連続HMM処理部12では、各モデルを仮
定してPr (X|M)が最大になるようなモデルMを探
す。具体的には、平均ベクトル・共分散行列・遷移確率
格納部13から、識別すべきカテゴリkごとに、また連
続HMMのモデルの各ステートsごとに用意されている
平均ベクトルμ(k,s) と共分散行列C(k,s) を呼び出
し、以下の計算を行なう。 g(k,s) =log P(k) − {log |C(k,s) |} /2 − [{ x−μ(k,s)}T C-1(k,s){x−μ(k,s)}] /2 ……(1) (1)式でP(k) はカテゴリkの出現する確率で一定値
である。またTは転値を、またC-1(k,s) はC(k,s) の
逆行列を示す。
方式の例を示している。図3において、特徴抽出部11
で音声の特徴抽出後、同抽出部11で求められた特徴ベ
クトルxが切替部SWを介して連続HMM処理部12に
入力される。連続HMM処理部12では、各モデルを仮
定してPr (X|M)が最大になるようなモデルMを探
す。具体的には、平均ベクトル・共分散行列・遷移確率
格納部13から、識別すべきカテゴリkごとに、また連
続HMMのモデルの各ステートsごとに用意されている
平均ベクトルμ(k,s) と共分散行列C(k,s) を呼び出
し、以下の計算を行なう。 g(k,s) =log P(k) − {log |C(k,s) |} /2 − [{ x−μ(k,s)}T C-1(k,s){x−μ(k,s)}] /2 ……(1) (1)式でP(k) はカテゴリkの出現する確率で一定値
である。またTは転値を、またC-1(k,s) はC(k,s) の
逆行列を示す。
【0007】認識の際には、連続HMMの各状態で、上
記(1)式の計算を行なうと共に、g(k,s) を良く知ら
れたビタビ(Viterbi) のアルゴリズム(例えば、中川聖
一著「確率モデルによる音声認識」、電子情報通信学会
発行、3.1.3節−(c)(p.44〜46))を使
用して時間方向に累積することによりモデルMごとの条
件付き確率Pr (X|M)を求める。この値が最大とな
るモデルMが認識結果となる。
記(1)式の計算を行なうと共に、g(k,s) を良く知ら
れたビタビ(Viterbi) のアルゴリズム(例えば、中川聖
一著「確率モデルによる音声認識」、電子情報通信学会
発行、3.1.3節−(c)(p.44〜46))を使
用して時間方向に累積することによりモデルMごとの条
件付き確率Pr (X|M)を求める。この値が最大とな
るモデルMが認識結果となる。
【0008】また、HMMの学習はHMM学習部14で
特徴ベクトル系列Xを与えて、Pr(X|M)が最大と
なるモデルMのパラメータ、即ち遷移確率p(k,i,j) お
よび出力確率g(k,s) を求めるための{μ(k,s) ,C
(k,s) }を推定すれば良い。これらのパラメータ推定
は、良く知られた forward-backward アルゴリズム(例
えば、中川聖一著「確率モデルによる音声認識」、電子
情報通信学会発行、3.3.2節(p.69〜73))
を用いて行なわれる。
特徴ベクトル系列Xを与えて、Pr(X|M)が最大と
なるモデルMのパラメータ、即ち遷移確率p(k,i,j) お
よび出力確率g(k,s) を求めるための{μ(k,s) ,C
(k,s) }を推定すれば良い。これらのパラメータ推定
は、良く知られた forward-backward アルゴリズム(例
えば、中川聖一著「確率モデルによる音声認識」、電子
情報通信学会発行、3.3.2節(p.69〜73))
を用いて行なわれる。
【0009】以上のようにして、発声された入力音声を
連続HMM処理部12で認識処理し、その結果から最も
確率の高いカテゴリを判定部15で判定することによっ
て、その入力音声を高精度に認識することが可能とな
る。
連続HMM処理部12で認識処理し、その結果から最も
確率の高いカテゴリを判定部15で判定することによっ
て、その入力音声を高精度に認識することが可能とな
る。
【0010】連続HMMの問題とされている点は、共分
散行列の次元数が大きいため、計算量が大きく、また認
識に有効な共分散行列を形成するには厖大な学習データ
が必要となることである。これを回避するために、共分
散行列の対角要素のみを利用する方法や、複数の分布を
仮定する混合分布方式などが提案されている。
散行列の次元数が大きいため、計算量が大きく、また認
識に有効な共分散行列を形成するには厖大な学習データ
が必要となることである。これを回避するために、共分
散行列の対角要素のみを利用する方法や、複数の分布を
仮定する混合分布方式などが提案されている。
【0011】
【発明が解決しようとする課題】上記したように、連続
HMMを適用した従来の音声認識方式では、共分散行列
の次元数が大きいため、計算量が大きく、また認識に有
効な共分散行列を形成するには厖大な学習データが必要
となるなどの問題があった。
HMMを適用した従来の音声認識方式では、共分散行列
の次元数が大きいため、計算量が大きく、また認識に有
効な共分散行列を形成するには厖大な学習データが必要
となるなどの問題があった。
【0012】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、厖大な学習デー
タと計算量を必要とせず、しかも高精度に音声を認識す
ることのできる音声認識方式を提供することにある。
れたもので、その目的とするところは、厖大な学習デー
タと計算量を必要とせず、しかも高精度に音声を認識す
ることのできる音声認識方式を提供することにある。
【0013】
【課題を解決するための手段】本発明は上記目的を達成
するために、音声信号を入力して特徴抽出する特徴抽出
手段と、この特徴抽出手段によって求められた特徴ベク
トルを、予め定められた所定の単位の直交化ベクトルセ
ットを含むパラメータで表現された連続HMMを通して
認識する処理手段とを備えたことを特徴とする。
するために、音声信号を入力して特徴抽出する特徴抽出
手段と、この特徴抽出手段によって求められた特徴ベク
トルを、予め定められた所定の単位の直交化ベクトルセ
ットを含むパラメータで表現された連続HMMを通して
認識する処理手段とを備えたことを特徴とする。
【0014】
【作用】上記の構成によれば、予め定められた所定の単
位の直交化ベクトルセットを含むパラメータで連続HM
M(修正連続HMM)が表現され、しかも直交化ベクト
ルセットの軸の数(L)は比較的に小さくて済むことか
ら、従来、連続HMMの問題とされていた共分散行列の
次元数が大きいため計算量が大きく、また認識に有効な
共分散行列を形成するにも厖大な学習データが必要であ
った点を回避することが可能となり、高精度の音声認識
を実現できる。
位の直交化ベクトルセットを含むパラメータで連続HM
M(修正連続HMM)が表現され、しかも直交化ベクト
ルセットの軸の数(L)は比較的に小さくて済むことか
ら、従来、連続HMMの問題とされていた共分散行列の
次元数が大きいため計算量が大きく、また認識に有効な
共分散行列を形成するにも厖大な学習データが必要であ
った点を回避することが可能となり、高精度の音声認識
を実現できる。
【0015】
【実施例】図1は本発明の音声認識方式を適用する連続
音声認識装置の一実施例を示す概略構成図である。
音声認識装置の一実施例を示す概略構成図である。
【0016】この図1に示す連続音声認識装置は、基本
的には、スペクトル、LPCケプストラム、Δケプスト
ラムなど音声認識で用いられる特徴ベクトル、もしくは
これらの特徴ベクトルで表現される一定のセグメント
(特徴ベクトルの時系列、以下ではこのような2次元の
特徴ベクトルも含め、単に特徴ベクトルと呼ぶ)を認識
処理単位として、これらの特徴ベクトルを予め定められ
た所定の単位の直交化ベクトルセットを含むパラメータ
で表現された連続HMMを通して認識するものである。
的には、スペクトル、LPCケプストラム、Δケプスト
ラムなど音声認識で用いられる特徴ベクトル、もしくは
これらの特徴ベクトルで表現される一定のセグメント
(特徴ベクトルの時系列、以下ではこのような2次元の
特徴ベクトルも含め、単に特徴ベクトルと呼ぶ)を認識
処理単位として、これらの特徴ベクトルを予め定められ
た所定の単位の直交化ベクトルセットを含むパラメータ
で表現された連続HMMを通して認識するものである。
【0017】図1において、特徴抽出部1には、発声さ
れた音声の信号が入力される。特徴抽出部1は、この入
力音声の特徴抽出を行ない、特徴ベクトルxを求める。
この特徴ベクトルxは、切替部SWを介して修正連続H
MM処理部2に入力される。
れた音声の信号が入力される。特徴抽出部1は、この入
力音声の特徴抽出を行ない、特徴ベクトルxを求める。
この特徴ベクトルxは、切替部SWを介して修正連続H
MM処理部2に入力される。
【0018】修正連続HMM処理部2は、(図3に示し
た従来の音声認識装置における平均ベクトル・共分散行
列・遷移確率格納部13に対応する)直交化ベクトルセ
ット・遷移確率格納部3と接続されている。この直交化
ベクトルセット・遷移確率格納部3には、識別すべきカ
テゴリkごとに、また連続HMMのモデルの各ステート
sごとに用意されている直交化ベクトルφm (k,s) およ
び遷移確率p(k,i,j)等が予め格納されている。
た従来の音声認識装置における平均ベクトル・共分散行
列・遷移確率格納部13に対応する)直交化ベクトルセ
ット・遷移確率格納部3と接続されている。この直交化
ベクトルセット・遷移確率格納部3には、識別すべきカ
テゴリkごとに、また連続HMMのモデルの各ステート
sごとに用意されている直交化ベクトルφm (k,s) およ
び遷移確率p(k,i,j)等が予め格納されている。
【0019】修正連続HMM処理部2は、特徴抽出部1
により求められた特徴ベクトルxが入力されると、直交
化ベクトルセット・遷移確率格納部3の格納内容を用
い、各モデルを仮定してPr (X|M)が最大になるよ
うなモデルMを探す。
により求められた特徴ベクトルxが入力されると、直交
化ベクトルセット・遷移確率格納部3の格納内容を用
い、各モデルを仮定してPr (X|M)が最大になるよ
うなモデルMを探す。
【0020】即ち修正連続HMM処理部2は、直交化ベ
クトルセット・遷移確率格納部3から、識別すべきカテ
ゴリkごとに、また連続HMMのモデルの各ステートs
ごとに用意されている直交化ベクトルφm (k,s) を呼び
出し、以下の(2)式もしくは(3)式の計算を行な
う。
クトルセット・遷移確率格納部3から、識別すべきカテ
ゴリkごとに、また連続HMMのモデルの各ステートs
ごとに用意されている直交化ベクトルφm (k,s) を呼び
出し、以下の(2)式もしくは(3)式の計算を行な
う。
【0021】
【数1】
【0022】上記(3)式でP(k) はカテゴリkの出現
する確率である。カテゴリkの生起する確率を同じと考
えると、これは一定値を取るため、直交化ベクトルセッ
ト・遷移確率格納部3に格納する必要はない。また上記
(2),(3)式の[・]は内積を、Lは直交化ベクト
ルの個数を示す。このLの値は、xの次元数にもよる
が、3≦L≦40程度である。なお、特徴ベクトルxは
予め正規化されているものとした。
する確率である。カテゴリkの生起する確率を同じと考
えると、これは一定値を取るため、直交化ベクトルセッ
ト・遷移確率格納部3に格納する必要はない。また上記
(2),(3)式の[・]は内積を、Lは直交化ベクト
ルの個数を示す。このLの値は、xの次元数にもよる
が、3≦L≦40程度である。なお、特徴ベクトルxは
予め正規化されているものとした。
【0023】上記(3)式では、直交化ベクトル即ち固
有ベクトルφm (k,s) の他に、カテゴリkの出現する確
率P(k) 、固有値λm (k,s) および平均ベクトルμ(k,
s) を使用している。この確率P(k) 、固有値λm (k,s)
および平均ベクトルμ(k,s)も、φm (k,s) と同様に、
図1の直交化ベクトルセット・遷移確率格納部3に予め
格納されている(但し、(3)式を適用する場合)。
有ベクトルφm (k,s) の他に、カテゴリkの出現する確
率P(k) 、固有値λm (k,s) および平均ベクトルμ(k,
s) を使用している。この確率P(k) 、固有値λm (k,s)
および平均ベクトルμ(k,s)も、φm (k,s) と同様に、
図1の直交化ベクトルセット・遷移確率格納部3に予め
格納されている(但し、(3)式を適用する場合)。
【0024】なお、(3)式において、λm (k,s) の値
に代えて、重み付け関数fm (k,s)を用いること
も可能である。例えば、fm (k,s) としてλm
(k,s) のn平方根を取るなど低次の値を小さく評価する
などの変形を行なうことにより、性能が向上する場合が
ある。
に代えて、重み付け関数fm (k,s)を用いること
も可能である。例えば、fm (k,s) としてλm
(k,s) のn平方根を取るなど低次の値を小さく評価する
などの変形を行なうことにより、性能が向上する場合が
ある。
【0025】上記の(2)式は、(3)式でP(k) がカ
テゴリkに共通で、また固有値λm(k,s) も共通の値に
縮退した上に、さらに平均ベクトルμ(k,s) に関する次
の3つの仮定のうちの1つを加えたものと見ることも可
能である。
テゴリkに共通で、また固有値λm(k,s) も共通の値に
縮退した上に、さらに平均ベクトルμ(k,s) に関する次
の3つの仮定のうちの1つを加えたものと見ることも可
能である。
【0026】仮定1:「任意の特徴ベクトルには、常に
そのベクトルを反転したベクトルが存在する」。これか
ら、平均ベクトルμ(k,s) の値は“0”と置かれ、
(3)式はバイアス成分を除いて(2)式と等価とな
る。
そのベクトルを反転したベクトルが存在する」。これか
ら、平均ベクトルμ(k,s) の値は“0”と置かれ、
(3)式はバイアス成分を除いて(2)式と等価とな
る。
【0027】仮定2:「平均ベクトルμ(k,s) は、学習
データが増加するに従い、共通のベクトルμに漸近して
いく」。この場合は、(2)式の特徴ベクトルxは元の
ベクトルx′に一種の正準変換(x′−μ)→xを施し
たものと考えれば良い。共通ベクトルμは、学習に用い
るデータから特徴ベクトルの平均ベクトルを求めておけ
ば良い。なお、この共通ベクトルには、カテゴリkにつ
いて共通なベクトルμ(s) 、あるいはステートについて
共通なベクトルμ(k) を用いても良い。
データが増加するに従い、共通のベクトルμに漸近して
いく」。この場合は、(2)式の特徴ベクトルxは元の
ベクトルx′に一種の正準変換(x′−μ)→xを施し
たものと考えれば良い。共通ベクトルμは、学習に用い
るデータから特徴ベクトルの平均ベクトルを求めておけ
ば良い。なお、この共通ベクトルには、カテゴリkにつ
いて共通なベクトルμ(s) 、あるいはステートについて
共通なベクトルμ(k) を用いても良い。
【0028】仮定3:仮定2をさらに進めて、「平均ベ
クトルμ(k,s) が漸近していく共通のベクトルμは、最
終的に全ての要素が同じ値を取るベクトルμ0 =(ε,
ε,…,ε)に収斂する」。この場合は、(2)式の特
徴ベクトルxは元のベクトルx′に次の正準変換(x′
−ε)→xを施したものと考えれば良い。さらに、次の
正準変換(x′−Av(x′))→xも考えられる。ここ
で、Av(x′)は特徴ベクトルxの平均値である。
(2)式のg(k,s) は、厳密には出現確率ではなく、特
徴ベクトルxの出現の確信度と呼ぶべきものである。
クトルμ(k,s) が漸近していく共通のベクトルμは、最
終的に全ての要素が同じ値を取るベクトルμ0 =(ε,
ε,…,ε)に収斂する」。この場合は、(2)式の特
徴ベクトルxは元のベクトルx′に次の正準変換(x′
−ε)→xを施したものと考えれば良い。さらに、次の
正準変換(x′−Av(x′))→xも考えられる。ここ
で、Av(x′)は特徴ベクトルxの平均値である。
(2)式のg(k,s) は、厳密には出現確率ではなく、特
徴ベクトルxの出現の確信度と呼ぶべきものである。
【0029】さて、修正連続HMM処理部2は、上記
(2)式または(3)式の計算により、各カテゴリkご
とに、また各ステートsごとにg(k,s) の値を求める
と、そのg(k,s) の値(対数化済み)と直交化ベクトル
セット・遷移確率格納部3から呼び出される遷移確率p
(k,i,j) の対数値を加算する。そして修正連続HMM処
理部2は、入力特徴ベクトル系列に対してこの加算値を
累積した値と累積回数を、同処理部2に接続されている
判定部5へ送る。
(2)式または(3)式の計算により、各カテゴリkご
とに、また各ステートsごとにg(k,s) の値を求める
と、そのg(k,s) の値(対数化済み)と直交化ベクトル
セット・遷移確率格納部3から呼び出される遷移確率p
(k,i,j) の対数値を加算する。そして修正連続HMM処
理部2は、入力特徴ベクトル系列に対してこの加算値を
累積した値と累積回数を、同処理部2に接続されている
判定部5へ送る。
【0030】ここで、HMMの学習について説明する。
HMMの学習のためには、まず特徴抽出部1から修正H
MM学習部4に対し、切替部SWを介して特徴ベクトル
系列Xを与える。そして、この特徴ベクトル系列Xを受
けた修正HMM学習部4において、Pr (X|M)が最
大となるモデルMのパラメータ、即ち遷移確率p(k,i,
j) および出力確率g(k,s) を求めるための{φm (k,s)
}(もしくは、(3)式を適用する場合ならば、{φ
m (k,s) ,λm (k,s) ,μ(k,s) })を推定する。
HMMの学習のためには、まず特徴抽出部1から修正H
MM学習部4に対し、切替部SWを介して特徴ベクトル
系列Xを与える。そして、この特徴ベクトル系列Xを受
けた修正HMM学習部4において、Pr (X|M)が最
大となるモデルMのパラメータ、即ち遷移確率p(k,i,
j) および出力確率g(k,s) を求めるための{φm (k,s)
}(もしくは、(3)式を適用する場合ならば、{φ
m (k,s) ,λm (k,s) ,μ(k,s) })を推定する。
【0031】この修正HMM学習部4におけるパラメー
タ推定は、図3に示した従来の音声認識装置における連
続HMMの場合と同様に、良く知られた forward-backw
ardアルゴリズムを適用することによって行なわれる。
但し、このパラメータ推定において、図1の修正HMM
学習部4と図3に示した従来のHMM学習部14とは、
以下の点で異なる。まず従来方式では、図3に示すHM
M学習部14は、これまでに説明したように、平均ベク
トルと共分散行列を求めるだけである。
タ推定は、図3に示した従来の音声認識装置における連
続HMMの場合と同様に、良く知られた forward-backw
ardアルゴリズムを適用することによって行なわれる。
但し、このパラメータ推定において、図1の修正HMM
学習部4と図3に示した従来のHMM学習部14とは、
以下の点で異なる。まず従来方式では、図3に示すHM
M学習部14は、これまでに説明したように、平均ベク
トルと共分散行列を求めるだけである。
【0032】これに対して、本実施例における修正HM
M学習部4では、次のような演算が付加されている。ま
ず、上記(2)式を用いた場合は、平均ベクトルμ(k,
s) と共分散行列C(k,s) の2つを求める代わりに、1
つの相関行列R(k,s) を求める。そして、学習の最終段
階において相関行列からK−L変換を計算することによ
り上位L個の固有ベクトルφm (k,s) を計算し、これを
認識の際に使用する。また、上記(3)式を用いた場合
は、平均ベクトルμ(k,s) と共分散行列C(k,s)の2つ
を求めた後、学習の最終段階において共分散行列からK
−L変換を計算することにより上位L個の固有ベクトル
φm (k,s) と固有値λm (k,s) を計算し、これと平均ベ
クトルμ(k,s) を認識の際に使用する。どちらの場合
も、K−L変換の操作が付加されていることに注意され
たい。
M学習部4では、次のような演算が付加されている。ま
ず、上記(2)式を用いた場合は、平均ベクトルμ(k,
s) と共分散行列C(k,s) の2つを求める代わりに、1
つの相関行列R(k,s) を求める。そして、学習の最終段
階において相関行列からK−L変換を計算することによ
り上位L個の固有ベクトルφm (k,s) を計算し、これを
認識の際に使用する。また、上記(3)式を用いた場合
は、平均ベクトルμ(k,s) と共分散行列C(k,s)の2つ
を求めた後、学習の最終段階において共分散行列からK
−L変換を計算することにより上位L個の固有ベクトル
φm (k,s) と固有値λm (k,s) を計算し、これと平均ベ
クトルμ(k,s) を認識の際に使用する。どちらの場合
も、K−L変換の操作が付加されていることに注意され
たい。
【0033】以上のようにして、発声された入力音声を
修正連続HMM処理部2で認識処理し、その結果から最
も確率の高いカテゴリを判定部5で累積回数を考慮して
判定することによって、その入力音声を高精度に認識す
ることが可能となる。
修正連続HMM処理部2で認識処理し、その結果から最
も確率の高いカテゴリを判定部5で累積回数を考慮して
判定することによって、その入力音声を高精度に認識す
ることが可能となる。
【0034】なお、前記実施例では、特徴ベクトルとし
て音声分析後の特徴系列を使用する例を示したが、これ
に限るものではない。例えば、一定のセグメント系列を
抽出した後、セグメントのスコアを要素とするベクトル
を特徴ベクトルとして利用し連続HMMへ入力すること
により、騒音や種々のパターン変動に強い音声認識方式
を実現することも可能である。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。
て音声分析後の特徴系列を使用する例を示したが、これ
に限るものではない。例えば、一定のセグメント系列を
抽出した後、セグメントのスコアを要素とするベクトル
を特徴ベクトルとして利用し連続HMMへ入力すること
により、騒音や種々のパターン変動に強い音声認識方式
を実現することも可能である。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。
【0035】
【発明の効果】以上に説明したように本発明によれば、
入力音声の特徴抽出によって求められた特徴ベクトルが
音声認識のために通される連続HMMとして、予め定め
られた所定の単位の直交化ベクトルセットを含むパラメ
ータで表現された修正連続HMMを用いる構成としたこ
とにより、しかも直交化ベクトルセットの軸の数(L)
は比較的に小さくて済み、認識精度を低下させる不要成
分は使用されないことから、連続HMMの問題とされて
いる共分散行列の次元数が大きいため計算量が大きく、
また認識に有効な共分散行列を形成するにも厖大な学習
データが必要であった点を回避して、高精度の音声認識
を効果的に進めることができ、演算処理が膨大化するこ
ともない等の実用上多大なる効果が奏せられる。
入力音声の特徴抽出によって求められた特徴ベクトルが
音声認識のために通される連続HMMとして、予め定め
られた所定の単位の直交化ベクトルセットを含むパラメ
ータで表現された修正連続HMMを用いる構成としたこ
とにより、しかも直交化ベクトルセットの軸の数(L)
は比較的に小さくて済み、認識精度を低下させる不要成
分は使用されないことから、連続HMMの問題とされて
いる共分散行列の次元数が大きいため計算量が大きく、
また認識に有効な共分散行列を形成するにも厖大な学習
データが必要であった点を回避して、高精度の音声認識
を効果的に進めることができ、演算処理が膨大化するこ
ともない等の実用上多大なる効果が奏せられる。
【図1】本発明の音声認識方式を適用する連続音声認識
装置の一実施例を示す概略構成図。
装置の一実施例を示す概略構成図。
【図2】音声で用いられるHMMの代表例を示す図。
【図3】従来の連続HMMを用いた音声認識方式を説明
するための図。
するための図。
1…特徴抽出部、2…修正連続HMM処理部、3…直交
化ベクトルセット・遷移確率格納部、4…修正HMM学
習部、5…判定部。
化ベクトルセット・遷移確率格納部、4…修正HMM学
習部、5…判定部。
Claims (1)
- 【請求項1】 音声信号を入力して特徴抽出する特徴抽
出手段と、 この特徴抽出手段によって求められた特徴ベクトルを、
予め定められた所定の単位の直交化ベクトルセットを含
むパラメータで表現された連続HMM(隠れマルコフモ
デル)を通して認識する処理手段と、 を具備したことを特徴とする音声認識方式。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4055713A JPH05257492A (ja) | 1992-03-13 | 1992-03-13 | 音声認識方式 |
| EP93104043A EP0560378B1 (en) | 1992-03-13 | 1993-03-12 | Recognition system |
| DE69318447T DE69318447T2 (de) | 1992-03-13 | 1993-03-12 | Erkennungssystem |
| US08/030,618 US5506933A (en) | 1992-03-13 | 1993-03-12 | Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4055713A JPH05257492A (ja) | 1992-03-13 | 1992-03-13 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05257492A true JPH05257492A (ja) | 1993-10-08 |
Family
ID=13006522
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4055713A Pending JPH05257492A (ja) | 1992-03-13 | 1992-03-13 | 音声認識方式 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5506933A (ja) |
| EP (1) | EP0560378B1 (ja) |
| JP (1) | JPH05257492A (ja) |
| DE (1) | DE69318447T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009081707A1 (ja) * | 2007-12-20 | 2009-07-02 | Nec Corporation | 統計モデル学習装置、方法及びプログラム |
Families Citing this family (30)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
| FI98162C (fi) * | 1994-05-30 | 1997-04-25 | Tecnomen Oy | HMM-malliin perustuva puheentunnistusmenetelmä |
| JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
| JP2980228B2 (ja) * | 1994-10-25 | 1999-11-22 | 日本ビクター株式会社 | 音声認識用音響モデル生成方法 |
| JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
| US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
| US5812972A (en) * | 1994-12-30 | 1998-09-22 | Lucent Technologies Inc. | Adaptive decision directed speech recognition bias equalization method and apparatus |
| US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
| JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
| JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
| US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
| JP2991287B2 (ja) * | 1997-01-28 | 1999-12-20 | 日本電気株式会社 | 抑制標準パターン選択式話者認識装置 |
| JP2991288B2 (ja) * | 1997-01-30 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
| US6260013B1 (en) * | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
| AT414325B (de) * | 1998-02-18 | 2007-07-15 | Teamaxess Ticketing Gmbh | Anordnung zum verkauf von berechtigungen |
| US6606624B1 (en) * | 1999-08-13 | 2003-08-12 | The Regents Of The University Of California | Apparatus and method for recommending to an individual selective information contained within a computer network |
| US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
| US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
| KR100446630B1 (ko) * | 2002-05-08 | 2004-09-04 | 삼성전자주식회사 | 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 |
| US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
| US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
| US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
| US8239332B2 (en) | 2007-11-20 | 2012-08-07 | Microsoft Corporation | Constrained line search optimization for discriminative training of HMMS |
| US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
| US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
| US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
| US9105053B2 (en) * | 2010-03-23 | 2015-08-11 | Nokia Technologies Oy | Method and apparatus for determining a user age range |
| US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
| JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
| US11132211B1 (en) * | 2018-09-24 | 2021-09-28 | Apple Inc. | Neural finite state machines |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
| JPH0296800A (ja) * | 1988-10-03 | 1990-04-09 | Nec Corp | 連続音声認識装置 |
| US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
| JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
-
1992
- 1992-03-13 JP JP4055713A patent/JPH05257492A/ja active Pending
-
1993
- 1993-03-12 DE DE69318447T patent/DE69318447T2/de not_active Expired - Fee Related
- 1993-03-12 EP EP93104043A patent/EP0560378B1/en not_active Expired - Lifetime
- 1993-03-12 US US08/030,618 patent/US5506933A/en not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009081707A1 (ja) * | 2007-12-20 | 2009-07-02 | Nec Corporation | 統計モデル学習装置、方法及びプログラム |
| JP5493867B2 (ja) * | 2007-12-20 | 2014-05-14 | 日本電気株式会社 | 統計モデル学習装置、方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| DE69318447T2 (de) | 1998-11-05 |
| EP0560378A1 (en) | 1993-09-15 |
| DE69318447D1 (de) | 1998-06-18 |
| US5506933A (en) | 1996-04-09 |
| EP0560378B1 (en) | 1998-05-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH05257492A (ja) | 音声認識方式 | |
| US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
| US6151574A (en) | Technique for adaptation of hidden markov models for speech recognition | |
| JP2795058B2 (ja) | 時系列信号処理装置 | |
| US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
| EP0492470A2 (en) | Method of speech recognition | |
| JPH02238496A (ja) | 音声認識装置 | |
| US5765133A (en) | System for building a language model network for speech recognition | |
| WO1998040876A9 (en) | Speech recognition system employing discriminatively trained models | |
| JPH064093A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
| US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
| US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
| US20050096902A1 (en) | Speech recognition from concurrent visual and audible inputs | |
| JP2010078650A (ja) | 音声認識装置及びその方法 | |
| JPH0372997B2 (ja) | ||
| US5737488A (en) | Speech recognizer | |
| JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| US5828998A (en) | Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system | |
| JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
| CN120071905A (zh) | 一种基于mfcc算法和vq-hmm算法的语音识别与分析方法 | |
| JP2938865B1 (ja) | 音声認識装置 | |
| JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
| JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
| JP3044741B2 (ja) | 標準パターン学習方法 | |
| JPH10207485A (ja) | 音声認識装置及び話者適応方法 |