JPH05257492A

JPH05257492A - 音声認識方式

Info

Publication number: JPH05257492A
Application number: JP4055713A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-03-13
Filing date: 1992-03-13
Publication date: 1993-10-08
Also published as: DE69318447T2; EP0560378A1; DE69318447D1; US5506933A; EP0560378B1

Abstract

(57)【要約】【目的】厖大な学習データと計算量を必要とせず、高精
度に音声を認識することができるようにする。【構成】発声された音声を特徴抽出部１に入力して、そ
の入力音声の特徴抽出を行なわせ、求めた特徴ベクトル
ｘを音声認識のために修正連続ＨＭＭ処理部２に入力す
る。修正連続ＨＭＭ処理部２は、識別すべきカテゴリｋ
ごとに、また連続ＨＭＭのモデルの各ステートｓごとに
用意されている直交化ベクトルφ_m(k,s)および遷移確
率ｐ(k,i,j) を、直交化ベクトルセット・遷移確率格納
部３から呼び出し、特徴抽出部１によって求められた特
徴ベクトルを、この呼び出したパラメータで表現された
連続ＨＭＭを通して認識する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は発声された音声を高精度
に認識するのに好適な音声認識方式に関する。

【０００２】

【従来の技術】音声を一定の符号系列に変換するベクト
ル量子化を行ない、量子化符号系列をHidden Markov Mo
del （以下、ＨＭＭと呼ぶ）で認識する離散ＨＭＭ方式
が近年成功を収めている。しかし、ベクトル量子化の際
に量子化誤差を生じるため、この方式はＨＭＭの性能を
生かしきれないという問題がある。

【０００３】そこで、量子化誤差を減らすために連続出
力確率分布ＨＭＭ（以下、連続ＨＭＭと呼ぶ）が用いら
れるようになった。連続ＨＭＭは、各カテゴリｋ（音韻
もしくは単語など）ごとに、遷移ネットワークモデルで
表現されている。各遷移ネットワークは、それを構成す
る各ステートｓ毎に平均ベクトルμ(k,s) と共分散行列
Ｃ(k,s) を有している。

【０００４】ＨＭＭは図２に示すようにＮ個の状態
Ｓ₁，Ｓ₂，……，Ｓ_Nを持つ。初期状態は通常、図の
ように左端の状態に、また最終状態は右端に限定されて
いる。音声認識では、ある確率（遷移確率）で状態を遷
移するモデルが使われる。遷移の際には、ある確率（出
力確率）で特徴ベクトルを出力するが特徴ベクトルを出
力しないで状態を遷移するナル遷移を導入することもあ
る。観測できるのは特徴ベクトル系列だけであることか
らhidden（隠れ）markov model(ＨＭＭ）と呼ばれてい
る。連続ＨＭＭでは、モデルＭは以下の２つがパラメー
タとなる。遷移確率ｐ(k,i,j) ：カテゴリｋのモデルで状態Ｓ_iに
いてＳ_jに遷移する確率出力確率ｇ(k,i,j) ：

【０００５】カテゴリｋのモデルで状態Ｓ_iからＳ_jへ
の遷移の際に、特徴ベクトルｘを出力する確率。Ｓ_i→
Ｓ_iの自己ループとＳ_i→Ｓ_jの遷移の際に、同じ特徴
ベクトルを出力すると仮定する場合は、ｇ(k,i,j) →ｇ
(k,s) と状態ｓでまとめて書くことができる。以下で
は、説明の簡単化のために、ｇ(k,s) を用いて説明す
る。ＨＭＭの評価は、モデルＭが特徴ベクトル系列Ｘ＝
ｘ₁，ｘ₂……を出力する条件付き確率Ｐ_r（Ｘ｜Ｍ）
を各モデルＭについて求めることになる。

【０００６】図３は連続ＨＭＭを用いた従来の音声認識
方式の例を示している。図３において、特徴抽出部１１
で音声の特徴抽出後、同抽出部１１で求められた特徴ベ
クトルｘが切替部ＳＷを介して連続ＨＭＭ処理部１２に
入力される。連続ＨＭＭ処理部１２では、各モデルを仮
定してＰr （Ｘ｜Ｍ）が最大になるようなモデルＭを探
す。具体的には、平均ベクトル・共分散行列・遷移確率
格納部１３から、識別すべきカテゴリｋごとに、また連
続ＨＭＭのモデルの各ステートｓごとに用意されている
平均ベクトルμ(k,s) と共分散行列Ｃ(k,s) を呼び出
し、以下の計算を行なう。ｇ(k,s) ＝log Ｐ(k) − {log ｜Ｃ(k,s) ｜} ／２ − [{ ｘ−μ(k,s)}^T Ｃ^-1(k,s){ｘ−μ(k,s)}] ／２ ……（１）（１）式でＰ(k) はカテゴリｋの出現する確率で一定値
である。またＴは転値を、またＣ^-1(k,s) はＣ(k,s) の
逆行列を示す。

【０００７】認識の際には、連続ＨＭＭの各状態で、上
記（１）式の計算を行なうと共に、ｇ(k,s) を良く知ら
れたビタビ(Viterbi) のアルゴリズム（例えば、中川聖
一著「確率モデルによる音声認識」、電子情報通信学会
発行、３．１．３節−（ｃ）（ｐ．４４〜４６））を使
用して時間方向に累積することによりモデルＭごとの条
件付き確率Ｐr （Ｘ｜Ｍ）を求める。この値が最大とな
るモデルＭが認識結果となる。

【０００８】また、ＨＭＭの学習はＨＭＭ学習部１４で
特徴ベクトル系列Ｘを与えて、Ｐr（Ｘ｜Ｍ）が最大と
なるモデルＭのパラメータ、即ち遷移確率ｐ(k,i,j) お
よび出力確率ｇ(k,s) を求めるための｛μ(k,s) ，Ｃ
(k,s) ｝を推定すれば良い。これらのパラメータ推定
は、良く知られた forward-backward アルゴリズム（例
えば、中川聖一著「確率モデルによる音声認識」、電子
情報通信学会発行、３．３．２節（ｐ．６９〜７３））
を用いて行なわれる。

【０００９】以上のようにして、発声された入力音声を
連続ＨＭＭ処理部１２で認識処理し、その結果から最も
確率の高いカテゴリを判定部１５で判定することによっ
て、その入力音声を高精度に認識することが可能とな
る。

【００１０】連続ＨＭＭの問題とされている点は、共分
散行列の次元数が大きいため、計算量が大きく、また認
識に有効な共分散行列を形成するには厖大な学習データ
が必要となることである。これを回避するために、共分
散行列の対角要素のみを利用する方法や、複数の分布を
仮定する混合分布方式などが提案されている。

【００１１】

【発明が解決しようとする課題】上記したように、連続
ＨＭＭを適用した従来の音声認識方式では、共分散行列
の次元数が大きいため、計算量が大きく、また認識に有
効な共分散行列を形成するには厖大な学習データが必要
となるなどの問題があった。

【００１２】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、厖大な学習デー
タと計算量を必要とせず、しかも高精度に音声を認識す
ることのできる音声認識方式を提供することにある。

【００１３】

【課題を解決するための手段】本発明は上記目的を達成
するために、音声信号を入力して特徴抽出する特徴抽出
手段と、この特徴抽出手段によって求められた特徴ベク
トルを、予め定められた所定の単位の直交化ベクトルセ
ットを含むパラメータで表現された連続ＨＭＭを通して
認識する処理手段とを備えたことを特徴とする。

【００１４】

【作用】上記の構成によれば、予め定められた所定の単
位の直交化ベクトルセットを含むパラメータで連続ＨＭ
Ｍ（修正連続ＨＭＭ）が表現され、しかも直交化ベクト
ルセットの軸の数（Ｌ）は比較的に小さくて済むことか
ら、従来、連続ＨＭＭの問題とされていた共分散行列の
次元数が大きいため計算量が大きく、また認識に有効な
共分散行列を形成するにも厖大な学習データが必要であ
った点を回避することが可能となり、高精度の音声認識
を実現できる。

【００１５】

【実施例】図１は本発明の音声認識方式を適用する連続
音声認識装置の一実施例を示す概略構成図である。

【００１６】この図１に示す連続音声認識装置は、基本
的には、スペクトル、ＬＰＣケプストラム、Δケプスト
ラムなど音声認識で用いられる特徴ベクトル、もしくは
これらの特徴ベクトルで表現される一定のセグメント
（特徴ベクトルの時系列、以下ではこのような２次元の
特徴ベクトルも含め、単に特徴ベクトルと呼ぶ）を認識
処理単位として、これらの特徴ベクトルを予め定められ
た所定の単位の直交化ベクトルセットを含むパラメータ
で表現された連続ＨＭＭを通して認識するものである。

【００１７】図１において、特徴抽出部１には、発声さ
れた音声の信号が入力される。特徴抽出部１は、この入
力音声の特徴抽出を行ない、特徴ベクトルｘを求める。
この特徴ベクトルｘは、切替部ＳＷを介して修正連続Ｈ
ＭＭ処理部２に入力される。

【００１８】修正連続ＨＭＭ処理部２は、（図３に示し
た従来の音声認識装置における平均ベクトル・共分散行
列・遷移確率格納部１３に対応する）直交化ベクトルセ
ット・遷移確率格納部３と接続されている。この直交化
ベクトルセット・遷移確率格納部３には、識別すべきカ
テゴリｋごとに、また連続ＨＭＭのモデルの各ステート
ｓごとに用意されている直交化ベクトルφ_m(k,s) およ
び遷移確率ｐ(k,i,j)等が予め格納されている。

【００１９】修正連続ＨＭＭ処理部２は、特徴抽出部１
により求められた特徴ベクトルｘが入力されると、直交
化ベクトルセット・遷移確率格納部３の格納内容を用
い、各モデルを仮定してＰr （Ｘ｜Ｍ）が最大になるよ
うなモデルＭを探す。

【００２０】即ち修正連続ＨＭＭ処理部２は、直交化ベ
クトルセット・遷移確率格納部３から、識別すべきカテ
ゴリｋごとに、また連続ＨＭＭのモデルの各ステートｓ
ごとに用意されている直交化ベクトルφ_m(k,s) を呼び
出し、以下の（２）式もしくは（３）式の計算を行な
う。

【００２１】

【数１】

【００２２】上記（３）式でＰ(k) はカテゴリｋの出現
する確率である。カテゴリｋの生起する確率を同じと考
えると、これは一定値を取るため、直交化ベクトルセッ
ト・遷移確率格納部３に格納する必要はない。また上記
（２），（３）式の［・］は内積を、Ｌは直交化ベクト
ルの個数を示す。このＬの値は、ｘの次元数にもよる
が、３≦Ｌ≦４０程度である。なお、特徴ベクトルｘは
予め正規化されているものとした。

【００２３】上記（３）式では、直交化ベクトル即ち固
有ベクトルφ_m(k,s) の他に、カテゴリｋの出現する確
率Ｐ(k) 、固有値λ_m(k,s) および平均ベクトルμ(k,
s) を使用している。この確率Ｐ(k) 、固有値λ_m(k,s)
および平均ベクトルμ(k,s)も、φ_m(k,s) と同様に、
図１の直交化ベクトルセット・遷移確率格納部３に予め
格納されている（但し、（３）式を適用する場合）。

【００２４】なお、（３）式において、λ_m(k,s) の値
に代えて、重み付け関数ｆ_ｍ（ｋ，ｓ）を用いること
も可能である。例えば、ｆ_ｍ（ｋ，ｓ）としてλ_m
(k,s) のｎ平方根を取るなど低次の値を小さく評価する
などの変形を行なうことにより、性能が向上する場合が
ある。

【００２５】上記の（２）式は、（３）式でＰ(k) がカ
テゴリｋに共通で、また固有値λ_m(k,s) も共通の値に
縮退した上に、さらに平均ベクトルμ(k,s) に関する次
の３つの仮定のうちの１つを加えたものと見ることも可
能である。

【００２６】仮定１：「任意の特徴ベクトルには、常に
そのベクトルを反転したベクトルが存在する」。これか
ら、平均ベクトルμ(k,s) の値は“０”と置かれ、
（３）式はバイアス成分を除いて（２）式と等価とな
る。

【００２７】仮定２：「平均ベクトルμ(k,s) は、学習
データが増加するに従い、共通のベクトルμに漸近して
いく」。この場合は、（２）式の特徴ベクトルｘは元の
ベクトルｘ′に一種の正準変換（ｘ′−μ）→ｘを施し
たものと考えれば良い。共通ベクトルμは、学習に用い
るデータから特徴ベクトルの平均ベクトルを求めておけ
ば良い。なお、この共通ベクトルには、カテゴリｋにつ
いて共通なベクトルμ(s) 、あるいはステートについて
共通なベクトルμ(k) を用いても良い。

【００２８】仮定３：仮定２をさらに進めて、「平均ベ
クトルμ(k,s) が漸近していく共通のベクトルμは、最
終的に全ての要素が同じ値を取るベクトルμ₀＝（ε，
ε，…，ε）に収斂する」。この場合は、（２）式の特
徴ベクトルｘは元のベクトルｘ′に次の正準変換（ｘ′
−ε）→ｘを施したものと考えれば良い。さらに、次の
正準変換（ｘ′−Av（ｘ′））→ｘも考えられる。ここ
で、Av（ｘ′）は特徴ベクトルｘの平均値である。
（２）式のｇ(k,s) は、厳密には出現確率ではなく、特
徴ベクトルｘの出現の確信度と呼ぶべきものである。

【００２９】さて、修正連続ＨＭＭ処理部２は、上記
（２）式または（３）式の計算により、各カテゴリｋご
とに、また各ステートｓごとにｇ(k,s) の値を求める
と、そのｇ(k,s) の値（対数化済み）と直交化ベクトル
セット・遷移確率格納部３から呼び出される遷移確率ｐ
(k,i,j) の対数値を加算する。そして修正連続ＨＭＭ処
理部２は、入力特徴ベクトル系列に対してこの加算値を
累積した値と累積回数を、同処理部２に接続されている
判定部５へ送る。

【００３０】ここで、ＨＭＭの学習について説明する。
ＨＭＭの学習のためには、まず特徴抽出部１から修正Ｈ
ＭＭ学習部４に対し、切替部ＳＷを介して特徴ベクトル
系列Ｘを与える。そして、この特徴ベクトル系列Ｘを受
けた修正ＨＭＭ学習部４において、Ｐr （Ｘ｜Ｍ）が最
大となるモデルＭのパラメータ、即ち遷移確率ｐ(k,i,
j) および出力確率ｇ(k,s) を求めるための｛φ_m(k,s)
｝（もしくは、（３）式を適用する場合ならば、｛φ
_m(k,s) ，λ_m(k,s) ，μ(k,s) ｝）を推定する。

【００３１】この修正ＨＭＭ学習部４におけるパラメー
タ推定は、図３に示した従来の音声認識装置における連
続ＨＭＭの場合と同様に、良く知られた forward-backw
ardアルゴリズムを適用することによって行なわれる。
但し、このパラメータ推定において、図１の修正ＨＭＭ
学習部４と図３に示した従来のＨＭＭ学習部１４とは、
以下の点で異なる。まず従来方式では、図３に示すＨＭ
Ｍ学習部１４は、これまでに説明したように、平均ベク
トルと共分散行列を求めるだけである。

【００３２】これに対して、本実施例における修正ＨＭ
Ｍ学習部４では、次のような演算が付加されている。ま
ず、上記（２）式を用いた場合は、平均ベクトルμ(k,
s) と共分散行列Ｃ(k,s) の２つを求める代わりに、１
つの相関行列Ｒ(k,s) を求める。そして、学習の最終段
階において相関行列からＫ−Ｌ変換を計算することによ
り上位Ｌ個の固有ベクトルφ_m(k,s) を計算し、これを
認識の際に使用する。また、上記（３）式を用いた場合
は、平均ベクトルμ(k,s) と共分散行列Ｃ(k,s)の２つ
を求めた後、学習の最終段階において共分散行列からＫ
−Ｌ変換を計算することにより上位Ｌ個の固有ベクトル
φ_m(k,s) と固有値λ_m(k,s) を計算し、これと平均ベ
クトルμ(k,s) を認識の際に使用する。どちらの場合
も、Ｋ−Ｌ変換の操作が付加されていることに注意され
たい。

【００３３】以上のようにして、発声された入力音声を
修正連続ＨＭＭ処理部２で認識処理し、その結果から最
も確率の高いカテゴリを判定部５で累積回数を考慮して
判定することによって、その入力音声を高精度に認識す
ることが可能となる。

【００３４】なお、前記実施例では、特徴ベクトルとし
て音声分析後の特徴系列を使用する例を示したが、これ
に限るものではない。例えば、一定のセグメント系列を
抽出した後、セグメントのスコアを要素とするベクトル
を特徴ベクトルとして利用し連続ＨＭＭへ入力すること
により、騒音や種々のパターン変動に強い音声認識方式
を実現することも可能である。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。

【００３５】

【発明の効果】以上に説明したように本発明によれば、
入力音声の特徴抽出によって求められた特徴ベクトルが
音声認識のために通される連続ＨＭＭとして、予め定め
られた所定の単位の直交化ベクトルセットを含むパラメ
ータで表現された修正連続ＨＭＭを用いる構成としたこ
とにより、しかも直交化ベクトルセットの軸の数（Ｌ）
は比較的に小さくて済み、認識精度を低下させる不要成
分は使用されないことから、連続ＨＭＭの問題とされて
いる共分散行列の次元数が大きいため計算量が大きく、
また認識に有効な共分散行列を形成するにも厖大な学習
データが必要であった点を回避して、高精度の音声認識
を効果的に進めることができ、演算処理が膨大化するこ
ともない等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

【図１】本発明の音声認識方式を適用する連続音声認識
装置の一実施例を示す概略構成図。

【図２】音声で用いられるＨＭＭの代表例を示す図。

【図３】従来の連続ＨＭＭを用いた音声認識方式を説明
するための図。

【符号の説明】

１…特徴抽出部、２…修正連続ＨＭＭ処理部、３…直交
化ベクトルセット・遷移確率格納部、４…修正ＨＭＭ学
習部、５…判定部。

Claims

【特許請求の範囲】

【請求項１】音声信号を入力して特徴抽出する特徴抽
出手段と、この特徴抽出手段によって求められた特徴ベクトルを、
予め定められた所定の単位の直交化ベクトルセットを含
むパラメータで表現された連続ＨＭＭ（隠れマルコフモ
デル）を通して認識する処理手段と、を具備したことを特徴とする音声認識方式。