JPH11212592A

JPH11212592A - パタン認識装置および標準パタンの作成方法

Info

Publication number: JPH11212592A
Application number: JP10012301A
Authority: JP
Inventors: Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-01-26
Filing date: 1998-01-26
Publication date: 1999-08-06

Abstract

(57)【要約】【課題】標準パタンの構成要素である確率分布が対立
するクラス間で重なりが少なくなるようにし、認識精度
の高い標準パタンを構成し、高精度のパタン認識装置を
提供することにある。【解決手段】一旦作成された各クラス毎の確率分布間
の重なり具合を測定し、重なりのある確率分布について
は確率分布に修正を加えて重なりを減少させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文字、図形、音声な
どのパタンを識別するパタン認識装置に関する。

【０００２】

【従来の技術】統計的決定理論に従ったパタン認識装置
では、予め各クラスについて特徴ベクトルの確率分布を
求めておき、与えられた入力データに対して前記確率分
布に従って確率値を計算し、最大確率を与えるクラスを
認識結果とする。このような統計的決定理論に従ったパ
タン認識装置は様々な文献、例えばコロナ社刊、長尾真
著、電子通信学会編、電子通信学会大学シリーズ１-４
“パターン情報処理”、106頁-109頁等で解説されてい
る。確率分布としては正規分布がよく用いられる。正規
分布は平均と分散（または標準偏差）を与えれば分布形
状が定まる。各クラス毎にサンプルデータを集め、この
データについて平均と分散を求めることにより確率分布
が定まる。正規分布を確率分布として用いるようなパタ
ン認識装置ではこのように予めサンプルデータを用いて
各クラス毎に正規分布を作成しておき、認識時には入力
データの特徴ベクトルを用いて各クラス毎に確率計算し
最大確率を与えるクラスを認識結果とする。

【０００３】音声認識装置の従来例としても、予め各ク
ラス毎にサンプルデータを集めておき、各クラスの標準
パタンを特徴ベクトルの確率分布で表現して用いるよう
な認識装置がある。音声認識の場合には処理対象となる
のが一時点の特徴ベクトルではなく特徴ベクトルの時系
列となり、これを扱う手法として隠れマルコフモデルと
呼ばれる手法があり盛んに利用されている。隠れマルコ
フモデルを利用した音声認識に関しては例えば、電子情
報通信学会編、中川聖一著、“確率モデルによる音声認
識”、29頁-89頁等で解説されている。隠れマルコフモ
デルは状態遷移モデルであり、時系列を状態遷移の枠組
みで取り扱う。隠れマルコフモデルを用いる場合、標準
パタンは一時点の特徴ベクトルの確率分布ではなく、状
態遷移モデルの各状態（あるいは状態遷移）に対して確
率分布が対応付けられた状態遷移モデルが標準パタンと
なる。音声認識の場合には認識対象となる入力音声の特
徴ベクトルの時系列を状態遷移モデルの各状態に対応付
ける処理が新たに加わるが基本的な処理の考え方は前記
統計的決定理論に基づくパタン認識装置と同様である。
音声認識においても音声の特徴ベクトルの確率分布を標
準パタンとして用いるのが基本であり、確率分布として
はやはり正規分布を用いることが多い。不特定話者用の
音声認識の場合には話者毎の特徴ベクトルの変動に対応
するため、確率分布を単一の正規分布ではなく、複数の
正規分布の線形和で表現するような混合分布で対応する
場合が多い。

【０００４】

【発明が解決しようとする課題】上記従来技術では、各
クラスの標準パタンは単一の正規分布として用意される
かまたは各クラス毎に予め決められた個数の正規分布の
線形和として用意される。

【０００５】パタン認識や音声認識において誤認識の発
生を少なくするためには、各クラスの確率分布の表現精
度や信頼性を向上するだけではなく、対立するクラス間
の分布の重なりを減少することが重要となる。

【０００６】本発明の目的は上記従来技術において考慮
が不十分であった「対立するクラス間の分布の重なりの
減少」を基準に確率分布に修正を加え、認識精度の高い
標準パタンを提供することにある。

【０００７】

【課題を解決するための手段】上記本発明の目的は、一
旦作成された各クラス毎の確率分布間の重なり具合を測
定し、分布に重なりのある分布については分布に修正を
加えて重なりを減少させることにより達成される。

【０００８】

【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。本発明は、文字、図形、音声等様々なパタ
ンのパタン認識に適用可能であるが、ここでは音声認識
の場合を例にとって説明する。

【０００９】図１は本発明を適用した単語音声認識装置
の一実施例の構成を示すブロック図である。入力された
音声は音声入力手段１において電気信号に変換される。
電気信号に変換された音声はさらに音声分析手段２にお
いて分析され、特徴ベクトルの時系列が出力される。一
方、標準パタン連結手段７では、標準パタン格納手段５
に予め格納されている認識基本単位の標準パタンを単語
辞書６に格納されている情報にしたがって連結し単語標
準パタンとする。標準パタン連結手段７で作成された標
準パタンと前記入力音声の特徴ベクトル時系列とが照合
手段３にて照合され、認識対象の各単語毎にスコアが求
められる。判定手段４では前記各単語のスコアに基づい
て認識結果を出力する。

【００１０】次に本発明の中で用いている認識基本単位
の標準パタンについて説明する。認識基本単位というの
は、単語音声の構成要素である音節やさらに小さい単位
である音韻（母音、子音）等のことを指す。認識基本単
位毎に標準パタンを用意しておけば、これを組み合わせ
ることにより任意の単語音声の標準パタンを構成するこ
とができ、限られた個数の標準パタンで大語彙の音声認
識が可能となる。音声認識の場合、認識基本単位として
は音節、音韻、音韻連鎖等様々な単位が考えられるが本
実施例では簡単のため音節を認識基本単位とした場合の
について説明する。図２は本発明の中で用いている標準
パタンに対応する確率モデル（HiddenMarkov Model、
以下HMMと略す）を示した図である。図中各円は状態を
表わし、矢印は状態間の遷移を表わす。矢印に添えた記
号ａijは状態ｉから状態ｊへの遷移が生じる確率を表わ
し、記号ｂij（ｋ）は状態ｉから状態ｊへの遷移が生じ
たときに第ｋ番目の分類に属する特徴ベクトルが出力さ
れる確率を表わす。入力音声の特徴ベクトル時系列が与
えられると、前記状態遷移確率、出力確率を用いて入力
音声の特徴ベクトル時系列がこの確率モデル（HMM）か
ら出力された確率を計算することができる。前記図１の
中の照合手段３では、この確率計算の処理が行なわれ
る。確率計算処理の詳細に関しては、Kluwer Academic
Publishers, Norwel, MA, 1989 “Automatic Speech Re
cognition”，95頁-97頁に記載されている公知の方法を
用いればよい。

【００１１】次に本発明の音声認識装置において用いる
標準パタンの連結方法について図３を用いて説明する。
図３は単語辞書６にしたがって標準パタンを連結する様
子を説明する図である。前述の様に本発明の音声認識装
置では標準パタンとして状態遷移モデルであるHMMを用
いているので標準パタンの連結が容易に行なわれる。標
準パタンの連結は、先行するモデルの最終状態から出る
状態遷移先を後続するモデルの最初の状態にする様にす
ればよい。図３では、認識の基本単位として日本語の音
節を採用し、辞書中の単語「日立（/hitachi）」を取り
上げている。標準パタン格納手段５には日本語の音節に
対応するHMMが格納されている。単語「日立」のHMMを作
成するには、まず、単語辞書６を調べ単語「日立」が音
節列/ｈｉ/、/ｔａ/、/ｃｈｉ/から構成されていること
を読み出す。標準パタン連結手段７では前記音節列にし
たがって、順次標準パタン格納手段５から/ｈｉ/のHM
M、/ｔａ/のHMM、/ｃｈｉ/のHMMを読み出しこれを連結
した大きな一つのHMMとする。

【００１２】次に本発明の音声認識装置において用いる
標準パタンであるHMMの通常の学習方法について説明す
る。HMMは大量の学習用音声サンプルを用いてパラメタ
推定を行なうことにより実施する。図４に示したのはそ
の学習フローの概要を示すフローチャートである。まず
HMMの初期モデルを何らかの方法により作成し（１０
１）、その後学習用音声サンプルを用いたパラメタ再推
定処理（１０２）を収束条件を満たすまで（１０３）繰
り返す。本学習方法は元々繰り返し推定アルゴリズムで
あり、繰り返し回数が増える毎にモデルの精度が向上す
る。したがって、初期モデルは必ずしも精度高く作成す
る必要はない。初期モデルの作成方法については何通り
かの方法があるが、例えば乱数を与えるような手法でよ
い。パラメタ再推定の方法については後述する。収束条
件判断についても何通りかの方法が考えられるが、例え
ば繰り返しの回数を固定して、一定回数（例えば５回）
の繰り返しを行なったら終了する様な方法で実用上問題
ない。

【００１３】収束条件が満足されたら繰り返しを終了
し、パラメタ推定により得られた各HMMのパラメタを格
納する（１０４）。

【００１４】次にHMMのパラメタ再推定処理について説
明する。図４のフローチャートに示したようにHMMのパ
ラメタ再推定処理は学習フローの中で繰り返し行なわれ
る。ここではその一回分の処理を図５のフローチャート
を用いて説明する。HMMのパラメタ再推定処理は学習用
の音声サンプルを用いて行なう。学習用の音声サンプル
の個数がNであるとすると、N回類似のパラメタ推定計算
処理を行ない、これが終了した後に各HMMのパラメタを
新しい値に更新する。各音声サンプルを用いたパラメタ
推定処理においては、まず音声サンプルの発声内容に合
わせて認識基本単位のHMMを連結し（２０３）、この連
結したHMMに対してフォワード・バックワード（Forward
-Backward）アルゴリズムと呼ばれる手法を用いてパラ
メタ推定を行なう（２０４）。連結されたHMMを元の認
識基本単位に分解することにより、各認識基本単位のHM
Mのパラメタ推定値が得られる（２０５）。ただし、こ
の時点では各認識基本単位のHMMのパラメタの更新は行
なわず、全音声サンプルについてパラメタ推定値が得ら
れた後にそれまでに得られた全パラメタ推定値を総合し
て各認識基本単位のHMMのパラメタの更新を行なう（２
０７）。なお、パラメタ推定（Forward-Backwardアルゴ
リズム）の具体的な計算手続きについてはKluwer Acade
mic Publishers, Norwel, MA, 1989 “Automatic Speec
h Recognition”，95頁-97頁に記載されている公知の方
法を用いればよい。

【００１５】次に本発明の主眼点である、標準パタンを
構成する確率分布の修正方法について説明する。図６に
示すのは本確率分布修正方法の全体の流れを説明するフ
ローチャートである。

【００１６】本学習においてはまず従来からある標準的
な手法により確率分布の作成を行なう（３０１）。これ
によりでき上がった各クラスの確率分布について各クラ
ス間の重なり具合を測定する（３０２）。重なり具合の
測定方法については後述する。なお、分布の重なりの測
定は認識対象となるすべてのクラスの対に関して行う。
認識対象のクラスの個数をＮとすると、（Ｎ2−Ｎ）／
２通りの組み合わせの対が存在するので、このすべての
組み合わせについて分布の重なりを測定する。そして、
測定値が予め設定した閾値を超える場合に分布間の重な
りが大きいものとし、この閾値を超える分布の個数を計
数してその値をＫとする（３０３）。次に計数値Ｋが予
め設定した閾値Ｋthより大きいかどうかの判定を行ない
（３０４）、Ｋthより小さければ処理を終了する。Ｋth
より大きい場合には、それらの確率分布を修正すべき確
率分布として選択し（３０５）、それらの分布を修正す
る（３０６）。選択された確率分布修正終了後、再び各
クラス間の確率分布間の重なり具合を測定し（３０
２）、クラス間の重なりの大きな確率分布の個数を計数
し（３０３）、その個数が設定した閾値Ｋthより大きい
かどうかの判定を行なう（３０４）という処理を繰り返
す。クラス間の重なりの大きな確率分布の個数が閾値Ｋ
th以下になれば処理を終了する。

【００１７】次に処理ステップ３０２において行う確率
分布の重なり具合の測定方法について説明する。ここで
扱う確率分布は正規分布とする。正規分布は平均と分散
（標準偏差）により分布形状が定まる。したがって正規
分布同士の重なりはそれぞれの平均と分散を用いて計算
することができる。図７に一次元の正規分布についてそ
の重なり具合の計算方法を説明する図を示す。図７には
２つのクラスＡとＢの分布を示した。μA、μBはそれぞ
れクラスＡとＢの平均値、σA、σBはそれぞれクラスＡ
とＢの標準偏差である。このときクラスＡとクラスＢの
分布の重なり具合は（１）式で表わすことができる。

【００１８】

【数１】

【００１９】すなわち２つの分布の間の平均値が近いほ
ど、また、それぞれの分散（標準偏差）が大きい程重な
り具合が大きいことになる。図７および（１）式に示し
たのは一次元の場合の説明であるが、実際の音声認識で
は多次元の確率分布を扱うことになる。多次元の確率分
布の場合、分散は次元間の相関を考慮した共分散行列と
して扱うのが基本であるが、分布のパラメタ削減のため
に共分散行列の対角成分以外は零として取り扱うことが
多い。本実施例でも対角成分のみを持つ共分散行列を考
えることにする。μAi、μBiをそれぞれクラスＡとＢの
平均値ベクトルの第ｉ次元の要素、σAi、σBiをそれぞ
れクラスＡとＢの共分散行列の第ｉ行第ｉ列成分とする
と、クラスＡとクラスＢの分布の重なり具合は（２）式
で表わすことができる。

【００２０】

【数２】

【００２１】次に重なりの大きい２つの確率分布が与え
られたとき、いずれの分布を修正するかの選択するかと
いうステップ３０５の処理であるが、本実施例では
（３）式で表わされる各次元の分散の総和が大きい法の
分布を修正対象として選択するという方法をとる。

【００２２】

【数３】

【００２３】次にステップ３０６の確率分布の修正処理
について説明する。本実施例においては確率分布は正規
分布で与えられている。確率分布の修正は修正前の単一
の正規分布を２つの正規分布の線形和で表現し直すこと
により行う。図８に確率分布の修正処理を説明する図を
示す。図８では４０１と４０２が重なりのある分布であ
る。４０３は分布４０１の中心、４０４は分布４０２の
中心である。図８の場合では分布４０１のほうが分散が
大きいので分布４０１の修正を行う。図８中ｘ印で示し
ているのは分布４０１を作成するのに用いたサンプルデ
ータである。修正は以下の手順で行う。まず分布４０２
の中心４０４から最も遠いサンプルデータを求める。図
８では４０５がこれに相当する。次に分布４０２の中心
４０４から遠く、かつ、サンプルデータ４０５とは分布
４０１の中心点４０３とは反対側に位置するサンプルデ
ータを求める。図８では４０６がこれに相当する。次に
分布４０１を作成するのに用いたサンプルデータの全て
について、４０５と４０６の何れの点に近いかを判別し
て全サンプルデータを２つに分類する。次に分類された
サンプルデータを用いて平均値と分散を計算し、それぞ
れ正規分布を作成する。図８では４０７と４０８が新た
に作成された正規分布である。以上確率分布の修正のフ
ローを図９に示す。

【００２４】次に本発明の主眼点である、標準パタンを
構成する確率分布の修正方法の別の実現例について説明
する。図６〜９で説明したのは、標準パタンを構成する
確率分布間の重なりを削減するようにした手法であっ
た。ここで説明するのは実際に認識を行い、誤認識の原
因となるような分布の重なりを抽出し、この部分の分布
の重なりを対象に分布の重なりの低減をはかるものであ
る。図１０に示すのは本確率分布修正方法の別の実現例
の全体の流れを説明するフローチャートである。

【００２５】まず従来からある標準的な手法により確率
分布の作成を行なう（６０１）。これによりでき上がっ
た各クラスの確率分布を用いて評価用サンプルデータの
認識を行う（６０２）。次に誤認識を起こしたデータに
ついて、入力データのクラスの確率分布と誤認識結果の
クラスの確率分布の間に分布の重なりがあったものとし
て、分布の重なりの個数を計数する（６０３）。次に計
数値Ｋが予め設定した閾値Ｋthより大きいかどうかの判
定を行ない（６０４）、Ｋthより小さければ処理を終了
する。Ｋthより大きい場合には、それらの確率分布を修
正すべき確率分布として選択し（６０５）、それらの分
布を修正する（６０６）。選択された確率分布修正終了
後、再び評価用サンプルデータの認識を行い（６０
２）、誤認識を起こしたデータについて、入力データの
クラスの確率分布と誤認識結果のクラスの確率分布の間
に分布の重なりがあったものとして、分布の重なりの個
数を計数し（６０３）、その個数が設定した閾値Ｋthよ
り大きいかどうかの判定を行なう（６０４）という処理
を繰り返す。重なりのある確率分布の個数が閾値Ｋth以
下になれば処理を終了する。処理ステップ６０４、６０
５、６０６の処理は前述の図８における処理ステップ３
０４、３０５、３０６の処理とほぼ同様であるが、やや
異なる。入力データのクラスの確率分布と認識結果のク
ラスの確率分布の間に重なりがあるわけであるが、誤認
識を避けるためには認識結果のクラスの確率値を下げる
必要があるとの考え方から処理ステップ６０５では認識
結果のクラスの確率分布を修正対象として選択する。処
理ステップ６０６の確率分布の修正処理も処理ステップ
３０６とほぼ同様であるが、処理ステップ３０６では図
９のフローチャートに示したように対立クラスの分布の
中心点ｐの情報を利用したが、処理ステップ６０６では
対立クラスの分布の中心点ｐの代わりに誤認識した入力
データサンプル集合の中心点を用いる。

【００２６】

【発明の効果】以上本発明によれば、標準パタンの構成
要素である確率分布の認識対象クラス間での重なりを減
少することができるので高精度なパタン認識、音声認識
が可能となる。

【図面の簡単な説明】

【図１】本発明を適用した単語音声認識装置の一実施例
の構成を示すブロック図。

【図２】本発明を適用した単語音声認識装置で用いる認
識基本単位の隠れマルコフモデルを説明する図。

【図３】本発明を適用した単語音声認識装置で用いる認
識基本単位の隠れマルコフモデルを単語辞書にしたがっ
て連結する様子を説明する図。

【図４】本発明の標準パタンの学習方法を説明するフロ
ーチャート。

【図５】本発明の標準パタンの学習方法におけるパラメ
タ推定処理を説明するフローチャート。

【図６】本発明の確率分布の修正方法の全体フローを説
明するフローチャート。

【図７】本発明を適用した単語音声認識装置で用いる認
識基本単位の確率分布の重なり具合の測定方法を説明す
る図。

【図８】本発明の確率分布の修正方法を説明する図。

【図９】本発明の確率分布の修正手順を説明するフロー
チャート。

【図１０】本発明の別の確率分布の修正方法の全体フロ
ーを説明するフローチャート。

【符号の説明】

１・・・音声入力手段、２・・・音声分析手段、３・・
・照合手段、４・・・判定手段５・・・標準パタン格納
手段、６・・・単語辞書、７・・・標準パタン連結手
段、１０１・・・初期モデル作成処理、１０２・・・パ
ラメタ再推定処理、２０４・・・Forward-Backwardアル
ゴリズム、３０２・・・各クラス間の分布の重なり測定
処理、３０６・・・確率分布の修正処理、４０１・・・
修正対象の確率分布、４０２・・・対立クラスの確率分
布、４０３・・・修正対象の確率分布の中心点、４０４
・・・対立クラスの確率分布の中心点、４０５・・・対
立クラスの確率分布の中心点から最も遠いサンプルデー
タ、４０６・・・対立クラスの確率分布の中心点から遠
く、対立クラスの確率分布の中心点から最も遠いサンプ
ルデータ４０５とは修正対象の確率分布の中心点４０３
について反対側にあるサンプルデータ、４０７、４０８
・・・修正によりできた新たな確率分布。

Claims

【特許請求の範囲】

【請求項１】認識対象の入力データを分析して特徴ベク
トルを抽出する特徴抽出手段と、該認識対象の各クラス
毎の特徴ベクトルの確率分布を標準パタンとして格納す
る標準パタン格納手段と、前記入力データの特徴ベクト
ルに対して前記各クラス毎の標準パタンである確率分布
を用いて確率計算をする照合手段とからなり、前記照合
手段から出力される各クラス毎の確率の値に基づいて認
識を行なうパタン認識装置において、前記各クラス毎の
標準パタンである特徴ベクトルの確率分布の各クラス間
の重なり具合に応じて前記各クラス毎の標準パタンであ
る特徴ベクトルの確率分布を修正するようにしたことを
特徴とするパタン認識装置。
【請求項２】前記各クラス毎の標準パタンである特徴ベ
クトルの確率分布の修正は、複数の確率分布の線形和を
用いて修正するようにしたことを特徴とする請求項１記
載のパタン認識装置。
【請求項３】前記各クラス毎の標準パタンである特徴ベ
クトルの確率分布の修正は、前記各クラス毎の標準パタ
ンである確率分布を作成するのに用いた各クラス毎の入
力データを用いて修正するようにしたことを特徴とする
請求項１または請求項２記載のパタン認識装置。
【請求項４】前記各クラス毎の標準パタンである特徴ベ
クトルの確率分布の修正は、前記各クラス毎の標準パタ
ンである確率分布を作成するのに用いた各クラス毎の入
力データとは異なる入力データを用いて修正するように
したことを特徴とする請求項１または請求項２記載のパ
タン認識装置。
【請求項５】前記各クラス毎の標準パタンである特徴ベ
クトルの確率分布の修正は、パタン認識を実施した結果
が誤認識であった場合についてのみ、その原因となった
確率分布に対してのみ行うようにしたことを特徴とする
請求項１または請求項２または請求項３または請求項４
記載のパタン認識装置。
【請求項６】入力音声を一定時間間隔毎に分析して特徴
ベクトル時系列を抽出する特徴抽出手段と、認識対象の
各クラス毎の特徴ベクトルの確率分布の時系列を標準パ
タンとして格納する標準パタン格納手段と、前記入力音
声の特徴ベクトルに対して前記各クラス毎の標準パタン
である確率分布時系列を用いて累積確率計算をする照合
手段とからなり、前記照合手段から出力される各クラス
毎の累積確率の値に基づいて認識を行なう音声認識装置
において、前記各クラス毎の標準パタンの構成要素であ
る特徴ベクトルの確率分布の各クラス間の重なり具合に
応じて前記各クラス毎の標準パタンの構成要素である特
徴ベクトルの確率分布を修正するようにしたことを特徴
とする音声認識装置。
【請求項７】前記各クラス毎の標準パタンの構成要素で
ある特徴ベクトルの確率分布の修正は、複数の確率分布
の線形和を用いて修正するようにしたことを特徴とする
請求項６記載の音声認識装置。
【請求項８】前記各クラス毎の標準パタンの構成要素で
ある特徴ベクトルの確率分布の修正は、前記各クラス毎
の標準パタンの構成要素である確率分布を作成するのに
用いた各クラス毎の入力音声を用いて修正するようにし
たことを特徴とする請求項６または請求項７記載の音声
認識装置。
【請求項９】前記各クラス毎の標準パタンの構成要素で
ある特徴ベクトルの確率分布の修正は、前記各クラス毎
の標準パタンの構成要素である確率分布を作成するのに
用いた各クラス毎の入力音声とは異なる入力音声を用い
て修正するようにしたことを特徴とする請求項６または
請求項７記載の音声認識装置。
【請求項１０】前記各クラス毎の標準パタンの構成要素
である特徴ベクトルの確率分布の修正は、音声認識を実
施した結果が誤認識であった場合についてのみ、その原
因となった確率分布に対してのみ行うようにしたことを
特徴とする請求項６または請求項７または請求項８また
は請求項９記載の音声認識装置。