JPH10320370A

JPH10320370A - 複数の識別関数の統合によるパターン認識方法

Info

Publication number: JPH10320370A
Application number: JP9127563A
Authority: JP
Inventors: Shuko Ueda; 修功上田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1997-05-16
Filing date: 1997-05-16
Publication date: 1998-12-04

Abstract

(57)【要約】（修正有）【課題】複数の識別関数の統合によるパターン認識を
行う。【解決手段】予め用意しておいたＭ種類の識別関数
を、特徴ベクトルとこの特徴ベクトルが帰属する帰属ク
ラスとのペアから成るＮ組の訓練データを用いてＭ種類
の識別関数群を各々個別に学習させてＭ種類のレベル０
識別関数を構成し、Ｎ組の訓練データから１組の訓練デ
ータを順次抜き取ると共に１組抜き取る毎に、残りのＮ
−１組の訓練データを用いてＭ種類の識別関数を各々新
たに学習してＭ種類のレベル１識別関数を各クラス毎に
構成した後、抜き取った１組のデータに対するＭ種類の
レベル１識別関数の出力値から成るＫＭ次元ベクトルと
抜き取ったデータのクラスラベルとのペアから成る計Ｎ
組のレベル１データを構成し、前記学習済みの識別関数
の出力の線形和として新たな識別関数を構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データの確率分布
を仮定しないノンパラメトリックなパターン認識を実現
することを可能とする複数の識別関数の統合によるパタ
ーン認識方法に関するものである。

【０００２】

【従来の技術】まず、特徴ベクトルｘをＫクラスのいず
れかに分類する問題を考える。このとき、各クラスに各
々関数ｆ^(k)（ｘ），ｋ＝１，…，Ｋを対応させ、ｆ
^(k)（ｘ）の値が最大となるクラスを特徴ベクトルｘの
クラスとして決定する方法を識別関数法と呼び、このと
き用いられる関数を識別関数という。

【０００３】すなわち、識別関数によるクラス決定は

【数１】と書ける。ここで、Ｃ（ｘ）は特徴ベクトルｘのクラス
を表す。従って、１つの分類器（classifier）はＫ個の
識別関数から構成される。

【０００４】識別関数法では、まず、識別関数をパラメ
トリックに定め、次いで、特徴ベクトルとそのクラスラ
ベルからなる予め与えられた訓練データを用いて、訓練
データができるだけ正しく認識されるよう識別関数のパ
ラメータを推定する。このパラメータ推定過程は識別関
数の学習過程と呼ばれる。

【０００５】最も単純な識別関数として、パラメータが
特徴ベクトルｘに関して線形なｆ^(k)（ｘ）＝Θ^Tｘ …（１）で表される線形識別関数がある。ここで、Θは未知パラ
メータベクトル、Ｔはベクトルの転置を表すものとす
る。

【０００６】識別関数によるパターン認識では、その認
識性能は用いる識別関数のモデル、すなわち、識別関数
としてどのような関数を用いるかに左右される。

【０００７】例えば、線形分離可能なクラス境界からな
る分類問題では線形境界を生成する線形識別関数が適切
であり、複雑なクラス境界の場合、その複雑さの度合い
に応じたより自由度の高い識別関数が望まれる。

【０００８】

【発明が解決しようとする課題】しかしながら、従来、
何等かの基準で最適な識別関数のモデルを決定するよう
にしていたが、こうして得られた単一モデルでは、同程
度の複雑さのクラス境界から成る分類問題では、確か
に、良好な識別関数のモデルが選択されるが、単純なク
ラス境界と複雑なクラス境界とが混在する分類問題の場
合では、両者の中間的な複雑さの識別関数を選択しなけ
ればならないという問題が生じる。例えば、文字認識の
ようにクラス数が多い応用ではこうした状況は容易に起
こり得る。

【０００９】本発明は、上記課題に鑑みてなされたもの
で、単一モデルの選択によって生じる識別関数によるパ
ターン認識における識別関数のモデル選択の問題を解決
することのできる複数の識別関数の統合によるパターン
認識方法を提供することを目的とする。

【００１０】

【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項１記載の発明は、あるパ
ターンの観測結果として得られる特徴ベクトルをＫクラ
スのいずれかに分類するパターン認識問題に対し、Ｋ個
の識別関数を用意し、該識別関数の値が最大となるクラ
スを前記データの帰属クラスとする識別関数によるパタ
ーン認識方法において、予め用意しておいたＭ種類の識
別関数を、特徴ベクトルとこの特徴ベクトルが帰属する
帰属クラスとのペアから成るＮ組の訓練データを用いて
前記Ｍ種類の識別関数群を各々個別に学習させてＭ種類
のレベル０識別関数を構成するレベル０学習工程と、前
記Ｎ組の訓練データから１組の訓練データを順次抜き取
ると共に１組抜き取る毎に、残りのＮ−１組の訓練デー
タを用いて前記Ｍ種類の識別関数を各々新たに学習して
Ｍ種類のレベル１識別関数を各クラス毎に構成した後、
前記抜き取った１組のデータに対するＭ種類のレベル１
識別関数の出力値から成るＫＭ次元ベクトルと前記抜き
取ったデータのクラスラベルとのペアから成る計Ｎ組の
レベル１データを構成するレベル１データ生成工程と、
前記レベル１データを用いて、前記レベル０学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを要旨とする。

【００１１】また、請求項２記載の発明は、請求項１記
載の発明の構成のうち、識別関数統合工程において、分
類誤りの度合いの関数として定義される損失関数のレベ
ル１データに渡る平均値を最小化するよう前記線形重み
を求めることを要旨とする。

【００１２】

【発明の実施の形態】以下、本発明の複数の識別関数の
統合によるパターン認識方法について説明する。

【００１３】上記目的を達成するため、請求項１に記載
の本発明では、Ｍ種類の識別関数の線形結合として表現
される統合識別関数を考える。すなわち、ｆ
_ens ^(k)（ｘ）をある特徴ベクトルｘに対する統合後の
第ｋクラスの識別関数の出力を表すものとすると、本発
明による各クラスの統合識別関数は、以下に示すよう
に、予め与えられたＭ種類の識別関数を同一の訓練デー
タＤ＝｛（ｘ_i，Ｃ（ｘ_i))；ｉ＝１，…，Ｎ｝を用いて各々個別に学習した識別関数（レベル０識別関
数と呼ぶ）のｘに対するＭＫ個の出力の線形結合として
定義される。

【００１４】

【数２】は、ｘに対するＭＫ個のレベル０識別関数の出力からな
るＭＫ次元ベクトルである。アンサンブル分類器による
識別規則は以下で与えられる。

【００１５】

【数３】式（２）を行列表示すると、ｙ（ｘ）＝Ｗ^Tｆ＾（ｘ；Ｄ） …（４）但し、

【数４】と書ける。

【００１６】次に、請求項２に記載の線形重みＷを求め
る手段について説明する。まず、式（３）における線形
重みＷは識別関数空間（ｆ＾空間）からＫ次元への線形
写像：Ｗ：Ｒ^KM → Ｒ^K となっている。ここで式（４）を注意深く見ると、ｆ
_ens ^(k)は識別関数空間ｆ＾上ではα^(k)をパラメータ
とする線形識別関数と見做せる。すなわち、式（４）の
線形重みＷは、関数空間上のＮ点ｆ＾（ｘ₁），…，ｆ
＾（ｘ_N）を、その各々のクラスラベルＣ（ｘ₁），
…，Ｃ（ｘ_N）にできるだけ忠実に分類するための線形
識別関数のパラメータに対応していることがわかる。つ
まり、最適結合重みの決定問題は、識別関数空間上での
最適線形識別関数の設計問題に帰着されることになる。

【００１７】今、ある線形重みＷが与えられたとき、式
（２），式（３）により第ｋクラスのサンプルｘを誤分
類した際の損失をｇ_k（ｆ＾（ｘ）；Ｗ）で表し、Ｆを
分布ｐ（ｆ＾）に従う確率変数とすると、損失の期待値
は

【数５】と書ける。但し、Ｐ_kは第ｋクラスの事前確率（prior
）とする。従って、期待損失最小化の観点で最適な線
形重みＷはＬの最小化問題を解くことにより求まる。し
かしながら、実際には確率変数Ｆの分布は未知であるこ
とから、上記の期待値計算は学習データに基づく経験分
布による期待値計算：

【数６】で近似される。ここに、１（ｕ）はｕが真（true）のと
き「１」でそれ以外は「０」を返す関数である。

【００１８】しかしながら、式（５）ではＤがｆ＾の推
定と線形重みＷの推定に重複して使われているので、得
られたアンサンブル分類器は特定の学習データＤに対し
て過学習（overfit ）となる問題が生じる。そこで、公
知の手段である、“StackedGeneralization”（Wolpert
D.H., “Stacked generalization，”Neural Network
s,vol.5,no.2,pp.241-259,1992）で提案された“レベル
１データ”を用いてこの問題に対処する。

【００１９】つまりレベル１データは、原学習データを
「１つ抜き交差確認法（leave-one-out cross validati
on）」を適用することにより得られる。具体的には、原
データからｉ番目のサンプル点ｘ_iを抜いたＤ_(-i)≡Ｄ−｛（ｘ_i，Ｃ（ｘ_i))｝でｆ_m ^(k)を学習し、抜かれたデータｘ_iに対するｆ_m
^(k)の出力をｆ_m ^(k)（ｘ_i；Ｄ_(-i)）で表すものとす
ると、レベル１データは

【数７】Ｄ′＝｛（ｆ＾_i，Ｃ（ｆ＾_i))；ｉ＝１，…，Ｎ｝となる。ここに、

【数８】また、明らかに、Ｃ（ｆ＾_i）≡Ｃ（ｘ_i）。結局、線
形重みＷの推定値はＤ′から次式の最小化問題を解くこ
とにより求められる。

【００２０】

【数９】明らかに、式（６）において、ｆ＾_iをｘ_iと置き換え
れば、特徴ベクトル空間での通常の識別関数の設計問題
となっている。従って、損失関数として、例えば、公知
の誤分類尺度に基づく平滑化０−１損失関数（Juang B.
H.and KatagiriS.,“Discriminantlearning for minimu
m error classification,”IEEE Trans.Signal Proc.,
vol.40,no.12,1992）：

【数１０】を適用できる。ここで、ξはsigmoid 関数の勾配を制御
する正定数である。また、ｄ_kはクラスｋのサンプルを
誤分類した際の誤分類の度合いを示す尺度で、次式で定
義される。

【００２１】

【数１１】式（８）の詳細説明は上記公知論文“Discriminantlear
ning for minimum errorclassification,”に詳しい。

【００２２】翻って、本問題の場合、式（８）でｄ
_k（ｘ）をｄ_k（ｆ＾，ｗ）に、ｆ^(k)（ｘ）をα^(k)T
ｆ＾に置き換えることによりＣ（ｆ＾）＝ｋなるｆ＾に
対する誤分類尺度

【数１２】を得る。ηは正定数。

【００２３】ｆ＾が正しく分類されているときはｄ
_k（ｆ＾；Ｗ）＜０となり、誤分類されているときはｄ
_k（ｆ＾；Ｗ）＞０となる。また、ｆ＾が正しく分類さ
れているとき、｜ｄ_k（ｆ＾；Ｗ）｜の値が大きくなる
につれて、損失関数の値が０に漸近し、一方、誤分類の
ときはｄ_k（ｆ＾；Ｗ）の値が大きくなるにつれて、損
失関数の値が１に漸近する。つまり、損失関数の値が、
分類の正解、不正解だけでなく、その度合いに応じて決
まる。

【００２４】また、明らかに、ｄ_k＝０付近では分類結
果の正解、不正解に関わらず、同程度の損失が付与され
ることになる。これにより、過学習が抑制され、正則化
と同様、未知データに対する頑健性を高める効果があ
る。

【００２５】式（８），（９）から損失関数が陽に得ら
れれば、式（６）の目的関数（経験損失関数）Ｊが線形
重みＷの関数として得られる。この場合、経験損失関数
Ｊは線形重みＷに関して非線形となるので閉形式の解は
得られず、反復法で線形重みＷを推定することになる。
例えば、公知の手法である確率的降下法（Amari S.,“A
theory of adaptive pattrn classifiers,”IEEE Tran
s.Elec.Comput.,vol.16,pp.299-307,1967）を用いて線
形重みＷを逐次推定できる。

【００２６】

【数１３】また、ＵはＫ次正定値行列（実際には単位行列で良い）
である。さらにε（ｔ）は学習レートで、以下の条件を
満たすとき、アルゴリズムの局所最適解への収束が理論
保証される。

【００２７】

【数１４】以上説明したように、本発明では、単一モデルの識別関
数ではなく、複数モデルを線形結合した識別関数を用い
ているので、複雑さの異なるクラス境界が混在する分類
問題に対しても、適応的に適切な複雑さのクラス境界が
自動生成され、良好なクラス境界が得られる。

【００２８】

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図１は、本発明の一実施形態の複数の識別関
数の統合によるパターン認識方法を実施するための装置
の機能構成を示すブロック図である。

【００２９】前記レベル０学習工程では、外部より与え
られた前記訓練データを用いて、予め与えられたＭ種類
の識別関数の未知パラメータを推定し、前記レベル０識
別関数を構成する。このレベル０識別関数の構成は用い
る識別関数に応じた公知の手法が利用できる。例えば、
非線形識別関数として知られる３層ニューラルネットを
識別関数として採用した場合（この場合、入力ユニット
数は特徴ベクトルの次元数で、出力ユニット数はクラス
数Ｋとなる）の実施例を以下に示す。

【００３０】ニューラルネットのモデル選択法として、
正則化パラメータによる公知の方法が利用できる。前記
正則化パラメータは実数値で、その値が大きい程、ニュ
ーラルネットの自由度が減少するので、モデル選択とし
て用いることができる。そこで、訓練データに対し、Ｍ
種類の前記正則化パラメータを設定して各々ニューラル
ネットを学習し、Ｍ種類の識別関数を構成する。ニュー
ラルネットの学習は公知の逆誤差伝搬法が利用できる。

【００３１】レベル１データ生成工程では、ｉ＝１，
２，…，Ｎの各々に対し、手順１，２を実行する。

【００３２】（手順１）前記訓練データＤから第ｉ番目
のペア（ｘ_i，Ｃ（ｘ_i))を取り除いたＤ_(-i)＝Ｄ−（ｘ_i，Ｃ（ｘ_i)) を用いて前記Ｍ種類のニューラルネットを新たに学習す
る。

【００３３】（手順２）手順１で得られた学習済みのＭ
種類のニューラルネットに対し、手順１で抜き取ったｘ
_iを入力する。第ｍ番目のニューラルネットの出力（Ｋ
次元ベクトル）をｆ＾_i＝（ｆ_m ⁽¹⁾（ｘ_i；Ｄ_(-i)）で表すと、（ｆ＾_i，Ｃ（ｆ＾_i))をレベル１データの
第ｉ番目のペアとする。

【００３４】以上の手順より、計Ｎ組のペアからなるレ
ベル１データＤ′＝｛（ｆ＾_i，Ｃ（ｆ＾_i))；ｉ＝１，…，Ｎ｝を得る。

【００３５】識別関数統合工程では、まず、前記レベル
１データを用いて、前記線形重みを以下の手順１，２で
求める。

【００３６】（手順１）線形重みの初期値Ｗ（０）＝（α⁽¹⁾，…，α^(K)）を適当に設定する。ｔ←０とする。

【００３７】（手順２）適当な収束条件を満たすまで、

【数１５】を実行し、収束したＷの値を線形重みの値とする。

【００３８】次に、前記で得られた線形重みとレベル０
学習工程で得られたＭ種類の学習済みニューラルネット
を用いて、式（４）に示した線形結合により統合識別関
数を得る。

【００３９】図２乃至図７は本発明の有効性を実験的に
示すものである。実験では、２次元、４クラスのガウス
分布

【数１６】から人工的に学習データ：５０／class 、テストデー
タ：３００／class を生成した。上記分布から算出した
真の分類境界（Bayes 境界）を図２に重畳表示する。

【００４０】前記正則化パラメータ値をλ＝５．０，
１．０，０．２，０．０４と変動させて中間ユニットＨ
＝２０のニューラルネットを各々学習して得られたレベ
ル１データを基に前記手順で統合識別関数を構成した。
図３に正則化パラメータ値λ＝５．０のとき、図４に同
λ＝１．０のとき、図５に同λ＝０．２のとき、図６に
λ＝０．０４のときの単一のニューラルネットから得ら
れたクラス境界をそれぞれ示す。また、図７に統合され
たニューラルネットから得られたクラス境界を示す。

【００４１】上述したように、図２乃至図６から、正則
化パラメータの値が大き過ぎる（λ＝５）と、クラス境
界が単純すぎるため柔軟な認識ができず、逆に、小さ過
ぎる（λ＝０．０４）と複雑なクラス境界により学習デ
ータに特化したクラス境界となってしまう。

【００４２】実際、λ＝５．０，１．０，０．２，０．
０４に対する各ニューラルネットの学習データに対する
分類誤り率（％）は、順に、５８．０，２８．５，２
２．０，１９．５で、テストデータに対するそれは、順
に、５９．７，２８．３，２３．３，２３．６であっ
た。単一ニューラルネットでの予備実験ではλ＝０．２
のときが汎化誤差（テストエラー）が最小であった。

【００４３】一方、統合した場合、学習データおよびテ
ストデータに対する分類誤り率は各々２０．０，２２．
４であった。Ｈ＝２０での単一のニューラルネットでの
最良での（λ＝０．２に相当）の２３．３％よりも良い
結果（２２．４％）が得られ、所望の識別器が構成でき
ている。また、図７を見ると、得られた分類境界は、ク
ラス１、クラス３間に対しては、λ＝１．０のそれに類
似し、クラス２、クラス３間に対しては、λ＝０．２の
それに類似し、更に、クラス２、クラス４間に対して
は、λ＝０．０４のそれに類似していることがわかる。
この結果は、統合識別関数が、各識別器の平均的な識別
器を構成するのではなく、各識別器の長所を活かした最
良な統合識別器を構成可能であることを示している。

【００４４】

【発明の効果】以上、説明したように、本発明によれ
ば、単一モデルの識別関数ではなく、複数モデルを線形
結合した識別関数を用いているので、複雑さの異なるク
ラス境界が混在する分類問題に対しても、適応的に適切
な複雑さのクラス境界が自動生成され、良好なクラス境
界が得られる。

【図面の簡単な説明】

【図１】本発明の一実施形態の複数の識別関数の統合に
よるパターン認識方法を実施するための装置の機能構成
を示すブロック図である。

【図２】本発明の有効性を実験から示すための図であ
り、真のクラス境界を示す図である。

【図３】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ＝５．０のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。

【図４】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ＝１．０のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。

【図５】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ＝０．２のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。

【図６】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ＝０．０４のときの単一のニ
ューラルネットから得られたクラス境界を示す図であ
る。

【図７】本発明の有効性を実験から示すための図であ
り、統合されたニューラルネットから得られたクラス境
界を示す図である。

【符号の説明】

１レベル０学習工程３レベル１学習工程５統合工程７訓練データ９レベル１データ

Claims

【特許請求の範囲】

【請求項１】あるパターンの観測結果として得られる
特徴ベクトルをＫクラスのいずれかに分類するパターン
認識問題に対し、Ｋ個の識別関数を用意し、該識別関数
の値が最大となるクラスを前記データの帰属クラスとす
る識別関数によるパターン認識方法において、予め用意しておいたＭ種類の識別関数を、特徴ベクトル
とこの特徴ベクトルが帰属する帰属クラスとのペアから
成るＮ組の訓練データを用いて前記Ｍ種類の識別関数群
を各々個別に学習させてＭ種類のレベル０識別関数を構
成するレベル０学習工程と、前記Ｎ組の訓練データから１組の訓練データを順次抜き
取ると共に１組抜き取る毎に、残りのＮ−１組の訓練デ
ータを用いて前記Ｍ種類の識別関数を各々新たに学習し
てＭ種類のレベル１識別関数を各クラス毎に構成した
後、前記抜き取った１組のデータに対するＭ種類のレベ
ル１識別関数の出力値から成るＫＭ次元ベクトルと前記
抜き取ったデータのクラスラベルとのペアから成る計Ｎ
組のレベル１データを構成するレベル１データ生成工程
と、前記レベル１データを用いて、前記レベル０学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを特徴とする複数の識別関数の統合によるパ
ターン認識方法。
【請求項２】前記識別関数統合工程において、分類誤
りの度合いの関数として定義される損失関数のレベル１
データに渡る平均値を最小化するよう前記線形重みを求
めることを特徴とする請求項１記載の複数の識別関数の
統合によるパターン認識方法。