JPH10320370A - 複数の識別関数の統合によるパターン認識方法 - Google Patents
複数の識別関数の統合によるパターン認識方法Info
- Publication number
- JPH10320370A JPH10320370A JP9127563A JP12756397A JPH10320370A JP H10320370 A JPH10320370 A JP H10320370A JP 9127563 A JP9127563 A JP 9127563A JP 12756397 A JP12756397 A JP 12756397A JP H10320370 A JPH10320370 A JP H10320370A
- Authority
- JP
- Japan
- Prior art keywords
- level
- discriminant
- function
- data
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 複数の識別関数の統合によるパターン認識を
行う。 【解決手段】 予め用意しておいたM種類の識別関数
を、特徴ベクトルとこの特徴ベクトルが帰属する帰属ク
ラスとのペアから成るN組の訓練データを用いてM種類
の識別関数群を各々個別に学習させてM種類のレベル0
識別関数を構成し、N組の訓練データから1組の訓練デ
ータを順次抜き取ると共に1組抜き取る毎に、残りのN
−1組の訓練データを用いてM種類の識別関数を各々新
たに学習してM種類のレベル1識別関数を各クラス毎に
構成した後、抜き取った1組のデータに対するM種類の
レベル1識別関数の出力値から成るKM次元ベクトルと
抜き取ったデータのクラスラベルとのペアから成る計N
組のレベル1データを構成し、前記学習済みの識別関数
の出力の線形和として新たな識別関数を構成する。
行う。 【解決手段】 予め用意しておいたM種類の識別関数
を、特徴ベクトルとこの特徴ベクトルが帰属する帰属ク
ラスとのペアから成るN組の訓練データを用いてM種類
の識別関数群を各々個別に学習させてM種類のレベル0
識別関数を構成し、N組の訓練データから1組の訓練デ
ータを順次抜き取ると共に1組抜き取る毎に、残りのN
−1組の訓練データを用いてM種類の識別関数を各々新
たに学習してM種類のレベル1識別関数を各クラス毎に
構成した後、抜き取った1組のデータに対するM種類の
レベル1識別関数の出力値から成るKM次元ベクトルと
抜き取ったデータのクラスラベルとのペアから成る計N
組のレベル1データを構成し、前記学習済みの識別関数
の出力の線形和として新たな識別関数を構成する。
Description
【0001】
【発明の属する技術分野】本発明は、データの確率分布
を仮定しないノンパラメトリックなパターン認識を実現
することを可能とする複数の識別関数の統合によるパタ
ーン認識方法に関するものである。
を仮定しないノンパラメトリックなパターン認識を実現
することを可能とする複数の識別関数の統合によるパタ
ーン認識方法に関するものである。
【0002】
【従来の技術】まず、特徴ベクトルxをKクラスのいず
れかに分類する問題を考える。このとき、各クラスに各
々関数f(k) (x),k=1,…,Kを対応させ、f
(k) (x)の値が最大となるクラスを特徴ベクトルxの
クラスとして決定する方法を識別関数法と呼び、このと
き用いられる関数を識別関数という。
れかに分類する問題を考える。このとき、各クラスに各
々関数f(k) (x),k=1,…,Kを対応させ、f
(k) (x)の値が最大となるクラスを特徴ベクトルxの
クラスとして決定する方法を識別関数法と呼び、このと
き用いられる関数を識別関数という。
【0003】すなわち、識別関数によるクラス決定は
【数1】 と書ける。ここで、C(x)は特徴ベクトルxのクラス
を表す。従って、1つの分類器(classifier)はK個の
識別関数から構成される。
を表す。従って、1つの分類器(classifier)はK個の
識別関数から構成される。
【0004】識別関数法では、まず、識別関数をパラメ
トリックに定め、次いで、特徴ベクトルとそのクラスラ
ベルからなる予め与えられた訓練データを用いて、訓練
データができるだけ正しく認識されるよう識別関数のパ
ラメータを推定する。このパラメータ推定過程は識別関
数の学習過程と呼ばれる。
トリックに定め、次いで、特徴ベクトルとそのクラスラ
ベルからなる予め与えられた訓練データを用いて、訓練
データができるだけ正しく認識されるよう識別関数のパ
ラメータを推定する。このパラメータ推定過程は識別関
数の学習過程と呼ばれる。
【0005】最も単純な識別関数として、パラメータが
特徴ベクトルxに関して線形な f(k) (x)=ΘT x …(1) で表される線形識別関数がある。ここで、Θは未知パラ
メータベクトル、Tはベクトルの転置を表すものとす
る。
特徴ベクトルxに関して線形な f(k) (x)=ΘT x …(1) で表される線形識別関数がある。ここで、Θは未知パラ
メータベクトル、Tはベクトルの転置を表すものとす
る。
【0006】識別関数によるパターン認識では、その認
識性能は用いる識別関数のモデル、すなわち、識別関数
としてどのような関数を用いるかに左右される。
識性能は用いる識別関数のモデル、すなわち、識別関数
としてどのような関数を用いるかに左右される。
【0007】例えば、線形分離可能なクラス境界からな
る分類問題では線形境界を生成する線形識別関数が適切
であり、複雑なクラス境界の場合、その複雑さの度合い
に応じたより自由度の高い識別関数が望まれる。
る分類問題では線形境界を生成する線形識別関数が適切
であり、複雑なクラス境界の場合、その複雑さの度合い
に応じたより自由度の高い識別関数が望まれる。
【0008】
【発明が解決しようとする課題】しかしながら、従来、
何等かの基準で最適な識別関数のモデルを決定するよう
にしていたが、こうして得られた単一モデルでは、同程
度の複雑さのクラス境界から成る分類問題では、確か
に、良好な識別関数のモデルが選択されるが、単純なク
ラス境界と複雑なクラス境界とが混在する分類問題の場
合では、両者の中間的な複雑さの識別関数を選択しなけ
ればならないという問題が生じる。例えば、文字認識の
ようにクラス数が多い応用ではこうした状況は容易に起
こり得る。
何等かの基準で最適な識別関数のモデルを決定するよう
にしていたが、こうして得られた単一モデルでは、同程
度の複雑さのクラス境界から成る分類問題では、確か
に、良好な識別関数のモデルが選択されるが、単純なク
ラス境界と複雑なクラス境界とが混在する分類問題の場
合では、両者の中間的な複雑さの識別関数を選択しなけ
ればならないという問題が生じる。例えば、文字認識の
ようにクラス数が多い応用ではこうした状況は容易に起
こり得る。
【0009】本発明は、上記課題に鑑みてなされたもの
で、単一モデルの選択によって生じる識別関数によるパ
ターン認識における識別関数のモデル選択の問題を解決
することのできる複数の識別関数の統合によるパターン
認識方法を提供することを目的とする。
で、単一モデルの選択によって生じる識別関数によるパ
ターン認識における識別関数のモデル選択の問題を解決
することのできる複数の識別関数の統合によるパターン
認識方法を提供することを目的とする。
【0010】
【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項1記載の発明は、あるパ
ターンの観測結果として得られる特徴ベクトルをKクラ
スのいずれかに分類するパターン認識問題に対し、K個
の識別関数を用意し、該識別関数の値が最大となるクラ
スを前記データの帰属クラスとする識別関数によるパタ
ーン認識方法において、予め用意しておいたM種類の識
別関数を、特徴ベクトルとこの特徴ベクトルが帰属する
帰属クラスとのペアから成るN組の訓練データを用いて
前記M種類の識別関数群を各々個別に学習させてM種類
のレベル0識別関数を構成するレベル0学習工程と、前
記N組の訓練データから1組の訓練データを順次抜き取
ると共に1組抜き取る毎に、残りのN−1組の訓練デー
タを用いて前記M種類の識別関数を各々新たに学習して
M種類のレベル1識別関数を各クラス毎に構成した後、
前記抜き取った1組のデータに対するM種類のレベル1
識別関数の出力値から成るKM次元ベクトルと前記抜き
取ったデータのクラスラベルとのペアから成る計N組の
レベル1データを構成するレベル1データ生成工程と、
前記レベル1データを用いて、前記レベル0学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを要旨とする。
ために、本発明のうちで請求項1記載の発明は、あるパ
ターンの観測結果として得られる特徴ベクトルをKクラ
スのいずれかに分類するパターン認識問題に対し、K個
の識別関数を用意し、該識別関数の値が最大となるクラ
スを前記データの帰属クラスとする識別関数によるパタ
ーン認識方法において、予め用意しておいたM種類の識
別関数を、特徴ベクトルとこの特徴ベクトルが帰属する
帰属クラスとのペアから成るN組の訓練データを用いて
前記M種類の識別関数群を各々個別に学習させてM種類
のレベル0識別関数を構成するレベル0学習工程と、前
記N組の訓練データから1組の訓練データを順次抜き取
ると共に1組抜き取る毎に、残りのN−1組の訓練デー
タを用いて前記M種類の識別関数を各々新たに学習して
M種類のレベル1識別関数を各クラス毎に構成した後、
前記抜き取った1組のデータに対するM種類のレベル1
識別関数の出力値から成るKM次元ベクトルと前記抜き
取ったデータのクラスラベルとのペアから成る計N組の
レベル1データを構成するレベル1データ生成工程と、
前記レベル1データを用いて、前記レベル0学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを要旨とする。
【0011】また、請求項2記載の発明は、請求項1記
載の発明の構成のうち、識別関数統合工程において、分
類誤りの度合いの関数として定義される損失関数のレベ
ル1データに渡る平均値を最小化するよう前記線形重み
を求めることを要旨とする。
載の発明の構成のうち、識別関数統合工程において、分
類誤りの度合いの関数として定義される損失関数のレベ
ル1データに渡る平均値を最小化するよう前記線形重み
を求めることを要旨とする。
【0012】
【発明の実施の形態】以下、本発明の複数の識別関数の
統合によるパターン認識方法について説明する。
統合によるパターン認識方法について説明する。
【0013】上記目的を達成するため、請求項1に記載
の本発明では、M種類の識別関数の線形結合として表現
される統合識別関数を考える。すなわち、f
ens (k) (x)をある特徴ベクトルxに対する統合後の
第kクラスの識別関数の出力を表すものとすると、本発
明による各クラスの統合識別関数は、以下に示すよう
に、予め与えられたM種類の識別関数を同一の訓練デー
タ D={(xi ,C(xi ));i=1,…,N} を用いて各々個別に学習した識別関数(レベル0識別関
数と呼ぶ)のxに対するMK個の出力の線形結合として
定義される。
の本発明では、M種類の識別関数の線形結合として表現
される統合識別関数を考える。すなわち、f
ens (k) (x)をある特徴ベクトルxに対する統合後の
第kクラスの識別関数の出力を表すものとすると、本発
明による各クラスの統合識別関数は、以下に示すよう
に、予め与えられたM種類の識別関数を同一の訓練デー
タ D={(xi ,C(xi ));i=1,…,N} を用いて各々個別に学習した識別関数(レベル0識別関
数と呼ぶ)のxに対するMK個の出力の線形結合として
定義される。
【0014】
【数2】 は、xに対するMK個のレベル0識別関数の出力からな
るMK次元ベクトルである。アンサンブル分類器による
識別規則は以下で与えられる。
るMK次元ベクトルである。アンサンブル分類器による
識別規則は以下で与えられる。
【0015】
【数3】 式(2)を行列表示すると、 y(x)=WT f^(x;D) …(4) 但し、
【数4】 と書ける。
【0016】次に、請求項2に記載の線形重みWを求め
る手段について説明する。まず、式(3)における線形
重みWは識別関数空間(f^空間)からK次元への線形
写像: W:RKM → RK となっている。ここで式(4)を注意深く見ると、f
ens (k) は識別関数空間f^上ではα(k) をパラメータ
とする線形識別関数と見做せる。すなわち、式(4)の
線形重みWは、関数空間上のN点f^(x1 ),…,f
^(xN )を、その各々のクラスラベルC(x1 ),
…,C(xN )にできるだけ忠実に分類するための線形
識別関数のパラメータに対応していることがわかる。つ
まり、最適結合重みの決定問題は、識別関数空間上での
最適線形識別関数の設計問題に帰着されることになる。
る手段について説明する。まず、式(3)における線形
重みWは識別関数空間(f^空間)からK次元への線形
写像: W:RKM → RK となっている。ここで式(4)を注意深く見ると、f
ens (k) は識別関数空間f^上ではα(k) をパラメータ
とする線形識別関数と見做せる。すなわち、式(4)の
線形重みWは、関数空間上のN点f^(x1 ),…,f
^(xN )を、その各々のクラスラベルC(x1 ),
…,C(xN )にできるだけ忠実に分類するための線形
識別関数のパラメータに対応していることがわかる。つ
まり、最適結合重みの決定問題は、識別関数空間上での
最適線形識別関数の設計問題に帰着されることになる。
【0017】今、ある線形重みWが与えられたとき、式
(2),式(3)により第kクラスのサンプルxを誤分
類した際の損失をgk (f^(x);W)で表し、Fを
分布p(f^)に従う確率変数とすると、損失の期待値
は
(2),式(3)により第kクラスのサンプルxを誤分
類した際の損失をgk (f^(x);W)で表し、Fを
分布p(f^)に従う確率変数とすると、損失の期待値
は
【数5】 と書ける。但し、Pk は第kクラスの事前確率(prior
)とする。従って、期待損失最小化の観点で最適な線
形重みWはLの最小化問題を解くことにより求まる。し
かしながら、実際には確率変数Fの分布は未知であるこ
とから、上記の期待値計算は学習データに基づく経験分
布による期待値計算:
)とする。従って、期待損失最小化の観点で最適な線
形重みWはLの最小化問題を解くことにより求まる。し
かしながら、実際には確率変数Fの分布は未知であるこ
とから、上記の期待値計算は学習データに基づく経験分
布による期待値計算:
【数6】 で近似される。ここに、1(u)はuが真(true)のと
き「1」でそれ以外は「0」を返す関数である。
き「1」でそれ以外は「0」を返す関数である。
【0018】しかしながら、式(5)ではDがf^の推
定と線形重みWの推定に重複して使われているので、得
られたアンサンブル分類器は特定の学習データDに対し
て過学習(overfit )となる問題が生じる。そこで、公
知の手段である、“StackedGeneralization”(Wolpert
D.H., “Stacked generalization,”Neural Network
s,vol.5,no.2,pp.241-259,1992)で提案された“レベル
1データ”を用いてこの問題に対処する。
定と線形重みWの推定に重複して使われているので、得
られたアンサンブル分類器は特定の学習データDに対し
て過学習(overfit )となる問題が生じる。そこで、公
知の手段である、“StackedGeneralization”(Wolpert
D.H., “Stacked generalization,”Neural Network
s,vol.5,no.2,pp.241-259,1992)で提案された“レベル
1データ”を用いてこの問題に対処する。
【0019】つまりレベル1データは、原学習データを
「1つ抜き交差確認法(leave-one-out cross validati
on)」を適用することにより得られる。具体的には、原
データからi番目のサンプル点xi を抜いた D(-i)≡D−{(xi ,C(xi ))} でfm (k) を学習し、抜かれたデータxi に対するfm
(k) の出力をfm (k)(xi ;D(-i))で表すものとす
ると、レベル1データは
「1つ抜き交差確認法(leave-one-out cross validati
on)」を適用することにより得られる。具体的には、原
データからi番目のサンプル点xi を抜いた D(-i)≡D−{(xi ,C(xi ))} でfm (k) を学習し、抜かれたデータxi に対するfm
(k) の出力をfm (k)(xi ;D(-i))で表すものとす
ると、レベル1データは
【数7】 D′={(f^i ,C(f^i ));i=1,…,N} となる。ここに、
【数8】 また、明らかに、C(f^i )≡C(xi )。結局、線
形重みWの推定値はD′から次式の最小化問題を解くこ
とにより求められる。
形重みWの推定値はD′から次式の最小化問題を解くこ
とにより求められる。
【0020】
【数9】 明らかに、式(6)において、f^i をxi と置き換え
れば、特徴ベクトル空間での通常の識別関数の設計問題
となっている。従って、損失関数として、例えば、公知
の誤分類尺度に基づく平滑化0−1損失関数(Juang B.
H.and KatagiriS.,“Discriminantlearning for minimu
m error classification,”IEEE Trans.Signal Proc.,
vol.40,no.12,1992):
れば、特徴ベクトル空間での通常の識別関数の設計問題
となっている。従って、損失関数として、例えば、公知
の誤分類尺度に基づく平滑化0−1損失関数(Juang B.
H.and KatagiriS.,“Discriminantlearning for minimu
m error classification,”IEEE Trans.Signal Proc.,
vol.40,no.12,1992):
【数10】 を適用できる。ここで、ξはsigmoid 関数の勾配を制御
する正定数である。また、dk はクラスkのサンプルを
誤分類した際の誤分類の度合いを示す尺度で、次式で定
義される。
する正定数である。また、dk はクラスkのサンプルを
誤分類した際の誤分類の度合いを示す尺度で、次式で定
義される。
【0021】
【数11】 式(8)の詳細説明は上記公知論文“Discriminantlear
ning for minimum errorclassification,”に詳しい。
ning for minimum errorclassification,”に詳しい。
【0022】翻って、本問題の場合、式(8)でd
k (x)をdk (f^,w)に、f(k)(x)をα(k)T
f^に置き換えることによりC(f^)=kなるf^に
対する誤分類尺度
k (x)をdk (f^,w)に、f(k)(x)をα(k)T
f^に置き換えることによりC(f^)=kなるf^に
対する誤分類尺度
【数12】 を得る。ηは正定数。
【0023】f^が正しく分類されているときはd
k (f^;W)<0となり、誤分類されているときはd
k (f^;W)>0となる。また、f^が正しく分類さ
れているとき、|dk (f^;W)|の値が大きくなる
につれて、損失関数の値が0に漸近し、一方、誤分類の
ときはdk (f^;W)の値が大きくなるにつれて、損
失関数の値が1に漸近する。つまり、損失関数の値が、
分類の正解、不正解だけでなく、その度合いに応じて決
まる。
k (f^;W)<0となり、誤分類されているときはd
k (f^;W)>0となる。また、f^が正しく分類さ
れているとき、|dk (f^;W)|の値が大きくなる
につれて、損失関数の値が0に漸近し、一方、誤分類の
ときはdk (f^;W)の値が大きくなるにつれて、損
失関数の値が1に漸近する。つまり、損失関数の値が、
分類の正解、不正解だけでなく、その度合いに応じて決
まる。
【0024】また、明らかに、dk =0付近では分類結
果の正解、不正解に関わらず、同程度の損失が付与され
ることになる。これにより、過学習が抑制され、正則化
と同様、未知データに対する頑健性を高める効果があ
る。
果の正解、不正解に関わらず、同程度の損失が付与され
ることになる。これにより、過学習が抑制され、正則化
と同様、未知データに対する頑健性を高める効果があ
る。
【0025】式(8),(9)から損失関数が陽に得ら
れれば、式(6)の目的関数(経験損失関数)Jが線形
重みWの関数として得られる。この場合、経験損失関数
Jは線形重みWに関して非線形となるので閉形式の解は
得られず、反復法で線形重みWを推定することになる。
例えば、公知の手法である確率的降下法(Amari S.,“A
theory of adaptive pattrn classifiers,”IEEE Tran
s.Elec.Comput.,vol.16,pp.299-307,1967)を用いて線
形重みWを逐次推定できる。
れれば、式(6)の目的関数(経験損失関数)Jが線形
重みWの関数として得られる。この場合、経験損失関数
Jは線形重みWに関して非線形となるので閉形式の解は
得られず、反復法で線形重みWを推定することになる。
例えば、公知の手法である確率的降下法(Amari S.,“A
theory of adaptive pattrn classifiers,”IEEE Tran
s.Elec.Comput.,vol.16,pp.299-307,1967)を用いて線
形重みWを逐次推定できる。
【0026】
【数13】 また、UはK次正定値行列(実際には単位行列で良い)
である。さらにε(t)は学習レートで、以下の条件を
満たすとき、アルゴリズムの局所最適解への収束が理論
保証される。
である。さらにε(t)は学習レートで、以下の条件を
満たすとき、アルゴリズムの局所最適解への収束が理論
保証される。
【0027】
【数14】 以上説明したように、本発明では、単一モデルの識別関
数ではなく、複数モデルを線形結合した識別関数を用い
ているので、複雑さの異なるクラス境界が混在する分類
問題に対しても、適応的に適切な複雑さのクラス境界が
自動生成され、良好なクラス境界が得られる。
数ではなく、複数モデルを線形結合した識別関数を用い
ているので、複雑さの異なるクラス境界が混在する分類
問題に対しても、適応的に適切な複雑さのクラス境界が
自動生成され、良好なクラス境界が得られる。
【0028】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は、本発明の一実施形態の複数の識別関
数の統合によるパターン認識方法を実施するための装置
の機能構成を示すブロック図である。
説明する。図1は、本発明の一実施形態の複数の識別関
数の統合によるパターン認識方法を実施するための装置
の機能構成を示すブロック図である。
【0029】前記レベル0学習工程では、外部より与え
られた前記訓練データを用いて、予め与えられたM種類
の識別関数の未知パラメータを推定し、前記レベル0識
別関数を構成する。このレベル0識別関数の構成は用い
る識別関数に応じた公知の手法が利用できる。例えば、
非線形識別関数として知られる3層ニューラルネットを
識別関数として採用した場合(この場合、入力ユニット
数は特徴ベクトルの次元数で、出力ユニット数はクラス
数Kとなる)の実施例を以下に示す。
られた前記訓練データを用いて、予め与えられたM種類
の識別関数の未知パラメータを推定し、前記レベル0識
別関数を構成する。このレベル0識別関数の構成は用い
る識別関数に応じた公知の手法が利用できる。例えば、
非線形識別関数として知られる3層ニューラルネットを
識別関数として採用した場合(この場合、入力ユニット
数は特徴ベクトルの次元数で、出力ユニット数はクラス
数Kとなる)の実施例を以下に示す。
【0030】ニューラルネットのモデル選択法として、
正則化パラメータによる公知の方法が利用できる。前記
正則化パラメータは実数値で、その値が大きい程、ニュ
ーラルネットの自由度が減少するので、モデル選択とし
て用いることができる。そこで、訓練データに対し、M
種類の前記正則化パラメータを設定して各々ニューラル
ネットを学習し、M種類の識別関数を構成する。ニュー
ラルネットの学習は公知の逆誤差伝搬法が利用できる。
正則化パラメータによる公知の方法が利用できる。前記
正則化パラメータは実数値で、その値が大きい程、ニュ
ーラルネットの自由度が減少するので、モデル選択とし
て用いることができる。そこで、訓練データに対し、M
種類の前記正則化パラメータを設定して各々ニューラル
ネットを学習し、M種類の識別関数を構成する。ニュー
ラルネットの学習は公知の逆誤差伝搬法が利用できる。
【0031】レベル1データ生成工程では、i=1,
2,…,Nの各々に対し、手順1,2を実行する。
2,…,Nの各々に対し、手順1,2を実行する。
【0032】(手順1)前記訓練データDから第i番目
のペア(xi ,C(xi ))を取り除いた D(-i)=D−(xi ,C(xi )) を用いて前記M種類のニューラルネットを新たに学習す
る。
のペア(xi ,C(xi ))を取り除いた D(-i)=D−(xi ,C(xi )) を用いて前記M種類のニューラルネットを新たに学習す
る。
【0033】(手順2)手順1で得られた学習済みのM
種類のニューラルネットに対し、手順1で抜き取ったx
i を入力する。第m番目のニューラルネットの出力(K
次元ベクトル)を f^i =(fm (1) (xi ;D(-i)) で表すと、(f^i ,C(f^i ))をレベル1データの
第i番目のペアとする。
種類のニューラルネットに対し、手順1で抜き取ったx
i を入力する。第m番目のニューラルネットの出力(K
次元ベクトル)を f^i =(fm (1) (xi ;D(-i)) で表すと、(f^i ,C(f^i ))をレベル1データの
第i番目のペアとする。
【0034】以上の手順より、計N組のペアからなるレ
ベル1データ D′={(f^i ,C(f^i ));i=1,…,N} を得る。
ベル1データ D′={(f^i ,C(f^i ));i=1,…,N} を得る。
【0035】識別関数統合工程では、まず、前記レベル
1データを用いて、前記線形重みを以下の手順1,2で
求める。
1データを用いて、前記線形重みを以下の手順1,2で
求める。
【0036】(手順1)線形重みの初期値 W(0)=(α(1) ,…,α(K) ) を適当に設定する。t←0とする。
【0037】(手順2)適当な収束条件を満たすまで、
【数15】 を実行し、収束したWの値を線形重みの値とする。
【0038】次に、前記で得られた線形重みとレベル0
学習工程で得られたM種類の学習済みニューラルネット
を用いて、式(4)に示した線形結合により統合識別関
数を得る。
学習工程で得られたM種類の学習済みニューラルネット
を用いて、式(4)に示した線形結合により統合識別関
数を得る。
【0039】図2乃至図7は本発明の有効性を実験的に
示すものである。実験では、2次元、4クラスのガウス
分布
示すものである。実験では、2次元、4クラスのガウス
分布
【数16】 から人工的に学習データ:50/class 、テストデー
タ:300/class を生成した。上記分布から算出した
真の分類境界(Bayes 境界)を図2に重畳表示する。
タ:300/class を生成した。上記分布から算出した
真の分類境界(Bayes 境界)を図2に重畳表示する。
【0040】前記正則化パラメータ値をλ=5.0,
1.0,0.2,0.04と変動させて中間ユニットH
=20のニューラルネットを各々学習して得られたレベ
ル1データを基に前記手順で統合識別関数を構成した。
図3に正則化パラメータ値λ=5.0のとき、図4に同
λ=1.0のとき、図5に同λ=0.2のとき、図6に
λ=0.04のときの単一のニューラルネットから得ら
れたクラス境界をそれぞれ示す。また、図7に統合され
たニューラルネットから得られたクラス境界を示す。
1.0,0.2,0.04と変動させて中間ユニットH
=20のニューラルネットを各々学習して得られたレベ
ル1データを基に前記手順で統合識別関数を構成した。
図3に正則化パラメータ値λ=5.0のとき、図4に同
λ=1.0のとき、図5に同λ=0.2のとき、図6に
λ=0.04のときの単一のニューラルネットから得ら
れたクラス境界をそれぞれ示す。また、図7に統合され
たニューラルネットから得られたクラス境界を示す。
【0041】上述したように、図2乃至図6から、正則
化パラメータの値が大き過ぎる(λ=5)と、クラス境
界が単純すぎるため柔軟な認識ができず、逆に、小さ過
ぎる(λ=0.04)と複雑なクラス境界により学習デ
ータに特化したクラス境界となってしまう。
化パラメータの値が大き過ぎる(λ=5)と、クラス境
界が単純すぎるため柔軟な認識ができず、逆に、小さ過
ぎる(λ=0.04)と複雑なクラス境界により学習デ
ータに特化したクラス境界となってしまう。
【0042】実際、λ=5.0,1.0,0.2,0.
04に対する各ニューラルネットの学習データに対する
分類誤り率(%)は、順に、58.0,28.5,2
2.0,19.5で、テストデータに対するそれは、順
に、59.7,28.3,23.3,23.6であっ
た。単一ニューラルネットでの予備実験ではλ=0.2
のときが汎化誤差(テストエラー)が最小であった。
04に対する各ニューラルネットの学習データに対する
分類誤り率(%)は、順に、58.0,28.5,2
2.0,19.5で、テストデータに対するそれは、順
に、59.7,28.3,23.3,23.6であっ
た。単一ニューラルネットでの予備実験ではλ=0.2
のときが汎化誤差(テストエラー)が最小であった。
【0043】一方、統合した場合、学習データおよびテ
ストデータに対する分類誤り率は各々20.0,22.
4であった。H=20での単一のニューラルネットでの
最良での(λ=0.2に相当)の23.3%よりも良い
結果(22.4%)が得られ、所望の識別器が構成でき
ている。また、図7を見ると、得られた分類境界は、ク
ラス1、クラス3間に対しては、λ=1.0のそれに類
似し、クラス2、クラス3間に対しては、λ=0.2の
それに類似し、更に、クラス2、クラス4間に対して
は、λ=0.04のそれに類似していることがわかる。
この結果は、統合識別関数が、各識別器の平均的な識別
器を構成するのではなく、各識別器の長所を活かした最
良な統合識別器を構成可能であることを示している。
ストデータに対する分類誤り率は各々20.0,22.
4であった。H=20での単一のニューラルネットでの
最良での(λ=0.2に相当)の23.3%よりも良い
結果(22.4%)が得られ、所望の識別器が構成でき
ている。また、図7を見ると、得られた分類境界は、ク
ラス1、クラス3間に対しては、λ=1.0のそれに類
似し、クラス2、クラス3間に対しては、λ=0.2の
それに類似し、更に、クラス2、クラス4間に対して
は、λ=0.04のそれに類似していることがわかる。
この結果は、統合識別関数が、各識別器の平均的な識別
器を構成するのではなく、各識別器の長所を活かした最
良な統合識別器を構成可能であることを示している。
【0044】
【発明の効果】以上、説明したように、本発明によれ
ば、単一モデルの識別関数ではなく、複数モデルを線形
結合した識別関数を用いているので、複雑さの異なるク
ラス境界が混在する分類問題に対しても、適応的に適切
な複雑さのクラス境界が自動生成され、良好なクラス境
界が得られる。
ば、単一モデルの識別関数ではなく、複数モデルを線形
結合した識別関数を用いているので、複雑さの異なるク
ラス境界が混在する分類問題に対しても、適応的に適切
な複雑さのクラス境界が自動生成され、良好なクラス境
界が得られる。
【図1】本発明の一実施形態の複数の識別関数の統合に
よるパターン認識方法を実施するための装置の機能構成
を示すブロック図である。
よるパターン認識方法を実施するための装置の機能構成
を示すブロック図である。
【図2】本発明の有効性を実験から示すための図であ
り、真のクラス境界を示す図である。
り、真のクラス境界を示す図である。
【図3】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=5.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
り、正則化パラメータ値λ=5.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
【図4】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=1.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
り、正則化パラメータ値λ=1.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
【図5】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=0.2のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
り、正則化パラメータ値λ=0.2のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
【図6】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=0.04のときの単一のニ
ューラルネットから得られたクラス境界を示す図であ
る。
り、正則化パラメータ値λ=0.04のときの単一のニ
ューラルネットから得られたクラス境界を示す図であ
る。
【図7】本発明の有効性を実験から示すための図であ
り、統合されたニューラルネットから得られたクラス境
界を示す図である。
り、統合されたニューラルネットから得られたクラス境
界を示す図である。
1 レベル0学習工程 3 レベル1学習工程 5 統合工程 7 訓練データ 9 レベル1データ
Claims (2)
- 【請求項1】 あるパターンの観測結果として得られる
特徴ベクトルをKクラスのいずれかに分類するパターン
認識問題に対し、K個の識別関数を用意し、該識別関数
の値が最大となるクラスを前記データの帰属クラスとす
る識別関数によるパターン認識方法において、 予め用意しておいたM種類の識別関数を、特徴ベクトル
とこの特徴ベクトルが帰属する帰属クラスとのペアから
成るN組の訓練データを用いて前記M種類の識別関数群
を各々個別に学習させてM種類のレベル0識別関数を構
成するレベル0学習工程と、 前記N組の訓練データから1組の訓練データを順次抜き
取ると共に1組抜き取る毎に、残りのN−1組の訓練デ
ータを用いて前記M種類の識別関数を各々新たに学習し
てM種類のレベル1識別関数を各クラス毎に構成した
後、前記抜き取った1組のデータに対するM種類のレベ
ル1識別関数の出力値から成るKM次元ベクトルと前記
抜き取ったデータのクラスラベルとのペアから成る計N
組のレベル1データを構成するレベル1データ生成工程
と、 前記レベル1データを用いて、前記レベル0学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを特徴とする複数の識別関数の統合によるパ
ターン認識方法。 - 【請求項2】 前記識別関数統合工程において、分類誤
りの度合いの関数として定義される損失関数のレベル1
データに渡る平均値を最小化するよう前記線形重みを求
めることを特徴とする請求項1記載の複数の識別関数の
統合によるパターン認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9127563A JPH10320370A (ja) | 1997-05-16 | 1997-05-16 | 複数の識別関数の統合によるパターン認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9127563A JPH10320370A (ja) | 1997-05-16 | 1997-05-16 | 複数の識別関数の統合によるパターン認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10320370A true JPH10320370A (ja) | 1998-12-04 |
Family
ID=14963136
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9127563A Pending JPH10320370A (ja) | 1997-05-16 | 1997-05-16 | 複数の識別関数の統合によるパターン認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10320370A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
| JP2015520901A (ja) * | 2012-05-25 | 2015-07-23 | クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. | カテゴリー割合を算出するシステムおよび方法 |
| CN119395239A (zh) * | 2024-12-31 | 2025-02-07 | 泉州市虹岩茶业有限公司 | 一种茶叶品质等级检测方法和系统 |
-
1997
- 1997-05-16 JP JP9127563A patent/JPH10320370A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
| JP2015520901A (ja) * | 2012-05-25 | 2015-07-23 | クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. | カテゴリー割合を算出するシステムおよび方法 |
| CN119395239A (zh) * | 2024-12-31 | 2025-02-07 | 泉州市虹岩茶业有限公司 | 一种茶叶品质等级检测方法和系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112990097B (zh) | 一种基于对抗消除的人脸表情识别方法 | |
| Tax et al. | Combining one-class classifiers | |
| CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
| Chan et al. | Bayesian poisson regression for crowd counting | |
| US20220230066A1 (en) | Cross-domain adaptive learning | |
| CN109299668B (zh) | 一种基于主动学习和聚类分析的高光谱图像分类方法 | |
| US5724487A (en) | Neural network for maximum likelihood classification with supervised and unsupervised training capability | |
| JP2005505062A (ja) | 学習されたモデルの部分を用いた顔認識のシステム及び方法 | |
| CN111709299A (zh) | 一种基于加权支持向量机的水声目标识别方法 | |
| CN114998602A (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
| CN111224905A (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
| CN112183336A (zh) | 表情识别模型训练方法、装置、终端设备及存储介质 | |
| CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
| CN110110845A (zh) | 一种基于并行多级宽度神经网络的学习方法 | |
| CN116894753A (zh) | 一种小样本图像隐写分析模型训练方法、分析方法及装置 | |
| WO2003030089A1 (en) | System and method of face recognition through 1/2 faces | |
| CN114943330B (zh) | 一种神经网络模型的训练方法、装置、设备及存储介质 | |
| WO2022159960A1 (en) | Cross-domain adaptive learning | |
| Aghabozorgi et al. | Adaptive IMLE for few-shot pretraining-free generative modelling | |
| CN118296143A (zh) | 基于投影胶囊网络模型的文本分类方法、装置及存储介质 | |
| Hollmén et al. | A learning vector quantization algorithm for probabilistic models | |
| CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
| Chen et al. | Batch-ensemble stochastic neural networks for out-of-distribution detection | |
| EP1480167A1 (en) | Pattern feature selection method, classification method, judgment method, program, and device | |
| Holz et al. | Relative feature importance: A classifier-independent approach to feature selection |