JPH10320370A - Pattern recognition method by integrating multiple discriminant functions - Google Patents

Pattern recognition method by integrating multiple discriminant functions

Info

Publication number
JPH10320370A
JPH10320370A JP9127563A JP12756397A JPH10320370A JP H10320370 A JPH10320370 A JP H10320370A JP 9127563 A JP9127563 A JP 9127563A JP 12756397 A JP12756397 A JP 12756397A JP H10320370 A JPH10320370 A JP H10320370A
Authority
JP
Japan
Prior art keywords
level
discriminant
function
data
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9127563A
Other languages
Japanese (ja)
Inventor
Shuko Ueda
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9127563A priority Critical patent/JPH10320370A/en
Publication of JPH10320370A publication Critical patent/JPH10320370A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 複数の識別関数の統合によるパターン認識を
行う。 【解決手段】 予め用意しておいたM種類の識別関数
を、特徴ベクトルとこの特徴ベクトルが帰属する帰属ク
ラスとのペアから成るN組の訓練データを用いてM種類
の識別関数群を各々個別に学習させてM種類のレベル0
識別関数を構成し、N組の訓練データから1組の訓練デ
ータを順次抜き取ると共に1組抜き取る毎に、残りのN
−1組の訓練データを用いてM種類の識別関数を各々新
たに学習してM種類のレベル1識別関数を各クラス毎に
構成した後、抜き取った1組のデータに対するM種類の
レベル1識別関数の出力値から成るKM次元ベクトルと
抜き取ったデータのクラスラベルとのペアから成る計N
組のレベル1データを構成し、前記学習済みの識別関数
の出力の線形和として新たな識別関数を構成する。
(57) [Summary] (With correction) [Problem] To perform pattern recognition by integrating a plurality of identification functions. SOLUTION: M kinds of discriminant functions prepared in advance are individually classified into N kinds of discriminant functions using N sets of training data composed of pairs of feature vectors and classes to which the feature vectors belong. To learn, M kinds of level 0
A discriminant function is constructed, and one set of training data is sequentially extracted from the N sets of training data.
−1 sets of training data are used to newly learn M kinds of discriminant functions, M kinds of level 1 discriminant functions are constructed for each class, and then M kinds of level 1 discriminants for one set of extracted data A total N consisting of a pair of a KM-dimensional vector composed of the output values of the function and a class label of the extracted data
A set of level 1 data is formed, and a new discriminant function is formed as a linear sum of the outputs of the learned discriminant functions.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データの確率分布
を仮定しないノンパラメトリックなパターン認識を実現
することを可能とする複数の識別関数の統合によるパタ
ーン認識方法に関するものである。
[0001] 1. Field of the Invention [0002] The present invention relates to a pattern recognition method by integrating a plurality of discriminant functions, which can realize nonparametric pattern recognition without assuming a probability distribution of data.

【0002】[0002]

【従来の技術】まず、特徴ベクトルxをKクラスのいず
れかに分類する問題を考える。このとき、各クラスに各
々関数f(k) (x),k=1,…,Kを対応させ、f
(k) (x)の値が最大となるクラスを特徴ベクトルxの
クラスとして決定する方法を識別関数法と呼び、このと
き用いられる関数を識別関数という。
2. Description of the Related Art First, consider the problem of classifying a feature vector x into one of K classes. At this time, a function f (k) (x), k = 1,...
(k) A method of determining the class having the maximum value of (x) as the class of the feature vector x is called an identification function method, and the function used at this time is called an identification function.

【0003】すなわち、識別関数によるクラス決定はThat is, the class determination by the discriminant function is

【数1】 と書ける。ここで、C(x)は特徴ベクトルxのクラス
を表す。従って、1つの分類器(classifier)はK個の
識別関数から構成される。
(Equation 1) I can write Here, C (x) represents the class of the feature vector x. Thus, one classifier is composed of K discriminant functions.

【0004】識別関数法では、まず、識別関数をパラメ
トリックに定め、次いで、特徴ベクトルとそのクラスラ
ベルからなる予め与えられた訓練データを用いて、訓練
データができるだけ正しく認識されるよう識別関数のパ
ラメータを推定する。このパラメータ推定過程は識別関
数の学習過程と呼ばれる。
In the discriminant function method, first, a discriminant function is determined parametrically, and then parameters of the discriminant function are determined using training data consisting of a feature vector and its class label so that the training data is recognized as correctly as possible. Is estimated. This parameter estimation process is called a learning process of the discriminant function.

【0005】最も単純な識別関数として、パラメータが
特徴ベクトルxに関して線形な f(k) (x)=ΘT x …(1) で表される線形識別関数がある。ここで、Θは未知パラ
メータベクトル、Tはベクトルの転置を表すものとす
る。
[0005] As the simplest identification function, there is a linear discriminant function parameter is represented by linear f (k) (x) = Θ T x ... (1) with respect to the feature vector x. Here, Θ represents an unknown parameter vector, and T represents transposition of the vector.

【0006】識別関数によるパターン認識では、その認
識性能は用いる識別関数のモデル、すなわち、識別関数
としてどのような関数を用いるかに左右される。
In pattern recognition using a discriminant function, the recognition performance depends on the model of the discriminant function to be used, that is, what kind of function is used as the discriminant function.

【0007】例えば、線形分離可能なクラス境界からな
る分類問題では線形境界を生成する線形識別関数が適切
であり、複雑なクラス境界の場合、その複雑さの度合い
に応じたより自由度の高い識別関数が望まれる。
For example, a linear discriminant function that generates a linear boundary is appropriate for a classification problem including class boundaries that can be linearly separated. In the case of a complex class boundary, a discriminant function having a higher degree of freedom according to the degree of complexity is appropriate. Is desired.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、従来、
何等かの基準で最適な識別関数のモデルを決定するよう
にしていたが、こうして得られた単一モデルでは、同程
度の複雑さのクラス境界から成る分類問題では、確か
に、良好な識別関数のモデルが選択されるが、単純なク
ラス境界と複雑なクラス境界とが混在する分類問題の場
合では、両者の中間的な複雑さの識別関数を選択しなけ
ればならないという問題が生じる。例えば、文字認識の
ようにクラス数が多い応用ではこうした状況は容易に起
こり得る。
However, conventionally,
Although we tried to determine the optimal model of the discriminant function based on some criteria, the single model obtained in this way would not be a good one for a classification problem consisting of class boundaries of similar complexity. Is selected, but in the case of a classification problem in which a simple class boundary and a complex class boundary are mixed, a problem arises in that an identification function having an intermediate complexity between the two must be selected. For example, in an application having a large number of classes such as character recognition, such a situation can easily occur.

【0009】本発明は、上記課題に鑑みてなされたもの
で、単一モデルの選択によって生じる識別関数によるパ
ターン認識における識別関数のモデル選択の問題を解決
することのできる複数の識別関数の統合によるパターン
認識方法を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and is based on the integration of a plurality of discriminant functions which can solve the problem of model selection of discriminant functions in pattern recognition using a discriminant function generated by the selection of a single model. It is an object to provide a pattern recognition method.

【0010】[0010]

【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項1記載の発明は、あるパ
ターンの観測結果として得られる特徴ベクトルをKクラ
スのいずれかに分類するパターン認識問題に対し、K個
の識別関数を用意し、該識別関数の値が最大となるクラ
スを前記データの帰属クラスとする識別関数によるパタ
ーン認識方法において、予め用意しておいたM種類の識
別関数を、特徴ベクトルとこの特徴ベクトルが帰属する
帰属クラスとのペアから成るN組の訓練データを用いて
前記M種類の識別関数群を各々個別に学習させてM種類
のレベル0識別関数を構成するレベル0学習工程と、前
記N組の訓練データから1組の訓練データを順次抜き取
ると共に1組抜き取る毎に、残りのN−1組の訓練デー
タを用いて前記M種類の識別関数を各々新たに学習して
M種類のレベル1識別関数を各クラス毎に構成した後、
前記抜き取った1組のデータに対するM種類のレベル1
識別関数の出力値から成るKM次元ベクトルと前記抜き
取ったデータのクラスラベルとのペアから成る計N組の
レベル1データを構成するレベル1データ生成工程と、
前記レベル1データを用いて、前記レベル0学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを要旨とする。
In order to achieve the above object, according to the present invention, a feature vector obtained as an observation result of a certain pattern is classified into one of K classes. For the pattern recognition problem, K discriminating functions are prepared, and in a pattern recognition method using a discriminating function in which a class having the maximum value of the discriminant function is a class to which the data belongs, M kinds of prepared in advance are used. The discrimination functions are individually trained using the M sets of discrimination functions using N sets of training data composed of a pair of a feature vector and a class to which the feature vector belongs. The level 0 learning process to be constituted, and one set of training data is sequentially extracted from the N sets of training data, and each time one set is extracted, the M is set using the remaining N-1 sets of training data. After configuring the level 1 discriminant function M types for each class by each newly learned identification function classes,
M types of level 1 for the extracted set of data
A level 1 data generating step of forming a total of N sets of level 1 data consisting of a pair of a KM dimensional vector including an output value of the identification function and a class label of the extracted data;
A discriminant function integrating step of forming a new discriminant function as a linear sum of outputs of the discriminant functions learned in the level 0 learning step using the level 1 data. The gist is that pattern recognition is performed by the discrimination function.

【0011】また、請求項2記載の発明は、請求項1記
載の発明の構成のうち、識別関数統合工程において、分
類誤りの度合いの関数として定義される損失関数のレベ
ル1データに渡る平均値を最小化するよう前記線形重み
を求めることを要旨とする。
According to a second aspect of the present invention, in the configuration of the first aspect of the invention, in the discriminant function integrating step, the average value over the level 1 data of the loss function defined as a function of the degree of the classification error is provided. The point is to obtain the linear weight so as to minimize.

【0012】[0012]

【発明の実施の形態】以下、本発明の複数の識別関数の
統合によるパターン認識方法について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a pattern recognition method according to the present invention by integrating a plurality of identification functions will be described.

【0013】上記目的を達成するため、請求項1に記載
の本発明では、M種類の識別関数の線形結合として表現
される統合識別関数を考える。すなわち、f
ens (k) (x)をある特徴ベクトルxに対する統合後の
第kクラスの識別関数の出力を表すものとすると、本発
明による各クラスの統合識別関数は、以下に示すよう
に、予め与えられたM種類の識別関数を同一の訓練デー
タ D={(xi ,C(xi ));i=1,…,N} を用いて各々個別に学習した識別関数(レベル0識別関
数と呼ぶ)のxに対するMK個の出力の線形結合として
定義される。
In order to achieve the above object, in the present invention, an integrated discriminant function expressed as a linear combination of M kinds of discriminant functions is considered. That is, f
Assuming that ens (k) (x) represents the output of the k-th class identification function after integration for a certain feature vector x, the integrated identification function of each class according to the present invention is given in advance as shown below. and M types of the same training discriminant function data D = {(x i, C (x i)); i = 1, ..., N} is called with each individually learned discriminant function (level 0 discriminant function using ) Is defined as a linear combination of the MK outputs for x.

【0014】[0014]

【数2】 は、xに対するMK個のレベル0識別関数の出力からな
るMK次元ベクトルである。アンサンブル分類器による
識別規則は以下で与えられる。
(Equation 2) Is an MK dimensional vector consisting of the outputs of the MK level 0 discriminant functions for x. The identification rules by the ensemble classifier are given below.

【0015】[0015]

【数3】 式(2)を行列表示すると、 y(x)=WT f^(x;D) …(4) 但し、(Equation 3) When the equation (2) is expressed as a matrix, y (x) = W T f ^ (x; D) (4)

【数4】 と書ける。(Equation 4) I can write

【0016】次に、請求項2に記載の線形重みWを求め
る手段について説明する。まず、式(3)における線形
重みWは識別関数空間(f^空間)からK次元への線形
写像: W:RKM → RK となっている。ここで式(4)を注意深く見ると、f
ens (k) は識別関数空間f^上ではα(k) をパラメータ
とする線形識別関数と見做せる。すなわち、式(4)の
線形重みWは、関数空間上のN点f^(x1 ),…,f
^(xN )を、その各々のクラスラベルC(x1 ),
…,C(xN )にできるだけ忠実に分類するための線形
識別関数のパラメータに対応していることがわかる。つ
まり、最適結合重みの決定問題は、識別関数空間上での
最適線形識別関数の設計問題に帰着されることになる。
Next, the means for determining the linear weight W according to claim 2 will be described. First, linear mapping of the linear weighting W in Equation (3) from the identification function space (f ^ space) into K-dimensional: W: has a R KM → R K. Here, if we look carefully at equation (4), f
ens (k) can be regarded as a linear discriminant function having α (k) as a parameter in the discriminant function space f ^. That is, the linear weight W in the equation (4) is calculated at N points f ^ (x 1 ),.
^ (x N ) is replaced by its respective class label C (x 1 ),
.., C (x N ), which correspond to the parameters of a linear discriminant function for classifying as faithfully as possible. That is, the problem of determining the optimal connection weight is reduced to a design problem of the optimal linear discriminant function in the discriminant function space.

【0017】今、ある線形重みWが与えられたとき、式
(2),式(3)により第kクラスのサンプルxを誤分
類した際の損失をgk (f^(x);W)で表し、Fを
分布p(f^)に従う確率変数とすると、損失の期待値
Now, given a certain linear weight W, the loss caused by misclassification of the sample x of the k-th class by the equations (2) and (3) is represented by g k (f ^ (x); W). Where F is a random variable that follows the distribution p (f ^), the expected value of the loss is

【数5】 と書ける。但し、Pk は第kクラスの事前確率(prior
)とする。従って、期待損失最小化の観点で最適な線
形重みWはLの最小化問題を解くことにより求まる。し
かしながら、実際には確率変数Fの分布は未知であるこ
とから、上記の期待値計算は学習データに基づく経験分
布による期待値計算:
(Equation 5) I can write Here, P k is the k-th class prior probability (priority
). Therefore, the optimal linear weight W from the viewpoint of minimizing expected loss can be obtained by solving the L minimization problem. However, since the distribution of the random variable F is actually unknown, the above-described expected value calculation is performed using the empirical distribution based on the learning data:

【数6】 で近似される。ここに、1(u)はuが真(true)のと
き「1」でそれ以外は「0」を返す関数である。
(Equation 6) Is approximated by Here, 1 (u) is a function that returns “1” when u is true, and returns “0” otherwise.

【0018】しかしながら、式(5)ではDがf^の推
定と線形重みWの推定に重複して使われているので、得
られたアンサンブル分類器は特定の学習データDに対し
て過学習(overfit )となる問題が生じる。そこで、公
知の手段である、“StackedGeneralization”(Wolpert
D.H., “Stacked generalization,”Neural Network
s,vol.5,no.2,pp.241-259,1992)で提案された“レベル
1データ”を用いてこの問題に対処する。
However, in equation (5), since D is used for both the estimation of f と and the estimation of the linear weight W, the obtained ensemble classifier performs over-learning on the specific training data D. overfit). Therefore, a known means, “StackedGeneralization” (Wolpert
DH, “Stacked generalization,” Neural Network
s, vol.5, no.2, pp.241-259, 1992), this problem is addressed using "level 1 data".

【0019】つまりレベル1データは、原学習データを
「1つ抜き交差確認法(leave-one-out cross validati
on)」を適用することにより得られる。具体的には、原
データからi番目のサンプル点xi を抜いた D(-i)≡D−{(xi ,C(xi ))} でfm (k) を学習し、抜かれたデータxi に対するfm
(k) の出力をfm (k)(xi ;D(-i))で表すものとす
ると、レベル1データは
That is, the level 1 data is obtained by subtracting the original learning data from the “leave-one-out cross validity check method”.
on) ”. Specifically, D to disconnect the i th sample point x i from the original data (-i) ≡D - learn {(x i, C (x i))} with f m (k), it is unplugged F m for data x i
Assuming that the output of (k ) is represented by f m (k) (x i ; D (-i) ), the level 1 data is

【数7】 D′={(f^i ,C(f^i ));i=1,…,N} となる。ここに、D ′ = {(f ^ i , C (f ^ i )); i = 1,..., N}. here,

【数8】 また、明らかに、C(f^i )≡C(xi )。結局、線
形重みWの推定値はD′から次式の最小化問題を解くこ
とにより求められる。
(Equation 8) Also, obviously, C (f ^ i) ≡C (x i). After all, the estimated value of the linear weight W is obtained by solving the following minimization problem from D ′.

【0020】[0020]

【数9】 明らかに、式(6)において、f^i をxi と置き換え
れば、特徴ベクトル空間での通常の識別関数の設計問題
となっている。従って、損失関数として、例えば、公知
の誤分類尺度に基づく平滑化0−1損失関数(Juang B.
H.and KatagiriS.,“Discriminantlearning for minimu
m error classification,”IEEE Trans.Signal Proc.,
vol.40,no.12,1992):
(Equation 9) Obviously, replacing f ^ i with x i in equation (6) is a design problem for a normal discriminant function in the feature vector space. Therefore, as the loss function, for example, a smoothed 0-1 loss function (Juang B.
H. and KatagiriS., “Discriminantlearning for minimu
m error classification, ”IEEE Trans.Signal Proc.,
vol.40, no.12,1992):

【数10】 を適用できる。ここで、ξはsigmoid 関数の勾配を制御
する正定数である。また、dk はクラスkのサンプルを
誤分類した際の誤分類の度合いを示す尺度で、次式で定
義される。
(Equation 10) Can be applied. Where ξ is a positive constant that controls the slope of the sigmoid function. D k is a scale indicating the degree of misclassification when a class k sample is misclassified, and is defined by the following equation.

【0021】[0021]

【数11】 式(8)の詳細説明は上記公知論文“Discriminantlear
ning for minimum errorclassification,”に詳しい。
[Equation 11] The detailed description of equation (8) is described in the above-mentioned known paper “Discriminantlear
ning for minimum errorclassification, ”

【0022】翻って、本問題の場合、式(8)でd
k (x)をdk (f^,w)に、f(k)(x)をα(k)T
f^に置き換えることによりC(f^)=kなるf^に
対する誤分類尺度
Conversely, in the case of this problem, d
k (x) to d k (f ^, w) and f (k) (x) to α (k) T
misclassification measure for f ^ such that C (f ^) = k by substituting f ^

【数12】 を得る。ηは正定数。(Equation 12) Get. η is a positive constant.

【0023】f^が正しく分類されているときはd
k (f^;W)<0となり、誤分類されているときはd
k (f^;W)>0となる。また、f^が正しく分類さ
れているとき、|dk (f^;W)|の値が大きくなる
につれて、損失関数の値が0に漸近し、一方、誤分類の
ときはdk (f^;W)の値が大きくなるにつれて、損
失関数の値が1に漸近する。つまり、損失関数の値が、
分類の正解、不正解だけでなく、その度合いに応じて決
まる。
When f ^ is correctly classified, d
k (f ^; W) <0, and d if misclassified
k (f ^; W)> 0. Also, when f ^ is correctly classified, the value of the loss function gradually approaches 0 as the value of | d k (f 関 数; W) | increases, while d k (f The value of the loss function asymptotically approaches 1 as the value of 漸; W) increases. That is, the value of the loss function is
It depends not only on the correct or incorrect answer of the classification, but also on the degree.

【0024】また、明らかに、dk =0付近では分類結
果の正解、不正解に関わらず、同程度の損失が付与され
ることになる。これにより、過学習が抑制され、正則化
と同様、未知データに対する頑健性を高める効果があ
る。
In addition, it is apparent that around d k = 0, the same degree of loss is provided regardless of whether the classification result is correct or incorrect. This suppresses over-learning, and has the effect of increasing the robustness to unknown data, as well as regularization.

【0025】式(8),(9)から損失関数が陽に得ら
れれば、式(6)の目的関数(経験損失関数)Jが線形
重みWの関数として得られる。この場合、経験損失関数
Jは線形重みWに関して非線形となるので閉形式の解は
得られず、反復法で線形重みWを推定することになる。
例えば、公知の手法である確率的降下法(Amari S.,“A
theory of adaptive pattrn classifiers,”IEEE Tran
s.Elec.Comput.,vol.16,pp.299-307,1967)を用いて線
形重みWを逐次推定できる。
If the loss function is obtained explicitly from equations (8) and (9), the objective function (empirical loss function) J of equation (6) is obtained as a function of the linear weight W. In this case, since the empirical loss function J is nonlinear with respect to the linear weight W, a closed-form solution cannot be obtained, and the linear weight W is estimated by an iterative method.
For example, a stochastic descent method (Amari S., “A
theory of adaptive pattrn classifiers, ”IEEE Tran
s.Elec.Comput., vol. 16, pp. 299-307, 1967) can be used to sequentially estimate the linear weight W.

【0026】[0026]

【数13】 また、UはK次正定値行列(実際には単位行列で良い)
である。さらにε(t)は学習レートで、以下の条件を
満たすとき、アルゴリズムの局所最適解への収束が理論
保証される。
(Equation 13) U is a K-th positive definite matrix (actually, a unit matrix may be used)
It is. Further, ε (t) is a learning rate, and when the following condition is satisfied, the convergence of the algorithm to the local optimal solution is theoretically guaranteed.

【0027】[0027]

【数14】 以上説明したように、本発明では、単一モデルの識別関
数ではなく、複数モデルを線形結合した識別関数を用い
ているので、複雑さの異なるクラス境界が混在する分類
問題に対しても、適応的に適切な複雑さのクラス境界が
自動生成され、良好なクラス境界が得られる。
[Equation 14] As described above, the present invention uses an identification function obtained by linearly combining a plurality of models instead of an identification function of a single model, so that the present invention can be applied to a classification problem in which class boundaries having different complexity are mixed. A class boundary of appropriate complexity is automatically generated, and a good class boundary is obtained.

【0028】[0028]

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は、本発明の一実施形態の複数の識別関
数の統合によるパターン認識方法を実施するための装置
の機能構成を示すブロック図である。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram showing a functional configuration of an apparatus for implementing a pattern recognition method by integrating a plurality of identification functions according to an embodiment of the present invention.

【0029】前記レベル0学習工程では、外部より与え
られた前記訓練データを用いて、予め与えられたM種類
の識別関数の未知パラメータを推定し、前記レベル0識
別関数を構成する。このレベル0識別関数の構成は用い
る識別関数に応じた公知の手法が利用できる。例えば、
非線形識別関数として知られる3層ニューラルネットを
識別関数として採用した場合(この場合、入力ユニット
数は特徴ベクトルの次元数で、出力ユニット数はクラス
数Kとなる)の実施例を以下に示す。
In the level 0 learning step, unknown parameters of M kinds of identification functions given in advance are estimated using the training data given from outside, and the level 0 identification function is constructed. For the configuration of the level 0 identification function, a known method according to the identification function to be used can be used. For example,
An example in which a three-layer neural network known as a nonlinear discriminant function is adopted as a discriminant function (in this case, the number of input units is the number of dimensions of the feature vector and the number of output units is the number of classes K) will be described below.

【0030】ニューラルネットのモデル選択法として、
正則化パラメータによる公知の方法が利用できる。前記
正則化パラメータは実数値で、その値が大きい程、ニュ
ーラルネットの自由度が減少するので、モデル選択とし
て用いることができる。そこで、訓練データに対し、M
種類の前記正則化パラメータを設定して各々ニューラル
ネットを学習し、M種類の識別関数を構成する。ニュー
ラルネットの学習は公知の逆誤差伝搬法が利用できる。
As a method of selecting a neural network model,
Known methods using regularization parameters can be used. The regularization parameter is a real value, and the larger the value is, the more the degree of freedom of the neural network is reduced. Therefore, for the training data, M
The neural network is learned by setting the types of the regularization parameters, and M types of discriminant functions are configured. A known back error propagation method can be used for learning the neural network.

【0031】レベル1データ生成工程では、i=1,
2,…,Nの各々に対し、手順1,2を実行する。
In the level 1 data generation step, i = 1,
Steps 1 and 2 are performed for each of 2, 2,..., N.

【0032】(手順1)前記訓練データDから第i番目
のペア(xi ,C(xi ))を取り除いた D(-i)=D−(xi ,C(xi )) を用いて前記M種類のニューラルネットを新たに学習す
る。
[0032] The (Step 1) the i-th pair from the training data D D removal of the (x i, C (x i )) (-i) = D- (x i, C (x i)) using Thus, the M types of neural nets are newly learned.

【0033】(手順2)手順1で得られた学習済みのM
種類のニューラルネットに対し、手順1で抜き取ったx
i を入力する。第m番目のニューラルネットの出力(K
次元ベクトル)を f^i =(fm (1) (xi ;D(-i)) で表すと、(f^i ,C(f^i ))をレベル1データの
第i番目のペアとする。
(Procedure 2) The learned M obtained in the procedure 1
X extracted in step 1 for each type of neural network
Enter i . Output of the m-th neural network (K
The dimensional vector) f ^ i = (f m (1); expressed by (x i D (-i)) , (f ^ i, C (f ^ i)) the level 1 data i-th pair And

【0034】以上の手順より、計N組のペアからなるレ
ベル1データ D′={(f^i ,C(f^i ));i=1,…,N} を得る。
According to the above procedure, level 1 data D ′ = {(f ^ i , C (f ^ i )); i = 1,...

【0035】識別関数統合工程では、まず、前記レベル
1データを用いて、前記線形重みを以下の手順1,2で
求める。
In the discriminant function integrating step, first, the linear weights are obtained by the following procedures 1 and 2 using the level 1 data.

【0036】(手順1)線形重みの初期値 W(0)=(α(1) ,…,α(K) ) を適当に設定する。t←0とする。(Procedure 1) An initial value of linear weight W (0) = (α (1) ,..., Α (K) ) is appropriately set. Let t ← 0.

【0037】(手順2)適当な収束条件を満たすまで、(Procedure 2) Until an appropriate convergence condition is satisfied,

【数15】 を実行し、収束したWの値を線形重みの値とする。(Equation 15) Is performed, and the converged value of W is set as the value of the linear weight.

【0038】次に、前記で得られた線形重みとレベル0
学習工程で得られたM種類の学習済みニューラルネット
を用いて、式(4)に示した線形結合により統合識別関
数を得る。
Next, the linear weight obtained above and the level 0
Using the M types of learned neural nets obtained in the learning step, an integrated discriminant function is obtained by the linear combination shown in equation (4).

【0039】図2乃至図7は本発明の有効性を実験的に
示すものである。実験では、2次元、4クラスのガウス
分布
FIGS. 2 to 7 show experimentally the effectiveness of the present invention. In the experiment, two-dimensional, four-class Gaussian distribution

【数16】 から人工的に学習データ:50/class 、テストデー
タ:300/class を生成した。上記分布から算出した
真の分類境界(Bayes 境界)を図2に重畳表示する。
(Equation 16) , Artificially generated learning data: 50 / class and test data: 300 / class. The true classification boundary (Bayes boundary) calculated from the distribution is superimposed on FIG.

【0040】前記正則化パラメータ値をλ=5.0,
1.0,0.2,0.04と変動させて中間ユニットH
=20のニューラルネットを各々学習して得られたレベ
ル1データを基に前記手順で統合識別関数を構成した。
図3に正則化パラメータ値λ=5.0のとき、図4に同
λ=1.0のとき、図5に同λ=0.2のとき、図6に
λ=0.04のときの単一のニューラルネットから得ら
れたクラス境界をそれぞれ示す。また、図7に統合され
たニューラルネットから得られたクラス境界を示す。
The regularization parameter value is λ = 5.0,
Intermediate unit H changed to 1.0, 0.2, 0.04
= 20, and an integrated discriminant function was constructed by the above procedure based on the level 1 data obtained by learning each of the neural networks of = 20.
3 when the regularization parameter value λ = 5.0, FIG. 4 when λ = 1.0, FIG. 5 when λ = 0.2, and FIG. 6 when λ = 0.04. Each class boundary obtained from a single neural network is shown. FIG. 7 shows class boundaries obtained from the integrated neural network.

【0041】上述したように、図2乃至図6から、正則
化パラメータの値が大き過ぎる(λ=5)と、クラス境
界が単純すぎるため柔軟な認識ができず、逆に、小さ過
ぎる(λ=0.04)と複雑なクラス境界により学習デ
ータに特化したクラス境界となってしまう。
As described above, from FIGS. 2 to 6, if the value of the regularization parameter is too large (λ = 5), the class boundary is too simple to perform flexible recognition, and conversely, too small (λ = 0.04), which results in a class boundary specialized for learning data due to a complicated class boundary.

【0042】実際、λ=5.0,1.0,0.2,0.
04に対する各ニューラルネットの学習データに対する
分類誤り率(%)は、順に、58.0,28.5,2
2.0,19.5で、テストデータに対するそれは、順
に、59.7,28.3,23.3,23.6であっ
た。単一ニューラルネットでの予備実験ではλ=0.2
のときが汎化誤差(テストエラー)が最小であった。
In practice, λ = 5.0, 1.0, 0.2, 0.
The classification error rate (%) for the training data of each neural network for No. 04 is 58.0, 28.5, 2
At 2.0 and 19.5, that for the test data was 59.7, 28.3, 23.3 and 23.6, respectively. In preliminary experiments with a single neural network, λ = 0.2
At the time, the generalization error (test error) was the minimum.

【0043】一方、統合した場合、学習データおよびテ
ストデータに対する分類誤り率は各々20.0,22.
4であった。H=20での単一のニューラルネットでの
最良での(λ=0.2に相当)の23.3%よりも良い
結果(22.4%)が得られ、所望の識別器が構成でき
ている。また、図7を見ると、得られた分類境界は、ク
ラス1、クラス3間に対しては、λ=1.0のそれに類
似し、クラス2、クラス3間に対しては、λ=0.2の
それに類似し、更に、クラス2、クラス4間に対して
は、λ=0.04のそれに類似していることがわかる。
この結果は、統合識別関数が、各識別器の平均的な識別
器を構成するのではなく、各識別器の長所を活かした最
良な統合識別器を構成可能であることを示している。
On the other hand, when integrated, the classification error rates for the learning data and the test data are 20.0, 22.
It was 4. A better result (22.4%) than the best (corresponding to λ = 0.2) 23.3% of a single neural network with H = 20 was obtained, and the desired classifier could be constructed. ing. 7, the obtained classification boundary is similar to that of λ = 1.0 between class 1 and class 3, and λ = 0 between class 2 and class 3. .2, and between Class 2 and Class 4, it is similar to that of λ = 0.04.
This result indicates that the integrated discriminant function does not constitute the average discriminator of each discriminator, but can construct the best integrated discriminator taking advantage of each discriminator.

【0044】[0044]

【発明の効果】以上、説明したように、本発明によれ
ば、単一モデルの識別関数ではなく、複数モデルを線形
結合した識別関数を用いているので、複雑さの異なるク
ラス境界が混在する分類問題に対しても、適応的に適切
な複雑さのクラス境界が自動生成され、良好なクラス境
界が得られる。
As described above, according to the present invention, an identification function obtained by linearly combining a plurality of models is used instead of an identification function of a single model, so that class boundaries having different complexity are mixed. Also for a classification problem, a class boundary having appropriate complexity is automatically generated adaptively, and a good class boundary is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の複数の識別関数の統合に
よるパターン認識方法を実施するための装置の機能構成
を示すブロック図である。
FIG. 1 is a block diagram showing a functional configuration of an apparatus for implementing a pattern recognition method by integrating a plurality of identification functions according to an embodiment of the present invention.

【図2】本発明の有効性を実験から示すための図であ
り、真のクラス境界を示す図である。
FIG. 2 is a diagram for showing the effectiveness of the present invention from an experiment, and showing a true class boundary.

【図3】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=5.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
FIG. 3 is a diagram for showing the effectiveness of the present invention from an experiment, showing class boundaries obtained from a single neural network when the regularization parameter value λ = 5.0.

【図4】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=1.0のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
FIG. 4 is a diagram for showing the effectiveness of the present invention experimentally and showing class boundaries obtained from a single neural network when the regularization parameter value λ = 1.0.

【図5】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=0.2のときの単一のニュ
ーラルネットから得られたクラス境界を示す図である。
FIG. 5 is a diagram for showing the effectiveness of the present invention through experiments, and showing class boundaries obtained from a single neural network when the regularization parameter value λ = 0.2.

【図6】本発明の有効性を実験から示すための図であ
り、正則化パラメータ値λ=0.04のときの単一のニ
ューラルネットから得られたクラス境界を示す図であ
る。
FIG. 6 is a diagram for showing the effectiveness of the present invention from an experiment, and is a diagram showing class boundaries obtained from a single neural network when the regularization parameter value λ = 0.04.

【図7】本発明の有効性を実験から示すための図であ
り、統合されたニューラルネットから得られたクラス境
界を示す図である。
FIG. 7 is a diagram for showing the effectiveness of the present invention through experiments, and showing class boundaries obtained from an integrated neural network.

【符号の説明】[Explanation of symbols]

1 レベル0学習工程 3 レベル1学習工程 5 統合工程 7 訓練データ 9 レベル1データ 1 Level 0 learning process 3 Level 1 learning process 5 Integration process 7 Training data 9 Level 1 data

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 あるパターンの観測結果として得られる
特徴ベクトルをKクラスのいずれかに分類するパターン
認識問題に対し、K個の識別関数を用意し、該識別関数
の値が最大となるクラスを前記データの帰属クラスとす
る識別関数によるパターン認識方法において、 予め用意しておいたM種類の識別関数を、特徴ベクトル
とこの特徴ベクトルが帰属する帰属クラスとのペアから
成るN組の訓練データを用いて前記M種類の識別関数群
を各々個別に学習させてM種類のレベル0識別関数を構
成するレベル0学習工程と、 前記N組の訓練データから1組の訓練データを順次抜き
取ると共に1組抜き取る毎に、残りのN−1組の訓練デ
ータを用いて前記M種類の識別関数を各々新たに学習し
てM種類のレベル1識別関数を各クラス毎に構成した
後、前記抜き取った1組のデータに対するM種類のレベ
ル1識別関数の出力値から成るKM次元ベクトルと前記
抜き取ったデータのクラスラベルとのペアから成る計N
組のレベル1データを構成するレベル1データ生成工程
と、 前記レベル1データを用いて、前記レベル0学習工程で
学習済みの識別関数の出力の線形和として新たな識別関
数を構成する識別関数統合工程とを有して、前記識別関
数統合工程で構成された識別関数によってパターン認識
を行うことを特徴とする複数の識別関数の統合によるパ
ターン認識方法。
For a pattern recognition problem in which a feature vector obtained as an observation result of a certain pattern is classified into one of K classes, K identification functions are prepared, and a class having the maximum value of the identification function is determined. In the pattern recognition method using a discriminant function as a class to which the data belongs, M kinds of discriminant functions prepared in advance are used to convert N sets of training data comprising a pair of a feature vector and a class to which the feature vector belongs. A level 0 learning step of individually learning each of the M types of discriminant functions to form M types of level 0 discriminant functions, and sequentially extracting one set of training data from the N sets of training data and one set Each time sampling was performed, the M types of discriminant functions were newly learned using the remaining N-1 sets of training data, and M types of level 1 discriminant functions were constructed for each class. , A total of N consisting of pairs of class labels of the data drawn the the KM-dimensional vector consisting of the output value of the level 1 discriminant function M type for a set of data drawn the
A level 1 data generating step of forming a set of level 1 data; and a discriminant function integration of forming a new discriminant function as a linear sum of outputs of the discriminant functions learned in the level 0 learning step using the level 1 data. And performing pattern recognition using the identification function configured in the identification function integration step.
【請求項2】 前記識別関数統合工程において、分類誤
りの度合いの関数として定義される損失関数のレベル1
データに渡る平均値を最小化するよう前記線形重みを求
めることを特徴とする請求項1記載の複数の識別関数の
統合によるパターン認識方法。
2. A level 1 of a loss function defined as a function of a degree of a classification error in the discriminant function integrating step.
2. The pattern recognition method according to claim 1, wherein the linear weight is determined so as to minimize an average value over data.
JP9127563A 1997-05-16 1997-05-16 Pattern recognition method by integrating multiple discriminant functions Pending JPH10320370A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9127563A JPH10320370A (en) 1997-05-16 1997-05-16 Pattern recognition method by integrating multiple discriminant functions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9127563A JPH10320370A (en) 1997-05-16 1997-05-16 Pattern recognition method by integrating multiple discriminant functions

Publications (1)

Publication Number Publication Date
JPH10320370A true JPH10320370A (en) 1998-12-04

Family

ID=14963136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9127563A Pending JPH10320370A (en) 1997-05-16 1997-05-16 Pattern recognition method by integrating multiple discriminant functions

Country Status (1)

Country Link
JP (1) JPH10320370A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (en) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program, and recording medium on which content classification program is recorded
JP2015520901A (en) * 2012-05-25 2015-07-23 クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. System and method for calculating category ratio
CN119395239A (en) * 2024-12-31 2025-02-07 泉州市虹岩茶业有限公司 A method and system for detecting tea quality grade

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (en) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program, and recording medium on which content classification program is recorded
JP2015520901A (en) * 2012-05-25 2015-07-23 クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. System and method for calculating category ratio
CN119395239A (en) * 2024-12-31 2025-02-07 泉州市虹岩茶业有限公司 A method and system for detecting tea quality grade

Similar Documents

Publication Publication Date Title
CN112990097B (en) A Facial Expression Recognition Method Based on Adversarial Elimination
Tax et al. Combining one-class classifiers
CN112784929B (en) Small sample image classification method and device based on double-element group expansion
Chan et al. Bayesian poisson regression for crowd counting
US20220230066A1 (en) Cross-domain adaptive learning
CN109299668B (en) A hyperspectral image classification method based on active learning and cluster analysis
US5724487A (en) Neural network for maximum likelihood classification with supervised and unsupervised training capability
JP2005505062A (en) System and method for face recognition using learned model parts
CN111709299A (en) An underwater acoustic target recognition method based on weighted support vector machine
CN114998602A (en) Domain-adaptive learning method and system based on low-confidence sample contrast loss
CN111224905A (en) A Multi-User Detection Method Based on Convolutional Residual Networks in Large-scale Internet of Things
CN112183336A (en) Expression recognition model training method and device, terminal equipment and storage medium
CN114972904A (en) Zero sample knowledge distillation method and system based on triple loss resistance
CN110110845A (en) A Learning Method Based on Parallel Multi-level Width Neural Network
CN116894753A (en) A small sample image steganalysis model training method, analysis method and device
WO2003030089A1 (en) System and method of face recognition through 1/2 faces
CN114943330B (en) A training method, device, equipment and storage medium for a neural network model
WO2022159960A1 (en) Cross-domain adaptive learning
Aghabozorgi et al. Adaptive IMLE for few-shot pretraining-free generative modelling
CN118296143A (en) Text classification method, device and storage medium based on projection capsule network model
Hollmén et al. A learning vector quantization algorithm for probabilistic models
CN109101984B (en) Image identification method and device based on convolutional neural network
Chen et al. Batch-ensemble stochastic neural networks for out-of-distribution detection
EP1480167A1 (en) Pattern feature selection method, classification method, judgment method, program, and device
Holz et al. Relative feature importance: A classifier-independent approach to feature selection