JPH0765165A

JPH0765165A - ニューラル・ネットワークによるパターン認識方法及び装置

Info

Publication number: JPH0765165A
Application number: JP5211386A
Authority: JP
Inventors: Masayuki Fujita; 雅之藤田; Kazuharu Toyokawa; 和治豊川; Makoto Kato; 真加藤
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1993-08-26
Filing date: 1993-08-26
Publication date: 1995-03-10
Anticipated expiration: 2012-11-05
Also published as: JP2673871B2; US5832108A; EP0640935A2; EP0640935A3

Abstract

(57)【要約】【目的】ニューラル・ネットワークを使用したパター
ン認識装置の認識率を向上させること。【構成】ニューラル・ネットワークの出力の区間 [0,
1] をM 等分(M は２以上の整数)し, i番目の区間 [(i-
1)/M, i/M] に含まれる正解・不正解パターンデータの
個数あるいは頻度を、各々μ1i, μ0i とする（但し、i
=1・・M）。このとき未知のパターンデータに対して, こ
のネットワークが i番目の区間に含まれる出力を与えた
場合、このパターンがこのカテゴリーである尤度Ｐ1iを
式 : Ｐ1i＝ (μ1i ＋１)/(μ1i ＋ μ0i ＋２) と出
力するよう尤度変換テーブルとして記憶する。そして、
尤度変換器により、i番目の区間 [(i-1)/M, i/M] に含
まれる値が、ニューラル・ネットワークから出力された
とき、尤度変換器は、これを入力して、言わば正規化さ
れた尤度であるＰ1iを出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、一般的には、ニュー
ラル・ネットワークに関し、より詳しくは、ニューラル
・ネットワークを使用するパターン認識の改良に関す
る。

【０００２】

【従来の技術】従来、ニューラルネットワ−クをパター
ン認識に適用すると、識別するカテゴリー・セットがあ
まり大きくない場合には (例えば５０カテゴリー程
度)、実現可能な学習プロセス及び時間で、精度の高い
パターン識別機能が、単一のネットワークで実現出来る
ことが知られている（例えば、I.Guyon, P. Albrecht,
Y. Le Cun, J. Denker, and W. Hubbard: "Design of a
Neural Network CharacterRecognizer for a Touch Te
rminal," Pattern Recognition, Vol.24, pp.105-119,
1991を参照）。しかしこの方法は、例えば日本語の手書
き類似文字識別のように数百カテゴリー以上も識別すべ
きパターンがある系においては、実用に耐えるパターン
識別機能を実現することは困難である。

【０００３】そこで、カテゴリー数の多いパターン識別
で、従来から取られてきた方法は、全カテゴリーをまず
いくつかのクラスに大分類した後、クラスごとに別のニ
ューラルネットワークを用い詳細識別に用いる方法であ
る（小島良宏, 香田敏行, 高木英行, 〆木泰治： "ニュ
ーラルネットワークの汎化性に関する一検討," １９９
０年電子情報通信学会全国大会予稿集 6-5; 林勲, "ニ
ューラルネットワークとファジィ制御との融合手法,"
電子技術, 1992-1, pp.17;岩田彰, 當麻孝志,松尾啓
志, 鈴村宣夫： "大規模４層ニューラルネット'CombNE
T'," 電子情報通信学会論文誌 D-II Vol.73-D-II, pp.1
261-1267, 1991-20）。これは、大分類で選ばれたネッ
トワークの中で最大の出力を与えるカテゴリーを正解候
補とするものである。しかしこの方法の問題点は、ネ
ットワークの学習が限られた数の学習データで行われる
ため、必然的に各ネットワークに学習の程度の違いを生
じ、その結果複数のネットワークで単純に出力の大きさ
で識別結果を判定することが困難であった。

【０００４】さらに、ニューラル・ネットワークを使用
してパターン認識を行うことに関連する刊行物として次
のようなものがある。すなわち、

【０００５】特開平３−６７３８１号公報は、イメージ
・スキャナから読み込まれたような２次元のドットマト
リックスで構成される手書きや印刷の文字パターンの認
識に適した文字認識方式に関し、イメージ・スキャナか
ら読み込まれた手書きや印刷の文字パターンから、特徴
抽出方法によって特徴を抽出し、その結果を特徴抽出面
の各細胞から出力し、その情報を階層構造のニューラル
ネットワークの入力層の各ニューロンに入力し、以てニ
ューラルネットワーク中に信号を伝搬させ、ニューラル
ネットワークの各ニューロンに認識の結果を出力させ、
正しい認識結果が出るまで、パックプロパゲーション学
習則に従って各ニューロン間の結合の強度を変化させる
ことを開示する。

【０００６】特開平３−８８０９０号公報は、入力文字
パターンと複数の文字パターン候補との類似度から入力
パターンの認識結果として確信度の高い複数の文字パタ
ーン候補を判定する文字認識装置において、各文字パタ
ーン候補を類似文字群のグループ毎に複数分類し、各類
似度から、各グループ毎に、本来類似度が最大となって
しかるべき文字パターン候補が最終的な文字候補の１つ
として得られるように学習を行い、各グループ毎に確信
度の高い複数の文字パターン候補をそれぞれ判定する複
数のサブニューラルネットと、前記各類似度から、本来
類似度が最大となってしかるべき文字パターン候補を含
む前記サブニューラルネットの判定結果が前記文字認識
候補の１つとなるよう学習を行い、最も確信度の高い文
字パターン候補を含むサブニューラルネットを判定する
ニューラルネットと、前記サブニューラルネットの判定
結果から、最終的な文字認識候補として確信度の高い複
数の文字パターン候補を判定する判定手段を設けること
を開示する。

【０００７】特開平４−４２３８１号公報は、紙面上の
文字を認識する文字認識装置において、文字の分割され
た特徴値を抽出する特徴抽出手段と、予め文字をクラス
に分類しクラスの基準特徴値となる特徴値を格納した分
類格納手段と、特徴抽出手段の出力に基づき文字パター
ンの属するクラスを決定する分類手段と、クラスに分類
された文字を出力層ノードに割り当てて前記特徴抽出手
段からの特徴値に基づいて整合の度合いの大きい出力層
ノードの活性度により文字を認識するニューラル・ネッ
トワーク識別手段と、分類手段の出力と前記ニューラル
・ネットワーク識別手段の結果に基づいて文字パターン
の文字を判定し、判定した文字の情報を出力する判定手
段を設けることを開示する。

【０００８】しかし、上記どの刊行物も、複数のクラス
毎に設けられた個別のニューラル・ネットワークからの
出力を以て総合的な判定基準を与える方法は教示しな
い。

【０００９】

【発明が解決しようとする課題】この発明の目的は、ク
ラスごとに別のニューラル・ネットワークを用いるパタ
ーン認識システムにおいて、パターン認識の認識率を向
上させることにある。

【００１０】この発明の更なる目的は、クラスごとに別
のニューラル・ネットワークを用いるシステムにおい
て、クラスごとの個別のニューラル・ネットワーク間の
出力のばらつきを解消し、個別のニューラル・ネットワ
ークの出力の総合的（統計的）処理を可能ならしめる手
段を提供することにある。

【００１１】

【課題を解決するための手段】上記目的は、クラスごと
の個別のニューラル・ネットワークの出力を、本発明に
従い、尤度変換することによって達成される。

【００１２】すなわち、先ず、各パターンのクラスごと
にそれぞれ別のフィード・フォワード型ネットワークを
設け、各ネットワークの出力層は各カテゴリーが "正解
であること" に対応した出力を与えるよう学習データで
学習させる。例えば、正解に'1' 不正解に '0' なる教
師信号を与えることで学習させる。

【００１３】そうして、各ニューラル・ネットワークの
出力を尤度に変換するため、図１に示すように出力層の
後段に尤度変換器を接続し、学習が終わったネットワー
クに対して、各尤度変換器が各カテゴリーごとの正解の
尤度を出力するよう調節する。

【００１４】調節の方法の１つの例は、次のようなもの
である。すなわち、各カテゴリーごとに、それぞれ同数
の正解及び不正解の学習パターン・データをネットワー
クに与え、出力分布のヒストグラムを取る。このとき、
出力は、パターン・データに応じて、０から１の間の値
をとる。ここで区間 [0, 1] をM 等分(M は２以上の整
数)し, i番目の区間 [(i-1)/M, i/M] に含まれる正解・
不正解パターンデータの個数あるいは頻度を、各々μ1
i, μ0i とする（但し、i=1・・M）。このとき未知のパタ
ーンデータに対して, このネットワークが i番目の区間
に含まれる出力を与えた場合、このパターンがこのカテ
ゴリーである尤度Ｐ1iを式 : Ｐ1i ＝ (μ1i ＋１)/
(μ1i ＋ μ0i ＋２) と出力するよう尤度変換テーブ
ルとして記憶する。そして、尤度変換器により、i番目
の区間 [(i-1)/M, i/M] に含まれる値が、ニューラル・
ネットワークから出力されたとき、尤度変換器は、これ
を入力して、言わば正規化された尤度であるＰ1iを出力
する。

【００１５】このような尤度変換器の介在によって、各
ネットワークが尤度を出力するように調節出来たため、
ネットワークの学習のばらつきが補正され、各ネットワ
ークの出力が相互に比較出来るようになる。すなわち最
大の尤度を与えるカテゴリーが、最も確からしい候補と
判定出来る。

【００１６】

【実施例】本発明をオンライン日本語手書き文字の類似
文字識別に適用した例を、以下に述べる。図１のブロッ
ク図のシステム構成に示すように、前段でパターン・マ
ッチングによる大分類を行った後、後段に本発明の尤度
変換器を持ったニューラルネットワーク群で正解文字候
補を決定する。

【００１７】図１において、ブロック１０２では、タブ
レットを使用して、ストローク・データをペン入力す
る。

【００１８】次に、ブロック１０４では、タブレットよ
り入力されたデータ (ストローク位置 X, Yの時系列デ
ータ) は、特願平３−３２７６８０号の明細書に述べら
れているように、各ストローク毎, 位置(P)/方向(D)/長
さ(L)をコード化し、予め学習データによって文字カテ
ゴリー毎・筆跡画数ごとに収集された学習デ−タに対し
て (P)/(D)/(L) のすべてについて論理 OR をとった結
果と比較され、以て、入力データと合致しないカテゴリ
ーを、候補カテゴリーより落とす。この処理をここで
は、ＰＤＬフィルターと呼ぶ．手書きの多様なバリエー
ションに対応するため，学習デ−タは，１００人程度の
書き手によって書かれた文字サンプルが，全文字に必要
である．ここでは以降、便宜上学習データは、各文字カ
テゴリ−ごと１００サンプルあるものとする。

【００１９】次に、ブロック１０６では、入力データ
は、６点等距離/ストロークに再サンプリングされ、予
め学習データによってカテゴリー毎・筆跡画数ごとに、
同じく６点等距離/ストロークにサンプリングしその平
均値を取って作成されたテンプレート１０８と比較され
る（一般に、同じ文字カテゴリーでも筆跡画数や筆順
の変動によって、それぞれ別のテンプレートを形成する
）。この時，全文字カテゴリーのテンプレートと比較
はせず，上記ＰＤＬフィルタ−で候補に残ったものとの
距離を下記の式により求める。

【００２０】

【数１】ここで、Ｄxt : 入力データ x とテンプレート t との距
離、ｄxtij : 入力データ x とテンプレート t の i 番目
ストローク j番目のサンプル点の距離、 n : 入力データのストローク数

【００２１】この距離を各テンプレートのついて距離の
短い順に並べＤx1, Ｄx2, ・・,Ｄxi, ・・とする。こ
こで正規化距離 Δxi (i=1, 2 ..)として、

【数２】Δxi ＝ (Ｄxi − Ｄx1）/ Ｄx1,

【００２２】とする。この i 番目の候補に対する認識
の正解確率Ｐxi として、

【数３】Ｐxi ＝Ｆ(Δxi )

【００２３】Ｆ(ｘ) は文字カテゴリーによらないｘの
単調減少関数である。各文字パターンは、十分多数のサ
ンプルを行えば、特徴空間内で正規分布すると考えられ
るから、今パターンｓの分布は、

【数４】

【００２４】但し、σ_s は分散で、特徴空間の座標系
は、パターンｓの分布の中心を便宜上原点としている。

【００２５】パターンｓに特徴空間で近い所に分布する
ため、ｓと誤認識されやすいパターンｆの分布は、

【数５】

【００２６】但し、σ_f はパターンｆの分散で、パター
ンｆの分布の中心をｘoとしている。この場合、ある入
力パターンの特徴量がｘで与えられたときこのパター
ンがｓである正解確率Ｆ(ｘ)は、

【数６】Ｆ(ｘ) ＝Ｄs ／(Ｄs ＋Ｄf)と、与えられ
る。

【００２７】実際のパターン認識装置では、Ｆ(ｘ)を、

【数７】

【００２８】で近似し、係数Ａ, Ｂは学習データから
実験的に定めることができる。パターン認識部によって
カテゴリーは、正規化距離に対して一定の閾値 Δth 以
内のものだけ候補として残される。この結果、図１に示
すように、ブロック１０６から、次の類似文字識別詳細
部１１２に、これらの候補カテゴリーが出力され、最終
段の候補文字・正解確率判定部１１６に、正解確率が出
力される。

【００２９】次に、ニューラル・ネットワークによる類
似文字識別について説明する。ニューラル・ネットワー
クによる類似文字識別を行うための前処理として、ブロ
ック１１０で、ストローク構造情報の抽出を行う。具体
的には、IBM Technical Disclosure Bulletin (以下、I
BM TDB と称する）NO.1b, June 1992, pp.228-232、IBM
TDB NO.1b, June 1992, pp.220-227 に述べられている
ストロークの形状情報、及びストローク間の相対位置情
報などを抽出し、特徴ベクトルを作成する。特徴量の例
を、以下の表１に示す。本実施例では、合計４２個の特
徴を用い、各特徴量は８ビットの整数値にコード化し
た。本実施例では、例えば、１番目の特徴量、すなわち
ストローク数では、１画、２画、３画の可能性がある
が、このそれぞれに、６４、１２８、１９２という整数
値を割り当てる。表１において、その左欄に括弧書きし
たのが、４２バイトの全体の特徴量において、その特徴
量が占めるバイト位置である。尚、表１では、特に本発
明に関連のない特徴量について、記載を省略しており、
よって、バイト位置が一部スキップして示されている。

【表１】

【００３０】次に、類似文字識別のためのニューラル・
ネットワークの構造について説明する。図１を参照する
と、ブロック１１２では、ブロック１０６で出力された
候補に対して、ブロック１１０で抽出した特徴をもと
に、各候補が正解である確からしさを調べる。全文字セ
ットに対して類似文字識別を行うこともできるが、辞書
サイズをコンパクトに保つため対象文字を限ることもで
きる。本実施例では、類似文字の集中している３画以下
の漢字及び非漢字３３４カテゴリーに限って識別を行
い、図２に示すように、カテゴリー１個ごとに１つのク
ラスを構成し、各々別のニューラルネットワークＮＮ1
〜ＮＮnを設ける。

【００３１】尚、上記で、漢字について、ニューラル・
ネットワークで識別を行うのを３画以下のものに限定し
たのは、４画以上の文字については、前段のパターン・
マッチングだけでも認識率が比較的良好であるからであ
る。これは４画以上のストロークの x, y 座標の時系列
がデータとして与えられた場合、テンプレートの中から
唯一の文字カテゴリーを選ぶに十分な情報となることを
示す。これは、４画以上の文字は、比較的同型異文字が
少ないことからも妥当な結果と考えられる。従って、本
実施例では、従って４画以上の文字入力に対しては、特
に類似文字識別を行わず、パターン・マッチングの出力
を最終結果としてそのまま用いる。

【００３２】ニューラルネットワークおよび尤度変換器
の学習方法： (a) 教師データの作成方法：先に述べたように，手書
きデータには多様なバリエーション、例えば筆順や画数
変動に対応するため、異なる筆記者から採取したサンプ
ルを、カテゴリー毎に１００個用意する。そうして、全
文字カテゴリーの学習用手書きデータから、次に示す
手順で教師パターン・データを作成する。

【００３３】(1) この類似文字識別部で対象とする３画
以下の全３３４文字カテゴリーの学習用手書きデータ
を、前段のパターン・マッチング部１０６に入力し、予
め定めた閾値内に正規化距離が収まった文字を候補文字
とする。例えば、'あ'という文字のパターンを１個入れ
ると、候補文字として、'あ'、'め'、'ぬ'、'ぁ'など、
正解の'あ'の他に、'あ'と紛らわしいものも出力され
る。典型的な例として、候補文字数は、２０である。

【００３４】(2) 候補文字で、学習用パターン本来の文
字カテゴリーと一致する場合を'正解'とし、それ以外
の、正解パターンと紛らわしいパターンをもつ文字カテ
ゴリーをすべて'不正解'と呼ぶ。各文字の１００学習サ
ンプルに対して、'不正解'文字コードのリストを作成す
る。但し、リストの中の文字コードは重複しないように
する。一般に学習用手書きデータには、画数変動した文
字パターンも含まれるため、上記'不正解'リストには、
一般に上記３３４文字以外の文字コード(例えば４画の
文字)も含まれる。すなわち、各'正解'文字に対する'不
正解'リストには、その文字と間違いやすい文字の一覧
表が形成されてゆく。

【００３５】(3)各３３４文字に対して、学習用手書き
データから、'正解'となる１００サンプルをとり正解パ
ターンデータとし、'不正解'リストにある各文字のサン
プルを学習用データから夫々１００サンプルをとり不正
解パターン・データとする。

【００３６】(4)上記で作成した、各３３４文字ごとの
正解・不正解パターンデータを、各ニューラルネットワ
ーク学習のための教師パタン・データとする。

【００３７】(b) ニューラルネットワークの学習方法：
上記の方法で集められた各文字ごとの正解・不正解パタ
ーンデータから、図１のブロック１１０に関連して述べ
た特徴ベクトルを抽出し、図３に示した各文字毎に設け
られた３層のフィード・フォワード型ニューラルネット
ワークを、例えば、D. E. Rummelhart, G.E. Hinton, a
nd R. J. Williams: "Learning Internal Representati
ons by Error Propagation," in Parallel Distributed
Processing, Vol. 1, D. E. Rummelhalt and J.L. McC
lelland (eds.), MIT Press (1986)に示されているバ
ック・プロパゲーション（ＢＰ）法で学習させる。

【００３８】以下、ＢＰ法によるネットワークの学習つ
いて概略を述べる。ニューラルネットワークの学習と
は、ネットワークの各層のニューロン間の結合の強さ
を、学習データに基づいて逐次的に変化させることによ
り実現される．具体的には、図３の３層からなるネット
ワークの出力は、

【数８】Ｚ＝ σ(V0+V1・Y1 + ・・・・ + Vm・Ym）

【００３９】ここに、σ(x）は、図４に示すようにニュ
ーロンの入力に対する非線型な興奮特性を模したシグ
モイド関数σ(s）＝１／{ 1 + exp(-s)}、Yj (j は 1
から m の整数) は隠れ層の出力で、

【数９】Yj ＝ σ(W0j+W1j・X1+ ・・・・ +Wnj・Xn）

【００４０】ここに、Xi (i は 1 から n の整数) は入
力される特徴ベクトルとする。この系で学習とは、出力
層と隠れ層の結合係数 Vj (0≦j≦m) 及び、隠れ層と
入力層の結合係数 Wij (0≦i≦n、 0≦j≦m)を以下に
示すプロセスで調節する．但し、 n は入力層のニュー
ロン数、 m は隠れ層のニューロン数で、図３の例では
各々 42、 6 である。

【００４１】学習処理は、次のようにして行う。 1)学習前のネットワークの結合係数 Vj, Wij を正また
は負の乱数で与える.

【００４２】2)教師パターンデータより、正解パターン
と不正解パターンを１個ずつ交互に取り出し入力層に与
える。ｋ番目に入力したパターンの特徴ベクトル Xk に
対する出力を Zk とする。学習前のネットワークにおい
ては、正解・不正解パターンに対する出力の振る舞い
には有意な差はなく、Zk は区間 [0, 1] のランダムな
数値を取る。今、正解には、 0.9、不正解から取り出
したときには 0.1 を３層目の出力層に出力するよう、
以下に示す方法で学習を行う。この学習目標値を、教師
信号と呼ぶ。(正解に '1', 不正解に '0' としなかった
のは、図４からも分かるようにシグモイド関数 σ(s）
が１, 0 を出力するためには、引数 s が各々 +∞, -
∞となるからである。よって、s の範囲を有限に抑える
ために、0.9及び0.1とした。)

【００４３】3)今、入力 Xk に対する出力 Zk に対し
て、出力値と教師信号に対する差 δ（すなわち正解パ
ターンに対しては δ= Z - 0.9、不正解パターンに対
してはδ= Z - 0.1 ）を求める。この差に基づいて、結
合係数を夫々次式に基づいて、k 番目の入力に対して下
記のように修正する。

【数１０】Vj（k+1) ＝ Vj（k） − c・δ・Yj Wij（k+1) ＝ Wij（k）− c・δ1j・Xi

【００４４】ここで，c は小さな正の整数で、また

【数１１】δij ＝ δ・Vj・Yj（1 - Yj）.

【００４５】この修正法によってδは徐々に極小値に近
づくことが知られている。この方法は通常の入力方向と
は逆に出力層に出力と教師信号の差を入力し、この信号
を入力層に逆伝搬し、その信号の大きさにより結合係数
を変えることに対応するので、バック・プロパゲーショ
ン法と呼ぶ。

【００４６】4)この操作を全教師パターンに対して繰り
返し行い、十分、教師信号と３層目の出力信号の自乗誤
差の平均がともに十分小さくなったときに学習を終了す
る。

【００４７】(c) 尤度変換テーブルの作成方法：学習が
終わった各ニューラルネットワークＮＮ1〜ＮＮn（図
２）に、それぞれのニューラル・ネットワークＮＮi（i
=１〜ｎ）に対して、当該ニューラル・ネットワークに
係るクラスi（本実施例では、１クラス＝１カテゴリで
ある）に対応する、それぞれ同数の正解及び不正解の学
習パターン・データをネットワークに与え、出力分布の
ヒストグラムを取る。このとき、出力は、パターン・デ
ータに応じて、０から１の間の値をとる。尚、前述した
正解パターンと不正解パターンのリストを作成する段階
で、一般的に、正解パターンの数よりも相当に多数の不
正解パターンが得られる。このことは、例えば、'あ'と
いう正解パターンに対して、不正解パターンとして、'
ぬ'、'め'、'ぁ'など複数の文字が得られることから理
解されよう。そこで、例えば、'あ'に対応する不正解パ
ターンを１９００個揃えることは容易でも、'あ'に対応
する正解パターンをそれと同数揃えることが困難である
ことがありえる。その場合、'あ'に対応する正解パター
ンを１００個揃え、その正解パターンを１９回反復して
使用することにより、正解パターンと不正解パターンを
同数にすることを実現する。

【００４８】ここで区間 [0, 1] をM 等分(M は２以上
の整数)し, i番目の区間 [(i-1)/M,i/M] に含まれる正
解・不正解パターンデータの個数あるいは頻度を、各々
μ1i,μ0i とする（但し、i=1・・M）。こうして描いたヒ
ストグラムの例を、図５に示す。

【００４９】図５の(a)は、正解パターンに対するヒス
トグラムの例を示し、図５の(b)は、不正解パターンに
対するヒストグラムの例を示す。明らかに、正解パター
ンに対するヒストグラムは、出力"1"に近い方に高い頻
度分布をもち、一方、不正解パターンに対するヒストグ
ラムは、出力"0"に近い方に高い頻度分布をもつ。

【００５０】このとき未知のパターンデータに対して、
このネットワークが i番目の区間に含まれる出力を与え
た場合、このパターンがこのカテゴリーである尤度Ｐ1i
を式: Ｐ1i ＝ (μ1i ＋１)/(μ1i ＋ μ0i ＋２) と
出力するよう尤度変換テーブルとして記憶する。ここ
で、分子及び分母の"＋１"及び"＋２"という項は、区間
iにおいて、たまたまμ1i＝μ0i＝０であった場合に、
ゼロによる割算のエラーを回避するための補正項であ
る。この補正項によって、μ1i＝μ0i＝０の場合は、尤
度変換器が０．５、すなわち、正解及び不正解の尤度が
等しく、正解・不正解のどちらとも言えないようになさ
れる。尚、μ1i及びμ0iは、通常、数十乃至数百のオー
ダーであるので、このような補正項は、結果の尤度に殆
ど影響を与えない。

【００５１】尤度変換器は具体的には、次のように構成
される。すなわち、一般的に、ニューラル・ネットワー
クからの出力は、０〜１の間の浮動小数点数である。そ
こで、尤度変換器の前段に、入来した浮動小数点数を１
００倍して、小数点以下を切り捨て、以て０〜９９の整
数を出力する手段を配置する。さらに、尤度変換器に、
上記Ｐ1i（i = 0 〜 99）の値を１００個、エントリと
してもつテーブルを用意し、上記前段の出力値がｉであ
ることに応答して、テーブルのｉ番目のエントリが索引
され、上記Ｐ1iの値が出力されるように、構成する。

【００５２】尚、区間 [0, 1] をM 等分した例を示した
が、本発明は、このような等間隔の区間ではなく、より
一般的に、０＝ａ₀ < ａ₁ ・・・ < ａ_i-1 < ａ_i ・・・ < ａ_M-1 < ａ_M
= 1 のような、区間分割を使用しても実現することができ
る。このとき、i番目の区間は、[ａ_i-1,ａ_i]となる。こ
のような非等分区間のヒストグラムの例を図６に示す。
実際上、０．１と０．９付近で高い頻度が発生しがちで
あるので、これらを含む区間をより密にし、０．５など
の比較的頻度の低い箇所を含む区間を疎にするのが有効
である。このような非等分区間を使用した場合も、入来
した浮動小数点数を１００倍して、小数点以下を切り捨
て、以て得られた０〜９９の整数値iでテーブル・ルッ
クアップを行うことができるが、但し、その際尤度変換
器中に設けるテーブルは、対応する区間の幅が０．０１
よりも広い場合には、異なるiに対して同一のＰ１iを出
力することがありえる。このようなテーブルを構成する
ために、上記ａ_iを１００倍して小数点以下を切り捨て
た整数Ａ_iを予め計算し、表２に示すようなテーブルを
尤度変換器中に設けて、テーブル・ルックアップを行う
ようにする。

【表２】

【００５３】このような尤度変換器の介在によって、各
ネットワークが尤度を出力するように正規化され、以
て、ネットワークの学習のばらつきが補正され、各ネッ
トワークの出力が相互に比較出来るようになる。すなわ
ち最大の尤度を与えるカテゴリーが、最も確からしい候
補と判定出来る。

【００５４】このことをより分かりやすくするために、
従来の尤度変換器を用いない次のような例を考えてみよ
う。今、あるパターンが第１のクラスのニューラル・ネ
ットワーク及び第２のクラスのニューラル・ネットワー
クに入力され、第１のクラスのニューラル・ネットワー
クが０．８という値を出力し、一方、第２のクラスのニ
ューラル・ネットワークが、０．７という値を出力した
とする。すると、従来の構成では、第１のクラスの方を
より確からしい候補であると見なすよりない。ところ
が、上記した尤度変換器を用意するステップで、第１の
クラスでは、０．８という値を含む区間における正解パ
ターンの頻度が１００で、不正解パターンの頻度が２０
であったとする。一方、第２のクラスでは、０．７とい
う値を含む区間における正解パターンの頻度が１５０
で、不正解パターンの頻度が１０であったとする。する
と、第１のクラスのニューラル・ネットワークでは、正
解である尤度が、（１００＋１）／（１００＋２０＋
２）＝０．８３と計算され、一方、第２のクラスのニュ
ーラル・ネットワークでは、正解である尤度が、（２０
０＋１）／（２００＋１０＋２）＝０．９５と計算さ
れ、判定基準は逆転する。このとき、ニューラル・ネッ
トワークの出力自体よりも、その出力値において正解パ
ターンがあらわれる尤度の方が、より信頼性の高い値で
あることが理解されよう。

【００５５】さらに極端な例を挙げると、どのような入
力パターンに対しても、必ず０．９という大きい値を出
力する、意味のないニューラル・ネットワークが、ニュ
ーラル・ネットワーク群のうちに１つ存在していたとし
よう。すると、ニューラル・ネットワーク群のうちの他
のニューラル・ネットワークが０．９よりもわずかに小
さい値を出力しても、単に最大の出力値を選択する、と
いうスキームに従うなら、この意味のないニューラル・
ネットワークが最も確からしいとして選択されてしま
う。しかし、本発明の尤度変換器を介在させることによ
って、この意味のないニューラル・ネットワークの出力
は、図７からも分かるように、常に０．５に変換され
る。ところが、尤度０．５というのは、入力パターンに
一致する尤度も、一致しない尤度も等しい、ということ
であるから、パターン・マッチングに関して何の情報も
与えない無意味な値と見なして拒絶することも可能とな
る。

【００５６】ところで、等分区間を採用した場合、尤度
変換器のテーブル・エントリとして格納され、ニューラ
ル・ネットワークからの出力値に応じて出力されるＰ１
ｉの値は、図８のようになる。上記実施例では、ニュー
ラル・ネットワークからの出力値に基づきＰ１ｉの値を
出力するのを、テーブル・ルックアップによって実現し
たが、本発明はこれに限定されるものではなく、図９に
示すように、多項式近似によって、Ｐ１（ｘ）の曲線を
求めてもよい。この場合、例えば、Ｐ１ｉの値を図８の
ようなバーチャート形式で一旦求めておいて、図９に示
すｎ次（ｎ＜Ｍ）多項式に基づき、ｘ＝(i-1/2)/M、Ｐ
１(ｘ)＝Ｐ１ｉ（i=1〜M)というＭ組の値を使用して、
周知の最小２乗近似法により、多項式の係数ｂ_i（i=0〜
n）を決定することもできる。すると、結果の多項式
は、図８のヒストグラムを補間する曲線グラフを与え
る。そうして、尤度変換器中には、こうして決定した多
項式の値を計算する機能が組み込まれ、尤度変換器は、
ニューラル・ネットワークからの出力値に基づき、テー
ブル・ルックアップではなく、多項式の演算によって、
尤度値を出力する。

【００５７】(3) 候補文字・最終正解確率の決定方法この過程では、未知の入力パターンに対して、大分類部
で選ばれた複数の候補文字に対して、比較のため (a)従
来法の尤度変換器をもたないニューラルネットワークの
最大出力を与える文字カテゴリーを正解とした場合（従
来技術）、(b) 本発明の尤度変換器を用いて、各ネット
ワークの出力を補正し最大値を与える文字カテゴリーを
選んだ場合、(c) 本発明の別の実施例として、大分類部
で選ばれた各候補文字に対する正解確率と、各ネットワ
ークの尤度とのベイズの定理による総合判定を行った場
合の一位正解認識率を測定した。

【００５８】ベイズの定理による総合判定の方法は次の
とおりである。すなわち、今、文字カテゴリーが未知の
入力 x (３画以下の文字パターンとする) に対してパタ
ーン・マッチング部が N 個の候補文字を出力し、それ
ぞれの正解確率をＰi ( 1≦i≦N )とする。一方、各
候補文字に対して各ニューラル・ネットワークから出力
された尤度を Пi ( 1≦i≦N ) とすれば、総合判定し
た正解確率Ｒi は、

【数１２】Ｒi ＝Ｐi・Πi ／ { Ｐi・Πi ＋ (１
− Ｐi)・(１ − Πi)｝

【００５９】で求めることが出来る。候補文字カテゴリ
ーの中で、最大の総合正解確率を与えるものを一位正解
とした。

【００６０】実験データは、予め１４１人の被験者より
収集した手書き文字データ２３８４カテゴリー／約２４
００００個の文字データのうち、認識テスト用に２０人
分約３２０００個を除き、学習用データとして、パター
ン・マッチング用のテンプレートを作成した。またその
中から、３画以下のデータ（３３４カテゴリー）を類似
文字識別部の学習データとし、上述の方法で、３３４個
の各ニューラルネットワークと尤度変換テーブルを学習
させた。パターン認識部・類似文字識別部を含むオンラ
イン手書き文字認識装置は、ＩＢＭのパーソナル・コン
ピュータであるＰＳ／５５上に、ソフトウェアで実現し
た。

【００６１】結果を表３に示す。尚、表３では、入力し
た字種ごとの認識率を記載するが、認識は全字種２３８
４カテゴリーを対象に行った。このため同型文字、例え
ば '夕'(漢字) の入力に対して 'タ'(カタカナ) 、'Ｏ'
(アルファベット)に対して'０'(数字)を第１位候補と
したときは、誤認識と扱っている。

【表３】

【００６２】上記のように、尤度変換器を使用しない従
来方式(1)に比べて、本発明を用いる方式 (2), (3) は
類似文字の影響で認識率の低下が著しい英語小文字、数
字、記号に対して顕著な改善が認められ、本発明に示す
尤度変換を行うニューラル・ネットワーク群の有効性が
確認された。

【００６３】本実施例では、ニューラル・ネットワーク
部分の浮動小数点演算を整数演算で行うなどの工夫をこ
らすことにより、ソフトウェアの上での実施で十分実用
に耐えるパフォーマンスを得る事ができた。例えば、Ｉ
ＢＭ 5580 - Ｙモデル・パーソナル・コンピュータ上
で、類似文字識別速度は、ひらがな・カタカナ・英数字
に対して、１文字当たり各々、48ms,46ms, 40ms となっ
た。

【００６４】本発明の適用できる他の例本発明は、この実施例に述べた日本語オンライン手書き
文字認識以外にも、多数のカテゴリーからなるパターン
認識で、フィードフォワード型ニューラルネットワーク
が認識に用いられる場合に広く適用することができる。
その例として、 1)濃淡画像、例えば人間の顔の識別、 2)手書きまたは印刷文字ＯＣＲ、 3)音声認識、 4)経済変動、例えば株価の変動などの時系列パターンの
予想、などがある。

【００６５】

【発明の効果】以上説明したように、本発明によれば、
パターン認識システムにおいて、パターンを入力したと
きのニューラル・ネットワーク群からの出力をそのま
ま、パターン認識の正解確率として使用するのではな
く、この出力を一旦、尤度変換器に入力し、ここで、該
出力が、正解パターンに対応する値である尤度に変換
し、この尤度で以てパターン・マッチングの確かさを判
断するようにしたので、ニューラル・ネットワーク群中
の各ニューラル・ネットワーク間の出力のばらつきが補
正され、ニューラル・ネットワーク群中の各ニューラル
・ネットワークを、言わば統一した基準値のもとに判断
することが可能となり、パターン・マッチングの認識率
を向上させることができる。

【図面の簡単な説明】

【図１】本発明の処理を示すブロック図である。

【図２】本発明に係る尤度変換器を接続されたニュー
ラルネットワーク群のブロック図である。

【図３】３層ニューラルネットワークとそれに接続さ
れた尤度変換器のブロック図である。

【図４】シグモイド関数のグラフを示す図である。

【図５】尤度変換器を構成するために使用される一定
区間のヒストグラムの例を示す図である。

【図６】尤度変換器を構成するために使用される非等
区間のヒストグラムの例を示す図である。

【図７】ニューラル・ネットワークの極めて特殊な出
力の例の場合のヒストグラムを示す図である。

【図８】尤度変換器の出力の例を示す図である。

【図９】尤度変換器を、多項式近似で構成する場合の
例を示す図である。

Claims

【特許請求の範囲】

【請求項１】(a) 異なる入力パターンの入力に応答し
て、異なる出力値を出力するように学習されたニューラ
ル・ネットワークと、(b) 上記ニューラル・ネットワー
クの出力を入力し、該出力が、正解パターンに対応する
値である尤度を出力する尤度変換器とを具備する、ニューラル・ネットワークによるパターン認識装置。
【請求項２】上記ニューラル・ネットワークの出力は、
０と１の間にあり、０＝ａ₀ < ａ₁・・・ < ａ_i-1 < ａ_i
・・・ < ａ_M-1 < ａ_M = 1という値によって該出力の区間
[0,1] をM(M は２以上の整数)個の区間に分割したと
き、上記尤度変換器は、上記出力がi番目の区間
[ａ_i-1, ａ_i] （但し、i=1〜M)に含まれることに応答し
て、該i番目の区間における出力が、正解パターンに対
応する値である尤度Ｐ1iを出力するように構成されてい
ることを特徴とする、請求項１に記載のニューラル・ネ
ットワークによるパターン認識装置。
【請求項３】上記i番目の区間[ａ_i-1, ａ_i]に含まれる
正解・不正解パターンデータの頻度を各々μ1i, μ0i
としたとき、上記尤度Ｐ1iは、Ｐ1i ＝ (μ1i ＋１)/
(μ1i＋ μ0i ＋２)で計算された値として出力される
ことを特徴とする、請求項２に記載のニューラル・ネッ
トワークによるパターン認識装置。
【請求項４】上記[ａ_i-1, ａ_i]は［(i-1)/M,i/M]（但
し、i=1〜M)という等間隔の区間である、請求項２に記
載のニューラル・ネットワークによるパターン認識装
置。
【請求項５】(a) 異なる入力パターンに応答して、異な
る出力値を出力するように学習され、各々が認識すべき
パターンの異なるクラスに対応するものである複数のニ
ューラル・ネットワークと、(b) 上記各々のニューラル
・ネットワークの出力に個別に接続され、該出力が、正
解パターンに対応する値である尤度を出力する複数の尤
度変換器とを具備し、上記尤度変換器のうち、最大の出力を与えるものに対応
する上記ニューラル・ネットワークのクラスを、認識さ
れた最も確からしいクラスと判定することを特徴とす
る、ニューラル・ネットワークによるパターン認識装置。
【請求項６】上記ニューラル・ネットワークの出力は、
０と１の間にあり、０＝ａ₀ < ａ₁・・・ < ａ_i-1 < ａ_i
・・・ < ａ_M-1 < ａ_M = 1という値によって該出力の区間
[0,1] をM(M は２以上の整数)個の区間に分割したと
き、上記尤度変換器は、上記出力がi番目の区間
[ａ_i-1, ａ_i] （但し、i=1〜M) に含まれることに応答
して、該i番目の区間における出力が、正解パターンに
対応する値である尤度Ｐ1iを出力するように構成されて
いることを特徴とする、請求項５に記載のニューラル・
ネットワークによるパターン認識装置。
【請求項７】上記i番目の区間[ａ_i-1, ａ_i]に含まれる
正解・不正解パターンデータの頻度を各々μ1i, μ0i
としたとき、上記尤度Ｐ1iは、Ｐ1i ＝ (μ1i ＋１)/
(μ1i＋ μ0i ＋２)で計算された値として出力される
ことを特徴とする、請求項６に記載のニューラル・ネッ
トワークによるパターン認識装置。
【請求項８】上記Ｐ1iは、それぞれ、上記尤度変換器中
に、予め計算された個別にアドレス可能な値として格納
され、上記尤度変換器は、上記ニューラル・ネットワー
クからの出力に応答して、該出力が入る区間[ａ_i-1, ａ
_i]に関連して格納されているＰ1iをアドレスして出力す
る手段を有することを特徴とする、請求項６に記載のニ
ューラル・ネットワークによるパターン認識装置。
【請求項９】上記[ａ_i-1, ａ_i]は［(i-1)/M,i/M]（但
し、i=1〜M)という等間隔の区間である、請求項６に記
載のニューラル・ネットワークによるパターン認識装
置。
【請求項１０】(a) 入力された認識すべきパターンを、
予め用意したテンプレートと比較して、認識すべき異な
るクラス毎の正解確率を与えるパターン・マッチング手
段と、(b) 異なる入力パターンに応答して、異なる出力
値を出力するように学習され、各々が認識すべきパター
ンの異なるクラスに対応するものである複数のニューラ
ル・ネットワークと、(c) 上記各々のニューラル・ネッ
トワークの出力に個別に接続され、該出力が、正解パタ
ーンに対応する値である尤度を出力する複数の尤度変換
器と、(d) 上記パターン・マッチング手段によって与え
られたクラス毎の正解確率と、上記尤度変換器によって
クラス毎に出力された上記尤度とをベイズの定理によっ
て結合し、条件付き確率を与える手段と、上記与えられた条件付き確率のうち、最大の出力を与え
るものに対応する上記ニューラル・ネットワークのクラ
スを、認識された最も確からしいクラスと判定すること
を特徴とする、ニューラル・ネットワークによるパターン認識装置。
【請求項１１】上記ニューラル・ネットワークの出力
は、０と１の間にあり、０＝ａ₀ < ａ₁・・・ < ａ_i-1 <
ａ_i ・・・ < ａ_M-1 < ａ_M = 1という値によって該出力の
区間 [0,1] をM(M は２以上の整数)個の区間に分割した
とき、上記尤度変換器は、上記出力がi番目の区間 [ａ
_i-1, ａ_i] （但し、i=1〜M) に含まれることに応答し
て、該i番目の区間における出力が、正解パターンに対
応する値である尤度Ｐ1iを出力するように構成されてい
ることを特徴とする、請求項１０に記載のニューラル・
ネットワークによるパターン認識装置。
【請求項１２】上記i番目の区間[ａ_i-1, ａ_i]に含まれ
る正解・不正解パターンデータの頻度を各々μ1i, μ0i
としたとき、上記尤度Ｐ1iは、Ｐ1i ＝ (μ1i ＋１)/
(μ1i＋ μ0i ＋２)で計算された値として出力される
ことを特徴とする、請求項１１に記載のニューラル・ネ
ットワークによるパターン認識装置。
【請求項１３】上記Ｐ1iは、それぞれ、上記尤度変換器
中に、予め計算された個別にアドレス可能な値として格
納され、上記尤度変換器は、上記ニューラル・ネットワ
ークからの出力に応答して、該出力が入る区間[ａ_i-1,
ａ_i]に関連して格納されているＰ1iをアドレスして出力
する手段を有することを特徴とする、請求項１１に記載
のニューラル・ネットワークによるパターン認識装置。
【請求項１４】上記[ａ_i-1, ａ_i]は［(i-1)/M,i/M]（但
し、i=1〜M)という等間隔の区間である、請求項１１に
記載のニューラル・ネットワークによるパターン認識装
置。
【請求項１５】(a) 認識すべき正解パターンと、不正解
パターンを複数用意し、正解パターンに対しては、"1"
または"1"に近い値を出力し、不正解パターンに対して
は、"0"または"0"に近い値を出力するように、ニューラ
ル・ネットワークを学習させる段階と、(b) ０＝ａ₀ <
ａ₁ ・・・ < ａ_i-1 < ａ_i ・・・ < ａ_M-1 < ａ_M = 1という
値によって該出力の区間 [0, 1] をM(M は２以上の整
数)個の区間に分割し、上記学習後のニューラル・ネッ
トワークに対して、それぞれほぼ同数の複数の正解パタ
ーン及び不正解パターン入力し、i番目の区間[ａ_i-1,
ａ_i] に含まれる正解・不正解パターンデータの個数あ
るいは頻度を計数して各々μ1i, μ0i として記憶し
（但し、i=1・・M）、各々の区間毎に、μ1i, μ0iの値か
ら、Ｐ1iを計算し記憶することによって尤度変換テーブ
ルを構成する段階を有し、以て、上記ニューラル・ネットワークの出力が、区間
[ａ_i-1, ａ_i]内にあることに応答して、上記Ｐ1iを正解
尤度として出力することを可能ならしめることを特徴と
する、ニューラル・ネットワークによるパターン認識方法。
【請求項１６】上記Ｐ1iが、Ｐ1i ＝ (μ1i ＋１)/(μ
1i ＋ μ0i ＋２)によって計算された値として出力さ
れることを特徴とする、請求項１２に記載のニューラル
・ネットワークによるパターン認識方法。
【請求項１７】上記[ａ_i-1, ａ_i]は［(i-1)/M,i/M]（但
し、i=1〜M)という等間隔の区間である、請求項１５に
記載のニューラル・ネットワークによるパターン認識方
法。