JPH08508128A - 分布マップを用いる画像の分類方法及び装置 - Google Patents
分布マップを用いる画像の分類方法及び装置Info
- Publication number
- JPH08508128A JPH08508128A JP7512094A JP51209495A JPH08508128A JP H08508128 A JPH08508128 A JP H08508128A JP 7512094 A JP7512094 A JP 7512094A JP 51209495 A JP51209495 A JP 51209495A JP H08508128 A JPH08508128 A JP H08508128A
- Authority
- JP
- Japan
- Prior art keywords
- image
- class
- map
- features
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
画像分類器は入力画像を受信し、複数の画像クラスのうちの一つを各入力画像に割当てる。画像分類器は複数のクラス分布マップを有する。各マップは学習画像について評価された複数の特徴に基づき、各マップは対応するクラスの属する学習画像のうちの少なくとも一つを生じる特徴値を示す。画像分類器は複数の特徴を入力画像について評価することによりテストマップを構成する手段を更に有する。画像分類器は、どのクラス分布マップがテストマップに対して最小の距離を有するか識別するために、テストマップとクラス分布マップを比較する手段を更に有する。特徴のうちの少なくとも一つは、少なくとも一つの画像クラスの形状に関連するルールに従って定義される。
Description
【発明の詳細な説明】
分布マップを用いる画像の分類方法及び装置技術分野
本発明は一般的に、画像の自動解釈に関する。更に詳細には、本発明は機械印
刷又は手書記号の画像の分類又は認識に関する。背景技術
画像解釈の重要な領域は光学文字認識(OCR)である。光学文字認識では、
記号の画像は記号を示す2進符号に自動的に翻訳される。光学文字認識における
主要な問題は、画像がけばけばしい似たような形状の記号(すなわち、縮退、歪
み又は欠損を有する画像)を識別することである。これらの画像欠損は、手書き
スタイルの変動、タイプフェース及びテキストのサイズ並びに空間サンプリング
速度、光学歪み及び印刷及びイメージングの物性によるその他の作用等の特性な
どのような様々な理由により生じる。
これらの作用の複雑性は、これらの作用を定量的に、しかも徹底的に説明しよ
うとする試みを最近まで拒み続けてきた。従って、画像の本当の字類条件分布は
、理想的な記号形状の完全な知識が与えられたとしても、詳細に分析予測するこ
とはできない。実際、これらの分布は、相当な費用で収集され地域現状データの
表示がされた画像の有限データセットの形で経験的にのみ利用可能である。これ
らのデータセットがたとえ無数にあろうとも、これらのデータセットは実際に生
じる様々な画像に比べたら疎らである。
従来技術の自動的に学習できる方法は、入力画像について評価された特徴群を
所定のクラスに付随された特徴値の分布群と比較することにより未知入力画像を
大まかに分類する。この方法では、“特徴”は、画像に入力される時に、実数を
戻す関数である。各画像クラスに付随する特徴値の群又は分布は、この特徴を学
習セット(すなわち、各々その真正クラスのラベルを有する画像群)に適用する
ことにより構成される。
特徴は複雑に変化する。例えば、W.W.Bledose et al.,”Pattern Recognition
and Reading by Machine,”1959 Proceedings of the Eastern Joint Computer Conference
,Academic Press(1959)174-181には、ランダムに選択された画素対
に
基づく特徴に関する研究が記載されている。各画素の可能な数値は、これらの画
素の可能な論理状態に対応する、00,01,10,11の4種類の2進値であ
る。この方法は、実際の光学文字読取装置で使用するには十分な精度を有しない
。
一層複雑な特徴を使用する、つい最近の分類方法であっても、分離文字認識問
題の極めて低い精度しか得られない。このような場合、不正確性は分類方法にお
ける欠陥(例えば、不完全に選択された特徴)によるか、又は学習セットの低品
質(例えば、非常に少ないサンプル)によるのかあるいはその両方によるのか否
か不明確である。この不明確性と大きな典型的な学習セットを取得する費用によ
れば、最近の大抵のOCR研究は、特徴分布の補間、平滑化及び解析的モデル化
の様々な方法を用いて、使用可能な疎らな学習セットを近似する発見的方法に焦
点が合わせられている。これを行うために、分布の形式に関する多くの簡易化仮
定(例えば、簡単に接続された、単峰、凸、解析的又はパラメトリック(例えば
、多次元ガウス)などである)が必然的に呼出される。
しかし、有効性を証明した多くの機能は、これらの簡単化仮定が為された場合
に、非常に複雑であり、極めて不完全にモデル化された分布を有する。その結果
、これらの簡単化仮定は、画像分類器の信頼性を低下させる不正確性を導入する
。
別の方法(“最近接点”方法と呼ばれることがある)では、クラス毎に少数の
プロトタイプ画像のみを記憶し、この疎らなセットから真正な分布を帰納すると
いう目的で、固定グローバル画像距離D(x,y)≧0(画像Xと画像yの任意
の2個の対間の距離関数)が使用される。この方法は必ずしも望ましくない。な
ぜなら、単一のグローバル距離関数が全てのクラス分布の複雑性を正確にモデル
化するとは思われないからである。
従って、当業者は今まで、特徴分布の実際的な表示から生じる正確性を有する
強力な特徴(すなわち、少なくとも2つの異なるクラスから選択された画像につ
いて評価された場合に、大幅に異なる値を高い確率で有する特徴)を結合できる
実際的な画像分類方法を提供することができなかった。発明の開示
本発明によれば、クラス距離dc(x)≧0の同族類を構成する。各クラスc
について、それぞれ未知画像xから特定のクラスcまでの距離を計算する。完全
(又はほぼ完全)距離の同族類とすると、最小距離に従って分類することができ
る。dc(x)が最小のクラスcはXに関する好ましいクラスとして戻される。
全ての画像x及び全てのクラスcについて、dc(x)=0の場合、Xがクラス
c内のものである場合のみ、クラス距離dc(x)≧0は完全である。完全距離
は、その分布内がゼロで、その範囲外では厳密に正である、このクラスについて
“理想的インディケータ関数”の一種として機能する。言うまでもなく、実際に
は、このような距離は常に完全であるとは限らないが、距離は極めて接近させる
ことができる。本発明の分類方法は、このような完全又はほぼ完全な距離で使用
できる。その結果、本発明の方法は、高い正確度(少なくとも従来の最良の競合
方法と同程度である)、優れた拒否動作(幾つかのありきたりの競合方法より性
能が優れている)及び学習中の迅速な収束(これにより実行中の再学習と自動特
殊化を可能にする)を達成できる。
本発明によれば、各クラスについて、特徴値の経験的なクラス条件的分布の詳
細な、しかし空間効率的な表示(分布マップと呼ぶ)を作成する。実例的な分布
マップでは、各特徴の各値は、この特徴値がこのクラスに関する学習データ中に
生じる場合にのみ、1に設定されるビットにより示される。
使用する場合、本発明による画像分類器は、入力画像について評価された特徴
に基づくテストマップを学習画像群に基づく複数のクラス分布マップと比較する
。入力画像は、テストマップに対して最小距離を有するクラス分布マップのクラ
スに割り当てられる。或る代表的な実施例では、テストマップに対して最小距離
を有する分布マップは、テストマップと同じような最大数の特徴値を有する分布
マップである。
従って、広い意味において、本発明は、入力画像を受信し、この入力画像を学
習画像の学習セットと比較することにより、入力画像を複数の画像クラスのうち
の一つに割り当てる画像分類器である。画像分類器は複数のクラス分布マップを
有する。これらの各マップは学習画像について評価された複数の特徴に基づく。
また、各マップは、対応するクラスに属する学習画像用の学習セットに少なくと
も1回は生じる特徴値を示す。
画像分類器は更に、入力画像について複数の特徴を評価することによりテスト
マップを構成する手段と、クラス分類マップのうちのどのマップがテストマップ
に対して最小の距離を有するか識別するために、テストマップとクラス分布マッ
プを比較する手段を有する。
重要なことは、少なくとも一つの特徴が、少なくとも一つの画像クラスの画像
の形状に関するルールに従って定義されることである。図面の簡単な説明
第1図は本発明について有用な実例的な学習プロセスの流れ図である。
第2図は本発明による実例的なテストプロセスの流れ図である。
第3図は実例的なクラス分布マップである。
第4図はテストマップから第3図のクラス分布マップまでの距離の実例的な計
算を示す。
第5図及び第6図は新たな特徴フォーム(例えば、学習画像の入力表示)を構
成する或る可能な手順を説明する。簡単化のために、図5により示されるスペー
スは2次元のもである。
第7図は印刷された漢字を示す単一サンプルの実例的な分布マップである。
第8図は漢字の各クラスの3種類の分布マップの群である。発明を実施するための最良の形態
画像欠陥の実際的モデルの擬ランダムシミュレーションにより学習セットの質
を高めるか又は生成することが望ましいことが発見された。例えば、H.S.Baird
,”Document Image Defect Models,”in H.S.Baird et al.,Eds.,Structure d Document Image Analysis
,Springer-Verlag(1992)には、画像欠陥のパラメ
ータ付きモデルが開示されている。このモデルは、印刷及び画像取得のフィジッ
クス(physics)に近ずく、高品質プロトタイプ画像で動作する、分布アルゴリ
ズムを決定するパラメータの分布を特定する。分布からの擬ランダムサンプリン
グにより、無限サイズの学習及びテストセットを生成させることができる。従っ
て、学習セットのサイズに関する本発明の計算環境によりインポーズされる制限
以外の制限は存在しない。また、学習及びテストセットは両方とも同じ分布から
ランダムに選択されるので、学習セットは構成により示される。
適当な距離特徴の選択には大きな自由度が存在する。しかし、光学文字認識
(OCR)の分野で周知の多数の特徴は、本発明の方法のような完全距離方法で
申し分なく行われることが発見された。(代表的な特徴は画像画素値の下位多項
式関数である。)更に、自動構成特徴のアルゴリズムは高い精度の分類をサポー
トする小さな特徴群を発見するのに有効であり得ることが発見された。
前記のように、若干の識別はランダムに選択された画素対と同じくらい簡単な
特徴により与えられる(Bledsoeの前掲書参照)。しかし、少なくとも一つの画
像クラスの画像の形状に関するルールに従って少なくとも一つの特徴が定義され
る場合、精度が更に改善されることが発見された。すなわち、高度に有効な特徴
は一般的に、演鐸的に選択される特徴である。なぜなら、(例えば、学習セット
で示されるような)少なくとも一対の画像クラス間の若干の識別を与えることが
公知だからである。実例として、特徴は、学習セットに対する性能にしたがって
既知の特徴のリストから選択することができる。別法として、特徴は学習セット
に関して構成することもできる。(特徴の構成方法の一例は下記で説明する。)
従って、特徴は最初から手作業で特定することもできるし、又は学習セットの試
験中に自動的に構成することもできるし、あるいはこれらを組み合わせることも
できる。何れの場合も、幾つかの個数Mの特徴が最後に選択される。各特徴の範
囲は多くともV個の別個値からなることが必要である。
M個の特徴値のベクトルとして、学習セット内か又は(分類すべき)テストセ
ット内であるか否か全ての画像を示す。
各クラスについて分布マップを構成する。好ましい分布マップでは、各特徴の
各値は、この特徴の値がこのクラスの学習データに生じる場合及びこの場合のみ
、1に設定されるビットにより示される。各クラス分布マップはM*N個のビッ
トを有する。
認識中、入力画像は次のように実例的に分類される。
a)入力画像に関する特徴値のベクトルを計算する,
b)入力値がクラスの分布マップに生じない各特徴のクラス−距離に1を加え
ることにより、各クラスに対する負でない整数距離を計算する,
c)この距離が最小であるクラスの入力画像を割り当てる,
d)1個以上の距離間にタイ(tie)が存在する画像を場合により棄却するか
又は“
不明瞭”の印をつける,
e)最小距離と次の最小距離との間のギャップが所定の閾値未満である画像を
場合により棄却するか又は“不明瞭”の印をつける,及び
f)最小距離が所定の閾値を越える画像を場合により棄却する。
例えば、第1図の流れ図に図示された学習プロセスは、入力として、所定のF
個の異なるフォントとF個のフォントの各々で示されるN個の記号(各々、個別
クラスに対応する)の文字形状のアウトライン作図を取得する。この入力は所定
の欠陥モデルを特定する一連のパラメータ値も包含する。このプロセスの出力は
分布マップである。F及びNの他に、数値定数はM個の数値特徴、(正規化され
た)特徴の最大整数値V及び各記号−フォント対について生成されるべきD個の
歪曲サンプルも包含する。
各フォントにおける各記号について、アウトライン形状作図を読み出し(ステ
ップA)、所定の欠陥モデルに従ってD個の歪曲サンプル画像を生成する(ステ
ップB)。これらの各歪曲画像について、M個の数値特徴を抽出し(ステップC
)、これらの各特徴の値を1−Vの範囲内に存在する値νに正規化する(ステッ
プD)。そして、対応するビットを分布マップ内の論理1に設定する(ステップ
E)。
また、例えば、図2の流れ図に図示されたテストプロセスは、入力として、分
布マップと未知クラスの画像を取得する。このプロセスの出力は距離の昇順に記
憶された、フォーム(クラスインデックス、距離)対のリストである。
M個の数値特徴が入力画像から抽出される(ステップF)。各特徴は前記のよ
うに正規化され(ステップG)、正規化特徴値νが得られる。各特徴について、
現行のクラス−特徴−値組合せに対応する入力分布マップにおけるビットbが検
索される(ステップH)。このビットがOFFの場合、現行クラスに対応する距
離アレイの要素は1まで増分される(ステップI)。距離アレイの要素が全て評
価された後、これらは昇順に記憶される(ステップJ)。この記憶アレイは直接
、テストプロセスの出力となる。
テストプロセスを第3図及び第4図を参照することにより更に例証する。テス
ト画像から抽出された特徴は図4の行10に列挙された値を有する。図3のクラ
ス分布マップの対応する列にも生じる各特徴値に関する同じ数字の行20に“0
”
が挿入される。“1”は、クラス分布マップの対応列に生じない各特徴値につい
て挿入される。図3のマップにより示されるクラスについて、距離アレイの対応
する要素は図4の行20内のエントリを加算することにより評価される。
高品質の学習データ、すなわち、正確に表示し、適正なサイズよりも大きなデ
ータを有することが望ましい。このため、最小の学習セットは少なくともk*V
個のサンプル/クラスを包含しなければならない。ここで、kは1よりも大きな
整数である。好ましくは、kは少なくとも10である。なぜなら、クラス当たり
10*V個のサンプルよりもかなり少ない学習セットは、かなりの入射速度を有
する特徴値を含むことができないからである。
学習セットが真正な欠陥分布に対する極近似値からランダムに選択された場合
、この最小サイズ基準ヘルプは、真正な分布中に生じることができる各特徴値は
高い蓋然性で、学習セット中にも生じる。
実例的な認識プロセスでは、各特徴は、各クラス距離により計算された最終“
距離”に0又は1を与えることができる。すなわち、たとえ幾つかの特徴の範囲
(個別的特徴値の数)が他のものよりも大きかったとしても、各特徴は不整合に
対し同じペナルテイを課す。
Vの選択は成功の必須要件である。Vが小さい(例えば、5未満)場合、特徴
はうまく識別できないものと思われる。Vが大きい(例えば、500超)場合、
分布マップは望ましくないほど大きく、必要な学習データの量は過大である。従
って、Vの好ましい範囲は5〜500である。このような範囲を特徴値の“適度
に粗い量子化”と呼ぶ。
特徴の数は予め固定する必要はない。むしろ、学習セットの統計量に応じて、
学習中に成長することができる。完全距離の特徴の構成
第5図及び第6図を参照しながら、関数の特定の同族類から特徴を選択する方
法を下記に説明する。この方法により最大識別の達成が保証される。この方法は
新たな特徴を追加することにより学習セットの不明確性を徐々に除去する。全て
のクラスが識別されるか又は固有の不明確性だけが残る場合、終了が約束される
。
この方法は各クラスcについて順番に繰返される。各繰返しにおいて、全ての
学習サンプルはグループS1とグループS2の2つに分離される。ここで、S1は
クラスcの画像(図中、黒丸で示されている)を包含し、S2はその他の全ての
クラスの画像(図中、白丸で示されている)を包含する。各グループのサンプル
平均30,40を計算した。直線50はサンプル平均を通して引かれている。そ
の後、この直線上にサンプルをプロジェクション(投射)した。(幾つかのプロ
ジェクション例を第5図に点線で示す。)次いで、プロジェクション範囲を、第
6図に示されるように、固定数のセグメントに均等に分割する。或るクラスのサ
ンプルのプロジェクションがこのセグメント上に存在する場合、このセグメント
はこのクラスについて“on”とマークされる。直線50は、(前記のような意
味の)“特徴”と思料される。セグメントに対するインデックスはこの特徴が取
り得る値である。マークされたセグメントはこの特徴の分布マップを形成する。
S1及びS2の双方についてマークされたセグメントが存在しない場合、S1にお
ける画像について識別特徴を得たことになり、この方法は(クラスcについて)
終了する。さもなければ、S1は余分なものが取り除かれ、S2と重複するサンプ
ルだけが残される。(例えば、第6図のセグメント2はS1及びS2の双方につい
てマークされる。)その後、余分なものが取り除かれたS1及びS2における全て
の画像を用いてこの方法が繰返される。S1内の全てのサンプルがS2からのサン
プルと重複する場合、S1は半分ずつに分割され、各半分についてこの方法を適
用する。何れかのS1が空になるまで又はプロジェクションによってS1及びS2
を分離できなくなるまで(例えば、S1及びS2の両方の全ての画像が同一である
場合)、これを継続する。実施例
印刷された漢字において最も普遍的に使用される4種類のフォント(宋(Song
),方宋(Fang Song),黒(Hei)及び開(Kai))用の分類器を作製した。テ
キストサイズは7ポイント〜14ポイントの範囲内であり、空間サンプリング速
度は400画素/インチである。試験はGuoBiao符号化GB2312-80,レベル1の全
ての3755文字クラスを包含した。(Code of Chinese Graphic Character fo r Information Interchange,Primary Set
(GB2312-80),National Standards Bu
reau,Be1jing,China(1980)参照)印刷漢字認識システムで普遍的に使用され
る幾つかの特徴を
選択する。(S.Mori et al.,”Research on Machine Recognition of Handprin
ted Characters,”IEEE Trans.on Pattern Analysis and Machine Intelligenc e
PAMI-6,4,(July 1984)386-405参照)入力文字の2値画像は最初、簡単な
スケーリング及びセンタリングにより48×482進値画素マトリックスにサイ
ズ正規化された。すなわち、各画像は、多くとも2230410694個別ポイントを
含有する、48×48=2304ディメンジョンの2進値ベクトルスペース内の
ポイントにマップされる。
垂直及び水平プロジェクションプロファイル,外部輪郭線から外接ボックスま
での距離及びストローク方向の分布からなる、3種類の整数値セットを使用した
。
プロジェクション特徴を次のように計算する。画像エリアを上下半分ずつに分
割し、(各列内の黒画素の数を計数する)垂直プロジェクションプロファイルを
それぞれについて計算する。同様に、2つの水平プロジェクションプロファイル
を左半分及び右半分について取得する。次いで、これら4個のプロファイルを連
結し、48×4=196ディメンジョンのベクトルを生成する。各プロジェクシ
ョン特徴の整数値は[0,24]の範囲内に存在する。
輪郭線特徴は外接ボックスの4つの端部の各々から文字の外部輪郭線までの距
離である。各列について、ボックスの上端から列の最初の黒画素までの距離及び
下端から最後の黒画素までの距離を計算する。同様に、各行について、左端から
最も左側の黒画素までの距離及び右端から最も右側の黒画素までの距離を計算し
た。これらの距離は48×4=192ディメンジョンのベクトルを生成する。各
輪郭線特徴の整数値は[0,48]の範囲内に存在する。
ストローク方向特徴をラン・レングス分析により次のように計算する。各黒画
素から、黒ランが4つの方向(水平,NE−SW対角線,垂直及びNW−SE対
角線)に拡張されるに応じて、この画素を含有する黒ランの長さを計算する。次
いで、この画素に、ラン・レングスが最大である方向を標識する。次いで、画像
エリアを16個の(12×12)平方領域に区分けし、各領域内の4種類のタイ
プの各々の画素の個数を計数する。これらの計数値を16×4=64ディメンジ
ョンのベクトルに記憶する。各ストローク方向特徴の整数値は[0,144]の
範囲内に存在する。
従って、各文字画像は、多くとも25192×49192×1456410731個別ポイ
ントを含有する、192+192+64=448ディメンジョンの整数値ベクト
ル空間内のポイントにマップされる。
輪郭線及びストローク方向特徴の両方の整数値範囲を、プロジェクション特徴
の範囲に整合する[0,24]内に収まるように圧縮する。クラス当たり800
個のサンプルを有する学習セットを生成した。従って、各特徴について、今まで
の特徴値のサンプルよりも32倍も多いサンプルを有する。
歪曲サンプルを生成するために、印刷、光学及びデジタル化による欠陥の明示
的、定量的なパラメータ化モデルと、このモデルを実現するための擬ランダム画
像発生器を使用する。モデルパラメータは、出力(ポイント単位)の公称テキス
トサイズ、出力空間サンプリング速度(画素/インチ単位のデジタル化解像度)
、ポイントスプレッド関数(出力画素単位の、ガウス汚点カーネルの標準的エラ
ー)、デジタル化閾値(強度単位、0.0は白を示し、1.0は黒を示す)、画
素センサ中の感度分布(閾値に加えられるノイズターム)、画素中のジッタ分布
(すなわち、出力画素単位の、典型的平方格子からのセンサ中心の不一致)、回
転(スキュー角度)、ストレッチング係数(水平及び垂直の両方)及び画素格子
に対する翻訳オフセットを特定する。
学習セットデータの公称テキストサイズは7,9,11及び13ポイントであ
り、テストセットの場合は8,10,12及び14ポイントである。擬ランダム
発生器はこれらパラメータの分布仕様を受容する。各パラメータはそれぞれ独立
にランダム化される。これらの試験で使用される分布は次の通りである。デジタ
ル化解像度は400画素/インチに固定する。ガウス汚点カーネルの標準的エラ
ーは画像毎に変化し、通常、平均0.7、標準エラー0.3(出力画素)で変化
する。2進化閾値は画像毎に変化し、通常、平均0.25、標準エラー0.04
(強度)で変化する。画素センサ感度は画素毎に変化し、通常、平均0.125
、標準エラー0.04(強度)で変化する。ジッタは画素毎に変化し、通常、平
均0.2、標準エラー0.1(出力画素)で変化する。スキューは画像毎に変化
し、通常、平均0、標準エラー0.7°で変化する。幅に影響を及ぼす乗算係数
は[0.85,1.15]の間隔で一律に変化し、高さに影響を及ぼす乗算係数
は、
通常、平均1.0、標準エラー0.02で変化する。翻訳オフセットは[0,1
](出力画素単位)で一律に選択される。
フォント/サイズ/記号のトリプルの各々について、各フォント/記号対の総
数200個の学習/テストセットについて、また、各記号の総数800セットに
ついて50個のサンプルを生成する。
各学習サンプルについて特徴抽出機を適用する。結果は、448ディメンジョ
ンの整数値ベクトル又は同値的に、448×25=11200ディメンジョンの
2進値ベクトルの何れかとして見做すことができる。これは“分布マップ”と呼
ばれる。単一のサンプルに関する分布マップでは、各特徴は25ビットで示され
、単一サンプルの場合、単一ビットは、特徴の値を示す1に設定される。このよ
うな分布マップを第7図に示す。
各クラスについて、800個の学習サンプルに関する分布マップを、これらの
ブール共用体を計算することにより、一つのマップに併合する。このようなクラ
ス分布マップでは、学習セット内で少なくとも一度は生じる各特徴値は1に設定
されたビットにより示される。また、0値ビットは決して生じない特徴値を示す
。この試験で使用された最初の3つのクラスの分布マップを第8図に示す。分類
器は記憶域の全3775分布マップ群(総数3775×11200 42.1メ
ガビット又は5.26メガバイト)により完全に説明される。
テスト中、各文字画像の特徴を抽出し、そして、各クラスについて、特徴をク
ラス分布マップに整合させる。これは、448ビットベクトルを計算することに
より行う。この場合、この特徴がクラス分布マップ内で生じる場合にのみ、各特
徴に対応するビットは1に設定される。最後に、このクラスの“距離”は、全て
1の値を有する典型的ベクトルに対するこのベクトルのハミング距離であると見
做される。
完全GB2312−80レベル1における3755クラスについて分類器の性
能を評価した。分類器を3755クラスの各々の800サンプルについて学習さ
せた。総数800×3755=3004000サンプルをテストした。表1に分
類結果を示す。表2は最適選択に関する様々なサイズの近傍におけるエラー数及
び正確率を示す。(すなわち、正解クラスが所定の近傍内のどこにでも存在する
場合、“正確”カウントがされる。)
Claims (1)
- 【特許請求の範囲】 1.入力画像を受信し、この入力画像を学習画像の学習セットと比較することに より、この入力画像を複数の画像クラスのうちの一つに割当てる画像分類器であ り、該分類器は、 a)複数のクラス分布マップと、ここで、前記各マップは学習画像について評 価された複数の特徴に基づき、また、前記各マップは、対応するクラスに属する 学習画像に関する学習セット内で少なくとも1回は生じる特徴値を示す, b)入力画像について複数の特徴を評価することによりテストマップを構成す る手段と, c)どのクラス分布マップがテストマップに対して最小の距離を有するか識別 し、これにより入力画像を識別クラス分布マップのクラスに割当てるために、テ ストマップをクラス分布マップと比較する手段とからなり、 d)少なくとも一つの特徴は、少なくとも一つの画像クラスの画像形状に関す るルールに従って定義されることを特徴とする画像分類器。 2.入力画像を受信するステップと、入力画像を学習画像の学習セットと比較す るステップと、この比較ステップに基づいて、入力画像を複数の画像クラスのう ちの一つに割当てるステップとからなり、前記比較ステップは、 a)複数の数値画像特徴を入力画像について評価し, b)この入力画像について評価された画像特徴値を示すテストマップを構成し , c)テストマップを複数のクラス分布マップの各々と比較し、前記各クラス分 布マップは個別画像クラスに対応し、前記各マップは学習画像について評価され た複数の特徴に基づき、前記各マップは対応するクラスに属する学習画像に関す る学習セット内で少なくとも1回は生じる特徴値を示す, d)前記(c)の過程で、どのクラス分布マップがテストマップに対して最小 の距離を有するか識別し,そして、 e)割当てステップは、入力画像を、(d)で識別された最小距離を有するク ラスに割当てることからなる文字認識方法であり、 f)ステップ(a)は、少なくとも一つの画像クラスの画像形状に関するルー ルに従って定義される少なくとも一つの画像特徴を評価することからなることを 特徴と する文字認識方法。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US13857993A | 1993-10-15 | 1993-10-15 | |
| US138,579 | 1993-10-15 | ||
| US08/138,579 | 1993-10-15 | ||
| PCT/US1994/011714 WO1995010820A1 (en) | 1993-10-15 | 1994-10-13 | Methods and apparatus for classification of images using distribution maps |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08508128A true JPH08508128A (ja) | 1996-08-27 |
| JP3228938B2 JP3228938B2 (ja) | 2001-11-12 |
Family
ID=22482650
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP51209495A Expired - Fee Related JP3228938B2 (ja) | 1993-10-15 | 1994-10-13 | 分布マップを用いる画像の分類方法及び装置 |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US5825925A (ja) |
| EP (1) | EP0674794B1 (ja) |
| JP (1) | JP3228938B2 (ja) |
| KR (1) | KR950704755A (ja) |
| CA (1) | CA2150110C (ja) |
| DE (1) | DE69423607T2 (ja) |
| WO (1) | WO1995010820A1 (ja) |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5930393A (en) * | 1997-08-11 | 1999-07-27 | Lucent Technologies Inc. | Method and apparatus for enhancing degraded document images |
| JP3614863B2 (ja) * | 1997-11-19 | 2005-01-26 | 株式会社山武 | 類別モデル生成方法及び記録媒体 |
| US6252988B1 (en) * | 1998-07-09 | 2001-06-26 | Lucent Technologies Inc. | Method and apparatus for character recognition using stop words |
| US6406518B1 (en) | 2000-08-21 | 2002-06-18 | Praxair Technology, Inc. | Gas separation process using ceramic membrane and regenerators |
| US6772152B2 (en) * | 2001-03-22 | 2004-08-03 | International Business Machines Corporation | System and method for mining patterns from a dataset |
| CA2375355A1 (en) * | 2002-03-11 | 2003-09-11 | Neo Systems Inc. | Character recognition system and method |
| US20030233619A1 (en) * | 2002-05-30 | 2003-12-18 | Fast Bruce Brian | Process for locating data fields on electronic images of complex-structured forms or documents |
| GB0807411D0 (en) * | 2008-04-23 | 2008-05-28 | Mitsubishi Electric Inf Tech | Scale robust feature-based indentfiers for image identification |
| US8660371B2 (en) | 2010-05-06 | 2014-02-25 | Abbyy Development Llc | Accuracy of recognition by means of a combination of classifiers |
| CN101923653B (zh) * | 2010-08-17 | 2013-03-06 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
| CN102011432B (zh) * | 2010-11-24 | 2012-01-25 | 同济大学 | 多边形组合式钢管 |
| KR20140102038A (ko) * | 2013-02-13 | 2014-08-21 | 삼성전자주식회사 | 영상 정합 장치 및 영상 정합 방법 |
| CN104299008B (zh) * | 2014-09-23 | 2017-10-31 | 同济大学 | 基于多特征融合的车型分类方法 |
| US10089523B2 (en) | 2016-10-05 | 2018-10-02 | Intuit Inc. | Automating creation of accurate OCR training data using specialized UI application |
| EP3660750B1 (en) * | 2018-11-30 | 2022-01-05 | Secondmind Limited | Method and system for classification of data |
| CN113469233B (zh) * | 2021-06-23 | 2024-05-07 | 临沂大学 | 基于深度学习的烟叶自动定级方法及系统 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3638188A (en) * | 1969-10-17 | 1972-01-25 | Westinghouse Electric Corp | Classification method and apparatus for pattern recognition systems |
| US3651459A (en) * | 1970-05-15 | 1972-03-21 | Philco Ford Corp | Character distance coding |
| US3930231A (en) * | 1974-06-10 | 1975-12-30 | Xicon Data Entry Corp | Method and system for optical character recognition |
| GB1545117A (en) * | 1976-05-25 | 1979-05-02 | Nat Res Dev | Comparison apparatus eg for use in character recognition |
| US4177448A (en) * | 1978-06-26 | 1979-12-04 | International Business Machines Corporation | Character recognition system and method multi-bit curve vector processing |
| US5060277A (en) * | 1985-10-10 | 1991-10-22 | Palantir Corporation | Pattern classification means using feature vector regions preconstructed from reference data |
| JPH02268388A (ja) * | 1989-04-10 | 1990-11-02 | Hitachi Ltd | 文字認識方法 |
| US5255354A (en) * | 1990-06-08 | 1993-10-19 | Xerox Corporation | Comparison of image shapes based on near neighbor data |
| US5237627A (en) * | 1991-06-27 | 1993-08-17 | Hewlett-Packard Company | Noise tolerant optical character recognition system |
| US5263097A (en) * | 1991-07-24 | 1993-11-16 | Texas Instruments Incorporated | Parameter normalized features for classification procedures, systems and methods |
-
1994
- 1994-10-13 EP EP94930785A patent/EP0674794B1/en not_active Expired - Lifetime
- 1994-10-13 DE DE69423607T patent/DE69423607T2/de not_active Expired - Fee Related
- 1994-10-13 WO PCT/US1994/011714 patent/WO1995010820A1/en not_active Ceased
- 1994-10-13 JP JP51209495A patent/JP3228938B2/ja not_active Expired - Fee Related
- 1994-10-13 CA CA002150110A patent/CA2150110C/en not_active Expired - Fee Related
-
1995
- 1995-06-13 KR KR1019950702404A patent/KR950704755A/ko not_active Abandoned
-
1996
- 1996-11-06 US US08/744,291 patent/US5825925A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP3228938B2 (ja) | 2001-11-12 |
| EP0674794A1 (en) | 1995-10-04 |
| KR950704755A (ko) | 1995-11-20 |
| CA2150110C (en) | 2000-01-11 |
| US5825925A (en) | 1998-10-20 |
| EP0674794A4 (en) | 1996-02-14 |
| DE69423607T2 (de) | 2000-11-09 |
| CA2150110A1 (en) | 1995-04-20 |
| WO1995010820A1 (en) | 1995-04-20 |
| DE69423607D1 (de) | 2000-04-27 |
| EP0674794B1 (en) | 2000-03-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
| CN111291629B (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
| CN113705576B (zh) | 一种文本识别方法、装置、可读存储介质及设备 | |
| JPH08508128A (ja) | 分布マップを用いる画像の分類方法及び装置 | |
| CN109740606B (zh) | 一种图像识别方法及装置 | |
| CN112528934A (zh) | 一种基于多尺度特征层的改进型YOLOv3的交通标志检测方法 | |
| JPH05217019A (ja) | ビジネスフォーム識別システム及び画像処理システム | |
| CN109343920A (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
| CN110728307A (zh) | 自生成数据集与标签实现x光影像图小样本字符识别方法 | |
| JPH11345339A (ja) | 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ | |
| CN114241469A (zh) | 一种面向电表轮换过程的信息识别方法和装置 | |
| CN114881698A (zh) | 广告合规审核方法、装置、电子设备及存储介质 | |
| CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
| CN111046883B (zh) | 一种基于古钱币图像的智能评估方法及系统 | |
| CN112766082A (zh) | 基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质 | |
| CN111626299A (zh) | 一种基于轮廓的数字字符识别方法 | |
| CN112924037A (zh) | 基于图像配准的红外体温检测系统及检测方法 | |
| CN117173724A (zh) | 一种基于语义分割网络的复杂表格识别方法、系统、设备及介质 | |
| Sun et al. | Contextual models for automatic building extraction in high resolution remote sensing image using object-based boosting method | |
| Frischknecht et al. | A raster-based approach for the automatic interpretation of topographic maps | |
| JP2004094427A (ja) | 帳票画像処理装置及び該装置を実現するためのプログラム | |
| JP2001506383A (ja) | ピクセルマトリクス上で文字認識を実行する方法 | |
| CN116958998B (zh) | 一种基于深度学习的数字仪表读数的识别方法 | |
| CN116469109B (zh) | 一种数字仪表的测量结果识别方法及装置 | |
| CN105513044B (zh) | 一种基于统计度量直线特征的数字直线段识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080907 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |