JPH07200745A - 少なくとも二つのイメージセクションの比較方法 - Google Patents
少なくとも二つのイメージセクションの比較方法Info
- Publication number
- JPH07200745A JPH07200745A JP6332978A JP33297894A JPH07200745A JP H07200745 A JPH07200745 A JP H07200745A JP 6332978 A JP6332978 A JP 6332978A JP 33297894 A JP33297894 A JP 33297894A JP H07200745 A JPH07200745 A JP H07200745A
- Authority
- JP
- Japan
- Prior art keywords
- image
- token
- word
- tokens
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V30/1902—Shifting or otherwise transforming the patterns to accommodate for positional errors
- G06V30/19067—Matching configurations of points or features, e.g. constellation matching
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
形成するイメージトークンを比較する方法であって、そ
のためにキャラクター、シンボル、グリフ、要素列、あ
るいはトークンを形成する要素を個々に識別、あるいは
特定しなくても良い方法を提供する。 【構成】 あるイメージ内の要素を検出し、まず、トー
クンの境界を決め、次に2段階のプロセスを適用し、そ
の中で膨張されたイメージがトークンを表すモデルと比
較され、それらの間の相対的な類似性が決定される。
Description
配列内に表わされ、ワード(単語)、複数の連結した構
成要素、あるいは意味が解釈可能な同様の複数のユニッ
トを形成するイメージトークンを形状により比較する方
法であって、そのためにキャラクター(文字)、シンボ
ル(記号)、グリフ(絵文字など)、あるいはトークン
を形成する要素を個々に検出、あるいは識別しなくても
良い方法に関するものである。
書)内のテキストは、2つの互いに異なったフォーマッ
トのいずれかであることが多い。第1のフォーマットで
は、テキストがビットマップになっており、この場合、
テキストはイメージデータあるいは画素の配列としての
み定義された同様の表現の隣接したイメージと基本的に
区別できない。このフォーマットでは、テキストは文章
の内容だけをベースとするコンピュータの処理対象には
殆どならず、処理するためにはイメージユニットに分割
しなければならない。第2のフォーマットは、以下にお
いてキャラクターコードフォーマットと呼ぶが、このテ
キストはキャラクターコード(例えばアスキーコード)
のストリング(列)として表現される。このキャラクタ
ーコードフォーマットにおいては、テキストのイメージ
あるいはビットマップは不要である。
ビットマップからキャラクターコードへの変換は、時間
と処理に係る手間を考えると非常に高価である。個々の
キャラクターのビットマップを、それに隣接するものか
ら区別し、その外観を解析し、さらに、意思決定プロセ
スによって予めセットされたキャラクター群の中のある
キャラクターとして識別しなければならない。ミヤタケ
らに付与された米国特許第4,956,869号にはコ
ンタワーライン(濃度の等しい線、輪郭線)をトレース
するさらに効率的な方法が示唆されている。
スキャンして電子文書を抽出するときに、その複製物の
イメージ品質やノイズによって、ビットマップの実際の
外観が不確定なものになる。ビットマップの外観が劣化
するのは、品質の悪いオリジナル文章、スキャニングの
エラー、あるいはイメージのデジタル再生に影響を与え
る同種のファクターが原因である。従って、キャラクタ
ーを識別するための決定プロセスには、それに関する固
有の不確実さが存在する。これに関し特に問題となるこ
とは、テキスト内のキャラクターが不鮮明となったり、
あるいは結合し易いことである。大抵のキャラクター識
別プロセスは、あるキャラクターが連結した画素が1つ
の独立したセットであることを仮定することから始ま
る。入力されたイメージの品質が原因でこの仮定が成り
立たないと、キャラクターの識別も失敗することにな
る。
るアプローチに関する技術を特に示している。マノンに
付与された米国特許第4,926,490、シェランジ
に付与された米国特許第4,558,461、グレイ等
に付与された米国特許第3,295,105、バースキ
ーらに付与された米国特許4,949,392、ロング
フードらに付与された米国特許第5,142,589。
するようにしている。例えば、シェランジに付与された
米国特許第4,558,461およびペッパーズらに付
与された米国特許第4,809,344がある。
よって信頼性を向上している。例えば、ヒシノに付与さ
れた米国特許第4,010,445に開示されている。
富士通科学技術ジャーナル26,3、ページ224〜2
33(1990年10月)の「F6365日本語文書リ
ーダー」は、ブロック抽出、スキュー調整、ブロック分
割、隣接するキャラクターの区分、ライン抽出、および
辞書によるチェックおよび比較を行いパターンマッチン
グによってキャラクター認識をする各ステップを示して
いる。
る複数のキャラクターのセットを識別するには、例えば
米国特許第2,905,927にあるような読みかたを
することが望ましいであろう。
ード全体を用いることは、サインを認識する際に考えら
れており、フリシュコプに付与された米国特許第3,1
33,266に示唆されている。しかし、分割されたキ
ャラクターを保持するという考えはない。
有の問題を防止することであり、そのためにワード(単
語)およびテキストストリングの基本的な特性を潜在的
に活用している。単語と単語の間のスペースは、文字と
文字との間のスペースより大きい傾向があり、従って、
キャラクターストリングを構成するトークンの分離およ
び識別を、そのトークン内の個々のキャラクターを識別
するのと比較できるほど改善できる。OCR法は、しか
しながら、正しく識別を行う前段階としてキャラクター
の形態について幾つかの正しい判断が要求され、その中
には、アセンダー、デセンダー、カーブなどといったキ
ャラクター(文字)の部分の識別も含みまれ、これらは
間違い易いものである。本発明は、一方において、単語
やシンボルあるいはキャラクターのストリングといった
連結した構成要素(以下においてトークンという)のセ
ットを、さらに確実に認識し識別可能とすることであ
る。1つの実施例において、本発明はイメージ内のテキ
ストやシンボルの特性を最初に決めるためにワードの境
界を利用している。続いて、その境界内で分離されたト
ークンの相互の、あるいはトークンイメージの辞書内の
既知のトークンとの比較が行われる。従って、比較する
段階までトークンのクラス分けは行われず、これによっ
て後続の処理における比較の間違いや、間違った決定の
原因となる無効な部分的にクラス分けを行うことの影響
を除くことができる。
な用法を思案すると、少なくともあるケースにおいて
は、ワードのそれぞれの文字を導くことが処理上の要求
として課せられないことが決定された。従って、例え
ば、あるテキストイメージのキーワードサーチを行う
際、OCR技術を介しておれぞれのワードのそれぞれの
文字をコンバートするのではなく、1つあるいはそれ以
上のキーワードがあるか否かを、欠陥があるかもしれな
いキャラクターコードから連続して決定する際に、コン
ピューターは、何かを生成するのではなく、テキストイ
メージ内の複数のトークンの形状とそのキーワードを表
すトークンの形状とを比較し、そのトークンの形状の対
比からキーワードが存在するか否かを評価する。このよ
うなシステムで出力すると、ユーザーが容認できる程度
の精度でキーワードの存在を示す何らかの表示を表せる
ものである。さらに、ここで説明する新規の方法はキャ
ラクターを認識するために設計された幾つかの方法より
処理スピードが早いと考えられる。またさらに、本発明
はイメージ編集システムにも適用でき、従って、本発明
は説明している実施例に限定されるものではない。
い確率は比較的に低いと思われるが、プロダクト(積)
ルールを適用するとその確率はワード全てに対し倍加し
て蓄積される。従って、OCRを用いて複数のワードを
キャラクターコードのストリングに変換すると、これら
のワードをサーチし、あるいは認識する以前にかなりの
エラーが発生するであろう。本発明はトークンのレベ
ル、あるいはテキストを認識する実施例ではワードレベ
ル、イメージデータを分割したものを用いて、通過する
テキストを読み抽出する際に人間が用いているのと同様
の方法で連続した認識を可能としている。さらに、説明
しているトークンの形状を認識するプロセスは幾つかの
効果を備えている。第1に、ビットマップイメージデー
タは回復できないような状態で失われることはなく、ま
た、そのビットマップの合理的表示は残るので、ユーザ
ーは必要であればキャラクター、シンボル、グリフ、あ
るいはワードを決定するために再生されたビットマップ
で確認できる。第2に、連結した要素(トークン)を用
いることによって、それぞれのシンボリックなエレメン
ト(すなわちキャラクター(文字))はトークン(すな
わちワード)全体の文脈を持って、そのトークンを他の
トークンの形状と比較する際の助けとなる。例えば、あ
るワードトークン内に形の崩れた文字があっても、これ
はワードの形状の全体を識別するのには殆ど影響を与え
ず、それらの単語を表す2つの比較されたトークンの間
が一致する確率を若干減らすだけである。さらに、OC
R法の能力と比較すると、OCR法はキャラクターを多
く持っているワードに対し間違った結果となり易いのに
対し、本発明は一般にもっと骨の折れるワードを識別す
る能力がある。
ャラクターコードに変換し、これによってビットマップ
の情報を含んだ内容を失うことがある。概ね、このプロ
セスは、キャラクターコードからオリジナルのビットマ
ップを得るような可逆的なものではない。しかしなが
ら、形状を基にしてワードトークンを識別すると、本発
明の1つに従って説明してあるように、認識するプロセ
スまでビットマップの情報を持っていることができ、こ
れによってビットマップを再構築することができる。
トクーンを表わすと共に複数のイメージシグナルを備え
た少なくとも2つのイメージセクションを比較して、類
似のトークンを判別する、以下のステップを有する方法
を提供できる。(a)第1のトークンを表すイメージシ
グナルを第1のモデルメモリーに格納し、(b)第1の
イメージメモリーに第1のトークンを膨張して表したも
のを作成し、(c)第2のトークンを表すイメージシグ
ナルを第2のモデルメモリーに格納し、(d)第2のイ
メージメモリーに第2のトークンを膨張して表したもの
を作成し、(e)第1のモデルメモリーに格納されたイ
メージシグナルを、第2のイメージメモリーに格納され
たイメージシグナルを比較し、第1の類似性の距離を決
定し、(f)第2のモデルメモリーに格納されたイメー
ジシグナルを、第1のイメージメモリーに格納されたイ
メージシグナルを比較し、第2の類似性の距離を決定
し、さらに、(g)第1および第2の類似性の距離に対
応して第1のトークンと第2のトークンが類似か否かを
判定する。本発明の一態様は各イメージセクションがト
クーンを表わし、複数のイメージシグナルを備えた少な
くとも2つのイメージセクションを比較して、類似のト
ークンを識別する方法であって、(a)第1のトークン
を表すイメージシグナルを第1のモデルメモリーに格納
し、(b)第1のイメージメモリーに前記第1のトーク
ンを膨張して表したものを作成し、(c)第2のトーク
ンを表すイメージシグナルを第2のモデルメモリーに格
納し、(d)第2のイメージメモリーに前記第2のトー
クンを膨張して表したものを作成し、(e)前記第1の
モデルメモリーに格納された前記イメージシグナルを、
第2のイメージメモリーに格納された前記イメージシグ
ナルと比較し、第1の類似の距離を決定し、(f)前記
第2のモデルメモリーに格納された前記イメージシグナ
ルを、第1のイメージメモリーに格納された前記イメー
ジシグナルと比較し、第2の類似の距離を決定し、さら
に、(g)前記第1および第2の類似の距離に対応して
前記第1のトークンと前記第2のトークンが類似か否か
を判定する、少なくとも二つのイメージセクションの比
較方法である。
されているものは本発明の望ましい実施例を示すための
ものであり、同等のものに限定するためではない。図1
は、一般化された画像処理システムの概要を示してあ
り、本発明を有効に活用できる多くの状況をこれでカバ
ーできる。一般に、ソースイメージは、スキャナー、フ
ァクシミリ装置、あるいは記録システムなどのソースイ
メージ抽出システム2から抽出される。このソースイメ
ージはコンピュータ処理装置4に送られるが、処理装置
4は幾つかの公知の装置のいずれでも良く、ここで述べ
るような発明に係る装置でも良い。ユーザーインタフェ
ース6に入力されたコマンドに応答して、処理装置4は
出力装置8に出力を行い、この出力装置もプリンター、
ディスプレイ、ファクシミリ装置あるいは他の記録装置
であっても良い。基本的には、図1の上部に示したよう
に、入力文書がシステムに入れられ、そこから出力文書
が回収される。
トマップとして記述されたものを言い、ここではイメー
ジとは複数のラスタライズ(ラスタ化)された(走査線
に分解された)イメージシグナルによって表される。こ
れらの信号は画素と通常呼ばれており、文章上で対応し
たマークやアクティブなポジションを表現するときは一
般に黒色で現され、これらによって文書やマークが作成
される。これらの構成は、本発明を記述するために用い
られているが、白黒や2値のイメージなどに範囲が限定
されるものではない。むしろ、本発明はイメージを表す
技術の広い範囲にわたって概ね適用できるものである。
さらに、本発明は、イメージ内、あるいはイメージ間の
複数のトークンの類似性を判定することも目指してい
る。1つの実施例において、本発明はワード境界内の単
語の対象(ワードオブジェクト)の類似性を決定するた
めに好適であるが、これはイメージを編集し圧縮するた
めにも用いることができ、このように、以下に述べる実
施例に完全に限定されるものではない。
形状から決定、分割および比較するシステムを示してあ
る。本システムのそれぞれの要素は多くの装置であって
も良く、あるいは、単に1つの装置内において1つのプ
ログラムであっても良い。同様に、以下においてワード
オブジェクトを認識するための望ましい実施例を説明し
てあるが、本発明の基幹をなす比較技術は、この特定の
実施例に関わり説明してある厳格な前処理操作を必要と
するものではない。
が、このソースは決定的なもの、あるいは本発明の一部
をなすものでもない。ビットマップは最初に分割システ
ム(セグメンテイションシステム)12に送られ、そこ
で複数のトークン(ワード、キャラクターストリング、
あるいは意味の解釈できる他のユニット)の境界が決定
される。最初に、イメージビットマップはデスキューワ
ー(スキュー戻し器)14を通り、このデスキューワー
はイメージ内に配向されたテキストの角度を決定し、そ
の配向を修正する。このデスキュー操作によって作られ
たデスキューされたイメージを用い、ワードボクサー
(ワード囲い器)16において複数のワードトークンの
境界が決定され、このトークンの境界と共に、イメージ
内のテキストラインの境界も識別される。単語分離器
(ワードセグメンター)18において、イメージビット
マップに対してワードトークンの境界が適用され、その
イメージ内のそれぞれのワードグループが読み出される
順番に分離され、これらが1つのユニットとしてその後
取り扱われる。ここで「ワード(単語)」、「シンボル
ストリング」あるいは「キャラクターストリング(文字
列)」とは連結したアルファベットあるいは句読点など
の要素、あるいはさらに広範囲なトークンの集合を意味
し、意味を解釈可能なユニットの全てあるいは一部を形
成するものである。このような解釈可能なユニットは、
イメージの中で特徴付けられており、そのユニット自体
を構成する隣接する要素、サインあるいはシンボルを分
離する隙間(スペーシング)より大きな隙間によって区
別されている。この点で本発明は異なった適用が可能で
あり、例えば、文章や単語の編集システムにおいて、イ
メージを連続して処理(操作)するために独立した単語
の形状を使用できる。従って、本発明は単語認識関係だ
けに限定されるものではない。
個々のワードを現すワードトークンの形状を、辞書26
からの既知あるいは既に識別されたワードトークンの形
状と比較する。他の例として、形状比較器24をイメー
ジ10から決定された2つあるいはそれ以上のワードト
ークンの形状を比較するために用いても良い。望ましい
実施例において、コンパレーター24は比較されるワー
ドトークン形状同士の間の類似度を特徴付けるためにハ
ウスドロフ(Hausdorff )距離を変数として用いてい
る。さらに重要なことは、形状比較器24は、識別され
ていないキャラクターのストリングからのワードトーク
ン形状を既知のワードトークン形状と比較するだけに止
まらないことである。単純な文脈においては、コンパレ
ーター24は、1つのトークンの形状を他のトークンの
形状と比較する単なる装置であり、本発明の実施例にお
いては、突き合わせ指示出力によって表される。2つの
トークン形状の間の類似度を相対的に示す。
決定し、比較する方法あるいは装置の概略を示すため
に、形状を比較する実施例の各々の工程を以下でさらに
詳しく説明する。本発明の処理をさらに説明するため
に、図3にサンプルイメージを示してあり、これは公衆
の資産となったものから取ってあり、その中には文章が
何行か含まれている。図3は、テキスト(文章)のペー
ジ上にイメージが現れる様子の概略を示し、図4、5お
よび6は、そのページのスキャンされたイメージの一部
を示してあり、そこにはビットマップのイメージが拡大
して示され公知のOCR技術における問題を示してあ
る。図3を見ると、例えば、このテキストイメージの2
行目のワードイメージ50は「formation 」であり、4
行目のワードイメージ54は「automobile」であり、幾
つかの文字が繋がって見える。
ジの回転する方法、あるいはスキューの修正方法を、こ
のイメージのデスキューされた表示を得るために用いる
ことができる。
が多くの方法によって抽出でき、その方法の選択はトー
クン比較の第一のアプリケーション(適用)に依存す
る。本発明において例示されている比較技術は、複数の
境界58内に表された複数の構成要素トークンに用いて
それらが互いが一致すること、あるいはキーとなるトー
クンと一致ことを識別する。識別されると、より大きな
文章イメージ内の一致した、あるいは既知のトークンは
ラベルが付けられ、あるいは後続の処理のために同様に
識別される。例えば、後続の処理には、電子的に表現さ
れたドキュメント内の情報を識別し、アクセスし、抽出
することが含まれ、さらに、1993年6月24日に公
開されたピーターB.マークらの公開公報(W0−93
/12610)「イメージを圧縮するための方法および
装置」に開示されている圧縮技術も含まれる。ドキュメ
ントイメージの部分を表す複数のトークンは直ぐには活
用できるが、イメージ処理を進め、ワードベースのトー
クンを生成することがワードを識別する上で望ましい。
ワードや関連するキャラクターのストリングによって構
成された複数のトークンを比較し認識する実施例を以下
で説明する。
は、デスキューされたイメージに対し図7および図8に
示すフローチャートに従った操作をする。ワードボクサ
ーで実施される処理工程の以下の説明は、プログラム可
能なコンピューターにおいて実行される操作を用いて説
明してあるが、本発明をこの実施例に限定しているので
はない。ステップ80が開始すると、ワードボクサーは
先ず図3の入力イメージを読み、このイメージは必要で
あればデスキューワー14でデスキューされている。こ
の機能は、例えば、ハードディスクあるいは同様のスト
レージ(記憶)装置といったメモリーに収納されたイメ
ージに単にアクセスするものであり、さらに、そのイメ
ージをそのイメージのために割り当てられたメモリーの
場所にコピーし、さらに、必要であれば、そのイメージ
にポインターを割り当てる。
プ82はそのイメージの中の連結した要素にを見つけ
る。このプロセスはストアーされた2値イメージの中か
ら黒色の画素を見つけるだけである。黒色の画素が見つ
かると、対話形(相互作用)プロセスが継続して隣接す
る黒色の画素、さらにそれらに隣接する黒色の画素を次
々と見つけ、連結した画素の範囲が決まるまで、継続し
て行う。さらに詳しく説明すると、8隣接定義(eight-n
eighbor connection definition)が用いられる。すなわ
ち、1つの画素が他の画素に対し8つのコンパス(範
囲)方向の一つに隣接すれば、、それらは隣接している
と考えられ同じ連結要素となる。さらに、そのイメージ
内の全ての黒色の画素が他の黒色の画素と適切に関連付
けられ、連結した要素が形成されるまでこのプロセスは
繰り返される。図4に示すように、連結した画素が関係
付けられると、角形のボックスあるいは境界58が識別
され、これは連結した画素の最大の範囲を反映したもの
となり、角形のボックスはそのイメージのx−y座標に
沿って配向される。
プの周りに領域を示すボックス(バウンディングボック
ス)が規定されると、図4にイメージの一部を用いて示
してあるように、連結した要素のボックスあるいは境界
が識別されたセットの中から、ワードボクサーはバッド
(良くない)ボックス(図示されていないが)を見つけ
出す。バッドボックスは、以下のように特徴付けられ
る。(a)背の高いボックスであって、その高さが全イ
メージの高さより約20パーセントより高く、そのイメ
ージ内のほぼ90パーセンチル(百分位数)の高さより
大きなボックス、あるいは(b)短いボックスであっ
て、90パーセンチルの高さのほぼ1/3より下の高さ
のボックス。分析が終わると、残ったボックスは次に、
ドキュメントの垂直あるいはy軸(y軸はデスキューさ
れたテキスト行の方向に対し垂直な軸と考えられる)に
投影されヒストグラムを形成し、これによってボックス
の境界の数がy軸に沿ったポジションの関数として反映
され、図3のイメージ全てに対し図9に示したようにな
る。望ましい実施例においては、y軸に投影されたヒス
トグラムデータに対し、テキストラインの位置を決定す
る前にガウシンアン分布に従ったスムージング(平滑
化)を行っても良い。次に、ヒストグラムの結果から、
暫定的なラインあるいは行の境界がイメージのy軸に沿
ったポジションとして識別され、このラインはヒストグ
ラムにある谷にあたる。例えば、図9に示してあるよう
に、複数の谷あるいは最低点120は、隣接するピーク
あるいは最高点122同士の間に識別され、さらに、谷
120によってライン間のスペースの位置が判り、これ
らを図5に参照番号62として示してある。この操作は
ステップ88によって行われる。最後に、暫定(予備)
的なテキストラインあるいは行(row)が決まると、
連結した要素のボックス全てを規定された行に割り当て
る機能が動作する。
定的に決まると、連結した要素のバウンディングボック
スであって2つの行に横たわったものを、先ず特定の行
に割り当てる手順が行われる。フローチャートのステッ
プ92、94、および96にあるように、この手順にお
いては前のステップであるステップ88で識別された暫
定的なテキストラインが正しいかのチェックがさらに行
われる。先ず最初に、追って説明するように、テキスト
行の分離が失敗ではないことを確認する機能が動作す
る。一般に、連結した要素に着目すると、あるテキスト
行の中の投影された部分は、それらがy軸方向にひどく
重なっていないかぎりx方向に投影された部分がそれほ
ど重なることはない。ステップ92において識別された
ように、投影した部分が重なっていると、その識別され
た行は2つあるいはそれ以上の別れた行である可能性が
高く、y方向に投影されたグラフ内にさらに最低点を見
つけて分離しなければならない。また、テキストイメー
ジ内の例えば、「i」の上のドットやワードの下線とい
った連結した要素の小さなグループの回りのバウンディ
ングボックスは無視し、テキスト行をさらに分離するよ
うな間違ってトリガーを引き起こさないようにしなけれ
ばならない。
軸方向にそって互いに重なった残りのボックスを、この
マージ(併合)された要素を囲う境界をもった1つのボ
ックスにマージする。一般に、このマージプロセスでは
1つの行の中の複数のボックスを見渡し、x方向に重な
り、さらに、y方向にも最小限ある程度かさなったボッ
クスを識別する。このy方向の最小限の重なりは、約5
0パーセント程度が良い。例えば、スキャンしたイメー
ジが「fort」というワードを含んでいた場合、スキャン
によって、「f 」のボックスの右端が「o 」ボックスの
左端と重なることがあり、従って、x 軸に沿って重なっ
たボックスの要素をマージすると、「f」と「o 」のボ
ックスがマージされることになる。この手順において、
サイズのテストも行われ、所定のサイズより小さなボッ
クスはマージされない。続いて、この小さなボックスは
イメージ内のノイズとして識別され削除されることがで
きる。
と、この行内の残りのボックスは連結した要素あるいは
トークンであり、これらの内のあるものはワードあるい
は意味を解釈できる同様のエレメントを形成するために
さらに連結する必要がある。さらに隣接する要素を結合
してスキャンされたイメージ内のワードベースのトーク
ンを形成するために、ステップ98においてテキスト行
内の隣接する要素同士の間の分離距離のヒストグラム化
を継続して行う。一般的なテキスト行の分布の結果を図
10に示してあり、破線のカーブが行のヒストグラムデ
ータを示し、実線のカーブはそれを滑らかにしたもので
ある。期待通り、得られたカーブは2値モデルの分布を
概ね示し、ピーク130および132の第1のセットは
キャラクター間のスペーシングの分離距離の分布を表し
ており、これに対し、第2のピークは幅が広く、頻度も
低く、隣接するワードの間のセパレーションを反映して
いる。さらに、ある条件下では、単一モデルの分布も現
れる。2値モデル(bi-model )の分布の2つの最大値
は、ステップ100において、分離用のしきい値を先ず
識別するのに用いられ、さらに続いてワード間のセパレ
ーション(分離)とキャラクター間のセパレーションを
区別するためも用いられる。
キスト行内の隣接するボックスのうち、x方向のセパレ
ーションが分離を示すしきい値より小さなものをマージ
するために、図8のステップ102の手順がコールされ
る。この手順では、単純に、それぞれの行にある連結し
た要素のセットで隣接したものの中で、分離を示すしき
い値より短い距離だけ分離されているもの全てがマージ
される。ワード内の隣接するキャラクターをマージする
と、その結果得られたボックス構造は、各々のテキスト
行内のワードトークンの境界を反映しており、例えば、
図6では複数のワードを囲う複数のボックス66を示し
てある。この時点で、小さなマージされなかったボック
スをイメージ内のノイズとして認識し、取り除くオプシ
ョン操作を実施しても良い。続いて、読む順番(上から
下、およびそれぞれのテキスト行の左から右)に並べら
れたボックスのリストがステップ104で作成される。
ボックスリスト内の配列それぞれが、入力されたイメー
ジ内のそれぞれ1つのワードトークン、ピクチャー、句
読点、あるいは意味を解釈できる同等のユニットのバウ
ンディングボックス66を規定している。
ドベースのトークンの境界を表すボックスリストを作成
するワードボクサー16によって、あるトークンのリス
トが作成されると、このリストおよびビットマップイメ
ージはトークンあるいはワードの分割器(segmenter )
18に送られる。概ね、分割器(セグメンター)18
は、一つのイメージ処理装置であり、入力されたイメー
ジ10のビットマップをボックスリスト内に規定された
ワードあるいはトークンの境界に従って一連のより小さ
なビットマップイメージに分割できるものである。ワー
ドセグメンター18からの出力はビットマップイメージ
の一連の流れ(シリーズ)であり、それぞれのイメージ
は、ワードボクサー16によって識別されたワードトー
クンあるいは意味を解釈可能な同等のユニットを表すビ
ットマップを備えている。好ましい実施例において、ワ
ードセグメンター18は、ワードボックスによって囲わ
れた入力イメージのそれぞれの部分に対して、分離され
たビットマップを実際に発生するものでない。むしろ、
セグメンターは単に窓開けの操作をしたり、あるいはビ
ットマップのある部分を選択することによって、特定の
トークンボックスの境界内であると規定されたそのイメ
ージのその部分へのアクセスを許可するものである。先
に説明したように、ワードセグメンター18の出力であ
るワードトークンはコンパレーター24に送られ、そこ
でトークンは辞書26からの他のビットマップイメージ
と対比され、セグメンター18から出力されたトークン
イメージと辞書から供給されたワードトークンとが一致
するか否かを判断される。
士を比較するための1つの好ましい方法としてハウスド
ロフ距離を計る技術が使用されており、これは1991
年6月のヒュッテンロッチャーらによる「ハウスドロフ
距離を用いたイメージの比較」(TR91−121
1)、および1992年12月の「ハウスドロフ距離を
用いたイメージを比較するための多重解像技術」(TR
92−1321)の記載に関連しており、いずれもカー
ネル大学のコンピューターサイエンス学部から出版され
ている。
比較する方法としては、特定のボックスへ識別された要
素同士を比較するための図11および12に示されたプ
ロセスが用いられる。以下に説明する単純化された実施
例は、あるイメージ内のワードベースのトークンが同じ
か、あるいは違うかを決定するためのものである。それ
ぞれのセクションあるいはワードトークンのビットマッ
プによる表現は、予め決定された境界を規定するための
ボックス(バウンディングボックス)により定められた
領域に対応している。ビットマップセクション同士間の
このような比較を行う一般的な方法は相関関係として一
般的に知られており、2つのイメージの論理的なAND
(論理積)をとる操作が類似性を決定するために用いら
れる。本発明において、一方、この相関関係を膨張(di
lation) 技術を用いて改善しており、これによってイメ
ージを形成するために用いられるデジタル化処理に固有
の量子化エラーによる影響を排除している。
つのトークンイメージをボックス1およびボックス2と
する。これらのイメージ部分(イメージセクション)
は、同一のイメージからの2つのセクションであっても
良く、異なったイメージからの2つのセクションでも良
く、あるいはあるイメージからの1つのセクションと、
入力されたシンボルのストリング、ワードあるいはトー
クンを形成する意味の解釈可能なユニットから電子的に
作成された1つのセクションであっても良い。図2にお
いてワードイメージの「辞書」として表されているが、
ブロック26の一般的な目的は、他のトークンイメージ
のセクション(ボックス1)と比較するためのトークン
イメージのセクション(ボックス2)を提供することで
ある。図6に示してあるように、「automobile」70お
よび72の2つのワードベースのトークンの表現を本発
明に従って比較しても良く、ここでは表現72は「辞
書」から導いても良い。ボックス1およびボックス2の
セクション70および72がそれぞれ規定されると、そ
れぞれにあるイメージは「モデル」と呼ばれ、さらに、
このモデルを膨張したものが作られ以下ではこれを「イ
メージ」と呼ぶ。
に、コンパレータ24で用いられている比較法は、先
ず、モデル1(150)内の画素、すなわち、ボックス
1で囲われたセクション内のオリジナルの画素を、ボッ
クス2で表された画素の膨張された表現のイメージ2内
(156)の画素と比較し、ブロック160でこの比較
から第1の距離が発生される。同様に、このプロセスが
逆転され、モデル2(152)内の画素であるボックス
2で囲われたセクションのオリジナルの画素と、ボック
ス1で現れた画素の膨張された表現のイメージ1(15
4)内の画素とが比較され、第2の距離がこの比較から
ブロック162で生成される。続いて、ブロック16
4、166および168においてこの2つの距離が数値
的に処理され、ボックス1およびボックス2で囲われた
これら2つのイメージセクションの類似性の度合が決定
される。
4は、最初に、モデル用のメモリーの場所にイメージ2
6の「辞書」に指定されたあるワードイメージ(ボック
ス2)の境界内の画素を複製する。これらの画素は以下
でモデル2とされる。コンパレータは次にメモリーの第
2の場所にモデル2を複製し、さらに、図11に示すよ
うに膨張し、イメージ2(膨張されたイメージ156)
をステップ200で作成する。すなわち、モデル2のメ
モリーに格納された「オン」あるいは黒色の画素全てに
対しイメージ2のメモリー内のこれの周囲に隣接する部
分をオンあるいは黒くする。隣合った正確な数は膨張半
径(ディレイションラディウス)として規定されてお
り、予め決められている。例として、好ましい膨張半径
が画素1.0個であると隣接した4つがオンになり、半
径を画素1.4個とすると隣接する近傍の画素8つが全
てオンになる。これ以上膨張半径を大きくすると、同一
でないワード同士を間違って一致させてしまう可能性が
大きくなる。
護となるように行われ、このエラーは主にデジタル化の
プロセスにおいて発生する。膨張半径を選択する際に、
単純な相関関係を求める際(膨張半径を効果的に上0と
した場合であるが)に導入されるようなエラーを抑制す
ることが望ましく、一方、膨張させすぎたイメージ(例
えば、大きな膨張半径とした場合)の比較に起因する混
乱は避ける必要がある。従って、画素1.0および1.
4個の範囲の望まし膨張半径がこの限度内で許容できる
折衷案として示されている。
ストリングに対しモデルおよび膨張されたイメージ版を
作るために繰り返される。例えば、全体の入力イメージ
10のコピーが上述したように膨張されても良く、ステ
ップ202においては、ボックスリスト内に規定された
全てのボックスに対する膨張させた境界内の画素はこの
膨張された入力イメージから複写される。これらの画素
のセットは、個々の膨張された「ワード」を表し、以下
においてイメージ1(入力イメージの膨張された部分、
156)とし、これに対し、入力イメージのオリジナル
で膨張されていないワードセグメントを以下においてモ
デル1(150)とする。ボックス2のイメージと同様
に、それぞれのイメージ内のワードを表す画素は太って
見え、対応するモデルよりさらに詰まった状態となる。
ージに対しそれらの関連モデルおよび膨張イメージが形
成されメモリーに収納されると、1対の入力(ボックス
1)および辞書(ボックス2)のイメージが対比のため
にステップ204において選択される。次に、コンパレ
ータ24は、ステップ206において、これらのボック
スが「合理的に」近い寸法か否かを決定するためにテス
トを行う。すなわち、これらのボックスがそれぞれの長
さおよび高さにおいて所定の範囲内であるか否かであ
る。図11に示すように、寸法の差ΔLは2つのイメー
ジセクションに対しΔL=|L1−L2|で定められ
る。さらに、ステップ206におけるサイズテストでは
高さの比較(図示されていない)を行うことが望まし
く、この比較は長さの比較で説明したと同じ方法で行う
ことができる。これらのボックス内において、互いに相
対的にイメージがずれていても良いようにして、この比
較における信頼性をさらに向上させるために、大きな寸
法の差を許容しても良い。寸法の差ΔLが所定の範囲に
入らないときは、ステップ208においてより多くのボ
ックス(イメージセクション)が利用できることが決定
されると、ステップ204において、異なるイメージの
ペアー(入力および辞書)が対比のために選択される。
そうでない場合は、選択された入力および辞書のイメー
ジペアーの境界を示すボックスはほぼ同じサイズである
と想定され、それぞれのワードボックスのペアーはそれ
らが一致しているか否かを見るためにさらに比較され
る。2値イメージはAというポイントの限定されたセッ
トを表してると考えられ、Aのそれぞれのポイントの座
標は2値イメージ内の「オン」状態の画素によって表さ
れる。従って、比較するポイントのセットに対する測
度、ハウスドロフ距離を2値イメージを比較するために
適用できると考えられる。特に、AおよびBの限定され
たポイントのセットが与えられるとハウスドロフ距離は
以下のように定義される。
bの間の距離である。
れのポイントをBの最も近いポイントへのAの距離をベ
ースにランク分けされ、最も大きなランク分けされたそ
れらのポイント(最も合わないポイント)で距離の値が
指定される。従って、h(A,B)<=δ(デルタ)で
あれば、AのそれぞれのポイントがBのあるポイントの
距離δ以内にあることを意味する。関数H(A,B)は
2つの非対称距離の最大値を示し、従って、H(A,
B)<=δであれば、AのそれぞれのポイントはBのあ
るポイントのδ以内にあり、その逆も成立する。このハ
ウスドルフ距離はこのように2つの2値イメージ(ある
いは限定されたポイントのセット)の類似性の指標(測
度)となり、δの値が大きいとこれらのイメージ同士間
の類似性は低いことを示す。
較する際に、δの小さな値はデジタル化の処理における
量子化ノイズ(トークンの境界においてランダムにオン
あるいはオフしている画素)を補償するので望ましい
が、これらのイメージが相対的に類似していることもあ
りうる。δの小さな値のハウスドロフ距離の計算を行う
望まし方法として、論理的なAND(論理積)を取る操
作と共に膨張技術(ディレイション)を用いている。あ
る2値イメージAをある半径δで膨張したものでは、イ
メージAのそれぞれのオンあるいは黒色の画素が半径δ
のサークルに置き変わっている。ある画素の4つの最も
近隣(水平および垂直)のものを表すためにはδ=1.
0が用いられ、一方、δ=1.4は、ある画素の8つの
最も近隣(水平、垂直および対角線)のものを表す。こ
れらは量子化ノイズを相殺するために望ましい値であ
る。
と、h(A,B)<=δが正しくA∧B’=Aであると
きなのは明らかあであり、ここで∧はAおよびB’の論
理積(AND)を表す。すなわち、Aの全ての黒点はB
のどれかの黒点の距離δ内に有るはずであり、この場合
Aの全ての黒点はB’のある黒点と一致しなければなら
ない。従って、h(A,B)<=δであるか否かを決定
でき、これと同様に、H(A,B)<=δは単にBをδ
だけ膨張させ(Aから推定して)、さらにA(Bから推
定して)との論理積を計算すれば良い。
いずれのポイントとも近くないことがあり、その逆もあ
る。従って、ハウスドロフ距離は最大値を求めるのをあ
る量(例えば、中心値あるいは他のパーセンティル)の
計算に置き換えるのが一般的である。この定義は以下で
ある。
ポイントまでの距離の最大値(最長値)の代わりにK番
目に大きな値を計算している。従って、Aのある数ある
いはある部分をこの距離の計算において無視している。
セットAの中にm個のポイントがある場合、k=mとす
るとこの定義はh(A,B)と同じである。しかし、一
般に0<=τ<=1の範囲の値を取るτのある値に対し
k=τ×mとすると、Aのポイントのm−k=(1−
τ)×mは無視される(すなわち、Bに近いポイントに
ある必要はない)。これはH(A,B)に対しても適用
できる。望ましい実施例において、τはAの4パーセン
トまでとがB’に対し一致しなくても良く(τ>=0.
96)、逆の場合も同様である。
る場合も膨張させて論理積をとればよいが、この場合
B’に重ならないAのポイントがあり得る(逆の場合も
であるが)。これらの重ならないポイントの部分は規定
したフラクション(fraction:部分)τより小さくなく
てはならない。従って、AおよびA∧B’内の黒色の画
素の数を比較してh’(A,B)を我々は計算してい
る。pをA内の黒色の画素の数とし、qをA∧B’内の
黒色の画素の数とすると、τの所与値に対して正確に
h’(A,B)<=δのときq/p>=τである。
小値(最良のアライメント)を見つけるためにAおよび
Bを互いに相対的にシフトした場合ときにハウスドルフ
距離を評価することも可能である。この技術は公知の相
関関係の操作において用いられる相対的なシフトさせた
場合と同じであるが、ただし、これは量子化ノイズを十
分に許容できるという重要な点で相関関係を求める場合
と明確に異なっている。相関関係を求める場合は、Aの
ポイントとBのポイントの間が近接していることには着
目していない(例えば、δ=0を用いるとこの制限され
たケースが相関関係に近くなる)。
一般化された手順を用いると、2つのイメージセクショ
ンを比較でき、それらが合致しているかが決定できる。
る。 2)黒いイメージ2の画素に一致する黒いモデル1の画
素の数を計数し、次に黒いモデル1の画素の全数で割る
(ステップ214) 3)一致した黒い画素のパーセンテージが所定のしきい
値のパーセンテージτ(τは0.96程度が望ましい)
より上であれば、これらのボックスは第1の検証(事
例)では合致していると決定される(ステップ216) 4)モデル2がイメージ1に重ね合わされる。 5)これら2つのイメージセクションを上記のステップ
2と同じく再び比較し、一致した黒い画素の第2のパー
センテージを決定する(ステップ220) 6)この第2のパーセンテージが所定のしきい値のパー
センテージτより上であれば、これらのボックスは第2
の検証(事例)で合致していると判断される(ステップ
222)。さらに、 7)両方の検証においてこれらのイメージセクションが
一致している場合は、これらは同じワードであると考え
られ、さらに、図2のコンパレータ24からワードが合
致した指示が出力される(ステップ224)。
較技術として利用でき、あるイメージ内のワードトーク
ンの等価なクラスを作ることができる。本発明はOCR
システムの前処理操作として用いることが可能であり、
これによって利用可能なOCRシステムのスピードと精
度を改善することができる。さらに他の案として、本発
明はワードトークンが度重なって現れていることを判断
するためにも利用でき、そのワードが続いて現れたとき
はあるアイコンに変換してサイズを減らし大きな文章を
保持するために必要なデータファイルの全体的なサイズ
を縮減することができる。
サイズを比較し、一致しているであろうボックスやイメ
ージセクションの既設のクラス(例えば、入力イメージ
および「辞書」イメージの両方の中の同じトークンであ
ると考えられる複数のボックス)毎にライブラリーを作
るプログラムが実行される。例えば、それらの長さ
(幅)からトークンイメージセクションをクラス分けす
るために適したデータ構造が形成されており、トークン
のペアの比較されるスピードを改善できる。ある入力イ
メージのある部分を既知あるいは「辞書」のトークンと
比較することに関し説明してきたが、例えば、図6のイ
メージセクション70および72において、本発明は同
一のあるいは異なるイメージ内のトークンを比較するこ
とも可能であり、本発明の操作を示す目的で記載された
例に限定して理解されるものではない。
は画素によって構成された2つのイメージセクションあ
るいはトークンを比較する方法であって、それぞれのト
ークンは1つあるいはそれ以上の連結したシンボルで表
されており、同じトークンとして識別される。本発明
は、さらに、トークンを形成するシンボルあるいはキャ
ラクターを個々に検出あるいは識別する必要なく動作す
る。この方法は、あるイメージ内の要素を検出し、ま
ず、トークンの境界を決め、次に2段階のプロセスを適
用し、その中で膨張されたイメージがトークンを表すモ
デルと比較され、それらの間の相対的な類似性が決定さ
れる。
のシンボルを備えたイメージ領域を規定する複数のトー
クンを比較する方法を提供できることは明白である。こ
の発明は好ましい実施例を参照して説明してあるよう
に、コンピュータシステムにおいて使用できるように設
計されたソフトウェア手段として説明してあり、所定の
指令を実行可能な1つあるいはそれ以上のマイクロプロ
セッサーあるいは計算能力のある処理装置を用いて、こ
れらに対しイメージデータの処理に関して上記にて説明
したような操作を行えるようにしてある。さらに、本発
明は、ここで説明した処理を行えるように設計された特
定のハードウェアを用いても実現できる。さらに、本発
明は、大きなワード認識システムの一部として説明して
ある。しかし、先に記載したように、本発明はテキスト
あるいはイメージの編集、あるいはそれに係わるシステ
ムにも用いることが可能である。実際には、トークンあ
るいはシンボルのストリングを識別し、クラス分けし、
グルーピングすることが必要ないずれのシステムにも本
発明を用いることができる。最後に、本発明はテキスト
形式のイメージを元に説明してある。しかし、テキスト
形式でないイメージを部分を含んだイメージに対しても
同様に適用することもできる。
ムの概略のシステムダイヤグラムである。
認識システムの実施例を構成するシステム要素の組み合
わせを示すブロックグラムである。
ストを抽出したイメージサンプルを示す図である。
キストをスキャンしたイメージの一部を示す図である。
キストをスキャンしたイメージの一部を示す図である。
キストをスキャンしたイメージの一部を示す図である。
プロセスを示すフローチャートである。
プロセスを示すフローチャートである。
データを示すグラフである。
ムデータを示すグラフである。
て操作される処理を示す挿絵の入ったフローチャートで
ある。
対比するためのプロセスの概略を示すフローチャートで
ある。
Claims (1)
- 【請求項1】 各イメージセクションがトクーンを表わ
し、複数のイメージシグナルを備えた少なくとも2つの
イメージセクションを比較して、類似のトークンを識別
する方法であって、 (a)第1のトークンを表すイメージシグナルを第1の
モデルメモリーに格納し、 (b)第1のイメージメモリーに前記第1のトークンを
膨張して表したものを作成し、 (c)第2のトークンを表すイメージシグナルを第2の
モデルメモリーに格納し、 (d)第2のイメージメモリーに前記第2のトークンを
膨張して表したものを作成し、 (e)前記第1のモデルメモリーに格納された前記イメ
ージシグナルを、第2のイメージメモリーに格納された
前記イメージシグナルと比較し、第1の類似の距離を決
定し、 (f)前記第2のモデルメモリーに格納された前記イメ
ージシグナルを、第1のイメージメモリーに格納された
前記イメージシグナルと比較し、第2の類似の距離を決
定し、さらに、 (g)前記第1および第2の類似の距離に対応して前記
第1のトークンと前記第2のトークンが類似か否かを判
定する、 少なくとも二つのイメージセクションの比較方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17007593A | 1993-12-17 | 1993-12-17 | |
| US170075 | 1993-12-17 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH07200745A true JPH07200745A (ja) | 1995-08-04 |
| JP3445394B2 JP3445394B2 (ja) | 2003-09-08 |
Family
ID=22618451
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP33297894A Expired - Lifetime JP3445394B2 (ja) | 1993-12-17 | 1994-12-14 | 少なくとも二つのイメージセクションの比較方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5539841A (ja) |
| JP (1) | JP3445394B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007325076A (ja) * | 2006-06-02 | 2007-12-13 | Fuji Xerox Co Ltd | パターンマッチング装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム |
| JP2011243201A (ja) * | 2010-05-13 | 2011-12-01 | King Abdulaziz City For Science & Technology (Kacst) | 光学式文字認識用に画像を前処理するための方法およびシステム |
| US8411955B2 (en) | 2007-02-21 | 2013-04-02 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method and computer-readable medium |
| JP2016119072A (ja) * | 2014-12-19 | 2016-06-30 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法 |
| CN111985491A (zh) * | 2020-09-03 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 基于深度学习的相似信息合并方法、装置、设备及介质 |
Families Citing this family (86)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6449377B1 (en) | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
| US6345104B1 (en) | 1994-03-17 | 2002-02-05 | Digimarc Corporation | Digital watermarks and methods for security documents |
| US7286684B2 (en) * | 1994-03-17 | 2007-10-23 | Digimarc Corporation | Secure document design carrying auxiliary machine readable information |
| CA2154952A1 (en) * | 1994-09-12 | 1996-03-13 | Robert M. Ayers | Method and apparatus for identifying words described in a page description language file |
| DE69525401T2 (de) * | 1994-09-12 | 2002-11-21 | Adobe Systems, Inc. | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
| US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
| US5835638A (en) * | 1996-05-30 | 1998-11-10 | Xerox Corporation | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols |
| US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
| US6094484A (en) * | 1996-10-16 | 2000-07-25 | Convey Corporation | Isomorphic pattern recognition |
| AU4915097A (en) * | 1996-10-16 | 1998-05-11 | Convey Corporation | Isomorphic pattern recoginition |
| US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
| AU9676298A (en) * | 1997-10-01 | 1999-04-23 | Island Graphics Corporation | Image comparing system |
| US6562077B2 (en) | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
| US6020972A (en) * | 1997-11-14 | 2000-02-01 | Xerox Corporation | System for performing collective symbol-based compression of a corpus of document images |
| US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
| US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
| US6529635B1 (en) | 1997-12-15 | 2003-03-04 | Intel Corporation | Shape-based image compression/decompression using pattern matching |
| US6341180B1 (en) * | 1997-12-18 | 2002-01-22 | Cellavision Ab | Image content autofocus for microscopy using a noise-insensitive focus filter |
| SE513059C2 (sv) * | 1997-12-30 | 2000-06-26 | C Technologies Ab | Sätt och anordning för matchning av bilder |
| US6748115B1 (en) * | 1998-06-19 | 2004-06-08 | Cvision Technologies Llc | Perceptually lossless image compression |
| US7197451B1 (en) * | 1998-07-02 | 2007-03-27 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
| US7152031B1 (en) * | 2000-02-25 | 2006-12-19 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
| US7016539B1 (en) | 1998-07-13 | 2006-03-21 | Cognex Corporation | Method for fast, robust, multi-dimensional pattern recognition |
| US6606411B1 (en) * | 1998-09-30 | 2003-08-12 | Eastman Kodak Company | Method for automatically classifying images into events |
| US6295371B1 (en) | 1998-10-22 | 2001-09-25 | Xerox Corporation | Method and apparatus for image processing employing image segmentation using tokenization |
| US6351556B1 (en) | 1998-11-20 | 2002-02-26 | Eastman Kodak Company | Method for automatically comparing content of images for classification into events |
| US6944318B1 (en) | 1999-01-15 | 2005-09-13 | Citicorp Development Center, Inc. | Fast matching systems and methods for personal identification |
| US6565611B1 (en) * | 1999-02-26 | 2003-05-20 | Xerox Corporation | Automatic index creation for handwritten digital ink notes |
| US6473524B1 (en) | 1999-04-14 | 2002-10-29 | Videk, Inc. | Optical object recognition method and system |
| US7389225B1 (en) | 2000-10-18 | 2008-06-17 | Novell, Inc. | Method and mechanism for superpositioning state vectors in a semantic abstract |
| US7672952B2 (en) * | 2000-07-13 | 2010-03-02 | Novell, Inc. | System and method of semantic correlation of rich content |
| US7286977B1 (en) * | 2000-09-05 | 2007-10-23 | Novell, Inc. | Intentional-stance characterization of a general content stream or repository |
| US7653530B2 (en) * | 2000-07-13 | 2010-01-26 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
| US20100122312A1 (en) * | 2008-11-07 | 2010-05-13 | Novell, Inc. | Predictive service systems |
| US7177922B1 (en) | 2000-09-05 | 2007-02-13 | Novell, Inc. | Policy enforcement using the semantic characterization of traffic |
| US20090234718A1 (en) * | 2000-09-05 | 2009-09-17 | Novell, Inc. | Predictive service systems using emotion detection |
| US6996782B2 (en) * | 2001-05-23 | 2006-02-07 | Eastman Kodak Company | Using digital objects organized according to a histogram timeline |
| US8028249B2 (en) * | 2001-05-23 | 2011-09-27 | Eastman Kodak Company | Method and system for browsing large digital multimedia object collections |
| JP2004038321A (ja) * | 2002-06-28 | 2004-02-05 | Fujitsu Ltd | 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法 |
| US20040005080A1 (en) * | 2002-07-08 | 2004-01-08 | Hayduchok George L. | Method and apparatus for processing outgoing bulk mail |
| US7106905B2 (en) * | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
| CA2505782C (en) * | 2002-11-18 | 2011-01-04 | International Remote Imaging Systems, Inc. | Particle extraction for automatic flow microscope |
| US7149361B2 (en) * | 2002-11-26 | 2006-12-12 | Lockheed Martin Corporation | Method and apparatus for image processing to detect changes in a scene |
| US6865297B2 (en) * | 2003-04-15 | 2005-03-08 | Eastman Kodak Company | Method for automatically classifying images into events in a multimedia authoring application |
| US7298895B2 (en) * | 2003-04-15 | 2007-11-20 | Eastman Kodak Company | Method for automatically classifying images into events |
| US7190834B2 (en) | 2003-07-22 | 2007-03-13 | Cognex Technology And Investment Corporation | Methods for finding and characterizing a deformed pattern in an image |
| US8081820B2 (en) | 2003-07-22 | 2011-12-20 | Cognex Technology And Investment Corporation | Method for partitioning a pattern into optimized sub-patterns |
| US7236174B2 (en) * | 2004-01-26 | 2007-06-26 | Microsoft Corporation | Adaptively filtering outlines of typographic characters to simplify representative control data |
| US7136067B2 (en) * | 2004-01-26 | 2006-11-14 | Microsoft Corporation | Using externally parameterizeable constraints in a font-hinting language to synthesize font variants |
| US7292247B2 (en) * | 2004-01-26 | 2007-11-06 | Microsoft Corporation | Dynamically determining directions of freedom for control points used to represent graphical objects |
| US7187382B2 (en) | 2004-01-26 | 2007-03-06 | Microsoft Corporation | Iteratively solving constraints in a font-hinting language |
| US7292710B2 (en) * | 2004-02-26 | 2007-11-06 | Xerox Corporation | System for recording image data from a set of sheets having similar graphic elements |
| JP2005301664A (ja) * | 2004-04-12 | 2005-10-27 | Fuji Xerox Co Ltd | 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム |
| US8437502B1 (en) | 2004-09-25 | 2013-05-07 | Cognex Technology And Investment Corporation | General pose refinement and tracking tool |
| US7397584B2 (en) * | 2004-09-28 | 2008-07-08 | Xerox Corporation | Encoding invisible electronic information in a printed document |
| US7657521B2 (en) * | 2005-04-15 | 2010-02-02 | General Electric Company | System and method for parsing medical data |
| NO20052656D0 (no) * | 2005-06-02 | 2005-06-02 | Lumex As | Geometrisk bildetransformasjon basert pa tekstlinjesoking |
| US8849031B2 (en) * | 2005-10-20 | 2014-09-30 | Xerox Corporation | Document analysis systems and methods |
| US8078618B2 (en) | 2006-01-30 | 2011-12-13 | Eastman Kodak Company | Automatic multimode system for organizing and retrieving content data files |
| US7602976B2 (en) * | 2006-02-17 | 2009-10-13 | Sony Corporation | Compressible earth mover's distance |
| US7577684B2 (en) * | 2006-04-04 | 2009-08-18 | Sony Corporation | Fast generalized 2-Dimensional heap for Hausdorff and earth mover's distance |
| US8228522B2 (en) * | 2007-01-29 | 2012-07-24 | Kabushiki Kaisha Toshiba | Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data |
| US7823795B2 (en) * | 2007-04-02 | 2010-11-02 | International Business Machines Corporation | Pattern based elaboration of hierarchical L3GO designs |
| JP4193073B2 (ja) * | 2007-04-05 | 2008-12-10 | セイコーエプソン株式会社 | 画像生成システム、プロジェクタ、プログラム、情報記憶媒体および画像生成方法 |
| US8068684B2 (en) * | 2007-05-04 | 2011-11-29 | I.R.I.S. | Compression of digital images of scanned documents |
| US7711192B1 (en) * | 2007-08-23 | 2010-05-04 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in images using grey-scale transformation |
| US7706613B2 (en) * | 2007-08-23 | 2010-04-27 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in rasterized images |
| US8103085B1 (en) | 2007-09-25 | 2012-01-24 | Cognex Corporation | System and method for detecting flaws in objects using machine vision |
| US8520941B2 (en) * | 2008-12-09 | 2013-08-27 | Xerox Corporation | Method and system for document image classification |
| US8301622B2 (en) * | 2008-12-30 | 2012-10-30 | Novell, Inc. | Identity analysis and correlation |
| US8296297B2 (en) * | 2008-12-30 | 2012-10-23 | Novell, Inc. | Content analysis and correlation |
| US8386475B2 (en) * | 2008-12-30 | 2013-02-26 | Novell, Inc. | Attribution analysis and correlation |
| TWI417850B (zh) * | 2009-03-12 | 2013-12-01 | Chunghwa Picture Tubes Ltd | 主動陣列式顯示器之顯示方法 |
| US20100250479A1 (en) * | 2009-03-31 | 2010-09-30 | Novell, Inc. | Intellectual property discovery and mapping systems and methods |
| US9003531B2 (en) * | 2009-10-01 | 2015-04-07 | Kaspersky Lab Zao | Comprehensive password management arrangment facilitating security |
| US8463041B2 (en) * | 2010-01-26 | 2013-06-11 | Hewlett-Packard Development Company, L.P. | Word-based document image compression |
| US8208726B2 (en) | 2010-07-22 | 2012-06-26 | Hewlett-Packard Development Company, L.P. | Method and system for optical character recognition using image clustering |
| US9679224B2 (en) | 2013-06-28 | 2017-06-13 | Cognex Corporation | Semi-supervised method for training multiple pattern recognition and registration tool models |
| JP2015035150A (ja) * | 2013-08-09 | 2015-02-19 | 株式会社東芝 | 手書き文書処理装置、手書き文書処理方法及び手書き文書処理プログラム |
| WO2015052094A1 (en) * | 2013-10-07 | 2015-04-16 | Agfa Graphics Nv | A raster image processing method |
| US9245205B1 (en) | 2013-10-16 | 2016-01-26 | Xerox Corporation | Supervised mid-level features for word image representation |
| RU2673015C1 (ru) * | 2017-12-22 | 2018-11-21 | Общество с ограниченной ответственностью "Аби Продакшн" | Способы и системы оптического распознавания символов серии изображений |
| JP7224856B2 (ja) * | 2018-11-02 | 2023-02-20 | キヤノン株式会社 | 画像生成装置、画像生成方法、及びプログラム |
| US12175337B2 (en) * | 2020-08-04 | 2024-12-24 | Bentley Systems, Incorporated | Techniques for extracting machine-readable information from P and IDs |
| US12406519B1 (en) | 2022-07-29 | 2025-09-02 | Bentley Systems, Incorporated | Techniques for extracting links and connectivity from schematic diagrams |
| US12288411B2 (en) | 2022-10-06 | 2025-04-29 | Bentley Systems, Incorporated | Techniques for extracting associations between text labels and symbols and links in schematic diagrams |
Family Cites Families (35)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US2905927A (en) * | 1956-11-14 | 1959-09-22 | Stanley F Reed | Method and apparatus for recognizing words |
| US3133266A (en) * | 1960-06-14 | 1964-05-12 | Bell Telephone Labor Inc | Automatic recognition of handwriting |
| US3295105A (en) * | 1964-08-27 | 1966-12-27 | Sylvania Electric Prod | Scan control and normalization for a character recognition system |
| JPS5729745B2 (ja) * | 1974-09-25 | 1982-06-24 | ||
| US4155072A (en) * | 1976-12-17 | 1979-05-15 | Ricoh Company, Ltd. | Character recognition apparatus |
| US4326190A (en) * | 1978-08-30 | 1982-04-20 | Borland David L | Boundary trace slope feature detection system |
| DE3070721D1 (en) * | 1980-12-18 | 1985-07-04 | Ibm | Process for inspecting and automatically classifying objects presenting configurations with dimensional tolerances and variable rejecting criteria depending on placement, apparatus and circuits therefor |
| DE3070433D1 (en) * | 1980-12-18 | 1985-05-09 | Ibm | Method for the inspection and automatic sorting of objects with configurations of fixed dimensional tolerances, and device for carrying out the method |
| US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
| US4495644A (en) * | 1981-04-27 | 1985-01-22 | Quest Automation Public Limited Company | Apparatus for signature verification |
| EP0124789B1 (en) * | 1983-04-11 | 1990-01-24 | Kabushiki Kaisha Komatsu Seisakusho | Method of identifying objects |
| US4558461A (en) * | 1983-06-17 | 1985-12-10 | Litton Systems, Inc. | Text line bounding system |
| US4864628A (en) * | 1983-08-26 | 1989-09-05 | Texas Instruments Incorporated | Method of optical character recognition |
| US4701960A (en) * | 1983-10-28 | 1987-10-20 | Texas Instruments Incorporated | Signature verification |
| US4731857A (en) * | 1984-06-29 | 1988-03-15 | International Business Machines Corporation | Recognition system for run-on handwritten characters |
| US4644585A (en) * | 1985-02-11 | 1987-02-17 | Environmental Research Institute Of Michigan | Method and apparatus for automatic shape recognition |
| US4764972A (en) * | 1985-05-23 | 1988-08-16 | Nec Corporation | Continuous characters recognition system |
| US4918740A (en) * | 1985-10-01 | 1990-04-17 | Palantir Corporation | Processing means for use in an optical character recognition system |
| US4821333A (en) * | 1986-08-22 | 1989-04-11 | Environmental Research Inst. Of Michigan | Machine learning procedures for generating image domain feature detector structuring elements |
| JP3014097B2 (ja) * | 1987-02-20 | 2000-02-28 | 株式会社日立製作所 | 輪郭追跡方法及びシステム |
| JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
| US4949281A (en) * | 1987-04-23 | 1990-08-14 | H. Berthold Ag | Method and apparatus for generating and producing two-dimensional graphic object by polynominal parametric curves |
| US4809344A (en) * | 1987-05-11 | 1989-02-28 | Nippon Sheet Glass Co., Ltd. | Apparatus for preprocessing of character recognition |
| JP2619429B2 (ja) * | 1987-11-05 | 1997-06-11 | グローリー工業株式会社 | 接触文字の分離方法 |
| JPH01183793A (ja) * | 1988-01-18 | 1989-07-21 | Toshiba Corp | 文字認識装置 |
| US4949392A (en) * | 1988-05-20 | 1990-08-14 | Eastman Kodak Company | Document recognition and automatic indexing for optical character recognition |
| US5214719A (en) * | 1989-02-28 | 1993-05-25 | Phoenix Imaging | Computer-based system and method for character recognition |
| US5272764A (en) * | 1989-12-08 | 1993-12-21 | Xerox Corporation | Detection of highlighted regions |
| US5216725A (en) * | 1990-10-31 | 1993-06-01 | Environmental Research Institute Of Michigan | Apparatus and method for separating handwritten characters by line and word |
| US5142589A (en) * | 1990-12-21 | 1992-08-25 | Environmental Research Institute Of Michigan | Method for repairing images for optical character recognition performing different repair operations based on measured image characteristics |
| US5179596A (en) * | 1991-07-05 | 1993-01-12 | Booz, Allen & Hamilton, Inc. | Analog pattern categorization system having dual weighted connectivity between nodes |
| US5291560A (en) * | 1991-07-15 | 1994-03-01 | Iri Scan Incorporated | Biometric personal identification system based on iris analysis |
| US5305389A (en) * | 1991-08-30 | 1994-04-19 | Digital Equipment Corporation | Predictive cache system |
| US5179419A (en) * | 1991-11-22 | 1993-01-12 | At&T Bell Laboratories | Methods of detecting, classifying and quantifying defects in optical fiber end faces |
| US5303313A (en) * | 1991-12-16 | 1994-04-12 | Cartesian Products, Inc. | Method and apparatus for compression of images |
-
1994
- 1994-12-14 JP JP33297894A patent/JP3445394B2/ja not_active Expired - Lifetime
-
1995
- 1995-04-27 US US08/430,106 patent/US5539841A/en not_active Expired - Lifetime
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007325076A (ja) * | 2006-06-02 | 2007-12-13 | Fuji Xerox Co Ltd | パターンマッチング装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム |
| US7831099B2 (en) | 2006-06-02 | 2010-11-09 | Fuji Xerox Co., Ltd. | Pattern matching device, image encoder, image decoder, image processing system, computer readable media storing programs, and computer data signal |
| US8411955B2 (en) | 2007-02-21 | 2013-04-02 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method and computer-readable medium |
| JP2011243201A (ja) * | 2010-05-13 | 2011-12-01 | King Abdulaziz City For Science & Technology (Kacst) | 光学式文字認識用に画像を前処理するための方法およびシステム |
| JP2016119072A (ja) * | 2014-12-19 | 2016-06-30 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法 |
| CN111985491A (zh) * | 2020-09-03 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 基于深度学习的相似信息合并方法、装置、设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3445394B2 (ja) | 2003-09-08 |
| US5539841A (en) | 1996-07-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH07200745A (ja) | 少なくとも二つのイメージセクションの比較方法 | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| EP0544431B1 (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
| US5491760A (en) | Method and apparatus for summarizing a document without document image decoding | |
| JP3343864B2 (ja) | 語体の分離方法 | |
| JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
| US4611346A (en) | Method and apparatus for character recognition accommodating diacritical marks | |
| US6574375B1 (en) | Method for detecting inverted text images on a digital scanning device | |
| US5384863A (en) | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding | |
| JP3576570B2 (ja) | 比較方法 | |
| JP3278471B2 (ja) | 領域分割方法 | |
| JP3259993B2 (ja) | 語形測定方法及び画像信号処理方法 | |
| JP3345224B2 (ja) | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 | |
| JP3452774B2 (ja) | 文字認識方法 | |
| US5850476A (en) | Automatic method of identifying drop words in a document image without performing character recognition | |
| Ma et al. | Adaptive Hindi OCR using generalized Hausdorff image comparison | |
| JPH01253077A (ja) | 文字列検出方法 | |
| JPH0430070B2 (ja) | ||
| JP4221960B2 (ja) | 帳票識別装置及びその識別方法 | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| JP3384634B2 (ja) | 文字種識別方法 | |
| JP3151866B2 (ja) | 英文字認識方法 | |
| JP2963474B2 (ja) | 類似文字識別方法 | |
| JP3138665B2 (ja) | 手書き文字認識方式および記録媒体 | |
| JPH04372089A (ja) | 文字認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030520 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080627 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090627 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100627 Year of fee payment: 7 |