JPH07200745A - 少なくとも二つのイメージセクションの比較方法 - Google Patents

少なくとも二つのイメージセクションの比較方法

Info

Publication number
JPH07200745A
JPH07200745A JP6332978A JP33297894A JPH07200745A JP H07200745 A JPH07200745 A JP H07200745A JP 6332978 A JP6332978 A JP 6332978A JP 33297894 A JP33297894 A JP 33297894A JP H07200745 A JPH07200745 A JP H07200745A
Authority
JP
Japan
Prior art keywords
image
token
word
tokens
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6332978A
Other languages
English (en)
Other versions
JP3445394B2 (ja
Inventor
Daniel P Huttenlocher
ピー.ハッテンロハー ダニエル
Eric W Jaquith
ダブリュ.ジャキス エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07200745A publication Critical patent/JPH07200745A/ja
Application granted granted Critical
Publication of JP3445394B2 publication Critical patent/JP3445394B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V30/1902Shifting or otherwise transforming the patterns to accommodate for positional errors
    • G06V30/19067Matching configurations of points or features, e.g. constellation matching
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 あるイメージデータの配列内のワードなどを
形成するイメージトークンを比較する方法であって、そ
のためにキャラクター、シンボル、グリフ、要素列、あ
るいはトークンを形成する要素を個々に識別、あるいは
特定しなくても良い方法を提供する。 【構成】 あるイメージ内の要素を検出し、まず、トー
クンの境界を決め、次に2段階のプロセスを適用し、そ
の中で膨張されたイメージがトークンを表すモデルと比
較され、それらの間の相対的な類似性が決定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、あるイメージデータの
配列内に表わされ、ワード(単語)、複数の連結した構
成要素、あるいは意味が解釈可能な同様の複数のユニッ
トを形成するイメージトークンを形状により比較する方
法であって、そのためにキャラクター(文字)、シンボ
ル(記号)、グリフ(絵文字など)、あるいはトークン
を形成する要素を個々に検出、あるいは識別しなくても
良い方法に関するものである。
【0002】
【従来の技術】電子的にエンコードされた文書(電子文
書)内のテキストは、2つの互いに異なったフォーマッ
トのいずれかであることが多い。第1のフォーマットで
は、テキストがビットマップになっており、この場合、
テキストはイメージデータあるいは画素の配列としての
み定義された同様の表現の隣接したイメージと基本的に
区別できない。このフォーマットでは、テキストは文章
の内容だけをベースとするコンピュータの処理対象には
殆どならず、処理するためにはイメージユニットに分割
しなければならない。第2のフォーマットは、以下にお
いてキャラクターコードフォーマットと呼ぶが、このテ
キストはキャラクターコード(例えばアスキーコード)
のストリング(列)として表現される。このキャラクタ
ーコードフォーマットにおいては、テキストのイメージ
あるいはビットマップは不要である。
【0003】光学式文字認識プロセス(OCR)による
ビットマップからキャラクターコードへの変換は、時間
と処理に係る手間を考えると非常に高価である。個々の
キャラクターのビットマップを、それに隣接するものか
ら区別し、その外観を解析し、さらに、意思決定プロセ
スによって予めセットされたキャラクター群の中のある
キャラクターとして識別しなければならない。ミヤタケ
らに付与された米国特許第4,956,869号にはコ
ンタワーライン(濃度の等しい線、輪郭線)をトレース
するさらに効率的な方法が示唆されている。
【0004】しかしながら、あるオリジナル(原稿)を
スキャンして電子文書を抽出するときに、その複製物の
イメージ品質やノイズによって、ビットマップの実際の
外観が不確定なものになる。ビットマップの外観が劣化
するのは、品質の悪いオリジナル文章、スキャニングの
エラー、あるいはイメージのデジタル再生に影響を与え
る同種のファクターが原因である。従って、キャラクタ
ーを識別するための決定プロセスには、それに関する固
有の不確実さが存在する。これに関し特に問題となるこ
とは、テキスト内のキャラクターが不鮮明となったり、
あるいは結合し易いことである。大抵のキャラクター識
別プロセスは、あるキャラクターが連結した画素が1つ
の独立したセットであることを仮定することから始ま
る。入力されたイメージの品質が原因でこの仮定が成り
立たないと、キャラクターの識別も失敗することにな
る。
【0005】以下の特許はキャラクターの判別を改善す
るアプローチに関する技術を特に示している。マノンに
付与された米国特許第4,926,490、シェランジ
に付与された米国特許第4,558,461、グレイ等
に付与された米国特許第3,295,105、バースキ
ーらに付与された米国特許4,949,392、ロング
フードらに付与された米国特許第5,142,589。
【0006】OCR法は様々なやり方でイメージを分割
するようにしている。例えば、シェランジに付与された
米国特許第4,558,461およびペッパーズらに付
与された米国特許第4,809,344がある。
【0007】OCR法では辞書の単語と照合することに
よって信頼性を向上している。例えば、ヒシノに付与さ
れた米国特許第4,010,445に開示されている。
富士通科学技術ジャーナル26,3、ページ224〜2
33(1990年10月)の「F6365日本語文書リ
ーダー」は、ブロック抽出、スキュー調整、ブロック分
割、隣接するキャラクターの区分、ライン抽出、および
辞書によるチェックおよび比較を行いパターンマッチン
グによってキャラクター認識をする各ステップを示して
いる。
【0008】単語やキャラクターのストリングを形成す
る複数のキャラクターのセットを識別するには、例えば
米国特許第2,905,927にあるような読みかたを
することが望ましいであろう。
【0009】認識するための基本的なユニットとしてワ
ード全体を用いることは、サインを認識する際に考えら
れており、フリシュコプに付与された米国特許第3,1
33,266に示唆されている。しかし、分割されたキ
ャラクターを保持するという考えはない。
【0010】
【発明が解決しようとする課題】本発明はOCR技術固
有の問題を防止することであり、そのためにワード(単
語)およびテキストストリングの基本的な特性を潜在的
に活用している。単語と単語の間のスペースは、文字と
文字との間のスペースより大きい傾向があり、従って、
キャラクターストリングを構成するトークンの分離およ
び識別を、そのトークン内の個々のキャラクターを識別
するのと比較できるほど改善できる。OCR法は、しか
しながら、正しく識別を行う前段階としてキャラクター
の形態について幾つかの正しい判断が要求され、その中
には、アセンダー、デセンダー、カーブなどといったキ
ャラクター(文字)の部分の識別も含みまれ、これらは
間違い易いものである。本発明は、一方において、単語
やシンボルあるいはキャラクターのストリングといった
連結した構成要素(以下においてトークンという)のセ
ットを、さらに確実に認識し識別可能とすることであ
る。1つの実施例において、本発明はイメージ内のテキ
ストやシンボルの特性を最初に決めるためにワードの境
界を利用している。続いて、その境界内で分離されたト
ークンの相互の、あるいはトークンイメージの辞書内の
既知のトークンとの比較が行われる。従って、比較する
段階までトークンのクラス分けは行われず、これによっ
て後続の処理における比較の間違いや、間違った決定の
原因となる無効な部分的にクラス分けを行うことの影響
を除くことができる。
【0011】コンピュータ処理されたテキストの潜在的
な用法を思案すると、少なくともあるケースにおいて
は、ワードのそれぞれの文字を導くことが処理上の要求
として課せられないことが決定された。従って、例え
ば、あるテキストイメージのキーワードサーチを行う
際、OCR技術を介しておれぞれのワードのそれぞれの
文字をコンバートするのではなく、1つあるいはそれ以
上のキーワードがあるか否かを、欠陥があるかもしれな
いキャラクターコードから連続して決定する際に、コン
ピューターは、何かを生成するのではなく、テキストイ
メージ内の複数のトークンの形状とそのキーワードを表
すトークンの形状とを比較し、そのトークンの形状の対
比からキーワードが存在するか否かを評価する。このよ
うなシステムで出力すると、ユーザーが容認できる程度
の精度でキーワードの存在を示す何らかの表示を表せる
ものである。さらに、ここで説明する新規の方法はキャ
ラクターを認識するために設計された幾つかの方法より
処理スピードが早いと考えられる。またさらに、本発明
はイメージ編集システムにも適用でき、従って、本発明
は説明している実施例に限定されるものではない。
【0012】OCR法によって文字が正しく決定できな
い確率は比較的に低いと思われるが、プロダクト(積)
ルールを適用するとその確率はワード全てに対し倍加し
て蓄積される。従って、OCRを用いて複数のワードを
キャラクターコードのストリングに変換すると、これら
のワードをサーチし、あるいは認識する以前にかなりの
エラーが発生するであろう。本発明はトークンのレベ
ル、あるいはテキストを認識する実施例ではワードレベ
ル、イメージデータを分割したものを用いて、通過する
テキストを読み抽出する際に人間が用いているのと同様
の方法で連続した認識を可能としている。さらに、説明
しているトークンの形状を認識するプロセスは幾つかの
効果を備えている。第1に、ビットマップイメージデー
タは回復できないような状態で失われることはなく、ま
た、そのビットマップの合理的表示は残るので、ユーザ
ーは必要であればキャラクター、シンボル、グリフ、あ
るいはワードを決定するために再生されたビットマップ
で確認できる。第2に、連結した要素(トークン)を用
いることによって、それぞれのシンボリックなエレメン
ト(すなわちキャラクター(文字))はトークン(すな
わちワード)全体の文脈を持って、そのトークンを他の
トークンの形状と比較する際の助けとなる。例えば、あ
るワードトークン内に形の崩れた文字があっても、これ
はワードの形状の全体を識別するのには殆ど影響を与え
ず、それらの単語を表す2つの比較されたトークンの間
が一致する確率を若干減らすだけである。さらに、OC
R法の能力と比較すると、OCR法はキャラクターを多
く持っているワードに対し間違った結果となり易いのに
対し、本発明は一般にもっと骨の折れるワードを識別す
る能力がある。
【0013】OCR法は、ビットマップから代表するキ
ャラクターコードに変換し、これによってビットマップ
の情報を含んだ内容を失うことがある。概ね、このプロ
セスは、キャラクターコードからオリジナルのビットマ
ップを得るような可逆的なものではない。しかしなが
ら、形状を基にしてワードトークンを識別すると、本発
明の1つに従って説明してあるように、認識するプロセ
スまでビットマップの情報を持っていることができ、こ
れによってビットマップを再構築することができる。
【0014】
【課題を解決するための手段】本発明によると、各々が
トクーンを表わすと共に複数のイメージシグナルを備え
た少なくとも2つのイメージセクションを比較して、類
似のトークンを判別する、以下のステップを有する方法
を提供できる。(a)第1のトークンを表すイメージシ
グナルを第1のモデルメモリーに格納し、(b)第1の
イメージメモリーに第1のトークンを膨張して表したも
のを作成し、(c)第2のトークンを表すイメージシグ
ナルを第2のモデルメモリーに格納し、(d)第2のイ
メージメモリーに第2のトークンを膨張して表したもの
を作成し、(e)第1のモデルメモリーに格納されたイ
メージシグナルを、第2のイメージメモリーに格納され
たイメージシグナルを比較し、第1の類似性の距離を決
定し、(f)第2のモデルメモリーに格納されたイメー
ジシグナルを、第1のイメージメモリーに格納されたイ
メージシグナルを比較し、第2の類似性の距離を決定
し、さらに、(g)第1および第2の類似性の距離に対
応して第1のトークンと第2のトークンが類似か否かを
判定する。本発明の一態様は各イメージセクションがト
クーンを表わし、複数のイメージシグナルを備えた少な
くとも2つのイメージセクションを比較して、類似のト
ークンを識別する方法であって、(a)第1のトークン
を表すイメージシグナルを第1のモデルメモリーに格納
し、(b)第1のイメージメモリーに前記第1のトーク
ンを膨張して表したものを作成し、(c)第2のトーク
ンを表すイメージシグナルを第2のモデルメモリーに格
納し、(d)第2のイメージメモリーに前記第2のトー
クンを膨張して表したものを作成し、(e)前記第1の
モデルメモリーに格納された前記イメージシグナルを、
第2のイメージメモリーに格納された前記イメージシグ
ナルと比較し、第1の類似の距離を決定し、(f)前記
第2のモデルメモリーに格納された前記イメージシグナ
ルを、第1のイメージメモリーに格納された前記イメー
ジシグナルと比較し、第2の類似の距離を決定し、さら
に、(g)前記第1および第2の類似の距離に対応して
前記第1のトークンと前記第2のトークンが類似か否か
を判定する、少なくとも二つのイメージセクションの比
較方法である。
【0015】
【実施例】以下において、図面を参照するが、図面に示
されているものは本発明の望ましい実施例を示すための
ものであり、同等のものに限定するためではない。図1
は、一般化された画像処理システムの概要を示してあ
り、本発明を有効に活用できる多くの状況をこれでカバ
ーできる。一般に、ソースイメージは、スキャナー、フ
ァクシミリ装置、あるいは記録システムなどのソースイ
メージ抽出システム2から抽出される。このソースイメ
ージはコンピュータ処理装置4に送られるが、処理装置
4は幾つかの公知の装置のいずれでも良く、ここで述べ
るような発明に係る装置でも良い。ユーザーインタフェ
ース6に入力されたコマンドに応答して、処理装置4は
出力装置8に出力を行い、この出力装置もプリンター、
ディスプレイ、ファクシミリ装置あるいは他の記録装置
であっても良い。基本的には、図1の上部に示したよう
に、入力文書がシステムに入れられ、そこから出力文書
が回収される。
【0016】以下において、イメージとはイメージビッ
トマップとして記述されたものを言い、ここではイメー
ジとは複数のラスタライズ(ラスタ化)された(走査線
に分解された)イメージシグナルによって表される。こ
れらの信号は画素と通常呼ばれており、文章上で対応し
たマークやアクティブなポジションを表現するときは一
般に黒色で現され、これらによって文書やマークが作成
される。これらの構成は、本発明を記述するために用い
られているが、白黒や2値のイメージなどに範囲が限定
されるものではない。むしろ、本発明はイメージを表す
技術の広い範囲にわたって概ね適用できるものである。
さらに、本発明は、イメージ内、あるいはイメージ間の
複数のトークンの類似性を判定することも目指してい
る。1つの実施例において、本発明はワード境界内の単
語の対象(ワードオブジェクト)の類似性を決定するた
めに好適であるが、これはイメージを編集し圧縮するた
めにも用いることができ、このように、以下に述べる実
施例に完全に限定されるものではない。
【0017】図2に、本発明の実施例である単語をその
形状から決定、分割および比較するシステムを示してあ
る。本システムのそれぞれの要素は多くの装置であって
も良く、あるいは、単に1つの装置内において1つのプ
ログラムであっても良い。同様に、以下においてワード
オブジェクトを認識するための望ましい実施例を説明し
てあるが、本発明の基幹をなす比較技術は、この特定の
実施例に関わり説明してある厳格な前処理操作を必要と
するものではない。
【0018】入力ビットマップ10によって開始される
が、このソースは決定的なもの、あるいは本発明の一部
をなすものでもない。ビットマップは最初に分割システ
ム(セグメンテイションシステム)12に送られ、そこ
で複数のトークン(ワード、キャラクターストリング、
あるいは意味の解釈できる他のユニット)の境界が決定
される。最初に、イメージビットマップはデスキューワ
ー(スキュー戻し器)14を通り、このデスキューワー
はイメージ内に配向されたテキストの角度を決定し、そ
の配向を修正する。このデスキュー操作によって作られ
たデスキューされたイメージを用い、ワードボクサー
(ワード囲い器)16において複数のワードトークンの
境界が決定され、このトークンの境界と共に、イメージ
内のテキストラインの境界も識別される。単語分離器
(ワードセグメンター)18において、イメージビット
マップに対してワードトークンの境界が適用され、その
イメージ内のそれぞれのワードグループが読み出される
順番に分離され、これらが1つのユニットとしてその後
取り扱われる。ここで「ワード(単語)」、「シンボル
ストリング」あるいは「キャラクターストリング(文字
列)」とは連結したアルファベットあるいは句読点など
の要素、あるいはさらに広範囲なトークンの集合を意味
し、意味を解釈可能なユニットの全てあるいは一部を形
成するものである。このような解釈可能なユニットは、
イメージの中で特徴付けられており、そのユニット自体
を構成する隣接する要素、サインあるいはシンボルを分
離する隙間(スペーシング)より大きな隙間によって区
別されている。この点で本発明は異なった適用が可能で
あり、例えば、文章や単語の編集システムにおいて、イ
メージを連続して処理(操作)するために独立した単語
の形状を使用できる。従って、本発明は単語認識関係だ
けに限定されるものではない。
【0019】次に、形状比較器24がそのイメージ内の
個々のワードを現すワードトークンの形状を、辞書26
からの既知あるいは既に識別されたワードトークンの形
状と比較する。他の例として、形状比較器24をイメー
ジ10から決定された2つあるいはそれ以上のワードト
ークンの形状を比較するために用いても良い。望ましい
実施例において、コンパレーター24は比較されるワー
ドトークン形状同士の間の類似度を特徴付けるためにハ
ウスドロフ(Hausdorff )距離を変数として用いてい
る。さらに重要なことは、形状比較器24は、識別され
ていないキャラクターのストリングからのワードトーク
ン形状を既知のワードトークン形状と比較するだけに止
まらないことである。単純な文脈においては、コンパレ
ーター24は、1つのトークンの形状を他のトークンの
形状と比較する単なる装置であり、本発明の実施例にお
いては、突き合わせ指示出力によって表される。2つの
トークン形状の間の類似度を相対的に示す。
【0020】ワードイメージの文脈内のトークン形状を
決定し、比較する方法あるいは装置の概略を示すため
に、形状を比較する実施例の各々の工程を以下でさらに
詳しく説明する。本発明の処理をさらに説明するため
に、図3にサンプルイメージを示してあり、これは公衆
の資産となったものから取ってあり、その中には文章が
何行か含まれている。図3は、テキスト(文章)のペー
ジ上にイメージが現れる様子の概略を示し、図4、5お
よび6は、そのページのスキャンされたイメージの一部
を示してあり、そこにはビットマップのイメージが拡大
して示され公知のOCR技術における問題を示してあ
る。図3を見ると、例えば、このテキストイメージの2
行目のワードイメージ50は「formation 」であり、4
行目のワードイメージ54は「automobile」であり、幾
つかの文字が繋がって見える。
【0021】さらに、数多くの公知の微小角度のイメー
ジの回転する方法、あるいはスキューの修正方法を、こ
のイメージのデスキューされた表示を得るために用いる
ことができる。
【0022】イメージがデスキューされると、トークン
が多くの方法によって抽出でき、その方法の選択はトー
クン比較の第一のアプリケーション(適用)に依存す
る。本発明において例示されている比較技術は、複数の
境界58内に表された複数の構成要素トークンに用いて
それらが互いが一致すること、あるいはキーとなるトー
クンと一致ことを識別する。識別されると、より大きな
文章イメージ内の一致した、あるいは既知のトークンは
ラベルが付けられ、あるいは後続の処理のために同様に
識別される。例えば、後続の処理には、電子的に表現さ
れたドキュメント内の情報を識別し、アクセスし、抽出
することが含まれ、さらに、1993年6月24日に公
開されたピーターB.マークらの公開公報(W0−93
/12610)「イメージを圧縮するための方法および
装置」に開示されている圧縮技術も含まれる。ドキュメ
ントイメージの部分を表す複数のトークンは直ぐには活
用できるが、イメージ処理を進め、ワードベースのトー
クンを生成することがワードを識別する上で望ましい。
ワードや関連するキャラクターのストリングによって構
成された複数のトークンを比較し認識する実施例を以下
で説明する。
【0023】図2に示したように、ワードボクサー16
は、デスキューされたイメージに対し図7および図8に
示すフローチャートに従った操作をする。ワードボクサ
ーで実施される処理工程の以下の説明は、プログラム可
能なコンピューターにおいて実行される操作を用いて説
明してあるが、本発明をこの実施例に限定しているので
はない。ステップ80が開始すると、ワードボクサーは
先ず図3の入力イメージを読み、このイメージは必要で
あればデスキューワー14でデスキューされている。こ
の機能は、例えば、ハードディスクあるいは同様のスト
レージ(記憶)装置といったメモリーに収納されたイメ
ージに単にアクセスするものであり、さらに、そのイメ
ージをそのイメージのために割り当てられたメモリーの
場所にコピーし、さらに、必要であれば、そのイメージ
にポインターを割り当てる。
【0024】イメージが抽出(検索)されると、ステッ
プ82はそのイメージの中の連結した要素にを見つけ
る。このプロセスはストアーされた2値イメージの中か
ら黒色の画素を見つけるだけである。黒色の画素が見つ
かると、対話形(相互作用)プロセスが継続して隣接す
る黒色の画素、さらにそれらに隣接する黒色の画素を次
々と見つけ、連結した画素の範囲が決まるまで、継続し
て行う。さらに詳しく説明すると、8隣接定義(eight-n
eighbor connection definition)が用いられる。すなわ
ち、1つの画素が他の画素に対し8つのコンパス(範
囲)方向の一つに隣接すれば、、それらは隣接している
と考えられ同じ連結要素となる。さらに、そのイメージ
内の全ての黒色の画素が他の黒色の画素と適切に関連付
けられ、連結した要素が形成されるまでこのプロセスは
繰り返される。図4に示すように、連結した画素が関係
付けられると、角形のボックスあるいは境界58が識別
され、これは連結した画素の最大の範囲を反映したもの
となり、角形のボックスはそのイメージのx−y座標に
沿って配向される。
【0025】イメージ内の全ての連結した要素のグルー
プの周りに領域を示すボックス(バウンディングボック
ス)が規定されると、図4にイメージの一部を用いて示
してあるように、連結した要素のボックスあるいは境界
が識別されたセットの中から、ワードボクサーはバッド
(良くない)ボックス(図示されていないが)を見つけ
出す。バッドボックスは、以下のように特徴付けられ
る。(a)背の高いボックスであって、その高さが全イ
メージの高さより約20パーセントより高く、そのイメ
ージ内のほぼ90パーセンチル(百分位数)の高さより
大きなボックス、あるいは(b)短いボックスであっ
て、90パーセンチルの高さのほぼ1/3より下の高さ
のボックス。分析が終わると、残ったボックスは次に、
ドキュメントの垂直あるいはy軸(y軸はデスキューさ
れたテキスト行の方向に対し垂直な軸と考えられる)に
投影されヒストグラムを形成し、これによってボックス
の境界の数がy軸に沿ったポジションの関数として反映
され、図3のイメージ全てに対し図9に示したようにな
る。望ましい実施例においては、y軸に投影されたヒス
トグラムデータに対し、テキストラインの位置を決定す
る前にガウシンアン分布に従ったスムージング(平滑
化)を行っても良い。次に、ヒストグラムの結果から、
暫定的なラインあるいは行の境界がイメージのy軸に沿
ったポジションとして識別され、このラインはヒストグ
ラムにある谷にあたる。例えば、図9に示してあるよう
に、複数の谷あるいは最低点120は、隣接するピーク
あるいは最高点122同士の間に識別され、さらに、谷
120によってライン間のスペースの位置が判り、これ
らを図5に参照番号62として示してある。この操作は
ステップ88によって行われる。最後に、暫定(予備)
的なテキストラインあるいは行(row)が決まると、
連結した要素のボックス全てを規定された行に割り当て
る機能が動作する。
【0026】テキストラインあるいは行62の位置が暫
定的に決まると、連結した要素のバウンディングボック
スであって2つの行に横たわったものを、先ず特定の行
に割り当てる手順が行われる。フローチャートのステッ
プ92、94、および96にあるように、この手順にお
いては前のステップであるステップ88で識別された暫
定的なテキストラインが正しいかのチェックがさらに行
われる。先ず最初に、追って説明するように、テキスト
行の分離が失敗ではないことを確認する機能が動作す
る。一般に、連結した要素に着目すると、あるテキスト
行の中の投影された部分は、それらがy軸方向にひどく
重なっていないかぎりx方向に投影された部分がそれほ
ど重なることはない。ステップ92において識別された
ように、投影した部分が重なっていると、その識別され
た行は2つあるいはそれ以上の別れた行である可能性が
高く、y方向に投影されたグラフ内にさらに最低点を見
つけて分離しなければならない。また、テキストイメー
ジ内の例えば、「i」の上のドットやワードの下線とい
った連結した要素の小さなグループの回りのバウンディ
ングボックスは無視し、テキスト行をさらに分離するよ
うな間違ってトリガーを引き起こさないようにしなけれ
ばならない。
【0027】2番目に、ステップ96にあるように、x
軸方向にそって互いに重なった残りのボックスを、この
マージ(併合)された要素を囲う境界をもった1つのボ
ックスにマージする。一般に、このマージプロセスでは
1つの行の中の複数のボックスを見渡し、x方向に重な
り、さらに、y方向にも最小限ある程度かさなったボッ
クスを識別する。このy方向の最小限の重なりは、約5
0パーセント程度が良い。例えば、スキャンしたイメー
ジが「fort」というワードを含んでいた場合、スキャン
によって、「f 」のボックスの右端が「o 」ボックスの
左端と重なることがあり、従って、x 軸に沿って重なっ
たボックスの要素をマージすると、「f」と「o 」のボ
ックスがマージされることになる。この手順において、
サイズのテストも行われ、所定のサイズより小さなボッ
クスはマージされない。続いて、この小さなボックスは
イメージ内のノイズとして識別され削除されることがで
きる。
【0028】3番目に、テキスト行が正確に検出される
と、この行内の残りのボックスは連結した要素あるいは
トークンであり、これらの内のあるものはワードあるい
は意味を解釈できる同様のエレメントを形成するために
さらに連結する必要がある。さらに隣接する要素を結合
してスキャンされたイメージ内のワードベースのトーク
ンを形成するために、ステップ98においてテキスト行
内の隣接する要素同士の間の分離距離のヒストグラム化
を継続して行う。一般的なテキスト行の分布の結果を図
10に示してあり、破線のカーブが行のヒストグラムデ
ータを示し、実線のカーブはそれを滑らかにしたもので
ある。期待通り、得られたカーブは2値モデルの分布を
概ね示し、ピーク130および132の第1のセットは
キャラクター間のスペーシングの分離距離の分布を表し
ており、これに対し、第2のピークは幅が広く、頻度も
低く、隣接するワードの間のセパレーションを反映して
いる。さらに、ある条件下では、単一モデルの分布も現
れる。2値モデル(bi-model )の分布の2つの最大値
は、ステップ100において、分離用のしきい値を先ず
識別するのに用いられ、さらに続いてワード間のセパレ
ーション(分離)とキャラクター間のセパレーションを
区別するためも用いられる。
【0029】この分離用のしきい値を用いて、次に、テ
キスト行内の隣接するボックスのうち、x方向のセパレ
ーションが分離を示すしきい値より小さなものをマージ
するために、図8のステップ102の手順がコールされ
る。この手順では、単純に、それぞれの行にある連結し
た要素のセットで隣接したものの中で、分離を示すしき
い値より短い距離だけ分離されているもの全てがマージ
される。ワード内の隣接するキャラクターをマージする
と、その結果得られたボックス構造は、各々のテキスト
行内のワードトークンの境界を反映しており、例えば、
図6では複数のワードを囲う複数のボックス66を示し
てある。この時点で、小さなマージされなかったボック
スをイメージ内のノイズとして認識し、取り除くオプシ
ョン操作を実施しても良い。続いて、読む順番(上から
下、およびそれぞれのテキスト行の左から右)に並べら
れたボックスのリストがステップ104で作成される。
ボックスリスト内の配列それぞれが、入力されたイメー
ジ内のそれぞれ1つのワードトークン、ピクチャー、句
読点、あるいは意味を解釈できる同等のユニットのバウ
ンディングボックス66を規定している。
【0030】図2に戻って、例えば、イメージ内のワー
ドベースのトークンの境界を表すボックスリストを作成
するワードボクサー16によって、あるトークンのリス
トが作成されると、このリストおよびビットマップイメ
ージはトークンあるいはワードの分割器(segmenter )
18に送られる。概ね、分割器(セグメンター)18
は、一つのイメージ処理装置であり、入力されたイメー
ジ10のビットマップをボックスリスト内に規定された
ワードあるいはトークンの境界に従って一連のより小さ
なビットマップイメージに分割できるものである。ワー
ドセグメンター18からの出力はビットマップイメージ
の一連の流れ(シリーズ)であり、それぞれのイメージ
は、ワードボクサー16によって識別されたワードトー
クンあるいは意味を解釈可能な同等のユニットを表すビ
ットマップを備えている。好ましい実施例において、ワ
ードセグメンター18は、ワードボックスによって囲わ
れた入力イメージのそれぞれの部分に対して、分離され
たビットマップを実際に発生するものでない。むしろ、
セグメンターは単に窓開けの操作をしたり、あるいはビ
ットマップのある部分を選択することによって、特定の
トークンボックスの境界内であると規定されたそのイメ
ージのその部分へのアクセスを許可するものである。先
に説明したように、ワードセグメンター18の出力であ
るワードトークンはコンパレーター24に送られ、そこ
でトークンは辞書26からの他のビットマップイメージ
と対比され、セグメンター18から出力されたトークン
イメージと辞書から供給されたワードトークンとが一致
するか否かを判断される。
【0031】以下に説明するように、ワードイメージ同
士を比較するための1つの好ましい方法としてハウスド
ロフ距離を計る技術が使用されており、これは1991
年6月のヒュッテンロッチャーらによる「ハウスドロフ
距離を用いたイメージの比較」(TR91−121
1)、および1992年12月の「ハウスドロフ距離を
用いたイメージを比較するための多重解像技術」(TR
92−1321)の記載に関連しており、いずれもカー
ネル大学のコンピューターサイエンス学部から出版され
ている。
【0032】一般に、ボックス化されたトークン同士を
比較する方法としては、特定のボックスへ識別された要
素同士を比較するための図11および12に示されたプ
ロセスが用いられる。以下に説明する単純化された実施
例は、あるイメージ内のワードベースのトークンが同じ
か、あるいは違うかを決定するためのものである。それ
ぞれのセクションあるいはワードトークンのビットマッ
プによる表現は、予め決定された境界を規定するための
ボックス(バウンディングボックス)により定められた
領域に対応している。ビットマップセクション同士間の
このような比較を行う一般的な方法は相関関係として一
般的に知られており、2つのイメージの論理的なAND
(論理積)をとる操作が類似性を決定するために用いら
れる。本発明において、一方、この相関関係を膨張(di
lation) 技術を用いて改善しており、これによってイメ
ージを形成するために用いられるデジタル化処理に固有
の量子化エラーによる影響を排除している。
【0033】以下で採用しているように、比較される2
つのトークンイメージをボックス1およびボックス2と
する。これらのイメージ部分(イメージセクション)
は、同一のイメージからの2つのセクションであっても
良く、異なったイメージからの2つのセクションでも良
く、あるいはあるイメージからの1つのセクションと、
入力されたシンボルのストリング、ワードあるいはトー
クンを形成する意味の解釈可能なユニットから電子的に
作成された1つのセクションであっても良い。図2にお
いてワードイメージの「辞書」として表されているが、
ブロック26の一般的な目的は、他のトークンイメージ
のセクション(ボックス1)と比較するためのトークン
イメージのセクション(ボックス2)を提供することで
ある。図6に示してあるように、「automobile」70お
よび72の2つのワードベースのトークンの表現を本発
明に従って比較しても良く、ここでは表現72は「辞
書」から導いても良い。ボックス1およびボックス2の
セクション70および72がそれぞれ規定されると、そ
れぞれにあるイメージは「モデル」と呼ばれ、さらに、
このモデルを膨張したものが作られ以下ではこれを「イ
メージ」と呼ぶ。
【0034】図11および12に概略を示してあるよう
に、コンパレータ24で用いられている比較法は、先
ず、モデル1(150)内の画素、すなわち、ボックス
1で囲われたセクション内のオリジナルの画素を、ボッ
クス2で表された画素の膨張された表現のイメージ2内
(156)の画素と比較し、ブロック160でこの比較
から第1の距離が発生される。同様に、このプロセスが
逆転され、モデル2(152)内の画素であるボックス
2で囲われたセクションのオリジナルの画素と、ボック
ス1で現れた画素の膨張された表現のイメージ1(15
4)内の画素とが比較され、第2の距離がこの比較から
ブロック162で生成される。続いて、ブロック16
4、166および168においてこの2つの距離が数値
的に処理され、ボックス1およびボックス2で囲われた
これら2つのイメージセクションの類似性の度合が決定
される。
【0035】さらに詳しく説明すると、コンパレータ2
4は、最初に、モデル用のメモリーの場所にイメージ2
6の「辞書」に指定されたあるワードイメージ(ボック
ス2)の境界内の画素を複製する。これらの画素は以下
でモデル2とされる。コンパレータは次にメモリーの第
2の場所にモデル2を複製し、さらに、図11に示すよ
うに膨張し、イメージ2(膨張されたイメージ156)
をステップ200で作成する。すなわち、モデル2のメ
モリーに格納された「オン」あるいは黒色の画素全てに
対しイメージ2のメモリー内のこれの周囲に隣接する部
分をオンあるいは黒くする。隣合った正確な数は膨張半
径(ディレイションラディウス)として規定されてお
り、予め決められている。例として、好ましい膨張半径
が画素1.0個であると隣接した4つがオンになり、半
径を画素1.4個とすると隣接する近傍の画素8つが全
てオンになる。これ以上膨張半径を大きくすると、同一
でないワード同士を間違って一致させてしまう可能性が
大きくなる。
【0036】膨張半径の選択は量子化によるエラーの防
護となるように行われ、このエラーは主にデジタル化の
プロセスにおいて発生する。膨張半径を選択する際に、
単純な相関関係を求める際(膨張半径を効果的に上0と
した場合であるが)に導入されるようなエラーを抑制す
ることが望ましく、一方、膨張させすぎたイメージ(例
えば、大きな膨張半径とした場合)の比較に起因する混
乱は避ける必要がある。従って、画素1.0および1.
4個の範囲の望まし膨張半径がこの限度内で許容できる
折衷案として示されている。
【0037】次に、このプロセスは比較されるシンボル
ストリングに対しモデルおよび膨張されたイメージ版を
作るために繰り返される。例えば、全体の入力イメージ
10のコピーが上述したように膨張されても良く、ステ
ップ202においては、ボックスリスト内に規定された
全てのボックスに対する膨張させた境界内の画素はこの
膨張された入力イメージから複写される。これらの画素
のセットは、個々の膨張された「ワード」を表し、以下
においてイメージ1(入力イメージの膨張された部分、
156)とし、これに対し、入力イメージのオリジナル
で膨張されていないワードセグメントを以下においてモ
デル1(150)とする。ボックス2のイメージと同様
に、それぞれのイメージ内のワードを表す画素は太って
見え、対応するモデルよりさらに詰まった状態となる。
【0038】入力されたイメージおよび「辞書」のイメ
ージに対しそれらの関連モデルおよび膨張イメージが形
成されメモリーに収納されると、1対の入力(ボックス
1)および辞書(ボックス2)のイメージが対比のため
にステップ204において選択される。次に、コンパレ
ータ24は、ステップ206において、これらのボック
スが「合理的に」近い寸法か否かを決定するためにテス
トを行う。すなわち、これらのボックスがそれぞれの長
さおよび高さにおいて所定の範囲内であるか否かであ
る。図11に示すように、寸法の差ΔLは2つのイメー
ジセクションに対しΔL=|L1−L2|で定められ
る。さらに、ステップ206におけるサイズテストでは
高さの比較(図示されていない)を行うことが望まし
く、この比較は長さの比較で説明したと同じ方法で行う
ことができる。これらのボックス内において、互いに相
対的にイメージがずれていても良いようにして、この比
較における信頼性をさらに向上させるために、大きな寸
法の差を許容しても良い。寸法の差ΔLが所定の範囲に
入らないときは、ステップ208においてより多くのボ
ックス(イメージセクション)が利用できることが決定
されると、ステップ204において、異なるイメージの
ペアー(入力および辞書)が対比のために選択される。
そうでない場合は、選択された入力および辞書のイメー
ジペアーの境界を示すボックスはほぼ同じサイズである
と想定され、それぞれのワードボックスのペアーはそれ
らが一致しているか否かを見るためにさらに比較され
る。2値イメージはAというポイントの限定されたセッ
トを表してると考えられ、Aのそれぞれのポイントの座
標は2値イメージ内の「オン」状態の画素によって表さ
れる。従って、比較するポイントのセットに対する測
度、ハウスドロフ距離を2値イメージを比較するために
適用できると考えられる。特に、AおよびBの限定され
たポイントのセットが与えられるとハウスドロフ距離は
以下のように定義される。
【0039】
【外1】 および|a−b|は2つの与えられたポイントaおよび
bの間の距離である。
【0040】実際には、関数h(A,B)はAのそれぞ
れのポイントをBの最も近いポイントへのAの距離をベ
ースにランク分けされ、最も大きなランク分けされたそ
れらのポイント(最も合わないポイント)で距離の値が
指定される。従って、h(A,B)<=δ(デルタ)で
あれば、AのそれぞれのポイントがBのあるポイントの
距離δ以内にあることを意味する。関数H(A,B)は
2つの非対称距離の最大値を示し、従って、H(A,
B)<=δであれば、AのそれぞれのポイントはBのあ
るポイントのδ以内にあり、その逆も成立する。このハ
ウスドルフ距離はこのように2つの2値イメージ(ある
いは限定されたポイントのセット)の類似性の指標(測
度)となり、δの値が大きいとこれらのイメージ同士間
の類似性は低いことを示す。
【0041】トークンのビットマップイメージ同士を比
較する際に、δの小さな値はデジタル化の処理における
量子化ノイズ(トークンの境界においてランダムにオン
あるいはオフしている画素)を補償するので望ましい
が、これらのイメージが相対的に類似していることもあ
りうる。δの小さな値のハウスドロフ距離の計算を行う
望まし方法として、論理的なAND(論理積)を取る操
作と共に膨張技術(ディレイション)を用いている。あ
る2値イメージAをある半径δで膨張したものでは、イ
メージAのそれぞれのオンあるいは黒色の画素が半径δ
のサークルに置き変わっている。ある画素の4つの最も
近隣(水平および垂直)のものを表すためにはδ=1.
0が用いられ、一方、δ=1.4は、ある画素の8つの
最も近隣(水平、垂直および対角線)のものを表す。こ
れらは量子化ノイズを相殺するために望ましい値であ
る。
【0042】B’をAをδだけ膨張させたものとする
と、h(A,B)<=δが正しくA∧B’=Aであると
きなのは明らかあであり、ここで∧はAおよびB’の論
理積(AND)を表す。すなわち、Aの全ての黒点はB
のどれかの黒点の距離δ内に有るはずであり、この場合
Aの全ての黒点はB’のある黒点と一致しなければなら
ない。従って、h(A,B)<=δであるか否かを決定
でき、これと同様に、H(A,B)<=δは単にBをδ
だけ膨張させ(Aから推定して)、さらにA(Bから推
定して)との論理積を計算すれば良い。
【0043】一般に、Aのいずれかのポイントは、Bの
いずれのポイントとも近くないことがあり、その逆もあ
る。従って、ハウスドロフ距離は最大値を求めるのをあ
る量(例えば、中心値あるいは他のパーセンティル)の
計算に置き換えるのが一般的である。この定義は以下で
ある。
【0044】
【外2】 この計算は、AのそれぞれのポイントからBの最も近い
ポイントまでの距離の最大値(最長値)の代わりにK番
目に大きな値を計算している。従って、Aのある数ある
いはある部分をこの距離の計算において無視している。
セットAの中にm個のポイントがある場合、k=mとす
るとこの定義はh(A,B)と同じである。しかし、一
般に0<=τ<=1の範囲の値を取るτのある値に対し
k=τ×mとすると、Aのポイントのm−k=(1−
τ)×mは無視される(すなわち、Bに近いポイントに
ある必要はない)。これはH(A,B)に対しても適用
できる。望ましい実施例において、τはAの4パーセン
トまでとがB’に対し一致しなくても良く(τ>=0.
96)、逆の場合も同様である。
【0045】δの小さな値にこの計算を好ましく適用す
る場合も膨張させて論理積をとればよいが、この場合
B’に重ならないAのポイントがあり得る(逆の場合も
であるが)。これらの重ならないポイントの部分は規定
したフラクション(fraction:部分)τより小さくなく
てはならない。従って、AおよびA∧B’内の黒色の画
素の数を比較してh’(A,B)を我々は計算してい
る。pをA内の黒色の画素の数とし、qをA∧B’内の
黒色の画素の数とすると、τの所与値に対して正確に
h’(A,B)<=δのときq/p>=τである。
【0046】さらに、本発明は、ハウスドルフ距離の最
小値(最良のアライメント)を見つけるためにAおよび
Bを互いに相対的にシフトした場合ときにハウスドルフ
距離を評価することも可能である。この技術は公知の相
関関係の操作において用いられる相対的なシフトさせた
場合と同じであるが、ただし、これは量子化ノイズを十
分に許容できるという重要な点で相関関係を求める場合
と明確に異なっている。相関関係を求める場合は、Aの
ポイントとBのポイントの間が近接していることには着
目していない(例えば、δ=0を用いるとこの制限され
たケースが相関関係に近くなる)。
【0047】上述した技術を実行するための次のような
一般化された手順を用いると、2つのイメージセクショ
ンを比較でき、それらが合致しているかが決定できる。
【0048】1)モデル1がイメージ2に重ね合わされ
る。 2)黒いイメージ2の画素に一致する黒いモデル1の画
素の数を計数し、次に黒いモデル1の画素の全数で割る
(ステップ214) 3)一致した黒い画素のパーセンテージが所定のしきい
値のパーセンテージτ(τは0.96程度が望ましい)
より上であれば、これらのボックスは第1の検証(事
例)では合致していると決定される(ステップ216) 4)モデル2がイメージ1に重ね合わされる。 5)これら2つのイメージセクションを上記のステップ
2と同じく再び比較し、一致した黒い画素の第2のパー
センテージを決定する(ステップ220) 6)この第2のパーセンテージが所定のしきい値のパー
センテージτより上であれば、これらのボックスは第2
の検証(事例)で合致していると判断される(ステップ
222)。さらに、 7)両方の検証においてこれらのイメージセクションが
一致している場合は、これらは同じワードであると考え
られ、さらに、図2のコンパレータ24からワードが合
致した指示が出力される(ステップ224)。
【0049】上述した実施例に加え、本発明は、ある比
較技術として利用でき、あるイメージ内のワードトーク
ンの等価なクラスを作ることができる。本発明はOCR
システムの前処理操作として用いることが可能であり、
これによって利用可能なOCRシステムのスピードと精
度を改善することができる。さらに他の案として、本発
明はワードトークンが度重なって現れていることを判断
するためにも利用でき、そのワードが続いて現れたとき
はあるアイコンに変換してサイズを減らし大きな文章を
保持するために必要なデータファイルの全体的なサイズ
を縮減することができる。
【0050】この好ましい実施例において、ボックスの
サイズを比較し、一致しているであろうボックスやイメ
ージセクションの既設のクラス(例えば、入力イメージ
および「辞書」イメージの両方の中の同じトークンであ
ると考えられる複数のボックス)毎にライブラリーを作
るプログラムが実行される。例えば、それらの長さ
(幅)からトークンイメージセクションをクラス分けす
るために適したデータ構造が形成されており、トークン
のペアの比較されるスピードを改善できる。ある入力イ
メージのある部分を既知あるいは「辞書」のトークンと
比較することに関し説明してきたが、例えば、図6のイ
メージセクション70および72において、本発明は同
一のあるいは異なるイメージ内のトークンを比較するこ
とも可能であり、本発明の操作を示す目的で記載された
例に限定して理解されるものではない。
【0051】
【発明の効果】本発明は複数のイメージシグナルあるい
は画素によって構成された2つのイメージセクションあ
るいはトークンを比較する方法であって、それぞれのト
ークンは1つあるいはそれ以上の連結したシンボルで表
されており、同じトークンとして識別される。本発明
は、さらに、トークンを形成するシンボルあるいはキャ
ラクターを個々に検出あるいは識別する必要なく動作す
る。この方法は、あるイメージ内の要素を検出し、ま
ず、トークンの境界を決め、次に2段階のプロセスを適
用し、その中で膨張されたイメージがトークンを表すモ
デルと比較され、それらの間の相対的な類似性が決定さ
れる。
【0052】従って、本発明により、要素あるいは同様
のシンボルを備えたイメージ領域を規定する複数のトー
クンを比較する方法を提供できることは明白である。こ
の発明は好ましい実施例を参照して説明してあるよう
に、コンピュータシステムにおいて使用できるように設
計されたソフトウェア手段として説明してあり、所定の
指令を実行可能な1つあるいはそれ以上のマイクロプロ
セッサーあるいは計算能力のある処理装置を用いて、こ
れらに対しイメージデータの処理に関して上記にて説明
したような操作を行えるようにしてある。さらに、本発
明は、ここで説明した処理を行えるように設計された特
定のハードウェアを用いても実現できる。さらに、本発
明は、大きなワード認識システムの一部として説明して
ある。しかし、先に記載したように、本発明はテキスト
あるいはイメージの編集、あるいはそれに係わるシステ
ムにも用いることが可能である。実際には、トークンあ
るいはシンボルのストリングを識別し、クラス分けし、
グルーピングすることが必要ないずれのシステムにも本
発明を用いることができる。最後に、本発明はテキスト
形式のイメージを元に説明してある。しかし、テキスト
形式でないイメージを部分を含んだイメージに対しても
同様に適用することもできる。
【図面の簡単な説明】
【図1】本発明を有効に使用できるイメージ処理システ
ムの概略のシステムダイヤグラムである。
【図2】ワードイメージに適用可能な新規のトークンの
認識システムの実施例を構成するシステム要素の組み合
わせを示すブロックグラムである。
【図3】新規のプロセスを説明するために例としたテキ
ストを抽出したイメージサンプルを示す図である。
【図4】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
【図5】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
【図6】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。
【図7】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。
【図8】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。
【図9】図7のステップ87で求められたヒストグラム
データを示すグラフである。
【図10】図8のステップ98で求められたヒストグラ
ムデータを示すグラフである。
【図11】本発明に基づいて図2のコンパレータによっ
て操作される処理を示す挿絵の入ったフローチャートで
ある。
【図12】図11に示したワードの境界内のイメージを
対比するためのプロセスの概略を示すフローチャートで
ある。
【符号の説明】
2・・ソース 4・・イメージ処理 6・・ユーザーインタフェース 8・・出力先 10・・入力イメージ 14・・デスキューワー 16・・ワードボクサー 18・・ワードセグメンター 24・・ワード比較器 26・・ワードイメージの「辞書」

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 各イメージセクションがトクーンを表わ
    し、複数のイメージシグナルを備えた少なくとも2つの
    イメージセクションを比較して、類似のトークンを識別
    する方法であって、 (a)第1のトークンを表すイメージシグナルを第1の
    モデルメモリーに格納し、 (b)第1のイメージメモリーに前記第1のトークンを
    膨張して表したものを作成し、 (c)第2のトークンを表すイメージシグナルを第2の
    モデルメモリーに格納し、 (d)第2のイメージメモリーに前記第2のトークンを
    膨張して表したものを作成し、 (e)前記第1のモデルメモリーに格納された前記イメ
    ージシグナルを、第2のイメージメモリーに格納された
    前記イメージシグナルと比較し、第1の類似の距離を決
    定し、 (f)前記第2のモデルメモリーに格納された前記イメ
    ージシグナルを、第1のイメージメモリーに格納された
    前記イメージシグナルと比較し、第2の類似の距離を決
    定し、さらに、 (g)前記第1および第2の類似の距離に対応して前記
    第1のトークンと前記第2のトークンが類似か否かを判
    定する、 少なくとも二つのイメージセクションの比較方法。
JP33297894A 1993-12-17 1994-12-14 少なくとも二つのイメージセクションの比較方法 Expired - Lifetime JP3445394B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17007593A 1993-12-17 1993-12-17
US170075 1993-12-17

Publications (2)

Publication Number Publication Date
JPH07200745A true JPH07200745A (ja) 1995-08-04
JP3445394B2 JP3445394B2 (ja) 2003-09-08

Family

ID=22618451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33297894A Expired - Lifetime JP3445394B2 (ja) 1993-12-17 1994-12-14 少なくとも二つのイメージセクションの比較方法

Country Status (2)

Country Link
US (1) US5539841A (ja)
JP (1) JP3445394B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325076A (ja) * 2006-06-02 2007-12-13 Fuji Xerox Co Ltd パターンマッチング装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム
JP2011243201A (ja) * 2010-05-13 2011-12-01 King Abdulaziz City For Science & Technology (Kacst) 光学式文字認識用に画像を前処理するための方法およびシステム
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
JP2016119072A (ja) * 2014-12-19 2016-06-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US6345104B1 (en) 1994-03-17 2002-02-05 Digimarc Corporation Digital watermarks and methods for security documents
US7286684B2 (en) * 1994-03-17 2007-10-23 Digimarc Corporation Secure document design carrying auxiliary machine readable information
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5835638A (en) * 1996-05-30 1998-11-10 Xerox Corporation Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
AU4915097A (en) * 1996-10-16 1998-05-11 Convey Corporation Isomorphic pattern recoginition
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
AU9676298A (en) * 1997-10-01 1999-04-23 Island Graphics Corporation Image comparing system
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6020972A (en) * 1997-11-14 2000-02-01 Xerox Corporation System for performing collective symbol-based compression of a corpus of document images
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6529635B1 (en) 1997-12-15 2003-03-04 Intel Corporation Shape-based image compression/decompression using pattern matching
US6341180B1 (en) * 1997-12-18 2002-01-22 Cellavision Ab Image content autofocus for microscopy using a noise-insensitive focus filter
SE513059C2 (sv) * 1997-12-30 2000-06-26 C Technologies Ab Sätt och anordning för matchning av bilder
US6748115B1 (en) * 1998-06-19 2004-06-08 Cvision Technologies Llc Perceptually lossless image compression
US7197451B1 (en) * 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US7016539B1 (en) 1998-07-13 2006-03-21 Cognex Corporation Method for fast, robust, multi-dimensional pattern recognition
US6606411B1 (en) * 1998-09-30 2003-08-12 Eastman Kodak Company Method for automatically classifying images into events
US6295371B1 (en) 1998-10-22 2001-09-25 Xerox Corporation Method and apparatus for image processing employing image segmentation using tokenization
US6351556B1 (en) 1998-11-20 2002-02-26 Eastman Kodak Company Method for automatically comparing content of images for classification into events
US6944318B1 (en) 1999-01-15 2005-09-13 Citicorp Development Center, Inc. Fast matching systems and methods for personal identification
US6565611B1 (en) * 1999-02-26 2003-05-20 Xerox Corporation Automatic index creation for handwritten digital ink notes
US6473524B1 (en) 1999-04-14 2002-10-29 Videk, Inc. Optical object recognition method and system
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US6996782B2 (en) * 2001-05-23 2006-02-07 Eastman Kodak Company Using digital objects organized according to a histogram timeline
US8028249B2 (en) * 2001-05-23 2011-09-27 Eastman Kodak Company Method and system for browsing large digital multimedia object collections
JP2004038321A (ja) * 2002-06-28 2004-02-05 Fujitsu Ltd 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法
US20040005080A1 (en) * 2002-07-08 2004-01-08 Hayduchok George L. Method and apparatus for processing outgoing bulk mail
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
CA2505782C (en) * 2002-11-18 2011-01-04 International Remote Imaging Systems, Inc. Particle extraction for automatic flow microscope
US7149361B2 (en) * 2002-11-26 2006-12-12 Lockheed Martin Corporation Method and apparatus for image processing to detect changes in a scene
US6865297B2 (en) * 2003-04-15 2005-03-08 Eastman Kodak Company Method for automatically classifying images into events in a multimedia authoring application
US7298895B2 (en) * 2003-04-15 2007-11-20 Eastman Kodak Company Method for automatically classifying images into events
US7190834B2 (en) 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
US8081820B2 (en) 2003-07-22 2011-12-20 Cognex Technology And Investment Corporation Method for partitioning a pattern into optimized sub-patterns
US7236174B2 (en) * 2004-01-26 2007-06-26 Microsoft Corporation Adaptively filtering outlines of typographic characters to simplify representative control data
US7136067B2 (en) * 2004-01-26 2006-11-14 Microsoft Corporation Using externally parameterizeable constraints in a font-hinting language to synthesize font variants
US7292247B2 (en) * 2004-01-26 2007-11-06 Microsoft Corporation Dynamically determining directions of freedom for control points used to represent graphical objects
US7187382B2 (en) 2004-01-26 2007-03-06 Microsoft Corporation Iteratively solving constraints in a font-hinting language
US7292710B2 (en) * 2004-02-26 2007-11-06 Xerox Corporation System for recording image data from a set of sheets having similar graphic elements
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
US8437502B1 (en) 2004-09-25 2013-05-07 Cognex Technology And Investment Corporation General pose refinement and tracking tool
US7397584B2 (en) * 2004-09-28 2008-07-08 Xerox Corporation Encoding invisible electronic information in a printed document
US7657521B2 (en) * 2005-04-15 2010-02-02 General Electric Company System and method for parsing medical data
NO20052656D0 (no) * 2005-06-02 2005-06-02 Lumex As Geometrisk bildetransformasjon basert pa tekstlinjesoking
US8849031B2 (en) * 2005-10-20 2014-09-30 Xerox Corporation Document analysis systems and methods
US8078618B2 (en) 2006-01-30 2011-12-13 Eastman Kodak Company Automatic multimode system for organizing and retrieving content data files
US7602976B2 (en) * 2006-02-17 2009-10-13 Sony Corporation Compressible earth mover's distance
US7577684B2 (en) * 2006-04-04 2009-08-18 Sony Corporation Fast generalized 2-Dimensional heap for Hausdorff and earth mover's distance
US8228522B2 (en) * 2007-01-29 2012-07-24 Kabushiki Kaisha Toshiba Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data
US7823795B2 (en) * 2007-04-02 2010-11-02 International Business Machines Corporation Pattern based elaboration of hierarchical L3GO designs
JP4193073B2 (ja) * 2007-04-05 2008-12-10 セイコーエプソン株式会社 画像生成システム、プロジェクタ、プログラム、情報記憶媒体および画像生成方法
US8068684B2 (en) * 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US7711192B1 (en) * 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
US7706613B2 (en) * 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
US8520941B2 (en) * 2008-12-09 2013-08-27 Xerox Corporation Method and system for document image classification
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
TWI417850B (zh) * 2009-03-12 2013-12-01 Chunghwa Picture Tubes Ltd 主動陣列式顯示器之顯示方法
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US8463041B2 (en) * 2010-01-26 2013-06-11 Hewlett-Packard Development Company, L.P. Word-based document image compression
US8208726B2 (en) 2010-07-22 2012-06-26 Hewlett-Packard Development Company, L.P. Method and system for optical character recognition using image clustering
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
JP2015035150A (ja) * 2013-08-09 2015-02-19 株式会社東芝 手書き文書処理装置、手書き文書処理方法及び手書き文書処理プログラム
WO2015052094A1 (en) * 2013-10-07 2015-04-16 Agfa Graphics Nv A raster image processing method
US9245205B1 (en) 2013-10-16 2016-01-26 Xerox Corporation Supervised mid-level features for word image representation
RU2673015C1 (ru) * 2017-12-22 2018-11-21 Общество с ограниченной ответственностью "Аби Продакшн" Способы и системы оптического распознавания символов серии изображений
JP7224856B2 (ja) * 2018-11-02 2023-02-20 キヤノン株式会社 画像生成装置、画像生成方法、及びプログラム
US12175337B2 (en) * 2020-08-04 2024-12-24 Bentley Systems, Incorporated Techniques for extracting machine-readable information from P and IDs
US12406519B1 (en) 2022-07-29 2025-09-02 Bentley Systems, Incorporated Techniques for extracting links and connectivity from schematic diagrams
US12288411B2 (en) 2022-10-06 2025-04-29 Bentley Systems, Incorporated Techniques for extracting associations between text labels and symbols and links in schematic diagrams

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
US3133266A (en) * 1960-06-14 1964-05-12 Bell Telephone Labor Inc Automatic recognition of handwriting
US3295105A (en) * 1964-08-27 1966-12-27 Sylvania Electric Prod Scan control and normalization for a character recognition system
JPS5729745B2 (ja) * 1974-09-25 1982-06-24
US4155072A (en) * 1976-12-17 1979-05-15 Ricoh Company, Ltd. Character recognition apparatus
US4326190A (en) * 1978-08-30 1982-04-20 Borland David L Boundary trace slope feature detection system
DE3070721D1 (en) * 1980-12-18 1985-07-04 Ibm Process for inspecting and automatically classifying objects presenting configurations with dimensional tolerances and variable rejecting criteria depending on placement, apparatus and circuits therefor
DE3070433D1 (en) * 1980-12-18 1985-05-09 Ibm Method for the inspection and automatic sorting of objects with configurations of fixed dimensional tolerances, and device for carrying out the method
US4400828A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Word recognizer
US4495644A (en) * 1981-04-27 1985-01-22 Quest Automation Public Limited Company Apparatus for signature verification
EP0124789B1 (en) * 1983-04-11 1990-01-24 Kabushiki Kaisha Komatsu Seisakusho Method of identifying objects
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
US4864628A (en) * 1983-08-26 1989-09-05 Texas Instruments Incorporated Method of optical character recognition
US4701960A (en) * 1983-10-28 1987-10-20 Texas Instruments Incorporated Signature verification
US4731857A (en) * 1984-06-29 1988-03-15 International Business Machines Corporation Recognition system for run-on handwritten characters
US4644585A (en) * 1985-02-11 1987-02-17 Environmental Research Institute Of Michigan Method and apparatus for automatic shape recognition
US4764972A (en) * 1985-05-23 1988-08-16 Nec Corporation Continuous characters recognition system
US4918740A (en) * 1985-10-01 1990-04-17 Palantir Corporation Processing means for use in an optical character recognition system
US4821333A (en) * 1986-08-22 1989-04-11 Environmental Research Inst. Of Michigan Machine learning procedures for generating image domain feature detector structuring elements
JP3014097B2 (ja) * 1987-02-20 2000-02-28 株式会社日立製作所 輪郭追跡方法及びシステム
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US4949281A (en) * 1987-04-23 1990-08-14 H. Berthold Ag Method and apparatus for generating and producing two-dimensional graphic object by polynominal parametric curves
US4809344A (en) * 1987-05-11 1989-02-28 Nippon Sheet Glass Co., Ltd. Apparatus for preprocessing of character recognition
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
JPH01183793A (ja) * 1988-01-18 1989-07-21 Toshiba Corp 文字認識装置
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US5214719A (en) * 1989-02-28 1993-05-25 Phoenix Imaging Computer-based system and method for character recognition
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
US5142589A (en) * 1990-12-21 1992-08-25 Environmental Research Institute Of Michigan Method for repairing images for optical character recognition performing different repair operations based on measured image characteristics
US5179596A (en) * 1991-07-05 1993-01-12 Booz, Allen & Hamilton, Inc. Analog pattern categorization system having dual weighted connectivity between nodes
US5291560A (en) * 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
US5305389A (en) * 1991-08-30 1994-04-19 Digital Equipment Corporation Predictive cache system
US5179419A (en) * 1991-11-22 1993-01-12 At&T Bell Laboratories Methods of detecting, classifying and quantifying defects in optical fiber end faces
US5303313A (en) * 1991-12-16 1994-04-12 Cartesian Products, Inc. Method and apparatus for compression of images

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325076A (ja) * 2006-06-02 2007-12-13 Fuji Xerox Co Ltd パターンマッチング装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム
US7831099B2 (en) 2006-06-02 2010-11-09 Fuji Xerox Co., Ltd. Pattern matching device, image encoder, image decoder, image processing system, computer readable media storing programs, and computer data signal
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
JP2011243201A (ja) * 2010-05-13 2011-12-01 King Abdulaziz City For Science & Technology (Kacst) 光学式文字認識用に画像を前処理するための方法およびシステム
JP2016119072A (ja) * 2014-12-19 2016-06-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质

Also Published As

Publication number Publication date
JP3445394B2 (ja) 2003-09-08
US5539841A (en) 1996-07-23

Similar Documents

Publication Publication Date Title
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
US5410611A (en) Method for identifying word bounding boxes in text
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
JP3343864B2 (ja) 語体の分離方法
JP2973944B2 (ja) 文書処理装置および文書処理方法
US4611346A (en) Method and apparatus for character recognition accommodating diacritical marks
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
JP3576570B2 (ja) 比較方法
JP3278471B2 (ja) 領域分割方法
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP3452774B2 (ja) 文字認識方法
US5850476A (en) Automatic method of identifying drop words in a document image without performing character recognition
Ma et al. Adaptive Hindi OCR using generalized Hausdorff image comparison
JPH01253077A (ja) 文字列検出方法
JPH0430070B2 (ja)
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JPH0728935A (ja) 文書画像処理装置
JP3384634B2 (ja) 文字種識別方法
JP3151866B2 (ja) 英文字認識方法
JP2963474B2 (ja) 類似文字識別方法
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JPH04372089A (ja) 文字認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030520

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7