JPH07200732A

JPH07200732A - ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法

Info

Publication number: JPH07200732A
Application number: JP6333099A
Authority: JP
Inventors: Daniel P Huttenlocher; ピー．ハッテンロハーダニエル; Eric W Jaquith; ダブリュ．ジャキスエリック
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-12-17
Filing date: 1994-12-14
Publication date: 1995-08-04
Also published as: US5410611A

Abstract

(57)【要約】【目的】イメージデータの配列内に現れたテキストあ
るいはキャラクターストリングの境界をその形状から決
める際に、ストリングを構成する１つあるいは複数のキ
ャラクターを個々に検出あるいは識別しなくても良い方
法を提供する。【構成】テキスト行の境界を先ず決めるためにワード
内の結合した要素を検出し、結合した要素をテキスト行
に分離する。さらに、行内の要素の間の関係から連結し
た要素の隣接するセットをさらに結合し、テキスト行内
にワードあるいは意味の解釈できるユニットを形成す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、イメージデータの配列
内に現れたテキストあるいはキャラクター（文字）スト
リングの境界をその形状から決める方法であって、この
ストリングを構成する１つあるいは複数のキャラクター
を個々に検出及び／又は識別しなくても良い方法に関す
るものである。

【０００２】

【従来の技術】電子的にエンコードされた文書（電子文
書）内のテキストは、２つの互いに異なったフォーマッ
トのいずれかであることが多い。第１のフォーマットで
は、テキストがビットマップになっており、この場合、
テキストはイメージデータあるいは画素の配列としての
み定義され、これと同様に表現された隣接したイメージ
と基本的に区別できない。このフォーマットは、テキス
トは文章の内容だけをベースとしたコンピュータの処理
対象には殆どならない。第２のフォーマットは、以下に
おいてキャラクターコードフォーマットと呼ぶが、この
テキストはキャラクターコード（例えばアスキーコー
ド）のストリング（列）として表現される。このキャラ
クターコードフォーマットにおいては、テキストのイメ
ージあるいはビットマップは不要である。

【０００３】光学式文字認識プロセス（ＯＣＲ）による
ビットマップからキャラクターコードへの変換は、時間
と処理に係る手間を考えると非常に高価である。個々の
キャラクターのビットマップを、それに隣接するものか
ら区別し、その外観を解析し、さらに、意思決定プロセ
スによって予めセットされたキャラクター群の中のある
キャラクターとして識別しなければならない。ミヤタケ
らに付与された米国特許第４，９５６，８６９号にはカ
ンタワーライン（等高線、濃度の等しい線）をトレース
するさらに効率的な方法が示唆されている。

【０００４】

【発明が解決しようとする課題】しかしながら、あるオ
リジナル（原稿）をスキャンして電子文書を抽出すると
きに、その複製物のイメージ品質やノイズによって、ビ
ットマップの実際の外観が不確定はものになる。ビット
マップの外観が劣化するのは、品質の悪いオリジナル文
章、スキャニングのエラー、あるいはイメージのデジタ
ル再生に影響を与える同種のファクターが原因である。
従って、キャラクターを識別するための決定プロセスに
は、それに関する固有の不確実さが存在する。これに関
し特に問題となることは、テキスト内のキャラクターが
不鮮明となったり、あるいは結合し易いことである。大
抵のキャラクター識別プロセスでは、あるキャラクター
が連結した画素の１つの独立したセットであることを仮
定することから始める。入力されたイメージの品質が原
因でこの仮定が成り立たないと、キャラクターの識別も
失敗することになる。キャラクターの検出を改善するた
めに幾つかの試みがなされている。マノンに付与された
米国特許第４，９２６，４９０、シェランジに付与され
た米国特許第４，５５８，４６１、グレイ等に付与され
た米国特許第３，２９５，１０５がある。

【０００５】ＯＣＲ法は様々なやり方でイメージを分割
するようにしている。例えば、シェランジに付与された
米国特許第４，５５８，４６１およびペッパーズらに付
与された米国特許第４，８０９，３４４がある。

【０００６】ＯＣＲ法では辞書の単語と照合することに
よって信頼性を向上している。例えば、ヒシノに付与さ
れた米国特許第４，０１０，４４５に開示されている。
富士通科学技術ジャーナル２６，３、ページ２２４〜２
３３（１９９０年１０月）の「Ｆ６３６５日本語文書リ
ーダー」は、ブロック抽出、スキュー調整、ブロック分
割、隣接するキャラクターの区分、ライン抽出、および
辞書によるチェックおよび比較を行いパターンマッチン
グによってキャラクター認識をする各ステップを示して
いる。

【０００７】単語やキャラクターのストリングを形成す
る複数のキャラクターのセットを識別するには、例えば
米国特許第２，９０５，９２７にあるような読みかたを
することが望ましいであろう。

【０００８】認識するための基本的なユニットとしてワ
ード全体を用いることは、サインを認識する際に考えら
れており、フリシュコプに付与された米国特許第３，１
３３，２６６に示唆されている。しかし、分割されたキ
ャラクターを保持するという考えはない。

【０００９】

【課題を解決するための手段】本発明によれば、あるイ
メージを規定するラスタライズ（ラスタ化）されたデー
タの中から少なくとも１つのワードオブジェクト（ワー
ドとみられる対象）を抽出する方法を提供できる。この
方法は以下のステップを備えている。まず、（ａ）その
イメージの中から結合した要素を見つけ、（ｂ）そのイ
メージ内の連結した要素のグループ毎に境界を識別し、
（ｃ）上記のステップ（ｂ）で識別された境界を用いて
テキスト行を探し出し、さらに、（ｄ）上記のステップ
（ｃ）で探し出したテキスト行内の連結した要素のグル
ープの隣接したものを、それらの隣接したグループの境
界の間の関係を基に結合し、イメージをワードオブジェ
クトに分割する。

【００１０】本発明によると、さらに、文字による情報
を主に含んだあるイメージ情報を規定するラスタライズ
されたデータの中のノイズを除去する方法を提供でき
る。この方法は以下のステップを備えている。まず、
（ａ）そのイメージの中から結合した要素を見つけ、
（ｂ）そのイメージ内の連結した要素のグループ毎に境
界を識別し、（ｃ）上記のステップ（ｂ）で識別された
境界を用いてテキスト行を探し出し、（ｄ）上記のステ
ップ（ｃ）で探し出したテキスト行内の連結した要素の
グループの隣接したものを、それらの隣接したグループ
の境界の間の関係を基に結合して、ワードオブジェクト
の境界を画定し、さらに、（ｅ）ワードオブジェクトの
境界内に入らなかった連結した要素のグループの全てを
ノイズとすることによって、これらをイメージから除去
可能とする。

【００１１】本発明はＯＣＲ技術を用いた分割方法に固
有の問題を防止することであり、そのためにワード（単
語）およびテキストストリングの基本的な特性を活用し
ている。特に、イメージを誘導したり、あるいは、その
イメージの作るプロセスに固有のシグナル対ノイズ比は
１つのキャラクターに対しては相対的に低いが、大きな
キャラクターストリングと対比するとそれは相対的に大
きくなる。さらに、ワード（語）とワードの間のスペー
スは、文字と文字との間のスペースより大きい傾向があ
り、従って、キャラクターストリングの分離および識別
を、個々のキャラクターの識別と比較できるほどまで改
善できる。ＯＣＲ法は、しかしながら、正しい識別を行
う前段階としてキャラクターの形態について幾つかの正
しい判断が要求され、その中には、アセンダー、デセン
ダー、カーブなどといったキャラクター（文字）の部分
的な識別も含まれ、これらは全て間違い易いものであ
る。本発明は、さらに、信頼性の高いワードの識別およ
び認識を可能とするものである。本発明に基づいて複数
のワードの境界を識別するには、最初にそのイメージ内
のテキストあるいはシンボルラインの特性を決定する必
要がある。続いて、その境界内の区分されたワードが、
相互に、あるいは公知のワードと対比される。従って、
対比を行うまでワードに関するは前提はなく、これによ
って後続の処理における比較の間違いや、間違った決定
の原因となる無効なキャラクターを基礎とした前提によ
る影響を除くことができる。

【００１２】コンピュータ処理されたテキストの潜在的
な用法を思案すると、少なくともあるケースにおいて
は、ワードのそれぞれの文字を導くことが処理上の要求
として課せられないことが決定された。従って、例え
ば、あるテキストイメージのキーワードサーチをする
際、ＯＣＲ技術を介してそれぞれのワードのそれぞれの
文字をコンバート（変換）するのではなく、１つあるい
はそれ以上のキーワードがあるか否かを、欠陥があるか
もしれないキャラクターコードから連続して決定する際
に、コンピューターは、何かを生成するのではなく、そ
のキーワードを表す形状とテキストイメージ内の複数の
ワードの形状とを比較し、その形状からキーワードが存
在するか評価する。このようなシステムで出力すると、
ユーザーが容認できる程度の精度でキーワードの存在を
示す何らかの表示を表せるものである。さらに、ここで
説明する新しい方法はキャラクターを認識するために設
計された幾つかの方法より処理スピードが早いと考えら
れる。またさらに、本発明はイメージ編集システムにも
適用でき、従って、本発明は説明している実施例に限定
されるものではない。

【００１３】ＯＣＲ法によって文字が正しく決定できな
い確率は比較的に低いと思われるが、プロダクト（積）
ルールを適用するとその頻度はワード全てに対し倍加し
て蓄積される。従って、ＯＣＲを用いて複数のワードを
キャラクターコードのストリングに変換すると、これら
のワードをサーチし、あるいは認識する以前にかなりの
エラーが発生するであろう。本発明はワードレベルにイ
メージデータを分割したものを用いて、通過するテキス
トを読んだり抽出する際に人間が用いているのと同様の
方法で連続したワードの認識を可能としている。さら
に、説明してあるワードの形状を認識するプロセスは幾
つかの効果を備えている。第１に、ビットマップイメー
ジデータは回復できないような状態で失われることはな
く、また、そのビットマップの合理的表示は残るので、
ユーザーは必要であればワードを決定するために再生さ
れたビットマップを確認できる。第２に、ワード全体を
用いることによって、それぞれの文字がワードの流れを
持ってそのワードを他のワードと比較する助けとなる。
あるワード内に形の崩れた文字があっても、これはワー
ドの形状の全体を識別するには殆ど影響を与えず、その
単語を表す２つの対比されたワードのイメージ同士が一
致する確率を若干減らすだけである。３番目として、小
さいワードは、本発明において最も間違って認識されや
すいのであるが、これが持っている情報は一般に少ない
ことである。従って、エラーが最も起こりやすいワード
は、情報を含んだ文章の中で最も重要でないワードとな
る。さらに、ＯＣＲ法の能力と比較すると、ＯＣＲ法は
キャラクターを多く持っているワードに対し間違った結
果となり易いのに対し、本発明は一般にもっと骨の折れ
るワードを識別する能力がある。

【００１４】ＯＣＲ法は、ビットマップから代表するキ
ャラクターコードに変換し、これによってビットマップ
の情報を含んだ内容を失うことがある。概ね、このプロ
セスは、キャラクターコードからオリジナルのビットマ
ップを得るような可逆的なものではない。しかしなが
ら、形状を基にしてワードを識別すると、本発明の１つ
に従って説明してあるように、認識するプロセスまでビ
ットマップの情報を持っていることができ、これによっ
てビットマップを再構築することができる。

【００１５】

【実施例】以下において、図面を参照するが、図面に示
されているものは本発明の望ましい実施例を示すための
ものであり、同等のものに限定するためではない。図１
は、一般化された処理システムの概要を示してあり、本
発明を有効に活用できる多くの状況をこれでカバーでき
る。一般に、ソースとなるイメージは、スキャナー、フ
ァクシミリ装置、あるいは記録システムなどのソースイ
メージ抽出システム２から抽出される。このソースイメ
ージはコンピュータ処理装置４に送られるが、処理装置
４は幾つかの公知の装置のいずれでも良く、ここで述べ
るような発明に係る装置でも良い。ユーザーインタフェ
ース（Ｕ／Ｉ）６に入力されたコマンドに応答して、処
理装置４は出力装置８に出力を行うが、この出力装置も
プリンター、ディスプレイ、ファクシミリ装置あるいは
他の記録装置であっても良い。基本的には、図１の上部
に示したように、入力文書がシステムに入れられ、そこ
から出力文書が回収される。

【００１６】以下において、イメージとはイメージビッ
トマップとして記述されたものを言い、ここではイメー
ジとは複数のラスタライズ（ラスタ化）された（走査線
に分解された）イメージシグナル（画像信号）として表
される。これらの信号は画素（ピクセル）と通常呼ばれ
ており、文書上で対応したマークやアクティブなポジシ
ョンを表現するときは一般に黒色で現され、これらによ
って文書やマークが作成される。これらの構成は、本発
明を記述するために用いられているが、白黒や２値のイ
メージなどに範囲が限定されるものではない。むしろ、
本発明はイメージを表す技術の広い範囲にわたって概ね
適用できるものである。さらに、ワードの境界を定める
本発明は、イメージ編集システムにも適用でき、従っ
て、本発明は、以下に述べる実施例に完全に限定される
ものではない。

【００１７】図２に、本発明の実施例であるワード（単
語）をその形状について決定、分割および比較するシス
テムを示してある。本システムのそれぞれの要素は多く
の装置であっても良く、あるいは、単に１つの装置内に
おいて１つのプログラムであっても良い。入力ビットマ
ップ１０によって始まるが、このソースは決められたも
のではなく、また、本発明の一部をなすものでもない。
ビットマップは最初に分割システム（セグメンテイショ
ンシステム）１２に送られ、そこで複数のワード、キャ
ラクターストリング、あるいは他の複数のキャラクター
からなる意味のあるユニットの境界が決定される。最初
に、イメージビットマップはデスキューワー（スキュー
戻し器）１４を通り、このデスキューワーはイメージ内
のテキストの配置の角度を決定し、その配向を修正す
る。このデスキュー操作によって作られたデスキューさ
れたイメージを用いて、ワードボクサー（ワード囲い
器）１６において複数のワードオブジェクト（例えば、
ワードあるいはキャラクターストリング）の境界が決め
られ、ワードの境界に沿って、そのイメージ内のテキス
トのラインの境界も識別される。単語分離器（ワードセ
グメンター）１８において、イメージビットマップに対
しワードの境界を用いて、そのイメージ内のそれぞれの
ワードグループが読みだす順番に分離され、これらが１
つのユニットとしてその後取り扱われる。ここで「ワー
ド（単語）」、「シンボルストリング（記号列）」ある
いは「キャラクターストリング（文字列）」とは連結し
たアルファベットあるいは句読点などの要素、あるいは
さらに広い範囲、サインやシンボルといったこれらが集
まると意味あるユニットとして単一のユニットを形成す
るものである。このような解釈可能なユニットは、イメ
ージの中で特徴付けられており、そのユニット自体を構
成する隣接する要素、サインあるいはシンボルを分離す
る隙間より大きな隙間によって区別されている。この点
で本発明は異なった適用が可能であり、例えば、文章や
単語の編集システムにおいて、イメージを連続して処理
（操作）するため、独立した単語の形状を使用できる。
従って、本発明は単語認識関係だけに限定されるもので
はない。

【００１８】次に、形状比較器２４がそのイメージ内の
個々のワードを現すワードの形状を、辞書２６からの既
知あるいは既に識別されたワードの形状と対比する。他
の例として、形状比較器２４をイメージ１０から決定さ
れた２つあるいはそれ以上のワードの形状を比較するた
めに用いても良い。望ましい実施例において、コンパレ
ーター２４は比較されるワード形状同士の間の類似度を
特徴付けるためにハウスドロフ（Ｈａｕｓｄｏｒｆｆ）
距離を変数として用いている。さらに重要なことは、ワ
ードの形状比較器２４は、認識されていないキャラクタ
ーのストリングからのワード形状を、既知のワード形状
と比較するだけに限定されないことである。単純な文に
おいては、コンパレーター２４は、１つのワード形状を
他のワード形状と比較する単なる装置であり、ワード突
合せ指示出力によって表される２つの形状の間の類似度
を相対的に示す。

【００１９】ワード形状を決定し、比較する方法あるい
は装置の概略を示すために、各々の工程をここで詳しく
説明する。本発明の処理をさらに説明するために、図３
にサンプルイメージを示してあり、これは公衆の資産と
なったものから取ってあり、その中には文章が何行か含
まれている。図３は、テキスト（文章）のページ上にイ
メージが現れるようすの概略を説明し、図４、５および
６は、そのページのスキャンされたイメージの一部を示
してあり、ここではビットマップのイメージを拡大して
示してあり、そこには公知のＯＣＲ技術における問題が
示されている。図３を見ると、例えば、このテキストイ
メージの２行目のワード５０のイメージは「formation
」であり、４行目のワード５４のイメージは「automob
ile」であり、幾つかの文字が繋がって見える。

【００２０】さらに、数多くの公知の微小角度のイメー
ジの回転する方法、あるいはスキューの修正方法を、こ
のイメージのデスキューされた表示を得るために用いる
ことができる。

【００２１】次のプロセスのステップにおいて、ワード
ボクサー１６がデスキュー（傾きが除去）されたイメー
ジに対し、図７および図８に示すフローチャートに記載
されたプロセスステップに従った操作をする。ワードボ
クサーで実施されるプロセスステップの以下の説明は、
プログラム可能なコンピューターにおいて実行される操
作を用いて説明してあるが、本発明をこの実施例に限定
しているのではない。ステップ８０が開始すると、ワー
ドボクサーは先ず図３の入力イメージを読み、このイメ
ージは必要であればデスキューワー１４でデスキューさ
れている。この機能は、例えば、ハードディスクあるい
は同様のストレージ（記憶）装置といったメモリーに収
納されたイメージに単にアクセスするものであり、さら
に、そのイメージをそのイメージのために割り当てられ
たメモリーの場所にコピーし、さらに、必要であれば、
そのイメージにポインターをアサイン（割り当て）す
る。

【００２２】イメージが抽出（検索）されると、ステッ
プ８２はそのイメージの中の連結した要素を見つける。
このプロセスはストアーされた２値イメージの中から黒
色の画素を見つけるだけである。黒色の画素が見つかる
と、対話形（相互作用）プロセスが継続して隣接する黒
色の画素、さらにそれらに隣接する黒色の画素を次々と
見つけ、連結した画素の範囲が決まるまで、継続して行
う。さらに詳しく説明すると、８隣接定義(eight-neigh
bor connection definition)が用いられる。すなわち、
１つの画素が他の画素に対し８つのコンパス（範囲）方
向の一つに隣接すれば、それらは隣接していると考えら
れ、同じ連結要素となる。さらに、そのイメージ内の全
ての黒色の画素が他の黒色の画素と適切に関係付けら
れ、連結した要素が形成されるまでこのプロセスは繰り
返される。図４に示すように、連結した画素が関係付け
られると、角形のボックスあるいは境界５８が識別さ
れ、これは連結した画素の最大の範囲を反映したものと
なり、角形のボックスはそのイメージのｘ−ｙ座標に沿
って配向される。

【００２３】他の実施例において、オリジナルイメージ
（原画像）の複写（コピー）が膨張（ディレイション）
操作を用いて作られ、ワードの文字やシンボルを表す複
数の黒い画素が互いに連結すると共に、そのイメージ内
の隣接するワードが連結するようにはイメージをそれほ
ど膨張させない。次に、膨張させたイメージを用いて、
個々のワードを形成する連結した要素を見つけることが
できる。残念ながら、この方法の欠点は膨張操作を行う
スピードが膨張させる値の関数であり、かなりの処理時
間を必要とすることである。さらに、１つの膨張用のし
きい値を用いると（すなわち、全体のイメージに対し同
じだけ膨張させると）、包括的でありすぎて、関係のな
いシンボルのストリング同士の間に望ましくない連結が
発生する原因となる。望ましくは、イメージの一部に適
用される膨張の度合いは、連結した要素のスペーシング
の特性を関数としてライン毎に決めるべきである。

【００２４】イメージ内の全ての連結した要素のグルー
プの周りに領域を示すボックス（バウンディングボック
ス）が規定されると、図４にイメージの一部を用いて示
してあるように、連結した要素のボックスあるいは境界
の識別されたセットの中から、ワードボクサーはバッド
（悪い）ボックス（図示されていないが）を見つけ出す
（解析する）。バッドボックスは、以下のように特徴付
けられる。（ａ）背の高いボックスであって、その高さ
が全イメージの高さより約２０パーセント以上高く、そ
のイメージ内のほぼ９０パーセンチル（百分位数）の高
さより大きなボックス、あるいは（ｂ）短いボックスで
あって、９０パーセンチルの高さのほぼ１／３より下の
高さのボックス。分析が終わると、残ったボックスは次
に、ドキュメントの垂直あるいはｙ軸（ｙ軸はデスキュ
ーされたテキスト行の方向に対し垂直な軸と考えられ
る）に投影されヒストグラムを形成し、これによってボ
ックスの境界の数がｙ軸に沿ったポジションの関数とし
て反映され、図３のイメージ全てに対し図９に示したよ
うになる。望ましい実施例においては、ｙ軸に投影され
たヒストグラムデータに対し、テキストラインの位置を
決定する前にガウシンアン分布に従ったスムージング
（平滑化）を行っても良い。次に、ヒストグラムの結果
から、暫定的なラインあるいは行の境界がイメージのｙ
軸に沿ったポジションとして識別され、このラインはヒ
ストグラムにある谷にあたる。例えば、図９に示してあ
るように、複数の谷あるいは最低点１２０は、隣接する
ピークあるいは最高点１２２同士の間に識別され、さら
に、谷１２０によってライン間のスペースの位置が判
り、これらを図５に参照番号６２として示してある。こ
の操作はステップ８８によって行われる。最後に、暫定
（予備）的なテキストラインあるいは行（ｒｏｗ）が決
まると、連結した要素のボックス全てを規定された行に
割り当てる機能が動作する。

【００２５】テキストラインあるいは行６２の位置が暫
定的に決まると、連結した要素のバウンディングボック
スであって２つの行に横たわったものを、先ず特定の行
に割り当てる手順が行われる。フローチャートのステッ
プ９２、９４、および９６にあるように、この手順にお
いては前のステップであるステップ８８で識別された暫
定的なテキストラインが正しいかのチェックがさらに行
われる。先ず最初に、追って説明するように、テキスト
行の分離が失敗ではないことを確認する機能が動作す
る。一般に、連結した要素に着目すると、あるテキスト
行の中の投影された部分は、それらがｙ軸方向にひどく
重なっていないかぎりｘ方向に投影された部分がそれほ
ど重なることはない。ステップ９２において識別された
ように、投影した部分が重なっていると、その識別され
た行は２つあるいはそれ以上の別れた行である可能性が
高く、ｙ方向に投影されたグラフ内にさらに最低点を見
つけて分離しなければならない。また、テキストイメー
ジ内の例えば、「ｉ」の上のドットやワードの下線とい
った連結した要素の小さなグループの回りのバウンディ
ングボックスは無視し、テキスト行をさらに分離するよ
うな間違ってトリガーを引き起こさないようにしなけれ
ばならない。

【００２６】２番目に、ステップ９６にあるように、ｘ
軸方向にそって互いに重なった残りのボックスを、この
マージ（併合）された要素を囲う境界をもった１つのボ
ックスにマージする。一般に、このマージプロセスでは
１つの行の中の複数のボックスを見渡し、ｘ方向に重な
り、さらに、ｙ方向にも最小限ある程度かさなったボッ
クスを識別する。このｙ方向の最小限の重なりは、約５
０パーセント程度が良い。例えば、スキャンしたイメー
ジが「ｆｏｒｔ」というワードを含んでいた場合、スキ
ャンによって、「ｆ」のボックスの右端が「ｏ」ボック
スの左端と重なることがあり、従って、x 軸に沿って重
なったボックスの要素をマージすると、「ｆ」と「ｏ」
のボックスがマージされることになる。この手順におい
て、サイズのテストも行われ、所定のサイズより小さな
ボックスはマージされない。続いて、この小さなボック
スはイメージ内のノイズとして識別され削除されること
ができる。

【００２７】３番目に、テキスト行が正確に検出される
と、この行内の残りのボックスは連結した要素であり、
これらの内のあるものはワードあるいは意味を解釈でき
る同様のエレメントを形成するためにさらに繋げる必要
がある。さらに隣接する要素を結合することにより、ス
キャンされたイメージ内のワードを形成するために、ス
テップ９８においてテキスト行内の隣接する要素間の分
離距離のヒストグラム化を継続して行う。一般的なテキ
スト行の分布の結果を図１０に示してあり、破線のカー
ブが行のヒストグラムデータを示し、実線のカーブはそ
れを滑らかにしたものである。期待通り、得られたカー
ブは２値モデルの分布を概ね示し、ピーク１３０および
１３２の第１のセットはキャラクター間のスペーシング
分離距離の分布を表しており、これに対し、第２のピー
クは幅が広く、頻度も低く、隣接するワード間のセパレ
ーションを反映している。さらに、ある条件下では、単
一モデルの分布も現れる。２値（ｂｉ−ｍｏｄｅｌ）モ
デル分布の２つの最大値が規定され、これら２値モデル
の分布の２つの最大値は、ステップ１００において、分
離用のしきい値を先ず識別するのにも用いられ、さらに
続いて、ワード間のセパレーション（分離）とキャラク
ター間のセパレーションを区別するために用いられる。

【００２８】この分離用のしきい値を用いて、次に、テ
キスト行内の隣接するボックスのうち、ｘ方向のセパレ
ーションが分離を示すしきい値より小さなものをマージ
するために、図８のステップ１０２の手順がコールされ
る。この手順では、単純に、それぞれの行にある連結し
た要素のセットで隣接したものの中で、分離を示すしき
い値より短い距離だけ分離されているものが全てマージ
される。ワード内の隣接するキャラクターをマージする
と、その結果得られたボックス構造は、各々のテキスト
行内のワードの境界を反映しており、例えば、図６では
複数のワードの周りの複数のボックス６６で示してあ
る。この時点で、小さなマージされなかったボックスを
イメージ内のノイズと認識し、それを除くオプション操
作を実施しても良い。続いて、読む順番（上から下、お
よびそれぞれのテキスト行の左から右）に並べられたボ
ックスのリストがステップ１０４で作成される。このボ
ックスリスト内の配列それぞれが、入力されたイメージ
内のそれぞれ１つのワード、ピクチャー、句読点、ある
いは意味を解釈できる同等のユニットのバウンディング
ボックス６６を規定している。

【００２９】図２に戻って、例えば、イメージ内のワー
ドの境界を表すボックスリストがワードボクサー１６に
よって作成されると、このリストおよびビットマップイ
メージはワード分割器（ｓｅｇｍｅｎｔｅｒ）１８に送
られる。一般に、分割器（セグメンター）１８は、一つ
のイメージ処理装置であり、入力されたイメージ１０の
ビットマップをボックスリスト内に規定されたワードの
境界に従って一連のより小さなビットマップイメージに
分割できるものである。ワードセグメンター１８からの
出力はビットマップイメージの一連の流れ（シリーズ）
であり、それぞれのイメージは、ワードボクサー１６に
よって識別されたワードあるいは意味を解釈できる同等
のユニットを表すビットマップを備えている。好ましい
実施例において、ワードセグメンター１８は、ワードボ
ックスによって囲われた入力イメージのそれぞれの部分
に対して、分離されたビットマップを実際に発生するも
のでない。むしろ、セグメンターは単に窓開けの操作を
したり、あるいはビットマップのある部分を選択するこ
とによって、特定のボックスの境界内であるとして規定
されたそのイメージのその部分へのアクセスを許可して
いる。先に説明したように、ワードセグメンター１８の
出力はワードコンパレーター２４に送られ、そこでワー
ドは他のビットマップイメージと比較され、セグメンタ
ー１８から出力されたイメージあるいは辞書２２から供
給されたワードとの間に合致する部分があるか否かが判
断される。

【００３０】ワードイメージを比較するための１つの好
ましい方法としてハウスドロフ距離を計る技術が使用さ
れており、これは１９９１年６月のヒュッテンロッチャ
ーらによる「ハウスドロフ距離を用いたイメージの比
較」（ＴＲ９１−１２１１）、および１９９２年１２月
の「ハウスドロフ距離を用いたイメージを比較するため
の多重解像技術」（ＴＲ９２−１３２１）に記載に関連
しており、いずれもカーネル大学のコンピューターサイ
エンス学部から出版されている。

【００３１】一般に、ボックス化されたワードイメージ
同士を比較する方法として、特定のボックスへ識別され
た連結された要素を比較するため２段階プロセスが用い
られる。以下で採用しているように、比較される２つの
イメージをボックス１およびボックス２とする。これら
の分割されたイメージ部分（イメージセクション）は、
同一のイメージの２つのセクションであっても良く、異
なったイメージの２つのセクションも良く、あるいはあ
るイメージの１つのセクションと、入力されたキャラク
ターストリングあるいはワードから電子的に作成された
１つのセクションであっても良い。図２においては「辞
書」として表されているが、ブロック２６の一般的な目
的は、他のイメージセクション（ボックス１）と比較す
るためのイメージセクション（ボックス２）を提供する
ことである。ボックス１およびボックス２のセクション
を識別すると、それぞれにあるイメージは「モデル」と
呼ばれ、さらに、このモデルを膨張したものが作られ以
下でこれを「イメージ」と呼ぶ。コンパレータ２４で用
いられている比較技術の概略は、先ず、モデル１内の画
素、すなわち、ボックス１で囲われたセクション内のオ
リジナルの画素を、ボックス２で表された画素の膨張さ
れた表現のイメージ２内の画素と比較し、この比較から
第１の距離が見いだされる。同様に、このプロセスが逆
転され、モデル２内の画素であるボックス２で囲われた
セクションのオリジナルの画素と、ボックス１で代表さ
れた画素の膨張された表現のイメージ１内の画素が比較
され、第２の距離がこの比較から見いだされる。続い
て、この２つの距離が数値的に処理され、ボックス１お
よびボックス２で囲われたこれら２つのイメージセクシ
ョンの類似性の度合いが決定される。

【００３２】上記の比較を行うプロセスの概略を図１１
に示してある。最初にワードコンパレータ２４は、ワー
ドイメージの「辞書」２６に規定された、あるワードイ
メージ（ボックス２）の境界内の画素をコピーする。こ
れらの画素は以下でモデル２とされる。ワードコンパレ
ータは次にメモリーのモデル２のコピーをとり、これを
膨張してイメージ２（膨張されたイメージ）をステップ
２００で作成する。すなわち、モデル２の「オン」ある
いは黒色の画素全てに対し、これらの周囲に隣接するも
のをオンあるいは黒くする。隣合ったものの正確な数は
膨張半径（ディレイションラディウス）として規定され
ており、予め決められている。例として、好ましい膨張
半径が画素１．０個であると隣接した４つがオンにな
り、半径を画素１．４個とすると隣接する近傍の画素８
つが全てオンになる。さらに、膨張半径を大きくする
と、同一ではないワード同士を間違って合致すると見な
す可能性が大きくなる。

【００３３】次に、ステップ２０２において、入力イメ
ージ１０全体のコピーが上述したように膨張され、ボッ
クスリスト内に規定された全てのボックスの膨張された
境界内の画素は、この膨張された入力イメージから複写
される。これらの画素のセットは、個々の膨張された
「ワード」を表し、以下においてこれらをイメージ１
（入力イメージの膨張された部分）とし、これに対し、
入力イメージのオリジナルで膨張されていないワードセ
グメントを以下においてモデル１とする。ボックス２の
イメージと同様に、それぞれのイメージ内のワードを表
す画素は太って見え、対応するモデルよりさらに詰まっ
た状態となる。続いて、プログラムはボックスサイズ同
士を比較し、合致するであろうボックスあるいはイメー
ジセクション（すなわち、入力イメージおよび「辞書」
イメージの両方において同じワードが入っていると思わ
れるボックス）のクラス分けを作成する。ある入力イメ
ージのある部分を公知のあるいは「辞書」のワードセグ
メントと比較する場合を説明しているが、本発明は同
じ、あるいは異なるイメージ内のワードセグメントを比
較でき、本発明の動作を説明するために示した例に限定
的に解釈されてはならない。

【００３４】入力イメージと「辞書」に対しこれらの関
連する膨張されたイメージが作成されると、１対の入力
（ボックス１）および辞書（ボックス２）のイメージ
が、比較のためにステップ２０４において選択される。
次に、コンパレータ２４は、ステップ２０６において、
これら２つのボックスは「十分に」寸法が近いか否かを
決定するためのテストをする。すなわち、これらのボッ
クスがそれぞれの長さおよび高さが所定の範囲内である
か否かである。所定の範囲内でなければ、ステップ２０
８でより多くのボックス（イメージセクション）が利用
できることが決定されるとステップ２０４において、新
しいイメージのペアー（入力および辞書）が比較するた
めに選ばる。そうでない場合は、選択された入力および
辞書の一対のペアーの境界を示すボックスはほぼ同じサ
イズであると想定され、一対のワードボックスのそれぞ
れに対し、以下のようなプロセスを用いてそれらが合致
しているか否かを見るためにさらに比較を行う。

【００３５】１）モデル１がイメージ２に重ね合わされ
る。２）黒いイメージ２のポイントに合致する黒いモデル１
のポイントの数を計数し、次に黒いモデル１のポイント
の全数で割る（ステップ２１４）３）合致した黒い画素のパーセンテージが所定のしきい
値のパーセンテージより上であれば、これらのボックス
は第１の検証（事例）では合致していると決定される
（ステップ２１６）４）モデル２がイメージ１に重ね合わされる。５）これら２つのイメージセクションは上記のステップ
２と同じく再び比較され、合致した黒い画素の第２のパ
ーセンテージを決定する（ステップ２２０）６）この第２のパーセンテージが所定のしきい値のパー
センテージより上であれば、これらのボックスは第２の
検証で合致していると判断される（ステップ２２２）。
さらに、７）両方の検証においてこれらのイメージセクションが
一致している場合は、これらは同じワードであると考え
られ、さらに、図２のコンパレータ２４からワードが合
致した表示が出力される。（ステップ２２４）

【００３６】繰り返すと、本発明は、イメージデータの
配列内に現れたテキストあるいはキャラクターストリン
グの境界をその形状から決める方法あるいは装置であっ
て、このストリングを構成する１つあるいは複数のキャ
ラクターを個々に検出あるいは識別しなくても良い方法
に関するものである。この方法では、ワード内の連結さ
れた要素を検出し、まずテキストラインの境界を決め、
そして、テキスト行内の連結された要素を分離するもの
である。続いて、その行内の要素間の関係（すなわち、
重なり、キャラクター間のスペーシング、およびワード
間のスペーシング）に基づき連結した要素の隣合ったセ
ットを繋げて、ワードあるいは意味の解釈できる同様の
ユニットにする。

【００３７】この発明は好ましい実施例を参照して説明
してあるように、コンピュータシステムにおいて使用で
きるように設計されたソフトウェア手段として説明して
あり、所定の指示を実行する１つあるいはそれ以上のマ
イクロプロセッサーあるいは計算能力のある処理装置を
用いて、これらに対しイメージデータの処理に関して上
記にて説明したような操作を行えるようにしている。さ
らに、本発明は、ここで説明した処理を行えるように設
計された特定のハードウェアを用いても実現できる。さ
らに、本発明は、大きなワード認識システムの一部とし
て説明してある。しかし、先に記載したように、本発明
はテキストあるいはイメージの編集、あるいはそれに係
わるシステムにも用いることが可能である。現実的に
は、断続的なワードオブジェクトを分離したり、あるい
は関係のないマークを除くことが必要ないずれのシステ
ムにも本発明を用いることができる。最後に、本発明は
テキスト形式のイメージを元に説明してある。しかし、
テキスト形式でないイメージを部分を含んだイメージに
対しても同様に適用することもできる。

【図面の簡単な説明】

【図１】本発明を使用できるイメージ処理システムの概
略のシステムダイヤグラムである。

【図２】新規のワードイメージの認識システムの実施例
を構成するシステム要素の組み合わせを示すブロックグ
ラムである。

【図３】新規のプロセスを説明するために例としたテキ
ストを抽出したイメージサンプルを示す図である。

【図４】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。

【図５】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。

【図６】本発明のプロセスの途中の段階の、例としたテ
キストをスキャンしたイメージの一部を示す図である。

【図７】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。

【図８】あるイメージ内のワードの境界を決めるための
プロセスを示すフローチャートである。

【図９】図７のステップ８７で求められたヒストグラム
データを示すグラフである。

【図１０】図８のステップ９８で求められたヒストグラ
ムデータを示すグラフである。

【図１１】この発明により規定されたワードの境界内の
イメージを対比するためのプロセスの概略を示すフロー
チャートである。

【符号の説明】

２・・ソース４・・イメージ処理６・・ユーザーインタフェース８・・出力先１０・・入力イメージ１４・・デスキューワー１６・・ワードボクサー１８・・ワードセグメンター２４・・ワード比較器２６・・ワードイメージの「辞書」

Claims

【特許請求の範囲】

【請求項１】あるイメージを規定するラスタ化された
データの中から少なくとも１つのワードオブジェクトを
抽出する方法であって、（ａ）前記イメージの中から結合した要素を見つけ、（ｂ）前記イメージ内の連結した要素のグループ毎に境
界を識別し、（ｃ）前記ステップ（ｂ）で識別された前記境界を用い
てテキスト行を探し出し、さらに、（ｄ）前記ステップ（ｃ）で探し出した前記テキスト行
内の連結した要素のグループの隣接したものを、それら
の隣接したグループの境界の間の関係を基に結合し、イ
メージをワードオブジェクトに分割する、ことを含むワードオブジェクト抽出方法。
【請求項２】テキスト情報を主に含んだあるイメージ
を規定するラスタ化されたデータの中のノイズを除去す
る方法であって、（ａ）前記イメージの中から結合した要素を見つけ、（ｂ）前記イメージ内の連結した要素のグループ毎に境
界を識別し、（ｃ）前記ステップ（ｂ）で識別された境界を用いてテ
キスト行を探し出し、（ｄ）前記ステップ（ｃ）で探し出した前記テキスト行
内の連結した要素のグループの隣接したものを、それら
の隣接したグループの境界の間の関係を基に結合して、
イメージをワードオブジェクトの境界を画定し、さら
に、（ｅ）ワードオブジェクトの前記境界内に入らなかった
連結した要素のグループの全てをノイズとすることによ
って、これらをイメージから除去可能とする、ことを含むラスタ化イメージ内のノイズ除去方法。