JPH0850633A

JPH0850633A - 文字認識装置

Info

Publication number: JPH0850633A
Application number: JP7089442A
Authority: JP
Inventors: Aruuhatsusen Hatsusen; アル−ハッセンハッセン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-04-15
Filing date: 1995-04-14
Publication date: 1996-02-20
Anticipated expiration: 2021-07-05
Also published as: JP3792747B2; EP0677817A2; EP0677817B1; US5809167A; DE69519323T2; DE69519323D1; EP0677817A3

Abstract

(57)【要約】【目的】グレースケール画像に対するセグメンテーショ
ン処理を可能とし、グレースケール画像に対する文字認
識を可能とする。【構成】パーソナル画像処理コンピュータシステムは、
コンピュータ化したローカルまたはワイドエリアネット
ワークに接続して走査することが可能で、文字が形成さ
れているドキュメントの文字を識別する。このシステム
はドキュメントを走査してドキュメントのグレイスケー
ル画像を得て、グレイスケール画像を閾値と比較するこ
とにより、グレイスケール画像から２値画像を生成し、
２値画像をセグメンテーション処理して２値画像内の個
々の文字の位置を決定し、また個々の文字の形状を決定
し、２値画像における文字の位置と形状に基づいて個々
の文字についてグレイスケール画像情報をグレイスケー
ル画像から抽出し、抽出されたグレイスケール画像情報
を認識処理して文字の識別を決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は光学文字認識システムに
関し、特にドキュメント画像（images of documents）
を走査してコンピュータへ格納する方法及び装置であっ
て、ドキュメント画像をテキストブロック及び非テキス
トブロックに区分し、テキストブロックにおける文字の
識別（identity）を決定する方法及び装置に関するもの
である。

【０００２】

【従来の技術】近年、書類になったドキュメントを走査
してコンピュータ化画像を形成し、テキスト領域内の画
像を分析して、テキストデータ内の個々の文字を認識
し、認識された文字に対応する、コンピュータによる読
み取りが可能な文字コードのファイルを形成することが
できるようになった。そうしたファイルはワードプロセ
ッシング、データ圧縮、または他の情報処理プログラム
で操作することが可能であり、また、照会ベース（quer
y-based）のテキストデータのサーチに応じたドキュメ
ント画像の検索にも使用することが可能である。これよ
りそうしたシステムを「文字認識システム」と称する
が、これらのシステムは、タイプの打ち直しや、書類に
なったドキュメントからテキストデータを再入力する必
要をなくすことができるので有益である。例えば、ファ
クシミリにより送信されたり、マイクロフィルムから、
または写真複写により再生されたドキュメントに認識処
理を行ない、文字の文字コード（例えば、ＡＳＣＩＩ文
字コード）やドキュメントの数字を含むコンピュータテ
キストファイルを形成することが可能である。

【０００３】従来の文字認識システムは書類になってい
るドキュメントを走査してドキュメントの２値画像を形
成する。「２値画像」とは、画像の各画素が２値のゼ
ロ、つまりドキュメントの白領域を表す画素であるか、
２値の１、つまり黒領域を表す画素のどちらかである画
像である。そして、２値画像（または「白黒画像（blac
k-and-white image）」）に対し、認識処理を行な
い、ドキュメントのテキスト領域内の文字の識別を決定
する。

【０００４】最近、書類形態のドキュメントを走査して
ドキュメントのグレイスケール画像を形成すれば、認識
精度が大幅に向上することが判明している。「グレイス
ケール」とは、ドキュメントの各画素が、２値のゼロで
も２値の１でもなく、２つ以上の強度レベルのうちの１
つ、例えば４レベル、１６レベル、２５６レベルなどの
強度レベルのうちの１つにより表される画像のことであ
る。そうしたシステムは、本出願人による米国特許出願
第０８／１１２、１３３号「遷移グラウンドデータに基
づくＯＣＲ分類（OCR Classification Based On Transi
tion Group Data）」（１９９３年８月２６日出願）に
記載されており、その全内容は参照により本願に含まれ
ているものとする。幾つかの例では、２値画像よりもグ
レイスケール画像を用いた方が認識精度が向上してお
り、ドキュメントの１ページに付き１つのエラーが５０
０ページに付き１以下のエラーと減少している。

【０００５】図１は２値画像とグレイスケール画像の相
違を表しており、上述のような認識精度がいかにして得
られるかを理解するための図である。図１（ａ）は、文
字「ａ」の上に画素解像度を表すグリッド１が重ねられ
た状態を表している。文字「ａ」は、グリッド１を用
い、ＣＣＤ列など感光性の素子で走査される。例えば、
グリッド１は４００ドット・パー・インチ（dot per in
ch）（dpi）の解像度を表している。図１（ｂ）に示さ
れるように、各画素について、文字「ａ」がその画素を
有効にする（activate）のに十分な程度にその画素に対
応する感光性素子を暗くしているかどうかに基づいて、
各画素に２値の１または２値のゼロを割り当てることに
より、文字「ａ」の２値画像が形成される。こうして、
図１（ａ）の画素２ａは文字「ａ」である黒い領域内に
完全に存在しているので、図１（ｂ）の黒画素２ｂとな
る。一方、画素３ａは文字領域から完全にはずれてお
り、白画素３ｂとなる。画素４ａは部分的に文字領域内
であるが有効な文字部分の画素としては不十分に文字領
域にかかっているため、白画素４ｂとなる。一方、画素
５ａは文字部分の画素として有効な画素になるのに十分
に文字領域内に含まれており、黒画素５ｂとなる。

【０００６】図１（ｃ）は同一の文字「ａ」のグレイス
ケール画像を表している。図１（ｃ）に示されるよう
に、完全に文字領域内の画素（２ａ）や完全に文字領域
外の画素（３ａ）は、図１（ｂ）と同様の完全な黒や白
のグレイスケールレベルの画素である。一方、部分的に
文字領域内であった画素は領域範囲内に相当する量を表
すグレイレベルを割り当てられる。こうして、４レベル
のグレイスケール画像を表す図１（ｃ）において、画素
４ｃ及び５ｃは、夫々の領域内の量に基づいて、画素４
ｃは低グレイスケール値を与えられ、画素５ｃはより高
いグレイスケール値を与えられている。こうして、走査
プロセスの所産により、図１（ａ）に示されるような本
来白黒のドキュメントを走査し、基本的には文字エッジ
に、文字領域内の量に依存して割り当てられたグレイス
ケール値を持つ、図１（ｃ）のようなグレイスケール画
像とすることが出来る。

【０００７】図１（ｂ）、１（ｃ）を比較すると、図１
（ｃ）には付加的な細かい部分が、特に文字エッジに存
在することがわかる。この付加部分は基本的には認識精
度を向上させるためのものである。

【０００８】しかし、個々のグレイスケール文字画像を
認識処理に送るために、個々の文字のグレイスケール画
像をどのようにドキュメントのグレイスケール画像から
抽出するかという点に問題がある。さらに詳しくは、認
識精度は、１文字が始まる場所と、次の１文字が終わる
場所を決定する能力に多いに依存しているため、文字の
グループよりも単一の文字に対して認識処理を行なって
いる。

【０００９】図２はこの状況を表すもので、代表的なド
キュメントの１ページを示している。図２において、ド
キュメント１０は２欄形式になっている。ドキュメント
は、タイトルに適切な大きいフォントサイズの情報を含
む、タイトルブロック１２と、カラーまたは中間調の絵
を含むピクチャーブロック１３と、個々の文字の行のテ
キスト情報を含むテキストブロック１４と、非テキスト
であるグラフィック画像を含むグラフィックブロック１
５と、テーブルのテキストまたは非テキストのボーダー
（borders）またはフレームに囲まれた数値情報を含む
テーブルブロック１６と、説明分（キャプション）に適
切な小さいフォントサイズの情報であって、通常グラフ
ィックまたはテーブル情報のブロックに関連している、
キャプションブロック１７から成っている。

【００１０】認識処理に先立ち、ドキュメントのグレイ
スケール画像を形成するために、ドキュメント１０を走
査する際、グレイスケール画像のどの領域がテキスト領
域で、どの領域が非テキスト領域であるかを決めること
と、さらに、テキスト領域に対して、どこに個々の文字
が位置しているかを決めることが必要である。以降この
処理を「セグメンテーション処理（segmentation proce
ssing）」と称する。セグメンテーション処理により位
置付けられた後に、個々の文字に認識処理を行ない、文
字を識別して文字のテキストファイルを形成することが
できる。

【００１１】

【発明が解決しようとする課題】従来の２値画像に対す
るセグメンテーション処理技術は、一般に正確にテキス
トを非テキスト領域から分離できず、テキスト領域内の
個々の文字の位置を正確に識別できないという点におい
て不十分であった。さらに、グレイスケール画像に対し
ては、現在のところセグメンテーション処理技術は知ら
れていない。

【００１２】本発明は上述した従来の技術状態に鑑みて
なされたものであり、グレースケール画像に対するセグ
メンテーション処理を可能とし、グレースケール画像に
対する文字認識を可能とする文字認識装置を提供するこ
とを目的とする。

【００１３】また、本発明の他の目的は、走査入力され
たグレースケール画像についてセグメンテーション処理
を行い、グレースケール画像の文字について文字認識を
行うと共にその結果を格納することを可能とすることに
ある。

【００１４】また、本発明の他の目的は、グレースケー
ル画像を用いた認識処理の結果と２値化画像を用いた認
識処理の結果とに基づいて認識結果を決定することを可
能とし、より高精度に認識を行うことを可能とすること
にある。

【００１５】また、本発明の他の目的は、検出されたフ
ォント特性に基づいて認識処理方法を選択することを可
能とし、より精度よく文字認識を行う文字認識装置を提
供することにある。

【００１６】

【課題を解決するための手段】及び

【作用】上記の目的を達成する本発明の文字認識装置
は、文字を含むグレイスケール画像における文字を識別
する文字認識装置であって、前記グレイスケール画像を
閾値処理して２値画像を得る閾値処理手段と、前記２値
画像をセグメンテーション処理して個々の２値の文字画
像の位置を決定するセグメンテーション手段と、各個々
の２値文字画像をテンプレートとして用いて前記グレイ
スケール画像からグレイスケール文字画像を抽出する抽
出手段と、抽出されたグレイスケール文字画像を認識処
理して文字の識別を決定する認識処理手段とを備える。

【００１７】また、上記の他の目的を達成する本発明の
文字認識装置は、文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメ
ントを走査して前記ドキュメントのグレイスケール画像
を得る走査手段と、前記グレイスケール画像を閾値と比
較することによって前記グレイスケールから２値画像を
生成する生成手段と、前記２値画像をセグメンテーショ
ン処理して前記２値画像内の個々の文字画像の位置を決
定し、また前記個々の文字の形状を決定するセグメンテ
ーション手段と、前記２値画像における文字の位置及び
形状に基づいて、各個々の文字について前記グレイスケ
ール画像からグレイスケール画像情報を抽出する抽出手
段と、抽出されたグレイスケール画像情報を処理して文
字の識別を決定する認識処理手段と、前記文字の認識を
テキストファイルに格納する格納手段とを備える。

【００１８】また、上記の他の目的を達成する本発明の
文字認識装置は、文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメ
ントを走査して前記ドキュメントのグレイスケール画像
を得る走査手段と、前記グレイスケール画像を閾値処理
して２値画像を得る閾値処理手段と、前記２値画像をセ
グメンテーション処理して個々の２値文字画像の位置を
決定し、また前記２値文字画像の属性を決定するセグメ
ンテーション手段と、前記２値文字画像の１つをテンプ
レートとして用いて、前記グレイスケール画像からグレ
イスケール文字画像を抽出する抽出手段と、抽出された
グレイスケール文字画像を認識処理して文字の第１の識
別を得る第１の認識処理手段と、前記１つの２値文字画
像を認識処理して文字の第２の識別を得る第２の認識処
理手段と、前記セグメンテーション手段により決定され
た文字属性に基づいて、第１及び第２の識別間の多義性
を解決する手段とを備える。

【００１９】更に、上記の他の目的を達成するための本
発明の文字認識装置は、文字を含む画像における文字を
識別する文字認識装置であって、前記画像における文字
のラインの位置を決定する位置決定手段と、各ラインの
文字のフォント特性を判定する判定手段と、前記判定手
段により判定されたフォント特性に基づいて、複数の認
識処理技術の１つを選択する選択手段と、各ラインから
個々の文字画像を抽出する抽出手段と、選択された認識
処理技術に従って、各抽出された文字画像を認識処理す
る認識処理手段とを備える。

【００２０】また、本発明の好ましい一態様によれば、
セグメンテーション処理技術を含む、向上されたグレイ
スケール文字認識システムが提供される。

【００２１】本発明によれば、グレイスケール画像を閾
値処理することによって２値画像を得て、得られた２値
画像内の個々の文字の位置、個々の文字の形状を決定す
るためにセグメンテーション処理を行ない、２値画像の
位置と形状を用いて、各文字のグレイスケール画像をグ
レイスケール画像から抽出することにより、ドキュメン
トのグレイスケール画像における個々の文字を抽出し、
認識処理を行う。そして、抽出された各文字のグレイス
ケール画像に認識処理を行なう。

【００２２】このように、本発明の文字認識システム
は、ドキュメントを走査してそのドキュメントのグレイ
スケール画像を得て、グレイスケール画像と閾値とを比
較してグレイスケール画像から２値画像を生成すること
により、文字が形成されているドキュメントにおける、
それらの文字を識別する。２値画像をセグメンテーショ
ンによって分割し、２値画像内の個々の文字の位置と、
個々の文字の形状を決定する。２値画像における文字の
位置と形状に基づいて、個々の文字に対するグレイスケ
ール画像情報をグレイスケール画像から抽出する。そし
て、抽出されたグレイスケール画像に対して認識処理を
行ない、文字の識別を決定し、その文字の識別をコンピ
ュータに読み取れるファイルに格納する。

【００２３】上述のように文字のグレイスケール画像を
認識処理するだけではなく、さらに文字の２値画像を認
識処理することによっても、認識精度を向上することが
可能である。グレイスケール画像及び２値画像の夫々か
ら決定された識別の不一致は、文字の２値画像のアスペ
クト比や画素密度など実際の画像属性に基づいて解決す
る（または「明確にする（disambiguated）」）。

【００２４】文字のフォント特性（font characteristi
cs）、例えば、文字のスペースが均一であるか、プロポ
ーショナルであるか、サンセリフ（sans-serif）（セリ
フという文字のヒゲ飾りがない活字書体）であるか、を
決定することでも、さらに認識精度を上げることができ
る。フォント特性に基づいて、複数の認識処理技術から
１つを選択し、各文字が抽出される毎に、上述のように
選択された認識処理技術に従って認識処理をおこなう。

【００２５】ドキュメント内の１つのテキストを識別し
てコンピュータ読み取り可能なファイルとして格納して
しまうと、そのテキストファイルはドキュメント画像を
検索するのに使用される。例えば照会ベースのサーチを
用いて対応するドキュメント画像を検索するのに使用さ
れる。

【００２６】認識処理技術は普通の人間の知覚に必要な
解像度よりもかなり高い解像度を必要とするため、本発
明の１態様は、ドキュメント格納及び検索システムであ
って、従来のシステムと比較して、必要な格納容量を縮
小できるシステムに向けられている。この発明の１態様
によれば、ドキュメント格納及び検索システムは、ドキ
ュメントのテキストを認識処理するのに適切な第１の解
像度でドキュメントを走査してドキュメントのグレイス
ケール画像を形成する。そしてドキュメントのテキスト
に認識処理を行ない、テキストのコンピュータ読み取り
可能なファイルを作成し、グレイスケール画像の解像度
を低下させて、第１の解像度より低い、視覚や画像再生
に適切な第２の解像度にする。この低下した解像度の画
像のみをコンピュータ読み取り可能なファイルと関連さ
せて格納して、後で照会ベースのサーチを用いて画像が
検索されるようにする。

【００２７】以上の構成により、低解像度の画像のみを
格納するので、メモリの記憶容量を縮小することがで
き、より多くの画像を格納することができる。さらに、
画像データ量がより小さいので処理速度を上げることが
可能である。また画像データを移動したり、圧縮または
伸張したり、その他の処理をさらに高速に行なうことが
可能である。

【００２８】上述の簡潔な要約は本発明の本質を迅速に
理解するためのものである。添付の図面に係わる以下の
好適な実施例の説明を参照すれば、発明のより完全な理
解が得られるであろう。

【００２９】

【実施例】本発明の代表的な１実施例の構成は図３、
４、５に示され、この代表的な実施例の動作は残りの図
面に説明される通りである。本実施例は「パーソナル画
像処理コンピュータシステム（personal imaging compu
ter system）」すなわちドキュメントの走査、格納及び
処理の装置を含む単一のスタンドアロン装置であって、
コンピュータ化したローカルエリアネットワークまたは
ワイドエリアネットワークと接続可能な装置である。相
当する汎用構成要素は以下に説明される装置で代用する
ことができる。例えば、汎用のプログラム可能なコンピ
ュータを、適切な周辺機器で代用することが可能であ
る。

【００３０】[１．１パーソナル画像処理コンピュー
タシステム]図３は本実施例に係わるグレイスケール文
字認識システムを含むパーソナル画像処理システム
（「ＰＩＣＳ」）の外観の部分切取図である。図３に示
すように、ＰＩＣＳ装置２０は、１つのハウジング内
に、積み重なった書類であるドキュメントが載置され１
シートづつドキュメントスキャナ部２２を通るように供
給されるドキュメント供給部２１を備えている。ドキュ
メントスキャナ部２２は、好ましくはデュアルサイドス
キャナから成り、ＣＣＤラインセンサ列を用いて各ドキ
ュメントページを走査し、ドキュメントのグレイスケー
ル画像を生成する。走査の後に、ドキュメントページは
排紙トレー２３へ排出され、トレー上に積み重ねられ
る。同様にペーパー格納トレー２５内の（または不図示
のペーパーカートリッジ）空白のドキュメントシートが
ＰＩＣＳ装置２０によりプリンタ部２６へ供給される。
プリンタ部２６は空白のシート上にトナー像を形成し、
新しくプリントされたドキュメントを排紙トレー２７へ
排出する。

【００３１】ＰＩＣＳ装置２０はさらにファクシミリ／
モデムインターフェイス（図５）を備えており、このイ
ンターフェイスによりＰＩＣＳ装置２０は通常の音声／
データ電話回線と接続して、遠隔のコンピュータとデー
タ通信やファクシミリ通信を行ない、オペレータはハン
ドセット３０を介して通常の音声通信を行なうことがで
きる。ローカルエリアネットワーク３１及びワイドエリ
アネットワーク３２にもインターフェイスが設けられて
おり、ユーザがそれらのネットワークを介して遠隔のワ
ークステーションと通信できるようになっている。

【００３２】コントロールパネル３４ではオペレータに
よる制御と、表示が行なわれる。コントロールパネル３
４は、ＶＧＡ液晶表示パネルなどのフラットパネル表示
スクリーン３５を備えている。オペレータが表示スクリ
ーン３５に表示されたカーソルを操作できるように、ま
た表示スクリーン上のオブジェクトを選択できるよう
に、トラックボール３６が設けられている。３３の位置
に通常の電話キーが設けられ、３７の位置に、従来のフ
ァクシミリ制御ボタンが設けられ、３８の位置にスター
ト／ストップボタンが設けられている。３９の位置にプ
ログラム可能な機能キーが設けられており、オペレータ
がＰＩＣＳ装置２０の様々な画像処理動作を制御できる
ようになっている。

【００３３】ＰＩＣＳ装置２０は汎用コンピュータ（図
５に詳細を示す）を備えており、このコンピュータによ
り、オペレータはドキュメントを走査し、ドキュメント
にセグメンテーション処理や認識処理を行なってドキュ
メントのテキスト領域に対応するテキストファイルを作
成し、ドキュメント画像をプリントし、トラックボール
３６と表示スクリーン３５を介してドキュメント画像や
テキストファイルを操作したり、ドキュメントや画像を
ファクシミリによって送受信する。

【００３４】ワードプロセッシング、画像処理、スプレ
ッドシート処理などの他の情報処理技術は、ＰＩＣＳ装
置２０にロードされているソフトウェアに従って、オペ
レータが実行する。このように、ＰＩＣＳ装置２０はオ
ペレータに、他の情報処理プロジェクトのための汎用コ
ンピュータシステムも備えた強力なパーソナル画像処理
コンピュータシステムを提供する。

【００３５】[１．２コンピュータ化したネットワー
ク接続]ローカルエリアネットワーク３１及び／または
ワイドエリアネットワーク３２と接続すると、ＰＩＣＳ
装置２０はコンピュータ化したネットワークのユーザに
上述の機能（capabilities）を提供する。さらに詳しく
は、図４に示すように、ＰＩＣＳ装置２０はローカルエ
リアネットワーク３１に接続することができる。ワーク
ステーション４０などの複数のワークステーションは、
同様にローカルエリアネットワーク３１に接続されてお
り、ネットワークオペレーティングシステムの制御によ
り、ＰＩＣＳ装置２０の画像処理機能にアクセスするこ
とができる。ワークステーションの１つ、例えばワーク
ステーション４３を、ネットワーク管理者が使用するよ
うに指定することができる。ローカルエリアネットワー
ク３１にはファイルサーバー４１が接続され、ネットワ
ークディスク４２に格納されているファイルのアクセス
を管理している。プリントサーバー４４は、プリンタ群
４５にプリントサービスを供給する。他の不図示の周辺
機器はローカルエリアネットワーク３１に接続されてい
る。この構成により、ワークステーション４０の内の１
つのオペレータは、ＰＩＣＳ装置２０を用いてドキュメ
ントを走査し、ドキュメント画像にセグメンテーション
処理及び認識処理を行なってドキュメントのテキスト領
域に対応するテキストファイルを得て、ドキュメント画
像とそれに関連するテキストファイルをネットワークデ
ィスク４２に格納し、ドキュメント画像及びそのテキス
トファイルを検索して、必要であればワークステーショ
ン４０で操作し、原稿の、あるいは操作されたドキュメ
ント画像及びテキストファイルをプリンタ４５の内の１
つでプリントアウトすることができる。

【００３６】典型的な例では、３１のようなローカルエ
リアネットワークは、建物内の１つの階または隣接する
複数の階において完全にローカル化されたユーザのグル
ープに使用される。別の建物や別の州に分かれるなど、
ユーザが互いに離れると、ワイドエリアネットワークを
作ってもよい。このネットワークは主として幾つかのロ
ーカルエリアネットワークの集合であり、全てのローカ
ルエリアネットワークは高速ＩＳＤＮ電話回線などの高
速ディジタル回線により接続されている。こうして、図
４に示すように、ローカルエリアネットワーク３１、４
６、４８は、モデム／トランスポンダ４９及びバックボ
ーン５０を介してワイドエリアネットワークを形成して
いる。各ローカルエリアネットワークはそれぞれのワー
クステーションを有し、通常必要でなくともそれぞれフ
ァイルサーバとプリントサーバを有している。このよう
に、図４に示すように、ローカルエリアネットワーク４
６は複数のワークステーション５１、ファイルサーバ５
２、ネットワークディスク５４、プリントサーバ５５、
及び複数のプリンタ５６を有している。一方ローカルエ
リアネットワーク４８は、複数のワークステーション５
７のみを有している。ワイドエリアネットワーク接続に
より、ローカルエリアネットワーク３１、４６、４８の
いずれの装置も他のローカルエリアネットワークの装置
の機能にアクセスすることができる。こうして、例え
ば、複数のワークステーション５７の１つが、バックボ
ーン５０とモデム／トランスポンダ４９を介してＰＩＣ
Ｓ装置２０の画像処理機能にアクセスすることができ
る。同様に、複数のワークステーション５１の１つがネ
ットワークワークディスク４２からドキュメント画像を
検索して、その画像に対しＰＩＣＳ装置２０上でセグメ
ンテーション及び認識処理を行ない、処理結果をワーク
ステーション５１で受信したり操作を行なって、複数の
プリンタ５６の１つでドキュメントのプリントアウトを
行なうことができる。勿論他の組み合わせも可能であ
り、上述の例に限定されるものではない。

【００３７】[１．３内部構成]図５は本発明に従った
好適な実施例であるＰＩＣＳ装置２０の内部構成と接続
を示す詳細ブロック図である。図５に示すように、ＰＩ
ＣＳ装置２０は、コンピュータバス６１とインタフェー
スされたインテル社の８０４８６ＤＸ（商標）や縮小イ
ンストラクションセットコンピュータ（ＲＩＳＣ）など
の中央処理部（ＣＰＵ）６０を備えている。また、ロー
カルエリアネットワーク３１とのインタフェースのため
のイーサネットインタフェース６２、ワイドエリアネッ
トワーク３２とのインタフェースのためのＩＳＤＮイン
タフェース６４、電話回線２９との適当なモデム／ファ
クシミリ／音声電話インタフェースのためのモデム／フ
ァクシミリ／音声電話インタフェース６５、プリンタ２
６とのインタフェースのためのプリンタインタフェース
フェース６６、そしてドキュメントトレー２１からスキ
ャナ２２を通じて排紙トレー２３へペーパーを搬送した
り、ペーパー格納トレー２５からプリンタ部２６を通じ
て排紙トレー２７へとペーパー搬送を行なうための適当
なペーパー供給コマンドを供給する、トレー／ペーパー
供給インタフェース６７が、コンピュータバス６１とイ
ンタフェース接続されている。

【００３８】ディスプレイインタフェース６９はディス
プレイ３５とコンピュータバス６１間のインタフェース
を行ない、トラックボール／キーボードインタフェース
７０はコンピュータバス６１、トラックボール３６、キ
ー３９間のインタフェースを行なう。

【００３９】コンピュータバス６１は、スキャナインタ
フェース７１及びオンザフライＪＰＥＧ（Joint Photog
raphic Expert Group）プロセッサ７２を介してスキャ
ナ２２と接続される。さらに詳しくは、スキャナ２２が
ドキュメントを走査してスキャナインタフェース７１に
よって画素データが収集されると、スキャナインタフェ
ース７１は画素データをＪＰＥＧプロセッサ７２へ送
り、ＪＰＥＧ圧縮方式で画素データを圧縮させる。圧縮
された画素データはコンピュータバス６１へ供給され
る。こうして、ドキュメントを走査する際にオンザフラ
イＪＰＥＧ圧縮を行なうことで装置の動作の高速化が達
成される。

【００４０】圧縮プロセッサ７２はＪＰＥＧ圧縮を行な
うことが好ましいが、それはＪＰＥＧ圧縮は周知であ
り、本発明を実施する際容易に用いることができるから
である。しかしながら、ＪＰＥＧのようなデータ量の減
少のある（lossy）圧縮が望ましいが、他のタイプの圧
縮を行なってもよい。

【００４１】さらに、ＪＰＥＧプロセッサ７２は、バス
６１上のコマンドを介し、ＪＰＥＧ圧縮されたファイル
をビットマップ画素データに伸張するような構成を有し
てもよい。伸張されたビットマップ画素データは不図示
の直接接続部（direct connection）を通じてプリンタ
インタフェース６６へ供給される。プリントステーショ
ン２６がグレイスケール画素を直接プリントすることが
できない場合は、ソフトウェアによる設定可能な閾値比
較器をその直接接続部へ設けて、何らかの選択可能な閾
値レベルでグレイスケール画素データを２値の画素デー
タへ変換できるようにしてもよい。この構成により、Ｊ
ＰＥＧプロセッサ７２を通じて、必要であれば２値の閾
値処理を行なって、直接プリントインタフェース６６へ
ファイルを読み出すことによって、ソフトウェアによる
データ伸張を必要とせずに、ＪＰＥＧ圧縮された画像フ
ァイルを迅速にプリントすることが可能となる。

【００４２】１．２ギガバイトのハードディスクなどの
ディスク７５は、ＳＣＳＩ（「Small Computer Systems
interface」）インタフェース７６を介してコンピュー
タバス６１に接続される。ディスクには、２値、グレイ
スケール、カラーの画像データファイルとテキストデー
タファイルとが、ＣＰＵ６０がそれらのデータファイル
を操作したり作成したりするのに用いるプログラムイン
ストラクションシーケンスと共に格納されている。詳し
くは、ディスク７５はドキュメントのグレイスケール画
像をセグメンテーション処理して、ドキュメント画像の
テキストと非テキスト領域に分離し、テキスト領域から
個々の文字を抽出するためのプログラムインストラクシ
ョンシーケンスと、文字の画像を認識処理して文字の識
別を決定するためのプログラムインストラクションシー
ケンスとを格納している。適切な認識処理技術には、以
下のシステムに限られるものではなく、文字画像からフ
ィーチャ（feature）及び／またはストローク（strok
e）を抽出してそうした情報の辞書との比較を行なうフ
ィーチャ及び／またはストローク抽出システム、人間の
神経の相互連絡を模倣して文字画像を識別するニューラ
ルネットワーク認識システム、フィーチャ／ストローク
認識システムとニューラルネットワーク認識システムの
両方の態様を持つハイブリッドシステムが含まれる。

【００４３】読み取り専用メモリ（ＲＯＭ）７７はコン
ピュータバス６１とインタフェース接続し、ＣＰＵ６０
にスタートアッププログラムやＢＩＯＳプログラムなど
の特殊化された不変の機能を提供する。メインランダム
アクセスメモリ（ＲＡＭ）７９はＣＰＵ６０に必要なデ
ータ及びインストラクションシーケンスのためのメモリ
記憶領域を提供する。詳しくは、セグメンテーションプ
ログラムまたは文字認識プログラムなどのプログラムイ
ンストラクションシーケンスを実行する時、ＣＰＵ６０
は通常それらのインストラクションシーケンスをディス
ク７５から（あるいは、ネットワークアクセスの場合は
他のプログラム格納媒体から）ＲＡＭ７９へロードし
て、これら格納されたプログラムインストラクションシ
ーケンスをＲＡＭから実行する。図５に示すように、デ
ータ操作のためのワーキング格納領域もＲＡＭに設けら
れており、そこにはグレイスケール画像、２値画像、連
続成分、テキストファイルのためのワーキング領域も含
まれている。

【００４４】[２．０動作]上述の本発明の代表的な実
施例の動作を、図６〜２２を参照して説明する。一般
に、オペレータの命令（通常キーボード／トラックボー
ルインタフェース７０を介し受信されるが、他の供給
源、例えばローカルエリアネットワーク３１またはワイ
ドエリアネットワーク３２、またはモデムまたはＤＴＭ
Ｆコマンドにより電話回線２９を介して受信される）に
従って格納されたアプリケーションプログラムを選択
し、データの処理や操作をするように選択したアプリケ
ーションを起動する。例えば、セグメンテーション処理
プログラム、認識処理プログラム、ワードプロセッシン
グプログラム、画像編集プログラム、スプレッドシート
プログラム及び同様の情報処理プログラムなどの様々な
アプリケーションプログラムがオペレータに提供され、
オペレータはそれらを選択したり使用することができ
る。こうして、セグメンテーションプロセッシングプロ
グラムを起動して、スキャナ２２によりドキュメントを
走査して、ドキュメントのグレイスケール画像をＲＡＭ
７９に格納する。格納されたプログラムインストラクシ
ョンに従ってグレイスケール画像をセグメンテーション
処理して、ドキュメントのテキスト領域と非テキスト領
域を識別し、テキスト領域の個々の文字を抽出する。そ
の後、認識処理プログラムを起動して、抽出された文字
画像を認識処理し、文字を識別してテキストファイルの
形で格納することもできる。得られたテキストファイル
をオペレータに提供して、オペレータがそれを検討した
り、ワードプロセッシングプログラムなど他のアプリケ
ーションプログラムを使用して操作するようにしてもよ
いし、ディスクへ格納したり、ローカルエリアネットワ
ーク３１、ワイドエリアネットワーク３２または電話回
線２９上へ出力することもできる。

【００４５】[２．１プログラム可能な機能キー]図
６、７はプログラム可能な機能キー３９の使用及びプロ
グラミングに関するコントロールパネル３４の拡大図で
ある。

【００４６】上述のように、ＰＩＣＳ装置２０はネット
ワーク化可能な装置であり、通常ＰＩＣＳ装置２０から
遠隔の様々なネットワークユーザの誰かにより使用され
る。従って、ＰＩＣＳ装置２０によってドキュメントを
処理する必要がある場合、普通ユーザはドキュメントを
自分のワークステーションからＰＩＣＳ装置２０へ移動
させる。ユーザが、自分のワークステーションからＰＩ
ＣＳ装置２０により実行させるドキュメント処理機能を
プログラムして、ユーザが実際にＰＩＣＳ装置２０の所
にいる時に最小の労力でそれらの機能が実行されるよう
にできる事は、ユーザにとり好都合である。ところで、
ユーザがＰＩＣＳ装置２０により実行される画像処理タ
スクを規定してから実際にＰＩＣＳ装置２０の所へ行っ
てそれらの画像処理タスクを実行するまでに時間が経過
してしまう。その間他のユーザはＰＩＣＳ装置２０を使
用することができない。

【００４７】ここに述べるように、ＰＩＣＳ装置２０は
好ましくはプログラム可能な機能キー３９を備え、これ
らのキーはネットワークユーザにより自分達のワークス
テーションからプログラムされ、ユーザが実際にＰＩＣ
Ｓ装置２０の所で画像処理を行なう時に選択することが
できる。画像処理タスクには、ＰＩＣＳ装置２０のスキ
ャナ２２による新しいドキュメントの走査、様々なネッ
トワーク格納媒体からの現在のドキュメント画像の検
索、テキストファイルを作成するためのドキュメント画
像の認識処理、様々なネットワーク格納媒体へのテキス
トファイルの格納が含まれ、格納されたテキストファイ
ルを用いるスプレッドシートまたはリポート作成ワード
プロセッシングプログラムなど、他の情報処理プログラ
ムなどの関連したタスクも含まれている。これらの画像
処理タスクの幾つかまたは全てを連続して、機能キー３
９の１つに触れるだけで一連の画像処理または関連のタ
スクが実行されるようにマクロ的なの機能を提供するよ
うに、機能キー３９をプログラムすることができる。

【００４８】好ましくは、プログラム可能な機能キー３
９は２つのグループに別れる。１つのグループはネット
ワーク管理装置４３によってのみプログラム可能であ
り、もう１つのグループはいずれかのＬANユーザにより
プログラム可能である。キーのいずれかにより実行され
る詳細な画像処理機能は、必要であればディスプレイ３
５に表示することができる。

【００４９】簡潔に述べると、図６、７はローカルエリ
アネットワークに接続可能で、ドキュメント画像におけ
る文字を識別するためのドキュメント画像の認識処理を
行なうパーソナル画像処理コンピュータシステム（ＰＩ
ＣＳ）を説明する図である。複数のプログラム可能な機
能キーはパーソナル画像処理コンピュータに設けられ、
各機能キーは、画像処理コンピュータシステムがあらか
じめプログラムされた画像処理タスクを実行するよう
に、オペレータにより操作される。複数のプログラム可
能な機能キーは少なくとも２つのグループに区分される
が、第１のグループはＬＡＮのネットワーク管理者だけ
がプログラム可能であり、第２のグループはＬＡＮのい
ずれのユーザでもプログラム可能である。複数の機能キ
ーの画像を表示する表示手段が設けられている。複数の
機能キーの１つの画像をオペレータが選択するのに応じ
て、表示手段はそのキーにより実行される機能を表示す
る。

【００５０】さらに詳しくは、図６に示すように、プロ
グラム可能キー３９の画像が表示手段により表示され
る。さらに図６に示すように、画像は２グループに別れ
ている。ネットワーク管理者の装置４３だけがプログラ
ムできるように限定された機能キーの第１のグループ１
７６と、いずれのＬＡＮユーザもプログラムできる、限
定されていない機能キーの第２のグループ１７７であ
る。図６には示していないが、１７５の各機能キーの表
示においては、現在そのキーをプログラムしたユーザの
識別の表示を含むことが好ましい。操作においては、ワ
ークステーション４０の所にいるユーザは、ＰＩＣＳ装
置２０に実行させたい画像処理タスクを指定し、グルー
プ１７７のプログラム可能キーの１つを選択し、ローカ
ルエリアネットワーク３１を介してその機能キーをプロ
グラムする。そして、ユーザは、ＰＩＣＳ装置２０で処
理するドキュメントをＰＩＣＳ装置２０の実際の場所ま
で運ぶ。ＰＩＣＳ装置２０の所へ着くと、ユーザは図６
に示す表示を出して、ユーザ識別を参照してプログラム
したキー位置を突き止める。

【００５１】ユーザはトラックボール３６を使用して、
ネットワーク管理者装置４３によりプログラムされるキ
ーと他のいずれのＬＡＮユーザによってもプログラムで
きるキーとを含む、表示されたキーの１つを選択する。
図７の１７８に示すように、表示されたキーの選択をす
る際には、そのキーに関連した現在の機能が表示され
る。実際に機能キー３９を操作することにより、ＰＩＣ
Ｓ装置２０は自動的に指示された機能を実行する。

【００５２】[２．２画像解像度調整]図８はＰＩＣＳ
装置２０の動作を示すフローチャートであり、装置２０
は、ドキュメントを第１の解像度で走査してドキュメン
トのグレイスケール画像を形成する。この第１の解像度
はドキュメントのテキストを認識処理するのに適切な解
像度である。そしてグレイスケール画像における文字画
像を認識処理してコンピュータ読取可能なテキストのフ
ァイルを得る。そしてグレイスケール画像の解像度を第
１の解像度よりも低く、目視や画像再生に適切な第２の
解像度に変える。それから第２の解像度の画像をコンピ
ュータ読取可能なテキストファイルと関連付けて格納す
る。添付の図面の残りのフローチャートと同様に、図８
における処理ステップは格納されたプログラムインスト
ラクションステップに従ってＣＰＵ６０により実行され
る。プログラムインストラクションステップは、コンピ
ュータディスク７５（または他の媒体）に格納されてお
り、ＲＡＭ７９へ転送されて、そこからＣＰＵ６０によ
って実行される。

【００５３】さらに詳しくは、ステップＳ８０１では、
ドキュメント供給トレー２１上のドキュメントをスキャ
ナ２２を通るように供給する。スキャナ２２はドキュメ
ントを走査してドキュメントの画像を作成する。好まし
くは、ドキュメントを走査する解像度は、４００ｄｐｉ
などの認識処理に適切な解像度である。オンザフライＪ
ＰＥＧプロセッサ７２は画像が走査入力される際に圧縮
を行ない、圧縮された画像はディスク７５またはＲＡＭ
７９に格納される。

【００５４】ステップＳ８０２では、ドキュメント画像
を光学文字認識処理して、ドキュメントのテキスト領域
に対するテキストファイルを作成する。光学文字認識処
理については後述の２．３章の図９Ａ、９Ｂ、９Ｃを参
照して詳細に説明する。

【００５５】ステップＳ８０３では、ドキュメント画像
の解像度を下げて、ドキュメント画像の格納容量が減少
するようにする。好ましくは、ドキュメント画像の解像
度は、人間であるオペレータに知覚されるのに十分であ
り、コンピュータの画面に表示したり紙面に印刷するの
に適当な程度に下げられる。現在のところ７０ｄｐｉが
望ましい解像度である。画像解像度を低下させる技術は
公知であり、原稿の画像におけるいずれの色、またはグ
レイスケールのいずれのレベルも可能な程度に保持する
技術を選択することが望ましい。また、好ましい技術と
しては、バークス（Burkes）またはスタッキー（Stuck
i）法などの誤差拡散技術を用いて低解像度画像の見た
目を向上する（enhance）ものがよい。

【００５６】ステップＳ８０４では、必要に応じて圧縮
した、あるいは未圧縮の低解像度の画像を、ステップＳ
８０２で作成したテキストファイルと関連付けて格納す
る。ディスク７５への格納が可能であるが、ドキュメン
ト画像とその関連のテキストファイルとをサーチ可能な
データベースの一部として、ネットワークディスク４２
または５２の１つに格納する方がより好ましい。

【００５７】こうして、ステップＳ８０５に示すよう
に、ドキュメント画像を、例えばテキストファイルの照
会ベースのサーチに応じて検索することができる。さら
に詳しくは、オペレータの照会に応じたキーワードサー
チや他のサーチに基づいて、データベースのテキストフ
ァイルがサーチされて、オペレータが入力した照会に見
合うテキストファイルを識別する。そうしたテキストフ
ァイルが識別されると、関連したドキュメント画像が検
索されて、ドキュメント画像は、表示やプリントなど所
望の形でオペレータに提示される。

【００５８】ドキュメントは認識処理に適切な解像度で
走査されるが、その後走査時の解像度より低い解像度で
関連するテキストファイルと共に格納されるので、そう
したドキュメントの大規模なデータベースを格納するの
に必要な格納容量が大幅に縮小できる。

【００５９】[２．３‐‐光学文字認識処理‐‐概要]図
９Ａ、９Ｂ、９Ｃは上述のステップＳ８０２のようにド
キュメントを識別するための光学文字認識処理の概略を
示している。簡潔に述べると、図９Ａ〜９Ｃのいずれか
によると、ドキュメントを走査してドキュメントのグレ
イスケール画像を得て、そのグレイスケール画像と閾値
とを比較することによって、グレイスケール画像から２
値画像を生成する。その２値画像をセグメンテーション
処理して２値画像内の個々の文字の位置を決定して、個
々の文字の形状を決定し、その２値画像における文字の
位置と形状をテンプレートとして用いて、各文字に対す
るグレイスケール画像情報をグレイスケール画像から抽
出する。そして抽出したグレイスケール画像情報を認識
処理して、文字を識別し、その文字の識別結果を格納す
る。

【００６０】まず、図９ＡのステップＳ９０１に示すよ
うに、ドキュメントのグレイスケール画像を入力する。
好ましくは、ドキュメントのグレイスケール画像を入力
するために、ドキュメントをスキャナ２２で走査する
が、例えば、ドキュメントを遠隔に走査して電話回線２
９、ローカルエリアネットワーク３１、またはワイドエ
リアネットワーク３２を介してＰＩＣＳ装置２０へ送信
するなど他の方法で生成したドキュメント画像を入力す
ることも可能である。

【００６１】ステップＳ９０２では、走査入力した画像
の歪み補正を行なう。画像の歪みは、例えばドキュメン
トを曲がった状態でスキャナ２２を通過させてしまうな
どの不適当なドキュメントの走査から、あるいは別の原
稿のドキュメントを位置のずれた状態で複写して得られ
たドキュメント書類を走査することから生じる。発生源
が何であれ、歪みは文字認識においてエラーを引き起こ
すので、２．４章で図１０、１１に関連して詳細に後述
するようにステップＳ９０２で現在の歪みを補正する。
この点において、ステップＳ９０２で行なう歪み補正を
格納して、画像の認識処理の後や画像格納の準備の際に
「解除（un-done）」する（元の歪んだ状態に戻す）こ
とが可能である。しかし、通常は歪んだ画像は単に廃棄
して、歪み補正した画像のみを保存する。

【００６２】ステップＳ９０３では、グレイスケール画
像のコピーをＲＡＭ７９で保持し、後でその画像からグ
レイスケール文字画像を抽出して認識処理できるように
する（ステップＳ９０７、Ｓ９０８参照）。

【００６３】ステップＳ９０４では、グレイスケール画
像と閾値とを比較することによって、グレイスケール画
像から２値画像を生成する。閾値処理は２．５章の図１
２、１３を参照して詳細に後述する。このようにして得
た２値画像をＲＡＭ７９へ格納する。

【００６４】ステップＳ９０５では、２値画像をセグメ
ンテーション処理してドキュメントのテキスト領域と非
テキスト領域に分離し、ドキュメントのテキスト領域内
の個々の文字の位置を決定する。セグメンテーション処
理は図１４に関連して２．６章で後述する。さらに２値
画像内の個々の文字位置に基づいて、２値の文字画像の
形状から文字テンプレートを得る（ステップＳ９０
６）。

【００６５】ステップＳ９０７では、ステップＳ９０６
で生成したテンプレートを用いて、ステップＳ９０３で
格納したグレイスケール画像からグレイスケール文字画
像を抽出する。そして抽出したグレイスケール文字画像
を認識処理して（ステップＳ９０８）ドキュメントのテ
キスト領域内の個々の文字を識別する。

【００６６】ステップＳ９１５では、文字の識別を、Ａ
ＳＣＩＩ形式などのコンピュータ読取可能なテキストフ
ァイルの形で格納する。ここでは、テキストファイルの
読み込み順序が原稿ドキュメントの読み込み順序を反映
するように、原稿ページの再構成を行なう。例えば、図
２に戻ると、左側の欄のテキストの１行の後に、右側の
欄のテキストの相当する位置の行が続くのではなく、左
側の欄のテキストの全ての行の後に右側の欄の全ての行
が続くべきであるということがわかる。ステップＳ９１
５では、このページ再構成を遂行してテキストファイル
に対する正しい読み込み順序を得る。

【００６７】ステップＳ９１６では、ディスク７５また
はネットワークディスク４２、５４へ出力するなどして
テキストファイルを出力する。ステップＳ８０４で上述
したように、テキストファイルは、そのドキュメントフ
ァイルと関連付けて格納して、ドキュメントの検索に利
用できるようにする。

【００６８】図９Ｂは文字認識処理システムのフローチ
ャートであり、この処理ではドキュメントのテキスト領
域内の文字のフォント特性に従って、複数の認識処理技
術から１つを選択する。選択された認識処理技術はフォ
ント特性に対応するようにする。例えばフォント特性が
均一ピッチのフォントが使われていることを示している
場合には、均一ピッチフォントの認識処理技術を選択
し、一方フォント特性がサンセリフフォントが使われて
いることを示している場合には、サンセリフ認識処理技
術を選択するようにする。

【００６９】こうして、文字の画像から文字の識別を決
定する図９Ｂの文字認識システムによると、テキスト領
域を含むドキュメントの画像を処理して、文字の行の位
置を決定し、各行のフォント特性を決定し、決定したフ
ォント特性に基づいて複数の認識処理技術から１つを選
択する。個々の文字画像を各行から抽出し、選択した認
識処理技術に従って、各抽出された文字画像を認識処理
する。

【００７０】さらに詳しくは、図９Ａについて説明した
ように、ステップＳ９０１、Ｓ９０２、Ｓ９０３、Ｓ９
０４、Ｓ９０５、Ｓ９０６、Ｓ９０７では、グレイスケ
ール画像を入力し、そのグレイスケール画像に対し歪み
補正を行ない、歪み補正された画像のコピーを保存し、
全体的な閾値処理により２値画像を生成する。その２値
画像をセグメンテーション処理して文字画像の位置を決
定し、２値画像の形状から文字テンプレートを得て、テ
ンプレートを用いてグレイスケール画像から文字を抽出
する。

【００７１】ステップＳ９０９では、１行の文字のフォ
ント特性を決定する。この決定は、セグメンテーション
処理の間に決定した文字属性に基づいてなされる。ある
いは、この決定は２値またはグレイスケール画像から抽
出した文字に基づいてなされる。「フォント特性」に
は、サンセリフまたはセリフフォント、イタリック体、
太字などのフォント形状に加え、均一またはプロポーシ
ョナルなどの文字スペースが含まれている。

【００７２】ステップＳ９１０では、ステップＳ９０９
で決定した特定のフォント特性に合うように、複数の認
識処理技術の１つを選択する。さらに詳しくは、あるフ
ォントが例えばサンセリフフォントのユニバース（Univ
erse）である場合、特にサンセリフフォントに向けた認
識処理技術を使用することができる。そうした認識処理
技術はサンセリフ文字の認識処理に特に適切である。そ
れは、例えばサンセリフフォントにはセリフフォントよ
りも互いに接触する文字が少ないことが知られているか
らである。同様に、ステップＳ９０９ではそのフォント
がクーリエ（Courier）のような均一スペースのフォン
トかどうかを決定し、そのフォントに特に合わせた均一
スペースの認識処理技術を選択する。

【００７３】ステップＳ９１１では、選択した認識技術
を用いて抽出したグレイスケール文字画像を認識処理す
る。そして、ステップＳ９１５、Ｓ９１６では、図９Ａ
に関して上述したように、ページ再構成を行なって、識
別された文字の順序を正しい順序に変えて、生成された
テキストファイルを出力する。

【００７４】図９Ｃは本実施例による選択的な処理を示
している。これにより、特にイタリック体や相対的なス
ペースのフォントなど認識が困難なフォントを処理する
際に、認識精度を向上することができる。図９Ｃに示す
文字認識システムでは、ドキュメントのグレイスケール
画像を閾値処理して２値画像を得て、２値画像をセグメ
ンテーション処理して文字の２値画像の位置を決定して
文字の２値画像の属性を決定して、ドキュメントにおけ
る文字の識別を決定する。セグメンテーション処理され
た２値画像における文字の形状に基づいて文字のグレイ
スケール画像を抽出し、グレイスケール文字画像と２値
の文字画像の両方に対して認識処理を行ない、文字の識
別を決定する。そして、セグメンテーション処理中に決
定された文字属性に基づいて、グレイスケール文字画像
の認識処理結果と２値文字画像の認識処理結果の不一致
を解決する。

【００７５】さらに詳しくは、ステップＳ９０１からＳ
９０８では、図９Ａで上述したように、グレイスケール
画像を入力し、グレイスケール画像の歪みを補正し、閾
値処理により２値画像を得る。そして２値画像をセグメ
ンテーション処理して文字画像の位置を決定し、２値画
像の形状から文字テンプレートを得る。テンプレートを
用いてグレイスケール文字画像を抽出し、抽出したグレ
イスケール文字画像を認識処理する。

【００７６】ステップＳ９１３では、ステップＳ９０５
でセグメンテーション処理中に抽出された２値の文字画
像を認識処理して２値の文字画像の識別を決定する。ス
テップＳ９１４では、ステップＳ９０５のセグメンテー
ション処理中に得られた文字画像の実際の画像特性に基
づいて、グレイスケール文字画像の認識処理結果（ステ
ップＳ９０８）と２値文字画像の認識処理結果（ステッ
プＳ９１３）のいかなる不一致も解決する。例えば、
「L」の小文字活字ケース（「l」）、数字の「いち」
（「１」）、角括弧（「[」または「]」）を区別するの
は困難である。ステップＳ９０８、Ｓ９１３における認
識処理の違いにより、これらの文字のいずれか１つにつ
いて異なる識別が決定される可能性がある。そうした場
合、ステップＳ９０５のセグメンテーション処理中に得
られた物理的属性を参照して、不一致を解決する。さら
に詳しくは、そして図１４について後述するように、セ
グメンテーション処理の間に、各文字画像について（さ
らに詳しくは、下記に説明するように、画像中の各連続
成分について）画素密度やアスペクト比などの物理的属
性を決定する。これらの物理的属性に基づいて、ステッ
プＳ９０８、Ｓ９１３の認識処理結果を明確にする。

【００７７】ステップＳ９１５、Ｓ９１６では、図９Ａ
に関して上述したように、ページ再構成とテキスト出力
を行なう。

【００７８】[２．４歪み補正]図１０Ａ、１０Ｂ及び
図１１Ａから１１Ｃは本実施例による歪み補正処理を説
明する図である。これらの図に示すように、画像の歪み
を決定しし、歪みが±１０°など所定の限度より大きい
場合には数学的回転変換により歪み補正し、歪みが所定
の限度より小さい場合には画素データを垂直移動するこ
とにより歪みを補正することにより、歪みの補正を行な
う。大抵の場合、画素データの数学的変換を行なう必要
はないので、この技術による歪み補正によって相当な時
間を節約することができる。数学的変換は、特にグレイ
スケール画素データが含まれている場合には、プロセッ
サの処理時間に換算すると不経済である。それは、歪み
補正される画像の各画素が、歪んだ画像の幾つかの画素
の数学的な組合わせから得られるからである。さらに、
歪み補正される画素の値は数学的に算出されるので、一
般的に述べると、１つの歪み補正される画素の値と最初
に走査された画像における画素の値とが等しくはなら
ず、不正確な認識（例えばそれぞれ値が「１」及び
「２」である画素を、それらの平均値（１．５）に置換
して、その結果それらの画素の値は元の原稿の画像のど
こにも存在しないものとなる）を増加させることにな
る。一方、歪んだ画像を単純に移動して歪み補正された
画像とすると、そうした数学的組み合わせは含まず、さ
らに、最初に走査された画像からの画素値をそのまま有
している。勿論、画像の歪みが大きすぎる場合は垂直移
動により、いくらかの画像の変歪が生じるため、そうし
た変歪を起こさない数学的変換を避けることはできな
い。

【００７９】さらに詳しくは、図１０Ａに示すように、
ステップＳ１００１からＳ１００４では、画像の画素デ
ータのベースライン分析によって画像の歪みを判定す
る。これは、ハインズ他の「ランレングス符号化及びハ
フ変換を用いたドキュメントの歪み検出方法」（Hinds,
et al., "A Document Skew Detection Method Using R
un Length Encoding And The Hough Transform", IEEE
10th International Conference On Pattern Recogniti
on, June, 1990, page 464）に記載されているような修
正ハフ変換（modified Hough transform）の適用により
行なう。より詳しくは、ステップＳ１００１で画像にサ
ブサンプリングを行なって処理が必要なデータの量を減
らす。好ましくは、画像のサブサンプリングは、正確な
歪み検出に十分な約１００ｄｐｉの解像度で画像を得る
ようにする。歪み補正すべき画像を４００ｄｐｉの解像
度で入力した場合、１：４の比でサブサンプリングを行
なうので、原稿の画像の４番目の画素毎にサブサンプリ
ングを行ない、１００ｄｐｉの画像を形成することにな
る。サブサンプリング比は異なる入力解像度について
も、同様に選択する。例えば、６００ｄｐｉ画像に対し
ては１：６のように選択する。

【００８０】ステップＳ１００２では、任意の閾値を用
いて、または図１２、１３（後述）の説明で計算される
閾値を用いて、サブサンプリングした画像を２値化す
る。

【００８１】ステップＳ１００３では、サブサンプリン
グ、そして２値化を行なったデータに粗いハフ変換を行
なって原稿の画像における歪み角度を凡その程度で決定
する。さらに詳しくは、例えば１°毎といった単純な角
度の解像度で±２０°など所定の制限間にハフ変換を適
用する。必要であれば、ハフ変換に先立ち、画像のベー
スライン（活字の並び線）の感度（sensitivity）を増
幅することができる。これは、画素データの各垂直ラン
（run）について、夫々の垂直ランの数を各垂直ランの
底部に位置させたものに交換し、像や線を表す画素デー
タを省略することにより行なう。

【００８２】ステップＳ１００４では、サブサンプリン
グおよび２値化を行なった画像に、ステップＳ１００３
で得られた凡その歪み情報を用いて、精密なハフ変換を
適用する。より詳しくは、ステップＳ１００３で決定し
た凡その歪み角度の±１°前後において、０．１°など
の精密な角度の解像度で精密なハフ変換を適用する。

【００８３】ステップＳ１００５では、ステップＳ１０
０４で決定した歪み角度を±１０°などの所定の限度と
比較する。歪みが所定の限度より大きい場合、ステップ
Ｓ１００６へ進んで、数学的変換により画像の歪み補正
を行なう。一方、歪みが所定限度より小さければ、ステ
ップＳ１００７へ進んで、歪みに基づいて垂直移動ファ
クター（factor）を決定する。より詳しくは、図１１Ａ
に示すように、ステップＳ１００１からＳ１００４で上
述したように、まず、歪み角度シータ（θ）を計算す
る。それから、歪み角度θから、歪み角度θをゼロへ減
少させる垂直移動ファクターを算出する。図１１Ａの例
では、垂直移動ファクターは、歪み角度４．４度に対応
して、横の１３画素毎に下方向の１画素となる。そし
て、図１１Ｂに示すように、左から右へ処理を行なう
と、移動ファクターに基づいて、画像の全列が連続して
上方向または下方向に移動する。移動の後には、歪み角
度θがゼロに減少しているのがわかる。

【００８４】図１０Ａに戻り、ステップＳ１００６の数
学的変換またはステップＳ１００８の画素移動に従って
画像を歪み補正すると、その歪み補正された画像を出力
する（ステップＳ１００９）。

【００８５】画素移動にる歪み補正は、処理時間の節約
の点では有利であるが、幾つかの状況では文字の画像を
変形させてしまう。例えば、図１１Ｂでは、文字「ａ」
の各画像が、これらの文字の中央で下方向の移動が起こ
ったために崩れてしまっている。図１０Ｂはこの種の変
形を防ぐ処理を示している。

【００８６】図１０Ｂにおいて、ステップＳ１００１か
らＳ１００７は図１０Ａと同様である。ステップＳ１０
１０では、移動ファクターに従って画像の列を上または
下方向に移動する時点であれば、ＣＰＵ６０はその画像
が文字間の空白部分にあるかどうかを判断する。その画
像が文字間にあると判断すると、ステップＳ１０１１へ
進んで、移動ファクターに従って、前に移動した列に相
対的に画像の全列を上または下方向へ連続的に移動す
る。一方、文字間にない場合は、移動は行なわず、移動
ファクターを単に蓄積する（ステップＳ１０１２）。ス
テップＳ１０１０へ戻り、文字間についてのみ移動を行
なう。こうして、図１１Ｃに示すように、２つの文字
「ａ」の間のみ移動が行なわれ、この場合の蓄積された
移動ファクターは、「DOWN 2」である。処理は前述のよ
うに進んで、ステップＳ１０１３で歪み補正された画像
を出力する。

【００８７】図１０Ｂに従って処理を行なうことによ
り、画素移動が文字間のみで行なわれて文字の中央で行
なわれないため、各文字の変形を防ぐことができる。

【００８８】[２．５閾値処理]図１２はステップＳ９
０４で説明した閾値処理を詳細に示すフローチャートで
ある。図１２に示す閾値処理手順に従って、グレイスケ
ール画像から２値画像を形成する。つまり、グレイスケ
ール画像の画素の明暗度のヒストグラムを形成し、少な
くとも１つのヒストグラムグループ離れたヒストグラム
のトップの２グループを識別し、これらの２つのトップ
グループの間の距離の半分を計算してこれを全体的な閾
値とし、グレイスケール画像の各画素をこの全体的な閾
値と比較して各画素を２値化し、グレイスケール画像に
対応する２値画像を出力する。

【００８９】ステップＳ１２０１では、グレイスケール
画像について、画素強度における画素のヒストグラムを
形成する。図１３（ａ）に示すように、ヒストグラムは
複数の画素強度のグループを有しており、各グループの
高さはグループ内に入るグレイスケール画像の画素の数
に基づいて決定されている。図１３（ａ）では、０から
２５５のグレイスケール画像の明暗度に基づいて、
（１）から（８）までの８つのグループが指定されてい
る。他のグループ分けも可能であるが、実施が容易な図
１３（ａ）のグループ分けを用いることが好ましい。

【００９０】ステップＳ１２０２では、ヒストグラムを
調べて、グレイスケール画像が「反転ビデオ」画像かど
うか、つまり画像が従来の画像のように白地に黒ではな
くて、黒地に白の画像であるかどうかを判定する。ヒス
トグラムがグレイスケール画像が反転ビデオ画像である
ことを示している場合は、グレイスケールを反転して
（ステップＳ１２０３）画像を従来の白地に黒の画像に
変換する。

【００９１】ステップＳ１２０４では、各ヒストグラム
グループの高さに基づいてヒストグラムグループを降順
に格納する。図１３（ａ）の例では、最も高い数値を有
するグループ（８）が最初のグループであり、最も低い
数値を有するグループ（５）が最後のグループである。
このようにして、図１３（ｂ）に示すように図１３
（ａ）のヒストグラムグループを格納する。

【００９２】ステップＳ１２０５では、少なくとも１グ
ループ離れたトップの２グループを選択する。こうし
て、図１３（ｂ）に示すように、トップの２グループで
あるグループ（８）、（７）を最初に比較する。しか
し、これらは少なくとも１グループ離れていないため
（つまり、数値的に、グループ（８）はグループ（７）
の直接の隣接グループである）、グループ（８）および
（７）は選択しない。その代わりに、次のトップの２グ
ループであるグループ（７）、（２）を比較する。グル
ープ（７）、（２）は少なくとも１グループ離れている
ため（この例では数値的に４グループ離れている）、ス
テップＳ９０５でグループ（７）、（２）を選択する。

【００９３】ステップＳ１２０６では、ステップＳ１２
０５で選択した２グループ間の距離の半分で全体的な閾
値（global threshold）を計算する。図１３（ａ）に示
すように、グループ（２）、（７）は１６０（つまり１
９２‐３２）の距離だけ離れている。従ってこの代表的
なグレイスケール画像の全体的な閾値は、ＴＨ＝１６０
÷２＝８０となる。

【００９４】ステップＳ１２０７では、グレイスケール
画像の各画素の明暗度を、ステップＳ１２０６で算出し
た全体的な閾値と比較して、グレイスケール画像を２値
化する。図１２に示すように、比較を行なった結果の画
素の明暗度が全体的な閾値より低い場合は、その画素
を、白を表す２値の「０」にセットする（ステップＳ１
２０８）。一方、画素の明暗度が全体的な閾値より高い
場合は、その画素を、黒を表す２値の「１」にセットす
る（ステップＳ１２０９）。

【００９５】グレイスケール画像の全画素と全体的な閾
値との比較を終了すると、２値画像を出力する（ステッ
プＳ１２１０）。

【００９６】[２．６セグメンテーション処理]図１４
はステップＳ９０５で上述したセグメンテーション処理
を示すフローチャートである。この処理により、ドキュ
メント画像のテキストおよび非テキスト領域を識別し
て、テキスト領域の個々の文字を抽出する。図１４の処
理は、ステップＳ９０４で生成した２値画像の連続成分
（connected component）を分析することにより行なう
ものである。「連続成分」とは、連続する黒画素のグル
ープで、全体を白画素で囲まれたものをいう。本願の印
刷書類におけるページのように、通常の印刷ページにお
いて、連続成分は通常ある文字か、文字の分離した一部
であるが、下線を引いた文字または筆記体の原稿では、
連続成分は連続した文字のグループである可能性もあ
る。

【００９７】図１４に示すように、テキスト領域と非テ
キスト領域の両方を含むドキュメント画像において、ド
キュメン画像における連続成分を識別し、各連続成分の
画素密度やアスペクト比などの画像属性を得て、その画
像属性に基づいて各連続成分をフィルタリングして、非
テキスト領域を表す連続成分からテキスト領域を表す連
続成分を分離することによりテキスト領域の位置を決定
する。フィルタリングは、未知のタイプの連続成分がテ
キストか非テキストかが決定できるまで、複数セットの
ルールを連続的に未知の連続成分の画像属性に適用する
ことで行なう。

【００９８】さらに詳しくは、ステップＳ１４０１で
は、セグメンテーション処理する画像を入力する。好ま
しくは、この画像はステップＳ９０４で閾値処理して生
成した２値画像であるが、一般に、セグメンテーション
処理が必要ないずれの画像でもよい。例えば、入力する
画像は画像再生の準備としてディジタル複写機により走
査されて得られた画像でもよい。この場合は、画像のど
の領域がテキストでどの領域が非テキストかを決定し
て、その決定に基づく文字再生を制御するためにセグメ
ンテーション処理が必要である。こうして、ここで説明
するセグメンテーション処理は、画像のどの領域がテキ
ストかを決定して、それらの領域を黒いトナーのみを用
いてディジタル複写により再生したり、どの領域が非テ
キストかを決定して、それらの領域をシアン、マジェン
タ、イエロー、ブラックのトナーを組み合わせて用い
て、ディジタル複写により再生するように使用される。

【００９９】ステップＳ１４０２では、画像における下
線部を検出して除去する。下線部が引かれた文字は、幾
つかの別々な連続成分ではなく、むしろ単一の連続成分
として識別されやすく、こうして連続成分の分析が損な
われることになる。下線部除去は２．６．１章で図１
８、１９を参照して詳細に説明する。

【０１００】ステップＳ１４０３では、画像を分析して
全ての連続成分を識別する。上述のように、「連続成
分」は連続した黒画素のグループであって、全体を白画
素で囲まれたものである。図１５は、単語「finally」
の画像を形成する画素を示すが、同図に示されるよう
に、連続成分は画像の各画素の８方向分析により検出で
きる。さらに詳しくは、図１５の画像における最も右下
の黒画素である画素８０などの最初の画素から始まっ
て、黒画素を取り囲む画素を、星状方向８１に示すよう
に８方向に調べて、隣接する黒画素が存在するかどうか
を判定する。画素８２はそうした黒画素で、更に画素８
２から８方向の処理を始めて、矢印８４で示すように連
続成分の周囲をたどる。

【０１０１】この画像における各画素を図１５で説明し
たように分析して、テーブルのフレーム内の個々の項目
のような内部的連続成分を含む、画像における各連続成
分の位置を識別して決定する。この実施例では、図１５
の四角形８５のように、文字を取り囲む四角形の位置を
決定することによって、各連続成分の位置を規定する。

【０１０２】図１５に示す８方向処理は連続成分を正確
に識別できるが、ＣＰＵの処理時間やメモリ格納領域の
観点からは不経済な処理である。というのは、通常全体
の画像を一度にメモリへ格納しなければならないからで
ある。図２０、２１を参照して２．６．２章で説明する
連続成分処理は連続成分を検出するためのより効率的な
技術であり、従ってこのステップＳ１４０３にとっては
好ましい方法である。

【０１０３】ステップＳ１４０４では、各連続成分につ
いて物理的な画像属性を得る。こうして、図１６に示す
ように、各連続成分について、アスペクト比、画素カウ
ント（画素数）、密度、周囲、周囲／幅の比、（周囲の
二乗）／領域の比などの画像属性の全てを得る。さら
に、「タイプ」属性も各連続成分に関連する。最初に、
タイプ属性は「未知」と設定されるが、さらなる処理に
従って、究極的には各連続成分のタイプが「テキスト」
または「非テキスト」と設定される。このステップＳ１
４０４で得た物理的画像属性は図９ＣのステップＳ９１
４における多義性の解決に使用される。

【０１０４】ステップＳ１４０５では、連続成分を検討
して画像の方向がポートレート（縦長）またはランドス
ケープ（横長）であるかを判断する。より詳しくは、大
抵の画像はポートレート方向の画像として走査されるの
で、ここで説明する処理はポートレート方向の画像のみ
を扱うことにする。従って、ステップＳ１４０５でラン
ドスケープの方向が検出された場合は、ステップＳ１４
０６へ進んで、画像を９０°回転してポートレート方向
の画像を得る。そしてステップＳ１４０４へ戻って、各
連続成分の属性を得る。

【０１０５】ポートレート方向の画像を得ると、ステッ
プＳ１４０７へ進み、各「未知」のタイプの連続成分に
ついて、複数のルールを適用して、連続成分がテキスト
であるかまたは非テキストであるかを判定する。連続成
分ルールについては図２２を参照して詳細に説明する
が、一般に、ルールは連続成分自体にではなくステップ
Ｓ１４０４で決定された属性に適用される。さらに、好
ましくは、最初の段階で適用するルールは時間をほとん
ど掛けずに計算を行ない、早い段階で非テキスト連続成
分から識別し易いテキスト連続成分を分離することので
きる単純なルールである。後の段階で適用するルール
は、非テキスト連続成分から識別し難いテキスト連続成
分を分離する、より複雑で時間の掛かるルールである。
しかし、この後期の処理段階では「未知」のタイプの連
続成分はさらに少なくなっているため、後半のルールは
前半のルールよりも適用頻度が低い。

【０１０６】ステップＳ１４０８では、「テキストタイ
プ」の連続成分を分析してテキストのラインを識別す
る。テキストのラインの分析は、ステップＳ９１５のペ
ージ再構成で利用される。さらに、テキストのラインを
識別することによって、連続成分の分析により分離され
た文字の部分を再接続することができる。例えば、図１
５からわかるように、「ｉ」の上の点８６は連続成分の
分析によって「ｉ」の文字本体から分離されていた。ス
テップＳ１４０８に示すように、テキストのラインを識
別することにより、ステップＳ１４１１で後述するよう
に文字をテキストのラインから順次切り離す時に、完全
な文字「ｉ」を形成するように連続成分を再接続するこ
とが可能である。

【０１０７】ステップＳ１４０９で、もしテキストのラ
インの接触があれば、ステップＳ１４１０で分離する。
そして、ステップＳ１４１１で、さらなる処理のために
個々の文字をテキストのラインから切り離す。例えば、
図９Ａから９Ｃを参照すると、テキストのラインから切
り離された個々の文字を、ステップＳ９０６でテンプレ
ートとして使用して、ステップＳ９０７で文字のグレイ
スケール画像から文字を抽出する。さらに、ステップＳ
９１３では、このステップＳ１４１１で切り離した文字
自体を認識処理する。

【０１０８】図１７は上述の処理が下線付きの単語「fi
nally」に与える効果を示している。図１７に示すよう
に、ステップＳ９０１に従って、印刷された下線付きの
単語「finally」を含むドキュメント９０を画素解像度
９１で走査して、下線付きの単語「finally」のグレイ
スケール画像９２を入力する。歪み補正（ステップＳ９
０２）の後、ステップＳ９０３に従って、グレイスケー
ル画像のコピーを９３として保存する。そして、ステッ
プＳ９０４に従い、グレイスケール画像を閾値処理して
２値画像９４を作成する。

【０１０９】そしてステップＳ９０５で上述したように
２値画像をセグメンテーション処理する。さらに詳しく
は、図１４を参照して説明すると、下線を除去して（ス
テップＳ１４０２）画像９５を生成する。連続成分の分
析（ステップＳ１４０３からＳ１４１２）を通して、文
字９６を画像９５から切り離す。そして、テンプレート
９７を得て（ステップＳ９０６）、テンプレートをグレ
イスケール画像のコピー９３に適用し、グレイスケール
文字画像９８を抽出する（ステップＳ９０７）。なお、
テンプレートは、関係する全画素がグレイスケール画像
から適切に抽出されたかどうかを確認するために、約２
画素程度拡大することが可能である。さらに、グレイス
ケール画像９３をもとのままの下線が付いた状態で保存
するため、グレイスケール文字画像を取り出す際、下線
部の残りを小量含むことになる。しかし、これらの小量
の下線の残余は、認識処理を妨げるものではない。そこ
で抽出されたグレイスケール文字画像に認識処理を行な
い、抽出された文字画像を識別する。この例では、文字
「f」に関しては、認識処理によりＡＳＣＩＩコードの
「６６ｈｅｘ」が得られるが、このコードは文字「f」
に対するＡＳＣＩＩコードの１６進数値である。

【０１１０】[２．６．１下線除去]図１８Ａ、Ｂはス
テップＳ１４０２に従って行なう下線部の除去を説明す
るためのフローチャートである。これは下線部を文字通
り取り除くわけではなく、下線部分の文字を下線から分
離するものである。連続成分の分析により分離された下
線のセグメント（segment）は「非テキスト」であると
判断され、後続の認識処理ではそれらは無視される。

【０１１１】下線部分における下線の文字からの分離は
次のように行なう。つまり、画像を上から下に向かっ
て、画素行毎に横断走査して、画像の水平画素ランの各
行のランレングスを計算し、各画素行のランレングスを
前画素行のランレングスと比較して、現在の画素行のラ
ンレングスが前画素行のランレングスより所定値を越え
て大きくなった時に、画像を水平に分割する。次に、分
割された画像を下から上に向かって画素行毎に横断走査
して、現在の画素行のランレングスを計算して前画素行
のランレングスと比較し、現在の行のランレングスが画
像の水平分割が行なわれたのと同一領域内において前画
素行のランレングスより所定値を越えて増加した時に、
画像を垂直に分割して前の水平分割部分を再結合する。
さらに、どこで前の水平分割が行なわれたかを検出す
る、つまり、分割が文字の中央付近か、それとも文字の
エッジ近辺で行なわれたかを検出することにより、上記
の２回目のの分割を垂直に行なう必要はなく、「j」ま
たは「g」などの幾つかの文字の形状を保存するように
斜めに分割してもよい。

【０１１２】さらに詳細を図１８Ａ、Ｂ、図１９により
説明する。ステップＳ１８０１に示すように、最初にド
キュメント画像の最大の文字幅「MAX」を概算する。図
１８に示す下線除去技術の適切な動作のためには最大文
字幅の正確な概算は必要ではなく、最大文字幅の簡単な
概算があればよい。従って、最大文字幅を任意の固定
値、例えばＭＡＸ＝５０画素に設定してもよいし、また
概算された平均文字幅の約３倍に設定してもよい。この
実施例では、概算された平均文字幅を、１６で割った凡
その画像解像度として計算し、最大文字幅ＭＡＸをその
値の３倍に設定する。こうして、４００ｄｐｉの画像に
対し、ＭＡＸ＝３×４００／１６＝７５画素である。

【０１１３】ステップＳ１８０２では、ドキュメント画
像を上から下へ向けて画素行毎に横断走査する。そし
て、ステップＳ１８０３では、水平画素ランのランレン
グスを計算する。より詳しくは、例えば図１９（ａ）に
示すように、下線付きの文字列「Qqpygj」を形成する画
素から成るドキュメント画像１０１を用いて説明する。
画像の画素の任意の画素行１０２について、画素の各水
平ランの水平ランレングスを計算する。このように、１
０４に示すように、文字「Q」の最も左のエッジを構成
する画素の水平ランレングスを計算する。行１０２の画
素の各水平ランレングスについても同様にランレングス
を計算する。

【０１１４】ステップＳ１８０４では、現在の画素行の
水平ランレングスを前画素行の水平ランレングスと比較
する。現在の画素行の水平ランレングスが前画素行の水
平ランレングスよりＭＡＸを越えて増加していない場
合、特別な処理は行なわず、ドキュメント画像の次の画
素行を選択して処理し（ステップＳ１８０５）、全画素
行が上から下まで横断走査処理されるまで処理を続ける
（ステップＳ１８０６）。一方、ステップＳ１８０４の
計算で、現在の行のランレングスが前行のランレングス
と比較してＭＡＸを越えて増加していることがわかった
場合、その行で画像を水平に分割する。図１９（ｂ）は
この処理を表している。

【０１１５】さらに詳しくは、図１９（ｂ）に示すよう
に、下線１０３が存在するために現在の画素行の水平ラ
ンレングスが前画素行の水平ランレングスよりＭＡＸを
越えて増加していると判断するまで処理は進む。従っ
て、その行の全画素を１０５の所で水平に分割する。処
理は全画素行が上から下まで横断処理されるまで次の行
および後続の行へと続く（ステップＳ１８０５、Ｓ１８
０６）。

【０１１６】そして、ステップＳ１８０８へ進み、分割
された画像を下から上へ向かって画素行毎に横断する。
ステップＳ１８０９では、現在の画素行の水平画素ラン
のランレングスを計算し、ステップＳ１８１０で現在の
画素行のランレングスを前画素行のランレングスと比較
する。前述のように、現在の画素行のランレングスが前
画素行のランレングスよりＭＡＸを越えて増加していな
い場合は、特別な処理を行なわずに、次の行を選択し、
分割された画像の全行が下から上へ向かって横断される
まで処理を続ける。

【０１１７】一方、ステップＳ１８１０で、現在の画素
行のランレングスが前画素行のランレングスよりＭＡＸ
を越えて増加していると判断した場合は、ステップＳ１
８１３で隣接する領域に以前に行なわれた水平分割（ス
テップＳ１８０７より）があるかどうかを判断する。ス
テップＳ１８１３で以前に行なわれた水平分割はないと
判断すると、前述のように、特別な処理を行なわずに、
ステップＳ１８１１へ戻り、画像の全行が下から上へ横
断されるまで処理を続ける。

【０１１８】一方、隣接する領域に以前行なわれた水平
分割があれば、ステップＳ１８１４からＳ１８１９に示
すように、水平分割を再結合（または閉じる）して、１
対の垂直または斜めの分割部分と置換する。さらに詳し
くは、ステップＳ１８１４で、図１９（ｃ）の「ｑ」、
「ｐ」、「ｙ」などの文字の中央付近で小さいサイズの
水平分割が行なわれていると判断した場合、ステップＳ
１８１５へ進んで、水平分割を再結合して、１対の垂直
分割部分を挿入する。特に図１９（ｃ）に示すように、
前の水平分割が文字「ｑ」、「ｐ」、「ｙ」の中央付近
で行なわれているので、水平分割を閉じて、１０６に示
すような垂直分割と置換する。

【０１１９】ステップＳ１８１６で、文字エッジ近辺で
小さい水平分割があった場合は、ステップＳ１８１７へ
進み、水平分割を再結合して１対の斜の分割部分に置換
する。さらに詳しくは、図１９（ｄ）に示すように、文
字「ｇ」と「ｊ」の文字エッジで水平分割が検出されて
いるので、水平分割を閉じて１対の斜めの分割１０８と
置換する。

【０１２０】ステップＳ１８１８で大きい水平分割があ
ったと判断した場合は、ステップＳ１８１９へ進んで、
水平分割を再結合して、ステップＳ１８１７で挿入した
よりも広いスペースで１対の斜めの分割を挿入する。

【０１２１】[２．６．２連続成分分析]図２０は連続
成分（ステップＳ１４０３）を得るための好適な技術を
示すフローチャートである。２．６章で上述した連続成
分分析はＣＰＵの処理時間やメモリの記憶容量の観点か
らは不経済である。それは、ＣＰＵは画像データの個々
の画素ビットを何度も比較しなければならず、また画像
全体を同時にメモリに格納する必要があるからである。
ここで図２０に基づいて説明する技術では、メモリには
１度に画像の２画素行が存在していればよい。また、Ｃ
ＰＵは個々の画素ビットや画像データに何度もアクセス
する必要はなく、水平画素セグメントを得るために画素
データに１度アクセスすればよい。その後、ＣＰＵは水
平画素セグメントの位置で動作するだけである。

【０１２２】簡潔に述べると、図２０に関して説明する
技術によると、画素画像データにおける連続成分を得る
方法は、最初は連続成分を含まない連続成分のリストを
開き、画像を画素行毎に下から上へ向かって横断走査し
て適切なシーケンスの連続成分を出力し、画像データの
現在の画素行における全ての水平画素セグメントを識別
し、現在の行の水平セグメントを前行の水平セグメント
と比較して、以下４つの異なるケースの全てまたはいず
れかが存在するかどうかを判断する。第１のケースは現
在の画素行のセグメントが前画素行の開いた領域（オー
プン領域）に隣接している場合である。第２のケースは
現在の画素行の水平セグメントが前画素行の水平セグメ
ントに隣接している場合である。第３のケースは現在の
画素行のセグメントが連続成分のリストにおいて少なく
とも２つの連続成分をまたいでいる（bridges）場合で
ある。第４のケースは現在の画素行の水平セグメントが
現在の画素行のオープン領域に隣接している場合であ
る。第１のケースが存在する場合、リストで新しい連続
成分をスタートする（started in the list）。第２の
ケースが存在する場合、水平セグメントの現在の連続成
分のトレース（trace）を更新する。第３のケースが存
在する場合、水平セグメントがまたがっている２つの連
続成分を合併する。最後に、第４のケースが存在する場
合、連続成分のリスト内の連続成分のトレースを閉じる
（closed out）。画像の全行を横断すると、さらなる処
理のために連続成分のリストを出力する。

【０１２３】より詳しくは、ステップＳ２００１に示す
ように、コンピュータ化した連続成分のリストを開く。
リストは連続成分を含まないように初期化されている
が、最終的には画像の全ての連続成分を含むようにな
る。

【０１２４】ステップＳ２００２では、画像を画素行ご
とに、好ましくは画像の下から上へ向かって横断走査す
る。こうすると連続成分のリスト内の連続成分が正しい
シーケンスの順序に並ぶため、この順序が好ましい。

【０１２５】ステップＳ２００３では、画像の現在の画
素行における全ての水平画素セグメントを識別する。さ
らに詳しくは、図２１に単語「UNION」の任意の画像１
２０について示すように、画素行１２１には水平画素セ
グメントが存在しない。一方、画素行１２２には領域１
２２ａ、ｂ、ｃ、ｄ、ｅ、ｆ、ｇ、ｈで認識される８つ
の画素セグメントが存在する。これらの８つの水平画素
セグメントの各々をステップＳ２００３で識別する。

【０１２６】ステップＳ２００４へ進んで、ステップＳ
２００３で識別された水平画素セグメントが画像の前画
素行における水平セグメントに隣接するかどうかを判定
する。現在の画素行の水平セグメントが前画素行の水平
セグメントに隣接していない場合は、新たな水平セグメ
ントを識別しており、ステップＳ２００５へ進んで新た
な連続成分を連続成分のリスト上でスタートする。こう
して、例えば、図２１の８つの水平セグメント１２２
ａ、ｂ、ｃ、ｄ、ｅ、ｆ、ｇ、ｈについて新しい連続成
分がスタートする。

【０１２７】一方、ステップＳ２００４で、現在の画素
行の水平セグメントが前画素行の水平セグメントに隣接
している場合は、ステップＳ２００６で水平セグメント
に相当する現在の連続成分のトレースを単純に更新す
る。さらに詳しくは、図２１に戻って、行１２３に対し
ては、１２３ａから１２３ｌまでの各水平セグメントは
前行の水平セグメントに隣接している。従って、これら
の水平セグメントに相当する連続成分のトレースを単純
に更新する。この点において、水平セグメント１２３ｃ
および１２３ｅは同一の連続成分に含まれている。これ
らの水平画素行セグメントは両方とも単一の行セグメン
ト、つまり水平画素セグメント１２２ｃで始まっている
からである。同様に、水平画素セグメント１２３ｈおよ
び１２３ｉは共に水平画素セグメント（１２２ｆ）から
始まり、同一の連続成分に含まれている。

【０１２８】ステップＳ２００７では水平画素セグメン
トが２つまたはそれ以上の連続成分にまたがっているか
どうかを判定する。水平画素セグメントが２またはそれ
以上の連続成分にまたがっている場合は、それらの連続
成分のトレースを合併する（ステップＳ２００８）。さ
らに詳しくは、図２１の行１２４について示すように、
水平画素セグメント１２４ａは水平セグメント１２２ａ
および１２２ｂから始まる２つの連続成分にまたがって
いる。従って、これらの２つの連続成分を合併する。同
様に、水平セグメント１２４ｃは水平セグメント１２２
ｃおよび１２２ｄから始まる２つの連続成分にまたがっ
ている。従って、これらの２つの連続成分を合併する。
なお、水平画素セグメント１２４ｅは２つの異なる連続
成分にまたがってはいない。これは単一の連続成分が１
２２ｆで始まっているからである。

【０１２９】ステップＳ１７０９では前画素行における
水平画素セグメントが現在の画素行における開いたセグ
メントに隣接するかどうかを判定する。前画素行の水平
セグメントが開いたセグメントに隣接している場合は、
連続成分は完成しており、相当する連続成分を閉じる
（ステップＳ２０１０）。

【０１３０】いずれの場合も、ステップＳ２０１１へ進
んで画像の次の画素行を処理し、画像の全画素行の処理
が完了するまで（ステップＳ２０１２）処理を続ける。
画像全体を処理すると、連続成分のリストを閉じて、リ
ストを出力し（ステップＳ２０１３）、連続成分属性の
計算を行なう（ステップＳ１４０４参照）。

【０１３１】[２．６．３非テキストからテキストを
区分するためのルール]図２２Ａ〜図２２Ｆは連続成分
属性に適用してテキストエレメントか非テキストエレメ
ントかを判定するための複数セットのルールを示すフロ
ーチャートである。ルールは適切な動作のためにフォン
トサイズまたは他のサイズ情報または分析されるドキュ
メントの予備的な知識には依存しない、スケール不変の
ものである。

【０１３２】迅速な処理が可能で、テキストおよび非テ
キスト連続成分間において容易な区分判定ができるルー
ルを最初に適用し、より難しく、テキストおよび非テキ
スト連続成分間において困難な区分判定を行なうルール
を後に適用する。これらのルールは「未知の」タイプの
連続成分に適用されるが、始めの方で適用されるルール
によりすでにテキスト、非テキストの判定がされてしま
うため後半のルールはたまにしか適用されない。

【０１３３】ステップＳ２２０１では、連続成分の平均
の高さを決定して連続成分属性と比較するためのスケー
ル不変のパラメータを計算する。そして、ステップＳ２
２０２では、連続成分の平均の高さに基づいてパラメー
タを計算する。幾つかのパラメータは本質的にスケール
不変であり連続成分の平均の高さに基づく計算を必要と
しない。例えば、アスペクト比は高さ対幅の比であるの
で、すでにスケール不変である。しかし、最小の高さな
ど他のパラメータはスケール不変ではないのでステップ
Ｓ２２０２で決定する。

【０１３４】そして、図２２Ａ〜Ｆの残りの部分に説明
するように、「未知」のタイプのままの各連続成分に複
数セットのルールを適用する。まず、ルール１に従っ
て、高さ、アスペクト比、密度、（周囲の二乗）／領域
の比、周囲／幅の比を全て検討して連続成分がテキスト
連続成分の高さ、アスペクト比、密度、パラメータをほ
ぼ有しているかどうかを判定する。それらを有する場合
は、連続成分の高さ、アスペクト比、密度についてさら
にテストを加えて、テキストか非テキストかを決定し
て、それに従い連続成分のタイプを分類する。

【０１３５】ルール１に該当せず連続成分が「未知」の
ままである場合は、ルール２を用い、画素数、周囲、ア
スペクト比、高さを検討して連続成分が「．」より小さ
いまたは細いかどうかを判定する。そうである場合は、
連続成分を「非テキスト」に設定する。

【０１３６】ルール２に該当せず連続成分が「未知」の
ままである場合は、ルール３を用い、連続成分の高さ、
アスペクト比、密度を検討して、連続成分がスラッシュ
（「／」）であるかどうかを判定する。スラッシュであ
る場合は、連続成分を「テキスト」に設定する。

【０１３７】ルール３に該当せず連続成分が「未知」の
ままである場合は、ルール４を用い、連続成分のアスペ
クト比、高さ、密度を検討して、連続成分が「１」、
「ｌ」などの単一の小さく細い文字であるかどうかを判
定する。そうした文字である場合は、連続成分を「テキ
スト」に設定する。

【０１３８】ルール４に該当せず連続成分が「未知」の
ままである場合は、ルール５を用い、連続成分のアスペ
クト比、高さ、密度、（周囲の二乗）／領域の比を検討
して、連続成分が「-」、「_」、「-」などの単一の短
い文字か、「＝」や「％」の各部分であるかどうかを判
定する。そうした文字や文字部分である場合は、連続成
分を「テキスト」に設定する。

【０１３９】ルール５に該当せず連続成分が「未知」の
ままである場合は、ルール６を用い、アスペクト比、高
さ、密度を検討して、連続成分が「.」、「,」などの小
さい文字か、「：」や「；」の各部分であるかどうかを
判定する。そうした文字や文字部分である場合は、連続
成分を「テキスト」に設定する。

【０１４０】ルール６に該当せず連続成分が「未知」の
ままである場合は、ルール７を用い、連続成分のアスペ
クト比、高さ、密度を検討して、連続成分が「>」、
「<」、「^」、「u」、「v」などの高さおよび密度の低
い文字であるかどうかを判定する。そうした文字である
場合は、連続成分を「テキスト」に設定する。

【０１４１】ルール７に該当せず連続成分が「未知」の
ままである場合は、ルール８を用い、連続成分の高さ、
アスペクト比、密度、（周囲の二乗）／領域の比、周囲
／幅の比を検討して、連続成分が行において連続した文
字のように幅が広く短いものであるかどうかを判定す
る。そうである場合は、線のように周囲／幅の比が低い
かまたは密度が高ければ、連続成分のタイプを「非テキ
スト」に設定する。周囲／幅の比が高く密度が低けれ
ば、連続成分を「テキスト」に設定する。

【０１４２】ルール８に該当せず連続成分が「未知」の
ままである場合は、ルール９を用い、連続成分のアスペ
クト比、密度を検討して、連続成分が「｜」のような高
い垂直な線であるかどうかを判定する。そうした線であ
る場合は、連続成分を「非テキスト」に設定する。

【０１４３】ルール９に該当せず連続成分が「未知」の
ままである場合は、ルール１０を用い、連続成分のアス
ペクト比、密度を検討して、連続成分が長い水平の線の
ストロークであるかどうかを判定する。そうである場合
は、連続成分のタイプを「非テキスト」に設定する。

【０１４４】ルール１０に該当せず連続成分が「未知」
のままである場合は、ルール１１を用い、連続成分の高
さを検討して、連続成分がルール９ではピックアップで
きない高い非テキスト領域であるかどうかを判定する。
そうである場合は、連続成分のタイプを「非テキスト」
に設定する。

【０１４５】ルール１１に該当せず連続成分が「未知」
のままである場合は、ルール１２を用い、連続成分の高
さ、密度を検討して、連続成分がまだピックアップされ
ていないボーダーラインテキスト（borderline text）
成分であるかどうかを判定する。そうである場合は、連
続成分のタイプを「テキスト」に設定する。

【０１４６】ルール１２に該当せず連続成分が「未知」
のままである場合は、ルール１３を用い、連続成分のア
スペクト比、高さ、密度、（周囲の二乗）／領域の比、
周囲／幅の比を検討して、連続成分がまだルール８でピ
ックアップされていない、「an」、「the」、「was」な
どの一連の短い単語の列であるかどうかを判定する。そ
うである場合は、連続成分を「テキスト」に設定する。

【０１４７】ルール１３に該当せず連続成分が「未知」
のままである場合は、ルール１４を用い、連続成分のア
スペクト比、密度を検討して、連続成分が非テキストで
あるしみ（blotch）であるかどうかを判定する。そうし
たしみである場合は、連続成分を「非テキスト」に設定
する。

【０１４８】ルール１４に該当せず連続成分が「未知」
のままである場合は、ルール１５を用い、連続成分の密
度を検討して、連続成分が、例えば詳細なグラフィック
に見られるような非常に高密度な非テキストブロックの
しみか、あるいはテーブルに見られるテキストを囲むフ
レームなどのような、非常に低密度の非テキストのしみ
であるかどうかを判定する。そうである場合は、連続成
分を「非テキスト」に設定する。

【０１４９】ルール１５に該当せず連続成分が「未知」
のままである場合は、ルール１６を用い、連続成分の高
さ、密度、アスペクト比、（周囲の二乗）／領域の比、
周囲／幅の比を検討して、連続成分が通常タイトルや見
だしに見られる大きいフォントの単語であるかどうかを
判定する。そうである場合は、連続成分を「テキスト」
に設定する。

【０１５０】ルール１６に該当せず連続成分が「未知」
のままである場合は、ルール１７を用い、連続成分の高
さ、密度、アスペクト比、（周囲の二乗）／領域の比、
周囲／幅の比を検討して、連続成分が、大きいフォント
の単語に似ているが周囲の値が低く、従って非テキスト
であるエレメントであるかどうかを判定する。そうした
場合は、連続成分を「非テキスト」に設定する。

【０１５１】ルール１７に該当せず連続成分が「未知」
のままである場合は、ルール１８を用い、連続成分の高
さ、密度を検討して、連続成分がルール１２でピックア
ップされていないボーダーラインテキストブロック（bo
rderline text block）であるかどうかを判定する。そ
うである場合は、連続成分を「テキスト」に設定する。

【０１５２】ルール１８に該当せず連続成分が「未知」
のままである場合は、ルール１９を用い、連続成分の
（周囲の二乗）／領域の比、周囲／幅の比、密度を検討
して、連続成分が残りの判定困難なテキスト連続成分で
あるかどうかを判定する。そうである場合は、連続成分
を「テキスト」に設定する。

【０１５３】ルール１９に該当せず連続成分が「未知」
のままである場合は、ルール２０を用い、連続成分の
（周囲の二乗）／領域の比、周囲／幅の比、密度を検討
して、連続成分がルール１８でピックアップされていな
い残りの判定困難な非テキストエレメントであるかどう
かを判定する。そうである場合は、連続成分を「非テキ
スト」に設定する。

【０１５４】ルール２０に該当せず連続成分が「未知」
のままである場合は、ルール２１を用い、連続成分の密
度、アスペクト比、（周囲の二乗）／領域の比を検討し
て、ルール１９でピックアップされていない残りの判定
困難なテキストタイプの連続成分を検出する。連続成分
が残りの判定困難なテキストタイプの連続成分の１つで
ある場合は、連続成分を「テキスト」に設定する。

【０１５５】ルール２１に該当せず連続成分が「未知」
のままである場合は、ルール２２を用い、連続成分の高
さ、周囲／幅の比、アスペクト比、（周囲の二乗）／領
域の比を全て検討して、連続成分が雑誌記事における最
初の大きいフォント文字のような孤立した大きいフォン
トの文字であるかどうかを判定する。そうである場合
は、連続成分を「テキスト」に設定する。

【０１５６】ルール２２に該当せず連続成分が「未知」
のままである場合は、ルール２３を用い、連続成分の高
さ、周囲／幅の比、アスペクト比を検討して、連続成分
が見出しやタイトルのフォントのような大きいフォント
の文字に似ているが、非テキストである、孤立した非テ
キストエレメントであるかどうかを判定する。そうであ
る場合は、連続成分を「非テキスト」に設定する。

【０１５７】ルール２３に該当せず連続成分が「未知」
のままである場合は、ルール２４を用い、連続成分の
（周囲の二乗）／領域の比、周囲／幅の比を検討して、
連続成分が非常に長い単語または連続した単語のセット
であるかどうかを判定する。フィルタリングのルールの
この時点においては、そうした一連の単語が「テキス
ト」であると正しく指定できるもの以外は滅多に検出す
ることはない。このルールの基準に合うならば、連続成
分を「テキスト」に設定する。

【０１５８】ルール２４に該当せず連続成分が「未知」
のままである場合は、ルール２５を用い、残りの連続成
分を「非テキスト」に設定する。

【０１５９】ルール２６では各テキストの連続成分を検
討して、連続成分が他のテキスト連続成分から孤立して
いる場合は、その連続成分を「非テキスト」に設定す
る。これは、無意識に鉛筆を動かして付けた印や紙の透
かし模様（water marks）などページに孤立して付いた
印が誤ってテキストとして解釈されないことを保証する
ものである。

【０１６０】尚、本発明は、複数の機器から構成される
システムに適用しても１つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。

【０１６１】

【発明の効果】以上説明したように、本発明によれば、
グレースケール画像に対するセグメンテーション処理が
可能となり、グレースケール画像に対する文字認識を行
なえるようになる。

【０１６２】また、本発明によれば、走査入力されたグ
レースケール画像についてセグメンテーション処理を行
い、グレースケール画像の文字について文字認識を行う
と共にその結果を格納することが可能となる。

【０１６３】また、本発明によれば、グレースケール画
像を用いた認識処理の結果と２値化画像を用いた認識処
理の結果とに基づいて認識結果を決定することが可能と
なり、より高精度に認識を行うことができる。

【０１６４】また、本発明によれば、検出されたフォン
ト特性に基づいて認識処理方法を選択することが可能と
なり、より精度よく文字認識を行うことができる。

【０１６５】

【図面の簡単な説明】

【図１】２値画像とグレイスケール画像の相違を説明す
るための図である。

【図２】代表的なドキュメントページを表す図である。

【図３】本実施例に係わるパーソナル画像処理コンピュ
ータシステムの外観を表す部分切取図である。

【図４】図３の装置のネットワーク接続を説明する図で
ある。

【図５】図３の装置の内部構成を示す詳細ブロック図で
ある。

【図６】図３の装置のコントロールパネルの拡大図であ
る。

【図７】図３の装置のコントロールパネルの拡大図であ
る。

【図８】ドキュメント格納及び検索を説明するためのフ
ローチャートである。

【図９Ａ】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。

【図９Ｂ】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。

【図９Ｃ】本実施例に係わる光学文字認識を説明するた
めのフローチャートである。

【図１０Ａ】画像の歪み補正（de-skew）を説明するた
めのフローチャートである。

【図１０Ｂ】画像の歪み補正（de-skew）を説明するた
めのフローチャートである。

【図１１Ａ】代表的な歪んだ（skewed）画素とその補正
（de-skew）を表す図である。

【図１１Ｂ】代表的な歪んだ（skewed）画素とその補正
（de-skew）を表す図である。

【図１１Ｃ】代表的な歪んだ（skewed）画素とその補正
（de-skew）を表す図である。

【図１２】閾値処理による、グレイスケール画像からの
２値画像処理を説明するためのフローチャートである。

【図１３】グレイスケール画像の代表的なヒストグラム
である。

【図１４】本実施例に係わるセグメンテーション処理を
説明するためのフローチャートである。

【図１５】画像内の連続成分（connected components）
の検出（derivation）を説明するための図である。

【図１６】各連続成分に対して格納される画像属性を示
す図である。

【図１７】下線付きの単語「finally」の画像に対する
画像処理の効果を説明する図である。

【図１８Ａ】下線除去を説明するためのフローチャート
である。

【図１８Ｂ】下線除去を説明するためのフローチャート
である。

【図１９】下線除去の連続的な処理段階と、これら処理
段階における、下線部付きの文字の画像に対する効果を
示す図である。

【図２０】連続成分の分析を説明するためのフローチャ
ートである。

【図２１】単語「UNION」の画像から連続成分が誘導さ
れる様子を示す図である。

【図２２Ａ】連続成分のルールベースの処理を示すフロ
ーチャートである。

【図２２Ｂ】連続成分のルールベースの処理を示すフロ
ーチャートである。

【図２２Ｃ】連続成分のルールベースの処理を示すフロ
ーチャートである。

【図２２Ｄ】連続成分のルールベースの処理を示すフロ
ーチャートである。

【図２２Ｅ】連続成分のルールベースの処理を示すフロ
ーチャートである。

【図２２Ｆ】連続成分のルールベースの処理を示すフロ
ーチャートである。

Claims

【特許請求の範囲】

【請求項１】文字を含むグレイスケール画像における
文字を識別する文字認識装置であって、前記グレイスケール画像を閾値処理して２値画像を得る
閾値処理手段と、前記２値画像をセグメンテーション処理して個々の２値
の文字画像の位置を決定するセグメンテーション手段
と、各個々の２値文字画像をテンプレートとして用いて前記
グレイスケール画像からグレイスケール文字画像を抽出
する抽出手段と、抽出されたグレイスケール文字画像を認識処理して文字
の識別を決定する認識処理手段とを備えることを特徴と
する文字認識装置。
【請求項２】前記グレイスケール画像の密度の分布の
ヒストグラムを得て、前記ヒストグラムにおけるビン
（bins）の近接度に基づいて前記閾値処理手段のための
閾値を獲得する獲得手段をさらに備えることを特徴とす
る請求項１に記載の文字認識装置。
【請求項３】前記２値画像から下線を除去する除去手
段をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項１に
記載の文字認識装置。
【請求項４】前記セグメンテーション手段は前記２値
画像の連続成分分析を行なうことを特徴とする請求項１
に記載の文字認識装置。
【請求項５】不適切に分離された連続成分を再結合す
るために文字のラインを再構成する再構成手段をさらに
備えることを特徴とする請求項４に記載の文字認識装
置。
【請求項６】テキストタイプの連続成分を非テキスト
タイプの連続成分から分離する分離手段をさらに備え、前記認識処理手段はテキストタイプの連続成分のみを認
識処理することを特徴とする請求項４に記載の文字認識
装置。
【請求項７】ドキュメントのページにおける文字の読
み込み順序を再構成し、ページ再構成された読み込み順
序に基づいて文字の識別を格納する再構成手段をさらに
備えることを特徴とする請求項１に記載の文字認識装
置。
【請求項８】前記グレイスケール画像を入力する入力
手段をさらに備えることを特徴とする請求項１に記載の
文字認識装置。
【請求項９】前記入力手段は文字が形成されるドキュ
メントのページを走査する走査手段を備えることを特徴
とする請求項８に記載の文字認識装置。
【請求項１０】前記入力手段はコンピュータファイル
からグレイスケールドキュメント画像を検索する検索手
段を備えることを特徴とする請求項８に記載の文字認識
装置。
【請求項１１】前記入力手段はコンピュータ化された
ローカルエリアネットワーク上でコンピュータファイル
を読み込む読み込み手段を備え、前記ローカルエリアネットワーク上のコンピュータファ
イルにおける文字の識別を格納する格納手段をさらに備
えることを特徴とする請求項１０に記載の文字認識装
置。
【請求項１２】グレイスケール画像における文字を識
別する文字認識装置であって、前記グレイスケール画像を格納し、前記グレイスケール
画像を処理するためのインストラクションシーケンスを
格納するメモリと、前記インストラクションシーケンスを実行する処理部と
を備え、前記インストラクションシーケンスは前記処理部に
（ａ）前記グレイスケール画像を閾値と比較することに
よって２値画像を得させ、（ｂ）個々の２値文字画像の
位置を決定するために前記２値画像をセグメンテーショ
ン処理させ、（ｃ）個々の２値文字画像をテンプレート
として用いて前記グレイスケール画像からグレイスケー
ル文字画像を抽出させ、（ｄ）文字の識別を決定するた
めに抽出されたグレイスケール文字画像を認識処理させ
る処理工程を含むことを特徴とする文字認識装置。
【請求項１３】前記インストラクションシーケンスは
前記グレイスケール画像における密度分布のヒストグラ
ムを得て、前記ヒストグラムにおけるビンの近接度に基
づいて前記閾値工程のための閾値を得る処理工程をさら
に含むことを特徴とする請求項１２に記載の文字認識装
置。
【請求項１４】前記インストラクションシーケンスは
前記２値画像から下線を除去する処理工程をさらに含
み、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項１２
に記載の文字認識装置。
【請求項１５】前記インストラクションシーケンスは
前記２値画像の連続成分の分析のための処理工程をさら
に含むことを特徴とする請求項１２に記載の文字認識装
置。
【請求項１６】前記インストラクションシーケンスは
不適切に分離された連続成分を再結合するために文字の
ラインを再構成する処理工程をさらに含むことを特徴と
する請求項１５に記載の文字認識装置。
【請求項１７】前記インストラクションシーケンスは
テキストタイプの連続成分を非テキストタイプの連続成
分から分離する処理工程をさらに含み、前記認識処理はテキストタイプの連続成分のみに対して
行なわれることを特徴とする請求項１５に記載の文字認
識装置。
【請求項１８】前記インスラクションシーケンスはド
キュメントのページにおける文字の読み込み順序を再構
成し、ページ再構成された読み込み順序に基づいて文字
の識別を格納する処理工程をさらに含むことを特徴とす
る請求項１２に記載の文字認識装置。
【請求項１９】前記インスラクションシーケンスは前
記グレイスケール画像を入力する処理工程をさらに含む
ことを特徴とする請求項１２に記載の文字認識装置。
【請求項２０】前記前記グレイスケール画像は入力手
段は文字が形成されるドキュメントのページを走査する
ことによって入力されることを特徴とする請求項１９に
記載の文字認識装置。
【請求項２１】前記グレイスケール画像はコンピュー
タファイルからグレイスケールドキュメント画像を検索
することによって入力されることを特徴とする請求項１
９に記載の文字認識装置。
【請求項２２】前記グレイスケール画像はコンピュー
タ化されたローカルエリアネットワーク上でコンピュー
タファイルを読み込むことにより入力され、前記インストラクションシーケンスは前記ローカルエリ
アネットワーク上のコンピュータファイルにおける文字
の識別を格納する工程を含むことを特徴とする請求項２
１に記載の文字認識装置。
【請求項２３】文字のグレイスケール画像における文
字を識別する文字認識方法であって、前記グレイスケール画像を閾値処理して２値画像を得る
閾値処理工程と、前記２値画像をセグメンテーション処理して個々の２値
の文字画像の位置を決定するセグメンテーション工程
と、各個々の２値文字画像をテンプレートとして用いて前記
グレイスケール画像からグレイスケール文字画像を抽出
する抽出工程と、抽出されたグレイスケール文字画像を認識処理して文字
の識別を決定する認識処理工程とを備えることを特徴と
する文字認識方法。
【請求項２４】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
２３に記載の文字認識方法。
【請求項２５】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項２３
に記載の文字認識方法。
【請求項２６】前記セグメンテーション工程は前記２
値画像の連続成分分析を行なう分析工程を含むことを特
徴とする請求項２３に記載の文字認識方法。
【請求項２７】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成工程をさら
に備えることを特徴とする請求項２６に記載の文字認識
方法。
【請求項２８】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみを認
識処理することを特徴とする請求項２６に記載の文字認
識方法。
【請求項２９】ドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納する再構成工程をさら
に備えることを特徴とする請求項２３に記載の文字認識
方法。
【請求項３０】前記グレイスケール画像を入力する入
力工程をさらに備えることを特徴とする請求項２３に記
載の文字認識方法。
【請求項３１】前記入力工程は文字が形成されるドキ
ュメントのページを走査する走査工程を備えることを特
徴とする請求項３０に記載の文字認識方法。
【請求項３２】前記入力工程はコンピュータファイル
からグレイスケールドキュメント画像を検索する検索工
程を備えることを特徴とする請求項３０に記載の文字認
識方法。
【請求項３３】前記入力工程はコンピュータ化された
ローカルエリアネットワーク上でコンピュータファイル
を読み込む読み込み工程を備え、前記ローカルエリアネットワーク上のコンピュータファ
イルにおける文字の識別を格納する格納工程をさらに備
えることを特徴とする請求項３２に記載の文字認識装
置。
【請求項３４】文字のグレイスケール画像における文
字を識別するコンピュータに実行可能な処理ステップで
あって、前記グレイスケール画像を閾値処理して２値画像を得る
閾値処理工程と、前記２値画像をセグメンテーション処理して個々の２値
の文字画像の位置を決定するセグメンテーション工程
と、各個々の２値文字画像をテンプレートとして用いて前記
グレイスケール画像からグレイスケール文字画像を抽出
する抽出工程と、抽出されたグレイスケール文字画像を認識処理して文字
の識別を決定する認識処理工程とを備えることを特徴と
する、コンピュータに実行可能な処理ステップ。
【請求項３５】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
３４記載のコンピュータに実行可能な処理ステップ。
【請求項３６】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項３４
記載のコンピュータに実行可能な処理ステップ。
【請求項３７】前記セグメンテーション工程は前記２
値画像の連続成分分析を行なう分析工程を含むことを特
徴とする請求項３４記載のコンピュータに実行可能な処
理ステップ。
【請求項３８】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成工程をさら
に備えることを特徴とする請求項３７記載のコンピュー
タに実行可能な処理ステップ。
【請求項３９】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみを認
識処理することを特徴とする請求項３７記載のコンピュ
ータに実行可能な処理ステップ。
【請求項４０】ドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納する再構成工程をさら
に備えることを特徴とする請求項３４記載のコンピュー
タに実行可能な処理ステップ。
【請求項４１】前記グレイスケール画像を入力する入
力工程をさらに備えることを特徴とする請求項３４記載
のコンピュータに実行可能な処理ステップ。
【請求項４２】前記入力工程は文字が形成されるドキ
ュメントのページを走査する走査工程を備えることを特
徴とする請求項４１記載のコンピュータに実行可能な処
理ステップ。
【請求項４３】前記入力工程はコンピュータファイル
からグレイスケールドキュメント画像を検索する検索工
程を備えることを特徴とする請求項４１記載のコンピュ
ータに実行可能な処理ステップ。
【請求項４４】前記入力工程はコンピュータ化された
ローカルエリアネットワーク上でコンピュータファイル
を読み込む読み込み工程を備え、前記ローカルエリアネ
ットワーク上のコンピュータファイルにおける文字の識
別を格納する格納工程をさらに備えることを特徴とする
請求項４３記載のコンピュータに実行可能な処理ステッ
プ。
【請求項４５】文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査手段と、前記グレイスケール画像を閾値と比較することによって
前記グレイスケールから２値画像を生成する生成手段
と、前記２値画像をセグメンテーション処理して前記２値画
像内の個々の文字画像の位置を決定し、また前記個々の
文字の形状を決定するセグメンテーション手段と、前記２値画像における文字の位置及び形状に基づいて、
各個々の文字について前記グレイスケール画像からグレ
イスケール画像情報を抽出する抽出手段と、抽出されたグレイスケール画像情報を処理して文字の識
別を決定する認識処理手段と、前記文字の認識をテキストファイルに格納する格納手段
とを備えることを特徴とする文字認識装置。
【請求項４６】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
（bins）の近接度に基づいて前記閾値処理手段のための
閾値を獲得する獲得手段をさらに備えることを特徴とす
る請求項４５に記載の文字認識装置。
【請求項４７】前記２値画像から下線を除去する除去
手段をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項４５
に記載の文字認識装置。
【請求項４８】前記セグメンテーション手段は前記２
値画像の連続成分分析を行なうことを特徴とする請求項
４５に記載の文字認識装置。
【請求項４９】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成手段をさら
に備えることを特徴とする請求項４８に記載の文字認識
装置。
【請求項５０】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離手段をさらに備
え、前記認識処理手段はテキストタイプの連続成分のみを認
識処理することを特徴とする請求項４８に記載の文字認
識装置。
【請求項５１】ドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納する再構成手段をさら
に備えることを特徴とする請求項４５に記載の文字認識
装置。
【請求項５２】文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得るスキャナと、処理部と、メモリとを備え、該メモリは、（ａ）前記スキャナにより得られたグレイスケール画像
と、（ｂ）前記グレイスケール画像における文字の識別を含
むテキストファイルと、（ｃ）前記処理部に（ｉ）前記グレイスケール画像を閾
値と比較することによって前記グレイスケール画像から
２値画像を生成させ、（ｉｉ）前記２値画像をセグメン
テーション処理して前記２値画像内の個々の文字の位置
を決定させ、また個々の文字の形状を決定させ、（ｉｉ
ｉ）前記２値画像における文字の位置及び形状に基づい
て、個々の文字について、前記グレイスケール画像から
グレイスケール画像情報を抽出させ、（ｉｖ）抽出され
たグレイスケール画像情報を処理して文字の識別を決定
させ、（ｖ）前記テキストファイル内の識別を格納させ
る処理工程とを格納することを特徴とする文字認識装
置。
【請求項５３】前記メモリに格納された前記処理工程
は、前記処理部に前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値を得させる工程をさらに含
むことを特徴とする請求項５２に記載の文字認識装置。
【請求項５４】前記メモリに格納された前記処理工程
は、前記処理部に前記２値画像から下線を除去させる工
程をさらに含み、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項５２
に記載の文字認識装置。
【請求項５５】前記メモリに格納された前記処理工程
は、前記処理部に前記２値画像の連続成分分析を行なわ
せる工程をさらに含むことを特徴とする請求項５２に記
載の文字認識装置。
【請求項５６】前記メモリに格納された前記処理工程
は、不適切に分離された連続成分を再結合するために、
前記処理部に文字のラインを再構成させる工程をさらに
含むことを特徴とする請求項５５に記載の文字認識装
置。
【請求項５７】前記メモリに格納された前記処理工程
は、前記処理部にテキストタイプの連続成分を非テキス
トタイプの連続成分から分離させる工程をさらに含み、認識処理はテキストタイプの連続成分のみに対して行な
われることを特徴とする請求項５５に記載の文字認識装
置。
【請求項５８】前記メモリに格納された前記処理工程
は、前記処理部にドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納させる工程をさらに含
むことを特徴とする請求項５２に記載の文字認識装置。
【請求項５９】文字が形成されるドキュメントにおけ
る文字を識別する文字認識方法であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査工程と、前記グレイスケール画像を閾値と比較することによって
前記グレイスケールから２値画像を生成する生成工程
と、前記２値画像をセグメンテーション処理して前記２値画
像内の個々の文字画像の位置を決定し、また前記個々の
文字の形状を決定するセグメンテーション工程と、前記２値画像における文字の位置及び形状に基づいて、
各個々の文字について前記グレイスケール画像からグレ
イスケール画像情報を抽出する抽出工程と、抽出されたグレイスケール画像情報を処理して文字の識
別を決定する処理工程と、前記文字の識別を格納する格納工程とを備えることを特
徴とする文字認識方法。
【請求項６０】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
５９に記載の文字認識方法。
【請求項６１】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項５９
に記載の文字認識方法。
【請求項６２】前記セグメンテーション工程は前記２
値画像の連続成分分析を行なう分析工程を含むことを特
徴とする請求項５９に記載の文字認識方法。
【請求項６３】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成工程をさら
に備えることを特徴とする請求項６２に記載の文字認識
方法。
【請求項６４】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみに実
行されることを特徴とする請求項６２に記載の文字認識
方法。
【請求項６５】ドキュメントのページの文字の読み込
み順序を再構成し、ページ再構成された読み込み順序に
基づいて文字の識別を格納する再構成工程をさらに備え
ることを特徴とする請求項５９に記載の文字認識方法。
【請求項６６】文字が形成されるドキュメントにおけ
る文字を識別するコンピュータに実行可能な処理ステッ
プであって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査工程と、前記グレイスケール画像を閾値と比較することによって
前記グレイスケールから２値画像を生成する生成工程
と、前記２値画像をセグメンテーション処理して前記２値画
像内の個々の文字画像の位置を決定し、また前記個々の
文字の形状を決定するセグメンテーション工程と、前記２値画像における文字の位置及び形状に基づいて、
各個々の文字について前記グレイスケール画像からグレ
イスケール画像情報を抽出する抽出工程と、抽出されたグレイスケール画像情報を処理して文字の識
別を決定する処理工程と、前記文字の識別を格納する格納工程とを備えることを特
徴とするコンピュータに実行可能な処理ステップ。
【請求項６７】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
６６記載のコンピュータに実行可能な処理ステップ。
【請求項６８】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項６６
記載のコンピュータに実行可能な処理ステップ。
【請求項６９】前記セグメンテーション工程は前記２
値画像の連続成分分析を行なう分析工程を含むことを特
徴とする請求項６６記載のコンピュータに実行可能な処
理ステップ。
【請求項７０】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成工程をさら
に備えることを特徴とする請求項６９記載のコンピュー
タに実行可能な処理ステップ。
【請求項７１】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみに実
行されることを特徴とする請求項６９記載のコンピュー
タに実行可能な処理ステップ。
【請求項７２】ドキュメントのページの文字の読み込
み順序を再構成し、ページ再構成された読み込み順序に
基づいて文字の識別を格納する再構成工程をさらに備え
ることを特徴とする請求項６６に記載のコンピュータに
実行可能な処理ステップ。
【請求項７３】文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査手段と、前記グレイスケール画像を閾値処理して２値画像を得る
閾値処理手段と、前記２値画像をセグメンテーション処理して個々の２値
文字画像の位置を決定し、また前記２値文字画像の属性
を決定するセグメンテーション手段と、前記２値文字画像の１つをテンプレートとして用いて、
前記グレイスケール画像からグレイスケール文字画像を
抽出する抽出手段と、抽出されたグレイスケール文字画像を認識処理して文字
の第１の識別を得る第１の認識処理手段と、前記１つの２値文字画像を認識処理して文字の第２の識
別を得る第２の認識処理手段と、前記セグメンテーション手段により決定された文字属性
に基づいて、第１及び第２の識別間の多義性を解決する
手段とを備えることを特徴とする文字認識装置。
【請求項７４】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理手段のための閾値を獲
得する獲得手段をさらに備えることを特徴とする請求項
７３に記載の文字認識装置。
【請求項７５】前記２値画像から下線を除去する除去
手段をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項７３
に記載の文字認識装置。
【請求項７６】前記セグメンテーション手段は前記２
値画像の連続成分分析を行なうことを特徴とする請求項
７３に記載の文字認識装置。
【請求項７７】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成手段をさら
に備えることを特徴とする請求項７６に記載の文字認識
装置。
【請求項７８】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離手段をさらに備
え、認識処理はテキストタイプの連続成分のみに対して行な
われることを特徴とする請求項７６に記載の文字認識装
置。
【請求項７９】ドキュメントのページの文字の読み込
み順序を再構成し、ページ再構成された読み込み順序に
基づいて文字の識別を格納する再構成手段をさらに備え
ることを特徴とする請求項７３に記載の文字認識装置。
【請求項８０】前記２値画像の連続成分分析を行なう
分析手段をさらに備え、前記文字属性は前記２値画像における連続成分の物理的
画像属性に関連することを特徴とする請求項７３に記載
の文字認識装置。
【請求項８１】文字が形成されるドキュメントにおけ
る文字を識別する文字認識装置であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得るスキャナと、前記グレイスケール画像を格納し、前記グレイスケール
画像を処理するためのインストラクションシーケンスを
格納するメモリと、前記インストラクションシーケンスを実行する処理部と
を備え、前記インストラクションシーケンスは前記処理部に
（ａ）前記グレイスケール画像を閾値と比較することに
よって前記グレイスケール画像から２値画像を生成さ
せ、（ｂ）前記２値画像をセグメンテーション処理して
個々の２値文字画像の位置を決定させ、また個々の２値
文字画像の形状を決定させ、（ｃ）前記２値文字画像の
１つをテンプレートとして用いて、前記グレイスケール
画像からグレイスケール文字画像を抽出させ、（ｄ）抽
出されたグレイスケール画像情報を認識処理して文字の
第１の識別を得させ、（ｅ）前記１つの２値文字画像を
認識処理して文字の第２の識別を得させ、（ｆ）前記文
字属性に基づいて前記第１及び第２の識別間の多義性を
解決させる処理工程を含むことを特徴とする文字認識装
置。
【請求項８２】前記処理工程は、前記処理部に前記グ
レイスケール画像の密度の分布のヒストグラムを得て、
前記ヒストグラムにおけるビンの近接度に基づいて前記
閾値を得させる処理工程をさらに含むことを特徴とする
請求項８１に記載の文字認識装置。
【請求項８３】前記処理工程は、前記処理部に前記２
値画像から下線を除去させる処理工程をさらに含み、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項８１
に記載の文字認識装置。
【請求項８４】前記処理工程は、前記処理部に前記２
値画像の連続成分分析を行なわせる処理工程をさらに含
むことを特徴とする請求項８１に記載の文字認識装置。
【請求項８５】前記メモリに格納された前記処理工程
は、不適切に分離された連続成分を再結合するために、
前記処理部に文字のラインを再構成させる処理工程をさ
らに含むことを特徴とする請求項８４に記載の文字認識
装置。
【請求項８６】前記処理工程は、前記処理部にテキス
トタイプの連続成分を非テキストタイプの連続成分から
分離させる処理工程をさらに含み、認識処理はテキストタイプの連続成分のみに対して行な
われることを特徴とする請求項８４に記載の文字認識装
置。
【請求項８７】前記処理工程は、前記処理部にドキュ
メントのページにおける文字の読み込み順序を再構成
し、ページ再構成された読み込み順序に基づいて文字の
識別を格納させる処理工程をさらに含むことを特徴とす
る請求項８１に記載の文字認識装置。
【請求項８８】前記処理工程は、前記処理部に前記２
値画像の連続成分分析を行なわせる処理工程をさらに備
え、前記文字属性は前記２値画像における連続成分の物理的
画像属性に関連することを特徴とする請求項８１に記載
の文字認識装置。
【請求項８９】文字が形成されるドキュメントにおけ
る文字を識別する文字認識方法であって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査工程と、前記グレイスケール我をうを閾値処理して２値画像を得
る閾値処理工程と、前記２値画像をセグメンテーション処理して個々の２値
文字画像の位置を決定し、また前記２値文字画像の属性
を決定するセグメンテーション工程と、前記２値文字画像の１つをテンプレートとして用いて、
前記グレイスケール画像からグレイスケール文字画像を
抽出する抽出工程と、抽出されたグレイスケール文字画像を認識処理して文字
の第１の識別を得る第１の認識処理工程と、前記１つの２値文字画像を認識処理して文字の第２の識
別を得る第２の認識処理工程と、前記セグメンテーション手段により決定された文字属性
に基づいて、第１及び第２の識別間の多義性を解決する
解決工程とを備えることを特徴とする文字認識方法。
【請求項９０】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
８９に記載の文字認識方法。
【請求項９１】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項８９
に記載の文字認識方法。
【請求項９２】前記セグメンテーション工程は前記２
値画像の連続成分分析を行なう分析工程を含むことを特
徴とする請求項８９に記載の文字認識方法。
【請求項９３】不適切に分離された連続成分を再結合
するために文字のラインを再構成する再構成工程をさら
に備えることを特徴とする請求項９２に記載の文字認識
方法。
【請求項９４】テキストタイプの連続成分を非テキス
トタイプの連続成分から分離する分離工程をさらに備
え、前記第１及び第２の認識処理工程はテキストタイプ
の連続成分のみに実行されることを特徴とする請求項９
２に記載の文字認識方法。
【請求項９５】ドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納する再構成工程をさら
に備えることを特徴とする請求項８９に記載の文字認識
方法。
【請求項９６】前記２値画像の連続成分分析を行なう
分析工程をさらに備え、前記文字属性は前記２値画像における連続成分の物理的
画像属性に関連することを特徴とする請求項８９に記載
の文字認識方法。
【請求項９７】文字が形成されるドキュメントにおけ
る文字を識別するコンピュータに実行可能な処理ステッ
プであって、前記ドキュメントを走査して前記ドキュメントのグレイ
スケール画像を得る走査工程と、前記グレイスケール画像を閾値処理して２値画像を得る
閾値処理工程と、前記２値画像をセグメンテーション処理して個々の２値
文字画像の位置を決定し、また前記２値文字画像の属性
を決定するセグメンテーション工程と、前記２値文字画像の１つをテンプレートとして用いて、
前記グレイスケール画像からグレイスケール文字画像を
抽出する抽出工程と、抽出されたグレイスケール文字画像を認識処理して文字
の第１の識別を得る第１の認識処理工程と、前記１つの２値文字画像を認識処理して文字の第２の識
別を得る第２の認識処理工程と、前記セグメンテーション手段により決定された文字属性
に基づいて、第１及び第２の識別間の多義性を解決する
解決工程とを備えることを特徴とする、コンピュータに
実行可能な処理ステップ。
【請求項９８】前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて前記閾値処理工程のための閾値を獲
得する獲得工程をさらに備えることを特徴とする請求項
９７に記載のコンピュータに実行可能な処理ステップ。
【請求項９９】前記２値画像から下線を除去する除去
工程をさらに備え、前記グレイスケール文字画像は下線付きのグレイスケー
ル文字画像から抽出されることを特徴とする請求項９７
に記載のコンピュータに実行可能な処理ステップ。
【請求項１００】前記セグメンテーション手段は前記
２値画像の連続成分分析を行なう分析工程を含むことを
特徴とする請求項９７に記載のコンピュータに実行可能
な処理ステップ。
【請求項１０１】不適切に分離された連続成分を再結
合するために文字のラインを再構成する再構成工程をさ
らに備えることを特徴とする請求項１００に記載のコン
ピュータに実行可能な処理ステップ。
【請求項１０２】テキストタイプの連続成分を非テキ
ストタイプの連続成分から分離する分離工程をさらに備
え、前記第１及び第２の認識処理工程はテキストタイプ
の連続成分のみに実行されることを特徴とする請求項１
００に記載のコンピュータに実行可能な処理ステップ。
【請求項１０３】ドキュメントのページにおける文字
の読み込み順序を再構成し、ページ再構成された読み込
み順序に基づいて文字の識別を格納する再構成工程をさ
らに備えることを特徴とする請求項９７に記載のコンピ
ュータに実行可能な処理ステップ。
【請求項１０４】前記２値画像の連続成分分析を行な
う分析工程をさらに備え、前記文字属性は前記２値画像における連続成分の物理的
画像属性に関連することを特徴とする請求項９７に記載
のコンピュータに実行可能な処理ステップ。
【請求項１０５】文字を含む画像における文字を識別
する文字認識装置であって、前記画像における文字のラインの位置を決定する位置決
定手段と、各ラインの文字のフォント特性を判定する判定手段と、前記判定手段により判定されたフォント特性に基づい
て、複数の認識処理技術の１つを選択する選択手段と、各ラインから個々の文字画像を抽出する抽出手段と、選択された認識処理技術に従って、各抽出された文字画
像を認識処理する認識処理手段とを備えることを特徴と
する文字認識装置。
【請求項１０６】前記画像の密度の分布のヒストグラ
ムを得て、前記ヒストグラムにおけるビンの近接度に基
づいて閾値処理のための閾値を獲得する獲得手段をさら
に備えることを特徴とする請求項１０５に記載の文字認
識装置。
【請求項１０７】前記画像から下線を除去する除去手
段をさらに備え、前記文字画像は下線付きの文字画像から抽出されること
を特徴とする請求項１０５に記載の文字認識装置。
【請求項１０８】前記抽出手段は前記画像の連続成分
分析を行なうことを特徴とする請求項１０５に記載の文
字認識装置。
【請求項１０９】不適切に分離された連続成分を再結
合するために文字のラインを再構成する再構成手段をさ
らに備えることを特徴とする請求項１０８に記載の文字
認識装置。
【請求項１１０】テキストタイプの連続成分を非テキ
ストタイプの連続成分から分離する分離手段をさらに備
え、認識処理はテキストタイプの連続成分のみに対して行な
われることを特徴とする請求項１０８に記載の文字認識
装置。
【請求項１１１】ドキュメントのページにおける文字
の読み込み順序を再構成し、ページ再構成された読み込
み順序に基づいて文字の識別を格納する再構成手段をさ
らに備えることを特徴とする請求項１０５に記載の文字
認識装置。
【請求項１１２】前記グレイスケール画像を入力する
入力手段をさらに備えることを特徴とする請求項１０５
に記載の文字認識装置。
【請求項１１３】前記入力手段は前記文字が形成され
るドキュメントのページを走査する走査手段を備えるこ
とを特徴とする請求項１１２に記載の文字認識装置。
【請求項１１４】前記入力手段はグレイスケールドキ
ュメント画像をコンピュータファイルから検索する検索
手段を備えることを特徴とする請求項１１２に記載の文
字認識装置。
【請求項１１５】前記入力手段はコンピュータ化され
たローカルエリアネットワーク上でコンピュータファイ
ルを読み込む読み込み手段を備え、前記ローカルエリアネットワーク上のコンピュータファ
イルにおける文字の識別を格納する格納手段をさらに備
えることを特徴とする請求項１１４に記載の文字認識装
置。
【請求項１１６】前記判定手段に判定されたフォント
特性はフォント外観を含むことを特徴とする請求項１０
５に記載の文字認識装置。
【請求項１１７】前記判定手段に判定されたフォント
特性は文字スペースを含むことを特徴とする請求項１０
５に記載の文字認識装置。
【請求項１１８】文字を含む画像における文字を識別
する文字認識装置であって、グレイスケール画像を格納し、前記グレイスケール画像
を処理するためのインストラクションシーケンスを格納
するメモリと、前記インストラクションシーケンスを実行する処理部と
を備え、前記インストラクションシーケンスは前記処理部に
（ａ）前記画像の文字のラインを決定させ、（ｂ）各ラ
インの文字のフォント特性を判定させ、（ｃ）判定され
たフォント特性にもとづいて、複数の認識処理技術の１
つを選択させ、（ｄ）各ラインから個々の文字画像を抽
出させ、（ｅ）選択された認識処理技術に従って、各抽
出された文字画像を認識処理させる処理工程を含むこと
を特徴とする文字認識装置。
【請求項１１９】前記インストラクションシーケンス
は、前記処理部に前記グレイスケール画像の密度の分布
のヒストグラムを得て、前記ヒストグラムにおけるビン
の近接度に基づいて閾値を得させる処理工程をさらに含
むことを特徴とする請求項１１８に記載の文字認識装
置。
【請求項１２０】前記インストラクションシーケンス
は、前記処理部に前記画像から下線を除去させる処理工
程をさらに含み、前記文字画像は下線付きの文字画像か
ら抽出されることを特徴とする請求項１１８に記載の文
字認識装置。
【請求項１２１】前記文字画像の抽出工程は前記画像
の連続成分を分析する分析工程を含むことを特徴とする
請求項１１８に記載の文字認識装置。
【請求項１２２】前記インストラクションシーケンス
は、不適切に分離された連続成分を再結合するために、
前記処理部に文字のラインを再構成させる処理工程をさ
らに含むことを特徴とする請求項１２１に記載の文字認
識装置。
【請求項１２３】前記インストラクションシーケンス
は、前記処理部にテキストタイプの連続成分を非テキス
トタイプの連続成分から分離させる処理工程をさらに含
み、認識処理はテキストタイプの連続成分のみに対して行な
われることを特徴とする請求項１２１に記載の文字認識
装置。
【請求項１２４】前記インストラクションシーケンス
は、前記処理部にドキュメントのページにおける文字の
読み込み順序を再構成し、ページ再構成された読み込み
順序に基づいて文字の識別を格納させる処理工程をさら
に含むことを特徴とする請求項１２１に記載の文字認識
装置。
【請求項１２５】前記インストラクションシーケンス
は、前記処理部に前記グレイスケール画像を入力させる
処理工程をさらに備えることを特徴とする請求項１１８
に記載の文字認識装置。
【請求項１２６】前記グレイスケール画像は前記文字
が形成されるドキュメントのページを走査することによ
って入力されることを特徴とする請求項１２５に記載の
文字認識装置。
【請求項１２７】前記グレイスケール画像はグレイス
ケールドキュメント画像をコンピュータファイルから検
索することによって入力されることを特徴とする請求項
１２５に記載の文字認識装置。
【請求項１２８】前記グレイスケール画像はコンピュ
ータ化されたローカルエリアネットワーク上でコンピュ
ータファイルを読み込むことによって入力され、前記インストラクションシーケンスはローカルエリアネ
ットワーク上のコンピュータファイルにおける文字の識
別を格納する工程を含むことを特徴とする請求項１２７
に記載の文字認識装置。
【請求項１２９】前記フォント特性はフォント外観を
含むことを特徴とする請求項１１８に記載の文字認識装
置。
【請求項１３０】前記フォント特性は文字スペースを
含むことを特徴とする請求項１１８に記載の文字認識装
置。
【請求項１３１】文字を含む画像における文字を識別
する文字認識方法であって、前記画像を処理して文字のラインの位置を決定する位置
決定工程と、各ラインの文字のフォント特性を判定する判定工程と、前記判定工程で判定されたフォント特性に基づいて、複
数の認識処理技術の１つを選択する選択工程と、各ラインから個々の文字画像を抽出する抽出工程と、選択された認識処理技術に従って、各抽出された文字画
像を認識処理する認識処理工程とを備えることを特徴と
する文字認識方法。
【請求項１３２】前記画像の密度の分布のヒストグラ
ムを得て、前記ヒストグラムにおけるビンの近接度に基
づいて閾値処理のための閾値を獲得する獲得工程をさら
に備えることを特徴とする請求項１３１に記載の文字認
識方法。
【請求項１３３】前記画像から下線を除去する除去工
程をさらに備え、前記文字画像は下線付きの文字画像から抽出されること
を特徴とする請求項１３１に記載の文字認識方法。
【請求項１３４】前記文字画像の抽出工程は前記２値
画像の連続成分分析を行なう分析工程を含むことを特徴
とする請求項１３１に記載の文字認識方法。
【請求項１３５】不適切に分離された連続成分を再結
合するために文字のラインを再構成する再構成工程をさ
らに備えることを特徴とする請求項１３４に記載の文字
認識方法。
【請求項１３６】テキストタイプの連続成分を非テキ
ストタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみに実
行されることを特徴とする請求項１３４に記載の文字認
識方法。
【請求項１３７】ドキュメントのページにおける文字
の読み込み順序を再構成し、ページ再構成された読み込
み順序に基づいて文字の識別を格納する再構成工程をさ
らに備えることを特徴とする請求項１３１に記載の文字
認識方法。
【請求項１３８】前記グレイスケール画像を入力する
入力工程をさらに備えることを特徴とする請求項１３１
に記載の文字認識方法。
【請求項１３９】前記入力工程は前記文字が形成され
るドキュメントのページを走査する走査工程を備えるこ
とを特徴とする請求項１３８に記載の文字認識方法。
【請求項１４０】前記入力工程はグレイスケールドキ
ュメント画像をコンピュータファイルから検索する検索
工程を備えることを特徴とする請求項１３８に記載の文
字認識方法。
【請求項１４１】前記入力工程はコンピュータ化され
たローカルエリアネットワーク上でコンピュータファイ
ルを読み込む読み込み工程を備え、前記ローカルエリアネットワーク上のコンピュータファ
イルにおける文字の識別を格納する格納工程をさらに備
えることを特徴とする請求項１４０に記載の文字認識方
法。
【請求項１４２】前記判定工程で判定されたフォント
特性はフォント外観を含むことを特徴とする請求項１３
１に記載の文字認識方法。
【請求項１４３】前記判定工程で判定されたフォント
特性は文字スペースを含むことを特徴とする請求項１３
１に記載の文字認識方法。
【請求項１４４】文字を含む画像における文字を識別
するコンピュータに実行可能な処理ステップであって、前記画像を処理して文字のラインの位置を決定する処理
工程と、各ラインの文字のフォント特性を判定する判定工程と、前記判定工程で判定されたフォント特性に基づいて、複
数の認識処理技術の１つを選択する選択工程と、各ラインから個々の文字画像を抽出する抽出工程と、選択された認識処理技術に従って、各抽出された文字画
像を認識処理する認識処理工程とを備えることを特徴と
するコンピュータに実行可能な処理ステップ。
【請求項１４５】前記画像の密度の分布のヒストグラ
ムを得て、前記ヒストグラムにおけるビンの近接度に基
づいて閾値処理のための閾値を獲得する獲得工程をさら
に備えることを特徴とする請求項１４４記載のコンピュ
ータに実行可能な処理ステップ。
【請求項１４６】前記画像から下線を除去する除去工
程をさらに備え、前記文字画像は下線付きの文字画像から抽出されること
を特徴とする請求項１４４記載のコンピュータに実行可
能な処理ステップ。
【請求項１４７】前記セグメンテーション工程は前記
画像の連続成分分析を行なう分析工程を含むことを特徴
とする請求項１４４記載のコンピュータに実行可能な処
理ステップ。
【請求項１４８】不適切に分離された連続成分を再結
合するために文字のラインを再構成する再構成工程をさ
らに備えることを特徴とする請求項１４７記載のコンピ
ュータに実行可能な処理ステップ。
【請求項１４９】テキストタイプの連続成分を非テキ
ストタイプの連続成分から分離する分離工程をさらに備
え、前記認識処理工程はテキストタイプの連続成分のみ
に実行されることを特徴とする請求項１４７記載のコン
ピュータに実行可能な処理ステップ。
【請求項１５０】ドキュメントのページの文字の読み
込み順序を再構成し、ページ再構成された読み込み順序
に基づいて文字の識別を格納する再構成工程をさらに備
えることを特徴とする請求項１４４記載のコンピュータ
に実行可能な処理ステップ。
【請求項１５１】前記グレイスケール画像を入力する
入力工程をさらに備えることを特徴とする請求項１４４
記載のコンピュータに実行可能な処理ステップ。
【請求項１５２】前記入力工程は前記文字が形成され
るドキュメントのページを走査する走査工程を備えるこ
とを特徴とする請求項１５１記載のコンピュータに実行
可能な処理ステップ。
【請求項１５３】前記入力工程はグレイスケールドキ
ュメント画像をコンピュータファイルから検索する検索
工程を備えることを特徴とする請求項１５１記載のコン
ピュータに実行可能な処理ステップ。
【請求項１５４】前記入力工程はコンピュータ化され
たローカルエリアネットワーク上でコンピュータファイ
ルを読み込む読み込み工程を備え、前記ローカルエリアネットワーク上のコンピュータファ
イルにおける文字の識別を格納する格納工程をさらに備
えることを特徴とする請求項１５３記載のコンピュータ
に実行可能な処理ステップ。
【請求項１５５】前記判定工程で判定されたフォント
特性はフォント外観を含むことを特徴とする請求項１４
４記載のコンピュータに実行可能な処理ステップ。
【請求項１５６】前記判定工程で判定されたフォント
特性は文字スペースを含むことを特徴とする請求項１４
４記載のコンピュータに実行可能な処理ステップ。