JPH08235349A

JPH08235349A - ページ解析システム

Info

Publication number: JPH08235349A
Application number: JP7293123A
Authority: JP
Inventors: Yan Wangu Shin; ワングシン・ヤン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-11-10
Filing date: 1995-11-10
Publication date: 1996-09-13
Anticipated expiration: 2015-11-10
Also published as: EP0712088B1; EP0712088A3; JP3825820B2; EP1296278A2; DE69532847D1; US6014458A; EP1296278A3; EP0712088A2; TW277118B; US5987171A; DE69532847T2

Abstract

(57)【要約】【課題】ブロックセレクション処理の処理対象である
原稿のデータ量と歪みを監視することで、処理精度が向
上するブロックセレクション処理を実行できるページ解
析システムを提供する。【解決手段】複数ページの原稿の１ページ分の画像デ
ータを解析するブロックセレクション処理を生成するペ
ージ解析システムにおいて、システムは、予め割り当て
られた記憶領域に、その記憶容量を越える共通作業領域
あるいは階層ツリー構造格納領域としてのデータが格納
された場合にエラーコードを出力する。また、原稿の傾
き角度を算出し、その算出された傾き角度が所定最大傾
き角度を越える場合にエラーコードを出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ブロックセレクシ
ョン処理を利用して、ページ単位で原稿を解析するペー
ジ解析システムに関するものである。特に、ブロックセ
レクション処理で表現される複数のパラメータ、例え
ば、原稿のタイプ、記憶容量、画像原稿の部分解析等の
パラメータを用いることで、よりブロックセレクション
処理の精度が向上するものである。

【０００２】

【従来の技術】米国特許出願第０７／８１３，０１２号
には、文字認識装置及びその方法、また、米国特許出願
第０８／１７１，７２０号には、読取原稿のテキスト／
非テキスト選択装置及びその方法が記載されている。従
来の米国特許出願第０７／８１３，０１２号、０８／１
７１，７２０号に記載されているようなブロックセレク
ション処理は、原稿から得られる複数種類の画像データ
のタイプを区別するために、１ページ単位で自動的に画
像原稿の解析を行うページ解析システムが用いられてい
た。

【０００３】上述のブロックセレクション処理の処理単
位は、光学的文字認識（ＯＣＲ）、データ圧縮、データ
等で得られるイメージを、以下説明される処理によって
複数のタイプに区別される単位が処理単位として用いら
れる。例えば、ＯＣＲによって認識されるテキストデー
タと、認識されない図形データとしてのイメージが、そ
の処理単位である。その結果、ユーザによる操作を必要
とすることなく異なるタイプの画像データが入力可能で
あり、また、自動的に処理が実行される。

【０００４】以下、ブロックセレクション処理の一手順
を図１〜３を参照して説明する。図１は１ページの原稿
の代表的な例を示す図である。原稿１０１は、２つの段
落から構成されており、タイトル１０２、水平線１０
４、複数のテキストデータの行からなるテキスト領域１
０５〜１０７、非テキストであるグラフィックを含むハ
ーフトーン図形領域１０８、テキストデータを含む表１
１０、枠１１６、キャプション１２６を持つハーフトー
ン図形領域１２１、キャプション１３７を持つ図形領域
１３２、１３５からなる。

【０００５】米国特許出願第０７／８７３，０１２号、
０８／１７１，７２０号に記載されるブロックセレクシ
ョン処理によれば、原稿１０１を構成する各領域は、画
像データのタイプ毎に分類される。そして、ページ単位
の原稿に関する、ブロックセレクション処理により、図
２に示すような、階層ツリー構造が生成される。図２に
示すように、階層ツリー構造２００は、画像データを複
数のブロックに分割される各ブロックが１つのノードで
ある複数のノードから構成されている。各ノードは、ブ
ロックセレクション処理によって得られる各ブロックの
特徴を示す特徴データが付加されている。例えば、特徴
データとしては、ブロック位置データ、サイズデータ、
属性データ（例えば、テキスト、絵、表等の図形タイ
プ）、副属性データ、子ノードあるいは親ノードポイン
タがある。

【０００６】また、子ノードあるいは子孫ノードが、階
層が上のブロックの下に存在する。子ノードは、階層ツ
リー構造の親ノードから分岐するノードとして示され
る。例えば、図２において、子ノードは、親ノードある
いはルートノード２１１から分岐するノード２１１と同
レベルのノードが子ノードとなる。また、テキストブロ
ックとなるノードには、その処理方向と処理順序（図に
「ＲＯ＝」が示す番号）を示す特徴データが付加され
る。

【０００７】例えば、階層ツリー構造２００に示される
ような階層ツリー構造が生成されたとすると、それはメ
モリに格納される。また、原稿より画像データを要求す
る処理において、メモリより階層ツリー構造が検索され
ブロック化された画像データに対応するノードの特徴デ
ータが生成される。また、原稿１０１に対する画像デー
タを処理し、更に原稿１０１の簡単な構成を生成し、そ
の結果を表示するために階層ツリー構造が用いられる。
例えば、図３に示されるようなディスプレイ３００に、
簡単な構成であるブロックテンプレート３０１が表示さ
れる。また、ブロックテンプレート３０１は、図２の階
層ツリー構造で示される特徴データに基づいて生成され
表示される。

【０００８】１ページの原稿に対応するブロックテンプ
レートは、階層ツリー構造ばかりでなく、階層ツリー構
造の各ノードの特徴データに直接反映する。各ノードの
特徴データは、ブロックの外枠、位置、サイズを生成す
ることで利用される。また、各ノードの特徴データは、
ブロックに含まれる画像データのタイプ、可能な割当、
処理順、処理方向を認識するために用いられる。

【０００９】例えば、図３に示されるブロックテンプレ
ート３０１において、テキストブロック３０２〜３０
５、３０９は、それぞれ図２のノード２０２〜２０５、
２０９に対応している。また、それぞれのテキストブロ
ックには、各テキストブロックの処理順、処理方向であ
る特徴データを含んでいる。尚、図のＴ１〜Ｔ１４はそ
れぞれがテキスト１〜テキスト１４を示しており、ま
た、ＰＩＣＴ．１〜ＰＩＣＴ．４は図形１〜図形４を示
している。

【００１０】

【発明が解決しようとする課題】しかしながら、上述の
ブロックセレクション処理は、以下に説明される不意の
処理に遭遇すると以下のような問題点が発生していた。
例えば、精度の悪いＯＣＲによって得られるテキストデ
ータおけるブロックセレクション処理は、エラーを含む
処理結果が生じてしまっていた。また、線の結合（９０
度に交差する線、また枠でない線の結合）処理におい
て、その線の抽出に際し、ＯＣＲの精度が悪いと正確な
位置関係の線を抽出することができないために、エラー
を含む処理結果が生じてしまうという問題点があった。
更に、歪んだ原稿あるいは外部装置から入力される歪ん
で画像データのように、ブロックセレクション処理でエ
ラーを生じる原稿あるいは画像データを事前に解析し、
そのエラーを抑止するようなアプリケーションは存在し
なかった。

【００１１】本発明は上記の問題点に鑑みてなされたも
のであり、ブロックセレクション処理の処理対象である
原稿のデータ量と歪みを監視し、監視の結果に基づいて
処理の実行の有無を指示することで、精度の良いブロッ
クセレクション処理を実行できるページ解析システムを
提供することを目的としている。

【００１２】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による出力方法は以下の構成を備える。即
ち、複数ページの画像データを解析するためのページ解
析システムにおいて、該システムは、ブロックセレクシ
ョン処理プログラムに従う処理を実行するために、複数
ページの原稿の１ページ分の画像データを読み込み格納
する第１記憶領域と、第１記憶領域に格納された画像デ
ータに対して実行されたブロックセレクション処理の処
理結果を格納する第２記憶領域とを備え、該システムに
おける記憶容量不足の指示の出力を行う出力方法であっ
て、前記第１記憶領域に、１ページ分の入力画像データ
を格納する記憶領域と前記入力画像データのブロックセ
レクション処理を実行するための記憶領域を割り当てる
第１割当工程と、前記第２記憶領域に、ブロックセレク
ション処理の複数の処理結果を格納するための記憶領域
を割り当てる第２割当工程と、前記複数ページの原稿の
解析されるべき１ページ分の画像データが、前記第１記
憶領域に割り当てられた記憶領域の記憶容量を越える場
合に第１エラーコードを出力し、前記第２記憶領域に格
納されたブロックセレクション処理の処理結果を利用す
るための記憶領域を増やすことができない場合に第２エ
ラーコードを出力する出力工程とを備える。

【００１３】また、好ましくは、前記ブロックセレクシ
ョン処理の処理結果が格納される前記第２記憶領域は、
階層ツリー構造を含む。上記の目的を達成するための本
発明による選択方法は以下の構成を備える。即ち、原稿
１ページ分の画像データを解析するページ解析システム
において、前記原稿の少なくとも１つの領域を選択する
選択方法であって、原稿１ページ分の画像データを入力
する入力工程と、前記画像データを用いて前記原稿ペー
ジを表示する表示工程と、座標指定手段を用いて、解析
すべき前記原稿ページの少なくとも１つの領域の座標を
指定する指定工程と、前記指定工程で指定された前記原
稿ページの少なくとも１つの領域内の画像データを抽出
する抽出工程と、前記少なくとも１つの領域内の画像デ
ータを解析するために前記少なくとも１つの領域に対し
てブロックセレクション処理を実行する実行工程とを備
える。

【００１４】上記の目的を達成するための本発明による
指定方法は以下の構成を備える。即ち、原稿１ページ分
の画像データを解析するページ解析システムにおいて、
前記原稿を解析するために少なくとも１つの方向を指定
する指定方法であって、原稿１ページ分の画像データを
入力する入力工程と、前記画像データの方向情報を獲得
する獲得工程と、前記方向情報が獲得されたか否かを判
定する判定工程と、前記原稿を解析する解析工程を備
え、前記方向情報が獲得された場合、前記解析工程は該
方向情報によって指定される方向を用いて解析し、前記
方向情報が獲得されない場合、前記解析工程は予め設定
されている所定方向を用いて解析する。

【００１５】また、好ましくは、前記所定方向は、水平
方向と垂直方向が混合された方向である。上記の目的を
達成するための本発明による獲得方法は以下の構成を備
える。即ち、原稿１ページ分の画像データを解析し、ブ
ロックセレクション処理によって解析された１つのルー
トノードと該ルートノードの子孫ノードを含む階層ツリ
ー構造を生成するページ解析システムにおいて、前記原
稿ページの傾き角度を獲得する獲得方法であって、前記
原稿ページの画像データを入力する入力工程と、前記画
像データに対し、前記画像データの傾き角度の算出を含
むブロックセレクション処理を開始する開始工程と、前
記算出された傾き角度と所定最大傾き角度を比較する比
較工程と、前記算出された傾き角度が前記所定最大傾き
角度よりも大きいか否かを判定する判定工程と、前記傾
き角度が前記所定最大傾き角度を越えない場合、前記画
像データのブロックセレクション処理を完了する完了工
程と、前記傾き角度が前記所定最大傾き角度を越える場
合、ブロックセレクション処理を中断する中断工程とを
備える。

【００１６】また、好ましくは、前記傾き角度は、前記
階層ツリー構造のルートノードに格納される。上記の目
的を達成するための本発明による出力装置は以下の構成
を備える。即ち、複数ページの画像データを解析するた
めのページ解析システムにおいて、該システムは、ブロ
ックセレクション処理プログラムに従う処理を実行する
ために、複数ページの原稿の１ページ分の画像データを
読み込み格納する第１記憶領域と、第１記憶領域に格納
された画像データに対して実行されたブロックセレクシ
ョン処理の処理結果を格納する第２記憶領域を備え、該
システムにおける記憶容量不足の指示の出力を行う出力
装置であって、前記第１記憶領域に、１ページ分の入力
画像データを格納する記憶領域と前記入力画像データの
ブロックセレクション処理を実行するための記憶領域を
割り当て、前記第２記憶領域において、ブロックセレク
ション処理の複数の処理結果を格納するための記憶領域
を割り当てる割当手段と、前記複数ページの原稿の解析
されるべき１ページ分の画像データが、前記第１割当手
段に割り当てられた記憶領域の記憶容量を越える場合に
第１エラーコードを出力し、前記第２記憶領域に格納さ
れたブロックセレクション処理の処理結果を利用するた
めの記憶領域を増やすことができない場合に第２エラー
コードを出力する出力手段とを備える。

【００１７】また、好ましくは、前記ブロックセレクシ
ョン処理の処理結果が格納される前記第２記憶領域は、
階層ツリー構造を含む。上記の目的を達成するための本
発明による選択装置は以下の構成を備える。即ち、原稿
１ページ分の画像データを解析するページ解析システム
において、前記原稿ページの少なくとも１つの領域を選
択する選択装置であって、原稿１ページ分の画像データ
を入力する入力手段と、前記画像データを用いて前記原
稿ページを表示する表示手段と、解析すべき前記原稿ペ
ージの少なくとも１つの領域の座標を指定する座標指定
手段と、前記座標指定手段で指定された前記原稿ページ
の少なくとも１つの領域内の画像データを抽出する画像
データ抽出手段と、前記領域内の画像データを解析する
ために前記少なくとも１つの領域に対してブロックセレ
クション処理を実行する実行手段とを備える。

【００１８】上記の目的を達成するための本発明による
指定装置は以下の構成を備える。即ち、原稿１ページ分
の画像データを解析するページ解析システムにおいて、
前記原稿ページを解析するために少なくとも１つの方向
を指定する指定装置であって、原稿１ページ分の画像デ
ータを入力する入力手段と、前記画像データの方向情報
を獲得する獲得手段と、前記方向情報が獲得されたか否
かを判定する判定手段と、前記原稿ページを解析する解
析手段とを備え、前記方向情報が獲得された場合、前記
解析手段は該方向情報によって指定された方向を用いて
解析し、前記方向情報が獲得されない場合、前記解析手
段は予め設定されている所定方向を用いて解析する。

【００１９】また、好ましくは、前記所定方向は、水平
方向と垂直方向が混合された方向である。上記の目的を
達成するための本発明による獲得装置は以下の構成を備
える。即ち、原稿１ページ分の画像データを解析し、ブ
ロックセレクション処理によって前記原稿ページの１つ
のルートノードと該ルートノードの少なくとも１つの子
孫ノードを含む階層ツリー構造を生成するページ解析シ
ステムにおいて、前記原稿ページの傾き角度を獲得する
獲得装置であって、前記原稿ページの画像データを入力
する入力手段と、算出された傾き角度と所定最大傾き角
度を比較する比較手段と、前記算出された傾き角度が前
記所定最大傾き角度よりも大きいか否かを判定する判定
手段と、入力された原稿ページの前記画像データに対し
て、傾き角度の算出を含むブロックセレクション処理を
実行するブロックセレクション処理手段とを備え、前記
ブロックセレクション処理手段は、ブロックセレクショ
ン処理を開始し、算出された傾き角度と所定最大傾き角
度を比較するように前記比較手段を用い、前記算出され
た傾き角度が前記所定最大傾き角度を越えない場合、ブ
ロックセレクション処理を完了させる。

【００２０】また、好ましくは、前記傾き角度は、前記
階層ツリー構造のルートノードに格納される。上記の目
的を達成するための本発明による指示方法は以下の構成
を備える。即ち、複数ページの原稿の画像データを解析
するためのページ解析システムにおいて、ブロックセレ
クション処理プログラムによって解析されたページの階
層ツリー構造が生成され、前記階層ツリー構造は１つの
ルートノードと該ルートノードの少なくとも１つの子孫
ノードを含み、前記複数ページの原稿１ページの画像デ
ータの合成領域を指示する指示方法であって、前記複数
ページの１ページ分の画像データを入力する入力工程
と、前記画像データを識別し、同じタイプの画像データ
を有するブロックを認識へ分けるようにブロックセレク
ション処理を準備する準備工程と、同じタイプの画像デ
ータのブロックを他に持つ少なくとも１つのブロックを
認識する認識工程と、前記同じタイプの画像データを持
つ複数のブロックを１つの合成ブロックに結合する結合
工程と、前記合成ブロックを、前記複数のブロックに対
応する子孫ノードを持つルートノードとして前記階層ツ
リー構造に定時する定時工程とを備える。

【００２１】上記の目的を達成するための本発明による
指示装置は以下の構成を備える。即ち、複数ページの原
稿の画像データを解析するためのページ解析システムに
おいて、前記原稿ページを解析するための階層ツリー構
造と、前記階層ツリー構造は１つのルートノードと該ル
ートノードの少なくとも１つの子孫ノードを含み、前記
複数ページの原稿１ページの画像データの合成領域を指
示する指示装置であって、前記複数ページの１ページ分
の画像データを入力する入力手段と、前記画像データを
識別し、同じタイプの画像データを有するブロックへ分
けるブロックセレクション処理手段と、同じタイプの画
像データのブロックを他に持つ少なくとも１つのブロッ
クを認識する認識手段と、前記同じタイプの画像データ
を持つ複数のブロックを１つの合成ブロックに結合する
結合手段と、前記合成ブロックを、前記複数のブロック
に対応する子孫ノードを持つルートノードとして前記階
層ツリー構造を変更する変更手段とを備える。

【００２２】上記の目的を達成するための本発明による
認識方法は以下の構成を備える。即ち、１ページ分の原
稿の画像データのブロックテンプレートに従って階層ツ
リー構造を生成するページ解析システムにおいて、前記
階層ツリー構造は複数のノードを持ち、各ノードは原稿
画像のブロックテンプレートにおける表されるブロック
毎の画像データに対応しており、また、各ノードには前
記原稿画像のブロックテンプレートの特徴を定義する特
徴データが含まれ、該システムにおいて図形タイプの指
示及び認識方法であって、複数ページの原稿の１ページ
分の画像データを入力する入力工程と、前記画像データ
を識別し同じ画像タイプのブロック毎に分割するブロッ
クセレクション処理を実行する実行工程と、図形情報を
含む画像データのブロックを認識する認識工程と、前記
ブロックに含まれる図形情報のタイプを判定する判定工
程と、前記判定工程は、図形情報がハーフトーン、線
画、折れ線、未知のいずれかを判定し、前記判定工程で
判定される図形のタイプを、前記ブロックに対応する前
記階層ツリー構造のノードに格納する格納工程とを備え
る。

【００２３】上記の目的を達成するための本発明による
認識装置は以下の構成を備える。即ち、１ページ分の原
稿の画像データのブロックテンプレートに従って階層ツ
リー構造を生成するページ解析システムにおいて、前記
階層ツリー構造は複数のノードを持ち、各ノードは原稿
画像のブロックテンプレートにおける表されるブロック
毎の画像データに対応しており、また、各ノードには前
記原稿画像のブロックテンプレートの特徴を定義する特
徴データが含まれ、該システムにおいて図形タイプの指
示及び認識装置であって、複数ページの原稿の１ページ
分の画像データを入力する入力手段と、前記画像データ
を識別し同じ画像タイプのブロック毎に分割し、分割さ
れたブロックを認識するブロックセレクション処理と、
図形情報を含む画像データのブロックを認識する認識手
段と、前記ブロックに含まれる図形情報のタイプを判定
する判定手段と、前記判定手段は、図形情報がハーフト
ーン、線画、折れ線、未知のいずれかを判定し、前記判
定手段で判定される図形のタイプを、前記ブロックに対
応する前記階層ツリー構造のノードに格納する格納手段
とを備える。

【００２４】

【発明の実施の形態】以下、実施の形態の概要を説明す
る。本実施の形態に従うページ解析システムは、複数ペ
ージの原稿の画像データを解析する。上述のシステム
は、複数ページの原稿の１ページ分の画像データを第１
の記憶領域に読み込み格納する。そして、第１の記憶領
域に格納された原稿１ページ分の画像データに対してブ
ロックセレクション処理が実行される。

【００２５】また、第１の記憶領域に格納された１ペー
ジ分の画像データに対して実行されたブロックセレクシ
ョン処理の処理結果が、第２の記憶領域に読み込まれ格
納される。そして、第１の記憶領域（ブロックセレクシ
ョン処理の処理対象となる１ページ分の画像データを読
み込み格納する領域）と、第２の記憶領域（第１の記憶
領域に記憶される画像データに対して実行されたブロッ
クセレクション処理によって得られる複数の処理結果を
読み込み格納する領域）に対し、以下に説明される場合
に、各記憶領域の記憶容量不足を示すエラーコードを出
力する。

【００２６】第１の記憶領域で生じる記憶容量不足は、
複数ページの原稿の１ページ分を越える画像データが読
み込まれた場合に、第１の記憶領域の記憶容量不足を示
す第１エラーコードが出力される。また、第２の記憶領
域で生じる記憶容量不足は、第２の記憶領域に読み込み
格納可能なブロックセレクション処理の有効な処理結果
を記憶する記憶領域が存在しない場合、第２の記憶領域
の記憶容量不足を示す第２エラーコードが出力される。

【００２７】また、他の実施の形態によれば、ページ解
析システムは、原稿１ページ分の画像データを解析し、
少なくとも、その原稿ページの一部分の領域が解析対象
として選択される。原稿ページは、画像データとして処
理され表示される。その際、座標指定装置によって、少
なくとも解析対象である原稿の一部分の領域に座標が指
定される。そして、選択された原稿ページの一部分の領
域を含む原稿ページの画像データが抽出され、少なくと
もその抽出された領域の画像データを解析するために、
ブロックセレクション処理が実行される。

【００２８】また、他の実施の形態によれば、ページ解
析システムは、原稿１ページ分の画像データに対し、少
なくとも１つの方向を解析する。原稿１ページ分の画像
データが入力されると、その画像データの方向情報が獲
得される。そして、その方向情報が獲得されたか否かを
判定する。判定の結果、方向情報が獲得された場合、そ
の獲得された方向情報によって方向が選択され、その選
択された方向に従って画像データが解析される。一方、
方向情報が獲得されない場合、予め設定されている所定
方向に従って画像データが解析される。

【００２９】また、他の実施の形態によれば、ページ解
析システムは解析対象として原稿１ページ分の画像デー
タを入力し、その原稿ページの傾き角度の算出を含むブ
ロックセレクション処理の実行を開始する。そして、算
出された傾き角度と予め設定されている所定の傾き角度
を比較し、算出された傾き角度が所定の傾き角度よりも
大きいか否かを判定する。算出された傾き角度が所定の
傾き角度よりも小さい場合、ブロックセレクション処理
が完了する。一方、算出された傾き角度が所定の傾き角
度よりも大きい場合、ブロックセレクション処理は中断
される。

【００３０】また、他の実施の形態によれば、ページ解
析システムは、複数ページの原稿の１ページ分の画像デ
ータを入力し、その画像データを同じタイプの画像デー
タのブロックに分割し、各ブロックの認識を行う。そし
て、同じタイプの画像データのブロックを持つ複数のブ
ロックの少なくとも１つのブロックに対して、そのブロ
ックの認識を行う。

【００３１】尚、本実施の形態によれば、同じタイプの
画像データのブロックは合成ブロックとして結合され
る。例えば、合成ブロックとしては、キャプションを含
む図形等が合成ブロックとなる。また、合成ブロック
は、階層ツリー構造において、同じタイプの画像データ
のブロックとして構成されるノードを下方に持つルート
ノードとして構成される。

【００３２】また、他の実施の形態によれば、ページ解
析システムは、複数ページの原稿の１ページ分の画像デ
ータを入力し、その画像データを同じタイプの画像デー
タのブロックに分割し、各ブロックの認識を行う。そし
て、図形情報を含む画像データのブロックの認識を行
う。尚、本発明によれば、図形情報を持つ画像データの
ブロックとしては、ハーフトーン図形、線画、折れ線、
それ以外のタイプの図形がそのブロックの図形情報とな
る。そして、その図形と認識されたブロックは、そのブ
ロックに対応する階層ツリー構造のノードに図形情報が
付加された形で、そのノードが構成される。

【００３３】尚、これらの本発明の特徴及び有利な点
は、以下の添付の図面に従う好適な実施の形態の詳細な
説明を参照することにより、更に容易に理解されるであ
ろう。図４は本発明を適用する実施の形態の外観図であ
る。以下に図４の構成を説明する。４１０はコンピュー
タ装置であり、MacIntosh、IBM PCまたはMicroSoft社製
Windowsのようなウィンドウズ環境を備えたＰＣ互換コ
ンピュータからなる。コンピュータ装置４１０には、カ
ラーモニター等のディスプレイ４１２、ユーザコマンド
等を入力するためのキーボード４１３、そして、ディス
プレイ４１２上に表示される事象を指示し操作するため
のマウス等のポインティングデバイス４１４が接続され
ている。

【００３４】コンピュータ装置４１０は、大容量記憶装
置として、イメージファイルを含むデータファイルを記
憶するためのディスク４１１を備えている。ディスク４
１１は、圧縮、あるいは無圧縮のイメージファイルや、
本実施の形態で説明されるブロックセレクション処理を
実行するためのためのアプリケーションプログラムを含
む情報処理プログラムを記憶している。また、ディスク
４１１には、１ページ分の画像原稿のそれぞれがブロッ
クセレクション処理によって表現される階層ツリー構造
の各データも記憶している。

【００３５】複数ページの画像原稿は、スキャナ４１６
によってスキャンされる。スキャナ４１６によって、ス
キャンされた各ページを構成する文書あるいはイメージ
は、ビットマップ画像データとしてコンピュータ装置４
１０へ展開される。また、画像データは、ネットワーク
インターフェース４２４またはファクシミリ／モデムイ
ンターフェース４２６を介して、他の外部装置からコン
ピュータ装置４１０へ入力してもよい。

【００３６】プリンタ４１８は、コンピュータ装置４１
０によって処理された画像原稿の出力のために備えられ
ている。尚、図４では、プログラム可能な汎用コンピュ
ータ装置としてその外観を示したが、専用、あるいは独
立したコンピュータ装置、または他のタイプのデータ処
理装置であっても本発明の実施の形態に適用できること
は言うまでもない。

【００３７】図５は実施の形態のコンピュータ装置４１
０の詳細な内部構造を示すブロック図である。以下に図
５の構成を説明する。図中、コンピュータ装置４１０
は、コンピュータバス４２１によって、中央処理ユニッ
ト（ＣＰＵ）５２０を含む各ユニットが相互に接続さて
いる。コンピュータバス４２１に接続される各ユニット
は、スキャナインタフェース５２２、プリンタインタフ
ェース５２３、ネットワークインタフェース５２４、フ
ァックス／モデムインタフェース５２６、ディスプレイ
インターフェース２７、キーボードインタフェース５２
８、マウスインタフェース５２９、メインメモリ５３
０、そしてディスク４１１からなっている。

【００３８】メインメモリ５３０は、コンピュータバス
５２１に接続され、ＲＡＭを備えている。ＲＡＭは、Ｃ
ＰＵ５２０で実行される各種処理（例えば、ブロックセ
レクション処理）を実行するための作業領域である。ま
た、メインメモリ５３０では、ＣＰＵ５２０によってデ
ィスク４１１に記憶された各種処理を実行するためのプ
ログラムが読み込まれ、読み込まれた各種プログラムに
よって各種処理が実行される。

【００３９】ユーザの操作によって、画像データを処理
するためのアプリケーションプログラムが読み込まれ、
その処理が実行される。例えば、ウインドウズ版WordPe
rfectのようなデスクトップ処理プログラムが操作する
ことで画像データが処理され、また、ブロックセレクシ
ョン処理前後の画像原稿の処理状況を表示する。同様に
して、ページ解析プログラムが、ブロックセレクション
処理を実行することで処理対象の１ページ分の画像原稿
に複数種類の画像データの属性を入力する。そして、そ
の１ページ分の画像原稿の処理結果がウインドウ環境を
介してディスプレイに表示される。

【００４０】図６Ａ〜６Ｄは本実施の形態のブロックセ
レクション処理によるページ解析の方法を示すフローチ
ャートである。尚、図６Ａ〜６Ｄで説明される各処理の
ステップは、ディスク４１１によって読み込まれるコン
ピュータプログラムに従って、ＣＰＵ５２０によって実
行される。

【００４１】ステップＳ６０１では、画素画像データが
システムへ入力されディスク４１１へ格納される。画像
データは画像を画素単位で表現している。好ましくは、
画素データは２値画素データ、つまり白黒画像データで
ある。しかし、画像データは、各画素が複数のグレイス
ケールレベル内の１つで表現される中間調画像データで
あっても良いし、各画素が、その色を符号化するマルチ
ビットワードで表現されるカラー画像データであっても
良い。それらの場合、または画素データが２値画素デー
タでない他のいずれの場合でもディスク４１１へ格納す
る前に、非２値画素データを２値画素データへ変換する
ための閾値処理が行われる。

【００４２】ステップＳ６０２で、ブロックセレクショ
ン処理プログラムが、そのプログラムと変数によって生
成される複数の内部変数がセットされることによって初
期化される。ステップＳ６０３で、ユーザによって、ブ
ロックセレクション処理によって解析される１ページ分
の原稿が入力されたか否かが確認される。ブロックセレ
クション処理による解析が原稿ページの一部分の領域だ
けしかない場合、ステップＳ６０４で、その解析する領
域の調整を行う。

【００４３】ここで、ステップＳ６０４において、解析
される原稿ページの少なくとも一部分の領域の選択方法
の概略について、図７Ａ、図７Ｂを用いて説明する。図
７Ａは本実施の形態の原稿１ページの一部分の領域の解
析処理の詳細な処理フローを示すフローチャートであ
る。ステップＳ７０１で、原稿１ページ分の画像データ
を入力する。例えば、図７Ｂに示されるような原稿ペー
ジ７５０を入力すると、入力される原稿ページ７５０の
画像データが読み取られディスク４１１に格納される。
ステップＳ７０２で、入力された原稿ページの画像デー
タがディスク４１１から検索され、その検索結果がユー
ザへと表示される。

【００４４】ステップＳ７０３で、入力された画像デー
タの一部分の領域を解析するのｘｙ座標の入力がユーザ
によって要求される。例えば、原稿ページ７５０のテキ
スト領域７５１を解析するために、ユーザは座標（ｘ
1，ｙ1）、（ｘ2，ｙ2）、（ｘ3，ｙ3）、（ｘ4，ｙ4）
を入力する。ステップＳ７０５で、ユーザによるｘｙ座
標の入力後、ページ解析プログラムは、ステップＳ７０
３で入力した座標が原稿ページの境界線内に含まれてい
るか否かを判定する。例えば、図７Ｂに示すような原稿
ページ７５０に対し、その原稿ページ７５０の境界線内
に入力された座標が含むか否かがステップＳ７０５にお
いて判定される。原稿ページの境界線内に入力された座
標が含まない場合は、ステップＳ７０３に戻る。そし
て、原稿ページの境界線内に含む座標が得られるまでユ
ーザは座標の入力を繰り返す、あるいはユーザが解析対
象にすべての原稿ページが入力されたことを指示するま
で座標の入力を繰り返す。一方、原稿ページの境界線内
に入力した座標が含む場合は、ステップＳ７０６に進
む。

【００４５】ステップＳ７０６で、入力した座標によっ
て定義される原稿ページの一部分の領域の画像データの
抽出を行う。抽出された画像データは、ステップＳ７１
０のブロックセレクション処理における処理対象とな
る。ここで、再びステップＳ６０５に戻る。１ページ分
の原稿の入力処理が終了するか、あるいはステップＳ６
０４で原稿ページの一部分の領域の選択されると、ステ
ップＳ６０５に進む。

【００４６】ステップＳ６０５で、１ページ分の原稿あ
るいはステップＳ６０４選択された原稿ページの一部分
の領域に対し、ブロックセレクション処理を実行するた
めの記憶領域を確保する。また、原稿ページの解析によ
って得られる階層ツリー構造の結果を格納するための記
憶領域を確保する。ここで、ステップＳ６０５における
記憶領域の確保する方法の概略について、図８を用いて
説明する。

【００４７】図８は本実施の形態のブロックセレクショ
ン処理のための記憶領域の確保する方法と、階層ツリー
構造を算出する処理のための記憶領域の確保する方法を
説明するための図である。例えば、原稿ページ８００は
共通原稿ページ記憶領域が入力されている原稿ページで
ある。共通原稿ページ記憶領域は、ＣＰＵ５２０の制御
のための作業領域であり、その制御とは、原稿ページを
スキャンして得る画像データを記憶する記憶領域（図の
記憶領域８０１ａ）を読み込む際の制御と、ブロックセ
レクション処理を実行するための作業領域（図の記憶領
域８０１ｂ）を確保するための制御である。

【００４８】尚、ＣＰＵ５２０が生成するこの記憶領域
は、原稿ページの画像データを読み込むための記憶領域
ばかりでなく、ブロックセレクション処理の中間処理結
果を読み込むための記憶領域になっている。記憶領域８
０３は、複数ページからなる記憶領域で構成されてい
る。図に示されるように、８０４、８０５、８０６の各
ページには、原稿ページ８００のブロックセレクション
処理によって得られる複数の階層ツリー構造が格納され
る。

【００４９】尚、各ページの階層ツリー構造は異なるタ
イプの構造（あるページは単純な構造、また、あるペー
ジは複雑な構造）から構成されているため、各ツリー構
造を記憶するための記憶容量は異なる。尚、初期化の
際、共通原稿ページ記憶領域８０１と階層ツリー構造記
憶領域８０３は、ブロックセレクション処理プログラム
に設定されている変数に基づいて、充分な所定記憶容量
の記憶領域が確保される。但し、ブロックセレクション
処理プログラムによって確保される共通原稿ページ記憶
領域８０１と階層ツリー構造記憶領域８０３の記憶領域
はの記憶容量はユーザによって変更しても良い。また、
１０ページだけといった所定数のページ数に基づいて記
憶領域を確保したり、所定の変数に基づいて記憶領域を
確保しても良い。

【００５０】ステップＳ６０５における記憶領域が確保
されると、ステップＳ６０７で、入力された原稿ページ
のタイプがユーザによって判定される。例えば、ステッ
プＳ６０１でスキャンされた原稿ページの画像データ
が、英語原稿ページのような横書き原稿ページ、即ち水
平であるか、あるいは日本原稿ページのような縦書き原
稿ページ、即ち垂直であるか等が判定される。また、原
稿ページが、縦書き横書きの両方から構成される場合
は、その際は複数の方向を含む混合タイプとしての処理
が必要となる。いずれの場合にしても、ユーザは、所定
方向、垂直方向、水平方向、あるいは複数の方向を含む
混合方向の４つのいずれかの方向を判定する。

【００５１】尚、「混合」タイプの原稿ページは予め設
定されたタイプであり、混合タイプの原稿ページが選択
されても、ユーザはそれに伴う特別な処理は必要とされ
ない。ステップＳ６０８で、ユーザは入力した原稿ペー
ジのタイプが既に設定されているタイプであるかを判定
する。入力した原稿ページのタイプが既に入力された原
稿ページのタイプである場合、ステップＳ６０９で、そ
のタイプの情報が原稿ページのルートノードに格納され
る。また、原稿ページのタイプは、原稿ページに対して
実行される処理に渡って、変数として用いられ、また、
その変数は正確な処理結果を出力するための要素となっ
ている。例えば、スキャンした原稿ページにおいて、テ
キストデータがＯＣＲプログラムによって光学的に認識
された場合、そのテキストデータの方向として水平方向
がセットされる。

【００５２】一方、ステップＳ６０８で、入力された原
稿ページのタイプが既に設定されているタイプでない場
合は、ステップＳ６１１で、その原稿ページのタイプを
設定する。尚、本発明では、上述のステップＳ６０８で
設定される原稿ページのタイプを「混合」タイプの原稿
ページとして扱う。

【００５３】そして、設定された原稿ページのタイプの
情報が原稿ページのルートノードに格納される。また、
原稿ページのタイプは、原稿ページに対して実行される
処理に渡って、変数として用いられる。そして、原稿ペ
ージのタイプがセットされると、ステップＳ６１５から
ステップＳ６３５で説明されるブロックセレクション処
理が実行される。

【００５４】ブロックセレクション処理について簡単に
説明する。ブロックセレクション処理は、２値画像の原
稿ページにおいて、以下の異なるタイプのブロックに分
割する。（１）テキストデータとして、テキストデータを含む段
落、タイトルテキストデータ、表の中のテキストデー
タ、キャプションとしてのテキストデータ（２）線として、水平線、垂直線、ドットからなる線、
斜線（３）互いに直交する線分（４）ハーフトーン画像、連続調、グレイスケール等（５）線画（６）例えば、箱型の枠、枠である領域として認識され
るもの（例えば、図１の枠１１６）（７）表（例えば、図１の表１１０）（８）枠や線画の中の空白領域から独立して存在する空
白領域更に、従来のブロックセレクション処理とページ分割
は、傾きのない原稿ページであることを前提に処理を行
うブロックセレクション処理とページ分割であった。し
かし、本発明によれば、後述するステップにおいて、原
稿ページの傾きを検知し、傾きのある原稿ページ、傾き
のない原稿ページのいずれにおいてもそれぞれに対応す
る処理を実行することで、傾きのある原稿ページに対す
る処理が保証されている。この保証の方法としては、原
稿ページに傾きがある場合、ステップＳ６１５からステ
ップＳ６３５で説明される処理によって分割される各ブ
ロックが長方形であるブロックは重なって表示されてし
まう。また、原稿ページに傾きがない場合は、それらの
長方形であるブロックは重ならない。この事実をふまえ
て、原稿ページを処理する際に生じる長方形であるブロ
ックの重なりの有無によって、原稿ページが傾いている
か否かを知る。そして、原稿ページに傾きがある場合
は、その原稿ページに対するブロックの抽出する際にそ
の旨を示す情報を与えることで、傾きのある原稿ページ
に対する処理が保証される。

【００５５】ステップＳ６１５からステップＳ６３５の
処理の概要を説明する。ステップＳ６１５からステップ
Ｓ６３５で説明される処理によって、階層ツリー構造は
原稿ページの画像データを表現するために用いられる。
また、階層ツリー構造のルートノードは原稿ページの含
むすべてのテキストブロック、非テキストブロックを表
現し、それらのノードはルートノードの直接の子孫ある
いはその子孫の子孫としてつながったノードの状態で表
現される。

【００５６】一方、原稿ページをブロックに分割するた
めに、原稿ページの画像データの結合成分が検索され、
その結合成分によってテキスト部と非テキスト部の結合
成分に区別される。そして、テキスト部と非テキスト部
の結合成分はおおまかにかつ簡単にグループ化される。
例えば、いくつかの段落によって構成されるテキスト部
の結合成分が集められてテキストブロックが生成され
る。また、例えば、一つの絵として存在する結合成分が
集められることによって絵ブロックが生成される。

【００５７】ここより、ステップＳ６１５からステップ
Ｓ６３５の詳細な処理について説明する。ステップＳ６
１５で、画像データが縮小された処理が実行される。ブ
ロックセレクション処理の処理速度を上げるために画像
データの縮小は必要であるが、光学的文字認識（ＯＣ
Ｒ）に影響しないような画像データの縮小を行う。画像
データの縮小方法としては、例えば、解像度が４００ｄ
ｐｉの原稿ページを４画素毎に１画素間引いて２００ｄ
ｐｉの解像度にする程度の間引きは、画像の結合性が保
証されることが経験的に証明されている。また、他の間
引き方法としては、異なる解像度を持つ画像を用いる方
法である。例えば、解像度５０ｄｐｉの画像と、解像度
７５ｄｐｉの画像を生成し、その２つの結果を用いるこ
とで、正確でかつ高速に画像の間引きが実現されること
が経験的に知られている。

【００５８】ステップＳ６１６で、画素画像データが解
析された連結成分が検出され、その大きさ及び他の連結
成分との相対的な位置び基づいて、検出された連結成分
がテキストであるか非テキストであるかが区別される。
連結成分は、米国特許出願第０７／８１３，０１２号、
０８／１７１，７２０号に記載されているように、白画
素によって完全に囲まれた黒画素のグループである。連
結成分の検出は、例えば、図９Ａに示すように連結成分
９０２の輪郭９０１を検索することによって、連結成分
の検出が開始される。この検出は、図９Ａに示されるよ
うな所定８方向の各方向に存在する連結成分の輪郭の画
素成分を検出することで行う。輪郭９０１に囲まれる連
結成分９０１を構成する内側の各画素は、後述するステ
ップＳ６１８で区別されるテキストあるいは非テキスト
に基づいて、その画素が飛ばされて解析される。そし
て、各連結成分は、各連結成分の周りに構成することが
できる最小の長方形を使うことによって、各連結成分を
長方形化する。

【００５９】ステップＳ６１７で、連結成分のサイズに
基づいて、各連結成分はおおまかにテキスト部と非テキ
スト部に区別される。尚、一般的には、非テキスト部の
方がテキスト部よりも大きくなる。ステップＳ６１７の
区別で誤った区別がされてしまった場合、以下に説明さ
れるステップで補正される。その補正方法としては、テ
キストと非テキストを区別するために、各連結成分のサ
イズと所定のサイズの閾値を比較することで、その区別
を行うための判定が行われる。また、その所定のサイズ
の閾値は、各連結成分に基づいて得られる適応的に決定
された閾値である。

【００６０】詳細に説明すると、ステップＳ６１７のテ
キスト部と非テキスト部の区別は２つのステップで行わ
れる。最初のステップで、極端に大きい連結成分は非テ
キスト成分として区別される。第２のステップで、区別
されていない各連結成分を囲む長方形の高さと幅の平均
値を算出する。算出した平均値に基づいて、適応的なサ
イズ（即ち、テキストを囲む長方形のサイズである垂直
方向のテキストのサイズあるいは水平方向のテキストの
サイズ）が算出され、その算出されたサイズが上述のテ
キスト／非テキストの区別のための閾値として用いられ
る。

【００６１】ステップＳ６１７の処理によって得られた
テキストと非テキストの連結成分それぞれは、階層ツリ
ー構造のルートノードの直接の子孫のノードとして割り
当てられる。テキスト連結成分と非テキスト連結成分の
区別は、それぞれ同レベルのツリー構造のノードに対し
て行われる。また、その際、子孫レベルの連結成分の処
理の過程で得られる統計的な値に従って、その区別は行
われる。この区別は、より多くの階層ツリー構造がある
場合に、より重要な処理となる。例えば、枠の外側と内
側にサイズの一致しないテキストがある場合、枠の内側
がの区別が枠の外側の区別からにおける処理は、異なる
子孫レベルに移る処理となるため、同じ枠に対してその
枠の内側の区別とその枠の外側の区別を別々に行うこと
になるからである。

【００６２】ステップＳ６１８で、非テキスト連結成分
は、それらが線（水平線、垂直線、ドット線あるいは斜
線）、折れ線、絵、線画、枠、表あるいは未知（即ち、
どれにも属さない）のいずれかに判定される。また、階
層ツリー構造のルートノードの子孫のその下の子孫であ
る表、枠、線画、絵に含まれる非テキスト連結成分は、
上述のステップＳ６１７、ステップＳ６１８を繰り返す
ことによって区別され判定される。そのため、各連結成
分とその連結成分の種類に対して階層ツリー構造が展開
される。しかしながら、枠や表に含まれる連結成分の区
別は、８方向の検索（図９Ａを参照）における黒画素の
検索は実行されない。そのかわりに、４方向の検索によ
る白画素の検索が実行される。その検索方向は図９Ｂに
示されるような方向であり、例えば、画素枠９０４で囲
まれる白輪郭９０３に関して、４方向の検索を行う。こ
の白輪郭の４方向の検索を行うのは、囲まれ輪郭の内側
にある連結成分の検索と区別を行うのに役立つからであ
る。

【００６３】ステップＳ６１８における非テキスト連結
成分の区別、つまり、線、折れ線、枠、表、絵、線画、
未知のいずれかのタイプとして区別される手順の好適な
処理フローを図１０に示す。図１０に示されるような処
理が、各非テキスト連結成分に対して実行される。ま
た、非テキスト連結成分の各タイプの区別を実行する処
理が、図１０に示されるようなシーケンシャルな処理で
実行される。

【００６４】例えば、図１０において、早い処理の段階
で処理が実行される非テキスト連結成分は、ハーフトー
ン画像と認識される。このように、非テキスト連結成分
毎に処理が進む。また、図１０で実行される処理の処理
対象である非テキスト連結成分は、図１０の各ステップ
の処理の実行の有無を基準となる閾値を比較することで
決定する。その基準となる閾値は、数学的に公式化され
た計算によって、直接各連結成分を囲む長方形のサイズ
と幅に基づいて算出される。

【００６５】図１０の処理フローについて説明する。ス
テップＳ１００１で、非テキスト連結成分は、ハーフト
ーン画像（あるいは連続画像）であるか否かが判定され
る。ハーフトーン画像であるか否かの判定は、その非テ
キスト連結成分の画像エリアに関し、白と黒画素のそれ
ぞれの連続成分の比較と黒画素密度に基づいて行われ
る。その画像エリアに関し、黒画素成分が白画素成分よ
りも長い場合、また、黒画素密度が高い、あるいはその
画像エリア内に多くのノイズのような連結成分がある場
合は、その非テキスト連結成分はハーフトーン画像連結
成分と判定される。そして、ステップＳ１００２に進
み、その非テキスト連結成分に対応するノードに補助属
性として「ハーフトーン」が格納される。

【００６６】一方、非テキスト連結成分がハーフトーン
画像連結成分と判定されない場合、ステップＳ１００３
に進み、その非テキスト連結成分が枠であるか否かが判
定される。枠であるか否かの判定は、非テキスト連結成
分の高さがテキストサイズよりも長く、その非テキスト
連結成分が、平行である水平な２本の境界線と平行であ
る垂直な２本の境界線が、長方形を構成する境界線と一
致する場合、その非テキスト連結成分は枠と判定され
る。また、非テキスト連結成分の黒画素密度がテキスト
データ構成される段落の密度と近似あるいはそれよりも
少ない場合（ステップＳ１０００１にお凍て、非常に高
い黒画素密度を持つ非テキスト連結成分と判定される非
テキスト連結成分）、枠と判定される。非テキスト連結
成分が枠と判定された場合、ステップＳ１００４に進
み、その非テキスト連結成分に対応する階層ツリー構造
のノードに補助属性として「枠」を格納する。

【００６７】ステップＳ１００３で、非テキスト連結成
分が枠と判定されなかった場合、ステップＳ１００５で
非テキスト連結成分が水平線であるいは垂直線であるか
否かが判定される。水平線あるいは垂直線であるか否か
の判定は、その非テキスト連結成分の幅と高さの割合が
大きい場合や、また、階層ツリー構造の同じレベルのノ
ードのテキスト連結成分の細さよりも非テキスト連結成
分のの細さの方が細い場合、その非テキスト連結成分は
水平線と垂直線と判定される。更に、非テキスト連結成
分に占める黒画素成分の密度がとても高い場合に、その
非テキスト連結成分は水平線あるいは垂直線と判定され
る。水平線あるいは垂直線と判定される非テキスト連結
成分の両側は真っ直ぐになっているべきであるが、その
非テキスト連結成分の片側だけが真っ直ぐで、また非テ
キスト連結成分の細さがテキスト連結成分の細さと近似
している場合は、下線である非テキスト連結成分と判定
される。この場合、下線が引かれているテキスト連結成
分と下線である非テキスト連結成分は互いに分割され、
それぞれステップＳ６１７とステップＳ６１８による処
理を改めて実行する。このようにして、非テキスト連結
成分が水平線あるいは垂直線と判定された場合は、ステ
ップＳ１００６に進み、その非テキスト連結成分に対応
する階層ツリー構造のノードに補助属性として「水平
線」あるいは「垂直線」を格納する。

【００６８】ステップＳ１００５で、非テキスト連結成
分が水平線あるいは垂直線と判定されない場合は、ステ
ップＳ１００７で非テキスト連結成分が表であるか否か
が判定される。表であるか否かの判定は、非テキスト連
結成分内の白輪郭を４方向による検索によって判定され
る。４方向の白輪郭が存在する場合、または、水平線と
垂直線によって囲まれる白輪郭であるような表を構成す
る格子の中の白輪郭の配列である場合は、その非テキス
ト連結成分は表と判定される。このようにして、非テキ
スト連結成分が表と判定された場合は、ステップＳ１０
０８に進み、その非テキスト連結成分に対応する階層ツ
リー構造のノードに補助属性として「表」を格納する。
また、表の内部にテキスト連結成分と非テキスト連結成
分が認識された場合、その区別をするためにステップＳ
６１７とステップＳ６１８による処理を再び実行し、区
別されたテキスト連結成分あるいは非的連結成分に対応
する階層ツリー構造のノードを付加する。

【００６９】ステップＳ１００７で、非テキスト連結成
分が表と判定されなった場合、ステップＳ１００９で非
テキスト連結成分が斜線であるか否かが判定される。斜
線であるか否かの判定は、非テキスト連結成分の長さと
細さの割合が大き場合に、斜線と判定される。但し、そ
の非テキスト連結成分の細さは、テキストサイズの細さ
よりも決して細くならない。また、非テキスト連結成分
に占める黒画素密度が高密度で、そのエッジが斜めに並
んでいる場合に斜線と判定される。このようにして、非
テキスト連結成分が水平線あるいは垂直線と判定された
場合は、ステップＳ１０１０に進み、その非テキスト連
結成分に対応する階層ツリー構造のノードに補助属性と
して「斜線」を格納する。

【００７０】尚、斜線の傾き角度は、周知の角度検出処
理によって判定される。また、斜線の傾き角度は、後述
する処理に用いるための属性情報として、階層ツリー構
造の対応するノードに格納される。ステップＳ１００９
で、非テキスト連結成分が斜線と判定されない場合は、
ステップＳ１０１１で非テキスト連結成分が線画あるい
は折れ線であるか否かが判定される。線画あるいは折れ
線であるか否かの判定は、非テキスト連結成分のサイズ
が前の処理で設定されているサイズよりも長い場合、例
えば、ステップＳ１００１で得られるハーフトーン画像
のサイズよりも長い場合に、線画あるいは折れ線と判定
される。また、線画はハーフトーン画像と比べて、白輪
郭の連続成分が輪郭の内側における黒画素連結成分より
もかなり長い。加えて、黒画素密度が低い。このような
条件を満たす場合、ステップＳ１０１２において、線画
と折れ線を区別する処理が実行される。

【００７１】図１２Ａは、折れ線と線画の違いを説明す
るための図である。図１２Ａにおいて、原稿ページ１０
５０は、タイトル１０５１、テキスト領域１０５２、１
０５３、絵１０５５からなる。テキスト領域１０５２、
１０５３は、折れ線１０５４によって、絵１０５５から
互いの分割されている。尚、一般的に折れ線は、図１２
Ｃ、図１２Ｄに示す２つのグループからなる形状をもつ
ものを折れ線と区別される。図１２Ｃに示されるような
折れ線は、改めて折れ線として選択され、図１２Ｄに示
されるような折れ線は、改めて枠として区別される（即
ち、ステップＳ１００３では枠として完全には選択され
ていない）。そして、それぞれの区別は、その構成要素
の長さと細さと互いに交差する角度（水平成分の鏡像、
垂直成分の鏡像、対角線の鏡像でも許される）に基づい
て行われる。

【００７２】図１２Ａにおいて、折れ線１０５４は図１
２Ｃに示される折れ線に相当するので、この場合、ステ
ップＳ１０１２からステップＳ１０１４に進む。このよ
うにして、非テキスト連結成分が折れ線と判定された場
合は、ステップＳ１０１４に進み、その非テキスト連結
成分に対応する階層ツリー構造のノードに補助属性とし
て「折れ線」を格納する。

【００７３】一方、非テキスト連結成分が図１２Ａに示
される折れ線（「折れ線」の属性を付加するグルー
プ）、あるいは図１２Ｂに示される折れ線（「枠」の属
性を付加するグループ）のどちらにも相当しない場合、
ステップＳ１０１２からステップＳ１０１３に進み、非
テキスト連結成分は線画と判定される。このようにし
て、非テキスト連結成分が線画と判定された場合は、ス
テップＳ１０１３に進み、その非テキスト連結成分に対
応する階層ツリー構造のノードに補助属性として「線
画」を格納する。

【００７４】図１２Ｂは、図１２Ａに示される様々な画
像データが本発明のブロックセレクション処理による処
理結果を示す図である。図１２Ａに示されるタイトル１
０５１、テキスト領域１０５２、１０５３、絵１０５５
は、図１２Ｂにおいて、それぞれブロック１０６０、１
０６１、１０６２、１０６３に対応する。また、図１２
Ａに示される折れ線１０５４は、ブロック１０６３にブ
ロック１０６１、１０６２が重なることで示されてい
る。このように、それぞれのブロックの属性と調整結果
は、階層ツリー構造に対応するノードに格納され、それ
に基づいて後述する画像データの抽出処理が実行され
る。

【００７５】再び、図１０の説明に戻る。ステップＳ１
０１１で、非テキスト連結成分が線画あるいは折れ線と
判定されない場合は、ステップＳ１０１５で非テキスト
連結成分は未知のタイプとして判定される。このように
して、非テキスト連結成分が未知のタイプと判定された
場合は、ステップＳ１０１５に進み、その非テキスト連
結成分に対応する階層ツリー構造のノードに補助属性と
して「未知」を格納する。

【００７６】更に、図６の説明に戻る。ステップＳ６１
８による非テキスト連結成分の区別処理後、ステップＳ
６１９に進み、ドットラインの検出が実行される。尚、
一般的に連結成分が形成するドットラインの各ドットの
検出は困難とされており、これらの連結成分は各ドット
のサイズが同じであるテキスト連結成分とみなされる。

【００７７】このようにドットラインの検出において
は、水平成分あるいは垂直成分により近いサイズのドッ
トサイズを持つテキスト連結成分が選択される。選択さ
れたテキスト連結成分は各々の相対的な位置関係に基づ
いて異なるグループに区別される。区別されるそれぞれ
のグループは、サイズと付近のラインの囲みに基づくド
ットのラインが、垂直、水平、斜めの成分が正確に現れ
ているか否かが確認される。それぞれ検出されるドット
ラインは、すべてのドットラインの要素に囲まれる輪郭
を持つ連結成分で生成される。また、それぞれ検出され
るドットラインは、階層ツリー構造の対応するノード
に、水平、垂直、斜めのいずれかのドットラインとして
の属性が新しいユニットとして付加されて用いられる。

【００７８】また、ステップＳ６１９では、折れ線であ
るドットラインの検出を行う。特に、グループ化された
連結成分が水平なドットラインと垂直なドットラインが
直角あるいは直角に近いかたちで交差している場合、そ
のグループ化された連結成分は、折れ線であるドットラ
インとして区別される。そして、検出される折れ線であ
るドットラインは、階層ツリー構造の対応するノード
に、折れ線であるドットラインとしての属性が付加され
る。

【００７９】ステップＳ６２０で、非テキスト連結成分
のエッジに沿って不可視線が検索される。このような不
可視線は欄の間にある白線であり、この不可視線を検出
することで、テキスト連結成分がグループ化されるべき
かあるいは欄から区別されるブロックにすべきかを判定
するの役立つ。ステップＳ６２１で、ステップＳ６０７
からステップＳ６１１の処理によって格納された原稿ペ
ージが「単一方向」をである原稿ページのタイプに対
し、その原稿ページの方向を検出する（図のステップＳ
６２１ａ）。原稿ページの方向の検出は、原稿ページに
存在する複数の連結成分において、その各連結成分の中
でサイズが大きい連結成分のサイズに基づいて行う。例
えば、水平方向である原稿ページの連結成分は、高さよ
りより同一の幅を持つことが多い。加えて、水平線と垂
直線の数の差とサイズは、原稿ページの方向を判定する
ための付加的な要因になっている。そして、ステップＳ
６２１ａで検出される方向は階層ツリー構造のルートノ
ードに格納される。なぜなら、単一方向である原稿ペー
ジは、グローバル変数となるからである。

【００８０】ステップＳ６２２で、ステップＳ６１８で
区別できなかった非テキスト連結成分（即ち、「未知」
のタイプを持つ非テキスト連結成分）が解析される。そ
して、大きいフォントサイズのタイトルラインであるか
どうかが判定される。テキストあるいは未知のユニット
を持つグループ化された「未知」のタイプの非テキスト
連結成分によって、水平または垂直方向にタイトルライ
ンが形成される。グループ化されたタイトルの方向は、
グループ化されると想定される連結成分の間の距離と可
能なタイトルの長さに基づいて判定される。

【００８１】ステップＳ６２３で、テキストブロックが
テキスト連結成分から形成される。こここでのステップ
では、テキストあるいは非テキストブロックが形成され
る前には原稿ページの傾き検出も画像回転も行われるこ
とはない。この結果、画像回転に費やされる時間が節約
され、原稿ページの傾き検出によって生じる不確かさ
（文字認識処理（ＯＣＲ）によって生じる不良）を避け
ることができる。更に、ある特殊な視覚効果を達成する
ために、同じ原稿ページのテキスト領域のいくつかを、
特別に斜めに編集することも可能である。このため、原
稿ページに傾き角度がある場合でも傾き角度のない原稿
ページと同様な効果得られるので、原稿ページを直立に
補正するための原稿ページの傾きの検出は役に立たな
い。それゆえ、ステップＳ６２１では、原稿ページの傾
き角度に関わりなく直接、テキスト及び非テキストブロ
ックが形成される。

【００８２】特に、それぞれのテキスト連結成分に対
し、そのテキスト連結成分の近傍に存在する水平あるい
は垂直である別のテキスト連結成分が検索され、その検
索されるテキスト連結成分がテキストブロックとして集
められる。この検索によってテキストブロックを集める
か否かの決定方法は、まず、このテキスト連結成分に対
応する階層ツリー構造のノードと同じレベルにおいて、
近傍にあるテキスト連結成分の水平あるいは垂直方向の
隙間を統計的解析によって算出する。そして、算出れた
値と、所定の基準値である閾値とを比較することによっ
て集めるか否かを決定する。それゆえ、各テキスト連結
成分の接近の度合いが、原稿ページとその原稿ページ内
で分割される領域に基づいて直接判定される。

【００８３】ステップＳ６２４で、ステップＳ６２３の
処理の際に集められてしまったテキストブロックに対
し、そのテキストブロックに可視線または不可視線が横
切っている場合、そのテキストブロックは分割される。
特に、ステップＳ６２０で検出される不可視線は、原稿
ページに存在する極端に狭い欄間の隙間によるものであ
る。例えば、その隙間は図形領域の近くにテキスト欄が
続く場合に生じる。

【００８４】また、テキストブロックと非テキストブロ
ックの間にある可視線の分割は実行されない。しかし、
そのような可視線に対しては、ステップＳ６２０におい
て適切な分割が実行される。もちろん、物理的な分割も
存在するが、その場合、水平成分、垂直成分、斜めの成
分のいずれかを持つテキストブロックにおいては、ステ
ップＳ６２４で集められたテキストブロックは分割され
る。

【００８５】ステップＳ６２５で、ステップＳ６０７か
らステップＳ６１１の処理によって格納された各テキス
トブロックの方向が混合方向を持つ原稿ページであるか
否かを判定する。特に、混合方向を持つ原稿ページのタ
イプである場合、ステップＳ６２５ａで、その原稿ペー
ジの各テキストブロックの方向が水平、垂直あるいはそ
れ以外の方向であるか否かが判定される。この方向（ス
テップＳ６２１ａで判定された方向あるいは、ステップ
Ｓ６０９でユーザによって入力された方向）は、後述す
るステップにおいて、各テキストブロックのテキストラ
インを形成するために用いられる。更に、テキストブロ
ックの方向は、近傍にある２つのテキストブロックが結
合可能であるか否かを判定するために役立つ。例えば、
その２つのテキストブロックの方向が一致しない場合、
通常はその２つのテキストブロックは結合されてしまう
からである。

【００８６】テキストブロックの方向の判定は、そのテ
キストブロックのサイズと、そのテキストブロックの中
の連結成分のサイズとそのサイズに加算して得られるテ
キストブロックのサイズの加算量に基づいて行う。例え
ば、水平方向の連結成分を持つテキストブロックは一定
の高さより幅を持っている。更に、水平方向と垂直方向
の隙間の数とそのサイズは、テキストブロックの方向を
判定するための付加要素として考慮される。

【００８７】ステップＳ６２６で、各テキストブロック
のテキストラインを形成する。例えば、テキストブロッ
クの方向が水平である場合、各連結成分の水平方向の距
離が接近していて、また、垂直方向に位置する近傍の連
結成分と所定角度で重なっている連結成分は水平方向の
テキストラインとして集められる。同様にして、テキス
トブロックの方向が垂直である場合、各連結成分の垂直
方向の距離が接近していて、また、水平方向に位置する
近傍の連結成分と所定角度で重なっている連結成分は垂
直方向のテキストラインとして集められる。テキストラ
インの構成は、真っ直ぐな原稿ページばかりでなく、あ
る傾き角度を持つ原稿ページに対しても考慮する。

【００８８】ステップＳ６２７で、原稿ページの傾き角
度を検出する。原稿ページの傾きは、ステップＳ６２６
で形成された各テキストラインの傾きに対し、最小２乗
法を用いて算出する。原稿ページの傾きは、その原稿ペ
ージの各テキストラインの傾き角度に対し最小２乗法を
用いて算出される平均の傾き角度である。ステップＳ６
２７で算出された傾き角度は、その原稿ページの階層ツ
リー構造のルートノードにグローバル変数として格納さ
れる。ステップＳ６０７からステップＳ６１１の処理を
通して格納される原稿ページのタイプと同様に、その原
稿ページの傾き角度は、例えば、画像データの処理過程
に必要な情報として光学的認識（ＯＣＲ）処理あるいは
他のタイプの処理が実行される際に、グローバル変数と
して用いられる。

【００８９】ステップＳ６２８で、ステップＳ６２７で
算出された傾き角度が所定最大傾き角度を越えるか否か
を判定する。特に、ステップＳ６２８では、傾き角度は
ブロックセレクション処理で設定される。また、傾き角
度が所定最大傾き角度を越える場合、ステップＳ６２８
で、原稿ページの傾きが大きすぎることをユーザに報知
する信号としてのエラーコードが、ブロックセレクショ
ン処理によって出力される。

【００９０】ステップＳ６２９で、後処理が実行され
る。後処理は、簡潔で明瞭にブロックを表現するために
実行される。また、後処理は、キャラクタ認識やデータ
圧縮等の追加処理に適用させることもできる。更に、後
処理において、テキストブロックは、他のテキストブロ
ックあるいは非テキストブロックを結合し、また、他の
非テキストブロックあるいはテキストブロックも結合す
る。

【００９１】後処理は、ステップＳ６２７で獲得される
原稿ページの傾き角度に基づいて適用される。例えば、
原稿ページの欄の隙間がほんのわずかだけ傾いている原
稿ページは更に明瞭にされる。つまり、それらのブロッ
ク（欄）は積極的に結合される。一方、例えば、原稿ペ
ージの傾き角度が大きく、複数のブロックの長方形領域
が重なっている場合、それらのブロックはより控えめに
結合される。特に、原稿ページの傾き角度が小さい程、
テキストブロックはそのテキストブロックの一部の領域
に基づいて解析された欄情報に従って結合される。テキ
ストブロックの結合は、基本的には同じ欄に含むテキス
トブロックであるかどうかに依存する。つまり。例え
ば、それらのテキストブロックが互いに接近している
か、それらのテキストブロックの方向が一定であるか、
それらのテキストブロックの結合が他のテキストブロッ
クとの重なりを生じるか等によって結合の実行の有無を
決定する。

【００９２】一方、非テキストブロックの結合は非テキ
スト成分を含む主要な複数の非テキストブロックの部分
に依存する。例えば、いくつかの図形は、いくつかの非
連結成分によって形成される。これらのいくつかの非連
結成分が同一の図形と判定されると、階層ツリー構造の
ダミーノードとして新たな合成領域が描画される。つま
り、この合成領域はすべての非連結成分を包含するため
に生成される。更に、いくつかのテキストブロックが、
同一図形として判定される場合、例えば、キャプション
のようなテキストブロックの場合、それらのキャプショ
ンは合成領域として生成される。また、その合成領域は
図形とテキスト領域を包含するダミーノードとして階層
ツリー構造で用いられる。合成領域における処理の詳細
は、後述のステップＳ６３４で説明する。

【００９３】後処理が実行されると、テキストブロッ
ク、線ブロック、図形ブロック、枠ブロック、非テキス
トブロック、合成領域ブロック、表ブロックのいずれか
のブロックに従う特定処理のための第１ブロック情報が
選択される。本実施の形態によれば、特定処理は図形あ
るいは合成領域のブロックに対して必要とし、それ以外
の他のブロックでは特定処理は行わない。何故なら、図
形あるいは合成領域以外の他のブロックは、ブロックセ
レクション処理によって必要とされる処理が完了するか
らである。図形と合成領域における特定処理について以
下に説明する。図１１は、処理対象のブロックが図形情
報を持つ画像データとして認識された場合（ステップＳ
６３２）に、実行される特定処理の処理フロー示すフロ
ーチャートである。

【００９４】ブロックセレクション処理によって、画像
データが図形情報を持つ画像データであると、その画像
データが、ハーフトーン、線画、折れ線等の図形タイプ
の認識を試みる。そのため、それらの図形ブロックは上
述のような認識ができないので、図１１に示される特定
処理は、それらの図形ブロックを「未知図形」として表
現する。

【００９５】ステップＳ１１０１で、特定処理を実行す
るための図形タイプのブロックが選択される。ステップ
Ｓ１１０２で、そのブロックの図形タイプの補助属性が
格納されている場合、選択された図形タイプのブロック
の特定処理が実行される（ステップＳ１１０２）。この
ように、「ハーフトーン」、「線画」、「折れ線」のい
ずれかの補助属性が格納されている場合（即ち、図１０
に示されるような処理によって補助情報が格納されてい
る）、その図形タイプのブロックの特定処理は完了す
る。

【００９６】一方、画像データが、ハーフトーン、線
画、折れ線のいずれかとして認識されない場合、そのブ
ロックの図形タイプは未知として認識され、「未知」で
ある補助属性をそのブロックに対応するノードに格納す
る（ステップＳ１１０４）。ステップＳ１１０４で、図
形情報を持つ画像データの特定処理を中断する。図１３
は、処理対象のブロックが複数の画像データのタイプを
含む合成領域持つ画像データとして認識された場合（ス
テップＳ６３４）に、実行される特定処理の処理フロー
示すフローチャートである。

【００９７】つまり、ブロックセレクション処理によっ
て、そのブロックは２つ以上の画像データのタイプを持
つ画像データのブロックとして認識される。本発明の実
施の形態によれば、複数の画像データのタイプを持つ画
像データの認識を行うために合成領域がブロックセレク
ション処理の処理過程に適用される。ステップＳ１３０
１で、ブロックの中に同一タイプの画像データを持つブ
ロックが存在するか否かが判定される。例えば、図１４
Ａに示されるように、原稿ページ１３００には、タイト
ル１３０１、テキスト領域１３０２、１３０３、図形領
域１３０５、１３０７、１３０９を含む。また、テキス
トキャプション１３０６も含んでいる。このような図１
４Ａに示されるような原稿ページにおいて、ブロックセ
レクション処理を実行すると、図１５Ａに示されるよう
な階層ツリー構造を持つ、分割された各領域のブロック
が生成される。

【００９８】また、図１４Ｂに示すように、タイトル１
３００とテキスト領域１３０２、１３０３、可視ブロッ
ク１３１９、１３２０、１３２１として扱われる。しか
しながら、テキストキャプション１３０６を持つ図形領
域１３０５、１３０７、１３０９は、２つ以上の画像デ
ータのタイプを持つ画像データである「合成領域」１３
２３としてグループ化される。

【００９９】ステップＳ１３０１で、同一ブロックが存
在しないと認識された場合、ステップＳ１３０２に進
む。しかしながら、同一ブロックが認識された場合、ス
テップＳ１３０３に進み、そのブロックは「合成領域」
として認識され、合成領域ノードが階層ツリー構造に付
加される（ステップＳ１３０４）。ステップＳ１３０５
で、それぞれの同一ブロックに対し、それらのブロック
に対応する階層ツリー構造のノードの位置が変更され、
「合成領域」ノードの下に付加される。図１５Ｂは、上
述の変更によって、合成領域ノード１３２３より分岐し
て生成されるテキスト１３０６、図形１３０５、１３０
７、１３０９のノードを示す図である。

【０１００】再び、図６Ｃの説明に戻る。原稿ページの
階層ツリー構造が生成されると、ステップＳ６４０で、
ステップＳ６０５で格納された確保された階層ツリー構
造の記憶領域にその生成された階層ツリー構造が格納さ
れる。尚、各ブロックを表現するための最も簡単な方法
は長方形であり、時にはブロックは孤立する長方形領域
に存在しない。また、長方形のブロックの重なりが生じ
たりする。このブロックの重なりは、画像データのブロ
ックの抽出の際にユーザを混乱させてしまう。そのた
め、長方形の使用するために、各ブロックを表現するた
めに他の表現方法を提供する。他の表現方法は、連結成
分の輪郭検索によって行われる。但し、輪郭のデータは
簡潔化された連続する輪郭の組あるいは後述の連続する
重ならない各ブロックの長方形であるとする。このよう
に作られた輪郭は、ブロックの中に２つ以上の連結成分
が存在する場合のそのすべてを含む連結成分から生成さ
れる。この方法は、連続する輪郭の組あるいは連続する
重ならない長方形によって簡潔に、各ブロックを表現す
ることができる。このような簡潔にブロックを表現する
方法に基づいて、各ブロックの画像データは、各輪郭の
組あるいは長方形の領域より直接抽出することができ
る。

【０１０１】ステップＳ６４１で、ブロックセレクショ
ン処理プログラムはユーザに対し次の原稿ページの解析
を行うか否かを要求する。入力された原稿ページがない
場合、ステップＳ６４２で、ブロックセレクション処理
を中断する。一方、次の原稿ページの解析の指示がユー
ザからある場合、ステップＳ６４３で、階層ツリー構造
の格納するために割り当てられた記憶領域に、充分な次
の原稿ページの階層ツリー構造を格納する領域があるか
否かを判定する。

【０１０２】階層ツリー構造の格納するために割り当て
られた記憶領域に、充分な次の原稿ページの階層ツリー
構造を格納する記憶領域がある場合、ステップＳ６０３
に戻って、次の原稿ページのブロックセレクション処理
を実行する。一方、階層ツリー構造の格納するために割
り当てられた記憶領域に、充分な次の原稿ページの階層
ツリー構造を格納する記憶領域がない場合、ステップＳ
６４６で、エラーコードがユーザに対して出力される。

【０１０３】以上説明したように、本実施の形態によれ
ば、ブロックセレクション処理プログラムは、入力した
原稿の有無に応じて処理を自動的に中断したり、階層ツ
リー構造の格納するために割り当てられた記憶領域に、
充分な次の原稿ページの階層ツリー構造を格納する記憶
領域がある場合、次の原稿ページの階層ツリー構造を格
納する記憶領域を割り当てることができる。

【０１０４】尚、光学的文字認識（ＯＣＲ）は、上述の
ブロックセレクション処理による出力を得るための、テ
キストブロックを読み取るために必要なアプリケーショ
ンとして限定されない。原稿の画像データを得ることの
できる他のアプリケーションを用いて、例えば、原稿の
格納と伝送、ブロックの認識と実行、原稿認識、原稿検
索等のブロックセレクション処理を実行しても良い。

【０１０５】例えば、ブロックセレクション処理を使用
する際に、より効率的に原稿の格納と伝送を実現するた
めに、複数の画像データの圧縮方法を用いることでそれ
が実現できる。このように、例えば、テキストブロック
は２値圧縮によって格納し、図形ブロックは、複数レベ
ルの図形圧縮によって格納することができる。また、ブ
ロックの認識と実行は、ある形と他の形を区別するため
に各形に特定点を配置する必要をなくすためにブロック
セレクション処理が生成される。ブロックセレクション
処理を用いることで、ブロックの認識と実行は、上述の
ようなより一般的な方法で実行され、ブロックセレクシ
ョン処理後、階層ツリー構造によって表現される。その
階層ツリー構造は、新たな階層ツリー構造が存在する毎
に、その内容が更新される階層ツリー構造の辞書を比較
することによって認識される。

【０１０６】また、原稿の認識は論理的な解析によって
実行される。基本的には、原稿認識は、所定の規則に従
って原稿の１ページ分の画像データに分類する。そのた
め、ブロックセレクション処理の階層的な特徴により、
ページ単位の物理的な解析を手伝うために原稿の構造的
な基礎が獲得される。また、原稿の検索と格納は、上述
のブロックセレクション処理に最大限使用することがで
きる。ブロックセレクション処理を用いることで、原稿
１ページ分の画像データは、上述の図３に示されるよう
な形式で、その原稿画像よりもむしろ複数のブロックで
表示される。その結果、ユーザは原稿に対するブロック
の形式を一瞥することで、原稿の構成で必要とされるか
否かについての視覚的な見当を与えるレイアウト情報を
獲得することができる。そのため、ユーザは予め設定さ
れている原稿の形式やある特定の要求の基づいて、テキ
ストあるいは非テキストブロックの情報を獲得すること
ができる。例えば、図１６に示されるような標準ビジネ
スメモには、「To」領域、「From」領域、「CC」（カー
ボンコピー）領域のようなメモから構成されている。図
３の原稿において、各ブロックに対して特定の処理を指
示する方法として、このビジネスメモを用いると、ユー
ザは、「３番目の線」に「CC」を指示するというよう
な、各ブロックの位置情報に基づいく要求の仕方が可能
である。尚、本実施の形態では、ブロックの位置の情報
によって処理対象のブロックを特定しているが、これに
限定されず様々なブロックを特定できる情報によってブ
ロックを特定しても良い。例えば、ユーザは、「３番目
の線」と指示するかわりに、「原稿を半分にした時の、
その原稿の上部の最終線よりも上に位置する水平線」と
いうような特定方法で、対象とするブロックに「CC」を
指示することができる。このように、ユーザによるブロ
ックの特定は、自動的にブロックを抽出できる領域とし
て解釈される。

【０１０７】尚、本発明は好適な施の形態について説明
されたが、本発明は開示された実施の形態に限定される
ものではないことが理解されるべきである。逆に、発明
の精神と範囲内に含まれる、様々な修正や同等の変形が
可能であるよう意図されている。特許請求に範囲の記載
は、そうして修正及び同等の構成及び機能の全てに渡る
ように解釈が与えられるものである。

【０１０８】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって実施される場合にも適用で
きることは言うまでもない。この場合、本発明に係るプ
ログラムを格納した記憶媒体が、本発明を構成すること
になる。そして、該記憶媒体からそのプログラムをシス
テム或は装置に読み出すことによって、そのシステム或
は装置が、予め定められた仕方で動作する。

【０１０９】

【発明の効果】以上の説明からも明らかなように、本発
明によれば、ブロックセレクション処理の処理対象で
ある原稿のデータ量と歪みを監視することで、処理精度
が向上するブロックセレクション処理を実行できるペー
ジ解析システムを提供できる。

【図面の簡単な説明】

【図１】原稿ページの一例を示す図である。

【図２】図１の原稿ページに関して、ブロックセレクシ
ョン処理の処理結果より得られる階層ツリー構造の一例
を示す図である。

【図３】図２の階層ツリー構造に基づいて生成される原
稿ページの表示例を示す図である。

【図４】本発明を適用する実施の形態の装置の外観図で
ある。

【図５】図５の装置の構成を示すブロック図である。

【図６Ａ】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。

【図６Ｂ】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。

【図６Ｃ】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。

【図６Ｄ】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。

【図７Ａ】入力原稿ページも一部分の領域の解析方法の
処理フローを示すフローチャートである。

【図７Ｂ】解析された原稿の各領域の一例を示す図であ
る。

【図８】解析対象のピクセル画像データを格納する記憶
領域の割当方法を説明するための図である。

【図９Ａ】連結成分の８方向検索を示す図である。

【図９Ｂ】白輪郭の４方向検索を示す図である。

【図１０】非テキスト連結成分の区別の処理フローを示
すフローチャートである。

【図１１】図形ブロックの図形タイプの判定方法の処理
フローを示すフローチャートである。

【図１２Ａ】折れ線を含む原稿ページの一例を示す図で
ある。

【図１２Ｂ】折れ線を含む原稿ページの一例を示す図で
ある。

【図１２Ｃ】折れ線の一例を示す図である。

【図１２Ｄ】折れ線の一例を示す図である。

【図１３】合成領域の処理方法の処理フローを示す図で
ある。

【図１４Ａ】合成領域を含む原稿ページの一例を示す図
である。

【図１４Ｂ】合成領域の含む原稿ページの一例を示す図
である。

【図１５Ａ】図１４Ａの原稿ページの階層ツリー構造を
示す図である。

【図１５Ｂ】図１４Ｂの原稿ページの階層ツリー構造を
示す図である。

【図１６】原稿からテキストを抽出するための標準的な
メニューの一例を示す図である。

【符号の説明】

５２０ＣＰＵ５２１コンピュータバス５２２スキャナインタフェース５２３プリンタインタフェース５２４ネットワークインタフェース５２６ＦＡＸ／モデムインタフェース５２７ディスプレイインタフェース５２８キーボードインタフェース５２９マウスインタフェース５３０メインメモリ

Claims

【特許請求の範囲】

【請求項１】複数ページの画像データを解析するため
のページ解析システムにおいて、該システムは、ブロッ
クセレクション処理プログラムに従う処理を実行するた
めに、複数ページの原稿の１ページ分の画像データを読
み込み格納する第１記憶領域と、第１記憶領域に格納さ
れた画像データに対して実行されたブロックセレクショ
ン処理の処理結果を格納する第２記憶領域とを備え、該
システムにおける記憶容量不足の指示の出力を行う出力
方法であって、前記第１記憶領域に、１ページ分の入力画像データを格
納する記憶領域と前記入力画像データのブロックセレク
ション処理を実行するための記憶領域を割り当てる第１
割当工程と、前記第２記憶領域に、ブロックセレクション処理の複数
の処理結果を格納するための記憶領域を割り当てる第２
割当工程と、前記複数ページの原稿の解析されるべき１ページ分の画
像データが、前記第１記憶領域に割り当てられた記憶領
域の記憶容量を越える場合に第１エラーコードを出力
し、前記第２記憶領域に格納されたブロックセレクショ
ン処理の処理結果を利用するための記憶領域を増やすこ
とができない場合に第２エラーコードを出力する出力工
程とを備えることを特徴とする出力方法。
【請求項２】前記ブロックセレクション処理の処理結
果が格納される前記第２記憶領域は、階層ツリー構造を
含むことを特徴とする請求項１に記載の出力方法。
【請求項３】原稿１ページ分の画像データを解析する
ページ解析システムにおいて、前記原稿の少なくとも１
つの領域を選択する選択方法であって、原稿１ページ分の画像データを入力する入力工程と、前記画像データを用いて前記原稿ページを表示する表示
工程と、座標指定手段を用いて、解析すべき前記原稿ページの少
なくとも１つの領域の座標を指定する指定工程と、前記指定工程で指定された前記原稿ページの少なくとも
１つの領域内の画像データを抽出する抽出工程と、前記少なくとも１つの領域内の画像データを解析するた
めに前記少なくとも１つの領域に対してブロックセレク
ション処理を実行する実行工程とを備えることを特徴と
する選択方法。
【請求項４】原稿１ページ分の画像データを解析する
ページ解析システムにおいて、前記原稿を解析するため
に少なくとも１つの方向を指定する指定方法であって、原稿１ページ分の画像データを入力する入力工程と、前記画像データの方向情報を獲得する獲得工程と、前記方向情報が獲得されたか否かを判定する判定工程
と、前記原稿を解析する解析工程を備え、前記方向情報が獲得された場合、前記解析工程は該方向
情報によって指定される方向を用いて解析し、前記方向情報が獲得されない場合、前記解析工程は予め
設定されている所定方向を用いて解析することを特徴と
する指定方法。
【請求項５】前記所定方向は、水平方向と垂直方向が
混合された方向であることを特徴とする請求項４に記載
の指定方法。
【請求項６】原稿１ページ分の画像データを解析し、
ブロックセレクション処理によって解析された１つのル
ートノードと該ルートノードの子孫ノードを含む階層ツ
リー構造を生成するページ解析システムにおいて、前記
原稿ページの傾き角度を獲得する獲得方法であって、前記原稿ページの画像データを入力する入力工程と、前記画像データに対し、前記画像データの傾き角度の算
出を含むブロックセレクション処理を開始する開始工程
と、前記算出された傾き角度と所定最大傾き角度を比較する
比較工程と、前記算出された傾き角度が前記所定最大傾き角度よりも
大きいか否かを判定する判定工程と、前記傾き角度が前記所定最大傾き角度を越えない場合、
前記画像データのブロックセレクション処理を完了する
完了工程と、前記傾き角度が前記所定最大傾き角度を越える場合、ブ
ロックセレクション処理を中断する中断工程とを備える
ことを特徴とする獲得方法。
【請求項７】前記傾き角度は、前記階層ツリー構造の
ルートノードに格納されることを特徴とする請求項６に
記載の獲得方法。
【請求項８】複数ページの画像データを解析するため
のページ解析システムにおいて、該システムは、ブロッ
クセレクション処理プログラムに従う処理を実行するた
めに、複数ページの原稿の１ページ分の画像データを読
み込み格納する第１記憶領域と、第１記憶領域に格納さ
れた画像データに対して実行されたブロックセレクショ
ン処理の処理結果を格納する第２記憶領域を備え、該シ
ステムにおける記憶容量不足の指示の出力を行う出力装
置であって、前記第１記憶領域に、１ページ分の入力画像データを格
納する記憶領域と前記入力画像データのブロックセレク
ション処理を実行するための記憶領域を割り当て、前記
第２記憶領域において、ブロックセレクション処理の複
数の処理結果を格納するための記憶領域を割り当てる割
当手段と、前記複数ページの原稿の解析されるべき１ページ分の画
像データが、前記第１割当手段に割り当てられた記憶領
域の記憶容量を越える場合に第１エラーコードを出力
し、前記第２記憶領域に格納されたブロックセレクショ
ン処理の処理結果を利用するための記憶領域を増やすこ
とができない場合に第２エラーコードを出力する出力手
段とを備えることを特徴とする出力装置。
【請求項９】前記ブロックセレクション処理の処理結
果が格納される前記第２記憶領域は、階層ツリー構造を
含むことを特徴とする請求項８に記載の出力装置。
【請求項１０】原稿１ページ分の画像データを解析す
るページ解析システムにおいて、前記原稿ページの少な
くとも１つの領域を選択する選択装置であって、原稿１ページ分の画像データを入力する入力手段と、前記画像データを用いて前記原稿ページを表示する表示
手段と、解析すべき前記原稿ページの少なくとも１つの領域の座
標を指定する座標指定手段と、前記座標指定手段で指定された前記原稿ページの少なく
とも１つの領域内の画像データを抽出する画像データ抽
出手段と、前記領域内の画像データを解析するために前記少なくと
も１つの領域に対してブロックセレクション処理を実行
する実行手段とを備えることを特徴とする選択装置。
【請求項１１】原稿１ページ分の画像データを解析す
るページ解析システムにおいて、前記原稿ページを解析
するために少なくとも１つの方向を指定する指定装置で
あって、原稿１ページ分の画像データを入力する入力手段と、前記画像データの方向情報を獲得する獲得手段と、前記方向情報が獲得されたか否かを判定する判定手段
と、前記原稿ページを解析する解析手段とを備え、前記方向情報が獲得された場合、前記解析手段は該方向
情報によって指定された方向を用いて解析し、前記方向情報が獲得されない場合、前記解析手段は予め
設定されている所定方向を用いて解析することを特徴と
する指定装置。
【請求項１２】前記所定方向は、水平方向と垂直方向
が混合された方向であることを特徴とする請求項１１に
記載の指定装置。
【請求項１３】原稿１ページ分の画像データを解析
し、ブロックセレクション処理によって前記原稿ページ
の１つのルートノードと該ルートノードの少なくとも１
つの子孫ノードを含む階層ツリー構造を生成するページ
解析システムにおいて、前記原稿ページの傾き角度を獲
得する獲得装置であって、前記原稿ページの画像データを入力する入力手段と、算出された傾き角度と所定最大傾き角度を比較する比較
手段と、前記算出された傾き角度が前記所定最大傾き角度よりも
大きいか否かを判定する判定手段と、入力された原稿ページの前記画像データに対して、傾き
角度の算出を含むブロックセレクション処理を実行する
ブロックセレクション処理手段とを備え、前記ブロックセレクション処理手段は、ブロックセレク
ション処理を開始し、算出された傾き角度と所定最大傾
き角度を比較するように前記比較手段を用い、前記算出
された傾き角度が前記所定最大傾き角度を越えない場
合、ブロックセレクション処理を完了させることを特徴
とする獲得装置。
【請求項１４】前記傾き角度は、前記階層ツリー構造
のルートノードに格納されることを特徴とする請求項１
３に記載の獲得装置。
【請求項１５】複数ページの原稿の画像データを解析
するためのページ解析システムにおいて、ブロックセレ
クション処理プログラムによって解析されたページの階
層ツリー構造が生成され、前記階層ツリー構造は１つの
ルートノードと該ルートノードの少なくとも１つの子孫
ノードを含み、前記複数ページの原稿１ページの画像デ
ータの合成領域を指示する指示方法であって、前記複数ページの１ページ分の画像データを入力する入
力工程と、前記画像データを識別し、同じタイプの画像データを有
するブロックを認識へ分けるようにブロックセレクショ
ン処理を準備する準備工程と、同じタイプの画像データのブロックを他に持つ少なくと
も１つのブロックを認識する認識工程と、前記同じタイプの画像データを持つ複数のブロックを１
つの合成ブロックに結合する結合工程と、前記合成ブロックを、前記複数のブロックに対応する子
孫ノードを持つルートノードとして前記階層ツリー構造
に定時する定時工程とを備えることを特徴とする指示方
法。
【請求項１６】複数ページの原稿の画像データを解析
するためのページ解析システムにおいて、前記原稿ペー
ジを解析するための階層ツリー構造と、前記階層ツリー
構造は１つのルートノードと該ルートノードの少なくと
も１つの子孫ノードを含み、前記複数ページの原稿１ペ
ージの画像データの合成領域を指示する指示装置であっ
て、前記複数ページの１ページ分の画像データを入力する入
力手段と、前記画像データを識別し、同じタイプの画像データを有
するブロックへ分けるブロックセレクション処理手段
と、同じタイプの画像データのブロックを他に持つ少なくと
も１つのブロックを認識する認識手段と、前記同じタイプの画像データを持つ複数のブロックを１
つの合成ブロックに結合する結合手段と、前記合成ブロックを、前記複数のブロックに対応する子
孫ノードを持つルートノードとして前記階層ツリー構造
を変更する変更手段とを備えることを特徴とする指示方
法。
【請求項１７】１ページ分の原稿の画像データのブロ
ックテンプレートに従って階層ツリー構造を生成するペ
ージ解析システムにおいて、前記階層ツリー構造は複数
のノードを持ち、各ノードは原稿画像のブロックテンプ
レートにおける表されるブロック毎の画像データに対応
しており、また、各ノードには前記原稿画像のブロック
テンプレートの特徴を定義する特徴データが含まれ、該
システムにおいて図形タイプの指示及び認識方法であっ
て、複数ページの原稿の１ページ分の画像データを入力する
入力工程と、前記画像データを識別し同じ画像タイプのブロック毎に
分割するブロックセレクション処理を実行する実行工程
と、図形情報を含む画像データのブロックを認識する認識工
程と、前記ブロックに含まれる図形情報のタイプを判定する判
定工程と、前記判定工程は、図形情報がハーフトーン、線画、折れ
線、未知のいずれかを判定し、前記判定工程で判定される図形のタイプを、前記ブロッ
クに対応する前記階層ツリー構造のノードに格納する格
納工程とを備えることを特徴とする指示及び認識方法。
【請求項１８】１ページ分の原稿の画像データのブロ
ックテンプレートに従って階層ツリー構造を生成するペ
ージ解析システムにおいて、前記階層ツリー構造は複数
のノードを持ち、各ノードは原稿画像のブロックテンプ
レートにおける表されるブロック毎の画像データに対応
しており、また、各ノードには前記原稿画像のブロック
テンプレートの特徴を定義する特徴データが含まれ、該
システムにおいて図形タイプの指示及び認識装置であっ
て、複数ページの原稿の１ページ分の画像データを入力する
入力手段と、前記画像データを識別し同じ画像タイプのブロック毎に
分割し、分割されたブロックを認識するブロックセレク
ション処理と、図形情報を含む画像データのブロックを認識する認識手
段と、前記ブロックに含まれる図形情報のタイプを判定する判
定手段と、前記判定手段は、図形情報がハーフトーン、線画、折れ
線、未知のいずれかを判定し、前記判定手段で判定される図形のタイプを、前記ブロッ
クに対応する前記階層ツリー構造のノードに格納する格
納手段とを備えることを特徴とする指示及び認識装置。