JPH08235349A - ページ解析システム - Google Patents

ページ解析システム

Info

Publication number
JPH08235349A
JPH08235349A JP7293123A JP29312395A JPH08235349A JP H08235349 A JPH08235349 A JP H08235349A JP 7293123 A JP7293123 A JP 7293123A JP 29312395 A JP29312395 A JP 29312395A JP H08235349 A JPH08235349 A JP H08235349A
Authority
JP
Japan
Prior art keywords
image data
page
block
block selection
storage area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7293123A
Other languages
English (en)
Other versions
JP3825820B2 (ja
Inventor
Yan Wangu Shin
ワング シン・ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH08235349A publication Critical patent/JPH08235349A/ja
Application granted granted Critical
Publication of JP3825820B2 publication Critical patent/JP3825820B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 ブロックセレクション処理の処理対象である
原稿のデータ量と歪みを監視することで、処理精度が向
上するブロックセレクション処理を実行できるページ解
析システムを提供する。 【解決手段】 複数ページの原稿の1ページ分の画像デ
ータを解析するブロックセレクション処理を生成するペ
ージ解析システムにおいて、システムは、予め割り当て
られた記憶領域に、その記憶容量を越える共通作業領域
あるいは階層ツリー構造格納領域としてのデータが格納
された場合にエラーコードを出力する。また、原稿の傾
き角度を算出し、その算出された傾き角度が所定最大傾
き角度を越える場合にエラーコードを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ブロックセレクシ
ョン処理を利用して、ページ単位で原稿を解析するペー
ジ解析システムに関するものである。特に、ブロックセ
レクション処理で表現される複数のパラメータ、例え
ば、原稿のタイプ、記憶容量、画像原稿の部分解析等の
パラメータを用いることで、よりブロックセレクション
処理の精度が向上するものである。
【0002】
【従来の技術】米国特許出願第07/813,012号
には、文字認識装置及びその方法、また、米国特許出願
第08/171,720号には、読取原稿のテキスト/
非テキスト選択装置及びその方法が記載されている。従
来の米国特許出願第07/813,012号、08/1
71,720号に記載されているようなブロックセレク
ション処理は、原稿から得られる複数種類の画像データ
のタイプを区別するために、1ページ単位で自動的に画
像原稿の解析を行うページ解析システムが用いられてい
た。
【0003】上述のブロックセレクション処理の処理単
位は、光学的文字認識(OCR)、データ圧縮、データ
等で得られるイメージを、以下説明される処理によって
複数のタイプに区別される単位が処理単位として用いら
れる。例えば、OCRによって認識されるテキストデー
タと、認識されない図形データとしてのイメージが、そ
の処理単位である。その結果、ユーザによる操作を必要
とすることなく異なるタイプの画像データが入力可能で
あり、また、自動的に処理が実行される。
【0004】以下、ブロックセレクション処理の一手順
を図1〜3を参照して説明する。図1は1ページの原稿
の代表的な例を示す図である。原稿101は、2つの段
落から構成されており、タイトル102、水平線10
4、複数のテキストデータの行からなるテキスト領域1
05〜107、非テキストであるグラフィックを含むハ
ーフトーン図形領域108、テキストデータを含む表1
10、枠116、キャプション126を持つハーフトー
ン図形領域121、キャプション137を持つ図形領域
132、135からなる。
【0005】米国特許出願第07/873,012号、
08/171,720号に記載されるブロックセレクシ
ョン処理によれば、原稿101を構成する各領域は、画
像データのタイプ毎に分類される。そして、ページ単位
の原稿に関する、ブロックセレクション処理により、図
2に示すような、階層ツリー構造が生成される。図2に
示すように、階層ツリー構造200は、画像データを複
数のブロックに分割される各ブロックが1つのノードで
ある複数のノードから構成されている。各ノードは、ブ
ロックセレクション処理によって得られる各ブロックの
特徴を示す特徴データが付加されている。例えば、特徴
データとしては、ブロック位置データ、サイズデータ、
属性データ(例えば、テキスト、絵、表等の図形タイ
プ)、副属性データ、子ノードあるいは親ノードポイン
タがある。
【0006】また、子ノードあるいは子孫ノードが、階
層が上のブロックの下に存在する。子ノードは、階層ツ
リー構造の親ノードから分岐するノードとして示され
る。例えば、図2において、子ノードは、親ノードある
いはルートノード211から分岐するノード211と同
レベルのノードが子ノードとなる。また、テキストブロ
ックとなるノードには、その処理方向と処理順序(図に
「RO=」が示す番号)を示す特徴データが付加され
る。
【0007】例えば、階層ツリー構造200に示される
ような階層ツリー構造が生成されたとすると、それはメ
モリに格納される。また、原稿より画像データを要求す
る処理において、メモリより階層ツリー構造が検索され
ブロック化された画像データに対応するノードの特徴デ
ータが生成される。また、原稿101に対する画像デー
タを処理し、更に原稿101の簡単な構成を生成し、そ
の結果を表示するために階層ツリー構造が用いられる。
例えば、図3に示されるようなディスプレイ300に、
簡単な構成であるブロックテンプレート301が表示さ
れる。また、ブロックテンプレート301は、図2の階
層ツリー構造で示される特徴データに基づいて生成され
表示される。
【0008】1ページの原稿に対応するブロックテンプ
レートは、階層ツリー構造ばかりでなく、階層ツリー構
造の各ノードの特徴データに直接反映する。各ノードの
特徴データは、ブロックの外枠、位置、サイズを生成す
ることで利用される。また、各ノードの特徴データは、
ブロックに含まれる画像データのタイプ、可能な割当、
処理順、処理方向を認識するために用いられる。
【0009】例えば、図3に示されるブロックテンプレ
ート301において、テキストブロック302〜30
5、309は、それぞれ図2のノード202〜205、
209に対応している。また、それぞれのテキストブロ
ックには、各テキストブロックの処理順、処理方向であ
る特徴データを含んでいる。尚、図のT1〜T14はそ
れぞれがテキスト1〜テキスト14を示しており、ま
た、PICT.1〜PICT.4は図形1〜図形4を示
している。
【0010】
【発明が解決しようとする課題】しかしながら、上述の
ブロックセレクション処理は、以下に説明される不意の
処理に遭遇すると以下のような問題点が発生していた。
例えば、精度の悪いOCRによって得られるテキストデ
ータおけるブロックセレクション処理は、エラーを含む
処理結果が生じてしまっていた。また、線の結合(90
度に交差する線、また枠でない線の結合)処理におい
て、その線の抽出に際し、OCRの精度が悪いと正確な
位置関係の線を抽出することができないために、エラー
を含む処理結果が生じてしまうという問題点があった。
更に、歪んだ原稿あるいは外部装置から入力される歪ん
で画像データのように、ブロックセレクション処理でエ
ラーを生じる原稿あるいは画像データを事前に解析し、
そのエラーを抑止するようなアプリケーションは存在し
なかった。
【0011】本発明は上記の問題点に鑑みてなされたも
のであり、ブロックセレクション処理の処理対象である
原稿のデータ量と歪みを監視し、監視の結果に基づいて
処理の実行の有無を指示することで、精度の良いブロッ
クセレクション処理を実行できるページ解析システムを
提供することを目的としている。
【0012】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による出力方法は以下の構成を備える。即
ち、複数ページの画像データを解析するためのページ解
析システムにおいて、該システムは、ブロックセレクシ
ョン処理プログラムに従う処理を実行するために、複数
ページの原稿の1ページ分の画像データを読み込み格納
する第1記憶領域と、第1記憶領域に格納された画像デ
ータに対して実行されたブロックセレクション処理の処
理結果を格納する第2記憶領域とを備え、該システムに
おける記憶容量不足の指示の出力を行う出力方法であっ
て、前記第1記憶領域に、1ページ分の入力画像データ
を格納する記憶領域と前記入力画像データのブロックセ
レクション処理を実行するための記憶領域を割り当てる
第1割当工程と、前記第2記憶領域に、ブロックセレク
ション処理の複数の処理結果を格納するための記憶領域
を割り当てる第2割当工程と、前記複数ページの原稿の
解析されるべき1ページ分の画像データが、前記第1記
憶領域に割り当てられた記憶領域の記憶容量を越える場
合に第1エラーコードを出力し、前記第2記憶領域に格
納されたブロックセレクション処理の処理結果を利用す
るための記憶領域を増やすことができない場合に第2エ
ラーコードを出力する出力工程とを備える。
【0013】また、好ましくは、前記ブロックセレクシ
ョン処理の処理結果が格納される前記第2記憶領域は、
階層ツリー構造を含む。上記の目的を達成するための本
発明による選択方法は以下の構成を備える。即ち、原稿
1ページ分の画像データを解析するページ解析システム
において、前記原稿の少なくとも1つの領域を選択する
選択方法であって、原稿1ページ分の画像データを入力
する入力工程と、前記画像データを用いて前記原稿ペー
ジを表示する表示工程と、座標指定手段を用いて、解析
すべき前記原稿ページの少なくとも1つの領域の座標を
指定する指定工程と、前記指定工程で指定された前記原
稿ページの少なくとも1つの領域内の画像データを抽出
する抽出工程と、前記少なくとも1つの領域内の画像デ
ータを解析するために前記少なくとも1つの領域に対し
てブロックセレクション処理を実行する実行工程とを備
える。
【0014】上記の目的を達成するための本発明による
指定方法は以下の構成を備える。即ち、原稿1ページ分
の画像データを解析するページ解析システムにおいて、
前記原稿を解析するために少なくとも1つの方向を指定
する指定方法であって、原稿1ページ分の画像データを
入力する入力工程と、前記画像データの方向情報を獲得
する獲得工程と、前記方向情報が獲得されたか否かを判
定する判定工程と、前記原稿を解析する解析工程を備
え、前記方向情報が獲得された場合、前記解析工程は該
方向情報によって指定される方向を用いて解析し、前記
方向情報が獲得されない場合、前記解析工程は予め設定
されている所定方向を用いて解析する。
【0015】また、好ましくは、前記所定方向は、水平
方向と垂直方向が混合された方向である。上記の目的を
達成するための本発明による獲得方法は以下の構成を備
える。即ち、原稿1ページ分の画像データを解析し、ブ
ロックセレクション処理によって解析された1つのルー
トノードと該ルートノードの子孫ノードを含む階層ツリ
ー構造を生成するページ解析システムにおいて、前記原
稿ページの傾き角度を獲得する獲得方法であって、前記
原稿ページの画像データを入力する入力工程と、前記画
像データに対し、前記画像データの傾き角度の算出を含
むブロックセレクション処理を開始する開始工程と、前
記算出された傾き角度と所定最大傾き角度を比較する比
較工程と、前記算出された傾き角度が前記所定最大傾き
角度よりも大きいか否かを判定する判定工程と、前記傾
き角度が前記所定最大傾き角度を越えない場合、前記画
像データのブロックセレクション処理を完了する完了工
程と、前記傾き角度が前記所定最大傾き角度を越える場
合、ブロックセレクション処理を中断する中断工程とを
備える。
【0016】また、好ましくは、前記傾き角度は、前記
階層ツリー構造のルートノードに格納される。上記の目
的を達成するための本発明による出力装置は以下の構成
を備える。即ち、複数ページの画像データを解析するた
めのページ解析システムにおいて、該システムは、ブロ
ックセレクション処理プログラムに従う処理を実行する
ために、複数ページの原稿の1ページ分の画像データを
読み込み格納する第1記憶領域と、第1記憶領域に格納
された画像データに対して実行されたブロックセレクシ
ョン処理の処理結果を格納する第2記憶領域を備え、該
システムにおける記憶容量不足の指示の出力を行う出力
装置であって、前記第1記憶領域に、1ページ分の入力
画像データを格納する記憶領域と前記入力画像データの
ブロックセレクション処理を実行するための記憶領域を
割り当て、前記第2記憶領域において、ブロックセレク
ション処理の複数の処理結果を格納するための記憶領域
を割り当てる割当手段と、前記複数ページの原稿の解析
されるべき1ページ分の画像データが、前記第1割当手
段に割り当てられた記憶領域の記憶容量を越える場合に
第1エラーコードを出力し、前記第2記憶領域に格納さ
れたブロックセレクション処理の処理結果を利用するた
めの記憶領域を増やすことができない場合に第2エラー
コードを出力する出力手段とを備える。
【0017】また、好ましくは、前記ブロックセレクシ
ョン処理の処理結果が格納される前記第2記憶領域は、
階層ツリー構造を含む。上記の目的を達成するための本
発明による選択装置は以下の構成を備える。即ち、原稿
1ページ分の画像データを解析するページ解析システム
において、前記原稿ページの少なくとも1つの領域を選
択する選択装置であって、原稿1ページ分の画像データ
を入力する入力手段と、前記画像データを用いて前記原
稿ページを表示する表示手段と、解析すべき前記原稿ペ
ージの少なくとも1つの領域の座標を指定する座標指定
手段と、前記座標指定手段で指定された前記原稿ページ
の少なくとも1つの領域内の画像データを抽出する画像
データ抽出手段と、前記領域内の画像データを解析する
ために前記少なくとも1つの領域に対してブロックセレ
クション処理を実行する実行手段とを備える。
【0018】上記の目的を達成するための本発明による
指定装置は以下の構成を備える。即ち、原稿1ページ分
の画像データを解析するページ解析システムにおいて、
前記原稿ページを解析するために少なくとも1つの方向
を指定する指定装置であって、原稿1ページ分の画像デ
ータを入力する入力手段と、前記画像データの方向情報
を獲得する獲得手段と、前記方向情報が獲得されたか否
かを判定する判定手段と、前記原稿ページを解析する解
析手段とを備え、前記方向情報が獲得された場合、前記
解析手段は該方向情報によって指定された方向を用いて
解析し、前記方向情報が獲得されない場合、前記解析手
段は予め設定されている所定方向を用いて解析する。
【0019】また、好ましくは、前記所定方向は、水平
方向と垂直方向が混合された方向である。上記の目的を
達成するための本発明による獲得装置は以下の構成を備
える。即ち、原稿1ページ分の画像データを解析し、ブ
ロックセレクション処理によって前記原稿ページの1つ
のルートノードと該ルートノードの少なくとも1つの子
孫ノードを含む階層ツリー構造を生成するページ解析シ
ステムにおいて、前記原稿ページの傾き角度を獲得する
獲得装置であって、前記原稿ページの画像データを入力
する入力手段と、算出された傾き角度と所定最大傾き角
度を比較する比較手段と、前記算出された傾き角度が前
記所定最大傾き角度よりも大きいか否かを判定する判定
手段と、入力された原稿ページの前記画像データに対し
て、傾き角度の算出を含むブロックセレクション処理を
実行するブロックセレクション処理手段とを備え、前記
ブロックセレクション処理手段は、ブロックセレクショ
ン処理を開始し、算出された傾き角度と所定最大傾き角
度を比較するように前記比較手段を用い、前記算出され
た傾き角度が前記所定最大傾き角度を越えない場合、ブ
ロックセレクション処理を完了させる。
【0020】また、好ましくは、前記傾き角度は、前記
階層ツリー構造のルートノードに格納される。上記の目
的を達成するための本発明による指示方法は以下の構成
を備える。即ち、複数ページの原稿の画像データを解析
するためのページ解析システムにおいて、ブロックセレ
クション処理プログラムによって解析されたページの階
層ツリー構造が生成され、前記階層ツリー構造は1つの
ルートノードと該ルートノードの少なくとも1つの子孫
ノードを含み、前記複数ページの原稿1ページの画像デ
ータの合成領域を指示する指示方法であって、前記複数
ページの1ページ分の画像データを入力する入力工程
と、前記画像データを識別し、同じタイプの画像データ
を有するブロックを認識へ分けるようにブロックセレク
ション処理を準備する準備工程と、同じタイプの画像デ
ータのブロックを他に持つ少なくとも1つのブロックを
認識する認識工程と、前記同じタイプの画像データを持
つ複数のブロックを1つの合成ブロックに結合する結合
工程と、前記合成ブロックを、前記複数のブロックに対
応する子孫ノードを持つルートノードとして前記階層ツ
リー構造に定時する定時工程とを備える。
【0021】上記の目的を達成するための本発明による
指示装置は以下の構成を備える。即ち、複数ページの原
稿の画像データを解析するためのページ解析システムに
おいて、前記原稿ページを解析するための階層ツリー構
造と、前記階層ツリー構造は1つのルートノードと該ル
ートノードの少なくとも1つの子孫ノードを含み、前記
複数ページの原稿1ページの画像データの合成領域を指
示する指示装置であって、前記複数ページの1ページ分
の画像データを入力する入力手段と、前記画像データを
識別し、同じタイプの画像データを有するブロックへ分
けるブロックセレクション処理手段と、同じタイプの画
像データのブロックを他に持つ少なくとも1つのブロッ
クを認識する認識手段と、前記同じタイプの画像データ
を持つ複数のブロックを1つの合成ブロックに結合する
結合手段と、前記合成ブロックを、前記複数のブロック
に対応する子孫ノードを持つルートノードとして前記階
層ツリー構造を変更する変更手段とを備える。
【0022】上記の目的を達成するための本発明による
認識方法は以下の構成を備える。即ち、1ページ分の原
稿の画像データのブロックテンプレートに従って階層ツ
リー構造を生成するページ解析システムにおいて、前記
階層ツリー構造は複数のノードを持ち、各ノードは原稿
画像のブロックテンプレートにおける表されるブロック
毎の画像データに対応しており、また、各ノードには前
記原稿画像のブロックテンプレートの特徴を定義する特
徴データが含まれ、該システムにおいて図形タイプの指
示及び認識方法であって、複数ページの原稿の1ページ
分の画像データを入力する入力工程と、前記画像データ
を識別し同じ画像タイプのブロック毎に分割するブロッ
クセレクション処理を実行する実行工程と、図形情報を
含む画像データのブロックを認識する認識工程と、前記
ブロックに含まれる図形情報のタイプを判定する判定工
程と、前記判定工程は、図形情報がハーフトーン、線
画、折れ線、未知のいずれかを判定し、前記判定工程で
判定される図形のタイプを、前記ブロックに対応する前
記階層ツリー構造のノードに格納する格納工程とを備え
る。
【0023】上記の目的を達成するための本発明による
認識装置は以下の構成を備える。即ち、1ページ分の原
稿の画像データのブロックテンプレートに従って階層ツ
リー構造を生成するページ解析システムにおいて、前記
階層ツリー構造は複数のノードを持ち、各ノードは原稿
画像のブロックテンプレートにおける表されるブロック
毎の画像データに対応しており、また、各ノードには前
記原稿画像のブロックテンプレートの特徴を定義する特
徴データが含まれ、該システムにおいて図形タイプの指
示及び認識装置であって、複数ページの原稿の1ページ
分の画像データを入力する入力手段と、前記画像データ
を識別し同じ画像タイプのブロック毎に分割し、分割さ
れたブロックを認識するブロックセレクション処理と、
図形情報を含む画像データのブロックを認識する認識手
段と、前記ブロックに含まれる図形情報のタイプを判定
する判定手段と、前記判定手段は、図形情報がハーフト
ーン、線画、折れ線、未知のいずれかを判定し、前記判
定手段で判定される図形のタイプを、前記ブロックに対
応する前記階層ツリー構造のノードに格納する格納手段
とを備える。
【0024】
【発明の実施の形態】以下、実施の形態の概要を説明す
る。本実施の形態に従うページ解析システムは、複数ペ
ージの原稿の画像データを解析する。上述のシステム
は、複数ページの原稿の1ページ分の画像データを第1
の記憶領域に読み込み格納する。そして、第1の記憶領
域に格納された原稿1ページ分の画像データに対してブ
ロックセレクション処理が実行される。
【0025】また、第1の記憶領域に格納された1ペー
ジ分の画像データに対して実行されたブロックセレクシ
ョン処理の処理結果が、第2の記憶領域に読み込まれ格
納される。そして、第1の記憶領域(ブロックセレクシ
ョン処理の処理対象となる1ページ分の画像データを読
み込み格納する領域)と、第2の記憶領域(第1の記憶
領域に記憶される画像データに対して実行されたブロッ
クセレクション処理によって得られる複数の処理結果を
読み込み格納する領域)に対し、以下に説明される場合
に、各記憶領域の記憶容量不足を示すエラーコードを出
力する。
【0026】第1の記憶領域で生じる記憶容量不足は、
複数ページの原稿の1ページ分を越える画像データが読
み込まれた場合に、第1の記憶領域の記憶容量不足を示
す第1エラーコードが出力される。また、第2の記憶領
域で生じる記憶容量不足は、第2の記憶領域に読み込み
格納可能なブロックセレクション処理の有効な処理結果
を記憶する記憶領域が存在しない場合、第2の記憶領域
の記憶容量不足を示す第2エラーコードが出力される。
【0027】また、他の実施の形態によれば、ページ解
析システムは、原稿1ページ分の画像データを解析し、
少なくとも、その原稿ページの一部分の領域が解析対象
として選択される。原稿ページは、画像データとして処
理され表示される。その際、座標指定装置によって、少
なくとも解析対象である原稿の一部分の領域に座標が指
定される。そして、選択された原稿ページの一部分の領
域を含む原稿ページの画像データが抽出され、少なくと
もその抽出された領域の画像データを解析するために、
ブロックセレクション処理が実行される。
【0028】また、他の実施の形態によれば、ページ解
析システムは、原稿1ページ分の画像データに対し、少
なくとも1つの方向を解析する。原稿1ページ分の画像
データが入力されると、その画像データの方向情報が獲
得される。そして、その方向情報が獲得されたか否かを
判定する。判定の結果、方向情報が獲得された場合、そ
の獲得された方向情報によって方向が選択され、その選
択された方向に従って画像データが解析される。一方、
方向情報が獲得されない場合、予め設定されている所定
方向に従って画像データが解析される。
【0029】また、他の実施の形態によれば、ページ解
析システムは解析対象として原稿1ページ分の画像デー
タを入力し、その原稿ページの傾き角度の算出を含むブ
ロックセレクション処理の実行を開始する。そして、算
出された傾き角度と予め設定されている所定の傾き角度
を比較し、算出された傾き角度が所定の傾き角度よりも
大きいか否かを判定する。算出された傾き角度が所定の
傾き角度よりも小さい場合、ブロックセレクション処理
が完了する。一方、算出された傾き角度が所定の傾き角
度よりも大きい場合、ブロックセレクション処理は中断
される。
【0030】また、他の実施の形態によれば、ページ解
析システムは、複数ページの原稿の1ページ分の画像デ
ータを入力し、その画像データを同じタイプの画像デー
タのブロックに分割し、各ブロックの認識を行う。そし
て、同じタイプの画像データのブロックを持つ複数のブ
ロックの少なくとも1つのブロックに対して、そのブロ
ックの認識を行う。
【0031】尚、本実施の形態によれば、同じタイプの
画像データのブロックは合成ブロックとして結合され
る。例えば、合成ブロックとしては、キャプションを含
む図形等が合成ブロックとなる。また、合成ブロック
は、階層ツリー構造において、同じタイプの画像データ
のブロックとして構成されるノードを下方に持つルート
ノードとして構成される。
【0032】また、他の実施の形態によれば、ページ解
析システムは、複数ページの原稿の1ページ分の画像デ
ータを入力し、その画像データを同じタイプの画像デー
タのブロックに分割し、各ブロックの認識を行う。そし
て、図形情報を含む画像データのブロックの認識を行
う。尚、本発明によれば、図形情報を持つ画像データの
ブロックとしては、ハーフトーン図形、線画、折れ線、
それ以外のタイプの図形がそのブロックの図形情報とな
る。そして、その図形と認識されたブロックは、そのブ
ロックに対応する階層ツリー構造のノードに図形情報が
付加された形で、そのノードが構成される。
【0033】尚、これらの本発明の特徴及び有利な点
は、以下の添付の図面に従う好適な実施の形態の詳細な
説明を参照することにより、更に容易に理解されるであ
ろう。図4は本発明を適用する実施の形態の外観図であ
る。以下に図4の構成を説明する。410はコンピュー
タ装置であり、MacIntosh、IBM PCまたはMicroSoft社製
Windowsのようなウィンドウズ環境を備えたPC互換コ
ンピュータからなる。コンピュータ装置410には、カ
ラーモニター等のディスプレイ412、ユーザコマンド
等を入力するためのキーボード413、そして、ディス
プレイ412上に表示される事象を指示し操作するため
のマウス等のポインティングデバイス414が接続され
ている。
【0034】コンピュータ装置410は、大容量記憶装
置として、イメージファイルを含むデータファイルを記
憶するためのディスク411を備えている。ディスク4
11は、圧縮、あるいは無圧縮のイメージファイルや、
本実施の形態で説明されるブロックセレクション処理を
実行するためのためのアプリケーションプログラムを含
む情報処理プログラムを記憶している。また、ディスク
411には、1ページ分の画像原稿のそれぞれがブロッ
クセレクション処理によって表現される階層ツリー構造
の各データも記憶している。
【0035】複数ページの画像原稿は、スキャナ416
によってスキャンされる。スキャナ416によって、ス
キャンされた各ページを構成する文書あるいはイメージ
は、ビットマップ画像データとしてコンピュータ装置4
10へ展開される。また、画像データは、ネットワーク
インターフェース424またはファクシミリ/モデムイ
ンターフェース426を介して、他の外部装置からコン
ピュータ装置410へ入力してもよい。
【0036】プリンタ418は、コンピュータ装置41
0によって処理された画像原稿の出力のために備えられ
ている。尚、図4では、プログラム可能な汎用コンピュ
ータ装置としてその外観を示したが、専用、あるいは独
立したコンピュータ装置、または他のタイプのデータ処
理装置であっても本発明の実施の形態に適用できること
は言うまでもない。
【0037】図5は実施の形態のコンピュータ装置41
0の詳細な内部構造を示すブロック図である。以下に図
5の構成を説明する。図中、コンピュータ装置410
は、コンピュータバス421によって、中央処理ユニッ
ト(CPU)520を含む各ユニットが相互に接続さて
いる。コンピュータバス421に接続される各ユニット
は、スキャナインタフェース522、プリンタインタフ
ェース523、ネットワークインタフェース524、フ
ァックス/モデムインタフェース526、ディスプレイ
インターフェース27、キーボードインタフェース52
8、マウスインタフェース529、メインメモリ53
0、そしてディスク411からなっている。
【0038】メインメモリ530は、コンピュータバス
521に接続され、RAMを備えている。RAMは、C
PU520で実行される各種処理(例えば、ブロックセ
レクション処理)を実行するための作業領域である。ま
た、メインメモリ530では、CPU520によってデ
ィスク411に記憶された各種処理を実行するためのプ
ログラムが読み込まれ、読み込まれた各種プログラムに
よって各種処理が実行される。
【0039】ユーザの操作によって、画像データを処理
するためのアプリケーションプログラムが読み込まれ、
その処理が実行される。例えば、ウインドウズ版WordPe
rfectのようなデスクトップ処理プログラムが操作する
ことで画像データが処理され、また、ブロックセレクシ
ョン処理前後の画像原稿の処理状況を表示する。同様に
して、ページ解析プログラムが、ブロックセレクション
処理を実行することで処理対象の1ページ分の画像原稿
に複数種類の画像データの属性を入力する。そして、そ
の1ページ分の画像原稿の処理結果がウインドウ環境を
介してディスプレイに表示される。
【0040】図6A〜6Dは本実施の形態のブロックセ
レクション処理によるページ解析の方法を示すフローチ
ャートである。尚、図6A〜6Dで説明される各処理の
ステップは、ディスク411によって読み込まれるコン
ピュータプログラムに従って、CPU520によって実
行される。
【0041】ステップS601では、画素画像データが
システムへ入力されディスク411へ格納される。画像
データは画像を画素単位で表現している。好ましくは、
画素データは2値画素データ、つまり白黒画像データで
ある。しかし、画像データは、各画素が複数のグレイス
ケールレベル内の1つで表現される中間調画像データで
あっても良いし、各画素が、その色を符号化するマルチ
ビットワードで表現されるカラー画像データであっても
良い。それらの場合、または画素データが2値画素デー
タでない他のいずれの場合でもディスク411へ格納す
る前に、非2値画素データを2値画素データへ変換する
ための閾値処理が行われる。
【0042】ステップS602で、ブロックセレクショ
ン処理プログラムが、そのプログラムと変数によって生
成される複数の内部変数がセットされることによって初
期化される。ステップS603で、ユーザによって、ブ
ロックセレクション処理によって解析される1ページ分
の原稿が入力されたか否かが確認される。ブロックセレ
クション処理による解析が原稿ページの一部分の領域だ
けしかない場合、ステップS604で、その解析する領
域の調整を行う。
【0043】ここで、ステップS604において、解析
される原稿ページの少なくとも一部分の領域の選択方法
の概略について、図7A、図7Bを用いて説明する。図
7Aは本実施の形態の原稿1ページの一部分の領域の解
析処理の詳細な処理フローを示すフローチャートであ
る。ステップS701で、原稿1ページ分の画像データ
を入力する。例えば、図7Bに示されるような原稿ペー
ジ750を入力すると、入力される原稿ページ750の
画像データが読み取られディスク411に格納される。
ステップS702で、入力された原稿ページの画像デー
タがディスク411から検索され、その検索結果がユー
ザへと表示される。
【0044】ステップS703で、入力された画像デー
タの一部分の領域を解析するのxy座標の入力がユーザ
によって要求される。例えば、原稿ページ750のテキ
スト領域751を解析するために、ユーザは座標(x
1,y1)、(x2,y2)、(x3,y3)、(x4,y4)
を入力する。ステップS705で、ユーザによるxy座
標の入力後、ページ解析プログラムは、ステップS70
3で入力した座標が原稿ページの境界線内に含まれてい
るか否かを判定する。例えば、図7Bに示すような原稿
ページ750に対し、その原稿ページ750の境界線内
に入力された座標が含むか否かがステップS705にお
いて判定される。原稿ページの境界線内に入力された座
標が含まない場合は、ステップS703に戻る。そし
て、原稿ページの境界線内に含む座標が得られるまでユ
ーザは座標の入力を繰り返す、あるいはユーザが解析対
象にすべての原稿ページが入力されたことを指示するま
で座標の入力を繰り返す。一方、原稿ページの境界線内
に入力した座標が含む場合は、ステップS706に進
む。
【0045】ステップS706で、入力した座標によっ
て定義される原稿ページの一部分の領域の画像データの
抽出を行う。抽出された画像データは、ステップS71
0のブロックセレクション処理における処理対象とな
る。ここで、再びステップS605に戻る。1ページ分
の原稿の入力処理が終了するか、あるいはステップS6
04で原稿ページの一部分の領域の選択されると、ステ
ップS605に進む。
【0046】ステップS605で、1ページ分の原稿あ
るいはステップS604選択された原稿ページの一部分
の領域に対し、ブロックセレクション処理を実行するた
めの記憶領域を確保する。また、原稿ページの解析によ
って得られる階層ツリー構造の結果を格納するための記
憶領域を確保する。ここで、ステップS605における
記憶領域の確保する方法の概略について、図8を用いて
説明する。
【0047】図8は本実施の形態のブロックセレクショ
ン処理のための記憶領域の確保する方法と、階層ツリー
構造を算出する処理のための記憶領域の確保する方法を
説明するための図である。例えば、原稿ページ800は
共通原稿ページ記憶領域が入力されている原稿ページで
ある。共通原稿ページ記憶領域は、CPU520の制御
のための作業領域であり、その制御とは、原稿ページを
スキャンして得る画像データを記憶する記憶領域(図の
記憶領域801a)を読み込む際の制御と、ブロックセ
レクション処理を実行するための作業領域(図の記憶領
域801b)を確保するための制御である。
【0048】尚、CPU520が生成するこの記憶領域
は、原稿ページの画像データを読み込むための記憶領域
ばかりでなく、ブロックセレクション処理の中間処理結
果を読み込むための記憶領域になっている。記憶領域8
03は、複数ページからなる記憶領域で構成されてい
る。図に示されるように、804、805、806の各
ページには、原稿ページ800のブロックセレクション
処理によって得られる複数の階層ツリー構造が格納され
る。
【0049】尚、各ページの階層ツリー構造は異なるタ
イプの構造(あるページは単純な構造、また、あるペー
ジは複雑な構造)から構成されているため、各ツリー構
造を記憶するための記憶容量は異なる。尚、初期化の
際、共通原稿ページ記憶領域801と階層ツリー構造記
憶領域803は、ブロックセレクション処理プログラム
に設定されている変数に基づいて、充分な所定記憶容量
の記憶領域が確保される。但し、ブロックセレクション
処理プログラムによって確保される共通原稿ページ記憶
領域801と階層ツリー構造記憶領域803の記憶領域
はの記憶容量はユーザによって変更しても良い。また、
10ページだけといった所定数のページ数に基づいて記
憶領域を確保したり、所定の変数に基づいて記憶領域を
確保しても良い。
【0050】ステップS605における記憶領域が確保
されると、ステップS607で、入力された原稿ページ
のタイプがユーザによって判定される。例えば、ステッ
プS601でスキャンされた原稿ページの画像データ
が、英語原稿ページのような横書き原稿ページ、即ち水
平であるか、あるいは日本原稿ページのような縦書き原
稿ページ、即ち垂直であるか等が判定される。また、原
稿ページが、縦書き横書きの両方から構成される場合
は、その際は複数の方向を含む混合タイプとしての処理
が必要となる。いずれの場合にしても、ユーザは、所定
方向、垂直方向、水平方向、あるいは複数の方向を含む
混合方向の4つのいずれかの方向を判定する。
【0051】尚、「混合」タイプの原稿ページは予め設
定されたタイプであり、混合タイプの原稿ページが選択
されても、ユーザはそれに伴う特別な処理は必要とされ
ない。ステップS608で、ユーザは入力した原稿ペー
ジのタイプが既に設定されているタイプであるかを判定
する。入力した原稿ページのタイプが既に入力された原
稿ページのタイプである場合、ステップS609で、そ
のタイプの情報が原稿ページのルートノードに格納され
る。また、原稿ページのタイプは、原稿ページに対して
実行される処理に渡って、変数として用いられ、また、
その変数は正確な処理結果を出力するための要素となっ
ている。例えば、スキャンした原稿ページにおいて、テ
キストデータがOCRプログラムによって光学的に認識
された場合、そのテキストデータの方向として水平方向
がセットされる。
【0052】一方、ステップS608で、入力された原
稿ページのタイプが既に設定されているタイプでない場
合は、ステップS611で、その原稿ページのタイプを
設定する。尚、本発明では、上述のステップS608で
設定される原稿ページのタイプを「混合」タイプの原稿
ページとして扱う。
【0053】そして、設定された原稿ページのタイプの
情報が原稿ページのルートノードに格納される。また、
原稿ページのタイプは、原稿ページに対して実行される
処理に渡って、変数として用いられる。そして、原稿ペ
ージのタイプがセットされると、ステップS615から
ステップS635で説明されるブロックセレクション処
理が実行される。
【0054】ブロックセレクション処理について簡単に
説明する。ブロックセレクション処理は、2値画像の原
稿ページにおいて、以下の異なるタイプのブロックに分
割する。 (1)テキストデータとして、テキストデータを含む段
落、タイトルテキストデータ、表の中のテキストデー
タ、キャプションとしてのテキストデータ (2)線として、水平線、垂直線、ドットからなる線、
斜線 (3)互いに直交する線分 (4)ハーフトーン画像、連続調、グレイスケール等 (5)線画 (6)例えば、箱型の枠、枠である領域として認識され
るもの(例えば、図1の枠116) (7)表(例えば、図1の表110) (8)枠や線画の中の空白領域から独立して存在する空
白領域 更に、従来のブロックセレクション処理とページ分割
は、傾きのない原稿ページであることを前提に処理を行
うブロックセレクション処理とページ分割であった。し
かし、本発明によれば、後述するステップにおいて、原
稿ページの傾きを検知し、傾きのある原稿ページ、傾き
のない原稿ページのいずれにおいてもそれぞれに対応す
る処理を実行することで、傾きのある原稿ページに対す
る処理が保証されている。この保証の方法としては、原
稿ページに傾きがある場合、ステップS615からステ
ップS635で説明される処理によって分割される各ブ
ロックが長方形であるブロックは重なって表示されてし
まう。また、原稿ページに傾きがない場合は、それらの
長方形であるブロックは重ならない。この事実をふまえ
て、原稿ページを処理する際に生じる長方形であるブロ
ックの重なりの有無によって、原稿ページが傾いている
か否かを知る。そして、原稿ページに傾きがある場合
は、その原稿ページに対するブロックの抽出する際にそ
の旨を示す情報を与えることで、傾きのある原稿ページ
に対する処理が保証される。
【0055】ステップS615からステップS635の
処理の概要を説明する。ステップS615からステップ
S635で説明される処理によって、階層ツリー構造は
原稿ページの画像データを表現するために用いられる。
また、階層ツリー構造のルートノードは原稿ページの含
むすべてのテキストブロック、非テキストブロックを表
現し、それらのノードはルートノードの直接の子孫ある
いはその子孫の子孫としてつながったノードの状態で表
現される。
【0056】一方、原稿ページをブロックに分割するた
めに、原稿ページの画像データの結合成分が検索され、
その結合成分によってテキスト部と非テキスト部の結合
成分に区別される。そして、テキスト部と非テキスト部
の結合成分はおおまかにかつ簡単にグループ化される。
例えば、いくつかの段落によって構成されるテキスト部
の結合成分が集められてテキストブロックが生成され
る。また、例えば、一つの絵として存在する結合成分が
集められることによって絵ブロックが生成される。
【0057】ここより、ステップS615からステップ
S635の詳細な処理について説明する。ステップS6
15で、画像データが縮小された処理が実行される。ブ
ロックセレクション処理の処理速度を上げるために画像
データの縮小は必要であるが、光学的文字認識(OC
R)に影響しないような画像データの縮小を行う。画像
データの縮小方法としては、例えば、解像度が400d
piの原稿ページを4画素毎に1画素間引いて200d
piの解像度にする程度の間引きは、画像の結合性が保
証されることが経験的に証明されている。また、他の間
引き方法としては、異なる解像度を持つ画像を用いる方
法である。例えば、解像度50dpiの画像と、解像度
75dpiの画像を生成し、その2つの結果を用いるこ
とで、正確でかつ高速に画像の間引きが実現されること
が経験的に知られている。
【0058】ステップS616で、画素画像データが解
析された連結成分が検出され、その大きさ及び他の連結
成分との相対的な位置び基づいて、検出された連結成分
がテキストであるか非テキストであるかが区別される。
連結成分は、米国特許出願第07/813,012号、
08/171,720号に記載されているように、白画
素によって完全に囲まれた黒画素のグループである。連
結成分の検出は、例えば、図9Aに示すように連結成分
902の輪郭901を検索することによって、連結成分
の検出が開始される。この検出は、図9Aに示されるよ
うな所定8方向の各方向に存在する連結成分の輪郭の画
素成分を検出することで行う。輪郭901に囲まれる連
結成分901を構成する内側の各画素は、後述するステ
ップS618で区別されるテキストあるいは非テキスト
に基づいて、その画素が飛ばされて解析される。そし
て、各連結成分は、各連結成分の周りに構成することが
できる最小の長方形を使うことによって、各連結成分を
長方形化する。
【0059】ステップS617で、連結成分のサイズに
基づいて、各連結成分はおおまかにテキスト部と非テキ
スト部に区別される。尚、一般的には、非テキスト部の
方がテキスト部よりも大きくなる。ステップS617の
区別で誤った区別がされてしまった場合、以下に説明さ
れるステップで補正される。その補正方法としては、テ
キストと非テキストを区別するために、各連結成分のサ
イズと所定のサイズの閾値を比較することで、その区別
を行うための判定が行われる。また、その所定のサイズ
の閾値は、各連結成分に基づいて得られる適応的に決定
された閾値である。
【0060】詳細に説明すると、ステップS617のテ
キスト部と非テキスト部の区別は2つのステップで行わ
れる。最初のステップで、極端に大きい連結成分は非テ
キスト成分として区別される。第2のステップで、区別
されていない各連結成分を囲む長方形の高さと幅の平均
値を算出する。算出した平均値に基づいて、適応的なサ
イズ(即ち、テキストを囲む長方形のサイズである垂直
方向のテキストのサイズあるいは水平方向のテキストの
サイズ)が算出され、その算出されたサイズが上述のテ
キスト/非テキストの区別のための閾値として用いられ
る。
【0061】ステップS617の処理によって得られた
テキストと非テキストの連結成分それぞれは、階層ツリ
ー構造のルートノードの直接の子孫のノードとして割り
当てられる。テキスト連結成分と非テキスト連結成分の
区別は、それぞれ同レベルのツリー構造のノードに対し
て行われる。また、その際、子孫レベルの連結成分の処
理の過程で得られる統計的な値に従って、その区別は行
われる。この区別は、より多くの階層ツリー構造がある
場合に、より重要な処理となる。例えば、枠の外側と内
側にサイズの一致しないテキストがある場合、枠の内側
がの区別が枠の外側の区別からにおける処理は、異なる
子孫レベルに移る処理となるため、同じ枠に対してその
枠の内側の区別とその枠の外側の区別を別々に行うこと
になるからである。
【0062】ステップS618で、非テキスト連結成分
は、それらが線(水平線、垂直線、ドット線あるいは斜
線)、折れ線、絵、線画、枠、表あるいは未知(即ち、
どれにも属さない)のいずれかに判定される。また、階
層ツリー構造のルートノードの子孫のその下の子孫であ
る表、枠、線画、絵に含まれる非テキスト連結成分は、
上述のステップS617、ステップS618を繰り返す
ことによって区別され判定される。そのため、各連結成
分とその連結成分の種類に対して階層ツリー構造が展開
される。しかしながら、枠や表に含まれる連結成分の区
別は、8方向の検索(図9Aを参照)における黒画素の
検索は実行されない。そのかわりに、4方向の検索によ
る白画素の検索が実行される。その検索方向は図9Bに
示されるような方向であり、例えば、画素枠904で囲
まれる白輪郭903に関して、4方向の検索を行う。こ
の白輪郭の4方向の検索を行うのは、囲まれ輪郭の内側
にある連結成分の検索と区別を行うのに役立つからであ
る。
【0063】ステップS618における非テキスト連結
成分の区別、つまり、線、折れ線、枠、表、絵、線画、
未知のいずれかのタイプとして区別される手順の好適な
処理フローを図10に示す。図10に示されるような処
理が、各非テキスト連結成分に対して実行される。ま
た、非テキスト連結成分の各タイプの区別を実行する処
理が、図10に示されるようなシーケンシャルな処理で
実行される。
【0064】例えば、図10において、早い処理の段階
で処理が実行される非テキスト連結成分は、ハーフトー
ン画像と認識される。このように、非テキスト連結成分
毎に処理が進む。また、図10で実行される処理の処理
対象である非テキスト連結成分は、図10の各ステップ
の処理の実行の有無を基準となる閾値を比較することで
決定する。その基準となる閾値は、数学的に公式化され
た計算によって、直接各連結成分を囲む長方形のサイズ
と幅に基づいて算出される。
【0065】図10の処理フローについて説明する。ス
テップS1001で、非テキスト連結成分は、ハーフト
ーン画像(あるいは連続画像)であるか否かが判定され
る。ハーフトーン画像であるか否かの判定は、その非テ
キスト連結成分の画像エリアに関し、白と黒画素のそれ
ぞれの連続成分の比較と黒画素密度に基づいて行われ
る。その画像エリアに関し、黒画素成分が白画素成分よ
りも長い場合、また、黒画素密度が高い、あるいはその
画像エリア内に多くのノイズのような連結成分がある場
合は、その非テキスト連結成分はハーフトーン画像連結
成分と判定される。そして、ステップS1002に進
み、その非テキスト連結成分に対応するノードに補助属
性として「ハーフトーン」が格納される。
【0066】一方、非テキスト連結成分がハーフトーン
画像連結成分と判定されない場合、ステップS1003
に進み、その非テキスト連結成分が枠であるか否かが判
定される。枠であるか否かの判定は、非テキスト連結成
分の高さがテキストサイズよりも長く、その非テキスト
連結成分が、平行である水平な2本の境界線と平行であ
る垂直な2本の境界線が、長方形を構成する境界線と一
致する場合、その非テキスト連結成分は枠と判定され
る。また、非テキスト連結成分の黒画素密度がテキスト
データ構成される段落の密度と近似あるいはそれよりも
少ない場合(ステップS10001にお凍て、非常に高
い黒画素密度を持つ非テキスト連結成分と判定される非
テキスト連結成分)、枠と判定される。非テキスト連結
成分が枠と判定された場合、ステップS1004に進
み、その非テキスト連結成分に対応する階層ツリー構造
のノードに補助属性として「枠」を格納する。
【0067】ステップS1003で、非テキスト連結成
分が枠と判定されなかった場合、ステップS1005で
非テキスト連結成分が水平線であるいは垂直線であるか
否かが判定される。水平線あるいは垂直線であるか否か
の判定は、その非テキスト連結成分の幅と高さの割合が
大きい場合や、また、階層ツリー構造の同じレベルのノ
ードのテキスト連結成分の細さよりも非テキスト連結成
分のの細さの方が細い場合、その非テキスト連結成分は
水平線と垂直線と判定される。更に、非テキスト連結成
分に占める黒画素成分の密度がとても高い場合に、その
非テキスト連結成分は水平線あるいは垂直線と判定され
る。水平線あるいは垂直線と判定される非テキスト連結
成分の両側は真っ直ぐになっているべきであるが、その
非テキスト連結成分の片側だけが真っ直ぐで、また非テ
キスト連結成分の細さがテキスト連結成分の細さと近似
している場合は、下線である非テキスト連結成分と判定
される。この場合、下線が引かれているテキスト連結成
分と下線である非テキスト連結成分は互いに分割され、
それぞれステップS617とステップS618による処
理を改めて実行する。このようにして、非テキスト連結
成分が水平線あるいは垂直線と判定された場合は、ステ
ップS1006に進み、その非テキスト連結成分に対応
する階層ツリー構造のノードに補助属性として「水平
線」あるいは「垂直線」を格納する。
【0068】ステップS1005で、非テキスト連結成
分が水平線あるいは垂直線と判定されない場合は、ステ
ップS1007で非テキスト連結成分が表であるか否か
が判定される。表であるか否かの判定は、非テキスト連
結成分内の白輪郭を4方向による検索によって判定され
る。4方向の白輪郭が存在する場合、または、水平線と
垂直線によって囲まれる白輪郭であるような表を構成す
る格子の中の白輪郭の配列である場合は、その非テキス
ト連結成分は表と判定される。このようにして、非テキ
スト連結成分が表と判定された場合は、ステップS10
08に進み、その非テキスト連結成分に対応する階層ツ
リー構造のノードに補助属性として「表」を格納する。
また、表の内部にテキスト連結成分と非テキスト連結成
分が認識された場合、その区別をするためにステップS
617とステップS618による処理を再び実行し、区
別されたテキスト連結成分あるいは非的連結成分に対応
する階層ツリー構造のノードを付加する。
【0069】ステップS1007で、非テキスト連結成
分が表と判定されなった場合、ステップS1009で非
テキスト連結成分が斜線であるか否かが判定される。斜
線であるか否かの判定は、非テキスト連結成分の長さと
細さの割合が大き場合に、斜線と判定される。但し、そ
の非テキスト連結成分の細さは、テキストサイズの細さ
よりも決して細くならない。また、非テキスト連結成分
に占める黒画素密度が高密度で、そのエッジが斜めに並
んでいる場合に斜線と判定される。このようにして、非
テキスト連結成分が水平線あるいは垂直線と判定された
場合は、ステップS1010に進み、その非テキスト連
結成分に対応する階層ツリー構造のノードに補助属性と
して「斜線」を格納する。
【0070】尚、斜線の傾き角度は、周知の角度検出処
理によって判定される。また、斜線の傾き角度は、後述
する処理に用いるための属性情報として、階層ツリー構
造の対応するノードに格納される。ステップS1009
で、非テキスト連結成分が斜線と判定されない場合は、
ステップS1011で非テキスト連結成分が線画あるい
は折れ線であるか否かが判定される。線画あるいは折れ
線であるか否かの判定は、非テキスト連結成分のサイズ
が前の処理で設定されているサイズよりも長い場合、例
えば、ステップS1001で得られるハーフトーン画像
のサイズよりも長い場合に、線画あるいは折れ線と判定
される。また、線画はハーフトーン画像と比べて、白輪
郭の連続成分が輪郭の内側における黒画素連結成分より
もかなり長い。加えて、黒画素密度が低い。このような
条件を満たす場合、ステップS1012において、線画
と折れ線を区別する処理が実行される。
【0071】図12Aは、折れ線と線画の違いを説明す
るための図である。図12Aにおいて、原稿ページ10
50は、タイトル1051、テキスト領域1052、1
053、絵1055からなる。テキスト領域1052、
1053は、折れ線1054によって、絵1055から
互いの分割されている。尚、一般的に折れ線は、図12
C、図12Dに示す2つのグループからなる形状をもつ
ものを折れ線と区別される。図12Cに示されるような
折れ線は、改めて折れ線として選択され、図12Dに示
されるような折れ線は、改めて枠として区別される(即
ち、ステップS1003では枠として完全には選択され
ていない)。そして、それぞれの区別は、その構成要素
の長さと細さと互いに交差する角度(水平成分の鏡像、
垂直成分の鏡像、対角線の鏡像でも許される)に基づい
て行われる。
【0072】図12Aにおいて、折れ線1054は図1
2Cに示される折れ線に相当するので、この場合、ステ
ップS1012からステップS1014に進む。このよ
うにして、非テキスト連結成分が折れ線と判定された場
合は、ステップS1014に進み、その非テキスト連結
成分に対応する階層ツリー構造のノードに補助属性とし
て「折れ線」を格納する。
【0073】一方、非テキスト連結成分が図12Aに示
される折れ線(「折れ線」の属性を付加するグルー
プ)、あるいは図12Bに示される折れ線(「枠」の属
性を付加するグループ)のどちらにも相当しない場合、
ステップS1012からステップS1013に進み、非
テキスト連結成分は線画と判定される。このようにし
て、非テキスト連結成分が線画と判定された場合は、ス
テップS1013に進み、その非テキスト連結成分に対
応する階層ツリー構造のノードに補助属性として「線
画」を格納する。
【0074】図12Bは、図12Aに示される様々な画
像データが本発明のブロックセレクション処理による処
理結果を示す図である。図12Aに示されるタイトル1
051、テキスト領域1052、1053、絵1055
は、図12Bにおいて、それぞれブロック1060、1
061、1062、1063に対応する。また、図12
Aに示される折れ線1054は、ブロック1063にブ
ロック1061、1062が重なることで示されてい
る。このように、それぞれのブロックの属性と調整結果
は、階層ツリー構造に対応するノードに格納され、それ
に基づいて後述する画像データの抽出処理が実行され
る。
【0075】再び、図10の説明に戻る。ステップS1
011で、非テキスト連結成分が線画あるいは折れ線と
判定されない場合は、ステップS1015で非テキスト
連結成分は未知のタイプとして判定される。このように
して、非テキスト連結成分が未知のタイプと判定された
場合は、ステップS1015に進み、その非テキスト連
結成分に対応する階層ツリー構造のノードに補助属性と
して「未知」を格納する。
【0076】更に、図6の説明に戻る。ステップS61
8による非テキスト連結成分の区別処理後、ステップS
619に進み、ドットラインの検出が実行される。尚、
一般的に連結成分が形成するドットラインの各ドットの
検出は困難とされており、これらの連結成分は各ドット
のサイズが同じであるテキスト連結成分とみなされる。
【0077】このようにドットラインの検出において
は、水平成分あるいは垂直成分により近いサイズのドッ
トサイズを持つテキスト連結成分が選択される。選択さ
れたテキスト連結成分は各々の相対的な位置関係に基づ
いて異なるグループに区別される。区別されるそれぞれ
のグループは、サイズと付近のラインの囲みに基づくド
ットのラインが、垂直、水平、斜めの成分が正確に現れ
ているか否かが確認される。それぞれ検出されるドット
ラインは、すべてのドットラインの要素に囲まれる輪郭
を持つ連結成分で生成される。また、それぞれ検出され
るドットラインは、階層ツリー構造の対応するノード
に、水平、垂直、斜めのいずれかのドットラインとして
の属性が新しいユニットとして付加されて用いられる。
【0078】また、ステップS619では、折れ線であ
るドットラインの検出を行う。特に、グループ化された
連結成分が水平なドットラインと垂直なドットラインが
直角あるいは直角に近いかたちで交差している場合、そ
のグループ化された連結成分は、折れ線であるドットラ
インとして区別される。そして、検出される折れ線であ
るドットラインは、階層ツリー構造の対応するノード
に、折れ線であるドットラインとしての属性が付加され
る。
【0079】ステップS620で、非テキスト連結成分
のエッジに沿って不可視線が検索される。このような不
可視線は欄の間にある白線であり、この不可視線を検出
することで、テキスト連結成分がグループ化されるべき
かあるいは欄から区別されるブロックにすべきかを判定
するの役立つ。ステップS621で、ステップS607
からステップS611の処理によって格納された原稿ペ
ージが「単一方向」をである原稿ページのタイプに対
し、その原稿ページの方向を検出する(図のステップS
621a)。原稿ページの方向の検出は、原稿ページに
存在する複数の連結成分において、その各連結成分の中
でサイズが大きい連結成分のサイズに基づいて行う。例
えば、水平方向である原稿ページの連結成分は、高さよ
りより同一の幅を持つことが多い。加えて、水平線と垂
直線の数の差とサイズは、原稿ページの方向を判定する
ための付加的な要因になっている。そして、ステップS
621aで検出される方向は階層ツリー構造のルートノ
ードに格納される。なぜなら、単一方向である原稿ペー
ジは、グローバル変数となるからである。
【0080】ステップS622で、ステップS618で
区別できなかった非テキスト連結成分(即ち、「未知」
のタイプを持つ非テキスト連結成分)が解析される。そ
して、大きいフォントサイズのタイトルラインであるか
どうかが判定される。テキストあるいは未知のユニット
を持つグループ化された「未知」のタイプの非テキスト
連結成分によって、水平または垂直方向にタイトルライ
ンが形成される。グループ化されたタイトルの方向は、
グループ化されると想定される連結成分の間の距離と可
能なタイトルの長さに基づいて判定される。
【0081】ステップS623で、テキストブロックが
テキスト連結成分から形成される。こここでのステップ
では、テキストあるいは非テキストブロックが形成され
る前には原稿ページの傾き検出も画像回転も行われるこ
とはない。この結果、画像回転に費やされる時間が節約
され、原稿ページの傾き検出によって生じる不確かさ
(文字認識処理(OCR)によって生じる不良)を避け
ることができる。更に、ある特殊な視覚効果を達成する
ために、同じ原稿ページのテキスト領域のいくつかを、
特別に斜めに編集することも可能である。このため、原
稿ページに傾き角度がある場合でも傾き角度のない原稿
ページと同様な効果得られるので、原稿ページを直立に
補正するための原稿ページの傾きの検出は役に立たな
い。それゆえ、ステップS621では、原稿ページの傾
き角度に関わりなく直接、テキスト及び非テキストブロ
ックが形成される。
【0082】特に、それぞれのテキスト連結成分に対
し、そのテキスト連結成分の近傍に存在する水平あるい
は垂直である別のテキスト連結成分が検索され、その検
索されるテキスト連結成分がテキストブロックとして集
められる。この検索によってテキストブロックを集める
か否かの決定方法は、まず、このテキスト連結成分に対
応する階層ツリー構造のノードと同じレベルにおいて、
近傍にあるテキスト連結成分の水平あるいは垂直方向の
隙間を統計的解析によって算出する。そして、算出れた
値と、所定の基準値である閾値とを比較することによっ
て集めるか否かを決定する。それゆえ、各テキスト連結
成分の接近の度合いが、原稿ページとその原稿ページ内
で分割される領域に基づいて直接判定される。
【0083】ステップS624で、ステップS623の
処理の際に集められてしまったテキストブロックに対
し、そのテキストブロックに可視線または不可視線が横
切っている場合、そのテキストブロックは分割される。
特に、ステップS620で検出される不可視線は、原稿
ページに存在する極端に狭い欄間の隙間によるものであ
る。例えば、その隙間は図形領域の近くにテキスト欄が
続く場合に生じる。
【0084】また、テキストブロックと非テキストブロ
ックの間にある可視線の分割は実行されない。しかし、
そのような可視線に対しては、ステップS620におい
て適切な分割が実行される。もちろん、物理的な分割も
存在するが、その場合、水平成分、垂直成分、斜めの成
分のいずれかを持つテキストブロックにおいては、ステ
ップS624で集められたテキストブロックは分割され
る。
【0085】ステップS625で、ステップS607か
らステップS611の処理によって格納された各テキス
トブロックの方向が混合方向を持つ原稿ページであるか
否かを判定する。特に、混合方向を持つ原稿ページのタ
イプである場合、ステップS625aで、その原稿ペー
ジの各テキストブロックの方向が水平、垂直あるいはそ
れ以外の方向であるか否かが判定される。この方向(ス
テップS621aで判定された方向あるいは、ステップ
S609でユーザによって入力された方向)は、後述す
るステップにおいて、各テキストブロックのテキストラ
インを形成するために用いられる。更に、テキストブロ
ックの方向は、近傍にある2つのテキストブロックが結
合可能であるか否かを判定するために役立つ。例えば、
その2つのテキストブロックの方向が一致しない場合、
通常はその2つのテキストブロックは結合されてしまう
からである。
【0086】テキストブロックの方向の判定は、そのテ
キストブロックのサイズと、そのテキストブロックの中
の連結成分のサイズとそのサイズに加算して得られるテ
キストブロックのサイズの加算量に基づいて行う。例え
ば、水平方向の連結成分を持つテキストブロックは一定
の高さより幅を持っている。更に、水平方向と垂直方向
の隙間の数とそのサイズは、テキストブロックの方向を
判定するための付加要素として考慮される。
【0087】ステップS626で、各テキストブロック
のテキストラインを形成する。例えば、テキストブロッ
クの方向が水平である場合、各連結成分の水平方向の距
離が接近していて、また、垂直方向に位置する近傍の連
結成分と所定角度で重なっている連結成分は水平方向の
テキストラインとして集められる。同様にして、テキス
トブロックの方向が垂直である場合、各連結成分の垂直
方向の距離が接近していて、また、水平方向に位置する
近傍の連結成分と所定角度で重なっている連結成分は垂
直方向のテキストラインとして集められる。テキストラ
インの構成は、真っ直ぐな原稿ページばかりでなく、あ
る傾き角度を持つ原稿ページに対しても考慮する。
【0088】ステップS627で、原稿ページの傾き角
度を検出する。原稿ページの傾きは、ステップS626
で形成された各テキストラインの傾きに対し、最小2乗
法を用いて算出する。原稿ページの傾きは、その原稿ペ
ージの各テキストラインの傾き角度に対し最小2乗法を
用いて算出される平均の傾き角度である。ステップS6
27で算出された傾き角度は、その原稿ページの階層ツ
リー構造のルートノードにグローバル変数として格納さ
れる。ステップS607からステップS611の処理を
通して格納される原稿ページのタイプと同様に、その原
稿ページの傾き角度は、例えば、画像データの処理過程
に必要な情報として光学的認識(OCR)処理あるいは
他のタイプの処理が実行される際に、グローバル変数と
して用いられる。
【0089】ステップS628で、ステップS627で
算出された傾き角度が所定最大傾き角度を越えるか否か
を判定する。特に、ステップS628では、傾き角度は
ブロックセレクション処理で設定される。また、傾き角
度が所定最大傾き角度を越える場合、ステップS628
で、原稿ページの傾きが大きすぎることをユーザに報知
する信号としてのエラーコードが、ブロックセレクショ
ン処理によって出力される。
【0090】ステップS629で、後処理が実行され
る。後処理は、簡潔で明瞭にブロックを表現するために
実行される。また、後処理は、キャラクタ認識やデータ
圧縮等の追加処理に適用させることもできる。更に、後
処理において、テキストブロックは、他のテキストブロ
ックあるいは非テキストブロックを結合し、また、他の
非テキストブロックあるいはテキストブロックも結合す
る。
【0091】後処理は、ステップS627で獲得される
原稿ページの傾き角度に基づいて適用される。例えば、
原稿ページの欄の隙間がほんのわずかだけ傾いている原
稿ページは更に明瞭にされる。つまり、それらのブロッ
ク(欄)は積極的に結合される。一方、例えば、原稿ペ
ージの傾き角度が大きく、複数のブロックの長方形領域
が重なっている場合、それらのブロックはより控えめに
結合される。特に、原稿ページの傾き角度が小さい程、
テキストブロックはそのテキストブロックの一部の領域
に基づいて解析された欄情報に従って結合される。テキ
ストブロックの結合は、基本的には同じ欄に含むテキス
トブロックであるかどうかに依存する。つまり。例え
ば、それらのテキストブロックが互いに接近している
か、それらのテキストブロックの方向が一定であるか、
それらのテキストブロックの結合が他のテキストブロッ
クとの重なりを生じるか等によって結合の実行の有無を
決定する。
【0092】一方、非テキストブロックの結合は非テキ
スト成分を含む主要な複数の非テキストブロックの部分
に依存する。例えば、いくつかの図形は、いくつかの非
連結成分によって形成される。これらのいくつかの非連
結成分が同一の図形と判定されると、階層ツリー構造の
ダミーノードとして新たな合成領域が描画される。つま
り、この合成領域はすべての非連結成分を包含するため
に生成される。更に、いくつかのテキストブロックが、
同一図形として判定される場合、例えば、キャプション
のようなテキストブロックの場合、それらのキャプショ
ンは合成領域として生成される。また、その合成領域は
図形とテキスト領域を包含するダミーノードとして階層
ツリー構造で用いられる。合成領域における処理の詳細
は、後述のステップS634で説明する。
【0093】後処理が実行されると、テキストブロッ
ク、線ブロック、図形ブロック、枠ブロック、非テキス
トブロック、合成領域ブロック、表ブロックのいずれか
のブロックに従う特定処理のための第1ブロック情報が
選択される。本実施の形態によれば、特定処理は図形あ
るいは合成領域のブロックに対して必要とし、それ以外
の他のブロックでは特定処理は行わない。何故なら、図
形あるいは合成領域以外の他のブロックは、ブロックセ
レクション処理によって必要とされる処理が完了するか
らである。図形と合成領域における特定処理について以
下に説明する。図11は、処理対象のブロックが図形情
報を持つ画像データとして認識された場合(ステップS
632)に、実行される特定処理の処理フロー示すフロ
ーチャートである。
【0094】ブロックセレクション処理によって、画像
データが図形情報を持つ画像データであると、その画像
データが、ハーフトーン、線画、折れ線等の図形タイプ
の認識を試みる。そのため、それらの図形ブロックは上
述のような認識ができないので、図11に示される特定
処理は、それらの図形ブロックを「未知図形」として表
現する。
【0095】ステップS1101で、特定処理を実行す
るための図形タイプのブロックが選択される。ステップ
S1102で、そのブロックの図形タイプの補助属性が
格納されている場合、選択された図形タイプのブロック
の特定処理が実行される(ステップS1102)。この
ように、「ハーフトーン」、「線画」、「折れ線」のい
ずれかの補助属性が格納されている場合(即ち、図10
に示されるような処理によって補助情報が格納されてい
る)、その図形タイプのブロックの特定処理は完了す
る。
【0096】一方、画像データが、ハーフトーン、線
画、折れ線のいずれかとして認識されない場合、そのブ
ロックの図形タイプは未知として認識され、「未知」で
ある補助属性をそのブロックに対応するノードに格納す
る(ステップS1104)。ステップS1104で、図
形情報を持つ画像データの特定処理を中断する。図13
は、処理対象のブロックが複数の画像データのタイプを
含む合成領域持つ画像データとして認識された場合(ス
テップS634)に、実行される特定処理の処理フロー
示すフローチャートである。
【0097】つまり、ブロックセレクション処理によっ
て、そのブロックは2つ以上の画像データのタイプを持
つ画像データのブロックとして認識される。本発明の実
施の形態によれば、複数の画像データのタイプを持つ画
像データの認識を行うために合成領域がブロックセレク
ション処理の処理過程に適用される。ステップS130
1で、ブロックの中に同一タイプの画像データを持つブ
ロックが存在するか否かが判定される。例えば、図14
Aに示されるように、原稿ページ1300には、タイト
ル1301、テキスト領域1302、1303、図形領
域1305、1307、1309を含む。また、テキス
トキャプション1306も含んでいる。このような図1
4Aに示されるような原稿ページにおいて、ブロックセ
レクション処理を実行すると、図15Aに示されるよう
な階層ツリー構造を持つ、分割された各領域のブロック
が生成される。
【0098】また、図14Bに示すように、タイトル1
300とテキスト領域1302、1303、可視ブロッ
ク1319、1320、1321として扱われる。しか
しながら、テキストキャプション1306を持つ図形領
域1305、1307、1309は、2つ以上の画像デ
ータのタイプを持つ画像データである「合成領域」13
23としてグループ化される。
【0099】ステップS1301で、同一ブロックが存
在しないと認識された場合、ステップS1302に進
む。しかしながら、同一ブロックが認識された場合、ス
テップS1303に進み、そのブロックは「合成領域」
として認識され、合成領域ノードが階層ツリー構造に付
加される(ステップS1304)。ステップS1305
で、それぞれの同一ブロックに対し、それらのブロック
に対応する階層ツリー構造のノードの位置が変更され、
「合成領域」ノードの下に付加される。図15Bは、上
述の変更によって、合成領域ノード1323より分岐し
て生成されるテキスト1306、図形1305、130
7、1309のノードを示す図である。
【0100】再び、図6Cの説明に戻る。原稿ページの
階層ツリー構造が生成されると、ステップS640で、
ステップS605で格納された確保された階層ツリー構
造の記憶領域にその生成された階層ツリー構造が格納さ
れる。尚、各ブロックを表現するための最も簡単な方法
は長方形であり、時にはブロックは孤立する長方形領域
に存在しない。また、長方形のブロックの重なりが生じ
たりする。このブロックの重なりは、画像データのブロ
ックの抽出の際にユーザを混乱させてしまう。そのた
め、長方形の使用するために、各ブロックを表現するた
めに他の表現方法を提供する。他の表現方法は、連結成
分の輪郭検索によって行われる。但し、輪郭のデータは
簡潔化された連続する輪郭の組あるいは後述の連続する
重ならない各ブロックの長方形であるとする。このよう
に作られた輪郭は、ブロックの中に2つ以上の連結成分
が存在する場合のそのすべてを含む連結成分から生成さ
れる。この方法は、連続する輪郭の組あるいは連続する
重ならない長方形によって簡潔に、各ブロックを表現す
ることができる。このような簡潔にブロックを表現する
方法に基づいて、各ブロックの画像データは、各輪郭の
組あるいは長方形の領域より直接抽出することができ
る。
【0101】ステップS641で、ブロックセレクショ
ン処理プログラムはユーザに対し次の原稿ページの解析
を行うか否かを要求する。入力された原稿ページがない
場合、ステップS642で、ブロックセレクション処理
を中断する。一方、次の原稿ページの解析の指示がユー
ザからある場合、ステップS643で、階層ツリー構造
の格納するために割り当てられた記憶領域に、充分な次
の原稿ページの階層ツリー構造を格納する領域があるか
否かを判定する。
【0102】階層ツリー構造の格納するために割り当て
られた記憶領域に、充分な次の原稿ページの階層ツリー
構造を格納する記憶領域がある場合、ステップS603
に戻って、次の原稿ページのブロックセレクション処理
を実行する。一方、階層ツリー構造の格納するために割
り当てられた記憶領域に、充分な次の原稿ページの階層
ツリー構造を格納する記憶領域がない場合、ステップS
646で、エラーコードがユーザに対して出力される。
【0103】以上説明したように、本実施の形態によれ
ば、ブロックセレクション処理プログラムは、入力した
原稿の有無に応じて処理を自動的に中断したり、階層ツ
リー構造の格納するために割り当てられた記憶領域に、
充分な次の原稿ページの階層ツリー構造を格納する記憶
領域がある場合、次の原稿ページの階層ツリー構造を格
納する記憶領域を割り当てることができる。
【0104】尚、光学的文字認識(OCR)は、上述の
ブロックセレクション処理による出力を得るための、テ
キストブロックを読み取るために必要なアプリケーショ
ンとして限定されない。原稿の画像データを得ることの
できる他のアプリケーションを用いて、例えば、原稿の
格納と伝送、ブロックの認識と実行、原稿認識、原稿検
索等のブロックセレクション処理を実行しても良い。
【0105】例えば、ブロックセレクション処理を使用
する際に、より効率的に原稿の格納と伝送を実現するた
めに、複数の画像データの圧縮方法を用いることでそれ
が実現できる。このように、例えば、テキストブロック
は2値圧縮によって格納し、図形ブロックは、複数レベ
ルの図形圧縮によって格納することができる。また、ブ
ロックの認識と実行は、ある形と他の形を区別するため
に各形に特定点を配置する必要をなくすためにブロック
セレクション処理が生成される。ブロックセレクション
処理を用いることで、ブロックの認識と実行は、上述の
ようなより一般的な方法で実行され、ブロックセレクシ
ョン処理後、階層ツリー構造によって表現される。その
階層ツリー構造は、新たな階層ツリー構造が存在する毎
に、その内容が更新される階層ツリー構造の辞書を比較
することによって認識される。
【0106】また、原稿の認識は論理的な解析によって
実行される。基本的には、原稿認識は、所定の規則に従
って原稿の1ページ分の画像データに分類する。そのた
め、ブロックセレクション処理の階層的な特徴により、
ページ単位の物理的な解析を手伝うために原稿の構造的
な基礎が獲得される。また、原稿の検索と格納は、上述
のブロックセレクション処理に最大限使用することがで
きる。ブロックセレクション処理を用いることで、原稿
1ページ分の画像データは、上述の図3に示されるよう
な形式で、その原稿画像よりもむしろ複数のブロックで
表示される。その結果、ユーザは原稿に対するブロック
の形式を一瞥することで、原稿の構成で必要とされるか
否かについての視覚的な見当を与えるレイアウト情報を
獲得することができる。そのため、ユーザは予め設定さ
れている原稿の形式やある特定の要求の基づいて、テキ
ストあるいは非テキストブロックの情報を獲得すること
ができる。例えば、図16に示されるような標準ビジネ
スメモには、「To」領域、「From」領域、「CC」(カー
ボンコピー)領域のようなメモから構成されている。図
3の原稿において、各ブロックに対して特定の処理を指
示する方法として、このビジネスメモを用いると、ユー
ザは、「3番目の線」に「CC」を指示するというよう
な、各ブロックの位置情報に基づいく要求の仕方が可能
である。尚、本実施の形態では、ブロックの位置の情報
によって処理対象のブロックを特定しているが、これに
限定されず様々なブロックを特定できる情報によってブ
ロックを特定しても良い。例えば、ユーザは、「3番目
の線」と指示するかわりに、「原稿を半分にした時の、
その原稿の上部の最終線よりも上に位置する水平線」と
いうような特定方法で、対象とするブロックに「CC」を
指示することができる。このように、ユーザによるブロ
ックの特定は、自動的にブロックを抽出できる領域とし
て解釈される。
【0107】尚、本発明は好適な施の形態について説明
されたが、本発明は開示された実施の形態に限定される
ものではないことが理解されるべきである。逆に、発明
の精神と範囲内に含まれる、様々な修正や同等の変形が
可能であるよう意図されている。特許請求に範囲の記載
は、そうして修正及び同等の構成及び機能の全てに渡る
ように解釈が与えられるものである。
【0108】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって実施される場合にも適用で
きることは言うまでもない。この場合、本発明に係るプ
ログラムを格納した記憶媒体が、本発明を構成すること
になる。そして、該記憶媒体からそのプログラムをシス
テム或は装置に読み出すことによって、そのシステム或
は装置が、予め定められた仕方で動作する。
【0109】
【発明の効果】以上の説明からも明らかなように、本発
明によれば、 ブロックセレクション処理の処理対象で
ある原稿のデータ量と歪みを監視することで、処理精度
が向上するブロックセレクション処理を実行できるペー
ジ解析システムを提供できる。
【図面の簡単な説明】
【図1】原稿ページの一例を示す図である。
【図2】図1の原稿ページに関して、ブロックセレクシ
ョン処理の処理結果より得られる階層ツリー構造の一例
を示す図である。
【図3】図2の階層ツリー構造に基づいて生成される原
稿ページの表示例を示す図である。
【図4】本発明を適用する実施の形態の装置の外観図で
ある。
【図5】図5の装置の構成を示すブロック図である。
【図6A】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。
【図6B】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。
【図6C】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。
【図6D】本発明のブロックセレクション処理において
生成されるページ解析システムの処理フローを示すフロ
ーチャートである。
【図7A】入力原稿ページも一部分の領域の解析方法の
処理フローを示すフローチャートである。
【図7B】解析された原稿の各領域の一例を示す図であ
る。
【図8】解析対象のピクセル画像データを格納する記憶
領域の割当方法を説明するための図である。
【図9A】連結成分の8方向検索を示す図である。
【図9B】白輪郭の4方向検索を示す図である。
【図10】非テキスト連結成分の区別の処理フローを示
すフローチャートである。
【図11】図形ブロックの図形タイプの判定方法の処理
フローを示すフローチャートである。
【図12A】折れ線を含む原稿ページの一例を示す図で
ある。
【図12B】折れ線を含む原稿ページの一例を示す図で
ある。
【図12C】折れ線の一例を示す図である。
【図12D】折れ線の一例を示す図である。
【図13】合成領域の処理方法の処理フローを示す図で
ある。
【図14A】合成領域を含む原稿ページの一例を示す図
である。
【図14B】合成領域の含む原稿ページの一例を示す図
である。
【図15A】図14Aの原稿ページの階層ツリー構造を
示す図である。
【図15B】図14Bの原稿ページの階層ツリー構造を
示す図である。
【図16】原稿からテキストを抽出するための標準的な
メニューの一例を示す図である。
【符号の説明】
520 CPU 521 コンピュータバス 522 スキャナインタフェース 523 プリンタインタフェース 524 ネットワークインタフェース 526 FAX/モデムインタフェース 527 ディスプレイインタフェース 528 キーボードインタフェース 529 マウスインタフェース 530 メインメモリ

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 複数ページの画像データを解析するため
    のページ解析システムにおいて、該システムは、ブロッ
    クセレクション処理プログラムに従う処理を実行するた
    めに、複数ページの原稿の1ページ分の画像データを読
    み込み格納する第1記憶領域と、第1記憶領域に格納さ
    れた画像データに対して実行されたブロックセレクショ
    ン処理の処理結果を格納する第2記憶領域とを備え、該
    システムにおける記憶容量不足の指示の出力を行う出力
    方法であって、 前記第1記憶領域に、1ページ分の入力画像データを格
    納する記憶領域と前記入力画像データのブロックセレク
    ション処理を実行するための記憶領域を割り当てる第1
    割当工程と、 前記第2記憶領域に、ブロックセレクション処理の複数
    の処理結果を格納するための記憶領域を割り当てる第2
    割当工程と、 前記複数ページの原稿の解析されるべき1ページ分の画
    像データが、前記第1記憶領域に割り当てられた記憶領
    域の記憶容量を越える場合に第1エラーコードを出力
    し、前記第2記憶領域に格納されたブロックセレクショ
    ン処理の処理結果を利用するための記憶領域を増やすこ
    とができない場合に第2エラーコードを出力する出力工
    程とを備えることを特徴とする出力方法。
  2. 【請求項2】 前記ブロックセレクション処理の処理結
    果が格納される前記第2記憶領域は、階層ツリー構造を
    含むことを特徴とする請求項1に記載の出力方法。
  3. 【請求項3】 原稿1ページ分の画像データを解析する
    ページ解析システムにおいて、前記原稿の少なくとも1
    つの領域を選択する選択方法であって、 原稿1ページ分の画像データを入力する入力工程と、 前記画像データを用いて前記原稿ページを表示する表示
    工程と、 座標指定手段を用いて、解析すべき前記原稿ページの少
    なくとも1つの領域の座標を指定する指定工程と、 前記指定工程で指定された前記原稿ページの少なくとも
    1つの領域内の画像データを抽出する抽出工程と、 前記少なくとも1つの領域内の画像データを解析するた
    めに前記少なくとも1つの領域に対してブロックセレク
    ション処理を実行する実行工程とを備えることを特徴と
    する選択方法。
  4. 【請求項4】 原稿1ページ分の画像データを解析する
    ページ解析システムにおいて、前記原稿を解析するため
    に少なくとも1つの方向を指定する指定方法であって、 原稿1ページ分の画像データを入力する入力工程と、 前記画像データの方向情報を獲得する獲得工程と、 前記方向情報が獲得されたか否かを判定する判定工程
    と、 前記原稿を解析する解析工程を備え、 前記方向情報が獲得された場合、前記解析工程は該方向
    情報によって指定される方向を用いて解析し、 前記方向情報が獲得されない場合、前記解析工程は予め
    設定されている所定方向を用いて解析することを特徴と
    する指定方法。
  5. 【請求項5】 前記所定方向は、水平方向と垂直方向が
    混合された方向であることを特徴とする請求項4に記載
    の指定方法。
  6. 【請求項6】 原稿1ページ分の画像データを解析し、
    ブロックセレクション処理によって解析された1つのル
    ートノードと該ルートノードの子孫ノードを含む階層ツ
    リー構造を生成するページ解析システムにおいて、前記
    原稿ページの傾き角度を獲得する獲得方法であって、 前記原稿ページの画像データを入力する入力工程と、 前記画像データに対し、前記画像データの傾き角度の算
    出を含むブロックセレクション処理を開始する開始工程
    と、 前記算出された傾き角度と所定最大傾き角度を比較する
    比較工程と、 前記算出された傾き角度が前記所定最大傾き角度よりも
    大きいか否かを判定する判定工程と、 前記傾き角度が前記所定最大傾き角度を越えない場合、
    前記画像データのブロックセレクション処理を完了する
    完了工程と、 前記傾き角度が前記所定最大傾き角度を越える場合、ブ
    ロックセレクション処理を中断する中断工程とを備える
    ことを特徴とする獲得方法。
  7. 【請求項7】 前記傾き角度は、前記階層ツリー構造の
    ルートノードに格納されることを特徴とする請求項6に
    記載の獲得方法。
  8. 【請求項8】 複数ページの画像データを解析するため
    のページ解析システムにおいて、該システムは、ブロッ
    クセレクション処理プログラムに従う処理を実行するた
    めに、複数ページの原稿の1ページ分の画像データを読
    み込み格納する第1記憶領域と、第1記憶領域に格納さ
    れた画像データに対して実行されたブロックセレクショ
    ン処理の処理結果を格納する第2記憶領域を備え、該シ
    ステムにおける記憶容量不足の指示の出力を行う出力装
    置であって、 前記第1記憶領域に、1ページ分の入力画像データを格
    納する記憶領域と前記入力画像データのブロックセレク
    ション処理を実行するための記憶領域を割り当て、前記
    第2記憶領域において、ブロックセレクション処理の複
    数の処理結果を格納するための記憶領域を割り当てる割
    当手段と、 前記複数ページの原稿の解析されるべき1ページ分の画
    像データが、前記第1割当手段に割り当てられた記憶領
    域の記憶容量を越える場合に第1エラーコードを出力
    し、前記第2記憶領域に格納されたブロックセレクショ
    ン処理の処理結果を利用するための記憶領域を増やすこ
    とができない場合に第2エラーコードを出力する出力手
    段とを備えることを特徴とする出力装置。
  9. 【請求項9】 前記ブロックセレクション処理の処理結
    果が格納される前記第2記憶領域は、階層ツリー構造を
    含むことを特徴とする請求項8に記載の出力装置。
  10. 【請求項10】 原稿1ページ分の画像データを解析す
    るページ解析システムにおいて、前記原稿ページの少な
    くとも1つの領域を選択する選択装置であって、 原稿1ページ分の画像データを入力する入力手段と、 前記画像データを用いて前記原稿ページを表示する表示
    手段と、 解析すべき前記原稿ページの少なくとも1つの領域の座
    標を指定する座標指定手段と、 前記座標指定手段で指定された前記原稿ページの少なく
    とも1つの領域内の画像データを抽出する画像データ抽
    出手段と、 前記領域内の画像データを解析するために前記少なくと
    も1つの領域に対してブロックセレクション処理を実行
    する実行手段とを備えることを特徴とする選択装置。
  11. 【請求項11】 原稿1ページ分の画像データを解析す
    るページ解析システムにおいて、前記原稿ページを解析
    するために少なくとも1つの方向を指定する指定装置で
    あって、 原稿1ページ分の画像データを入力する入力手段と、 前記画像データの方向情報を獲得する獲得手段と、 前記方向情報が獲得されたか否かを判定する判定手段
    と、 前記原稿ページを解析する解析手段とを備え、 前記方向情報が獲得された場合、前記解析手段は該方向
    情報によって指定された方向を用いて解析し、 前記方向情報が獲得されない場合、前記解析手段は予め
    設定されている所定方向を用いて解析することを特徴と
    する指定装置。
  12. 【請求項12】 前記所定方向は、水平方向と垂直方向
    が混合された方向であることを特徴とする請求項11に
    記載の指定装置。
  13. 【請求項13】 原稿1ページ分の画像データを解析
    し、ブロックセレクション処理によって前記原稿ページ
    の1つのルートノードと該ルートノードの少なくとも1
    つの子孫ノードを含む階層ツリー構造を生成するページ
    解析システムにおいて、前記原稿ページの傾き角度を獲
    得する獲得装置であって、 前記原稿ページの画像データを入力する入力手段と、 算出された傾き角度と所定最大傾き角度を比較する比較
    手段と、 前記算出された傾き角度が前記所定最大傾き角度よりも
    大きいか否かを判定する判定手段と、 入力された原稿ページの前記画像データに対して、傾き
    角度の算出を含むブロックセレクション処理を実行する
    ブロックセレクション処理手段とを備え、 前記ブロックセレクション処理手段は、ブロックセレク
    ション処理を開始し、算出された傾き角度と所定最大傾
    き角度を比較するように前記比較手段を用い、前記算出
    された傾き角度が前記所定最大傾き角度を越えない場
    合、ブロックセレクション処理を完了させることを特徴
    とする獲得装置。
  14. 【請求項14】 前記傾き角度は、前記階層ツリー構造
    のルートノードに格納されることを特徴とする請求項1
    3に記載の獲得装置。
  15. 【請求項15】 複数ページの原稿の画像データを解析
    するためのページ解析システムにおいて、ブロックセレ
    クション処理プログラムによって解析されたページの階
    層ツリー構造が生成され、前記階層ツリー構造は1つの
    ルートノードと該ルートノードの少なくとも1つの子孫
    ノードを含み、前記複数ページの原稿1ページの画像デ
    ータの合成領域を指示する指示方法であって、 前記複数ページの1ページ分の画像データを入力する入
    力工程と、 前記画像データを識別し、同じタイプの画像データを有
    するブロックを認識へ分けるようにブロックセレクショ
    ン処理を準備する準備工程と、 同じタイプの画像データのブロックを他に持つ少なくと
    も1つのブロックを認識する認識工程と、 前記同じタイプの画像データを持つ複数のブロックを1
    つの合成ブロックに結合する結合工程と、 前記合成ブロックを、前記複数のブロックに対応する子
    孫ノードを持つルートノードとして前記階層ツリー構造
    に定時する定時工程とを備えることを特徴とする指示方
    法。
  16. 【請求項16】 複数ページの原稿の画像データを解析
    するためのページ解析システムにおいて、前記原稿ペー
    ジを解析するための階層ツリー構造と、前記階層ツリー
    構造は1つのルートノードと該ルートノードの少なくと
    も1つの子孫ノードを含み、前記複数ページの原稿1ペ
    ージの画像データの合成領域を指示する指示装置であっ
    て、 前記複数ページの1ページ分の画像データを入力する入
    力手段と、 前記画像データを識別し、同じタイプの画像データを有
    するブロックへ分けるブロックセレクション処理手段
    と、 同じタイプの画像データのブロックを他に持つ少なくと
    も1つのブロックを認識する認識手段と、 前記同じタイプの画像データを持つ複数のブロックを1
    つの合成ブロックに結合する結合手段と、 前記合成ブロックを、前記複数のブロックに対応する子
    孫ノードを持つルートノードとして前記階層ツリー構造
    を変更する変更手段とを備えることを特徴とする指示方
    法。
  17. 【請求項17】 1ページ分の原稿の画像データのブロ
    ックテンプレートに従って階層ツリー構造を生成するペ
    ージ解析システムにおいて、前記階層ツリー構造は複数
    のノードを持ち、各ノードは原稿画像のブロックテンプ
    レートにおける表されるブロック毎の画像データに対応
    しており、また、各ノードには前記原稿画像のブロック
    テンプレートの特徴を定義する特徴データが含まれ、該
    システムにおいて図形タイプの指示及び認識方法であっ
    て、 複数ページの原稿の1ページ分の画像データを入力する
    入力工程と、 前記画像データを識別し同じ画像タイプのブロック毎に
    分割するブロックセレクション処理を実行する実行工程
    と、 図形情報を含む画像データのブロックを認識する認識工
    程と、 前記ブロックに含まれる図形情報のタイプを判定する判
    定工程と、 前記判定工程は、図形情報がハーフトーン、線画、折れ
    線、未知のいずれかを判定し、 前記判定工程で判定される図形のタイプを、前記ブロッ
    クに対応する前記階層ツリー構造のノードに格納する格
    納工程とを備えることを特徴とする指示及び認識方法。
  18. 【請求項18】 1ページ分の原稿の画像データのブロ
    ックテンプレートに従って階層ツリー構造を生成するペ
    ージ解析システムにおいて、前記階層ツリー構造は複数
    のノードを持ち、各ノードは原稿画像のブロックテンプ
    レートにおける表されるブロック毎の画像データに対応
    しており、また、各ノードには前記原稿画像のブロック
    テンプレートの特徴を定義する特徴データが含まれ、該
    システムにおいて図形タイプの指示及び認識装置であっ
    て、 複数ページの原稿の1ページ分の画像データを入力する
    入力手段と、 前記画像データを識別し同じ画像タイプのブロック毎に
    分割し、分割されたブロックを認識するブロックセレク
    ション処理と、 図形情報を含む画像データのブロックを認識する認識手
    段と、 前記ブロックに含まれる図形情報のタイプを判定する判
    定手段と、 前記判定手段は、図形情報がハーフトーン、線画、折れ
    線、未知のいずれかを判定し、 前記判定手段で判定される図形のタイプを、前記ブロッ
    クに対応する前記階層ツリー構造のノードに格納する格
    納手段とを備えることを特徴とする指示及び認識装置。
JP29312395A 1994-11-10 1995-11-10 ページ解析システム Expired - Lifetime JP3825820B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/338,781 US5987171A (en) 1994-11-10 1994-11-10 Page analysis system
US08/338781 1994-11-10

Publications (2)

Publication Number Publication Date
JPH08235349A true JPH08235349A (ja) 1996-09-13
JP3825820B2 JP3825820B2 (ja) 2006-09-27

Family

ID=23326144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29312395A Expired - Lifetime JP3825820B2 (ja) 1994-11-10 1995-11-10 ページ解析システム

Country Status (5)

Country Link
US (2) US5987171A (ja)
EP (2) EP0712088B1 (ja)
JP (1) JP3825820B2 (ja)
DE (1) DE69532847T2 (ja)
TW (1) TW277118B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298900B2 (en) 2002-09-30 2007-11-20 Canon Kabushiki Kaisha Image processing method, image processing apparatus and image processing program
JP2009271792A (ja) * 2008-05-08 2009-11-19 Canon Inc 画像処理装置およびその制御方法
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
JP2022108130A (ja) * 2021-01-12 2022-07-25 大日本印刷株式会社 情報処理装置及びコンピュータプログラム

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US5982937A (en) * 1996-12-24 1999-11-09 Electronics For Imaging, Inc. Apparatus and method for hybrid compression of raster data
US7019852B2 (en) * 1997-03-12 2006-03-28 Minolta Co., Ltd. Image forming apparatus capable of image formation in a plurality of modes
US7278098B1 (en) * 1997-04-09 2007-10-02 Adobe Systems Incorporated Method and apparatus for implementing web pages having smart tables
US6324302B1 (en) * 1997-05-30 2001-11-27 Ricoh Company, Ltd. Method and a system for substantially eliminating erroneously recognized non-solid lines
JP3884845B2 (ja) * 1997-11-18 2007-02-21 キヤノン株式会社 情報処理装置及び方法
JP4100746B2 (ja) * 1998-01-09 2008-06-11 キヤノン株式会社 画像処理装置及び方法
US6249592B1 (en) * 1998-05-22 2001-06-19 Xerox Corporation Multi-resolution neutral color detection
US6674901B1 (en) * 1999-04-21 2004-01-06 Hewlett-Packard Development Company, L.P. Document analysis system and method
US6747762B1 (en) * 1999-11-05 2004-06-08 Sharp Laboratories Of America, Inc. Method for optimizing compression of scanned data
EP1109124A3 (en) * 1999-12-17 2005-01-19 Matsushita Electric Industrial Co., Ltd. Method and apparatus for image data processing and computer program product used therein
US7603415B1 (en) * 2000-08-15 2009-10-13 ART Technology Group Classification of electronic messages using a hierarchy of rule sets
US6704467B2 (en) * 2000-12-21 2004-03-09 Canon Kabushiki Kaisha Image editing with block selection
US6807309B1 (en) * 2000-12-27 2004-10-19 Canon Kabushiki Kaisha Linear list compression
US7340676B2 (en) * 2000-12-29 2008-03-04 Eastman Kodak Company System and method for automatic layout of images in digital albums
JP3925112B2 (ja) * 2001-06-20 2007-06-06 富士ゼロックス株式会社 画像処理装置
US7457012B2 (en) * 2001-11-09 2008-11-25 Po-Hua Fang Detecting the alignment of a document in an automatic document feeder
DE10162559B4 (de) * 2001-12-19 2006-08-10 Siemens Ag Verfahren und Vorrichtung zur Unterdrückung von periodischen Störsignalen
ES2392113T3 (es) * 2002-01-16 2012-12-04 Vedanti Systems Limited Sistema y procedimiento para la transmisión optimizada de datos
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP4462819B2 (ja) * 2002-09-26 2010-05-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US20040066538A1 (en) * 2002-10-04 2004-04-08 Rozzi William A. Conversion of halftone bitmaps to continuous tone representations
US7251059B2 (en) * 2002-10-16 2007-07-31 Xerox Corporation System for distinguishing line patterns from halftone screens in image data
GB2400291A (en) * 2003-04-05 2004-10-06 Autodesk Canada Inc Image processing using switch nodes
JP4148011B2 (ja) * 2003-04-25 2008-09-10 セイコーエプソン株式会社 印刷ジョブ作成装置および印刷ジョブ作成方法並びにこれらに用いるプログラム
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7171618B2 (en) * 2003-07-30 2007-01-30 Xerox Corporation Multi-versioned documents and method for creation and use thereof
US7092551B2 (en) * 2003-07-30 2006-08-15 Xerox Corporation System and method for measuring and quantizing document quality
US7188310B2 (en) * 2003-10-09 2007-03-06 Hewlett-Packard Development Company, L.P. Automatic layout generation for photobooks
US7286718B2 (en) * 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
US7756871B2 (en) * 2004-10-13 2010-07-13 Hewlett-Packard Development Company, L.P. Article extraction
KR100694074B1 (ko) * 2004-12-16 2007-03-12 삼성전자주식회사 영상 처리장치 및 방법
US8245131B2 (en) * 2005-02-10 2012-08-14 Hewlett-Packard Development Company, L.P. Constraining layout variations for accommodating variable content in electronic documents
US7529408B2 (en) * 2005-02-23 2009-05-05 Ichannex Corporation System and method for electronically processing document images
US7680333B2 (en) * 2005-04-21 2010-03-16 Microsoft Corporation System and method for binary persistence format for a recognition result lattice
JP4671885B2 (ja) * 2005-06-01 2011-04-20 株式会社リコー 画像処理装置、プログラムおよび画像処理方法
US7555711B2 (en) * 2005-06-24 2009-06-30 Hewlett-Packard Development Company, L.P. Generating a text layout boundary from a text block in an electronic document
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8243325B2 (en) * 2005-07-08 2012-08-14 Xerox Corporation Method for prepress-time color match verification and correction
WO2007024216A1 (en) * 2005-08-23 2007-03-01 The Mazer Corporation Test scoring system and method
KR100654601B1 (ko) * 2005-10-06 2006-12-08 주식회사 휴맥스 통합 코덱 장치 및 방법
EP1785847B1 (en) * 2005-10-27 2015-11-18 Accenture Global Services Limited Display apparatus for automatically visualizing an application landscape
US7561722B2 (en) * 2005-12-14 2009-07-14 Xerox Corporation System and method for interactive document layout
US8509563B2 (en) 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8630498B2 (en) 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US7889932B2 (en) 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7792359B2 (en) 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US8437054B2 (en) * 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) * 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8208725B2 (en) * 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US9639531B2 (en) * 2008-04-09 2017-05-02 The Nielsen Company (Us), Llc Methods and apparatus to play and control playing of media in a web page
US20090276694A1 (en) * 2008-05-02 2009-11-05 Accupatent, Inc. System and Method for Document Display
US8023770B2 (en) 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8023741B2 (en) 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8682056B2 (en) * 2008-06-30 2014-03-25 Ncr Corporation Media identification
US8405652B1 (en) * 2008-09-09 2013-03-26 Adobe Systems Incorporated Three-dimensional visualization of a form
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US20100080411A1 (en) * 2008-09-29 2010-04-01 Alexandros Deliyannis Methods and apparatus to automatically crawl the internet using image analysis
US8473467B2 (en) * 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
JP5663866B2 (ja) * 2009-08-20 2015-02-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9020944B2 (en) * 2009-10-29 2015-04-28 International Business Machines Corporation Systems and methods for organizing documented processes
US8750624B2 (en) * 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
US8554021B2 (en) * 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints
US9111327B2 (en) 2011-01-18 2015-08-18 Apple Inc. Transforming graphic objects
US8442998B2 (en) 2011-01-18 2013-05-14 Apple Inc. Storage of a document using multiple representations
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US20120278336A1 (en) * 2011-04-29 2012-11-01 Malik Hassan H Representing information from documents
KR101429466B1 (ko) * 2012-11-19 2014-08-13 네이버 주식회사 동적 페이지 분할을 이용한 웹페이지 제공 방법 및 시스템
US9076058B2 (en) 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
US20140281980A1 (en) 2013-03-15 2014-09-18 Chad A. Hage Methods and Apparatus to Identify a Type of Media Presented by a Media Player
JP2015032050A (ja) * 2013-07-31 2015-02-16 株式会社東芝 表示制御装置、表示制御方法およびプログラム
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
US10043107B2 (en) * 2016-06-27 2018-08-07 International Business Machines Corporation On demand testing as a service for base text direction verification testing
US10628525B2 (en) * 2017-05-17 2020-04-21 International Business Machines Corporation Natural language processing of formatted documents
CN107689070B (zh) * 2017-08-31 2021-06-04 平安科技(深圳)有限公司 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN110197192B (zh) * 2018-02-26 2023-06-02 国际商业机器公司 自然语言处理、查询构建和分类
JP2021190900A (ja) * 2020-06-01 2021-12-13 キヤノン株式会社 画像読取装置
US11829701B1 (en) * 2022-06-30 2023-11-28 Accenture Global Solutions Limited Heuristics-based processing of electronic document contents

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251799A (en) * 1979-03-30 1981-02-17 International Business Machines Corporation Optical character recognition using baseline information
US4761818A (en) * 1983-04-08 1988-08-02 Canon Kabushiki Kaisha Image processing apparatus
JPS63109591A (ja) * 1986-10-27 1988-05-14 Sharp Corp 光学的文字読取装置
JPS63116569A (ja) * 1986-11-04 1988-05-20 Canon Inc 画像処理システム
JPH01183784A (ja) * 1988-01-19 1989-07-21 Toshiba Corp 文書画像処理装置
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
EP0358815B1 (en) * 1988-09-12 1993-05-26 Océ-Nederland B.V. System and method for automatic segmentation
US5086346A (en) * 1989-02-08 1992-02-04 Ricoh Company, Ltd. Image processing apparatus having area designation function
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods
US5359677A (en) * 1990-12-11 1994-10-25 Sharp Kabushiki Kaisha Image reader and facsimile machine using such image reader
JP3251959B2 (ja) * 1991-10-17 2002-01-28 株式会社リコー 画像形成装置
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5659639A (en) * 1993-11-24 1997-08-19 Xerox Corporation Analyzing an image showing editing marks to obtain category of editing operation
US5588072A (en) 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298900B2 (en) 2002-09-30 2007-11-20 Canon Kabushiki Kaisha Image processing method, image processing apparatus and image processing program
US8155445B2 (en) 2002-09-30 2012-04-10 Canon Kabushiki Kaisha Image processing apparatus, method, and processing program for image inversion with tree structure
JP2009271792A (ja) * 2008-05-08 2009-11-19 Canon Inc 画像処理装置およびその制御方法
US8818110B2 (en) 2008-05-08 2014-08-26 Canon Kabushiki Kaisha Image processing apparatus that groups object images based on object attribute, and method for controlling the same
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
JP2022108130A (ja) * 2021-01-12 2022-07-25 大日本印刷株式会社 情報処理装置及びコンピュータプログラム

Also Published As

Publication number Publication date
EP0712088B1 (en) 2004-04-07
EP0712088A3 (en) 1998-01-07
JP3825820B2 (ja) 2006-09-27
EP1296278A2 (en) 2003-03-26
DE69532847D1 (de) 2004-05-13
US6014458A (en) 2000-01-11
EP1296278A3 (en) 2003-04-02
EP0712088A2 (en) 1996-05-15
TW277118B (ja) 1996-06-01
US5987171A (en) 1999-11-16
DE69532847T2 (de) 2005-03-17

Similar Documents

Publication Publication Date Title
JP3825820B2 (ja) ページ解析システム
US6173073B1 (en) System for analyzing table images
US6043823A (en) Document processing system which can selectively extract and process regions of a document
JP3869875B2 (ja) ブロックセレクション処理の検証及び編集システム
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
EP0660256B1 (en) Method and apparatus for selecting text and/or non-text blocks in a stored document
EP0758775B1 (en) Feature extraction system
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
JP3805005B2 (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
JP4966077B2 (ja) 画像処理装置及びその制御方法
JPH08212298A (ja) 文書方向自動判別装置、及び文書方向自動補正装置
EP1017011A2 (en) Block selection of table features
JP4077904B2 (ja) 情報処理装置およびその方法
JPH10508127A (ja) テキストのビットマップ・イメージからテキストの部分を自動的に指定する方法及び装置
CN120471022A (zh) 文件转换方法、装置、设备及程序产品
JP2007049388A (ja) 画像処理装置及びその制御方法、プログラム
JP3943614B2 (ja) 文書ページを解析するアプリケーションプログラム生成方法及び装置
JPH0969136A (ja) 文書方向判定方法及び装置及び文字認識装置、及びコンピュータ制御装置
JP3187895B2 (ja) 文字領域抽出方法
US10922538B2 (en) Information processing apparatus that determines whether a PDF file is searchable, and method and storage medium thereof
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2010130214A (ja) 画像処理装置、画像処理方法、及びプログラム
US8059138B2 (en) Image processing and arranging system, image processing and arranging method, and computer readable medium for image processing and arranging
JP4974367B2 (ja) 領域分割方法及び装置、並びにプログラム
JP2019195117A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060703

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130707

Year of fee payment: 7

EXPY Cancellation because of completion of term