JP2000293671A - 画像処理方法、装置及び記憶媒体 - Google Patents

画像処理方法、装置及び記憶媒体

Info

Publication number
JP2000293671A
JP2000293671A JP11101973A JP10197399A JP2000293671A JP 2000293671 A JP2000293671 A JP 2000293671A JP 11101973 A JP11101973 A JP 11101973A JP 10197399 A JP10197399 A JP 10197399A JP 2000293671 A JP2000293671 A JP 2000293671A
Authority
JP
Japan
Prior art keywords
area
image processing
image
text
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11101973A
Other languages
English (en)
Inventor
Shigeo Nara
茂雄 奈良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP11101973A priority Critical patent/JP2000293671A/ja
Publication of JP2000293671A publication Critical patent/JP2000293671A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 スキャナより入力した画像を解析して、その
後自在に編集可能な情報に変換する。 【解決手段】 入力画像の画像特徴から複数の領域に分
割して各領域の位置及びサイズ、或は文字画像の位置、
文字画像の認識結果を含むデータを導出し(ステップ1
1−2)、その中の本分領域から本文書式を作成する
(ステップ11−4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力した画像を解
析して文書編集に用い得る情報を取得する技術に関する
ものである。
【0002】本発明は、画像からテキストへの変換に関
する技術である。
【0003】
【従来の技術】近年、画像読み取り装置、OCR(光学
的文字認識。Optical Character R
ecognition)などの普及により、紙の原稿か
ら文字を読み取って文字コード化して文書ファイルを作
成し、さらにその文書ファイルを編集するという機会が
増えてきた。
【0004】
【発明が解決しようとしている課題】しかし、画像読み
取り装置から読み込まれた画像データが、領域分割さ
れ、OCRされて作成された文書ファイルは、 分割された領域が、それぞれ枠に変換されてしまって
いる。 枠と枠の間で、文書としてのつながりがない。 というものであった。従って、編集を行う際には、各領
域単位に領域内のみで編集を行わなければならず、非常
に効率が悪かった。
【0005】
【課題を解決するための手段】上記課題を解決する為
に、本発明は、入力した画像情報から文字列領域を抽出
し、前記抽出した文字列領域のレイアウト情報に従っ
て、当該文字列領域が本文の文字列領域であるか否かを
判断する画像処理方法、装置及び記憶媒体を提供する。
【0006】上記課題を解決する為に、本発明は、好ま
しくは前記本文の文字列領域であると判断された領域
と、本文の文字列領域でないと判断された領域とを区別
して記憶する。
【0007】上記課題を解決する為に、本発明は、好ま
しくは前記記憶は、各領域から抽出した特徴情報を記憶
する。
【0008】上記課題を解決する為に、本発明は、好ま
しくは前記記憶は、各々を識別し得る識別情報を付加し
て記憶する。
【0009】上記課題を解決する為に、本発明は、好ま
しくは前記文字列領域のレイアウト情報は、異なる領域
との位置関係とする。
【0010】上記課題を解決する為に、本発明は、好ま
しくは前記文字列領域のレイアウト情報は、その文字列
領域に含まれる文字列の行数とする。
【0011】上記課題を解決する為に、本発明は、入力
した画像情報から複数の画像領域を抽出し、前記抽出し
た画像領域から、本文領域とそれ以外の領域とに分類
し、前記分類に従って第一の記憶領域と第二の記憶領域
に分けて各領域から抽出した情報を記憶する画像処理方
法、装置及び記憶媒体を提供する。
【0012】上記課題を解決する為に、本発明は、好ま
しくは前記画像情報はスキャナにより読み取った画像と
する。
【0013】上記課題を解決する為に、本発明は、好ま
しくは前記画像情報は回線を介して接続された他端末に
おいて入力した画像とする。
【0014】上記課題を解決する為に、本発明は、好ま
しくは前記画像情報は回線を介して接続された他端末に
おいてスキャナにより読み取られた画像とする。
【0015】上記課題を解決する為に、本発明は、入力
した画像情報を解析して文字の配列を定める書式を作成
し、前記作成された書式に従って、前記入力した画像情
報を認識して得た文字を配置する文書処理方法、装置及
び記憶媒体を提供する。
【0016】上記課題を解決する為に、本発明は、好ま
しくは前記解析する画像情報は、入力した画像から抽出
した本文文字列領域とする。
【0017】上記課題を解決する為に、本発明は、好ま
しくは前記解析する画像情報は、入力した画像情報を領
域分割して得た複数の領域のうちの一つの領域とする。
【0018】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、入力した画像から抽出した領域の中
の文字列の配置を定めるものとする。
【0019】上記課題を解決する為に、本発明は、好ま
しくは前記文字を配置した文書を表示画面に表示し、前
記表示画面上で編集を行なう。
【0020】上記課題を解決する為に、本発明は、好ま
しくは前記文字を配置した文書を表示画面に表示する。
【0021】上記課題を解決する為に、本発明は、好ま
しくは前記文字を配置した文書をプリンタにより印字す
る。
【0022】上記課題を解決する為に、本発明は、好ま
しくは前記配置する文字はフォントとする。
【0023】上記課題を解決する為に、本発明は、好ま
しくは前記文字を配置した文書を編集し、前記編集され
た文書を前記文字を配置した書式に従って再配列する。
【0024】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、段組情報を含む。
【0025】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、用紙サイズを含む。
【0026】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、余白情報を含む。
【0027】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、組み方向を含む。
【0028】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、文字サイズを含む。
【0029】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、1行あたりの文字数情報を含む。
【0030】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、1領域あたりの行数情報を含む。
【0031】上記課題を解決する為に、本発明は、好ま
しくは前記書式は、書体情報を含む。
【0032】上記課題を解決する為に、本発明は、入力
した画像情報から複数の画像領域を抽出し、前記抽出し
た複数の画像領域から枠領域を選択し、前記選択した枠
領域の画像情報から枠書式を作成する。
【0033】上記課題を解決する為に、本発明は、好ま
しくは前記枠領域は、他の領域に重ねて配置するものと
する。
【0034】上記課題を解決する為に、本発明は、好ま
しくは前記枠領域は、本文領域の文字の組方向と異なる
組方向のテキスト領域とする。
【0035】
【発明の実施の形態】図1は本発明に係る装置のシステ
ムブロック図である。
【0036】システムバス1は、後述する各構成間での
データの授受を可能にするものである。CPU(Cen
tral Processing Unit)2は、後
述するPMEM3に格納されている制御プログラムに従
って、本発明に係る各種処理を実行するものである。後
述するフローチャートに示す処理も、CPU2により実
行される。PMEM(メモリ)3は、本発明に係る各種
処理の制御プログラムを、適宜ハードディスク10から
選択して読み込み、格納するメモリである。後述するフ
ローチャートに示す処理の制御プログラムもこのPME
M3に格納される。また、PMEM3はテキストメモリ
としても機能し、キーボード12から入力されたテキスト
データや、外部記憶制御部8の制御により外部記憶媒体
9やハードディスク10から読み取ったテキストデータ
も格納する。通信制御部4は、通信ポート5における入
出力データの制御を行なう。通信ポート5は、通信制御
部4による制御の基、LANやWAN等の通信回線6を
介してネットワーク上の他の装置の通信ポート7と接続
し、データの送信及び受信を行なう。ネットワークに接
続されているプリンタへの印字データの送出や、同じく
ネットワークに接続されているスキャナからのデータの
入力も、この通信ポート5を介して行なう。
【0037】外部記憶制御部8は、データファイル用の
メモリ、例えばハードディスク(HD)10や本装置に
着脱可能な外部記憶媒体(例えばフロッピーディスクや
MO、CD−R等)9からのデータの読み込み及びデー
タの書きこみを制御する。入力制御部11は、キーボー
ド12やマウス13等の入力装置からのデータの入力を
せいぎょする。ここで、マウス13はCRT16の表示
画面上で指示される位置の座標を入力する座標入力手段
として機能するものであれば良く、タブレットやタッチ
パネル等であっても良い。更に、指示した座標位置で、
ボタンの押下やタップ等により、選択指示を可能とする
ものであれば良い。マウスを操作することによって、マ
ウスカーソルで表示される指示位置を所望の位置とし、
例えばコマンドメニュー上のコマンドアイコン上に位置
させて、ボタンを押下することによって、そのコマンド
アイコンで表されているコマンドを入力することもでき
る。また、編集対象の指示及び描画位置の指示もマウス
13により可能である。操作者はキーボード12を操作す
ることにより、文字コードの入力及び各種動作命令の入
力を行なう。
【0038】ビデオイメージメモリ(VRAM)14
は、例えばCRT等の表示器に表示する画像を保持する
メモリであり、表示出力制御部15の制御により、表示
データがビットマップデータに展開して書きこまれ、C
RT16に表示される。表示器は、CRTに限定するも
のではなく、液晶表示器であっても良い。プリンタ制御
部17は、接続されているプリンタ18に対するデータ
の出力制御を行なう。プリンタ18は、画像を印字する
手段として機能するものであって、LBP、インクジェ
ットプリンタ等である。画像入力機器制御部1Aは、接
続されている画像入力機器1Bの制御を行なう。画像入
力機器1Bは、載置した原稿を光学的に読みこむスキャ
ナであっても、或はフィルムスキャナであっても良い。
或は画像データを記憶したメモリから読み込む機能を実
行するものであっても良い。図1においては、プリンタ
制御部17とプリンタ18、及び画像入力機器1Bと画
像入力機器制御部1Aとを別の構成として記載したが、
これらは物理的に別々のコンポーネントであっても、一
つのコンポーネントであっても良いことは勿論である。
【0039】尚、本発明は、単体で構成される装置によ
り実現されても良いし、或はネットワークを介して接続
される複数の装置からなるシステムで構成されても良い
ことは勿論である。このネットワークのシステムの一例
を図28に示し、以下説明する。
【0040】図28は、プリンタをネットワークに接続
するためのネットワークボード(NB)101を、開放
型アーキテクチャをも持つプリンタ102へつなげた場
合のネットワークシステム構成図である。NB101は
ローカルエリアネットワーク(LAN)100へ、例え
ば同軸コネクタをもつEthernetインタフェース
10Base−2や、RJ−45を持つ10Base−
T等のLANインタフェースを介して接続されている。
【0041】PC103、PC104、PC111、P
C112やPC115等の複数のパーソナルコンピュー
タ(PC)がLANに接続されており、ネットワークオ
ペレーティングシステムの制御の下、これらのPCはN
B101と通信し、ネットワークに接続された各デバイ
スとして機能するようにすることができる。また、例え
ばPC103を、ネットワークデバイス管理用PCとし
て使用するように指定することができ、このPC103
によってプリンタ102やPC104にローカル接続さ
れたプリンタ105におけるプリント処理を制御しても
良い。
【0042】また、LAN100にファイルサーバPC
104を接続し、このPC104の表示画面上で入力さ
れた指示に応じてLAN100を介してファイルサーバ
106にアクセスし、大容量(例えば100億バイト)
のネットワークディスク107に記憶されたファイルか
らのデータの読み込み及びデータの書き込み、記憶を管
理する。ファイルサーバPC104は、ファイル管理部
として、LANメンバ間でデータのファイルの受信や、
記憶、キューイング、キャッシング、及び送信を行な
う。例えば、PC104自身やPC103によって作ら
れたデータファイルは、ファイルサーバPC104の制
御のもとファイルサーバ106へ送られ、ファイルサー
バ106はこれらのデータファイルを順に並べ、そして
プリントサーバ104からのコマンドに従って、並べら
れたデータファイルをプリンタ110へ送信する。
【0043】スキャナサーバ115は、ローカル接続さ
れたスキャナ117や、遠隔にあるスキャナ110を制
御して画像の入力を行なわせる。複写機118は、イメ
ージプロセッシングユニット119を介してLAN11
0につながり、ネットワーク110を介して接続される
PCの制御のもと、スキャナやプリンタとしても機能す
る。
【0044】またPC103とPC104はそれぞれ、
データファイルの生成や、生成したデータファイルのL
AN100への送信や、また、LAN100からのファ
イルの受信や、更にそのようなファイルの表示及び処理
を行なうことのできる通常のPCで構成される。尚、図
28ではパーソナルコンピュータ機器を図示したが、ネ
ットワークソフトウェアを実行するのに適切であるよう
な、他のコンピュータ機器であっても良い。通常、LA
N100やLAN110などのLANは、一つの建物内
の一つの階又は接続した複数の階でのユーザグループ等
の、幾分ローカルなユーザグループにサービスを提供す
るが、例えば、ユーザが他の建物や他県にいるなど、あ
るユーザが他のユーザから離れるに従って、ワイドエリ
アネットワーク(WAN)を作っても良い。WANは、
基本的には、いくつかのLANを高速度サービス総合デ
ジタルネットワーク(ISDN)電話線等の高速度デジ
タルラインで接続して形成された集合体である。従っ
て、図**に示すように、LAN100と、LAN110
と、LAN120とはバックボーン140を介して接続
されてWANを形成する。これらの接続は、数本のバス
による単純な電気的接続である。それぞれのLANは専
用のPCを含み、また、必ずしも必要なわけではない
が、通常はファイルサーバ及びプリントサーバを含む。
LAN100と、LAN110と、LAN120とに接
続されている機器は、WAN接続を介して、他のLAN
の機器の機能にアクセスすることができる。
【0045】図2は、装置(2−1)に画像入力機器1
Bの一例である画像読み取り装置(2−2)をつなげた
システムの斜視図である。
【0046】次に、後述する「本文領域と他の領域との
分別方法」に重要な役割を果たすファイル形式であるPA
F(Page Analysis Format)について説明する。
【0047】PAFとは、画像データをその画像データを
解析して得られる画像特徴に従い、同一の属性を有する
ひとかたまりの領域を一つの矩形として領域分割し、そ
の分割されたブロック(矩形領域)毎にデータ(ブロッ
ク領域を特定する為のデータと、そのブロックの画像の
特徴を表すデータとを含む)を保持する形式のファイル
フォーマットであり、ブロックの種類(テキストブロッ
ク、画像ブロック、ラインブロック、テーブルブロッ
ク)が異なれば、それぞれの種類に適した必要なデータ
を保持している。例えば、図3に示す画像データを画像
入力機器1Bから入力すると、図4に示すような領域分
割が行われる。例えば、4−1、4−2に示すようなテ
キストブロック(全てがテキストと判断されたブロッ
ク)、4−3に示すような画像ブロック、4−4に示す
ようなラインブロック、4−5に示すようなテーブルブ
ロック(表ブロック)等に領域分割され、各ブロックの
種類が判定される。
【0048】図5を用いて、PAFの構造を更に詳細に説
明する。このPAFのデータは、画像入力機器1Bから
入力した画像データをCPU2により解析してHD10
に格納されるものである。5−1がPAFの全体であっ
て、先頭に「ヘッダ」領域を持ち、次に「ブロック管理
データ」、そしてブロック管理データによって管理され
る「ブロック内データ」とメモリ領域が続く。5−2に
示すように、「ヘッダ」領域には、ファイル全体のファ
イルサイズ、ファイル全体から抽出されたブロックの総
数を表わすブロック保有数、そして読み込まれた画像
(イメージ)の幅/高さをピクセル数で保持し、さらに
どのようなDPI(dot/inch)サイズで読み込ま
れた画像データであったかも保持している。
【0049】「ブロック管理データ」領域には、各ブロ
ックごとにそのブロックの読み込まれたイメージにおけ
る位置を表わすレイアウト情報や、そのブロックの画像
の属性情報を格納する。即ち、PAFデータはヘッダ5
−1内のブロック数に相当する数のブロック管理データ
領域を有する。用紙左からの距離、用紙上からの距離、
及びそれぞれのブロックの領域の横/縦サイズをピクセ
ル数で保持し、さらにブロックがどのような種類のデー
タを保持しているかを示すテーブルも持っている。ここ
までがどの種類のブロックでも共通に格納しているデー
タであり、以降がブロックの種類によって異なる。例え
ば、5−3に示す「テキストブロック管理データ」の場
合は、ブロック内データの存在位置を示すオフセットを
持ち、さらにそのテキストの言語情報(ブロック内のテ
キストは、日本語主体なのか英語主体なのか)、テキス
トの組方向(横書きなのか縦書きなのか)を持ってい
る。5−4に示す「画像ブロック管理データ」の場合
は、ブロック内画像データの存在位置を示すオフセット
を持ち、5−5に示す「ラインブロック管理データ」の
場合は、ラインのスタートとエンド位置を示すそれぞれ
の(X、Y)ポジション、及びラインの種類や太さを示す
テーブルを持っている。
【0050】「ブロック内データ」領域は、それぞれの
ブロック内データの種類により異なっている。例えば
「テキストブロック内データ」領域の場合は、対応づけ
られているブロック解離データにより規定されているブ
ロックの画像データを文字認識した結果のテキストデー
タを格納する領域であって、文字コード列と、各文字画
像を抽出した時に得た文字や行等の配置を表わすレイア
ウト情報とを含むものである。5−6に示すように、先
頭にOCR管理データを持ち、次に1行目から最終行まで
の行情報領域、さらに1行目の先頭文字から最終行の最
終文字までの文字情報領域を保持している。OCR管理デ
ータ5−7は、ブロック内の全行数、平均された行間値
(それぞれの行間隔を足して、行間数で割ったもの)、
及びブロックの横/縦サイズをピクセル数で保持してい
る。行情報5−8は、各行ごとの文字のレイアウト情報
等を格納する領域であって、行内に存在する全文字数、
先頭文字までのインデント値、さらに平均された文字間
値(それぞれの文字間隔を足して、文字間数で割ったも
の)、及び行末に改行が存在しているか否かを示すフラ
グを保持している。この改行が存在しているか否かの判
定は、その行の末尾からブロック領域の端までの距離に
よって行なう。文字情報5−9は、それぞれの文字毎
に、その文字の文字画像を抽出した位置(ブロックの左
/上からの距離)、文字幅、文字高、フォントタイプ、
フォントスタイル、フォントサイズ、そしてOCRした結
果の文字コードを保持している。この結果の文字コード
は、認識処理時の類似度が最高のものを1つのみでも良
いし、或は複数の候補文字のコードであっても良い。
【0051】次に原稿を画像読み取り装置2−2から読
み込んだ画像データをどのように本文領域と他の領域と
に分別するかの処理を図11、図12、図13、図1
4、図15、図16のフローチャートに従って説明す
る。
【0052】まず、ステップ11−1において、画像読
み取り装置2−2から画像データを読み込む。さらにス
テップ11−2において、読み込んだ画像データをOCR
エンジンを用いてPAF(Page Analysis Format)に変換す
る。例えば、図6に示すような原稿を画像読み取り装置
2−2に載置して読み取った場合の画像データは、領域
分割が行われて図7に矩形枠で示すようなブロックが抽
出される。7−1、7−2、7−3、7−4、7−5に
示すブロックは、テキストブロック、即ち文字列のみを
含む領域であり、組方向は、横書きである。7−6に示
すブロックもテキストブロックであるが、組方向は縦書
きである。7−7、7−8に示すのが、ラインブロック
であると、領域分割処理において判定が行なわれ、図5
に示したようなPAFデータを作成してHD10に格納
される。
【0053】PAFに変換後、ステップ11−3におい
て、本文領域用のブロックと他の領域ブロックの分別処
理を行うために「本文用ブロックと他のブロックの分別
処理」を実行する。
【0054】図12に示すフローチャートは、「本文用
ブロックと他のブロックの分別処理」(ステップ11−
3)の詳細な処理を示すものである。ステップ12−1
において、まず全テキストブロックの全てのフォントサ
イズ(5−9に示す文字情報のフォントサイズ)を調査
し、最も数の多いフォントサイズを求め、HD10に最
多フォントサイズ情報としてそのフォントサイズを記憶
する。そして、ステップ12−2において、ヘッダ領域
用のテキストブロックを抽出するために「ヘッダ領域用
テキストブロックの抽出処理」を実行する。
【0055】図13に示すフローチャートが、「ヘッダ
領域用テキストブロックの抽出処理」(ステップ12−
2)の詳細な処理を示すものであり、ステップ13−1
において、PAF内のブロックのうち、Yポジション(5
−3に示す「テキストブロック管理データ」の用紙上か
らの距離)の最も小さなテキストブロックを取得する。
同じYポジションのテキストブロックが存在する場合
は、Xポジション(5−3に示す「テキストブロック管
理データ」の用紙左からの距離)の小さなブロックを取
得する。さらにステップ13−2において、そのテキス
トブロックの組方向(5−3に示す「テキストブロック
管理データ」の組方向)を調査し、横書きかどうかを判
断する。横書きでなかった場合は、ヘッダ領域用ブロッ
クではないと判断し、「ヘッダ領域用テキストブロック
の抽出処理」を終了する。横書きであった場合は、ステ
ップ13−3において、ブロック内の行数(5−7に示
すOCR管理データの行数)を調査し、1行のみのブロッ
クか否かを判断する。2行以上のブロックであった場合
は、ヘッダ領域用ブロックではないと判断し、「ヘッダ
領域用テキストブロックの抽出処理」を終了する。1行
のみのブロックであった場合は、ステップ13−4にお
いて、図12のステップ12−1で求め記憶した最多フ
ォントサイズと比較し、そのブロックの平均フォントサ
イズが、全テキストブロックの最多フォントサイズの
1.5倍以下かどうかを判断する。1.5倍以下でなか
った場合は、ヘッダ領域用ブロックではないと判断し、
「ヘッダ領域用テキストブロックの抽出処理」を終了す
る。1.5倍以下であった場合は、そのテキストブロッ
クは、ヘッダ領域用テキストブロックであると判断し、
HD10にヘッダ領域用テキストブロックとしてそのブ
ロックの識別情報を記憶する。これで、最初のヘッダ領
域用テキストブロック(ヘッダ領域用テキストブロック
の第1要素とする)が求められた。次にステップ13−
6において、Yポジション(5−3に示す「テキストブ
ロック管理データ」の用紙上からの距離)の次に小さな
テキストブロック(同じYポジションのブロックが存在
した場合は、Xポジションの小さなブロック)を取得
し、ステップ13−7において、そのブロックが、ステ
ップ13−5で記憶したテキストブロックの2行分の範
囲に存在しているブロックかを判断する。例えば、図8
の8−1に示すテキストブロックが、ヘッダ領域用テキ
ストブロックの第1要素であるとしてステップ13−5
で記憶された場合、その2行分の範囲とは、テキストブ
ロック8−1のブロック縦サイズ5−7を2倍したサイ
ズをテキストブロック8−1の用紙上からの距離5−4
を起点にして定めた範囲であって、8−2と8−3に示
す線分間の範囲である。従って、8−4に示すテキスト
ブロックは、範囲内であり、8−5に示すテキストブロ
ックは、範囲外となる。即ち、ステップ13−7では、
定めた範囲内にステップ13−6で取得したブロックが
完全に含まれるものを「範囲内である」と判定するもの
である。ステップ13−6において、取得したテキスト
ブロックが範囲外と判断された場合は、ヘッダ領域用の
テキストブロックであって、未判定のブロックはもう存
在しないと判断し、「ヘッダ領域用テキストブロックの
抽出処理」を終了する。ステップ13−7において、ヘ
ッダ領域用テキストブロックの第1要素の2行分の範囲
内と判断された場合は、ステップ13−8において、そ
のテキストブロックの組方向(5−3に示す「テキスト
ブロック管理データ」の組方向)を調査し、横書きかど
うかを判断する。横書きでなかった場合は、ヘッダ領域
用ブロックではないと判断し、再びステップ13−6に
戻り、次に対象となるテキストブロックを取得する。横
書きであった場合は、ステップ13−9において、ブロ
ック内の行数(5−7に示すOCR管理データの行数)を
調査し、1行のみのブロックかを判断する。2行以上の
ブロックであった場合は、ヘッダ領域用ブロックではな
いと判断し、再びステップ13−6に戻り、次に対象と
なるテキストブロックを取得する。1行のみのブロック
であった場合は、ステップ13−10において、ステッ
プ13−5にて記憶したヘッダ領域用テキストブロック
の平均フォントサイズと当テキストブロックの平均フォ
ントサイズを比較し、サイズの差が20%以内かどうか
を判断する。サイズの差が20%以内でなかった場合
は、再びステップ13−6に戻り、次に対象となるテキ
ストブロックを取得する。サイズの差が20%以内であ
った場合は、ステップ13−11において、そのテキス
トブロックをヘッダ領域用テキストブロックとして、H
D10にそのブロックの識別情報を記憶する。
【0056】上記処理により、1つあるいは複数のヘッ
ダ領域用テキストブロックが求められるヘッダ領域用テ
キストブロックの抽出処理(ステップ12−2)が完了
する。
【0057】次に図12のステップ12−3において、
フッタ領域用のテキストブロックを抽出するための「フ
ッタ領域用テキストブロックの抽出処理」を実行する。
【0058】図14に示すフローチャートが、「フッタ
領域用テキストブロックの抽出処理」(ステップ12−
3)の詳細な処理を示すものであり、ステップ14−1
において、PAF内のブロックのうち、Yポジション(5
−3に示す「テキストブロック管理データ」の用紙上か
らの距離)の最も大きなテキストブロックを取得する。
同じYポジションのテキストブロックが存在する場合
は、Xポジション(5−3に示す「テキストブロック管
理データ」の用紙左からの距離)の小さなブロックを取
得する。さらにステップ14−2において、そのテキス
トブロックの組方向(5−3に示す「テキストブロック
管理データ」の組方向)を調査し、横書きかどうかを判
断する。横書きでなかった場合は、フッタ領域用ブロッ
クではないと判断し、「フッタ領域用テキストブロック
の抽出処理」を終了する。横書きであった場合は、ステ
ップ14−3において、ブロック内の行数(5−7に示
すOCR管理データの行数)を調査し、1行のみのブロッ
クかを判断する。2行以上のブロックであった場合は、
フッタ領域用ブロックではないと判断し、「フッタ領域
用テキストブロックの抽出処理」を終了する。1行のみ
のブロックであった場合は、ステップ14−4におい
て、図12のステップ12−1で求め記憶した最多フォ
ントサイズと比較し、そのブロックの平均フォントサイ
ズが、全テキストブロックの最多フォントサイズの1.
5倍以下かどうかを判断する。1.5倍以下でなかった
場合は、フッタ領域用ブロックではないと判断し、「フ
ッタ領域用テキストブロックの抽出処理」を終了する。
1.5倍以下であった場合は、そのテキストブロック
は、フッタ領域用テキストブロックであると判断し、H
D10にフッタ領域用テキストブロックとしてそのブロ
ックの識別情報を記憶する。これで、最初のフッタ領域
用テキストブロック(フッタ領域用テキストブロックの
第1要素とする)が求められた。次にステップ14−6
において、Yポジション(5−3に示す「テキストブロ
ック管理データ」の用紙上からの距離)の次に大きなテ
キストブロック(同じYポジションのブロックが存在し
た場合は、Xポジションの小さなブロック)を取得す
る。ただし、ステップ14−1或は以前のステップ14
−6においてYポジションが同じで処理が保留されてい
るブロックがある場合は、そのブロックのを取得する。
ステップ14−7において、そのブロックが、ステップ
14−6で記憶したテキストブロックの2行分の範囲に
存在しているブロックかを判断する。この2行分の範囲
の求め方はステップ13−7に準ずるものであるが、範
囲を定める起点を第1の要素のブロックの用紙上からの
距離にブロック縦サイズを加算した距離とする点が異な
る。例えば、図8の8−6に示すテキストブロックが、
フッタ領域用テキストブロックの第1要素であった場
合、その2行分の範囲とは、8−7と8−8に示す線分
間である。従って、8−9、8−10に示すテキストブ
ロックは、範囲内であり、8−11に示すテキストブロ
ックは、範囲外となる。ステップ14−6において、取
得したテキストブロックが範囲外と判断された場合は、
フッタ領域用のテキストブロックであって、未判定のブ
ロックはもう存在しないと判断し、「フッタ領域用テキ
ストブロックの抽出処理」を終了する。ステップ14−
7において、フッタ領域用テキストブロックの第1要素
の2行分の範囲内と判断された場合は、ステップ14−
8において、そのテキストブロックの組方向(5−3に
示す「テキストブロック管理データ」の組方向)を調査
し、横書きかどうかを判断する。横書きでなかった場合
は、フッタ領域用ブロックではないと判断し、再びステ
ップ14−6に戻り、次に対象となるテキストブロック
を取得する。横書きであった場合は、ステップ14−9
において、ブロック内の行数(5−7に示すOCR管理デ
ータの行数)を調査し、1行のみのブロックか否かを判
断する。2行以上のブロックであった場合は、フッタ領
域用ブロックではないと判断し、再びステップ14−6
に戻り、次に対象となるテキストブロックを取得する。
1行のみのブロックであった場合は、ステップ14−1
0において、ステップ14−5にて記憶したフッタ領域
用テキストブロックの平均フォントサイズと当テキスト
ブロックの平均フォントサイズを比較し、サイズの差が
20%以内かどうかを判断する。サイズの差が20%以
内でなかった場合は、再びステップ14−6に戻り、次
に対象となるテキストブロックを取得する。サイズの差
が20%以内であった場合は、ステップ14−11にお
いて、そのテキストブロックをフッタ領域用テキストブ
ロックとして、HD10にそのブロックの識別情報を記
憶する。上記処理により、1つあるいは複数のフッタ領
域用テキストブロックが求めるフッタ領域用テキストブ
ロックの抽出処理(ステップ12−3)が完了する。
【0059】次に図12のステップ12−4において、
枠領域用のブロックを抽出するための「枠領域用ブロッ
クの抽出処理」を実行する。図15に示すフローチャー
トが、「枠領域用ブロックの抽出処理」(ステップ12
−4)の詳細な処理を示すものである。
【0060】ステップ15−1において、既に求めて記
憶したヘッダ領域用テキストブロック及びフッタ領域用
テキストブロック以外の全テキストブロックから、主と
なる組方向を求め、本文領域用の組方向とする。主とな
る組方向は、以下のようにして求める。ヘッダ領域用テ
キストブロック及びフッタ領域用テキストブロック以外
の全テキストブロックのそれぞれの面積(5−3に示す
テキストブロック管理データのブロック横/縦サイズか
ら求める)をそれぞれの組方向(5−3に示すテキスト
ブロック管理データの組方向)別に合計し、面積の大き
い方を主となる組方向とする。
【0061】次にステップ15−2において、PAF内の
ブロックのうち、既に求めて記憶したヘッダ領域用テキ
ストブロック及びフッタ領域用テキストブロック以外の
全テキストブロックの中で、Yポジション(5−3に示
す「テキストブロック管理データ」の用紙上からの距
離)の最も小さなブロックを取得する。同じYポジショ
ンのブロックが存在する場合は、Xポジション(5−
3、5−4、5−5に示す「ブロック管理データ」の用
紙左からの距離)の小さなブロックを取得する。もう該
当するブロックが存在しないのであれば、ステップ15
−3においてそれを判断し、「枠領域用ブロックの抽出
処理」を終了する。該当するブロックが存在する場合
は、ステップ15−4において、そのブロックの種類
(5−3、5−4、5−5に示す「ブロック管理デー
タ」のブロックの種類)が画像であるか否かを判定し、
画像ブロックであった場合は、ステップ15−5におい
て、画像枠として抽出してHD10にそのブロックの識
別情報と記憶する。画像ブロックでないと判定された場
合は、ステップ15−6において、さらにブロックの種
類(5−3、5−4、5−5に示す「ブロック管理デー
タ」のブロックの種類)がテーブルであるか否かを判定
し、テーブルブロックであった場合は、ステップ15−
7において、テーブル枠として抽出してHD10にその
ブロックの識別情報と記憶する。テーブルブロックでな
いと判定された場合は、ステップ15−8において、さ
らにブロックの種類(5−3、5−4、5−5に示す
「ブロック管理データ」のブロックの種類)がラインで
あるか否かを判定し、ラインブロックであった場合は、
ステップ15−9において、ラインデータとして抽出し
てHD10にそのブロックの識別情報と記憶する。ライ
ンブロックでないと判定された場合は、ステップ15−
10において、さらにブロックの種類(5−3、5−
4、5−5に示す「ブロック管理データ」のブロックの
種類)がテキストであるか否かを判定し、テキストブロ
ックであった場合は、ステップ15−11において、
「テキストブロックチェック処理」を実行する。
【0062】図16に示すフローチャートが「テキスト
ブロックチェック処理」(ステップ15−12)の詳細
な処理を示すものである。
【0063】ステップ16−1において、ブロック管理
データを用いてそのテキストブロックは、ヘッダ領域に
跨っているかどうかを判断し、跨っている場合は本文領
域になり得ないので、テキスト枠として抽出した旨をリ
ターンする(ステップ16−6)。ヘッダ領域に跨って
いない場合は、ステップ16−2において、フッタ領域
に跨っているかどうかを判断し、跨っている場合は、本
文領域になり得ないので、テキスト枠として抽出した旨
をリターンする(ステップ16−6)。フッタ領域にも
跨っていない場合は、ステップ16−3において、ステ
ップ15−1で求め記憶した組方向と当テキストブロッ
クの組方向とを比較し、異なっている場合は、本文領域
になり得ないので、テキスト枠として抽出した旨をリタ
ーンする(ステップ16−6)。同じ組方向であった場
合は、ステップ16−4において、そのテキストブロッ
クの最も多いフォントサイズが、ステップ12−1にお
いて求め記憶した全体のテキストブロックの最多フォン
トサイズの2倍以上かを判断し、2倍以上であった場合
は、テキスト枠として抽出した旨をリターンする(ステ
ップ16−6)。2倍以上でなかった場合は、本文領域
として抽出した旨をリターンする(ステップ16−
5)。
【0064】ステップ15−12において、「テキスト
ブロックチェック処理」におけるステップ16−5或は
ステップ16−6でリターンされたデータを判断し、テ
キスト枠である旨を示すデータならば、ステップ15−
13において、ステップ15−2で取得したテキストブ
ロックをテキスト枠として抽出してHD10にそのブロ
ックの識別情報と記憶する。
【0065】上記の処理により、各ブロックを分類して
本文領域用と他の領域用のブロックに分別した記憶が完
了し、図11のステップ11−4における、本文書式の
作成を開始する。
【0066】図12〜図16のフローチャートに沿って
説明してきた「本文領域と他の領域との分別処理」(ス
テップ11−3)を図6に示す画像データに対して実行
した場合の結果を具体的に説明する。
【0067】ステップ11−2において読み取った画像
データをOCRエンジンを用いてPAFに変換した結果の各ブ
ロック(図7)に対して「本文用ブロックと他のブロッ
クの分別処理」を実行すると、まずステップ12−2に
おいて、ヘッダ領域用テキストブロックとして、図7の
7−1、7−2に示すテキストブロックが分別される。
続いてステップ12−3において、フッタ領域用テキス
トブロックとして、図7の7−3、7−4、7−5に示
すテキストブロックが分別される。そして、ステップ1
2−4において、枠領域用ブロックとして、図7の7−
6に示すテキストブロック、7−7、7−8に示すライ
ンブロックが分別され、これらの分別されたブロック以
外の図9に示すテキストブロックが、本文領域用として
分別される。この結果、図9に示す18個の各領域が本
文領域用ブロックとして分別された領域である。
【0068】尚、図13のフローチャートに示したヘッ
ダ領域用テキストブロックの抽出処理では、判定対象と
しているブロックがヘッダ領域用テキストであるか否か
を判定する基準の一つとして、ステップ13−4におい
てそのブロックの平均フォントサイズが全テキストブロ
ックの最多フォントサイズの1.5倍以下か否かという
判断を行なったが、そのブロックの平均フォントサイズ
をユーザにより指定された数値と比較するようにしても
良い。この場合のヘッダ領域用テキストブロックの抽出
処理のフローチャートを図17に示す。ステップ13−
4に替えて、ステップ17−4において、そのブロック
の平均フォントサイズがユーザによって指定されたポイ
ントサイズ以下か否かを判断する。指定されたポイント
サイズ以下でなかった場合は、ヘッダ領域用ブロックで
ないと判断し、「ヘッダ領域用テキストブロックの抽出
処理」を終了する。指定されたポイントサイズ以下であ
ると判断された場合は、そのテキストブロックはヘッダ
領域用テキストブロックであると判断し、HD10にヘ
ッダ領域用テキストブロックとしてそのブロックの識別
情報を記憶する。図17のフローチャートにおいて、ス
テップ17−4以外の処理は図13のフローチャートに
示した処理と同じであり、同ステップには同ステップ番
号を付した。
【0069】また、ヘッダ領域用テキストブロックの抽
出処理に合わせ、フッタ領域用テキストブロックの抽出
においてもユーザにより指定された数値との比較ステッ
プに置き替える。この処理を示すのが図18のフローチ
ャートであって、図14のフローチャートにおけるステ
ップ14−4に替えてステップ18−4を実行する。ス
テップ18−4において、そのブロックの平均フォント
サイズが、ユーザによって指定されたポイントサイズ以
下か否かを判断する。ユーザによって指定されたポイン
トサイズ以下でなかった場合は、フッタ領域用ブロック
ではないと判断し、「フッタ領域用テキストブロックの
抽出処理」を終了する。ユーザによって指定されたポイ
ントサイズ以下であった場合は、そのテキストブロック
は、フッタ領域用ブロックであると判断し、HD10に
フッタ領域用テキストブロックとしてそのブロックの識
別情報を記憶する。図18のフローチャートにおいて、
ステップ18−4以外の処理は図14のフローチャート
に示した処理と同じであり、同ステップには同ステップ
番号を付した。尚、ステップ17−4及びステップ18
−4で用いるユーザにより指定されたポイントサイズと
は、これらの処理が実行される以前にHD10にユーザ
指定ポイントサイズのパラメータとして予め記憶された
データであって、キーボード12或はマウス13より入
力された数値である。
【0070】次に、図16のフローチャートに示した
「テキストブロックチェック処理」におけるステップ1
6−4において、本文領域として抽出するか否かを判定
する基準の一つとして2倍というパラメータを用いた処
理に替えて、ユーザにより指定された数値を用いる処理
について説明する。その処理を示すのが図19のフロー
チャートであって、ステップ19−4においてそのテキ
ストブロックの最多フォントサイズが、ステップ12−
1において求めて記憶した全体のテキストブロックの最
多フォントサイズにユーザが指定した倍率をかけた値以
上か否かを判断する。ここで指定倍以上であると判断さ
れた場合は、テキスト領域として抽出した旨をリターン
し(ステップ16−6)、指定倍以上でないと判断され
た場合は、本文領域として抽出した旨をリターンする
(ステップ16−5)。
【0071】図19のフローチャートにおいて、ステッ
プ19−4以外の処理は図16のフローチャートに示し
た処理と同じであり、同ステップには同ステップ番号を
付した。ステップ19−4で用いるユーザにより指定さ
れた倍率とは、これらの処理が実行される前にHD10
にユーザ指定倍率のパラメータとして予め記憶されたデ
ータであって、キーボード12或はマウス13より入力
された数値である。
【0072】ここで、ステップ11−4における本文書
式の作成処理について説明する。尚、ここで作成される
書式とは、通常のワープロソフト等で作成される文書の
書式と同様のものであって、その設定された位置から先
の文書のレイアウトを定めるものであり、後の編集作業
において改頁が挿入された場合には、次頁のレイアウト
も同じにするものである。即ち、その書式が作成された
時の領域サイズに関わらず、その後の文字の挿入や削除
に合わせて制御対象領域が伸縮するものである。
【0073】図20に示すフローチャートが、ステップ
11−4における「本文書式の作成処理」の詳細な処理
ステップである。
【0074】ステップ20−1において、図5のPAFの
ヘッダ領域5−2のイメージ幅情報及びイメージ高さ情
報により表わされる処理対象としてスキャナより入力し
たイメージより大きくかつ最も近い定型用紙サイズ(A
3、A4、A5、B4、B5等であって、用紙の種類の識
別情報と各用紙の縦横サイズとを対応づけて予めHD1
0に登録しておいたものとする。)を本文書式の用紙サ
イズに決定し、HD10に記憶する。その際、イメージ
幅と決定した定型用紙の幅との差、及びイメージ高と定
型用紙の高さとの差も算出してHD10に記憶してお
く。
【0075】次にステップ20−2において、本文領域
用として残ったテキストブロック群(図9)を包み込む
最小矩形を(図10、枠9−1)本文領域として、左右
上下余白を決定する。この時、ステップ20−1におい
て記憶したイメージ幅と決定した定型用紙幅との差、及
びイメージ高と決定した定型用紙高との差を考慮し、左
右上下余白値を算出し、HD10に記憶する。例えば、
図10の9−1に示す矩形が、本文領域用のテキストブ
ロック群を包み込む最小矩形であるので、この矩形領域
を本文領域とする。そして、9−2、9−3、9−4、
9−5に示すのが、それぞれ左右上下余白となるので、
本文書式として決定する左余白値には、9−2に示す入
力イメージにおける左端から、本文領域までの巾である
左余白+(定型用紙幅−イメージ幅)/2を設定する。
同様に右余白値にも、9−3に示す入力イメージにおけ
る右端から本文領域までの巾である右余白+(定型用紙
幅−イメージ幅)/2を設定する。また、上余白値に
は、9−4に示す入力イメージにおける上端から本文領
域までの高さである上余白+(定型用紙高−イメージ
高)/2を設定する。同様に下余白値にも、9−5に示
す入力イメージにおける下端から本文領域までの高さで
ある下余白+(定型用紙高−イメージ高)/2を設定す
る。
【0076】次にステップ20−3において、図15の
ステップ15−1で記憶した主となる組方向を本文書式
の組方向としてHD10に記憶する。さらに、ステップ
20−4において、本文領域用のテキストブロック全て
のフォントサイズ(5−9に示す文字情報のフォントサ
イズ)を調査し、最も数の多いフォントサイズを求め、
本文書式の文字サイズとしてHD10に記憶する。そし
て、ステップ20−5において、本文領域用のテキスト
ブロック全ての平均文字間(5−8に示す行情報の平均
文字間)を調査し、最も数の多い平均文字間を求め、求
めた平均文字間と本文書式の文字サイズ(ステップ20
−4においてHD10に記憶)とを足した値で本文領域
の幅を割った商を文字数/行に設定し、HD10に記憶
する。さらに、ステップ20−6において、書体に明朝
体を設定してHD10に記憶し、ステップ20−7にお
いて、本文領域用のテキストブロック全ての平均行間
(5−7に示すOCR管理データの平均行間)を調査し、
最も数の多い平均行間を求め、求めた平均行間と本文書
式の文字サイズ(ステップ20−4においてHD10に
記憶)を足した値で本文領域の高さを割った商を行数/
頁に設定し、HD10に記憶する。
【0077】次にステップ20−8において、本文書式
の段組関係の設定を行う。まず段数の決定方法は、本文
領域用のテキストブロック群をどのテキストブロックも
分割せずに、かつ他の矩形を重ならずに最多のテキスト
ブロックを含むことのできる矩形で分割した時、各矩形
の最小Y座標値を示すYポジションの最も小さな矩形が
いくつ存在するかを求め、それを本文書式の段数として
DH10に記憶する。また、複数段の場合には、それぞ
れの矩形の幅を段幅に、矩形間を段間に設定する。矩形
間にラインデータが存在すれば、段間罫線として設定す
る。例えば、図22において点線枠で示す10−3、1
0−4、10−5の3つの矩形内に存在し、各矩形によ
り分割されているのが、先に説明した処理により判別し
た本文領域用のテキストブロック群である。10−3に
示す矩形が、Yポジションの最も小さな矩形であるの
で、この場合は、1段組が設定される。また、この場合
は、1段組であるので、段幅には本文領域の幅と同じ値
が設定される。
【0078】次に、ステップ17−9において、途中段
組変更の設定を行う。ステップ20−8で設定された矩
形を除いた矩形の中でステップ20−8で行なったと同
じYポジションの判定を行なって頁の途中から段組が変
わると判断された場合は、段組変更が生じるYポジショ
ン、新たな段数、段幅、段間を設定する。例えば、図2
2の場合、ステップ20−8で矩形10−3が段組設定
されたので残りの10−4、10−5に示す矩形のYポ
ジションを判定すると、この2つの矩形のYポジション
が同じであると判定できることにより、この2つの矩形
から、頁の途中から変更になる段組の書式を設定すべき
であると判断し、10−4に示す矩形のYポジションを
変更ポジションに設定し、このYポジションに矩形が2
つあることから段数には2段組、段幅にはそれぞれの矩
形の幅、段間には矩形間を設定する。また、10−6、
10−7に示すラインデータは、図15のステップ15
−9において、メモリに記憶されているもので、10−
6、10−7に示すラインデータのラインブロック管理
データ(図5の5−5に示す)を調査すると、それぞれ
のスタートポジションX/エンドポジションXの値が同
じであり、線種も太さも同じことから、1本の段間罫線
として設定する。
【0079】以上図20のフローチャートに従って述べ
た本文領域テキストブロック群からの本文書式作成処理
は、例えば、ヘッダ/フッタ領域用のテキストブロック
からヘッダ/フッタ書式を決定し、本文書式へ含めても
良いし、ヘッダ/フッタ領域用のテキストブロック内の
ひげ付き数字から頁番号を本文書式に設定しても良い。
以下、図21に示す「本文書式の作成処理」の第二例の
フローチャートに従い、これらのヘッダ、フッタ及び頁
番号を本文書式に設定する処理について説明する。
【0080】ただし、ステップ20−1から20−9ま
での各処理ステップは図20のフローチャートにおいて
説明した処理ステップと同様なので、図21のフローチ
ャートにおいても同じステップ番号を付し、ここでの説
明を省略する。
【0081】次にステップ21−10において、図13
に示す「ヘッダ領域用テキストブロックの抽出処理」で
抽出しHD10に記憶したヘッダ領域用テキストブロッ
ク群を包み込む最小の矩形をヘッダ領域とし、ヘッダ書
式を決定する。この時、ステップ20−1において記憶
したイメージ幅と決定した定型用紙幅との差、及びイメ
ージ高と決定した定型用紙高との差を考慮し、ヘッダ領
域の左上余白値を決定し、HD10に記憶する。例え
ば、図22の10−1に点線枠で示す矩形が、ヘッダ領
域用のテキストブロック群を包み込む最小矩形であるの
で、この矩形領域をヘッダ領域とする。そして、10−
8、10−9に示すのが、それぞれ左上余白となるの
で、左余白値には、10−8に示す左余白+(定型用紙
幅−イメージ幅)/2を設定し、上余白値には、10−
9に示す上余白+(定型用紙高−イメージ高)/2を設
定する。また、ヘッダ領域のサイズには、ヘッダ領域用
テキストブロックを包み込む最小矩形の幅と高さを設定
し、HD10に記憶する。
【0082】ヘッダ書式の文字サイズは、ヘッダ領域内
のテキストブロック全てのフォントサイズ(5−9に示
す文字情報のフォントサイズ)を調査し、最も数の多い
フォントサイズを求め、ヘッダ書式の文字サイズとして
HD10に記憶する。また、文字数/行には、ヘッダ領
域用のテキストブロック全ての平均文字間(5−8に示
す行情報の平均文字間)を調査し、最も数の多い平均文
字間を求め、求めた平均文字間とヘッダ書式の文字サイ
ズを足した値でヘッダ領域の幅を割った商を文字数/行
に設定し、HD10に記憶する。
【0083】次にステップ21−11において、図14
に示す「フッタ領域用テキストブロックの抽出処理」で
抽出し記憶したフッタ領域用テキストブロック群を包み
込む最小の矩形をフッタ領域とし、フッタ書式を決定す
る。この時、ステップ20−1において記憶したイメー
ジ幅と決定した定型用紙幅との差、及びイメージ高と決
定した定型用紙高との差を考慮し、フッタ領域の左上余
白値を決定し、HD10に記憶する。例えば、図22の
10−2に点線枠で示す矩形が、フッタ領域用のテキス
トブロック群を包み込む最小矩形であるので、この矩形
領域をフッタ領域とする。そして、10−10、10−
11に示すのが、それぞれ左余白及び下余白となるの
で、左余白値には、10−10に示す左余白+(定型用
紙幅−イメージ幅)/2を設定し、下余白値には、10
−11に示す下余白+(定型用紙高−イメージ高)/2
を設定する。また、フッタ領域のサイズには、フッタ領
域用テキストブロックを包み込む最小矩形の幅と高さを
設定し、HD10に記憶する。
【0084】フッタ書式の文字サイズは、フッタ領域内
のテキストブロック全てのフォントサイズ(5−9に示
す文字情報のフォントサイズ)を調査し、最も数の多い
フォントサイズを求め、フッタ書式の文字サイズとして
HD10に記憶する。また、文字数/行には、フッタ領
域用のテキストブロック全ての平均文字間(5−8に示
す行情報の平均文字間)を調査し、最も数の多い平均文
字間を求め、求めた平均文字間とフッタ書式の文字サイ
ズを足した値でフッタ領域の幅を割った商を文字数/行
に設定し、HD10に記憶する。
【0085】次にステップ21−12において、ヘッダ
領域内とフッタ領域内に”ひげ”付き数字が存在するか
を調査する。すなわち、”−1−”、”(1)”、”<
1>”等、ひげに挟まれた数字が存在した場合、その”
ひげ”の種類、存在した領域(ヘッダ領域かフッタ領
域)、存在した位置(各領域の左上からのポジション)
を本文書式の頁番号に設定し、HD10に記憶する。
【0086】以上、図20或は図21のフローチャート
に示す処理により作成された各書式データは、一つの原
稿画像から抽出されたものをまとめて、その画像と関連
づけてHD10に記憶する。これは、その画像から得た
PAF内に記憶しても良いし、或は、PAF内に書式デ
ータを記憶しているHD10内の位置を示すアドレスを
記憶させても良い。
【0087】図16のステップ16−6においてテキス
ト枠として抽出すべきと判断されたテキストブロックの
各々について、テキスト枠書式を作成する。
【0088】図23に示すフローチャートが、「テキス
ト枠書式の作成処理」である。
【0089】ステップ23−1において、図5の5−3
に示す「テキストブロック管理データ」のブロック横/
縦サイズから、テキスト枠のサイズを決定し、HD10
に記憶する。次にステップ23−2において、テキスト
枠書式の左右上下余白を以下のように求め、HD10に
記憶する。まず、左余白は、図5の5−8に示す行情報
のインデントを調査し、そのテキストブロック内の全て
の行の中で最も小さなインデントを左余白とする。右余
白は、図5の5−9に示す文字情報のブロック左からの
距離と文字幅を調査し、そのテキストブロック内全ての
行の最終文字の右端を比べ、最も大きな値とブロックの
右端との距離の差を右余白とする。上余白は、図5の5
−9に示す文字情報のブロック上からの距離を調査し、
そのテキスト内の1行目内全ての文字の中の最も大きな
値を上余白とする。下余白は、図5の5−9に示す文字
情報のブロック上からの距離と文字高を調査し、そのテ
キストブロック内の最終行の全ての文字の下端を比べ、
最も大きな値とブロックの下端との距離の差を下余白と
する。
【0090】次にステップ23−3において、図5の5
−3に示すテキストブロック管理データの組方向をテキ
スト枠書式の組方向としてHD10に記憶する。さら
に、ステップ23−4において、そのテキストブロック
全てのフォントサイズ(5−9に示す文字情報のフォン
トサイズ)を調査し、最も数の多いフォントサイズを求
め、テキスト枠書式の文字サイズとしてHD10に記憶
する。そして、ステップ23−5において、そのテキス
トブロック全ての平均文字間(5−8に示す行情報の平
均文字間)を調査し、最も数の多い平均文字間を求め、
求めた平均文字間とテキスト枠書式の文字サイズ(ステ
ップ18−4においてHD10に記憶)を足した値でテ
キスト領域の横(枠の横サイズから左右余白を引いた
値)を割った商を文字数/行に設定し、HD10に記憶
する。さらに、ステップ23−6において、書体に明朝
体を設定しHD10に記憶し、ステップ23−7におい
て、そのテキストブロック全ての平均行間(5−7に示
すOCR管理データの平均行間)を調査し、最も数の多い
平均行間を求め、求めた平均行間とテキスト枠書式の文
字サイズ(ステップ18−4においてHD10に記憶)
を足した値でテキスト領域の縦(枠の縦サイズから上下
余白を引いた値)を割った商を行数/頁に設定し、HD
10に記憶する。
【0091】以上図23のフローチャートに従って述べ
たテキスト枠として抽出したテキストブロックからのテ
キスト枠書式作成処理はテキスト枠であると判断したテ
キストブロック内の文字についてのみ書式を作成するも
のであったが、例えば、そのテキスト枠内の元画像の中
の枠(罫線)の線種や太さまで抽出し、枠書式として設
定しても良い。この場合、図5で説明したPAF(Page Ana
lysis Format)の「ブロック管理データ」5−3に、も
う一つ、「フレームブロック管理データ」を加える。
【0092】「フレームブロック管理データ」とは、図
24の19−2に示す構造体で、他のブロック管理デー
タ(テキスト、画像、ライン等)と同様に、用紙左から
の距離、用紙上からの距離、及びそれぞれのブロックの
横/縦サイズをピクセル数で保持し、さらにブロックが
どのような種類のデータを保持しているかを示すテーブ
ルも持っている。そして、「フレームブロック管理デー
タ」固有のデータとして、矩形の線種と太さを持ってい
る。例えば、図6に示す画像データをOCRエンジンによ
り領域分割すると、図7に示すような領域分割が行われ
る。この中で、7−9で示すのが、テキスト枠であると
ステップ16−6で判断されたブロック内の文字群を囲
む枠であり、7−10で示すのが、フレームブロックで
ある。このように元画像の中の矩形イメージ部分が領域
分割された際に抽出されるブロックをフレームブロック
とする。
【0093】次に図12のステップ12−4における、
「枠領域用ブロックの抽出処理」において、枠データを
も識別するステップを含む場合の詳細処理を図25の
「枠領域用ブロックの抽出処理」のフローチャートに従
って説明する。ただし、ステップ15−1から15−9
及びステップ15−10から15−13の各処理ステッ
プは図15のフローチャートに従って説明した処理と同
様なので、同じステップ番号を付し、ここでの説明は省
略する。
【0094】ステップ15−8においてラインブロック
でないと判断された場合は、ステップ25−1におい
て、さらにブロックの種類(5−3、5−4、5−5、
19−2に示す「ブロック管理データ」のブロックの種
類)を調査し、フレームブロックであった場合は、ステ
ップ25−2において、枠データとして抽出し、HD1
0に記憶する。ステップ25−1においてフレームブロ
ックでないと判断された場合は、ステップ15−11に
進む。ステップ15−11における「テキストブロック
チェック処理」においてリターンされた値を判断し、テ
キスト枠であると判断されたならば、ステップ15−1
3において、そのテキストブロックをテキスト枠として
抽出し、HD10に記憶し、ステップ25−3におい
て、そのテキストブロックの書式を作成するために、
「テキスト枠書式の作成処理」を呼び出す。図26がス
テップ25−3で実行される「テキスト枠書式の作成処
理」の詳細を示すフローチャートである。
【0095】ステップ26−1において、当テキストブ
ロックを包含するフレームブロック(図25のステップ
25−2において、枠データとしてHD10に記憶した
ブロック)が存在するかを調査する(例えば、図7の7
−9の示すテキストブロックは、7−10の示すフレー
ムブロックに包含されている)。当テキストブロックを
包含するフレームブロックが存在するとステップ26−
1において判断された場合は、ステップ26−3におい
て、図24の19−2に示す「フレームブロック管理デ
ータ」のブロック横/縦サイズから、テキスト枠のサイ
ズを決定し、かつ「フレームブロック管理データ」の線
種/太さから枠線種と枠線の太さを決定し、HD10に
記憶する。
【0096】次にステップ26−4において、当テキス
トブロックとこれを包含するフレームブロックの管理デ
ータからテキスト枠書式の左右上下余白を以下のように
求め、HD10に記憶する。まず、左余白は、図24の
19−2に示す「フレームブロック管理データ」の用紙
左からの距離と図5の5−3に示す「テキストブロック
管理データ」の用紙左からの距離との差を左余白とす
る。右余白は、図24の19−2に示す「フレームブロ
ック管理データ」の用紙左からの距離にブロック横サイ
ズを加えた値と図5の5−3に示す「テキストブロック
管理データ」の用紙左からの距離にブロック横サイズを
加えた値との差を右余白とする。上余白は、図24の1
9−2に示す「フレームブロック管理データ」の用紙上
からの距離と図5の5−3に示す「テキストブロック管
理データ」の用紙上からの距離との差を上余白とする。
下余白は、図24の19−2に示す「フレームブロック
管理データ」の用紙上からの距離にブロック縦サイズを
加えた値と図5の5−3に示す「テキストブロック管理
データ」の用紙上からの距離にブロック縦サイズを加え
た値との差を下余白とする。
【0097】次にステップ26−5において、図5の5
−3に示すテキストブロック管理データの組方向をテキ
スト枠書式の組方向としてHD10に記憶する。さら
に、ステップ26−6において、そのテキストブロック
全てのフォントサイズ(5−9に示す文字情報のフォン
トサイズ)を調査し、最も数の多いフォントサイズを求
め、テキスト枠書式の文字サイズとしてHD10に記憶
する。そして、ステップ26−7において、そのテキス
トブロック全ての平均文字間(5−8に示す行情報の平
均文字間)を調査し、最も数の多い平均文字間を求め、
求めた平均文字間とテキスト枠書式の文字サイズ(ステ
ップ22−6においてHD10に記憶した文字サイズ)
を足した値でテキストブロックのブロック横サイズ(5
−3に示すテキストブロック管理データのブロック横サ
イズ)を割った商を文字数/行に設定し、はHD10に
記憶する。さらに、ステップ26−8において、書体に
明朝体を設定しHD10に記憶し、ステップ26−9に
おいて、そのテキストブロック全ての平均行間(5−7
に示すOCR管理データの平均行間)を調査し、最も数の
多い平均行間を求め、求めた平均行間とテキスト枠書式
の文字サイズ(ステップ26−6においてHD10に記
憶した文字サイズ)を足した値でテキストブロックのブ
ロック縦サイズ(5−3に示すテキストブロック管理デ
ータのブロック縦サイズ)を割った商を行数/頁に設定
し、HD10に記憶する。
【0098】ステップ26−1において、当テキストブ
ロックを包含するフレームブロック(図26のステップ
25−2において、枠データとしてメモリに記憶したブ
ロック)が存在しなかった場合は、ステップ23−1に
進む。ステップ23−1から23−7に示す各処理ステ
ップは図23のフローチャートの各処理と同様なので同
じステップ番号を付し、ここでの説明は省略する。ただ
し、ステップ23−1において、この場合は当テキスト
ブロックを包含するフレームブロックがないことから、
枠線は”なし”として、HD10に記憶する。
【0099】以上述べたように各ブロックの抽出処理
(図12のフローチャートに示す各処理ステップ)を図
3に示した画像サンプルに施し、終了した結果の各領域
の大きさや位置を示したものが図27である。27−1
に示す領域がヘッダ領域であり、27−2に示す領域が
フッタ領域である。27−3に示す領域がテキスト枠領
域であり、27−4に示す領域がライン領域である。2
7−5、27−6、27−7に示す各領域が本文領域で
ある。
【0100】ここで、枠とは、図27に示すように、本
文領域に重ねて設定し得る領域であって(図27の場
合、テキスト枠領域27−3は本文領域27−6及び本
文領域27−7に一部重なって設定されている。)、本
文領域に入力される文章(本文)は枠を避けて配置され
る。即ち、本文領域のうち、枠領域として定められてい
る領域以外に順に文字を配置するものである。
【0101】また、各々作成された書式は、先に述べた
ようにPAFと関連づけて記憶し、キーボード12或は
マウス13の呼び出し指示に応じて表示器16に表示或
はプリンタ18から印字する時にはその書式に応じてテ
キストブロック内データ5−6の文字コードに対応する
フォントを配置、或はラインブロック管理データ5−5
のデータに従ってラインを描画して出力する。これによ
り、スキャナ1Bより入力した画像データと同じレイア
ウトで、しかし文字や図形は清書した状態の文書を出力
し、更に表示器16上でキーボード12やマウス13の
指示により編集することが可能となる。ここでテキスト
ブロックに新たに文字が挿入された場合にも、書式とし
て定められている態様で文字を再配列するので、オペレ
ータの望む文書が入力画像と同じレイアウト、書式で配
置されたものを得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例による文字認識文書処理装置
の概略構成を示すブロック図である。
【図2】本発明の一実施例による文字認識文書処理装置
と画像読み取り装置をつなげた図である。
【図3】画像イメージを表した図である。
【図4】画像イメージを領域分割した図である。
【図5】Page Analysis Format(PAF)のファイルフォー
マットを表した図である。
【図6】画像イメージを表した図である。
【図7】画像イメージを領域分割した図である。
【図8】ヘッダ及びフッタ領域付近のテキストブロック
を表した図である。
【図9】本文領域内のテキストブロックを表した図であ
る。
【図10】本文領域と他の領域に分割された状態を表し
た図である。
【図11】「本文領域と他の領域の分別処理」を示すフ
ローチャートである。
【図12】「本文用ブロックと他のブロックの分別処
理」を示すフローチャートである。
【図13】「ヘッダ領域用テキストブロックの抽出処
理」を示すフローチャートである。
【図14】「フッタ領域用テキストブロックの抽出処
理」を示すフローチャートである。
【図15】「枠領域用ブロックの抽出処理」を示すフロ
ーチャートである。
【図16】「テキストブロックチェック処理」を示すフ
ローチャートである。
【図17】「ヘッダ領域用テキストブロックの抽出処
理」を示すフローチャートである。
【図18】「フッタ領域用テキストブロックの抽出処
理」を示すフローチャートである。
【図19】「テキストブロックチェック処理」を示すフ
ローチャートである。
【図20】「本文書式の作成処理」の第一例を示すフロ
ーチャートである。
【図21】「本文書式の作成処理」の第二例を示すフロ
ーチャートである。
【図22】本文書式作成時のブロック分割を説明する図
ある。
【図23】「テキスト枠書式の作成処理」を示すフロー
チャートである。
【図24】PAFのデータ構造の第二例を示す図であ
る。
【図25】「枠領域用ブロックの抽出処理」の第二例を
示すフローチャートである。
【図26】「テキスト枠書式の作成処理」の第二例を示
すフローチャートである。
【図27】分別された各領域を例示する図である。
【図28】ネットワークシステム図
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 LA01 NB01 NB08 NB11 NB15 NC01 NC02 NC04 RB33 RC01 VC01 5B029 AA01 BB02 CC28 CC29 5B050 BA16 DA06 EA06 5L096 BA18 FA19 9A001 BB04 CC02 CC08 HH22 HH23 HH28 JJ12 JJ27 KK16 KK42

Claims (61)

    【特許請求の範囲】
  1. 【請求項1】 入力した画像情報から文字列領域を抽出
    し、 前記抽出した文字列領域のレイアウト情報に従って、当
    該文字列領域が本文の文字列領域であるか否かを判断す
    ることを特徴とする画像処理方法。
  2. 【請求項2】 前記本文の文字列領域であると判断され
    た領域と、本文の文字列領域でないと判断された領域と
    を区別して記憶することを特徴とする請求項1に記載の
    画像処理方法。
  3. 【請求項3】 前記記憶は、各領域から抽出した特徴情
    報を記憶することを特徴とする請求項1に記載の画像処
    理方法。
  4. 【請求項4】 前記記憶は、各々を識別し得る識別情報
    を付加して記憶することを特徴とする請求項1に記載の
    画像処理方法。
  5. 【請求項5】 前記文字列領域のレイアウト情報は、異
    なる領域との位置関係とすることを特徴とする請求項1
    に記載の画像処理方法。
  6. 【請求項6】 前記文字列領域のレイアウト情報は、そ
    の文字列領域に含まれる文字列の行数とすることを特徴
    とする請求項1に記載の画像処理方法。
  7. 【請求項7】 入力した画像情報から複数の画像領域を
    抽出し、 前記抽出した画像領域から、本文領域とそれ以外の領域
    とに分類し、 前記分類に従って第一の記憶領域と第二の記憶領域に分
    けて各領域から抽出した情報を記憶することを特徴とす
    る画像処理方法。
  8. 【請求項8】 前記画像情報はスキャナにより読み取っ
    た画像とすることを特徴とする請求項7に記載の画像処
    理方法。
  9. 【請求項9】 前記画像情報は回線を介して接続された
    他端末において入力した画像とすることを特徴とする請
    求項7に記載の画像処理方法。
  10. 【請求項10】 前記画像情報は回線を介して接続され
    た他端末においてスキャナにより読み取られた画像とす
    ることを特徴とする請求項7に記載の画像処理方法。
  11. 【請求項11】 入力した画像情報を解析して文字の配
    列を定める書式を作成し、 前記作成された書式に従って、前記入力した画像情報を
    認識して得た文字を配置することを特徴とする文書処理
    方法。
  12. 【請求項12】 前記解析する画像情報は、入力した画
    像から抽出した本文文字列領域とすることを特徴とする
    請求項11に記載の画像処理方法。
  13. 【請求項13】 前記解析する画像情報は、入力した画
    像情報を領域分割して得た複数の領域のうちの一つの領
    域とすることを特徴とする請求項11に記載の画像処理
    方法。
  14. 【請求項14】 前記書式は、入力した画像から抽出し
    た領域の中の文字列の配置を定めるものとすることを特
    徴とする請求項11に記載の画像処理方法。
  15. 【請求項15】 前記文字を配置した文書を表示画面に
    表示し、 前記表示画面上で編集を行なうことを特徴とする請求項
    11に記載の画像処理方法。
  16. 【請求項16】 前記文字を配置した文書を表示画面に
    表示することを特徴とする請求項11に記載の画像処理
    方法。
  17. 【請求項17】 前記文字を配置した文書をプリンタに
    より印字することを特徴とする請求項11に記載の画像
    処理方法。
  18. 【請求項18】 前記配置する文字はフォントとするこ
    とを特徴とする請求項11に記載の画像処理方法。
  19. 【請求項19】 前記文字を配置した文書を編集し、 前記編集された文書を前記文字を配置した書式に従って
    再配列することを特徴とする請求項11に記載の画像処
    理方法。
  20. 【請求項20】 前記書式は、段組情報を含むことを特
    徴とする請求項11に記載の画像処理方法。
  21. 【請求項21】 前記書式は、用紙サイズを含むことを
    特徴とする請求項11に記載の画像処理方法。
  22. 【請求項22】 前記書式は、余白情報を含むことを特
    徴とする請求項11に記載の画像処理方法。
  23. 【請求項23】 前記書式は、組み方向を含むことを特
    徴とする請求項11に記載の画像処理方法。
  24. 【請求項24】 前記書式は、文字サイズを含むことを
    特徴とする請求項11に記載の画像処理方法。
  25. 【請求項25】 前記書式は、1行あたりの文字数情報
    を含むことを特徴とする請求項11に記載の画像処理方
    法。
  26. 【請求項26】 前記書式は、1領域あたりの行数情報
    を含むことを特徴とする請求項11に記載の画像処理方
    法。
  27. 【請求項27】 前記書式は、書体情報を含むことを特
    徴とする請求項11に記載の画像処理方法。
  28. 【請求項28】 入力した画像情報から複数の画像領域
    を抽出し、 前記抽出した複数の画像領域から枠領域を選択し、 前記選択した枠領域の画像情報から枠書式を作成するこ
    とを特徴とする画像処理方法。
  29. 【請求項29】 前記枠領域は、他の領域に重ねて配置
    するものとすることを特徴とする請求項28に記載の画
    像処理方法。
  30. 【請求項30】 前記枠領域は、本文領域の文字の組方
    向と異なる組方向のテキスト領域とすることを特徴とす
    る請求項28に記載の画像処理方法。
  31. 【請求項31】 入力した画像情報から文字列領域を抽
    出する文字列抽出手段と、 前記文字列抽出手段により抽出した文字列領域のレイア
    ウト情報に従って、当該文字列領域が本文の文字列領域
    であるか否かを判断する判断手段を有することを特徴と
    する画像処理装置。
  32. 【請求項32】 前記本文の文字列領域であると判断さ
    れた領域と、本文の文字列領域でないと判断された領域
    とを区別して記憶する記憶手段を有することを特徴とす
    る請求項31に記載の画像処理装置。
  33. 【請求項33】 前記記憶手段は、各領域から抽出した
    特徴情報を記憶することを特徴とする請求項31に記載
    の画像処理装置。
  34. 【請求項34】 前記記憶手段は、各々を識別し得る識
    別情報を付加して記憶することを特徴とする請求項31
    に記載の画像処理装置。
  35. 【請求項35】 前記文字列領域のレイアウト情報は、
    異なる領域との位置関係とすることを特徴とする請求項
    31に記載の画像処理装置。
  36. 【請求項36】 前記文字列領域のレイアウト情報は、
    その文字列領域に含まれる文字列の行数とすることを特
    徴とする請求項31に記載の画像処理装置。
  37. 【請求項37】 入力した画像情報から複数の画像領域
    を抽出する抽出手段と、 前記抽出手段により抽出した画像領域から、本文領域と
    それ以外の領域とに分類する分類手段と、 前記分類手段による分類に従って第一の記憶領域と第二
    の記憶領域に分けて各領域から抽出した情報を記憶する
    記憶手段とを有することを特徴とする画像処理装置。
  38. 【請求項38】 前記画像情報を読み取るスキャナを有
    することを特徴とする請求項37に記載の画像処理装
    置。
  39. 【請求項39】 前記画像情報を、回線を介して接続さ
    れた他端末から入力するよう制御する制御手段を有する
    ことを特徴とする請求項37に記載の画像処理装置。
  40. 【請求項40】 前記画像情報を、回線を介して接続さ
    れた他端末においてスキャナにより読み取るよう制御す
    る制御手段を有することを特徴とする請求項37に記載
    の画像処理装置。
  41. 【請求項41】 入力した画像情報を解析して文字の配
    列を定める書式を作成する書式作成手段と、 前記書式作成手段により作成された書式に従って、前記
    入力した画像情報を認識して得た文字を配置するよう制
    御する制御手段を有することを特徴とする文書処理装
    置。
  42. 【請求項42】 前記入力した画像情報から本文文字列
    領域を抽出する本文文字列領域抽出手段を有し、 前記書式作成手段は、前記本文文字列領域抽出手段が抽
    出した本文文字列領域の書式を作成することを特徴とす
    る請求項42に記載の画像処理装置。
  43. 【請求項43】 前記入力した画像情報を領域分割して
    複数の領域を得る領域分割手段と、 前記書式作成手段は、前記領域分割手段により得られた
    複数の領域の各書式を作成することを特徴とする請求項
    42に記載の画像処理装置。
  44. 【請求項44】 前記書式は、入力した画像から抽出し
    た領域の中の文字列の配置を定めるものとすることを特
    徴とする請求項42に記載の画像処理装置。
  45. 【請求項45】 前記文字を配置した文書を表示画面に
    表示する表示手段と、 前記表示画面上で指示された編集を行なう編集手段とを
    有することを特徴とする請求項42に記載の画像処理装
    置。
  46. 【請求項46】 前記文字を配置した文書を表示する表
    示手段を有することを特徴とする請求項42に記載の画
    像処理装置。
  47. 【請求項47】 前記文字を配置した文書を印字するプ
    リンタを有することを特徴とする請求項42に記載の画
    像処理装置。
  48. 【請求項48】 前記配置する文字はフォントとするこ
    とを特徴とする請求項42に記載の画像処理装置。
  49. 【請求項49】 前記文字を配置した文書を編集する編
    集手段を有し、 前記制御手段は、前記編集手段により編集された文書を
    前記文字を配置した書式に従って再配列するよう制御す
    ることを特徴とする請求項42に記載の画像処理装置。
  50. 【請求項50】 入力した画像情報から複数の画像領域
    を抽出する画像領域抽出手段と、 前記画像領域抽出手段により抽出した複数の画像領域か
    ら枠領域を選択する枠領域選択手段と、 前記枠領域選択手段により選択した枠領域の画像情報か
    ら枠書式を作成する枠書式作成手段とを有することを特
    徴とする画像処理装置。
  51. 【請求項51】 前記枠領域は、他の領域に重ねて配置
    するものとすることを特徴とする請求項50に記載の画
    像処理装置。
  52. 【請求項52】 前記枠領域選択手段は、本文領域の文
    字の組方向と異なる組方向のテキスト領域を枠領域とし
    て選択することを特徴とする請求項50に記載の画像処
    理装置。
  53. 【請求項53】 コンピュータにより読み取り可能な記
    憶媒体であって、 入力した画像情報から文字列領域を抽出する為の制御プ
    ログラムと、 前記抽出した文字列領域のレイアウト情報に従って、当
    該文字列領域が本文の文字列領域であるか否かを判断す
    る為の制御プログラムとを記憶したことを特徴とする記
    憶媒体。
  54. 【請求項54】 前記本文の文字列領域であると判断さ
    れた領域と、本文の文字列領域でないと判断された領域
    とを区別して記憶する為の制御プログラムを記憶したこ
    とを特徴とする請求項53に記載の記憶媒体。
  55. 【請求項55】 コンピュータにより読み取り可能な記
    憶媒体であって、 入力した画像情報から複数の画像領域を抽出する為の制
    御プログラムと、 前記抽出した画像領域から、本文領域とそれ以外の領域
    とに分類しする為の制御プログラムと、 前記分類に従って第一の記憶領域と第二の記憶領域に分
    けて各領域から抽出した情報を記憶する為の制御プログ
    ラムとを記憶したことを特徴とする記憶媒体。
  56. 【請求項56】 コンピュータにより読み取り可能な記
    憶媒体であって、 入力した画像情報を解析して文字の配列を定める書式を
    作成する為の制御プログラムと、 前記作成された書式に従って、前記入力した画像情報を
    認識して得た文字を配置するする為の制御プログラムと
    を記憶したことを特徴とする記憶媒体。
  57. 【請求項57】 前記文字を配置した文書を表示画面に
    表示する為の制御プログラムと、 前記表示画面上で編集を行なう為の制御プログラムとを
    記憶したことを特徴とする請求項56に記載の記憶媒
    体。
  58. 【請求項58】 前記文字を配置した文書を表示画面に
    表示する為の制御プログラムとを記憶したことを特徴と
    する請求項56に記載の記憶媒体。
  59. 【請求項59】 前記文字を配置した文書をプリンタに
    より印字する為の制御プログラムとを記憶したことを特
    徴とする請求項56に記載の記憶媒体。
  60. 【請求項60】 前記文字を配置した文書を編集する為
    の制御プログラムと、 前記編集された文書を前記文字を配置した書式に従って
    再配列する為の制御プログラムとを記憶したことを特徴
    とする請求項56に記載の記憶媒体。
  61. 【請求項61】 コンピュータにより読み取り可能な記
    憶媒体であって、 入力した画像情報から複数の画像領域を抽出する為の制
    御プログラムと、 前記抽出した複数の画像領域から枠領域を選択する為の
    制御プログラムと、 前記選択した枠領域の画像情報から枠書式を作成する為
    の制御プログラムとを記憶したことを特徴とする記憶媒
    体。
JP11101973A 1999-04-09 1999-04-09 画像処理方法、装置及び記憶媒体 Withdrawn JP2000293671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11101973A JP2000293671A (ja) 1999-04-09 1999-04-09 画像処理方法、装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11101973A JP2000293671A (ja) 1999-04-09 1999-04-09 画像処理方法、装置及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2000293671A true JP2000293671A (ja) 2000-10-20

Family

ID=14314823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11101973A Withdrawn JP2000293671A (ja) 1999-04-09 1999-04-09 画像処理方法、装置及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2000293671A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350959A (ja) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2007047925A (ja) * 2005-08-08 2007-02-22 Konica Minolta Business Technologies Inc 画像位置合わせ装置及びプログラム
JP2008022159A (ja) * 2006-07-11 2008-01-31 Canon Inc 文書処理装置及び文書処理方法
US8910038B2 (en) 2008-04-04 2014-12-09 Canon Kabushiki Kaisha Apparatus and method for image separation, layout, and templating
JP2015215889A (ja) * 2014-05-07 2015-12-03 金舷國際文創事業有限公司 リフロー型電子書籍生成方法及びウェブサイトシステム
JP7779993B1 (ja) * 2024-12-23 2025-12-03 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350959A (ja) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2007047925A (ja) * 2005-08-08 2007-02-22 Konica Minolta Business Technologies Inc 画像位置合わせ装置及びプログラム
JP2008022159A (ja) * 2006-07-11 2008-01-31 Canon Inc 文書処理装置及び文書処理方法
US8910038B2 (en) 2008-04-04 2014-12-09 Canon Kabushiki Kaisha Apparatus and method for image separation, layout, and templating
JP2015215889A (ja) * 2014-05-07 2015-12-03 金舷國際文創事業有限公司 リフロー型電子書籍生成方法及びウェブサイトシステム
JP7779993B1 (ja) * 2024-12-23 2025-12-03 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US8689100B2 (en) Document processing apparatus, control method therefor, and computer program
JP3962721B2 (ja) 文書処理装置及び文書処理方法
US8218190B2 (en) Document processing apparatus and method
JP5252933B2 (ja) 文書処理装置、文書処理方法、及びプログラム
US8773460B2 (en) Information processing apparatus, information processing method, and information processing program for displaying a plurality of objects on an operation screen based on a drawing order of the plurity of objects
US7882432B2 (en) Information processing apparatus having font-information embedding function, information processing method therefor, and program and storage medium used therewith
US7188311B2 (en) Document processing method and apparatus, and print control method and apparatus
JP5629435B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20040252340A1 (en) Image processing system, image processing method, template producing system and template data structure
US20030070146A1 (en) Information processing apparatus and method
JP2007110679A (ja) 画像表示装置、画像表示方法、その方法をコンピュータに実行させるプログラム、および画像表示システム
EP1571588B1 (en) Print data editing apparatus and method
US8056004B2 (en) Information processing apparatus and method
JP2005044279A (ja) 帳票処理方法、帳票処理プログラム、帳票処理装置
JP2000293521A (ja) 画像処理方法、装置及び記憶媒体
JP2000293671A (ja) 画像処理方法、装置及び記憶媒体
JP2003308310A (ja) 表示方法、表示装置、表示プログラム、および表示プログラムを記録した記録媒体
US6930789B1 (en) Image processing method, apparatus, system and storage medium
JP4101052B2 (ja) 文書管理装置、文書管理装置の制御方法、及び、コンピュータプログラム
JP5574272B2 (ja) 画像読取装置、画像処理装置およびプログラム
JP2006252526A (ja) 文書ファイル管理装置、文書ファイル管理方法、および文書ファイル管理プログラム
JP2000293624A (ja) 画像処理方法、装置及び記憶媒体
JP3889397B2 (ja) 電子帳票管理サーバ、クライアント端末、出力データ作成システム、出力データ作成処理方法及びプログラム
JP2000076226A (ja) 文書データの編集システム
JP2004348428A (ja) 電子文書における、ヘッダ、フッタの挿入手段

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060704