JPH01183784A - 文書画像処理装置 - Google Patents

文書画像処理装置

Info

Publication number
JPH01183784A
JPH01183784A JP63007518A JP751888A JPH01183784A JP H01183784 A JPH01183784 A JP H01183784A JP 63007518 A JP63007518 A JP 63007518A JP 751888 A JP751888 A JP 751888A JP H01183784 A JPH01183784 A JP H01183784A
Authority
JP
Japan
Prior art keywords
partial areas
document
partial
node
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63007518A
Other languages
English (en)
Inventor
Shuichi Tsujimoto
辻本 修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63007518A priority Critical patent/JPH01183784A/ja
Priority to EP89300428A priority patent/EP0325417B1/en
Priority to DE68924606T priority patent/DE68924606T2/de
Publication of JPH01183784A publication Critical patent/JPH01183784A/ja
Priority to US07/823,608 priority patent/US5185813A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/00Two-dimensional [2D] image generation
    • G06T11/60Creating or editing images; Combining images with text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 一\ 本発明は入力文書の記事を正しく順序で読みとる文書画
像処理装置に関する。
(従来の技術) 従来の文書画像処理装置は多記事へ段組を含む文書を自
動的に取り扱うことは出来ず1つの記事でかつ1段組の
文書を上から順に読んでいくことしかできなかった。
そのため従来技術で多記事や多段組の文書を取り扱うに
は入力文書を行や行から構成されるパラグラフで代表さ
れた部分領域に谷側して、この各部分領域の接続関係を
人間が指定しなければならなかった。
また、取り扱う文書ことにその書式を定義する必要もあ
った。
この様に段組みをもつ文書や多記事から構成される文書
の取り扱いは人間の介入を強制し、手間がかかるという
問題があった。
(発明が解決しようとする課題) この様に従来の文書画像処理装置は人間の介在を余犠無
くさせるものであった。
本発明は人間の介在を要求することなく、自動的に文書
画像処理を行なうことができる文書画像処理装置を提供
することを目的とする。
〔発明の構成〕
(課題を解決するための手段) 本発明は入力文書画像を構造解析することにより得られ
る部分領域の物理的性質(特徴)と他の部分領域との位
置関係を調べることにより、各部分領域の意味(タイト
ル、本文等)やその接続関係を決定する手段を備えたこ
とを特徴としている。
即ち、本発明に係る文書画像処理装置は、主に入力文書
画像を部分領域に分割する構造解析手段と、各部分領域
の物理的性質と他の部分領域との位置関係により各部分
領域のつながり情報を獲得する構造理解手段とを具備し
ている。
(作  用) 構造解析により文書画像を部分領域に分割したら1文書
構造は幾何学的構造と論理的構造の2つの構造で表現さ
れる。幾何学的構造とは部分領域の物理的特徴や配置関
係を記述するものであり、論理的構造は部分領域間の意
味的な係わりを記述するものである。
部分領域間の意味的な係わりは本来、その内容の接続関
係を調べてはじめて得られるものである。
ところが多くの文書では視覚効果を考慮して、その係わ
り関係を一目で了解出来るように部分領域がレイアウト
されているものである。これは幾何学的構造を解析する
ことにより論理的構造を作り上げることが出来るという
ことを意味している。
この様に、本発明によれば部分領域の意味を調べること
なくその物理的性質のみで部分領域の意味やつながり関
係を決定することができる。このため本発明は入力文書
画像を部分領域に分割する部分領域抽出手段と、前記手
段より得られる部分領域間の物理的な位置関係を記述す
る表現形式を作成する手段と、前記手段より得られる表
現形式を変換して前記部分領域間の意味的な接続関係を
記述する表現形式を獲得する構造理解手段より碍成され
る。
(実 施 例) 以下、図面に基づいて本発明の一実施例について説明す
る。第1図は本発明の構成図である。先ず、入力両像は
構造解析部1において類似した物理的性質(文字の大き
さ、文字ピッチ、行ピッチ、フォント、下線の有無等)
をもつ部分領域に分割される。この時この部分領域の配
置関係は本を用いて表現され、これを幾何学的構造と呼
ぶ、又、これは幾何学的構造作成部2で作成される。入
力文書画像が第2図(、)の様な部分域領に分割され分
領域のリストで表現され、その順序は位置的に上方にあ
る部分領域が先になるように順序づけられる。又ノード
の広がりは段組みに対応する。
ここで部分領域はその物理的性質により2つの項目に分
類される。1つは“head”項目で、これは数行の文
字列を含み数段にまたがっていたり、センタリング処理
が施されている部分領域に対して与えられる。もう1つ
は“body”項目で、これは“head”でない部分
領域に対して与えられる(第2図(a)参照)。
次に構造理解部3において入力文書の部分領域のレイア
ウト(配置関係)を記述する幾何学的構造から部分領域
間の意味的な係わり関係を記述する論理的構造を作成す
る。
ここで論理的構造について述べる。文書の内容(中身)
に関して言えば部分領域はタイトル、サブタイトル、ア
ブストラクト、パラグラフ等の意味に分類される。この
部分領域の意味とその意味的な係わり、つまり意味的な
支配関係は木を用いて表現され、例えば第3図の様に表
現出来る。木の各ノードは、同じ意味をもつ部分領域の
リストで表現され、その順序は読み順と対応している。
又木の深さは意味的な支配関係に対応する。
構造理解部3における処理の一例を第4図(a)〜(d
)に示す。論理的構造は以下に示す4つの操作(ステッ
プa−d)を幾何学的構造に施すことにより得られる。
これらの操作に先だって、幾何学的構造の木の各ノード
には縦型の順序に従って番号が付けられており(子は第
よりも先である)。
これは読みの順序に対応している。
ステップa リストの先頭が“body”であるターミナルノードA
に対しては、その1つ手前のノードBがターミナルノー
ドであればノードBのリストの終端に′″body”部
分領域を移動させる。
これは、ブロックの先頭が’body”である場合に対
する操作である。
ステップb リストの終端が“head”であるターミナルノードB
に対しては、その次のノードAがターミナルノードであ
ればノードAのリストの先頭サブブロックを今、着目し
ている“head”サブブロックに付は加える。
これは、ブロックの終端サブブロックが“head”で
ある場合に対する操作である。
ステップC 1つ以上のサブブロックと1つの“head−body
”列(1つ以上のl)、ead#jと1つ以上の’ b
ody”から成る)で構成されるノードAに対しては、
1つの“head −body”列で構成されるノード
Dを新たに作り、それを第として付は加える。但し、こ
の際、ノードAが子孫ノード群Cを持っていたらそれも
一緒に移動させる。また、ノードAに親がいなければN
ULLの親ノードを作り、上述した処理を行う。
これは、1つのノードが1つの意味を表す様にするため
の前処理操作である。
ステップd 1つの“head −body”列で構成されるノード
Aに対しては、  ”body”列で構成されるノード
Cを新たに作り、それを子供として付は加える。
これは、1つのノードが1つの意味を表す様にするため
の操作である。
上述した4つの操作により幾何学的構造(第2図(b)
)から論理的構造(第3図(b))が作られる一例を第
5図に示す。
ここで、サブブロックの項目名はより情報量の多いもの
にすることが出来る。ルートノードである’head”
部分領域はパタイトル″や″著者名″等を表し、その他
のノードにある“head”部分領域は、“サブタイト
ル”を表すものと決定される。
また、ターミナルノードにある“body”部分領域は
″パラグラフ”を表し、その他のノードにある11bo
dylj部分領域は″アブストラクト″等を表すものと
決定される。
上述した手続きは1つの幾何学的構造に対する処理であ
ったが多記事を含む文書は木のリストで図の場合、最初
は部分領域1,2でつくられる木−a、部分領域5でつ
くられる木−b、及び部分領域3,4.6でつくられる
木−〇の3つが作成されるがこれらはa、b、Qの順に
並べられる。
そしてルートノードが“head”である木は、1つの
記事を代表するがそうでない木はそれの1つの手前の木
に付は加えられる。第6図の例の場合。
木−bのルートノードは“body”であるためその1
つ手前の木−aに付は加えられ木−a、Qは1つの記事
を代表する。
上述した構造理解部3における処理により論理的構造が
作成され各記事について部分領域のリストが決定される
。この時、各部分領域にはタイトル ル、サブタイトル、パラグラフ・・・等の項目%が決定
されているので各記事の部分領域を全て抽出するのでは
なく、各記事のタイトルのみ、あるいはタイトルとサブ
タイトルで各記事を代表させても良い。
次に各記事抽出結果の表示方法について述べる。
同−記事内に含まれる部分領域を囲む枠あるいはその領
域を他とは異なる同一色で表示させる。こうすることに
より、各部分領域間のかかわりを極めて明確に表現出来
る。もしくは、いくつかの部分領域をまとめて、例えば
サブタイトル部分領域とそのパラグラフ部分領域をまと
め同一色で表現してもよい。また1色による区別の他に
明るさによる区別、実線・点線等による区別、ブリンク
の有無等による区別が考えられる。
又、各記事の構成部分領域をすべて枠で囲んだり、記事
番号をその左肩に付加したりすることも考えられる。構
造解析部lで図表、写真等のイメージ領域と亀文章領域
との切り分けが出来れば、それらの領域も上述した手法
により他と区別出来る。この場合、イメージ領域はイメ
ージそのままを表示しても良い。上では各部分領域の表
示を行なっだが、各部分領域をその構成要素である文字
列自身やそれを囲む枠や文字列を代表する中心線、基線
等の線、あるいは文字パターン自身やそれを囲む枠を用
いて表現することも可能である。この際当然のことなが
ら前述した様に多色による区別ができる。
更に、抽出記事の指定方法について述べる。既に各部分
領域がどの記事に属するかとか各部分領域間の意味的な
係わり関係が明確になっているためマウス等で指定した
位置を含む、もしくは最も近い部分領域を、あるいはそ
れと意味的に支配関係による領域(本文ならタイトル)
を、あるいはそれを含む記事を抽出することができる。
それに基づいて例えばその記事の文字認識結果を出力し
たり、その画像そのものをもしくは2値化したりデイザ
等の形で出力したりすることができる。この様な指定も
各記事が色等で明確に区別されているから容易となる。
〔発明の効果〕
本発明によれば人間の介在を要求することなく、自動的
に多記事を含む文書からの記事の抽出や各記事からのタ
イトルのみの抽出等を含む文書画像処理を行なうことが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック構成図。 第2図は幾何学的構造の説明図、第3図は論理的5図は
第4図に示すアルゴリズムによる実験例を示す図、第6
図は多記事を含む文書からの記事の抽出方法の説明図で
ある。 1・・・構造解析部   2・・・幾何学的構造作成部
3・・・構造理解部 代理人 弁理士 則 近 憲 佑 同  松山光之 第1図 (a) DLb CcL C (b) 第6図 (H:had、 B: hodρ (aン                 (b]第2
図 (a)     (1)) 第3図 (S: sJ=−Mtrck、 H:”−−MacんB
:”k−od−レ〕第4図 す泡/’IL すWep d (Jl:hsj、B:→) 第5図

Claims (1)

    【特許請求の範囲】
  1.  入力文書画像を部分領域に分割する構造解析手段と、
    この構造解析手段より得られた部分領域間の物理的位置
    関係を記述した表現形式を作成する構造作成手段と、こ
    の構造作成手段より得られた表現形式を前記部分領域間
    の意味的接続関係を記述した表現形式に変換する構造理
    解手段とを備え、入力文書画像中の記事を読み順に従っ
    て抽出することを特徴とする文書画像処理装置。
JP63007518A 1988-01-19 1988-01-19 文書画像処理装置 Pending JPH01183784A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP63007518A JPH01183784A (ja) 1988-01-19 1988-01-19 文書画像処理装置
EP89300428A EP0325417B1 (en) 1988-01-19 1989-01-18 Document image processing apparatus
DE68924606T DE68924606T2 (de) 1988-01-19 1989-01-18 Dokumentenbildverarbeitungsgerät.
US07/823,608 US5185813A (en) 1988-01-19 1992-01-17 Document image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63007518A JPH01183784A (ja) 1988-01-19 1988-01-19 文書画像処理装置

Publications (1)

Publication Number Publication Date
JPH01183784A true JPH01183784A (ja) 1989-07-21

Family

ID=11667993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63007518A Pending JPH01183784A (ja) 1988-01-19 1988-01-19 文書画像処理装置

Country Status (3)

Country Link
EP (1) EP0325417B1 (ja)
JP (1) JPH01183784A (ja)
DE (1) DE68924606T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259880A (ja) * 1988-08-25 1990-02-28 Nec Corp 文書読取装置
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
US5907631A (en) * 1993-05-12 1999-05-25 Ricoh Company, Ltd. Document image processing method and system having function of determining body text region reading order
US20130174024A1 (en) * 2011-12-30 2013-07-04 Guofeng XING Method and device for converting document format

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208906A (en) * 1988-12-30 1993-05-04 Chipsoft Ca, Corp. Method and apparatus for representing bordered areas of a generic form with records
US5144693A (en) * 1988-12-30 1992-09-01 Chipsoft Ca Corp. Method and apparatus for generic form generation
US5148520A (en) * 1988-12-30 1992-09-15 Chipsoft Ca, Corp. Determining the locations of the contents of bordered areas of a generic form
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH07131641A (ja) * 1993-11-08 1995-05-19 Canon Inc 画像処理装置
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
AUPM704494A0 (en) * 1994-07-25 1994-08-18 Canon Information Systems Research Australia Pty Ltd Efficient methods for the interpretation of a graphical programming language
AU694512B2 (en) * 1994-07-25 1998-07-23 Canon Kabushiki Kaisha Efficient methods for the interpretation of a graphical programming language
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
TW367447B (en) * 1994-12-21 1999-08-21 Canon Kk Block selection review and editing system
US6005680A (en) 1995-04-04 1999-12-21 Canon Information Systems, Inc. Method for capturing a document image, a scanner using the method and a document image management system using the scanner
US6389162B2 (en) 1996-02-15 2002-05-14 Canon Kabushiki Kaisha Image processing apparatus and method and medium
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
WO2007070010A1 (en) * 2005-12-16 2007-06-21 Agency For Science, Technology And Research Improvements in electronic document analysis

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259880A (ja) * 1988-08-25 1990-02-28 Nec Corp 文書読取装置
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
US5907631A (en) * 1993-05-12 1999-05-25 Ricoh Company, Ltd. Document image processing method and system having function of determining body text region reading order
US20130174024A1 (en) * 2011-12-30 2013-07-04 Guofeng XING Method and device for converting document format

Also Published As

Publication number Publication date
EP0325417A3 (en) 1992-03-25
EP0325417B1 (en) 1995-10-25
DE68924606D1 (de) 1995-11-30
EP0325417A2 (en) 1989-07-26
DE68924606T2 (de) 1996-04-11

Similar Documents

Publication Publication Date Title
JPH01183784A (ja) 文書画像処理装置
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
JP3976847B2 (ja) ファイル生成方法及びファイル生成装置
US5185813A (en) Document image processing apparatus
JP2816241B2 (ja) 画像情報検索装置
Dunst et al. The graphic narrative corpus (GNC): design, annotation, and analysis for the digital humanities
JP5439455B2 (ja) 電子コミック編集装置、方法及びプログラム
JPS63155386A (ja) 帳票デ−タ読取装置
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JPH06348890A (ja) 文書処理方法及び装置
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JPH1166196A (ja) 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20020085755A1 (en) Method for region analysis of document image
JPH0460759A (ja) 文書作成支援装置
JPH10222510A (ja) 文書変換方法
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
JP7471802B2 (ja) アーカイブ支援システム
JPH0877179A (ja) 文書索引生成装置
JPH07107711B2 (ja) 文書画像の処理装置
JPH02116970A (ja) 表内データ自動抽出処理方式
JPH11312231A (ja) データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法
JPH03127169A (ja) マルチメディア文書構造化方式
JPS61193276A (ja) 文字列抽出方式
JPH0362169A (ja) 文書検索方法及び文書検索装置
JPH083828B2 (ja) 文書画像理解装置