JPH01130293A

JPH01130293A - 文書画像解析方式

Info

Publication number: JPH01130293A
Application number: JP62290207A
Authority: JP
Inventors: Yoshitake Tsuji; 辻　善丈
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1987-11-16
Filing date: 1987-11-16
Publication date: 1989-05-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本願発明は、文書画像を文字行・文字等のその構成要素
に分割し、所望の領域を自動抽出する文書画像解析方式
に係わり、特に、文書画像を文字行・文字等の要素に分
解し、文章の流れを含む所望の領域を自動抽出するのに
適した文書画像解析方式、に係わる。・　１（従来の技術及びその問題点）多量の既存文書−画像′の効率的な蓄積・検索や画像伝
送を行ったり、また、一般書籍を自動的に読み取るため
には、固着書式を持つ帳票の予め定められた特定の文字
イメージ列のみの文字読取りを行うだけでなく、多種多
様の文書画像を解析し、文字゛領域や図表領域の分離、
更には所望の領域を自動抽出することが必要となる。

従来、このような文書画像の構造解析方式として、本願
発明者と同一人による「スプリット検出法に基づく頁画
像の構造解析Ｊ　　ｌ子通信学会技術研究報告パターン
認識と学習ＰＲＬ８５−１７．１９８５−６゜６３ペー
ジ〜７０ページ）なる技術論文に記載されているように
、垂直又は水平方向の射影情報交互に抽出しながら大局
的領域から局所的領域に分解した後、文書の構成要素を
決める方式がある。ここで、上記方式は、書籍の本文等
の文字読取りを前提として行われたものである。そのた
め、一般文書に見られる段組の存在や特定な文書領域の
文字読取りを前提とした場合には、文書画像を構成する
配置関係が得られていないから、文書画像の要素及び要
素間の配置関係を求めることが必要となる。

一方、文書画像の所定の領域を抽出する方式として、例
えば、特願昭４１−２８１３７７号「画像理解方式」に
示されたように、文書画ｆ象を複数個の矩形領域の集合
として定義された文法に従って抽出すべき領域を求める
方式が知られている。しかしながら、矩形領域の位置・
サイズを絶対又は相対座標をベースにすべて定義するこ
とは、労力を必要とし、また、書籍等の文書画像の文章
を読み取るという場合には、座標による矩形領域の定義
は、行数の変化や図等の混在により実用上困難となる。

そこで、本願発明の目的は、従来の上記問題点を解決す
るために、１つないし複数個の要素領域（以下、ブロッ
クと呼ぶ）間の関係として、包含関係及び上下又は左右
の配置間１系に従って、文書画像の構造を階層構造とし
て自動生成し、相対内置、置関係により所定の領域を抽
出する文書画像解析方式を提供することにある。

本願発明の他の目的は、種々な文書画像のブロック間の
関係を自動生成することによって、文章領域の読み取る
べき順序や文書の構造を容易に検出できる文書画像解析
方式を提供することにある。

本願発明の他の目的は、目的に応じて定められる特定な
領域の抽出を容易に行える文書画像解析方式を提供する
ことにある。

本願発明の他の目的は、文字行内の所定の位置に存在、
する空白ブロックも含めて、文字行の形状を抽出し、文
章領域の論理的配置構造を生成する文書画像解析方式を
提供することにある。

（問題点を解決するための手段）前述の問題点を解決するために本願の第１の発明が提供
する文書画像解析方式は、文書画像を文！行、文字等の
要素領域に分解する手段と１．１つ各は複数個の要素領
域をブロックとして構造化する際、各ブロックの包含関
係及び上下又は左右の配置関係に従って、ブロック属性
及びブロック間の配置構造を階層的に決定し、記憶する
文８構造生成手段と、ブロックの属性及びブロック間の
階層的な配置構造から、文書画像内の抽出すべき領域又
はそれを構成する１つ若しくは複数個のブロックを探索
する領域探索手段とを有してなる。

また、前述の問題点を解決するために本願の第２の発明
が提供する文書画像解析方式は、文書画像を文字行、文
字等の要素領域に分解する手段と、１つ又は複数個の要
素領域をブロックとして構造化する際、各ブロックの包
含関係及び上下又は左右の配置関係に従って、ブロック
の属性及びブロック間の配置構造を階層的に決定し、記
憶する文書ｍ造生成手段と、文字行ブロック内の所定の
位置・大きさを持つ空白を空白ブロックとして抽出する
手段と、文書構造生成手段によって生成された複数個の
文字行を含むブロックから空白ブロックを基にして各文
字行ブロックの形状を調べ、文書画像に於ける配置構造
を更新する文書構造更新手段と、前記階層的な配置構造
から文書画像内の抽出すべき領域又はそれを構成する１
つ若しくは複数個のブロックを探索する領域探索手段と
を有してなる。

（実施例）以下本願発明の実施例について図面を参照しながら説明
する。

第１図及び第２図は、それぞれＩ書さ及び横書きで記載
された文書画像の構成を説明するために用いた一例であ
る。

図中、黒丸は文字を示し、斜線で示した矩形領域（図中
Ｆ、）を図、表、写真などの要素とする。

従来の文書画像の領域分割方式あるいは行抽出方式など
を用いると、第１図及び第２図の記号Ｓｔ（第１図では
ｉ＝１・・・７．第２図ではｉ＝１・・・１５）で示し
た文字行領域あるいは第１図の記号Ｆ１で示し図／表／
写真などの領域（以下゛、画素記述領域と呼ぶ）が抽出
できる。

次に、文章情報の流れに着目すると、通常第１図で示す
縦書きの場合、縦書きである文字行は右から左へと文章
情報が流れ、文字行内の各文字は上から下へと文字情報
が流れる。即ち、第１図の各文字行の配置関係は、左右
関係があり、各文字行内の各文字の配置は、上下関係と
なる。また、画素記述領域Ｆ＋は文字行Ｓｓ　、Ｓ６．
Ｓｔの上にあるなどの配置関係が存在する。そこで、第
１図の図中Ｔｉ　（ｉ＝１．２）で示したブロック、即
ち、文章領域を検出すると、左右間係を持つ文字行から
成る２つの文章領域ＴｒとＴ２が左右関係に有り更に画
素記述領域ｌマ、と文・章領域Ｔ２とは上下関係である
ことが容易にかわる。そこで、上述した包含関係及び上
下又は左右の配置関係を抽出することによって、例えば
、文章領域Ｔ１からＴ２へと順次、文字行内の文字を抽
出し、文字コードに変換しなり、あるいは、画素記述領
域Ｆ１の下にある文章領域のみを抽出することなどが容
易に可能となる。

同様に゛、第２図で示すような横書きの場合、通常、横
書きである文字行内の各文字は、左から右へと情報が流
れ、横書きの各文字行から成る文章領域は、上から下へ
と情報が流れる０例えば、図中の各文字行Ｓ＋（ｉ＝１
・・・１５）において、文字行Ｓ１から文字行Ｓ５及び
文字行Ｓ６から文字行Ｓ　１０及び文字行Ｓ＋＋から文
字行Ｓ＋ｓはそれぞれ、上下関係を持つ文字行から文章
領ｔＪＡＴ＋　、　’ｒｓ　。

Ｔ６から形成されている。また、二段組に類似する構造
として、文章領域Ｔ　ｓ　、　Ｔ　ａが存在し、情報の
流れとして左右関係を持つ文章領域Ｔ５゜Ｔ６により文
章領域Ｔ４が形成されていると見ることができる。

また、第１図で示すように、文章領域Ｔ１内で、文字ピ
ッチが異なる性質の文字行が存在した場合、更に、上下
関係を保持する文字行から構成された文章領域Ｔ、を文
章領域とＴ３に分解しても、それぞれ上下関係が成立す
ることになる。

以上説明したように、文章画像の構成要素の配置関係及
び文章情報を流れを表現する場合、各要素間の関係を上
下関係と左右関係（Ｉ書きの場合、右左関係、横書きの
場合、左右関係）を階層的に検出し生成することによっ
て可能となることがわかる。

第３図（ａ＞、（ｂ）、（ｃ）は、ブロック間の上下及
び左右関係を交互に規定しながら階層的に領域分割を行
う方式の一例である。

上記領域分割を実現する方法として、同一出願人による
「スプリット検出法に基づく頁画像の構造解析」に記載
されている。そこで、本説明では、詳細は省略し、第３
図（ａ）、（ｂｌ、（ｃ）により、上記領域分割は、各
ブロックが上下又は左右の配置関係を保持しつつ階層的
に紙面の構成要素に分解する一方法であることを示す。

尚、上記方式は、黒素の値（黒又は白の２値）を水平、
垂直に射影し、その画素計数値を示す分布（投影分布）
を用いているが、本発明はこれに限定されるものではな
く、黒白の変化点の計数値や予め輪かくトレースで求ま
る矩形情報を水平、垂直に射影して重なりを持つ領域情
報を用いても良い。

第３図（ａ）において領域分割対象となる文書画像の領
域Ｐには、黒丸で示した文字及び矩形ど゛斜線で基すよ
うな画素記述領域を含んでおり、２第１図で示した縦書
き文書画像と類似した構造を持っている。

第２図で使用される記号Ｒｔ　　（Ｌ、、）（Ｌ、、＝
１．２，３．・・・、ｉ＝１．２，３．・・・）は、投
影分布（図中斜線で示した図形）を用いた階層的領域分
割過程で得られるブロックを示しており、上記記号し、
、は、分割レベルを示すものとする。また、分割レベル
Ｌ、、は、階層深さを表わすと共に、投影情報を求める
際の方向をも表わしている。即ち、水平方向の投影情報
により分割された複数個の領域の分割レベルし、、は奇
数値を持ち、垂直方向の投影情報により分割された複数
個の領域の分割レベルし、、は偶数値を持つことになる
。更に、水平方向（垂直方向）の投影分布により分割さ
れた複数個の領域がそれぞれ上下関係（左右関係）が保
存されることは明らかである。

最初に、解析対象領域Ｐに対して、水平投影分布Ｈ１が
適用され、領域Ｒ１（１）が得られる。

次にブロックＲ，（１）に垂直投影分布■窃が適用され
、ブロックＲｔ　　（２）　、・・・Ｒ１（２）が得ら
れる。ここで、分割レベル２を持つ５個の領域は、順次
、左右関係を満足していることは明らかである。また、
ブロックＲ，（１）と１つないし複数個のブロックＲ１
（２）・・・Ｒ５（２）は包含関係を満たずことも明ら
かである。尚、５個のブロックをどのように分割するか
は、各ブロックの特徴及び各ブロック間の特徴量（空白
値や相関比）をその親ブロックＲ１（１）の特徴（例え
ば識別子）と５個のブロックＲ，（２）・・・、Ｒ５（
２）の特徴に応じて場合分けを行い、検査することによ
って決定される。第３図（ａ）の場合では、５つのブロ
ックに分割され、ブロックＲ，（２）には識別〒として
未確定、Ｒ２（２）ないしＲ９（２）には文字行候補と
いう識別子が付加され、記憶される。領域分割は、Ａｆ
＆型探木探索技法いられているために、次に分割すべき
ブロックとしてブロックＲ，（２）が取り出され、同様
な処理が繰り返される。ブロックＲｓ（２）に対しては
水平投影分布を適用すると、複数個の文字候補領域が得
られるため、この時点でブロックＲ５１）の分割が停止
し、複数個の文字候補領域も含めて記憶される。同様に
、ブロックＲａ（２）、Ｒｉ（２）、Ｒ２（２）が順次
、水平投影分布を適用され、ブロックＲｓ＜２）の場合
と同様な処理が行われる０次に、ブロックＲ＋（２）に
対して、第３図（ｂ）で示したように、水平投影分布Ｈ
２が適用され、２つのブロックＲ，（３）、Ｒｔ（３）
が得られ、前述と同様な処理が行われる。

第３図（ｂ）の場合には、ブロックＲ＋　　（３）とＲ
ｔ（３）は未確定という識別子が付加され、記憶される
。この時、ブロックＲ１（３）とブロックＲ２（３）は
上下関係が成立し、その親ブロックはＲ１（２）である
０次に、ブロックＲ２（３）に対して、第３図（ｃ）で
示すように、垂直投影分布Ｖ４が適用され、３つの文字
行候補ブロックＲ１＜４＞、Ｒ２（４）、Ｒ３（４）が
得られる。

ま′た、ブロックＲ１（３）に対して、領域Ｒ２（３）
と同様に垂直射影分布を適用すると、１つのみであるた
め、これ以上分割ができず、また、そのブロックサイズ
などから図・表・写真等の画素表現ブロックという識別
子が与えられる。

以上の如く操作を繰り返し、縦型探索が終了すると、第
４図で示した領域情報の木ｍ造が生成されることになる
。

尚、第４図で示した領域分割結果は、第３図（ａ）で示
した文書画像に対応して生成されたものであるが、第３
図（ａ）は第１図と類似した構造を持っているため、以
後述べる第４図の説明は、第１図に対応して行うことと
する。

第４図において、図中サークルで領域情報を表わし１．
記号Ｓ、は文字行、記号Ｆ、は画素表現領域（但し、添
字ｉは第１図との対応をとるために付加したものである
）を示すとし、黒丸は、文字領域情報を示する。また、
記号が付加されていないサークルは仮想ブロックを表わ
すとする。

更に、図中り、、は分割レベルを表わし、分割レベルが
奇数の時、各領域間に上・下関像が成立し、分割レベル
が偶数の時、各ブロック間に左右関係が成立する。ここ
で、第４図における本構造による階層表現において、分
割レベルｉと分割レベルｉ＋１　（ｉ＝１．２・・・）
の関係は包含関係が成立し、同一分割レベル内の各領域
は左右間係（図中ゆで示す）又は上下関係（図中８で示
す）が成立している。

次に、第４図で述べたブロック情報の属性値の一例につ
いて第５図を用いて説明する。第５図で示した分類名は
、解析対象、文字、線分、文字行、画素表現の各ブロッ
ク及び仮想ブロックである。

尚、仮想ブロックのうち、後述する構造化の過程で節、
文章などの分類名が付加される仮想ブロックが存在する
ことになる。

位置・大きさは、ブロックの位置サイズを表わす、ブロ
ック間距離は、同一分割レベルで隣接するブロック間の
空白サイズを示す、子ブロック数は、自身の子ブロック
の数とする。尚、文字ブロックについては、例えば、本
願発明者と同一人による「分散最小基準に基づく適応型
文字分離方式」（電子通信学会論文誌Ｄ’　８５／８Ｖ
ＯＬ−Ｊ６８−Ｄ、　ＮＯ，８，ヘージ１４９７〜１５
０４）に示されているような方法を用いて得られている
とする。また、文字行ブロック内の各文字を分離する場
合、空白文字が存在すれば、それも子ブロック数が０の
文字として収り扱うこととする。

子ブロック間配置属性は、自分の背下にある複数個の子
ブロックの配置関係を表わされる上下関係又は左右関係
（縦書きの時右−左関係、横書きの時定→右関係）を持
つ、子ブロック分類名群は、そのブロックに含まれる１
つないし複数個の分類名（線１文字行２文字１文章）と
その個数が格納される。尚、分類名１子ブロック間配置
属性、子ブロック分類名群などは、後述される構造化に
おいて更新・セットされる。また、子ブロック分類名群
には、文字行や文章の分類名は、縦書き、横書きに別け
て記憶されているものとする。

第６図は、第４図で示した領域分割結果から文書構造を
自動生成した一例を示している。第６図で示す文書構造
の記述生成は、第５図で示したブロック間の分類名を構
造化条件として用いた一例であり、文字行の集まりとし
た新たに文章という分類名を持つブロック（図中Ｔ、で
示す）が生成されることになる。

尚、構造化条件は、第４図の場合では、縦書きである。

縦書き・横書き情報は、予め与えても良いし、また、従
来技術を用いて自動決定しても良い、また、複数個のブ
ロックが構造化され、唯一の親１０ツクとなる時には１
．新たなプロ・ｙりを生成する必要はない。

最初に、領域情報の探索として最も分割レベルの大きい
ブロック（文字行、線１文字行を形成しない文字１画素
表現の分類名を持つ０例えば、第４図の図中、ブロック
Ｒ１（４）、Ｒ２（４）。

Ｒｓ’（４））とそれらの親ブロック（第４図の図中Ｒ
２（３）のみ）が取り出される０次に、構造化条件のう
ち、縦書き・横書きの情報及び分割レベルＬ　１１　Ｉ
Ｉが検査される０分割レベルＬ、９が奇数の時、同−親
ブロックを持つ複数個のブロックを上下関係が成立する
順序で第５図で示した上下関係のポインタを用いて連結
することによって並べられる。一方、分割レベルＬ　Ｉ
Ｉ　ＩＩが偶数の時には、文章の流れから見ると、横書
きでは右左間係（第６図で図中φで示す）が成立し、縦
書きでは、左右関係が成立する。そこで、前述した同−
親ブロックＲ２（３）を持つ複数個のブロック（第４図
の図中Ｒ＋　　（４）、Ｒ２（４＞、Ｒ３（４））を、
左右関係が成立する順序で第５図で示した左右関係のポ
インタを用いて連結することによって並べられる（第６
図の図中Ｒ３（４）ゆＲ２（４）ゆＲ，（４））。

次に新たなブロックの生成又は親ブロックの属性が付加
される。第４図の例では、３つのブロックがＲｔ　　（
４）、Ｒ２（４）、Ｒｓ　　（４）がすべて文字行とい
う分類名（図中Ｓ＋　、ｉ＝５．６゜７）を持っている
ため、その親ブロックＲ２（３）がそのまま文章として
の分類名（図中′ｒ２）が付加される。ここで、分割レ
ベルＬ、１．子ブロック数、子ブロック間配置属性等の
ブロック情報のセット・更新が行われる。ここで、第４
図の場合では、分割レベル４の構造化が終了する。

次に、分割レベル３のブロック（第６図の図中ブロック
Ｒ，（３）、Ｒ２（３））とその親ブロックＲ＋（２）
が取り出される。尚、分割レベル３の領域は、第６図の
図中黒丸で示す文字領域が存在するが、それらの親ブロ
ックの分類名は、文字行であるため、取り出されないと
する。

同様に分割レベル３の２つのブロックＲ＋　　（３）と
Ｒ２（３）に前述した構造化条件が検査される。

この場合、ブロックＲ１（３）（分類名として画素表現
が既に付加されている）とＲ２（３）（分類名として文
章）とが上下関係ポインターが付けられ、分類名として
仮想ブロック（第６図の図中記号Ｍ、）が付加される０
次に、子ブロック分類名群に、文章（記号Ｔ）１画素表
現（記号Ｆ）が、子ブロック間配置属性として、上下関
係等のブロック情報が更新・セットされる。

ここで、分割レベル３の構造化が終了する。

次に分割レベル２のブロック（第６図ではＲ１（２）、
Ｒ２（２）、Ｒ３（２）、Ｒ４（２）。

Ｒ，＜２＞）とその親ブロックＲ＋（１）が取り出され
る。同様に、前述した構造化条件が検査され前に、Ｒｓ
（２）ないしＲ１（２）の順序で左右関係ポインタが付
けられる０次に、それらの分類名（この場合、４つの文
字行Ｓｔ　、　Ｓ２　、　Ｓｓ　。

Ｓ、と文章と画素表現ブロックを上下関係に含む仮想ブ
ロックＭ＋＞が順次調べられる。

この場合、４つの文字行が文章として構造化でき、更に
、それらの親ブロックＲ，（１）は、４つの文字行以外
に仮想ブロックＭ、を含んでいるため、新たな領域とし
て第６図図中矩形で示す分類名文章（Ｔ１）としてブロ
ックを生成する。次に、文字行ブロックＳ、と仮想ブロ
ックＭ１どの左右関係ポインタを切り離しく即ち、文字
行ブロックＳ、の左右関係ポインタをＮＵＬＬとする。

）、文章ブロックＴ＋の左右関係ポインタに仮想ブロッ
クＭ１を示すアドレスを入れる。

更に４つの文字行ブロックＳｔ　、３２　、Ｓ、。

Ｓ４に於ける第５図で示した新領域ポインタに新たに生
成された文章ブロックＴ、を示すアドレスが記憶される
と共に、文章ブロック′ｒ１に於ける第５図で示す子領
域ポインタには、先頭の子領域として文章ブロックＳ＋
を示すアドレスが記憶される。次に、文章ブロックＴＩ
の属性である分割レベル、をその子ブロックである４つ
の文字行３１゜Ｓ２・・・Ｓ４と同一の分割レベル２と
して、セットし、更に、前述したような他の属性値もセ
ットされる０次に、新たに生成された文章ブロックＴ１
から順次左右関係となるブロック（この場合、文章ブロ
ックＴ１と仮想ブロックＭ＋　）を取り出し、同様に前
述した構造化条件を調べる。この場合、ブロックＲ１（
１）に対して、仮想ブロック（図中Ｍ２）を表わす分類
名が与えられる。尚、仮想ブロックＭ２の第５図で示し
た子ブロック分類名群には、仮想ブロックＭｌ　　（尚
、仮想ブロックの場合には、その仮想ブロックに含まれ
る分類名、第６図の場合には、画素表現Ｆ１と文章Ｔ、
）と文章ブロックＴ＋の和、即ち２つの文章Ｔと画表表
現Ｆ）が格納される。

以下、同様な操作を行うことにより、第６図で示す文書
構造が生成され、各ブロックには、第５図で示す各属性
値が決定される。

そこで、第６図で示した文書構造の自動生成結果（第１
図の文書画像に対応する）を用いて、本発明の第１項に
記載された領域抽出法について説明する。第１項に記載
された領域抽出手段は、第６図で示したような木′ｕｉ
造を探索することにより所望の１つないし複数個のブロ
ックを所定の順序で抽出する。具体的な例として、下記
に示す２つの場合について説明する。最初に、第１図で
示した如く、書籍等見られる文章ブロックＴ１と文章ブ
ロックＴ２で示されたテキスト領域を文章として順次読
む場合を考える。

上記のような場合では、まず領域抽出手段は、第６図で
示した各ブロックの属性として、分類名、ブロック内分
類名群を順次ポインターを使って縦型探索を行うことに
より、第６図で示した文字行ブロックＳ、、３２．３３
　、Ｓ４．Ｓ、、Ｓ、。

Ｓ７を文章を読゛み収るべき順序で容易に抽出すること
ができる。

ここで、各ブロックにはブロック内分類名群が記載され
ているので、各ブロックに所望の文字行ブロックが含ま
れていなければ、このブロックの縦型探索を中止するこ
とができ、効率的に得られる。尚、所望の文字行ブロッ
ク（Ｓ、、Ｓ２・・・Ｓ７）の各文字イメージあるいは
従来技術を用いた文字認識も上記領域抽出手段によって
得られた結果から容易に求まることは言うまでもない。

次に、第１図で示した如く、画素表現ブロックＦｌの下
にある３つの文章ブロックＴ２で示された領域のみを読
み取る場合を考える。

この場合、領域抽出手段は、第６図で示した木構造で表
現された各ブロックを縦型探索を行いながら、各ブロッ
クの属性を調べるのは前述した文書画像のテキスト領域
の読み取りを行う場合と同様であるが、唯一の相違点は
最初に、キーとなる画素表現ブロックＦ１を探索する点
のみである。

即ち、第６図で示した本構造に対して縦型探索を行うと
、まず文章ブロックＴ、が見つかる。文章ブロックＴ１
の中には、画素表現ブロックはないので、文章ブロック
ＴＩの背方の探索が中止され、次に仮想ブロックＭ１が
調べられる。仮想ブロックＭ１のブロック内分類名群に
は、画素表現ブロックが存在するので、更に探索を行な
うことによって画素表現ブロックＦ＋が検出される。こ
のようにして画素ブロックＦＩの下方にある文字行ブロ
ックＳｓ　、Ｓ６．Ｓｔを抽出し、文字を読み取るのは
容易にできる。また例えば、画素表現Ｆ、の右側にあり
、隣接する文字行ブロックＳ４のみを抽出することも容
易にできる。

尚、第１図では、画素表現ブロックＦ　＋が１個のみで
あったが、複数個あるような場合には、キーとなるブロ
ック群を探索する時、領域のおおよその位置大きさを与
え、各ブロックの属性値としての位置、大きさとの検査
を含めてキーとなるブロック群を見つけることができる
ことは言うまでもない。

第７図は、第２図で示した横書きの文書画像に対して領
域分割を行った結果を示す一例である。

尚、第７図で示す領域分割結果は、第４図で示した如く
、前述した同一出願人による「スプリット検出法に基づ
く頁画像の構造解析」に記載されているような従来技術
を用いて実現できる。また、図中、文字領域については
省略する。

第８図は、第７図の領域分割結果に対して文書構造の記
述生成を行った一例である。第８図で示す文書構造の自
動生成は、構造条件として第５図で示したブロック間の
分類名、ブロック間距離及び文字ピッチ推定値′を用い
た一例である。第８図の場合にも、第６図の場合と同様
な処理で実現でき、、第８図の場合には、第２図で示し
た文章ブロックＴ１が上記構造化条件から２つの文章ブ
ロックＴ２．Ｔ３に分解できる点が異なる。また、第８
図で示す仮想ブロックＭ、は、ブロック内分類名群とし
て２つのｆＪ書き文章を示す分類名、ブロック間配置属
性として左右関係を示し情報が記憶されている。尚、第
８図の場合、文字行ブロック文章ブロック等の左右の配
置関係は、横書きであるため、左→右への関、係で得ら
れ−る。

ここで第８図で示す本構造針探索することによって所望
の領域を抽出できることを示す０例えば、第２図で示す
文章ブロックＴ、とＴ６内の各文字を所定の順序で抽出
し、従来の文字認識を用いて文字コード列に変換する場
合を述べる。最初に、文章領域Ｔ　ｓ　、　Ｔ　ｂから
成る２段組のブロック（図中仮想ブロックＭ”１）を探
索する。例えば、ブロックＸ及びｙ（ブロックＸ及びｙ
の条件として、その子ブロック配置属性が上下関係にあ
る）が左右関係Ｘφｙを含むブロック（Ｘφｙ）を探索
すると、ブロック（Ｘφｙ）として第８図の仮想ブロッ
クＭ１が検出される。

次に、仮想ブロックＭ１から順次縦型探索をして、文字
行ブロックＳ６・・・ｓｒｓを取り出し、それぞれの文
字行ブロックＳ６・・・３１５に各文字ブロックを順次
取りだして文字認識を行えば良い。

尚、上述した２段組を意味するプロ・ｙりを探索する際
、ブロックＸ及びブロックＹの条件としてその子ブロッ
ク配置属性のみを用いたが、属性として第５図で示す位
置、サイズ等も使用できる場合には、それを用いても良
い。

また、第８図の文章ブロックＴ１内の２つの文字行Ｓｔ
、Ｓｓを探索することも例えば−２＆（ｘ＜）ｙ）（但
し、ｘ、ｙは前述した条件とし、２は、文章ブロックと
する）を満たすブロック２を探索すると、第８図の文章
ブロック２が検出される。

今、文字行ブロックＳ−、Ｓｓ即ち、第２図で示した２
段組の上方にある２つの文字行ブロックを見つけるので
あるから、例えば、ｚ１８ｚ２　（但し、ブロックＺｌ
、Ｚ２はブロックＺに含まれる文字行であり、ｚ２は最
も下にあるブロックとする）を満たすブロックＺ、、　
ｚ２を求めれば良い。

尚、以上の説明で述べたように、第８図で示したような
本構造を探索し、所望のブロックを抽出する場合、予め
抽出すべき領域等をブロックの属性及び相対的配置関係
に従って言語として定義して置き、これに従って本構造
を探索するようにしても良いし、前述したように処理手
順をプログラムして置き、これに従って木構造を探索し
ても良い。

以上、述べた如く、本願の第１の発明の文書画像解析方
式により抽出すべき領域は、第８図で示す本構造で表現
された入力文書画像のブロック群を探索することによっ
て求めることができる。尚、探索方法は、縦型探索とし
て説明したが横型探索を用いて行っても良い。

第９図、第１０図、第１１図は本願の第１の発明の文書
画像解析方式を説明するための図である。第９図は、横
書き文書画像の一例である。第９図において、図中斜線
で示す矩形及び丸領域はそれぞれ図や表等の画素表現領
域１文字領域である。解析対象領域Ｐに対して、第３図
で述べた領域分割方式を適用すると、図中８１　（但し
、ｉ＝１．・・・６）及びＦで示す文字行ブロック及び
画素ブロックが得られる。ここで、Ｓｌは図の注釈やキ
ャプション等の文字を含む文字行とし、Ｓ２・・・Ｓ６
は通常の文章領域とする。文字行ブロック内の各文字は
、例えば、前述した文字分離方式によって一文字毎に切
り出され、図中点線で示したように分けられる。

ここで、図中Ｃ１よ＋　ＣＩ＋６．　Ｃ２４１Ｃ３１１
Ｃ％３゜Ｃ６＋で示す空白領域を始端及び終端の文字ブ
ロック位置と文字行ブロックの始端及び終端位置との比
較により求め、空白ブロックとする０次に、第８図で示
したようにして、第９図の文書構造の自動生成を行うと
、第１０図で示すようになる。尚、第１０図は、構造化
条件として、第５図で示したブロック間の分類名、ブロ
ック間距離及び文字ピッチ推定値を用いた一例である。

ここで、文章は、通常、節、段下げなどを用いてパラグ
ラフなどの論理構造がとられ、この単位で文章領域を分
割して置くことは、文書イメージの文字コード列の変換
や所望の文書領域を抽出する際に有効である。

また、見出し、キャプションや章題なとは、文字行の始
端や終端あるいはその両方に空白ブロックが存在するこ
とが特徴の１つである。

そこで、文章ブロック１゛内の各文字行３２゜Ｓ３１・
・・Ｓ６に於ける空白ブロックＣｔａ、Ｃ３１・Ｃ５３
，Ｃ６１に従って、文章ブロックＴを分解すると、第１
１図に示す如く、文字行３２．文字行Ｓ、。

Ｓ、、Ｓ、、から成るパラグラフブロックＵ１文字行Ｓ
６の３つのブロックから構成される。

また、文字行Ｓ、は文章ブロックＴの上方にあり、また
画表ブロックＦの下方にあり、両端に２つの空白ブロッ
クＣ１１ｌＣ１６があるため、画素ブロックＦのキャン
プジョンを示す文字行ブロックであることがわかる。

以上のようにして、特に文章ブロック内の文字行の性質
や複数個の文字行ブロックの統合、更には、文字行ブロ
ック自身の論理的性質を抽出して置くことによって、前
述して抽出すべき領域を第１１図で示すような木構造を
用いて探索する場合、容易となる。

第１２図は本願の第１の発明の一実施例を示す論理ブロ
ック図である。

図において、１は文書画像を量子化された画像情報とし
て記憶する文書画像メモリである。２は領域分割部であ
る。領域分割部２は、文書画像メモリ１の文書画像に対
して第３図で説明したように、上下関係及び左右関係の
配置関係を保持しながら大局的領域から局小的領域へ領
域分割を行う機能を有しており、第４図あるいは第５図
で示したような領域分割過程で得られるブロック情報は
順次構造化データ記憶部４に格納する。ここで、領域分
割部２から出力されるブロック情報のうち、文字行ブロ
ックの子領域となる文字ブロックについては、文字分離
部１５において１文字単位の領域情報に変換され、構造
化データ記憶部に格納される。

また、領域分割部２は、領域分割結果から文書画像が縦
書きか横町きかを判定し、その結果を縦・横情報記憶部
３に記憶する。

尚、！造化データ記憶部４に格納された各ブロック情報
のポインタ関連（親領域ポインタ、子領域ポインタ、上
下関係ポインタ、左右関係ポインタなど）の値は、各ブ
ロックの構造化データ記憶部４内での相対位置によって
表現されるとする。

更に、各ブロックには構造化データ記憶部４内の自分自
身の相対位置もブロックの属性値として相対位置ポイン
タに記憶されているとする。

また、相対位置カウンタ１１には領域分割部２から構造
化データ記憶部４に格納された最後のブロックの次の相
対位置が初期値として記憶されているとし、相対位置カ
ウンタ１１はその値が読み出された時、各ブロック情報
単位でカウントアツプされるものとする。

次に、ブロック情報制御部４は第６図で示したように分
割レベルが最大となる構造化対象となる複数個のブロッ
ク及びそれらの親ブロック（分割レベルが１つ少ないブ
ロック）をペアーとじて構造化データ記憶部４から取り
出すと同時に、前述した分割レベル及び縦・横情報記憶
部３のＭｌ書き／横書き情報を用いて、各ブロックの上
下関係及び左右関係ポインタに、そのブロックに連結す
るブロックの相対位置を記憶する。更に、それらの親ブ
ロックの子領域ポインタには、最初に親ブロックから探
索されるブロックの相対位置を記憶し、親ブロック及び
複数個の構造化対象ブロックを対象データ記憶部６に格
納する。

次に、ブロック情報制御部５は、対象データ記憶部６か
ら親ブロック及び複数個の構造化対象ブロックを読み出
し、構造化検査部８に転送する。

構造化検査部８は、第６図及び第８図で説明したように
、複数個の構造化対象ブロックの属性値に於ける構造化
条件を記憶した条件記憶部７の内容に従って、複数個の
構造化対象ブロックの属性値を順次検査する。上記検査
を順次行なった時、新たなブロックを生成する必要が生
じた場合、前述した親ブロック及び複数個の構造化対象
ブロックをブロック生成部９に転送する。ブロック生成
部９では、複数個の構造化対象ブロックのうち、構造化
されるべき複数個にブロックの属性に従って新たなブロ
ックを生成し、第６図及び第８図を用いて説明したよう
に、新たなブロックの子領域ポインタに、構造化される
べき先頭のプロ・ツクの相対位置を記憶し、構造化され
るべき複数個のブロックの親領域ポインタには、新たに
生成されたブロックの相対位置を記憶する０次に、構造
化されるべき複数個のブロックと未検査となっているブ
ロックとの上下又は左右関係のポインタの切り離し処理
が行われる。

尚、新たに生成されたブロックの相対位置ポインタには
相対位置カウンタ１１の値が読み出され、セットされて
いるものとする。

また、新たに生成されたブロックの親領域ポインタには
、その構造化されるべき複数個のブロックに於ける親ブ
ロックの相対位置が記憶される。

次に、ブロック生成部９によって、複数個の構造化対象
ブロックのうち、前述したようにして構造化された複数
個のブロックが、構造化データ記憶部４の所定の相対位
置に書き込まれ、新たに生成されたプロ′ツク及び複数
個の構造化対象となる未検査ブロックとその親ブロック
が再度構造化検査部８へ送られ、前述した処理が繰り返
される６次に、構造化検査部８で１４１次検査される複
数個の構造化対象ブロックに対して新たなブロックを生
成する必要がない場合、複数個の構造化されるべきブロ
ック及びその親ブロックを属性決定部１０へ転送する。

属性決定部１０では、親ブロックの属性値を第６図で説
明したようにして決定し、構造化データ記憶部４の所定
の相対位置に親ブロック及び複数個の構造化ブロックを
書き込む。

次に、ブロック情報制御部５は、前述したようにして、
構造化を行った分割レベルを持つ親ブロックと複数個の
′！ｙ４造化対象ブロックのベアーが対象データ記憶部
６に残っていれば、それらのベアーを順次、構造化検査
部８へ転送する。

一方、対象データ記憶部６が空であれば、次に分割レベ
ルを１２減らし、構造化対象となるブロック及びその親
ブロックのベアーを構造化データ記憶部４から取り出し
、以下、分割レベル１のブロックが構造化対象として取
り出されるまで同様な動作が行われる。その結果、構造
化データ記憶部４に、文書画像メモリ１仲格納された文
書の構造が木構造として、自動生成されることになる。

以上説明した文書構造生成部２０（図中点線で示す）に
よって、領域分割部２、及び文字分離１５に置いて得ら
れた文書画像の本構造として分割された結果を再度ボト
ムアップ的に見直され、文書の構造が構造化データ記憶
部４に格納されることになる。

次に、第６図及び第８図で示したように、領域探索部１
３は、予め抽出すべき１つないし複数個のブロックの属
性及び配置関係に関する条件を記憶した領域定義記憶部
から読み出し、前記条件に従って、構造化データ記憶部
４に格納された文書画像内のブロック間の配ａ！構造を
示す木構造を探索し、抽出すべき１つないし複数個のブ
ロックを所定の順序で抽出結果記憶部１４に格納する。

第１３図は本願の第２の発明の一実施例を示す論理ブロ
ック図である。図において、文書画像メモリ１、領域分
割部２、文字分離部１５は、第１２図に説明した機能を
持つ。空白ブロック検査部２１は、領域分割部２及び文
字分離部１５を介した得られるブロック情報に於いて、
その背方の複数個の子ブロック情報（例えば、文字行ブ
ロックに対する複数個の文字ブロック）のうち、始端と
なる子ブロックの位置及び終端となる子ブロックの位置
を選択し、それらの位置及びその親となるブロック情報
の始端・終端位置の差を算出し、ブロック情報の始端及
び終端の空白サイズを求める。空白サイズを予め定めた
閾値あるいは文字ピッチなどの文字サイズと比較するこ
とにより、空白ブロックを検出する。

尚、空白ブロックが検出された場合、それも１つのブロ
ック情報として加えられると共に、空白ブロックが検出
された親ブロックの属性値として、空白ブロックの存在
位置（始端又は終端）及び空白ブロックの位置・大きさ
が記憶されるとする。

そこで、構造化データ記憶部４は第１２図で示した機能
と同等であるが、空白ブロック情報も含めて記憶される
点が異なる。

縦・横情報記憶部２に記憶された縦書き横書き情報を読
み出し、文書構造生成部２０によって、第６図、第８図
から第１０図で示したような文書の配置構造を生成する
機能は、第１２図で示した場合と同等である。

文書ブロック検査部２２は、第１１図で説明したように
、文書ブロック情報とその子ブロックとなる複数個の文
字行ブロック情報を順次構造化データ記憶部４から取り
出し、文字行ブロックの属性として記憶されている空白
ブロックの存在位置、大きさを文章ブロックを構成する
文字行ブロックすべてについて順次検査し、パラグラフ
ブロックを構成する複数個の文字行ブロックを検出する
。

パラグラフブロックを構成する複数個の文字行ブロック
が文章ブロック検査部に於いて検出されると、ブロック
更新部２３に於いて、パラグラフブロックを生成し、そ
の属性値をそれを構成する複数個の文字行ブロック情報
に従って生成する。また、パラグラフブロックの親領域
ポインタには、その文書ブロックの相対位置が記憶され
、また、パラグラフブロックの複数個の文字行ブロック
の親領域ポインタには、新たに生成されたパラグラフブ
ロックの相対位置となる第１２図に示した文書ｌｆｌＡ
ｍ生成部２０内の相対位置カウンターの内容が読み出さ
れてセットされる。

尚、パラグラフブロックの子領域ポインタはそれを構成
する先頭の文字行ブロックの相対位置が記憶され、パラ
グラフを構成する複数個の文字行ブロックの始端及び終
端ブロックの上下又は左右関係ポインタの切り離し、及
びパラグラフブロックの上下又は左右関係ポインタとそ
れに隣接する文字行ブロック又はパラグラフブロックの
上下又は左右関係ポインタでの接続も行われる。

次に、１つの文書ブロックとそれを構成する複数個の文
字行ブロックに対して、文章ブロック検査部２２及びブ
ロック部２０において、パラグラフブロックの検出・生
成が行われると、ブロック更新部２３によって、それら
のデータが構造化データ記憶部４の所定の相対位置に書
き込まれる。

以上の操作を構造化データ記憶部４に格納されたすべて
の文書ブロックとそれを構成する複数個の文字行プロ、
ツタについて行われることによって、文章ブロックは、
それを構成するパラグラフブロック単位に構造化される
。

尚、ここで、パラグラフを構成しなかった文字行ブロッ
クの属性値として空白ブロック情報も含まれており、文
字行の性質を表わす文字ピッチと共に利用できることは
言うまでもない。

領域定義記憶部１２．領域探索部１３．抽出結果記憶部
１４については第１２図で説明した第１項記載の本願発
明と同等である。

（発明の効果）以上に説明したように、本願発明の文書画像解析方式に
よれば、ブロックの包含関係及び上下又は左右の相対位
置関係に従って、種々な文書画像を構成する要素及び要
素間の配置構造が階層的に自動生成され、同時に文章情
報の流れやパラグラフ等の論理的構造も得られる。そこ
でこの配置構造から様々な目的に応じて定められる領域
を探索することによって、安定にしかも容易に１つない
し複数個の領域の抽出を行うことかできる。

【図面の簡単な説明】

第１図及び第２図はそれぞれ縦書き及び横書きで記載さ
れた文書画像の構成を示す図である。第３図は上下及び
左右関係の分割方向を交互に規定しながら階層的に領域
分割を行う文書領域分割方式の一例を示す図である。第４図及び第７図は、それぞれ、第１図及び第２図の文
書画像の領域分割結果の一例を示す図である。第５図はブロック情報の一例を示す図である。第６図及び第８図は、第４図及び第７図でそれぞれ示し
た領域分割結果から本願の第１の発明によって文書構造
を自動生成した例を示す図である。第９図は文書画像の一例を示す図である。第１０図及び第１１図は第９図の文書画像に対して適用
する場合における本願の第２の発明の文書画像解析方式
を説明する図である。第１２図は本願の第１の発明の一実施例を示す論理ブロ
ック図である。第１３図は本願の第２の発明の一実施例を示す論理ブロ
ック図で′ある。図において、１は文書画像メモリ、２は領域分割部、３
は縦・横１報記憶部、４は構造化データ記憶部、５はブ
ロック情報制御部、６は対象データ記憶部、７は条件記
憶部、８は構造化検査部、９はブロック生成部、１０は
属性決定部、１１は相対位置カウンター、１２は領域定
義記憶部、１３は領域探索部、１４は抽出結果記憶部、
１５は文字分離部、２０は文書構造生成部、２１は空白
ブロック検査部、２２は文章ブロック検査部、２３はブ
ロック更新部である。

Claims

【特許請求の範囲】

（１）文書画像を文字行、文字等の要素領域に分解する
手段と、１つ又は複数個の前記要素領域をブロックとし
て構造化する際、各ブロックの包含関係及び上下又は左
右の配置関係に従って、前記ブロックの属性及びブロッ
ク間の配置構造を階層的に決定し、記憶する文書構造生
成手段と、前記ブロックの属性及びブロック間の階層的
な配置構造から、前記文書画像内の抽出すべき領域又は
前記抽出すべき領域を構成する１つ若しくは複数個のブ
ロックを探索する領域探索手段とを有することを特徴と
する文書画像解析方式。
（２）文書画像を文字行、文字等の要素領域に分解する
手段と、１つ又は複数個の前記要素領域をブロックとし
て構造化する際、各ブロックの包含関係及び上下又は左
右の配置関係に従って、前記ブロックの属性及びブロッ
ク間の配置構造を階層的に決定し、記憶する文書構造生
成手段と、文字行ブロック内の所定の位置・大きさを持
つ空白を空白ブロックとして抽出する手段と、前記文書
構造生成手段によって生成された複数個の文字行を含む
ブロックから前記空白ブロックを基にして各文字行ブロ
ックの形状を調べ、前記文書画像に於ける配置構造を更
新する文書構造更新手段と、前記階層的な配置構造から
前記文書画像内の抽出すべき領域又は前記抽出すべき領
域を構成する１つ若しくは複数個のブロックを探索する
領域探索手段とを有することを特徴とする文書画像解析
方式。