JPH1166230A

JPH1166230A - 文書認識装置、文書認識方法及び媒体

Info

Publication number: JPH1166230A
Application number: JP9216873A
Authority: JP
Inventors: Yoshihiko Matsukawa; 善彦松川; Kenji Kondo; 堅司近藤; Tsuyoshi Megata; 強司目片
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-08-11
Filing date: 1997-08-11
Publication date: 1999-03-09

Abstract

(57)【要約】【課題】文書の構造を解析し、文字の認識が効率良く出
来ないと言う課題。【解決手段】文書領域初期化装置は文書領域オブジェク
トを生成し、黒画素外接矩形抽出装置１０８は連結黒画
素成分の外接矩形を抽出し、空白帯抽出装置は領域オブ
ジェクト内の白画素の帯を空白帯として抽出し、文書領
域分割装置１０９は文書領域を識別・分割し、段落領域
分割装置１１０は文字列の集合である段落を分割し、文
字列領域分割装置１１１は文字の集合である文字列を分
割し、文字領域分割装置は文字領域オブジェクトの属性
を初期化し、文字認識装置１０５は文字領域の文字認識
を行い、閉領域分割装置１１２は空白帯によって分割で
きない閉領域を識別・分割し、各分割装置において分割
された領域を領域オブジェクトとして生成し隣接あるい
は包含関係を属性として持たせることにより領域分割木
を生成し、全領域オブジェクトを分割できなくなるまで
分割を行う構成。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書画像の構造を
解析し、文書中のデータを電子化するために使用する文
書認識装置、文書認識方法及び媒体に関するものであ
る。

【０００２】

【従来の技術】文書画像の構造を解析しようとした場
合、黒画素領域を抽出し、抽出された黒画素領域の間に
存在するセパレータ（空白領域、あるいは罫線）を基に
画像を領域分割する。文書の内容が大きく変化するセパ
レータをうまく抽出することが必要である。

【０００３】従来の装置において文書画像の構造を解析
する場合、画像から文字列、縦横罫線、その他の黒画素
領域を抽出する。以降の処理は、抽出された矩形データ
を基に行われる。

【０００４】まず、矩形の座標位置からセパレータとな
るような長く幅のある白領域や長い罫線を全て抽出す
る。次に、図形領域を除いた後に抽出されたセパレータ
を用いて、文字領域を大まかに分割する。さらに、文字
領域内で行ピッチや文字サイズの変化から構成要素の切
れ目（サブセパレータ）を求め、このサブセパレータに
従って領域をさらに細分化する。このようにして画像を
解析して領域構造データが木構造として得られる。ここ
で、黒画素領域を抽出する方法は、白ランにローパスフ
ィルタを適用することにより近接する黒画素を一つにま
とめてゆくボトムアップ的な手法を用いている。又、領
域を分割する際には、縦・横交互に領域分割を行ってい
る。

【０００５】

【発明が解決しようとする課題】しかしながら従来の装
置では、文書が枠で囲まれた場合や表などの領域が文書
内に存在した場合、罫線が孤立していない（縦・横の罫
線が接している）ために、枠や表の中まで領域分割を進
めることができなかった。又、ある一定閾値以上の大き
さの白領域で大まかに分割しているため、様々なサイズ
の文字が混在する文書では、閾値の設定が困難であっ
た。つまり、大きな文字の領域を参照して設定された閾
値は、小さな文字の領域には使用できないことになる。
その結果、最終的に得られる領域構造データである木構
造は、文書の領域構造から大きくずれることになり、後
で修正を行わなければならなくなると言う課題が有っ
た。

【０００６】これに対して、本願発明者は、分割対象領
域毎にセパレータをうまく選択することにより、得られ
る木構造が修正をしなくても領域構造をうまく表現でき
るようにしている。最終的に分割対象領域内の空白領域
と罫線とを抽出し、抽出した後はそれぞれを区別するこ
となく同じセパレータとして考え、その代わりに分割す
る際にセパレータに優先順位を持たせることにより処理
を簡単化している。また、分割対象領域毎に分割する際
に、空白領域が見つからなければ、罫線を探してセパレ
ータとして設定させることにより、枠に囲まれた文書や
文書内に表が存在してもうまく領域分割できるようにし
ている。

【０００７】又、従来の手法では、領域の内容まで立ち
入らなかったため、もしよく似たフォーマットの文書が
入力された場合にそれ以上絞り込むことが出来ないた
め、文書認識が効率的に行えないと言う課題が有った。
フォーマットの構造から文字認識の結果を利用すればフ
ォーマットの限定が容易になる。また、全ての領域が一
次元的に取り扱うのではなく、フォーマットをツリー構
造にすることによって識別されたフォーマットをより限
定することができる。

【０００８】本発明は、従来の装置のこの様な課題を考
慮し、文書認識がより一層効率的に行うことが出来る文
書認識装置、文書認識方法及び媒体を提供することを目
的とする。

【０００９】

【課題を解決するための手段】請求項１記載の本発明
は、文書領域オブジェクトを生成する文書領域初期化手
段と、連結黒画素成分の外接矩形を抽出する黒画素外接
矩形抽出手段と、領域オブジェクト内の白画素の帯を空
白帯として抽出する空白帯抽出手段と、文書領域を識別
分割する文書領域分割手段と、文字列の集合である段落
を分割する段落領域分割手段と、文字の集合である文字
列を分割する文字列領域分割手段と、文字領域オブジェ
クトの属性を初期化する文字領域分割手段と、前記空白
帯によって分割できない閉領域を識別分割する閉領域分
割手段とを備え、前記各分割手段において分割された領
域を領域オブジェクトとして生成し隣接あるいは包含関
係を属性として持たせることにより領域分割木を生成
し、全領域オブジェクトを分割できなくなるまで分割し
た時点で、前記領域分割木が前記文書領域オブジェクト
のフォーマット情報を示す文書認識装置である。

【００１０】請求項９記載の本発明は、入力文書画像か
ら文書データの領域を認識する文書認識方法であって、
前記入力文書画像から罫線の抽出及び／又は文書データ
の存在しない空白帯の抽出をし、その抽出した罫線及び
／又は空白帯を用いて前記画像データを所定の領域に分
割し、前記分割された所定の領域から罫線及び／又は空
白帯を抽出し、その抽出した罫線及び／又は空白帯を用
いて前記所定の領域を更に分割し、前記分割を繰り返し
行い、前記分割の包含関係を領域分割木として生成し、
前記文書データのフォーマット情報として出力する文書
認識方法である。

【００１１】これにより、例えば、文書領域初期化装置
は文書領域オブジェクトを生成し初期化し、黒画素外接
矩形抽出装置は連結黒画素成分の外接矩形を抽出し、空
白帯抽出装置は領域オブジェクト内の白画素の帯を空白
帯として抽出し、文書領域分割装置は文書領域を識別・
分割し、段落領域分割装置は文字列の集合である段落を
分割し、文字列領域分割装置は文字の集合である文字列
を分割し、文字領域分割装置は文字領域オブジェクトの
属性を初期化し、文字認識装置は文字領域の文字認識を
行い、閉領域分割装置は空白帯によって分割できない閉
領域を識別・分割し、前記各分割装置において分割され
た領域を領域オブジェクトとして生成し隣接あるいは包
含関係を属性として持たせることにより領域分割木を生
成し、全領域オブジェクトを分割できなくなるまで分割
を行い、領域分割木をフォーマット情報として得る。

【００１２】

【発明の実施の形態】以下、本発明の文書認識装置の一
実施の形態について述べる。

【００１３】なお、本発明を実施するにあたりオブジェ
クト指向を導入する。オブジェクト指向によるメリット
は、問題を整理することができ、プログラムの細部をカ
プセル化できることにある。実施の形態の説明に入る前
にここで用いられるクラスについて述べておく。本実施
の形態でオブジェクトとして考えられるのは領域オブジ
ェクトである。領域オブジェクトは、位置情報、領域の
種類を表すクラス情報、領域の書式情報、領域内を分割
しているセパレータ情報、領域分割木を構成する隣接及
び包含情報、領域内に含まれる黒画素外接矩形情報、領
域の幾何学的な構造を示す構造情報、領域内の文字幅の
推定値等を属性値として持っている。この領域オブジェ
クトの基本的な領域のクラスをSegCellクラスと呼び、S
egCellクラスを基本クラスとしてこれから派生された以
下のクラスの領域オブジェクトが生成される。

【００１４】・ＤｏｃＣｅｌｌクラス（文書領域：文
書全体、或いは組み込まれた文書）・ＰａｒａＣｅｌｌクラス（段落領域：文字列の集
合）・ＴｅｘｔＣｅｌｌクラス（文字列領域：文字の集
合）・ＣｈａｒＣｅｌｌクラス（文字領域）・ＯｔｈｅｒＣｅｌｌクラス（閉領域：図表、罫線、
写真など文字領域以外の領域の総称）・ＴａｂｌｅＣｅｌｌクラス（表領域）・ＬｉｎｅＣｅｌｌクラス（罫線領域）・ＦｉｇＣｅｌｌクラス（図領域）・ＰｉｃｔＣｅｌｌクラス（写真領域）まず、図１を用いて本発明の文書認識装置の一実施の形
態の構成及び動作について述べるとともに、本発明の文
書認識方法の一実施の形態についても同時に説明する。

【００１５】画像入力装置から文書画像を入力し、文書
領域初期化装置において入力された文書画像全体を一つ
の領域とみなして文書領域オブジェクト（DocCellクラ
ス）を生成・初期化し、文書領域分割装置において文書
領域オブジェクトを領域識別・分割し、また分割された
領域の識別結果に応じた領域オブジェクトを生成・初期
化し、段落領域が生成されれば段落領域分割装置を用い
て文字列に分割して文字列領域オブジェクトを生成・初
期化し、文字列領域が生成されれば文字列領域分割装置
を用いて文字に分割して文字領域オブジェクトを生成・
初期化し、閉領域が生成されれば閉領域領域分割装置を
用いて領域識別・分割し、また閉領域分割装置によって
分割された領域のクラスに応じた領域オブジェクトを生
成・初期化し、生成された領域のクラスに応じた処理を
行う。例えば、表領域であればさらに罫線を基に分割し
てゆき、図や写真領域であれば領域内の画像を圧縮する
等を行う。このような方法によって分割ができなくなる
まで領域を階層的に分割する。また、文字列領域分割装
置において生成された文字領域オブジェクトは文字領域
分割装置においてその属性値が設定される。図２は文書
領域クラス（DocCellクラス）がどのように分割されて
ゆくかを階層構造で示した図である。特徴的なのは文書
領域クラス（DocCellクラス）と閉領域クラス（OtherCe
llクラス）であり、そのどちらも対応する領域分割装置
において領域の識別が行われ、分割されてさらに文書領
域クラス（DocCellクラス）を生成する可能性がある。
例えば、２段組の文書の場合、領域全体を示す文書領域
オブジェクトが分割されて左右２つの新しい領域オブジ
ェクトを生成するといった場合などがそうである。

【００１６】次にセパレータの一つである空白帯を抽出
する空白帯抽出装置を図３をもとに説明する。まず、縦
方向と横方向のセパレータ（数１）３０２及び（数２）
３０１を求める。ここで、ｉは、Ｓ_Vの添え字であり、
ｊは、Ｓ_Hの添え字である。

【００１７】

【数１】

【００１８】

【数２】

【００１９】それぞれのセパレータはその方向と直交す
る座標の区間によって表現される。すなわち、

【００２０】

【数３】

【００２１】となる。ここで、ｎ_V、ｎ_Hはそれぞれ縦、
横方向の空白帯の個数であり、どちらも２以上の数とな
る。

【００２２】ここで、セパレータの求め方であるが、空
白帯がセパレータの場合は、対象となっている領域内の
射影分布を縦または横方向について求め、射影分布中で
ある閾値（例えば１）より小さい区間をセパレータとし
ている。一方、罫線がセパレータの場合は罫線の抽出ア
ルゴリズムによって抽出された罫線を包含する区間をセ
パレータとしている。なお、射影分布を求める際に実際
の画像の黒画素を計数するのではなく、領域オブジェク
ト内に設定された黒画素外接矩形を用いると高速に処理
する事が可能であり、また複雑な形状の領域であって容
易に処理できる。さらに、この黒画素外接矩形を用いる
ことにより、画像の傾き補正も高速に行える。つまり、
文書画像全体にアフィン変換をかけると非常に処理時間
がかかるが、外接矩形のみを回転するのはそれほど処理
時間はかからない。例えば、外接矩形の重心を回転し外
接矩形の幅・高さを回転角度に応じて補正したものを回
転された外接矩形の幅・高さとすることにより高速化が
はかれる。また、もとの外接矩形に内接する円（中心と
半径）を回転させてもよい。このように画像を取り扱わ
なくてもよい部分では外接矩形を用い、文字認識などの
原画像が必要な場合にはもとの外接矩形に囲まれた画像
を用いればよい。

【００２３】次に、後述する説明に使用する記号の定義
を記しておく。

【００２４】・セパレータＳ_Vi，Ｓ_Vi+1間、及びＳ_Hj，
Ｓ_Hj+1間の区間をそれぞれＧ_Vi、及びＧ_Hjとすると、こ
れらＧ_Vi、Ｇ_Hjは、数４、数５のように表せる。尚、図
３では、Ｇ_Viに符号３０４を付し、Ｇ_Hjに符号３０３を
付した。ここで、ｉ，ｉ＋１，ｊ，ｊ＋１は、上記
Ｓ_V，Ｓ_H，及びＧ_V，Ｇ_Hの添え字である。

【００２５】

【数４】

【００２６】

【数５】

【００２７】・セパレータＳ_Viや、セパレータ間等の区
間の大きさ（幅）を求める関数をｗ（ｘ）とすると、セ
パレータＳ_Viの大きさは、ｗ（Ｓ_Vi）と表現できる。

【００２８】・その他、変数の平均をμ（ｘ）、標準偏
差をσ（ｘ）、最大値をｍａｘ（ｘ）、そして最頻値
をｆ（ｘ）とする。変数ｗの最頻値ｆ（ｗ）は以下の式
（数６）で求められる。

【００２９】

【数６】

【００３０】ここで、Ｄ（ｗ）は頻度関数であり、（数
７）は頻度関数を平滑化した関数である。

【００３１】

【数７】

【００３２】である。例えばｎ＝５である。

【００３３】このようにして求められたセパレータをも
とに領域が分割されてゆくが、中でも文書領域クラスと
閉領域クラスのオブジェクトの分割時に領域の識別処理
（クラス分け）が行われるという意味で、文書領域分割
装置と閉領域分割装置とは特殊な動作を行う。まず、図
４を用いて文書領域分割装置の動作を説明する。孤立罫
線抽出装置４０２によって孤立罫線が抽出されればこの
孤立罫線をセパレータとして領域を分割する。もし孤立
罫線が存在しなければその対象領域が段落領域クラス
（ParaCellクラス）及び文字列領域クラス（TextCellク
ラス）かどうかを、文字列判定装置４０３及び段落判定
装置４０４を用いて調べ、このどれでもなければ分割に
使用するセパレータ（空白帯）を文書領域構造識別装置
４０５を用いて選択し、選択されたセパレータをもとに
領域分割する。なお、いずれの場合もセパレータが選択
されれば再分割領域生成装置４０６によって分割された
領域オブジェクトが生成・初期化されてその領域のクラ
スに応じた領域分割装置が呼び出されるようになってい
る。さらに、分割するセパレータが存在しない場合は閉
領域クラス（OtherCellクラス）の領域オブジェクトを
生成・初期化し閉領域分割装置１１２を呼び出す。

【００３４】次に図５を用いて閉領域分割装置１１２に
ついて説明する。閉領域の領域識別においては罫線が重
要な意味をなしている。閉領域分割装置１１２では、罫
線抽出装置５０１にて罫線を抽出し、罫線が複数存在す
れば広い意味での表（あるいは帳票、TableCellクラ
ス）と識別し、罫線で囲まれる領域を新しい文書領域オ
ブジェクトを再分割領域生成装置５０２によって生成・
初期化し、それ以外で罫線が１本であれば罫線領域オブ
ジェクト（LineCellクラス）、領域の大きさが文字の大
きさに近ければ文字領域クラス（CharCellクラス）、黒
画素の密度により写真領域クラス（PictCellクラス）又
は図領域クラス（FigCellクラス）と識別する。そし
て、それぞれの領域クラスに対応した領域オブジェクト
を再分割領域生成装置５０２によって生成・初期化し、
また領域オブジェクトのクラスに応じた処理装置を呼び
出す。例えば、文書領域オブジェクトや文字領域オブジ
ェクトであれば前述した文書領域分割装置１０９や文字
領域分割装置１１３が呼ばる。その他の領域オブジェク
トに関しては、写真領域や図領域であれば圧縮を行った
り、罫線領域オブジェクトであればベクトル化するなど
の処理が行われる。

【００３５】ここで再分割領域生成装置４０６，５０２
の動作について説明する。選択された縦・横２種類のセ
パレータの重複部分Ｗ_i,jを（数８）によって求める。

【００３６】

【数８】

【００３７】ただし、Ｒ（ｌ，ｔ，ｒ，ｂ）は、２点
（ｌ，ｔ），（ｒ，ｂ）に囲まれる領域を示すものとす
る。

【００３８】そして、２つの重複部分Ｗ_i,jとＷ_i+1,j+1
とによって生成される領域が分割された領域となり、こ
の領域を同様の方法で再分割する。

【００３９】領域の識別に利用される情報は、前出した
セパレータと文字幅の推定値である。ここでは文字幅推
定装置について述べる。文字を含む領域(DocCell,ParaC
ell,TextCellクラス)において、文字幅の推定にはその
都度適当であると思われる方法を用いる。DocCell・Par
aCellクラスの場合、文字幅を黒連結成分の外接矩形か
ら推定する。外接矩形が正方領域に近いものを求め、こ
の外接矩形の幅の最頻値をこの領域の文字幅の推定値と
する。一方、TextCellクラスである場合、文字幅はその
領域の高さとする。（縦書きの場合は、領域の幅とな
る。）ここで、各クラスにおいて推定された文字幅をｗ
_Cと表現する。

【００４０】次に文字列判定装置の動作について述べる
（図６参照）。以下の条件を満たせば、横書きの文字列
と判定する。つまり、文字の横幅と文字列の高さが似か
よった値になることを利用している。なお、縦書きの場
合も同様の条件となる。

【００４１】

【数９】

【００４２】

【数１０】

【００４３】また、段落判定装置は次に述べるような動
作をする（図７参照）。段落の判定には、文字列の規則
性を利用する。また、セパレータの幅の最大値が大きい
方の方向に分割する。すなわち、（数１１）であれば縦
書き、もしそうでなければ横書きと仮定する。

【００４４】

【数１１】

【００４５】これは通常、文字間よりも文字列間の方が
大きいことを利用している。ここで、横書きと仮定した
場合、次式（数１２）と（数１３）とを満たせば、

【００４６】

【数１２】

【００４７】

【数１３】

【００４８】対象としている領域を文字列の集合、すな
わち横書きの段落と判定することが出来る。

【００４９】これまで、閉領域、文字列領域、段落領域
のどれとも判定されなかった領域の識別を文書領域構造
識別装置４０５を用いて行う（図８参照）。この３つの
領域以外の領域としては、段組であったり、章立て、論
文のフロントページなどのタイトルページなどを挙げる
ことができる。そもそも文書の中で一つのまとまった機
能や意味をなす領域とそれ以外の領域とを区切る場合に
は、人が見てわかりやすいように分離性の高いセパレー
タを用いる。例えば、章が変わるところでは文字間幅よ
りも太い空白帯を用いて新しい章が配置されている。ま
た、タイトルページのようにタイトルと本文の文字の大
きさは大きく異なるという性質も利用できる。このよう
な考えに基づき文書領域構造識別装置４０５は構成され
ている。まず、空白帯幅変化点抽出装置８０１と射影幅
変化点抽出装置８０２を用いて領域の内容物が大きく変
化する空白帯、それと同時に空白帯幅の平均値と射影幅
の平均値を求める。これらの情報を用いて有効空白帯選
択装置８０３は領域をどのように分割するかを決定す
る。

【００５０】ここで、空白帯幅変化点抽出装置８０１
は、隣り合う２つの空白帯幅を求め、小さい方の射影幅
と大きい方の射影幅との比が一定値以下（例えば0.5以
下）であれば大きい方の空白帯をセパレータの候補と
し、また、射影幅変化点抽出装置８０２は、隣り合う２
つの射影幅を求め、小さい方の射影幅と大きい方の射影
幅との比が一定値以下（例えば0.8以下）であればこの
２つの射影の間の空白帯がセパレータの候補とするもの
である。

【００５１】次に文字列領域分割装置の動作について述
べる。文字列領域の分割は単に領域を小領域に分割する
だけではなく、文字を含む領域の最小構成要素である文
字として切り出すことが重要である。例えば「松」とい
う文字は「木」と「公」の２つの領域に分割されるので
はなく、「松」として分割されるのが望ましい。文字列
領域分割装置でもこれまで述べてきた領域分割と同様識
別処理を伴う。ただし、文字領域の場合は文字認識の結
果が識別処理となる。また、人間が文字を正しく切り出
せるのは文字が読めることからも、文字の切り出しに文
字認識結果を用いるのは妥当と考えられる。

【００５２】この文字列領域分割装置において次に定義
するような値（以降、切り出しスコアと呼ぶ）を用い
る。通常、文字認識は処理を行う前に文字候補領域を一
定の大きさに正規化するので、文字の大きさや縦横比等
の情報が失われてしまう。つまり、上述した「松」の場
合「木」と「公」に分割され、それぞれ高い認識結果と
なる可能性がある。

【００５３】そのような不都合を補うように切り出しス
コアを定義する。上述した文字幅の推定値をｗ_Cとし、
文字候補領域Ｒ_Cの文字列方向の幅及び文字認識第ｉ候
補のスコアをそれぞれ（数１４）とした時、

【００５４】

【数１４】

【００５５】切り出しスコアｄ_RC（数１５）は、

【００５６】

【数１５】

【００５７】と定義する。ここで、第１候補と第３候補
のスコアの差をとったのは第１候補と第２候補が非常に
似かよった文字の場合、スコアに差がなくなるからであ
る。例えば、「と」と「ど」のような場合である。な
お、第１候補と第２候補の差を用いてもよいこのような文字切り出しスコアを用い、以下に２つの文
字切り出し方法を述べる。一つ目は自然言語処理のチャ
ート法に類似した方法である（図９参照）。まず、文字
列を先頭から見てゆき、その方向と垂直に分割できる箇
所で全て分割し、n個の小領域９０１（数１６）を求
め、各小領域ｒ_iの前後に指標９０２（数１７）を付与
する。

【００５８】

【数１６】

【００５９】

【数１７】

【００６０】そして、連続した小領域を統合し、その統
合領域の切り出しスコアを求める。但し、求める統合領
域の幅は、その幅が文字推定幅の１．２倍よりも小さく
なるもの全てについてである。尚、この統合領域は文字
領域候補と考えることができる。

【００６１】この様にして求められたｍ個の統合領域そ
れぞれに対応する文字ラティスを求める。ここで、文字
ラティスとは、対応する統合領域の始点及び終点の指標
ｖ_s，ｖ_e、切り出しスコアｄ、そして統合領域を構成す
る小領域の集合（数１８）、の４つの要素の組から成
り、記号ｌ_jで表現する。

【００６２】

【数１８】

【００６３】また、文字ラティスｌ_jの集合（数１９）

【００６４】

【数１９】

【００６５】を形成することが出来る。但し、文字ラテ
ィスｌ_iを構成する統合領域（文字領域候補）の数をｎ_i
とする。

【００６６】この様にして求めたラティスの集合（初期
ラティスの集合）から、以下の接続ルールにより接続可
能な２つのラティスｌ_i，ｌ_jを接続し、新しいラティス
ｌ’を生成し、集合（数１９）に加える。ここで、ラテ
ィスの接続ルールは、次式（数２０）となる。

【００６７】

【数２０】

【００６８】例えば、図９の場合、文字ラティス９０３
と文字ラティス９０４とを接続して文字ラティス９０５
を得た場合、文字ラティス９０５のスコアはラティスの
接続ルールにより（１６１５＋１７１０）／２＝１６６
２となる。

【００６９】このように、自然言語処理のチャート法と
類似した方法でラティスを接続し、集合（数１９）中で
（数２１）となるラティスのうちスコアの最も高いもの
を対象領域の文字切り出し結果とする。

【００７０】

【数２１】

【００７１】この方法の利点は２点ある。一つは文字列
中の任意の文字らしいラティスを選択し、順次隣接する
ラティスを接続してゆくので、前方から逐次切り出す方
法（後述）では切り出せない不定ピッチ文字（英数字）
等にも比較的うまく対応できることと、もう一つは文字
ラティスを最小の単位で保持しているため、後処理にお
いてフィードバックがかけやすいということである。

【００７２】文字切り出しの二つ目の方法は、小領域を
文字列の先頭から逐次統合し、文字を切り出す（図１０
参照）。ある小領域まで文字の切り出しが終了していた
とすると、次の小領域から始めて順次隣り合う小領域を
統合し、切り出しスコアを求める。そして、切り出しス
コアが極大となった統合領域として文字を切り出す。

【００７３】例えば、図１０の場合、ｒ₁まで分割が終
わっているとした場合、まず、ｒ₂を文字とした場合、
切り出しスコア１７６で「朴」という文字が認識結果と
して得られる。次に、ｒ₂，ｒ₃を統合したものを文字と
した場合、切り出しスコア１７１０で「枯」という文字
が認識結果として得られる。文字ラティスを用いた場合
と同様、文字推定幅の１．２倍までを文字探索の探索幅
とするため、これ以上小領域は統合されず、結果として
ｒ₂を始点とする文字としては、切り出しスコアが極大
となる「枯」が選ばれる。以降、小領域ｒ₄を始点とし
て同様の処理が行の最後の小領域まで続けられる。

【００７４】この方法は一つ目の方法より容易で高速に
処理できるが、切り出しを間違えた場合、訂正がしづら
いという欠点がある。文字切り出し装置においてはこの
どちらの方法を用いてもよい。

【００７５】次に図１１を用いて、フォーマットを識別
する機能としてフォーマット識別装置の説明を行う。フ
ォーマット識別装置はフォーマットデータベースと対に
なって自然言語処理におけるパーザー（構文解析）のよ
うな動作を行う。自然言語処理の文法にあたるものが、
領域分割ではフォーマットデータベース上のフォーマッ
ト情報、すなわち前述した領域分割木であり、パーザー
に相当するものがフォーマット識別装置となる。図１１
にデータベース中のフォーマット情報のイメージを示
す。図１１（ａ）は文字列領域１１０１があり、その下
に表領域１１０２が配置されたフォーマットを示し、図
１１（ｂ）は写真領域１１０３があり、その下に段落領
域１１０４が配置されたフォーマットを示す。なお、前
述したように各領域にはその領域がどの方向のセパレー
タで分割されたかの情報が付記されているので隣り合う
領域との位置関係を知ることができる。具体的にフォー
マット情報を用いて領域分割する方法について述べる。
画像が文書領域分割装置に入力され、最終的に領域分割
木、つまりフォーマット情報が得られたとする。そして
フォーマット識別装置を用いて、フォーマットデータベ
ース内のフォーマット情報と比較する。ここで、フォー
マットデータベース内のフォーマット情報を直接操作す
るのではなく、比較に用いるフォーマット情報をメモり
に一度蓄える。初期状態ではフォーマットデータベース
内の全てのフォーマット情報がメモリに蓄えられるもの
とする。そして、入力された文書から得られたフォーマ
ット情報の根からたどり、各ノードに対応する領域オブ
ジェクトをメモリ内のフォーマット情報の同じ位置の領
域オブジェクトと比較する。例えば、入力文書画像のフ
ォーマット情報の一番上に配置された領域が文字列領域
であった場合、メモリ内にある図１１（ａ）、（ｂ）の
フォーマット情報の同じ位置にある領域オブジェクト
（文字領域、及び写真領域）を比較し、一致しなかった
図１１（ｂ）のフォーマット情報を削除する。このよう
にフォーマット情報（領域分割木）を探索してメモリ上
のフォーマット情報の内で一致しないものを削除し、最
後に残ったものを入力された文書のフォーマットに一致
するフォーマット情報の候補であるとする。なお、文字
領域等の細かいノードまでをたどると誤識別を起こす可
能性があるので、フォーマット情報によって探索を行う
ノード位置を予め決めておくこともできる。ここで、一
致したフォーマット情報が多数存在する場合には、対応
する領域の重心の距離の近さによってフォーマット情報
の候補をさらに絞り込むこともできる。また、対応する
文字領域内の文字を比較し、一致するものを選択するこ
とも可能である。その結果、フォーマットデータベース
に登録されているどのフォーマットとも一致しなかった
場合、入力された文書は未知フォーマットであると判断
し登録を促すようユーザーに提示する。この時、ユーザ
ーは表示装置に表示された新しいフォーマットを見なが
ら、キーボード１１４やポインティングデバイス１１５
を用いて修正・追加・削除が行えるようにする。

【００７６】請求項１及び２記載の発明によれば、領域
を階層的に分割すると同時に領域分割木を生成し、最終
的に得られる領域分割木を文書のフォーマットとして得
ることが可能となる。

【００７７】請求項３記載の発明によれば、領域の形状
だけではなく、領域内の内容を比較することにより正確
なフォーマット識別が可能となる。

【００７８】請求項４記載の発明によれば、画像自体を
処理しないので処理時間を短縮できることと、領域中の
黒画素の連結成分の位置（黒画素外接矩形）のみを扱う
のでどんな形状の領域であっても容易に空白帯を抽出す
ることができる。

【００７９】請求項５記載の発明によれば、画像自体の
回転処理を行わないので処理時間を短縮できる。

【００８０】請求項６記載の発明によれば、文書領域を
識別することにより、領域の処理方法を限定することが
可能となる。

【００８１】請求項７記載の発明によれば、空白帯の分
離度の強さを基に領域を分割することができ、領域分割
木がフォーマットを表すように生成することができる。

【００８２】請求項８記載の発明によれば、閉領域を識
別することにより、領域の処理方法を限定することがで
き、さらに、複雑な構成の表領域も領域分割することが
可能となる。

【００８３】尚、上記実施の形態に記載の各手段（各装
置）の全部又は一部の手段の機能をコンピュータに実行
させるためのプログラムを記録した媒体を用いることに
より、上記と同様の効果を発揮するものである。

【００８４】又、上記実施の形態の各手段の処理動作
は、コンピュータを用いてプログラムの働きにより、ソ
フトウェア的に実現してもよいし、あるいは、上記処理
動作をコンピュータを使用せずに特有の回路構成によ
り、ハード的に実現してもよい。

【００８５】

【発明の効果】以上述べたところから明らかなように本
発明は、文書認識がより一層効率的に行うことが出来る
言う長所を有する。

【図面の簡単な説明】

【図１】本実施の形態の文書認識システムの全体の構成
を説明する図。

【図２】実施の形態の領域クラスと階層的分割を説明す
る図。

【図３】実施の形態の空白帯抽出装置を説明する図。

【図４】実施の形態の文書領域分割装置を説明する図。

【図５】実施の形態の閉領域分割装置を説明する図。

【図６】実施の形態の文字列判定装置を説明する図。

【図７】実施の形態の段落判定装置を説明する図。

【図８】実施の形態の文書領域構造識別装置を説明する
図。

【図９】実施の形態の文字列領域分割装置において文字
ラティスを用いて文字を切り出す方法を説明する図。

【図１０】実施の形態の文字列領域分割装置において逐
次的に文字を切り出す方法を説明する図。

【図１１】（ａ），（ｂ）：実施の形態のフォーマット
識別装置の動作を説明する図。

【符号の説明】

１０３画像入力装置１０４傾き検出装置１０５文字認識装置１０６フォーマット識別装置１０７フォーマットデータベース１０８黒画素外接矩形抽出装置１０９文書領域分割装置１１０段落領域分割装置１１１文字列領域分割装置１１２閉領域分割装置１１３文字領域分割装置４０１文字幅推定装置４０２孤立罫線抽出装置４０３文字列判定装置４０４段落判定装置４０５文書領域構造識別装置４０６再分割領域生成装置５０１罫線抽出装置５０２再分割領域生成装置８０１空白帯変化点抽出装置８０２射影幅変化点抽出装置８０３有効空白帯選択装置

Claims

【特許請求の範囲】

【請求項１】文書領域オブジェクトを生成する文書領域
初期化手段と、連結黒画素成分の外接矩形を抽出する黒画素外接矩形抽
出手段と、領域オブジェクト内の白画素の帯を空白帯として抽出す
る空白帯抽出手段と、文書領域を識別分割する文書領域分割手段と、文字列の集合である段落を分割する段落領域分割手段
と、文字の集合である文字列を分割する文字列領域分割手段
と、文字領域オブジェクトの属性を初期化する文字領域分割
手段と、前記空白帯によって分割できない閉領域を識別分割する
閉領域分割手段とを備え、前記各分割手段において分割された領域を領域オブジェ
クトとして生成し隣接あるいは包含関係を属性として持
たせることにより領域分割木を生成し、全領域オブジェ
クトを分割できなくなるまで分割した時点で、前記領域
分割木が前記文書領域オブジェクトのフォーマット情報
を示すことを特徴とする文書認識装置。
【請求項２】前記領域オブジェクトは、領域の位置情報
と、領域の種類を表すクラス情報と、領域の書式情報
と、領域内を分割しているセパレータ情報と、領域分割
木を構成する隣接及び包含情報と、領域内に含まれる黒
画素外接矩形情報と、領域の幾何学的な構造を示す構造
情報と、領域内の文字幅の推定値とを有し、前記文字領
域オブジェクトは、前記領域オブジェクトが持つ情報に
加え、文字認識手段による文字認識結果を有することを
特徴とする請求項１記載の文書認識装置。
【請求項３】前記フォーマット情報を識別するフォーマ
ット識別手段と、前記フォーマット情報を格納するフォ
ーマットデータベースと、表示手段と、キーボード及び
ポインティングデバイスを有し、入力文書画像から得られた前記フォーマット情報と前記
フォーマットデータベースに存在する前記フォーマット
情報の対応する領域オブジェクトの比較を行い、前記フ
ォーマットデータベース内に存在しないフォーマット情
報と判断された場合に、前記表示手段に表示された画像
と対応するフォーマット情報とに基づいて、前記キーボ
ード及び／又は前記ポインティングデバイスにより新規
のフォーマット情報として前記フォーマットデータベー
スに登録されることを特徴とする請求項１記載の文書認
識装置。
【請求項４】前記空白帯抽出手段は、前記領域オブジェ
クト内の黒画素外接矩形を水平及び／又は垂直方向に射
影することによって空白帯を抽出することを特徴とする
請求項１記載の文書認識装置。
【請求項５】入力文書画像の一部である黒画素外接矩形
の傾きを検出する検出手段を備え、前記傾きを補正する
ために前記黒画素外接矩形を回転させ、前記傾きが補正
された黒画素外接矩形を用いて領域分割を行うことを特
徴とする文書認識装置。
【請求項６】前記文書領域分割手段は、文字幅推定手段
と、孤立罫線抽出手段と、文字列判定手段と、段落判定
手段と、文書領域構造識別手段と、再分割領域生成手段
とを備え、前記孤立罫線抽出手段によって孤立罫線を探
し、前記孤立罫線が存在すればこれをセパレータとして
選定し、前記孤立罫線が存在しなければ対象領域が文字
列又は段落であるかを文字列判定手段及び段落判定手段
を用いて判定し、文字列又は段落であれば再分割領域生
成手段において文字列領域オブジェクト又は段落領域オ
ブジェクトをそれぞれ生成し、文字列でも段落でもなけ
れば前記文書領域構造識別手段を用いて分割に用いる前
記空白帯をセパレータとして選定し、選定された孤立罫
線又は空白帯をセパレータを基に再分割領域生成手段に
よって少なくとも２個の文書領域オブジェクトを生成
し、文字列でも段落でもなくセパレータも存在しない場
合には再分割領域生成手段によって閉領域オブジェクト
を生成し、生成されたオブジェクトのクラス、すなわち
文書領域クラス、段落領域クラス、文字列領域クラス、
及び閉領域クラスそれぞれに対応した分割手段、すなわ
ち文書領域分割手段、段落領域分割手段、文字列領域分
割手段、及び閉領域分割手段を呼び出すことを特徴とす
る請求項１記載の文書認識装置。
【請求項７】前記文書領域構造識別手段は、縦方向・横
方向それぞれについて、空白帯幅が大きく変化する空白
帯幅変化点を抽出する空白帯幅変化点抽出手段と、２つ
の空白帯に挟まれた部分の射影の幅が大きく変化する射
影幅変化点を抽出する射影幅変化点抽出手段と、前記空
白帯幅変化点と前記射影幅変化点の情報を基に領域分割
に用いる空白帯を求める有効空白帯選択手段とからな
り、空白帯の分離性の強さを基に領域を分割することを
特徴とする請求項６記載の文書認識装置。
【請求項８】前記閉領域分割手段は、罫線抽出手段と、
再分割領域生成手段とからなり、罫線抽出手段によって
水平及び垂直方向の罫線を抽出し、前記抽出された罫線
が１本であれば罫線領域オブジェクトを生成し、前記罫
線が複数存在すれば帳票領域オブジェクトを生成し前記
罫線をセパレータとして再分割領域生成手段によって少
なくとも１個の文書領域オブジェクトを生成し、前記罫
線が存在しなければ文字判定手段により文字の大きさに
近いかどうかを判定し文字に近ければ文字領域オブジェ
クトを生成し、また文字と判定されなければ文字よりも
大きい領域は領域内の黒画素の密度基づいて図領域オブ
ジェクト及び写真領域オブジェクトを生成し、文字より
小さい領域であればノイズ領域を生成し、生成された領
域オブジェクトのクラスとしての文書領域クラス、図領
域クラス、写真領域クラス、文字領域クラス、罫線領域
クラス、及びノイズ領域クラスのそれぞれのクラスに対
応した文書領域分割手段、図領域処理手段、写真領域処
理手段、文字領域分割手段、罫線領域処理手段、及びノ
イズ領域処理手段を呼び出すことを特徴とする請求項１
記載の文書認識装置。
【請求項９】入力文書画像から文書データの領域を認識
する文書認識方法であって、前記入力文書画像から罫線の抽出及び／又は文書データ
の存在しない空白帯の抽出をし、その抽出した罫線及び
／又は空白帯を用いて前記画像データを所定の領域に分
割し、前記分割された所定の領域から罫線及び／又は空
白帯を抽出し、その抽出した罫線及び／又は空白帯を用
いて前記所定の領域を更に分割し、前記分割を繰り返し
行い、前記分割の包含関係を領域分割木として生成し、
前記文書データのフォーマット情報として出力すること
を特徴とする文書認識方法。
【請求項１０】請求項１〜８の何れか一つの請求項に記
載の各手段の全部又は一部の手段の機能をコンピュータ
に実行させるためのプログラムを記録したことを特徴と
する媒体。
【請求項１１】請求項９記載の各ステップの全部又は一
部のステップをコンピュータに実行させるためのプログ
ラムを記録したことを特徴とする媒体。