JPH1166230A - 文書認識装置、文書認識方法及び媒体 - Google Patents

文書認識装置、文書認識方法及び媒体

Info

Publication number
JPH1166230A
JPH1166230A JP9216873A JP21687397A JPH1166230A JP H1166230 A JPH1166230 A JP H1166230A JP 9216873 A JP9216873 A JP 9216873A JP 21687397 A JP21687397 A JP 21687397A JP H1166230 A JPH1166230 A JP H1166230A
Authority
JP
Japan
Prior art keywords
area
document
character
region
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9216873A
Other languages
English (en)
Inventor
Yoshihiko Matsukawa
善彦 松川
Kenji Kondo
堅司 近藤
Tsuyoshi Megata
強司 目片
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9216873A priority Critical patent/JPH1166230A/ja
Publication of JPH1166230A publication Critical patent/JPH1166230A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】文書の構造を解析し、文字の認識が効率良く出
来ないと言う課題。 【解決手段】文書領域初期化装置は文書領域オブジェク
トを生成し、黒画素外接矩形抽出装置108は連結黒画
素成分の外接矩形を抽出し、空白帯抽出装置は領域オブ
ジェクト内の白画素の帯を空白帯として抽出し、文書領
域分割装置109は文書領域を識別・分割し、段落領域
分割装置110は文字列の集合である段落を分割し、文
字列領域分割装置111は文字の集合である文字列を分
割し、文字領域分割装置は文字領域オブジェクトの属性
を初期化し、文字認識装置105は文字領域の文字認識
を行い、閉領域分割装置112は空白帯によって分割で
きない閉領域を識別・分割し、各分割装置において分割
された領域を領域オブジェクトとして生成し隣接あるい
は包含関係を属性として持たせることにより領域分割木
を生成し、全領域オブジェクトを分割できなくなるまで
分割を行う構成。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像の構造を
解析し、文書中のデータを電子化するために使用する文
書認識装置、文書認識方法及び媒体に関するものであ
る。
【0002】
【従来の技術】文書画像の構造を解析しようとした場
合、黒画素領域を抽出し、抽出された黒画素領域の間に
存在するセパレータ(空白領域、あるいは罫線)を基に
画像を領域分割する。文書の内容が大きく変化するセパ
レータをうまく抽出することが必要である。
【0003】従来の装置において文書画像の構造を解析
する場合、画像から文字列、縦横罫線、その他の黒画素
領域を抽出する。以降の処理は、抽出された矩形データ
を基に行われる。
【0004】まず、矩形の座標位置からセパレータとな
るような長く幅のある白領域や長い罫線を全て抽出す
る。次に、図形領域を除いた後に抽出されたセパレータ
を用いて、文字領域を大まかに分割する。さらに、文字
領域内で行ピッチや文字サイズの変化から構成要素の切
れ目(サブセパレータ)を求め、このサブセパレータに
従って領域をさらに細分化する。このようにして画像を
解析して領域構造データが木構造として得られる。ここ
で、黒画素領域を抽出する方法は、白ランにローパスフ
ィルタを適用することにより近接する黒画素を一つにま
とめてゆくボトムアップ的な手法を用いている。又、領
域を分割する際には、縦・横交互に領域分割を行ってい
る。
【0005】
【発明が解決しようとする課題】しかしながら従来の装
置では、文書が枠で囲まれた場合や表などの領域が文書
内に存在した場合、罫線が孤立していない(縦・横の罫
線が接している)ために、枠や表の中まで領域分割を進
めることができなかった。又、ある一定閾値以上の大き
さの白領域で大まかに分割しているため、様々なサイズ
の文字が混在する文書では、閾値の設定が困難であっ
た。つまり、大きな文字の領域を参照して設定された閾
値は、小さな文字の領域には使用できないことになる。
その結果、最終的に得られる領域構造データである木構
造は、文書の領域構造から大きくずれることになり、後
で修正を行わなければならなくなると言う課題が有っ
た。
【0006】これに対して、本願発明者は、分割対象領
域毎にセパレータをうまく選択することにより、得られ
る木構造が修正をしなくても領域構造をうまく表現でき
るようにしている。最終的に分割対象領域内の空白領域
と罫線とを抽出し、抽出した後はそれぞれを区別するこ
となく同じセパレータとして考え、その代わりに分割す
る際にセパレータに優先順位を持たせることにより処理
を簡単化している。また、分割対象領域毎に分割する際
に、空白領域が見つからなければ、罫線を探してセパレ
ータとして設定させることにより、枠に囲まれた文書や
文書内に表が存在してもうまく領域分割できるようにし
ている。
【0007】又、従来の手法では、領域の内容まで立ち
入らなかったため、もしよく似たフォーマットの文書が
入力された場合にそれ以上絞り込むことが出来ないた
め、文書認識が効率的に行えないと言う課題が有った。
フォーマットの構造から文字認識の結果を利用すればフ
ォーマットの限定が容易になる。また、全ての領域が一
次元的に取り扱うのではなく、フォーマットをツリー構
造にすることによって識別されたフォーマットをより限
定することができる。
【0008】本発明は、従来の装置のこの様な課題を考
慮し、文書認識がより一層効率的に行うことが出来る文
書認識装置、文書認識方法及び媒体を提供することを目
的とする。
【0009】
【課題を解決するための手段】請求項1記載の本発明
は、文書領域オブジェクトを生成する文書領域初期化手
段と、連結黒画素成分の外接矩形を抽出する黒画素外接
矩形抽出手段と、領域オブジェクト内の白画素の帯を空
白帯として抽出する空白帯抽出手段と、文書領域を識別
分割する文書領域分割手段と、文字列の集合である段落
を分割する段落領域分割手段と、文字の集合である文字
列を分割する文字列領域分割手段と、文字領域オブジェ
クトの属性を初期化する文字領域分割手段と、前記空白
帯によって分割できない閉領域を識別分割する閉領域分
割手段とを備え、前記各分割手段において分割された領
域を領域オブジェクトとして生成し隣接あるいは包含関
係を属性として持たせることにより領域分割木を生成
し、全領域オブジェクトを分割できなくなるまで分割し
た時点で、前記領域分割木が前記文書領域オブジェクト
のフォーマット情報を示す文書認識装置である。
【0010】請求項9記載の本発明は、入力文書画像か
ら文書データの領域を認識する文書認識方法であって、
前記入力文書画像から罫線の抽出及び/又は文書データ
の存在しない空白帯の抽出をし、その抽出した罫線及び
/又は空白帯を用いて前記画像データを所定の領域に分
割し、前記分割された所定の領域から罫線及び/又は空
白帯を抽出し、その抽出した罫線及び/又は空白帯を用
いて前記所定の領域を更に分割し、前記分割を繰り返し
行い、前記分割の包含関係を領域分割木として生成し、
前記文書データのフォーマット情報として出力する文書
認識方法である。
【0011】これにより、例えば、文書領域初期化装置
は文書領域オブジェクトを生成し初期化し、黒画素外接
矩形抽出装置は連結黒画素成分の外接矩形を抽出し、空
白帯抽出装置は領域オブジェクト内の白画素の帯を空白
帯として抽出し、文書領域分割装置は文書領域を識別・
分割し、段落領域分割装置は文字列の集合である段落を
分割し、文字列領域分割装置は文字の集合である文字列
を分割し、文字領域分割装置は文字領域オブジェクトの
属性を初期化し、文字認識装置は文字領域の文字認識を
行い、閉領域分割装置は空白帯によって分割できない閉
領域を識別・分割し、前記各分割装置において分割され
た領域を領域オブジェクトとして生成し隣接あるいは包
含関係を属性として持たせることにより領域分割木を生
成し、全領域オブジェクトを分割できなくなるまで分割
を行い、領域分割木をフォーマット情報として得る。
【0012】
【発明の実施の形態】以下、本発明の文書認識装置の一
実施の形態について述べる。
【0013】なお、本発明を実施するにあたりオブジェ
クト指向を導入する。オブジェクト指向によるメリット
は、問題を整理することができ、プログラムの細部をカ
プセル化できることにある。実施の形態の説明に入る前
にここで用いられるクラスについて述べておく。本実施
の形態でオブジェクトとして考えられるのは領域オブジ
ェクトである。領域オブジェクトは、位置情報、領域の
種類を表すクラス情報、領域の書式情報、領域内を分割
しているセパレータ情報、領域分割木を構成する隣接及
び包含情報、領域内に含まれる黒画素外接矩形情報、領
域の幾何学的な構造を示す構造情報、領域内の文字幅の
推定値等を属性値として持っている。この領域オブジェ
クトの基本的な領域のクラスをSegCellクラスと呼び、S
egCellクラスを基本クラスとしてこれから派生された以
下のクラスの領域オブジェクトが生成される。
【0014】・DocCellクラス (文書領域:文
書全体、或いは組み込まれた文書) ・ParaCellクラス (段落領域:文字列の集
合) ・TextCellクラス (文字列領域:文字の集
合) ・CharCellクラス (文字領域) ・OtherCellクラス (閉領域:図表、罫線、
写真など文字領域以外の領域の総称) ・TableCellクラス (表領域) ・LineCellクラス (罫線領域) ・FigCellクラス (図領域) ・PictCellクラス (写真領域) まず、図1を用いて本発明の文書認識装置の一実施の形
態の構成及び動作について述べるとともに、本発明の文
書認識方法の一実施の形態についても同時に説明する。
【0015】画像入力装置から文書画像を入力し、文書
領域初期化装置において入力された文書画像全体を一つ
の領域とみなして文書領域オブジェクト(DocCellクラ
ス)を生成・初期化し、文書領域分割装置において文書
領域オブジェクトを領域識別・分割し、また分割された
領域の識別結果に応じた領域オブジェクトを生成・初期
化し、段落領域が生成されれば段落領域分割装置を用い
て文字列に分割して文字列領域オブジェクトを生成・初
期化し、文字列領域が生成されれば文字列領域分割装置
を用いて文字に分割して文字領域オブジェクトを生成・
初期化し、閉領域が生成されれば閉領域領域分割装置を
用いて領域識別・分割し、また閉領域分割装置によって
分割された領域のクラスに応じた領域オブジェクトを生
成・初期化し、生成された領域のクラスに応じた処理を
行う。例えば、表領域であればさらに罫線を基に分割し
てゆき、図や写真領域であれば領域内の画像を圧縮する
等を行う。このような方法によって分割ができなくなる
まで領域を階層的に分割する。また、文字列領域分割装
置において生成された文字領域オブジェクトは文字領域
分割装置においてその属性値が設定される。図2は文書
領域クラス(DocCellクラス)がどのように分割されて
ゆくかを階層構造で示した図である。特徴的なのは文書
領域クラス(DocCellクラス)と閉領域クラス(OtherCe
llクラス)であり、そのどちらも対応する領域分割装置
において領域の識別が行われ、分割されてさらに文書領
域クラス(DocCellクラス)を生成する可能性がある。
例えば、2段組の文書の場合、領域全体を示す文書領域
オブジェクトが分割されて左右2つの新しい領域オブジ
ェクトを生成するといった場合などがそうである。
【0016】次にセパレータの一つである空白帯を抽出
する空白帯抽出装置を図3をもとに説明する。まず、縦
方向と横方向のセパレータ(数1)302及び(数2)
301を求める。ここで、iは、SVの添え字であり、
jは、SHの添え字である。
【0017】
【数1】
【0018】
【数2】
【0019】それぞれのセパレータはその方向と直交す
る座標の区間によって表現される。すなわち、
【0020】
【数3】
【0021】となる。ここで、nV、nHはそれぞれ縦、
横方向の空白帯の個数であり、どちらも2以上の数とな
る。
【0022】ここで、セパレータの求め方であるが、空
白帯がセパレータの場合は、対象となっている領域内の
射影分布を縦または横方向について求め、射影分布中で
ある閾値(例えば1)より小さい区間をセパレータとし
ている。一方、罫線がセパレータの場合は罫線の抽出ア
ルゴリズムによって抽出された罫線を包含する区間をセ
パレータとしている。なお、射影分布を求める際に実際
の画像の黒画素を計数するのではなく、領域オブジェク
ト内に設定された黒画素外接矩形を用いると高速に処理
する事が可能であり、また複雑な形状の領域であって容
易に処理できる。さらに、この黒画素外接矩形を用いる
ことにより、画像の傾き補正も高速に行える。つまり、
文書画像全体にアフィン変換をかけると非常に処理時間
がかかるが、外接矩形のみを回転するのはそれほど処理
時間はかからない。例えば、外接矩形の重心を回転し外
接矩形の幅・高さを回転角度に応じて補正したものを回
転された外接矩形の幅・高さとすることにより高速化が
はかれる。また、もとの外接矩形に内接する円(中心と
半径)を回転させてもよい。このように画像を取り扱わ
なくてもよい部分では外接矩形を用い、文字認識などの
原画像が必要な場合にはもとの外接矩形に囲まれた画像
を用いればよい。
【0023】次に、後述する説明に使用する記号の定義
を記しておく。
【0024】・セパレータSVi,SVi+1間、及びSHj
Hj+1間の区間をそれぞれGVi、及びGHjとすると、こ
れらGVi、GHjは、数4、数5のように表せる。尚、図
3では、GViに符号304を付し、GHjに符号303を
付した。ここで、i,i+1,j,j+1は、上記
V,SH,及びGV,GHの添え字である。
【0025】
【数4】
【0026】
【数5】
【0027】・セパレータSViや、セパレータ間等の区
間の大きさ(幅)を求める関数をw(x)とすると、セ
パレータSViの大きさは、w(SVi)と表現できる。
【0028】・その他、変数の平均をμ(x)、標準偏
差をσ(x)、最大値をmax(x) 、そして最頻値
をf(x)とする。変数wの最頻値f(w)は以下の式
(数6)で求められる。
【0029】
【数6】
【0030】ここで、D(w)は頻度関数であり、(数
7)は頻度関数を平滑化した関数である。
【0031】
【数7】
【0032】である。例えばn=5である。
【0033】このようにして求められたセパレータをも
とに領域が分割されてゆくが、中でも文書領域クラスと
閉領域クラスのオブジェクトの分割時に領域の識別処理
(クラス分け)が行われるという意味で、文書領域分割
装置と閉領域分割装置とは特殊な動作を行う。まず、図
4を用いて文書領域分割装置の動作を説明する。孤立罫
線抽出装置402によって孤立罫線が抽出されればこの
孤立罫線をセパレータとして領域を分割する。もし孤立
罫線が存在しなければその対象領域が段落領域クラス
(ParaCellクラス)及び文字列領域クラス(TextCellク
ラス)かどうかを、文字列判定装置403及び段落判定
装置404を用いて調べ、このどれでもなければ分割に
使用するセパレータ(空白帯)を文書領域構造識別装置
405を用いて選択し、選択されたセパレータをもとに
領域分割する。なお、いずれの場合もセパレータが選択
されれば再分割領域生成装置406によって分割された
領域オブジェクトが生成・初期化されてその領域のクラ
スに応じた領域分割装置が呼び出されるようになってい
る。さらに、分割するセパレータが存在しない場合は閉
領域クラス(OtherCellクラス)の領域オブジェクトを
生成・初期化し閉領域分割装置112を呼び出す。
【0034】次に図5を用いて閉領域分割装置112に
ついて説明する。閉領域の領域識別においては罫線が重
要な意味をなしている。閉領域分割装置112では、罫
線抽出装置501にて罫線を抽出し、罫線が複数存在す
れば広い意味での表(あるいは帳票、TableCellクラ
ス)と識別し、罫線で囲まれる領域を新しい文書領域オ
ブジェクトを再分割領域生成装置502によって生成・
初期化し、それ以外で罫線が1本であれば罫線領域オブ
ジェクト(LineCellクラス)、領域の大きさが文字の大
きさに近ければ文字領域クラス(CharCellクラス)、黒
画素の密度により写真領域クラス(PictCellクラス)又
は図領域クラス(FigCellクラス)と識別する。そし
て、それぞれの領域クラスに対応した領域オブジェクト
を再分割領域生成装置502によって生成・初期化し、
また領域オブジェクトのクラスに応じた処理装置を呼び
出す。例えば、文書領域オブジェクトや文字領域オブジ
ェクトであれば前述した文書領域分割装置109や文字
領域分割装置113が呼ばる。その他の領域オブジェク
トに関しては、写真領域や図領域であれば圧縮を行った
り、罫線領域オブジェクトであればベクトル化するなど
の処理が行われる。
【0035】ここで再分割領域生成装置406,502
の動作について説明する。選択された縦・横2種類のセ
パレータの重複部分Wi,jを(数8)によって求める。
【0036】
【数8】
【0037】ただし、R(l,t,r,b)は、2点
(l,t),(r,b)に囲まれる領域を示すものとす
る。
【0038】そして、2つの重複部分Wi,jとWi+1,j+1
とによって生成される領域が分割された領域となり、こ
の領域を同様の方法で再分割する。
【0039】領域の識別に利用される情報は、前出した
セパレータと文字幅の推定値である。ここでは文字幅推
定装置について述べる。文字を含む領域(DocCell,ParaC
ell,TextCellクラス)において、文字幅の推定にはその
都度適当であると思われる方法を用いる。DocCell・Par
aCellクラスの場合、文字幅を黒連結成分の外接矩形か
ら推定する。外接矩形が正方領域に近いものを求め、こ
の外接矩形の幅の最頻値をこの領域の文字幅の推定値と
する。一方、TextCellクラスである場合、文字幅はその
領域の高さとする。(縦書きの場合は、領域の幅とな
る。)ここで、各クラスにおいて推定された文字幅をw
Cと表現する。
【0040】次に文字列判定装置の動作について述べる
(図6参照)。以下の条件を満たせば、横書きの文字列
と判定する。つまり、文字の横幅と文字列の高さが似か
よった値になることを利用している。なお、縦書きの場
合も同様の条件となる。
【0041】
【数9】
【0042】
【数10】
【0043】また、段落判定装置は次に述べるような動
作をする(図7参照)。段落の判定には、文字列の規則
性を利用する。また、セパレータの幅の最大値が大きい
方の方向に分割する。すなわち、(数11)であれば縦
書き、もしそうでなければ横書きと仮定する。
【0044】
【数11】
【0045】これは通常、文字間よりも文字列間の方が
大きいことを利用している。ここで、横書きと仮定した
場合、次式(数12)と(数13)とを満たせば、
【0046】
【数12】
【0047】
【数13】
【0048】対象としている領域を文字列の集合、すな
わち横書きの段落と判定することが出来る。
【0049】これまで、閉領域、文字列領域、段落領域
のどれとも判定されなかった領域の識別を文書領域構造
識別装置405を用いて行う(図8参照)。この3つの
領域以外の領域としては、段組であったり、章立て、論
文のフロントページなどのタイトルページなどを挙げる
ことができる。そもそも文書の中で一つのまとまった機
能や意味をなす領域とそれ以外の領域とを区切る場合に
は、人が見てわかりやすいように分離性の高いセパレー
タを用いる。例えば、章が変わるところでは文字間幅よ
りも太い空白帯を用いて新しい章が配置されている。ま
た、タイトルページのようにタイトルと本文の文字の大
きさは大きく異なるという性質も利用できる。このよう
な考えに基づき文書領域構造識別装置405は構成され
ている。まず、空白帯幅変化点抽出装置801と射影幅
変化点抽出装置802を用いて領域の内容物が大きく変
化する空白帯、それと同時に空白帯幅の平均値と射影幅
の平均値を求める。これらの情報を用いて有効空白帯選
択装置803は領域をどのように分割するかを決定す
る。
【0050】ここで、空白帯幅変化点抽出装置801
は、隣り合う2つの空白帯幅を求め、小さい方の射影幅
と大きい方の射影幅との比が一定値以下(例えば0.5以
下)であれば大きい方の空白帯をセパレータの候補と
し、また、射影幅変化点抽出装置802は、隣り合う2
つの射影幅を求め、小さい方の射影幅と大きい方の射影
幅との比が一定値以下(例えば0.8以下)であればこの
2つの射影の間の空白帯がセパレータの候補とするもの
である。
【0051】次に文字列領域分割装置の動作について述
べる。文字列領域の分割は単に領域を小領域に分割する
だけではなく、文字を含む領域の最小構成要素である文
字として切り出すことが重要である。例えば「松」とい
う文字は「木」と「公」の2つの領域に分割されるので
はなく、「松」として分割されるのが望ましい。文字列
領域分割装置でもこれまで述べてきた領域分割と同様識
別処理を伴う。ただし、文字領域の場合は文字認識の結
果が識別処理となる。また、人間が文字を正しく切り出
せるのは文字が読めることからも、文字の切り出しに文
字認識結果を用いるのは妥当と考えられる。
【0052】この文字列領域分割装置において次に定義
するような値(以降、切り出しスコアと呼ぶ)を用い
る。通常、文字認識は処理を行う前に文字候補領域を一
定の大きさに正規化するので、文字の大きさや縦横比等
の情報が失われてしまう。つまり、上述した「松」の場
合「木」と「公」に分割され、それぞれ高い認識結果と
なる可能性がある。
【0053】そのような不都合を補うように切り出しス
コアを定義する。上述した文字幅の推定値をwCとし、
文字候補領域RCの文字列方向の幅及び文字認識第i候
補のスコアをそれぞれ(数14)とした時、
【0054】
【数14】
【0055】切り出しスコアdRC(数15)は、
【0056】
【数15】
【0057】と定義する。ここで、第1候補と第3候補
のスコアの差をとったのは第1候補と第2候補が非常に
似かよった文字の場合、スコアに差がなくなるからであ
る。例えば、「と」と「ど」のような場合である。な
お、第1候補と第2候補の差を用いてもよい このような文字切り出しスコアを用い、以下に2つの文
字切り出し方法を述べる。一つ目は自然言語処理のチャ
ート法に類似した方法である(図9参照)。まず、文字
列を先頭から見てゆき、その方向と垂直に分割できる箇
所で全て分割し、n個の小領域901(数16)を求
め、各小領域riの前後に指標902(数17)を付与
する。
【0058】
【数16】
【0059】
【数17】
【0060】そして、連続した小領域を統合し、その統
合領域の切り出しスコアを求める。但し、求める統合領
域の幅は、その幅が文字推定幅の1.2倍よりも小さく
なるもの全てについてである。尚、この統合領域は文字
領域候補と考えることができる。
【0061】この様にして求められたm個の統合領域そ
れぞれに対応する文字ラティスを求める。ここで、文字
ラティスとは、対応する統合領域の始点及び終点の指標
s,ve、切り出しスコアd、そして統合領域を構成す
る小領域の集合(数18)、の4つの要素の組から成
り、記号ljで表現する。
【0062】
【数18】
【0063】また、文字ラティスljの集合(数19)
【0064】
【数19】
【0065】を形成することが出来る。但し、文字ラテ
ィスliを構成する統合領域(文字領域候補)の数をni
とする。
【0066】この様にして求めたラティスの集合(初期
ラティスの集合)から、以下の接続ルールにより接続可
能な2つのラティスli,ljを接続し、新しいラティス
l’を生成し、集合(数19)に加える。ここで、ラテ
ィスの接続ルールは、次式(数20)となる。
【0067】
【数20】
【0068】例えば、図9の場合、文字ラティス903
と文字ラティス904とを接続して文字ラティス905
を得た場合、文字ラティス905のスコアはラティスの
接続ルールにより(1615+1710)/2=166
2となる。
【0069】このように、自然言語処理のチャート法と
類似した方法でラティスを接続し、集合(数19)中で
(数21)となるラティスのうちスコアの最も高いもの
を対象領域の文字切り出し結果とする。
【0070】
【数21】
【0071】この方法の利点は2点ある。一つは文字列
中の任意の文字らしいラティスを選択し、順次隣接する
ラティスを接続してゆくので、前方から逐次切り出す方
法(後述)では切り出せない不定ピッチ文字(英数字)
等にも比較的うまく対応できることと、もう一つは文字
ラティスを最小の単位で保持しているため、後処理にお
いてフィードバックがかけやすいということである。
【0072】文字切り出しの二つ目の方法は、小領域を
文字列の先頭から逐次統合し、文字を切り出す(図10
参照)。ある小領域まで文字の切り出しが終了していた
とすると、次の小領域から始めて順次隣り合う小領域を
統合し、切り出しスコアを求める。そして、切り出しス
コアが極大となった統合領域として文字を切り出す。
【0073】例えば、図10の場合、r1まで分割が終
わっているとした場合、まず、r2を文字とした場合、
切り出しスコア176で「朴」という文字が認識結果と
して得られる。次に、r2,r3を統合したものを文字と
した場合、切り出しスコア1710で「枯」という文字
が認識結果として得られる。文字ラティスを用いた場合
と同様、文字推定幅の1.2倍までを文字探索の探索幅
とするため、これ以上小領域は統合されず、結果として
2を始点とする文字としては、切り出しスコアが極大
となる「枯」が選ばれる。以降、小領域r4を始点とし
て同様の処理が行の最後の小領域まで続けられる。
【0074】この方法は一つ目の方法より容易で高速に
処理できるが、切り出しを間違えた場合、訂正がしづら
いという欠点がある。文字切り出し装置においてはこの
どちらの方法を用いてもよい。
【0075】次に図11を用いて、フォーマットを識別
する機能としてフォーマット識別装置の説明を行う。フ
ォーマット識別装置はフォーマットデータベースと対に
なって自然言語処理におけるパーザー(構文解析)のよ
うな動作を行う。自然言語処理の文法にあたるものが、
領域分割ではフォーマットデータベース上のフォーマッ
ト情報、すなわち前述した領域分割木であり、パーザー
に相当するものがフォーマット識別装置となる。図11
にデータベース中のフォーマット情報のイメージを示
す。図11(a)は文字列領域1101があり、その下
に表領域1102が配置されたフォーマットを示し、図
11(b)は写真領域1103があり、その下に段落領
域1104が配置されたフォーマットを示す。なお、前
述したように各領域にはその領域がどの方向のセパレー
タで分割されたかの情報が付記されているので隣り合う
領域との位置関係を知ることができる。具体的にフォー
マット情報を用いて領域分割する方法について述べる。
画像が文書領域分割装置に入力され、最終的に領域分割
木、つまりフォーマット情報が得られたとする。そして
フォーマット識別装置を用いて、フォーマットデータベ
ース内のフォーマット情報と比較する。ここで、フォー
マットデータベース内のフォーマット情報を直接操作す
るのではなく、比較に用いるフォーマット情報をメモり
に一度蓄える。初期状態ではフォーマットデータベース
内の全てのフォーマット情報がメモリに蓄えられるもの
とする。そして、入力された文書から得られたフォーマ
ット情報の根からたどり、各ノードに対応する領域オブ
ジェクトをメモリ内のフォーマット情報の同じ位置の領
域オブジェクトと比較する。例えば、入力文書画像のフ
ォーマット情報の一番上に配置された領域が文字列領域
であった場合、メモリ内にある図11(a)、(b)の
フォーマット情報の同じ位置にある領域オブジェクト
(文字領域、及び写真領域)を比較し、一致しなかった
図11(b)のフォーマット情報を削除する。このよう
にフォーマット情報(領域分割木)を探索してメモリ上
のフォーマット情報の内で一致しないものを削除し、最
後に残ったものを入力された文書のフォーマットに一致
するフォーマット情報の候補であるとする。なお、文字
領域等の細かいノードまでをたどると誤識別を起こす可
能性があるので、フォーマット情報によって探索を行う
ノード位置を予め決めておくこともできる。ここで、一
致したフォーマット情報が多数存在する場合には、対応
する領域の重心の距離の近さによってフォーマット情報
の候補をさらに絞り込むこともできる。また、対応する
文字領域内の文字を比較し、一致するものを選択するこ
とも可能である。その結果、フォーマットデータベース
に登録されているどのフォーマットとも一致しなかった
場合、入力された文書は未知フォーマットであると判断
し登録を促すようユーザーに提示する。この時、ユーザ
ーは表示装置に表示された新しいフォーマットを見なが
ら、キーボード114やポインティングデバイス115
を用いて修正・追加・削除が行えるようにする。
【0076】請求項1及び2記載の発明によれば、領域
を階層的に分割すると同時に領域分割木を生成し、最終
的に得られる領域分割木を文書のフォーマットとして得
ることが可能となる。
【0077】請求項3記載の発明によれば、領域の形状
だけではなく、領域内の内容を比較することにより正確
なフォーマット識別が可能となる。
【0078】請求項4記載の発明によれば、画像自体を
処理しないので処理時間を短縮できることと、領域中の
黒画素の連結成分の位置(黒画素外接矩形)のみを扱う
のでどんな形状の領域であっても容易に空白帯を抽出す
ることができる。
【0079】請求項5記載の発明によれば、画像自体の
回転処理を行わないので処理時間を短縮できる。
【0080】請求項6記載の発明によれば、文書領域を
識別することにより、領域の処理方法を限定することが
可能となる。
【0081】請求項7記載の発明によれば、空白帯の分
離度の強さを基に領域を分割することができ、領域分割
木がフォーマットを表すように生成することができる。
【0082】請求項8記載の発明によれば、閉領域を識
別することにより、領域の処理方法を限定することがで
き、さらに、複雑な構成の表領域も領域分割することが
可能となる。
【0083】尚、上記実施の形態に記載の各手段(各装
置)の全部又は一部の手段の機能をコンピュータに実行
させるためのプログラムを記録した媒体を用いることに
より、上記と同様の効果を発揮するものである。
【0084】又、上記実施の形態の各手段の処理動作
は、コンピュータを用いてプログラムの働きにより、ソ
フトウェア的に実現してもよいし、あるいは、上記処理
動作をコンピュータを使用せずに特有の回路構成によ
り、ハード的に実現してもよい。
【0085】
【発明の効果】以上述べたところから明らかなように本
発明は、文書認識がより一層効率的に行うことが出来る
言う長所を有する。
【図面の簡単な説明】
【図1】本実施の形態の文書認識システムの全体の構成
を説明する図。
【図2】実施の形態の領域クラスと階層的分割を説明す
る図。
【図3】実施の形態の空白帯抽出装置を説明する図。
【図4】実施の形態の文書領域分割装置を説明する図。
【図5】実施の形態の閉領域分割装置を説明する図。
【図6】実施の形態の文字列判定装置を説明する図。
【図7】実施の形態の段落判定装置を説明する図。
【図8】実施の形態の文書領域構造識別装置を説明する
図。
【図9】実施の形態の文字列領域分割装置において文字
ラティスを用いて文字を切り出す方法を説明する図。
【図10】実施の形態の文字列領域分割装置において逐
次的に文字を切り出す方法を説明する図。
【図11】(a),(b):実施の形態のフォーマット
識別装置の動作を説明する図。
【符号の説明】
103 画像入力装置 104 傾き検出装置 105 文字認識装置 106 フォーマット識別装置 107 フォーマットデータベース 108 黒画素外接矩形抽出装置 109 文書領域分割装置 110 段落領域分割装置 111 文字列領域分割装置 112 閉領域分割装置 113 文字領域分割装置 401 文字幅推定装置 402 孤立罫線抽出装置 403 文字列判定装置 404 段落判定装置 405 文書領域構造識別装置 406 再分割領域生成装置 501 罫線抽出装置 502 再分割領域生成装置 801 空白帯変化点抽出装置 802 射影幅変化点抽出装置 803 有効空白帯選択装置

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】文書領域オブジェクトを生成する文書領域
    初期化手段と、 連結黒画素成分の外接矩形を抽出する黒画素外接矩形抽
    出手段と、 領域オブジェクト内の白画素の帯を空白帯として抽出す
    る空白帯抽出手段と、 文書領域を識別分割する文書領域分割手段と、 文字列の集合である段落を分割する段落領域分割手段
    と、 文字の集合である文字列を分割する文字列領域分割手段
    と、 文字領域オブジェクトの属性を初期化する文字領域分割
    手段と、 前記空白帯によって分割できない閉領域を識別分割する
    閉領域分割手段とを備え、 前記各分割手段において分割された領域を領域オブジェ
    クトとして生成し隣接あるいは包含関係を属性として持
    たせることにより領域分割木を生成し、全領域オブジェ
    クトを分割できなくなるまで分割した時点で、前記領域
    分割木が前記文書領域オブジェクトのフォーマット情報
    を示すことを特徴とする文書認識装置。
  2. 【請求項2】前記領域オブジェクトは、領域の位置情報
    と、領域の種類を表すクラス情報と、領域の書式情報
    と、領域内を分割しているセパレータ情報と、領域分割
    木を構成する隣接及び包含情報と、領域内に含まれる黒
    画素外接矩形情報と、領域の幾何学的な構造を示す構造
    情報と、領域内の文字幅の推定値とを有し、前記文字領
    域オブジェクトは、前記領域オブジェクトが持つ情報に
    加え、文字認識手段による文字認識結果を有することを
    特徴とする請求項1記載の文書認識装置。
  3. 【請求項3】前記フォーマット情報を識別するフォーマ
    ット識別手段と、前記フォーマット情報を格納するフォ
    ーマットデータベースと、表示手段と、キーボード及び
    ポインティングデバイスを有し、 入力文書画像から得られた前記フォーマット情報と前記
    フォーマットデータベースに存在する前記フォーマット
    情報の対応する領域オブジェクトの比較を行い、前記フ
    ォーマットデータベース内に存在しないフォーマット情
    報と判断された場合に、前記表示手段に表示された画像
    と対応するフォーマット情報とに基づいて、前記キーボ
    ード及び/又は前記ポインティングデバイスにより新規
    のフォーマット情報として前記フォーマットデータベー
    スに登録されることを特徴とする請求項1記載の文書認
    識装置。
  4. 【請求項4】前記空白帯抽出手段は、前記領域オブジェ
    クト内の黒画素外接矩形を水平及び/又は垂直方向に射
    影することによって空白帯を抽出することを特徴とする
    請求項1記載の文書認識装置。
  5. 【請求項5】入力文書画像の一部である黒画素外接矩形
    の傾きを検出する検出手段を備え、前記傾きを補正する
    ために前記黒画素外接矩形を回転させ、前記傾きが補正
    された黒画素外接矩形を用いて領域分割を行うことを特
    徴とする文書認識装置。
  6. 【請求項6】前記文書領域分割手段は、文字幅推定手段
    と、孤立罫線抽出手段と、文字列判定手段と、段落判定
    手段と、文書領域構造識別手段と、再分割領域生成手段
    とを備え、前記孤立罫線抽出手段によって孤立罫線を探
    し、前記孤立罫線が存在すればこれをセパレータとして
    選定し、前記孤立罫線が存在しなければ対象領域が文字
    列又は段落であるかを文字列判定手段及び段落判定手段
    を用いて判定し、文字列又は段落であれば再分割領域生
    成手段において文字列領域オブジェクト又は段落領域オ
    ブジェクトをそれぞれ生成し、文字列でも段落でもなけ
    れば前記文書領域構造識別手段を用いて分割に用いる前
    記空白帯をセパレータとして選定し、選定された孤立罫
    線又は空白帯をセパレータを基に再分割領域生成手段に
    よって少なくとも2個の文書領域オブジェクトを生成
    し、文字列でも段落でもなくセパレータも存在しない場
    合には再分割領域生成手段によって閉領域オブジェクト
    を生成し、生成されたオブジェクトのクラス、すなわち
    文書領域クラス、段落領域クラス、文字列領域クラス、
    及び閉領域クラスそれぞれに対応した分割手段、すなわ
    ち文書領域分割手段、段落領域分割手段、文字列領域分
    割手段、及び閉領域分割手段を呼び出すことを特徴とす
    る請求項1記載の文書認識装置。
  7. 【請求項7】前記文書領域構造識別手段は、縦方向・横
    方向それぞれについて、空白帯幅が大きく変化する空白
    帯幅変化点を抽出する空白帯幅変化点抽出手段と、2つ
    の空白帯に挟まれた部分の射影の幅が大きく変化する射
    影幅変化点を抽出する射影幅変化点抽出手段と、前記空
    白帯幅変化点と前記射影幅変化点の情報を基に領域分割
    に用いる空白帯を求める有効空白帯選択手段とからな
    り、空白帯の分離性の強さを基に領域を分割することを
    特徴とする請求項6記載の文書認識装置。
  8. 【請求項8】前記閉領域分割手段は、罫線抽出手段と、
    再分割領域生成手段とからなり、罫線抽出手段によって
    水平及び垂直方向の罫線を抽出し、前記抽出された罫線
    が1本であれば罫線領域オブジェクトを生成し、前記罫
    線が複数存在すれば帳票領域オブジェクトを生成し前記
    罫線をセパレータとして再分割領域生成手段によって少
    なくとも1個の文書領域オブジェクトを生成し、前記罫
    線が存在しなければ文字判定手段により文字の大きさに
    近いかどうかを判定し文字に近ければ文字領域オブジェ
    クトを生成し、また文字と判定されなければ文字よりも
    大きい領域は領域内の黒画素の密度基づいて図領域オブ
    ジェクト及び写真領域オブジェクトを生成し、文字より
    小さい領域であればノイズ領域を生成し、生成された領
    域オブジェクトのクラスとしての文書領域クラス、図領
    域クラス、写真領域クラス、文字領域クラス、罫線領域
    クラス、及びノイズ領域クラスのそれぞれのクラスに対
    応した文書領域分割手段、図領域処理手段、写真領域処
    理手段、文字領域分割手段、罫線領域処理手段、及びノ
    イズ領域処理手段を呼び出すことを特徴とする請求項1
    記載の文書認識装置。
  9. 【請求項9】入力文書画像から文書データの領域を認識
    する文書認識方法であって、 前記入力文書画像から罫線の抽出及び/又は文書データ
    の存在しない空白帯の抽出をし、その抽出した罫線及び
    /又は空白帯を用いて前記画像データを所定の領域に分
    割し、前記分割された所定の領域から罫線及び/又は空
    白帯を抽出し、その抽出した罫線及び/又は空白帯を用
    いて前記所定の領域を更に分割し、前記分割を繰り返し
    行い、前記分割の包含関係を領域分割木として生成し、
    前記文書データのフォーマット情報として出力すること
    を特徴とする文書認識方法。
  10. 【請求項10】請求項1〜8の何れか一つの請求項に記
    載の各手段の全部又は一部の手段の機能をコンピュータ
    に実行させるためのプログラムを記録したことを特徴と
    する媒体。
  11. 【請求項11】請求項9記載の各ステップの全部又は一
    部のステップをコンピュータに実行させるためのプログ
    ラムを記録したことを特徴とする媒体。
JP9216873A 1997-08-11 1997-08-11 文書認識装置、文書認識方法及び媒体 Withdrawn JPH1166230A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9216873A JPH1166230A (ja) 1997-08-11 1997-08-11 文書認識装置、文書認識方法及び媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9216873A JPH1166230A (ja) 1997-08-11 1997-08-11 文書認識装置、文書認識方法及び媒体

Publications (1)

Publication Number Publication Date
JPH1166230A true JPH1166230A (ja) 1999-03-09

Family

ID=16695263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9216873A Withdrawn JPH1166230A (ja) 1997-08-11 1997-08-11 文書認識装置、文書認識方法及び媒体

Country Status (1)

Country Link
JP (1) JPH1166230A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2008017184A (ja) * 2006-07-06 2008-01-24 Hitachi Software Eng Co Ltd 電子黒板システムにおける描画オブジェクトの隠蔽処理方法及び電子黒板システム
US20090245640A1 (en) * 2008-03-31 2009-10-01 Jilin Li Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded
JP2012119859A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2008017184A (ja) * 2006-07-06 2008-01-24 Hitachi Software Eng Co Ltd 電子黒板システムにおける描画オブジェクトの隠蔽処理方法及び電子黒板システム
US20090245640A1 (en) * 2008-03-31 2009-10-01 Jilin Li Image determination apparatus, image search apparatus and a recording medium on which an image search program is recorded
US8385643B2 (en) * 2008-03-31 2013-02-26 Sharp Kabushiki Kaisha Determination of inputted image to be document or non-document
JP2012119859A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US6006240A (en) Cell identification in table analysis
JP3343864B2 (ja) 語体の分離方法
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
JP3452774B2 (ja) 文字認識方法
JPH0772905B2 (ja) 記号列の認識方法
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JPH1166238A (ja) 手書き文字認識方法
JPH08320914A (ja) 表認識方法および装置
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP2002063548A (ja) 手書き文字認識方法
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JPH11272800A (ja) 文字認識装置
CN116229497B (zh) 版面文本的识别方法、装置及电子设备
JPH0350692A (ja) 文字認識装置
JP3897999B2 (ja) 手書き文字認識方法
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体
JP2917427B2 (ja) 図面読取装置
JP3817442B2 (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体
JP2000259847A (ja) 情報検索方法、装置および記録媒体
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20040319