JPH04270483A

JPH04270483A - 文字情報検出装置

Info

Publication number: JPH04270483A
Application number: JP2310489A
Authority: JP
Inventors: Yasuhiko Murayama; 靖彦村山
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1990-11-16
Filing date: 1990-11-16
Publication date: 1992-09-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、光学的に読み取った文書画像から、文字の大
きさ、文字ピッチ、行間等の文字情報を検出する装置に
関する。

［従来の技術］従来の文書画像処理装置における文字情報（文字の大き
さ、文字ピッチ、行間）の検出は、入力した文書画像全
体に対して外接矩形を求め、求めた外接矩形の幅の分布
より文字の大きさを求めたり、文書画像の端から周辺分
布を求め、周辺分布の周期性のある位置から文字の大き
さ、行間をを求めていた。

［発明が解決しようとする課題］しかし、前述の従来技術では文書画像全体の外接矩形を
求めているので処理時間がかかり、また文書画像の端か
ら周辺分布をとる場合、画像中に図、表、写真等がある
と分布に周期性が見られなくなることがある。そして文
書画像に傾きがあると文字の大きさ、行間を精度よく求
めることができないという問題を有する。

そこで本発明はこのような問題点を解決するもので、そ
の目的とするところは処理情報を少なくすることにより
処理時間が短く済み、文書画像中に図、表、写真が混在
しても文字情報を得ることができ、文書画像に傾きがあ
っても対応できる装置を提供するところにある。

［課題を解決するための手段］文書を光学的に入力する画像入力部、画像や処理に関連
した情報や処理結果を格納するための記憶部、文字情報
を、得るための各処理の実行を行なう文字情報検出部を
備えた文字情報検出装置において、（ａ）記憶部は、処理すべき文書画像情報を蓄える画像
記憶部、画像記憶部の文書画像の一部の領域を記憶する
部分領域記憶部、部分領域記憶部の情報より求めた文字
候補の外接矩形の情報を記憶する文字候補矩形記憶部、
文字を取り囲む外接矩形に関する情報を記憶する文字矩
形情報記憶部との４つの要素からなり、（ｂ）文字情報検出部は、入力文書画像の一部を選択し
、選択した領域を切り出す領域切り出し部、領域切り出
し部により切り出した領域から文字候補の外接矩形を求
める文字候補抽出部、前記文字候補抽出部より求めた外
接矩形から文字の外接矩形であるものを選び、選んだ外
接矩形から文字の大きさ、文字ピッチを求める文字矩形
選択部、文字矩形選択部により選んだ外接矩形を用いて
行間を求める行間検出部との４つの要素から、構成され
ることを特徴とする。

［作用］本発明の上記の構成によれば、入力文書画像の一部を選
択し、選択した領域を切り出し、切り出した領域内のみ
の処理を行なうので、処理時間が短くて済む。また、切
り出した領域が文字情報を得るのに適した領域であるか
を判断するので、文書画像中に図、表、写真等が混在し
ていても文字情報を得ることがでる。そして、文書画像
に傾きがあっても、傾き角を検出しやすい領域（文字の
多い領域）を用いて傾き角を検出し、検出した傾き角よ
り文字情報の補正を行なうので、傾きがあっても精度よ
く文字情報を得ることができる。

［実施例］以下、本発明の実施例につき図面を用いて説明する。

第１図は本発明の実施例に係わる装置構成を示すブロッ
ク図である。１０はスキャナーやカメラなどの光学入力
装置を用いて文書の画像を入力するための画像入力部で
ある。１１は画像や処理に関した情報、処理結果を格納
するための記憶部である、記憶部１１は画像記憶部１１
ａ、部分領域記憶部１１ｂ、文字候補矩形記憶部１１ｃ
、文字矩形情報記憶部１１ｄにより構成されている。１
２は文字情報検出の各処理の実行を行なう文字情報検出
部である。文字情報検出部１２は領域切り出し部１２ａ
、文字候補矩形抽出部１２ｂ、文字矩形選択部１１ｃ、
行間検出部１２ｄにより構成されている。文字情報検出
部１２はプログラムメモリに格納されたプログラムと、
これを実行するプロセッサとにより実現される機能であ
っても、専用のハードウェアによって構成されていても
よい。以上のように文字情報検出装置は画像入力部１０
、記憶部１１、文字情報検出部１２により構成されてい
る。

第１図の装置構成による処理内容について、以下に説明
する。

まず始めに本実施例における「文字情報」の定義を第２
図に示す。文字情報は文字の大きさ（Ｌｅｔｔｅｒ）、
文字ピッチ（Ｐｉｔｃｈ）、行間（Ｃｏｌｕｍｎ）を総
称するものである。文字の大きさは矩形で示した仮想ボ
ディの大きさで表わし、文字のピッチは文字列方向の仮
想ボディの中心と仮想ボディの中心との距離、行間は行
方向の仮想ボディの中心と仮想ボディの中心との距離で
表わすものとする。

画像入力部１０によって入力した文書画像は画像記憶部
１１ａに記憶される。

領域切り出し部１２ａの動作について第３図を用いて説
明する。領域切り出し部１２ａは画像記憶部１１ａに記
憶した文書画像の一部の切り出しを行なう。領域の切り
出しは、文字候補矩形抽出部１２ｂ、文字矩形選択部１
２ｃ、行間検出部１２ｄにより文字情報を得やすい領域
か判断され、文字情報が得やすい領域の切り出しが行な
われるまで処理を続ける。

切り出される領域の位置の例を第４図に示す。

文書画像中の矩形が切り出す領域を表わしている。

また、矩形内の数字が切り出す順番を表わしている。本
実施例では切り出しを行なう領域は固定し、切り出す領
域の数を「６」としているが、切り出す領域の位置は任
意であってもよい。また、切り出す領域の個数も幾つで
あってもよい。切り出す領域の大きさを本実施例では（
５０［ｍｍ］×５０［ｍｍ］）としているが、大きさも
自由である。

ただし、切り出す領域の大きさが小さいと文字情報を得
にくく、大きいと処理する情報量が多くなるので領域の
大きさは１辺が５０［ｍｍ］前後であることが望ましい
。以上が領域切り出し部１２ａの動作である。

次に、文字候補矩形抽出部１２ｂの動作について第５図
を用いて説明する。文字候補矩形抽出部１２ｂは切り出
した領域から黒画素の塊をみつけ、見つけた黒画素の塊
を取り囲む外接矩形を求め、その中から文字と思われる
外接矩形を選択する。

また、処理の途中で切り出した領域が文字情報を得やす
い領域であるかを判断する。

まず、部分領域記憶部１１ｂに格納した部分領域の走査
を行なう。走査とは外接矩形が求められていない黒画素
の塊があるかを調べることである。

（ステップ３０１）領域の走査が終了したかを判断する。（ステップ３０２
）走査の結果、外接矩形が求められていない黒画素の塊が
見つかったならば、黒画素の塊を取り囲む外接矩形を求
める。外接矩形はどのような方法で求めてもかまわない
。外接矩形を求める方法として例えば、８連結のラベリ
ングで連結処理を行ない、外接矩形を求める方法がある
。（岩城修、“図表中の文字の認識”、信学技報、ＰＲ
Ｌ８４−５０）（ステップ３０３）求めた外接矩形の全長と定数αとを比較する。

ここでいう外接矩形の全長とは矩形の四辺の和のことを
いうものとする。また定数αの決定の方法は、例えば切
り出した部分領域の１辺の長さに１より大きな値を掛け
て求める。切り出した領域に図や表がある場合、求めた
外接矩形は大きくなる。

そのような領域は文字情報を得るのに適した領域でない
ので、領域切り出し部１２ａの■（２００）へ戻る。（
ステップ３０４）求めた外接矩形の縦横比を求め、定数βと比較する。縦
横比は外接矩形の大きい方の辺の長さを小さい方の辺の
長さで割った値とする。また、文字を囲む外接矩形の縦
横比は「１」に近い値となる。よって、定数βは１から
２程度の範囲の値から選択する。（ステップ３０５）ステップ３０５における条件を満たしたならば求めた外
接矩形を文字候補矩形として文字候補矩形記憶部１１ｃ
に登録する。（ステップ３０６）走査が終了したならば
求めた文字候補矩形の個数と定数γとを比較する。定数
γは２０から５０程度の値に設定するとよい。文字候補
矩形の個数が少ないならば切り出した領域には文字らし
い部分が少ないことになり、文字情報を得にくい領域と
いうことになる。よって、領域切り出し部１２ａの■（
２００）へ戻る。（ステップ３０７）領域切り出し部１
２ａによって１番目に切り出した領域を第６図に示す。

この領域には表があり、ステップ３０４によって文字情
報を得にくい領域であると判断される。よって次の領域
の切り出しに移る。

２番目に切り出した領域から文字候補矩形を求めた結果
を第７図に示す。第７図において図中にある矩形が文字
候補矩形として登録したものである。

以上が文字候補矩形抽出部１２ｂの動作である。

次に、文字矩形選択部１２ｃの動作を第８図を用いて説
明する。文字矩形選択部１２ｃは文字候補矩形から文字
の大きさを決定し、文字矩形の選択を行ない、選択した
文字矩形から文字ピッチを求める。また求めた文字の大
きさから切り出した領域が正しい文字情報が得られる領
域であるかを判断する。

初めに、文字候補矩形の大きさの分布を求める。

文字候補矩形の縦横比は１に近い値である。そこで分布
を求めるときに、例えば文字候補矩形縦の辺の長さを使
う。長さを適当な区間で区切り、その区間内にある文字
候補矩形の個数で分布を表わすものとする。区間の大き
さは、例えば１［ｍｍ］とする。（ステップ４０１）ステップ４０１で求めた分布が最大になる区間の文字候
補矩形と、その区間から±δの大きさの文字候補矩形を
文字矩形として選択する。ここでδは定数であり、例え
ば１［ポイント］、１／２［ポイント］のような値をと
るものとする。選んだ文字矩形に関する情報を文字矩形
情報記憶部１１ｄに登録する。このとき文字矩形の中心
の座標も文字矩形情報記憶部１１ｄに登録するものとす
る。（ステップ４０２）選んだ文字矩形の個数と定数εとを比較する。

定数Ｅは２０から５０程度の値に設定するとよい。

文字矩形の個数が少ないならば切り出した領域には文字
らしい部分が少ないことになり、文字情報を得にくい領
域ということになる。よって、領域切り出し部１２ａの
■（２００）へ戻る。（ステップ４０３）次に、文字の大きさ（Ｌｅｔｔｅｒ）の決定を行ない、
決定した文字の大きさと定数ζと定数ηを比較する。文
字の大きさは、例えば文字矩形の大きさの平均もしくは
文字矩形の大きさの最大のものを用いる。本文文字の大
きさが７［ポイント］（約２．５［ｍｍ］）より小さく
、１４［ポイント］（約４．９［ｍｍ］）より大きいこ
とはあまりない。

よって定数ζの値は、例えば７［ポイント］より小さい
値に、定数ηは例えば１４［ポイント］より大きな値に
設定する。条件を満たさないとき文字以外で文字矩形が
選択されたことになる。よって、文字情報が得られない
ので、■（２００）へ戻り別の領域の切り出しに移る。

（ステップ４０４）次に、文字ピッチ（Ｐｉｔｃｈ）の計算を行なう。

計算の方法は、（１）一つの文字矩形の中心から他の文字矩形中心に線
を引く。

（２）引いた線の中から線の長さが最も短いものを選ぶ
。

（３）選んだ線の長さが定数κより小さければ文字矩形
情報記憶部１１ｄに登録する。

（４）全ての文字矩形に（１）から　（３）の処理を行
ない、登録した線の長さの平均値を文字ピッチ（Ｐｉｔ
ｃｈ）とする。

定数κの値は、例えば文字の大きさ（Ｌｅｔｔｅｒ）の
１．５倍から２倍にする。（ステップ４０５）第７図で
切り出した領域の文字の大きさは、ステップ４０４で条
件を満たさなかったので次の領域の切り出しに移る。次
に切り出した領域を第９図、第１０図に示す。第９図の
矩形は文字候補矩形選択部１２ｂで選択した文字候補矩
形で、第１０図の矩形はステップ４０２で文字候補矩形
から選択した文字矩形である。ステップ４０５で登録し
た文字矩形の中心同士を結び、条件を満たした直線を第
１１図に示す。

以上が文字矩形選択部１２ｃの動作である。

最後に、行間検出部１２ｄを第１２図を用いて説明する
。行間検出部１２ｄは、切り出した領域から文書画像の
傾き角を求め、求めた文書画像の傾き角と文字矩形の情
報から行間（Ｃｏｌｕｍｎ）を検出する。また、傾き角
より、文字情報の補正を行なう。処理の途中で切り出し
た領域が文字情報を得やすい領域であるかを判断する。

部分領域記憶部１１ｂに格納した部分領域から文書画像
の傾き角を求める。傾き角を求める方法はどのような方
法でもかまわない。例えば、切り出した領域の左右両側
の一部で取った周辺分布の山の位相のずれより傾き角の
検出を行なう。（秋山照雄、“書式指定によらない紙面
構成要素抽出法”、信学論　Ｖｏｌ．Ｊ６６−Ｄ、Ｎｏ
．４ｐｐ．４３７−４４４　’８３−０４）（ステップ
５０１）文字情報記憶部１１ｄでチェックされていない文字矩形
があるかを判断する。以下の処理で（ステップ５０３、
ステップ５０４）で文字矩形のチェックは行なわれる。

チェックは、例えばあるビットを立てることより行なう
。（ステップ５０２）チェックされていない文字矩形か
ら１個を選び、選んだ文字矩形をチェックする。（ステ
ップ５０３）ステップ５０３で選んだ文字矩形と同じ行にあると思わ
れる文字矩形を選び出し、選んだ文字矩形をチェックす
る。ここで同じ行にあると思われる文字矩形の選択の方
法を説明する。

（１’）ステップ５０３で選んだ文字矩形の中心を通り
、ステップ５０１で求めた傾き角を持つ直線を求める。

（２’）チェックされていない文字矩形で文字矩形の中
心と、（１’）で求めた直線との距離が値λ以下である
ものを同じ行の文字矩形であると判断する。ここで値λ
は、ステップ４０２で求めた文字の大きさ（Ｌｅｔｔｅ
ｒ）を参考に決めるとよい。

（ステップ５０４）ステップ５０４で選んだ文字矩形の個数と定数μとを比
較する。条件を満たさなければステップ５０１にもどる
。定数μは、例えば３から１０の範囲で設定する。（ス
テップ５０５）ステップ５０３で選んだ文字矩形、およびステップ５０
４で選ばれた文字矩形を用いて、各文字矩形の中心付近
を通る直線を求める。直線の傾きはステップ５０１で求
めた角度と等しく、直線と各文字矩形の中心との距離の
２乗和が最小になるようにする。第１１図の文字矩形を
用いて求めた直線を第１３図に示す。（ステップ５０６
）チェックされていない文字矩形がなくなったならば、
ステップ５０６で求めた直線の本数と定数νとを比較す
る。条件を満たさなかったならば、文字情報を得にくい
領域であると判断し■（２００）へ戻る。定数νは、例
えば３から１０の範囲で設定するとよい。（ステップ５
０７）ステップ５０６で求めた直線を利用して行間（Ｃ
ｏｌｕｍｎ）を求める。第１４図の例を用いて行間のス
ペースを求める方法を説明する。第１４図のＬ１からＬ
４はステップ５０６で求めた直線を表わす。

（１”）隣り合った直線間の距離を求める。（図中Ｓ１
からＳ３）（２”）（１”）で求めた直線の距離から最小のものを
選ぶ（Ｓ１）。

（３”）（２”）で選んだ値（Ｓ１）で各直線間の距離
を割り「商」（Ｑ１からＱ３）と「余り」（Ｒ２、Ｒ３
）を求める。「余り」が、ξ×文字の大きさ（Ｌｅｔｔ
ｅｒ）×「商」より大きかったならば、（４”）での処
理の対象としない。

（４”）行間を第１４図の例においては図中に示す式で
求める。

以上の方法で行間を求める、この方法により、ステップ
５０６で求める直線が数行分求めることができなくても
、１行程度のイレギュラーな行間があっても問題ない。

（ステップ５０８）ステップ５０１で求めた傾き角に対
する文字情報の補正を行なう。補正の方法は、ステップ
５０１で求めた傾き角の絶対値を取った値を（Ａｎｇｌ
ｅ）とすると、文字ピッチ（Ｐｉｔｃｈ）、行間（Ｃｏ
ｌｕｍｎ）に対しては、ｃｏｓ（Ａｎｇｌｅ）をかける
ことにより、また文字の大きさ（Ｌｅｔｔｅｒ）に対し
ては、｛ｃｏｓ（Ａｎｇｌｅ）＋ｓｉｎ（Ａｎｇｌｅ）
｝の逆数をかけることによりおこなう。（ステップ５０
９）以上が行間検出部１２ｄの動作である。

以上のようにして文字情報を求めることができる。

［発明の効果］以上述べたように本発明によれば、入力した文書画像の
一部を選択し、選択した領域を切り出し、切り出した領
域が文字情報を得るのに適した領域であるかを判断し、
文書画像の傾き角を考慮に入れながら文字情報を求める
ことにより、処理時間が短く、文書画像中に図、表、写
真等が混在し、文書画像に傾きがあっても、文字情報を
精度よく求めることができるという効果を有する。

【図面の簡単な説明】

　第１図は本発明の装置構成を示すブロック図。第２図は文字情報の定義を示す図。第３図は領域切り出し部の処理の流れ図。第４図は切り出される領域の例を示す図。第５図は文字候補矩形抽出部の処理の流れ図。第６図は第４図から１番目に切り出した領域を示す図。第７図は第４図から２番目に切り出され、文字候補矩形
を求めた例を示す図。第８図は文字矩形選択部の処理の流れ図。第９図は第４図から３番目に切り出し、文字候補矩形を
求めた例を示す図。第１０図は第９図の文字候補矩形から文字矩形を選択し
た例を示す図。第１１図は文字ピッチを求めるための直線の例をを示す
図。第１２図は行間検出部の流れ図。第１３図は行間を求めるために求めた直線の例を示す図
。第１４図は行間を求める方法を説明するための図。１０…画像入力部１１…記憶部１２…文字情報検出部１１ａ…画像記憶部１１ｂ…部分領域記憶部１１ｃ…文字候補矩形記憶部１１ｄ…文字矩形情報記憶部１２ａ…領域切り出し部１２ｂ…文字候補矩形抽出部１２ｃ…文字矩形選択部１２ｄ…行間検出部［以上］出願人　セイコーエプソン株式会社

Claims

【特許請求の範囲】文書を光学的に入力する画像入力部、画像や処理に関連
した情報や処理結果を格納するための記憶部、文字情報
を得るための各処理の実行を行なう文字情報検出部を備
えた文字情報検出装置において、（ａ）前記記憶部は、処理すべき文書画像情報を蓄える
画像記憶部、前記画像記憶部の文書画像の一部の領域を
記憶する部分領域記憶部、前記部分領域記憶部の情報よ
り求めた文字候補の外接矩形の情報を記憶する文字候補
矩形記憶部、文字を取り囲む外接矩形に関する情報を記
憶する文字矩形情報記憶部との４つの要素からなり、（ｂ）前記文字情報検出部は、入力文書画像の一部を選
択し、選択した領域を切り出す領域切り出し部、前記領
域切り出し部により切り出した領域から文字候補の外接
矩形を求める文字候補抽出部、前記文字候補抽出部より
求めた外接矩形から文字の外接矩形であるものを選び、
選んだ外接矩形から文字の大きさ、文字ピッチを求める
文字矩形選択部、前記文字矩形選択部により選んだ外接
矩形を用いて行間を求める行間検出部との４つの要素か
ら、構成されることを特徴とする文字情報検出装置。