JPH0822507A

JPH0822507A - 文書認識装置

Info

Publication number: JPH0822507A
Application number: JP6157209A
Authority: JP
Inventors: Yumiko Ikemure; 由美子池牟禮
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-07-08
Filing date: 1994-07-08
Publication date: 1996-01-23

Abstract

(57)【要約】【目的】ノイズに強い文書認識装置を提供することを
目的とする。【構成】縮小画像データから検出した連結黒画素矩形
リストを抽出し、罫線属性付与部、文字属性付与部、写
真属性付与部、表属性付与部、罫線属性付与部、読取ノ
イズ検出部、図形属性付与部より、連結黒画素矩形に属
性を設定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字・表・図形・罫線
が混在する印刷文書を、スキャナ等の光学的手段を用い
て文書画像を取り込み、取り込んだ画像データを基に文
字ブロック・図形ブロック等に領域を分割し、各々のブ
ロックの属性に応じた認識を行う文書認識装置に関する
ものである。

【０００２】

【従来の技術】従来の文書認識の処理過程について以下
説明する。

【０００３】＜ステップ１＞スキャナによって取り込ま
れた二値データを解像度が１００ＤＰＩ程度となるよう
に縮小する。

【０００４】＜ステップ２＞縮小された画像データに対
して、連結黒画素矩形の座標と連結黒画素数をメモリに
格納する。

【０００５】＜ステップ３＞ステップ２で抽出した連結
黒画素矩形の中から、文字を構成する矩形を抽出する。
連結黒画素矩形の幅あるいは高さのうち短い方の長さが
あらかじめ定められた閾値より小さければ、その連結黒
画素矩形に文字の属性が付与する。

【０００６】＜ステップ４＞ステップ３で文字属性とな
らなかった連結黒画素矩形が写真属性をもつ矩形である
か否かの判定を行う。連結黒画素矩形に対して、矩形内
に微小な矩形があらかじめ定められた閾値以上存在する
か、あるいは、矩形内に占める黒画素の割合があらかじ
め定められた閾値以上あれば、その連結黒画素矩形には
写真属性を付与する。

【０００７】＜ステップ５＞ステップ３，４で文字・写
真にならなかった残りの連結黒画素矩形に対しては、表
矩形であるか否か、チェックする。矩形内に水平線およ
び垂直線を構成する部分があるか調べ、矩形内に存在す
る水平線あるいは垂直線の数と水平線と垂直線の交点
数、および、矩形内の黒画素の情報から表属性をもつ矩
形と判断する。

【０００８】＜ステップ６＞属性が付与されなかった連
結黒画素矩形に対して図形属性を付与する。

【０００９】＜ステップ７＞以上の処理により、各矩形
に対して、文字、写真、表、図形の属性が付与される。
文字以外の写真、表、図形の属性をもつ矩形について
は、１矩形が１領域を形成するとみなされ、写真、表、
図形の属性をもつ領域が抽出される。

【００１０】＜ステップ８＞写真、表、図形内に包含さ
れる文字属性をもつ矩形については、その矩形は図形の
一部である可能性が高いため、写真、表、図形内に包含
される文字属性をもつ矩形は黒画素矩形リストから削除
する。

【００１１】＜ステップ９＞ステップ８で残った文字属
性をもつ矩形に対して、文字列の統合を行い、文字領域
の抽出を行う。

【００１２】＜ステップ１０＞文字領域は文字認識、画
像領域は画像圧縮、表領域は表認識、図形領域はベクト
ル化を行い、それぞれの属性に応じた認識結果を得る。

【００１３】

【発明が解決しようとする課題】しかしながら従来技術
では、複数の罫線で構成される領域やスキャナ読み取り
ノイズは、図形領域となってしまうために、内部の文字
も図形の一部となってしまい、ベクトル化してしまうと
いう問題点があった。

【００１４】そこでノイズにより認識精度が影響されに
くい文書認識装置を提供することを目的とする。

【００１５】

【課題を解決するための手段】本発明の文書認識装置
は、二値化された文字認識対象文書に対して画像データ
を縮小して縮小画像データとする手段と、縮小画像デー
タから黒画素が連結している箇所を検出し、連結黒画素
に外接する連結黒画素矩形を求め、縮小画像データに対
応した連結黒画素矩形の座標と連結黒画素数を連結黒画
素矩形情報リストとして格納する連結情報格納手段と、
連結黒画素矩形の縦横比が予め定められた閾値以上であ
るものを罫線と判断し、連結黒画素矩形情報の１つとし
て罫線属性を付与する手段と、連結黒画素矩形の辺の長
さが予め定められた閾値以下のものを文字矩形と判断し
連結黒画素矩形情報に文字属性を付与する手段と、連結
黒画素矩形内の黒画素の特徴から写真属性を付与する手
段と、連結黒画素矩形内に水平線および垂直線を構成す
る部分があるか調べ、連結黒画素矩形内に存在する水平
線あるいは垂直線の数と水平線と垂直線の交点数、およ
び、連結黒画素矩形内の黒画素の情報から表と判断し、
連結黒画素矩形情報に表の属性を付与する手段と、水平
線／垂直線情報と連結黒画素矩形内の全黒画素数と連結
黒画素矩形情報格納手段で検出した連結黒画素数を基に
対象矩形が複数の罫線から構成される矩形であるか調
べ、そうであれば矩形情報に罫線の属性を付与する手段
と、さらに、連結黒画素矩形位置情報と矩形内部の黒画
素情報よりその矩形が画像読み取りノイズであるか調
べ、読み取りノイズであった場合にその連結黒画素矩形
の情報を矩形リストより削除する手段と、属性が付与さ
れない残りの矩形に対して図形属性を付与する手段とを
備える。

【００１６】

【作用】本発明は上記の構成により、従来技術において
図形と判定されていた複数の罫線が結合している領域や
画像読み取りノイズが、罫線領域は罫線領域と判定で
き、スキャナ読み取りノイズはノイズと判定して領域情
報から削除することができる。

【００１７】

【実施例】本発明の一実施例について図面を参照して説
明する。図１は本発明の一実施例における文書認識装置
のブロック図である。図１において、１は文書認識を行
う中央処理装置（以下、ＣＰＵと略す）であって図２
（本発明の一実施例における文書認識装置の機能ブロッ
ク図）の画像入力部７、画像縮小部８、連結黒画素矩形
リスト作成部９、罫線属性付与部１０、文字属性付与部
１１、写真属性付与部１２、表属性付与部１３、罫線属
性付与部１４、読取ノイズ検出部１５、図形属性付与部
１６、認識処理部１７を有する。２は領域抽出プログラ
ムが格納されているリードオンリーメモリ（以下、ＲＯ
Ｍと略す）であり、ランダムアクセスメモリ３（以下、
ＲＡＭと略す）には、スキャナ４で読み取った画像デー
タが格納される。５は外部からＣＰＵ１に対して指令を
与えるためのキーボードであり、６はＣＰＵ１によって
認識された認識結果を表示する表示装置である。

【００１８】以下、領域分割について、図２、図３（本
発明の一実施例における画像データ例示図）と図７（本
発明の一実施例における文書認識装置のフローチャー
ト）を参照しながら説明する。画像入力部７ではスキャ
ナ４より取り込んだ画像データをＲＡＭ３に格納する
（ｓ１）。画像データの座標は左上が原点で、水平方向
の座標をｘ、垂直方向の座標をｙで表わす。画像縮小部
８では、取り込んだ二値画像データを属性判定の高速化
のために１００ＤＰＩの解像度となるように縮小し、Ｒ
ＡＭ３に格納する（ｓ２）。

【００１９】連結黒画素矩形リスト作成部９では、ＲＡ
Ｍ３の縮小二値画像データから、８近傍で連結している
黒画素の連結黒画素矩形を検出し連結黒画素リストを作
成する（ｓ３）。連結黒画素リストに登録される連結黒
画素矩形のデータは、左上の座標（ｘ１，ｙ１）と右下
の座標（ｘ２，ｙ２）と黒画素の数である。本実施例で
は、図３に示す画像データに対して処理を行った結果、
図４（本発明の一実施例における連結黒画素抽出結果の
例示図）に示した連結黒画素矩形を得たものとする。

【００２０】罫線属性付与部１０では、連結黒画素矩形
の縦横比があらかじめ定められた閾値Ｔｈ＿ＲＴＯ＿Ｌ
ＩＮＥ以上か否かチェックする（ｓ４）。矩形の縦横比
が閾値Ｔｈ＿ＲＴＯ＿ＬＩＮＥ以上あれば、その矩形は
罫線属性をもつものとして、ｓ１２へ移行する。

【００２１】文字属性付与部１１では、ｓ４で罫線とな
らなかった連結黒画素矩形に対して、矩形の短辺の長さ
があらかじめ定められた閾値Ｔｈ＿ＭＡＸ＿ＣＨＡＲ以
下で、かつ、領域に占める黒画素の割合が閾値Ｔｈ＿Ｒ
ＴＯ＿ＣＨＡＲ以上あるかチェックする（ｓ５）。矩形
の短辺の長さがあらかじめ定められた閾値Ｔｈ＿ＭＡＸ
＿ＣＨＡＲ以下で、かつ、領域に占める黒画素の割合が
閾値Ｔｈ＿ＲＴＯ＿ＣＨＡＲ以上の場合は文字の属性を
もつ矩形となり、ｓ１３へ移行する。図４の矩形２２，
２３は文字属性をもつ矩形となりｓ１３へすすみ、その
他の矩形の文字以外矩形としてｓ５へすすむ。

【００２２】ここで、黒画素密度は以下の計算で算出で
きる。黒画素密度（ｄ１）＝連結黒画素矩形の黒画素数／（矩
形の幅×矩形の高さ）×１００（％）写真属性付与部１２では、罫線、文字以外の矩形として
残った矩形に対して、写真の属性をもつ矩形であるか否
かのチェックを行う（ｓ６）。矩形内に占める微小矩形
の割合があらかじめ定められた閾値Ｔｈ＿ＲＴＯ＿ＩＭ
Ｇ以上で、かつ、微小矩形の個数があらかじめ定められ
た閾値Ｔｈ＿ＣＮＴ＿ＩＭＧ以上の場合にその矩形は写
真属性をもつ矩形であると判定され、ｓ１４へ移行す
る。図４の矩形２６が写真属性をもつ矩形となる。

【００２３】表属性付与部１３では、表の属性をもつ矩
形であるか否かのチェックを行う。まず、その矩形内に
線の成分があるか線成分の検出処理を行う。線成分抽出
の方法は水平方向／垂直方向それぞれに、黒画素の長さ
が閾値Ｔｈ＿ＬＥＮ＿ＬＩＮＥ以上あるかチェックし、
検出された線成分を基に表の判定を行う（ｓ７）。検出
された水平線の線の長さが矩形の幅の閾値Ｔｈ＿ＬＥＮ
＿ＴＡＢＬＥ倍のものが閾値Ｔｈ＿ＣＮＴ＿ＴＡＢＬＥ
（＝３）個以上で、かつ、垂直線の長さが矩形の高さの
閾値Ｔｈ＿ＬＥＮ＿ＴＡＢＬＥ倍以上のものが閾値Ｔｈ
＿ＣＮＴ＿ＴＡＢＬＥ個以上あり、さらに、上記のいず
れかの線に対して横切る線が閾値Ｔｈ＿ＣＲＳ＿ＴＡＢ
ＬＥ以上あればその矩形は表となる。図３の画像データ
例では、図４の矩形２４が表と決定される。表と決定さ
れた矩形はｓ１５へすすみ、表とならなかったものは第
２の罫線判定処理ｓ８へすすむ。なお図４の矩形２０
は、線成分が水平線１、垂直線１であるため表の条件を
満たさない。

【００２４】罫線属性付与部１４では、表とならなかっ
た矩形に対して以下に示す罫線判定を行う（ｓ８）。ｓ
３で検出した連結黒画素矩形黒画素密度と対象矩形内全
黒画素密度の関係から罫線領域であるか判定する。全黒
画素密度は矩形内のすべての黒画素を計数してその数を
矩形の面積で割ったものに１００を掛けることにより算
出することができる。

【００２５】全黒画素密度（ｄ２）＝矩形内のすべての
黒画素数／（矩形の幅×矩形の高さ）×１００（％）検出した全黒画素密度ｄ２が黒画素密度ｄ１の２倍以上
あり、表属性付与部１３で検出した水平線が矩形の幅の
閾値Ｔｈ＿ＬＥＮ＿ＴＡＢＬＥ倍のものがあるか、また
は、垂直線が矩形の高さの閾値Ｔｈ＿ＬＥＮ＿ＴＡＢＬ
Ｅ倍以上のものがあればその矩形は罫線領域矩形とな
る。罫線矩形と判定されたものはｓ１６へすすみ、罫線
とならなかったものはｓ９のスキャナ読み取りノイズ検
出処理へ移行する。図４の矩形２０は前記条件を満たす
ため罫線属性が付与され、図４の矩形２１は罫線とはな
らない。

【００２６】読取ノイズ検出部１５では、今までに属性
が設定されなかった矩形に対してスキャナ読み取りノイ
ズであるか否か判定を行う（ｓ９）。図４の矩形２１は
スキャナ読み取りノイズと判定され、ｓ１７へ移行す
る。ｓ１７では、スキャナ読み取りノイズと判定された
矩形を、連結黒画素矩形リストから矩形情報を削除す
る。

【００２７】図形属性付与部１６では、以上の判定基準
により、属性が決定されていない矩形について図形属性
を付与する（ｓ１０）。付与されると、属性毎に認識し
（ｓ１１）、処理を終了する。

【００２８】以上の処理により、すべての連結黒画素矩
形に対して、罫線、文字、図形、写真、表のうちのいず
れかの属性が付与されたことになる。罫線あるいは図形
あるいは表あるいは写真の属性が付与された矩形はその
まま１つの領域となる。図形領域に包含された文字属性
をもつ矩形は図形の一部であると判断し連結黒画素矩形
リストから削除する。例えば、図５（本発明の一実施例
における画像データ例示図）の画像データ例に対して、
図６（本発明の一実施例における連結黒画素抽出結果の
例示図）の矩形ｋ１２以外の矩形は文字属性が与えられ
ているが、実際には矩形ｋ６〜ｋ９は図形の一部となっ
ている写真領域も図形領域同様の処理を行う。残った文
字矩形に対して、文字列を抽出して、文字列情報を基に
文字領域を抽出する。

【００２９】以上のようにして得たそれぞれの領域に対
して認識処理部１７では、文字領域の場合は文字切り出
し処理を施した後、文字認識処理を行う。図形領域の場
合は図形をベクトル化し、表領域の場合は、表の構造認
識を行い、各セルに対して文字認識処理を行う。写真領
域に対しては画像圧縮を行って、情報量の軽減を行う。

【００３０】尚、本実施例では、閾値Ｔｈ＿ＭＡＸ＿Ｃ
ＨＡＲ〜Ｔｈ＿ＣＮＴ＿ＴＡＢＬＥの値は以下の値とし
た。

【００３１】Ｔｈ＿ＲＴＯ＿ＬＩＮＥ＝２５Ｔｈ＿ＭＡＸ＿ＣＨＡＲ＝１００Ｔｈ＿ＲＴＯ＿ＣＨＡＲ＝１５Ｔｈ＿ＲＴＯ＿ＩＭＧ＝０．５Ｔｈ＿ＣＮＴ＿ＩＭＧ＝８０Ｔｈ＿ＬＥＮ＿ＬＩＮＥ＝２５Ｔｈ＿ＬＥＮ＿ＴＡＢＬＥ＝４／５Ｔｈ＿ＣＮＴ＿ＴＡＢＬＥ＝３Ｔｈ＿ＣＲＳ＿ＴＡＢＬＥ＝２

【００３２】

【発明の効果】本発明は、二値化された文字認識対象文
書に対して画像データを縮小して縮小画像データとする
手段と、縮小画像データから黒画素が連結している箇所
を検出し、連結黒画素に外接する連結黒画素矩形を求
め、縮小画像データに対応した連結黒画素矩形の座標と
連結黒画素数を連結黒画素矩形情報リストとして格納す
る連結情報格納手段と、連結黒画素矩形の縦横比が予め
定められた閾値以上であるものを罫線と判断し、連結黒
画素矩形情報の１つとして罫線属性を付与する手段と、
連結黒画素矩形の辺の長さが予め定められた閾値以下の
ものを文字矩形と判断し連結黒画素矩形情報に文字属性
を付与する手段と、連結黒画素矩形内の黒画素の特徴か
ら写真属性を付与する手段と、連結黒画素矩形内に水平
線および垂直線を構成する部分があるか調べ、連結黒画
素矩形内に存在する水平線あるいは垂直線の数と水平線
と垂直線の交点数、および、連結黒画素矩形内の黒画素
の情報から表と判断し、連結黒画素矩形情報に表の属性
を付与する手段と、水平線／垂直線情報と連結黒画素矩
形内の全黒画素数と連結黒画素矩形情報格納手段で検出
した連結黒画素数を基に対象矩形が複数の罫線から構成
される矩形であるか調べ、そうであれば矩形情報に罫線
の属性を付与する手段と、さらに、連結黒画素矩形位置
情報と矩形内部の黒画素情報よりその矩形が画像読み取
りノイズであるか調べ、読み取りノイズであった場合に
その連結黒画素矩形の情報を矩形リストより削除する手
段と、属性が付与されない残りの矩形に対して図形属性
を付与する手段とを備えるので、従来では図形と判定さ
れていた複数の罫線が結合している領域や画像読み取り
ノイズが、罫線領域は罫線領域と判定でき、スキャナ読
み取りノイズはノイズと判定して領域情報から削除する
ため、従来では不可能であった罫線で囲まれている文字
領域も罫線領域に統合されることなく、文字領域として
正確に抽出することが可能となり、精度の高い文書認識
が行える。

【００３３】スキャナ読み取りノイズの検出を、データ
の取り込み時にではなく、文字等の属性を判定する際に
行うため、認識させたい文書自体にコピーノイズがある
文書についてもコピーノイズを削除することが可能であ
る。

【図面の簡単な説明】

【図１】本発明の一実施例における文書認識装置のブロ
ック図

【図２】本発明の一実施例における文書認識装置の機能
ブロック図

【図３】本発明の一実施例における画像データ例示図

【図４】本発明の一実施例における連結黒画素抽出結果
の例示図

【図５】本発明の一実施例における画像データ例示図

【図６】本発明の一実施例における連結黒画素抽出結果
の例示図

【図７】本発明の一実施例における文書認識装置のフロ
ーチャート

【符号の説明】

１ＣＰＵ２ＲＯＭ３ＲＡＭ４スキャナ５キーボード６表示装置７画像入力部８画像縮小部９連結黒画素矩形リスト作成部１０罫線属性付与部１１文字属性付与部１２写真属性付与部１３表属性付与部１４罫線属性付与部１５読取ノイズ検出部１６図形属性付与部１７認識処理部

Claims

【特許請求の範囲】

【請求項１】二値化された文字認識対象文書に対して画
像データを縮小して縮小画像データとする手段と、前記
縮小画像データから黒画素が連結している箇所を検出
し、連結黒画素に外接する連結黒画素矩形を求め、縮小
画像データに対応した連結黒画素矩形の座標と連結黒画
素数を連結黒画素矩形情報リストとして格納する連結情
報格納手段と、連結黒画素矩形の縦横比が予め定められ
た閾値以上であるものを罫線と判断し、連結黒画素矩形
情報の１つとして罫線属性を付与する手段と、連結黒画
素矩形の辺の長さが予め定められた閾値以下のものを文
字矩形と判断し連結黒画素矩形情報に文字属性を付与す
る手段と、連結黒画素矩形内の黒画素の特徴から写真属
性を付与する手段と、連結黒画素矩形内に水平線および
垂直線を構成する部分があるか調べ、連結黒画素矩形内
に存在する水平線あるいは垂直線の数と水平線と垂直線
の交点数、および、連結黒画素矩形内の黒画素の情報か
ら表と判断し、連結黒画素矩形情報に表の属性を付与す
る手段と、前記水平線／垂直線情報と連結黒画素矩形内
の全黒画素数と前記連結黒画素矩形情報格納手段で検出
した連結黒画素数を基に対象矩形が複数の罫線から構成
される矩形であるか調べ、そうであれば矩形情報に罫線
の属性を付与する手段と、さらに、連結黒画素矩形位置
情報と矩形内部の黒画素情報よりその矩形が画像読み取
りノイズであるか調べ、読み取りノイズであった場合に
その連結黒画素矩形の情報を矩形リストより削除する手
段と、属性が付与されない残りの矩形に対して図形属性
を付与する手段とを備えることを特徴とする文書認識装
置。