JP3391987B2 - 帳票認識装置 - Google Patents
帳票認識装置Info
- Publication number
- JP3391987B2 JP3391987B2 JP20681496A JP20681496A JP3391987B2 JP 3391987 B2 JP3391987 B2 JP 3391987B2 JP 20681496 A JP20681496 A JP 20681496A JP 20681496 A JP20681496 A JP 20681496A JP 3391987 B2 JP3391987 B2 JP 3391987B2
- Authority
- JP
- Japan
- Prior art keywords
- ruled line
- extracted
- run
- memory
- ruled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Description
認識装置に関する。
場合、罫線情報を抽出してから、内部の文字を認識する
場合が多い。従来、帳票認識の処理に関しては、例え
ば、黒画素が所定値以上連続するとき有効画素と判定
し、副走査方向に一定値以内のもの同士を統合して罫線
として認識する方法(特開昭58−84373号公報を
参照)が提案されている。
では、連続した黒画素が出現することを前提としている
ので、実際に認識対象となる文書においては、罫線に切
れやかすれなどが生じる場合があり、このため罫線が正
しく認識できないという問題点があった。
が生じる低品質の画像が入力される場合でも、正確な罫
線の認識を行うことができる帳票認識装置を提供するこ
とにある。
に、請求項1記載の発明では、2値画像からランを抽出
するラン抽出手段と、少なくとも罫線の位置情報が登録
されている罫線情報辞書と、前記ラン抽出手段によって
抽出されたランから第1の所定値以上の長さを持つラン
を抽出し、抽出したラン同士の間隔が第2の所定値以内
であれば統合して矩形として抽出する一方、前記ラン抽
出手段によって抽出されたランのうち、前記第1の所定
値に満たない長さを持つランについては、更に前記罫線
情報辞書と照合することにより、前記罫線情報辞書に登
録されている位置情報から決定される罫線として存在す
る範囲内にあり、かつ、抽出したラン同士の間隔が前記
第2の所定値以内であれば統合して矩形として抽出する
矩形抽出手段と、前記矩形抽出手段によって抽出された
矩形を統合して罫線を抽出する罫線抽出手段とを備えた
ことを特徴としている。
段は、前記矩形抽出手段により抽出した矩形が第3の所
定値以内にあるもの同士を統合して罫線を抽出すること
を特徴としている。
用いて具体的に説明する。 〈実施例1〉 図1は、本発明の実施例1の構成を示す。図において、
1はスキャナなどの2値画像入力部、2は2値画像を格
納する2値イメージメモリ、3は2値画像から黒ランを
抽出するラン抽出部、4は抽出したランを格納するラン
メモリ、5は所定長のランを統合して矩形を抽出する矩
形抽出部、6は罫線の位置情報などが予め登録されてい
る罫線情報辞書、7は矩形メモリ、8は矩形を統合して
罫線を抽出する罫線抽出部、9は罫線メモリ、10は罫
線の枠を認識する枠認識部、11は枠座標メモリ、12
は枠内の文字を切り出す枠内文字抽出部、13は文字座
標メモリ、14は文字認識部である。
ある。以下、本実施例1の動作を説明する。スキャナ等
の2値画像入力部1によって、原稿を読み取り、2値イ
メージメモリ2に格納する(ステップ101)。ラン抽
出部3は、2値イメージメモリ2に格納されている2値
画像中から黒ランを抽出し、ランメモリ4に格納する
(ステップ102)。
まず所定値以上の長さを持つランを抽出し、ラン同士の
間隔が所定値以内であれば統合し、矩形として抽出し、
矩形メモリ7に格納する(ステップ103)。次に、罫
線情報辞書6と照合し、所定値に満たないランでも罫線
として存在する範囲内にあり、ラン同士の間隔が所定値
以内であれば統合し、矩形として抽出し、矩形メモリ7
に格納する。図2は、罫線存在範囲内の処理を説明する
図である。
矩形同士が所定値以内にあるものどうしを統合して罫線
として抽出し、罫線メモリ9に格納する(ステップ10
4)。また、罫線情報辞書6と照合し、罫線として存在
する範囲内にあれば、所定のしきい値を大きくして統合
を行う。この結果、罫線として存在する範囲内であれ
ば、入力画像の罫線に切れやかすれがあっても統合され
るようになり、罫線抽出率の精度が向上される。
4辺の罫線に囲まれたものを枠と認識し、その座標を枠
座標メモリ11に格納する(ステップ105)。枠内文
字抽出部12は、枠内の画像に対して再び矩形抽出処理
などを行って、文字を抽出する(ステップ106)。抽
出された文字の座標値を文字座標メモリ13に格納す
る。文字認識部14は、文字座標メモリ13と2値イメ
ージメモリ2を参照して文字の認識を行う(ステップ1
07)。
に係る実施例である。図3は、実施例2の構成を示し、
図8は、実施例2の処理フローチャートである。
て、原稿を読み取り、2値イメージメモリ22に格納す
る(ステップ201)。このときの原稿は、実際に文字
認識の対象となるものでなくてもよい。例えば、データ
が全く書かれていない空の伝票などを用い、画像の読み
取りには、罫線に切れやかすれがないように、2値化の
しきい値を調整するなどして、奇麗な画像を生成する必
要がある。
22に格納されている2値画像中から黒ランを抽出し、
ランメモリ24に格納する(ステップ202)。この
際、ランとしては罫線に成り得る程度に長いランのみを
抽出する。矩形抽出部25では、ランメモリ24を参照
し、ラン同士が所定値以内の間隔にあるものを統合し、
矩形メモリ26に格納する(ステップ203)。
照し、矩形同士が所定値以内にあるものどうしを統合し
て罫線として抽出する(ステップ204)。このときの
ラン、矩形、罫線の位置の情報を罫線情報辞書28に格
納する。
例である。図4は、実施例3の構成を示し、実施例1の
罫線抽出部8を、実線罫線抽出部81と点線罫線抽出部
82で構成し、実施例1の矩形メモリ7を、矩形メモリ
71と72で構成し、実施例1の罫線メモリ9を、罫線
メモリ91と92で構成したものである。他の構成要素
は実施例1のものと同様である。また、図9は、実施例
3の処理フローチャートである。
原稿を読み取り、2値イメージメモリ2に格納する(ス
テップ301)。ラン抽出部3では、2値イメージメモ
リ2に格納されている2値画像中から黒ランを抽出し、
ランメモリ4に格納する(ステップ302)。
まず所定値以上の長さを持つランを抽出し、ラン同士の
間隔が所定値以内であれば統合し、矩形として抽出し、
矩形メモリ71に格納する(ステップ303)。次に、
罫線情報辞書6と照合し、所定値に満たないランでも罫
線として存在する範囲内にあり、ラン同士の間隔が所定
値以内であれば統合し、矩形として抽出し、矩形メモリ
71に格納する。また、矩形抽出部5では、黒画素連結
矩形の幅および高さが所定値以内のものを抽出し、これ
を矩形メモリ72に格納する。
を参照し、矩形どうしが所定値以内にあるものどうしを
統合して実線罫線として抽出する(ステップ304)。
また、罫線情報辞書6と照合し、罫線として存在する範
囲内にあれば、所定のしきい値を大きくして統合を行
う。これにより、罫線として存在する範囲内であれば、
入力画像の罫線に切れやかすれがあっても統合されるよ
うになり、罫線抽出率の精度が向上される。この結果を
罫線メモリ91に格納する。
を参照し、矩形どうしが所定値以内にあるものどうしを
統合して点線罫線として抽出する(ステップ305)。
また、罫線情報辞書6と照合し、点線罫線として存在す
る範囲内にあれば、所定のしきい値を大きくして統合を
行う。これにより、点線罫線として存在する範囲内であ
れば、入力画像の罫線に切れやかすれがあっても統合さ
れるようになり、罫線抽出率の精度が向上される。この
結果を罫線メモリ92に格納する。
罫線メモリ92を参照し、4辺の罫線に囲まれたものを
枠と認識し、その座標を枠座標メモリ11に格納する。
以下、実施例1と同様に処理するので、その説明を省略
する。
に係る実施例である。図5は、実施例4の構成を示し、
図10は、実施例4の処理フローチャートである。
て、原稿を読み取り、2値イメージメモリ22に格納す
る(ステップ401)。このときの原稿は、実施例2と
同様に、実際に文字認識の対象となるものでなくてもよ
い。ただし、原稿として実線と点線の罫線を含むものを
用いる。
22に格納されている2値画像中から黒ランを抽出し、
ランメモリ24に格納する(ステップ402)。矩形抽
出部25では、ランメモリ24を参照し、ランとしては
実線罫線に成り得る程度に長いランのみを統合し、矩形
メモリ26aに格納する。同様に、黒画素連結矩形の幅
および高さが点線の要素と見なせる大きさのものを抽出
し、矩形メモリ26bに格納する(ステップ403)。
6aを参照し、矩形どうしが所定値以内にあるものどう
しを統合して実線罫線として抽出する(ステップ40
4)。このときのラン、矩形、罫線の位置の情報を罫線
情報辞書28に格納する。
6bを参照し、矩形どうしが所定値以内にあるものどう
しを統合して点線罫線として抽出する(ステップ40
5)。このときの矩形、罫線の位置の情報を罫線情報辞
書28に格納する。
ディスプレイ画面に表示させた画像上でマウスなどを用
いて登録する情報を指定できるようにした実施例であ
る。図6は、実施例5の構成を示し、実施例2の構成に
さらに、罫線メモリ29と罫線確認部30を付加して構
成されている。また、図11は、実施例5の処理フロー
チャートである。
る。罫線抽出部27は、矩形メモリ26を参照し、矩形
同士が所定値以内にあるもの同士を統合して罫線として
抽出し、その座標値を罫線メモリ29に格納する(ステ
ップ504)。ディスプレイ画面などの罫線確認部30
において、罫線メモリ29、2値イメージメモリ22を
参照し、2値画像上に罫線抽出の結果を重ねて表示す
る。そして、実際の罫線が正しく抽出されているか否
か、すなわち、文字部分や図形部分など罫線でない箇所
を、誤って罫線として抽出していないかを確認し、誤っ
て抽出されているものはマウスなどで指示して削除す
る。この処理によって、罫線データのみが選択され、そ
のラン、矩形、罫線の位置の情報が罫線情報辞書28に
格納される(ステップ505)。
ず、ソフトウェアによっても実現することができる。本
発明をソフトウェアによって実現する場合には、CP
U、ROM、RAM、ハードディスク、キーボード、C
D−ROMドライブなどからなる汎用の処理装置を用意
する。そして、CD−ROMなどの記録媒体には、本発
明の帳票認識方法の処理機能を実現するプログラムが記
録されている。本発明の帳票認識の処理を行うときは、
CD−ROMドライブにセットされた該記録媒体から、
上記した処理機能を実現するプログラムが読み出され、
RAM上にロードされて、CPUによって逐一実行され
る。また、帳票認識の処理対象となるデータは、スキャ
ナなどの2値画像入力部から入力される原稿画像データ
である。
ば、従来のように画像の品質が悪く罫線に切れやかすれ
がある文書においても精度よく罫線を抽出することがで
き、この結果、罫線内部の文字を高精度に認識すること
が可能となる。
Claims (2)
- 【請求項1】 2値画像からランを抽出するラン抽出手
段と、少なくとも罫線の位置情報が登録されている罫線
情報辞書と、前記ラン抽出手段によって抽出されたラン
から第1の所定値以上の長さを持つランを抽出し、抽出
したラン同士の間隔が第2の所定値以内であれば統合し
て矩形として抽出する一方、前記ラン抽出手段によって
抽出されたランのうち、前記第1の所定値に満たない長
さを持つランについては、更に前記罫線情報辞書と照合
することにより、前記罫線情報辞書に登録されている位
置情報から決定される罫線として存在する範囲内にあ
り、かつ、抽出したラン同士の間隔が前記第2の所定値
以内であれば統合して矩形として抽出する矩形抽出手段
と、前記矩形抽出手段によって抽出された矩形を統合し
て罫線を抽出する罫線抽出手段とを備えたことを特徴と
する帳票認識装置。 - 【請求項2】 前記罫線抽出手段は、前記矩形抽出手段
により抽出した矩形が第3の所定値以内にあるもの同士
を統合して罫線を抽出することを特徴とする請求項1記
載の帳票認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20681496A JP3391987B2 (ja) | 1996-08-06 | 1996-08-06 | 帳票認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20681496A JP3391987B2 (ja) | 1996-08-06 | 1996-08-06 | 帳票認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1049602A JPH1049602A (ja) | 1998-02-20 |
| JP3391987B2 true JP3391987B2 (ja) | 2003-03-31 |
Family
ID=16529539
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP20681496A Expired - Lifetime JP3391987B2 (ja) | 1996-08-06 | 1996-08-06 | 帳票認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3391987B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4450888B2 (ja) | 1999-05-28 | 2010-04-14 | 富士通株式会社 | 帳票認識方法 |
| JP5365440B2 (ja) * | 2009-09-15 | 2013-12-11 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
-
1996
- 1996-08-06 JP JP20681496A patent/JP3391987B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH1049602A (ja) | 1998-02-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7321688B2 (en) | Image processor for character recognition | |
| JP3995185B2 (ja) | 枠認識装置及び記録媒体 | |
| JP4159720B2 (ja) | 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 | |
| US8229214B2 (en) | Image processing apparatus and image processing method | |
| JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
| JP3391987B2 (ja) | 帳票認識装置 | |
| JPH04270485A (ja) | 印刷文字認識装置 | |
| US7738696B2 (en) | Image processing apparatus and method for extracting a document area | |
| JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
| JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
| JP2000082110A (ja) | 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体 | |
| JP4040231B2 (ja) | 文字抽出方法及び装置並びに記憶媒体 | |
| JPH10162102A (ja) | 文字認識装置 | |
| JPH08237404A (ja) | 光学文字認識モードの選択方法 | |
| JPH1049676A (ja) | 罫線認識方法 | |
| JP3269889B2 (ja) | 光学式文字読取システム | |
| JPH1196296A (ja) | 帳票イメージ処理方法および装置 | |
| JPH10307888A (ja) | 表処理方法、装置および記録媒体 | |
| JPH10334184A (ja) | 罫線消去方法、装置、表処理方法、装置、文字認識方法、装置および記録媒体 | |
| JP3162414B2 (ja) | 罫線認識方法及び表処理方法 | |
| JP2000207488A (ja) | 文字認識方法、装置および記録媒体 | |
| JP4248700B2 (ja) | 罫線識別方法、罫線識別装置および記録媒体 | |
| JPH1166225A (ja) | 表情報抽出装置及び方法並びに記録媒体 | |
| JP2000048191A (ja) | 画像処理方法及び画像処理プログラムを記録した媒体 | |
| JP2931041B2 (ja) | 表内文字認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080124 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090124 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100124 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110124 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120124 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130124 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140124 Year of fee payment: 11 |
|
| EXPY | Cancellation because of completion of term |