JPH03250385A - 文字列抽出方式 - Google Patents
文字列抽出方式Info
- Publication number
- JPH03250385A JPH03250385A JP2048362A JP4836290A JPH03250385A JP H03250385 A JPH03250385 A JP H03250385A JP 2048362 A JP2048362 A JP 2048362A JP 4836290 A JP4836290 A JP 4836290A JP H03250385 A JPH03250385 A JP H03250385A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- processing
- run length
- point
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
文書情報をコンピュータに入力するため、文書をイメー
ジスキャナで読み取りコード化文書に変換する文書認識
システムに関するもので、特に文書画像データを入力と
して、文書項目の文字列を出力する文書認識システムに
関するものである。
ジスキャナで読み取りコード化文書に変換する文書認識
システムに関するもので、特に文書画像データを入力と
して、文書項目の文字列を出力する文書認識システムに
関するものである。
(従来の技術およびその課題)
文書情報をコンピュータに入力するため、従来はイメー
ジスキャナと画像処理装置を組み合わせた光学的文書読
取装置が知られており、文書情報から文字列領域を抽出
する方法として、連結画素の外接矩形を一定のアルゴリ
ズムでマージする方法が行なわれている。この方法では
、罫線が存在する場合には前処理によって罫線を構成す
る画素を除去することが必要であり、余分の計算時間を
必要としていた。
ジスキャナと画像処理装置を組み合わせた光学的文書読
取装置が知られており、文書情報から文字列領域を抽出
する方法として、連結画素の外接矩形を一定のアルゴリ
ズムでマージする方法が行なわれている。この方法では
、罫線が存在する場合には前処理によって罫線を構成す
る画素を除去することが必要であり、余分の計算時間を
必要としていた。
(課題を解決するための手段)
本発明は如上の問題点に鑑みなされたもので、文書画像
から文字列領域を抽出する文字列抽出処理において、水
平方向と垂直方向のランレングスを基準値と比較するこ
とによって、文字列領域を罫線から分離して抽出する文
字列抽出方式を提案するものである。
から文字列領域を抽出する文字列抽出処理において、水
平方向と垂直方向のランレングスを基準値と比較するこ
とによって、文字列領域を罫線から分離して抽出する文
字列抽出方式を提案するものである。
(作用)
本発明の文字列抽出方式は、基本矩形の抽出と罫線の除
去を同時に、かつ、高速に処理する方式を提案するもの
である。
去を同時に、かつ、高速に処理する方式を提案するもの
である。
(実施例)
本発明の基本的な考え方は、2列の画素列のOR処理を
上から下へと、下から上への2回処理を行なう際に、水
平方向のランレングスと垂直方向のランレングスとをチ
エツクして、ランレングスが予め定めた基準値を超える
場合には、そのランを構成する画素についてはOR処理
を行なわないというものである。つまり、ランレングス
に対する基準値は最大の文字サイズに相当し、この値を
超える連結画素は文字ではない、すなわち罫線と認識す
ることになる。
上から下へと、下から上への2回処理を行なう際に、水
平方向のランレングスと垂直方向のランレングスとをチ
エツクして、ランレングスが予め定めた基準値を超える
場合には、そのランを構成する画素についてはOR処理
を行なわないというものである。つまり、ランレングス
に対する基準値は最大の文字サイズに相当し、この値を
超える連結画素は文字ではない、すなわち罫線と認識す
ることになる。
本発明を添付図面を参照して説明すると、第1図はゼネ
ラルフロー、第2図は各ステップのデータ、第3図は基
本矩形抽呂処理フローである。
ラルフロー、第2図は各ステップのデータ、第3図は基
本矩形抽呂処理フローである。
第1図のゼネラルフローのステップ1で、文書の画像を
イメージスキャナで読み込み、第2図のaで表すような
画像がデータとして入力される。
イメージスキャナで読み込み、第2図のaで表すような
画像がデータとして入力される。
ステップ2では、基本矩形抽出として4方向のOR処理
を行なうが、方向の順序(下向き、上向き、右向き、左
向き)は任意に設定できるものである。
を行なうが、方向の順序(下向き、上向き、右向き、左
向き)は任意に設定できるものである。
本実施例では下向き、上向き、右向き、左向きの順序と
した(第3図参照)6尚、各OR処理は方向が異なるこ
とを除いて同じアルゴリズムによるので、下向きの処理
の例を第4図に示す。第4図はOR処理前の原画像を示
す。OはONの画素(データがあることを示す)を表し
、×は処理の着目点を示す。ここで下向きに処理してき
て、着目点×において、この画素がONでなく処理方向
についての1つ前の画素(0で示す)がONなので、着
目点Xは候補点となる。この候補点の画素をONとする
か否とするかは次の2つの基準に従う。
した(第3図参照)6尚、各OR処理は方向が異なるこ
とを除いて同じアルゴリズムによるので、下向きの処理
の例を第4図に示す。第4図はOR処理前の原画像を示
す。OはONの画素(データがあることを示す)を表し
、×は処理の着目点を示す。ここで下向きに処理してき
て、着目点×において、この画素がONでなく処理方向
についての1つ前の画素(0で示す)がONなので、着
目点Xは候補点となる。この候補点の画素をONとする
か否とするかは次の2つの基準に従う。
(1)処理方向についての1つ前の画素までのランレン
グス(連続した画素数)が基準値未満である。
グス(連続した画素数)が基準値未満である。
(2)候補点の処理方向に直交する方向での隣接画素の
少なくとも1つがONである。
少なくとも1つがONである。
ここで、ランレングスの基準値は最大文字サイズ(画素
数単位)に対応し、予め定めておく。第4図の例ではこ
の基準値を10としておくと、着目点×でのランレング
スは3であり、(1)の基準を満たす。更に、左隣の画
素がONなので、(2)の基準をも満たす。従って、着
目点×をONにする(Oで示す、第5図参照)。第5図
の状態で次の着目点Xは(2)の基準を満たさないので
ONにしない。
数単位)に対応し、予め定めておく。第4図の例ではこ
の基準値を10としておくと、着目点×でのランレング
スは3であり、(1)の基準を満たす。更に、左隣の画
素がONなので、(2)の基準をも満たす。従って、着
目点×をONにする(Oで示す、第5図参照)。第5図
の状態で次の着目点Xは(2)の基準を満たさないので
ONにしない。
次に罫線の除去に対する前記した(1)の基準の効果に
ついて第6図を参照して説明する。着目点×の1つ前ま
でのランレングスは10であり、予め定めた基準値以上
(未満ではない)なので、前記(2)の基準を満たして
もONにしない。これによって罫線の領域が拡大される
ことがなくなる。また、(1)の基準で基準値未満とし
たのは、第6図の処理の後で第7図の処理方向に処理す
る場合、着目点×が(1)の基準を満たすので、ONに
なってしまうため、この分の余裕を持たせるためである
。
ついて第6図を参照して説明する。着目点×の1つ前ま
でのランレングスは10であり、予め定めた基準値以上
(未満ではない)なので、前記(2)の基準を満たして
もONにしない。これによって罫線の領域が拡大される
ことがなくなる。また、(1)の基準で基準値未満とし
たのは、第6図の処理の後で第7図の処理方向に処理す
る場合、着目点×が(1)の基準を満たすので、ONに
なってしまうため、この分の余裕を持たせるためである
。
基本矩形抽出されたものを第2図のbに示す。
ステップ3では、基本矩形を文字列の長手方向に直交す
る方向に投影して重なりを持つ基本矩形の集まりに外接
する矩形として文字素を構成する(第2図のC参照)。
る方向に投影して重なりを持つ基本矩形の集まりに外接
する矩形として文字素を構成する(第2図のC参照)。
ステップ4では、文字素を文字列の長手方向に投影して
重なりを持つものの集まりの外接矩形を文字列領域とし
て抽出する(第2図のd参照)。
重なりを持つものの集まりの外接矩形を文字列領域とし
て抽出する(第2図のd参照)。
(発明の効果)
本発明は如上のような構成となしたので、基本矩形抽出
処理が単純なOR処理とランレングスの基準値との比較
で構成されているので、高速に処理することが出来、か
つ、罫線の除去を同時に行なうことが出来るので、従来
のように罫線除去の前処理が不要であり、処理を効率化
することができるものである。
処理が単純なOR処理とランレングスの基準値との比較
で構成されているので、高速に処理することが出来、か
つ、罫線の除去を同時に行なうことが出来るので、従来
のように罫線除去の前処理が不要であり、処理を効率化
することができるものである。
図面は本発明の一実施例を示すもので、第1図は本発明
のゼネラルフロー、第2図は各ステップのデータ、第3
図は基本矩形抽出処理フロー、第4図〜第7図は処理を
説明する図である。
のゼネラルフロー、第2図は各ステップのデータ、第3
図は基本矩形抽出処理フロー、第4図〜第7図は処理を
説明する図である。
Claims (1)
- 文書画像から文字列領域を抽出する文字列抽出処理にお
いて、水平方向と垂直方向のランレングスを基準値と比
較することによって、文字列領域を罫線から分離して抽
出することを特徴とする文字列抽出方式
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2048362A JPH03250385A (ja) | 1990-02-28 | 1990-02-28 | 文字列抽出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2048362A JPH03250385A (ja) | 1990-02-28 | 1990-02-28 | 文字列抽出方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03250385A true JPH03250385A (ja) | 1991-11-08 |
Family
ID=12801237
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2048362A Pending JPH03250385A (ja) | 1990-02-28 | 1990-02-28 | 文字列抽出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03250385A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6005976A (en) * | 1993-02-25 | 1999-12-21 | Fujitsu Limited | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions |
-
1990
- 1990-02-28 JP JP2048362A patent/JPH03250385A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6005976A (en) * | 1993-02-25 | 1999-12-21 | Fujitsu Limited | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2940936B2 (ja) | 表領域識別方法 | |
| KR0167616B1 (ko) | 화상 처리 장치 및 방법 | |
| JPH05342408A (ja) | 文書画像ファイリング装置 | |
| US20020085755A1 (en) | Method for region analysis of document image | |
| JPH03250385A (ja) | 文字列抽出方式 | |
| JP2890306B2 (ja) | 表領域分離装置および表領域分離方法 | |
| JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
| JPS61193277A (ja) | 文書読取装置 | |
| JPH10105647A (ja) | コンテナ番号読取り装置及びコンテナ番号読取り方法 | |
| JPH05159062A (ja) | 文書認識装置 | |
| JPH03142691A (ja) | 表形式文書認識方式 | |
| JPH09134404A (ja) | 棒グラフ認識装置 | |
| JP2794042B2 (ja) | 表形式文書の認識装置 | |
| JPS63304387A (ja) | 文書読取装置 | |
| JPS615383A (ja) | 文字パタ−ン分離装置 | |
| JP3197441B2 (ja) | 文字認識装置 | |
| JP4040231B2 (ja) | 文字抽出方法及び装置並びに記憶媒体 | |
| JP3140079B2 (ja) | 罫線認識方法及び表処理方法 | |
| JPS6254380A (ja) | 文字認識装置 | |
| JP3163698B2 (ja) | 文字認識方法 | |
| JP2509992B2 (ja) | 分離文字の統合方式 | |
| JPH0475186A (ja) | 文字読取装置 | |
| JPH0281189A (ja) | 文字認識方法 | |
| JPH0463435B2 (ja) | ||
| JPH05284335A (ja) | 画像情報縮小方法 |