JPH03250385A

JPH03250385A - 文字列抽出方式

Info

Publication number: JPH03250385A
Application number: JP2048362A
Authority: JP
Inventors: Takashi Ishikawa; 孝石川; Akihiro Oka; 昭宏岡
Original assignee: Pentel Co Ltd
Current assignee: Pentel Co Ltd
Priority date: 1990-02-28
Filing date: 1990-02-28
Publication date: 1991-11-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）文書情報をコンピュータに入力するため、文書をイメー
ジスキャナで読み取りコード化文書に変換する文書認識
システムに関するもので、特に文書画像データを入力と
して、文書項目の文字列を出力する文書認識システムに
関するものである。

（従来の技術およびその課題）文書情報をコンピュータに入力するため、従来はイメー
ジスキャナと画像処理装置を組み合わせた光学的文書読
取装置が知られており、文書情報から文字列領域を抽出
する方法として、連結画素の外接矩形を一定のアルゴリ
ズムでマージする方法が行なわれている。この方法では
、罫線が存在する場合には前処理によって罫線を構成す
る画素を除去することが必要であり、余分の計算時間を
必要としていた。

（課題を解決するための手段）本発明は如上の問題点に鑑みなされたもので、文書画像
から文字列領域を抽出する文字列抽出処理において、水
平方向と垂直方向のランレングスを基準値と比較するこ
とによって、文字列領域を罫線から分離して抽出する文
字列抽出方式を提案するものである。

（作用）本発明の文字列抽出方式は、基本矩形の抽出と罫線の除
去を同時に、かつ、高速に処理する方式を提案するもの
である。

（実施例）本発明の基本的な考え方は、２列の画素列のＯＲ処理を
上から下へと、下から上への２回処理を行なう際に、水
平方向のランレングスと垂直方向のランレングスとをチ
エツクして、ランレングスが予め定めた基準値を超える
場合には、そのランを構成する画素についてはＯＲ処理
を行なわないというものである。つまり、ランレングス
に対する基準値は最大の文字サイズに相当し、この値を
超える連結画素は文字ではない、すなわち罫線と認識す
ることになる。

本発明を添付図面を参照して説明すると、第１図はゼネ
ラルフロー、第２図は各ステップのデータ、第３図は基
本矩形抽呂処理フローである。

第１図のゼネラルフローのステップ１で、文書の画像を
イメージスキャナで読み込み、第２図のａで表すような
画像がデータとして入力される。

ステップ２では、基本矩形抽出として４方向のＯＲ処理
を行なうが、方向の順序（下向き、上向き、右向き、左
向き）は任意に設定できるものである。

本実施例では下向き、上向き、右向き、左向きの順序と
した（第３図参照）６尚、各ＯＲ処理は方向が異なるこ
とを除いて同じアルゴリズムによるので、下向きの処理
の例を第４図に示す。第４図はＯＲ処理前の原画像を示
す。ＯはＯＮの画素（データがあることを示す）を表し
、×は処理の着目点を示す。ここで下向きに処理してき
て、着目点×において、この画素がＯＮでなく処理方向
についての１つ前の画素（０で示す）がＯＮなので、着
目点Ｘは候補点となる。この候補点の画素をＯＮとする
か否とするかは次の２つの基準に従う。

（１）処理方向についての１つ前の画素までのランレン
グス（連続した画素数）が基準値未満である。

（２）候補点の処理方向に直交する方向での隣接画素の
少なくとも１つがＯＮである。

ここで、ランレングスの基準値は最大文字サイズ（画素
数単位）に対応し、予め定めておく。第４図の例ではこ
の基準値を１０としておくと、着目点×でのランレング
スは３であり、（１）の基準を満たす。更に、左隣の画
素がＯＮなので、（２）の基準をも満たす。従って、着
目点×をＯＮにする（Ｏで示す、第５図参照）。第５図
の状態で次の着目点Ｘは（２）の基準を満たさないので
ＯＮにしない。

次に罫線の除去に対する前記した（１）の基準の効果に
ついて第６図を参照して説明する。着目点×の１つ前ま
でのランレングスは１０であり、予め定めた基準値以上
（未満ではない）なので、前記（２）の基準を満たして
もＯＮにしない。これによって罫線の領域が拡大される
ことがなくなる。また、（１）の基準で基準値未満とし
たのは、第６図の処理の後で第７図の処理方向に処理す
る場合、着目点×が（１）の基準を満たすので、ＯＮに
なってしまうため、この分の余裕を持たせるためである
。

基本矩形抽出されたものを第２図のｂに示す。

ステップ３では、基本矩形を文字列の長手方向に直交す
る方向に投影して重なりを持つ基本矩形の集まりに外接
する矩形として文字素を構成する（第２図のＣ参照）。

ステップ４では、文字素を文字列の長手方向に投影して
重なりを持つものの集まりの外接矩形を文字列領域とし
て抽出する（第２図のｄ参照）。

（発明の効果）本発明は如上のような構成となしたので、基本矩形抽出
処理が単純なＯＲ処理とランレングスの基準値との比較
で構成されているので、高速に処理することが出来、か
つ、罫線の除去を同時に行なうことが出来るので、従来
のように罫線除去の前処理が不要であり、処理を効率化
することができるものである。

【図面の簡単な説明】

図面は本発明の一実施例を示すもので、第１図は本発明
のゼネラルフロー、第２図は各ステップのデータ、第３
図は基本矩形抽出処理フロー、第４図〜第７図は処理を
説明する図である。

Claims

【特許請求の範囲】

文書画像から文字列領域を抽出する文字列抽出処理にお
いて、水平方向と垂直方向のランレングスを基準値と比
較することによって、文字列領域を罫線から分離して抽
出することを特徴とする文字列抽出方式