JPH03230289A - 罫線判定方法および文字認識装置 - Google Patents
罫線判定方法および文字認識装置Info
- Publication number
- JPH03230289A JPH03230289A JP2026281A JP2628190A JPH03230289A JP H03230289 A JPH03230289 A JP H03230289A JP 2026281 A JP2026281 A JP 2026281A JP 2628190 A JP2628190 A JP 2628190A JP H03230289 A JPH03230289 A JP H03230289A
- Authority
- JP
- Japan
- Prior art keywords
- line
- ruled
- ruled line
- histogram
- lines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(概要)
イメージ入力による文字認識装置に関し、フォーマット
の一定しない表形式文書より罫線を精度よく判定するこ
とを目的とし、 読み取りラインの黒画素数のノーマルヒストグラムと、
連続する2つのラインの黒画素について(7)ORイメ
ージにより黒画素をラインごとに数えたORヒスクグラ
ムとを作成し、ORヒストグラムの各ラインにおけるヒ
ストグラムデータが増加から減少に転じるときのヒスト
グラムデータのピークを判定し、任意の注目ラインのピ
ークの高さもしくは幅について隣りあうピークもしくは
前後のラインのヒストグラムデータと比較することによ
り当該注目ラインについて、真の罫線であるとする罫線
候補と、罫線らしいとする仮罫線候補と、罫線でないも
のを判定し、仮罫線候補と判定されたラインについては
、さらにノーマルヒストグラムにより罫線判定し、ノー
マルヒストグラムにより真の罫線と判定されたラインを
仮罫線候補から罫線候補に変換する構成を持つ。
の一定しない表形式文書より罫線を精度よく判定するこ
とを目的とし、 読み取りラインの黒画素数のノーマルヒストグラムと、
連続する2つのラインの黒画素について(7)ORイメ
ージにより黒画素をラインごとに数えたORヒスクグラ
ムとを作成し、ORヒストグラムの各ラインにおけるヒ
ストグラムデータが増加から減少に転じるときのヒスト
グラムデータのピークを判定し、任意の注目ラインのピ
ークの高さもしくは幅について隣りあうピークもしくは
前後のラインのヒストグラムデータと比較することによ
り当該注目ラインについて、真の罫線であるとする罫線
候補と、罫線らしいとする仮罫線候補と、罫線でないも
のを判定し、仮罫線候補と判定されたラインについては
、さらにノーマルヒストグラムにより罫線判定し、ノー
マルヒストグラムにより真の罫線と判定されたラインを
仮罫線候補から罫線候補に変換する構成を持つ。
本発明は、文字認識装置における表形式文書の罫線の認
識方法、および罫線削除手段を備えていて罫線削除後に
文字認識を行う文字認識装置に関する。
識方法、および罫線削除手段を備えていて罫線削除後に
文字認識を行う文字認識装置に関する。
(従来技術)
従来の文字認識装置における文字認識方法を第18図に
示す。
示す。
従来の文字認識装置においては、まずイメージスキャナ
等の文書読み取り手段91により文書90の文字、罫線
等をイメージとして読み取り処理を行う。
等の文書読み取り手段91により文書90の文字、罫線
等をイメージとして読み取り処理を行う。
次に、文字パターン分離手段92により、読み取ったイ
メージから1文字ずつのパターンを分離して取り出し、
文字認識手段93が1文字ずつ取りだされたパターンに
ついて、文字認識を行う。
メージから1文字ずつのパターンを分離して取り出し、
文字認識手段93が1文字ずつ取りだされたパターンに
ついて、文字認識を行う。
そして、文字パターン分離手段92おける分離処理は、
まず、読み取ったイメージより、行の集合体のブロック
を認識しく94)、次に行の集合ブロックより文字の集
合体である行を認識して、−行単位に分離する(95)
。さらに、行を分離した後に、行内における文字を1文
字車位に分離し、分離した各文字について文字認識を行
う。
まず、読み取ったイメージより、行の集合体のブロック
を認識しく94)、次に行の集合ブロックより文字の集
合体である行を認識して、−行単位に分離する(95)
。さらに、行を分離した後に、行内における文字を1文
字車位に分離し、分離した各文字について文字認識を行
う。
[発明が解決しようとする課題〕
文字認識装置において、フォーマットの一定していない
表形式文書をイメージとして読み取る場合、文字と一緒
に罫線もイメージ止して読み取られる。
表形式文書をイメージとして読み取る場合、文字と一緒
に罫線もイメージ止して読み取られる。
そして、従来の文字読み取り装置においては、読み取ら
れた罫線を含むイメージより、行分離、文字分離処理を
行っていたため、罫線を文字パターンの一部と混同し、
正しい文字分離を行うことが困難になり、文字認識精度
を低下させていた。
れた罫線を含むイメージより、行分離、文字分離処理を
行っていたため、罫線を文字パターンの一部と混同し、
正しい文字分離を行うことが困難になり、文字認識精度
を低下させていた。
本発明は、フォーマットの一定しない表形式文書におい
て精度よく罫線を認識し、罫線削除後に罫線を含まない
イメージデータとして、精度のよい文字認識を行うこと
を目的とする。
て精度よく罫線を認識し、罫線削除後に罫線を含まない
イメージデータとして、精度のよい文字認識を行うこと
を目的とする。
〔課題を解決するための手段]
本発明は、表形式文書のイメージより、まず、文書デー
タの読み取り走査における罫線方向のラインの黒の画素
数を1ラインごとに数えたノーマルヒストグラムを作成
する。
タの読み取り走査における罫線方向のラインの黒の画素
数を1ラインごとに数えたノーマルヒストグラムを作成
する。
次に、連続する2つのラインの罫線方向の座標における
同じ位置座標を持つ2つの画素の黒画素についてのOR
データによるORイメージを作成する。
同じ位置座標を持つ2つの画素の黒画素についてのOR
データによるORイメージを作成する。
そして、ORイメージにより各ライン上の黒画素数を数
えてORヒストグラムを作成する。
えてORヒストグラムを作成する。
そして、ORヒストグラムの各ラインにおけるヒストグ
ラムデータが増加から減少に転じるときのヒストグラム
データのピークを判定し、そのピークについて真の罫線
と判定される罫線候補と罫線らしいと判定される仮罫線
候補とを識別する。
ラムデータが増加から減少に転じるときのヒストグラム
データのピークを判定し、そのピークについて真の罫線
と判定される罫線候補と罫線らしいと判定される仮罫線
候補とを識別する。
そこで、罫線候補と判定されたラインは最終的に罫線候
補とし、仮罫線候補と判定されたラインについては、さ
らにノーマルヒストグラムにより、罫線の確からしさを
判定し、そこで真の罫線と判定されたラインを最終的な
罫線候補とするようにした。
補とし、仮罫線候補と判定されたラインについては、さ
らにノーマルヒストグラムにより、罫線の確からしさを
判定し、そこで真の罫線と判定されたラインを最終的な
罫線候補とするようにした。
その後に、罫線候補を削除し、文字部分のみのイメージ
データにより文字認識を行うようにした。
データにより文字認識を行うようにした。
第1図に、本発明の罫線判定方法の基本構成を示す。
図において、1は表形式文書、2は読み取り手段により
読み取られた文書の元イメージ、3は元イメージ2より
、文書データの読み取り走査における罫線方向のライン
の黒の画素数を1ラインごとに数えたノーマルヒストグ
ラム(NRヒストグラム)、4は元イメージにおける罫
線イメージの欠け、ズレ等を補正するため、連続する2
つのラインの罫線方向の位置座標が同じ画素の黒画素に
ついてORデータを取り作成したORイメージ、5はO
Rイメージにおける各ラインの黒画素数を数えて作成し
たORヒストグラムである。
読み取られた文書の元イメージ、3は元イメージ2より
、文書データの読み取り走査における罫線方向のライン
の黒の画素数を1ラインごとに数えたノーマルヒストグ
ラム(NRヒストグラム)、4は元イメージにおける罫
線イメージの欠け、ズレ等を補正するため、連続する2
つのラインの罫線方向の位置座標が同じ画素の黒画素に
ついてORデータを取り作成したORイメージ、5はO
Rイメージにおける各ラインの黒画素数を数えて作成し
たORヒストグラムである。
図におけるフローは、本発明の罫線判定方法の原理を示
す。
す。
[作用]
図におけるフローの番号に従って、本発明の罫線判定方
法の原理を説明する。
法の原理を説明する。
■ 表形式文書1の文字および罫線をイメージとして読
み取り、黒画素と白画素より成る元イメージ2を作成す
る。
み取り、黒画素と白画素より成る元イメージ2を作成す
る。
■ 読み取ったイメージデータにより文書データの読み
取り走査における罫線方向のラインの黒の画素数を1ラ
インごとに数えたNRヒストグラム3を作成する。
取り走査における罫線方向のラインの黒の画素数を1ラ
インごとに数えたNRヒストグラム3を作成する。
■ 元イメージ2より連続する2つのラインの画素によ
り黒画素についてのORデータによるORイメージを作
成し、各ラインの黒画素数を数えて、黒画素についての
ORヒストグラム5を作成する。
り黒画素についてのORデータによるORイメージを作
成し、各ラインの黒画素数を数えて、黒画素についての
ORヒストグラム5を作成する。
■、■ ORヒストグラムについて、ヒストグラムデー
タが増加から減少に転するピークを検出し、任意のピー
クと隣あうピークの高さの比較あるいはピークの前後の
ヒストグラム値との比較によりヒストグラムの幅等を判
定する。それにより、ORヒストグラムにより得られた
ピークのあるラインが真の罫線と判定される罫線候補か
、罫線らしいと判定される仮罫線候補かあるいは罫線で
ないかの罫線判定処理を行う。
タが増加から減少に転するピークを検出し、任意のピー
クと隣あうピークの高さの比較あるいはピークの前後の
ヒストグラム値との比較によりヒストグラムの幅等を判
定する。それにより、ORヒストグラムにより得られた
ピークのあるラインが真の罫線と判定される罫線候補か
、罫線らしいと判定される仮罫線候補かあるいは罫線で
ないかの罫線判定処理を行う。
■、■ ORヒストグラムにより仮罫線候補と判定され
たラインについては、該当するラインについてNRヒス
トグラム3によりピークの前後のラインのヒストグラム
値によりピークの幅を調べ、そのラインが真の罫線であ
るかないか判定する。
たラインについては、該当するラインについてNRヒス
トグラム3によりピークの前後のラインのヒストグラム
値によりピークの幅を調べ、そのラインが真の罫線であ
るかないか判定する。
■、■ その結果、真の罫FA候補と判定されたピーク
は仮罫線候補を罫線候補に変換する。
は仮罫線候補を罫線候補に変換する。
■、[相] ノーマルヒストグラムのピークの判定結果
、罫線でないと判定されたピークは仮罫線候補とする。
、罫線でないと判定されたピークは仮罫線候補とする。
■、■ ORヒストグラムによるピークの判定結果、真
の罫線と判定されたピークは、その時点で、最終的に罫
線候補とする。
の罫線と判定されたピークは、その時点で、最終的に罫
線候補とする。
■、■ ORヒストグラムによるピークの判定結果にお
いて、罫線でないと判定されたピークはその時点で、最
終的に罫線でないものとす、る。
いて、罫線でないと判定されたピークはその時点で、最
終的に罫線でないものとす、る。
本発明の認識方法によれば、元イメージにおける罫線に
欠けや位置ずれがあった場合にも、ORイメージにより
補正され、それらが補正されたイメージにより罫線判定
を行うことと、さらに、確実に罫線であるとは判定しが
たい仮罫線候補については元イメージのノーマルヒスト
グラムによりさらに罫線判定をおこなうようにしたため
、正確な罫線判定を行うことができる。
欠けや位置ずれがあった場合にも、ORイメージにより
補正され、それらが補正されたイメージにより罫線判定
を行うことと、さらに、確実に罫線であるとは判定しが
たい仮罫線候補については元イメージのノーマルヒスト
グラムによりさらに罫線判定をおこなうようにしたため
、正確な罫線判定を行うことができる。
第2図は、本発明の罫線判定方法により罫線判定をし、
罫線を削除した後、文字認識を行う文字認識装置の実施
例構成を示す。
罫線を削除した後、文字認識を行う文字認識装置の実施
例構成を示す。
図において、21は表形式文書、22は表形式文書21
の文字、罫線をイメージとして読み取るイメージスキャ
ナ等の文書読み取り手段、23は読み取ったイメージか
ら罫線部分を判定する罫線判定手段、24は罫線判定手
段の判定結果によりイメージから罫線を削除する罫線削
除処理手段、25は罫線を削除したイメージから文字を
認識する文字認識処理手段、26は罫線判定プログラム
、文字認識プログラム等のプログラムを実行するマイク
ロプロセッサ、27は読み取ったイメージ等のデータを
格納する画像データ格納共用メモリ、28は罫線の判定
処理、文字認識処理等の作業を行うワークメモリ、30
は読み取られたイメージより罫線部分を判定する罫線判
定処理、31は罫線判定処理30の判定結果のデータ、
32は罫線を削除されたイメージより1文字ずつのパタ
ーンを分離する処理、33は分離された各1文字のパタ
ーンについて文字認識を行う処理である。
の文字、罫線をイメージとして読み取るイメージスキャ
ナ等の文書読み取り手段、23は読み取ったイメージか
ら罫線部分を判定する罫線判定手段、24は罫線判定手
段の判定結果によりイメージから罫線を削除する罫線削
除処理手段、25は罫線を削除したイメージから文字を
認識する文字認識処理手段、26は罫線判定プログラム
、文字認識プログラム等のプログラムを実行するマイク
ロプロセッサ、27は読み取ったイメージ等のデータを
格納する画像データ格納共用メモリ、28は罫線の判定
処理、文字認識処理等の作業を行うワークメモリ、30
は読み取られたイメージより罫線部分を判定する罫線判
定処理、31は罫線判定処理30の判定結果のデータ、
32は罫線を削除されたイメージより1文字ずつのパタ
ーンを分離する処理、33は分離された各1文字のパタ
ーンについて文字認識を行う処理である。
次に、本発明の実施例の装置構成の文字認識装置におけ
る罫線認識方法を第3図ないし第17図により説明する
。
る罫線認識方法を第3図ないし第17図により説明する
。
以下、横方向の罫線の認識方法の実施例について説明す
るが、縦方向の罫線の認識についても、同様の方法によ
り処理できる。
るが、縦方向の罫線の認識についても、同様の方法によ
り処理できる。
以下、第3図から第17図までの図の番号の順に本発明
の罫線認識方法を説明する。
の罫線認識方法を説明する。
(1)第3図(a)に示すように、まず、罫線認識処理
に先立って、入力した原画のイメージに対して圧縮画像
を作成する。
に先立って、入力した原画のイメージに対して圧縮画像
を作成する。
図(a)において、圧縮画像41は、原画40をデータ
圧縮した画像の例である。
圧縮した画像の例である。
圧縮は、白画素の部分を1部削除する等により、抽出す
る罫線に対して垂直方向(図における縦方向)の圧縮率
が、圧縮画像上で、罫線と罫線の文字との間(g )
に必ず、1画素分以上の空隙ができる程度に行う。
る罫線に対して垂直方向(図における縦方向)の圧縮率
が、圧縮画像上で、罫線と罫線の文字との間(g )
に必ず、1画素分以上の空隙ができる程度に行う。
原画のイメージを圧縮することにより、文字イメージ部
分が塊化したイメージとなり、罫線部分と区別し易くな
る。
分が塊化したイメージとなり、罫線部分と区別し易くな
る。
(2) 次に、第3図(b)に示すように、圧縮画像4
2を166画素つに区分し、抽出する罫線方向に対して
垂直方向(図における縦方向)に、黒画素数についての
ヒストグラム43を作成する。
2を166画素つに区分し、抽出する罫線方向に対して
垂直方向(図における縦方向)に、黒画素数についての
ヒストグラム43を作成する。
16画画素値に、区分する理由は、罫線の認識条件とし
て、罫線の傾きが、−3°〜+3°以内とした場合に、
罫線を精度よく読み取るようにするためである。
て、罫線の傾きが、−3°〜+3°以内とした場合に、
罫線を精度よく読み取るようにするためである。
あるいは、第4図に示すように、あらかじめ文書原稿の
セットされた傾き44を読み取ることにより、圧縮画像
45のイメージを罫線の傾きに沿って追跡し、黒画素を
カウントすることによりヒストグラム46を作成する。
セットされた傾き44を読み取ることにより、圧縮画像
45のイメージを罫線の傾きに沿って追跡し、黒画素を
カウントすることによりヒストグラム46を作成する。
本発明では、原画の圧縮イメージ(元イメージ)に対し
て、イメージを読み取ったときの走査ラインの各ライン
上の黒画素数を数えるごとに作成するノーマル(nor
mal)ヒストグラム(以後、NRヒストグラムと表す
)の他に、任意の画素ラインと次のラインの黒画素につ
いてのORデータにより作成したORイメージについて
、その各ラインの黒画素数をカウントしたORヒストグ
ラムの2種類のヒストグラムを作成する。
て、イメージを読み取ったときの走査ラインの各ライン
上の黒画素数を数えるごとに作成するノーマル(nor
mal)ヒストグラム(以後、NRヒストグラムと表す
)の他に、任意の画素ラインと次のラインの黒画素につ
いてのORデータにより作成したORイメージについて
、その各ラインの黒画素数をカウントしたORヒストグ
ラムの2種類のヒストグラムを作成する。
第5図(a)にNRヒストグラムの例を示す。
図において、47は原画の圧縮画像についての元イメー
ジである。
ジである。
48は元イメージ47に対する黒画素数によるNRヒス
トグラムである。
トグラムである。
第511(b)にORヒストグラムの例を示す。
図において、49は元イメージであり、50は任意のラ
インの画素と次のラインの画素について、ORデータに
より作成したORイメージであり、51はORイメージ
の各ラインの黒画素を数えて作成したORヒストグラム
である。
インの画素と次のラインの画素について、ORデータに
より作成したORイメージであり、51はORイメージ
の各ラインの黒画素を数えて作成したORヒストグラム
である。
本発明において、ORヒストグラムを作成する理由を第
6図により説明する。
6図により説明する。
図において、元イメージ52.53のラインlは罫線で
あるが、図に示されるように罫線に欠けがある場合には
、そのラインのNRヒストグラム54はNRヒストグラ
ムの■、■に示されるように、ヒストグラム値が小さく
なり、罫線としての見分けがつきにくくなる。
あるが、図に示されるように罫線に欠けがある場合には
、そのラインのNRヒストグラム54はNRヒストグラ
ムの■、■に示されるように、ヒストグラム値が小さく
なり、罫線としての見分けがつきにくくなる。
ラインlについてライン2との黒画素についてのORイ
メージにより作成されたORヒストグラム54′におい
ては、ヒストグラムは■″、■。
メージにより作成されたORヒストグラム54′におい
ては、ヒストグラムは■″、■。
となり、罫線であることが明確になる。
また、元イメージ52のライン4と元イメージのライン
5のように、罫線がずれているような場合には、NRヒ
ストグラム54は、■、■のように、それぞれ−本ずつ
孤立するが、ORヒストグラムにおいては、■゛、■°
のように罫線が特徴化されるため、罫線判定処理におい
て罫線として見落としすることがなくなる。
5のように、罫線がずれているような場合には、NRヒ
ストグラム54は、■、■のように、それぞれ−本ずつ
孤立するが、ORヒストグラムにおいては、■゛、■°
のように罫線が特徴化されるため、罫線判定処理におい
て罫線として見落としすることがなくなる。
(3) 本発明では、先ず上記のように作成したORヒ
ストグラムにより、先ず罫線を判定する。
ストグラムにより、先ず罫線を判定する。
第7図(a)、(b)により、ORヒストグラムから罫
線を判定する方法を説明する。
線を判定する方法を説明する。
先ず、図(a)に示すように、ヒストグラム値が増加か
ら減少に転するピークのある位置を抽出する。
ら減少に転するピークのある位置を抽出する。
図示のORヒストグラムの場合、ピーク0〜ビーク3ま
での4つのピークが抽出される。
での4つのピークが抽出される。
次に、ピークを降順(図における下方向)に、2つのピ
ークを1組として、ピークのあるラインが罫線であるか
ないかの判定を行う。
ークを1組として、ピークのあるラインが罫線であるか
ないかの判定を行う。
それは、まず、2つのピークの値が共に最大値の場合(
ピーク0とピーク1)には、上位のピークのあるライン
が罫線のあるラインとなる可能性があると判断して、ピ
ークOを罫線判定候補として抽出する。
ピーク0とピーク1)には、上位のピークのあるライン
が罫線のあるラインとなる可能性があると判断して、ピ
ークOを罫線判定候補として抽出する。
この条件を満たさない場合には、1組の2つのピークの
うち小さい方を選択し、これをPKとする(ピーク1と
ピーク2の場合には、ピーク2をPKとする)。
うち小さい方を選択し、これをPKとする(ピーク1と
ピーク2の場合には、ピーク2をPKとする)。
そして、2つのピークの間のヒストグラム値の最小値を
とるライン(vlly)を求め、その値を■0とする(
ピークlとピーク2の場合にはvlly2を■0とする
)。なお、端のピーク3の場合には、ピーク3の値をP
Kとし、vlly4を■0とする。
とるライン(vlly)を求め、その値を■0とする(
ピークlとピーク2の場合にはvlly2を■0とする
)。なお、端のピーク3の場合には、ピーク3の値をP
Kとし、vlly4を■0とする。
■0について、あらかじめ設定しである谷間闇値(4程
度)とくらべ、小さい方をVLとする。
度)とくらべ、小さい方をVLとする。
PKと■0が次の関係式Aを満たす場合には、1組の2
つのピークのうちの上位のピークを罫線ピークとなる可
能性があると判断して、罫線判定候補として抽出する。
つのピークのうちの上位のピークを罫線ピークとなる可
能性があると判断して、罫線判定候補として抽出する。
条件式A、: (PK−VO)> VLピーク1と
ピーク2の場合選択したピーク2がこの条件を満たすの
で、ピーク1を罫線判定候補とする。
ピーク2の場合選択したピーク2がこの条件を満たすの
で、ピーク1を罫線判定候補とする。
(4)次に、上記の方法により、罫線判定候補について
、その抽出したピークを中心に、ヒストグラムを昇順(
図における上方向)、降順に走査し、そのヒストグラム
値および幅について調べ、真の罫線候補と仮罫線候補を
抽出する。
、その抽出したピークを中心に、ヒストグラムを昇順(
図における上方向)、降順に走査し、そのヒストグラム
値および幅について調べ、真の罫線候補と仮罫線候補を
抽出する。
その判定条件を次に説明する。
処理パラメータとして次の値を定義する。
ピーク閾値l
ピーク闇値2
対ピーク闇値率
罫線幅間値1
罫線幅閾稙2
=pti
=Pt2
=pp
=Ltl
=Lt2
(適値=5)
(適値=2)
(通値=3)
(通値=2mm)
(通値=3mm)
次に、上記の闇値について、罫線判定候補のORヒスト
グラム値をピーク値として、下記の条件について判定す
る。
グラム値をピーク値として、下記の条件について判定す
る。
1、ピーク値とPtlとの差をthlとする。
ピーク値−Ptl=th1
2、ピーク値をPt2て割った商をth2とする。
ピーク値/Pt2=th2
3、thlとth2で小さい方をth3とする。
4、ピーク値をppで割った商をth4とする。
ピーク値/ P p = t h 4
5、th3とth4とで小さい方をTH2とし、大きい
方をTHIとする。
方をTHIとする。
6、次に、ピークの位置から、降順および昇順に走査し
、そのヒストグラム値が、THIより大きい範囲のヒス
トグラムを持つラインの本数を調べ、このライン数をw
lとする。
、そのヒストグラム値が、THIより大きい範囲のヒス
トグラムを持つラインの本数を調べ、このライン数をw
lとする。
7、同様に、走査し、そのヒストグラム値が、TH2よ
り大きい範囲のヒストグラム値を持つラインの本数を調
べ、このライン数をw2とする。
り大きい範囲のヒストグラム値を持つラインの本数を調
べ、このライン数をw2とする。
8、上記のWl、W2が次の条件判定式の何れか1つを
満たせば、そのピークは真の罫線候補と判定する。
満たせば、そのピークは真の罫線候補と判定する。
条件式B Ltl≧w1
条件式CLt2≧w2
9、ピークが条件式B、条件式〇のいずれも満たさない
場合には、そのヒストグラム値を調べ、最大値(=16
)の場合には、そのピークを罫線らしいと判定する仮罫
線候補とする。
場合には、そのヒストグラム値を調べ、最大値(=16
)の場合には、そのピークを罫線らしいと判定する仮罫
線候補とする。
それ以外の場合には、そのピークは真の罫線候補にも仮
罫線候補にもしない。
罫線候補にもしない。
以後、真の罫線候補を単に罫線候補と称する。
第7図(b)に上記のORヒストグラムのピーク値およ
び幅による判定方法におけるヒストグラムとTHI、T
H2、wl、w2を示す。図は、w1=2、w2−4の
場合を示す。
び幅による判定方法におけるヒストグラムとTHI、T
H2、wl、w2を示す。図は、w1=2、w2−4の
場合を示す。
以上で、ORヒス1−グラムによるピークに対する罫線
候補、仮罫線候補の抽出処理を終わる。
候補、仮罫線候補の抽出処理を終わる。
上記のORヒストグラムによる処理の結果、罫線候補と
判定されたピークは、最終的に罫線候補とする。
判定されたピークは、最終的に罫線候補とする。
(5)一方、仮罫線候補については、次に、NRヒスト
グラムにより、罫線判定を行う。
グラムにより、罫線判定を行う。
ORヒストグラムによる判定の結果、仮罫線候補とされ
たラインについて、NRヒストグラムにより、前記の(
4)と同様の方法でピーク値と闇値の関係を調べ、その
ラインがNRヒストグラムにおいて罫線候補と判定され
る場合には、その仮罫線候補を罫線候補に変換する。
たラインについて、NRヒストグラムにより、前記の(
4)と同様の方法でピーク値と闇値の関係を調べ、その
ラインがNRヒストグラムにおいて罫線候補と判定され
る場合には、その仮罫線候補を罫線候補に変換する。
その他の場合には、そのまま仮罫線候補として残す。
上記の関係を第8図に示す。
図において(a)はORヒストグラムにおける判定結果
であり、(b)はNRヒストグラムにより得られた判定
結果である。
であり、(b)はNRヒストグラムにより得られた判定
結果である。
ORヒストグラムの判定により、仮罫線候補となったラ
インlと4のピークに対して、NRヒストグラムにより
判定する。
インlと4のピークに対して、NRヒストグラムにより
判定する。
その結果、真の罫線であるという結果が得られたので、
ラインl、4を真の罫線候補に変換することを示してい
る。
ラインl、4を真の罫線候補に変換することを示してい
る。
(6)次に、上記の処理により求めた異なった画素領域
にある罫線候補と仮罫線候補について、罫線同士の連続
性を判定する。
にある罫線候補と仮罫線候補について、罫線同士の連続
性を判定する。
第9図(a)は仮罫線候補について、罫線候補との連続
性を判定し、罫線候補と連続する仮罫線候補は真の罫線
候補に変換する処理の説明図である。
性を判定し、罫線候補と連続する仮罫線候補は真の罫線
候補に変換する処理の説明図である。
図において点線部分は仮罫線であり、黒で塗りつぶした
部分は罫線候補と判定された罫線候補を表す。
部分は罫線候補と判定された罫線候補を表す。
罫線の連続性は、罫線候補と同じライン上で罫線候補の
左右のいずれかに直接に接するかあるいは、罫線候補に
接している仮罫線候補に同様に同じライン上で接してい
る仮罫線は、罫線候補に連続性があるとする。
左右のいずれかに直接に接するかあるいは、罫線候補に
接している仮罫線候補に同様に同じライン上で接してい
る仮罫線は、罫線候補に連続性があるとする。
例えば、図(a −1)において、罫線候補EOに対し
て仮罫線候補S2およびSlは連続性がある。
て仮罫線候補S2およびSlは連続性がある。
また、罫線候補の一つ斜め上または斜め下の画素領域の
仮罫線は罫線候補と連続性があるとする9例えば、図に
おける仮罫線候補S3は罫線候補EOに連続性がある。
仮罫線は罫線候補と連続性があるとする9例えば、図に
おける仮罫線候補S3は罫線候補EOに連続性がある。
又、罫線候補に連続する仮罫線候補の一つ斜め上または
下の仮罫線候補も真の罫線候補に連続性があるものとす
る。
下の仮罫線候補も真の罫線候補に連続性があるものとす
る。
例えば、図における仮罫線候補So、34は真の罫線候
補と連続性があるとする。
補と連続性があるとする。
罫線候補との連続性の判定の結果、連続性ありと判定さ
れた仮罫線候補は罫線候補に変換する。
れた仮罫線候補は罫線候補に変換する。
第9図(a)における(a−2)に変換後の罫線候補と
仮罫線候補との関係を示す。
仮罫線候補との関係を示す。
図(a −1)におけるの仮罫線候補5O3S1、S2
、S3、S4は真の罫線EOと連続性があるため、(a
−2)示すように罫線候補に変換する。
、S3、S4は真の罫線EOと連続性があるため、(a
−2)示すように罫線候補に変換する。
図(a −1)における仮罫線候補S7、S8、S9は
罫線候補との連続性がないため、仮罫線候補のまま残す
。
罫線候補との連続性がないため、仮罫線候補のまま残す
。
(7)上記(6)の仮罫線候補を罫線候補に変換する仮
罫線候補変換処理の後に、罫線候補について、二重線の
単一線への変換処理を行う。
罫線候補変換処理の後に、罫線候補について、二重線の
単一線への変換処理を行う。
二重線変換処理は、y方向(抽出する罫線方向に垂直方
向で降順)について、並びあう罫線候補の間隔を調べ、
その間隔があらかじめ定めた二重線の間隔闇値(1mm
程度が適値)以下のものは、一方の罫線を削除する処理
である。
向で降順)について、並びあう罫線候補の間隔を調べ、
その間隔があらかじめ定めた二重線の間隔闇値(1mm
程度が適値)以下のものは、一方の罫線を削除する処理
である。
第9図(b)は二重線変換処理の説明図である。
図(b−1)の罫線候補L1とL2はy方向の間隔が1
(1mm)で、間隔闇値以下のため、−方の罫線を削除
し、図(b−2)に示すように単一線にする。なお、二
重罫線候補の削除は、二重罫線候補のうち、NRヒスト
グラム値の小さい方とする。図(b−1)において、他
の罫線候補は間隔が闇値よりも離れているため、削除処
理は行わない。
(1mm)で、間隔闇値以下のため、−方の罫線を削除
し、図(b−2)に示すように単一線にする。なお、二
重罫線候補の削除は、二重罫線候補のうち、NRヒスト
グラム値の小さい方とする。図(b−1)において、他
の罫線候補は間隔が闇値よりも離れているため、削除処
理は行わない。
(8)H&に、NRヒストグラム、及びORヒストグラ
ムにおいて抽出された罫線候補について、圧縮イメージ
上で、その罫線候補のラインのイメージを左右方向に追
跡し、罫線候補の左右端点を抽出する。そして、元イメ
ージにおける罫線の端点座標は、圧縮イメージ上の端点
座標から逆算する。
ムにおいて抽出された罫線候補について、圧縮イメージ
上で、その罫線候補のラインのイメージを左右方向に追
跡し、罫線候補の左右端点を抽出する。そして、元イメ
ージにおける罫線の端点座標は、圧縮イメージ上の端点
座標から逆算する。
圧縮イメージ上で罫線を追跡する際には、罫線の欠け、
ズレ、カスレ等により罫線が中断されている場合がある
ので、追跡しようとするラインとその1つ上位および1
つ下位のラインの黒画素についてのORイメージを作成
し、そのORイメージ上で黒画素のデータの連続性を判
断する。
ズレ、カスレ等により罫線が中断されている場合がある
ので、追跡しようとするラインとその1つ上位および1
つ下位のラインの黒画素についてのORイメージを作成
し、そのORイメージ上で黒画素のデータの連続性を判
断する。
第1O図に罫線の端点を認識するための追跡処理方法を
示す。
示す。
図において、55は元イメージ、56は元イメージ55
により任意のラインと1つ上位および下位の3つのライ
ンの黒画素についてのORイメージである。
により任意のラインと1つ上位および下位の3つのライ
ンの黒画素についてのORイメージである。
ライン1を追跡する場合、元イメージ55におけるライ
ン1とその上下のラインであるライン0とライン2の黒
画素のORイメージ56上のライン1上を黒画素の連続
性を判定する。連続性の判定は、連続性が切れる点を検
出することにより行う。そして、その点の座標を読み取
り、その罫線についての追跡は中止する。
ン1とその上下のラインであるライン0とライン2の黒
画素のORイメージ56上のライン1上を黒画素の連続
性を判定する。連続性の判定は、連続性が切れる点を検
出することにより行う。そして、その点の座標を読み取
り、その罫線についての追跡は中止する。
第11図により、罫線の左右端点の認識方法を説明する
。
。
図におけるAはヒストグラム情報を示し、図示のEは罫
線候補を示す。
線候補を示す。
図におけるBは圧縮イメージである。
ヒストグラム情報A上を矢印で示す縦方向に左側から順
次走査する。
次走査する。
その結果、図へのイメージ上のLlに罫線候補を検出し
たら、それに対応する図Bのイメージにおける罫線イメ
ージKl上を追跡する。
たら、それに対応する図Bのイメージにおける罫線イメ
ージKl上を追跡する。
罫線イメージの追跡処理は、あらかじめ設定しておく定
数値で示される空隙を表す白画素闇値(点線も同時に抽
出する場合は1mm、実線のみを抽出する場合にはQm
mが適値)よりも大きl、s空隙(G)がある位置まで
追跡する。
数値で示される空隙を表す白画素闇値(点線も同時に抽
出する場合は1mm、実線のみを抽出する場合にはQm
mが適値)よりも大きl、s空隙(G)がある位置まで
追跡する。
例えば、図Bにおいて罫線イメージKlについては、左
端LP L右端RPIの間を追跡処理することになる。
端LP L右端RPIの間を追跡処理することになる。
この場合、空隙Gが(1,3)の位置で検出されたが、
このヒストグラム情報は、罫線候補となっているので、
この場合はさらに、LP3の位置から右方向に追跡し、
次の空隙が検出されるまで追跡する。
このヒストグラム情報は、罫線候補となっているので、
この場合はさらに、LP3の位置から右方向に追跡し、
次の空隙が検出されるまで追跡する。
LP3からの罫線イメージに3の追跡は、(3゜3)に
空隙が検出され、その罫線イメージに3は左端LP3、
右端RP 3となる。そして、その空隙のある(3.3
)のヒストグラム情報は罫線候補となっていないので、
このラインの罫線イメージの追跡は終了する。
空隙が検出され、その罫線イメージに3は左端LP3、
右端RP 3となる。そして、その空隙のある(3.3
)のヒストグラム情報は罫線候補となっていないので、
このラインの罫線イメージの追跡は終了する。
上記のように、罫線イメージの追跡にあたっては、ヒス
トグラム情報(第11図A)における罫線候補となって
いる位置について追跡するだけでなく、罫線候補となっ
ていない位置についても、罫線イメージが罫線候補のイ
メージと連続している場合には、空隙が存在する位置ま
では追跡する。
トグラム情報(第11図A)における罫線候補となって
いる位置について追跡するだけでなく、罫線候補となっ
ていない位置についても、罫線イメージが罫線候補のイ
メージと連続している場合には、空隙が存在する位置ま
では追跡する。
同様に、ヒストグラム情報A上で、L2も罫線候補であ
るので、それを検出したら、イメージBにおける対応す
る罫線イメージに2について追跡処理を行う。そして、
その端点として、左端LP2と右端RP2の座標を読み
取る。
るので、それを検出したら、イメージBにおける対応す
る罫線イメージに2について追跡処理を行う。そして、
その端点として、左端LP2と右端RP2の座標を読み
取る。
以上の処理により、LPI−RPI、LP2〜RP2
LP3〜RP3の3本の罫線の左右端点座標を検出す
る。
LP3〜RP3の3本の罫線の左右端点座標を検出す
る。
本発明の実施例における罫線認識方法のフローを第12
図ないし第17図に示す。
図ないし第17図に示す。
第12図は、文書の読み取りからヒストグラムのピーク
の抽出までの処理のフローを示す。
の抽出までの処理のフローを示す。
第13図は、ORヒストグラムから抽出したピークにつ
いて、罫線候補を判定する処理がらNRヒストグラムに
より罫線候補を判定する処理までのフローを示す。
いて、罫線候補を判定する処理がらNRヒストグラムに
より罫線候補を判定する処理までのフローを示す。
第14図は、NRヒストグラムによる罫線候補判定処理
の途中から連続性判定処理までのフローを示す。
の途中から連続性判定処理までのフローを示す。
第15図は、二重線判定処理のフローを示す。
第16図は、罫線候補の端点検出のための追跡夕を作成
するまでの処理のフローを示す。
するまでの処理のフローを示す。
第17図は、ORイメージによる罫線候補の追跡のため
の処理の途中から、罫線削除に続いて、文字認識し、処
理を終了するまでのフローを示す。
の処理の途中から、罫線削除に続いて、文字認識し、処
理を終了するまでのフローを示す。
第12図から第17図までのフローを図に示す番号の順
番に従って概略説明する。
番に従って概略説明する。
■ イメージスキャナ等により、文書原稿を読み取る。
■ 読み取った文書のイメージから圧縮画像を作成する
。
。
■ 圧縮画像から各ラインの黒画素のデータを数えてN
Rヒストグラムを作成する。
Rヒストグラムを作成する。
■ 圧縮画像から任意のラインと次のラインの黒画素に
ついてのORデータによりORイメージを作成し、黒画
素を数えてORヒストグラムを作成する。
ついてのORデータによりORイメージを作成し、黒画
素を数えてORヒストグラムを作成する。
■ ORヒストグラムにおいて、ORヒストグラム値を
罫線方向に垂直に走査し、ヒストグラム値が増加から減
少に転するピークを抽出する。
罫線方向に垂直に走査し、ヒストグラム値が増加から減
少に転するピークを抽出する。
■ 抽出したピークからピークの谷間の値、ピークの高
さ、ピークの幅を調べ、ピークが罫線の特徴を示すピー
クであるがどうが調べる。
さ、ピークの幅を調べ、ピークが罫線の特徴を示すピー
クであるがどうが調べる。
■ ORヒストグラムにより仮罫線候補となったピーク
のあるラインについて、NRヒストグラムにより、罫線
候補となるが判定する。
のあるラインについて、NRヒストグラムにより、罫線
候補となるが判定する。
■ 抽出した罫線候補について、連続性を判定する。
■ 連続性のある罫線について、二重罫線を抽出し、二
重罫線の一方を削除する。
重罫線の一方を削除する。
[相] 罫線の端点を読み取るための罫線を追跡処理を
行う罫線を検出する。
行う罫線を検出する。
データを作成する。
■ 同じライン上の罫線でギャップをはさんで隣あう次
の罫線について、左端の座標を求め、罫線の追跡を開始
する。
の罫線について、左端の座標を求め、罫線の追跡を開始
する。
■ 新たに追跡するラインについてその上下のラインと
の黒画素のORイメージを作成する。
の黒画素のORイメージを作成する。
[相] 抽出した真の罫線を読み取った文書のイメージ
上より削除する。
上より削除する。
■ 罫線を削除したイメージにより1文字ずつの文字パ
ターンを分離し、文字認識を行う。
ターンを分離し、文字認識を行う。
本発明によれば、任意のラインと次のラインとの画素の
ORイメージにより、罫線認識を行うようにしたので、
罫線の欠け、ずれ等により、罫線を見落とすことがなく
、また、ORデータにより仮の罫線候補に判定されたも
のは、さらに元イメージにより罫線の判定をするように
したため、罫線の読み取り精度がすぐれている。
ORイメージにより、罫線認識を行うようにしたので、
罫線の欠け、ずれ等により、罫線を見落とすことがなく
、また、ORデータにより仮の罫線候補に判定されたも
のは、さらに元イメージにより罫線の判定をするように
したため、罫線の読み取り精度がすぐれている。
また、罫線を認識した後に罫線、を削除し、文字につい
てのパターンのみにより文字認識を行うようにしたため
、表形式文書においても高精度の文字認識が可能になる
。
てのパターンのみにより文字認識を行うようにしたため
、表形式文書においても高精度の文字認識が可能になる
。
第1図は、本発明の罫線判定方法の基本構成を示す図で
ある。 第2図は、本発明の実施例装置の構成を示す図である。 第3図(a)は、圧縮画像の実施例を示す図である。 第3図(b)は、ヒストグラムの実施例を示す図である
。 第4図は、原稿文書を傾けてセットした場合の説明図で
ある。 第5図(a)はNRヒストグラムの実施例を示す図であ
る。 第5図(b)は、ORヒストグラムの実施例を示す図で
ある。 第6図は、ORヒストグラムの説明図である。 第7図(a)は、ORヒストグラムのピークの説明方法
の実施例を示す図である。 第8図(a)は、ORヒストグラムによる判定結果を示
す図である。 第8図(b)は、NRヒストグラムによる判定結果を示
す図である。 第9図(a)は、仮罫線候補変換処理を説明する図であ
る。 第9図(b)は、二重線変換処理の説明図である。 第10図は、端点を認識するための罫線追跡方法を示す
図である。 第11図は、罫線の端点認識方法を示す図である。 第12図は、本発明の認識方法のフローを示す図である
。 第13図は、本発明の認識方法の第12図に続く部分の
フローを示す図である。 第14図は、本発明の認識方法の第13図に続く部分の
フローを示す図である。 第15図は、本発明の認識方法の第14図に続く部分の
フローを示す図である。 第16図は、本発明の認識方法の第15図に続く部分の
フローを示す図である。 第17図は、本発明の認識方法の第16図に続く部分の
フローを示す図である。 第18図は、従来の文字認識方法を示す図である。 図において、 に表形式文書、 二元イメージ、 :NRヒストグラム、 ;ORイメージ、 :ORヒストグラム。
ある。 第2図は、本発明の実施例装置の構成を示す図である。 第3図(a)は、圧縮画像の実施例を示す図である。 第3図(b)は、ヒストグラムの実施例を示す図である
。 第4図は、原稿文書を傾けてセットした場合の説明図で
ある。 第5図(a)はNRヒストグラムの実施例を示す図であ
る。 第5図(b)は、ORヒストグラムの実施例を示す図で
ある。 第6図は、ORヒストグラムの説明図である。 第7図(a)は、ORヒストグラムのピークの説明方法
の実施例を示す図である。 第8図(a)は、ORヒストグラムによる判定結果を示
す図である。 第8図(b)は、NRヒストグラムによる判定結果を示
す図である。 第9図(a)は、仮罫線候補変換処理を説明する図であ
る。 第9図(b)は、二重線変換処理の説明図である。 第10図は、端点を認識するための罫線追跡方法を示す
図である。 第11図は、罫線の端点認識方法を示す図である。 第12図は、本発明の認識方法のフローを示す図である
。 第13図は、本発明の認識方法の第12図に続く部分の
フローを示す図である。 第14図は、本発明の認識方法の第13図に続く部分の
フローを示す図である。 第15図は、本発明の認識方法の第14図に続く部分の
フローを示す図である。 第16図は、本発明の認識方法の第15図に続く部分の
フローを示す図である。 第17図は、本発明の認識方法の第16図に続く部分の
フローを示す図である。 第18図は、従来の文字認識方法を示す図である。 図において、 に表形式文書、 二元イメージ、 :NRヒストグラム、 ;ORイメージ、 :ORヒストグラム。
Claims (2)
- (1)罫線を含む文書データをイメージデータとして入
力する文字認識装置における罫線データの認識方法にお
いて、 文書データの読み取り走査における罫線方向のラインの
黒の画素数を1ラインごとに数えたノーマルヒストグラ
ムと、 連続する2つのラインにおける罫線方向の座標が同じで
あるそれぞれのライン上の画素の黒の画素についてのO
Rデータにより作成されたORイメージにより任意のラ
インの黒画素をラインごとに数えたORヒストグラムと
を作成し、 ORヒストグラムの各ラインにおけるヒストグラムデー
タが増加から減少に転じるときのヒストグラムデータの
ピークを判定し、 任意の注目ラインのピークの高さもしくは幅について隣
りあうピークもしくは前後のラインのヒストグラムデー
タと比較することにより当該注目ラインについて、真の
罫線であるとする罫線候補と、罫線らしいとする仮罫線
候補と、罫線でないものを判定し、 ORヒストグラムにより真の罫線と判定されたラインは
最終的に罫線候補とし、 仮罫線候補と判定されたラインについては、さらにノー
マルヒストグラムにより、罫線としての確からしさを判
定し、ノーマルヒストグラムにより真の罫線と判定され
たラインを仮罫線候補から罫線候補に変換することを特
徴とする罫線判定方法。 - (2)請求項(1)に記載の罫線判定方法により真の罫
線であると判定された罫線候補を削除する罫線削除手段
を備え、 罫線データ削除後に文字認識を行うことを特徴とする文
字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2026281A JP2683290B2 (ja) | 1990-02-06 | 1990-02-06 | 罫線判定方法および文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2026281A JP2683290B2 (ja) | 1990-02-06 | 1990-02-06 | 罫線判定方法および文字認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03230289A true JPH03230289A (ja) | 1991-10-14 |
| JP2683290B2 JP2683290B2 (ja) | 1997-11-26 |
Family
ID=12188907
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2026281A Expired - Fee Related JP2683290B2 (ja) | 1990-02-06 | 1990-02-06 | 罫線判定方法および文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2683290B2 (ja) |
-
1990
- 1990-02-06 JP JP2026281A patent/JP2683290B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2683290B2 (ja) | 1997-11-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2940936B2 (ja) | 表領域識別方法 | |
| US5109428A (en) | Minutia data extraction in fingerprint identification | |
| JPH02306386A (ja) | 文字認識装置 | |
| JPH0418351B2 (ja) | ||
| JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
| JPH03230289A (ja) | 罫線判定方法および文字認識装置 | |
| JPH0548510B2 (ja) | ||
| JPH02242382A (ja) | 欠陥検査方法 | |
| US20130051681A1 (en) | System and method for script and orientation detection of images | |
| JP2002015283A (ja) | 分離文字列統合方法および装置 | |
| JP2803735B2 (ja) | 罫線を含んだ文字認識装置 | |
| JP2590099B2 (ja) | 文字読取方式 | |
| JPH07141465A (ja) | 文書画像の傾き検出方法 | |
| JPS61190679A (ja) | 文字デ−タ処理装置 | |
| JP2832035B2 (ja) | 文字認識装置 | |
| JP2963807B2 (ja) | 郵便番号枠検出装置 | |
| JPH02187883A (ja) | 文書読取装置 | |
| JPH02166583A (ja) | 文字認識装置 | |
| JPH0310986B2 (ja) | ||
| JP2670074B2 (ja) | 車両番号認識装置 | |
| JPS62194590A (ja) | 文字認識方式 | |
| JPS603676B2 (ja) | 交差点抽出方式 | |
| JPH03160582A (ja) | 文書画像データに於ける罫線と文字の分離方法 | |
| JPS5953983A (ja) | 文字の検出切出方法 | |
| JPS5942906B2 (ja) | 線幅抽出装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |