JPH06195505A - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JPH06195505A
JPH06195505A JP4345950A JP34595092A JPH06195505A JP H06195505 A JPH06195505 A JP H06195505A JP 4345950 A JP4345950 A JP 4345950A JP 34595092 A JP34595092 A JP 34595092A JP H06195505 A JPH06195505 A JP H06195505A
Authority
JP
Japan
Prior art keywords
extracted
histogram
dotted line
line
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4345950A
Other languages
English (en)
Inventor
Yujiro Kamimura
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4345950A priority Critical patent/JPH06195505A/ja
Publication of JPH06195505A publication Critical patent/JPH06195505A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 スキャナーから入力した表画像を基に、表構
造を認識する。 【構成】 スキャナー41から入力した表画像の縦、横
2方向のランのうち、一定長さ以上のものを連結するこ
とにより、実線の罫線を抽出する。次に、抽出された罫
線に囲まれた内部の画像に対して、連結黒画素の外接矩
形の抽出を行う。破線や点線を構成する画素は、線の長
さ方向と垂直な幅は他の部分に比べて小さいので、抽出
された外接矩形のうち、幅が一定値以下のものを選び、
その頻度のヒストグラムをとる。そのうちしきい値以上
の部分を探し、その両側の一定範囲のヒストグラムを累
積しそれがしきい値以下の部分を点線候補とする。 【効果】 ヒストグラムの累積を見て点線候補を決定す
ることにより、網掛けの部分に誤って点線を抽出するこ
とがなくなり、正確に表認識が可能になる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、印刷された表を読み取
り、表構造及び、セル内の文字を認識する表認識装置に
関するものである。
【0002】
【従来の技術】近年、表認識装置がコンピュータなどの
入力装置として利用されるようになってきた。文書の清
書システムとして表認識装置の利用を考慮すると、罫線
位置、線種、線幅、及びセル内の文字を認識する必要が
ある。
【0003】以下に従来の表認識装置について説明す
る。図6は従来の表認識装置の機能ブロック図であり、
11はスキャナ等の画像入力機器から画像を入力する画
像入力部である。12は入力された画像データを格納す
る画像領域、13は画像データを走査して一定長さ以上
の黒画素の並び(以下ランという)を抽出する実線ラン
抽出部、14は画像データを走査して特定パターンのラ
ンの並びを抽出する破線ラン抽出部、15は13及び1
4で抽出されたランの連結性を調べて罫線を抽出し、抽
出された罫線位置の相互関係を見ることにより、セルを
抽出する表構造抽出部、16はサンプル文字を記憶する
文字パターン辞書、17は各セル内の文字をサンプル文
字と比較し、前もって決めた値よりも近い類似度なら
ば、その文字として出力する文字認識部、18は認識し
た表の情報を出力する表出力部である。
【0004】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、表の中に網掛けを持つ文書の場合、上記破
線ラン抽出部において、網掛け部を誤って点線と認識し
てしまい、表の構造が正確に認識できないという問題点
があった。
【0005】本発明はこの点に鑑み、表の構造を正確に
認識することのできる表認識装置を提供することを目的
とする。
【0006】
【課題を解決するための手段】本発明は上記問題点を解
決するため、実線で囲まれた部分の8連結または4連結
の黒画素外接矩形の座標を出力する(以下ラベリングと
いう)ラベリング部と、抽出された外接矩形の内、幅ま
たは高さがしきい値以下のものを選び、その縦、横方向
のヒストグラムをとるヒストグラム抽出部と、ヒストグ
ラムの特徴から点線候補を抽出する点線候補抽出部と、
外接矩形の位置関係から実線以外の罫線を抽出する破線
抽出部を備える。
【0007】
【作用】本発明は上記した構成により、点線と網掛けの
部分をヒストグラムの特徴によって識別することができ
る。したがって、表の構造を認識する場合、網掛け部分
を誤って点線と認識することがなくなり、正確な構造認
識が可能となる。
【0008】
【実施例】図1は本発明の一実施例における表認識装置
の機能ブロック図を示すものである。図1において21
はスキャナ等の画像入力機器から画像を入力する画像入
力部である。22は入力された画像データを格納する画
像領域、23は画像データを走査して一定長さ以上のラ
ンを抽出する実線ラン抽出部、24は23で抽出された
ランの連結性を調べて罫線を抽出し、罫線で囲まれた部
分をセルとして抽出する実線セル抽出部、25は24で
抽出されたセル内の連結黒画素の外接矩形を抽出するラ
ベリング部、26は抽出された外接矩形の内、幅または
高さがしきい値以下のものを選び、その縦、横方向のヒ
ストグラムをとるヒストグラム抽出部、27は、26で
抽出されたヒストグラムの特徴から点線候補を抽出する
点線候補抽出部、28は点線候補位置の外接矩形の位置
関係から実線以外の罫線を抽出する点線抽出部、29は
24で抽出された実線セルと、28で抽出された実線以
外の罫線から表の構造を抽出する表構造抽出部、30は
サンプル文字を記憶する文字パターン辞書、31は各セ
ル内の文字をサンプル文字と比較し、前もって決めた値
よりも近い類似度ならば、その文字として出力する文字
認識部、32は認識した表の情報を出力する表出力部で
ある。
【0009】図2は本実施例の表認識装置の構成を示す
ブロック図である。図2において41は表画像を読み取
るスキャナで、読み取った表画像をイメージデータとし
て出力する。42はRAMで、スキャナ41からのイメ
ージデータを記憶する画像メモリ領域43、イメージデ
ータの縦、横2方向の黒画素の並びを格納するラン領域
44、イメージデータの連結黒画素の外接矩形を格納す
る外接矩形領域45、外接矩形の縦、横2方向の頻度の
ヒストグラムを格納するヒストグラム領域46、表認識
の結果得られる表の構造、セル内の文字を格納する表デ
ータ領域47を有する。48はROMで、文字認識に使
用する辞書を記憶した特徴辞書領域49及びプログラム
記憶領域50を有する。51はプログラム記憶領域50
に記憶された制御プログラムに従って処理を行う処理回
路である。52は認識指令を行うキーボードであり、5
3は表データ領域47に記憶された表を表示する表示部
である。
【0010】以上のように構成された本実施例の表認識
装置について以下その動作を図3のフローチャートを用
いて説明する。
【0011】ステップs1では、スキャナから画像を入
力し、メモリに格納する。ステップs2では、入力した
画像の傾きを補正する。ステップs3では、画像の縦、
横2方向の黒画素の並びを抽出する。ステップs4で
は、抽出したランの内、一定長さ以上のものを検索す
る。ステップs5では、ステップs4で検索したランを
連結して、罫線を抽出する。ステップs6では、ステッ
プs5で抽出した罫線で囲まれた部分があるか調べ、あ
る場合はステップs7へ、ない場合はステップs8へ進
む。ステップs7では、実線以外の罫線を抽出する(こ
のステップの詳細は後述する)。ステップs8ではステ
ップs5で抽出された罫線とステップs7で抽出された
破線に囲まれた部分をセルとして抽出する。ステップs
9では文字認識が終了していないセルがあるか調べ、あ
ればステップs10のセル内文字認識を行う。ステップ
s11では、認識された表を出力する。
【0012】次に図4のフローチャートを用いてステッ
プs7の詳細について説明する。ステップs71では、
領域内の連結黒画素の外接矩形リストを作成する。ステ
ップs72では、未処理のラベリングデータがあるか調
べ、あればステップs73へ、なければステップs77
へ進む。ステップs73では、対象とするラベリングデ
ータの高さがしきい値以下かどうか調べ、しきい値以下
であればステップs74の処理を行う。ステップs74
では、ラベリングデータを横方向に投影した部分のヒス
トグラムを増加させる。ステップs75では、対象とす
るラベリングデータの幅がしきい値以下かどうか調べ、
しきい値以下であればステップs76の処理を行う。ス
テップs76では、ラベリングデータを縦方向に投影し
た部分のヒストグラムを増加させる。ステップs77で
は、ヒストグラムのレベルがしきい値よりも高くあるレ
ベルで切った幅が線幅のしきい値よりも小さいところが
あるか調べ、あればステップs78以下の処理を繰り返
し、なければ終了する。ステップs78では、ステップ
s77で見つかった部分の近傍のヒストグラムを累積
し、それがしきい値以下だったら点線候補とする。この
処理を行うことにより、図5(a)のような表画像を認
識する場合、(b)及び(c)では点線候補が抽出され
るが、(d)では抽出されないため、網掛け部分に誤っ
て点線を抽出することはない。ステップs79では、ス
テップs78で見つかった部分を通るラベリングデータ
を検索し、ラベリングデータの最大間隔がしきい値以下
かどうか調べ、しきい値以下であればステップs79で
実線以外の罫線として出力する。
【0013】以上のように本実施例によれば、ラベリン
グ部、ヒストグラム抽出部、点線候補抽出部、及び破線
抽出部を設けることにより、正確に表の構造を認識する
ことができる。
【0014】
【発明の効果】本発明は、実線で囲まれた部分の連結黒
画素外接矩形をとるラベリング部と、抽出された外接矩
形の内、幅または高さがしきい値以下のものを選び、そ
の縦、横方向のヒストグラムをとるヒストグラム抽出部
と、ヒストグラムの特徴から点線候補を抽出する点線候
補抽出部と、外接矩形の位置関係から実線以外の罫線を
抽出する点線抽出部を設けることにより、表の構造を正
確に認識することができる。
【図面の簡単な説明】
【図1】本発明の一実施例における表認識装置の機能ブ
ロック図
【図2】本実施例の表認識装置の構成を示すブロック図
【図3】本実施例における制御手順を示すフローチャー
【図4】本実施例における制御手順を示すフローチャー
【図5】点線候補抽出の説明図
【図6】従来の表認識装置の機能ブロック図
【符号の説明】
21 画像入力部 22 画像メモリ 23 実線ラン抽出部 24 罫線セル抽出部 25 ラベリング部 26 ヒストグラム抽出部 27 点線候補抽出部 28 点線抽出部 29 表構造抽出部 30 文字パターン辞書 31 文字認識部 32 表出力部 41 スキャナ 42 RAM 43 画像メモリ領域 44 ラン領域 45 外接矩形領域 46 ヒストグラム領域 47 表データ領域 48 ROM 49 特徴辞書領域 50 プログラム記憶領域 51 処理回路 52 キーボード 53 表示部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】与えられた入力図形を走査して得られた原
    図形情報に基づいて、表の構造を認識する表認識装置に
    おいて、縦、横2方向の黒画素のランのうち、一定長さ
    以上のものを抽出する手段と、抽出されたランを連結す
    ることにより、実線の罫線を抽出する手段と、抽出され
    た罫線で囲まれた部分の連結黒画素外接矩形リストをと
    る手段と、抽出した外接矩形の内、幅または高さがしき
    い値以下のものを選び、その縦、横方向のヒストグラム
    をとる手段と、ヒストグラムの特徴から点線候補を抽出
    する手段と、外接矩形の位置関係から実線以外の罫線を
    抽出する手段を備え、表の構造を正確に認識することを
    特徴とする表認識装置。
JP4345950A 1992-12-25 1992-12-25 表認識装置 Pending JPH06195505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4345950A JPH06195505A (ja) 1992-12-25 1992-12-25 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4345950A JPH06195505A (ja) 1992-12-25 1992-12-25 表認識装置

Publications (1)

Publication Number Publication Date
JPH06195505A true JPH06195505A (ja) 1994-07-15

Family

ID=18380108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4345950A Pending JPH06195505A (ja) 1992-12-25 1992-12-25 表認識装置

Country Status (1)

Country Link
JP (1) JPH06195505A (ja)

Similar Documents

Publication Publication Date Title
EP0854434A1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3411472B2 (ja) パターン抽出装置
US6947596B2 (en) Character recognition method, program and recording medium
JP2917427B2 (ja) 図面読取装置
JPH06195505A (ja) 表認識装置
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP2796561B2 (ja) 表形式文書認識方式
JP3060248B2 (ja) 表認識装置
JPH06180771A (ja) 英文字認識装置
JP3502130B2 (ja) 表認識装置および表認識方法
JP3052438B2 (ja) 表認識装置
JPH07230526A (ja) 文字読取装置
JPH0728935A (ja) 文書画像処理装置
JPH07160810A (ja) 文字認識装置
JPH05159100A (ja) 表認識装置
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JPH06150056A (ja) 表認識装置
JP3077929B2 (ja) 文字切出し方式
JP3428504B2 (ja) 文字認識装置
JPH08171609A (ja) 文字列高速抽出装置
JPH08202822A (ja) 文字切り出し装置、及び文字切り出し方法
JP2797523B2 (ja) 図面続取装置
JPH0573721A (ja) 表認識装置
JPH0628520A (ja) 文字認識装置
JPH0728934A (ja) 文書画像処理装置