JPH0433080A - 表内文字認識方法 - Google Patents

表内文字認識方法

Info

Publication number
JPH0433080A
JPH0433080A JP2134876A JP13487690A JPH0433080A JP H0433080 A JPH0433080 A JP H0433080A JP 2134876 A JP2134876 A JP 2134876A JP 13487690 A JP13487690 A JP 13487690A JP H0433080 A JPH0433080 A JP H0433080A
Authority
JP
Japan
Prior art keywords
frame
character
line
scanning direction
main scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2134876A
Other languages
English (en)
Other versions
JP2931041B2 (ja
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2134876A priority Critical patent/JP2931041B2/ja
Publication of JPH0433080A publication Critical patent/JPH0433080A/ja
Application granted granted Critical
Publication of JP2931041B2 publication Critical patent/JP2931041B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置における文書の表内文字認識方
法に関する。
〔従来の技術〕
文字認識装置においては5文書画像を文字領域、写真や
図形などのイメージ領域、表領域などに分割し、それぞ
れの領域に別の処理を行うことが多い。
表領域に関しては、表を構成する罫線の位置を認識し、
罫線で囲まれた枠内の画像に対して連結した黒画素の追
跡を行い、黒画素連結の外接矩形を求め、それを統合し
て文字行を抽出し、文字認識している。
(発明が解決しようとする課題〕 しかし従来は1表の各枠内の文字が横書きまたは縦書き
のいずれか一方で印字されていることを前提に文字行抽
出処理をしているため、例えば第3図に示すような横書
きの文字行と縦書きの文字行が混在した表の場合、横書
き(縦書き)を前提としているときには縦書き文字行(
横書き文字行)の抽出が正確に行われず、結果として文
字認識が正確に行われないことがある。
本発明の目的は、表内の横書き文字行も縦書き文字行も
正確に抽出して文字認識することができる表内文字認識
方法を提供することにある。
〔課題を解決するための手段〕
本発明は、文書画像の表領域より、主走査方向及び副走
査方向の線分で囲まれた枠を抽出し、各枠内の文字行を
抽出して文字認識する表内文字認識方法において、各粋
の主走査方向の長さ及び副走査方向の長さによって各枠
内の文字行が横書きであるか縦書きであるかを判別し、
この判別の結果に応じて各枠内の文字行の抽出方法を切
り替えることを特徴とする。
〔作 用〕
本発明によれば、表中の各枠内に印字された文字が横書
きであるか縦書きであるかが自動的に判別され5判別さ
れた方向に適した文字行抽出方法が適用されることによ
り、横書きの枠と縦書きの枠が混在した表においても、
各枠内の文字行が正確に抽出され、したがって各枠内の
文字の切り出し及び文字認識の精度が上がる。
〔実施例〕
第1図は本発明の一実施例を示すブロック図。
第2図は処理のフローチャートである。
スキャナーなどの2値画像入力部101によって文書を
読取り、その2値画像を2値イメージメモリ102に格
納する(処理ステップ201)。
この文書画像に対して1表領域認識部103はランレン
グス分布などを利用して表領域を自動的に認識するか、
あるいはマウスなどを用いて操作者から指定された領域
を表領域として認識し、表領域のイメージを表領域イメ
ージメモリ104に格納する(処理ステップ202)。
この表領域のイメージに対し、主走査方向線分抽出部1
05において、主走査方向に連結した黒画素を追跡して
主走査方向の線分を抽出し、その始点及び終点の座標を
主走査方向線分座標メモリ106に格納する(処理ステ
ップ203)。同様に副走査方向線分抽出部107にお
いて、表領域イメージ内の副走査方向に連結した黒画素
を追跡して副走査方向の線分を抽出し、その始点及び終
点の座標を副走査方向線分座標メモリ108に格納する
(処理ステップ204)。
次に枠認識部109において、各メモリ106゜108
に格納された線分座標を参照し、主走査方向線分と副走
査方向線分の組合せにより表の枠を認識し、枠の座標例
えば対角頂点の座標を枠座標メモリ110に格納する(
処理ステップ205)。
また枠領域抽出部111において、枠座標メモリ115
内の枠座標を参照することにより、表領域イメージメモ
リ104より枠の領域の画像を抽出して枠領域画像メモ
リ112に格納する(処理ステップ206)。
次に行方向判定部113において、枠座標メモリ110
を参照して全ての枠に対して主走査方向及び副走査方向
の長さのヒストグラムを作成する(処理ステップ207
,208)、そして、&大度数の副走査方向の長さを持
つ枠は全て行方向が横書きの枠であると判別しく処理ス
テップ209゜210)、その長さと同じ主走査方向の
長さを持つ枠は行方向が縦書きの枠であると判別しく処
理ステップ211,212)、残った枠はそれまでに判
別された枠数が多いほうの行方向の枠であると判別する
(処理ステップ213)、なお、処理ステップ207,
208でヒストグラムを求める際には各走査方向の長さ
にある程度の幅を持たせ。
同様に処理ステップ211で長さを判別する際にも、比
較する長さの差がある幅の範囲内のときは一致すると判
定する。求められた行方向の情報は外接矩形抽出部11
4を経由して行画像抽出部116へ伝えられる。
例えば第3図に示した表の場合、横書きの枠の副走査方
向の長さは全て同一(あるいは、はぼ同一)であるので
、その頻度は最大である。したがって、この表の横書き
の枠はすべて処理ステップ210で横書きと判別される
。また、この表の縦書き文字列″データ″が印刷された
枠の主走査方向の長さは、最大頻度の副走査方向の長さ
とほぼ同一である(差が一定の幅の範囲である)ので。
処理ステップ212で縦書きの枠と判別される。
次に外接矩形抽出部114において、枠領域画像メモリ
112を参照し、各枠内の画像に対して連結した黒画素
を追跡し、黒画素連結の外接矩形を抽出して、その対角
頂点の座標を外接矩形座標メモリ115に格納する(処
理ステップ214)。
次に行画像抽出部116において、外接矩形座標メモリ
115を参照し、枠領域画像メモリ112内の各枠領域
画像に対して黒画素連結の外接矩形を1行方向判別部1
13により判別された行方向へ統合することにより、枠
内の文字行画像(文字列画像)を抽出し行画像メモリ1
17に格納する(処理ステップ215,216)− このように各枠毎に行方向すなわち横書き・縦書きのい
ずれであるかの判別を行い、判別した行方向に適した方
法により文字行画像抽出を行うため、横書きの枠と縦書
きの枠が混在した表領域において、いずれの行方向の文
字行画像も正確に抽出することが可能となる。
次に文字認識部118において、行画像メモリ117内
の各粋の文字行画像より文字画像を切り出すが、前段の
文字行画像抽出が正確であるため。
この文字画像切出しも正確に行うことができる。
そして、切り出した文字画像の特徴を抽出し、認識辞書
とのマツチングを行って認識し、認識結果を外部へ出力
する(処理ステップ217)。
〔発明の効果〕
以上説明した如く、本発明によれば、表中の各枠内に印
字された文字行が横書きであるか縦書きであるかを自動
的に判別し、判別した方向に応じた方法により文字行抽
出を行うので、横書き枠と縦書き枠が混在した表におい
ても、各枠内の文字行の切出しを精度良く行うことがで
き、したがって枠内文字のi8g!精度と上げることが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
処理のフローチャート、第3図は横書きと縦書きが混在
した表の例を示す図である。 101・・・2値画像入力部、 102・・・2値イメージメモリ、 103・・・表領域認識部。 104・・・表領域イメージメモリ、 105・・・主走査方向線分抽出部、 106・・・主走査方向線分座標メモリ、107・・・
副走査方向線分抽出部、 108・・・副走査方向線分座標メモリ、109・・・
枠認識部、 110・・・枠座標メモリ、1・・・枠領
域抽出部、 2・・・枠領域画像メモリ、 3・・・行方向判定部、 4・・・外接矩形抽出部、 5・・・外接矩形座標メモリ、 6・・・行画像抽出部、 7・・・行画像メモリ、 118・・・認識部。 第1図

Claims (1)

    【特許請求の範囲】
  1. (1)文書画像の表領域より、主走査方向及び副走査方
    向の線分で囲まれた枠を抽出し、各枠内の文字行を抽出
    して文字認識する表内文字認識方法において、各枠の主
    走査方向の長さ及び副走査方向の長さによって各枠内の
    文字行が横書きであるか縦書きであるかを判別し、この
    判別の結果に応じて各枠内の文字行の抽出方法を切り替
    えることを特徴とする表内文字認識方法。
JP2134876A 1990-05-24 1990-05-24 表内文字認識方法 Expired - Lifetime JP2931041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2134876A JP2931041B2 (ja) 1990-05-24 1990-05-24 表内文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2134876A JP2931041B2 (ja) 1990-05-24 1990-05-24 表内文字認識方法

Publications (2)

Publication Number Publication Date
JPH0433080A true JPH0433080A (ja) 1992-02-04
JP2931041B2 JP2931041B2 (ja) 1999-08-09

Family

ID=15138558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2134876A Expired - Lifetime JP2931041B2 (ja) 1990-05-24 1990-05-24 表内文字認識方法

Country Status (1)

Country Link
JP (1) JP2931041B2 (ja)

Also Published As

Publication number Publication date
JP2931041B2 (ja) 1999-08-09

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP2930612B2 (ja) 画像形成装置
JP2812982B2 (ja) 表認識方法
JP2001060247A (ja) 画像処理装置および画像処理方法
JPH08180068A (ja) 電子ファイリング装置
JP3058791B2 (ja) 画像認識装置の図形の切出し方法
JPH0433080A (ja) 表内文字認識方法
JP3348224B2 (ja) 表枠線の交点補正装置および表認識装置および光学文字読取装置
JP3095470B2 (ja) 文字認識装置
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP7532124B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPH05128305A (ja) 領域分割方法
JPH0433079A (ja) 表処理方式
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH05274472A (ja) 画像認識装置
JPH03172983A (ja) 表処理方法
JPH0266681A (ja) 図面処理装置
JP2004240500A (ja) 画像処理装置、画像処理プログラムおよび記憶媒体
JPH1049602A (ja) 帳票認識方法
JPH0728933A (ja) 文字認識装置
JPH103517A (ja) 文書画像傾き角検出装置
JPH02166583A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100521

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110521

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110521

Year of fee payment: 12