JPS63184885A - 文字復元方法 - Google Patents

文字復元方法

Info

Publication number
JPS63184885A
JPS63184885A JP62017742A JP1774287A JPS63184885A JP S63184885 A JPS63184885 A JP S63184885A JP 62017742 A JP62017742 A JP 62017742A JP 1774287 A JP1774287 A JP 1774287A JP S63184885 A JPS63184885 A JP S63184885A
Authority
JP
Japan
Prior art keywords
solid line
run
image
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62017742A
Other languages
English (en)
Inventor
Hiroyuki Kanehara
弘幸 金原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62017742A priority Critical patent/JPS63184885A/ja
Publication of JPS63184885A publication Critical patent/JPS63184885A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、図面認識や文字認識に利用される文字復元方
法に関し、より詳細には、文字が罫線としての実線と重
なっている状態の文書画像から実線部分を抽出し文字を
復元する文字復元方法に関する。
〔従来技術〕
従来、ドロップアウトカラーではない罫線が印刷されて
いる文書を文書画像として読込んで、文書画像から罫線
としての実線部分を抽出し、文字を復元する方法が知ら
れている。
この種の従来の文字復元方法では、文字と実線とを区別
する際、まとまった閉領域を文字領域として切出してい
た。
このために、実線部分の抽出に誤差を伴ない、また正確
に実線部分を抽出し精度良く文字を復元するのは難かし
いという問題があった。
〔目的〕
本発明は、このような従来技術の問題を改善し、実線部
分を良好に抽出し、文字を高速かつ精度良く復元するこ
との可能な文字復元方法を提供することを目的とする。
〔構成〕
本発明は上記目的を達成させるため、2値化処理された
文書画像から黒画素が連続している部分を切出す工程と
、切出された部分が実線を含んでいるかを判別する工程
と、実線を含む部分であると判別されたときにxgti
軸に黒画素を射影して黒画素の頻度から実線を抽出する
工程と、実線を除去した画像から一文字ごとに境界ラン
を検出する工程と、境界ランに基づいて文字を復元する
工程とを備えたことを特徴としたものである。
以下、本発明の一実施例に基づいて具体的に説明する。
第1図は本発明の文字復元方法を実現するシステムの構
成図である。
第1図においてスキャナ部1は、罫線の印刷されかつ文
字の書込まれた文書を読取って文書画像として出力し、
A/D変換部2は、スキャナ部1からの文書画像に対し
てアナログ−デジタル変換を施して出力するようになっ
ている。A/D変換部2からのデジタル文書画像は図示
しないが2値化処理部によって所定の閾値で2値化処理
されて画像プロセッサ3に送られる。この2値化処理さ
れた文書画像が、画像プロセッサ3によって所定の処理
の施される原画像となる。なおメモリ4には画像プロセ
ッサ3の処理結果が格納される。
画像プロセッサ3は、原画像すなわち2値化処理された
文書画像から黒画素の連続している部分を切出す切出処
理と、切出された部分すなわち切出画像が罫線としての
実線を含む部分であるかあるいは文字だけの部分である
かを判別する判別処理と、切出された部分が実線を含む
部分であると判別されたときにこの部分からX座標軸へ
の射影黒画素頻度のしストグラムを作成するヒストダラ
ム作成処理と、作成されたヒストグラムから実線部分を
抽出する罫線抽出処理と、文字と実線部分との境界を抽
出し境界ランを求める境界抽出処理と、境界ランに基づ
いて文字を復元する復元処理とを行なうようになってい
る。
第2図は、2値化処理された文書画像すなわち原画像の
一例を示している。同図において文字CH1およびCH
2は“1”の文字であり、文字CH3は“2″の文字で
ある0文字CHIおよびCH2は実線RLNに重な7っ
て書込まれている。
第3図は、第2図に示す原画像に対して行なわれる切出
処理の原理図である。同図には黒画素の連続している部
分として、文字CHI、CH2および実線RLNからな
る画像の切出処理が示されている。第3図に示す切出処
理の例では、原画像を横方向に左上端から右下端に向け
て順次に走査し、黒画素のラン検出を行なうようになっ
ている。
黒画素のランは、所定の副走査位置YPにおけるX方向
への走査において白画素から黒画素に変化するX座標す
なわち開始X座*XSと黒画素から白画素に変化するX
座標ずなわち終了XJiJll X Eとによって特定
される。ずなわち開始X座標XSと終了X座flXEと
の間はすべて黒画素であって1つのランを形成している
第3図においてこのような黒画素のランは副走査値1W
YPが“15”と“50”との間で検出される。
副走査位置YPが“15”乃至“30”。
“35”乃至“50”のところでは、各副走査位置YP
において2つのランが存在する0例えば副走査値ffY
Pが“15”のところを走査すると、開始X座標XSが
60″で終了X座標XEが“65”である第1のランと
、開始X座標XSが“90”で終了X座wAXEが“9
5”である第2のランとが検出される6 一方、副走査値fYPが’30”乃至“35”のところ
では、各副走査位置YPについて一つのランが存在する
0例えば副走査値WIYPが“30”のところを走査す
ると、開始X座標XSが“30”で終了X座allXE
が′120”であるランが検出される。
このようにして副走査位置YPを順次に変化させてX方
向に走査して検出された黒画素の各ランが互いに連結し
ているときには、それらは1つの画像を構成するものと
されて1つのラベル番号しABが付されるようになって
いる。第3図の文字CHI、CH2および実線RLNは
黒画素の各うンが連結しているので1つの画像を構成し
ており、これにラベル番号LABとして例えば“1″を
付す。
第4図は、このようにして走査され検出された1つの画
像(ラベル番号LAB : “1″)における黒画素の
ラン検出結果を示したものである。同図において、ラン
番号iでは走査順に生起するランを識別する番号であり
、副走査値W1ypm 。
X5(i)、XE(i)、ラベル番号LAB(i)はラ
ン情報を構成しており、それぞれラン番号1のランの副
走査位置、開始XJil、終了XJIII、ラベル番号
を表わしている。
切出処理は、第4図に示すようなラン検出結果から黒画
素のランが連結している1つの画像を切出すものである
。この切出処理は、同じラベル番号LABをもつラン検
出結果から最小の開始X座標XS、(第4図の例では“
30”)、最大の1n 終了X座FIAXE   (第4図の例テハ“120°
゛)、1aX 最小の副走査値IYP、(第4図の例では11n “15”)、最大の副走査位置YP   (第4図aX の例では“50”)を検索することによって行なわれる
これによって第2図に示すような文字CHI。
CH2および実線RLNからなる画像は、第5図(a)
に示ずような切出画像FRIに切出される。
第2図に示す文字CH3の切出処理も同様にして行なわ
れる0文字CH3の黒画素は、文字CH1、CH2およ
び実11RLNの黒画素と連結していないので、文字C
H3のラン検出を行なうと、文字CH1,CH2および
実線RLNのラベル番号LABと異なるラベル番号LA
Bが付されることになる。これによって文字CH3の切
出しは文字CHI、CH2および実線RLNの切出しと
は別に行なわれ、その結果第5図(b)に示ずような切
出画像FR2が得られる。
第5図(a) 、 (b)に示すような切出画像FRI
FR2に基づいて画像プロセッサ3は、切出画像が実線
を含む部分か文字だけの部分であるかを判別する。実線
と重ならないを通の文字の切出画像は、その幅および高
さがほぼ所定の幅Wに収まるが、実線と重なった場合の
切出画像では、幅が所定の幅Wを越えてしまう、これを
利用して、切出画像の幅が所定の幅Wを越えているとき
には実線を含むものと判別するようになっている。
第5図(a)の切出画像FRIでは、幅DXIが所定の
幅Wを越えるために実線を含むと判断される。一方、第
5図(b)の切出画像FR2では、幅DXIが所定の幅
W以内であるので、実線を含まない通常の文字部分であ
ると判断される。
しストダラム作成処理では、実線を含むと判断された同
一ラベル番号の切出画像に対しX座標軸に黒画素を射影
し累積させて黒画素の頻度αのヒストグラムを作成する
ものである。なお本実施例では入力画像の制限として実
線はX座標軸にほぼ平行な場合のみとする。第6図(a
) 、 (b)はこのようなヒストグラムの作成の仕方
を示している。
第5図(a)および第6図(a)の切出画像FRIは幅
DXIが所定の大きさを越えているので、X座標軸方向
の実線があると判断されX座標軸への射影が行なわれる
。その結果第6図(ワ)のようなしストダラムが作成さ
れる。第6図(b)から明らかなように、全てのX座標
位置lにおいて頻度の(i>は“0″になることはない
、また実線RLNだけが存在するX座標位置iでは黒画
素の頻度α(i)は小さいが、文字CHI、CH2が存
在するXg標位Wlでは黒画素の頻度α(i)は大きく
なる。
実線RLNの太さが一様のものであれば、ヒストグラム
の頻度α(i)の最小値HS (i)が線の太さLLと
なる。実際には、実線RLNの太さは一様ではないため
、ヒストグラムの頻度α(i)の値を全てのXS*位置
について調べ、 LL≦a (i)≦L L + 2      −−−
−−・(1)HS (i)≦LL≦H8(i)+3  
  ・・・・・・(2)の条件を満たすならば線の太さ
LLを更新するようになっている。なお、(1)式およ
び(2)式においてXJI11位1iは、 0≦i≦DX            ・・・・・・(
3)の全ての範囲をとるものとする。
また、しストダラムを作成する際に、各X座標位置lに
おけるY座標の最大値YD(i)、最小値Y S (i
)を求めておく、実線抽出処理は、このY座標の最大値
YD(i)、最小値Y S (i)としストダラムの最
小値HS (i)に基づいて、HS (i)≦LL  
         ・・・・・・(4)LL≧YD(i
)−YS(i)      ・・・・・・(5)の条件
を満たすX座標位置iにおける黒画素を実線の一部とみ
なすことによって行なわれる。すなわち(4)式および
(5)式を満たすX座標位置iとその位Wiにおける黒
画素とを検出することによって実線部分を文字から分離
することができる。
第6図(b)のヒストグラムでは、X座標位置“0″か
らxlの間、x2からx3の間、x4からDXlの間の
頻度αは、(4)式および(5)式の条件を;^なして
いる。これに対応するランは第6図(a)においてラン
番号N31乃至N36のものであり、第4図のように作
成されたラン検出結果からラン番号N31乃至N36の
ランの開始X座標XSと終了XqiiXEとを抽出して
、これらのランを第6図(a)の切出画像FRIから取
除く、この実線抽出によって第6図(a)に示す切出画
像FRIは第7図に示すようになる。
さらに本実施例では、文字と実線部分との境界を抽出し
境界ランを求める境界抽出処理が行なわれる。
境界抽出処理では、上述のヒストグラムを用いて、−文
字のX座標位置の最小値C8と最大値CDを先づ求める
ようになっている。X座標位Wiにおける頻度α(i)
が、 α(i)<LLかつα(i+1)≧LL・・・・・・(
6)の条件を満たすときに、このX座標位置iが一文字
の最小値C8となり、またX座標位置iにおける頻度α
(i)が、 α(i)≧LLかつα(CD+1 )<LL・・・・・
・(1) の条件を満たずときに、このX座標位置iが一文字の最
大値CDとなる。
第6図(b)に示すヒストグラムでは、文字CH1の最
小値cs、1大値CDはそれぞれ、xl。
x2であり、文字CH2の最小値C3,R大値CDはそ
れぞれ、x3.x4である。
このようにして求められた一文字の最小値C8゜最大値
CDにおけるYu標の最大値、最小値を求め、Y座標の
最大値(YD (C3)、YD (CD))と、最小値
(YS (C3)、YS (CD))との4点から、文
字と実線部分とが重なっていた矩形領域を作成すること
ができる0例えば文字CH1では、第7図に示すように
、Y座標の最大値(YD (C3)、YD (CD))
は、(YD (xl>、YD(X2))であり、またY
座標の最小値(YS (C3) 、 YS (CD) 
)は(YS (xl)、YS(x2))である、これら
の4つの点から文字と実線部分とが重なっていた領域を
、第7図で斜線で示すような矩形領域RCTとして作成
する。同様にして文字CH2についても4つの点を求め
て矩形領域を作成する(図示せず)。
このようにして作成された矩形領域RC,Tから、上下
の境界ランを求め、次いで復元処理では、この上下の境
界ランを一文字ごとに連結して文字を復元するようにな
っている。
第7図の例では、文字CHIの上の境界ランはN29と
してまた、下の境界ランはN37として求められる。こ
れにより、上の境界ランN29と下の境界ランN37と
を連結することで文字が復元される。すなわち文字CH
Iの例では矩形領域RCTの全ての画素を黒画素とする
ことによって文字が復元される。
以上のような実線抽出の処理工程の流れを第8図に示す
フローチャートを用いて説明する。
第8図においてステップS1乃至ステップS9の処理は
画像の切出処理である。先づステップS1では、メモリ
4に格納されている原画像を横方向に走査してランを検
出し、ランに関するラン検出結果を作成する。
ステップS2では、第4図に示すようなラン検出結果の
ラン情報をラベル番号順にソートする。
このときにソートされたラン検出結果では、最初に“1
″のラベル番号LABのラン情報があり、次いで“2″
のラベル番号LABのラン情報があるというように、上
から順次に並び換えされている。
次いでステップS3では、ラベル番号LABの初期値と
して“1”をレジスタ(図示せず)に記憶する。なお、
このレジスタに記憶されているラベル番号と同じラベル
番号をもつ画像がこれから行なおうとする切出、判別、
実線抽出、境界ラン抽出および復元処理の対象となる。
次いでステップS4では、ステップS2でソートされた
ラン検出結果を順次に読出す、ステップS5では、ラン
情報が終了したか否かを判断し、ラン情報が終了したと
判断されたときには、ラン検出結果に格納されている全
てのラン情報が読出され、全てのラベル番号に対応する
画像の実線抽出がなされ全ての文字が復元されたことを
意味するので、処理を終了する。
ステップS6では、ステップS4において読出されたラ
ン情報のラベル番号LABがレジスタの内容と同じであ
るか否かを判断する。レジスタの内容と同じであるとき
には、このラン情報はこれから切出、判別、実線抽出、
境界ラン抽出および復元処理がなされるべき画像の一つ
の情報となるので、ステップS7に進んで、これをメモ
リ4の所定領域(図示せず)へ格納する。いまの場合、
レジスタの内容はステップS3で1″に設定されている
ので、ラン格納結果から読出されたラン情報のうちでラ
ベル番号LABが“1”のラン情報だけが□メモリ4の
所定領域に格納されることになる。
ステップS7においてレジスタの内容と同一のラベル番
号のラン情報の一つがメモリに格納されると再びステッ
プS4に戻り、ラン検出結果から次のラン情報を読出し
て同様の処理を繰返す。
このようにしてメモリ4の所定領域には、レジスタの内
容と同一のラベル番号LABをもつ全てのラン情報が格
納される。いまの場合、ラベル番号LABが“1”の全
てのラン情報が格納される6一方、ステップS6におい
て読出されたラン情報のラベル番号LABがレジスタの
内容と同じでないときには、ステップS8に進む。
ステップS8では次のラベル番号をレジスタに予め格納
するため、現在のレジスタの内容を“1”だけ歩進させ
る。いまの場合レジスタの内容は2″となる。
次いでステップS9に進んで、ステップ$4乃至ステッ
プS7の処理においてメモリ4の所定領域に格納された
ラン情報に基づいてこのラン情報に対応する画像の切出
(第5図参照)を行なう。
いまの場合、ラベル番号LABが11111の画像の切
出が行なわれ、切出された画像はメモリ4に格納される
ステップS9で所定のラベル番号に対応する画像の切出
しが行なわれると、この切出画像の幅および高さが所定
の幅Wを越えているか否かを判別するためにステップS
10の判別処理に進む。
ステップS10では切出画像の幅DXが所定の幅Wより
も大きいか否かを判別する。切出画像の幅DXが所定の
幅Wよりも小さいときには、この切出画像は第5図(b
)に示すように幅が所定の大きさのものであるので、実
線を含んでいないと判別されて次のラベル番号(いまの
場合、ラベル番号LAB=“2”)に対応する画像の切
出しおよび実線抽出を行なうために再びステップS4に
戻る。
一方、ステップS10において切出画像の幅DXが所定
の幅Wよりも大きいと判別されたときには、この切出画
像は実線を含むと判別されてステップ311乃至ステッ
プS15の処理に進む、ステップSllでは、第6図(
a) 、 (b)に示すように黒画素をX座標軸に射影
してX座標軸に沿ったしストダラムを作成し、次いでス
テップS12においてこのしストダラムから実線を抽出
する。この実線抽出に際してはステップS1で作成され
たランに関するラン検出結果が用いられる。
このようにして、ステップS12で抽出された実線を切
出画像から取除き文字と実線部分とを分離する。これに
より、ステップS12で抽出された実線は、第7図に示
すように切出画像から取除かれる0次いでステップ91
3では、第7図のように矩形領域を作成し、ステップS
14でこの矩形領域から上下の境界ランを抽出し、ステ
ップS15において境界ランより文字を復元する。復元
された文字をファイルに書込んで再びステップS4に戻
る。このようにして全ての文字について上述のような操
作を繰返し、処理を終了する。
以上のように本実施例によれば、文字が罫線と重なって
いる文書画像において、罫線がほぼ水平なものである場
合に罫線としての実線部分と文字だけの部分とを正確か
つ迅速に抽出分離することができて、さらに文字を精度
良く復元することができる。
〔効果〕
以上に説明したように、本発明によれば、黒画の連続し
ている切出された部分が罫線を含んでいると判別された
ときにxW、al軸に黒画素を射影して黒画素の頻度か
ら実線を抽出し、しかる後境界ランにより文字を復元す
るようにしているので、文字を高速にかつ精度良く復元
することができる。
【図面の簡単な説明】
第1図は本発明の文字復元方法を実現するためのシステ
ム構成図、第2図は罫線に文字が重なっている状態の文
書画像を示す図、第3図は第2図に示す文書画像からラ
ン検出結果を得る手順を説明するための図、第4図はラ
ン検出結果を示す図、第5図(a) 、 (b)はそれ
ぞれ切出画像を示す図、第6図(a) 、 (b)はし
ストダラム作成および実線抽出の手順を説明するための
図、第7図は第6図(a)の切出画像から実線が取除か
れた状態を示す図、第8図は本発明の文字復元方法の手
順を示すフローチャートである。 1・・・スキャナ部、2・・・A/D変換部、3・・・
画像プロセッサ、4・・・メモリ、CHI、CH2,C
H3・・・文字、 RLN・・・実線、YP(i)・・・副走査位置、X 
S (i)・・・開始X座標、XE(+)・・・終了X
座標、LAB(i)・・・ラベル番号、 FRI、PH1・・・切出画像、LL・・・閾値、α・
・・頻度、RCT・・・矩形領域 第  4  図 第8図

Claims (1)

    【特許請求の範囲】
  1. 2値化処理された文書画像から黒画素が連続している部
    分を切出す工程と、切出された部分が実線を含んでいる
    かを判別する工程と、実線を含む部分であると判別され
    たときにX座標軸に黒画素を射影して黒画素の頻度から
    実線を抽出する工程と、実線を除去した画像から一文字
    ごとに境界ランを検出する工程と、境界ランに基づいて
    文字を復元する工程とを備えたことを特徴とする文字復
    元方法。
JP62017742A 1987-01-28 1987-01-28 文字復元方法 Pending JPS63184885A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62017742A JPS63184885A (ja) 1987-01-28 1987-01-28 文字復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62017742A JPS63184885A (ja) 1987-01-28 1987-01-28 文字復元方法

Publications (1)

Publication Number Publication Date
JPS63184885A true JPS63184885A (ja) 1988-07-30

Family

ID=11952202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62017742A Pending JPS63184885A (ja) 1987-01-28 1987-01-28 文字復元方法

Country Status (1)

Country Link
JP (1) JPS63184885A (ja)

Similar Documents

Publication Publication Date Title
US4748678A (en) Method of storing and retrieving image data
US6917706B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5778103A (en) OCR image pre-processor
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US5907631A (en) Document image processing method and system having function of determining body text region reading order
US7454060B2 (en) Image processor for character recognition
JP2951814B2 (ja) 画像抽出方式
US6185341B1 (en) Image processing using vector data to reduce noise
US5708730A (en) Table recognition apparatus
JPH05242292A (ja) 分離方法
JPH0620092A (ja) 文書画像の領域識別方法
JPS62254282A (ja) 重畳するパタ−ンを分離する方法及び装置
JP3149221B2 (ja) 画像処理装置
JPH0773271A (ja) 領域分割方法
JPS63184885A (ja) 文字復元方法
JPS6325391B2 (ja)
JPS58197581A (ja) 文字図形認識方法とその装置
JPH05292294A (ja) デジタル複写機
JP4242962B2 (ja) 文字切出装置
JP2789622B2 (ja) 文字/図形領域判定装置
JP3196603B2 (ja) バーコード認識方法及びシステム
JP2755299B2 (ja) 画像処理方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JPH0728934A (ja) 文書画像処理装置