JPS63184885A

JPS63184885A - 文字復元方法

Info

Publication number: JPS63184885A
Application number: JP62017742A
Authority: JP
Inventors: Hiroyuki Kanehara; 弘幸金原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-01-28
Filing date: 1987-01-28
Publication date: 1988-07-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔技術分野〕本発明は、図面認識や文字認識に利用される文字復元方
法に関し、より詳細には、文字が罫線としての実線と重
なっている状態の文書画像から実線部分を抽出し文字を
復元する文字復元方法に関する。

〔従来技術〕

従来、ドロップアウトカラーではない罫線が印刷されて
いる文書を文書画像として読込んで、文書画像から罫線
としての実線部分を抽出し、文字を復元する方法が知ら
れている。

この種の従来の文字復元方法では、文字と実線とを区別
する際、まとまった閉領域を文字領域として切出してい
た。

このために、実線部分の抽出に誤差を伴ない、また正確
に実線部分を抽出し精度良く文字を復元するのは難かし
いという問題があった。

〔目的〕

本発明は、このような従来技術の問題を改善し、実線部
分を良好に抽出し、文字を高速かつ精度良く復元するこ
との可能な文字復元方法を提供することを目的とする。

〔構成〕

本発明は上記目的を達成させるため、２値化処理された
文書画像から黒画素が連続している部分を切出す工程と
、切出された部分が実線を含んでいるかを判別する工程
と、実線を含む部分であると判別されたときにｘｇｔｉ
軸に黒画素を射影して黒画素の頻度から実線を抽出する
工程と、実線を除去した画像から一文字ごとに境界ラン
を検出する工程と、境界ランに基づいて文字を復元する
工程とを備えたことを特徴としたものである。

以下、本発明の一実施例に基づいて具体的に説明する。

第１図は本発明の文字復元方法を実現するシステムの構
成図である。

第１図においてスキャナ部１は、罫線の印刷されかつ文
字の書込まれた文書を読取って文書画像として出力し、
Ａ／Ｄ変換部２は、スキャナ部１からの文書画像に対し
てアナログ−デジタル変換を施して出力するようになっ
ている。Ａ／Ｄ変換部２からのデジタル文書画像は図示
しないが２値化処理部によって所定の閾値で２値化処理
されて画像プロセッサ３に送られる。この２値化処理さ
れた文書画像が、画像プロセッサ３によって所定の処理
の施される原画像となる。なおメモリ４には画像プロセ
ッサ３の処理結果が格納される。

画像プロセッサ３は、原画像すなわち２値化処理された
文書画像から黒画素の連続している部分を切出す切出処
理と、切出された部分すなわち切出画像が罫線としての
実線を含む部分であるかあるいは文字だけの部分である
かを判別する判別処理と、切出された部分が実線を含む
部分であると判別されたときにこの部分からＸ座標軸へ
の射影黒画素頻度のしストグラムを作成するヒストダラ
ム作成処理と、作成されたヒストグラムから実線部分を
抽出する罫線抽出処理と、文字と実線部分との境界を抽
出し境界ランを求める境界抽出処理と、境界ランに基づ
いて文字を復元する復元処理とを行なうようになってい
る。

第２図は、２値化処理された文書画像すなわち原画像の
一例を示している。同図において文字ＣＨ１およびＣＨ
２は“１”の文字であり、文字ＣＨ３は“２″の文字で
ある０文字ＣＨＩおよびＣＨ２は実線ＲＬＮに重な７っ
て書込まれている。

第３図は、第２図に示す原画像に対して行なわれる切出
処理の原理図である。同図には黒画素の連続している部
分として、文字ＣＨＩ、ＣＨ２および実線ＲＬＮからな
る画像の切出処理が示されている。第３図に示す切出処
理の例では、原画像を横方向に左上端から右下端に向け
て順次に走査し、黒画素のラン検出を行なうようになっ
ている。

黒画素のランは、所定の副走査位置ＹＰにおけるＸ方向
への走査において白画素から黒画素に変化するＸ座標す
なわち開始Ｘ座＊ＸＳと黒画素から白画素に変化するＸ
座標ずなわち終了ＸＪｉＪｌｌ　Ｘ　Ｅとによって特定
される。ずなわち開始Ｘ座標ＸＳと終了Ｘ座ｆｌＸＥと
の間はすべて黒画素であって１つのランを形成している
。

第３図においてこのような黒画素のランは副走査値１Ｗ
ＹＰが“１５”と“５０”との間で検出される。

副走査位置ＹＰが“１５”乃至“３０”。

“３５”乃至“５０”のところでは、各副走査位置ＹＰ
において２つのランが存在する０例えば副走査値ｆｆＹ
Ｐが“１５”のところを走査すると、開始Ｘ座標ＸＳが
６０″で終了Ｘ座標ＸＥが“６５”である第１のランと
、開始Ｘ座標ＸＳが“９０”で終了Ｘ座ｗＡＸＥが“９
５”である第２のランとが検出される６一方、副走査値ｆＹＰが’３０”乃至“３５”のところ
では、各副走査位置ＹＰについて一つのランが存在する
０例えば副走査値ＷＩＹＰが“３０”のところを走査す
ると、開始Ｘ座標ＸＳが“３０”で終了Ｘ座ａｌｌＸＥ
が′１２０”であるランが検出される。

このようにして副走査位置ＹＰを順次に変化させてＸ方
向に走査して検出された黒画素の各ランが互いに連結し
ているときには、それらは１つの画像を構成するものと
されて１つのラベル番号しＡＢが付されるようになって
いる。第３図の文字ＣＨＩ、ＣＨ２および実線ＲＬＮは
黒画素の各うンが連結しているので１つの画像を構成し
ており、これにラベル番号ＬＡＢとして例えば“１″を
付す。

第４図は、このようにして走査され検出された１つの画
像（ラベル番号ＬＡＢ　：　“１″）における黒画素の
ラン検出結果を示したものである。同図において、ラン
番号ｉでは走査順に生起するランを識別する番号であり
、副走査値Ｗ１ｙｐｍ　。

Ｘ５（ｉ）、ＸＥ（ｉ）、ラベル番号ＬＡＢ（ｉ）はラ
ン情報を構成しており、それぞれラン番号１のランの副
走査位置、開始ＸＪｉｌ、終了ＸＪＩＩＩ、ラベル番号
を表わしている。

切出処理は、第４図に示すようなラン検出結果から黒画
素のランが連結している１つの画像を切出すものである
。この切出処理は、同じラベル番号ＬＡＢをもつラン検
出結果から最小の開始Ｘ座標ＸＳ、（第４図の例では“
３０”）、最大の１ｎ終了Ｘ座ＦＩＡＸＥ　　　（第４図の例テハ“１２０°
゛）、１ａＸ最小の副走査値ＩＹＰ、（第４図の例では１１ｎ “１５”）、最大の副走査位置ＹＰ　　　（第４図ａＸの例では“５０”）を検索することによって行なわれる
。

これによって第２図に示すような文字ＣＨＩ。

ＣＨ２および実線ＲＬＮからなる画像は、第５図（ａ）
に示ずような切出画像ＦＲＩに切出される。

第２図に示す文字ＣＨ３の切出処理も同様にして行なわ
れる０文字ＣＨ３の黒画素は、文字ＣＨ１、ＣＨ２およ
び実１１ＲＬＮの黒画素と連結していないので、文字Ｃ
Ｈ３のラン検出を行なうと、文字ＣＨ１，ＣＨ２および
実線ＲＬＮのラベル番号ＬＡＢと異なるラベル番号ＬＡ
Ｂが付されることになる。これによって文字ＣＨ３の切
出しは文字ＣＨＩ、ＣＨ２および実線ＲＬＮの切出しと
は別に行なわれ、その結果第５図（ｂ）に示ずような切
出画像ＦＲ２が得られる。

第５図（ａ）　、　（ｂ）に示すような切出画像ＦＲＩ
。

ＦＲ２に基づいて画像プロセッサ３は、切出画像が実線
を含む部分か文字だけの部分であるかを判別する。実線
と重ならないを通の文字の切出画像は、その幅および高
さがほぼ所定の幅Ｗに収まるが、実線と重なった場合の
切出画像では、幅が所定の幅Ｗを越えてしまう、これを
利用して、切出画像の幅が所定の幅Ｗを越えているとき
には実線を含むものと判別するようになっている。

第５図（ａ）の切出画像ＦＲＩでは、幅ＤＸＩが所定の
幅Ｗを越えるために実線を含むと判断される。一方、第
５図（ｂ）の切出画像ＦＲ２では、幅ＤＸＩが所定の幅
Ｗ以内であるので、実線を含まない通常の文字部分であ
ると判断される。

しストダラム作成処理では、実線を含むと判断された同
一ラベル番号の切出画像に対しＸ座標軸に黒画素を射影
し累積させて黒画素の頻度αのヒストグラムを作成する
ものである。なお本実施例では入力画像の制限として実
線はＸ座標軸にほぼ平行な場合のみとする。第６図（ａ
）　、　（ｂ）はこのようなヒストグラムの作成の仕方
を示している。

第５図（ａ）および第６図（ａ）の切出画像ＦＲＩは幅
ＤＸＩが所定の大きさを越えているので、Ｘ座標軸方向
の実線があると判断されＸ座標軸への射影が行なわれる
。その結果第６図（ワ）のようなしストダラムが作成さ
れる。第６図（ｂ）から明らかなように、全てのＸ座標
位置ｌにおいて頻度の（ｉ＞は“０″になることはない
、また実線ＲＬＮだけが存在するＸ座標位置ｉでは黒画
素の頻度α（ｉ）は小さいが、文字ＣＨＩ、ＣＨ２が存
在するＸｇ標位Ｗｌでは黒画素の頻度α（ｉ）は大きく
なる。

実線ＲＬＮの太さが一様のものであれば、ヒストグラム
の頻度α（ｉ）の最小値ＨＳ　（ｉ）が線の太さＬＬと
なる。実際には、実線ＲＬＮの太さは一様ではないため
、ヒストグラムの頻度α（ｉ）の値を全てのＸＳ＊位置
について調べ、ＬＬ≦ａ　（ｉ）≦Ｌ　Ｌ　＋　２　　　　　　−−−
−−・（１）ＨＳ　（ｉ）≦ＬＬ≦Ｈ８（ｉ）＋３　　
　　・・・・・・（２）の条件を満たすならば線の太さ
ＬＬを更新するようになっている。なお、（１）式およ
び（２）式においてＸＪＩ１１位１ｉは、０≦ｉ≦ＤＸ　　　　　　　　　　　　・・・・・・（
３）の全ての範囲をとるものとする。

また、しストダラムを作成する際に、各Ｘ座標位置ｌに
おけるＹ座標の最大値ＹＤ（ｉ）、最小値Ｙ　Ｓ　（ｉ
）を求めておく、実線抽出処理は、このＹ座標の最大値
ＹＤ（ｉ）、最小値Ｙ　Ｓ　（ｉ）としストダラムの最
小値ＨＳ　（ｉ）に基づいて、ＨＳ　（ｉ）≦ＬＬ　　
　　　　　　　　　・・・・・・（４）ＬＬ≧ＹＤ（ｉ
）−ＹＳ（ｉ）　　　　　　・・・・・・（５）の条件
を満たすＸ座標位置ｉにおける黒画素を実線の一部とみ
なすことによって行なわれる。すなわち（４）式および
（５）式を満たすＸ座標位置ｉとその位Ｗｉにおける黒
画素とを検出することによって実線部分を文字から分離
することができる。

第６図（ｂ）のヒストグラムでは、Ｘ座標位置“０″か
らｘｌの間、ｘ２からｘ３の間、ｘ４からＤＸｌの間の
頻度αは、（４）式および（５）式の条件を；＾なして
いる。これに対応するランは第６図（ａ）においてラン
番号Ｎ３１乃至Ｎ３６のものであり、第４図のように作
成されたラン検出結果からラン番号Ｎ３１乃至Ｎ３６の
ランの開始Ｘ座標ＸＳと終了ＸｑｉｉＸＥとを抽出して
、これらのランを第６図（ａ）の切出画像ＦＲＩから取
除く、この実線抽出によって第６図（ａ）に示す切出画
像ＦＲＩは第７図に示すようになる。

さらに本実施例では、文字と実線部分との境界を抽出し
境界ランを求める境界抽出処理が行なわれる。

境界抽出処理では、上述のヒストグラムを用いて、−文
字のＸ座標位置の最小値Ｃ８と最大値ＣＤを先づ求める
ようになっている。Ｘ座標位Ｗｉにおける頻度α（ｉ）
が、 α（ｉ）＜ＬＬかつα（ｉ＋１）≧ＬＬ・・・・・・（
６）の条件を満たすときに、このＸ座標位置ｉが一文字
の最小値Ｃ８となり、またＸ座標位置ｉにおける頻度α
（ｉ）が、 α（ｉ）≧ＬＬかつα（ＣＤ＋１　）＜ＬＬ・・・・・
・（１）の条件を満たずときに、このＸ座標位置ｉが一文字の最
大値ＣＤとなる。

第６図（ｂ）に示すヒストグラムでは、文字ＣＨ１の最
小値ｃｓ、１大値ＣＤはそれぞれ、ｘｌ。

ｘ２であり、文字ＣＨ２の最小値Ｃ３，Ｒ大値ＣＤはそ
れぞれ、ｘ３．ｘ４である。

このようにして求められた一文字の最小値Ｃ８゜最大値
ＣＤにおけるＹｕ標の最大値、最小値を求め、Ｙ座標の
最大値（ＹＤ　（Ｃ３）、ＹＤ　（ＣＤ））と、最小値
（ＹＳ　（Ｃ３）、ＹＳ　（ＣＤ））との４点から、文
字と実線部分とが重なっていた矩形領域を作成すること
ができる０例えば文字ＣＨ１では、第７図に示すように
、Ｙ座標の最大値（ＹＤ　（Ｃ３）、ＹＤ　（ＣＤ））
は、（ＹＤ　（ｘｌ＞、ＹＤ（Ｘ２））であり、またＹ
座標の最小値（ＹＳ　（Ｃ３）　、　ＹＳ　（ＣＤ）　
）は（ＹＳ　（ｘｌ）、ＹＳ（ｘ２））である、これら
の４つの点から文字と実線部分とが重なっていた領域を
、第７図で斜線で示すような矩形領域ＲＣＴとして作成
する。同様にして文字ＣＨ２についても４つの点を求め
て矩形領域を作成する（図示せず）。

このようにして作成された矩形領域ＲＣ，Ｔから、上下
の境界ランを求め、次いで復元処理では、この上下の境
界ランを一文字ごとに連結して文字を復元するようにな
っている。

第７図の例では、文字ＣＨＩの上の境界ランはＮ２９と
してまた、下の境界ランはＮ３７として求められる。こ
れにより、上の境界ランＮ２９と下の境界ランＮ３７と
を連結することで文字が復元される。すなわち文字ＣＨ
Ｉの例では矩形領域ＲＣＴの全ての画素を黒画素とする
ことによって文字が復元される。

以上のような実線抽出の処理工程の流れを第８図に示す
フローチャートを用いて説明する。

第８図においてステップＳ１乃至ステップＳ９の処理は
画像の切出処理である。先づステップＳ１では、メモリ
４に格納されている原画像を横方向に走査してランを検
出し、ランに関するラン検出結果を作成する。

ステップＳ２では、第４図に示すようなラン検出結果の
ラン情報をラベル番号順にソートする。

このときにソートされたラン検出結果では、最初に“１
″のラベル番号ＬＡＢのラン情報があり、次いで“２″
のラベル番号ＬＡＢのラン情報があるというように、上
から順次に並び換えされている。

次いでステップＳ３では、ラベル番号ＬＡＢの初期値と
して“１”をレジスタ（図示せず）に記憶する。なお、
このレジスタに記憶されているラベル番号と同じラベル
番号をもつ画像がこれから行なおうとする切出、判別、
実線抽出、境界ラン抽出および復元処理の対象となる。

次いでステップＳ４では、ステップＳ２でソートされた
ラン検出結果を順次に読出す、ステップＳ５では、ラン
情報が終了したか否かを判断し、ラン情報が終了したと
判断されたときには、ラン検出結果に格納されている全
てのラン情報が読出され、全てのラベル番号に対応する
画像の実線抽出がなされ全ての文字が復元されたことを
意味するので、処理を終了する。

ステップＳ６では、ステップＳ４において読出されたラ
ン情報のラベル番号ＬＡＢがレジスタの内容と同じであ
るか否かを判断する。レジスタの内容と同じであるとき
には、このラン情報はこれから切出、判別、実線抽出、
境界ラン抽出および復元処理がなされるべき画像の一つ
の情報となるので、ステップＳ７に進んで、これをメモ
リ４の所定領域（図示せず）へ格納する。いまの場合、
レジスタの内容はステップＳ３で１″に設定されている
ので、ラン格納結果から読出されたラン情報のうちでラ
ベル番号ＬＡＢが“１”のラン情報だけが□メモリ４の
所定領域に格納されることになる。

ステップＳ７においてレジスタの内容と同一のラベル番
号のラン情報の一つがメモリに格納されると再びステッ
プＳ４に戻り、ラン検出結果から次のラン情報を読出し
て同様の処理を繰返す。

このようにしてメモリ４の所定領域には、レジスタの内
容と同一のラベル番号ＬＡＢをもつ全てのラン情報が格
納される。いまの場合、ラベル番号ＬＡＢが“１”の全
てのラン情報が格納される６一方、ステップＳ６におい
て読出されたラン情報のラベル番号ＬＡＢがレジスタの
内容と同じでないときには、ステップＳ８に進む。

ステップＳ８では次のラベル番号をレジスタに予め格納
するため、現在のレジスタの内容を“１”だけ歩進させ
る。いまの場合レジスタの内容は２″となる。

次いでステップＳ９に進んで、ステップ＄４乃至ステッ
プＳ７の処理においてメモリ４の所定領域に格納された
ラン情報に基づいてこのラン情報に対応する画像の切出
（第５図参照）を行なう。

いまの場合、ラベル番号ＬＡＢが１１１１１の画像の切
出が行なわれ、切出された画像はメモリ４に格納される
。

ステップＳ９で所定のラベル番号に対応する画像の切出
しが行なわれると、この切出画像の幅および高さが所定
の幅Ｗを越えているか否かを判別するためにステップＳ
１０の判別処理に進む。

ステップＳ１０では切出画像の幅ＤＸが所定の幅Ｗより
も大きいか否かを判別する。切出画像の幅ＤＸが所定の
幅Ｗよりも小さいときには、この切出画像は第５図（ｂ
）に示すように幅が所定の大きさのものであるので、実
線を含んでいないと判別されて次のラベル番号（いまの
場合、ラベル番号ＬＡＢ＝“２”）に対応する画像の切
出しおよび実線抽出を行なうために再びステップＳ４に
戻る。

一方、ステップＳ１０において切出画像の幅ＤＸが所定
の幅Ｗよりも大きいと判別されたときには、この切出画
像は実線を含むと判別されてステップ３１１乃至ステッ
プＳ１５の処理に進む、ステップＳｌｌでは、第６図（
ａ）　、　（ｂ）に示すように黒画素をＸ座標軸に射影
してＸ座標軸に沿ったしストダラムを作成し、次いでス
テップＳ１２においてこのしストダラムから実線を抽出
する。この実線抽出に際してはステップＳ１で作成され
たランに関するラン検出結果が用いられる。

このようにして、ステップＳ１２で抽出された実線を切
出画像から取除き文字と実線部分とを分離する。これに
より、ステップＳ１２で抽出された実線は、第７図に示
すように切出画像から取除かれる０次いでステップ９１
３では、第７図のように矩形領域を作成し、ステップＳ
１４でこの矩形領域から上下の境界ランを抽出し、ステ
ップＳ１５において境界ランより文字を復元する。復元
された文字をファイルに書込んで再びステップＳ４に戻
る。このようにして全ての文字について上述のような操
作を繰返し、処理を終了する。

以上のように本実施例によれば、文字が罫線と重なって
いる文書画像において、罫線がほぼ水平なものである場
合に罫線としての実線部分と文字だけの部分とを正確か
つ迅速に抽出分離することができて、さらに文字を精度
良く復元することができる。

〔効果〕

以上に説明したように、本発明によれば、黒画の連続し
ている切出された部分が罫線を含んでいると判別された
ときにｘＷ、ａｌ軸に黒画素を射影して黒画素の頻度か
ら実線を抽出し、しかる後境界ランにより文字を復元す
るようにしているので、文字を高速にかつ精度良く復元
することができる。

【図面の簡単な説明】

第１図は本発明の文字復元方法を実現するためのシステ
ム構成図、第２図は罫線に文字が重なっている状態の文
書画像を示す図、第３図は第２図に示す文書画像からラ
ン検出結果を得る手順を説明するための図、第４図はラ
ン検出結果を示す図、第５図（ａ）　、　（ｂ）はそれ
ぞれ切出画像を示す図、第６図（ａ）　、　（ｂ）はし
ストダラム作成および実線抽出の手順を説明するための
図、第７図は第６図（ａ）の切出画像から実線が取除か
れた状態を示す図、第８図は本発明の文字復元方法の手
順を示すフローチャートである。１・・・スキャナ部、２・・・Ａ／Ｄ変換部、３・・・
画像プロセッサ、４・・・メモリ、ＣＨＩ、ＣＨ２，Ｃ
Ｈ３・・・文字、ＲＬＮ・・・実線、ＹＰ（ｉ）・・・副走査位置、Ｘ　
Ｓ　（ｉ）・・・開始Ｘ座標、ＸＥ（＋）・・・終了Ｘ
座標、ＬＡＢ（ｉ）・・・ラベル番号、ＦＲＩ、ＰＨ１・・・切出画像、ＬＬ・・・閾値、α・
・・頻度、ＲＣＴ・・・矩形領域第　　４　　図第８図

Claims

【特許請求の範囲】

２値化処理された文書画像から黒画素が連続している部
分を切出す工程と、切出された部分が実線を含んでいる
かを判別する工程と、実線を含む部分であると判別され
たときにＸ座標軸に黒画素を射影して黒画素の頻度から
実線を抽出する工程と、実線を除去した画像から一文字
ごとに境界ランを検出する工程と、境界ランに基づいて
文字を復元する工程とを備えたことを特徴とする文字復
元方法。