JPH0160870B2

JPH0160870B2 -

Info

Publication number: JPH0160870B2
Application number: JP57113000A
Authority: JP
Inventors: Akira Inoe; Shigemi Osada
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-06-30
Filing date: 1982-06-30
Publication date: 1989-12-26
Also published as: JPS593593A

Description

【発明の詳細な説明】 (1) 発明の技術分野本発明は文字、線分、記号等が混在した図面か
ら文字群を分離抽出してデータ処理装置に自動的
に入力可能にした文字データ分離方式に係り、特
に図面上の記号の認識結果に基ずいて文字の書か
れている位置を推定し、この推定により得られた
知識に基づいて文字群の分離抽出を行うことによ
り画像データからの文字データの分離抽出の精度
を高めた文字分離方式に関する。

(2) 発明の背景例えば第１図に示す如く、ドロツプアウトカラ
ーの格子線を有する用紙上に手書きされた線図形
と文字群が混在する図面を計算機等のデータ処理
装置に入力するとき、デジタイザ等を使用してオ
ペレータが線形部分のみを抽出しながら入力する
必要がある。この場合、オペレータは各線の端部
と端部を指示し直線という情報を入力する必要が
ある。それ故簡単な回路図ならあまり問題はない
が、IC回路のような非常に複雑な回路図ではそ
のデータの入力が非常に煩雑となりオペレータは
かなり忍耐を必要とする。しかもデータの入力に
長時間を必要とし、オペレータの入力に誤りの存
在することもある。そして各シンボルに文字が付
与されているような場合には、この文字を別にキ
イボードにより入力したり、あるいはカードより
入力しなければならなかつた。

それ故、文字と図形が混在する、例えば第１図
の如き手書き図面から、ブロツクパターンのシン
ボルおよび各シンボル間の結線情報等を自動的に
抽出し、データ処理装置に自動入力ができ、しか
も各シンボル内またはその近辺に記入された手書
き文字を自動認識し、必要に応じて清書図面が得
られるようなものが要求されていた。

(3) 従来技術の問題点本出願人は本願に先立ち、文字の一部が欠けた
状態で出力されたり線パターンが出力されたりす
るという問題点を改善した文字情報抽出方式を提
案した。この先行技術によれば、図面上の各格子
点の近傍における図面の図形構造を格子点ラベル
コードで表わし、文字ストロークの欠け・切れな
どを救う文字ストロークの連続性維持の処理が施
され、またノイズとして混在する線パターンは除
去処理されて、画像データから文字データを分
離・抽出することができた。

しかしながら、上述の先行技術においては、文
字が存在する領域を推定する手段はないので、画
像データの全部について文字データの抽出処理を
行わなければならず、従つて、文字の抽出精度が
悪く、かつ文字抽出に要する時間も長いという問
題がある。

(4) 発明の目的本発明の目的は上述の先行技術における問題に
かんがみ、記号認識の結果から文字の書かれるべ
き位置を推定し、この推定位置を用いて文字デー
タを分離するという構想に基づき、画像データか
らの文字データ分離方式において、文字の分離抽
出精度を高め、かつ文字の分離抽出に要する時間
を短縮することにある。

(5) 発明の構成上記の目的を達成するための本発明の要旨は、
予め定められた格子軸上に沿つて描かれた、記
号、文字、および線分が混在する図面を走査して
得られた画像データから文字データを抽出する文
字データ分離方式において、該記号の種類に応じ
て文字が書かれるべき領域と記号との相対位置を
予め記憶する文字領域記憶手段、該格子軸上の各
格子点の近傍における該図面の図形構造を表現し
た格子点コード情報を得る格子点コード情報抽出
手段、および該格子点コード情報に基づいて該記
号を認識する記号認識手段を具備し、該記号認識
手段により認識された記号に応じて該文字領域記
憶手段より推定文字領域を得、該推定文字領域と
該格子点コード情報に基づいて文字データを抽出
することを特徴とする文字データ分離方式にあ
る。

(6) 発明の実施例以下本発明の実施例を第２図から第４図によつ
て説明する。

第２図は記号と文字領域との相対位置を示す図
である。同図に斜線で示したようにANDゲート
回路およびフリツプフロツプ等の記号の周辺また
は内部に文字が書かれることが多い。本発明で
は、記号の種類に応じて、その記号の位置に対す
る文字領域の相対位置を予め辞書の形式で記憶し
ておく。

第３図は記号、線分が混在した図面上での文字
領域を示す図である。同図において、斜線領域は
文字領域を示している。後述の如く、画像メモリ
に格納されている画像データから格子ラベルコー
ドを抽出することにより記号１，２または３をま
ず認識し、この認識した記号に対応する文字領域
を前述の辞書形式の記憶内容から読み出す。こう
して得られた推定文字領域において、ストローク
の連続性維持、線パターンの除去等の処理を行う
ことにより文字が画像データから抽出される。

第４図は本発明の一実施例による文字データ分
離方式を実施する装置を示すブロツク回路図であ
る。同図において、第１の画像メモリ１２には、
第１図に示したような、予め定められた格子上に
沿つて描かれた記号、文字および線分が混在する
図面を、フアクシミリ等で走査して得られた画像
データが保持されている。制御部１０に指令が入
ると、アドレス制御部１１が図面の格子点に対応
するアドレスを順次発生し、それにより格子点ラ
ベルコード抽出回路１４が駆動される。格子点ラ
ベルコード抽出回路１４は各格子点におけるアド
レス、複雑度あるいは文字らしさを示す文字フラ
グ、および上下左右のストロークの有無を示す４
ビツトの方向コードを画像データから抽出し、こ
れらの情報を格子点ラベルコードテーブル１６に
保持させる。方向コードは、１つの格子点につい
て、例えば上下左右すべてにストロークがある場
合は1111で表わされ、ストロークがどの方向にも
ない場合は0000で表わされ、上方向のみにストロ
ークがある場合は1000で表わされるという具合に
定められる。記号認識回路１８は方向コードに対
応する記号を辞書の形式で保持しており、アドレ
ス制御部１１の制御の下に格子点ラベルコードテ
ーブル１６から各格子点毎の方向コードを受け取
つて、保持している記号とマツチングを行ない、
画像データ中の記号を識別する。識別された記号
は記号テーブルに保持される。本発明により文字
領域推定回路２２が設けられている。文字領域推
定回路２２は図形に含まれ得る記号の各々と、そ
の記号の内部または周辺に書かれるべき文字の領
域との相対位置を予め記憶しており、アドレス制
御部２２の制御の下に記号テーブルから入力され
る記号データとマツチングを行なつて文字領域の
相対アドレスを対応する記号のアドレスに加算し
てその文字領域の画像メモリ上でのアドレスを
得、これを文字領域テーブル２４に格納させる。
かくして、各格子点毎に記号の内部または周辺の
文字が存在すると推定される領域が画像データか
ら抽出される。

以下、推定された文字領域についてのみ、前述
の先行技術に記載された、文字ストロークの連続
性維持の処理および線パターンの除去処理を行な
つて第２の画像メモリ３０に文字データのみが抽
出されて格納される。従来は画像データの全体に
ついて連続性維持の処理および線パターンの除去
処理を行なつていたので、文字の抽出精度は悪
く、文字抽出に要する時間も長かつた。

以下、文字ストロークの連続性の維持および線
パターンの除去処理を簡単に説明する。

文字ストロークの連続性の維持の処理は、文字
ストロークの欠け、切れなどを救い、文字ストロ
ークの連続性を維持するものである。この現象は
文字ストロークが存在する格子点に文字フラグが
立たない場合に生じる。本発明においては、アド
レス制御部１１の制御の下に文字ストローク連続
性維持回路２６は文字領域テーブル２４から推定
文字領域の画像メモリ上でのアドレスを受け、格
子点ラベルコードテーブル１６から格子点のアド
レスを受け、両アドレスが一致した領域について
のみ、格子点を中心としたＮ×Ｎメツシユの矩形
領域内の画像を切り出し、矩形領域内の画像が矩
形領域の縁に接するか否かを調べ、接する場合は
接する方向の格子点ラベルコードを調べ、文字フ
ラグおよび方向コードが共に“０”ならば、格子
点ラベルコードに保持されているこの格子点の文
字フラグを“０”から“１”に更新する。この操
作を順次、文字フラグの個数に変化がなくなるま
で繰り返すことによつて、文字ストロークの欠
け、切れなどを救うことが出来る。

線パターンの除去処理は、Ｎ×Ｎメツシユの矩
形領域内に線パターンがノイズとして混入した場
合、これを除去する処理である。本発明において
は、格子点ラベルコードテーブル１６に保持され
ている文字フラグが“１”の各格子点についての
み、その格子点に隣接する８つの格子点ラベルコ
ードを利用して以下のステツプにより線パターン
の除去を行う。

ステツプ１。アドレス制御部１１の制御の下に
格子点ラベルコードテーブル１６より文字フラグ
が１の格子点のアドレスを線パターン除去回路２
８に取り込みその格子点の近傍の矩形領域内の画
像データを画像メモリ１２より読み出す。

ステツプ２。上記格子点に隣接する８つの格子
点の方向コードを調べ、次の４つの場合のいずれ
かに該当するか否かを調べる。

上方３つの格子点の方向コードの水平方向の
ビツトが“１”であるか。

下方３つの格子点の方向コードの水平方向の
ビツトが“１”であるか。

右の３つの格子点の方向コードの垂直方向の
ビツトが１であるか。

左の３つの格子点の方向コードの垂直方向の
ビツトが１であるか。

ステツプ３。上記ステツプ２の〜のいずれ
かに該当する場合は次のステツプ４の処理を行な
う。上記ステツプ２のいずれの場合にも該当しな
い場合この矩形領域内には文字以外の線パターン
はないものとみなして、この矩形領域内の画像を
分離抽出する。

ステツプ４．矩形領域の線からＮ×１（１×Ｎ）
のウインドウをＭメツシユだけ走らせ、次の処理
を行なう。

Ｎ×１（１×Ｎ）のウインドウのOR出力を
Ｍ個得る。

で得られたＭ個の出力が縁から連続し、か
つ、その長さＬが（Ｍ−１）以内であれば、Ｎ
×Ｌ（Ｌ×Ｎ）の領域の画像データを除去する。

以上の処理の結果を逐次、出力画像メモリ３０
に入力する。かくして、入力画像メモリ１２に格
納されていた画像データから文字データだけを抽
出して出力画像メモリ１２に格納することができ
る。

(7) 発明の効果以上説明したように、本発明によれば、記号の
認識に基づいて文字領域を予め推定できるので、
画像データからの文字データ分離方式において、
文字の抽出精度が向上し、かつ文字抽出に要する
時間が短縮される。

【図面の簡単な説明】

第１図は格子線を有する用紙上に手書きされた
図面を示す図、第２図は記号と文字領域との相対
位置を示す図、第３図は記号と線分が混在した図
面上での文字領域を示す図、第４図は本発明の一
実施例による文字データ分離方式を実施する装置
を示すブロツク図である。１０……制御部、１１……アドレス制御部、１
２……入力画像メモリ、１４……格子点ラベルコ
ード抽出回路、１６……格子点ラベルコードテー
ブル、１８……記号認識回路、２０……記号テー
ブル、２２……文字領域指定回路、２４……文字
領域テーブル、２６……文字ストローク連続性維
持回路、２８……線パターンの除去回路、３０…
…出力画像メモリ。

Claims

【特許請求の範囲】

１予め定められた格子軸上に沿つて描かれた、
記号、文字および線分が混在する図面を走査して
得られた画像データから文字データを抽出する文
字データ分離方式において、該記号の種類に応じ
て文字が書かれるべき領域と記号との相対位置を
予め記憶する文字領域記憶手段、該格子軸上の各
格子点の近傍における該図面の図形構造を表現し
た格子点コード情報を得る格子点コード情報抽出
手段、および該格子点コード情報に基づいて該記
号を認識する記号認識手段を具備し、該記号認識
手段により認識された記号に応じて該文字領域記
憶手段より推定文字領域を得、該推定文字領域と
該格子点コード情報に基づいて文字データを抽出
することを特徴とする文字データ分離方式。