JPH0160870B2 - - Google Patents

Info

Publication number
JPH0160870B2
JPH0160870B2 JP57113000A JP11300082A JPH0160870B2 JP H0160870 B2 JPH0160870 B2 JP H0160870B2 JP 57113000 A JP57113000 A JP 57113000A JP 11300082 A JP11300082 A JP 11300082A JP H0160870 B2 JPH0160870 B2 JP H0160870B2
Authority
JP
Japan
Prior art keywords
character
symbol
area
characters
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57113000A
Other languages
English (en)
Other versions
JPS593593A (ja
Inventor
Akira Inoe
Shigemi Osada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57113000A priority Critical patent/JPS593593A/ja
Publication of JPS593593A publication Critical patent/JPS593593A/ja
Publication of JPH0160870B2 publication Critical patent/JPH0160870B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は文字、線分、記号等が混在した図面か
ら文字群を分離抽出してデータ処理装置に自動的
に入力可能にした文字データ分離方式に係り、特
に図面上の記号の認識結果に基ずいて文字の書か
れている位置を推定し、この推定により得られた
知識に基づいて文字群の分離抽出を行うことによ
り画像データからの文字データの分離抽出の精度
を高めた文字分離方式に関する。
(2) 発明の背景 例えば第1図に示す如く、ドロツプアウトカラ
ーの格子線を有する用紙上に手書きされた線図形
と文字群が混在する図面を計算機等のデータ処理
装置に入力するとき、デジタイザ等を使用してオ
ペレータが線形部分のみを抽出しながら入力する
必要がある。この場合、オペレータは各線の端部
と端部を指示し直線という情報を入力する必要が
ある。それ故簡単な回路図ならあまり問題はない
が、IC回路のような非常に複雑な回路図ではそ
のデータの入力が非常に煩雑となりオペレータは
かなり忍耐を必要とする。しかもデータの入力に
長時間を必要とし、オペレータの入力に誤りの存
在することもある。そして各シンボルに文字が付
与されているような場合には、この文字を別にキ
イボードにより入力したり、あるいはカードより
入力しなければならなかつた。
それ故、文字と図形が混在する、例えば第1図
の如き手書き図面から、ブロツクパターンのシン
ボルおよび各シンボル間の結線情報等を自動的に
抽出し、データ処理装置に自動入力ができ、しか
も各シンボル内またはその近辺に記入された手書
き文字を自動認識し、必要に応じて清書図面が得
られるようなものが要求されていた。
(3) 従来技術の問題点 本出願人は本願に先立ち、文字の一部が欠けた
状態で出力されたり線パターンが出力されたりす
るという問題点を改善した文字情報抽出方式を提
案した。この先行技術によれば、図面上の各格子
点の近傍における図面の図形構造を格子点ラベル
コードで表わし、文字ストロークの欠け・切れな
どを救う文字ストロークの連続性維持の処理が施
され、またノイズとして混在する線パターンは除
去処理されて、画像データから文字データを分
離・抽出することができた。
しかしながら、上述の先行技術においては、文
字が存在する領域を推定する手段はないので、画
像データの全部について文字データの抽出処理を
行わなければならず、従つて、文字の抽出精度が
悪く、かつ文字抽出に要する時間も長いという問
題がある。
(4) 発明の目的 本発明の目的は上述の先行技術における問題に
かんがみ、記号認識の結果から文字の書かれるべ
き位置を推定し、この推定位置を用いて文字デー
タを分離するという構想に基づき、画像データか
らの文字データ分離方式において、文字の分離抽
出精度を高め、かつ文字の分離抽出に要する時間
を短縮することにある。
(5) 発明の構成 上記の目的を達成するための本発明の要旨は、
予め定められた格子軸上に沿つて描かれた、記
号、文字、および線分が混在する図面を走査して
得られた画像データから文字データを抽出する文
字データ分離方式において、該記号の種類に応じ
て文字が書かれるべき領域と記号との相対位置を
予め記憶する文字領域記憶手段、該格子軸上の各
格子点の近傍における該図面の図形構造を表現し
た格子点コード情報を得る格子点コード情報抽出
手段、および該格子点コード情報に基づいて該記
号を認識する記号認識手段を具備し、該記号認識
手段により認識された記号に応じて該文字領域記
憶手段より推定文字領域を得、該推定文字領域と
該格子点コード情報に基づいて文字データを抽出
することを特徴とする文字データ分離方式にあ
る。
(6) 発明の実施例 以下本発明の実施例を第2図から第4図によつ
て説明する。
第2図は記号と文字領域との相対位置を示す図
である。同図に斜線で示したようにANDゲート
回路およびフリツプフロツプ等の記号の周辺また
は内部に文字が書かれることが多い。本発明で
は、記号の種類に応じて、その記号の位置に対す
る文字領域の相対位置を予め辞書の形式で記憶し
ておく。
第3図は記号、線分が混在した図面上での文字
領域を示す図である。同図において、斜線領域は
文字領域を示している。後述の如く、画像メモリ
に格納されている画像データから格子ラベルコー
ドを抽出することにより記号1,2または3をま
ず認識し、この認識した記号に対応する文字領域
を前述の辞書形式の記憶内容から読み出す。こう
して得られた推定文字領域において、ストローク
の連続性維持、線パターンの除去等の処理を行う
ことにより文字が画像データから抽出される。
第4図は本発明の一実施例による文字データ分
離方式を実施する装置を示すブロツク回路図であ
る。同図において、第1の画像メモリ12には、
第1図に示したような、予め定められた格子上に
沿つて描かれた記号、文字および線分が混在する
図面を、フアクシミリ等で走査して得られた画像
データが保持されている。制御部10に指令が入
ると、アドレス制御部11が図面の格子点に対応
するアドレスを順次発生し、それにより格子点ラ
ベルコード抽出回路14が駆動される。格子点ラ
ベルコード抽出回路14は各格子点におけるアド
レス、複雑度あるいは文字らしさを示す文字フラ
グ、および上下左右のストロークの有無を示す4
ビツトの方向コードを画像データから抽出し、こ
れらの情報を格子点ラベルコードテーブル16に
保持させる。方向コードは、1つの格子点につい
て、例えば上下左右すべてにストロークがある場
合は1111で表わされ、ストロークがどの方向にも
ない場合は0000で表わされ、上方向のみにストロ
ークがある場合は1000で表わされるという具合に
定められる。記号認識回路18は方向コードに対
応する記号を辞書の形式で保持しており、アドレ
ス制御部11の制御の下に格子点ラベルコードテ
ーブル16から各格子点毎の方向コードを受け取
つて、保持している記号とマツチングを行ない、
画像データ中の記号を識別する。識別された記号
は記号テーブルに保持される。本発明により文字
領域推定回路22が設けられている。文字領域推
定回路22は図形に含まれ得る記号の各々と、そ
の記号の内部または周辺に書かれるべき文字の領
域との相対位置を予め記憶しており、アドレス制
御部22の制御の下に記号テーブルから入力され
る記号データとマツチングを行なつて文字領域の
相対アドレスを対応する記号のアドレスに加算し
てその文字領域の画像メモリ上でのアドレスを
得、これを文字領域テーブル24に格納させる。
かくして、各格子点毎に記号の内部または周辺の
文字が存在すると推定される領域が画像データか
ら抽出される。
以下、推定された文字領域についてのみ、前述
の先行技術に記載された、文字ストロークの連続
性維持の処理および線パターンの除去処理を行な
つて第2の画像メモリ30に文字データのみが抽
出されて格納される。従来は画像データの全体に
ついて連続性維持の処理および線パターンの除去
処理を行なつていたので、文字の抽出精度は悪
く、文字抽出に要する時間も長かつた。
以下、文字ストロークの連続性の維持および線
パターンの除去処理を簡単に説明する。
文字ストロークの連続性の維持の処理は、文字
ストロークの欠け、切れなどを救い、文字ストロ
ークの連続性を維持するものである。この現象は
文字ストロークが存在する格子点に文字フラグが
立たない場合に生じる。本発明においては、アド
レス制御部11の制御の下に文字ストローク連続
性維持回路26は文字領域テーブル24から推定
文字領域の画像メモリ上でのアドレスを受け、格
子点ラベルコードテーブル16から格子点のアド
レスを受け、両アドレスが一致した領域について
のみ、格子点を中心としたN×Nメツシユの矩形
領域内の画像を切り出し、矩形領域内の画像が矩
形領域の縁に接するか否かを調べ、接する場合は
接する方向の格子点ラベルコードを調べ、文字フ
ラグおよび方向コードが共に“0”ならば、格子
点ラベルコードに保持されているこの格子点の文
字フラグを“0”から“1”に更新する。この操
作を順次、文字フラグの個数に変化がなくなるま
で繰り返すことによつて、文字ストロークの欠
け、切れなどを救うことが出来る。
線パターンの除去処理は、N×Nメツシユの矩
形領域内に線パターンがノイズとして混入した場
合、これを除去する処理である。本発明において
は、格子点ラベルコードテーブル16に保持され
ている文字フラグが“1”の各格子点についての
み、その格子点に隣接する8つの格子点ラベルコ
ードを利用して以下のステツプにより線パターン
の除去を行う。
ステツプ1。アドレス制御部11の制御の下に
格子点ラベルコードテーブル16より文字フラグ
が1の格子点のアドレスを線パターン除去回路2
8に取り込みその格子点の近傍の矩形領域内の画
像データを画像メモリ12より読み出す。
ステツプ2。上記格子点に隣接する8つの格子
点の方向コードを調べ、次の4つの場合のいずれ
かに該当するか否かを調べる。
上方3つの格子点の方向コードの水平方向の
ビツトが“1”であるか。
下方3つの格子点の方向コードの水平方向の
ビツトが“1”であるか。
右の3つの格子点の方向コードの垂直方向の
ビツトが1であるか。
左の3つの格子点の方向コードの垂直方向の
ビツトが1であるか。
ステツプ3。上記ステツプ2の〜のいずれ
かに該当する場合は次のステツプ4の処理を行な
う。上記ステツプ2のいずれの場合にも該当しな
い場合この矩形領域内には文字以外の線パターン
はないものとみなして、この矩形領域内の画像を
分離抽出する。
ステツプ4.矩形領域の線からN×1(1×N)
のウインドウをMメツシユだけ走らせ、次の処理
を行なう。
N×1(1×N)のウインドウのOR出力を
M個得る。
で得られたM個の出力が縁から連続し、か
つ、その長さLが(M−1)以内であれば、N
×L(L×N)の領域の画像データを除去する。
以上の処理の結果を逐次、出力画像メモリ30
に入力する。かくして、入力画像メモリ12に格
納されていた画像データから文字データだけを抽
出して出力画像メモリ12に格納することができ
る。
(7) 発明の効果 以上説明したように、本発明によれば、記号の
認識に基づいて文字領域を予め推定できるので、
画像データからの文字データ分離方式において、
文字の抽出精度が向上し、かつ文字抽出に要する
時間が短縮される。
【図面の簡単な説明】
第1図は格子線を有する用紙上に手書きされた
図面を示す図、第2図は記号と文字領域との相対
位置を示す図、第3図は記号と線分が混在した図
面上での文字領域を示す図、第4図は本発明の一
実施例による文字データ分離方式を実施する装置
を示すブロツク図である。 10……制御部、11……アドレス制御部、1
2……入力画像メモリ、14……格子点ラベルコ
ード抽出回路、16……格子点ラベルコードテー
ブル、18……記号認識回路、20……記号テー
ブル、22……文字領域指定回路、24……文字
領域テーブル、26……文字ストローク連続性維
持回路、28……線パターンの除去回路、30…
…出力画像メモリ。

Claims (1)

    【特許請求の範囲】
  1. 1 予め定められた格子軸上に沿つて描かれた、
    記号、文字および線分が混在する図面を走査して
    得られた画像データから文字データを抽出する文
    字データ分離方式において、該記号の種類に応じ
    て文字が書かれるべき領域と記号との相対位置を
    予め記憶する文字領域記憶手段、該格子軸上の各
    格子点の近傍における該図面の図形構造を表現し
    た格子点コード情報を得る格子点コード情報抽出
    手段、および該格子点コード情報に基づいて該記
    号を認識する記号認識手段を具備し、該記号認識
    手段により認識された記号に応じて該文字領域記
    憶手段より推定文字領域を得、該推定文字領域と
    該格子点コード情報に基づいて文字データを抽出
    することを特徴とする文字データ分離方式。
JP57113000A 1982-06-30 1982-06-30 文字デ−タ分離方式 Granted JPS593593A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57113000A JPS593593A (ja) 1982-06-30 1982-06-30 文字デ−タ分離方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57113000A JPS593593A (ja) 1982-06-30 1982-06-30 文字デ−タ分離方式

Publications (2)

Publication Number Publication Date
JPS593593A JPS593593A (ja) 1984-01-10
JPH0160870B2 true JPH0160870B2 (ja) 1989-12-26

Family

ID=14600921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57113000A Granted JPS593593A (ja) 1982-06-30 1982-06-30 文字デ−タ分離方式

Country Status (1)

Country Link
JP (1) JPS593593A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0212390A (ja) * 1988-06-29 1990-01-17 Matsushita Electric Ind Co Ltd 文字列領域抽出装置

Also Published As

Publication number Publication date
JPS593593A (ja) 1984-01-10

Similar Documents

Publication Publication Date Title
US5201011A (en) Method and apparatus for image hand markup detection using morphological techniques
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
JPH04104324A (ja) プログラム作成装置
JP2002203207A (ja) 文字認識方法,プログラム及び記録媒体
JP2013171309A (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
Modi et al. Text line detection and segmentation in Handwritten Gurumukhi Scripts
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH0160870B2 (ja)
KR0186025B1 (ko) 후보 문자 분류 방법
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
CN109409370B (zh) 一种远程桌面字符识别方法和装置
KR102595789B1 (ko) 전자 회로도 영상의 자동인식 및 네트리스트 변환 방법
Bhujade et al. A technique for segmentation of handwritten Hindi text
JP2558668B2 (ja) 文字パタ−ン抽出方法
CN112801046B (zh) 图像处理方法、装置、电子设备和计算机存储介质
JP4763113B2 (ja) 高速ラベリング方式
JPH0697470B2 (ja) 文字列抽出装置
JP3013442B2 (ja) 図面自動入力装置
JPH0452783A (ja) 図面読取装置
JPH0589190A (ja) 図面情報のチエツク方式
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPS6321949B2 (ja)
JPS6327990A (ja) 文字認識方法
JPH07104940B2 (ja) 図形認識装置
JPH0377550B2 (ja)