JPH04280393A - 文字図形認識装置 - Google Patents

文字図形認識装置

Info

Publication number
JPH04280393A
JPH04280393A JP3043757A JP4375791A JPH04280393A JP H04280393 A JPH04280393 A JP H04280393A JP 3043757 A JP3043757 A JP 3043757A JP 4375791 A JP4375791 A JP 4375791A JP H04280393 A JPH04280393 A JP H04280393A
Authority
JP
Japan
Prior art keywords
character
characters
condition
recognition
conditions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3043757A
Other languages
English (en)
Inventor
Junichi Koizumi
潤一 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3043757A priority Critical patent/JPH04280393A/ja
Publication of JPH04280393A publication Critical patent/JPH04280393A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】CAD/CAM、コンピュータ・
マッピングの普及に伴い、既存の地図・機械図・回路図
等をディジタル・データ化する手段として、図面の自動
入力の必要性が高まってきている。図面の中に記入され
ている要素は大きく分けて、図形要素と文字要素に大別
される。図面の自動入力において、図形要素はベクトル
・データとして、また文字要素は認識した文字コードと
して出力することが要求される。
【0002】
【従来の技術】図10は従来の文字図形分離処理のフロ
ーチャートを示す。
【0003】図面をスキャナにより読み込み、ラスター
・データ化し、ラスター・データを細線化及び折線近似
を施すことにより図11(A)に示す如くベクトル・デ
ータ化して図の処理を実行する。ベクトル・データを検
索して、相互に連続なベクトル同士を図11(B)の破
線で囲む如くグループ化する(ステップ10)。
【0004】文字は比較的小さな領域を持ち、他の図形
・文字から孤立しているという特徴を使ってステップ1
1のループで各グループの大きさを調べ、その大きさに
基づき文字要素を抽出する。具体的には、予め定められ
た文字の大きさに適合するグループを文字要素として抽
出する(ステップ12,13)。また、文字要素以外を
図形要素とする(ステップ14)。
【0005】この後、文字要素は近傍の文字要素同士を
間隔・角度の条件により統合して、文字列を作成する(
ステップ15)。図11(C)では、中央の文字要素A
に対して、統合可能範囲内に文字列−1と文字列−2が
ある。Aに対して両文字列の最近傍文字との距離L1,
L2を計算して、距離が小さいほど高い評価値を与える
。また、文字列−1の傾きと、文字列−1にAを統合し
たときの傾きの差θ1,文字列−2の傾きと、文字列−
2にAを統合したときの傾きの差θ2を計算して、差の
小さいほど高い評価値を与える。この2つの評価により
文字列−1に統合するか、文字列−2に統合するか、ま
たはどちらとも統合しないかを決定する。次にステップ
16,17のループで、文字の位置・大きさ・傾きに従
って文字画像を切り出して文字を認識する。
【0006】一方、図形要素は直線・円・円弧といった
プリミティブ認識を行う。
【0007】
【発明が解決しようとする課題】上記したように、図形
から文字を分離するために使用する条件は文字の大きさ
である。この条件は従来、文字の最小サイズと文字の最
大サイズという形をとっていた。
【0008】しかしながら、実際には、一つの図面の中
に大小の文字が混在して記入されることが多い。このよ
うな場合、従来は最も大きな文字に合わせて最大サイズ
を決め、小さな文字に合わせて最小サイズを決める必要
があった。こうすると、大きな文字と小さな文字の間の
差が大きいほど、その間の大きさを持つ文字以外の図形
を文字と分類してしまうこととなるという問題があった
【0009】本発明は上記の点に鑑みなされたもので、
図形を文字と誤抽出するおそれが低減し、文字列の統合
誤りを低減でき、文字認識率が向上する文字図形認識装
置を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明の文字図形認識装
置は、文字及び図形が混在する画像を読み取り、該文字
及び図形夫々を認識する文字図形認識装置において、各
文字の大きさであるサイズ条件と各文字の字種であるカ
テゴリ条件とを対応させた各文字の文字条件を格納した
第1の条件メモリと、画像の各領域を該各文字のサイズ
条件と照合して文字の抽出を行なう文字分離部と、文字
分離部で抽出された文字についてサイズ条件に対応する
カテゴリ条件で指示される字種の辞書と照合して文字認
識を行なう文字認識部とを有する。
【0011】また、文字及び図形が混在する画像を読み
取り、文字要素を抽出して近傍の文字要素どうしを統合
して文字列を作成し、該文字列の個々の文字要素を認識
する文字図形認識装置において、文字列の文字数に応じ
文字列の分割条件及び認識の条件を予め定めたルールを
格納した第2の条件メモリと、文字列を該ルールに従っ
て再帰的に分割すると共に認識の条件に従って文字要素
から図形要素への変更を行なう文字列後処理部を有する
【0012】
【作用】請求項1の発明においては、文字条件で複数の
文字の大きさを指定できるため、文字程度の大きさの図
形を誤抽出するおそれが低くなり、また各文字のサイズ
条件毎に対応する字種の辞書と照合を行なうため文字認
識率が向上する。
【0013】また、請求項2の発明においては、文字列
の構成要件をルールとして指定できるため、文字の抽出
誤り及び文字統合誤りを抑止でき、更に、文字列内の文
字位置により認識対象とするカテゴリをしぼり込め、認
識率が向上する。
【0014】
【実施例】図1は本発明の文字図形認識装置の第1実施
例のブロック図を示す。同図中、ホストコンピュータ2
0より、図面の読み取り条件・認識条件を指定して、図
面の認識要求を文字図形認識装置21に行う。読み取り
・認識条件は装置内の条件メモリ22に格納される。
【0015】この読み取り条件に基づいて、図面をスキ
ャナ23により読み込み、フレームメモリ24に画像を
格納する。このとき、スキャナの制御は主制御部25内
のスキャナ制御部26が行う。フレームメモリ24の画
像を画像処理部27により細線化を行う。細線化画像に
対して、ベクトル生成部28がベクトル・データを生成
して、ベクトル・メモリ29に格納する。ベクトル・デ
ータに対して文字分離部30で、グループ化を行い文字
要素を抽出する。このとき、条件メモリ22に格納され
た文字を参照する。
【0016】分離された文字要素は文字認識部31によ
り一文字単位にフレームメモリより画像を切り出して認
識を行う。認識された結果はコードメモリ32に格納さ
れる。
【0017】一方、図形要素はベクトル演算部33によ
り、条件メモリ22の認識条件に従って図形プリミティ
ブ(直線・円・円弧等)の認識が行われる。結果はベク
トル・メモリ29に格納される。こうして得られたベク
トル・データ及び文字データは通信制御部34を介して
、CADやマッピング・システムを持つホストコンピュ
ータへ出力される。
【0018】スキャナ23によって例えば図2に示す画
像を読み込む場合は次の文字条件を与える。
【0019】     文字条件■  サイズ条件  :  図3中、
右上の大きな文字(PID)に相当         
                       する
大きさ                カテゴリ条件
:  英字    文字条件■  サイズ条件  : 
 シンボル近傍の文字(TB,PDT)に相当    
                         
   する大きさ                カ
テゴリ条件:  英字    文字条件■  サイズ条
件  :  ライン近傍の文字(204−104−1)
に                        
        相当する大きさ          
      カテゴリ条件:  数字及び記号フォント
条件(字体)は同一とする。
【0020】図2の画像のラスター・データを細線化及
び折線近似を施し、この後、図3の図形文字分離処理を
実行する。
【0021】図3において、ステップ40でベクトル・
データを検索して、相互に連続なベクトル同士をグルー
プ化する。ステップ41のループではグループ毎に縦・
横方向の大きさを計測する。ステップ42のループ内の
ステップ43ではすべてのベクトル・グループに対して
、すべての文字サイズ条件に適合するか否かの判定を行
う。何れかに適合した場合は、適合した条件を示す符号
を与え(ステップ44)適合しない場合には図形要素と
する(ステップ45)。
【0022】次にステップ46で、隣接する文字要素間
の距離(文字要素の外接矩形の中心点間を結ぶ直線の長
さ)及び角度(文字要素の外接矩形の中心点間を結ぶ直
線と、主走査線との間の角度)により、近接する文字要
素同士を統合して、文字列を作成する。このとき文字列
の角度(文字列の先頭文字と末尾文字の中心点を結ぶ直
線と、主走査点との間の角度)を、該文字列を構成する
文字要素の角度として与える。これによって、図2の画
像からは図4に示す文字列統合結果が得られる。図4中
、統合された文字列を破線で囲み、その左肩部に○付数
字で適合した文字条件を表わしている。
【0023】ステップ47のループではすべての文字列
について適合した文字条件のフォント条件,カテゴリ条
件を文字認識部31に設定する。
【0024】ステップ48では各文字列の各文字を文字
位置・文字列角度に従って、一文字毎に画像を切り出し
文字を認識する。このとき、文字条件に指定されたフォ
ント条件,カテゴリ条件を使用して、対象となる辞書と
のみ照合を行う。図4におけるstring−1は文字
条件1により抽出されたので、英字の辞書のみ照合を行
う。同様にstring−2,3,4は文字条件2に従
って、英字の辞書のみと、string−5,6は文字
条件3に従って、数字の辞書のみと照合を行う。
【0025】このように、上記第1実施例によれば,複
数の文字条件を指定できるために、比較的小さな図形を
文字として誤抽出する可能性が低くなるとともに同一サ
イズの文字同士のみを文字列統合の対象とするために、
文字列の統合誤りを低減できる。更に、文字条件毎に照
合する辞書のフォント、カテゴリを指定できるために文
字認識率の向上にも寄与する。
【0026】図5は本発明装置の第2実施例のブロック
図を示す。同図中、第2図と同一部分には同一符号を付
し、その説明を省略する。
【0027】図5において、文字列後処理部50は条件
メモリ52から図面中に記入される文字列の規約である
ルールパラメタを読出して解析し、これに従って文字列
の再編成を行なう。ここで、文字属性から図形属性に変
化した要素のデータはコードメモリ32からベクトルメ
モリ29へ移動される。
【0028】また、コードメモリ32の各々の文字には
、認識条件として対象とするカテゴリが設定される。 分離された文字要素は文字認識部31により一文字単位
にフレームメモリより画像を切り出して認識を行う。こ
のとき、認識条件として設定されたカテゴリの辞書との
み照合を行う。
【0029】図6に示す図面の作図規約は以下のような
ものである。
【0030】1.1文字の文字列と3文字の文字列が存
在する。
【0031】2.1文字の文字列は英字である。
【0032】3.3文字の文字列は先頭が英字であり、
後の2文字が数字である。
【0033】この規約から、ルールを設定するここでル
ール文法を以下のように定める。
【0034】     文            :IF(条件)T
HEN                      
    処理                   
 ENDIF    条件          :={
文字列構成文字数条件|文字構成ベクトル数条件}  
  文字列構成       文字数条件  :={文字列構成文字数=
=N}                      
      文字構成ベク       トル数条件  :={文字構成ベクトル数
  比較演算子  N}    比較演算子    :
={<|>|≦|≧|==|!=}    処理   
       :={分離条件|認識条件|属性条件|
基本文型}    分離条件      :=  分離
条件=(                     
     {N文字文字列|(分離条件+N文字分離列
)|                       
     (分離条件or分離条件)}       
                 )    認識条
件      :=認識条件=(          
            {カテゴリ|(カテゴリ条件
/カテゴリ条件}                 
       )    カテゴリ条件  :={カテ
ゴリ|(カテゴリ条件orカテゴリ)}    属性条
件      :={図形属性とする}    カテゴ
リ      :={英字|数字|記号}ここで、==
は左辺と右辺が等しいことを、!=左辺と右辺が等しく
ないことを示し、/は第N文字と第N+1文字の区切り
を示し、|はオア条件を示し、Nは正の整数値を示す。
【0035】図6の図面規約をルール表現すると、次の
ようになる。
【0036】(a)1文字の文字列が存在すれば、該文
字を構成するベクトル数を調べ、ベクトル数が2本以下
なら図形とする。3以上なら、英字として認識を行う。 (b)2文字の文字列が存在すれば、1文字単位に2つ
の文字列に分離する。
【0037】(c)3文字の文字列が存在すれば、先頭
の1文字を英字として、残りの2文字を数字として認識
する。
【0038】(d)4文字の文字列が存在すれば、3文
字の文字列と1文字の文字列に分離する。
【0039】(e)5文字の文字列が存在すれば、3文
字の文字列と2文字の文字列に分離するか、3文字の文
字列と1文字の文字列×2の、3つの文字列に分離する
。 (f)6文字の文字列が存在すれば、3文字の文字列×
2に分離する。
【0040】図6におけるルールを上記ルール文法に従
って記述すると以下の如くになる。
【0041】(a)IF(文字数==1)THENIF
(文字構成ベクトル数≦2)THEN図形属性とする ENDIF 認識条件=(英字) ENDIF (b)IF(文字数==2)THEN 分離条件=(1文字文字列+1文字文字列)ENDIF (c)IF(文字数==3)THEN 認識条件=(英字/数字/数字) ENDIF (d)IF(文字数==4)THEN 分離条件=(1文字文字列+3文字文字列)ENDIF (e)IF(文字数==5)THEN 分離条件=(2文字文字列+3文字文字列)or(3文
字文字列+1文字文字列+1文字文字列)ENDIF (f)IF(文字数==6)THEN 分離条件=(3文字文字列+3文字文字列)ENDIF 図6の画像のラスター・データを細線化及び折線近似を
施し図7のステップ60で文字図形分離処理(図3のス
テップ40〜45と同一)を実行することにより図8に
示す文字列統合結果が得られる。図8中、統合された文
字列を破線で囲み、その左肩部に○付数字で文字列の番
号を示す。
【0042】次に図7のステップ61の全ての文字列に
ついてのループ内のステップ62で文字列のケース分け
を行なう。
【0043】文字列にルール(b),(d),(e),
(f)の分離条件があるケースはステップ63で上記分
離条件に従って分離可能な文字間を探し、各文字間の評
価値を求め、これに従って文字列を分離する。文字列に
ルール(a),(c)の認識条件があるケースは、ステ
ップ64で文字列を構成する各文字のコードメモリ上の
カテゴリ項に上記認識条件で指定されたカテゴリを設定
し、この文字列を処理済とする。文字列にルール(a)
の図形属性とする条件(属性条件)があるケースは、ス
テップ65でこの文字が属性条件を満足するかどうかを
判別する。満足するなら、ステップ66でこの文字をコ
ードメモリから削除してベクトルメモリに登録し、満足
しない場合はステップ67でコードメモリ上の文字のカ
テゴリ項に認識条件を設定し処理済とする。
【0044】次にステップ68の全ての文字列について
のループ内でステップ69の全ての文字についてのルー
プを行なう。ここではコードメモリの文字位置及び文字
列傾きに従って一文字分の画像を切り出し、文字認識部
にコードメモリのカテゴリ項に指定されたカテゴリ条件
を設定し、文字画像の認識を行なう。
【0045】なお、ステップ60では図3のステップ4
0〜45の処理の代わりに図10のステップ10〜15
の処理を行なっても良い。
【0046】ここで、図8の文字列統合結果について図
7の後処理を適用した場合について説明する。なお文字
列内の文字は図中左から右の順に第1文字,第2文字と
言う。また、第N文字と第N+1文字との間の連結状態
の評価値をE(N)とする。
【0047】(1)■の文字列は1文字で構成されるの
で、ルール(a)によりそのまま英字として認識する。
【0048】(2)■の文字列は2文字として構成され
るので、ルール(b)により1文字単位に分離し、各文
字列に対してルール(a)を適用することにより、左側
は図形となる。右側は英字として認識する。
【0049】(3)■の文字列は3文字で構成されるの
で、ルール(c)により先頭文字を英字として、残り2
文字を数字として認識する。
【0050】(4)■の文字列は4文字で構成されるの
で、ルール(d)により第1文字と第2文字の連結状態
及び第3文字と第4文字の連結状態を距離・角度により
評価する。この例では、E(1)<E(3)となるため
、第1文字と第2文字の間で分離する。分離された第1
文字は(a)を適用して英字として認識する。第2〜4
文字は3文字の文字例としてルール(c)を適用し、英
字・数字・数字として認識する。
【0051】(5)■の文字列は5文字で構成されるの
で、ルール(d)により2つの文字に、あるいは3つの
文字に分離可能である。
【0052】2つの文字列に分離するなら、1)第2文
字と第3文字の間で分離する。
【0053】2)第3文字と第4文字の間で分離する。
【0054】3つの文字列に分離するなら3)第1文字
と第2文字の間、第4文字と第5文字の間でそれぞれ分
離する。であるから、4つの文字間の連結状態を評価す
る。
【0055】E(2)とE(3)と(E(1)+E(4
))÷2を比較する。
【0056】この例では、最後のものの評価が高いので
、第1文字と第2文字の間、第4文字と第5文字の間で
それぞれ分離する。
【0057】第1文字はルール(a)を適用して、図形
とする。
【0058】第2〜4文字はルール(c)を適用して、
英字・数字・数字として認識する。
【0059】第5文字はルール(a)を適用して、英字
として認識する。
【0060】(6)■の文字列は6文字で構成されるの
でルール(e)により第3文字と第4文字との間で分離
して各々にルール(c)を適用して、英字・数字・数字
として認識する。
【0061】上記の後処理によって図9に示す再編成さ
れた文字列統合結果が得られる。
【0062】このように上記第2実施例によれば、文字
列の構成要件をルールとして指定できるため、文字の抽
出誤り、文字列の統合誤りを抑止できるとともに文字列
内の文字順により認識対象とするカテゴリをしぼり込め
るので、認識率の向上にも寄与する。
【0063】
【発明の効果】上述の如く、本発明の文字図形認識装置
によれば、図形を文字と誤抽出するおそれが低減し、文
字列の統合誤りを低減でき、文字認識を向上することが
でき、実用上きわめて有用である。
【図面の簡単な説明】
【図1】本発明装置の第1実施例のブロック図である。
【図2】読み込み画像を示す図である。
【図3】本発明装置の文字図形分離処理の第1実施例の
フローチャートである。
【図4】文字列統合結果を示す図である。
【図5】本発明装置の第2実施例のブロック図である。
【図6】読み込み画像を示す図である。
【図7】本発明装置の文字図形分離処理の第2実施例の
フローチャートである。
【図8】文字列統合の結果を示す図である。
【図9】再編成された文字列統合結果を示す図である。
【図10】従来装置の文字図形分離処理の一例のフロー
チャートである。
【図11】文字図形分離処理を説明するための図である
【符号の説明】
22,52  条件メモリ 28  ベクトル生成部 29  ベクトルメモリ 30  文字分離部 31  文字認識部 32  コードメモリ 50  文字列後処理部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  文字及び図形が混在する画像を読み取
    り、該文字及び図形夫々を認識する文字図形認識装置に
    おいて、各文字の大きさであるサイズ条件と各文字の字
    種であるカテゴリ条件とを対応させた各文字の文字条件
    を格納した第1の条件メモリ(22)と、該画像の各領
    域を該各文字のサイズ条件と照合して文字の抽出を行な
    う文字分離部(30)と、該文字分離部(30)で抽出
    された文字についてサイズ条件に対応するカテゴリ条件
    で指示される字種の辞書と照合して文字認識を行なう文
    字認識部(31)とを有することを特徴とする文字図形
    認識装置。
  2. 【請求項2】  文字及び図形が混在する画像を読み取
    り、文字要素を抽出して近傍の文字要素どうしを統合し
    て文字列を作成し、該文字列の個々の文字要素を認識す
    る文字図形認識装置において、文字列の文字数に応じ該
    文字列の分割条件及び認識の条件を予め定めたルールを
    格納した第2の条件メモリ(52)と、該文字列を該ル
    ールに従って再帰的に分割すると共に認識の条件に従っ
    て文字要素から図形要素への変更を行なう文字列後処理
    部(50)を有することを特徴とする文字図形認識装置
JP3043757A 1991-03-08 1991-03-08 文字図形認識装置 Withdrawn JPH04280393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3043757A JPH04280393A (ja) 1991-03-08 1991-03-08 文字図形認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3043757A JPH04280393A (ja) 1991-03-08 1991-03-08 文字図形認識装置

Publications (1)

Publication Number Publication Date
JPH04280393A true JPH04280393A (ja) 1992-10-06

Family

ID=12672636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3043757A Withdrawn JPH04280393A (ja) 1991-03-08 1991-03-08 文字図形認識装置

Country Status (1)

Country Link
JP (1) JPH04280393A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164253A (ja) * 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164253A (ja) * 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体

Similar Documents

Publication Publication Date Title
US4813078A (en) Character recognition apparatus
US5708730A (en) Table recognition apparatus
JP2926066B2 (ja) 表認識装置
JP3319203B2 (ja) 文書ファイリング方法及び装置
JPH04280393A (ja) 文字図形認識装置
JP2917427B2 (ja) 図面読取装置
JPH0589190A (ja) 図面情報のチエツク方式
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP2697790B2 (ja) 文字タイプ決定方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH10198761A (ja) 文字認識方法および文字認識装置
JPH05114047A (ja) 文字切り出し装置
JP2509992B2 (ja) 分離文字の統合方式
JP2851102B2 (ja) 文字切出し方法
JP2974167B2 (ja) 文字の大分類認識方法
JP2639314B2 (ja) 文字認識方式
JPS63271588A (ja) 文字認識装置
JPH01255986A (ja) マルチフオント辞書の作成法
JPH0436885A (ja) 光学式文字読取装置
JPH05298487A (ja) 英文字認識装置
JPH10222612A (ja) 文書認識装置
JPH0514952B2 (ja)
JPH11134439A (ja) 単語認識方法
JPH05143776A (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980514