JPH04280393A

JPH04280393A - 文字図形認識装置

Info

Publication number: JPH04280393A
Application number: JP3043757A
Authority: JP
Inventors: Junichi Koizumi; 潤一小泉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-03-08
Filing date: 1991-03-08
Publication date: 1992-10-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】ＣＡＤ／ＣＡＭ、コンピュータ・
マッピングの普及に伴い、既存の地図・機械図・回路図
等をディジタル・データ化する手段として、図面の自動
入力の必要性が高まってきている。図面の中に記入され
ている要素は大きく分けて、図形要素と文字要素に大別
される。図面の自動入力において、図形要素はベクトル
・データとして、また文字要素は認識した文字コードと
して出力することが要求される。

【０００２】

【従来の技術】図１０は従来の文字図形分離処理のフロ
ーチャートを示す。

【０００３】図面をスキャナにより読み込み、ラスター
・データ化し、ラスター・データを細線化及び折線近似
を施すことにより図１１（Ａ）に示す如くベクトル・デ
ータ化して図の処理を実行する。ベクトル・データを検
索して、相互に連続なベクトル同士を図１１（Ｂ）の破
線で囲む如くグループ化する（ステップ１０）。

【０００４】文字は比較的小さな領域を持ち、他の図形
・文字から孤立しているという特徴を使ってステップ１
１のループで各グループの大きさを調べ、その大きさに
基づき文字要素を抽出する。具体的には、予め定められ
た文字の大きさに適合するグループを文字要素として抽
出する（ステップ１２，１３）。また、文字要素以外を
図形要素とする（ステップ１４）。

【０００５】この後、文字要素は近傍の文字要素同士を
間隔・角度の条件により統合して、文字列を作成する（
ステップ１５）。図１１（Ｃ）では、中央の文字要素Ａ
に対して、統合可能範囲内に文字列−１と文字列−２が
ある。Ａに対して両文字列の最近傍文字との距離Ｌ１，
Ｌ２を計算して、距離が小さいほど高い評価値を与える
。また、文字列−１の傾きと、文字列−１にＡを統合し
たときの傾きの差θ１，文字列−２の傾きと、文字列−
２にＡを統合したときの傾きの差θ２を計算して、差の
小さいほど高い評価値を与える。この２つの評価により
文字列−１に統合するか、文字列−２に統合するか、ま
たはどちらとも統合しないかを決定する。次にステップ
１６，１７のループで、文字の位置・大きさ・傾きに従
って文字画像を切り出して文字を認識する。

【０００６】一方、図形要素は直線・円・円弧といった
プリミティブ認識を行う。

【０００７】

【発明が解決しようとする課題】上記したように、図形
から文字を分離するために使用する条件は文字の大きさ
である。この条件は従来、文字の最小サイズと文字の最
大サイズという形をとっていた。

【０００８】しかしながら、実際には、一つの図面の中
に大小の文字が混在して記入されることが多い。このよ
うな場合、従来は最も大きな文字に合わせて最大サイズ
を決め、小さな文字に合わせて最小サイズを決める必要
があった。こうすると、大きな文字と小さな文字の間の
差が大きいほど、その間の大きさを持つ文字以外の図形
を文字と分類してしまうこととなるという問題があった
。

【０００９】本発明は上記の点に鑑みなされたもので、
図形を文字と誤抽出するおそれが低減し、文字列の統合
誤りを低減でき、文字認識率が向上する文字図形認識装
置を提供することを目的とする。

【００１０】

【課題を解決するための手段】本発明の文字図形認識装
置は、文字及び図形が混在する画像を読み取り、該文字
及び図形夫々を認識する文字図形認識装置において、各
文字の大きさであるサイズ条件と各文字の字種であるカ
テゴリ条件とを対応させた各文字の文字条件を格納した
第１の条件メモリと、画像の各領域を該各文字のサイズ
条件と照合して文字の抽出を行なう文字分離部と、文字
分離部で抽出された文字についてサイズ条件に対応する
カテゴリ条件で指示される字種の辞書と照合して文字認
識を行なう文字認識部とを有する。

【００１１】また、文字及び図形が混在する画像を読み
取り、文字要素を抽出して近傍の文字要素どうしを統合
して文字列を作成し、該文字列の個々の文字要素を認識
する文字図形認識装置において、文字列の文字数に応じ
文字列の分割条件及び認識の条件を予め定めたルールを
格納した第２の条件メモリと、文字列を該ルールに従っ
て再帰的に分割すると共に認識の条件に従って文字要素
から図形要素への変更を行なう文字列後処理部を有する
。

【００１２】

【作用】請求項１の発明においては、文字条件で複数の
文字の大きさを指定できるため、文字程度の大きさの図
形を誤抽出するおそれが低くなり、また各文字のサイズ
条件毎に対応する字種の辞書と照合を行なうため文字認
識率が向上する。

【００１３】また、請求項２の発明においては、文字列
の構成要件をルールとして指定できるため、文字の抽出
誤り及び文字統合誤りを抑止でき、更に、文字列内の文
字位置により認識対象とするカテゴリをしぼり込め、認
識率が向上する。

【００１４】

【実施例】図１は本発明の文字図形認識装置の第１実施
例のブロック図を示す。同図中、ホストコンピュータ２
０より、図面の読み取り条件・認識条件を指定して、図
面の認識要求を文字図形認識装置２１に行う。読み取り
・認識条件は装置内の条件メモリ２２に格納される。

【００１５】この読み取り条件に基づいて、図面をスキ
ャナ２３により読み込み、フレームメモリ２４に画像を
格納する。このとき、スキャナの制御は主制御部２５内
のスキャナ制御部２６が行う。フレームメモリ２４の画
像を画像処理部２７により細線化を行う。細線化画像に
対して、ベクトル生成部２８がベクトル・データを生成
して、ベクトル・メモリ２９に格納する。ベクトル・デ
ータに対して文字分離部３０で、グループ化を行い文字
要素を抽出する。このとき、条件メモリ２２に格納され
た文字を参照する。

【００１６】分離された文字要素は文字認識部３１によ
り一文字単位にフレームメモリより画像を切り出して認
識を行う。認識された結果はコードメモリ３２に格納さ
れる。

【００１７】一方、図形要素はベクトル演算部３３によ
り、条件メモリ２２の認識条件に従って図形プリミティ
ブ（直線・円・円弧等）の認識が行われる。結果はベク
トル・メモリ２９に格納される。こうして得られたベク
トル・データ及び文字データは通信制御部３４を介して
、ＣＡＤやマッピング・システムを持つホストコンピュ
ータへ出力される。

【００１８】スキャナ２３によって例えば図２に示す画
像を読み込む場合は次の文字条件を与える。

【００１９】　　　　文字条件■　　サイズ条件　　：　　図３中、
右上の大きな文字（ＰＩＤ）に相当　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　する
大きさ　　　　　　　　　　　　　　　　カテゴリ条件
：　　英字　　　　文字条件■　　サイズ条件　　：　
　シンボル近傍の文字（ＴＢ，ＰＤＴ）に相当　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　する大きさ　　　　　　　　　　　　　　　　カ
テゴリ条件：　　英字　　　　文字条件■　　サイズ条
件　　：　　ライン近傍の文字（２０４−１０４−１）
に　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　相当する大きさ　　　　　　　　　　
　　　　　　カテゴリ条件：　　数字及び記号フォント
条件（字体）は同一とする。

【００２０】図２の画像のラスター・データを細線化及
び折線近似を施し、この後、図３の図形文字分離処理を
実行する。

【００２１】図３において、ステップ４０でベクトル・
データを検索して、相互に連続なベクトル同士をグルー
プ化する。ステップ４１のループではグループ毎に縦・
横方向の大きさを計測する。ステップ４２のループ内の
ステップ４３ではすべてのベクトル・グループに対して
、すべての文字サイズ条件に適合するか否かの判定を行
う。何れかに適合した場合は、適合した条件を示す符号
を与え（ステップ４４）適合しない場合には図形要素と
する（ステップ４５）。

【００２２】次にステップ４６で、隣接する文字要素間
の距離（文字要素の外接矩形の中心点間を結ぶ直線の長
さ）及び角度（文字要素の外接矩形の中心点間を結ぶ直
線と、主走査線との間の角度）により、近接する文字要
素同士を統合して、文字列を作成する。このとき文字列
の角度（文字列の先頭文字と末尾文字の中心点を結ぶ直
線と、主走査点との間の角度）を、該文字列を構成する
文字要素の角度として与える。これによって、図２の画
像からは図４に示す文字列統合結果が得られる。図４中
、統合された文字列を破線で囲み、その左肩部に○付数
字で適合した文字条件を表わしている。

【００２３】ステップ４７のループではすべての文字列
について適合した文字条件のフォント条件，カテゴリ条
件を文字認識部３１に設定する。

【００２４】ステップ４８では各文字列の各文字を文字
位置・文字列角度に従って、一文字毎に画像を切り出し
文字を認識する。このとき、文字条件に指定されたフォ
ント条件，カテゴリ条件を使用して、対象となる辞書と
のみ照合を行う。図４におけるｓｔｒｉｎｇ−１は文字
条件１により抽出されたので、英字の辞書のみ照合を行
う。同様にｓｔｒｉｎｇ−２，３，４は文字条件２に従
って、英字の辞書のみと、ｓｔｒｉｎｇ−５，６は文字
条件３に従って、数字の辞書のみと照合を行う。

【００２５】このように、上記第１実施例によれば，複
数の文字条件を指定できるために、比較的小さな図形を
文字として誤抽出する可能性が低くなるとともに同一サ
イズの文字同士のみを文字列統合の対象とするために、
文字列の統合誤りを低減できる。更に、文字条件毎に照
合する辞書のフォント、カテゴリを指定できるために文
字認識率の向上にも寄与する。

【００２６】図５は本発明装置の第２実施例のブロック
図を示す。同図中、第２図と同一部分には同一符号を付
し、その説明を省略する。

【００２７】図５において、文字列後処理部５０は条件
メモリ５２から図面中に記入される文字列の規約である
ルールパラメタを読出して解析し、これに従って文字列
の再編成を行なう。ここで、文字属性から図形属性に変
化した要素のデータはコードメモリ３２からベクトルメ
モリ２９へ移動される。

【００２８】また、コードメモリ３２の各々の文字には
、認識条件として対象とするカテゴリが設定される。分離された文字要素は文字認識部３１により一文字単位
にフレームメモリより画像を切り出して認識を行う。こ
のとき、認識条件として設定されたカテゴリの辞書との
み照合を行う。

【００２９】図６に示す図面の作図規約は以下のような
ものである。

【００３０】１．１文字の文字列と３文字の文字列が存
在する。

【００３１】２．１文字の文字列は英字である。

【００３２】３．３文字の文字列は先頭が英字であり、
後の２文字が数字である。

【００３３】この規約から、ルールを設定するここでル
ール文法を以下のように定める。

【００３４】　　　　文　　　　　　　　　　　　：ＩＦ（条件）Ｔ
ＨＥＮ　　　　　　　　　　　　　　　　　　　　　　
　　　　処理　　　　　　　　　　　　　　　　　　　
　ＥＮＤＩＦ　　　　条件　　　　　　　　　　：＝｛
文字列構成文字数条件｜文字構成ベクトル数条件｝　　
　　文字列構成　　　　　　文字数条件　　：＝｛文字列構成文字数＝
＝Ｎ｝　　　　　　　　　　　　　　　　　　　　　　
　　　　　　文字構成ベク　　　　　　トル数条件　　：＝｛文字構成ベクトル数
　　比較演算子　　Ｎ｝　　　　比較演算子　　　　：
＝｛＜｜＞｜≦｜≧｜＝＝｜！＝｝　　　　処理　　　
　　　　　　　：＝｛分離条件｜認識条件｜属性条件｜
基本文型｝　　　　分離条件　　　　　　：＝　　分離
条件＝（　　　　　　　　　　　　　　　　　　　　　
　　　　　｛Ｎ文字文字列｜（分離条件＋Ｎ文字分離列
）｜　　　　　　　　　　　　　　　　　　　　　　　
　　　　　（分離条件ｏｒ分離条件）｝　　　　　　　
　　　　　　　　　　　　　　　　　）　　　　認識条
件　　　　　　：＝認識条件＝（　　　　　　　　　　
　　　　　　　　　　　　｛カテゴリ｜（カテゴリ条件
／カテゴリ条件｝　　　　　　　　　　　　　　　　　
　　　　　　　）　　　　カテゴリ条件　　：＝｛カテ
ゴリ｜（カテゴリ条件ｏｒカテゴリ）｝　　　　属性条
件　　　　　　：＝｛図形属性とする｝　　　　カテゴ
リ　　　　　　：＝｛英字｜数字｜記号｝ここで、＝＝
は左辺と右辺が等しいことを、！＝左辺と右辺が等しく
ないことを示し、／は第Ｎ文字と第Ｎ＋１文字の区切り
を示し、｜はオア条件を示し、Ｎは正の整数値を示す。

【００３５】図６の図面規約をルール表現すると、次の
ようになる。

【００３６】（ａ）１文字の文字列が存在すれば、該文
字を構成するベクトル数を調べ、ベクトル数が２本以下
なら図形とする。３以上なら、英字として認識を行う。（ｂ）２文字の文字列が存在すれば、１文字単位に２つ
の文字列に分離する。

【００３７】（ｃ）３文字の文字列が存在すれば、先頭
の１文字を英字として、残りの２文字を数字として認識
する。

【００３８】（ｄ）４文字の文字列が存在すれば、３文
字の文字列と１文字の文字列に分離する。

【００３９】（ｅ）５文字の文字列が存在すれば、３文
字の文字列と２文字の文字列に分離するか、３文字の文
字列と１文字の文字列×２の、３つの文字列に分離する
。（ｆ）６文字の文字列が存在すれば、３文字の文字列×
２に分離する。

【００４０】図６におけるルールを上記ルール文法に従
って記述すると以下の如くになる。

【００４１】（ａ）ＩＦ（文字数＝＝１）ＴＨＥＮＩＦ
（文字構成ベクトル数≦２）ＴＨＥＮ図形属性とするＥＮＤＩＦ認識条件＝（英字）ＥＮＤＩＦ（ｂ）ＩＦ（文字数＝＝２）ＴＨＥＮ分離条件＝（１文字文字列＋１文字文字列）ＥＮＤＩＦ（ｃ）ＩＦ（文字数＝＝３）ＴＨＥＮ認識条件＝（英字／数字／数字）ＥＮＤＩＦ（ｄ）ＩＦ（文字数＝＝４）ＴＨＥＮ分離条件＝（１文字文字列＋３文字文字列）ＥＮＤＩＦ（ｅ）ＩＦ（文字数＝＝５）ＴＨＥＮ分離条件＝（２文字文字列＋３文字文字列）ｏｒ（３文
字文字列＋１文字文字列＋１文字文字列）ＥＮＤＩＦ（ｆ）ＩＦ（文字数＝＝６）ＴＨＥＮ分離条件＝（３文字文字列＋３文字文字列）ＥＮＤＩＦ図６の画像のラスター・データを細線化及び折線近似を
施し図７のステップ６０で文字図形分離処理（図３のス
テップ４０〜４５と同一）を実行することにより図８に
示す文字列統合結果が得られる。図８中、統合された文
字列を破線で囲み、その左肩部に○付数字で文字列の番
号を示す。

【００４２】次に図７のステップ６１の全ての文字列に
ついてのループ内のステップ６２で文字列のケース分け
を行なう。

【００４３】文字列にルール（ｂ），（ｄ），（ｅ），
（ｆ）の分離条件があるケースはステップ６３で上記分
離条件に従って分離可能な文字間を探し、各文字間の評
価値を求め、これに従って文字列を分離する。文字列に
ルール（ａ），（ｃ）の認識条件があるケースは、ステ
ップ６４で文字列を構成する各文字のコードメモリ上の
カテゴリ項に上記認識条件で指定されたカテゴリを設定
し、この文字列を処理済とする。文字列にルール（ａ）
の図形属性とする条件（属性条件）があるケースは、ス
テップ６５でこの文字が属性条件を満足するかどうかを
判別する。満足するなら、ステップ６６でこの文字をコ
ードメモリから削除してベクトルメモリに登録し、満足
しない場合はステップ６７でコードメモリ上の文字のカ
テゴリ項に認識条件を設定し処理済とする。

【００４４】次にステップ６８の全ての文字列について
のループ内でステップ６９の全ての文字についてのルー
プを行なう。ここではコードメモリの文字位置及び文字
列傾きに従って一文字分の画像を切り出し、文字認識部
にコードメモリのカテゴリ項に指定されたカテゴリ条件
を設定し、文字画像の認識を行なう。

【００４５】なお、ステップ６０では図３のステップ４
０〜４５の処理の代わりに図１０のステップ１０〜１５
の処理を行なっても良い。

【００４６】ここで、図８の文字列統合結果について図
７の後処理を適用した場合について説明する。なお文字
列内の文字は図中左から右の順に第１文字，第２文字と
言う。また、第Ｎ文字と第Ｎ＋１文字との間の連結状態
の評価値をＥ（Ｎ）とする。

【００４７】（１）■の文字列は１文字で構成されるの
で、ルール（ａ）によりそのまま英字として認識する。

【００４８】（２）■の文字列は２文字として構成され
るので、ルール（ｂ）により１文字単位に分離し、各文
字列に対してルール（ａ）を適用することにより、左側
は図形となる。右側は英字として認識する。

【００４９】（３）■の文字列は３文字で構成されるの
で、ルール（ｃ）により先頭文字を英字として、残り２
文字を数字として認識する。

【００５０】（４）■の文字列は４文字で構成されるの
で、ルール（ｄ）により第１文字と第２文字の連結状態
及び第３文字と第４文字の連結状態を距離・角度により
評価する。この例では、Ｅ（１）＜Ｅ（３）となるため
、第１文字と第２文字の間で分離する。分離された第１
文字は（ａ）を適用して英字として認識する。第２〜４
文字は３文字の文字例としてルール（ｃ）を適用し、英
字・数字・数字として認識する。

【００５１】（５）■の文字列は５文字で構成されるの
で、ルール（ｄ）により２つの文字に、あるいは３つの
文字に分離可能である。

【００５２】２つの文字列に分離するなら、１）第２文
字と第３文字の間で分離する。

【００５３】２）第３文字と第４文字の間で分離する。

【００５４】３つの文字列に分離するなら３）第１文字
と第２文字の間、第４文字と第５文字の間でそれぞれ分
離する。であるから、４つの文字間の連結状態を評価す
る。

【００５５】Ｅ（２）とＥ（３）と（Ｅ（１）＋Ｅ（４
））÷２を比較する。

【００５６】この例では、最後のものの評価が高いので
、第１文字と第２文字の間、第４文字と第５文字の間で
それぞれ分離する。

【００５７】第１文字はルール（ａ）を適用して、図形
とする。

【００５８】第２〜４文字はルール（ｃ）を適用して、
英字・数字・数字として認識する。

【００５９】第５文字はルール（ａ）を適用して、英字
として認識する。

【００６０】（６）■の文字列は６文字で構成されるの
でルール（ｅ）により第３文字と第４文字との間で分離
して各々にルール（ｃ）を適用して、英字・数字・数字
として認識する。

【００６１】上記の後処理によって図９に示す再編成さ
れた文字列統合結果が得られる。

【００６２】このように上記第２実施例によれば、文字
列の構成要件をルールとして指定できるため、文字の抽
出誤り、文字列の統合誤りを抑止できるとともに文字列
内の文字順により認識対象とするカテゴリをしぼり込め
るので、認識率の向上にも寄与する。

【００６３】

【発明の効果】上述の如く、本発明の文字図形認識装置
によれば、図形を文字と誤抽出するおそれが低減し、文
字列の統合誤りを低減でき、文字認識を向上することが
でき、実用上きわめて有用である。

【図面の簡単な説明】

【図１】本発明装置の第１実施例のブロック図である。

【図２】読み込み画像を示す図である。

【図３】本発明装置の文字図形分離処理の第１実施例の
フローチャートである。

【図４】文字列統合結果を示す図である。

【図５】本発明装置の第２実施例のブロック図である。

【図６】読み込み画像を示す図である。

【図７】本発明装置の文字図形分離処理の第２実施例の
フローチャートである。

【図８】文字列統合の結果を示す図である。

【図９】再編成された文字列統合結果を示す図である。

【図１０】従来装置の文字図形分離処理の一例のフロー
チャートである。

【図１１】文字図形分離処理を説明するための図である
。

【符号の説明】

２２，５２　　条件メモリ２８　　ベクトル生成部２９　　ベクトルメモリ３０　　文字分離部３１　　文字認識部３２　　コードメモリ５０　　文字列後処理部

Claims

【特許請求の範囲】

【請求項１】　　文字及び図形が混在する画像を読み取
り、該文字及び図形夫々を認識する文字図形認識装置に
おいて、各文字の大きさであるサイズ条件と各文字の字
種であるカテゴリ条件とを対応させた各文字の文字条件
を格納した第１の条件メモリ（２２）と、該画像の各領
域を該各文字のサイズ条件と照合して文字の抽出を行な
う文字分離部（３０）と、該文字分離部（３０）で抽出
された文字についてサイズ条件に対応するカテゴリ条件
で指示される字種の辞書と照合して文字認識を行なう文
字認識部（３１）とを有することを特徴とする文字図形
認識装置。
【請求項２】　　文字及び図形が混在する画像を読み取
り、文字要素を抽出して近傍の文字要素どうしを統合し
て文字列を作成し、該文字列の個々の文字要素を認識す
る文字図形認識装置において、文字列の文字数に応じ該
文字列の分割条件及び認識の条件を予め定めたルールを
格納した第２の条件メモリ（５２）と、該文字列を該ル
ールに従って再帰的に分割すると共に認識の条件に従っ
て文字要素から図形要素への変更を行なう文字列後処理
部（５０）を有することを特徴とする文字図形認識装置
。