JPH04177485A

JPH04177485A - 文字認識装置

Info

Publication number: JPH04177485A
Application number: JP2303641A
Authority: JP
Inventors: Kazutaka Kawakami; 川上　和隆
Original assignee: Matsushita Graphic Communication Systems Inc
Current assignee: Panasonic System Solutions Japan Co Ltd
Priority date: 1990-11-07
Filing date: 1990-11-07
Publication date: 1992-06-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は文字画像をニューラル１ノドを用いて認識する
文字認識装置に関する。

従来の技術文字などのパターンをＬ’２　Ｒｉするとは、同し性質
をもつパターンをクラスに分類する操作で、例えば英文
字ＡからＺは２６のパターンクラスを持っている。この
パターン認識はまず入カバターンより特徴量を抽出し、
この特徴量をもとに識別または分類を行う２段階の処理
からなっている。文字を識別する場合には、ストローク
の直線性、方向。

長さ１位置関係などが重要な特徴量となる。文字の認識
の手法としては従来より多くの方法が提示されている。

例えば橋本新一部著ｒ文字認識概論」オーム社（１９８
２年）などに詳説されている。しかし文字画像には、ノ
イズ、字体の多さ１人間の手書き文字の場合には個人差
などの変動要因が多く、認識が困難な場合も多い、近年
になってこれらの手法とは異なるニューラルネットを用
いて文字カテゴリの識別処理を行う手法が開発されつつ
ある。

ニューラルぶソトは人間の脳を真（以た不ノトワーりで
あり、脳のニューロンに対応したユニ・７トが複数個、
複雑に接続している。各ユニットの動作、およびユニッ
ト間の接続形態を適切に定めることでパターン認識機能
を実施させることができる。

このネットワークの一例を第６図を用いて簡単に説明す
る。ニューラルネットはｊｂｙトワークの構造から大き
くパターン連想型と自動連想型の２つに分類される。パ
ターン連想型とは入カバターンをある出カバターンに変
換するネットワークであり、自動連想型とは複数のパタ
ーンをネットワークに格納し、入カバターンに最も近い
パターンを出力するネットワークである。第６図は連想
型のニューラルネットワークを示し、入力層、中間層。

出力層という階層構造を採る。ここで中間層は”ｈｉｄ
ｄｅｎ　１ａｙｅｒ’と呼ばれ重要な働きをする。ネッ
トワークは入力層、中間層、出力層の方向に結合してい
るが、各層内での結合はなく、出力層から入力層に向う
結合もない。つまり”ｆｅｅｄｆｏｒｉｉａｒｄ”のネ
ットワークである。各層の各ユニットの結合強さは可変
の重みＷ　ｉ　ｊによって表わされている。

２７トワークの学習は次のように行う。人力層の各ユニ
ットに入力データを与え、この入力データを各ユニット
で変換じて中間層ココ伝え、最後に出力層から出力する
。この出力値と望ましい出力値とを比較し、その差を減
らすように重みＷ目を変えてゆく。故に重みＷｉｊの学
習はｆｅｅｄｂａｃｋとなる。なお詳細はｊ口径エレク
トロニクス１９８７．８゜１０　（Ｎｏ、４２７）号Ｊ
に記載されている。

第５図はニューラルネットを文字認識に用いた場合の説
明図である。ニューラルぶノドは入力層１１、中間層１
２．出力層１３の３層から成る多層構造をとり、入力層
１１に文字画像データを直接あるいは特徴量に変換して
入力し、出力層１３に望ましい出力としての教師信号を
与えて学習させ、多数の文字データを記憶させる。第５
図の場合、数字の２を横方向に走査して２値データとし
て入力し学習させている状況を表わす。文字認識を行う
場合は、判別したい文字画像データを入力層より人力し
、出力により文字カテゴリの識別を行う。

なお、ニューラルネットを用いた方法の特徴として、内
部的には分散表現がとられ、並列処理が行なわれるため
に雑音に強いこと、また学習させることにより多くのカ
テゴリを記憶できることがあげられる。特にフィードフ
ォワード形におけるハックプロパゲーション法により学
習が容易に行われ、認識性能も従来のニューラルネット
を用いない手法と同等となってきている。

発明が解決しようとする課題しかし、ニューラルネットによる識別を行う場合、特に
フィードフォワード形のネットワークにハックプロパゲ
ーション手法を用いる場合、文字の位置、角度の変動に
非常に弱いという欠点があった。これを第５図を用いて
説明すると、第５図の場合、文字２を走査し一次元のデ
ータとして入力している。これはこの文字画像の位置情
報を入力しているにすぎない。またこの場合隣接するデ
ータとの相関が与えられておらず、−次元のビットパタ
ーンを与えていることになり、位置ずれにより全く異な
るビットパターンになってしまい認、識できない場合が
生しる。このため変動に強い特徴量を抽出して与える試
みがなされた。例えば、電子情報通信学会研究報告Ｐ　
ＲＶ８Ｂ−１５０１’複数の特徴ヘクトルを利用したニ
ューラル２・ノドによる手書き文字認ｔＪｈｓ加藤誠巳
他、電子情報通信学会パターン認識・理解研究会、技術
研究報告１９８８年Ｎｎ１５０において、その成果が述
べられているが、従来からの手法に比べて性能は向上し
ておらず、またフィードフォワード形のニューラルネッ
トが一種の非線形識別関数を用いたバタンマツチングを
行っていると考えられ、諸々の特徴量が必ずしもニュー
ラルネットを用いた認識機構に最適ではなかった。

本発明は上述の問題点に鑑みてなされたものであり、文
字画像の変動に強く、ニューラルネットに適した特徴量
を用いた文字認識装置を提供することを目的とする。

ｔｌｉＭを解決するための手段上記目的を達成するため、対象文字を細線化して所定長
さに分割し、各々の角度情報１位置情報をニューラルフ
ットに入力するようにしたものであり、本発明の文字認
識装置は、文字を含む画像データから文字部分を切り出
しこの文字画像を細線化する細線化手段と、この細線化
された画像を所定の長さの線分に分割しこの分割された
線分の角度情報と位置情報を含む特徴量を抽出する特徴
抽出部と、この特徴量を入力し識別文字を出力するニュ
ーラルネットとを備えたものである。また、前記ニュー
ラルネットの入力層は、前記特徴量の角度情報に応した
数の入力部を有するようにするとよい。また、前記分割
された線分の角度情報および位置情報を、隣接する線分
の角度情報および位置情報に応じて修正し前記特徴量と
するとよい３作用識別対象文字を細線化し、所定の長さに分割し、分割し
た各長さの角度情報と位置情報をニューラルネットの入
力としているので識別情報が多（なり識別の精度が向上
する。また位置情報はｘ、　　ｙの２次元情報であり、
これに角度情報が加わると３次元となるので、ニューラ
ルネットの入力部を角度情報に応し７た数だけ設けて入
力することにより、２次元ココ−ラル不フトで３次元入
力を可能とする。また、分割された線分の角度情報およ
び位置情報を隣接する線分の角度情報および位置情報に
応じて修正して特徴量を生成することにより、隣接情報
との相関が与えられるため認識性能が向上する。

実施例以下、本発明の一実施例を第１図〜第４図を用いて説明
する。第１図は本実施例の構成を示すブロック図である
。本実施例の文字認識装置は、文字を含む画像データか
ら文字部分を切り出しこの文字画像を細線化する細線化
部１と、この細線化した画像を所定の長さの線分に分割
し、この分割された線分ｉの角度情報θ、と位置情報（
Ｘ、５ｙ、）を抽出する特徴抽出部２と、ニューラルネ
ットからなり、このニューラルネットは、入力層３と、
中間層４と、中間層５と、出力層６よりなる。人力層３
は角度割に入力部を有し、０度入力部３Ｌ　４５度入力
部３２．９０度入力部３３．１３５度入力部３４よりな
る。また中間層４は各入力部３１〜３４に対応じて中間
層、１１．４２．４３．４４から構成される。

次に動作について第２図〜第４図を用いて説明する。第
２図は本実施例の動作を示すフロー図である。ステップ
２１で細線化部ｌに文字を含む画像を入力し、１文字分
の画像を切り出し、細線化処理を行う（ステップ２２）
、細線化の手法としては、種々の手法が公表されている
。（例えば、Ｃ，Ｊ。

Ｈｉｌｄｉｔｃｈ　：　Ｌｉｎｅａｒ　５ｋｅｌｅｔｏ
ｎｓ　ｆｒｏｍ　５ｑｕａｒｅ　Ｃｕｐｂ。

ａｒｄｓ、　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃ
ｅ　４．　Ｂ、　Ｍｅｌｚｅｒ他編。

ｔｌｎｉｖｅｒｓｉｔｙ　Ｐｒｅｓｓ、　ｆ！ｄｉｎｂ
ｕｒｇｈ、ＰＰ、４０３〜４２０．１９６９年を用いる
ことができる。、）次に特徴抽出部２へ入力しこの細線
化済み画像データを一定の長さに分割する（ステップ２
３）。これは例えば、画像をスキャンしてゆき、最初の
端点を探し、そこから順次８近傍をたどってゆく、そし
て一定長（例えば５Ｎ素）毎に区切り１つの線分とし、
さらに次の線分を追跡してゆく。丁字形や十字形になっ
ている部分は、追跡してきた方向に近い方をたどること
にし、残った部分は１回の追跡が終わった後、前述の端
点のスキャンから再度始めることですべての文字線が線
分に分割できる。

以上の処理を第３図に示す。第３図は認識対象文字を２
とした場合を示したもので、（ａ）は細線化した結果を
示し、（ｂ）は一定の長さに分割した状況を示す。次に
各線分のＸ軸方向（第３図（ａ）に示す）に対する角度
を夏山するとともにその線分の中心点の座標を夏出し、
角度情報０．２位１情報（Ｘ、。

ｙｌを特徴量として抽出する（ステップ２４）。

角度θ、については、３６０度でなく０度〜１８０度以
内に換算する。例えば、２７０度は９０度とする。

また、ココ一うルネットの入力部は０度入力部３１゜４
５度入力３２．９０度入力部３３．１３５度入力部３４
の４つしか設けていない、このため角度θ、が入力部３
の各角度と異なる時はその角度θ、の両側に位置する入
力部にその入力部の角度との差に応じて分割して入力す
る５例えばθ１−４５度のときは４５度入力部３２への
入力値は１で他へは０．θ、−３０度のときは３０度の
線分は３０／４５−０．７より、４５度入力部３２への
人力が０．７で０度入力部３１への入力を０．３とする
。第４図はこの状態を表した図である。

第３図ｆｂ）に示す各線分の角度別の分布を示したもの
で第４図（ａｊは０度の線分を示し、黒丸が０度の線分
のある位置を示す、（ａ）に示すように３つの線分ば０
度である。（ｂｊは４５度の線分、（Ｃ）は９０度。

（ａ）は１３５度の線分を示す５次にステップ２５に示
す隣接情報による修正を行う、これは隣接する線分の角
度情報１位置情報に所定の重みづけをして加えてもよく
、またガウシアン分布型のフィルタ演算を施してもよい
。この−例を第４図のＣｅ）〜（ｆｉ）に示す、（ｅ）
は０度の両隣である１３５度、４５度の線分の角度情報
、位置情報に所定の重みづけして加えたものである。Ｃ
ｅ）において、（ａ）の黒丸は大きく表し、（ｂ）の黒
丸が小さい値で加算され、（ｄ）の黒丸の影響は表われ
ていない、これにより（ｅｊは、（ａ）を基本とし、そ
の両隣の情報を加味した状況を表している。ここで黒丸
の大きさは強さを表している。

当然０度の（ａＪの影響が最も大きい、（ｆ）は（ｂ）
を基本とし、その両隣の「ａ）と（Ｃ）の影響を反映し
ている。

以下（ｇ）、　＜ｈ）も同様である。このように処理さ
れた（ｅ）〜（ハ）のデータを入力部３１〜３４にそれ
ぞれ入力することによりニューうルふ・ノドに学習、認
識させる。各人力部３１〜３４に人力されたデータは中
間層４．５を経て出力層６へと順次出力が伝播し、出力
層６は例えば、カテゴリ別に１つのニューロンが割り当
てられており、これを用いて学習、認識が行われる。こ
こでネットワークはフィードフォワード形に必ずしも限
定するものでなく、また層数も一例を示したものである
。

発明の効果以上の説明から明らかなように、本発明は文字画像デー
タから位置情報と角度情報を含む特徴量を抽出してニュ
ーラル不ントに入力することにより文字認識性能を向上
させることができる。さらにこの特徴量に隣接するデー
タの情報を加味することにより認識性能をさらに向上さ
せることができる。

【図面の簡単な説明】

第１図は本発明の実施例の構成を示すブロンク図、第２
図は本実施例の動作を示すフロー図、第３図は細線化処
理および所定長さに分割する処理を説明する図、第４図
は角度別に分割する処理および隣接情報を加味する処理
を説明する図、第５図は従来のニューラルネットで文字
認識をｉテう説明図、第６図は連想型のニューラルネッ
トワークを説明する図である。ｌ・・・・・・細線化部、２・・・・−・特徴抽出部、
３・〜・・・・入力層、４，５・・・・・・中間層、６
・−・・・・出力層。代理人の氏名　弁理士　小鍜治　明　ほか２名第　ｌ　
図／６へ７Ｊ第２図第３図（υ）第４図ｔｅ）（ｆ）　　　ｔ９）　　　（ｈ）第５図

Claims

【特許請求の範囲】

（１）文字を含む画像データから文字部分を切り出しこ
の文字画像を細線化する細線化手段と、この細線化され
た画像を所定の長さの線分に分割しこの分割された線分
の角度情報と位置情報を含む特徴量を抽出する特徴抽出
部と、この特徴量を入力し識別文字を出力するニューラ
ルネットとを備えたことを特徴とする文字認識装置。
（２）前記ニューラルネットの入力層は、前記特徴量の
角度情報に応じた数の入力部を有することを特徴とする
請求項１記載の文字認識装置。
（３）前記分割された線分の角度情報および位置情報を
隣接する線分の角度情報および位置情報に応じて修正し
前記特徴量とすることを特徴とする請求項１または２記
載の文字認識装置。