JPH02293990A

JPH02293990A - 文字認識装置

Info

Publication number: JPH02293990A
Application number: JP1114122A
Authority: JP
Inventors: Shinji Matsui; 伸二松井
Original assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Current assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Priority date: 1989-05-09
Filing date: 1989-05-09
Publication date: 1990-12-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、部分パターンマッチングの手法を用いる漢字
文字等の文字認識装置に関するものである。

〔従来の技術〕

文字認識装置において、漢字を対象とする場合、膨大な
字種と類似文字の多さが問題となる。特に、文字全体の
形状を用いるパターンマッチング手法では、この問題に
対処することができないため、構造解析的な特徴要素の
導入か、単語辞書等を用いる知識処理が必要となる。ま
たは、類似文字間で共通に用いられている「モンガマエ
」や「ヘン」等の部首を取り除き、差異が明確な部分に
着目してこれらを区別する部分パターンマッチングの手
法が用いられる。

従来の部分パターンマッチング手法では、文字を構成す
る各部首を分離抽出し、あらかじめ用意された部首毎の
辞書パターンとの間で照合が行なねれる。同様な手法で
、漢和辞典から漢字を引くような手順で漢字を分類する
ことも行なわれている。

この他に、類似文字間の差異を強調するため２つの差分
パターンを求め辞書パターンに対して重みとして作用さ
せ、識別能力を向上させる手法も考案されている。

〔発明が解決しようとする課題〕

１文字の中から該文字を構成している部首だけを切り出
すことは文字の切り出しに比べ一般に難しく、「ヘン」
、「ツクリ」などの部首と「モンガマエ」や「シンニョ
ウ」等の部首では、それぞれを切り出すために個別の手
法を用いる必要がある。このため部首の切り出しの前に
おおまかな文字全体の認識処理を行い、部首切り出しの
対象とする文字の字種を限定する必要がある。このよう
して切り出した部首に対して再度特徴抽出からの認識処
理を行うことになるので、かかる従来の認識装置では認
識処理の制御が難しくなるという問題があった。

また漢字認識装置の場合、字種の多さから非常に多くの
辞書パターンとの照合を行う必要があるため、極めて高
速な演算が必要とされ、１文字に対する認識処理を互い
に独立ないくつかのプロセスに分け、パイプライン処理
や並列処理などを用いて演算の高速化を行う場合が多く
、前述のような処理の分岐やフィードバックなどへの対
処は技術的に難しい。

また、文字毎の辞書パターンとは別の取扱が必要な部首
毎の辞書パターンを持つことになるので、このことは処
理の高速化や装置の小型化の妨げになるという問題もあ
った。

本発明の目的は、上述した従来技術における問題点を解
決し、認識処理の制御が技術的に容易であると共に、処
理の高速化、装置の小型化にも資する如き文字認識装置
を提供することにある。

〔課題を解決するための手段］認識対象文字についてパターンマッチングを行うための
特徴平面をいくつかの領域に分割し、各領域毎の類似度
を求めておき、文字全体の類似度を用いた認識結果にお
いて１位と２位の候補の類似度が近接している場合、先
に求めた領域毎の類似度に適当な重みをつけて足し合わ
せて全体の類似度を計算し、何種類か重みを付ける領域
を変えて同じことを繰り返して得られた類似度のうち、
１位と２位の類似度の差が最大となったものを選択し、
それによって新たな認識結果を得る。

〔作用〕

文字の中から該文字を構成する部首の切り出し処理や、
部首毎の辞書パターンの用意などを要せずに、類似文字
間で差異が大きな部分を強調して類似度を求め、字種の
識別を行うことができる。

また、１位と２位の候補の差が最大となるという判別条
件を用いることにより、類似文字を区別するために、認
識対象文字の特徴平面上で強調すべき部分（重み付けを
する部分）を半自動的に判断するようにすることができ
る。

これらの処理は、一つの認識対象文字に対して、該文字
を構成する高々数個の局所領域の重み付けを変えて類｛
以度を求めるという演算であり、このために用いる回路
も小さなもので済み、処理を高速に行うこともできる。

〔実施例〕

第１図は本発明の一実施例の回路構成を示すブロック図
である。同図を参照する。

入力装置（例えば画像スキャナ）１から読み込まれた文
書画像は、特徴抽出回路２で１文字毎に切り出され、さ
らにパターンマッチングを行うための特徴パターンが抽
出される。そして、比較的、大まかな特敗パターンがル
ート２Ａを介して分類回路３へ送られ、詳しい特徴パタ
ーンがルート２Ｂを介して乗算回路６へ送られる。分類
回路３では分類辞書４と大まかな特徴パターンを使って
認識対象文字の大まかな認識を行い、それにより適当な
個数に絞り込まれた候補文字５に対して、認識部Ｒでの
詳細な認識処理が行われる。

認識部Ｒでは、先ず認識用辞書パターン７とル−ｌ−２
Ｂから入力される詳しい入力パターンの各要素とを、候
補文字５の各々毎に、乗算器６で掛け合わせる。乗算器
６の出力は認識対象の文字バターン全体の類似度を求め
る演算回路１０と、認識対象文字パターンを複数の局所
領域に分け、各局所領域毎の類似度を求める演算回路８
に与えられる。パターン全体の類似度は局所領域毎の類
似度の合計として求められるため、演算回路１０は必ず
しも必要ではない。演算回路８．１０で求められた類似
度は記憶装置９、１１に順次格納される。

ここでは第２図に示すように、特徴平面（認識対象文字
パターン）をＰｉ−Ｐ９の九つの領域に分割して局所領
域とする例を説明する。判定回路ｌ２では、まず演算回
路ＩＯで求めたパターン全体の類似度を記憶装置１１か
ら読み出し、その上位から下位への並べ替えによる字種
の判定を行い、１位と２位の類似度の差があるしきい値
以下のとき、演算回路８で求めた各局所領域毎の類似度
を用いて文字種の判定をやり直す。すなわち、この際、
第２図におけるＰＩ−Ｐ９の各局所領域のうち、特定の
領域の類似度にだけ重み係数ａを乗じ、他の領域の類似
度には重み係数を掛けないで足し合わせパターン全体の
類似度を求める。

例えば、局所領域Ｐ５とＰ８の類似度にだけ重み係数ａ
を掛け、残りの局所領域の類似度には重み係数を掛けな
いで足し合わせてパターン全体の類似度を一つ求める。

同様に次は、局所領域Ｐ２，Ｐ３，Ｐ５及びＰ６の類似
度にだけ重み係数ａを掛け、残りの局所領域の類似度に
は重み係数を掛けないで足し合わせてパターン全体の類
似度を一つ求める。

更に今度は局所領域Ｐ２，Ｐ３，Ｐ５，Ｐ６Ｐ８及びＰ
９の類似度にだけ重み係数ａを掛け、残りの局所領域の
類似度には重み係数を掛けないで足し合わせてパターン
全体の類似度を一つ求める。そして更に次は、局所領域
ＰＩ，Ｐ２，Ｐ４，Ｐ５，Ｐ７及びＰ８の類似度にだけ
重み係数ａを掛け、残りの局所領域の類似度には重み係
数を掛けないで足し合わせてパターン全体の類似度を一
つ求める。

このようにして例えば４種類の類似度を求めてみて、そ
れら４種類の類似度を使って文字種の判定をやり直すの
である。

以下、具体的に説明する。重み付けは、例えば、類似文
字に共通な『モンガマエ」、「シンニョウＪ１［ヘンＪ
５　「ツタｉ月などがある場合、これらの除去を目的と
して第３図（イ），（口），（ハ）及び（二）のそれぞ
れ斜線領域に対して行う。

ここで（ｋ＝１〜４，　　ｊ＝１〜９）Ｐ、　　：局所領域の類似度．Ｍｈ（ｊ）　　：重み付けパターンｂｋ　　：Ｍｍ（ｊ）に対する補正係数、Ｒｍ　　　：
Ｍｋ（Ｄを用いた場合の類似度、である。

この他にも、多種多様な重み付けが考えられるし、ａの
値を各領域で個別に設定することも有効であろう。これ
らの重み付けを順次行って類似度を求め字種の判定を行
う。このようにして求められた４種類の認識結果（第３
図の（イ）．（口），（ハ）及び（二）について得られ
た４種類の類似度Ｒ．）のうち、１位と２位の類似度の
差が最大となった結果を新たな認識結果とする。ただし
、重みを掛ける領域（面積）の違いから、類似度を求め
る際、各重み付けパターン毎に設定される補正係数ｂを
掛ける必要がある。判定回路１２における判定結果はホ
ストマシン１３へ送られる。

なお、具体例を挙げる。例えば「モンガマエ」を共通に
持つ二つの文字として「間」と「間」を想定する。この
二つの文字は「日」と「耳」の部分で相違するだけであ
る。「間」と「聞」の文字をそれぞれ第２図に見られる
ように９個の局所領域に分けたとしたら、第３図（イ）
の斜線領域に示すように重み付けを行うと、「日」と「
耳」の部分の特徴が強調され、両者間の類似度が大きく
相違してくることが理解されるであろう。

〔発明の効果〕

本発明によれば、局所領域の類似度に重み付けを行うこ
とにより、処理の高速化や装置の小型化の妨げとなる部
首の切り出し処理や、部首毎の辞古パターンを用いずに
、類似文字間で差異が太きな部分を強調して類似度を求
め字種の判別を行うことができる。また、複数の判別結
果から、１位と２位の差が最大となる結果を選ぶことに
より、類似文字を区別するために特徴平面上で強調すべ
き部分を半自動的に判断することができる。

これらの処理は、一つの候補文字に対して高々数個の局
所領域の重み付けを変えて繰り返し類似度を求める演算
であり、このために用いる回路も小さなもので済み、処
理を高速に行うこともてき・・・頬似度演算回路、９，
１１・・・記憶装置、１２・・・判定回路、１３・・・
ホストマシン

Claims

【特許請求の範囲】

１）認識対象としての文字について、辞書パターンとの
パターンマッチングを行うための特徴平面を複数の領域
に分割し、各領域毎の類似度を求める回路と、求めた複
数の各領域毎の類似度を記憶する記憶回路と、認識対象
としての文字について、文字全体としての類似度を求め
る回路と、文字全体の類似度を用いた認識結果において
上位の複数候補間の類似度が接近している場合、前記記
憶回路に記憶されている複数の領域の各領域毎の類似度
を読み出し、特定領域の類似度を選択してそれにのみ重
みを付け、他の領域の類似度には重みを付けないで足し
合わせることによって全体の類似度を計算すると共に、
重み付けの対象とする特定領域を色々に選択して同じこ
とを繰り返し、得られた複数の類似度を用いて新たな認
識結果を得る判定回路と、から成ることを特徴とする文
字認識装置。