JPH03147084A

JPH03147084A - 類似文字識別方法

Info

Publication number: JPH03147084A
Application number: JP1285605A
Authority: JP
Inventors: Takakuni Minewaki; 隆邦嶺脇
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-11-01
Filing date: 1989-11-01
Publication date: 1991-06-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、日本語文章を処理する文字認識装置（漢字Ｏ
ＣＲ等）に係り、特に辞書との照合によっては識別が難
しい類似文字を識別する方法に関する。

〔従来の技術〕

一般に漢字ＯＣＲ等においては、文書画像から切出した
文字画像を、一定のサイズに圧縮または伸長（正規化）
した後に辞書と照合するため、サイズは違うが形の違い
が小さい文字、例えば読点、アルファベット小文字１１
０Ｉ＋、アルファベット大文字ｉｔ　Ｏ１１等の区別が
できないという問題がある。

このような類似文字の識別に関しては、左隣の文字に注
目する方法（特公昭６０−１６７６号）。

帳票記入文字について枠の位置情報を利用する方法（特
公昭６０−９３１４号）、文字の絶対サイズを利用する
方法（特開昭６０−２３７５８４号）、周辺Ｎ文字のサ
イズ比及び位置関係によって文字属性を決定する方法（
特開昭６３−７８２８７号）等が提案されている。

〔発明が解決しようとする課題〕

しかし、特公昭６０−１６７６号の方法は局所的な情報
だけを利用するので１例えば小文字が二つ以上続くと対
応できない、特公昭６０−９３１４号の方法は一般の枠
なし文章に対応できない。

特開昭６０−２３７５８４号の方法は行毎の文字サイズ
の変化に対応できない。特開昭６３−７８２８７号の方
法は、周辺Ｎ個という値が固定などの行全体としての特
徴を捕らえられないことと、同じ文字属性群の中でもサ
イズ比や位置関係が異なる場合（小文字でも“ア”と“
ユ″とでは文字高さが異なる）があるため、属性を分離
する閾値を精度よく設定できないという問題がある。

また、文字位置を利用する方法は一般的に、横書き文書
では行内の上下位置、縦書き文書の場合には行内の左右
位置というように１位置的特ｍ電を切り替える必要があ
り、さらにスキューに応じて文字位置関係の補正を行う
必要があるため、処理が複雑になる。

本発明の目的は、辞書との照合では誤認しやすい類似文
字を高精度に識別可能で、かつ処理対象の制約が少なく
処理が簡単な類似文字識別方法を捉供することにある。

〔課題を解決するための手段〕

本発明は、日本語文章を処理する文字認識装置において
、行毎に標準文字面積に対する各文字の面積の比を文字
面積比として検出し、辞書照合による認識結果候補中の
予め定めた類似文字は、それについて検出された文字面
積比と予め用意された標準の文字面積比との照合によっ
て、その識別を行うことを特徴とする。

〔作　用〕

例えば“よ″と“′よ”、１つ″と１１つ　、読点“　
″とアルファベット“ｏ　”もしくは１１０　Ｉ＋は、
いずれも形状の違いは殆どないため、正規化を行ってか
らの辞書照合によっては識別が困難である。

しかし、このような類似文字について文字面積比を調べ
ると、類似文字間の差がかなり顕著である。

したがって、予め特定の類似文字について標準の文字面
積比をテーブル等として用意しておき、ある文字の辞書
照合による認識結果候補中に類似した２以上の文字が出
現した場合、その文字について検出した文字面積比と、
それぞれの類似文字の標準の文字面積比とを比較するこ
とにより、その類似文字を識別することができる。具体
的には。

ａ準の文字面積比との差が最小の文字を上位候補に選ぶ
ことができる。

また、文字面積比は縦書き／謹書きを区別する必要のな
い特徴址であるので、縦書き文章も横書き文章も同じ処
理で類似文字識別が可能である。

さらに、行単位で文字サイズが変化する文章。

枠無し文章においても類似文字識別が可能であることと
、小文字が連続する文字列についても類似文字識別が可
能であることは明らかである。

〔実施例〕

第１図は、本発明にかかる文字認識装置（漢字０ＣＲ）
のブロック図である。この文字認識装置においては、画
像入力部（スキャナ）１０によって文書（横書きとする
）の画像を読取り、その画像データを画像メモリ１１に
蓄積し、この文書画像より行・文字切出し部１２によっ
て行切出し及び文字切出しを行い１文字の画像データを
文字画像メモリ１３に蓄積し５文字認識部１４で、その
各文字の画像データの正規化、特徴抽出、文字辞書メモ
リ１５に登録されている文字別の辞書のデータとの照合
を行って、距離が小さい（−数置が大きい）候補を例え
ば最高第１０位まで選び、これを認識結果メモリ１６に
格納する。ここまでは従来の文字Ｌ＆識装置と同様であ
る。

この文字認識装置と従来の文字認識装置との違いは、行
・文字切出し部１２において１行毎の標準文字面積と個
々の文字毎の切出し情報を検出して切出し情報メモリ１
７に格納すること、並びに類似文字判定部１８、類似文
字テーブルメモ１９を有し１文字認識部１４の認識結果
について文字面積比を用いた類似文字識別により必要な
修正を行い、その修正結果を最終的な認識結果として出
力部２０より出力することである。

行毎のｗ＄文字面積の決定のしかたは一意のものでなく
ともよいが、ここでは行内での最大文字矩形面積を標準
文字面積とするものとする。これによれば、スキューの
影響を補正するための処理が不要である。また、ここで
は、各文字の切出し情報として、文字外接矩形の高さ、
幅１文字面積（＝高さＸ幅）、文字面積比（＝文字面積
比／標準文字面積）を検出するものとする。

以下、第２図に示す文字列゛′ちょっと待った。″を例
に、類似文字識別に関する処理内容について説明する。

この文字列の各文字について、文字認識部１４で第１表
に示す認識結果が得られ、また切出し情報メモリ１７に
第２表に示す切出し情報が得られたとする。また、類似
文字テーブルメモリ１９には、例えば第３表に示す類似
文字についての標準面積比のテーブルが格納されている
ものとする。

第じζ１−杏り出」（−情１− ここでは、最大の文字面積（＝　６８０６）が標準文字
面積となる。

類似文字判定部１８は、認識結果メモリ１６に得られた
認識結果候補（第１表）を順番に類似文字テーブル（第
３表）と比較し、類似文字テーブルに登録されている類
似文字が候補としてあがっている文字を捜す。

この例では、文字番号２の候補中に類似文字である″よ
”と′よ″が含まれている。そこで、類似文字判定部１
８は、この文字番号２に関する文字面積比（＝０．３８
）と、類似文字テーブルに登録されているパよ″の標準
文字面積比（＝０．９０）及び″よ″の標準文字面積比
（＝０．４５）とを比較する。そして、′よ″の標準文
字面積比のほうが文字番号２の文字の文字面積と近いの
で、文字番号２の第１候補と第２候補を入れ替える。す
なわち、″よ″であると識別したわけである。

同様に文字番号３の第１候補′″よ″と第２候補“よ”
も入れ替える。

文字番号８については、３個の類似文字が候補にあがっ
ているが、その文字面積比（＝０．０８）は読点″′の
標準文字面積比（０，１０）に最も近く、次に小文字１
１　ｏ“の標準文字面積比に近いので、第１候補をパ、
第２候補を“０″、第３候補を１１　Ｑ　Ｈにそれぞれ
入れ替える。

このような処理により、第１表に示した認識結果は第４
表のように修正される。

４　　　　　正　　のここまでは横書き文章を処理対象とした場合について説
明したが、文字の高さや幅でなく行毎の標準文字面積に
対する文字面積の比を利用するため１行毎に文字サイズ
が変化する文章でも、縦書き文章の場合も全く同様に類
似文字識別が可能である。さらに、隣接文字を参照する
方法と違い、小文字が連続した文字列に関しても類似文
字識別が可能である。

〔発明の効果〕

以上説明した如く１本発明によれば、辞書との照合では
識別が困難な類似文字を簡単な処理によって高精度に識
別し、日本語文章の文字認識率を向上させることができ
る。また以上の説明から明らかなように、一般の枠無し
文章や行毎に文字サイズが変化する文章、小文字が連続
する文章に対しても類似文字識別が可能であり、さらに
縦書き／横書きを区別せずに処理することができる等の
効果が得られる。

【図面の簡単な説明】

第１図は本発明に係る文字認識装置のブロック図、第２
図は類似文字識別処理の説明のための文字列の例を示す
図である。１０・・・画像入力部、　　１１・・・画像メモリ、１
２・・・行・文字切出し部、　　１３・・・文字画像メ
モリ、　１４・・・文字ＬＬａ部、　１５・・・文字辞
書メモリ、　１６・・・認識結果メモリ、１７・・・切
出し情報メモリ、　　１８・・・類似文字判定部、　　
１９・・・類似文字テーブルメモリ、２０・・・出力部
。

Claims

【特許請求の範囲】

（１）日本語文章を処理する文字認識装置において、行
毎に標準文字面積に対する各文字の面積の比を文字面積
比として検出し、辞書照合による認識結果候補中の予め
定めた類似文字は、それについて検出された文字面積比
と予め用意された標準の文字面積比との照合によって、
その識別を行うことを特徴とする類似文字識別方法。