JPS60225986A

JPS60225986A - 文字認識装置

Info

Publication number: JPS60225986A
Application number: JP59081998A
Authority: JP
Inventors: Yoshikatsu Nakamura; 中村　好勝
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1984-04-25
Filing date: 1984-04-25
Publication date: 1985-11-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕この発明は文字認識装置に怠ける前処理方法に関する。

〔発明の技術的背景とその問題点〕

我国に於ける文字認識技術は、手書数字の読取りから始
まり１手書き、又は印刷漢字まで読取る０ＣＲ（光学的
文字読取装置へと商用化が進んでいる。＠１図はこのよ
うな漢字ＯＣＲの概略機能ブロック図であり、帳票上か
ら光電変換、量子化された帳票イメージから文字を検出
しその文字領域を切出丁１１文字検切部、検出され文字
を１２正規化回路によって、標準パターンと同一の空間
次元数に入力文字パターンサイズを正規化し、識別的処
理として、１３標本化部によって１ボケ“の処理をし、
１４１１別計算部へ入力する。−刀先に検出された文字
イメージは、１５大分類部によって、大局的な特徴を補
え、それらの特徴から１６標準パターンとして格納され
た読取対象文字種中の候補文字種を限足し、１４識別計
算部を起動させ、類似度など計算結果を出力する。日本
語入力における読取対象文字種は、カタカナ、ひらがな
。

数字、英字、漢字からなり、その文字数は数千字種に達
する多さとなり、大局的特徴抽出によって識別計算する
標準パターンを限定することによりて、その識別処理時
間を大幅に短縮している。

しかし、漢字認識ということで、第１図に示すように読
取対象文字種の内最も複雑な字体を基準として標準パタ
ーンが設計されているため、英数カナを読取対象とした
ＯＣＲに比べて、３倍から４倍の次元数をもち、読取対
象文字種の多さが加わって約１００倍もの標準パターン
情報量をもたなければならず、このことが先に述べた大
分類部による識別対象文字種の限定があっても、十分な
効果を発せず、高速な読取を行うには、ハードウェアと
して回路の並列化、パイプライン化によって行われ、非
常に高価ｔものとなっている。

また伝票など数、英字のみで記入された帳票等を読取る
場合についても同一処理装置によって読取ることとなり
、伝票の高速処理が機能せず、あえて高速化を行うには
、別に用意した英、数字専用の認識機能を並置して処理
することとなり高価格な装置となっている。

〔発明の目的〕

この発明は従来装置の欠点を改良したもので、入力文字
の大局的特徴から簡易な文字を高速処理し、英数字等の
データエントリの場合、漢字まじり日本語入力の場合に
ても高速に伝票処理できる文字認識装置を提供すること
を目的とする。

〔発明の概要〕

この発明は入力文字の文字線の複雑さを簡易な方法によ
って大局的に捕えることにより、複雑さに応じて、識別
次元数を変えることにより、簡易な文字は低次元、複雑
な文字は高次元に表現することで、英数文字で表記され
る帳票、漢字まじり日本語入力帳票の場合も高速処理を
可能としたものである。

〔発明の効果〕

日本語文章入力の場合では、統計的に低字画数の文字、
例えばカタカナ、ひらがな、英字、６画以下の漢字は文
章全体の６０係以上あり、これらが４倍の処理速度で処
理されるものとすれば、帳票の処理速度は倍になる（高
速化が可能）。

また英数字のみで表記される伝票処理においても、重複
して標準パターン、認識回路をもつ必要がないので装置
の価格が低下する。

低字画数の文字種において、その標準パターン次元数が
少なくなるため、標準パターン格納のための記憶装置が
低容量となり、コスト低減に効果がある。

標準パターン記憶のための記１装置が低容量となるに従
い参照回路が減りそのデータ信頼性が向上する。

〔発明の実施例〕

この発明のさらに詳細な説明を図を付して述べる。

第２図はこの発明の一実施例で帳票上に記入された文字
を走査機構、光電変換装置によりて、電気信号に変換し
た文字イメージを、２０イメージバツフフに記憶する。

２０イメージバツフフに蓄積された情報、ならびにあら
かじめ知られている手書き文字が印刷文字か、また英数
字か、漢字かのフォーマット情報３１を受けて一文字毎
に検出切り出し処理を２１検切部で行う。

検出された文字イメージサイズ内を、例えＦ１％許９４
７９３０に述べられ゛る手法等によって検出切出し領域
内を走査し、縦線、横線の数から文字の複雑さをめる。

２２大分類処理部に入力する。

２２大分類処理部によって得られる複雑さの値によって
、あらかじめその複雑さに応じて識別計算時に参照する
標準パターンの候補が選択される。

同時に複雑さの値は、あらかじめ設電された値と比較さ
れ、その糖果入力値が小さければ、入力文字は簡易な構
造をもった文字であるとして、また複雑さの値が閾値よ
り太きけれｄ１複雑な構造をもりた入力文字であるとし
て、この状態を３０制御線を通じて、２３正規化部、２
４標本化部へ転送する。

２３正規化部、２４標本化部は、この３０制御信号によ
って、入力文字の大きさを正規化するに際して第３図に
示すように、複雑を文字は、より情報量を大きく（例え
ば５８Ｘ５８ドツト）、簡易な文字は（例えば２９Ｘ２
９ドツト）情報量を少なく入カバターンを拡大、縮少処
理する。２４標本化部はあらかじめ与えられる第４図荷
重テーブルをもって、４１サンプリング点、サンプリン
グピッチ（例えば３ｈ口毎）によって正規化パターンを
標本化処理し、第３図に示す如く、正規化パターン領域
に応じて、多値からなる標本化パターンを第３図に示す
如く得ることとなる。

このようにして処理され得られた標本化パターンは２５
誠別計算部に入力される。

先に大分類処理部によって得られた入カバターンの複雑
さの値により決定された大きさ制御信号３０は、標準パ
ターン選択回路２８へ入力し、あらかじめ用意された、
複１ｅａ１！標準パターン群２７浦易な構造をもった標
準パターン群２６のいずれかが選択される。

２５識別計算回路は、仁のようにして得られた制御信号
３０標本化パターン３２、そして大分類処理部からの出
力によって２６又は２７の標準パターン候補アドレス３
３を出力し、候補数分の識別処理を２５の識別計算部で
処理し、答を出力する。

〔発明の他の実施例〕

この発明の一実施例として、複雑さの値によって、複雑
、簡易の２種に分類したが、この分類は固定したもので
はなく、必要に応じてより細か（分類することによって
、より効果的に発明の効果を得ることができる。

大分類処理部による入カバターンの複雑さをめる例とし
て縦線、横線を文字領域について検出する方法をとった
が、入カバターンの輪隔線長。

文字の黒領域をめることから、前記文字イメージの複雑
さに担当する値をめるなど文字サイズに無関係となるそ
の他部品な方法によっても可能である。

複雑さの値を閾値によって評価する場合、複雑か、簡易
か、閾値に近い値で複雑さがまった場合において、複数
の（複雑、簡易）標本化パターンをめ、それぞれに対応
した標準パターンとの識別計算を行うことによって答を
出力する。

【図面の簡単な説明】

第１図は従来漢字ＯＣＲの処理過程を説明する図、Ｉｌ
！２図は本発明の一実施例を説明する図、第３図は入カ
バターンの複雑さによって識別情報量を２種に分けて処
理する過程を説明する図、第４図は、標本化処理におけ
る荷重テーブルの一例を説明する図である。２０・・・走査文字イメージバッファ、２１・・・検切
部、２２・・・大分類処理部、２３・・・正規化部、２
４・・・標本化部、２５・・・識別計算部、２６・・・
簡易構造をもった標準パターン格納部、２７・・・複雑
な構造をもった標準パターン格納部、２Ｂ・・・標準パ
ターン選択回路。代理人弁理士　則　近　ＩＦ　佑（ほか１名）第　１　
図第　２１！！

Claims

【特許請求の範囲】

文字認識装置において、入力文字パターンの複雑さなど
入力文字の大局的特徴を抽出する手段と、この手段によ
って得られた値によりて入力文字パターンの大きさを正
規化する手段、前記手段によって得られる正規化パター
ンを使用して、識別処理をすることを特徴とする文字認
識装置。