JPH0546811A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0546811A
JPH0546811A JP3205175A JP20517591A JPH0546811A JP H0546811 A JPH0546811 A JP H0546811A JP 3205175 A JP3205175 A JP 3205175A JP 20517591 A JP20517591 A JP 20517591A JP H0546811 A JPH0546811 A JP H0546811A
Authority
JP
Japan
Prior art keywords
character
feature
pattern
patterns
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3205175A
Other languages
English (en)
Inventor
Hiroshi Yoshida
浩史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3205175A priority Critical patent/JPH0546811A/ja
Publication of JPH0546811A publication Critical patent/JPH0546811A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 筆記者の癖等により変形した文字でも正しく
認識できる高性能な文字認識装置を提供する。 【構成】 文書画像中の一定の範囲より文字パタンが切
り出されると、特徴抽出部103において特徴抽出が行
われ、特徴分類部105において文字パタンを特徴間の
距離によって1以上の集合に分類する。特徴選択部10
6は分類された各集合における文字パタンの特徴を代表
する代表特徴を選択し、文字認識手段107は代表特徴
を辞書と照合することにより各集合単位に文字認識を行
う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、高精度な文字認識装
置に関するものである。
【0002】
【従来の技術】従来提案されている文字認識装置として
は、文献:特開昭57−31088に開示されているも
のがある。上記文献の文字認識装置の文字認識の方法
は、まず、文字図形を記載した記録媒体からの光信号を
光電変換して、黒ビット及び白ビットで表されるディジ
タル信号の原パタンを作成し、得られた原パタンから水
平方向、垂直方向、左斜め方向及び右斜め方向の線素成
分を表すサブパタンを抽出し、当該サブパタンを複数の
領域に分割し、該当分割された各領域毎に前記サブパタ
ンの線素を表す特徴量を抽出し、特徴マトリクスを抽出
する。そして、特徴マトリクスを予め用意した文字図形
パタンの標準文字マスクと照合して文字図形の認識を行
うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たような従来の文字認識装置においては、予め用意した
標準マスクと当該文字パタンの照合を行い、認識を行っ
ているので、標準パタンと字形が多少でも変化すると、
誤読文字が増え、認識率が低くなると言う問題があっ
た。特に、筆記者に依存する癖字等に対してこの問題は
顕著であり、例えば、文書全体を見れば癖字は癖字で1
グループを形成しており、他の文字との識別も可能であ
るのに、1文字づつの文字パタンを標準マスクと照合し
た場合には、他の標準マスクとの距離の方が小さく、誤
読してしまうことが多く、例えば手書き文字の認識装置
を実用化する上での大きな障害であった。
【0004】例えば、第5図を例に概念的に説明をすれ
ば、今、簡単のため2次元上示した特長空間を考える
と、「は」「な」の文書中での特長の分布が第5図
「〇」で示したように分布していたとする。第5図の分
布からは、この帳票の筆記者は「な」の特長の分布が広
く「は」に近い方向に分布していることがわかる。今第
5図Aなる文字パタンを考えると、本パタンは文書中の
他のパタンの分布からみても「な」であるのに、標準マ
スクとの距離でみれば、「は」との距離aのほうが、
「な」との距離bより短く、従来の装置では「は」が認
識結果とされてしまうのである。従って、従来の文字認
識装置では、文字パタンが変形すると、認識率が低下
し、そのため修正作業が必要となり、故に操作が煩雑と
なり、効率よく高精度に文字データを入力できる、高性
能な文字認識装置が実現できなかった。
【0005】この発明はこのような点に鑑みなされたも
のであり、従ってこの発明の目的は、変形しているよう
な文字、つまり筆記者の癖字のような文字でも正確に認
識が出来、従って修正作業が不必要であり、故に高速で
高精度に文字データの入力が可能であるような高性能な
文字認識装置を提供することにある。
【0006】
【課題を解決するための手段】この発明は、媒体上の文
書画像より画像データを得る画像入力手段と、前記画像
データより文字パタンを切り出す文字切り出し手段と、
切り出された文字パタンから特徴抽出を行う特徴抽出手
段と、前記文字パタンを認識する文字認識手段を具える
文字認識装置において、前記画像データ中の一定の範囲
より得られた文字パタンを特徴間の距離により1以上の
集合に分類する特徴分類手段と、分類された各集合にお
ける文字パタンの特徴を代表する代表特徴を作成する特
徴選択手段を備え、前記文字認識手段は、分類された各
集合の前記代表特徴を用いて各集合を単位として文字認
識処理を行い、その結果得られた候補文字を当該集合を
構成している文字パタンの認識結果とすることにより、
前記文字パタンの認識を行うことを特徴とする。
【0007】
【作用】この発明の文字認識装置によれば、文書画像中
の一定の範囲より得られた文字パタンから特徴抽出が行
われ、特徴間の距離によって1以上の集合に分類され
る。特徴選択部は分類された各集合を代表する代表特徴
として、例えば当該集合を構成する特徴の平均値を選択
し、この特徴を辞書の特徴と比較することにより集合単
位で文字認識を行い、得られた候補文字を当該集合を構
成する文字パタンの認識結果とする。従って、筆記者の
癖字のような文字の変形による影響を吸収して精度よく
認識することが出来、前記目的が達成される。
【0008】
【実施例】以下、図1〜図5を用いて、この発明の文字
認識装置の一実施例について説明する。。
【0009】図1は、実施例の文字認識装置の一実施例
を概略的に示したブロック図である。この文字認識装置
100は、画像入力部101、文字切り出し部102、
特徴抽出部103、特徴記憶部104、特徴分類部10
5、特徴選択部106、文字認識部107、出力部10
8、及び出力端子109を具える。図2は、この説明に
おいて用いる認識対象の帳票の例であり、200は帳
票、201は文字記入枠である。図3は、特徴記憶部1
04の説明をする図である。図4は、文字認識部107
の説明をする図である。図5は、本発明を概念的に説明
する図である。
【0010】以下に、各構成成分の動作について詳細に
説明する。画像入力部101は、例えば従来公知のイメ
ージセンサ等で構成出来、文字・図形等(以下、文字と
称する。)が記載された例えば図2に示すような帳票2
00からの光信号Sを、例えば文字線部を黒ビット、背
景部を白ビットで表現した2値のディジタル信号(これ
を帳票画像データという)に変換し、この帳票画像デー
タを文字切り出し部102に出力するものである。
【0011】文字切り出し部102は、画像入力部10
1より入力された帳票画像データを、文字行方向を主走
査方向として、また文字列方向を副走査方向として順次
走査し、黒画素の分布を作成し、該黒画素の分布が
「0」から「1」以上に変化する位置から、「1」以上
から「0」に変化する位置の直前の位置までを文字行デ
ータとして検出することにより文字行を切り出し、さら
にこの文字行より1文字づつの文字パタンを切り出し、
該切り出した文字パタンを、特徴抽出部103に出力す
るものである。
【0012】ここで、前記文字行からの文字パタンの切
り出しは、前記切り出された文字行データを、文字列方
向を主走査方向、文字行方向を副走査方向として走査
し、黒画素の分布を作成し、該黒画素の分布が「0」か
ら「1」以上に変化する位置から、「1」以上から
「0」に変化する直前の位置までを文字パタンデータと
して順次切り出すことにより行う。
【0013】特徴抽出部103においては、文字切り出
し部102より入力された文字パタンより、以下に述べ
るような文字パタンの部分領域毎の文字線量を表す特徴
を抽出し、該特徴を順次特徴記憶部104に格納するも
のである。
【0014】まず、文字パタンよりサブパタンを抽出す
る。入力された文字パタンを複数の方向に走査し、各走
査線上で予め定めた特定の値h(本実施例ではh=5)
以上連続している黒画素列を検出し、該連続した黒画素
列をサブパタンの黒画素成分として抽出することによ
り、文字パタンより各走査方向別のサブパタンを抽出す
る。本実施例では、前記走査の方向は、文字行方向(以
下、X軸方向)に垂直な方向(垂直方向)、及び平行な
方向(水平方向)、X軸から反時計方向45°の方向
(左斜め方向)及び時計方向45°の方向(左斜め方
向)とし、各方向別に4個のサブパタンを抽出する。
【0015】次に、前記抽出された各方向のサブパタン
上に、文字パタンの文字外接枠に対応する方形領域を設
定し、該方形領域をN×M個(N、Mは任意好適な自然
数)の小領域に分割し、各小領域に含まれる各サブパタ
ンの文字線の長さを表す特徴量を抽出し、該特徴量を文
字外接枠の大きさで正規化し、特徴量fi からなる特徴
マトリクスFを作成する。
【0016】尚、本実施例では、前記分割数N、M=8
とし、また前記特徴量の文字外接枠の大きさでの正規化
は(dX+dY)/2なる値で正規化するものとする。
但し、dXは文字外接枠の水平方向の長さ及びdYは文
字外接枠の垂直方向の長さである。また特徴量fi は、
各小領域に1〜N×Mまでの番号i(i=1、2、…、
N×M)を順次に付けて小領域を表したときに、番号i
の小領域の特徴量を表し、特徴マトリクスFの要素値で
ある。
【0017】特徴記憶部104は、文字切り出し部10
2において切り出された文字パタン毎に、該文字パタン
の特徴、後述する特徴分類結果等を格納しておく記憶部
であり、ICメモリ、ハードディスク等の記憶装置で実
現できる。図2に例示した帳票からは図3に示すよう
に、各文字毎の文字番号に対応づけて、特徴アドレス、
分類番号が格納される。尚、前述した特徴抽出部103
から入力された各文字の特徴マトリクスは、本実施例の
特徴記憶部においては、新たなメモリ領域に順次格納し
ておく構成としてあり、図3に示したテーブル部分に
は、当該特徴マトリクス格納領域の先頭アドレスのみを
格納してある。
【0018】特徴分類部105においては、前記文字切
り出し部102において一定の領域から切り出された文
字パタンについて前記特徴の抽出が終了したら、類似し
た特徴毎に複数の集合に分類し、該分類結果を前述した
特徴記憶部104に記憶する。尚、本実施例では、前記
一定の領域とは帳票1枚を示すものとし、以下の処理は
帳票毎に行うものとする。
【0019】前記、分類の方法は本実施例では以下のよ
うに行う。 まず、第1番目の文字パタンを第1番目の集合の文
字パタンとすると同時に第1番目の集合の代表文字パタ
ンとする。
【0020】 次に以降の文字パタンの特徴マトリク
スを順次調べ、第1番目の集合の文字パタンの特徴マト
リクスとの距離Dを次式(1)により求める。その結果
D<Tであったならば、当該文字パタンは第1番目の集
合に属する文字パタンと判定し、集合を識別するための
フラグを付与して特徴記憶部104に格納する。
【0021】
【数1】
【0022】但し、fi は対象の文字パタンの特徴マト
リクスの要素値を表し、gi は当該集合の代表文字パタ
ンの特徴マトリクスの要素値を表す。また、Tは集合間
の距離に関するパラメータであり、本実施例では全ての
辞書マトリクス相互の距離の平均値の1/2をTとす
る。
【0023】 全ての文字パタンについて、前記の
判定を行った後、再度第1番目の文字パタンから順に調
べ、第1番目の集合に属していない文字パタンを検索
し、最初に得られた文字パタンを第2番目の集合の文字
パタンとすると共に第2番目の集合の代表文字パタンと
する。
【0024】 さらに第1番目の集合に属していない
文字パタンを検索し前記と同様に(1)式により距離
計算を行いD<Tのときに当該文字パタンは第2の集合
に属するものと判定する。
【0025】 以降、、と同様にして一つの集合
について文字パタンの判定が終了したら、再度文字パタ
ンを順に調べ、未だ何れの集合にも属していない文字パ
タンが存在した場合には当該文字パタンを新たな集合の
文字代表パタンとし、未だ何れの集合にも属していない
文字パタンに付いて前記代表文字パタンとの距離Dを前
記(1)式を用いて計算し、D<Tの場合には当該文字
パタンを当該集合の文字パタンとしてフラグを付与する
という処理を繰り返し行う。
【0026】 前記の結果、全ての文字パタンが何
れかの集合に属していた場合は、分類の処理を終了す
る。
【0027】特徴選択部106においては、前記文字分
類部105により分類された各集合の文字パタンより、
各集合の代表特徴としての代表特徴マトリクスを作成
し、文字認識部107に出力する。本実施例では、前記
特徴分類部105における分類結果に基づき、当該集合
に属している文字パタンの特徴マトリクスの平均を求
め、当該集合の代表特徴マトリクスとする。従って、図
3の例で示せば各集合に属する文字、例えば第1の集合
であれば文字番号1、3、9、11の各文字パタンの特
徴マトリクスの平均の特徴マトリクスが算出され、第1
の集合の特徴マトリクスとなる。
【0028】文字認識部107に置いては、特徴選択部
106より入力された各集合の特徴マトリクスを、図示
せぬ予め用意された辞書マトリクスと照合し、次式
(2)で表される類似度Rを求め、類似度Rが最も大き
い辞書マトリクスの文字名を認識結果の文字名とし、各
集合毎の認識結果の文字名を得出力部109に出力す
る。
【0029】
【数2】
【0030】但し、fi は各集合の代表特徴マトリクス
の要素値を表し、gi は辞書マトリクスの要素値を表
す。
【0031】出力部108は文字認識部107より入力
された各集合毎の認識結果の候補文字名を、順次図示せ
ぬ出力部108内の対応テーブルに記憶しておき、特徴
記憶部104を参照して、先頭文字より順次当該文字パ
タンの属する集合を調べ、当該集合の前記対応テーブル
に記憶してある認識結果を当該文字パタンの認識結果と
して出力する。
【0032】以上、この発明の文字認識装置の実施例に
ついて詳細に説明したが、この発明は上述の実施例のみ
に限られるものではなく以下に説明するような種々の変
形が可能である。
【0033】例えば本実施例では、文字パタンの分類、
認識に用いた特徴は、各文字パタンよりサブパタンを抽
出し、また各文字パタンを部分領域に分割し、各部分領
域毎に前記サブパタンの文字線の量を表す特徴値を抽出
し、特徴マトリクスを作成する方法であったが、これに
限られるものではなく従来公知の種々の方法を用いてよ
い。
【0034】また、本実施例では式(1)において、g
i として当該集合の代表文字パタンの要素値を用いた
が、例えばそれまでの分類で当該集合に属している全て
の文字パタンの特徴の平均値によりgi の値を逐次更新
するようにしてもよい。この他に周知の手法、例えば、
クラスタ解析の手法を用いて分類することも出来る。
【0035】また、特徴分類、特徴選択、文字認識等の
処理は、本実施例では帳票1枚毎に行うものとしたが、
これに限られるわけではなく、例えば一連の文書全体、
読取りフィールド毎等としても良い。
【0036】さらに、画像入力の方法、文字行及び文字
パタンの切り出し方法、特徴記憶部における記憶データ
の種類、形式、文字認識の方法等も、本実施例に示した
方法に限られるものではなく他の好適な方法を用い得る
ことは明かである。
【0037】
【発明の効果】上述したように、この発明の文字認識装
置は、画像データ中の一定の範囲より得られた文字パタ
ンを、1以上の集合に分類し、分類された文字パタンの
集合から選択された代表特徴により各集合単位に認識処
理を行い、その結果得られた候補文字を当該集合を構成
している文字パタンの認識結果とすることにより、文字
パタンの認識を行うようにしたので、変形しているよう
な文字、つまり筆記者の癖字のような文字でも正確に認
識が出来、従って修正作業が不必要であり、故に高速で
高精度に文字データの入力を可能とする高性能な文字認
識装置が実現できる。
【図面の簡単な説明】
【図1】本発明の文字認識装置の一実施例を示す装置の
構成図である。
【図2】文字認識用帳票の一例を示す図である。
【図3】特徴記憶部の説明に供する図である。
【図4】文字認識部の説明に供する図である。
【図5】本発明を概念的に説明する図である。
【符号の説明】
100 文字認識装置 101 画像入力部 102 文字切り出し部 103 特徴抽出部 104 特徴記憶部 105 特徴分類部 106 特徴選択部 107 文字認識部 108 出力部 109 出力端子

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 媒体上の文書画像より画像データを得る
    画像入力手段と、前記画像データより文字パタンを切り
    出す文字切り出し手段と、切り出された文字パタンから
    特徴抽出を行う特徴抽出手段と、前記文字パタンを認識
    する文字認識手段を具える文字認識装置において、 前記画像データ中の一定の範囲より得られた文字パタン
    を特徴間の距離により1以上の集合に分類する特徴分類
    手段と、 分類された各集合における文字パタンの特徴を代表する
    代表特徴を作成する特徴選択手段を備え、 前記文字認識手段は、分類された各集合の前記代表特徴
    を用いて各集合を単位として文字認識処理を行い、その
    結果得られた候補文字を当該集合を構成している文字パ
    タンの認識結果とすることにより、前記文字パタンの認
    識を行うことを特徴とする文字認識装置。
JP3205175A 1991-08-15 1991-08-15 文字認識装置 Pending JPH0546811A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3205175A JPH0546811A (ja) 1991-08-15 1991-08-15 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3205175A JPH0546811A (ja) 1991-08-15 1991-08-15 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0546811A true JPH0546811A (ja) 1993-02-26

Family

ID=16502669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3205175A Pending JPH0546811A (ja) 1991-08-15 1991-08-15 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0546811A (ja)

Similar Documents

Publication Publication Date Title
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
CA2046776C (en) Segmentation process for machine reading of handwritten information
CA1160347A (en) Method for recognizing a machine encoded character
US5280544A (en) Optical character reading apparatus and method
CN111814722A (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
EP0629078A1 (en) Apparatus for processing and reproducing image information
JPS6159568A (ja) 文書処理装置
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
US5926564A (en) Character recognition method and apparatus based on 0-1 pattern representation of histogram of character image
JPH0256708B2 (ja)
JPH09319824A (ja) 帳票認識方法
EP0042968B1 (en) Multi-registration in optical character recognition
JPH0546811A (ja) 文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JP3948943B2 (ja) 図形認識方法及び装置
JP3277977B2 (ja) 文字認識方法
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JP2995818B2 (ja) 文字切り出し方法
JP3193472B2 (ja) 複合的な情報の構築方式
JP2671533B2 (ja) 文字列認識方法及びその装置
CN119904884A (zh) 一种基于图像识别的会计凭证分类方法及系统
JP3127413B2 (ja) 文字認識装置
JPH08241378A (ja) 低品質文字の認識方法