JPH1021337A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH1021337A
JPH1021337A JP8172619A JP17261996A JPH1021337A JP H1021337 A JPH1021337 A JP H1021337A JP 8172619 A JP8172619 A JP 8172619A JP 17261996 A JP17261996 A JP 17261996A JP H1021337 A JPH1021337 A JP H1021337A
Authority
JP
Japan
Prior art keywords
character
matching
candidate
similar
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8172619A
Other languages
English (en)
Inventor
Tatsuya Aoyama
達也 青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP8172619A priority Critical patent/JPH1021337A/ja
Publication of JPH1021337A publication Critical patent/JPH1021337A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字を含む画像中の文字認識において、類似
文字間での誤認識の率を低減する。 【解決手段】 文字を含む画像中から文字を認識する文
字認識装置10において、第一マッチング手段20におい
て、まず加工手段22により原画像データSの画素数を間
引く加工をおこない、その加工されたデータについてマ
ッチング手段24によりマッチングを行う。次に、判定手
段30により第一マッチング手段20による各認識対象文字
の第一候補文字が単数または複数の類似文字を有する所
定文字であるか否かを判定し、判定手段30において第一
候補文字が所定文字と判定された対象文字について、精
度の高い第二マッチング手段40により原画像データSに
ついてマッチングを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字を含む画像中
から文字を認識する装置に関するものであり、詳細には
テンプレートを用いて文字のパターンマッチングを行う
文字認識装置に関するものである。
【0002】
【従来の技術】従来より、文字を含む画像から文字を認
識するための方法として、認識すべき文字のテンプレー
ト(候補文字)を用意し、画像中の文字と比較して認識
を行うテンプレートマッチングという方法が知られてい
る。この方法は、画像上の認識対象領域と全てのテンプ
レートとを順次マッチングさせ、マッチング結果が最も
良いテンプレートの文字を認識結果とするものであり、
認識対象領域が指定されていない場合は画像上での認識
対象領域を順次ずらして、画像全面に対してマッチング
をとっていく。
【0003】以下、一般的なテンプレートマッチングに
よる認識方法を説明する。画像パターンfとテンプレー
トパターンgが、それぞれ図3に示すような大きさと位
置関係にあるとき、画像の点(m,n)における画像パタ
ーンfと、テンプレートパターンgの類似度は、以下に
示す評価関数で表される。
【0004】
【数1】
【0005】ここで通常、R(m,n)は相互相関係数と呼
ばれ、領域Dは、|i-m|<M/2,|j-n|<N/2を満たす
(i,j) の範囲である。画像上でテンプレートを動か
して順次、画像とテンプレートとの類似度を上記の相互
相関係数Rにより判別する。相互相関係数Rの値は大き
いほど画像の(m,n)を中心としてテンプレートに近い
図形が存在すること、すなわち、画像とテンプレートと
の相関が強いことを示し、画像とテンプレートとが完全
一致で1の値、全くの不一致で0の値をとる。通常、最
も相互相関係数Rの評価値が最大のものを認識結果(第
一候補文字)とする。
【0006】従来の文字認識装置においては、一つのマ
ッチング手段によるマッチングによって一律に評価値の
最大のものを認識結果として確定している。
【0007】
【発明が解決しようとする課題】しかしながら、例えば
I(大文字のアイ),1(数字の1),l(小文字のエ
ル)のように、互いに似た文字(以下、類似文字とい
う)の間ではもともとマッチング時の評価値に差があま
りなく誤認識が生じやすい。この誤認識は、文字が少し
でも絵柄と重なった場合、あるいはスキャナ等による画
像読み取り時に誤差があった場合等には、さらに生じや
すくなり認識結果とされた文字の信頼性はかなり低くな
る。
【0008】このような場合において、間違った認識結
果がそのまま登録されると、使用者がそれに気づかずそ
の認識結果を用いてファイリングを行い、後に検索しよ
うとする時や、認識結果を用いて行う文書作成時等にお
いて障害となる。なお、これらの誤認識文字について
は、後に使用者による修正処理等が必要となり、自動認
識によって処理の高速化を図ったにも拘わらず、かえっ
て手間がかかる場合が生じる。
【0009】本発明は、上記事情を鑑みてなされたもの
であって、迅速にかつ精度良く文字を認識する文字認識
装置を提供することを目的とするものである。
【0010】
【課題を解決するための手段】本発明の文字認識装置
は、文字を含む画像中から該文字をパターンマッチング
を行い認識する文字認識装置において、前記文字と候補
文字とを第一のマッチング精度でマッチングを行いマッ
チング評価関数の評価値が最大である候補文字を第一候
補文字とする第一マッチング手段と、前記第一候補文字
が、単数または複数の類似文字を有する所定文字である
か否かを判定する判定手段と、前記判定手段により前記
第一候補文字が前記所定文字であると判定された文字に
ついて、前記第一のマッチング精度よりも高精度な第二
のマッチング精度でマッチングを行う第二のマッチング
手段とを備えることを特徴とするものである。
【0011】すなわち、本発明の文字認識装置は、類似
文字を有し誤認識し易い文字について、高精度なマッチ
ングを行うことにより誤認識の率を低減するものであ
る。
【0012】ここで、「文字」の語は、漢字、かな、英
文字、数字、記号等の総称として用いる。また、「候補
文字」とは、パターンマッチングにおいて一般に用いら
れるテンプレートに担持された文字のことをいう。
【0013】前記第一のマッチング精度よりも高精度な
前記第二のマッチング精度でマッチングを行うとは、よ
り正確な文字認識を行うことができる精度でマッチング
を行うということである。具体的には例えば、第一のマ
ッチング精度において用いる画像データよりも全体的に
高密度なデータを使用してマッチングを行う、あるい
は、第一のマッチング精度において用いる画像データと
同じ密度のデータ又はより高密度のデータを用い、前記
第一候補文字と前記類似文字との違いを特徴付ける文字
部分に重み付けした評価関数を用いてマッチングを行
う、さらには、その文字部分のみを切り出してマッチン
グを行う等が挙げられる。
【0014】
【発明の効果】本発明の文字認識装置は、第一マッチン
グ手段による第一候補文字が類似文字を有する文字であ
る場合、それら類似文字と誤認識の可能性があるとみな
し、第一マッチング手段のマッチング精度より高精度な
マッチング精度を用いる第二マッチング手段により再度
マッチングを行うので、従来の文字認識装置と比較して
類似文字間での誤認識を大幅に低減することができ、精
度良く文字を認識することができる。
【0015】
【発明の実施の形態】以下、本発明の文字認識装置の具
体的な実施の形態について説明する。
【0016】本発明の実施の形態を図1に示す。本文字
認識装置10は、原画像データSを入力され、文字パター
ンマッチングを行う第一マッチング手段20と、該第一マ
ッチング手段20による各マッチング対象文字(以下対象
文字と称す)についての第一候補文字が単数または複数
の類似文字を有する所定文字であるか否かを判定する判
定手段30と、該判定手段30により第一候補文字が所定文
字であると判定されたマッチング対象文字について、第
一候補文字とその類似文字との違いを特徴付ける文字部
分のマッチングに重み付けをした評価関数を用いて再度
マッチングを行う第二マッチング手段40とからなる。
【0017】第一マッチング手段20は、処理の高速化の
ため、入力された原画像データSからデータを間引くデ
ータ加工手段22と、該データ加工手段22により加工され
たデータに対して辞書25の有するテンプレート5を用い
てマッチングを行うマッチング手段24とからなる。
【0018】判定手段30は、類似文字を有する文字が予
め登録され、第一マッチング手段20によるマッチングに
よって対象文字の第一候補文字とされた文字が所定文字
である、すなわち登録されている文字のいずれかに該当
するものであるか否かを判定するものである。例えば、
I(大文字のアイ),1(数字のイチ),l(小文字の
エル)は互いに類似であり、それぞれ類似文字を有する
文字である。またCとG、O(大文字のオー),Q(大
文字のキュー),0(数字のゼロ)等も互いに類似文字
である。
【0019】第二マッチング手段40は、判定手段30にお
いて第一候補文字が所定文字であると判定された文字に
ついて、第一マッチング手段20におけるマッチング精度
より高精度なマッチング精度で再度マッチングを行うも
のであり、判定手段30に登録されている所定文字につい
てのテンプレート5’を有する辞書45を備えるものであ
る。
【0020】次に、上記本発明の文字認識装置の実施の
形態における作用を説明する。
【0021】文字認識装置10は、文字を含む原画像デー
タSを入力され、第一マッチング手段20において、まず
処理の高速化を図るために加工手段22により画像データ
Sからデータが間引かれて加工データが生成される。例
えば、原画像が画素数(2n×2m)であるとき、(n
×m)画素へと画素密度を低減するように原画像データ
が加工される。加工された画像データについて、マッチ
ング手段20により辞書25の有するテンプレート5を用い
てマッチングを行う。マッチングには既述の評価関数R
を用い、各文字について評価関数の評価値が最大の候補
文字を第一候補文字とする。
【0022】次に、判定手段30において、第一マッチン
グ手段20による各対象文字についての第一候補文字が類
似文字を有する所定文字であるか否かを判定する。ここ
で所定文字とは、予め判定手段30に登録されている文字
のことである。判定手段30により第一候補文字が類似文
字なしと判定された文字はそのまま認識文字として登録
される。一方、第一候補文字が類似文字有りと判定され
た文字については第二マッチング手段において再びマッ
チングを行う。
【0023】第二マッチング手段40は、高精度なマッチ
ング結果を得るために、文字認識装置10に最初に入力さ
れる原画像データSの(2n×2m)画素データを用い
てマッチングを行う。このマッチングの際には、第一候
補文字とその類似文字との違いを特徴付ける文字部分の
マッチングに重み付けをした評価関数を用いる。違いを
特徴付ける文字部分とは、例えば図2に示す各文字の楕
円で囲んだ部分のことであり、重み付けした評価関数と
は、対象文字領域と候補文字テンプレートとの楕円領域
の一致率が高いものほど評価値が高くなるように設定し
た評価関数である。なお、この第二マッチング手段40に
おける評価関数の評価値が最大であるものが最終的に認
識文字として登録される。
【0024】上述のように、本発明の文字認識装置は、
互いに異なるマッチング精度を用いる第一および第二マ
ッチング手段を有して第一マッチング手段によるマッチ
ング結果が疑わしいと判断される文字については第二マ
ッチング手段によるマッチングを行い、最終的に認識文
字を確定するので、高精度なマッチング結果を得ること
ができる。また、類似文字を有さない文字については画
素密度の低いデータを用いてマッチングを行うため、高
速な処理をすることができる。
【0025】なお、第二マッチング手段によるマッチン
グは、上述の重み付き評価関数を用いるマッチングに限
るものではなく、第一マッチング手段において用いたも
のと同様の評価関数を用いて、単に高密度なデータ数の
画像に対して行うものであってもよいし、さらには、第
一候補文字と類似文字との違いを特徴付ける文字部分を
含む領域のみを切り出し、その領域についてのみマッチ
ングを行うものであってもよい。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文字認識装置の概略
ブロック図
【図2】類似文字の違いを特徴付ける部分を示す図
【図3】文字パターンマッチング方法を説明する図
【符号の説明】
5,5’ テンプレート 10 文字認識装置 20 第一マッチング手段 22 加工手段 24 マッチング手段 25 辞書 30 判定手段 40 第二マッチング手段 45 辞書

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字を含む画像中から該文字をパターン
    マッチングを行い認識する文字認識装置において、 前記文字と候補文字とを第一のマッチング精度でマッチ
    ングを行いマッチング評価関数の評価値が最大である候
    補文字を第一候補文字とする第一マッチング手段と、 前記第一候補文字が、単数または複数の類似文字を有す
    る所定文字であるか否かを判定する判定手段と、 前記判定手段により前記第一候補文字が前記所定文字で
    あると判定された文字について、前記第一のマッチング
    精度よりも高精度な第二のマッチング精度でマッチング
    を行う第二のマッチング手段とを備えることを特徴とす
    る文字認識装置。
  2. 【請求項2】 前記第二のマッチング精度が、前記第一
    のマッチング精度において用いる画像データよりも高密
    度なデータに対してマッチングを行うものであることを
    特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】 前記第二のマッチング手段が、前記第一
    候補文字と前記類似文字との違いを特徴付ける文字部分
    に重み付けした評価関数を用いてマッチングを行うもの
    であることを特徴とする請求項1または2いずれか記載
    の文字認識装置。
  4. 【請求項4】 前記第二のマッチング手段が、前記第一
    候補文字と前記類似文字との違いを特徴付ける文字部分
    を含む画像領域を切り出してマッチングを行うものであ
    ることを特徴とする請求項1または2いずれか記載の文
    字認識装置。
JP8172619A 1996-07-02 1996-07-02 文字認識装置 Withdrawn JPH1021337A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8172619A JPH1021337A (ja) 1996-07-02 1996-07-02 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8172619A JPH1021337A (ja) 1996-07-02 1996-07-02 文字認識装置

Publications (1)

Publication Number Publication Date
JPH1021337A true JPH1021337A (ja) 1998-01-23

Family

ID=15945240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8172619A Withdrawn JPH1021337A (ja) 1996-07-02 1996-07-02 文字認識装置

Country Status (1)

Country Link
JP (1) JPH1021337A (ja)

Similar Documents

Publication Publication Date Title
US20220398399A1 (en) Optical character recognition systems and methods for personal data extraction
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN119337866A (zh) 一种ocr病历文本的纠错方法
JPH1021337A (ja) 文字認識装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP2017146841A (ja) 文字認識装置、文字認識方法、およびプログラム
JPH09274645A (ja) 文字認識方法および装置
JP3074691B2 (ja) 文字認識装置
JPH1021324A (ja) 文字認識装置
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JP3115139B2 (ja) 文字切り出し方法
JP2963474B2 (ja) 類似文字識別方法
JP2922949B2 (ja) 文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JPH0546803A (ja) 認識結果の出力方法
JP2001092924A (ja) パターン認識方法および装置
JP3033904B2 (ja) 文字認識後処理方法
JP3665435B2 (ja) 文字認識装置および文字認識方法
JPH07160820A (ja) 文字認識方法
JPH08167005A (ja) 文字認識装置
JPH05114047A (ja) 文字切り出し装置
JPH08235304A (ja) 文字認識装置
JP2005346607A (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JPH0567238A (ja) 文字読取装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030902