JPH0340186A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0340186A
JPH0340186A JP1176128A JP17612889A JPH0340186A JP H0340186 A JPH0340186 A JP H0340186A JP 1176128 A JP1176128 A JP 1176128A JP 17612889 A JP17612889 A JP 17612889A JP H0340186 A JPH0340186 A JP H0340186A
Authority
JP
Japan
Prior art keywords
character
dictionary
characters
pattern
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1176128A
Other languages
English (en)
Inventor
Toru Matsuo
松尾 徹
Makoto Okazaki
真 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP1176128A priority Critical patent/JPH0340186A/ja
Publication of JPH0340186A publication Critical patent/JPH0340186A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は紙等の記録媒体上に描出された文字を認識する
文字認識装置に関する。
[従来の技術〕 近年、ワードプロセッサ等の普及により、文字をコード
化して記憶することが広く行われている。
そして、コード化して記憶すれば、その記憶容量が少な
くて済み、また共通のコード(例えばJISコード)を
用いれば異なる機種の機械によって認識することも容易
である。更に、コード化した文字データに応じて表示を
行えば、各種要望に応じた所望の表示を行うことができ
る。
このように、文字をコード化して記憶すれば、各種の利
点が得られるが、このためには文字の人列手段としてキ
ーボード等のコードを指定できる手段を要し、既に紙等
に描出された文字からはコドを抽出することができず、
紙等に描出された文字を見ながら、キーボード等を操作
し文字を人力しなければならないという問題点かあった
そこで、これら既に紙等の記録媒体上に描出された文字
を自動的に読取り、これを文字認識してコード化するこ
とが提案されている。このような読取り、コード化がで
きれば、上述のような問題点か解消され、非常に便利で
ある。
すなわち、従来の文字認識装置は、紙等の記録媒体上に
描出された文字を光学的に検出し、これを所定数のドツ
ト毎に2値化してデジタルデータからなる二次元ドツト
パターンとして読取る。そして、この読取り結果を予め
記憶している文字パターンと比較し、最も近い文字パタ
ーンを該当文字として検出する。
このような従来の装置により、紙等に描出された文字が
印刷された活字文字であれば、文字ごとの読取り結果は
、かなり正確であり、活字文字の字体などが認識できれ
ば、かなりの精度の照合を行うことができる。
通常、前述した文字比較は、印刷あるいは手書き文字を
二次元ドツトパターンとして読み取った後、各文字の特
徴切り出しを行い、辞書に記憶されている全文字の各特
徴との比較を行う。
従って、前記比較結果としてのパターン間距離は、実際
上複数の文字でほぼ等しい場合がある。
特に複雑な文字に対しては、特徴か近似した複数の文字
でほぼ等距離の場合があり、単一の入カバターンに対し
てパターン間距離かほぼ等しい複数の候補を選び出すこ
とが多い。
[発明が解決しようとする課題] 従って、従来においては、パターン間距離の最も近い文
字を選択するので、全辞書から選ばれた前記最も距離の
近い文字が出力され、距離は近いがまったく異る文字が
選ばれてしまい、真の文字か選ばれる可能性を低下させ
る原因となっていた。
すなわち、従来の方法においては、使用者の文字使用頻
度を考慮していないために、通常使用されないような文
字が期せずして候補に上げられ、前記パターン間距離が
最少であっても、これらの文字は実際に使用されている
確率が少ないために、誤った候補となる場合が多く、こ
れが使用者にとっての不満の要因となっていた。
本発明は、文字の使用頻度の違いを考慮して、確度の高
い文字認識を行うことができる文字認識装置を提供する
ことを目的とする。
[課題を解決するための手段] 上記目的を達成するために、本発明装置は、辞書を文字
の使用頻度によって複数に分割するとともに、通常は使
用頻度の高い辞書のみでパターン比較を行う文字パター
ン照合部を含む。
そして、本発明装置において、前記文字パターン照合部
は、前記使用頻度の高い辞書との照合結果が所定レベル
以上であった場合には、これを採用し、所定レベル以下
の場合には頻度の低い辞書との照合比較を行うリジェク
トレベル判定部と接続されている。
[作用] 本発明に係る文字認識装置は、上述のような構成を有し
ており、紙等の記録媒体上に描出された文字を二次元ド
ツトパターンとして読み取る。そして、この読み取られ
た結果を使用頻度の高い文字についての標準パターンデ
ータと照合する。そして、この照合において、文字が認
識できなかった場合に使用頻度の低い文字についての標
準パターンとの照合を行う。
従って、極希にしか使用されない文字が認識結果として
誤って出力されることを防止でき、認識結果の精度を高
めることができる。更に、照合を使用頻度に応じて分け
たため、通常の文字については、使用頻度の少ない文字
との照合を省略できるという利点も得られる。
[実施例コ 以下、本発明に係る文字認識装置の実施例について図面
に基づいて説明する。
第1図において、光学的検出部1は紙等の記録媒体P上
に描出された文字Cに光を照射するとともに、その反射
光の強度により、記録媒体P上の濃淡を検出し、2値化
し、二次元ドツトパターンに変換する。次に、この二次
元ドツトパターンを読取りデータ処理部2へ供給する。
読取りデータ処理部2においては、光学的検出部1にお
ける検出結果(2次元ドツトパターン)を文字毎に切り
出し正規化を行う。すなわち、記録媒体P上に通常の手
書き文書が記載されているような場合においては、その
文字量空白部分を用いて一文字毎の分離切り出しを行い
、切り出された一つの文字(人力文字)について、例え
ば60X60の二次元ドツトパターンに変換する。つま
り、入力文字の大きさによっては、この読取りデータ処
理部2によって拡大又は縮小の処理(正規化)を行い、
人力されたデータを所望の大きさの二次元ドツトパター
ンに変換するのである。
そして、このようにして得た二次元ドツトパターンは文
字パターン照合部3に供給される。この文字パターン照
合部3は、予め辞書部4に記憶されている文字毎の標準
パターンデータと読取りブタ処理部2から供給された二
次元ドツトパターンを比較することによって照合処理を
行う。ここで、この照合処理は単にドツト毎の濃淡が一
致するかという比較照合ではなく、読取りデータ処理部
2から供給されたデータについての特徴の抽出を行い、
この抽出された特徴データと標準文字パターンデータの
特徴とを比較することによって行う。そして、この特徴
データの抽出は、例えば60×60ドツトの二次元パタ
ーンデータを3×3のブロック毎に分け、この3×3ド
ツトからなるブロック内の1ドツト毎にそのドツトから
見た右方向又は下方向に線があるか否かによって0″“
1”というようなデジタルデータの集合とすることによ
って行う。また、これら特徴データ同士の照合は、各ド
ツト毎の入力文字と標準パターンとの差についての全体
の二乗和を計算し、検出した文字と辞書に記憶されてい
る標準パターンとのパターン間距離を算出することによ
って行う。
また、上述の特徴データ抽出による文字認識の詳細につ
いては、「文字認識概論」 (橋本新一部編著 け)電
機通信協会 昭和57年3月20日発行)に記載されて
いる。
このようにして得た文字パターン照合部3における文字
毎の照合データはりジェットレベル判定部5において所
定のりジエクトレベルと比較される。すなわち、パター
ン間距離が所定のりジエクトレベルより小さければ、類
似性が大きいとして認識される文字の候補文字として取
り上げられ、このリジェクトレベルより距離が大きけれ
ば異なる文字であるとして採用されない。そして、この
ようにリジェクトレベル以上の候補文字が複数取り上げ
られた場合には、このなかで最も距離の近いものを認識
文字として表示部6に供給する。表示部6はこの認識文
字をデイスプレィD等に表示する。また、必要によって
は複数の候補文字の表示も行う。
ここで、この発明において特徴的なことは、辞書部4に
おいて使用頻度別に文字を分類し、それぞれ別個の辞書
(1)〜辞書(3)として記憶していることである。そ
して、文字パターン照合部3は、その照合処理において
、辞書部4全体に記憶されている文字パターンと比較す
ることなく、使用頻度毎に分類されている辞書毎に比較
を行う。
次に、この実施例の文字認識の手順について第2図に基
づいて説明する。
まず処理を開始した際には、最初に使用頻度の高い文字
についての標準文字パターンを記憶している辞書(1)
を照合対象として採用する(照合対象を辞書(1)に)
。次に、読取りデータ処理部2から供給される人力文字
の二次元ドツトパターンから抽出した特徴データを辞書
(1)からの標準文字パターンについての特徴データと
比較し、パターン間距離を求める(辞書内の文字につい
て文字照合を行う)。そして、このようにして求められ
たパターン間距離を予め記憶しているリジェクトレベル
と比較し、入力文字の特徴データか比較対象となった標
準文字パターンと充分似ているかどうかを判定する(リ
ジェクトレベル判定)。
ここで、このリジェクトレベルとの比較は辞書(1) 
内の全ての標準文字パターンについて行われ、これが全
てリジェクトされたか否かについての判定を行う(リジ
ェクトされたか)。そして、全てリジェクトされたので
あれば、辞書(1)内においては候補文字がなかったこ
ととなるので、次に全辞書について照合を行ったか否か
を判定する(全辞書について照合を行ったか)。今回の
場合はまた辞書(1)についてのみしか照合を行ってい
ないためこの結果はNoとなり、次の辞書に切り換える
こととなる(次の辞書に切り換える)。
そして、辞書を切り換えて次の辞書、すなわち辞書(2
)内の文字等の照合を前回と同様として行う。そして、
辞書(2)内の全ての文字パターンの比較においてもリ
ジェクトレベル以上の文字パターンがなかった場合には
また次の辞書、すなわち辞書(3)に切り換えこの辞書
内の文字パターン等の比較を行う。この辞書(3)にお
いてもリジェクトレベル以上の標準パターンがなかった
場合には、全辞書について照合を行ったが、候補文字が
ないため、候補文字なしと判定し、これを表示すること
となる(候補文字なし)。
一方、辞書(1)’、(2)、(3)のいずれかにおい
て、リジェクトレベル以上の標準パターンがあれば、こ
れを候補文字として認識し、これを記憶する(候補文字
出力)。そして、この入力文字についての照合処理を終
了する。
このように、本発明においては、辞書(1)との照合に
おいてリジェクトレベル以上の類似標準パターンがあれ
ばそれを候補文字として出力して照合処理を終了するこ
ととなる。
すなわち、本実施例の装置によれば、使用頻度の高い順
に辞書(1)、辞書(2)、辞書(3)と順次照合を行
う。そして、辞書(1)において候補文字が挙がれば、
以下の順次のパターン辞書との照合は行わない。そこで
、使用頻度の高い文字が優先的に候補に挙げられる事と
なり、余り使われないような文字が候補に挙がることが
避けられ、全体的な認識精度を向上させることができる
次に、このような文字認識についての全体処理について
第3図に基づいて説明する。
記録媒体に記録された文字についての認識を行う場合に
は、まず記録媒体を所定の部位にセット2 し、これについて光学的な読取りを行う。そして、この
ように読取ったデータについて各文字毎の切り出しを行
い、これを文字毎に辞書内の標準文字パターンと比較し
て照合処理を行う。そして、入力文書全体についての照
合処理を前述のようにして行う(入力文書に対し照合処
理を行う)。そして、このような認識結果に基づいて第
1候補(最もパターン間距離の近い文字)について文字
毎に表示を行いその認識結果についてデイスプレィ等に
表示する(認識結果表示)。そして、使用者は、この表
示を見て誤って認識された文字があるか否かを判定する
(誤認識文字があるか)。誤認識文字がなければ全ての
認識結果が正しいため、修正処理は行う必要がないため
処理を終了する(終了)。
一方、誤認識文字があった場合には、その誤認識文字に
ついて修正を行わなければならない。そこで、カーソル
をその誤認識文字に合わせるなどの手段により、誤認識
文字についての指定を行い、そこで候補文字の表示を行
う(候補文字表示)。
すなわち、上述の一文字毎の認識処理において、リジェ
クトレベル以上の類似性を持つ文字はそれぞれ候補文字
として記憶されているため、誤認識文字が指定されれば
、これについての候補文字を出力することが出来る。そ
して、使用者は、この候補文字の中に正しい文字が含ま
れているか否かを判定する(該当文字は含まれているか
)。該当文字が含まれていれば、候補文字の中からその
文字を選択する(候補文字の選択)。そして、この選択
が行われた場合には、この選択された文字を誤認識文字
である第1候補の文字と入れ換えこの文字による修正を
行う(選択された文字で修正)。
そして、次の文字の修正動作に移る。
また、候補文字表示において該当文字が含まれていなか
った場合には、前回の照合処理において該当文字が出力
されなかったのであるから辞書を切り換えて照合を行う
(辞書を切り換えて照合)。
これは、本実施例の装置においては、辞書が複数分類さ
れて別個に設けられているため、照合処理はそれぞれ辞
書毎に行われる。そして、使用頻度の高い辞書との照合
において候補文字があった場合は次の辞書とは照合して
いない。そこで、該当文字が候補文字中になかった場合
には、次の辞書に該当文字が含まれていると考えられ、
前回候補文字が選択された辞書の次の順位の辞書を選択
して個々に記憶されている文字パターンとの照合処理を
行う。
そして、この次の辞書内の全ての文字パター“ンとの照
合処理を行いここで幾つかの候補文字があれば候補文字
表示に戻り、該当文字が含まれているか否かの判定を行
う。一方、辞書を切り換えて照合したにも拘らず全ての
文字パターンとの照合結果において候補文字が一つもな
かった場合には、次に照合する辞書があるかないかにつ
いての判定を行う(全ての辞書の照合は終わったか)。
そして、残りの辞書があればそれに切り換えて改めて照
合処理を行い、このような処理においても候補文字が出
力されなかった場合にはキーボードより文字を入力する
(キーホードより文字を人力)。
そして、このキーボードより人力した文字を修正5 文字として人力し次の文字の修正動作に移る。
以上のようにして、当初の文字認識において誤りがあっ
た場合における修正を行うことができる。
なお、上記実施例においては、辞書(1)〜辞書(3)
の3つの辞書を採用したが、2つ以上の任意の数とする
ことができる。
また、辞書4の使用頻度別の分類は、予め決定しておい
てもよいが、学習機能等によって随時変更してもよい。
さらに、実施例においては、分類した辞書(1)〜辞書
(3)を物理的に別個に設けたが、辞書4自体は1つと
し、記憶している標準文字パターン毎に辞書(1)〜辞
書(3)の分類を識別する符号を設けて区別してもよい
。また、文字認識において一文字毎の照合結果のみでな
く前後の認識文字との比較により、熟語としての照合処
理を行う機能を付加してもよい。また、上述の特徴デー
タ抽出後の特徴比較によるリジェクトレベルは、文字に
よってリジェクトレベルを非常に小さな距離としてよい
場合も大きな距離としなければならない場合もあるため
、これを文字毎に6 変更するとよい。
[発明の効果コ 以上説明したように、この発明によれば、使用頻度の高
い文字を優先的に照合することができるため、余り使わ
れないような文字が候補としてあげられる可能性か低く
なり、全体的な認識制度を向上させることか出来る。ま
た、使用頻度の低い文字の辞書に際しては、照合を行う
回数が減るため、全体として認識速度の改善をすること
ができる。
【図面の簡単な説明】
第1図はこの発明の実施例の構成を示すブロック図、 第2図は同実施例における文字認識の処理の流れを示す
フローチャート、 第3図は同実施例における文字認識全体の処理の流れを
説明するためのフローチャートである。 1 ・・・ 光学的検出部 2 ・・・ 読取りデータ処理部 3 ・・・ 文字パターン照合部 4 ・・・ 辞書部 リジェクトレベル判定部 表示部

Claims (1)

    【特許請求の範囲】
  1. (1)紙等の記録媒体上に描出された文字を光学的に検
    出し、二次元ドットパターンとして読取る光学的検出部
    と、 この光学的検出部によって読取られた前記二次元ドット
    パターンを正規化等の前処理する読取りデータ処理部と
    、 文字毎の標準パターンデータをその使用頻度に応じて複
    数の辞書に分類して記憶する辞書部と、前記光学的検出
    部と読取データ処理部とによって得られた読取り結果を
    使用頻度の高い文字についての標準パターンからなる第
    1の辞書と比較照合する文字パターン照合部と、 この文字パターン照合部による結果が予め記憶している
    所定レベル以上であった場合にその文字を認識候補文字
    と判定するリジェクトレベル判定部と、を含み、 前記文字パターン照合部は、文字パターン照合部におけ
    る結果が所定レベル以下であった場合に、順次使用頻度
    の低い文字についての標準パターンからなる第2の辞書
    との比較照合を行うことを特徴とする文字認識装置。
JP1176128A 1989-07-07 1989-07-07 文字認識装置 Pending JPH0340186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1176128A JPH0340186A (ja) 1989-07-07 1989-07-07 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1176128A JPH0340186A (ja) 1989-07-07 1989-07-07 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0340186A true JPH0340186A (ja) 1991-02-20

Family

ID=16008159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1176128A Pending JPH0340186A (ja) 1989-07-07 1989-07-07 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0340186A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074268A (ja) * 2000-08-31 2002-03-15 Hewlett Packard Co <Hp> 文字認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074268A (ja) * 2000-08-31 2002-03-15 Hewlett Packard Co <Hp> 文字認識システム

Similar Documents

Publication Publication Date Title
KR100249055B1 (ko) 문자인식장치및방법
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JPH05217025A (ja) オンライン手書き文字認識装置および方法
EP0564827A2 (en) A post-processing error correction scheme using a dictionary for on-line handwriting recognition
US4491965A (en) Character recognition apparatus
JPH0340186A (ja) 文字認識装置
JPS6142083A (ja) 文字認識装置
JP2677271B2 (ja) 文字認識装置
Amin Recognition of printed Arabic text using machine learning
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JPS6146573A (ja) 文字認識装置
JP2877380B2 (ja) 光学的文字読取装置
JPH056464A (ja) 文字列認識方法及びその装置
KR100292352B1 (ko) 형태소 분석을 이용한 인식기의 편집방법
JPH1011541A (ja) 文字認識装置
KR940003828B1 (ko) 온라인 필기체 한글인식 방법
JP2851865B2 (ja) 文字認識装置
JPS6160184A (ja) 光学的文字読取装置
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JPH07107698B2 (ja) 文字認識方法
JPS60138689A (ja) 文字認識方法
JPH04318687A (ja) 文字認識装置
JP2953162B2 (ja) 文字認識装置
JPH08202830A (ja) 文字認識システム
JPH0576674B2 (ja)