JPH05258115A - 辞書登録制御方式 - Google Patents

辞書登録制御方式

Info

Publication number
JPH05258115A
JPH05258115A JP4057954A JP5795492A JPH05258115A JP H05258115 A JPH05258115 A JP H05258115A JP 4057954 A JP4057954 A JP 4057954A JP 5795492 A JP5795492 A JP 5795492A JP H05258115 A JPH05258115 A JP H05258115A
Authority
JP
Japan
Prior art keywords
dictionary
character
word
registration
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4057954A
Other languages
English (en)
Inventor
Keiji Kojima
啓嗣 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP4057954A priority Critical patent/JPH05258115A/ja
Publication of JPH05258115A publication Critical patent/JPH05258115A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 ユーザーにより的確な単語登録を容易に行な
うことができるようにする。 【構成】 ユーザーがコンソール116のディスプレイ
上でマウス等によって誤認識文字列を指定し、キーボー
ド等によって正解文字コードを入力すると、辞書登録プ
ログラム(112)は、正解文字コードが認識候補中に
あるか否か、正解文字コードがパターン辞書106にあ
るか否か、あるいは正解文字コード(列)が単語辞書に
あるか否かを調べて、パターン辞書106または単語辞
書108を自動的に選択し、追加登録を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識システムに係
り、特に、パターン辞書を用いて認識結果候補を得て、
これを単語辞書を用いて修正することにより最終的な認
識結果を得る文字認識システムにおいて、誤認文字を認
識可能にするための辞書登録の制御方式に関する。
【0002】
【従来の技術】文字認識システムにおいて、誤認した文
字の認識を可能にするために、ユーザーがメニューによ
って辞書登録を選択し、パターン辞書に誤認文字の追加
登録を行なう方式(株式会社バーズ情報科学研究所,日
本語・英数字OCRソフトウエアOCR−JAPANE
SE ユーザーズマニュアル(1991年5月))や、
メニューによって単語辞書登録を選択することにより、
単語辞書への誤認単語の追加登録を行なう方式(Exp
erVision,Inc.,TYPEREADER
user’s guide(1991))が知られてい
る。
【0003】
【発明が解決しようとする課題】しかし、パターン辞書
への登録と単語辞書への登録をユーザーの判断に任せる
方式は、ユーザーの負担が大きく、またシステム性能の
観点から危険でもある。すなわち、ユーザーが文字認識
システムの専門家であればともかく、一般的には、誤認
結果からパターン辞書に登録すべきであるか単語辞書に
登録すべきであるかを的確に判断することは容易でな
く、また判断を誤った場合にパターン辞書や単語辞書の
質を低下させる虞がある。
【0004】よって本発明の目的は、文字認識システム
の利用者による容易かつ的確な辞書登録を可能にするた
めの辞書登録制御方式を提供するにある。
【0005】
【課題を解決するための手段】本発明の辞書登録制御方
式は、パターン辞書を用い認識結果候補を得て、これを
単語辞書を用い修正することにより最終的な認識結果を
得る文字認識システムにおいて、認識結果候補に正解文
字コードがあるか否かによって、または正解文字コード
がパターン辞書にあるか否かによって、それとも正解文
字コードが単語辞書にあるか否かによって、パターン辞
書への登録または単語辞書への登録を自動的に選択する
ことを特徴とする。
【0006】
【作用】このような辞書登録制御方式によれば、妥当な
辞書が自動的に選択されるため、文字認識システムの利
用者は、辞書登録の際に、パターン辞書に登録すべきで
あるか、または単語辞書に登録すべきであるかを判断す
る必要がなくなり、辞書登録作業が極めて容易になると
ともに、不適当な辞書への登録による辞書の質の低下を
未然に防ぐことができる。
【0007】
【実施例】以下、本発明の実施例を図面を用い説明す
る。
【0008】図1は、後述する各実施例に係る文字認識
システムのハードウエア構成の一例を示すもので、10
0は原稿イメージを入力するためのスキャナ、102は
入力イメージデータを蓄積するためのオリジナル画像メ
モリ、104は認識処理や辞書登録処理を実行する中央
演算処理装置、106は文字認識に用いられるパターン
辞書、108は文字認識の後処理に用いられる単語辞
書、110は文字認識プログラムを格納するROM、1
12は辞書登録プログラムを格納するROM、114は
中央演算処理装置104のワークエリアとして利用され
るRAM、116はシステム利用者への認識結果等の表
示とデータ入力等に利用されるコンソール装置(ディス
プレイとキーボード、マウス等の入力装置)である。こ
れ以外にも、認識結果等を保存するための補助記憶装置
や、認識結果等を印刷するプリンタ等の装置類もある
が、図1には示されていない。
【0009】この文字認識システムにおける文字認識処
理の概略は、図2に示すように、スキャナ100により
文書イメージデータを入力する処理(ステップ20
0)、文書イメージからの文字画像の切り出しや文字画
像の正規化等を行なう前処理(ステップ202)、前処
理後の文字画像の特徴量とパターン辞書106に登録さ
れている特徴量とのマッチングにより、特徴量の近い認
識結果候補をN位(例えば最大10位まで)決定する認
識処理(ステップ204)、文字列の認識結果候補の組
み合わせて単語辞書108に登録されている単語とマッ
チングをとることにより、認識誤りを修正する後処理
(ステップ206)からなる。このような一連の処理の
ためのプログラムが、ROM110に格納されている文
字認識プログラムである。
【0010】このシステムにおいては、システム利用者
との対話的処理によって、誤認識された文字に関しパタ
ーン辞書106または単語辞書108の追加登録を行な
うことができる。この処理のプログラムがROM112
に格納されている辞書登録プログラムである。この辞書
登録処理の内容については、実施例毎に分けて説明す
る。
【0011】実施例1 本実施例における辞書登録処理の概略フローは図3に示
す通りである。ここでは、「天気」と認識されるべき文
字列が「夫気」と誤認識されたため、その辞書登録を利
用者が行なう場合を考える。
【0012】まずシステム利用者は、コンソール装置1
16のディスプレイ画面上で、マウスあるいはキーボー
ドを用いて誤認された「夫気」の文字列の範囲を指定す
る(ステップ300)。つぎに、コンソール装置116
のキーボードを用いて、その正解文字コードを入力する
(ステップ302)。この入力には、実際的には、かな
漢字変換機能を利用できるようにするとよい。
【0013】辞書登録処理プログラムは、指定された文
字列「夫気」の認識結果候補(図2のステップ204の
出力)に正解文字コードが含まれているか否かを文字毎
に調べ、正解文字コードが候補中に含まれない文字につ
いては、その特徴量と正解文字コードをパターン辞書1
06に追加登録する(ステップ304,306,30
8)。
【0014】この例で、第1位候補が「夫」となった文
字の第2位以下の候補にも正解の「天」のコードが含ま
れていないと、この文字の特徴量を「天」としてパター
ン辞書106に追加登録する。つまり、認識結果候補中
に正解文字コードが含まれない文字は、その特徴量に近
い特徴量が「天」としてパターン辞書106に未登録で
あったと判断し、追加登録をするわけである。
【0015】次に辞書登録処理プログラムは、パターン
辞書登録を行なわなかったならば、換言すれば、指定さ
れた文字列「夫気」の全文字について、その認識結果候
補中に正解文字コードが含まれていたならば、その正解
文字コード列(単語)を単語辞書108に追加登録する
(ステップ312)。この場合、個々の文字については
パターン辞書106で認識可能であるが、正解文字コー
ドが第1位候補とならず、しかも該当単語が単語辞書1
08に未登録であったために、後処理(図2のステップ
206)で正しい認識結果に修正できなかったと判断
し、単語登録をするわけである。この例で、認識結果候
補中に「天」と「気」の両方が含まれているとすると、
「天気」を登録する。
【0016】実施例2 本実施例における辞書登録処理の概略フローは図4に示
す通りである。システム利用者は、図3のステップ30
0,302と同様に誤認文字列の指定と正解文字コード
の入力を行なう(ステップ400,402)。
【0017】そうすると、辞書登録プログラムは、指定
された文字列の各文字毎に、その第1位候補となった文
字コードと正解文字コードとの一致を調べる(ステップ
404,406)。第1位候補が正解文字コードでない
場合、その正解文字コードがパターン辞書106中にあ
るか調べ(ステップ408)、それがなければ当該文字
の特徴量と正解文字コードをパターン辞書106に追加
登録する(ステップ410)。つまり、誤認文字の第1
位候補が正解文字コードと一致しなかったとしても、正
解文字コードが第2位以下の候補となっている可能性が
あるが、その正解文字コードがパターン辞書106中に
なければ第2位以下の候補に正解文字コードが含まれる
可能性もないと判断し、パターン辞書登録を行なうわけ
である。先の「夫気」の例で、「天」の文字コードがパ
ターン辞書106になければ、「天」のコードと当該文
字の特徴量とを追加することになる。
【0018】このようなパターン辞書登録が行なわれな
かった場合は、正解文字コード列(単語)を単語辞書1
08に追加登録する(ステップ414)。先の「夫気」
の例では、「天気」の単語登録を行なう。
【0019】実施例3 本実施例における辞書登録処理の概略フローは図5に示
す通りである。システム利用者は、図3のステップ30
0,302と同様に誤認文字列の指定と正解文字コード
の入力を行なう(ステップ500,502)。
【0020】そうすると、辞書登録プログラムは、まず
正解文字コード列からなる単語が単語辞書108に登録
済みであるか調べる(ステップ504)。この単語が未
登録であれば、その単語を単語辞書108に登録する
(ステップ506)。
【0021】単語が登録済みであればは、パターン辞書
106の問題と考えられるので、指定された文字列の各
文字毎に、その第1位から最下位までの候補中に正解文
字コードがあるか調べ、ない文字について、その特徴量
と正解文字コードをパターン辞書106に登録する(ス
テップ508,510,512)。
【0022】なお、ここまでは説明を簡単にするため
に、指定する誤認文字列は必ず一つの単語を構成するも
のとした。しかし、複数の単語に分解される複合単語に
相当する文字列の指定を許容することも容易である。こ
の場合、例えば図5のステップ504で指定文字列につ
いて単語分割を行ないながら単語の有無を調べ、単語辞
書108に存在しない単語についてのみステップ506
で単語登録を行ない、また単語が存在した文字について
のみステップ508〜512の処理対象とすればよい。
実施例1,2についても同様の処理変更が可能である。
【0023】
【発明の効果】以上説明した如く、本発明によれば、文
字認識システムの利用者は、辞書登録の際に登録すべき
辞書を判断しなくとも、パターン辞書または単語辞書に
対する登録を的確に行なうことができるため、利用者の
負担を軽減できるとともに、不適当な辞書への登録を避
けることによって辞書の質の低下を未然に防止できると
いう効果を得られる。
【図面の簡単な説明】
【図1】文字認識システムのハードウエア構成例を示
す。
【図2】文字認識処理の概略フローを示す。
【図3】本発明の実施例1における辞書登録処理のフロ
ーを示す。
【図4】本発明の実施例2における辞書登録処理のフロ
ーを示す。
【図5】本発明の実施例3における辞書登録処理のフロ
ーを示す。
【符号の説明】
100 スキャナ 102 オリジナル画像メモリ 104 中央演算処理装置 106 パターン辞書 108 単語辞書 110 認識プログラム格納ROM 112 辞書登録プログラム格納ROM 114 ワークエリアRAM 116 コンソール装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 パターン辞書を用い認識結果候補を得
    て、これを単語辞書を用い修正することにより最終的な
    認識結果を得る文字認識システムにおいて、認識結果候
    補に正解文字コードがあるか否かによって、パターン辞
    書への登録または単語辞書への登録を自動的に選択する
    辞書登録制御方式。
  2. 【請求項2】 パターン辞書を用い認識結果候補を得
    て、これを単語辞書を用い修正することにより最終的な
    認識結果を得る文字認識システムにおいて、正解文字コ
    ードがパターン辞書中にあるか否かによって、パターン
    辞書への登録または単語辞書への登録を自動的に選択す
    る辞書登録制御方式。
  3. 【請求項3】 パターン辞書を用い認識結果候補を得
    て、これを単語辞書を用い修正することにより最終的な
    認識結果を得る文字認識システムにおいて、正解文字コ
    ードが単語辞書中にあるか否かによって、パターン辞書
    への登録または単語辞書への登録を自動的に選択する辞
    書登録制御方式。
JP4057954A 1992-03-16 1992-03-16 辞書登録制御方式 Pending JPH05258115A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4057954A JPH05258115A (ja) 1992-03-16 1992-03-16 辞書登録制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4057954A JPH05258115A (ja) 1992-03-16 1992-03-16 辞書登録制御方式

Publications (1)

Publication Number Publication Date
JPH05258115A true JPH05258115A (ja) 1993-10-08

Family

ID=13070426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4057954A Pending JPH05258115A (ja) 1992-03-16 1992-03-16 辞書登録制御方式

Country Status (1)

Country Link
JP (1) JPH05258115A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238999A (ja) * 2012-05-15 2013-11-28 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238999A (ja) * 2012-05-15 2013-11-28 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
US5764799A (en) OCR method and apparatus using image equivalents
US7627177B2 (en) Adaptive OCR for books
US20040255218A1 (en) Document retrieval method and document retrieval system
JPH06348900A (ja) 文字認識方法及び装置
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
JP2003242441A (ja) 帳票処理方法および装置並びにプログラム
JP7632734B2 (ja) くずし字認識システム、くずし字認識方法、及びプログラム
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH05258115A (ja) 辞書登録制御方式
JP3353999B2 (ja) イメージデータ認識装置
JPH09138835A (ja) 文字認識装置
JP2930246B2 (ja) パターン認識装置
JP2874815B2 (ja) 日本語文字読取装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH05120472A (ja) 文字認識装置
JPH0713991A (ja) 誤認文字修正装置
JPH06176189A (ja) 文字認識装置の画面表示方法
JPH06333083A (ja) 光学式文字読取装置
JP3077580B2 (ja) 文字読取装置
JPH06290308A (ja) 文字認識装置
JPH05298495A (ja) 文字認識装置と誤認識文字修正方法並びに欧文文書処理装置
JP2922949B2 (ja) 文字認識の後処理方法
RU2145115C1 (ru) Групповой способ аби (abbyy) верификации компьютерных кодов с соответствующими им оригиналами