JPH03241482A - 文字認識用辞書構成方式 - Google Patents

文字認識用辞書構成方式

Info

Publication number
JPH03241482A
JPH03241482A JP2039369A JP3936990A JPH03241482A JP H03241482 A JPH03241482 A JP H03241482A JP 2039369 A JP2039369 A JP 2039369A JP 3936990 A JP3936990 A JP 3936990A JP H03241482 A JPH03241482 A JP H03241482A
Authority
JP
Japan
Prior art keywords
dictionary
original image
file
recognition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2039369A
Other languages
English (en)
Other versions
JP2977848B2 (ja
Inventor
Hideaki Yamagata
秀明 山形
Tatsuhiko Hashimoto
橋本 建彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2039369A priority Critical patent/JP2977848B2/ja
Publication of JPH03241482A publication Critical patent/JPH03241482A/ja
Application granted granted Critical
Publication of JP2977848B2 publication Critical patent/JP2977848B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置における認識用辞書の構成方法
に関する。
〔従来の技術〕
文字認識装置においては、あらかじめ文字コード毎に当
該文字の特徴が登録される認識用辞書を用い、入力され
た文字の特徴量と辞書の特徴量との距離を求めて入力文
字を同定する。従来、この種の認識用辞書のメンテナン
ス性を高めるため、例えば特開昭63−198180号
公報に記載のように、辞書に登録する特徴量自体を元の
画像を再生できる形態の特徴情報とし、登録文字の追加
、削除などを行う場合、特徴情報をもとに元の画像を再
現する方式がある。
〔発明が解決しようとする課題〕
上記従来方式では、辞書に登録する特徴量自体を元の画
像を再生できる形態の特徴情報とするため、辞書として
利用することができる特徴量の種類は極めて限られ(例
えば方向コードは利用できない)、また、複数の文字画
像の平均の特徴量を成分として構成する辞書では、元の
画像を忠実に再現することはできない。さらに、辞書の
特徴情報をもとに元の画像を生成するための手段が必要
になる。
本発明の目的は、上記従来方式の問題点を解決するとと
もに、認識処理に影響を与えずに、認識用辞書のメンテ
ナンスを容易にすることにある。
〔課題を解決するための手段〕
上記目的を達成するために、請求項(1)では、単一あ
るいは複数の文字画像の平均の特徴音を成分とするレコ
ードで構成される認識用辞書において、それぞれのレコ
ードに対応して、その特徴音の元の画像及び該画像の特
徴音を保存するファイルを設けたことを特徴とする。
また、請求項(2)では、単一あるいは複数の文字画像
の平均の特徴音を成分として構成される認識用辞書にお
いて、該認識用辞書全体を部分し、一方には認識に用い
る各特徴音を順番に登録し、他方には前記特徴音の元の
画像及び該画像の特徴音を順番に保存することを特徴と
する。
〔作 用〕
認識用辞書のメンテナンスを容易にするためには、辞書
中の特徴音の元になった画像を保存すればよい。しかし
、光学的文字認識装置(OCR)においては、この元の
画像のデータはかなり大きくなる。このデータを認R#
書中で特徴量レコード毎に特徴音、元画像の組で保存す
るようにした場合、認識処理の際に大きなメモリ領域を
必要とするか、あるいはメモリ節約の為の複雑な処理が
必要となり、その場合、処理時間の増加の恐れがある。
例えば漢字OCRにおいて、JISの第一、第二水準の
文字を認識対象とした場合、6353字種の辞書を持た
なければならない。それぞれについて64X64の正規
化画像を保存する場合、約3メガバイトの領域を必要と
する。認識処理の際には、この元画像のデータは必要無
いため、認識処理の際に辞書を全て読み込んだ場合、こ
の領域は無駄な領域となる。また、この領域を節約する
ために1元画像の部分を読み飛ばしてメモリ上にロード
する場合には、6353回のファイルシークが必要とな
り、処理時間の増大につながる。
請求項(1)では、辞書中の特徴音の元の画像及び該画
像の特徴音を別ファイルに保存することにより、認識処
理の際には、認識辞書のみをメモリ中にロードして用い
ることができ、元画像を保存しない場合と全く同様に認
識処理を行うことが可能である。請求項(2)でも、辞
書中の認識に用いる特徴音が登録されている部分だけを
メモリ中にロードすればよく、認識処理において1元画
像部分の読み飛ばしなどの処理は不要となる。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の第1の実施例の辞書構成を示す6本実
施例は、辞書構成を辞書ファイル11、元画像保存ファ
イル管理ファイル12及び、元画像保存ファイル13の
3階層としたものである。
辞書ファイル11は文字画像の特徴音を登録するファイ
ルであり、従来の認識用辞書に対応する。
該辞書ファイル11はレコード番号順に並ぶ複数レコー
ドで構成され、一つのレコードはヘッダ部とデータ部か
らなる。ヘッダ部にはレコード番号(本例では&4)、
文字コード、その他が格納され、データ部には単一ある
いは複数の当該文字画像の平均の特徴音(例えば方向コ
ードのヒストグラム)が格納される。
元画像保存ファイル管理ファイル12は、辞書ファイル
11に登録する特徴音の元となった文字画像を保有する
元画像保存ファイル13を管理するファイルである。該
管理ファイル12のレコードは辞書ファイル11のレコ
ードと一対一に対応し、辞書ファイル11と同様にレコ
ード番号順に並んでいる。一つのレコードはヘッダ部と
データ部からなり、ヘッダ部にはレコード番号(本例で
は覧4)、元画像数(平均をとるのに用いたサンプル数
で、本例では8)、その他が格納され、データ部には元
画像ファイル名(本例ではoct、 04S)が格納さ
れる。
元画像保存ファイル13は辞書ファイル11や管理ファ
イル12のレコード番号の数だけ存在する。一つの元画
像保存ファイル13はヘッダ部とデータ部からなり、ヘ
ッダ部には当該ファイル名、元画像数(本例では8)、
その他が格納され、データ部には、元画像とその特徴量
及びその他(作成年月日など)からなるデータがヘッダ
の元画像数分(本例では8)だけ格納される。この元画
像保存ファイル13の各画像の特徴量の平均したものが
辞書ファイル11に登録されることになる。
これら辞書ファイル1↓、元画像保存ファイル管理ファ
イル12及び元画像保存ファイル↓3はフロッピーディ
スクなどの外部記憶装置に蓄積されており、認識処理の
際には、従来の元画像を保存しない場合と同様に辞書フ
ァイル11のみをメモリ中にロードして、認識処理に利
用することになる。辞書ファイル1工を用いた認識処理
は従来と同様であるので、これ以上の説明は省略する。
以下では辞書修正処理について説明する。
辞書修正の際には、辞書ファイルエ1と対応する元画像
保存ファイル管理ファイル12により元画像保存ファイ
ル13を参照することで元画像を確認する。例えば、辞
書ファイル11中の4番目(レコード番号4)の特徴量
の元画像を確認する場合には、まず、レコード番号4を
キーとして元画像保存ファイル管理ファイル12より対
応するレコードを見つけ、次に当該レコードに格納され
ている元画像保存ファイル名(本例では、ocr、04
s)をキーとして、元画像保存ファイル13を見つける
。該元画像保存ファイルエ3中から元画像を取り出して
表示することにより、元画像を一目で確認できる。
辞書ファイル1工中の特徴量の削除を行う場合には、辞
書ファイル11中の該当レコード(例えばレコード番号
4のレコード)の特徴量の削除と共に、元画像保存ファ
イル管理ファイル12中の対応するレコードの元画像保
存ファイル名の削除、及び元画像保存ファイル13の削
除を行う。また、辞書ファイル11中の平均をとった特
徴量の元となった特徴量の一部を削除する場合には、元
画像保存ファイル13中の対応する元画像を表示してユ
ーザの確認をとった後、該元画像及びその特徴量の削除
を行い、残った元画像の特徴量で平均を求め直し、辞書
ファイル1上中の該当レコードの特徴量を新しい平均値
に修正する。この場合、元画像保存ファイル管理ファイ
ル12及び元画像保存ファイル13中の元画像数を変更
する必要がある。
辞書ファイル11中に新しく特徴量の追加を行う場合に
は、元画像保存ファイルt3を作成し、元画像及びその
特徴量をサンプル数分保存すると共に、元画像保存ファ
イル管理ファイル12中に対応するレコードを追加し、
元画像保存ファイル名を保存する。
辞書ファイルエ王中のある特徴量に対して、更に新しい
特徴量を追加してその平均をとる場合には、対応する元
画像保存ファイルエ3に対して新しく追加する元画像、
特徴量を追加し、該追加した特徴量も含め、元画像保存
ファイルエ3内の全ての特徴量の平均を求め、認識辞書
ファイル11中の該当レコードの特徴量を新たに求めた
平均値に修正する。この場合も、同時に元画像保存ファ
イル管理ファイルエ2及び元画像保存ファイル13中の
元画像数を変更しておく。
第2図は本発明の第2の実施例の辞書構成を示す。本実
施例は、第2図(a)に示すように辞書ファイル21の
みで辞書を構成し、該辞書ファイル21の前半部を認識
辞書部22、後半部を元画像保存部23として、認識辞
書部22には認識に用いる全特徴量を登録し、元画像保
存部23には元の画像及びその特徴量を保存するように
したことである。
認識辞書部22は、第2図(b)に示すように、該認識
辞書郡全体のヘッダ部と複数のデータレコードよりなる
。ヘッダ部には認識に用いる特徴量の数(本例では33
)、その他の情報が格納される。1つのデータレコード
にはレコード番号1文字コード、元画像数、特徴量など
が格納され、該データレコードが認識に用いる特徴量の
数分(本例ではレコード番号1〜33の数分)存在する
元画像保存部23は、第2図(c)に示すようにオフセ
ット記憶部と元画像・特徴量保存部よりなる。オフセッ
ト記憶部には、認識辞書部22の各特徴量(データレコ
ード)対応に元画像格納位置までのオフセット量が格納
される。例えば、「65」は認識辞書部22の1番目(
レコード番号1)の特徴量に対応する元画像へのオフセ
ット量は65バイトであることを表わしている。同様に
、r4134Jは33番目(レコード番号33)の特徴
量に対応する元画像へのオフセット量は4134バイト
であることを表わしている。元画像・特徴量保存部には
、認識辞書部22の各特徴量に対応する元画像及びその
特徴量が複数組保存される。
認識処理において、認識辞書部22の辞書ヘッダ中に保
持されている認識用精微量の数(本例では33)より該
認識辞書部のレコード長を算出し、その分だけのデータ
レコードをメモリ上にロードする。従って、元画像部分
の読み飛ばしなどの処理が不要であり、従来の認識処理
と変わらない処理を行うことが出来る。
辞書修正処理は次のようにして行う。例えば認識辞書部
22の1番目の特徴量に対応する元画像を参照するには
、元画像保存部23におけるオフセット記憶部の1番目
に記憶されているオフセット(本例では65)より対応
する元画像を抽出し、表示する。認識辞書22の各デー
タコードには、当該性微量に対応する元画像の数(サン
プル数)が保存されているので、オフセットバイト位置
より該数分だけの元画像を抽出すればよい。
認識辞書中の特徴量の削除を行う場合には、認識辞書部
22中の当該性微量の削除と共に1元画像保存部23の
対応する部分の元画像、特徴量の削除を行い、同時にオ
フセット記憶部の全体のオフセットの値の修正を行う。
また、平均をとった特徴量の元となった特徴量の一部を
削除する場合には、対応する元画像の表示を行い、ユー
ザの確認をとった後、元画像保存部23中の該当元画像
及びその特徴量の削除を行い、残った特徴量で平均を求
めなおし、認識辞書部22中の対応する特徴量を新しい
平均値に修正する。この場合にもオフセットの値の修正
を行う。
認識辞書中に特徴量の追加を行う場合には、認識辞書部
22に特徴量の追加(データレコードの追加)を行うと
同時に、元画像保存部23に元画像及びその特徴量を追
加し、オフセットの値の修正を行う、また、認識辞書部
22中のある特徴量に対して、更に新しい特徴量を追加
してその平均をとる場合には1元画像保存部23の対応
する部分に対して新しく追加する元画像、その特徴量を
追加し、オフセットの修正を行った後に、追加した元画
像の特徴量も含め、元画像保存部23中の対象とする全
ての特徴量の平均を求め、認識辞書部22の対応する特
徴量を新たに求めた平均値に修正する・ 〔発明の効果〕 本発明の辞書構成方法によれば1次のような効果が得ら
れる。
(1)請求項(1)及び(2)では、認識辞書中の特徴
量の元になった画像及び該画像の特徴量を保存すること
により、認識用辞書のメンテナンス性が向上するととも
に、辞書の特徴情報をもとに元の画像を生成するための
手段が不要であり、また、特徴量の使用制限は皆無であ
る。
(2)請求項(1)では、辞書中の特徴量の元の画像及
び該画像の特徴量を別ファイルに保存することにより、
認識処理の際には、認識辞書のみをメモリ中にロードし
て用いることができ、元画像を保存しない場合と全く同
様に認識処理を行うことが可能である。
(3)請求項(2)では、認識用辞書上で認識に用いる
各特徴量とその元の画像及び該画像の特徴量とを別々に
保存することにより、元画像部分の読み飛ばしなどの処
理が不要となり、また、元画像保存ファイルを管理する
ファイルも不要となる。
【図面の簡単な説明】
第1図及び第2図は本発明による辞書構成の一実施例を
示す図である。 11・・・辞書ファイル、 12・・・元画像保存ファイル管理ファイル、13・・
・元画像保存ファイル、 21・・・辞書ファイル、 22・・・認識辞書部、2
3・・・元画像保存部。 第1 図

Claims (2)

    【特許請求の範囲】
  1. (1)単一あるいは複数の文字画像の平均の特徴量を成
    分とするレコードで構成される認識用辞書において、そ
    れぞれのレコードに対応して、その特徴量の元の画像及
    び該画像の特徴量を保存するファイルを設けたことを特
    徴とする文字認識装置の辞書構成方法。
  2. (2)単一あるいは複数の文字画像の平均の特徴量を成
    分として構成される認識用辞書において、該認識用辞書
    全体を二分し、一方には認識に用いる各特徴量を順番に
    登録し、他方には前記特徴量の元の画像及び該画像の特
    徴量を順番に保存することを特徴とする文字認識装置の
    辞書構成方法。
JP2039369A 1990-02-20 1990-02-20 文字認識用辞書構成方式 Expired - Lifetime JP2977848B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2039369A JP2977848B2 (ja) 1990-02-20 1990-02-20 文字認識用辞書構成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2039369A JP2977848B2 (ja) 1990-02-20 1990-02-20 文字認識用辞書構成方式

Publications (2)

Publication Number Publication Date
JPH03241482A true JPH03241482A (ja) 1991-10-28
JP2977848B2 JP2977848B2 (ja) 1999-11-15

Family

ID=12551140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2039369A Expired - Lifetime JP2977848B2 (ja) 1990-02-20 1990-02-20 文字認識用辞書構成方式

Country Status (1)

Country Link
JP (1) JP2977848B2 (ja)

Also Published As

Publication number Publication date
JP2977848B2 (ja) 1999-11-15

Similar Documents

Publication Publication Date Title
JP4076078B2 (ja) ファイル管理方法
EP0487331B1 (en) Directory management system
US20020051641A1 (en) Electronic camera apparatus and file management method
JPS60218142A (ja) デ−タの動的型変換方式
US6604078B1 (en) Voice edit device and mechanically readable recording medium in which program is recorded
KR20010019445A (ko) 멀티미디어 파일 관리방법
JPH03241482A (ja) 文字認識用辞書構成方式
JP2643811B2 (ja) データベース再編成方式
JPS6254369A (ja) 文書フアイル検索方式
JP2822869B2 (ja) ライブラリファイル管理装置
JPH11250039A (ja) データベースを利用した編集支援方法及びそのプログラムを記録した記録媒体
JPH02297291A (ja) 画像データ入出力システム
JPS62287350A (ja) インデツクス一括更新方式
JPH022598A (ja) データ編集方法とその装置
KR970006032B1 (ko) 금융업무용 화면/업무화일의 제조방법
JPH04151770A (ja) 設計データベース管理システム
JPH04268636A (ja) データ修正方法
JPS62173565A (ja) 文章処理装置におけるデ−タ登録方式
JPH06243182A (ja) Cadシステムの図面編集管理装置
JPH09106364A (ja) 情報管理方法及び装置
JPH04236641A (ja) 索引順編成ファイル複数レコード保守方式
JPH06243010A (ja) データベース
JP2004334255A (ja) 領域共用ファイル管理装置およびメンバ削除方法並びにプログラム
JPH0219968A (ja) ファイル装置
JPS62226487A (ja) 光デイスクの記憶管理方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11