JP2977848B2 - 文字認識用辞書構成方式 - Google Patents
文字認識用辞書構成方式Info
- Publication number
- JP2977848B2 JP2977848B2 JP2039369A JP3936990A JP2977848B2 JP 2977848 B2 JP2977848 B2 JP 2977848B2 JP 2039369 A JP2039369 A JP 2039369A JP 3936990 A JP3936990 A JP 3936990A JP 2977848 B2 JP2977848 B2 JP 2977848B2
- Authority
- JP
- Japan
- Prior art keywords
- original image
- dictionary
- file
- character
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
式に関する。
当該文字の特徴が登録される認識用辞書を用い、入力さ
れた文字の特徴量と辞書の特徴量との距離を求めて入力
文字を同定する。従来、この種の認識用辞書のメンテナ
ンス性を高めるため、例えば特開昭63−198180号公報に
記載のように、辞書に登録する特徴量自体を元の画像を
再生できる形態の特徴情報とし、登録文字の追加、削除
などを行う場合、特徴情報をもとに元の画像を再現する
方式がある。
画像を再生できる形態の特徴情報とするため、辞書とし
て利用することができる特徴量の種類は極めて限られ
(例えば方向コードは利用できない)、また、複数の文
字画像の平均の特徴量を成分として構成する辞書では、
元の画像を忠実に再現することはできない。さらに、辞
書の特徴情報をもとに元の画像を生成するための手段が
必要になる。
ともに、認識処理に影響を与えずに、認識用辞書のメン
テナンスを容易にすることにある。
構成方式は、各文字毎に、少なくとも文字コードと当該
文字の単一あるいは複数の文字画像の平均の特徴量を保
存するレコードで構成される認識用の辞書ファイルと、
前記辞書ファイルとは別に、それぞれのレコードに対応
して、当該文字の元の画像及び該画像の特徴量を保持す
る元画像保存ファイルとからなることを特徴とする。
部と元画像保存部からなり、認識辞書部は、各文字毎に
順番に、少なくとも文字コードと当該文字の単一あるい
は複数の文字画像の平均の特徴量を保持し、元画像保存
部は、各文字毎に順番に、当該文字の元の画像及び該画
像の特徴量を保存することを特徴とする。
書中の特徴量の元になった画像を保存すればよい。しか
し、光学的文字認識装置(OCR)においては、この元の
画像のデータはかなり大きくなる。このデータを認識辞
書中で特徴量レコード毎に特徴量、元画像の組で保存す
るようにした場合、認識処理の際に大きなメモリ領域を
必要とするか、あるいはメモリ節約の為の複雑な処理が
必要となり、その場合、処理時間の増加の恐れがある。
を認識対象とした場合、6353字種の辞書を持たなければ
ならない。それぞれについて64×64の正規化画像を保存
する場合、約3メガバイトの領域を必要とする。認識処
理の際には、この元画像のデータは必要無いため、認識
処理の際に辞書を全て読み込んだ場合、この領域は無駄
な領域となる。また、この領域を節約するためには、元
画像の部分を読み飛ばしてメモリ上にロードする場合に
は、6353回のファイルシークが必要となり、処理時間の
増大につながる。
画像の特徴量を別ファイルに保存することにより、認識
処理の際には、認識辞書のみをメモリ中にロードして用
いることができ、元画像を保存しない場合と全く同様に
認識処理を行うことが可能である。請求項(2)でも、
辞書中の認識に用いる特徴量が登録されている部分だけ
をメモリ中にロードすればよく、認識処理において、元
画像部分の読み飛ばしなどの処理は不要となる。
る。
実施例は、辞書構成を辞書ファイル11、元画像保存ファ
イル管理ファイル12及び、元画像保存ファイル13の3階
層としたものである。
ルであり、従来の認識用辞書に対応する。該辞書ファイ
ル11はレコード番号順に並ぶ複数レコードで構成され、
一つのレコードはヘッダ部とデータ部からなる。ヘッダ
部にはレコード番号(本例ではNo.4)、文字コード、そ
の他が格納され、データ部には単一あるいは複数の当該
文字画像の平均の特徴量(例えば方向コードのヒストグ
ラム)が格納される。
11に登録する特徴量の元となった文字画像を保有する元
画像保存ファイル13を管理するファイルである。該管理
ファイル12のレコードは辞書ファイル11のレコードと一
対一に対応し、辞書ファイル11と同様にレコード番号順
に並んでいる。一つのレコードはヘッダ部とデータ部か
らなり、ヘッダ部にはレコード番号(本例ではNo.4)、
元画像数(平均をとるのに用いたサンプル数で、本例で
は8)、その他が格納され、データ部には元画像ファイ
ル名(本例ではocr.04s)が格納される。
ル12のレコード番号の数だけ存在する。一つの元画像保
存ファイル13はヘッダ部とデータ部からなり、ヘッダ部
には当該ファイル名、元画像数(本例では8)、その他
が格納され、データ部には、元画像とその特徴量及びそ
の他(作成年月日など)からなるデータがヘッダの元画
像数分(本例では8)だけ格納される。この元画像保存
ファイル13の各画像の特徴量の平均したものが辞書ファ
イル11に登録されることになる。
イル12及び元画像保存ファイル13はフロッピーディスク
などの外部記憶装置に蓄積されており、認識処理の際に
は、従来の元画像を保存しない場合と同様に辞書ファイ
ル11のみをメモリ中にロードして、認識処理に利用する
ことになる。辞書ファイル11を用いた認識処理は従来と
同様であるので、これ以上の説明は省略する。以下では
辞書修正処理について説明する。
保存ファイル管理ファイル12により元画像保存ファイル
13を参照することで元画像を確認する。例えば、辞書フ
ァイル11中の4番目(レコード番号4)の特徴量の元画
像を確認する場合には、まず、レコード番号4をキーと
して元画像保存ファイル管理ファイル12より対応するレ
コードを見つけ、次に当該レコードに格納されている元
画像保存ファイル名(本例では、ocr.04s)をキーとし
て、元画像保存ファイル13を見つける。該元画像保存フ
ァイル13中から元画像を取り出して表示することによ
り、元画像を一目で確認できる。
書ファイル11中の該当レコード(例えばレコード番号4
のレコード)の特徴量の削除と共に、元画像保存ファイ
ル管理ファイル12中の対応するレコードの元画像保存フ
ァイル名の削除、及び元画像保存ファイル13の削除を行
う。また、辞書ファイル11中の平均をとった特徴量の元
となった特徴量の一部を削除する場合には、元画像保存
ファイル13中の対応する元画像を表示してユーザの確認
をとった後、該元画像及びその特徴量の削除を行い、残
った元画像の特徴量で平均を求め直し、辞書ファイル11
中の該当レコードの特徴量を新しい平均値に修正する。
この場合、元画像保存ファイル管理ファイル12及び元画
像保存ファイル13中の元画像数を変更する必要がある。
は、元画像保存ファイル13を作成し、元画像及びその特
徴量をサンプル数分保存すると共に、元画像保存ファイ
ル管理ファイル12中に対応するレコードを追加し、元画
像保存ファイル名を保存する。
特徴量を追加してその平均をとる場合には、対応する元
画像保存ファイル13に対して新しく追加する元画像、特
徴量を追加し、該追加した特徴量も含め、元画像保存フ
ァイル13内の全ての特徴量の平均を求め、認識辞書ファ
イル11中の該当レコードの特徴量を新たに求めた平均値
に修正する。この場合も、同時に元画像保存ファイル管
理ファイル12及び元画像保存ファイル13中の元画像数を
変更しておく。
実施例は、第2図(a)に示すように辞書ファイル21の
みで辞書を構成し、該辞書ファイル21の前半部を認識辞
書部22、後半部を元画像保存部23として、認識辞書部22
には認識に用いる全特徴量を登録し、元画像保存部23に
は元の画像及びその特徴量を保存するようにしたことで
ある。
辞書部全体のヘッダ部と複数のデータレコードよりな
る。ヘッダ部には認識に用いる特徴量の数(本例では3
3)、その他の情報が格納される。1つのデータレコー
ドにはレコード番号、文字コード、元画像数、特徴量な
どが格納され、該データレコードが認識に用いる特徴量
の数分(本例ではレコード番号1〜33の数分)存在す
る。
ット記憶部と元画像・特徴量保存部よりなる。オフセッ
ト記憶部には、認識辞書部22の各特徴量(データレコー
ド)対応に元画像格納位置までのオフセット量が格納さ
れる。例えば、「65」は認識辞書部22の1番目(レコー
ド番号1)の特徴量に対応する元画像へのオフセット量
は65バイトであることを表わしている。同様に、「413
4」は33番目(レコード番号33)の特徴量に対応する元
画像へのオフセット量は4134バイトであることを表わし
ている。元画像・特徴量保存部には、認識辞書部22の各
特徴量に対応する元画像及びその特徴量が複数組保存さ
れる。
持されている認識用特徴量の数(本例では33)より該認
識辞書部のレコード長を算出し、その分だけのデータレ
コードをメモリ上にロードする。従って、元画像部分の
読み飛ばしなどの処理が不要であり、従来の認識処理と
変わらない処理を行うことが出来る。
部22の1番目の特徴量に対応する元画像を参照するに
は、元画像保存部23におけるオフセット記憶部の1番目
に記憶されているオフセット(本例では65)により対応
する元画像を抽出し、表示する。認識辞書22の各データ
コードには、当該特徴量に対応する元画像の数(サンプ
ル数)が保存されているので、オフセットバイト位置よ
り該数分だけの元画像を抽出すればよい。
部22中の当該特徴量の削除と共に、元画像保存部23の対
応する部分の元画像、特徴量の削除を行い、同時にオフ
セット記憶部の全体のオフセットの値の修正を行う。ま
た、平均をとった特徴量の元となった特徴量の一部を削
除する場合には、対応する元画像の表示を行い、ユーザ
の確認をとった後、元画像保存部23中の該当元画像及び
その特徴量の削除を行い、残った特徴量で平均を求めな
おし、認識辞書部22中の対応する特徴量を新しい平均値
に修正する。この場合にもオフセットの値の修正を行
う。
部22に特徴量の追加(データレコードの追加)を行うと
同時に、元画像保存部23に元画像及びその特徴量を追加
し、オフセットの値の修正を行う。また、認識辞書部22
中のある特徴量に対して、更に新しい特徴量を追加して
その平均をとる場合には、元画像保存部23の対応する部
分に対して新しく追加する元画像、その特徴量を追加
し、オフセットの修正を行った後に、追加した元画像の
特徴量も含め、元画像保存部23中の対象とする全ての特
徴量の平均を求め、認識辞書部22の対応する特徴量を新
たに求めた平均値に修正する。
られる。
量の元になった画像及び該画像の特徴量を保存すること
により、認識用辞書のメンテナンスが容易になるととも
に、辞書の特徴情報をもとに元の画像を生成するための
手段が不要であり、また、特徴量の使用制限は皆無であ
る。
び該画像の特徴量を別ファイルに保存することにより、
認識処理の際には、認識辞書のみをメモリ中にロードし
て用いることができ、元画像を保存しない場合と全く同
様に認識処理を行うことが可能である。
各特徴量とその元の画像及び該画像の特徴量とを別々に
保存することにより、元画像部分の読み飛ばしなどの処
理が不要となり、また、元画像保存ファイルを管理する
ファイルも不要となる。
示す図である。 11……辞書ファイル、 12……元画像保存ファイル管理ファイル、 13……元画像保存ファイル、 21……辞書ファイル、22……認識辞書部、 23……元画像保存部。
Claims (2)
- 【請求項1】各文字毎に、少なくとも文字コードと当該
文字の単一あるいは複数の文字画像の平均の特徴量を保
持するレコードで構成される認識用の辞書ファイルと、 前記辞書ファイルとは別に、それぞれのレコードに対応
して、当該文字の元の画像及び該画像の特徴量を保持す
る元画像保存ファイルと、 からなることを特徴とする文字認識用辞書構成方式。 - 【請求項2】認識辞書部と元画像保存部からなり、 認識辞書部は、各文字毎に順番に、少なくとも文字コー
ドと当該文字の単一あるいは複数の文字画像の平均の特
徴量を保持し、 元画像保存部は、各文字毎に順番に、当該文字の元の画
像及び該画像の特徴量を保持する、 ことを特徴とする文字認識用辞書構成方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2039369A JP2977848B2 (ja) | 1990-02-20 | 1990-02-20 | 文字認識用辞書構成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2039369A JP2977848B2 (ja) | 1990-02-20 | 1990-02-20 | 文字認識用辞書構成方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03241482A JPH03241482A (ja) | 1991-10-28 |
| JP2977848B2 true JP2977848B2 (ja) | 1999-11-15 |
Family
ID=12551140
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2039369A Expired - Lifetime JP2977848B2 (ja) | 1990-02-20 | 1990-02-20 | 文字認識用辞書構成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2977848B2 (ja) |
-
1990
- 1990-02-20 JP JP2039369A patent/JP2977848B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03241482A (ja) | 1991-10-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5740445A (en) | Information processing apparatus for generating directory information to manage a file using directories | |
| US6992710B2 (en) | Electronic camera apparatus and file management method | |
| KR100450013B1 (ko) | 화상데이터의 파일관리시스템 | |
| US8001088B2 (en) | Indexing media files in a distributed, multi-user system for managing and editing digital media | |
| JP4076078B2 (ja) | ファイル管理方法 | |
| SG175372A1 (en) | A data file having more than one mode of operation | |
| US20020147730A1 (en) | Information storage system and information management system | |
| US7020664B1 (en) | File management apparatus and method | |
| JP2977848B2 (ja) | 文字認識用辞書構成方式 | |
| KR20040029959A (ko) | 기록 재생 장치 및 방법 | |
| JPH05314483A (ja) | 情報記録方法 | |
| JP2888458B2 (ja) | ファイル格納装置 | |
| JPH0991300A (ja) | ファイル管理方法 | |
| JP3307358B2 (ja) | 部分修正コマンド方法及び情報処理装置 | |
| JPH0451359A (ja) | 文書管理システム | |
| JP2002300519A (ja) | Avデータ複製装置 | |
| JPS61281368A (ja) | 画像情報検索装置 | |
| JPS63212986A (ja) | 画像記録装置 | |
| JPH01177649A (ja) | ファイル管理方式 | |
| JPH04151770A (ja) | 設計データベース管理システム | |
| JPH056377A (ja) | スケジユール管理システム | |
| JPH05173871A (ja) | メモリカードファイル管理方法 | |
| JPH06243182A (ja) | Cadシステムの図面編集管理装置 | |
| JPH06243010A (ja) | データベース | |
| JPH06139990A (ja) | 電子顕微鏡デジタル画像の記録方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 11 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 11 |