JPH11232381A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPH11232381A
JPH11232381A JP10031778A JP3177898A JPH11232381A JP H11232381 A JPH11232381 A JP H11232381A JP 10031778 A JP10031778 A JP 10031778A JP 3177898 A JP3177898 A JP 3177898A JP H11232381 A JPH11232381 A JP H11232381A
Authority
JP
Japan
Prior art keywords
format
character
recognition result
recognition
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10031778A
Other languages
English (en)
Inventor
Hiroichi Iwashita
博一 岩下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10031778A priority Critical patent/JPH11232381A/ja
Publication of JPH11232381A publication Critical patent/JPH11232381A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 画像データの中から特定の文字のみを抽出で
きるようにする。 【解決手段】 フォーマットメモリ4に、読取領域に記
述し得る書式の情報を格納し、文字認識部10で読取領
域の画像データを文字認識して認識結果を取得すると、
この認識結果に該当する書式情報を選択し、数字抽出部
11はこの書式情報で特定される位置にある数字を抽出
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学式文字読取装
置(OCR)に関するもので、特に、フォーマット読み
込み機能および認識結果を変更/修正する機能を有する
文字読取装置に関するものである。
【0002】
【従来の技術】図8は用紙の一例を示す説明図である。
図において、100は文字が記入された用紙、101は
フォーマット登録機能を用いてあらかじめ登録した読取
対象の領域である。従来の光学式文字読取装置では、用
紙100等をスキャナ等を用いてイメージデータとして
取り込む。そして、フォーマット登録機能を用いてあら
かじめ登録した読取対象の領域101の文字列に対し
て、文字の切り出し処理を行った後、各文字に対する文
字コードを出力する文字認識処理を行い、処理結果を文
字コードとして出力する。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の光学式文字読取装置においては、読取対象の領
域に記述されている全ての文字に関する文字コードと確
信度で構成される結果(以下、認識結果データと称す)
が出力されていた。そのため、図8に示すような日付を
文字認識した場合、その結果から必要なデータ、つま
り、図8の場合、日付の年、月、日の数字部分を取り出
すには、文字認識処理を行った後、修正端末を用いて、
オペレータが認識結果データを参照し、必要なデータだ
けを取り出すようなデータの修正/整形作業が必要で、
オペレータの負荷となっていた。
【0004】
【課題を解決するための手段】上述した課題を解決する
ため、本発明は、用紙の記述内容を光学的に読み取って
画像データを取得し、この画像データに対して、あらか
じめ決められている読取領域に対して文字認識を行う文
字読取装置において、前記読取領域に記述され得る書式
の情報を格納する手段と、読取領域内の認識結果に該当
する書式情報を選択し、この書式情報で特定される部分
を前記認識結果から抽出する手段とを備えたものであ
る。
【0005】ここで、書式情報の選択は、読取領域内の
認識結果の文字の並びと書式情報の文字の並びの対比で
該当する書式情報を選択するか、書式情報の文字の並び
と認識結果における各文字の確信度の対比で各書式情報
の評価値を求め、求めた評価値に応じて該当する書式情
報を選択することとする。
【0006】
【発明の実施の形態】本発明の文字読取装置は、従来の
ように読取領域に記述された全ての文字に関する認識結
果データを出力するものではなく、特定の文字部分、例
えば日付の数字部分を抽出できるようにする。すなわ
ち、読取領域の中の特定の数字部分を抽出するための書
式情報を設定する。この書式情報は、読取領域に記述さ
れる文字列あるいは数字列の形式と抽出すべき数字部の
指定から構成されるものである。そして、読取領域に記
述され得る文字列あるは数字列の形式と抽出すべき数字
部の指定に応じて、単数あるいは複数の書式情報をフォ
ーマット登録機能を用いてあらかじめ登録しておき、認
識結果データに対応する書式情報を選択し、この書式情
報で特定される数字部分を抽出し、その抽出した数字部
分のみで構成される認識結果データを出力するものであ
る。
【0007】以下に本発明の文字読取装置の実施の形態
を説明する。図1は本発明の文字読取装置の第1の実施
の形態を示すブロック図であり、まず、図1を用いて文
字読取装置を構成するハードウエアおよびその接続形態
の一例を説明する。図1において、制御装置1には装置
全体の動作を制御する制御部2が設けられ、この制御部
2には、用紙Pを光学的に走査して画像データとして取
得するイメージスキャナ3、読取対象の領域に関する情
報を格納するフォーマットメモリ4、画像データを格納
するイメージメモリ5、認識結果を格納する認識結果メ
モリ6、画像データおよび読取領域情報等を表示するデ
ィスプレイ7、設定や動作指示に使用する入力装置とし
てのキーボード8およびポインティングデバイスとして
のマウス9、画像データと読取領域情報から認識結果を
作成する文字認識部10、読取領域情報に含まれる書式
情報を用いて認識結果から数字部を抽出する数字抽出部
11、フォーマットデータおよび認識結果を格納する外
部記憶装置12が接続されている。
【0008】図2は第1の実施の形態の文字読取装置の
制御機能を示すブロック図であり、図1に示す構成の文
字読取装置に搭載されるソフトウエアで実現する処理の
流れを説明する。図2において、画像取込手段S11
は、用紙Pを光学的に走査してその記述内容を画像デー
タとして取り込み、イメージデータとして装置内のメモ
リに格納するもので、ハードウエアとしては図1におけ
る制御部3、イメージスキャナ3、イメージメモリ5、
キーボード8およびマウス9に対応し、キーボード8お
よびマウス9の指定を受けて制御部2はイメージスキャ
ナ3を制御し、用紙Pを光学的に走査してその記述内容
を画像データとして取り込み、イメージデータとしてイ
メージメモリ5に格納する。
【0009】フォーマット読込み手段S12は、読取領
域に関する情報を装置内のメモリに格納するもので、ハ
ードウエアとしては図1における制御部2、フォーマッ
トメモリ4および外部記憶装置12に対応し、制御部2
は読取対象の用紙Pに対応する読取領域に関する情報を
外部記憶装置12から読み出してフォーマットメモリ4
に格納する。ここで、読取領域に関する情報は、読取領
域を指定する座標と後述する数字抽出手段S14で用い
る書式情報が含まれ、フォーマット登録機能を用いてあ
らかじめ外部記憶装置12に格納しておくものである。
【0010】文字認識手段S13は、読取領域で指定さ
れた画像データの領域に関して、文字認識処理を行い、
認識結果データを装置内のメモリに格納するもので、ハ
ードウエアとしては図1における制御部2、認識結果メ
モリ6および文字認識部10に対応し、制御部2は画像
取込手段S11でイメージメモリ5に格納した画像デー
タに対して、フォーマット取込み手段S12でフォーマ
ットメモリ4に格納した読取領域に関する情報で指定さ
れた領域に関して文字認識部10で文字認識処理を行わ
せ、文字座標、文字コード、確信度で構成される認識結
果データを認識結果メモリ6に格納する。
【0011】数字抽出手段S14は、認識結果データの
特定の数字部分の抽出処理を行うもので、ハードウエア
としては図1における制御部2、フォーマットメモリ
4、認識結果メモリ6および数字抽出部11に対応し、
制御部2は、文字認識手段S13で認識結果メモリ6に
格納した認識結果データに対応する読取領域の数字部抽
出のための書式情報をフォーマットメモリ4から取得
し、この取得した書式情報を用いて、数字抽出部11に
より認識結果データの数字部分の抽出処理を行うもので
ある。
【0012】抽出結果作成手段S15は、認識結果デー
タを作成し、装置内のメモリに格納するもので、ハード
ウエアとしては図1における制御部2、認識結果メモリ
6および数字抽出部11に対応し、制御部2は、数字抽
出手段S14において得られた結果をもとに、数字部分
の認識結果データを作成し、認識結果メモリ6に格納す
る。
【0013】次に、第1の実施の形態の文字読取装置の
動作を説明する。画像取込手段S11では、制御部2は
キーボード8およびマウス9の指定を受けてイメージス
キャナ3により用紙Pを光学的に走査して、光信号を2
値化された電気信号に変換して、その電気信号から画像
データを生成する。そして、制御装置1内のイメージメ
モリ5にイメージデータとして格納する。
【0014】フォーマット読込み手段S12では、画像
取込手段S11で格納した画像データに対応するもの
で、外部記憶装置12に記録されている読取領域の情報
をフォーマットメモリ4に読み込む。文字認識手段S1
3では、画像取込手段S11で取り込まれた画像データ
が格納されているイメージメモリ5とフォーマット読込
み手段S12で読み込まれた読取領域の情報を格納した
フォーマットメモリ4を参照し、読取領域に関する文字
認識処理を行い、その認識結果を認識結果メモリ6に格
納する。
【0015】数字抽出手段S14では、文字認識手段S
13で認識結果メモリ6に書き込まれた認識結果データ
と、フォーマット読込み手段S12でフォーマットメモ
リ4に読み込まれた読取領域の情報に含まれる書式情報
を参照し、数字部の抽出処理を行う。図3は第1の実施
の形態における認識処理の一例を示す説明図である。用
紙Pの日付の部分を読取領域とした場合、読取領域に記
述され得る文字列あるは数字列の形式は、図3(a)に
示すように、「月」が1文字の数字、「日」が1文字の
数字からなるもの(以下、書式1と称す)、「月」が1
文字の数字、「日」が2文字の数字からなるもの(以
下、書式2と称す)、「月」が2文字の数字、「日」が
1文字の数字からなるもの(以下、書式3と称す)、
「月」が2文字の数字、「日」が2文字の数字からなる
もの(以下、書式4と称す)の4種類である。ここで、
図3(a)において、1つの○が1文字の数字に相当す
る部分を表す。
【0016】「6月25日」という認識結果データが得
られたとすると、数字部の抽出処理では、まず、書式1
〜4の中で、認識結果データの文字数と一致する文字数
を持つ書式を選択する。認識結果データが「6月25
日」とすると、文字数は「5」であるので、書式1〜4
の中で文字数が5である書式2と3が選択される。次
に、図3(b)に示すように、書式の数字部分と認識結
果の数字部分との対応を参照し、書式と認識結果の数字
部分および書式と認識結果の文字部分の文字コードが対
応している文字数の多い書式を選択する。認識結果デー
タが「6月25日」とすると、書式2との対比では、認
識結果データの1番目の部分は数字の「6」で、数字で
ある○で示す書式2の1番目の部分に対応し、認識結果
データの2番目の部分は漢字の「月」で、書式2の2番
目の部分の漢字である「月」と文字コードが同じで対応
し、認識結果データの3番目の部分は数字の「2」で、
数字である○で示す書式2の3番目の部分に対応し、認
識結果データの4番目の部分は数字の「5」で、数字で
ある○で示す書式2の4番目の部分に対応し、認識結果
データの5番目の部分は漢字の「日」で、書式2の5番
目の部分の漢字である「日」と文字コードが同じで対応
するので、書式2の対応文字数は5となる。
【0017】これに対して書式3との対比では、認識結
果データの数字部分の「6」は○で示す書式2の数字部
分に対応し、認識結果データの漢字部分の「月」は○で
示す書式2の数字部分に対応せず、認識結果データの数
字部分の「2」は書式2の漢字部分の「月」に対応せ
ず、認識結果データの数字部分の「5」は○で示す書式
2の数字部分に対応し、認識結果データの漢字部分の
「日」は書式2の漢字部分の「日」に対応するので、書
式2の対応文字数は3となる。よって、書式2の対応文
字数の方が書式3の対応文字数より多いので、書式2が
選択され、認識結果データにおいて、書式2の○で示す
数字部分に対応する座標の数字、ここでは「6、2、
5」を取り出す。
【0018】抽出結果作成手段S15では、数字抽出手
段S14で得られた抽出すべき数字について、連続する
数字についてはひと固まりのものとして認識結果データ
を作成し、ここでは「6」と「25」を認識結果メモリ
6に書き込む。以上説明したように、本発明の第1の実
施の形態では、従来では読取領域に記述されていた文字
がそのまま認識結果データとして取得されるが、あらか
じめ読取領域の情報として書式を与えることで、数字部
分のみの必要なデータを認識結果データとして取得する
ことができる。
【0019】したがって、数字部分のみの認識結果デー
タを出力することが可能となることで、修正端末上での
オペレータによる認識結果データからの必要なデータの
抽出とデータ整形の作業における負荷を軽減することが
できる。また、文字の並びの一致する書式情報を用いて
数字を抽出するので、認識結果データの中から誤って数
字以外の部分を抽出してしまうことがなく、データの誤
入力を防ぐとともに、修正の負荷を軽減することができ
る。
【0020】図4は第2の実施の形態の文字読取装置の
制御機能を示すブロック図である。ここで、第2の実施
の形態の文字読取装置のハードウエア構成は図1で説明
したものと同じとする。この第2の実施の形態では、抽
出する数字部分の認識率を高く保つため、漢字の文字を
含んだ文字列を、すべて数字として認識(以下、数字認
識と称す)することとしたものであり、この処理を行う
ため、文字認識手段S23と数字抽出手段S24を備え
るものである。なお、図4における画像取込み手段S1
1とフォーマット読込み手段S12と抽出結果作成手段
S15は図2で説明した第1の実施の形態と同じであ
る。
【0021】文字認識手段S23は、読取領域で指定さ
れた画像データの領域に関して、文字認識処理を行い、
認識結果データを装置内のメモリに格納するもので、ハ
ードウエアとしては図1における制御部2、認識結果メ
モリ6および文字認識部10に対応し、制御部2は画像
取込手段S11でイメージメモリ5に格納した画像デー
タに対して、フォーマット取込み手段S12でフォーマ
ットメモリ4に格納した読取領域に関する情報で指定さ
れた領域に関して文字認識部10で数字認識処理を行わ
せ、座標、コード、確信度で構成される認識結果データ
を認識結果メモリ6に格納する。
【0022】数字抽出手段S24は、認識結果データの
特定の数字部分の抽出処理を行うもので、ハードウエア
としては図1における制御部2、フォーマットメモリ
4、認識結果メモリ6および数字抽出部11に対応し、
制御部2は、文字認識手段S23で認識結果メモリ6に
格納した認識結果データに対応する読取領域の数字部抽
出のための書式情報をフォーマットメモリ4から取得
し、この取得した書式情報と認識結果データの確信度を
用いて数字抽出部11により認識結果データの数字部分
の抽出処理を行うものである。
【0023】次に第2の実施の形態の文字読取装置の動
作を説明する。画像取込手段S11では、制御部2はキ
ーボード8およびマウス9の指定を受けてイメージスキ
ャナ3により用紙Pを光学的に走査して、光信号を2値
化された電気信号に変換して、その電気信号から画像デ
ータを生成する。そして、制御装置1内のイメージメモ
リ5にイメージデータとして格納する。
【0024】フォーマット読込み手段S12では、画像
取込手段S11で格納した画像データに対応するもの
で、外部記憶装置12に記録されている読取領域の情報
をフォーマットメモリ4に読み込む。ここで、読取領域
に関する情報は、読取領域を指定する座標と数字抽出手
段S24で用いる書式情報が含まれ、フォーマット登録
機能を用いてあらかじめ外部記憶装置12に格納してお
くものである。
【0025】文字認識手段S23では、画像取込手段S
11で取り込まれた画像データが格納されているイメー
ジメモリ5とフォーマット読込み手段S12で読み込ま
れた読取領域の情報を格納したフォーマットメモリ4を
参照し、読取領域に関する文字認識処理を行い、その認
識結果を認識結果メモリ6に格納する。ここで、文字認
識処理は全ての文字を数字として認識する。
【0026】数字抽出手段S24では、文字認識手段S
23で認識結果メモリ6に書き込まれた認識結果データ
と、フォーマット読込み手段S12でフォーマットメモ
リ4に読み込まれた読取領域の情報に含まれる書式情報
を参照し、数字部の抽出処理を行う。図5は第2の実施
の形態における認識処理の一例を示す説明図である。
【0027】この第2の実施の形態では、数字認識を行
うので、図5(a)に示すように、「6月25日」から
「66258」という認識結果データが得られたとす
る。ここで、括弧内な各文字の確信度である。用紙Pの
日付の部分を読取領域とした場合、読取領域に記述され
得る文字列あるは数字列の形式は、図5(b)に示すよ
うに、第1の実施の形態で説明したものと同様に、
「月」が1文字の数字、「日」が1文字の数字からなる
もの(以下、書式1と称す)、「月」が1文字の数字、
「日」が2文字の数字からなるもの(以下、書式2と称
す)、「月」が2文字の数字、「日」が1文字の数字か
らなるもの(以下、書式3と称す)、「月」が2文字の
数字、「日」が2文字の数字からなるもの(以下、書式
4と称す)の4種類である。ここで、1つの○が1文字
の数字に相当する部分を表す。
【0028】数字部の抽出処理では、まず、書式1〜4
の中で、認識結果データの文字数と一致する文字数を持
つ書式を選択する。認識結果データが「66258」と
すると、文字数は「5」であるので、書式1〜4の中で
文字数が5である書式2と3が選択される。一般に、数
字認識において漢字や数字以外の文字を認識した場合、
その文字の確信度は低い値を取る。ここで漢字や数字以
外を数字認識した場合と数字を数字認識した場合の確信
度の閾値をthlとし、thlより小さな値の確信度を
持つ認識結果データの文字は漢字や数字以外を数字認識
したものと判断する方法を用いる。I番目の書式のJ番
目の文字(FIJ)と、認識結果データのJ番目の文字
(RJ)との比較のための評価式g(I,J)を式
(1)に示す。なお、g(I,J)では、数字認識だけ
ではなく、一般の漢字認識も含めた評価も可能である。
【0029】
【数1】 そして、I番目の書式を評価するには全文字に関するg
(I,J)の総和を求める。これを式(2)に示す。
【0030】
【数2】 この式(2)に従って、全ての書式の評価値を計算し、
その値の最も大きな書式fmax=f(k)を数字抽出
のためのk番目の書式を選択する。閾値thl=40と
した場合、認識結果データが「66258」とした場合
の書式2との対比では、図5(c)に示すように、書式
2の1番面の文字は数字を示す「○」で認識結果データ
の1番目の文字は「6」で確信度が「90」であるの
で、式(1)よりg(I,J)=90となる。書式2の
2番面の文字は数字以外の「月」で認識結果データの2
番目の文字は「6」であるので、式(1)よりg(I,
J)=0となる。書式2の3番面の文字は数字を示す
「○」で認識結果データの3番目の文字は「2」で確信
度が「85」であるので、式(1)よりg(I,J)=
85となる。書式2の4番面の文字は数字を示す「○」
で認識結果データの4番目の文字は「5」で確信度が
「92」であるので、式(1)よりg(I,J)=92
となる。書式2の5番面の文字は数字以外の「日」で認
識結果データの5番目の文字は「8」であるので、式
(1)よりg(I,J)=0となる。
【0031】これに対して、認識結果データが「662
58」とした場合の書式3との対比では、書式3の1番
面の文字は数字を示す「○」で認識結果データの1番目
の文字は「6」で確信度が「90」であるので、式
(1)よりg(I,J)=90となる。書式3の2番面
の文字は数字を示す「○」で認識結果データの2番目の
文字は「6」で確信度が「38(<thl=ここでは4
0)」であるので、式(1)よりg(I,J)=−38
となる。書式3の3番面の文字は数字以外の「月」で認
識結果データの3番目の文字は「2」であるので、式
(1)よりg(I,J)=0となる。書式3の4番面の
文字は数字を示す「○」で認識結果データの3番目の文
字は「5」で確信度が「92」であるので、式(1)よ
りg(I,J)=92となる。書式3の5番面の文字は
数字以外の「日」で認識結果データの5番目の文字は
「8」であるので、式(1)よりg(I,J)=0とな
る。
【0032】そして、式(2)より書式2の評価値は
「267」であるのに対して、書式3の評価値は「14
4」であるので、評価値が最も大きい書式2が選択さ
れ、認識結果データにおいて、書式2の○で示す数字部
分に対応する座標の数字、ここでは「6、2、5」を取
り出す。抽出結果作成手段S15では、数字抽出手段S
24で得られた抽出すべき数字について、連続する数字
についてはひと固まりのものとして認識結果データを作
成し、ここでは「6」と「25」を認識結果メモリ6に
書き込む。
【0033】以上説明したように、本発明の第2の実施
の形態では、第1の実施の形態と同様の効果が得られる
とともに、読取領域の全ての文字に対して数字認識を行
うため、数字以外の漢字等の文字を含んだ一般の認識よ
りも高速に処理することができるだけでなく、数字に関
しては高い認識率の認識結果を取得できるという効果が
得られる。従って、抽出された数字データは、第1の実
施の形態で得られる認識結果よりも、より精度のよい結
果を得ることができ、なおかつ必要なデータの数字部分
が認識結果として得られるため、オペレータによる認識
結果の修正作業に関する負荷が軽減される。
【0034】図6は第3の実施の形態の文字読取装置の
制御機能を示すブロック図である。ここで、第3の実施
の形態の文字読取装置のハードウエア構成は図1で説明
したものと同じとする。第3の実施の形態は、前記第1
の実施の形態の構成あるいは第2の実施の形態の構成の
抽出結果作成手段が異なるもので、抽出された数字につ
いて単独のものは単独、連続する数字はひと固まりのも
のとしてそれぞれを処理結果としたのに対して、数字を
区切るための文字(以下、区切り文字と称す)を定義す
ることで、複数個の単独の数字および数字の固まりを、
区切り文字を用いて1つの抽出結果データに連結したも
のを作成するもので、この処理を行うため、抽出結果作
成手段S35を備えるものである。なお、図6における
画像取込み手段S11とフォーマット読込み手段S12
と文字認識手段S13および数字抽出手段S14は図2
で説明した第1の実施の形態と同じである。もしくは文
字認識手段S13と数字抽出手段S14を、図4で説明
した第2の実施の形態の文字認識手段S23と数字抽出
手段S24に置き換えてもよい。
【0035】抽出結果作成手段S31は、フォーマット
メモリ4から読取領域の情報である書式を参照して区切
り文字を取得し、その区切り文字を使用して数字抽出手
段S14の結果から処理結果を作成し出力するもので、
ハードウエアとしては図1における制御部2、フォーマ
ットメモリ4、認識結果メモリ6および数字抽出部11
に対応する。
【0036】以下に第3の実施の形態の文字認識装置の
動作を説明する。なお、以下に示す数字抽出までの処理
は、第1の実施の形態の構成を用いて説明するが、第2
の実施の形態の構成でもよい。画像取込手段S11で
は、制御部2はキーボード8およびマウス9の指定を受
けてイメージスキャナ3により用紙Pを光学的に走査し
て、光信号を2値化された電気信号に変換して、その電
気信号から画像データを生成する。そして、制御装置1
内のイメージメモリ5にイメージデータとして格納す
る。
【0037】フォーマット読込み手段S12では、画像
取込手段S11で格納した画像データに対応するもの
で、外部記憶装置12に記録されている読取領域の情報
をフォーマットメモリ4に読み込む。文字認識手段S1
3では、画像取込手段S11で取り込まれた画像データ
が格納されているイメージメモリ5とフォーマット読込
み手段S12で読み込まれた読取領域の情報を格納した
フォーマットメモリ4を参照し、読取領域に関する文字
認識処理を行い、その認識結果を認識結果メモリ6に格
納する。
【0038】数字抽出手段S14では、文字認識手段S
13で認識結果メモリ6に書き込まれた認識結果データ
と、フォーマット読込み手段S12でフォーマットメモ
リ4に読み込まれた読取領域の情報に含まれる書式情報
を参照し、数字部の抽出処理を行う。図3で説明したよ
うに、認識結果データとして「6月25日」が得られ、
読取領域の情報の書式として書式1〜4が与えられたも
のとすると、認識結果データの文字数から、まず書式2
と3が選択され、書式の数字部分と認識結果の数字部分
との対応を参照し、書式と認識結果の数字部分および書
式と認識結果の文字部分との文字コードが対応している
文字数の多い書式を選択する。ここでは図3で説明した
ように書式2が採用され、認識結果データにおいて、書
式2の○で示す数字部分に対応する座標の数字、ここで
は「6、2、5」を取り出す。
【0039】抽出結果作成手段S31では、まず、フォ
ーマットメモリ4から読取領域の情報としてあらかじめ
登録されている書式の区切り文字を取得する。その後、
数字抽出手段S14の処理結果で選択された文字を、単
独の数字は単独の数字、連続した数字は連続した数字の
かたまりに分け、これらの数字のかたまりの間に区切り
文字を挿入形式で、抽出処理結果を作成し、認識結果メ
モリ6に出力する。
【0040】図7は第3の実施の形態における抽出結果
作成処理の一例を示す説明図であり、区切り文字を
「/」と定義した場合、抽出結果データとして「6」と
「25」が得られると、「6」と「25」の間に「/」
を挿入した抽出処理結果を作成する。なお、図7(a)
では、読取領域の記述を漢字の「月」と「日」を使うも
のとして説明したが、読取領域に「6.25」と記述す
る場合でも、図3で説明した書式情報を「○.○○」
(書式2の場合)と置き換えれば、抽出結果データとし
て「6」と「25」が得られ、図7(b)に示すよう
に、「6」と「25」の間に「/」を挿入した抽出処理
結果を作成することができる。
【0041】以上説明したように、本発明の第3の実施
の形態では、第1の実施の形態および第2の実施の形態
と同様の効果が得られるとともに、第1の実施の形態お
よび第2の実施の形態では、抽出処理結果を、抽出され
た数字のかたまりごとに抽出結果データとして作成した
ものを、区切り文字を読取領域の情報の書式としてあら
かじめ定義することで、数字のかたまりが複数個抽出さ
れた場合、区切り文字を挿入した処理結果作成するもの
である。また、図7の2つの日付の例のように異なる記
述による日付であっても、それに合わせて書式情報を設
定すれば、統一した認識結果を得ることができる。さら
に、この認識結果を他のシステムで利用する場合、デー
タの区切りとしてこの区切り文字を検索することで、個
々のデータとして容易に分割することが可能である。
【0042】したがって、第1の実施の形態および第2
の実施の形態と同様の効果を得ることができるだけでな
く、日付のような複数の記述方法を持つような場合の抽
出結果で統一された書式での認識結果を得ることができ
るだけでなく、他システムにおいて、この認識結果を用
いる場合、区切り文字をもとに容易にそのデータを分割
することが可能であるという効果がある。
【0043】なお、上述した全ての実施の形態では、書
式の記述方法においてスクリプト等の簡易表現を定義し
たり、書式をあらかじめ辞書化することが可能である。
また、第1の実施の形態および第2の実施の形態では、
特に数字のみの抽出処理について説明しているが、書式
の定義の仕方によっては、ある特定の数字以外の文字に
ついて抽出することも可能である。
【0044】さらに、上述した全ての実施の形態におい
ては、1行の認識結果について抽出処理を行ったが、読
取領域の情報の書式として、処理行を追加することで、
全ての行を1行として処理することや、あるいは各行ご
とに処理することが可能である。
【0045】
【発明の効果】以上説明したように、本発明は、用紙の
記述内容を光学的に読み取って取得した画像データに対
して文字認識を行う読取領域に記述され得る書式の情報
を格納しておき、読取領域内の認識結果に該当する書式
情報を選択し、この書式情報で特定される部分を前記認
識結果から抽出することとしたので、特定文字、例えば
日付の数字部分のみの認識結果データを出力することが
可能となり、修正端末上でオペレータが数字と漢字の混
在した認識結果データからの数字のみを抽出するという
ような作業を無くすことができ、オペレータの負荷を軽
減することができる。
【図面の簡単な説明】
【図1】本発明の文字読取装置の第1の実施の形態を示
すブロック図
【図2】第1の実施の形態の文字読取装置の制御機能を
示すブロック図
【図3】第1の実施の形態における認識処理の一例を示
す説明図
【図4】第2の実施の形態の文字読取装置の制御機能を
示すブロック図
【図5】第2の実施の形態における認識処理の一例を示
す説明図
【図6】第3の実施の形態の文字読取装置の制御機能を
示すブロック図
【図7】第3の実施の形態における抽出結果作成処理の
一例を示す説明図
【図8】用紙の一例を示す説明図
【符号の説明】
1 制御装置 2 制御部 3 イメージスキャナ 4 フォーマットメモリ 5 イメージメモリ 6 認識結果メモリ 7 ディスプレイ 8 キーボード 9 マウス 10 文字認識部 11 数字抽出部 12 外部記憶装置 P 用紙

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 用紙の記述内容を光学的に読み取って画
    像データを取得し、この画像データに対して、あらかじ
    め決められている読取領域に対して文字認識を行う文字
    読取装置において、 前記読取領域に記述され得る書式の情報を格納する手段
    と、 読取領域内の認識結果に該当する書式情報を選択し、こ
    の書式情報で特定される部分を前記認識結果から抽出す
    る手段とを備えたことを特徴とする文字読取装置。
  2. 【請求項2】 請求項1において、 読取領域内の認識結果の文字の並びと書式情報の文字の
    並びの対比で該当する書式情報を選択する手段を備えた
    ことを特徴とする文字読取装置。
  3. 【請求項3】 請求項1において、 書式情報の文字の並びと認識結果における各文字の確信
    度の対比で各書式情報の評価値を求め、求めた評価値に
    応じて該当する書式情報を選択する手段を備えたことを
    特徴とする文字読取装置。
  4. 【請求項4】 請求項1、2または3において、 書式情報に応じて認識結果から抽出した複数の部分を、
    各部分の間に区切りを示すデータを挿入して1つの認識
    結果として作成する手段を備えたことを特徴とする文字
    読取装置。
JP10031778A 1998-02-13 1998-02-13 文字読取装置 Pending JPH11232381A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10031778A JPH11232381A (ja) 1998-02-13 1998-02-13 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10031778A JPH11232381A (ja) 1998-02-13 1998-02-13 文字読取装置

Publications (1)

Publication Number Publication Date
JPH11232381A true JPH11232381A (ja) 1999-08-27

Family

ID=12340524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10031778A Pending JPH11232381A (ja) 1998-02-13 1998-02-13 文字読取装置

Country Status (1)

Country Link
JP (1) JPH11232381A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087021A (ja) * 2005-09-21 2007-04-05 Fujitsu Ltd 紙文書の電子文書化装置,紙文書の電子文書化方法および紙文書の電子文書化用プログラム
US20160227066A1 (en) * 2015-01-30 2016-08-04 Pfu Limited Information processing device, method, and medium
JP2025040755A (ja) * 2023-09-12 2025-03-25 株式会社オプトエレクトロニクス 文字列読取方法、文字列読取装置及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087021A (ja) * 2005-09-21 2007-04-05 Fujitsu Ltd 紙文書の電子文書化装置,紙文書の電子文書化方法および紙文書の電子文書化用プログラム
US20160227066A1 (en) * 2015-01-30 2016-08-04 Pfu Limited Information processing device, method, and medium
JP2016143165A (ja) * 2015-01-30 2016-08-08 株式会社Pfu 情報処理装置、方法およびプログラム
CN105847632A (zh) * 2015-01-30 2016-08-10 株式会社Pfu 信息处理装置以及方法
US9641715B2 (en) * 2015-01-30 2017-05-02 Pfu Limited Information processing device, method, and medium
JP2025040755A (ja) * 2023-09-12 2025-03-25 株式会社オプトエレクトロニクス 文字列読取方法、文字列読取装置及びプログラム

Similar Documents

Publication Publication Date Title
JP2713622B2 (ja) 表形式文書読取装置
CN111860450A (zh) 票证识别装置以及票证信息管理系统
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH11232381A (ja) 文字読取装置
CN119337866A (zh) 一种ocr病历文本的纠错方法
JPH0388062A (ja) 文書作成装置
CN111209451A (zh) 题目口令码生成方法、识别方法、设备终端、服务器以及图文介质
JP2001147990A (ja) 画像データ処理装置及び方法並びにこれに利用される記憶媒体
JP3077580B2 (ja) 文字読取装置
JPH10171917A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP2931485B2 (ja) 文字切出し装置及び方法
JPH05210635A (ja) 入力装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JPH0434655A (ja) 図面読取装置
JPS6343788B2 (ja)
CN118840755A (zh) 案件文书评查方法、系统、设备及介质
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JP2000105796A (ja) 文字読み取りシステムおよび同システムにおける読み取り結果訂正処理方法
JPS63150782A (ja) 文字認識装置
JPH02220186A (ja) 文字読取装置