JPH10124610A - 光学式文字読取装置 - Google Patents
光学式文字読取装置Info
- Publication number
- JPH10124610A JPH10124610A JP8280842A JP28084296A JPH10124610A JP H10124610 A JPH10124610 A JP H10124610A JP 8280842 A JP8280842 A JP 8280842A JP 28084296 A JP28084296 A JP 28084296A JP H10124610 A JPH10124610 A JP H10124610A
- Authority
- JP
- Japan
- Prior art keywords
- information
- rectangle
- rectangular
- format
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims description 30
- 238000012015 optical character recognition Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 28
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 3
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【課題】 帳票に新たな情報を付加することなくフォー
マット情報を確実に特定して、複数種類の帳票を同時に
識別して読み取り処理を行う。 【解決手段】 イメージ入力装置10を用いて帳票の画
像データの第1の矩形情報を抽出する矩形情報抽出手段
12と、第1の矩形情報とそれに対応する第1のフォー
マット情報とを登録処理する登録処理手段20と、第1
の矩形情報を格納する矩形情報登録手段22と、第1の
フォーマット情報を格納するフォーマット情報登録手段
24と、第1の矩形情報と矩形情報抽出手段12で抽出
した第2の矩形情報とを比較して第2の矩形情報に最も
一致する第3の矩形情報を特定する帳票識別手段14
と、第1のフォーマット情報の中から第3の矩形情報に
対応する第3のフォーマット情報を選択して帳票を読み
取り処理する読取手段16と、読み取り処理の結果を加
工・編集して信頼度を得るデータ処理手段18とを有す
る。
マット情報を確実に特定して、複数種類の帳票を同時に
識別して読み取り処理を行う。 【解決手段】 イメージ入力装置10を用いて帳票の画
像データの第1の矩形情報を抽出する矩形情報抽出手段
12と、第1の矩形情報とそれに対応する第1のフォー
マット情報とを登録処理する登録処理手段20と、第1
の矩形情報を格納する矩形情報登録手段22と、第1の
フォーマット情報を格納するフォーマット情報登録手段
24と、第1の矩形情報と矩形情報抽出手段12で抽出
した第2の矩形情報とを比較して第2の矩形情報に最も
一致する第3の矩形情報を特定する帳票識別手段14
と、第1のフォーマット情報の中から第3の矩形情報に
対応する第3のフォーマット情報を選択して帳票を読み
取り処理する読取手段16と、読み取り処理の結果を加
工・編集して信頼度を得るデータ処理手段18とを有す
る。
Description
【0001】
【発明の属する技術分野】本発明は光学式文字読取装置
に関し、特に帳票の種類を識別して処理を行う光学式文
字読取装置に関する。
に関し、特に帳票の種類を識別して処理を行う光学式文
字読取装置に関する。
【0002】
【従来の技術】イメージスキャナや光学式文字読取装置
を使用して帳票類を識別して処理する場合には、フォー
マット情報を参照するのが一般的である。フォーマット
情報とは、イメージスキャナや光学式文字読取装置で帳
票類の読み取り処理を行うときに必要となる情報であ
り、あらかじめ装置内に登録されている。フォーマット
情報としては、主に帳票の大きさや厚さ、読み取るイメ
ージ領域の位置、読み取りの対象となる記入文字の種
類、大きさ、数等があり、文字の種類とは、その文字が
活字であるか手書きであるか、数字、英字または漢字で
あるか等をいう。
を使用して帳票類を識別して処理する場合には、フォー
マット情報を参照するのが一般的である。フォーマット
情報とは、イメージスキャナや光学式文字読取装置で帳
票類の読み取り処理を行うときに必要となる情報であ
り、あらかじめ装置内に登録されている。フォーマット
情報としては、主に帳票の大きさや厚さ、読み取るイメ
ージ領域の位置、読み取りの対象となる記入文字の種
類、大きさ、数等があり、文字の種類とは、その文字が
活字であるか手書きであるか、数字、英字または漢字で
あるか等をいう。
【0003】フォーマット情報の異なる帳票を同時に処
理する場合には、各帳票の固定位置に文字を設定してお
き、これをIDとして認識することによって各帳票のフ
ォーマット情報を識別する方式が一般的であるが、ID
を持たない既存の帳票を処理することができないという
欠点を持つ。これを解決するための従来例を以下に示
す。
理する場合には、各帳票の固定位置に文字を設定してお
き、これをIDとして認識することによって各帳票のフ
ォーマット情報を識別する方式が一般的であるが、ID
を持たない既存の帳票を処理することができないという
欠点を持つ。これを解決するための従来例を以下に示
す。
【0004】(1)特開昭62−179079号公報
(以下、公報1と記述する)に記載されている文字読取
装置の発明は、帳票の形状からフォーマットデータを判
断して文字を識別する。
(以下、公報1と記述する)に記載されている文字読取
装置の発明は、帳票の形状からフォーマットデータを判
断して文字を識別する。
【0005】(2)特開昭63−231688号公報
(以下、公報2と記述する)に記載されている帳票読取
装置の発明は、帳票の大きさを判断してフォーマット制
御情報を自動的に選択する。
(以下、公報2と記述する)に記載されている帳票読取
装置の発明は、帳票の大きさを判断してフォーマット制
御情報を自動的に選択する。
【0006】(3)特開平1−199285号公報(以
下、公報3と記述する)に記載されている光学的文字読
取装置の発明は、あらかじめ帳票識別用マークが記録さ
れた帳票を使用し、この帳票識別用マークに基づいて適
正なフォーマットコントロール情報を選択指定して読み
取り処理を行う。
下、公報3と記述する)に記載されている光学的文字読
取装置の発明は、あらかじめ帳票識別用マークが記録さ
れた帳票を使用し、この帳票識別用マークに基づいて適
正なフォーマットコントロール情報を選択指定して読み
取り処理を行う。
【0007】(4)特開平2−230366号公報(以
下、公報4と記述する)に記載されている帳票認識装置
の発明は、帳票中に一般的に含まれている表フィールド
に関する特徴の違いを用いてフォーマット情報を識別す
る。
下、公報4と記述する)に記載されている帳票認識装置
の発明は、帳票中に一般的に含まれている表フィールド
に関する特徴の違いを用いてフォーマット情報を識別す
る。
【0008】(5)特開平7−152856号公報(以
下、公報5と記述する)に記載されている光学的文字読
取装置の発明は、あらかじめ帳票毎のID画像を辞書登
録しておいて、帳票を処理する際にID画像を検出して
辞書登録したID画像と比較することによって、フォー
マット情報を識別する。
下、公報5と記述する)に記載されている光学的文字読
取装置の発明は、あらかじめ帳票毎のID画像を辞書登
録しておいて、帳票を処理する際にID画像を検出して
辞書登録したID画像と比較することによって、フォー
マット情報を識別する。
【0009】
【発明が解決しようとする課題】既存の帳票を同時に処
理する場合には、前述した従来例においては、以下に示
す欠点がある。
理する場合には、前述した従来例においては、以下に示
す欠点がある。
【0010】(1)公報1に記載された発明では、帳票
の形状によってフォーマットデータを判断しているが、
同一形状でフォーマットデータが異なる帳票には適用す
ることができない。
の形状によってフォーマットデータを判断しているが、
同一形状でフォーマットデータが異なる帳票には適用す
ることができない。
【0011】(2)公報2に記載された発明では、帳票
の大きさによってフォーマット制御情報を選択している
が、同一の大きさでフォーマット情報が異なる帳票には
適用することができない。
の大きさによってフォーマット制御情報を選択している
が、同一の大きさでフォーマット情報が異なる帳票には
適用することができない。
【0012】(3)公報3に記載された発明では、帳票
識別用マークによってフォーマットコントロール情報を
選択しているが、あらかじめ帳票に帳票識別用マークを
記録しなければならないので、既存の帳票によっては困
難な場合が生じる。
識別用マークによってフォーマットコントロール情報を
選択しているが、あらかじめ帳票に帳票識別用マークを
記録しなければならないので、既存の帳票によっては困
難な場合が生じる。
【0013】(4)公報4に記載された発明では、表フ
ィールドの特徴の違いによってフォーマット情報を識別
しているが、表フィールドの特徴を抽出して判断する処
理の負荷が大きく、処理時間やハードウェア規模の負担
が重くなる。また、表フィールドがない帳票には適用す
ることができない。
ィールドの特徴の違いによってフォーマット情報を識別
しているが、表フィールドの特徴を抽出して判断する処
理の負荷が大きく、処理時間やハードウェア規模の負担
が重くなる。また、表フィールドがない帳票には適用す
ることができない。
【0014】(5)公報5に記載された発明では、ID
画像を辞書登録して識別の判断をしているが、読み取り
の対象となる画像のみが存在してID画像が存在しない
場合や、同じようなID画像でフォーマット情報が異な
る場合には適用することができない。
画像を辞書登録して識別の判断をしているが、読み取り
の対象となる画像のみが存在してID画像が存在しない
場合や、同じようなID画像でフォーマット情報が異な
る場合には適用することができない。
【0015】このような点に鑑み本発明は、読み取り処
理の対象となる帳票に新たな情報を付加することなくフ
ォーマット情報を確実に特定して、複数種類の帳票を同
時に識別して読み取り処理を行うことが可能な光学式文
字読取装置を提供することを目的とする。
理の対象となる帳票に新たな情報を付加することなくフ
ォーマット情報を確実に特定して、複数種類の帳票を同
時に識別して読み取り処理を行うことが可能な光学式文
字読取装置を提供することを目的とする。
【0016】
【課題を解決するための手段】本発明の光学式文字読取
装置は、イメージ入力装置(10)を用いて処理対象と
なる帳票からイメージを取得して、取得した該イメージ
から画像データの第1の矩形情報を抽出する矩形情報抽
出手段(12)と、該矩形情報抽出手段(12)で抽出
した該第1の矩形情報および該第1の矩形情報に対応す
る各帳票に固有の第1のフォーマット情報の登録処理を
行う登録処理手段(20)と、該登録処理手段(20)
で登録処理された該第1の矩形情報を格納する矩形情報
登録手段(22)と、該登録処理手段(20)で登録処
理された該第1のフォーマット情報を格納するフォーマ
ット情報登録手段(24)と、該矩形情報抽出手段(1
2)で抽出した第2の矩形情報と該矩形情報登録手段
(22)に格納されている該第1の矩形情報とを比較し
て、該第2の矩形情報に最も一致する第3の矩形情報を
特定する帳票識別手段(14)と、該フォーマット情報
登録手段(24)に格納されている該第1のフォーマッ
ト情報の中から、該帳票識別手段(14)で得た該第3
の矩形情報に対応する第3のフォーマット情報を選択し
て、選択した該第3のフォーマット情報を用いて、該イ
メージ入力装置(10)から取得した該イメージを読み
取り処理する読取手段(16)と、該読取手段(16)
で読み取り処理された結果を加工して編集し、該読み取
り処理された結果の信頼度を得るデータ処理手段(1
8)とを有する。
装置は、イメージ入力装置(10)を用いて処理対象と
なる帳票からイメージを取得して、取得した該イメージ
から画像データの第1の矩形情報を抽出する矩形情報抽
出手段(12)と、該矩形情報抽出手段(12)で抽出
した該第1の矩形情報および該第1の矩形情報に対応す
る各帳票に固有の第1のフォーマット情報の登録処理を
行う登録処理手段(20)と、該登録処理手段(20)
で登録処理された該第1の矩形情報を格納する矩形情報
登録手段(22)と、該登録処理手段(20)で登録処
理された該第1のフォーマット情報を格納するフォーマ
ット情報登録手段(24)と、該矩形情報抽出手段(1
2)で抽出した第2の矩形情報と該矩形情報登録手段
(22)に格納されている該第1の矩形情報とを比較し
て、該第2の矩形情報に最も一致する第3の矩形情報を
特定する帳票識別手段(14)と、該フォーマット情報
登録手段(24)に格納されている該第1のフォーマッ
ト情報の中から、該帳票識別手段(14)で得た該第3
の矩形情報に対応する第3のフォーマット情報を選択し
て、選択した該第3のフォーマット情報を用いて、該イ
メージ入力装置(10)から取得した該イメージを読み
取り処理する読取手段(16)と、該読取手段(16)
で読み取り処理された結果を加工して編集し、該読み取
り処理された結果の信頼度を得るデータ処理手段(1
8)とを有する。
【0017】上記本発明の光学式文字読取装置は、抽出
の対象となる矩形のうちの隣接する複数の矩形の間の距
離が所定の第1の閾値以下である場合には、前記矩形情
報抽出手段(12)が、該隣接する複数の矩形を1つの
矩形とみなして前記第2の矩形情報を抽出することがで
きる。
の対象となる矩形のうちの隣接する複数の矩形の間の距
離が所定の第1の閾値以下である場合には、前記矩形情
報抽出手段(12)が、該隣接する複数の矩形を1つの
矩形とみなして前記第2の矩形情報を抽出することがで
きる。
【0018】また、上記本発明の光学式文字読取装置
は、前記データ処理手段(18)で得た前記信頼度が所
定の第2の閾値以下である場合には、前記矩形情報抽出
手段(12)が、前記第1の閾値を変化させて再度前記
第2の矩形情報を抽出することができる。
は、前記データ処理手段(18)で得た前記信頼度が所
定の第2の閾値以下である場合には、前記矩形情報抽出
手段(12)が、前記第1の閾値を変化させて再度前記
第2の矩形情報を抽出することができる。
【0019】画像データとフォーマット情報および矩形
情報との関係について、本発明と公報5とを対比して説
明する。上述したように、公報5に記載された発明にお
いては、ID画像を辞書登録して識別の判断をしている
が、同じようなID画像でフォーマット情報が異なる場
合には適用することができない。しかし、ID画像とす
る図柄が同じであっても読み取るフォーマット情報が異
なることは十分に考えられる。すなわち、帳票デザイン
を行う際に図柄を統一しておいて、運用によって読み取
り処理の対象となる画像データのみが異なる場合に読み
取る位置を変えるということは一般的に行われる。
情報との関係について、本発明と公報5とを対比して説
明する。上述したように、公報5に記載された発明にお
いては、ID画像を辞書登録して識別の判断をしている
が、同じようなID画像でフォーマット情報が異なる場
合には適用することができない。しかし、ID画像とす
る図柄が同じであっても読み取るフォーマット情報が異
なることは十分に考えられる。すなわち、帳票デザイン
を行う際に図柄を統一しておいて、運用によって読み取
り処理の対象となる画像データのみが異なる場合に読み
取る位置を変えるということは一般的に行われる。
【0020】また、公報5においては、読み取り処理の
対象となる画像データの全てが常に記入されるとは限ら
ないので、読み取り処理の対象となる画像データをID
画像とすることはできない。しかし、本発明において
は、読み取り処理の対象となる画像データに記入されて
いない部分があっても、読み取り処理の対象となる画像
データ(矩形)が異なることによって抽出する矩形情報
が異なるので、登録矩形情報とすることができる。
対象となる画像データの全てが常に記入されるとは限ら
ないので、読み取り処理の対象となる画像データをID
画像とすることはできない。しかし、本発明において
は、読み取り処理の対象となる画像データに記入されて
いない部分があっても、読み取り処理の対象となる画像
データ(矩形)が異なることによって抽出する矩形情報
が異なるので、登録矩形情報とすることができる。
【0021】本発明においては、画像データとして抽出
する矩形情報を帳票の処理に使用するフォーマット情報
の一部として追加する。このため、フォーマット情報が
異なる場合であっても矩形情報が同じであるということ
は起こり得る。しかし実際には、フォーマット情報が異
なるということは、すなわち矩形情報が異なるというこ
とに等しい。
する矩形情報を帳票の処理に使用するフォーマット情報
の一部として追加する。このため、フォーマット情報が
異なる場合であっても矩形情報が同じであるということ
は起こり得る。しかし実際には、フォーマット情報が異
なるということは、すなわち矩形情報が異なるというこ
とに等しい。
【0022】すなわち、複数の帳票において読み取り処
理の対象となる画像データ(矩形)が全く同じ位置にあ
りながら読み取るフォーマット情報が異なるということ
は理論的には起こり得るが、運用上で混乱を生じるので
同一ユーザにおいてはそのような設定は行わない。
理の対象となる画像データ(矩形)が全く同じ位置にあ
りながら読み取るフォーマット情報が異なるということ
は理論的には起こり得るが、運用上で混乱を生じるので
同一ユーザにおいてはそのような設定は行わない。
【0023】ユーザが異なる場合には、全く同じフォー
マット情報を作成してしまう可能性があるが、ユーザが
異なるので運用が重なって帳票を識別しなければならな
いということは生じない。
マット情報を作成してしまう可能性があるが、ユーザが
異なるので運用が重なって帳票を識別しなければならな
いということは生じない。
【0024】したがって、上記本発明の構成によれば、
読み取りの対象となる画像のみが存在する帳票であって
も、画像データから抽出した矩形情報をあらかじめ登録
してあるフォーマット情報と比較するので、帳票上にI
D等の新たな情報を付加することなく、各帳票に固有の
フォーマット情報を確実に特定して帳票の種類を特定す
ることが可能となり、あらゆるフォーマットの帳票を同
時に処理することが可能となる。
読み取りの対象となる画像のみが存在する帳票であって
も、画像データから抽出した矩形情報をあらかじめ登録
してあるフォーマット情報と比較するので、帳票上にI
D等の新たな情報を付加することなく、各帳票に固有の
フォーマット情報を確実に特定して帳票の種類を特定す
ることが可能となり、あらゆるフォーマットの帳票を同
時に処理することが可能となる。
【0025】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0026】[第1の実施の形態]
図1は、本発明の第1
の実施の形態における光学式文字読取装置の構成を示す
ブロック図である。図2〜図4は、本発明の第1の実施
の形態において用いられる帳票および抽出矩形を示す図
である。図5は、本発明の第1の実施の形態において用
いられる矩形情報を示す図である。
図1は、本発明の第1
の実施の形態における光学式文字読取装置の構成を示す
ブロック図である。図2〜図4は、本発明の第1の実施
の形態において用いられる帳票および抽出矩形を示す図
である。図5は、本発明の第1の実施の形態において用
いられる矩形情報を示す図である。
【0027】初めに、第1の実施の形態の構成を説明す
る。
る。
【0028】図1に示した光学式文字読取装置は、スキ
ャナ部10と、矩形情報抽出部12と、帳票識別部14
と、読取部16と、データ処理部18と、登録処理部2
0と、矩形情報登録部22と、フォーマット情報登録部
24とを有する構成となっている。
ャナ部10と、矩形情報抽出部12と、帳票識別部14
と、読取部16と、データ処理部18と、登録処理部2
0と、矩形情報登録部22と、フォーマット情報登録部
24とを有する構成となっている。
【0029】スキャナ部10は、処理対象となる帳票か
らイメージを取得する。矩形情報抽出部12は、スキャ
ナ部10で取得したイメージから矩形情報を抽出する。
登録処理部20は、矩形情報抽出部12で抽出した矩形
情報およびその矩形情報に対応する各帳票に固有のフォ
ーマット情報の登録処理を行う。矩形情報登録部22
は、登録処理部20で登録処理された矩形情報を格納す
る。フォーマット情報登録部24は、登録処理部20で
登録処理されたフォーマット情報を格納する。
らイメージを取得する。矩形情報抽出部12は、スキャ
ナ部10で取得したイメージから矩形情報を抽出する。
登録処理部20は、矩形情報抽出部12で抽出した矩形
情報およびその矩形情報に対応する各帳票に固有のフォ
ーマット情報の登録処理を行う。矩形情報登録部22
は、登録処理部20で登録処理された矩形情報を格納す
る。フォーマット情報登録部24は、登録処理部20で
登録処理されたフォーマット情報を格納する。
【0030】帳票識別部14は、矩形情報抽出部12で
抽出した矩形情報(以下、抽出矩形情報と記述する)と
矩形情報登録部22にあらかじめ登録されている矩形情
報(以下、登録矩形情報と記述する)とを比較して、抽
出矩形情報に最も一致する登録矩形情報を特定する。読
取部16は、フォーマット情報登録部24にあらかじめ
格納されているフォーマット情報(以下、登録フォーマ
ット情報と記述する)の中から、帳票識別部14で特定
した登録矩形情報に対応するフォーマット情報を選択す
る。そして、選択した登録フォーマット情報を用いて、
スキャナ部10から取得したイメージを読み取り処理す
る。データ処理部18は、読取部16で読み取り処理さ
れた結果を加工して編集し、読み取り処理された結果の
信頼度を得る。
抽出した矩形情報(以下、抽出矩形情報と記述する)と
矩形情報登録部22にあらかじめ登録されている矩形情
報(以下、登録矩形情報と記述する)とを比較して、抽
出矩形情報に最も一致する登録矩形情報を特定する。読
取部16は、フォーマット情報登録部24にあらかじめ
格納されているフォーマット情報(以下、登録フォーマ
ット情報と記述する)の中から、帳票識別部14で特定
した登録矩形情報に対応するフォーマット情報を選択す
る。そして、選択した登録フォーマット情報を用いて、
スキャナ部10から取得したイメージを読み取り処理す
る。データ処理部18は、読取部16で読み取り処理さ
れた結果を加工して編集し、読み取り処理された結果の
信頼度を得る。
【0031】次に、第1の実施の形態の動作を説明す
る。
る。
【0032】図1を用いて、読み取り処理において参照
される矩形情報およびそれに対応するフォーマット情報
の登録処理を説明する。図1においては、あらかじめ帳
票の読み取り処理の際に参照される登録矩形情報を格納
し、併せて登録矩形情報に対応する登録フォーマット情
報を格納しておく必要がある。このため、スキャナ部1
0から帳票イメージを入力して、矩形情報抽出部12で
帳票イメージから得た矩形情報を登録処理部20で登録
処理を行って、登録矩形情報として矩形情報登録部22
に格納する。それと同時に、矩形情報に対応するフォー
マット情報も登録処理部20で登録処理を行って、登録
フォーマット情報としてフォーマット情報登録部24に
格納する。
される矩形情報およびそれに対応するフォーマット情報
の登録処理を説明する。図1においては、あらかじめ帳
票の読み取り処理の際に参照される登録矩形情報を格納
し、併せて登録矩形情報に対応する登録フォーマット情
報を格納しておく必要がある。このため、スキャナ部1
0から帳票イメージを入力して、矩形情報抽出部12で
帳票イメージから得た矩形情報を登録処理部20で登録
処理を行って、登録矩形情報として矩形情報登録部22
に格納する。それと同時に、矩形情報に対応するフォー
マット情報も登録処理部20で登録処理を行って、登録
フォーマット情報としてフォーマット情報登録部24に
格納する。
【0033】図1〜図5を用いて、上述した矩形情報の
抽出処理について説明する。ここでは、図2に示した帳
票を抽出対象となる帳票として処理するために、矩形情
報を抽出するものとする。
抽出処理について説明する。ここでは、図2に示した帳
票を抽出対象となる帳票として処理するために、矩形情
報を抽出するものとする。
【0034】図2に示した帳票は、図1に示したスキャ
ナ部10からイメージ取得される。矩形情報抽出部12
は、スキャナ部10で得られた画像データから、図3に
示すように各画像データの最外郭を示す矩形の矩形情報
を抽出する。すなわち、図5に示すように、矩形1〜1
5のそれぞれの検出位置および大きさを矩形情報として
抽出する。第1の実施の形態においては、矩形1〜5は
読み取り処理の対象とならない画像データであり、矩形
6〜15が読み取り処理の対象となる画像データであ
る。したがって、矩形1〜15に関する矩形情報が、抽
出矩形情報として矩形情報登録部22に格納され、その
うちの矩形6〜15に関する読み取り処理情報が、抽出
矩形情報に対応するフォーマット情報となる。
ナ部10からイメージ取得される。矩形情報抽出部12
は、スキャナ部10で得られた画像データから、図3に
示すように各画像データの最外郭を示す矩形の矩形情報
を抽出する。すなわち、図5に示すように、矩形1〜1
5のそれぞれの検出位置および大きさを矩形情報として
抽出する。第1の実施の形態においては、矩形1〜5は
読み取り処理の対象とならない画像データであり、矩形
6〜15が読み取り処理の対象となる画像データであ
る。したがって、矩形1〜15に関する矩形情報が、抽
出矩形情報として矩形情報登録部22に格納され、その
うちの矩形6〜15に関する読み取り処理情報が、抽出
矩形情報に対応するフォーマット情報となる。
【0035】また、矩形6〜15が手書きの記入フィー
ルドの場合には記入されないことがあり、矩形情報が抽
出されないことが想定される。このため、矩形情報抽出
の確実度を、図5に示すように矩形情報のランク情報と
して定義する。帳票上では、印刷された文字、絵等の矩
形情報は抽出される確実度が高いのでランク情報を高い
値に設定しておき、手書き記入フィールド等のブランク
が予想される矩形情報は抽出される確実度が低いのでラ
ンク情報を低い値に設定しておく。これによって、抽出
矩形情報と矩形情報登録部22に格納されている登録矩
形情報とを比較するときに、抽出の確実度を反映するこ
とができる。
ルドの場合には記入されないことがあり、矩形情報が抽
出されないことが想定される。このため、矩形情報抽出
の確実度を、図5に示すように矩形情報のランク情報と
して定義する。帳票上では、印刷された文字、絵等の矩
形情報は抽出される確実度が高いのでランク情報を高い
値に設定しておき、手書き記入フィールド等のブランク
が予想される矩形情報は抽出される確実度が低いのでラ
ンク情報を低い値に設定しておく。これによって、抽出
矩形情報と矩形情報登録部22に格納されている登録矩
形情報とを比較するときに、抽出の確実度を反映するこ
とができる。
【0036】矩形情報の抽出方法については特に問わな
いが、図4に示すように、縦方向および横方向に黒画素
を投影してヒストグラムを作成し、矩形情報を抽出する
方法が知られている。この方法を用いれば、抽出処理を
行う際の負担も少なく実現することができる。
いが、図4に示すように、縦方向および横方向に黒画素
を投影してヒストグラムを作成し、矩形情報を抽出する
方法が知られている。この方法を用いれば、抽出処理を
行う際の負担も少なく実現することができる。
【0037】次に、帳票を識別して読み取り処理する動
作について説明する。矩形情報の登録処理と同様に、対
象帳票をスキャナ部10からイメージ取得して矩形情報
抽出部12で抽出した抽出矩形情報を、矩形情報登録部
22に格納されていて矩形数が抽出矩形情報に一致する
登録矩形情報と順次比較して、最も一致する登録矩形情
報を特定する。登録矩形情報を特定することができたな
らば、読取部16は、特定した登録矩形情報に対応する
登録フォーマット情報をフォーマット情報登録部24か
ら引き出して、スキャナ部10から取得したイメージの
読み取り処理を行い、読み取り結果をデータ処理部18
に渡す。データ処理部18は、受け取った読み取り処理
後のデータを加工して編集し、読み取り結果の信頼度を
得る。
作について説明する。矩形情報の登録処理と同様に、対
象帳票をスキャナ部10からイメージ取得して矩形情報
抽出部12で抽出した抽出矩形情報を、矩形情報登録部
22に格納されていて矩形数が抽出矩形情報に一致する
登録矩形情報と順次比較して、最も一致する登録矩形情
報を特定する。登録矩形情報を特定することができたな
らば、読取部16は、特定した登録矩形情報に対応する
登録フォーマット情報をフォーマット情報登録部24か
ら引き出して、スキャナ部10から取得したイメージの
読み取り処理を行い、読み取り結果をデータ処理部18
に渡す。データ処理部18は、受け取った読み取り処理
後のデータを加工して編集し、読み取り結果の信頼度を
得る。
【0038】矩形情報の一致度を計算する方法は特に問
わないが、市街区距離算出法、ユークリッド距離算出法
等が知られており、差分による2次元距離を算出する市
街区距離算出法を用いれば、負担も少なく処理を行うこ
とができる。このとき、上述したランク情報を加味す
る。具体的には、差分にランク情報を乗算することで、
ランク情報の低い矩形情報の一致度を抑えることができ
る。一致度Dの計算例を以下の式1に示す。
わないが、市街区距離算出法、ユークリッド距離算出法
等が知られており、差分による2次元距離を算出する市
街区距離算出法を用いれば、負担も少なく処理を行うこ
とができる。このとき、上述したランク情報を加味す
る。具体的には、差分にランク情報を乗算することで、
ランク情報の低い矩形情報の一致度を抑えることができ
る。一致度Dの計算例を以下の式1に示す。
【0039】D=Σ{Rk*(|YLm-Jp・YLm|+|XLm-Jp・XLm|+|
YSm-Jp・YSm|+|XSm-Jp・XSm|)} 1ここで、mは矩形番
号を示し、Jpはp番目の登録矩形情報を示し、YLは
縦方向の検出位置を示し、XLは横方向の検出位置を示
し、YSは縦方向の大きさを示し、XSは横方向の大き
さを示し、Rkは矩形番号mに対応するランク情報を示
している。
YSm-Jp・YSm|+|XSm-Jp・XSm|)} 1ここで、mは矩形番
号を示し、Jpはp番目の登録矩形情報を示し、YLは
縦方向の検出位置を示し、XLは横方向の検出位置を示
し、YSは縦方向の大きさを示し、XSは横方向の大き
さを示し、Rkは矩形番号mに対応するランク情報を示
している。
【0040】次に、本発明の第1の実施の形態の効果に
ついて説明する。第1の実施の形態においては、帳票の
イメージから得られる画像データを矩形として抽出し、
その検出位置と大きさとを矩形情報として用いて、帳票
の識別を行っている。このため、フォーマット情報の異
なる帳票を確実に区別して、同時に処理することができ
る。
ついて説明する。第1の実施の形態においては、帳票の
イメージから得られる画像データを矩形として抽出し、
その検出位置と大きさとを矩形情報として用いて、帳票
の識別を行っている。このため、フォーマット情報の異
なる帳票を確実に区別して、同時に処理することができ
る。
【0041】また、帳票のイメージをそのまま抽出して
いるので、帳票に新たに識別のための情報を付加する必
要がなく、既存の帳票をそのまま使用することができ
る。
いるので、帳票に新たに識別のための情報を付加する必
要がなく、既存の帳票をそのまま使用することができ
る。
【0042】[第2の実施の形態]本発明の第2の実施
の形態における光学式文字読取装置の構成を示すブロッ
ク図は図1と同じであるが、得られた画像データから矩
形情報を抽出する矩形情報抽出部12の動作が異なる。
の形態における光学式文字読取装置の構成を示すブロッ
ク図は図1と同じであるが、得られた画像データから矩
形情報を抽出する矩形情報抽出部12の動作が異なる。
【0043】図6〜図8は、本発明の第2の実施の形態
において用いられる帳票および抽出矩形を示す図であ
る。
において用いられる帳票および抽出矩形を示す図であ
る。
【0044】上述した第1の実施の形態においては画像
データから最外郭を示す矩形の矩形情報を抽出してい
る。このため、抽出対象となる画像が手書き等の記入状
態である場合には、図6に示すように、記入者によって
は文字の重なり、つながり等が生じ、一文字単位に矩形
情報として抽出することが困難な場合がある。
データから最外郭を示す矩形の矩形情報を抽出してい
る。このため、抽出対象となる画像が手書き等の記入状
態である場合には、図6に示すように、記入者によって
は文字の重なり、つながり等が生じ、一文字単位に矩形
情報として抽出することが困難な場合がある。
【0045】そこで第2の実施の形態においては、図7
に示すように、隣接する複数の矩形の間の距離Dxi,
Dyj(i,jは正の整数)を考慮し、この距離がある
閾値Dxr,Dyr以下である場合には矩形間のつなが
りや重なりが懸念される。このため、矩形情報抽出部1
2においては、矩形31,32,36,37を図8に示
すように1つの矩形41とみなして、矩形情報を抽出す
る。このように、矩形情報抽出部12において距離の閾
値Dxr,Dyrを設定することによって、複数の矩形
間のつながりや重なりが懸念される場合には、その複数
の矩形を1つの矩形とみなして矩形情報を抽出すること
ができる。
に示すように、隣接する複数の矩形の間の距離Dxi,
Dyj(i,jは正の整数)を考慮し、この距離がある
閾値Dxr,Dyr以下である場合には矩形間のつなが
りや重なりが懸念される。このため、矩形情報抽出部1
2においては、矩形31,32,36,37を図8に示
すように1つの矩形41とみなして、矩形情報を抽出す
る。このように、矩形情報抽出部12において距離の閾
値Dxr,Dyrを設定することによって、複数の矩形
間のつながりや重なりが懸念される場合には、その複数
の矩形を1つの矩形とみなして矩形情報を抽出すること
ができる。
【0046】本発明の第2の実施の形態は、第1の実施
の形態の効果に加えて、手書き等の記入状態による矩形
情報抽出の不安定さを抑えているので、安定した矩形情
報の抽出および登録矩形情報の特定を行うことができる
という効果も有する。
の形態の効果に加えて、手書き等の記入状態による矩形
情報抽出の不安定さを抑えているので、安定した矩形情
報の抽出および登録矩形情報の特定を行うことができる
という効果も有する。
【0047】[第3の実施の形態]図9は、本発明の第
3の実施の形態における光学式文字読取装置の構成を示
すブロック図である。図9の構成は図1とほぼ同様であ
るが、データ処理部18から矩形情報抽出部12にフィ
ードバックするルートを設けている。
3の実施の形態における光学式文字読取装置の構成を示
すブロック図である。図9の構成は図1とほぼ同様であ
るが、データ処理部18から矩形情報抽出部12にフィ
ードバックするルートを設けている。
【0048】上述した第1および第2の実施の形態にお
いては、読み取り結果をデータ処理部18で処理した結
果をそのまま使用するので、読み取り性能が悪い等の信
頼度が低い場合には対応することができない。
いては、読み取り結果をデータ処理部18で処理した結
果をそのまま使用するので、読み取り性能が悪い等の信
頼度が低い場合には対応することができない。
【0049】そこで第3の実施の形態においては、読み
取り結果の信頼度をデータ処理部18で算出した後に、
信頼度がある閾値以下の場合には処理を矩形情報抽出部
12に戻して、第2の実施の形態で説明した矩形間の距
離の閾値Dxr,Dyrを変化させる。そして、再度矩
形情報の抽出を行うことによって抽出矩形情報を変化さ
せて、再度登録矩形情報の特定を行うことができる。
取り結果の信頼度をデータ処理部18で算出した後に、
信頼度がある閾値以下の場合には処理を矩形情報抽出部
12に戻して、第2の実施の形態で説明した矩形間の距
離の閾値Dxr,Dyrを変化させる。そして、再度矩
形情報の抽出を行うことによって抽出矩形情報を変化さ
せて、再度登録矩形情報の特定を行うことができる。
【0050】本発明の第3の実施の形態は、第1および
第2の実施の形態の効果に加えて、処理対象の帳票を特
定する性能の精度をさらに向上させることができるとい
う効果を有する。
第2の実施の形態の効果に加えて、処理対象の帳票を特
定する性能の精度をさらに向上させることができるとい
う効果を有する。
【0051】
【発明の効果】第1の効果は、複数種類の帳票を同時に
処理することができるということである。その理由は、
読み取り処理を行う際に、あらかじめ読み取り処理の対
象となる帳票に固有のフォーマット情報を特定せず、読
み取り処理の対象となる帳票の画像データを矩形情報と
して抽出して抽出矩形情報と登録矩形情報とを比較し、
登録矩形情報に対応する登録フォーマット情報から読み
取り処理の対象となる帳票のフォーマット情報を特定す
るからである。
処理することができるということである。その理由は、
読み取り処理を行う際に、あらかじめ読み取り処理の対
象となる帳票に固有のフォーマット情報を特定せず、読
み取り処理の対象となる帳票の画像データを矩形情報と
して抽出して抽出矩形情報と登録矩形情報とを比較し、
登録矩形情報に対応する登録フォーマット情報から読み
取り処理の対象となる帳票のフォーマット情報を特定す
るからである。
【0052】第2の効果は、帳票上に読み取りの対象と
なる画像のみが存在する場合であっても、既存の帳票上
に新たに情報を付加することなく、そのまま読み取り処
理を行うことができるということである。その理由は、
帳票の画像データの矩形情報と登録矩形情報に対応する
フォーマット情報とを登録して、読み取り処理の対象と
なる帳票の画像データの矩形情報のみを抽出して抽出矩
形情報と登録矩形情報とを比較し、登録フォーマット情
報を選択することによって、読み取り処理の対象となる
帳票のフォーマット情報を特定するからである。
なる画像のみが存在する場合であっても、既存の帳票上
に新たに情報を付加することなく、そのまま読み取り処
理を行うことができるということである。その理由は、
帳票の画像データの矩形情報と登録矩形情報に対応する
フォーマット情報とを登録して、読み取り処理の対象と
なる帳票の画像データの矩形情報のみを抽出して抽出矩
形情報と登録矩形情報とを比較し、登録フォーマット情
報を選択することによって、読み取り処理の対象となる
帳票のフォーマット情報を特定するからである。
【0053】これらのことから、読み取り処理の対象と
なる帳票に新たな情報を付加することなくフォーマット
情報を確実に特定して、複数種類の帳票を同時に識別し
て読み取り処理を行うことができるという効果を有す
る。
なる帳票に新たな情報を付加することなくフォーマット
情報を確実に特定して、複数種類の帳票を同時に識別し
て読み取り処理を行うことができるという効果を有す
る。
【図1】本発明の第1の実施の形態における光学式文字
読取装置の構成を示すブロック図
読取装置の構成を示すブロック図
【図2】本発明の第1の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図3】本発明の第1の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図4】本発明の第1の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図5】本発明の第1の実施の形態において用いられる
矩形情報を示す図
矩形情報を示す図
【図6】本発明の第2の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図7】本発明の第2の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図8】本発明の第2の実施の形態において用いられる
帳票および抽出矩形を示す図
帳票および抽出矩形を示す図
【図9】本発明の第3の実施の形態における光学式文字
読取装置の構成を示すブロック図
読取装置の構成を示すブロック図
10 スキャナ部 12 矩形情報抽出部 14 帳票識別部 16 読取部 18 データ処理部 20 登録処理部 22 矩形情報登録部 24 フォーマット情報登録部
Claims (3)
- 【請求項1】 イメージ入力装置を用いて処理対象とな
る帳票からイメージを取得して、取得した該イメージか
ら画像データの第1の矩形情報を抽出する矩形情報抽出
手段と、 該矩形情報抽出手段で抽出した該第1の矩形情報および
該第1の矩形情報に対応する各帳票に固有の第1のフォ
ーマット情報の登録処理を行う登録処理手段と、 該登録処理手段で登録処理された該第1の矩形情報を格
納する矩形情報登録手段と、 該登録処理手段で登録処理された該第1のフォーマット
情報を格納するフォーマット情報登録手段と、 該矩形情報抽出手段で抽出した第2の矩形情報と該矩形
情報登録手段に格納されている該第1の矩形情報とを比
較して、該第2の矩形情報に最も一致する第3の矩形情
報を特定する帳票識別手段と、 該フォーマット情報登録手段に格納されている該第1の
フォーマット情報の中から、該帳票識別手段で得た該第
3の矩形情報に対応する第3のフォーマット情報を選択
して、選択した該第3のフォーマット情報を用いて、該
イメージ入力装置から取得した該イメージを読み取り処
理する読取手段と、 該読取手段で読み取り処理された結果を加工して編集
し、該読み取り処理された結果の信頼度を得るデータ処
理手段とを有する、光学式文字読取装置。 - 【請求項2】 抽出の対象となる矩形のうちの隣接する
複数の矩形の間の距離が所定の第1の閾値以下である場
合には、前記矩形情報抽出手段が、該隣接する複数の矩
形を1つの矩形とみなして前記第2の矩形情報を抽出す
る、請求項1に記載の光学式文字読取装置。 - 【請求項3】 前記データ処理手段で得た前記信頼度が
所定の第2の閾値以下である場合には、前記矩形情報抽
出手段が、前記第1の閾値を変化させて再度前記第2の
矩形情報を抽出する、請求項2に記載の光学式文字読取
装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8280842A JPH10124610A (ja) | 1996-10-23 | 1996-10-23 | 光学式文字読取装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8280842A JPH10124610A (ja) | 1996-10-23 | 1996-10-23 | 光学式文字読取装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10124610A true JPH10124610A (ja) | 1998-05-15 |
Family
ID=17630750
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8280842A Pending JPH10124610A (ja) | 1996-10-23 | 1996-10-23 | 光学式文字読取装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10124610A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001026024A1 (en) * | 1999-09-30 | 2001-04-12 | Fujitsu Limited | Document identifying device and method |
| CN109255300A (zh) * | 2018-08-14 | 2019-01-22 | 中国平安财产保险股份有限公司 | 票据信息提取方法、装置、计算机设备及存储介质 |
-
1996
- 1996-10-23 JP JP8280842A patent/JPH10124610A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001026024A1 (en) * | 1999-09-30 | 2001-04-12 | Fujitsu Limited | Document identifying device and method |
| US7110600B1 (en) | 1999-09-30 | 2006-09-19 | Fujitsu Limited | Document identifying device and method |
| CN109255300A (zh) * | 2018-08-14 | 2019-01-22 | 中国平安财产保险股份有限公司 | 票据信息提取方法、装置、计算机设备及存储介质 |
| CN109255300B (zh) * | 2018-08-14 | 2023-12-01 | 中国平安财产保险股份有限公司 | 票据信息提取方法、装置、计算机设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5748809A (en) | Active area identification on a machine readable form using form landmarks | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| JP5500480B2 (ja) | 帳票認識装置及び帳票認識方法 | |
| EP1909215B1 (en) | Image region detection method, recording medium, and device therefor | |
| CN1108582C (zh) | 用于校正文件图像方向的方法 | |
| JPWO2014030400A1 (ja) | 物体識別装置、物体識別方法、及びプログラム | |
| JP2898562B2 (ja) | ナンバープレート決定方法 | |
| JPH10124610A (ja) | 光学式文字読取装置 | |
| JPH0991385A (ja) | 文字認識辞書追加方法及びこれを用いた端末ocr装置 | |
| JP5041775B2 (ja) | 文字切出方法及び文字認識装置 | |
| JPH06180771A (ja) | 英文字認識装置 | |
| JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
| JPH06111057A (ja) | 光学的文字読取装置 | |
| JP3718105B2 (ja) | 帳票読取装置および帳票読取方法並びに記憶媒体 | |
| JP4221960B2 (ja) | 帳票識別装置及びその識別方法 | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| CN117475453B (zh) | 一种基于ocr的文书检测方法、装置及电子设备 | |
| WO2001026024A1 (en) | Document identifying device and method | |
| JPWO2001026024A1 (ja) | 帳票識別装置及び識別方法 | |
| JP3412998B2 (ja) | 画像処理装置及びその方法 | |
| JPH11184965A (ja) | 帳票識別登録装置 | |
| JP2624124B2 (ja) | 文字認識装置および文字認識方法 | |
| JP3138665B2 (ja) | 手書き文字認識方式および記録媒体 | |
| JP2977244B2 (ja) | 文字認識方法及び文字認識装置 | |
| JP2002024743A (ja) | 画像読取システムおよび画像読取方法 |