JP2000339405A - 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体 - Google Patents

光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体

Info

Publication number
JP2000339405A
JP2000339405A JP11149375A JP14937599A JP2000339405A JP 2000339405 A JP2000339405 A JP 2000339405A JP 11149375 A JP11149375 A JP 11149375A JP 14937599 A JP14937599 A JP 14937599A JP 2000339405 A JP2000339405 A JP 2000339405A
Authority
JP
Japan
Prior art keywords
attribute
cell
image
format control
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11149375A
Other languages
English (en)
Inventor
Toshihiro Nakamura
敏浩 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11149375A priority Critical patent/JP2000339405A/ja
Publication of JP2000339405A publication Critical patent/JP2000339405A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 あらゆる帳票のフォーマットコントロールを
容易且つ迅速に作成し、以て操作性及び作業効率を図る
こと。 【解決手段】 帳票イメージを取り込むイメージ入力部
10と、イメージ入力部10にて取り込まれた帳票イメ
ージ中から四方を罫線にて包囲されたイメージをセルと
して抽出するセル抽出部30と、セル抽出部30にて抽
出されたセルに関する特徴情報を抽出して当該セルの属
性として設定する属性設定部60と、この属性設定部6
0にて設定された上記セルと属性情報を対応付けて上記
帳票のフォーマットコントロールとして格納する記憶装
置70とを設けたことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、読み取り属性等を
記述した帳票のフォーマットコントロール作成の改善に
係わる光学的文字認識システム、及び光学的文字認識シ
ステムに於ける帳票のフォーマットコントロール作成方
法、並びに同方法のプログラム情報が格納されたコンピ
ュータ読み取り可能な記憶媒体に関する。
【0002】
【従来の技術】従来、光学的文字認織装置(OCR:O
ptical CharacterReader)の一
つには、ドキュメントリーダタイプのように、読み取り
対象イメージから自動的に読み取り対象領域を解析して
認識を行うものが提供されていた。しかし、このドキュ
メントリーダタイプOCRが自動的に認識できる文書フ
ォーマットは、ワードプロセッサにて作成された文書等
に限られており、しかもレイアウト解析をも含めた認識
率は完璧なものではなく、ユーザによる修正作業を要す
るものであった。これは、ドキュメントリーダタイプO
CRは、レイアウト解析が必要であることと、認識対象
字種が全ての文字に及ぶことに起因するものであった。
【0003】一方、帳票読み取りタイプのOCRでは、
各種申込書や伝票等の大量に発生する帳票を高速且つ高
精度に読み取る必要がある為、予め読み取り対象帳票の
読み取り対象フィールドの位置や読み取り属性等を記述
したフォーマットコントロール(FC、或いは帳票読取
定義体)を作成して、読み取り時に該当するフォーマッ
トコントロールを参照して帳票読み取りを行うものであ
った。このようにすることにより、帳票OCRは読み取
り速度並びに読み取り精度を向上させているものであっ
た。
【0004】
【発明が解決しようとする課題】しかしながら上述した
従来の帳票OCRにあっては、少種大量発生で且つOC
R専用に設計された帳票を処理する為には有効な方式で
はあったが、認識の前処理から後処理、修正処理、編集
処理、出力処理に至るまでに必要な情報が記述されたフ
ォーマットコントロールは、その定義をオペレータによ
りインタラクティブに行われるているものであった。し
かも、この操作は、位置座標等の入力も伴い多大なる時
間を要し、オペレータにとっては煩わしいもので作業効
率や操作性の面でネックであった。
【0005】ところで、近時、それまでは読み取り対象
ではなかった帳票、即ちOCR専用用には作成されてい
ない帳票(既存帳票、例:図4参照)まで読み取ること
が要求されるようになってきた。こうした既存帳票はO
CR専用帳票と異なり、多種少量発生することを特徴と
しているものであった。ここで、既存帳票読み取りでも
帳票のフォーマットコントロールの作成は勿論必要なも
のであるが、多種少量である為、定義を簡便にすること
が重要なことであり切望されているものであった。
【0006】そこで、本発明は上記事情を考慮して成さ
れたもので、上記不具合を解消し、あらゆる帳票のフォ
ーマットコントロールを容易且つ迅速に作成でき、操作
性及び作業効率を図った光学的文字認識システム、及び
光学的文字認識システムに於ける帳票のフォーマットコ
ントロール作成方法、並びに同方法のプログラム情報が
格納されたコンピュータ読み取り可能な記憶媒体を提供
することを目的とする。
【0007】
【課題を解決するための手段】本発明は上記目的を達成
する為、フォーマットコントロール作成用の帳票の各セ
ルに、予めそこに設定されるべき属性を指定する特徴を
付与しておき、当該特徴をフォーマットコントロール作
成時に抽出して対応する属性を設定するよう構成した。
【0008】即ち、本発明では、帳票のフォーマットコ
ントロール作成時に読み取り対象セルを抽出し、更に各
セルに予め付与されている特徴を抽出して、この特徴と
対になる属性を当該ルセルの属性として設定するよう構
成することによりフォーマットコントロール作成を容易
且つ迅速に行えるようにし、コスト軽減も図れることを
特徴とする。
【0009】又、本発明は上記構成に於いて、フォーマ
ットコントロール作成時に新規に発生した属性の組を特
徴と関連付けるようにも構成した。
【0010】
【発明の実施の形態】先ず、本発明実施形態の概要を述
べる。即ち、既存帳票はOCR専用帳票と異なり罫線に
て作成されているという特徴を有する。又、一般的に、
読み取り対象領域は罫線にて包囲された領域(セル)を
読み取り対象とすることものである。この性質を利用し
て、帳票のフォーマットコントロール作成時に、当該帳
票のイメージをイメージ入力装置より入力して、当該入
力イメージから罫線を抽出し、抽出された罫線からセル
を抽出する。ここで、帳票の読み取り対象セルには、予
めフォーマットコントロールに格納すべき種々の属性を
指定する特徴が付加されているものとする。又、記憶装
置には上記属性とそれを指定する特徴を対したテーブル
(特徴−属性対応テーブル100)が格納されているも
のとする。このような条件下で本実施形態では、フォー
マットコントロール作成用のイメージから抽出されたセ
ルに対して特徴抽出を行い、この抽出された特徴と記憶
装置(80)に保存されている特徴−属性テープル(1
00)を照合して当該特徴に対応する属性を検索し、こ
の属性を当該セルのフォーマットコントロール上の属性
として設定することを特徴とする。これにより、フォー
マットコントールに於ける各セルの属性の設定を自動化
できる。
【0011】さて、上記概要に基づき、以下に本発明の
一実施形態を図面を参照して説明する。
【0012】図1は、本実施形態に係わるシステムの概
略構成を示すものである。図示するように、本システム
は制御部10とイメージ入力部20、罫線抽出部30、
セル抽出部40、セル内特徴抽出部50、照合部60、
属性設定部70、そして記憶装置80とから成り、各々
はバス90を介して接続されているものである。
【0013】制御部10は、本システム全体の種々の制
御を司るものである。イメージ入力部20は、各種帳票
をイメージとして読み取る機能を有する入力装置であ
る。罫線抽出部30は、イメージ入力部20にて取り込
まれたイメージ中の罫線要素を抽出すると共に、抽出し
た罫線要素情報をセル抽出部40に送出する機能を有す
るものである。セル抽出部40は、罫線抽出部30にて
抽出された罫線要素情報で四方を罫線にて包囲された矩
形を検出してセル抽出を行う機能を有するものである。
セル内特徴抽出部50は、セル抽出部40にて抽出され
たセル各々に関し、当該セルに設定すべき属性を特定す
る為の特徴情報を抽出する機能を有するものである。照
合部60は、記憶装置80に格納される特徴−属性対応
テーブル100(図2参照)を参照して、セル内特徴抽
出部50にて抽出されたセル内の特徴をもとに、対応す
る属性を特定する機能を有するものである。属性設定部
70は、照合部60にて特定した属性を対応するセルの
属性として設定する機能を有するものである。そして、
記憶装置80は、前記特徴−属性対応テーブル100を
格納すると共に、属性設定部70にて設定されたものを
読み取り帳票のフォーマットコントロールとして格納す
るものである。
【0014】上記構成/機能につき、その動作及び作用
を前述概要に基づき図3のフローチャートを参照して説
明する。
【0015】予め読み取り対象セルに当該セルに設定す
べき属性を指定する特徴を付与した帳票(例:図4)
を、イメージ入力部20にてイメージ取り込みが行われ
ると(ステップS302)、取り込まれたイメージを罫
線抽出部30にて罫線抽出が行われる(ステップS30
4)。すると、セル抽出部40にて、抽出された罫線で
四方を罫線にて囲まれた矩形としてのセル抽出が行われ
る(ステップS306)。セル抽出部40にて抽出され
たセルのイメージは、セル内特徴抽出部50にて、当該
セルに設定すべき属性を特定する為の特徴抽出が行われ
る(S308)。そして、照合部60にて、セル内特徴
抽出部50で抽出されたセル内特徴をキーとして、特徴
−属性対応テープル100を検索して対応する属性を特
定する(ステップS310)。而して、属性設定部70
にて、特定された属性を当該セルの属性として設定し
て、フォーマットコントロールとして記憶装置80に保
存する(ステップS312)。
【0016】斯様にして作成されたフォーマットコント
ロールをもとに、従来通りの帳票読み取り処理が行われ
るものである。
【0017】ところで、上記実施形態では単に特徴と記
したものであるが、例えば次のようものが想定される。
【0018】(1)各セル上に手書き文字を記入する。
この場合、特徴抽出は文字認織となる。
【0019】(2)属性を特定する文字が印刷されたシ
ールを各セルに貼付する。或いはスタンプにて印す。こ
の場合、特徴抽出は文字認識となる。
【0020】(3)属性を特定するバーコードが印刷さ
れたシールを各セルに貼付する。或いはスタンプにて印
す。この場合、特徴抽出はバーコード認識となる。
【0021】(4)属性を特定する色が印刷されたシー
ルを各セルに貼付するか、或いは色マーカペンで塗りつ
ぶす。この場合、特徴抽出は色抽出となる。
【0022】図4には、商品名を記入するセルに手書き
で「漢字」と記入し、数量及び金額を記入するセルには
手書きで「数字」と記入した帳票の例を示した。この場
合、夫々のセルに記入された文字を認識することで商品
名のセルの属性として「漢字」が定義される。実際に文
字認識する際には、定義された属性から、商品名を記入
するセルに記録された文字が漢字であるとの前提に立
ち、文字認識することになる。又、同様に数量及び金額
を記入するセルの属性として「数字」が定義され文字認
識される。
【0023】尚、上述実施形態に於いて、属性設定等に
修正が生じた場合は、ユーザ/オペレータからの修正指
示に基づきシステムが修正用のリストボックス或いダイ
アログボックスを提示して、該当個所を修正するよう構
成しても良いことは勿論である。更に、新たな属性出現
時には、登録用のリストボックス/ダイアログボックス
をシステムが提示してユーザ/オペレータの入力を待っ
てデータベース登録するよう構成しても良いものであ
る。
【0024】又、上述した一連の処理は、コンピュータ
読み取り可能な記憶媒体にプログラム情報として格納
し、当該記憶媒体を装着したコンピュータシステムが当
該プログラム情報を実行することにより上述処理を実現
するよう構成しても良いことは勿論である。
【0025】
【発明の効果】以上詳記したように本発明によれば、あ
らゆる帳票のフォーマットコントロールを容易且つ迅速
に作成でき、以て操作性及び作業効率の向上を図れるも
のである。しかも、フォーマットコントロール作成のコ
ストも大幅に削減できるものである。
【図面の簡単な説明】
【図1】本発明の実施形態に係わるシステムの概略構成
を示すプロック図。
【図2】同実施形態に係わる特徴−属性テーブルの概念
を示す図。
【図3】同実施形態に係わり、フォーマットコントロー
ルの自動作成処理の流れを示すフローチャート。
【図4】既存帳票に於ける各セルの属性等の一例を示す
図。
【符号の説明】
20…イメージ入力部、30…罫線抽出部、40…セル
抽出部、50…セル内特徴抽出部、60…照合部、70
…属性設定部、100…特徴−属性対応テーブル。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 帳票をイメージとして取り込む帳票イメ
    ージ入力手段と、 この入力手段にて取り込まれた帳票イメージから四方を
    罫線にて包囲されたイメージをセルとして抽出するセル
    抽出手段と、 このセル抽出手段にて抽出されたセルに関する特徴情報
    を抽出して当該セルの属性として設定する属性設定手段
    と、 この属性設定手段にて設定された上記セルと属性情報を
    対応付けて上記帳票のフォーマットコントロールとして
    格納する格納手段とを具備したことを特徴とする光学的
    文字認識システム。
  2. 【請求項2】 上記セルに関する特徴情報と属性とは、
    予め対応付けられたテーブル情報として格納されている
    ことを特徴とする請求項1記載の光学的文字認識システ
    ム。
  3. 【請求項3】 上記フォーマットコントロール作成時、
    新たな定義属性が出現した場合、当該属性を特定する特
    徴と関連付ける手段を設けたことを特徴とする請求項1
    又は請求項2記載の光学的文字認識システム。
  4. 【請求項4】 帳票をイメージ入力することによりとし
    て取り込み、 この取り込まれた帳票イメージから四方を罫線にて包囲
    されたイメージを検出してセルとして抽出し、 このセル抽出された当該セルに関する特徴情報を抽出し
    て当該セルの属性として設定し、 この属性設定した上記セルと属性情報を対応付けて上記
    帳票のフォーマットコントロールとして格納するように
    したことを特徴とする光学的文字認識システムに於ける
    帳票のフォーマットコントロール作成方法。
  5. 【請求項5】 上記セルに関する特徴情報と属性とは、
    予め対応付けられたテーブル情報として格納され、当該
    テーブル情報が参照されて上記属性が決定されることを
    特徴とする請求項4記載の光学的文字認識システムに於
    ける帳票のフォーマットコントロール作成方法。
  6. 【請求項6】 上記フォーマットコントロール作成時、
    新たな定義属性が出現した場合、当該属性を特定する特
    徴と関連付けるようにしたことを特徴とする請求項4又
    は請求項5記載の光学的文字認識システムに於ける帳票
    のフォーマットコントロール作成方法。
  7. 【請求項7】 帳票をイメージ入力することによりとし
    て取り込む機能と、 この取り込み機能により取り込まれた帳票イメージから
    四方を罫線にて包囲されたイメージを検出してセルとし
    て抽出するセル抽出機能と、 このセル抽出機能にてセル抽出された当該セルに関する
    特徴情報を抽出して当該セルの属性として設定する設定
    機能と、 この属性設定にて属性設定された上記セルと属性情報を
    対応付けて上記帳票のフォーマットコントロールとして
    格納する機能とを有することを特徴とする光学的文字認
    識システムに於ける帳票のフォーマットコントロール作
    成方法のプログラム情報が格納されたコンピュータ読み
    取り可能な記憶媒体。
  8. 【請求項8】 上記セルに関する特徴情報と属性を予め
    対応付けられたテーブル情報をとして格納する機能と、 この機能に格納されたテーブル情報を参照して上記属性
    が決定する機能とを有する特徴とする請求項7記載の光
    学的文字認識システムに於ける帳票のフォーマットコン
    トロール作成方法のプログラム情報が格納されたコンピ
    ュータ読み取り可能な記憶媒体。
  9. 【請求項9】 上記フォーマットコントロール作成時、
    新たな定義属性が出現した場合、当該属性を特定する特
    徴と関連付けるようにする機能を有することを特徴とす
    る請求項7又は請求項8記載の光学的文字認識システム
    に於ける帳票のフォーマットコントロール作成方法のプ
    ログラム情報が格納されたコンピュータ読み取り可能な
    記憶媒体。
JP11149375A 1999-05-28 1999-05-28 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体 Pending JP2000339405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11149375A JP2000339405A (ja) 1999-05-28 1999-05-28 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11149375A JP2000339405A (ja) 1999-05-28 1999-05-28 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体

Publications (1)

Publication Number Publication Date
JP2000339405A true JP2000339405A (ja) 2000-12-08

Family

ID=15473769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11149375A Pending JP2000339405A (ja) 1999-05-28 1999-05-28 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体

Country Status (1)

Country Link
JP (1) JP2000339405A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039783A (ja) * 2008-08-05 2010-02-18 Ricoh Co Ltd 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム
JP2019053627A (ja) * 2017-09-19 2019-04-04 カシオ計算機株式会社 プログラム及び情報処理端末
JP2020160649A (ja) * 2019-03-26 2020-10-01 株式会社日立情報通信エンジニアリング 画像処理装置、画像処理方法及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039783A (ja) * 2008-08-05 2010-02-18 Ricoh Co Ltd 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム
JP2019053627A (ja) * 2017-09-19 2019-04-04 カシオ計算機株式会社 プログラム及び情報処理端末
JP2020160649A (ja) * 2019-03-26 2020-10-01 株式会社日立情報通信エンジニアリング 画像処理装置、画像処理方法及び画像処理プログラム

Similar Documents

Publication Publication Date Title
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
JP3602596B2 (ja) ドキュメントファイリング装置および方法
JP3422924B2 (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3001065B2 (ja) プログラムの作成方法
JP2003018393A (ja) 画像処理システム
JP2008282094A (ja) 文字認識処理装置
JP2000339405A (ja) 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体
JP2001126010A (ja) 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP5483467B2 (ja) 帳票読取装置、角印検出方法、および、角印検出プログラム
JP2008243016A (ja) 文字認識方法、文字認識プログラムおよび文字認識装置
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2004164376A (ja) 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム
JP3006294B2 (ja) 光学的文字読取装置
JP3000349B2 (ja) キー入力編集方法及び編集装置
JP3954247B2 (ja) 文書入力方法、文書入力プログラムを記録した記録媒体及び文書入力装置
JPH0743726B2 (ja) 画像処理装置
JPH07111729B2 (ja) 読取装置
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JPH1166232A (ja) 帳票定義方法
JP4081074B2 (ja) 帳票処理装置、帳票処理方法、及び帳票処理プログラム
JP2006163445A (ja) 帳票の読取装置および読取システム、それらを用いた読取方法
JPH0789361B2 (ja) 帳票登録装置
JPH04156694A (ja) 文字認識方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071016