JPH10340314A - 帳票処理システム、その文字認識方法およびその記録媒体 - Google Patents

帳票処理システム、その文字認識方法およびその記録媒体

Info

Publication number
JPH10340314A
JPH10340314A JP9151423A JP15142397A JPH10340314A JP H10340314 A JPH10340314 A JP H10340314A JP 9151423 A JP9151423 A JP 9151423A JP 15142397 A JP15142397 A JP 15142397A JP H10340314 A JPH10340314 A JP H10340314A
Authority
JP
Japan
Prior art keywords
format
format definition
character recognition
processing system
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9151423A
Other languages
English (en)
Inventor
Hideyuki Adachi
秀行 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AIBITSUKUSU KK
Original Assignee
AIBITSUKUSU KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AIBITSUKUSU KK filed Critical AIBITSUKUSU KK
Priority to JP9151423A priority Critical patent/JPH10340314A/ja
Publication of JPH10340314A publication Critical patent/JPH10340314A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 印刷処理時間と文字認識処理時間を短縮し、
かつ、各々の精度の向上をもはかる。 【解決手段】 端末装置40はページ記述言語で記載さ
れた帳票データの中から文字認識に必要なフォーマット
定義を抽出し、抽出したフォーマット定義に基づき文字
認識をするために必要なフォーマット定義を作成する。
作成した該フォーマット定義によりスキャナー42によ
り読み取られた帳票画像の文字認識がなされる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票原稿を読み取
り、その読み取り結果を文字認識する帳票処理システ
ム、その文字認識方法およびその記録媒体に関する。
【0002】
【従来の技術】従来、帳票原稿をスキャナーにより読み
取り、その読み取り結果を文字認識して、帳票に記載さ
れている情報をコード化する帳票処理システムが知られ
ている小規模の帳票処理システムはスキャナーとパーソ
ナルコンピュータのみで構成され、大規模なシステムで
はメインフレームのようなホストコンピュータと端末装
置をLAN(ローカルエリアネットワーク)で接続する
構成を採っている。このシステム構成を図lに示す。
【0003】図1において、ホストコンピュータ10、
大型プリンタ20、ディスク記憶装置30および複数の
端末装置40がLAN50により接続されている。
【0004】端末装置40には中小型プリンタ41およ
びスキャナー42が接続される。このような構成の帳票
処理システムでは図2に示すような帳票処理を行ってい
る。ホストコンピュータ10は端末装置40からの指示
により印刷すべき帳票を作成する。帳票を印刷するため
の帳票を作成するための言語としてはたとえば、OGL
(Overlay Generation Langu
ageのことで、IBM社の登録商標。)のような帳票
生成言語が知られている。帳票生成言語で記載された帳
票データ101はホストコンピュータ10から大型プリ
ンタ20に転送され、大型プリンタ20で帳票が印刷出
力される。上記帳票データはディスク記憶装置30にデ
ータベースの形態で蓄積され、必要に応じてホストコン
ピュータ10により取り出される。
【0005】端末装置40は自己の端末装置40に接続
した中小型プリンタ41により一般情報が記載された帳
票や情報が記載されていない帳票(定型文字と罫線)の
みを印刷することも可能である。一般的に、大型コンピ
ュータが使用する大型プリンタ20と、パーソナルコン
ピュータ等の中小型コンピュータが使用する中小型プリ
ンタ41とは印刷の書式の記載方法が異なるので、端末
装置40側では、上記帳票生成言語等で記載されたフォ
ーマット定義をたとえば、ページ記述言語で記載された
フォーマット定義に変換(図2の符号102)する。そ
の変換の結果得られる帳票データ103に対して必要が
あれば、帳票記載情報(テキスト)104を付加してプ
リンタ41から印刷出力する(図2の符号106)。
【0006】大型プリンタ20により印刷された図3の
ような帳票の罫線枠204の中に手書き文字で情報が書
き込まれる。手書き文字で情報が記載された帳票原稿は
スキャナー42にセットされ、原稿イメージが読み取ら
れる(図2の符号107)。
【0007】読み取られた原稿イメージ(図2の符号1
08)は端末装置40に送られて、端末装置40におい
て、文字認識される(図2の符号109)。
【0008】通常、文字認識の場合には予め認識対象の
原稿の大きさ、原稿イメージ中の認識対象の文字領域の
位置および大きさ(文字認識枠とも呼ばれる)等のフォ
ーマットを定義しておく必要がある(図2の符号11
0)。
【0009】端末装置40ではこのフォーマット定義に
より示される文字認識枠内の原稿イメージ、すなわち、
文字のイメージを上記読み取られた原稿イメージから取
り出し、予め用意されている文字パターンと比較する。
一致の文字パターンの文字コードが文字の認識結果とな
る。このようにして文字認識を施すことにより帳票原稿
に記載された手書き文字を文字コード化してテキスト1
11を得ることができる。得られたテキストは、ホスト
コンピュータ10を介してディスク記憶装置30のデー
タベースに蓄積され、必要に応じて取り出される。
【0010】このような帳票処理システムでは、帳票原
稿に記載された情報をディスク記憶装置30に蓄積して
おくことができるので、帳票原稿そのものを保存する必
要がなく、いわゆるペーパーレスと呼ばれる事務処理を
行うことができる。
【0011】
【発明が解決しようとする課題】帳票に記載された文字
画像を文字認識するためには上述したように最低限、認
識文字枠の位置および大きさが必要となる。原稿イメー
ジの画素分布を調べ、この認識文字枠位置および大きさ
を自動的に決定する文字認識装置も提案されているが、
手書き文字のように大きさが不揃いの文字多数が原稿に
記載されている場合には、文字枠の検出精度が悪いとい
う特徴がある。このため、文字の大きさが多種有り、手
書き文字が,混入する帳票を取り扱う場合には不向きで
ある。
【0012】一方、手動操作により上記文字枠等の位置
指定を行う場合には、認識すべき文字の数が多いほどユ
ーザの指示操作が煩雑となる。
【0013】そこで、本発明の目的は、上述の点に鑑み
て、帳票画像の文字認識のための文字枠等のフォーマッ
ト定義を正確に自動設定することができる帳票処理シス
テム、その文字認識方法およびその記録媒体を提供する
ことにある。
【0014】
【課題を解決するための手段】このような目的を違成す
るために、請求項1の発明は、印刷のための書式を規定
した第1フォーマット定義の中の文字認識ための書式に
関運する第2フォーマット定義と前記文字認識のための
書式を規定した第3フォーマット定義との間の対応関係
を予め定めておき、前記第1フォーマット定義の中から
前記第2フォーマット定義を抽出する双方向性をもった
相互抽出手段と、当該抽出された第2フォーマット定義
を前記第3フォーマット定義に前記対応関係に変換する
フォーマット変換手段と、当該変換された第3フォーマ
ット定義に基づき帳票画像の文字認識を行う文字認識手
段とを具えたことを特徴とする。
【0015】請求項2の発明は、請求項1に記載の帳票
処理システムにおいて、前記対応関係に基づいて、文字
認識のための書式を規定した第3フォーマット定義を前
記第2フォーマット定義にフォーマット変換し、当該変
換された第2フォーマット定義の中から前記第1フォー
マット定義を抽出する双方向性をもった相互抽出手段と
をも具えたことを特徴とする。
【0016】請求項3の発明は、請求項1または請求項
2に記載の帳票処理システムにおいて、前記第1フォー
マット定義はページ記述言語で記載されていることを特
徴とする。
【0017】請求項4の発明は、請求項3に記載の帳票
処理システムにおいて、帳票生成言語で記載された第4
フォーマット定義に基づき帳票処理するホストコンピュ
ータ、該ホストコンピュータに接続する端末装置を有
し、該端末装置に前記双方向性をもった相互抽出手段、
前記フォーマット変換手段および前記文字認識手段を配
置し、前記端末装置は前記第4フォーマット定義から前
記第1フォーマット定義をフォーマット変換により取得
することを特徴とする。
【0018】請求項5の発明は、請求項1または請求項
2に記載の帳票処理システムにおいて、前記第1フォー
マット定義は帳票生成言語で記載されていることを特徴
とする。
【0019】請求項6の発明は、請求項5に記載の帳票
処理システムにおいて、前記帳票生成言語で記載された
第1フォーマット定義を帳票処理するホストコンピュー
タ、該ホストコンピュータに接続する端末装置を有し、
該端末装置に前記双方向性をもった相互抽出手段、前記
フォーマット変換手段および前記文字認識手段を配置
し、前記端末装置は前記ホストコンピュータから前記第
1フォーマット定義を取得することを特徴とする。
【0020】請求項7の発明は、請求項1または請求項
2に記載の帳票処理システムにおいて、帳票原稿を読み
取る画像読み取り手段をさらに有し、該画像読み取り手
段により読み取った帳票画像を前記文字認識手段が文字
認識することを特徴とする。
【0021】請求項8の発明は、請求項1または請求項
2に記載の帳票処理システムにおいて、前記文字認識手
段は手書き文字を認識可能であり、前記第1フォーマッ
ト定義の中には帳票に記載された罫線の位置を規定した
フォーマット定義が,含まれ、該フォーマット定義から
手書き文字の認識枠を決定することを特徴とする。
【0022】請求項9の発明は、請求項8に記載の帳票
処理システムにおいて、前記文字認識手段は、文字認識
に先立って、前記罫線の位置を規定したフォーマット定
義に基づき、前記帳票画像の中から罫線画像を除去する
ことを特徴とする。
【0023】請求項10の発明は、文字認識機能を有す
る情報処理装置を備えた帳票処理システムの文字認識方
法において、前記情報処理装置は印刷のための書式を規
定した第1フォーマット定義の中から文字認識のための
書式に関連する第2フォーマット定義を抽出し、文字認
識のための書式を規定した第3フォーマット定義と前記
第2フォーマット定義との間の対応関係を予め定めてお
き、該対応関係に基づき、抽出された前記第2フォーマ
ット定義を前記第3フォーマット定義に変換し、当該変
換された第3フォーマット定義に基づき帳票画像の文字
認識を行うことを特徴とする。
【0024】請求項11の発明は、請求項10または請
求項11に記載の帳票処理システム文字認識方法におい
て、前記対応関係に基づいて、文字認識のための書式を
規定した第3フォーマット定義を前記第2フォーマット
定義にフォーマット変換し、当該変換された第2フォー
マット定義の中から前記第1フォーマット定義を抽出す
ることをも具えたことを特徴とする。
【0025】請求項12の発明は、請求項10または請
求項11に記載の帳票処理システム文字認識方法におい
て、前記第1フォーマット定義はページ記述言語で記載
されていることを特徴とする。
【0026】請求項13の発明は、請求項12に記載の
帳票処理システムの文字認識方法において、前記帳票処
理システムは、帳票生成言語で記載された第4フォーマ
ット定義を帳票処理するホストコンピュータを有し、該
ホストコンピュータに対して前記情報処理装置が端末装
置として接続されており、前記情報処理装置は前記第4
フォーマット定義から前記第1フォーマット定義をフォ
ーマット変換により取得することを特徴とする。
【0027】請求項14の発明は、請求項10または請
求項11に記載の帳票処理システムの文字認識方法にお
いて、前記第1フォーマット定義は帳票生成言語で記載
されていることを特徴とする。
【0028】請求項15の発明は、請求項14に記載の
帳票処理システムの文字認識方法において、前記情報処
理システムは前記帳票生成言語で記載された第1フォー
マット定義を帳票処理するホストコンピュータを有し、
該ホストコンピュータに対して前記情報処理装置が端末
装置として接続され、前記情報処理装置は前記ホストコ
ンピュータから前記第1フォーマット定義を取得するこ
とを特徴とする。
【0029】請求項16の発明は、請求項10または請
求項11に記載の帳票処理システムの文字認識方法にお
いて、前記帳票処理システムは、幅票原稿を読み取る画
像読み取り装置をさらに有し、該画像読み取り装置によ
り読み取った帳票画像を前記情報処理装置において文字
認識することを特徴とする。
【0030】請求項17の発明は、請求項10または請
求項11に記載の帳票処理システムの文字認識方法にお
いて、前記情報処理装置は手書き文字を認識可能であ
り、前記第1フォーマット定義の中には帳票に記載され
た罫線の位置を規定したフォーマット定義が含まれ、該
フォーマット定義から手書き文字の認識枠を決定するこ
とを特徴とする。
【0031】請求項18の発明は、請求項17に記載の
帳票処理システムの文字認識方法において、前記情報処
理装置は、文字認識に先立って、前記罫線の位置を規定
したフォーマット定義に基づき、前記帳票画像の中から
罫線画像を除去することを特徴とする。
【0032】請求項19の発明は、文字認識機能を有す
る情報処理装置を備え、該情報処理装置により読み取ら
れ、実行可能なプログラムコード手段を記録した帳票処
理システムの記録媒体において、前記プログラムコード
手段は、前記情報処理装置は印刷のための書式を規定し
た第1フォーマット定義の中から文字認識のための書式
に関運する第2フォーマット定義を抽出する双方向性を
もったステップと、文字認識のための書式を規定した第
3フォーマット定義と前記第2フォーマット定義との間
の対応関係が予め定めれており、該対応関係に基づき、
抽出された前記第2フォーマット定義を前記第3フォー
マット定義に変換するステップと、当該変換された第3
フォーマット定義に基づき帳票画像の文字認識を行うス
テップとを具えたことを特徴とする。
【0033】請求項20の発明は、請求項19に記載の
帳票処理システムの記録媒体において、前記対応関係に
基づいて、文字認識のための書式を規定した第3フォー
マット定義を前記第2フォーマット定義にフォーマット
変換し、当該変換された第2フォーマット定義の中から
前記第1フォーマット定義を抽出する双方向性をもった
ステップとをも具えたことを特徴とする。
【0034】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。
【0035】本実施の形態は、読み取り対象の帳票原稿
の定型情報、たとえば、帳票名、会社名、罫線等の部分
は印刷されることおよび帳票の罫線枠の中に手書き文字
が記入される点に本願発明者が気が付き、順方向である
印刷に使用するフォーマット定義から文字認識用のフォ
ーマット定義を、または、逆方向である文字認識用のフ
ォーマット定義から印刷に使用するフォーマット定義
を、自動作成するようにしたことに特徴がある。
【0036】そこで、最初に、前記の順逆双方向可能な
自動作成のうち、前者の文字認識用のフォーマット定義
の自動作成方法について図3および図4を使用して説明
する。図3は表示あるいは印刷すべき帳票イメージおよ
びその印刷用のフォーマット定義の一例を示す。図3に
おいて、200は帳票の外周枠すなわち印刷用紙の外周
枠を示す。201は固定文字情報であり、図示の例では
会社名となっている。202も固定文字情報であり、図
示の例えば罫線枠203の中に記載される。204は手
書き文字で記入する欄であり、印刷時には空白となって
いる。205は文字を印刷するためのフォーマット定義
(一般的には印刷データと呼ばれる)であり、文字サイ
ズの定義であることを示す識別コードあるいはおよび文
字サイズを示す数値を有する。206は印刷すべき文字
列の先頭の文字位置を示すフォーマット定義である。
【0037】207はフォーマット定義201で定義さ
れた位置に印刷する文字列である。208、209は罫
線を印刷するための直線描画命令であり、帳票の罫線位
置に対応して直線描画命令が用意される。図3に示すフ
ォーマット定義は説明の都合上模式的に表現している
が、PostScript(ポストスクリプトのこと
で、Adobe Systems社の登録商標)など各
種のページ記述言語毎に、文字および直線についての記
載方法が定められている。
【0038】図4は文字認識あるいは文字認識のための
フォーマット定義を示す。図4において、301は原稿
の外周枠すなわち、用紙の外周枠を示す。302は余白
を除いた全体文字認識枠を示す。印刷における印刷領域
に全体文字認識枠が対応する。
【0039】L1は原稿の上部外周枠と全体文字認識枠
302との間の距離であり、印刷におけるトップマージ
ンに対応する。
【0040】L2は原稿の左部外周枠と全体文字認識枠
302との間の距離であり、印刷における左マージンに
対応する。距離L2は印刷開始位置と呼ばれる場合もあ
る。
【0041】L3は原稿の右部外周枠と全体文字枠30
2との間の距離であり、印刷における右マージンに対応
する。距離L3は印刷可能終了位置と呼ばれる場合があ
る。距離L4は文字枠303と原稿左部外周枠との間の
距離である。
【0042】距離L7は文字枠303と原稿上部外周枠
との間の距離である。距離L4と距離L7とにより文字
枠列の先頭部分の位置が定まる。
【0043】L5は文字枠の幅、L8は文字枠の高さで
あり、印刷の場合には文字サイズにより定まる。文字サ
イズはフォントサイズと呼ばれることがある。
【0044】図4に示していないが原稿下部外周枠と全
体文字認識枠302との間の距離が用意されていること
はいうまでもない。このような文字認識用のフォーマッ
トを定める距離や幅、高さを本実施の形態ではフォーマ
ット定義のパラメータと呼ぶことにする。
【0045】このように文字認識用のフォーマット定義
では、印刷フォーマットと対応関係があるので、印刷用
のフォーマット定義に関連する各種バラメータから文字
認識用のフォーマット定義のパラメータを取得し、ある
いは換算して、パラメータの値を文字認識用の識別コー
ドに付加することにより文字認識用のフォーマットを自
動作成する。以下に上記文字認識用フォーマットのパラ
メータを印刷フォーマットのパラメータから算出するた
めの計算式の一例を示す。
【0046】
【数1】読み取り原稿サイズ=印刷用紙サイズ 全体文字認識枠サイズ=印刷領域サイズ、 サイズは縦横の高さ、幅で表す。
【0047】1つの文字認識枠のサイズ=フォントサイ
ズ+α(固定値) n番目の文字位置=横方向 L4+(n−1)*(L5
+L6) nは連続する文字列の文字の個数 縦方向 L7 なお、文字位置についての印刷のフォーマット定義の記
載方法には各種あるが、いずれの記載方法においても記
録用紙の原点位置からの縦横の距離(座標)、方向など
が得られるようになっているので、記載方法に対応して
各文字の位置などを算出するとよい。
【0048】罫線枠の座標位置は、罫線の描画命令の中
に記載された始点および終点の座標値を座標変換する
か、または、そのまま使用できる。
【0049】逆方向の場合は、上記計算過程の逆を辿っ
て、算出すれば良い。
【0050】このような文字認識用フォーマット定義の
作成方法を使用する帳票処理システムについて説明す
る。帳票処理システムのハード構成は図1に示した従来
例と同様とすることができるが、文字認識用フォーマッ
ト定義へ変換するためのソフトウェア(図6、図7)が
端末装置40に搭載されている点が従来と異なる。
【0051】図5、図6および図7を使用して本実施の
形態の帳票処理システムのシステム動作を説明する。図
5はデータの変換処理プロセスを示す。図6の処理手順
は端末装置40内のCPU40Aが読み取り実行可能な
プログラム言語の形態で記載され、端末装置40内の記
録媒体、たとえば、ハードディスク記憶装置(HDD)
40Cに記憶しておく。図7の処理手順は文字認識枠に
関するパラメータを取得するための詳細手順を示す。
【0052】図6および図7に示す処理手順は説明の便
宜上機能表現をしているが、当業者であれば、図6およ
び図7の処理手順から実際のプログラムを作成すること
は容易になし得るであろう。
【0053】ユーザは端末装置40のキーボード(付図
示)からホストコンピュータ10に対して指示して、デ
ィスク記憶装置30に記憶された所望の印刷用フォーマ
ット定義(大型プリンタ用)を自己の端末装置40に転
送させる。この処理は従来と同様である。ユーザは従来
と同様にして変換用プログラムを端末装置40のCPU
40Aにより実行して大型プリンタ用印刷フォーマット
定義を中小型プリンタ用印刷フォーマット定義に変換す
る(図5の帳票データデータ501→フォーマット変換
処理502→帳票データ503)。
【0054】次に、ユーザは図6の処理プログラムを起
動して、上記中小型プリンタ用印刷フォーマット定義を
文字認識用フォーマット定義に変換する。より具体的に
は、端末装置40内のCPU40A(以下CPU40A
と略記する)は端末装置40内のワーク用メモリ(以
下、ワークメモリ40Bと略記する)に上記中小型プリ
ンタ・フォーマット定義(図3の文字関係のフォーマッ
ト定義205〜206および罫線関係のフォーマット定
義208、209参照)などを読み込む(図6のステッ
プS100)。
【0055】CPU40Aはワークメモリ40Bに読み
込んだフォーマット定義の中から文字認識用のフォーマ
ット定義に関連する定義データを順次に抽出する(ステ
ップS110〜S120のループ処理)。
【0056】図3のフォーマット定義のたとえば、文字
サイズ定義205では文字サイズを示す特定文字列(前
述の識別コード、ポストスクリプト言語ではFONT
SIZE)および文字のサイズを示す数値(パラメータ
の値)が記載されているので、この特定文字列および数
値を検索により検出することにより、文字認識用の文字
サイズを抽出することができる。また、認識文字枠に関
するフォーマット定義としては文字の先頭位置を示す座
標位置(図3の符号206)およびその位置から始まる
文字コード列(図3の符号207)を抽出する。このよ
うにして抽出されたデータを使用してCPU40Aは文
字認識用のフォーマット定義を作成する(図6のステッ
プS130)。
【0057】文字枠のフォーマット定義を作成する場
合、ワークメモリ40Bの中に読み込まれた文字サイ
ズ、文字間隔、先頭文字位置、文字コード列等のパラメ
ータの値から数3式、数4式を使用して文字認識枠の大
きさ、位置を計算する(図7のステップS10〜S3
0)。
【0058】その他、罫線枠内の文字認識枠については
罫線の交点座標を計算し、計算結果を文字認識枠の大き
さおよび位置とする。以上、述べた文字認識用フォーマ
ット定義以外の文字認識用フォーマット定義も関連の印
刷用フォーマット定義から計算される(図7ステップS
40)。
【0059】以上のようにして印刷用のフォーマット定
義から変換された文字認識用のフォーマット定義はワー
クメモリ40Bに格納された後、HDD40Cに保存さ
れる(ステップS50)。
【0060】文字認識用フォーマット定義の種類毎にそ
の定義の作成をCPU40Aが行って、必要な文字認識
用フォーマット定義全てを作成すると(図6のステップ
S140)、CPU40Aは図6の処理手順を終了する
(図5の変換処理504→文字認識(OCR)用フォー
マット定義505)。
【0061】このようにして端末装置40のHDD40
C上に作成された文字認識用定義は、スキャナー42に
よる帳票原稿の画像の読み取り、端末装置40での文字
認識を行うときに使用される(図5の符号505、50
6、514参照)。
【0062】たとえば文字認識用フォーマット定義の中
の原稿サイズ、全体文字認識枠に関するフォーマット定
義は帳票原稿の画像の読み取りの際に使用され、文字認
識枠の位置、大きさについて文字認識用フォーマットは
読み取り画像データから文字認識すべき文字のイメージ
を抽出する場合に使用される。
【0063】以上述べた実施の形態の他に次の形態を実
施できる。
【0064】1)上述の実施の形態ではページ記述言語
で記載された印刷用フォーマット定義を文字認識用のフ
ォーマット定義に変換する形態であったが、ホストコン
ピュータ10側で使用する大型プリンタ用の帳票生成言
語で記載された印刷フォーマット定義を直接、文字認識
用のフォーマット定義に変換してもよい。この場合にお
いても、フォーマットの種類毎に変換式を定めておき、
帳票生成言語で記載された印刷データの中から関連の印
刷用フォーマット定義を抽出し、上記変換式により文字
認識用フォーマット定義を取得する(図5の符号501
→(点線)符号504の処理プロセス)。
【0065】ちなみに帳票生成言語の1つであるOGL
の場合、印刷フォーマット定義はぺージ定義とフォーム
定義を含む。ページ定とはフィールド単位でのフォント
の種類、回転、回転方向、ページ上の位置指定の定義等
ページ上の印刷データのマッピングのための定義であ
る。フォーマット定義は印刷フォームの定義であり、コ
ピー数、電子オーバーレイの指定、両面印刷の有無等の
指定を行う。このようなページ定義やフォーム定義はパ
ラメータを含むコマンドの形態で記載されているので、
コマンドの種類識別を行なうことにより文字認識に関連
する印刷フォーマット定義を上記ページ定義やフォーム
定義の中から取り出して、文字認識用のフォーマット定
義に変換する。
【0066】2)上述の実施形態では、印刷用帳票デー
タの中の固定文字列、いわゆる定型文字列についての文
字認織枠を設定する例を含めたが、罫線で囲まれる記載
欄に記載された手書き文字に対してのみ文字認識枠を設
定すればよい場合には定型文字についてのフォーマット
変換を省略することができる。さらに文字認識用のブロ
グラムで必要とする文字認識用のフォーマット定義だけ
を変換すれぱよいことは言うまでもない。
【0067】また、文字認識枠が1文字ではなく、複数
文字や1行単位の文字認識枠を設定する文字認識装置や
プログラムのためには該当する大きさの文字認識枠を作
成すればよい。
【0068】スキャナー42の読み取り解像度の設定な
ど印刷用フォーマット定義から取得できない場合には、
従来どおり手動設定すればよい。このときに、自動作成
した文字認識用のフォーマット定義をデフォルト(初期
値として)表示し、このフォーマット定義を手動により
修正できるようにすると、帳票原稿の収縮等帳票フォー
マートと実際の帳票原稿の記載イメージの誤差を修正で
きる。
【0069】3)上述の実施形態ではページ記述言語形
態の印刷用フォーマット定義を大型プリンタ用の帳票生
成言語で記載された印刷用フォーマット定義からの変換
により取得しているが、ページ記述言語の印刷フォーマ
ットはパーソナルコンピュータに搭載されるワープロソ
フト、たとえば、MS WORD(マイクロソフト
(株)の登録商標)などにより作成された文書の中の書
式関連データからの変換により取得できることができ
る。
【0070】4)ページ記述言語で記載された印刷用フ
ォーマット定義、すなわち、手書き文字記載欄が空欄と
なっている帳票データをRTF(Rich Text
Formatのことで、Aldus社の登録商標)など
と呼ばれるような書式付きテキストに変換する(図5の
符号503→508→509)と上記ワープロソフトを
使用して、端末装置40側で帳票の書式変更したり印刷
したり、フロッピーディスクなどの携帯用記録媒体へ記
録することができる。
【0071】5)ページ記述言語の形態の印刷用フォー
マット定義を端末装置40に入力する方法は上述の形態
の他に、フロッピーディスクによるオフライン転送、キ
ーボードからの文字入力による方法等、ユーザの所望の
形態とするとよい。
【0072】6)上述の実施の形態では主に文字認識枠
についてのフォーマット変換を説明した、帳票の罫線の
位置データは罫線イメージの消去処理にも使用できる。
より具体的には、帳票原稿から読み取られたイメージに
は罫線イメージが含まれている。この罫線イメージを周
知の文字認識処理プログラムをCPU40Aが実行し
て、除去することにより認識対象のイメージは文字だけ
となるので、文字認識精度が向上する。
【0073】7)上述の実施形態ては端末装置40側で
文字認識用のソフトウェアを実行して文字認識を行って
いるが、スキャナと文字認識処理を専用的に実行する情
報処理装置を一体化した文字認識装置とプリンタにより
帳票処理システムを構成してもよい。さらに図1の文字
認識機能のない端末装置40にこの文字認識装置を接続
するような帳票処理システムを構成することもできる。
【0074】8)文字認識用のフォーマット定義を上述
の実施形態のように識別コード+パラメータの値のよう
に記載してもよいが、ワークメモリ40Bに専用領域に
パラメータのみを格納しておくことができる。この場合
には、記憶アドレスが帳票定義の種類を表わすことにな
る。
【0075】
【発明の効果】以上、説明したように、請求項1、1
0、19の発明によれば、印刷用フォーマット定義から
文字認識用のフォーマット定義を自動作成できるので、
ユーザは手動操作でフォーマット定義を作成する必要が
なく、文字認識に係る煩雑な操作から開放される。加え
て、印刷用フォーマット定義により印刷された帳票を文
字認識しても、印刷用フォーマット定義と文字認識用フ
ォーマット定義が対応関係にあるので、従来の人手によ
って認識領域を設定することからくる誤認が少なくな
り、文字認識精度が劣化することはない。
【0076】請求項2、11、20の発明によれば、逆
に、文字認識用のフォーマット定義からも印刷用のフォ
ーマット定義を作成できるので、ユーザは、難解で面倒
な印刷用フォーマット定義を作成する必要がなく、印刷
用に係る煩雑な作業から開放される。加えて、印刷用フ
ォーマット定義により印刷された帳票を文字認識して
も、文字認識用フォーマット定義と印刷用フォーマット
定義が対応関係にあるので、従来の人手によって認識領
域を設定することからくる誤認が少なくなり、文字認識
精度が劣化することはない。
【0077】請求項3、12の発明では、中小型コンピ
ュータで使用されるページ記述言語で記載された印刷用
フォーマット定義から文字認識用のフォーマット定義を
作成するので、LAN接続した端末装置や、単独(スタ
ンドアローン)の中小型コンピュータ側での文字認識が
可能となる。また、逆に、前記文字認識用のフォーマッ
ト定義から中小型コンピュータで使用されるページ記述
言語で記載された前記印刷用フォーマット定義をも作成
するので、LAN接続した端末装置や、単独(スタンド
アローン)の中小型コンピュータ側での印刷が可能とな
る。
【0078】請求項4、13の発明では、帳票生成言語
のフォーマット定義を使用するホストコンピュータから
端末装置が受け取り、ページ記述言語に変換した後、文
字認識用のフォーマット定義を作成することができる。
【0079】請求項5、6、14、15の発明では、ホ
ストコンピュータ側で使用する作成済みの帳票言語の印
刷用フォーマット定義から直接的に文字認識用のフォー
マット定義を作成する。これによりホストコンピュータ
に接続した端末装置による文字認識が可能となり、端末
装置での操作が簡略化される。逆に、作成済みの文字認
識用のフォーマット定義から直接的にホストコンピュー
タ側で使用する帳票言語の印刷用フォーマット定義を作
成できるようになる。したがって、ユーザは、難解で面
倒な印刷用の言語を学習してプログラミング作業をし、
何度も、アウトプット受付まで足を運び、印刷出力され
た帳票を受け取り、記載ミスのチェックしながら、フォ
ーマット定義を作成してゆく必要がなく、印刷用に係る
煩雑な作業から開放される。これによりホストコンピュ
ータに接続した端末装置から一度の指示による、精度の
高い印刷も可能となり、端末装置とアウトプット受付
(または、印刷装置)間での往復作業もなくなる。加え
て、印刷用フォーマット定義により印刷された帳票を文
字認識しても、文字認識用フォーマット定義と印刷用フ
ォーマット定義が対応関係にあるので、従来の人手によ
って認識領域を設定することからくる誤認が少なくな
り、文字認識精度が劣化することはない。更に、最近の
ダウンサイジング化の傾向により、いままでホストコン
ピュータで作成され、貯えられてきた大量・高速印刷用
のフォーマット定義等の過去の膨大な遺産(ここでは、
データベースのこと。)のほとんどを有効活用するた
め、中小型の印刷用フォーマット定義、または、文字認
識のための書式に関連するフォーマット定義に、各々、
フォーマット変換、または、抽出できる。
【0080】請求項7、16の発明では、スキャナーな
どの画像読み取り手段を帳票処理システムの中に組み込
むことにより、帳票原稿から帳票の記載データを自動入
力することができる。また、逆に、帳票原稿からの帳票
の記載データを、直接的にホストコンピュータ側に送付
し、データベースに蓄積し、ホストコンピュータに接続
した端末装置によって、一括して大量に高速印刷処理す
ることができる。
【0081】請求項8、17の発明では、罫線枠内に記
入される手書き文字についての文字認識枠を罫線につい
ての印刷用フォーマットから作成するので、文字認識枠
の位置の精度が高くなる。また、一旦、作成済みの前記
印刷用フォーマット定義から前記文字認識用のフォーマ
ット定義を作成し、逆に、作成済みの当該文字認識用の
フォーマット定義、または、中間生成物である文字認識
のための書式に関連するフォーマット定義から、ホスト
コンピュータ側で使用する帳票言語の印刷用フォーマッ
ト定義を作成することも出来る。すると、前記での繰り
返しとなるが、ユーザは、難解で面倒な印刷用の言語を
学習してプログラミング作業をし、何度も、アウトプウ
ト受付まで足を運び、印刷出力された帳票を受け取り、
記載ミスのチェックしながら、フォーマット定義を作成
してゆく必要がなく、印刷用に係る煩雑な作業から開放
される。これによりホストコンピュータに接続した端末
装置から一度の指示による、精度の高い印刷も可能とな
り、端末装置とアウトプット受付(または、印刷装置)
間での往復作業もなくなる。
【0082】請求項9、18の発明では、印刷用フォー
マット定義から罫線の位置を取得する。これにより従来
のように帳票イメージ中罫線画像を認識する必要はな
く、文字認識処理時間を短縮することができる。加え
て、罫線除去処理を行わない文字認識装置に比べると、
文字認識精度が高まる。
【図面の簡単な説明】
【図1】帳票処理システム構成を示すブロック図であ
る。
【図2】従来の帳票処理の処理プロセスを示すブロック
図である。
【図3】帳票の記載例およびそのフォーマット定義の内
容を示す説明図である。
【図4】フォーマット定義のパラメータを説明するため
の説明図である。
【図5】本発明実施の形態の帳票処理プロセスを示すブ
ロック図である。
【図6】文字認識用フォーマット定義の作成処理手順を
示すフローチャートである。
【図7】文字認識用フォーマット定義の作成処理手順を
示すフローチャートである。
【符号の説明】
10 ホストコンピュータ 20 (大型)プリンタ 30 ディスク記憶装置 40 端末装置 40A CPU 40B ワークメモリ 40C ハードディスク記憶装置(HDD) 41 (中小型)プリンタ 42 スキャナー 50 LAN

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 印刷のための書式を規定した第1フォー
    マット定義の中の文字認識のための書式に関連する第2
    フォーマット定義と前記文字認識のための書式を規定し
    た第3フォーマット定義との間の対応関係を予め定めて
    おき、 前記第1フォーマット定義の中から前記第2フォーマッ
    ト定義を抽出する双方向性をもった相互抽出手段と、 当該抽出された第2フォーマット定義を前記第3フォー
    マット定義に前記対応関係に変換するフォーマット変換
    手段と、 当該変換された第3フォーマット定義に基づき帳票画像
    の文字認識を行う文字認識手段とを具えたことを特徴と
    する帳票処理システム。
  2. 【請求項2】 請求項1に記載の帳票処理システムにお
    いて、前記対応関係に基づいて、文字認識のための書式
    を規定した第3フォーマット定義を前記第2フォーマッ
    ト定義にフォーマット変換し、 当該変換された第2フォーマット定義の中から前記第1
    フォーマット定義を抽出する双方向性をもった相互抽出
    手段とをも具えたことを特徴とする帳票処理システム。
  3. 【請求項3】 請求項1または請求項2に記載の帳票処
    理システムにおいて、前記第1フォーマット定義はペー
    ジ記述言語で記載されていることを特徴とする帳票処理
    システム。
  4. 【請求項4】 請求項3に記載の帳票処理システムにお
    いて、帳票生成言語で記載された第4フォーマット定義
    に基づき帳票処理するホストコンピュータ、該ホストコ
    ンピュータに接続する端末装置を有し、該端末装置に前
    記双方向性をもった相互抽出手段、前記フォーマット変
    換手段および前記文字認識手段を配置し、前記端末装置
    は前記第4フォーマット定義から前記第1フォーマット
    定義をフォーマット変換により取得することを特徴とす
    る帳票処理システム。
  5. 【請求項5】 請求項1または請求項2に記載の帳票処
    理システムにおいて、前記第1フォーマット定義は帳票
    生成言語で記載されていることを特徴とする帳票処理シ
    ステム。
  6. 【請求項6】 請求項5に記載の帳票処理システムにお
    いて、前記帳票生成言語で記載された第1フォーマット
    定義を帳票処理するホストコンピュータ、該ホストコン
    ピュータに接続する端末装置を有し、該端末装置に前記
    双方向性をもった相互抽出手段、前記フォーマット変換
    手段および前記文字認識手段を配置し、前記端末装置は
    前記ホストコンピュータから前記第1フォーマット定義
    を取得することを特徴とする帳票処理システム。
  7. 【請求項7】 請求項1または請求項2に記載の帳票処
    理システムにおいて、帳票原稿を読み取る画像読み取り
    手段をさらに有し、該画像読み取り手段により読み取っ
    た帳票画像を前記文字認識手段が文字認識することを特
    徴とする帳票処理システム。
  8. 【請求項8】 請求項1または請求項2に記載の帳票処
    理システムにおいて、前記文字認識手段は手書き文字を
    認識可能であり、前記第1フォーマット定義の中には帳
    票に記載された罫線の位置を規定したフォーマット定義
    が含まれ、該フォーマット定義から手書き文字の認識枠
    を決定することを特徴とする帳票処理システム。
  9. 【請求項9】 請求項8に記載の帳票処理システムにお
    いて、前記文字認識手段は、文字認識に先立って、前記
    罫線の位置を規定したフォーマット定義に基づき、前記
    帳票画像の中から罫線画像を除去することを特徴とする
    帳票処理システム。
  10. 【請求項10】 文字認識機能を有する情報処理装置を
    備えた帳票処理システムの文字認識方法において、 前記情報処理装置は印刷のための書式を規定した第1フ
    ォーマット定義の中から文字認識のための書式に関違す
    る第2フォーマット定義を抽出し、 文字認識のための書式を規定した第3フォーマット定義
    と前記第2フォーマット定義との間の対応関係を予め定
    めておき、該対応関係に基づき、抽出された前記第2フ
    ォーマット定義を前記第3フォーマット定義に変換し、 当該変換された第3フォーマット定義に基づき帳票画像
    の文字認識を行うことを特徴とする帳票処理システムの
    文字認識方法。
  11. 【請求項11】 請求項10に記載の帳票処理システム
    の文字認識方法において、 前記対応関係に基づいて、文字認識のための書式を規定
    した第3フォーマット定義を前記第2フォーマット定義
    にフォーマット変換し、 当該変換された第2フォーマット定義の中から前記第1
    フォーマット定義を抽出することをも具えたことを特徴
    とする帳票処理システムの文字認識方法。
  12. 【請求項12】 請求項10または請求項11に記載の
    帳票処理システムの文字認識方法において、前記第1フ
    ォーマット定義はページ記述言語で記載されていること
    を特徴とする帳票処理システムの文字認識方法。
  13. 【請求項13】 請求項12に記載の帳票処理システム
    の文字認識方法において、前記帳票処理システムは、帳
    票生成言語で記載された第4フォーマット定義を帳票処
    理するホストコンピュータを有し、該ホストコンピュー
    タに対して前記情報処理装置が端末装置として接続され
    ており、前記情報処理装置は前記第4フォーマット定義
    から前記第1フォーマット定義をフォーマット変換によ
    り取得することを特徴とする帳票処理システムの文字認
    識方法。
  14. 【請求項14】 請求項10または請求項11に記載の
    帳票処理システムの文字認識方法において、前記第1フ
    ォーマット定義は帳票生成言語で記載されていることを
    特徴とする帳票処理システムの文字認識方法。
  15. 【請求項15】 請求項14に記載の帳票処理システム
    の文字認識方法において、前記情報処理システムは前記
    帳票生成言語で記載された第1フォーマット定義を帳票
    処理するホストコンピュータを有し、該ホストコンピュ
    ータに対して前記情報処理装置が端末装置としで接続さ
    れ、前記情報処理装置は前記ホストコンピュータから前
    記第1フォーマット定義を取得することを特徴とする帳
    票処理システムの文字認識方法。
  16. 【請求項16】 請求項10または請求項11に記載の
    帳票処理システムの文字認識方法において、前記帳票処
    理システムは、帳票原稿を読み取る画像読み取り装置を
    さらに有し、該画像読み取り装置により読み取った帳票
    画像を前記情報処理装置において文字認識することを特
    徴とする帳票処理システムの文字認識方法。
  17. 【請求項17】 請求項10または請求項11に記載の
    帳票処理システムの文字認識方法において、前記情報処
    理装置は手書き文字を認識可能であり、前記第1フォー
    マット定義の中には帳票に記載された罫線の位置を規定
    したフォーマット定義が含まれ、該フォーマット定義か
    ら手書き文字の認識枠を決定することを特徴とする帳票
    処理システムの文字認識方法。
  18. 【請求項18】 請求項17に記載の帳票処理システム
    の文字認識方法において、前記情報処理装置は、文字認
    識に先立って、前記罫線の位置を規定したフォーマット
    定義に基づき、前記帳票画像の中から罫線画像を除去す
    ることを特徴とする帳票処理システムの文字認識方法。
  19. 【請求項19】 文字認識機能を有する情報処理装置を
    備え、該情報処理装置により読み取られ、実行可能なプ
    ログラムコード手段を記録した帳票処理システムの記録
    媒体において、 前記プログラムコード手段は、前記情報処理装置は印刷
    のための書式を規定した第1フォーマット定義の中から
    文字認識のための式に関連する第2フォーマット定義を
    抽出する双方向性をもったステップと、 文字認識のための書式を規定した第3フォーマット定義
    と前記第2フォーマット定義との間の対応関係が予め定
    められており、該対応関係に基づき、抽出された前記第
    2フォーマット定義を前記第3フォーマット定義に変換
    するステップと、当該変換された第3フォーマット定義
    に基づき帳票画像の文字認識を行うステップとを具えた
    ことを特徴とする帳票処理システムの記録媒体。
  20. 【請求項20】 請求項19に記載の帳票処理システム
    の記録媒体において、 前記対応関係に基づいて、文字認識のための書式を規定
    した第3フォーマット定義を前記第2フォーマット定義
    にフォーマット変換し、 当該変換された第2フォーマット定義の中から前記第1
    フォーマット定義を抽出する双方向性をもったステップ
    とをも具えたことを特徴とする帳票処理システムの記録
    媒体。
JP9151423A 1997-06-09 1997-06-09 帳票処理システム、その文字認識方法およびその記録媒体 Pending JPH10340314A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9151423A JPH10340314A (ja) 1997-06-09 1997-06-09 帳票処理システム、その文字認識方法およびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9151423A JPH10340314A (ja) 1997-06-09 1997-06-09 帳票処理システム、その文字認識方法およびその記録媒体

Publications (1)

Publication Number Publication Date
JPH10340314A true JPH10340314A (ja) 1998-12-22

Family

ID=15518303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9151423A Pending JPH10340314A (ja) 1997-06-09 1997-06-09 帳票処理システム、その文字認識方法およびその記録媒体

Country Status (1)

Country Link
JP (1) JPH10340314A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227255A (ja) * 2003-01-22 2004-08-12 Mitsubishi Electric Corp 文書解析装置
US9582740B2 (en) 2014-01-22 2017-02-28 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium, and image processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227255A (ja) * 2003-01-22 2004-08-12 Mitsubishi Electric Corp 文書解析装置
US9582740B2 (en) 2014-01-22 2017-02-28 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium, and image processing method

Similar Documents

Publication Publication Date Title
JPH08190604A (ja) ラスタ画像表示用ハイブリッドデータ構造生成方法及び装置
JP2003022269A (ja) 漫画翻訳装置及びそのシステム並びに漫画翻訳方法
JPS6118033A (ja) 印刷処理装置
US6594405B1 (en) Method and apparatus for preprinted forms completion
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
JP4924990B2 (ja) 文書処理装置および文書処理プログラム
JPH10340314A (ja) 帳票処理システム、その文字認識方法およびその記録媒体
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JPS61245274A (ja) ワ−ドプロセツサ
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2682873B2 (ja) 表形式文書の認識装置
JP6960646B1 (ja) 読取システム、読取プログラムおよび読取方法
JP5390880B2 (ja) 外字ビットマップデータ抽出方法
JP4081074B2 (ja) 帳票処理装置、帳票処理方法、及び帳票処理プログラム
JPH07262317A (ja) 文書処理装置
JP2003085477A (ja) 文字認識装置および文字認識結果の訂正方法
JPH04302070A (ja) 文字認識装置及び方法
JPH0493275A (ja) 画像ファイル装置
JPH04293185A (ja) ファイリング装置
JPH09218741A (ja) 情報処理装置及びその制御方法
CN115761769A (zh) 智能阅卷方法、打印数据处理方法、装置及图像形成设备
JP3011012B2 (ja) 文書作成システム
JPH09204481A (ja) イメージ処理機能付きワードプロセッサ