JP2009003496A - 帳票データ変換装置 - Google Patents
帳票データ変換装置 Download PDFInfo
- Publication number
- JP2009003496A JP2009003496A JP2007160888A JP2007160888A JP2009003496A JP 2009003496 A JP2009003496 A JP 2009003496A JP 2007160888 A JP2007160888 A JP 2007160888A JP 2007160888 A JP2007160888 A JP 2007160888A JP 2009003496 A JP2009003496 A JP 2009003496A
- Authority
- JP
- Japan
- Prior art keywords
- data
- field
- format
- conversion
- form data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 102
- 238000013500 data storage Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 abstract description 5
- 150000001875 compounds Chemical class 0.000 abstract 1
- 238000000034 method Methods 0.000 description 15
- 239000002131 composite material Substances 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 変換後の帳票データに対して、高度な複合検索を可能にする。
【解決手段】 フォーマット変換部11により、第1のフォーマットの帳票データを、格納部10内から読み出し、変換規則格納部12内の規則を参照して第2のフォーマットに変換し、格納部13に格納する。見本となる帳票を帳票画像表示部14によってディスプレイ画面上に表示させ、オペレータの指示を受けたフィールド情報定義部15によって、帳票の個々の部分に矩形状のフィールド領域を定義し、フィールド名とともにフィールド情報格納部16に格納する。データベース作成部17は、格納部13内の変換後帳票データの各フィールド領域内から部分データをフィールド実データとして抽出し、1帳票を1レコードとしてデータベース格納部18内に格納する。データ検索部19は、このデータベースを利用して、所望の帳票を検索できる。
【選択図】図1
【解決手段】 フォーマット変換部11により、第1のフォーマットの帳票データを、格納部10内から読み出し、変換規則格納部12内の規則を参照して第2のフォーマットに変換し、格納部13に格納する。見本となる帳票を帳票画像表示部14によってディスプレイ画面上に表示させ、オペレータの指示を受けたフィールド情報定義部15によって、帳票の個々の部分に矩形状のフィールド領域を定義し、フィールド名とともにフィールド情報格納部16に格納する。データベース作成部17は、格納部13内の変換後帳票データの各フィールド領域内から部分データをフィールド実データとして抽出し、1帳票を1レコードとしてデータベース格納部18内に格納する。データ検索部19は、このデータベースを利用して、所望の帳票を検索できる。
【選択図】図1
Description
本発明は、帳票データ変換装置に関し、特に、第1のフォーマットで記述された帳票データを、第2のフォーマットで記述された帳票データに変換する処理を行い、かつ、変換後の帳票データに対して高度な複合検索処理を行うことが可能な帳票データ変換装置を実現するための技術に関する。
近年、ビジネスの分野におけるIT化の進展はめざましく、今後は、従来の紙を用いた文書の多くは電子化され、デジタルデータとして配布され、閲覧され、保存されるものと予想される。また、いわゆるe文書法と呼ばれる法律が成立したことにより、文書の電子化の波は、商法・税法・労働法など各種法令にも及んでおり、多くの企業が法令によって保存を義務づけられている帳票類についても、電子化した状態での保存が認められるようになってきている。
その一方で、コンピュータによって作成される電子文書には、様々なデータフォーマットが用いられている。一般に、コンピュータ用のアプリケーションソフトウエアによって作成された電子文書は、当該アプリケーションソフトウエアに固有のデータフォーマットで記述されており、作成に用いたアプリケーションソフトウエアが異なれば、そのデータフォーマットは基本的に異なる。相互に互換性を謳うアプリケーションソフトウエアであっても、実際には、細かな点において相互の完全な互換性を確保することは困難である。また、同一のアプリケーションソフトウエアでも、バージョンが異なれば、そのデータフォーマットも改変されるケースが少なくない。したがって、数年前に作成して保存しておいた帳票データを、作成に用いた同一のアプリケーションソフトウエアの新バージョンを用いて閲覧した場合でも、採用するデータフォーマットの違いにより、完全な再現性が確保できない事態も生じることになる。
このような事情を配慮して、既に、世界的に共通のデータフォーマットを策定する取り組みがなされている。たとえば、PDFは、現在、インターネット等での文書公開に最も広く利用されている電子データのフォーマットであり、PDF/Aは、このPDFをベースにして、ISOにて標準化作業が進められているフォーマットの規格である。現時点では、2005年9月に、ISO 19005-1において、PDF/A−1が標準化されており、今後も、ビジネスの分野で用いられる帳票類の電子データのフォーマットとしては、このPDF/Aに準拠したフォーマットが世界的な標準としての地位を確立してゆくものと予想される。
このPDF/Aのような世界的規模での標準データフォーマットで電子文書を保存しておけば、長期見読性が担保され、法令によって定められた長期保存期間が経過した後も、当該電子文書を閲覧見読するのに支障は生じないものと予想される。このため、様々なアプリケーションソフトウエアによって作成された電子文書のデータフォーマットを、PDF/Aのような標準フォーマットに変換する処理を行うデータ変換装置が提案されている。たとえば、下記の特許文献1には、ファイルのデータ構造を解析して、変換後のフォーマットに合致するプロフィールを認識することにより、ファイルのデータフォーマットを変換することができるデータフォーマット変換装置が開示されている。また、下記の特許文献2には、インターネットを利用した電子商取引に用いる電子文書のファイルフォーマットを変換する技術が開示されており、下記の特許文献3には、通信回線を介して帳票データをやりとりする際に、社内用の業務フォーマットと標準フォーマットとの間のフォーマット変換を行う技術が開示されている。
特開平5−282131号公報
特開平11−134227号公報
特開2002−222382号公報
上述したように、商取引に用いる文書の多くは、e文書法の施行により、電子化した状態での保存が認められるようになっており、今後は、多くの企業が、様々な文書をPDF/Aのような標準フォーマットに変換した後に、電子文書ファイルとして保存する作業を行うことになると予想される。このような大量の電子文書ファイルの中から、所望のファイルを探し出すためには、検索機能が不可欠である。したがって、PDF/Aのような標準フォーマットの電子文書を閲覧するための閲覧ソフトウエアには、入力されたキーワードに基づいて、各ファイルに含まれるテキストデータなどを検索する機能が用意されている。
もちろん、一般的な通知書、お知らせ、広報書類などの場合は、テキストデータ全文に対するキーワード検索を行うことができれば、必要な文書を探し出す上では十分に役立つであろう。しかしながら、請求書・納品書・売上伝票等のいわゆる帳票類に関しては、テキストデータ全文に対するキーワード検索だけでは、十分な検索を行うことが困難であり、より高度な複合検索処理機能が望まれている。たとえば、「○○商事株式会社なる顧客宛の単価10万円以上の商品に関する2007年3月1日〜3月31日までの請求書」を探し出したい場合、「○○商事株式会社」、「100,000」、「2007/03/01」のようなキーワードを用いたテキストデータ全文検索を行ったとしても、容易に所望の帳票を見つけ出すことはできない。
そこで、本発明は、変換後の帳票データに対して、高度な複合検索が可能になる帳票データ変換装置を提供することを目的とする。
(1) 本発明の第1の態様は、第1のフォーマットで記述された帳票データを、第2のフォーマットで記述された帳票データに変換する処理を行う帳票データ変換装置において、
第1のフォーマットで記述された複数の変換前帳票データを格納する第1のデータ格納部と、
第1のフォーマットから第2のフォーマットへの変換規則を格納した変換規則格納部と、
この変換規則に基づいて、変換前帳票データを、第2のフォーマットで記述された変換後帳票データに変換するフォーマット変換部と、
変換後帳票データを格納する第2のデータ格納部と、
与えられた指示に基づき、第2のデータ格納部に格納されている所望の変換後帳票データの内容を示す帳票画像をディスプレイ画面上に表示する帳票画像表示部と、
与えられた指示に基づき、ディスプレイ画面上に表示されている帳票画像上の各指定部分にそれぞれ所定のフィールド領域を定義し、個々のフィールド領域に対してそれぞれ所定のフィールド名を定義するフィールド情報定義部と、
フィールド情報定義部で定義された各フィールド領域の位置および範囲を示す領域データおよびフィールド名を格納するフィールド情報格納部と、
第2のデータ格納部に格納されている個々の変換後帳票データから、フィールド情報格納部内の領域データで示される各フィールド領域内に位置する部分データを抽出し、1つの変換後帳票データ内の情報を1レコードとし、抽出した各部分データを当該レコード内の1フィールド実データとする検索用データベースを作成するデータベース作成部と、
データベース作成部が作成した検索用データベースを格納するデータベース格納部と、
検索用データベースを用いて、与えられたキーワードに合致するフィールド実データを有するレコードを検索し、検索されたレコードに該当する変換後帳票データを表示させるための指示を帳票画像表示部に与えるデータ検索部と、
を設けるようにしたものである。
第1のフォーマットで記述された複数の変換前帳票データを格納する第1のデータ格納部と、
第1のフォーマットから第2のフォーマットへの変換規則を格納した変換規則格納部と、
この変換規則に基づいて、変換前帳票データを、第2のフォーマットで記述された変換後帳票データに変換するフォーマット変換部と、
変換後帳票データを格納する第2のデータ格納部と、
与えられた指示に基づき、第2のデータ格納部に格納されている所望の変換後帳票データの内容を示す帳票画像をディスプレイ画面上に表示する帳票画像表示部と、
与えられた指示に基づき、ディスプレイ画面上に表示されている帳票画像上の各指定部分にそれぞれ所定のフィールド領域を定義し、個々のフィールド領域に対してそれぞれ所定のフィールド名を定義するフィールド情報定義部と、
フィールド情報定義部で定義された各フィールド領域の位置および範囲を示す領域データおよびフィールド名を格納するフィールド情報格納部と、
第2のデータ格納部に格納されている個々の変換後帳票データから、フィールド情報格納部内の領域データで示される各フィールド領域内に位置する部分データを抽出し、1つの変換後帳票データ内の情報を1レコードとし、抽出した各部分データを当該レコード内の1フィールド実データとする検索用データベースを作成するデータベース作成部と、
データベース作成部が作成した検索用データベースを格納するデータベース格納部と、
検索用データベースを用いて、与えられたキーワードに合致するフィールド実データを有するレコードを検索し、検索されたレコードに該当する変換後帳票データを表示させるための指示を帳票画像表示部に与えるデータ検索部と、
を設けるようにしたものである。
(2) 本発明の第2の態様は、上述の第1の態様に係る帳票データ変換装置において、
帳票画像表示部が、ディスプレイ画面上に、水平方向を示すX軸と垂直方向を示すY軸とによって規定されるXY二次元座標系を定義し、帳票画像を構成する個々の対象物の位置をXY座標値で指定することにより表示を行い、
フィールド情報定義部が、左上隅点のXY座標値と右下隅点のXY座標値とで定義される矩形からなるフィールド領域を定義し、
フィールド情報格納部が、左上隅点のXY座標値と右下隅点のXY座標値とからなる領域データを格納するようにしたものである。
帳票画像表示部が、ディスプレイ画面上に、水平方向を示すX軸と垂直方向を示すY軸とによって規定されるXY二次元座標系を定義し、帳票画像を構成する個々の対象物の位置をXY座標値で指定することにより表示を行い、
フィールド情報定義部が、左上隅点のXY座標値と右下隅点のXY座標値とで定義される矩形からなるフィールド領域を定義し、
フィールド情報格納部が、左上隅点のXY座標値と右下隅点のXY座標値とからなる領域データを格納するようにしたものである。
(3) 本発明の第3の態様は、上述の第1または第2の態様に係る帳票データ変換装置としてコンピュータを機能させるためのプログラムを用意し、当該プログラムを組み込んだコンピュータによって、帳票データ変換装置を構成したものである。
本発明に係る帳票データ変換装置を用いれば、第1のフォーマットで記述された帳票データを、第2のフォーマットで記述された帳票データに変換する処理を行うとともに、個々の帳票を1レコードとする検索用データベースを作成することができる。このため、この検索用データベースを利用して、変換後の帳票データに対して、高度な複合検索を行うことが可能になる。
以下、本発明を図示する実施形態に基づいて説明する。図1は、本発明の一実施形態に係る帳票データ変換装置の構成を示すブロック図である。この装置の基本機能は、第1のフォーマットで記述された帳票データを、第2のフォーマットで記述された帳票データに変換する処理を行うことであるが、この装置は同時に、変換後の帳票データを検索するための検索用データベースを作成し、この検索用データベースを用いた検索を行う付加的な機能を有している。
図の一番上に示すブロックCは、専用アプリケーションプログラムを組み込んだコンピュータを示している。このコンピュータC自体は、本発明に係る帳票データ変換装置の構成要素ではないが、ここでは、説明の便宜上、1つのブロックとして示してある。このコンピュータCは、たとえば、ワープロや表計算ソフトウエアなどのアプリケーションプログラムを組み込んだ汎用のパソコンなどによって構成され、第1のフォーマットで記述された帳票データを作成する機能を有している。ここでは、この第1のフォーマットが、当該アプリケーションプログラムに固有の独自フォーマットであり、作成された帳票データは、基本的に、当該アプリケーションプログラムを用いないと、閲覧することができないものとしよう。
本発明に係る帳票データ変換装置は、このような帳票データを、PDF/Aなどの標準フォーマットで記述された帳票データに変換するために用いられる。この帳票データ変換装置は、図1に示すブロック10〜19の各構成要素によって構成されている。もっとも、これら各ブロック10〜19で示す構成要素は、実際には、コンピュータのハードウエアおよびソフトウエアによって実現される構成要素であり、本発明に係る帳票データ変換装置は、汎用のコンピュータに専用のプログラムを組み込むことによって実現することができる。
第1のデータ格納部10は、第1のフォーマットで記述された複数の変換前帳票データを格納する構成要素であり、図示の例では、4組の変換前帳票データA1〜A4が格納されている状態が示されている。前述したとおり、これら変換前帳票データA1〜A4は、専用アプリケーションプログラムを組み込んだコンピュータCによって作成されたものである。ここでは、説明の便宜上、コンピュータCが請求書を作成する処理機能をもった専用アプリケーションプログラムを組み込んだコンピュータであるものとし、変換前帳票データA1〜A4が、いずれも1枚の請求書として用いられる帳票データであるものとしよう。
図2は、変換前帳票データA1を、コンピュータCの専用アプリケーションプログラムを用いてディスプレイ画面上に表示した状態を示す。一方、図3は、変換前帳票データA2を、同様にディスプレイ画面上に表示した状態を示す。いずれも1枚の請求書を構成する帳票データであり、そのレイアウト仕様は全く同じであるが、具体的な実データはそれぞれ固有のものになっている。すなわち、図2に示す帳票データA1は、「○○商事株式会社」宛てに発行した伝票番号「No.123456」なる請求書であるのに対し、図3に示す帳票データA2は、「株式会社××商会」宛てに発行した伝票番号「No.123457」なる請求書になっている。帳票データA3,A4も、帳票データA1と全く同じレイアウト仕様を有しており、具体的な実データのみがそれぞれ固有のものになっている。
本明細書にいう「帳票データ」とは、この例のように「1単位の帳票を構成するデータ」を意味するものであり、図2に示す帳票データA1と図3に示す帳票データA2とは別個独立した帳票データということになる。図1に示す第1のデータ格納部10内には、説明の便宜上、4組の帳票データA1〜A4のみが格納されている状態が示されているが、実用上は、より多数の帳票データが格納されることになろう。また、これら1つ1つの帳票データは、それぞれが別個のファイルとして保存される場合もあるであろうし、複数組の帳票データが単一のファイルとして保存される場合もあるであろう。これは、コンピュータCに組み込まれた専用アプリケーションプログラムの仕様によって決まる問題である。
フォーマット変換部11は、第1のデータ格納部10内に格納されている変換前帳票データA1〜A4を、第2のフォーマットで記述された変換後帳票データB1〜B4に変換する処理を行う構成要素である。このような変換処理を行うために、変換規則格納部12内には、第1のフォーマットから第2のフォーマットへの変換規則が格納されている。変換後帳票データB1〜B4は、第2のデータ格納部13に格納される。ここで述べる実施形態では、第2のフォーマットとして、前述したように国際的な標準フォーマットとして策定されたPDF/Aが用いられているものとしよう。したがって、第2のデータ格納部13内の変換後帳票データB1〜B4は、いずれもPDF/Aの形式で記述されたデータということになる。
変換規則格納部12に格納されている、第1のフォーマットから第2のフォーマットへの変換規則は、第1のフォーマットのデータ構造と第2のフォーマットのデータ構造との相違を考慮して、予め作成しておくことができる。場合によっては、コンピュータCに組み込まれている専用アプリケーションプログラムの一部のツールとして、このような変換規則に基づいて変換を行う機能が用意されている場合もある。そのような場合は、フォーマット変換部11および変換規則格納部12は、コンピュータCの一部の機能として実現されることになる。
なお、コンピュータCに組み込まれている専用アプリケーションプログラムの内容は、基本的には、当該プログラムを開発した企業において管理される秘密情報であるから、第1のフォーマットの内容が公開されていないケースも少なくない。そのような場合、第1のフォーマットのデータ構造を把握することが困難である。一般に、ERP(Enterprise Resource Planning)と呼ばれているアプリケーションプログラムが、様々な企業によって製品化されているが、この種の製品では、通常、そのフォーマットのデータ構造は公開されておらず、プログラム自体がいわばブラックボックス化されていることになる。
このようなアプリケーションプログラムの場合、第1のフォーマットから第2のフォーマットへの変換規則を直接定義することは困難であるが、ほとんどのアプリケーションプログラムは、プリンタに対して帳票データを出力するプリント機能を有しており、通常、プリンタに受け渡される帳票データには、公開された汎用フォーマットが用いられているので、このプリンタ用の汎用フォーマットを第2のフォーマットに変換する変換規則を変換規則格納部12に用意しておけば支障はない。
たとえば、上述したERPと呼ばれているアプリケーションプログラムの場合、帳票データを、PSプリンタドライバを介してPSファイル(公開された汎用のPostScriptフォーマットで記述されたファイル)として書き出す機能を有している。そこで、変換規則格納部12内に、PostScriptフォーマットから第2のフォーマット(この実施形態の場合は、PDF/A)への変換規則を格納しておくことにより、結果的に、未公開な第1のフォーマットから第2のフォーマットへの変換規則を間接的に定義することが可能になる。
こうして、第2のデータ格納部13内に変換後帳票データB1〜B4が得られたら、これら帳票データの内容を、帳票画像表示部14によって表示させることができる。帳票画像表示部14は、与えられた指示に基づき、第2のデータ格納部13に格納されている所望の変換後帳票データの内容を示す帳票画像をディスプレイ画面上に表示する機能をもった構成要素である。具体的には、PDF/Aの形式で記述されたデータを閲覧するためのプログラムをパソコンなどの汎用コンピュータに組み込むことによって構成することができる。このような閲覧プログラムは、既に、市販品やフリーソフトウエアとして普及している。
変換後帳票データB1〜B4と変換前帳票データA1〜A4とは、フォーマットの形式が相違するものの、そこに含まれている帳票としての実体に変わりはないので、コンピュータCを用いて変換前帳票データA1〜A4をディスプレイ画面上に表示した内容と、帳票画像表示部14を用いて変換後帳票データB1〜B4をディスプレイ画面上に表示した内容とは、基本的には同じものになる。したがって、オペレータが、帳票画像表示部14に対して、変換後帳票データB1を表示するための指示を与えた場合、図2に示すような表示が得られ、変換後帳票データB2を表示するための指示を与えた場合、図3に示すような表示が得られることになる。
なお、上述したフォーマット変換の技術自体は、既に、様々な製品において利用されている公知の技術であるから、ここでは、これ以上の詳しい説明は省略する。
本発明の重要な特徴は、このようなフォーマット変換処理と同時に、データベースの作成を行ってしまう点にある。すなわち、図1に示す変換装置を用いて、第1のデータ格納部10内に格納されている変換前帳票データA1〜A4に対して、フォーマット変換処理を実行すると、第2のデータ格納部13内に変換後帳票データB1〜B4が得られることになるが、同時に、データベース格納部18内には、これら変換後帳票データB1〜B4を効率的に検索するために利用可能な検索用データベースが自動的に作成されるのである。
このような検索用データベースを、データベース作成部17に自動作成させるためには、予め準備作業が必要である。フィールド情報定義部15は、このような準備作業を行うための構成要素であり、この準備作業によって定義されたフィールド情報は、フィールド情報格納部16に格納される。データベース作成部17は、このフィールド情報格納部16内のフィールド情報を利用して、第2のデータ格納部13内の変換後帳票データB1〜B4から、検索に必要なフィールド実データを抽出し、検索用データベースを作成することになる。
上記準備作業を行うために、オペレータは、まず、第2のデータ格納部13内の1つの変換後帳票データをサンプルとして指定し、ディスプレイ画面上にその画像を表示させる指示を帳票画像表示部14に対して与える。ここでは、変換後帳票データB1をサンプルとして指定した場合を例にとって、以下の説明を行うことにする。この場合、ディスプレイ画面上には、図2に示すような帳票画像が表示されることになる。
フィールド情報定義部15は、オペレータからの指示入力に基づき、ディスプレイ画面上に表示されている帳票画像上の各指定部分にそれぞれ所定のフィールド領域を定義し、個々のフィールド領域に対してそれぞれ所定のフィールド名を定義する処理を行う機能を有している。ここで述べる実施形態の場合、個々のフィールド領域は、いずれも矩形状の領域をなす。
図4は、フィールド情報定義部15の機能により、帳票画面上に多数のフィールド領域の定義を行った状態を示す平面図である。図において、太線で示す矩形状の領域が、個々のフィールド領域である。たとえば、左上に配置されたフィールド領域F01は、伝票番号を示す「No.123456」なる文字列全体を囲う位置に定義されており、右上に配置されたフィールド領域F02は、伝票の日付を示す「2007/04/18」なる文字列全体を囲う位置に定義されている。同様に、フィールド領域F03は、この請求書における請求先となる顧客名を示す「○○商事株式会社」なる文字列全体を囲う位置に定義されており、フィールド領域F04,F05,F06は、それぞれ、総請求額,本体合計額,消費税額を示す数字列全体を囲う位置に定義されている。また、その下の5行にわたる内訳欄にも、個々の行および個々の列ごとに、別個独立したフィールド領域F11,F12,F13,F14,F15,F21,......,F55が定義されている。
図5は、このような矩形状のフィールド領域の定義方法の一例を示す平面図であり、帳票画像表示部14によるディスプレイ画面上の表示画像の一部を示すものである。帳票画像表示部14は、図示のとおり、ディスプレイ画面上に、水平方向を示すX軸と垂直方向を示すY軸とによって規定されるXY二次元座標系を定義し、帳票画像を構成する個々の対象物の位置をXY座標値で指定することにより表示を行う機能を有している。一方、フィールド情報定義部15は、図にハッチングを施して示すような矩形状のフィールド領域F(XY座標系に対して正則な長方形)を定義するにあたり、左上隅点PのXY座標値(xp,yp)と、右下隅点QのXY座標値(xq,yq)とを設定する機能を有している。
フィールド情報定義部15によって定義されたフィールド領域の情報は、帳票画像表示部14へと逐次伝達される。帳票画像表示部14は、現在表示している帳票画像に重複させて、フィールド情報定義部15によって定義されたフィールド領域の表示を行う。図4に示す太線の各矩形は、このようにして表示された各フィールド領域を示すものである。図4では、各フィールド領域を太線の矩形で表示することにより、もとの帳票画像に含まれていた罫線に対して識別可能となるようにしている。もっとも、両者が識別可能になる態様であれば、各フィールド領域はどのような態様で表示させてもかまわない。たとえば、元の帳票画像が白地に黒で表示されていた場合、各フィールド領域を赤色の枠で表示して目立たせるようにしてもよい。
図4に太線矩形で示されている各フィールド領域F01〜F55は、すべてオペレータの指示入力に基づいて設定された矩形である。フィールド情報定義部15は、マウスなどのポインティングデバイスを用いてなされたオペレータによる画面上の位置指定を認識する機能を有している。オペレータは、ディスプレイ画面に表示されている帳票画像を見ながら、マウスクリックなどの操作を行い、左上隅点PのXY座標値(xp,yp)と、右下隅点QのXY座標値(xq,yq)とを指定することにより、所望の位置に所望の大きさをもった矩形をフィールド領域として定義することができる。
もちろん、オペレータは、データベースを作成する便宜を考慮して、必要と思われる位置に必要と思われる大きさのフィールド領域を定義してゆく必要がある。具体的には、オペレータは、この1枚の帳票を1レコードとして捉えたときに、個々のフィールドを構成する実データが含まれている領域に、フィールド領域を定義してゆく操作を行えばよい。
図4に示す例の場合、フィールド領域F01は、伝票番号のフィールド実データが含まれていると思われる領域に定義されており、フィールド領域F02は、日付のフィールド実データが含まれていると思われる領域に定義されており、フィールド領域F03は、顧客名のフィールド実データが含まれていると思われる領域に定義されている。なお、図示の例では、フィールド領域F03は、「○○商事株式会社」なる文字列が表示されている領域よりも若干広めの領域として定義されているが、これは、帳票によっては、より長い文字列からなるが顧客名が含まれていることを想定しているためである。
オペレータは、こうして各フィールド領域を定義するとともに、個々のフィールド領域に対して、それぞれ所定のフィールド名の定義も行うようにする。具体的には、オペレータが1つのフィールド領域を、2点P,Qを指定して定義し終えたら、文字入力用のダイアログウインドウなどを画面上に表示し、キーボードなどを用いたフィールド名の入力を促すような処理を行えばよい。こうして、オペレータは、たとえば、フィールド領域F01については「伝票番号」なる文字列からなるフィールド名を設定し、フィールド領域F02については「日付」なる文字列からなるフィールド名を設定する作業を行うことができる。
結局、フィールド情報定義部15は、オペレータの指示入力に基づいて、個々のフィールド領域(画面上の矩形)を規定するための2点P(xp,yp),Q(xq,yq)の座標値と、当該フィールド領域についてのフィールド名を示す文字列と、を取り込み、これをフィールド情報格納部16に格納する処理を行うことになる。2点P(xp,yp),Q(xq,yq)の座標値は、定義されたフィールド領域の位置および範囲を示すデータということになるので、ここでは「領域データ」と呼ぶことにする。また、各フィールド領域についての「領域データ」と「フィールド名」とを併せて「フィールド情報」と呼ぶことにする。
図6は、情報格納部16内に格納されているフィールド情報の一例を示す表である。この表の内容は、図4に示すフィールド領域に対応したものになっている。すなわち、図6の表に示す「フィールドコード」欄に記載されているF01〜F55なるコードは、図4に示すフィールド領域F01〜F55に対応するものであり、「フィールド名」欄に示す各文字列は、オペレータによって入力された各フィールド領域ごとのフィールド名である。また、「領域データ」欄に示す各座標値は、各フィールド領域の左上隅点Pおよび右下隅点QのXY座標値である。
オペレータが行った準備作業の目的は、フィールド情報格納部16内に、図6に示すようなフィールド情報を用意することにある。サンプルとして指定した変換後帳票データB1を用いて、このようなフィールド情報が用意できれば、この帳票データB1と同一のレイアウト仕様をもったすべての帳票データ(ここに示す例の場合、帳票データB1〜B4のレイアウト仕様は同一である)について、検索用データベースの作成が可能になる。
データベース作成部17は、第2のデータ格納部13に格納されている個々の変換後帳票データB1〜B4から、フィールド情報格納部16内の領域データで示される各フィールド領域F01〜F55内に位置する部分データを抽出し、1つの変換後帳票データ内の情報を1レコードとし、抽出した各部分データを当該レコード内の1フィールド実データとする検索用データベースを作成する処理を行う。作成された検索用データベースはデータベース格納部18内に格納される。
ここで作成される検索用データベースは、1つの変換後帳票データの内容を1レコードに収容したものである。図1には、4つのレコードR1〜R4から構成されるデータベースが示されているが、各レコードR1〜R4は、それぞれ変換後帳票データB1〜B4に対応するものである。また、レコードR1内に収容されているフィールド実データ1,2,3,......は、変換後帳票データB1の個々の位置から抽出された部分データである。
変換後帳票データB1の内容と、定義された各フィールド領域F01〜F55との関係は、図4に示されているとおりである。この例の場合、データベース作成部17は、まず、フィールド領域F01内に位置する部分データ「No.123456」を抽出し、レコードR1内の「伝票番号」なるフィールド名が付されたフィールド実データとして収容し、フィールド領域F02内に位置する部分データ「2007/04/18」を抽出し、レコードR1内の「日付」なるフィールド名が付されたフィールド実データとして収容し、フィールド領域F03内に位置する部分データ「○○商事株式会社」を抽出し、レコードR1内の「顧客名」なるフィールド名が付されたフィールド実データとして収容し、......という処理を実行することになる。
同様に、変換後帳票データB2の内容は、図3に示すようなものになるので、このような帳票データB2については、まず、フィールド領域F01内に位置する部分データ「No.123457」を抽出し、レコードR2内の「伝票番号」なるフィールド名が付されたフィールド実データとして収容し、フィールド領域F02内に位置する部分データ「2007/04/23」を抽出し、レコードR2内の「日付」なるフィールド名が付されたフィールド実データとして収容し、フィールド領域F03内に位置する部分データ「株式会社××商会」を抽出し、レコードR2内の「顧客名」なるフィールド名が付されたフィールド実データとして収容し、......という処理を実行することになる。
図7は、このような処理によって作成された検索用データベースの一例を示す表である。この表における「フィールドコード」の欄および「フィールド名」の欄の内容は、図6の表に示すように、フィールド情報格納部16内に格納されているデータをそのまま取得したものである。データベース作成部17の処理によって表に収容されたデータは、レコードR1,R2,......の「フィールド実データ」の欄に示されたデータである(図では便宜上、レコードR1,R2のデータのみを示す)。いずれも、変換後帳票データB1,B2,......の部分データとして抽出されたテキストデータである。
なお、図7の表の最下行には、各レコードについての対応帳票データを特定する情報が収容されている。たとえば、レコードR1の対応帳票データはB1であり、レコードR2の対応帳票データはB2であることが示されている。この情報により、個々のレコードR1〜R4と個々の帳票データB1〜B4との1対1の対応関係が定義される。
変換後帳票データの中から、個々のフィールド領域内に位置する部分データを抽出するには、変換後帳票データに含まれる「各部分データのレイアウト位置」を指定するデータと、フィールド情報格納部16内に格納されている各フィールド領域についての領域データによって示される「各フィールド領域のレイアウト位置」を指定するデータとを比較し、レイアウト位置が一致した場合、当該部分データを当該フィールド領域についてのフィールド実データとして抽出すればよい。
これを具体例に即して、もう少し詳しく説明しよう。図8は、第2のデータ格納部13内に格納されている変換後帳票データB1のデータ構成例の一部を示す図である。すなわち、図8に示すデータは、図4に示す帳票の左上に配置された「No.123456」なる文字列から構成される伝票番号に関するデータである。PDF/Aなどのフォーマットで記述された帳票データには、「帳票上に実際に表示すべき対象物自身を示すデータ」とともに、「当該対象物を帳票上に配置すべきレイアウト位置を示すデータ」が含まれている。
図8に示す例の場合、「/Text"No.123456"/FontName"MS-Mincho"/FontSize10/」の部分が、「帳票上に実際に表示すべき対象物自身を示すデータ」に相当し、「X100/Y100」の部分が、「当該対象物を帳票上に配置すべきレイアウト位置を示すデータ」に相当する。すなわち、「/Text"No.123456"/FontName"MS-Mincho"/FontSize10/」の部分は、「No.123456」なるテキストデータを、「MS-Mincho」なる種類の「サイズ10」の大きさのフォントを用いて表示した対象物自身を示しており、「X100/Y100」なるデータは、当該対象物を配置すべき位置として、XY座標系上における座標点(100,100)を示している。たとえば、レイアウト位置として、表示対象となる対象物の左上位置を指定することにしておけば、上例の場合、座標点(100,100)を左上隅点とする矩形領域内に対象物が配置されることになる。
もちろん、「/Text"No.123456"/FontName"MS-Mincho"/FontSize10/」なるデータにおいて、「Text」に後続する文字列が表示対象となる文字列を示し、「FontName」に後続する文字列がフォントの種類を示し、「FontSize」に後続する文字列がフォントのサイズを示す、という取り決めは、PDF/A等の「本発明にいう第2のフォーマット」で定義されている事項であるから、データベース作成部17は、このような取り決めに基づいて、上記各文字列の意味を解釈し、必要な処理を実行する。
ここで、「MS-Mincho」なる種類の「サイズ10」の大きさのフォントの占有領域の大きさは、既知であるので、そのようなフォントで、「No.123456」なるテキストデータを表示した場合に必要となる矩形領域も単純な演算処理で求めることができる。かくして、図8に示すデータを解析すれば、「No.123456」なるテキストデータが配置されるべき領域を、XY平面上で認識することができる。一方、各フィールド領域の位置は、図6に示す領域データによって定義されているので、両者を比較すれば、図8に示す「No.123456」なるテキストデータが、どのフィールド領域内に配置されるデータであるかを認識することができる。ここで、表示対象物がテキストの場合、フォントの種類や大きさを示すデータは捨てて、テキストデータの部分のみをフィールド実データとして抽出することにしておけば、「No.123456」なるテキストデータは、フィールド名「伝票番号」が付されたフィールドについてのフィールド実データとして抽出されることになる。
図9は、データベース作成部17による部分データの抽出処理をより具体的に説明する平面図である。図8に示すデータにより、「No.123456」なる対象物のレイアウト位置(ここで述べる例の場合、左上位置)は、XY座標系における座標点S(100,100)であることが示されており、上述したように、「No.123456」という文字列を「MS-Mincho」なる種類の「サイズ10」の大きさのフォントで表示した場合の占有領域の大きさは既知であるから、「No.123456」を表示するために必要な矩形領域の縦横の長さも特定することができる。
一方、図6に示すフィールド情報から、フィールド領域F01のレイアウト位置は、左上隅点Pの座標(xp01,yp01)および右下隅点Qの座標(xq01,yq01)によって特定されているので、両点P,Qを対角とする矩形状フィールド領域F01と、「No.123456」を表示するために必要な矩形領域との位置関係を認識することができる。ここで、前者が後者を含む領域であると認識できれば、「No.123456」なる部分データを、フィールド領域F01についてのフィールド実データとして抽出することになる。
もっとも、実用上は、「No.123456」を表示するために必要な矩形領域の認識を行わずに、座標点S(100,100)が、フィールド領域F01内の点であるか否かを判定するだけでも十分である。通常、コンピュータCに組み込まれた専用アプリケーションプログラムは、個々の実データが、帳票上の所定の領域内に収まるような調整機能を有しているので、各フィールド領域の設定が的確に行われていれば、座標点S(100,100)が、フィールド領域F01内の点であれば、「No.123456」を表示するために必要な矩形領域は、フィールド領域F01内に含まれる領域となる。
したがって、上例の場合、実用上は、X座標値に関して、xp01<100<xq01が成り立ち、Y座標値に関して、yp01<100<yq01が成り立つことが確認できれば、「No.123456」なる部分データを、フィールド領域F01についてのフィールド実データとして抽出することができる。
以上述べた処理により、データベース作成部17が、図7のような検索用データベースを作成すると、データ検索部19による高度な複合検索が可能になる。すなわち、データ検索部19は、作成された検索用データベースを用いて、与えられたキーワードに合致するフィールド実データを有するレコードを検索し、検索されたレコードに該当する変換後帳票データを表示させるための指示を帳票画像表示部14に与える処理を行う。
たとえば、「○○商事株式会社なる顧客宛の単価10万円以上の商品に関する2007年3月1日〜3月31日までの請求書」を探し出したい場合であれば、オペレータは、(「顧客先=○○商事株式会社」)and(「単価1≧100,000」or「単価2≧100,000」or「単価3≧100,000」or「単価4≧100,000」or「単価5≧100,000」)and(「日付≧2007/03/01」and「日付≦2007/03/31」)のような論理式を用い、特定のフィールドについてのフィールド実データの要件を与えることにより、所望の請求書についての複合検索を行うことができる。上例の場合、レコードR1が該当するレコードとしてヒットするので、データ検索部19は、レコードR1に対応する帳票データB1を表示させるための指示を帳票画像表示部14に与えることになる。かくして、ディスプレイ画面上に所望の検索結果が表示される。
もちろん、データ検索部19には、ヒットした帳票が複数件あった場合に、一覧リストを表示させる指示を帳票画像表示部14に与え、この一覧リストからオペレータが選択した帳票のみを表示させる機能や、検索条件を付加して更に絞り込みを行う機能など、検索の便宜を図るための様々な機能を設けておくのが好ましい。
また、フィールド情報定義部15に、各フィールドの属性を定義する機能を更に設けておけば、フィールド実データを特定の属性をもったデータとして取り扱うことが可能になり、より柔軟な検索処理が可能になる。たとえば、「日付」属性が定義されたフィールドについては、「2007/04/18」なる文字列、「20070418」なる文字列、「2007年4月18日」なる文字列を同一データとして取り扱うような処理が可能になるし、「金額」属性が定義されたフィールドについては、「10,000」なる文字列と「10000」なる文字列とを同一データとして取り扱うような処理が可能になる。
本発明に係るデータ変換装置の特徴は、フォーマット変換作業を行う際に、同時に検索用データベースの作成処理を行うことができ、この検索用データベースを利用して、変換後帳票データに対する複合検索が可能になる点である。しかも、特定のレイアウト仕様をもった帳票について、最初に一度だけフィールド情報を定義する作業を行っておけば、以後、同一のレイアウト仕様をもった帳票については、何ら付加的な作業を行うことなしに、フォーマット変換作業と同時に自動的に検索用データベースが作成されるので、オペレータの作業負担が重くなることもない。
たとえば、上例の場合、オペレータは、まず、変換前帳票データA1〜A4を第1のデータ格納部10に格納し、フォーマット変換部11に対して変換作業の指示を行い、第2のデータ格納部13に変換後帳票データB1〜B4を得る。その後、いずれか1つをサンプルに指定して、ディスプレイ画面上で図4に示すようなフィールド情報の定義作業を行えば、変換後帳票データB1〜B4に基づいて、検索用データベースのレコードR1〜R4が自動的に作成されることになる。この後、たとえば、同一のレイアウト仕様をもった別な変換前帳票データA5〜A10についてフォーマット変換を行う場合、オペレータが必要な作業は、変換前帳票データA5〜A10を第1のデータ格納部10に格納し、フォーマット変換部11に対して変換処理の指示を行うだけである。第2のデータ格納部13には、新たに変換後帳票データB5〜B10が得られ、しかも、これらについての検索用データベースのレコードR5〜R10が自動作成される。
一般に、請求書・納品書・売上伝票等の帳票は、同一のレイアウト仕様のものが大量に発行される特性をもった特殊な文書であり、本発明の基本的な技術思想は、このような帳票の特性を利用して、フォーマット変換処理時に検索用データベースを自動作成し、高度な複合検索の用に供せられるようにするという考え方にある。本発明に係るデータ変換装置を用いると、従来の一般的なデータ変換装置に比べて、最初にサンプル帳票についてのフィールド定義を行う作業負担が増えることになるが、その後は、従来どおり、単なるデータ変換作業を行うだけで済む。したがって、オペレータの作業を若干追加するだけで、変換後の帳票データに対して、高度な複合検索が可能になるという顕著な効果が得られる。
以上、本発明を図示する基本的な実施形態に基づいて説明したが、もちろん、本発明はこの基本的な実施形態に限定されるものではない。最後に、本発明を実施する上で有用と思われるいくつかの変形例を述べておく。
(1) フィールド実データのバリエーション
上述した基本的な実施形態では、各フィールド領域内のテキストデータを部分データとして抽出し、このテキストデータをデータベース内にフィールド実データとして収容する例を述べたが、個々の変換後帳票データから抽出する部分データは、必ずしもテキストデータに限定されるものではない。たとえば、帳票上に文字を表示するために必要なデータには、テキストデータだけでなく、フォントやサイズを示すデータも含まれているので、これらのデータを部分データとして抽出し、データベース内にフィールド実データとして収容するようにしてもかまわない。
上述した基本的な実施形態では、各フィールド領域内のテキストデータを部分データとして抽出し、このテキストデータをデータベース内にフィールド実データとして収容する例を述べたが、個々の変換後帳票データから抽出する部分データは、必ずしもテキストデータに限定されるものではない。たとえば、帳票上に文字を表示するために必要なデータには、テキストデータだけでなく、フォントやサイズを示すデータも含まれているので、これらのデータを部分データとして抽出し、データベース内にフィールド実データとして収容するようにしてもかまわない。
具体的には、図8に示す例の場合、「No.123456」なるテキストデータとともに、「MS-Mincho」なるフォントを示すデータおよび「10」なるサイズを示すデータを併せて抽出し(FontNameに後続するデータをフォントを示すデータとして抽出し、FontSizeに後続するデータをサイズを示すデータとして抽出すればよい)、データベース内の「伝票番号」なるフィールドの実データとして収容することができる。この場合、データベース上でも、「No.123456」の部分はテキストデータであり、「MS-Mincho」の部分はフォントを示すデータであり、「10」の部分はサイズを示すデータであることがわかるように、各データに何らかのメタデータを付加しておくのが好ましい。
このように、テキストデータだけでなく、フォントやサイズなどを示すデータも併せてデータベースに収容しておくようにすれば、データ検索部19を用いたより柔軟な検索が可能になる。たとえば、上例の場合、「MS-Mincho」というフォントを指定して、該当する文字列を検索することが可能である。もちろん、部分データとして抽出可能なデータは、フォントやサイズのデータに限定されるものではなく、「下線」、「上つき」、「下つき」といった文字修飾を示すデータ等もフィールド実データとして抽出し、データベースに収容することができる。
(2) 変換後帳票データの格納場所情報の収集
本発明に係る変換装置では、フォーマット変換部11によるフォーマット変換処理とデータベース作成部17によるデータベース作成処理とを同時に行うことができるため、個々の変換後帳票データのアクセスの便宜を図るため、その格納場所情報を同時に収集し、これを検索用データベース内に収容することも可能である。たとえば、図1に示す例の場合、フォーマット変換処理によって、第2のデータ格納部13内に変換後帳票データB1,B2,...が格納されることになる。この第2のデータ格納部13は、実際には、ハードディスク装置等のコンピュータ用記憶装置によって構成されている。そこで、データベース作成部17が、検索用データベースを作成する際に、個々の変換後帳票データB1,B2,...の格納場所を示す情報を併せて収容するようにすれば、データ検索部19による検索により、該当する変換後帳票データの格納場所を直ちに把握することができるため、ファイルへのアクセス速度を改善させ、所望の帳票画面の表示を効率化することが可能になる。
本発明に係る変換装置では、フォーマット変換部11によるフォーマット変換処理とデータベース作成部17によるデータベース作成処理とを同時に行うことができるため、個々の変換後帳票データのアクセスの便宜を図るため、その格納場所情報を同時に収集し、これを検索用データベース内に収容することも可能である。たとえば、図1に示す例の場合、フォーマット変換処理によって、第2のデータ格納部13内に変換後帳票データB1,B2,...が格納されることになる。この第2のデータ格納部13は、実際には、ハードディスク装置等のコンピュータ用記憶装置によって構成されている。そこで、データベース作成部17が、検索用データベースを作成する際に、個々の変換後帳票データB1,B2,...の格納場所を示す情報を併せて収容するようにすれば、データ検索部19による検索により、該当する変換後帳票データの格納場所を直ちに把握することができるため、ファイルへのアクセス速度を改善させ、所望の帳票画面の表示を効率化することが可能になる。
たとえば、図7に示す例の場合、最下行に「対応帳票データ」のファイル名「B1,B2」が収容されているが、その代わりに、当該ファイルのコンピュータ内の格納場所を直接示すデータを収容しておくようにすれば、検索後に、必要な帳票のデータファイルに高速アクセスすることが可能になる。
また、実用上は、必ずしも1帳票データが1ファイルとして格納されるとは限らず、場合によっては複数の帳票データが1ファイルとして格納されることもある。たとえば、変換後帳票データB1〜B4が同一ファイル中の各頁のデータとして格納される場合もあれば、同一ファイル中の同一頁内の左上部分・右上部分・左下部分・右下部分にそれぞれ割り付けられたデータとして格納される場合もある。このような場合は、どのファイルの何頁目に格納されているか、あるいは、その頁のどの位置に割り付けられているか、というように、頁や割り付け場所まで示す格納場所情報を収集しておけば、所望の帳票画面をすばやく表示させることができる。
(3) 複数のフィールドを含む包括領域の指定
図4に示す基本的な実施形態では、矩形状のフィールド領域F01〜F55を個別に定義する例を示した。もちろん、ディスプレイ画面上において、このようなフィールド領域を定義する操作は、図5に示す例のように、二点P,Qの位置をマウスクリックなどで指定するだけの単純な操作であり、オペレータの作業負担はそれほど大きなものではない。ただ、変換後帳票データの書式によっては、フィールド情報定義部15によって複数のフィールドを含む包括領域を指定することも可能である。
図4に示す基本的な実施形態では、矩形状のフィールド領域F01〜F55を個別に定義する例を示した。もちろん、ディスプレイ画面上において、このようなフィールド領域を定義する操作は、図5に示す例のように、二点P,Qの位置をマウスクリックなどで指定するだけの単純な操作であり、オペレータの作業負担はそれほど大きなものではない。ただ、変換後帳票データの書式によっては、フィールド情報定義部15によって複数のフィールドを含む包括領域を指定することも可能である。
たとえば、図4に示す例の場合、フィールド領域F11,F21,F31,F41,F51は、いずれも「商品コード」についてのフィールドを示すものである。そこで、5つの個別のフィールド領域F11,F21,F31,F41,F51をそれぞれ矩形として定義する代わりに、これら全体を包み込む矩形からなる包括領域を定義してもよい(図示のフィールド領域F11の左上隅点Pと、フィールド領域F51の右下隅点Qを指定すればよい)。データベース作成部17は、このように複数のフィールドを含む包括領域の指定があった場合、所定の規則に従って、当該包括領域内に含まれる個々のフィールドごとに、フィールド実データを抽出する処理を行えばよい。具体的には、図示の例の場合、変換後帳票データについて、個々の行を認識し、行ごとに1フィールド実データとする取り扱いを行えばよい。
(4) フィールド実データの抽出条件設定
図4に示す基本的な実施形態では、矩形状のフィールド領域F01〜F55内に位置するテキストデータを抽出し、これをデータベース内にフィールド実データとして収容していた。別言すれば、「所定のフィールド領域内に位置するデータを抽出せよ」というように、位置による条件設定に基づいて、フィールド実データ抽出を行っていた。しかしながら、フィールドによっては、位置以外の条件設定に基づいて、フィールド実データの抽出が可能になる場合もある。
図4に示す基本的な実施形態では、矩形状のフィールド領域F01〜F55内に位置するテキストデータを抽出し、これをデータベース内にフィールド実データとして収容していた。別言すれば、「所定のフィールド領域内に位置するデータを抽出せよ」というように、位置による条件設定に基づいて、フィールド実データ抽出を行っていた。しかしながら、フィールドによっては、位置以外の条件設定に基づいて、フィールド実データの抽出が可能になる場合もある。
たとえば、図4に示す例において、「伝票番号」フィールドの実データのみが「MS-Mincho」なるフォントに指定されたデータであった場合、フィールド情報定義部15では、「伝票番号」フィールドに関して、フィールド領域F01という位置を定義する代わりに、「MS-Mincho」という特定のフォントを定義すればよい。データベース作成部17は、この「MS-Mincho」という特定のフォント指定に基づいて、「伝票番号」のフィールド実データを抽出することができる(変換後帳票データの中から「MS-Mincho」という特定のフォントが指定されたテキストデータを抽出すればよい)。
同様に、「顧客名」フィールドの実データのみが「14」なるサイズに指定されたデータであった場合、フィールド情報定義部15では、「顧客名」フィールドに関して、フィールド領域F03という位置を定義する代わりに、「14」という特定のサイズを定義すればよい。データベース作成部17は、この「14」という特定のサイズ指定に基づいて、「顧客名」のフィールド実データを抽出することができる(変換後帳票データの中から「14」という特定のサイズが指定されたテキストデータを抽出すればよい)。
もちろん、必要に応じて、「位置による条件」と「位置以外の条件」とを組み合わせた複合条件に基づいてフィールド実データの抽出を行うようにしてもかまわない。たとえば、図4に示す例において、(「フィールド領域F01内に位置する」)and(「0〜9までの数字からなる」)という複合条件を設定した抽出を行えば、「伝票番号」フィールドの実データとしては、「No.123456」の代わりに「123456」なる数字列のみが抽出されることになる。もちろん、「位置による条件」に、「フォントを指定する条件」や「サイズを指定する条件」などを組み合わせた複合条件を定義し、当該複合条件を満足するデータのみをフィールド実データとして抽出することも可能である。
(5) 新たなフィールド実データの追加
上述した実施形態の場合、作成された検索用データベースを構成する各フィールドの実データは、すべて変換後帳票データから抽出したデータであるが、データベース作成部17による検索用データベースの作成時に、新たなフィールド実データを追加することも可能である。そのためには、データベース作成部17内に、変換後帳票データから抽出される特定のフィールドの個々の実データと、新たなフィールドの実データとの対応表を用意しておき、当該対応表を参照して、新たなフィールド実データを含む検索用データベースを作成すればよい。
上述した実施形態の場合、作成された検索用データベースを構成する各フィールドの実データは、すべて変換後帳票データから抽出したデータであるが、データベース作成部17による検索用データベースの作成時に、新たなフィールド実データを追加することも可能である。そのためには、データベース作成部17内に、変換後帳票データから抽出される特定のフィールドの個々の実データと、新たなフィールドの実データとの対応表を用意しておき、当該対応表を参照して、新たなフィールド実データを含む検索用データベースを作成すればよい。
たとえば、すべての顧客に「顧客コード」が付与されていた場合を考えてみよう。この場合、予め「顧客名」と「顧客コード」との対応表をデータベース作成部17内に用意しておけば、図4に示す帳票上には、「顧客コード」のデータは含まれていないにもかかわらず、検索用データベースには、「顧客コード」という新たなフィールドを含ませることができる。すなわち、データベース作成部17は、検索用データベースを作成する際に、「顧客コード」という新たなフィールドを作成し、上記対応表を参照することにより、各レコードの「顧客コード」なる新フィールド内に、フィールド実データを収容することができる。
(6) 紙媒体の帳票に基づくフォーマット変換
これまで述べた基本的実施形態では、第1のデータ格納部10内の変換前帳票データA1,A2,...に対してフォーマット変換を行い、得られた変換後帳票データB1,B2,...を第2のデータ格納部13に格納する形態をとっていたが、変換前の帳票が、デジタルデータとして用意されているものではなく、紙媒体の帳票として用意されているものであっても、データベース作成部17による検索用データベースの作成処理を実行させることが可能である。
これまで述べた基本的実施形態では、第1のデータ格納部10内の変換前帳票データA1,A2,...に対してフォーマット変換を行い、得られた変換後帳票データB1,B2,...を第2のデータ格納部13に格納する形態をとっていたが、変換前の帳票が、デジタルデータとして用意されているものではなく、紙媒体の帳票として用意されているものであっても、データベース作成部17による検索用データベースの作成処理を実行させることが可能である。
このように、紙媒体の帳票を取り扱うには、紙媒体の帳票をスキャナ装置にかけて、デジタル画像データとして取り込み、これを所定のフォーマット(たとえば、PDF/A形式)をもった変換後帳票データB1,B2,...として、第2のデータ格納部13に格納すればよい。この場合、フィールド情報定義部15によって定義された各フィールド領域から抽出されるデータは、文字データではなく画像データということになるが、データベース作成部17内にOCR機能を用意しておき、このOCR機能を利用して、画像データを文字データに変換すれば、前述した基本的実施形態と同様の検索用データベースを作成することができる。
もちろん、フォーマット変換部11内にOCR機能を用意しておけば、フォーマット変換部11において、スキャナ装置から入力した画像データを文字データに変換して、第2のデータ格納部13に変換後帳票データB1,B2,...として格納することができるので、データベース作成部17が実行する処理は、前述した基本的実施形態で述べた処理と実質的に同じになる。
10:第1のデータ格納部
11:フォーマット変換部
12:変換規則格納部
13:第2のデータ格納部
14:帳票画像表示部
15:フィールド情報定義部
16:フィールド情報格納部
17:データベース作成部
18:データベース格納部
19:データ検索部
A1〜A4:変換前帳票データ(第1のデータフォーマットで記述)
B1〜B4:変換後帳票データ(第2のデータフォーマットで記述)
C:専用アプリケーションプログラムを組み込んだコンピュータ
F:フィールド領域
F01〜F55:フィールド領域
P,Q,S:座標点
R1〜R4:検索用データベース内の各レコード
xp,xp01〜xp55,xq,xq01〜xq55:X軸上の座標値
yp,yp01〜yp55,yq,yq01〜yq55:Y軸上の座標値
11:フォーマット変換部
12:変換規則格納部
13:第2のデータ格納部
14:帳票画像表示部
15:フィールド情報定義部
16:フィールド情報格納部
17:データベース作成部
18:データベース格納部
19:データ検索部
A1〜A4:変換前帳票データ(第1のデータフォーマットで記述)
B1〜B4:変換後帳票データ(第2のデータフォーマットで記述)
C:専用アプリケーションプログラムを組み込んだコンピュータ
F:フィールド領域
F01〜F55:フィールド領域
P,Q,S:座標点
R1〜R4:検索用データベース内の各レコード
xp,xp01〜xp55,xq,xq01〜xq55:X軸上の座標値
yp,yp01〜yp55,yq,yq01〜yq55:Y軸上の座標値
Claims (3)
- 第1のフォーマットで記述された帳票データを、第2のフォーマットで記述された帳票データに変換する処理を行う変換装置であって、
前記第1のフォーマットで記述された複数の変換前帳票データを格納する第1のデータ格納部と、
前記第1のフォーマットから前記第2のフォーマットへの変換規則を格納した変換規則格納部と、
前記変換規則に基づいて、前記変換前帳票データを、第2のフォーマットで記述された変換後帳票データに変換するフォーマット変換部と、
前記変換後帳票データを格納する第2のデータ格納部と、
与えられた指示に基づき、前記第2のデータ格納部に格納されている所望の変換後帳票データの内容を示す帳票画像をディスプレイ画面上に表示する帳票画像表示部と、
与えられた指示に基づき、前記ディスプレイ画面上に表示されている帳票画像上の各指定部分にそれぞれ所定のフィールド領域を定義し、個々のフィールド領域に対してそれぞれ所定のフィールド名を定義するフィールド情報定義部と、
前記フィールド情報定義部で定義された各フィールド領域の位置および範囲を示す領域データおよびフィールド名を格納するフィールド情報格納部と、
前記第2のデータ格納部に格納されている個々の変換後帳票データから、前記フィールド情報格納部内の領域データで示される各フィールド領域内に位置する部分データを抽出し、1つの変換後帳票データ内の情報を1レコードとし、抽出した各部分データを当該レコード内の1フィールド実データとする検索用データベースを作成するデータベース作成部と、
前記データベース作成部が作成した検索用データベースを格納するデータベース格納部と、
前記検索用データベースを用いて、与えられたキーワードに合致するフィールド実データを有するレコードを検索し、検索されたレコードに該当する変換後帳票データを表示させるための指示を前記帳票画像表示部に与えるデータ検索部と、
を備えることを特徴とする帳票データ変換装置。 - 請求項1に記載の帳票データ変換装置において、
帳票画像表示部が、ディスプレイ画面上に、水平方向を示すX軸と垂直方向を示すY軸とによって規定されるXY二次元座標系を定義し、帳票画像を構成する個々の対象物の位置をXY座標値で指定することにより表示を行い、
フィールド情報定義部が、左上隅点のXY座標値と右下隅点のXY座標値とで定義される矩形からなるフィールド領域を定義し、
フィールド情報格納部が、前記左上隅点のXY座標値と前記右下隅点のXY座標値とからなる領域データを格納することを特徴とする帳票データ変換装置。 - 請求項1または2に記載の帳票データ変換装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007160888A JP2009003496A (ja) | 2007-06-19 | 2007-06-19 | 帳票データ変換装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007160888A JP2009003496A (ja) | 2007-06-19 | 2007-06-19 | 帳票データ変換装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009003496A true JP2009003496A (ja) | 2009-01-08 |
Family
ID=40319853
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007160888A Pending JP2009003496A (ja) | 2007-06-19 | 2007-06-19 | 帳票データ変換装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009003496A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014199416A1 (ja) * | 2013-06-13 | 2014-12-18 | 株式会社アイ・ピー・エス | 帳票データ管理サーバ、および帳票データ管理プログラム |
| JP2021002183A (ja) * | 2019-06-21 | 2021-01-07 | 辻・本郷税理士法人 | 会計支援装置、会計支援プログラム及び会計支援方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09160917A (ja) * | 1995-12-06 | 1997-06-20 | Dainippon Screen Mfg Co Ltd | タグ付き文書作成装置及びその方法 |
| JP2000020549A (ja) * | 1998-06-29 | 2000-01-21 | Planet Computer:Kk | 文書データベースシステムへの入力支援装置 |
-
2007
- 2007-06-19 JP JP2007160888A patent/JP2009003496A/ja active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09160917A (ja) * | 1995-12-06 | 1997-06-20 | Dainippon Screen Mfg Co Ltd | タグ付き文書作成装置及びその方法 |
| JP2000020549A (ja) * | 1998-06-29 | 2000-01-21 | Planet Computer:Kk | 文書データベースシステムへの入力支援装置 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014199416A1 (ja) * | 2013-06-13 | 2014-12-18 | 株式会社アイ・ピー・エス | 帳票データ管理サーバ、および帳票データ管理プログラム |
| JP2021002183A (ja) * | 2019-06-21 | 2021-01-07 | 辻・本郷税理士法人 | 会計支援装置、会計支援プログラム及び会計支援方法 |
| JP7486112B2 (ja) | 2019-06-21 | 2024-05-17 | 辻・本郷税理士法人 | 会計支援装置、会計支援プログラム及び会計支援方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8954839B2 (en) | Contract authoring system and method | |
| US8583637B2 (en) | Coarse-to-fine navigation through paginated documents retrieved by a text search engine | |
| US10552525B1 (en) | Systems, methods and apparatuses for automated form templating | |
| US9213893B2 (en) | Extracting data from semi-structured electronic documents | |
| US6070175A (en) | Method of file editing using framemaker enhanced by application programming interface clients | |
| US20090049375A1 (en) | Selective processing of information from a digital copy of a document for data entry | |
| US20090044106A1 (en) | Conversion of a collection of data to a structured, printable and navigable format | |
| CN100447779C (zh) | 文档信息处理设备及文档信息处理方法 | |
| JP2023032063A (ja) | 情報処理装置およびプログラム | |
| US20120046937A1 (en) | Semantic classification of variable data campaign information | |
| KR100884195B1 (ko) | 전자책에서의 텍스트 변경으로 컨텐츠 리포맷팅 및 페이지수의 재산출을 위한 방법, 및 이에 적용되는 장치 | |
| CA3012228A1 (en) | Method of computerized presentation of a document set view for auditing information and managing sets of multiple documents and pages | |
| JP4959501B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP5766438B2 (ja) | 電子メディアにおけるクリックスルー機能に関する方法およびシステム | |
| JPH1145289A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
| JP4005672B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
| JP2009003496A (ja) | 帳票データ変換装置 | |
| US20050187904A1 (en) | Data processing unit and data processing program stored in computer readable medium | |
| JP6028905B2 (ja) | 帳票管理装置及び帳票管理方法並びに帳票管理プログラム | |
| CN114116935A (zh) | 地理标志的检索方法及系统 | |
| JP2007323474A (ja) | Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体 | |
| JPH1173288A (ja) | 表示装置、表示制御方法及び記録媒体 | |
| US12088770B2 (en) | Display system, display method, and display program for displaying a content of electronic document | |
| JP3672473B2 (ja) | 個体名の抽出装置、抽出方法、並びに、記録媒体 | |
| US20240303411A1 (en) | Facilitating conversion of a page description language representation of a correspondence to an accessible format |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100607 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120215 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120710 |