WO2001013237A1

WO2001013237A1 - File processing method, data processing device and storage medium

Info

Publication number: WO2001013237A1
Application number: PCT/JP1999/004387
Authority: WO
Inventors: Masahiro Kataoka; Takashi Tsubokura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-08-13
Filing date: 1999-08-13
Publication date: 2001-02-22
Anticipated expiration: 2002-02-13
Also published as: EP1211601A4; KR20020020814A; EP1211601A1; KR100597513B1; CA2387653A1; US7016908B2; CN1167014C; AU771959B2; US20020078062A1; CN1367896A; CA2387653C; AU5197799A

Description

明細書ファイル処理方法、データ処理装置及び記憶媒体技術分野

本発明はファイル処法、データ処理装び記憶媒体に係り、特に高い圧縮率でファィルを IBSして記憶媒体に格納して読み出すファィル処理方法及びデータ処理装 ϋ¾びに圧縮されたファイルを格納する記憶媒体に関する。

近辞書や百科辞典等の情報を予め C D - R ΟΜ等の記憶媒体に格納しておき、コンピュータで C D— R OMをアクセスすることにより、辞書や典等の情報を読み出して表示することが行われるようになった。これにより、辞書や百^典等の膨大な情報を非常にコンパクトな 1枚の C D— R〇Mに格納できる。又、コンピュータを使用中に辞書ゃ丽事典等を開いて' な† Bを入手する代わりに、 C D— R OMから ' な體を読み取れるので、必な體を入手する手間が大幅に軽減される。背景技術

辞書や百科辞典等の情報を格納したの C D— R OMでは、辞書フアイルが辞書データ及びインデックスのデータ（以下、インデックスデータと言う）からなる。例えは ^^辞典の場合、辞書データには、語の意味を説明するテキストのデータ（以下、テキストデータと言う）、例えば語が動物であればその動物を示す画像のデータ（以下、画像デ一夕と言う）、例えば語が鳥であればその鳥の鳴き声を示す音声のデ一夕（以下、音声データと言う）等が含まれる。インデックスは、辞書ファイルから所望の辞書デ一夕を検るために使用されるもので、辞書データに対して設けられており、キーワードと呼ばれることもある。インデックスデータには、見出しのポインタや項目のポインタ等が含まれる。見出しのデータには、見出し語が含まれる。又、項目のデータには、見出し語や解等が含まれる。

従来は、 C D— R OMの記憶容量力比較的大きいため、テキストデータやインデックスデ一夕は圧縮されずに C D— R OMに格納されている。他方、画像デ一夕及び音声データは、特に画像データの情報量が多いこともあり、夫々適切な圧 ^¾で圧縮されて C D— R OMに格納されている。

しかし、辞書毎ゃ丽辞典毎に 1枚の C D— R OMを 1»とするのでは、データの使レ、勝手が悪い。そこで、 1枚の C D - R OMに複数の辞書ゃ丽麟等の情報を格納することかましいが、この場合、格納するべき†^g*が、デー夕を圧縮しても 1枚の C D— R 0 Mの記憶容量を越えてしまう可 t¾¾があるという問題があった。又、 C D - R OMに格納するべき辞書ファイルが単一の辞書ゃ辞典等のものであっても、辞書ファイルの情報量が増大すれば、辞書デ一夕を圧縮しても 1枚の C D— R OMの記憶容量を越えてしまう可 fg¾もあつた。

このため、辞書データだけでなく、インデックスデータを含ファイクレ全体を圧縮して C D— R OMに格納することが考えられるが、比較的簡単な方法で効率良く辞書フアイル全体を圧縮すると共に、圧繊書ファィルを短時間で伸長可能な方法は提案されていない。特に辞書ゃ丽辞典等の場合には、インデックスデータの情報量が多いため、辞書ファイルの伸長時にィンデックスデータを復元する処理に時間がかかると、所望のィンデックスデ一夕又は辞書データへのァクセス時間が長くなり、辞書ゃ„ 等の使レ、カくなつてしまう。又、例えば辞書データをィンデッタスの項目単位又は固定長単位で圧縮する場合、特に辞書ゃ辞典等ではインデックスデータの情が多いため、上記と同様に辞書ファイルの伸長時の処理に時間がかかってしまい、辞書や百科辞典等の使い勝手が悪くなつてしまう。例えば、特開平 9一 2 6 9 6 9号^では、これに類似する方法を用いた電話帳検索システムが提案されているが、この提案方法では、インデックスデータは圧縮されない。これは、 SIS帳の場合、インデックスデ一タの情報量は、辞書データに対応する電話番号-姓、名、法人名、の情報量に比較すると小さく、圧縮しても全体としての情報効率があまり向上しないからである。このため、この提案方法を辞書ゃ頻等の職を記憶媒体に格納する際に適用しても、辞書ファイル全体としての情報圧縮効率はあまり向上しない。従って、従来は、辞書や百科辞典等のように、インデックスデータの IffgSが辞書デ一夕の情報量と比べても比較的大き、場合、辞書フアイルを効率良く Ι ϋ して記憶媒体に格納すると共に、辞書ファィルを比較的簡単な処理により短時間でアクセスすることができなかった。

そこで、データ及びデータに対するインデックスデータを複数の区間に分割して IBする方法が、例えば特許協力条約に基づいて公開された国際出願（国際出願番号 P C TZJ P 9 8 , 0 4 7 3 6号、国際公開番号 WO 9 9 / 2 1 0 9 2 号）の公開公報にて提案された。この提案方法によると、鶴ゃ丽辞典等のように、ィンデックスデータの情 IB か書データの情幸と比較して比較的大きレ、場合でも、辞書ファイル等のファイルを効率良く圧縮して記赚体に格納すると共に、圧縮辞書ファィル等の IBSファィルを比較的簡単な処理により短時間でアクセス可能となる。

し力、し、上記従来方法及び上記提案方法によると、検索の高速化のため、 s •伸長:^は、ノ、フマン圧縮に基づく:^を採用していた。又、単一の圧縮パラメータを用いてデータの圧縮を行っていた。このため、以下の如き問題があった。先ず、辞書ゃ丽賴等のデータの IBSにハフマンを採用すると、記憶媒体に収録するべき語数が多くなり、解説に用いられる語の種類が増加するに従つて、データ圧縮率が低下するという問題があった。

又、デ一夕を腿したにも関わらず、 IBSデータの方が非 I Sデ一夕より 1f B 量が多くなつてしまう特異な区間も存在するという問題もあった。

更に、データの各区間の末尾には、区間の終了を示す終了情報を付加する必要があるため、全体としてのデータ圧縮率を大幅に向上するには限界があるという問題もあった。

他方、辞書や事典等のデータ以外のデータからなるファイルを圧縮する際にも、同様にしてデータ圧縮率を向上することが、ファイル装^^の分野で望まれている。発明の開示

そこで、本発明は、上記の問題点を解決した、新且つ、有用なファイル処理方法、データ処理装置及び記憶媒体を ¾^することを概括的目的とする。

本発明の他の目的は、ファイルを複数の区間に分割して複数の圧縮パラメ一夕を用いてファイルの各区間を圧縮する圧縮ステップと、圧縮されたファイルを記憶媒体に格納する格納ステップとを含むファイル処理方法をるにある。本発明によれば、データ IBS率を大幅に向上することができる。

本発明の更に他の目的は、ファイルを複数の区間に分割して複数の圧縮パラメータを用いてフアイルの各区間を IBSする IBi処理部と、 JE縮されたファイルを記憶媒体に格納する格納処理部とを備えたデータ処理装置を fil^するにある。本発明によれば、デ一夕処理装置のデータ圧縮率を大幅に向上することができる。本発明の更に他の目的は、コンピュータで読み取り可能な情報を格納した記憶媒体であって、コンピュータに、ファイルを複数の区間に分割して複数の圧縮パラメ一夕を用いてファィルの各区間を IBSさせる IB¾処理手段と、コンピュータに、圧縮されたファィルを記憶手段に格納させる格納処理手段とを備えたプログラムを格納した記憶媒体を提供するにある。本発明によれば、コンピュータのデータ IBi率を大幅に向上することができる。

本発明の更に他の目的は、コンピュータで読み取り可能な情報を格納した記憶媒体であって、複数の区間に分割されたファイルが、複数の圧縮パラメータを用いて各区間が IBtされて記憶された領域と、 J JE縮パラメ一夕か 1£憶された領域とを有する記憶媒体を難するにある。本発明によれば、データ圧縮率が大幅に向上された圧縮ファィルを記憶媒体に格納することができる。

本発明の更に他の目的は、コンピュータのアプリケーションソフトウエアとはしたドライバソフトウヱァカ更に格納されており、 i ドライバソフトゥェァは、コンピュータに、記憶媒体から読み出された I Sファイルを伸長させる伸長処理手段を備えたプログラムを含む記憶媒体を提供するにある。本発明によれば、アプリケーションソフトウェアを各ファイルに合わせて構成する!^がなく、ドライノくソフトウエアのみの変更により既存のアプリケーションソフトウェアを用いても圧縮ファイルのリード ·伸長処理が可能となる。

本発明の他の目的は、複数の圧縮パラメータと、複数の EBiパラメ一夕により原ファイルが複数の区間に分割され該区間毎に圧縮された複数の区間データとから構成される圧縮ファイルがされた言^媒体にアクセスする読み出しステツプと、読み出しステップにより言媒体から読み出される区間デ一夕を、区間データに対応する圧縮パラメ一夕により伸長する伸長ステップとを含むファイル処理方法を提供するにある。本発明によれば、比較的簡単な構成及び処理で、高レ、データ圧縮率で I tされた圧縮ファィルを良好に伸長することができる。本発明の更に他の目的は、複数の圧縮パラメータと、複数のバラメータにより原ファイルか数の区間に分割され区間毎に圧縮された複数の区間データとから構成されるファィルが 1^された媒体へのァクセスを制御するリ一ド処理部と、リード処理部により言媒体から読み出される区間データを、区間データに対応する IB¾パラメ一夕により伸長する伸長処理部とを備えたデータ処理装置を提供するにある。本発明によれば、比較的簡単な構成及び処理で、高いデー夕圧縮率で圧縮された圧縮ファィルを良好に伸長することができる。

本発明の他の目的は、アプリケーションソフトウエアからの読み出し要求に応じて、複数のパラメータと、複数のパラメ一夕により原ファイル力複数の区間に分割され区間毎にされた複数の区間データとから構成される圧縮ファイルが言された媒体へのアクセスを制御するリ一ド処理部と、リ一ド処理部により言媒体から読み出される区間データを、区間デー夕に対応する圧縮パラメ一夕により伸長し、該アプリケーションソフトウエアに供給する伸長処理部とを備えたデータ処理装置をするにある。本発明によれば、比較的簡単な構び処理で、高いデ一夕 I i率で Efilされた IBiファイルを良好に伸長することができる。

本発明の更に他の目的は、コンピュー夕で読み取り可能な情報を格納した記憶媒体であって、コンピュータに、複数の ffi^パラメ一夕と、複数の I iパラメ一夕により原フアイルが複数の区間に分割され区間毎に圧縮された複数の区間デー夕とから構成される圧縮ファイルがされた言媒体へのアクセスを制御させるリード処理手段と、コンピュー夕に、リ一ド処理手段により 15 媒体から読み出される区間データを、区間データに対応する圧縮パラメ一夕により伸長させる伸長処理手段とを備えたプログラムを格納した記憶媒体をするにある。本発明によれば、比較的簡単な構成及び処理で、高いデータ圧縮率で圧縮された圧縮フアイルを良好に伸長することができる。

本発明の他の目的は、コンピュー夕で読み取り可能な情報を格納した記憶媒体であって、コンピュータに、アプリケーションソフトウェアからの読み出し要求に応じて、複数の圧縮パラメ一夕と、複数の ffiftlパラメ一夕により原ファイルが複数の区間に分割され区間毎に IBSされた複数の区間データとから構成される圧縮ファイルか eiiされた言媒体へのアクセスを制御させるリ一ド処理手段と、コンピュータに、リード処理手段により mi 媒体から読み出される区間データを、区間データに対応する IBSパラメ一夕により伸長し、アプリケーションソフトゥヱァに供給させる伸長処理手段とを備えたプログラムを,した記憶媒体を提供するにある。本発明によれば、比較的簡単な構成及び処理で、高いデ一夕圧縮率で圧縮された ΕΕϋフアイルを良好に伸長することができる。

更に本発明の他の目的及び^ gは、以下図面と共に述べる説明より明らかとなろう。図面の簡単な説明

図 1はフアイノレ処法の第 1実施例を採用したコンピュータシステムの TO各構成を示すブロック図、

図 2はデータ処理装置の第 1実施例にぉレ、て構成されるフアイル圧縮システムを示す機能ブロック図、

図 3は領域分割処¾¾び出現 ®g演算処理を説明するフローチャート、図 4は領域分割処理及び出現頻度演算処理を説明するフローチヤ一ト、図 5は ffi^、'ラメ一夕演算処理を説明するフローチャート、

図 6は圧縮パラメータのデータ構造を示す図、

図 7はデータ圧縮処理及びァドレス情報演算処理を説明するフローチヤ一ト、図 8は圧縮ファィル合成処理を説明するフローチャート、

図 9は圧縮ファィルの合成を説明する図、

図 1 0は圧縮デ一夕の形式を説明する図、

図 1 1はデータ処理装置の第 1実施例において構成されるファイル検索 ·表示システムを示す機能プロック図、図 12はインデックスリード処理を説明するフローチャート、図 13はデータ伸長処理を説明するフローチャート、

図 14はテキストリード処理を説明するフローチャート、

図 15は本発明になるデータ処理装置の第 2実施例における検索 ·表示制御部の構成を示すブロック図、

図 1 6はファイルのリード処理を説明するフローチャート、

図 17はリード'伸長処理を説明するフローチャートである。発明を実施するための最良の形態

本発明になるファイル処理方法及びデータ処理装置の第 1実施例を説明する。フアイル処理方法及びデ一夕処理装置の第 1実施例は、本発明になる記憶媒体の第 1実施例を用いる。尚、記憶媒体の第 1実施例では、本発明が CD— ROMに適用されているが、記憶媒体自体は CD— ROMに限定されず、本発明は CD— ROM以外の光学的情報記憶媒^ 光磁気ディスク等の光磁気記フロッピーディスク等の磁気記憶媒各種体メモリデバイス等にも同様に適用可能であることは言うまでもない。

図 1は、ファイル処理方法の第 1実施例を採用したコンピュータシステムの概 B各構成を示すブロック図であり、データ処理装置の第 lU 例に対応する。同図中、コンピュータシステムは、： ^各バス 9により接続された中^ !t理装置 (CP U) 1、ランダムアクセスメモリ（RAM)等からなる主記¹^置 2、ハードディスクドライブ等からなる補助記憶装置 3、キーボードやマウス等からなる入力装置 4、表示装置 5及び CD— ROMドライブ等からなる C D— R OM入出力装置 6からなる。コンピュータシステムを構成する各要素自体は、周知の構成のもので構成することができる。

入力装置 4は、 CPU 1に指示やデータを入力するのに用いられ、 CPU1はこれらのやデータに基づレヽて補助記憶装置 3に格納されたプログラムを実行することで、ユーザの要求する処理を行う。補助記憶装置 3に格納されたプログラムは、予めインストールされていても、 CD— ROM入出力装置 6にロードされた CD— ROM6 aからロードされても良い。主記憶装置 2は、 CPU1が行う演算処理等の中間結果や演算に使用されるデータ等を一時的に格納するのに用いられる。表示装置 5は、 CPU 1が行った処理の結果やユーザに指示ゃデ一夕の入力を促すメッセ一ジを表示する。尚、表示装置 5に代えて、又は、表示装置 5に加えて、 CPU1が行った処理の結果等を印字するプリンタ（図示せず）をバス 9に接続しても良い。

先ず、 CD-ROM入出力装置 6にロードされた CD-ROM6 aに、辞書や辞典等の辞書ファィルを格納するフアイル格納処理にっレ、て説明する。ファィル格納処理は、 l各騰パラメ一夕演算処理と、インデックスやテキスト等のデータ I i処理と、アドレス情報演算処理と、 IBSファイル合成処理と、 J ファイル格納処理とからなる。本 HiiS例では、説明の便宵ト.、 CD-ROM6 a は CPU 1にフアイノレ格納処理を行わせるプログラムが格納されており、 CPU 1は周知の方法でこのプログラムを CD— ROM6 aから読み取って補助記憶装置 3にロードするものとする。又、辞書ゃ丽辞典等の辞書ファイルは、ホスト装置（図示せず）からされてバス 9を介して補助記 tl¾置 3に格納されているか、或いは、 CD— ROM入出力装置 6により CD— ROM6 aとは異なる C D— R OMから読み取られてノくス 9を介して補助記 1S¾置 3に格納されて、るものとする。

図 2は、データ処理装置の第 1実施例において構成されるフアイノレ JBtシステムを示す機能ブロック図である。同図中、図 1と同分には同一^を付し、その説明は割各する。

図 2に示すフアイノレシステムは、： l各フアイノレ IBi制御部 1 1と、 CD— ROM電子出版の辞書ファイル 12と、圧縮ファイル 13と、データファイル 1 4, 15とからなる。ファイル IBS制御部 1 1は、図 1に示す CPU1により構成され、領域分割処理部 21、出現搬演算処理部 22、圧縮パラメ一夕演算処理部 23、データ圧縮処理部 24、ァドレス情報演算処理部 25及び圧縮フアイル合成処理部 26とからなる。本実施例では、辞書ファイル 12及び圧縮フアイル 1 3は、例えば CD— ROM6 aにより構成さ " データファイル 14, 15 は、例えば補助記憶装置 3により構成される。

領域分割処理部 21は、辞書ファイル 12を複数の領域に分割し、領域分割数をデ一夕ファイル 1 4に格納する。出演算処理部 2 2は、辞書ファイル 1 2の各領域の文字の出現繊を演算により求め、領域■出カウントをデー夕ファイル 1 4に格納する。又、出現頻度演算処理部 2 2は、各領域毎の文字の偏りを演算により求め、偏りフラグ、偏りカウント等をデータファイル 1 4に格納する。尚、分割領域の数は、 JB に用いるパラメータの種類の数の例えば十数倍に設定される。

圧縮パラメ一夕演算処理部 2 3は、辞書ファイル 1 2の各領域毎に、複数の圧縮パラメ一夕を演算により求め、データファイル 1 5に格納する。データ ffi^処理部 2 4は、各圧縮パラメ一夕に基づいて辞書ファイル 1 2のデータを圧縮して、圧縮デ一夕をデ一夕ファイル 1 5に格納する。アドレス體演算処理部 2 5は、辞書ファイル 1 2の各領域毎にアドレス情報を生成して、データファイル 1 5に格納する。圧縮フアイノレ合成処理部 2 6は、データファイル 1 4 , 1 5に格納されたデータを合成して圧縮ファイルを^ ¾して、圧縮ファイル 1 3に格納する。

1 a )領域分割処¾¾び出現演算処理：

図 3及び図 4は、フアイル圧縮制御部 1 1の領域分割処理部 2 1及び出^ S 演算処理部 2 2、即ち、 C P U 1が行う領域分割処¾¾び出現纖演算処理を説明するフローチヤ一トである。

図 3において、ステップ S 1は、 C D— R OM 6 aをアクセスして辞書フアイル 1 2をオーブンし、ステップ S 2は、入力装置 4からキー入力された圧縮パラメータの数量を入力する。ステップ S 3は、入力装置 4からキー入力された辞書ファイル 1 2の分割領域のを入力する。ステップ S 4は、領域のアドレスを個別指定するか否かを判定し、判定結果が Y E Sであると処理はステップ S 5へ進み、判^果が NOであると処理はステップ S 6へ進む。ステップ S 5は、各領域毎の先頭ァドレスを入力し、処理はステップ S 8へ進む。

ステップ S 6は、辞書ファイル 1 2のファイルサイズを獲得し、ステップ S 7 は、辞書ファイル 1 2を分割領域の! ¾Sで等分割する。ステップ S 7又はステツプ S 5の後、ステップ S 8は、 C P U 1内の領域 ·出現頻度カウン夕の領域 '出度カウントを初期化する。ステップ S 9は、領域が変わり新領域の処理に移行したか否かを判定し、判定結果が Y E Sであると処理はステップ S 1 0へ進み、判果が N Oであると処理はステップ S 1 1へ進む。ステップ S 1 0は、領域 •出現力ゥン夕を、新領域の領域 ·出現力ゥン夕に切り換える。

ステップ S 1 0の後、又は、ステップ S 9の判定結果が NOであると、ステツプ S 1 1は、辞書ファイル 1 2から 1文字に対応する 1 6ビットコードを読み出す。又、ステップ S 1 2は、該当コードの出現頻度カウン夕の出現頻度カウントをインクリメントする。ステップ S 1 3は、辞書ファイル 1 2の ft^文字を処理したか否かを判定し、判^果が NOであると処理はステップ S 9へ戻り、判定結果が Y E Sであると処理はステップ S 1 4へ進んで辞書ファイル 1 2をクロ一ズする。

ステップ S 1 5は、各分割領域毎に 1文字を出現頻^！にソートし、ステップ S 1 6は、出現頻麵に例えば 1 0 2 4個の文字を選択する。ステップ S 1 7は、先頭分割領域の最高出^ Sの文字について初期化を行い、ステップ S 1 8は、該当文字の他の分割領域での出^ ¾と上記先頭分割領域での出現 ^¾とを比較して出現 ^Jgの偏りを算出する。ステップ S 1 9は、出現 TOの偏りのある文字が存在するか否かを判定し、判定結果が Y E Sであると処理はステップ S 2 0へ進み、判果が NOであると処理はステップ S 2 2へ進む。

ステップ S 2 0は、偏りフラグを各分割領域の各文字毎にセットし、ステップ S 2 1は、偏りカウンタの偏りカウントを各分割領域毎にカウントアップする。ステップ S 1 9の判定結果が N Oであるか、或いは、ステップ S 2 1の後、ステツプ S 2 2は、次の出現頻度の文字に切り換える。ステップ S 2 3は、 1 0 2 4番目の文字を超過したか否かを判定し、判定結果が N 0であると処理はステップ S 1 8へ戻る。他方、ステップ S 2 3の判定結果が Y E Sであると、ステップ S 2 4は、次の分割領域に切り換え、ステップ S 2 5は最終分割領域を超過したか否かを判定する。ステップ S 2 5の判^果が NOであると、処理はステップ S 1 8へ戻る。ステップ S 2 5の判定結果が Y E Sであると、ステップ S 2 6は、偏りカウントに基づいて各分割領域をソートし、処理は図 4に示すステップ S 2 7へ進む。

図 4において、ステップ S 2 7は、最も偏りの大きい分割領域の圧縮パターンの初期値をセットする。ステップ S 2 8は、次の分割領域の偏りが以前の圧縮パ夕一ンと類似しているか否かを判定する。ステップ S 2 8の判果が NOであると、ステップ S 2 9は、圧縮パターンの残りがあるか否かを判定し、判果が YE Sであると、ステップ S 3 0は、該当分割領域に圧縮パターンの次の値をセットする。

他方、ステップ S 2 8の判定結果が YE S、或いは、ステップ S 2 9の判定結果が NOであると、ステップ S 3 1は、該当分割領域に類似分割領域の IBSパターンの値をセットする。ステップ S 3 0又はステップ S 3 1の後、ステップ S 3 2は、最終分割領域であるか否かを判定する。ステップ S 3 2の判果が N 0であると、処理はステップ S 2 8へ戻り、判定結果が Y E Sであると、処理は終了する。

1 b )圧縮ノラメ一夕演算処理：

図 5は、フアイノレ IBt制御部 1 1の圧縮パラメ一夕演算処理部 2 3、即ち、 C P U 1が行う圧縮パラメ一夕演算処理を説明するフローチヤ一トである。

図 5中、ステップ S 4 1は、 C D— R OM 6 aをアクセスして辞書ファイルをオープンする。ステップ S 4 2は、圧縮パターンの初期値をセットし、ステップ S 4 3は、分割領域の初期値をセットする。ステップ S 4 4は、処理する分割領域が該当圧縮ノ、'夕一ンに属するか否かを判定し、判果が Y E Sであると処理はステップ S 4 6へ進み、判^果が NOであると処理はステップ S 4 5へ進む。ステップ S 4 5は、非当該分割領域を飛ばす。

ステップ S 4 6は、 1文字に対応する 1 6ビットコ一ドを読み出す。ステップ S 4 7は、該当 1 6ビットコードの出現頻度カウン夕の出 ¾®J度カウントをインクリメントし、ステップ S 4 8は、最終分割領域を処理したか否かを判定し、判 ^果が NOであると処理はステップ S 4 4へ戻る。ステップ S 4 8の判 ^果が YE Sであると、ステップ S 4 9は、圧縮パターンを更新する。ステップ S 5 0は、： R^IBgパターンを処理したか否かを判定し、判果が NOであると処理はステップ S 4 4へ戻る。

他方、ステップ S 5 0の判定結果が Y E Sであると、ステップ S 5 1は、 JBit パターンの初期値をセットし、ステップ S 5 2は、該当パターンの圧縮パラメ一夕を用いる分割領域を初期化する。ステップ S 5 3は、 1 6ビットコ一ドを 4387 出現頻 ¾l にソートし、ステップ S 5 4は、 1 0 2 4個の 1 6ビットコ一ドを出現頻度順に選択する。ステップ S 5 5は、残りの 1 6ビットコ一ドについては、 8ビットコ一ドに分解して、その出現^を算出する。ステップ S 5 6は、 8 ビットコードの出現頻度を約 1 Z 2にして 1 6ビットコ一ドとの補正を行う。

ステップ S 5 7は、例えば補助記憶装置 3をアクセスして圧縮パラメ一夕の退避ファイルをデータファイル 1 5内にオーブンする。ステップ S 5 8は、 1 0 2 4個の 1 6ビットコードとこれらの出現^ JSを、データファイル 1 5内の圧縮パラメ一夕の退避ファイルに書き込む。又、ステップ S 5 9は、 2 5 6個の 8ビットコードとこれらの出現 ^を、データファイル 1 5内の圧縮パラメ一夕の退避ファイルに書き込む。ステップ S 6 0は、デ一夕ファイル 1 5内の圧縮パラメ一夕の退避ファイルをクローズし、ステップ S 6 1は、圧縮パターンを更新する。ステップ S 6 2は、最終圧縮バタ一ンを処理したか否かを判定し、判果が N 0であると処理はステップ S 5 2へ戻り、判^果が YE Sであると処理は終了する。

図 6は、パラメ一夕のデータ構造を示す図である。ハフマンによる圧縮の場合、同図に示すように、各圧縮パラメ一夕は、例えば 1 0 2 4種の 1 6 ビットコ一ド毎の 2 5 6種の出現頻度及び 8ビットコ一ド毎の 2 5 6種の出現頻度からなる。これらの出現頻度は、ノ、フマン木の^のためのデ一夕となる。尚、ユニバーサルによる圧縮の場合の IBiパラメータはトライの木もしくはそれを生成するための登録記号例とその参照番号等のデータで構成される。

1 c ) データ圧縮処理及びアドレス情報演算処理：

図 7は、フアイノレ圧縮制御部 1 1のデータ圧縮処理部 2 4及びアドレス情報演算処理部 2 5、即ち、 C P U 1が行うデ一夕圧縮処理及びアドレス情報演算処理を説明するフローチヤ一トである。

図 7中、ステップ S 7 1は、複数の圧縮バラメータから変換テ一ブル、即ち、本実施例ではハフマン圧縮を行うのでハフマン木を作成する。ステップ S 7 2は、 C D— R OM 6 aにアクセスして辞書ファイル 1 2をオープンする。ステップ S 7 3は、補助記憶装置 3にアクセスして圧縮データの退避フアイノレ及びアドレス情報の退避ファイルをデータファイル 1 5内にオープンする。ステップ S 7 4は、 P99/04387 先頭分割領域をセットする。

ステップ S75は、辞書ファイル 12から 1区間を読み出す。この区間は、固定長であっても、可変長であっても良いが、本実施例では可変長であるものとする。尚、上言己区間は、ブロックと呼ばれることもある。ステップ S 76は、ハフマン木を用いて 1区間の圧縮データを演算する。この圧縮データの演算の際には、各分割領域に対応した圧縮パラメ一タを用いる。ステップ S 77は、 1区間が固定長であるか否かを判定し、判定結果が N〇であると処理はステップ S 80へ進む。他方、ステップ S 77の判^果が YESであると、ステップ S 78は、圧縮データのサイズが圧縮前の非圧縮データのサイズより長いか否かを判定し、判 ^果が NOであると処理はステップ S 80へ進む。ステップ S 78の判^果が YESであると、ステップ S 79は、データが非圧縮データであることを示す非圧縮フラグを含む制御情報及び非圧縮データを生成して、処理はステップ S 8 1へ進む。この場合、区間が区間であれば、区間の終わりに終了情報 (EO B： End Of B l ock)が ί¾Πさ区間が区間以外の途中区間であれば、 EOBが i¾Uされない代わりに、制御情報に EOBが削除されていることを示す E 0 B削除フラグを含ませる。

ステップ S 80は、制御 1tfg、圧縮データ、 E0B等を各フラグや圧縮パラメータ S¾IJに対応させて^して、処理はステップ S 81へ進む。この場合、区間が慰冬区間であれば、区間の終わりに E0Bが ¾Πさ区間が最終区間以外の途中区間であれば、 Ε0Βが付加されない代わりに、制御情報に ΕΟΒが削除されていることを示す ΕΟΒ削除フラグを含ませる。ステップ S 81は、圧縮データをデータファイル 1 5内の退避ファイルに書き込む。

尚、制御情報や Ε0Β等については、後述する図 9及び図 1 0と共により詳細に説明する。

ステップ S 82は、該当区間が格納されるァドレス情報を演算する。例えば区間が固定長の場合、ァドレス情報は各区間に付けられた区間番号に基づレヽて演算される。ステップ S 83は、アドレス情報をデータファイル 1 5内のアドレス情報の退避ファイルに書き込む。ステップ S 84は、当該分割領域の最終区間を処理したか否かを判定し、判定結果が NOであれば処理はステップ S 75へ戻る。最終区間を処理したか否かは、例えば区間番号や最終区間に付加された最終区間に基づレ、て判定することができる。

他方、ステップ S 8 4の判定結果が YE Sの場合、ステップ S 8 5は、分割領域を更新し、ステップ S 8 6は、辞書ファイル 1 2の最終区間を処理したか否かを判定する。ステップ S 8 6の判定結果が NOであると処理はステップ S 7 5へ戻り、判^果が YE Sであると処理はステップ S 8 7へ進む。ステップ S 8 7 は、圧縮デ一夕の退避ファイル及びァドレス情報の退避ファイルを夫々クローズする。又、ステップ S 8 8は、辞書ファイル 1 2をクローズし、処理は終了する。

1 d) 圧縮ファイル合成処理：

図 8は、ファイル ffi^制御部 1 1内の IBtフアイノレ合成処理部 2 6、即ち、 C P U 1が行う圧縮ファイル合成処理を説明するフローチヤ一トである。

図 8中、ステップ S 9 1は、圧縮ファイル 1 3をオープンする。ステップ S 9 2は、圧縮ファイルの先頭識別用のヘッダのデータを編集する。ステップ S 9 3 は、補助記憶装置 3のデータファイル 1 5内の圧縮バラメータの退避ファイルをオープンし、ステップ S 9 4は、 IBtパラメ一夕の退避ファイルの圧縮バラメ一タを JBtファイル 1 3に複写する。ステップ S 9 5は、 IBSパラメータの退避ファイルをクローズする。

ステップ S 9 6は、補助記憶装置 3のデータファイル 1 5内のアドレス 1f¾の退避ファイルをオーブンし、ステップ S 9 7は、アドレス情報の退避ファイルのアドレス情報を圧縮ファイル 1 3に複写する。ステップ S 9 8は、アドレス Iflfi の退避ファイルをクローズする。更に、ステップ S 9 9は、補助記憶装置 3のデータファイル 1 5内の圧縮データの退避ファイルをオーブンし、ステップ S 1 0 0は、圧縮データの退避ファイルの圧縮デ一夕を圧縮ファイル 1 3に複写する。ステップ S 1 0 1は、圧縮データの退避ファイルをクローズする。ステップ S 1 0 2は、圧縮ファイルの末尾識別用のトレ一ラのデータを編集し、ステップ S 1 0 3は、圧縮ファイル 1 3を CD— R OM 6 aに格納する。又、ステップ S 1 0 4は、 I iファイル 1 3をクローズし、処理は終了する。

図 9は、上記の如き 1 a ) 領域分割処理及び出現頻度演算処理、 1 b) 圧縮パラメ一夕演算処理、 1 c ) データ圧縮処理及びアドレス情報演算処理及び 1 d) 圧縮ファィル合成処理による圧縮ファィルの合成を説明する図である。同図中、

(a) は圧縮ハ'ラメ一夕を示し、本実施例ではハフマンによる圧縮を行うための ffiftlパラメータである。同図中、 (b) は辞書ファイルの区間を示し、本実施例では各区間が例えば 2 k b y t eであり、各区間は辞書データ及びィンデックスデータからなる。例えは辞典の場合、辞書デ一夕には、語の意味を説明するテキストのテキストデ一夕、例えば語が動物であればその動物を示す画像データ、例えば語が鳥であればその鳥の鳴き声を示す音声デー夕等が含まれる。ィンデックスは、辞書ファイルから所望の辞書データを検索するために使用されるもので、辞書データに対して設けられており、キーワードと呼ばれることもある。インデックスデータには、見出しのポインタや項目のポインタ等が含まれる。見出しのデ一夕には、見出し語が含まれる。又、項目のデータには、見出し語や解説文等が含まれる。

図 9中、（c ) はデータを示し、各区間が可変長で IBSされている忧態を示す。又、同図中、（d) は各区間に対して演算されたアドレス If!!を示し、 ( e ) は ffi^、'ラメ一夕と、ァドレス龍と、圧縮デ一夕を合成して管理情報を先頭に付加することで得られる圧縮ファイルを示す。管理† Sは、辞書ファイル名、辞書フアイルの種別、辞書フアイルの圧縮種別等の、圧縮フアイルを検索する際に使用される情報が含まれる。更に、同図中、 ( f ) はヘッダ及びトレーラを付加された圧縮ファィルを示す。

図 1 0は、圧縮ファイル内の圧縮データの形式を説明する図である。同図中、 (a) は圧縮パラメ一タを示し、本実施例ではハフマン符号による圧縮を行うための圧縮パラメ—夕である。又、同図中、 (b) は圧縮データを示し、各区間が可変長で圧縮されている状態を示す。各区間は、同図中、（c ) に示すように、制御情報と、データと、 E O Bとからなる。制御情報は、同図（d) に示すように、 E OB肖 IJ除フラグ、非圧縮フラグ、圧縮パラメ一夕種別等からなる。各区間の終わりを示す E O Bは、例えば 1 8ビット〜 2 4ビットである。しかし、各区間を固定長にした場合には、 ^区間以外では E O Bを Η各することができる。そこで、デ一夕圧縮率を更に向上するために、 E O B削除フラグが設けられ、 EO Bが削除されているか否かを示す。 /JP99/04387 又、出現頻度の低い語が多い特異な区間では、圧縮データの方が非データより長くなつてしまうが発生する。そこで、このような場合のデータ ΙΒϋ率を更に向上するために、上記の如く圧縮デ一夕に代わつて非圧縮デー夕が圧縮ファイルに格納される。非 ffi隨フラグは、このように IBSデータに代わって非圧縮データが格納されているか否かを示す。

圧縮パラメータ (又は、圧縮パラメータ識別番号）は、該当する区間の圧縮に用いられている、例えば 1〜！！までの nS^の I Sパラメータのうちの 1つを示す。これにより、各区間の圧縮に用いられている圧縮パラメ一タを、各区間の先頭に設けられている制御情報から知ることができる。

図 1 1は、データ処理装置の第 1実施例にぉレ、て構成されるフアイル検索 ·表示システムを示す機能ブロック図である。同図中、図 1と同分には同一^ を付し、その説明は御各する。

図 1 1に示すファィノレ検索 ·表示システムは、大 B各検索 ·表示制御部 3 1と、圧縮ファイル 1 3と、入力部 3 3と、検索結果表示部 3 5とからなる。 '表示制御部 3 1は、図 1に示す C P U 1により構成さ入力処理部 4 1、検^ « 御部 4 2、リード処理部 4 3 , 4 4、伸長処理部 4 5及び表示処理部 4 6からなる。 Ei缩ファイル 1 3は、例えば図 1に示す C D— R OM 6 aにより構成される。入力部 3 3は、図 1に示す入力装置 4により構成される。又、検索結果表示部 3 5は、図 1に示す表示装置 5により構成される。

各処理の内容と制御シーケンスは、入力部 3 3から入力された検索モード、キーワード等に基づいて、入力処理部 4 1及び検^^御部 4 2により決定される。入力部 3 3から入力されたィンデックスデータに対応するィンデックスボインタは、リード処理部 4 3により圧縮ファイル 1 3から読み出されて、インデックスポインタのデータは伸長処理部 4 5により伸長される。該当する本文のテキストデータは、獲得されたインデックスポインタの値に基づいてリード処理部 4 4により読み出さ本文のテキストデータは伸長処理部 4 5により伸長される。上記の如き ~¾の検索処理により得られる検索結果は、表示処理部 4 6により検索結果表示部 3 5上に表示される。

次に、 C D— R OM入出力装置 6にロードされた C D— R〇M 6 aに格納された圧縮フアイル 1 3を読み取って所望のデ一夕を検索 ·表示するフアイノレ検索 · 表示処理について説明する。ファイル検索'表示処理は、：各インデックスリード処理と、テキストリード処理とからなり、データ伸長処理を呼び出して実行される。本実施例では、説明の便 lh、 CD -R OM 6 aには C PU 1にファイル '表示処理を行わせるプログラムが格納されており、 C PU 1は周知の方法でこのプログラム及び圧縮フアイルを C D— R OM 6 aから読み取って補助記憶装置 3にロードするものとする。

2 a ) インデックスリード処理：

図 1 2は、検索'表示処理部 3 1のリード処理部 4 3及び伸長処理部 4 5、即ち、図 1に示す C PU 1が行うインデックスリード処理を説明するフローチヤ一トである。同図中、ステップ S 1 1 1は、ユーザが入力部 3 3より入力したインデックスデータに基づいて、最上位インデックスのアドレス情報を設定する。ステツプ S I 1 2は、データ伸長処理をコールし、補助記憶装置 3内のフアイノレ検索処理を行わせるプログラムからデータ伸長処理を行わせるル一チンを読み出すことで、圧縮ファイル 1 3内の ¾±位インデックスのアドレスを伸長する。ステツプ S I 1 3は、上記インデックスデータに基づき、最上位インデックスの頭文字である上位インデックスのアドレスを獲得する。ステップ S I 1 4は、デ一夕伸長処理をコールし、圧縮ファイル 1 3内の上位インデックスのアドレスを伸長する。ステップ S 1 1 5は、上記インデックスデ一夕に基づき、次階層の下位インデックスのアドレスを獲得する。ステップ S 1 1 6は、デ一夕伸長処理をコールし、圧縮ファイル 1 3内の上記次階層の下位インデックスのアドレスを伸長する。ステップ S I 1 7は、最下位インデックスのアドレスの伸長が終了したか否かを判定し、判果が NOであれば、処理はステップ S 1 1 5へ戻る。他方、ステップ S I 1 7の判定結果が YE Sの場合、処理は終了する。

2 b) データ伸長処理：

図 1 3は、検索'表示制御部 3 1の伸長処理部 4 5、即ち、図 1に示す C P U 1が行うデータ伸長処理を説明するフローチヤ一トである。データ伸長処理は、ィンデックスリ一ド処理及びテキストリード処理により呼び出される。

図 1 3中、ステップ S 1 2 1は、ユーザが入力部 3 3より入力したインデックスデータに基づいて、要求された伸長アドレス、データサイズや記憶領域を補助記憶装置 3に記憶して、伸長されたデ一夕サイズに対して充分な大きさの記憶領域を補助記憶装置 3内に用 *る。ステップ S 1 2 2は、 C D— R OM 6 aから読み取って補助記憶装置 3に口一ドされた圧縮ファイル 1 3がオーブンされているか否かを判定し、判定結果が NOであると、ステップ S 1 2 3は補助記憶装置 3内の圧縮ファイル 1 3をオーブンする。ステップ S 1 2 4は、ヘッダとトレ一ラがセットされているか否かを判定し、判定結果が NOであると周知のエラ一処理に移行する。

他方、ステップ S 1 2 4の判定結果が YE Sであると、ステップ S 1 2 5は、圧縮ファイル 1 3から Efitパラメ一夕を読み取り、圧縮パラメ一夕内の 8ビットコ一ドの出現頻度及び 1 6ビットコ一ドとその出現頻度を読み込む。ステップ S 1 2 6は、 8ビットコードの出現頻度及び 1 6ビットコードの出現頻度に基づき、複数の圧縮パラメ一夕の各々に該当するハフマン木を作成し、処理は後述するステツブ S 1 2 7へ進む。尚、ハフマン木の葉のデータには、 8ビットコードか 1 6ビットコ一ドかの判定用フラグが付加されている。

ステップ S 1 2 2の判定結果が YE S又はステップ S 1 2 6の後、ステップ S 1 2 7は要求された伸長アドレスに対応するアドレス情報を IBSファイル 1 3から読み込む。ステップ S 1 2 8は、アドレス情報に基づいて、 EEiiファイル 1 3 から対応する BB ^データの区間を読み込む。ステップ S 1 2 9は、制御情報内の非圧縮フラグがセットされてオンであるか否かを判定する。ステップ S 1 2 9の判定結果が YE Sであると処理は後述するステップ S 1 3 2へ進み、判定結果が NOであると処理はステップ S 1 3 0へ進む。

ステップ S 1 3 0は、制御情報内の圧縮パラメ一夕種別に対応するハフマン木により圧縮デ一夕の区間を伸長し、ステップ S 1 3 1は、 8ビットコードか 1 6 ビットコ一ドかの判定用フラグに基づいて、伸長されたデータを上記記憶領域に複写し、処理はステップ S 1 3 3へ進む。この場合、区間が区間であれば、区間の終わりに E 0 Bが ftSnされてレ、るので E 0 Bまでの可変長の区間のデー夕を伸長して複写し、区間が最終区間以外の途中区間であれば、制御情報に E O B が削除されていることを示す E O B削除フラグが含まれているので 2 k b y t e の固定長の区間のデー夕を伸長して複写する。

他方、ステップ S 1 3 2は、 8ビットコードか 1 6ビットコードかの判定用フラグに基づいて、非圧縮データを上記記憶領域に複写し、処理はステップ S 1 3 3へ進む。この場合、区間が最終区間であれば、区間の終わりに E O Bが付加されているので E O Bまでの可変長の区間の非圧縮データをそのまま複写し、区間が最終区間以外の途中区間であれば、制御情報に E◦ Bが削除されていることを示す E O B削除フラグが含まれているので 2 k b y t eの固定長の区間の非圧縮データをそのまま複写する。

ステップ S 1 3 3は、区間のアドレス情報を更新し、ステップ S 1 3 4は、圧縮ファイル 1 3に対して要求されたデ一夕サイズの伸長が完了したか否かを判定する。ステップ S 1 3 4の判定結果が NOの場合、ステップ S 1 2 7は、次の区間の伸長アドレスに対応したアドレス情報を IBSファイル 1 3から読み込む。ステツプ S 1 2 8は、この次の区間の伸長ァドレスに対応したァドレス情報に基づいて、圧縮ファイル 1 3から対応する圧縮データの区間を読み込み、処理はステツプ S 1 2 9へ進む。他方、ステップ S 1 3 4の判定結果が YE Sであると、処理は終了する。

2 c ) テキストリード処理：

図 1 4は、検索'表示制御部 3 1のリード処理部 4 4及び伸長処理部 4 5、即ち、図 1に示す C P U 1が行うテキストリ一ド処理を説明するフローチャートである。

図 1 4中、ステップ S 1 4 1は、ユーザが入力部 3 3より入力したインデックスデータに基づいて、伸長されたデータ中、インデックスと一 ¾fる項目をカウントする。ステップ S 1 4 2は、入力されたインデックスデータに基づいて、ィンデッタスの項目ポインタの値をアドレスに設定する。ステップ S 1 4 3は、デ一夕伸長処理をコールし、補助記憶装置 3内のフアイノレ検索処理を行わせるブログラムからデータ伸長処理を行わせるルーチンを読み出すことで、圧縮フアイル 1 3内の項目ポインタで示されるテキスト、即ち、辞書デ一夕を 1区間分伸長する。

ステップ S 1 4 4は、項目ポインタで示される辞書デ一夕が終了したか否かを判定し、判^果が NOであると、ステップ S 1 4 5は次の 1区間のアドレスを設定する。又、ステップ S 1 4 6は、デ一夕伸長処理をコールして、圧縮フアイル 1 3内の項目ポインタで示される辞書データをこの次の 1区間分伸長し、処理はステップ S 1 4 4へ戻る。他方、ステップ S 1 4 4の判定結果が Y E Sの場合、ステップ S 1 4 7は入力されたインデックスデータに基づいて、全ての項目につレ、ての処理が終了したか否かを判定し、判定結果が NOであると、処理はステツブ S 1 4 2へ戻る。ステップ S 1 4 7の判定結果が Y E Sであると、ステップ S 1 4 8は全ての項目にっレ、て伸長された辞書データを検索結果表示部 3 5に表示し、処理は終了する。

尚、ステップ S 1 4 8は、ステップ S 1 4 7の前に行うようにしても良い。この場合、ステップ S 1 4 8は、各項目について伸長された辞書データをその都度検索結果表示部 3 5に表示する。

上記実施例では、説明の MLb、区間が可変長であるものとした。区間が可変長であると、データ伸長速度を向上することができる。これは、デ一夕のや区分に対応して適切な長さの区間を設定することができ、余分なデ一夕を伸長する必要がないことによる。

他方、区間が固定長であると、データ IB効率が良く、又、区間の Ε»ίのァドレス情報を圧縮ファィルに格納しておかなくてもァドレス情報を ffifilフアルから復元可能である。これは、区間が固定長であり、各区間には区間番号が付加されているため、各区間の他の区間に対する相対位置が算出可能であることによる。

尚、区間を可変長とした場合には、区間の圧のアドレス IffSを圧縮フアイルに格納しておく i¾がある。従って、区間を固定長とするか、可変長とするかは、デ一夕圧縮率をするか、データ伸長速度を舰するかにより決定すれば良い。

又、 C D— R OM 6 aに格納される辞書ファイルは 1以上であっても良レ、。複数の辞書や百科辞典等に関する複数の辞書フアイルを C D— R OM 6 aに格納した場合でも、図 9中、（e ) に示す管理情報内の辞書フアイノレ名や辞書ファイルの種別から検索した、辞書ファィルを特定することができる。上記実施例では、デ―タ I Sにハフマンを用いたが、ュニバーサル等も使用でき、辞書データを各区間毎に共通な圧縮パラメータで効率良く圧縮できるデータ圧 ¾t ^であれば、ハフマン^に限定されるものではなレヽ。又、デー夕圧縮及び伸長のとなるデータは、辞書デ一夕に限定されず、インデックスとデータとからなるデータベースのデータをも包含する。

又、上記実施例では、ファイル検索処理プログラムおよびファイルを補助記憶装置 3にコピーして検索処理を行う説明しているが、これらを補助記憶装置 3にコピーせず、プログラムと ffiiSファイルを主記憶装置 2に展開し、前述と同様の処理を行うようにしても良い。

尚、上記実施例で用いる圧縮アルゴリズムによって、通常の 8ビットでのハフマンによるデータ圧縮処理により圧縮率が向上し、 C D - R OMや補助記憶装置として説明したハードディスクなどの記憶媒体にされる田缩ファィルの領域は少なくなる。圧縮アルゴリズムによって圧縮率は向上するが、 IBSフアイルを伸長するための処理時間は通常のハフマン符号圧縮のときとほとんど変わらない。

検索処理にかかる時間は、読み取り装置（ドライブ）のシーク時間と ffiftlファィルのリ一ド時間と伸長処理時間からなる。

のように、圧縮アルゴリズムにより圧縮率が向上したことにより、記 tl^ 体にされる圧縮ファイルの言 £ ^領域が少なくなることから、検索プログラムの検索処理にかかる時間のシーク時間がし、その結果、検索速度が向上する。この効果はハ一ドウエアの性能向上に伴い、さらに顕著になる。

次に、本発明になるフアイル処理方法及びデータ処理装置の第 2実施例を説明する。ファイル処法及びデータ処理装置の第 2実施例は、本発明になる記憶媒体の第 2実施例を用いる。尚、記憶媒体の第 2実施例では、本発明が CD -R OMに適用されているが、記憶媒体自体は CD— R OIV [に限定されず、本発明は C D— R OM以外の光学的情報記憶媒体、光磁気ディスク等の光磁気記憶媒 {^ フロッピ一ディスク等の磁気記憶媒体、各種半導体メモリデバイス等にも同様に適用可能であることは言うまでもない。

フアイル処理方法の第 2実施例を採用したコンピュータシステムの各構成は、図 1に示すプロック図と同様であり、データ処理装置の第 2実施例に対応する。データ処理装置の第 2実施例では、検索 ·表示制御部が、図 1 5に示す如き構成を有する。図 1 5中、図 1 1と同 ~¾分には同一を付し、その説明は省略す。

図 1 5において、検索'表示制御部は、大略 C D— R OMアプリケーション 5 1、オペレーティングシステム（O S) 5 2、ランダムファイルマネージャ（F M) 5 3、シリアルファイルマネージャ（FM) 5 4、 C D— R 0M 6 a用ドラィバソフトウエア（DV) 5 5、補助記憶装置 3を構成するハードディスク 3 a 用のドライバソフトウェア（DV) 5 6 , 5 7及び表示装置 5用ドライバソフトウェア（DV) 5 8からなる。

C D— R OMアプリケーション 5 1は、アプリケーション制御部 6 1、入力処理部 6 2、リード処理部 6 3及び表示処理部 6 4からなる。又、 DV 5 5には、図 1 1に示すリード処理部 4 3 , 4 4及び伸長処理部 4 5に対応するリード'伸長処理部 7 1が組み込まれている。アプリケーション制御部 6 1は、図 1 1に示す検^ fj御部 4 2に対応し、各処理の内容と制御シーケンスを決定する。入力処理部 6 2は、図 1 1に示す入力処理部 4 1に対応し、動作モードの入力や対象ファイルの選択を行う。リード処理部 6 3及び DV 5 5に組み込まれているリード.伸長処理部 7 1は、該当する圧縮データを圧縮ファイル 1 3から読み出して伸長する。伸長されたデ一夕に基づいて種々の処理が行われ、表示処理部 6 4により検索結果が検索結果表示部 3 5上に表示される。表示処理部 6 4は、図 1 1 に示す表示処理部 4 6に対応する。本実施例では、圧縮ファイル 1 3に格納されているデータは、第 1実施例のような辞書、辞典等のインデックスと実デ一夕からなるものに限定されず、いかなるデータであっても良い。又、データ処理装置はファィル制御装置を構成する。

C D— R OMアプリケーション 5 1は、予め補助記憶装置 3にインストールされていても、 C D— R〇M 6 a等から読んで補助記憶装置 3にインストールしても良い。又、 DV 5 5は、 DV 5 6〜5 8と同様に、予め補助記憶装置 3にインストールされていても、 C D— R OM 6 a等から読んで補助記憶装置 3にインストールしても良い。尚、説明の Mlh、 O S 5 2及び FM 5 3 , 5 4は、予め補助 ΐ己憶装置 3にインスト一ルされているものとする。

従って、記憶媒体の第 2実施例は、圧縮ファイル 1 3及び DV 5 5のうち少なくとも一方を格納しており、 C D— R OMアプリケーション 5 1を更に格納していても良い。

このように、本実施例では、 D V 5 5に伸長ライブラリ（リード，伸長処理部 7 1 ) を組み込むことにより、アプリケーションソフトウェアを各ファイルに合わせて構成する必要がなく、 DV 5 5のみの変更により既存のアプリケーシヨンソフトゥェァを用レ、ても圧縮ファィルのリード'伸長処理が可能となる。図 1 6は、 C D— R OMアプリケーション 5 1のリード処理部 6 3が DV 5 5 のリード ·伸長処理部 7 1と共に行うリ一ド処理、即ち、図 1に示す C P U 1のリ―ド処理を説明するフローチャートである。

図 1 6において、ステップ S 1 5 1は、 C P U 1内のリードバッファを初期化する。ステップ S 1 5 2は、圧縮ファイル 1 3のリ一ドアドレス（論理ァドレス）をセットする。ステップ S 1 5 3は、区間のリード長をセットする。又、ステツブ S 1 5 4は、リード'伸長処理をコールし、処理は終了する。

図 1 7は、 DV 5 5のリード'伸長処理部 7 1が行うリード'伸長処理、即ち、図 1に示す C P U 1のリード'伸長処理を説明するフローチャートである。

図 1 7において、ステップ S 1 6 1は、ユーザが入力部 3 3より入力したインデックスデータに基づいて、要求された伸長アドレス、データサイズや記憶領域を補助記憶装置 3に記憶して、伸長されたデータサイズに対して充分な大きさの記憶領域を補助記憶装置 3内に用意する。ステップ S 1 6 2は、 C D— R OM 6 aから読み取つて補助記憶装置 3にロードされた圧縮ファイル 1 3がオープンされているか否かを判定し、判^果が NOであると、ステップ S 1 6 3は補助記憶装置 3内の圧縮ファイル 1 3をオープンする。ステップ S 1 6 4は、ヘッダとトレーラがセットされているか否かを判定し、判定結果が NOであると周知の一般ファイルの処理に移行する。

他方、ステップ S 1 6 4の判定結果が YE Sであると、ステップ S 1 6 5は、圧縮ファイル 1 3から圧縮パラメ一夕を読み取り、圧縮パラメータ内の 8ビットコードの出現頻度及び 1 6ビットコードとその出現頻度を読み込む。ステップ S 1 6 6は、 8ビットコードの出現頻度及び 1 6ビットコ一ドの出現頻度に基づき、複数の圧縮パラメータの各々に該当するハフマン木を作成し、処理は後述するステツブ S 1 2 7へ進む。尚、ノ、フマン木の葉のデータには、 8ビットコ一ドか 1 6ビットコ一ドかの判定用フラグが付加されている。

ステップ S 1 6 2の判定結果が YE S又はステップ S 1 6 6の後、ステップ S 1 6 7は要求された伸長アドレスに対応するアドレス情報を EK ファイル 1 3から読み込む。ステップ S 1 6 8は、アドレス情報に基づいて、 I Sファイル 1 3 . から対応する圧縮データの区間を読み込む。ステップ S 1 6 9は、制御情報内の非圧縮フラグがセットされてオンであるか否かを判定する。ステップ S 1 6 9の判定結果が YE Sであると処理は後述するステップ S 1 7 2へ進み、判^果が NOであると処理はステップ S 1 7 0へ進む。

ステップ S 1 7 0は、制御情報内の圧縮パラメ一夕種別に対応するハフマン木により圧縮デ一夕の区間を伸長し、ステップ S 1 7 1は、 8ビットコ一ドか 1 6 ビットコードかの判定用フラグに基づいて、伸長されたデータを上言己言己憶領域に複写し、処理はステップ S 1 7 3へ進む。この場合、区間が最終区間であれば、区間の終わりに E 0 Bが付加されているので E 0 Bまでの可変長の区間のデータを伸長して複写し、区間が最終区間以外の途中区間であれば、制御情報に E O B が削除されていることを示す E O B削除フラグが含まれているので 2 k b y t e の固定長の区間のデー夕を伸長して複写する。

他方、ステップ S 1 7 2は、 8ビットコ一ドか 1 6ビットコードかの判定用フラグに基づいて、非 IB¾データを上記記憶領域に複写し、処理はステップ S 1 7 3へ進む。この場合、区間が最終区間であれば、区間の終わりに E O Bが iiSUされているので E 0 Bまでの可変長の区間の非圧縮データをそのまま複写し、区間が最終区間以外の途中区間であれば、制御情報に E 0 Bが削除されていることを示す E O B削除フラグが含まれているので 2 k b y t eの固定長の区間の非圧縮デ一夕をそのまま複写する。

ステップ S 1 7 3は、区間のァドレス情報を更新し、ステップ S 1 7 4は、圧縮ファイル 1 3に対して要求されたデー夕サイズの伸長が完了したか否かを判定する。ステップ S 1 7 4の判定結果が NOの場合、ステップ S 1 6 7は、次の区間の伸長アドレスに対応したアドレス情報を圧縮ファイル 1 3から読み込む。ステツプ S 1 6 8は、この次の区間の伸長アドレスに対応したアドレス情報に基づいて、圧縮ファイル 1 3から対応する圧縮データの区間を読み込み、処理はステツプ S 1 6 9へ進む。他方、ステップ S 1 7 4の判定結果が Y E Sであると、処理は終了する。

第 2実施例では、アプリケーションとして C D— R OM 6 aを使用する C D— R OMアプリケーション 5 1を例示したが、これに限定されるものではなく、ファイルを扱う、かなるアプリケーションでも本発明が適用されたドライノソフトゥエアを利用することが可能である。

又、本発明のリード'伸長処理部 7 1を C D— R OM用ドライバソフトウェアに組み込んだ例を示したが、他の記憶装置に対応するドライバソフトウェア（ハードディスクドライブ用ドライノくソフトウェア、図示しないフロッピイデイスクドライブ用ドライバソフトウェア等）にリード'伸長処理部 7 1を組み込むことで同様の処理か可能であり、同様の効果を得ることができる。

以上、本発明を実施例により説明したが、本発明は本発明の範囲内で種々の変形及び改良が可能であることは言うまでもない。

Claims

請求の範囲

1 . ファイルを複数の区間に分割して複数の圧縮パラメータを用いてフアイルの各区間を圧縮する圧縮ステップと、

圧縮されたフアイルを記憶媒体に格納する格納ステッブとを含む、ファイル処理方法。

2. B E縮ステッブは、 risファィル内の語毎の出の分布に基づヽた複数の圧縮パラメータを用いる、請求の範囲第 1項 iaaのフアイゾレ処法。

3. ίίΐ£Ε縮ステップは、圧縮デ一夕の方が非圧縮データより情報量が多くなる区間のデ一夕に対しては、非圧縮デー夕のままとして非 IBtデ一夕を示すフラグを該当区間の制御情報に含める、請求の範囲第 1項 ia¾のフアイノレ処法。

4. 編 2JE縮ステップは、各区間の制御情報に圧縮パラメ一夕のを含める、請求の範囲第 1項記載のファィル処理方法。

5. UEE縮ステップは、 H 区間の終わりを示す終了情報を各区間の末尾に ίί¾Πすると共に、前記区間が固定長の場合は最終区間のみに前 ^了 1 ^を付加して前記最終区間以外の区間では終了情報を削除したことを示すフラグを該当区間の制御籠に含める、請求の範囲第 1項記載のファィノレ処理方法。

6. コンピュータのアプリケーションソフトウェアとはしたドライノ、 *ソフトウェアにより前記記憶媒体から読み出された圧縮ファィルを伸長するステップを更に含む、請求の範囲第 1項記載のファィル処理方法。

7. フアイルを複数の区間に分割して複数の IBtパラメータを用いてフアイルの各区間を圧縮する圧縮処理部と、

IBtされたファイルを記憶媒体に格納する格納処理部とを備えた、データ処理

8. i E縮処理部は、編己ファィル内の語毎の出現繊の分布に基づレ、た複数の圧縮パラメ一夕を用いる、請求の範囲第 7項言 ei¾のデータ処理装 ϋο

9. r¾E縮処理部は、圧縮デ一夕の方が非圧縮デ一夕より情報量が多くなる区間のデー夕に対しては、非圧縮デー夕のままとして非 Ι ϋデ一夕を示すフラグを該当区間の制御情報に含める、請求の範囲第 7項記載のデータ処理装 jto

1 0. 編 fiffi縮処理部は、各区間の制御情報に圧縮パラメ一夕の識別情報を含める、請求の範囲第 7項言のデータ処理装

1 1 . 縮処理部は、謂己区間の終わりを示す終了情報を各区間の末尾に付加すると共に、謂己区間が固定長の場合は最終区間のみに鶴了情報を付加して tn己最終区間以外の区間では終了情報を削除したことを示すフラグを該当区間の制御情報に含める、請求の範囲第 7項のデータ処理装置。

1 2. コンピュータのアプリケーションソフトウェアとはしたドライノヽ * ソフトウェアにより前記記憶媒体から読み出された IBiファィルを伸長する伸長処理部を更に備えた、請求の範囲第 7項記載のデー夕処理装置。

1 3. コンピュータで読み取り可能な情報を格納した記体であって、コンピュータに、フアイルを複数の区間に分割して複数の圧縮ノ、'ラメ一夕を用いてファイルの各区間を圧縮させる圧縮処理手段と、

コンピュー夕に、 ESIされたファイルを記憶手段に格納させる格納処理手段とを備えたプログラムを格納した、記憶媒体。

1 4. SIBS処理手段は、コンピュータに、 1ϊϊ£ファイル内の語毎の出現雖の分布に基づいた複数の I iパラメ一夕を用いさせる、請求の範囲第 1 3項 mの記憶媒体。

1 5. ΙίίΙΞΕ縮処理手段は、コンピュータに、圧縮データの方が非 Ι Ι&デ一夕より情 mが多くなる区間のデー夕に対しては、非圧縮デー夕のままとして非圧縮データを示すフラグを該当区間の制御情報に含めさせる、請求の範囲第 1 3 項記載の記憶媒 ί*ο

1 6. Ιίί Ε縮処理手段は、コンピュータに、各区間の制御情報に圧縮パラメータの識別情報を含めさせる、請求の範囲第 1 3項記載の記憶媒

1 7. 窗 EE縮処理手段は、コンピュータに、 ¾区間の終わりを示す終了情報を各区間の末尾に ί¾Πさせると共に、 ΙΐίΙ己区間が固定長の場合は最終区間のみに前言 ^了情報を (¾1して前記最終区間以外の区間では終了情報を削除したことを示すフラグを該当区間の制御情報に含めさせる、請求の範囲第 1 3項記載の記憶媒体。

1 8. ΙίίΙ2プログラムは、コンピュータに、コンピュータのアプリケ一ションソフトウエアとは¾¾したドライノ Jフトウエアにより爾己記憶手段から読み出された圧縮ファイルを伸長させる伸長処理手段を更に備えた、請求の範囲第 1 3項記載の記憶媒

1 9. コンピュータで読み取り可能な情報を格納した記憶媒体であって、複数の区間に分割されたファイルが、複数の圧縮パラメータを用いて各区間が圧縮されて記憶された領域と、

itneEE縮バラメータが記憶された領域とを有する、記憶媒

2 0. iEEBパラメ一夕は、 ίίΕファイル内の語毎の出^ ¾の分布に基づいている、請求の範囲第 1 9項記載の記憶媒体。

2 1 . IBSデータの方が非圧縮データより情報量が多くなる区間のデータに対しては、非データのままとして非 ffi ^データを示すフラグが該当区間の制御情報に含められている、請求の範囲第 1 9項 ia¾の記憶媒

2 2. 各区間の制御體は、 EfiSパラメータの識別情報を含む、請求の範囲第 1 9項言の記讓

2 3. 編己区間の終わりを示す終了情報が各区間の末尾に ίίίΙΙされると共に、 r¾区間が固定長の場合は最終区間のみに前言冬了情報が付加されて前 Efts^区間以外の区間では終了情報を削除したことを示すフラグが該当区間の制御に含められている、請求の範囲第 1 9項記載の記憶媒体。

2 4. コンピュータのアプリケーションソフトウエアとはしたドライバソフトウエアが更に格納されており、

Ιΐί ドライバソフトウェアは、コンピュータに、記憶媒体から読み出された圧縮フアイルを伸長させる伸長処理手段を備えたプログラムを含む、請求の範囲第

1 9項言の記憶媒

2 5. 複数のパラメ一夕と、 I ^数の IBSパラメータにより原ファイルか数の区間に分割され該区間毎に圧縮された複数の区間データとから構成される圧縮ファィルが記録された記録媒体にァクセスする読み出しステップと、該読み出しステップにより媒体から読み出される区間デ一夕を、該区間データに対応する圧縮パラメータにより伸長する伸長ステップとを含む、フアイル処理方法。

2 6. 複数の圧縮パラメータは、 ίΓ Ι^ファイル内の語毎の出現繊の分布に基づき作成されている、請求の範囲第 2 5項のファイル処理方法。

2 7. ΙίίΕΕΕϋファィルは、非の区間デ一夕と該区間が非圧縮であることを示す非圧縮フラグを更に含み、前記伸長ステップは、前^み出しステップにより ^媒体から読み出される区間データが非圧縮を示すとき該区間デー夕の伸長を抑止する、請求の範囲第 2 5項 El¾のファイル処法。

2 8. H2各区間の制御情報に Iti i Sパラメ一夕の l^iJif gを含む、請求の範囲第 2 5項のファィル処理方法。

2 9 , 前記各区間の制御情報に区間の終わりを示す終了情報が区間データにロされていないことを示す削除フラグを含み、 na^み出しステップは、該削除フラグに基づき最終区間を判断して区間デー夕の読み出しを行う、請求の範囲第 2 5項 12¾のファイル処法。

3 0. 謂己伸長ステップは、 Hii己^媒体へアクセスするための媒体用のドライバソフトウェアにより実行される、請求の範囲第 2 5項言£¾のフアイル処理方法。

3 1. itneie^媒体用のドライバソフトウェアは、コンピュータのアブリケ一シヨンソフトウェアとは¾¾している、請求の範囲第 3 0項言 e¾のファイル処理方法。

3 2. 複数の圧縮パラメータと、謎数の圧縮パラメータにより原ファイルが複数の区間に分割され該区間毎に ΕΕϋされた複数の区間データとから構成される圧縮ファィルがされた媒体へのァクセスを制御するリ一ド処理部と、該リード処理部により^^媒体から読み出される区間データを、該区間デ一夕に対応するパラメ一夕により伸長する伸長処理部とを備えた、データ処理装

3 3. i 複数の I tパラメ一夕は、 ΙίίΕϋファイル内の語毎の出現赚の分布に基づき作成されている、請求の範囲第 3 2項 ¾ のデータ処理装 go

3 4. flSBE縮ファィルは、非圧縮の区間デ一夕と該区間が非 IBTCあることを示す非 IBitフラグを更に含み、 IHIB伸長処理部は、 ίίΕリード処理部により前記記録媒体から読み出される区間データが非圧縮を示すとき該区間データの伸長を抑止する、請求の範囲第 3 2項記載のデータ処理装 go

3 5. ΙίίΕ各区間の制御情報に ΙίίϊΒΕ^ハ'ラメータの翻 IJ を含む、請求の範囲第 3 2項 ΙΕΙ¾のデータ処理装 Ho

3 6. tflfi各区間の制御情報に区間の終わりを示す終了情報が区間デー夕に ίί¾Πされていないことを示す削除フラグを含み、リ一ド処理部は、該削除フラグに基づき区間を判断して区間データの読み出しを制御する、請求の範囲第 3 2項^のデータ処3¾^0

3 7, ίίΐε伸長処理部は、 ΙΐίΕΕϋ媒体へアクセスするための ¾1 ^媒体用のドライバソフトウェアにより実行される、請求の範囲第 3 2項のデータ処理装置。

3 8. ΪΕΪ2 媒体用のドライバソフトウエアは、データ処理装置のアプリケーシヨンソフトウェアとは^している、請求の範囲第 3 7項 iemのデータ処理装 So

3 9. アプリケーションソフトウェアからの読み出し要求に応じて、複数の ^パラメータと、数の! Biパラメータにより原ファイルか数の区間に分割され該区間毎に i Sされた複数の区間データとから構成される EEitファイルがされた媒体へのアクセスを制御するリ一ド処理部と、

該リード処理部により^^媒体から読み出される区間データを、該区間デー夕に対応する IBiパラメ一夕により伸長し、該アプリケーションソフトウエアに供給する伸長処理部とを備えた、データ処理装 ϋο

4 0 , コンピュータで読み取り可能な情報を格納した記∞体であって、コンピュータに、複数の I Sパラメ一夕と、誠数のパラメータにより原ファイルが複数の区間に分割され該区間毎に圧縮された複数の区間データとから構成される I Sファイルが記録された媒体へのアクセスを制御させるリ一ド処理手段と、

コンピュータに、該リード処理手段により^!媒体から読み出される区間デー夕を、該区間デ一夕に対応する ffi^、'ラメ一夕により伸長させる伸長処理手段とを備えたプログラムを格納した、記憶媒^

4 1. tne複数の ffifttパラメータは、 iti^Mファイル内の語毎の出 ¾¾¾の分布に基づき作成されている、請求の範囲第 4 0項言の記誰体。

4 2. ΙίίΐεΕ^ファイルは、非 I iの区間データと該区間か ffiftlであることを示す非 IB宿フラグを更に含み、 ltr¾伸長処理手段は、コンピュータに、 i リ一ド処理手段により Ιίί Ι ^媒体から読み出される区間データが非圧縮を示すとき該区間データの伸長を抑止させる、請求の範囲第 4 0項言纖の記憶媒体。

4 3. ΐϋΕ各区間の制御龍に itrEi パラメ一夕の翻 «赚を含む、請求の範囲第 4 0項纖の記憶媒

4 4. 前記各区間の制御に区間の終わりを示す終了情報が区間デ一夕に ίίίηιされていないことを示す削除フラグを含み、リ一ド処理手段は、コンピュー夕に、該削除フラグに基づき最終区間を判断して区間データの読み出しを制御させる、請求の範囲第 4 0項 mの記憶媒^

4 5. 蘭己伸長処理手段は、コンピュータに、 il己^媒体へアクセスさせるための編媒体用のドライバソフトウエアにより実行される、請求の範囲第

4 0項の記憶媒

4 6. 媒体用のドライバソフトウェアは、コンピュータのアプリケーシヨンソフトウェアとはしている、請求の範囲第 4 5項 lefjの記憶媒体。

4 7. コンピュータで読み取り可能な Itfgを格納した記∞体であって、コンピュータに、アプリケーションソフトウエアからの読み出し要求に応じて、複数の |»ノ、'ラメ一夕と、数の圧縮ノ、'ラメ一夕により原フアイルか ~m数の区間に分割され該区間毎に圧縮された複数の区間データとから構成される I tファィルがされた媒体へのアクセスを制御させるリ一ド処理手段と、

コンピュータに、該リード処理手段により媒体から読み出される区間データを、該区間データに対応する IBtパラメータにより伸長し、該アブリケーシヨンソフトウエアに供給させる伸長処理手段とを備えたプログラムを,した、記憶媒