JP2000298668A

JP2000298668A - 情報検索システムの情報格納装置及び方法

Info

Publication number: JP2000298668A
Application number: JP11104309A
Authority: JP
Inventors: Yoshiaki Yamazaki; 義明山崎; Tatsuya Nakamura; 竜也中村; Yoshihiro Kawabe; 義宏川辺; Norikazu Isobe; 則和磯部
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 1999-04-12
Filing date: 1999-04-12
Publication date: 2000-10-24

Abstract

(57)【要約】【課題】検索時間を短縮することができる情報検索シ
ステムにおける情報格納装置を提供する。【解決手段】１つのファイル１の中に、各単語毎のＤ
Ｆ（文書出現頻度）情報を持っているＤＬセグメント３
と、各単語毎のＴＦ（単語出現頻度）情報を持っている
ＴＬセグメント５と、単語の実データを持っているＷＤ
セグメント７と、それらのセグメントのセグメントＩＤ
が格納されているセグメント９とが存在する。辞書に登
録されている全ての単語についてＴＬ，ＤＬ，ＷＤのセ
グメント３，５，７のセットがファイル１内に存在す
る。ファイル１内のセグメントに対するユーザによる参
照や変更は、ファイル内の必要なセグメントをユーザの
メモリ空間にマップすることにより行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索システム
における情報格納装置に関する。

【０００２】

【従来の技術】情報検索システムでは、検索結果のラン
キングをするために、ＴＦ，ＤＦを使用する。ここでラ
ンキングとは、検索結果の文章にスコアを付け、順序付
けをすることである。またＴＦとは、「Term Frequenc
y」の略で、単語出現頻度、即ち、文書内である単語が
出現する回数を表す。またＤＦとは、「Document Frequ
ency」の略で、文書出現頻度、即ち、ある単語に対し
て、その単語を含む文書が出現する回数を表す。

【０００３】ＴＦ，ＤＦは、辞書にある有効な単語すべ
てに必要である。このＴＦ，ＤＦを効率よく短時間で取
り出すことが検索時間の短縮につながる。従来の技術で
は、ＴＦ，ＤＦ等の検索に必要な情報を検索要求がある
ごとに計算する方式と、ＴＦ，ＤＦを予め計算しておき
ファイルに格納しておく方式とがある。また後者には、
１ファイルの中に１単語分のＴＦ，ＤＦを格納する方式
と、１ファイルの各行に各単語のＴＦ，ＤＦを割り当て
る方式との２種類がある。

【０００４】

【発明が解決しようとする課題】従来の情報検索システ
ムにおいて、ＴＦ，ＤＦの計算を検索時に行う方式の場
合、その計算に時間が掛かり、検索速度を低下させてい
た。また、各単語のＴＦ，ＤＦの登録時に計算を行って
おき、それをファイルに貯めておく方式の場合でも、１
単語に１ファイルを割り当てる構成だと、多数のファイ
ルのオープン・クローズのオーバーヘッドが大きくな
り、検索時間が短縮できない。

【０００５】また、各単語のＴＦ，ＤＦをファイルの各
行に割り当てる構成にすると、単語データヘアクセスし
たとき、ファイルのすべての行を検索しなくてはなら
ず、検索時間が短縮できない。また、単語データが頻繁
に変更される場合、変更の完全性を保証するために、変
更が終了するまで他単語のデータにアクセスすることが
できないので、検索要求の遅延につながる。

【０００６】本発明は、検索時間を短縮することができ
る情報検索システムにおける情報格納装置を提供するこ
とを目的とするものである。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明の情報格納措置は、多数の単語の単語インデ
ックス（ＴＦやＤＦ等の検索に必要な情報）をそれぞれ
１個のファイル内のセグメント（ファイル中の小領域）
として、それら多数の小規模なセグメントを１個のファ
イルとして管理する。そして、ユーザによるセグメント
へのアクセス（参照や変更（登録や削除も含む））は、
ファイル内の必要なセグメントを全てユーザのメモリ空
間にマップして、ユーザメモリ空間上で行うようにす
る。

【０００８】多数の単語インデックスの各々を１個のフ
ァイル内のセグメントとしての管理することにより、フ
ァイルのオープン・クローズのオーバーヘッドが無くな
る。また、必要な各単語のセグメントをすべてユーザの
メモリ空間にマップして、ユーザメモリ空間上でセグメ
ントの情報の参照、登録、変更、削除などを行うことに
より、ファイルを１回オープンすれば、他の余分なファ
イルオープン・クローズ無しに任意の単語インデックス
へのアクセスが可能になる。また、単語インデックスが
増減しても、セグメントの増減だけで対処することがで
き、セグメント内の情報の変更も各セグメントで独立し
て行える。

【０００９】そのため、従来技術にあったファイルのオ
ープン・クローズ、テーブル検索の遅延が解決でき、情
報検索の検索速度を向上することができる。

【００１０】本発明の情報格納装置は、典型的にはコン
ピュータにより実施することができるが、そのためのコ
ンピュータプログラムは、記録ディスク、半導体メモ
リ、ネットワーク通信信号などの各種の媒体を通じてコ
ンピュータにインストール又はロードすることができ
る。

【００１１】

【発明の実施の形態】以下、本発明の実施の形態を具体
的に説明する。

【００１２】図１は本発明の一実施形態にかかる情報検
索システムにおける情報格納装置のファイル構成図であ
る。このシステムは、典型的にはコンピュータシステム
を用いて実施することができるが、必ずしもそうでなけ
ればならないわけではなく、専用ハードウェアロジック
回路によって実施することも、それらを組み合わせるこ
ともできる。

【００１３】図１に示すように、１つのファイル１の中
に、各単語毎に、ＤＬのセグメント３、ＴＬのセグメン
ト５、ＷＤのセグメント７が存在する。ＴＬ，ＤＬ，Ｗ
Ｄのセグメント３，５，７のセットは、辞書に登録され
ている単語の数だけある。つまり、単語数×３（ＤＬ，
ＴＬ，ＷＤのセグメント）の個数のセグメントがこの１
ファイルの中にある。更に、この同じファイル１内に
は、このファイル１内の全てのＴＬ，ＤＬ，ＷＤのセグ
メントのセグメントＩＤが格納されているセグメントＩ
Ｄテーブルのセグメント９が存在する。

【００１４】ここで、ＤＬとは、ＤＦリストの略で、各
単語毎のＤＦ情報（図示のように、その単語が出現する
文書の文書ＩＤと、その単語についてのその文書のＤＦ
（文書出現頻度））を持っている。また、ＴＬは、ＴＦ
リストの略で、各単語毎のＴＦ情報（図示のように、そ
の単語が出現する文書の文書ＩＤと、その文書内でのそ
の単語のＴＦ（単語出現頻度））を持っている。また、
ＷＤは、Wordの略で、その単語の実データ（図示のよう
に、その単語ののデータ長と、その単語のデータそれ自
体）を持っている。

【００１５】セグメントＩＤテーブルのセグメント９に
は、各単語のＳＥＱ（シーケンスＩＤ：各単語に対して
任意に割り当てられた整数）と、各単語のＴＬ，ＤＬ，
ＷＤのセグメントのＳｅｇＩｄ（セグメントＩＤ：各セ
グメントに割り当てられた任意の整数番号）が含まれて
いる。好ましくは、ＴＬ，ＤＬ，ＷＤのセグメントにつ
いて、ＳｅｇＩｄだけでなく、ＳｅｇＱＩｄ（クイック
セグメントＩＤ：各セグメントの物理的位置を表す数
値、例えば物理アドレス値そのもの）も含まれている。

【００１６】なお、セグメント３、５、７、９はファイ
ル１内のデータの論理的な区分けであり、物理的にはデ
ータが連続的にファイル１に格納されている。そのた
め、ファイル内の１行に１データを割り当てていた従来
技術に比較すると、ファイルのデータ量は格段に少な
い。

【００１７】図２は情報検索の全体動作を示すフローチ
ャートである。

【００１８】まず、検索に必要な単語の情報を取得し、
その単語に係るＴＬ，ＤＬ，ＷＤセグメントをもったフ
ァイル１をオープンする。ファイル１をオープンすると
き、オープンしようとするアプリケーションプログラム
に予め登録されているマジックデータ（セグメントにア
クセスする関数に埋め込まれている）と、ファイル１に
対応して予め設定されているマジックデータとの照合を
行う（Ｓ１）。ここで、マジックデータとは、セグメン
ト作成者（アプリケーションプログラム作成者）が任意
に決定した整数であり、ファイル１の作成時に引数とし
て渡されるものである。マジックデータの照合の結果、
一致が得られれば（つまり、アプリケーションプログラ
ムがもつマジックデータが正しければ）ファイル１のオ
ープンに成功し（Ｓ２）、一致が得られなければ（つま
り、アプリケーションプログラムがもつマジックデータ
が正しくなければ）ファイル１のオープンに失敗する
（Ｓ１０）。

【００１９】ファイル１のオープンに成功したら（Ｓ
２）、ファイル１内のシーケンスＩＤテーブルセグメン
ト９から、対象の単語に係るＴＬ，ＤＬ又はＷＤセグメ
ントのセグメントＩＤ（ＳｅｇＩｄ）を取得する（Ｓ
３）。次に、取得したセグメントＩＤからそのセグメン
トの物理的位置を検索する（Ｓ５）（セグメントの実際
の物理的配置を示す配置情報は独立して保持されており
（図示省略）、セグメントＩＤから配置情報を取得する
ために２進木検索インデックスを用いる）。なお、この
とき、シーケンスＩＤテーブルセグメント９が各セグメ
ントのクイックセグメントＩＤ（ＳｅｇＱＩｄ）を保持
している場合は（Ｓ４でＹＥＳ）、そのクイックセグメ
ントＩＤがそのままセグメントの物理的な位置を表して
いるので、その物理的位置を検索することなく取得でき
る。

【００２０】セグメントの物理的な位置を把握したら、
そのセグメントをファイル１から読み出しユーザのメモ
リ空間にマップする（Ｓ６）。ユーザは、このメモリ上
の値を参照又は変更することによって、ファイル１の中
の情報にアクセスすることができる（Ｓ７）。ユーザ
は、メモリ上の情報の参照又は変更が終了後、そのセグ
メントのリリースを行うことによって、そのセグメント
のメモリ上からの開放が行われる（Ｓ８）。そして、フ
ァイル１のクローズによって、ユーザにより変更された
セグメントの情報がファイル１に書き込まれる（Ｓ
９）。

【００２１】図３は情報検索におけるファイル１内の動
作を示す図である。

【００２２】図２に示したステップＳ３の処理により、
セグメントＩＤテーブルセグメント９から、例えばＳＥ
Ｑ＝１の単語のＤＬセグメントのＳｅｇＩｄ（又は、Ｓ
ｅｇＱＩｄ）が取得され、続くステップ５の処理で、該
当するＤＬセグメント３の物理的位置が取得され、続く
ステップＳ６の処理で、そのＤＬセグメント３がユーザ
のメモリ空間１１にマップされる。メモリ１１上にマッ
プされたＤＬセグメント３´をユーザが参照又は変更
し、その後にファイルがクローズされると、ステップＳ
９の処理で、ユーザに変更されたＤＬセグメント３´の
情報がファイル１に書き込まれる（つまり、ファイル１
内のＤＬセグメント３の情報が更新される）。

【００２３】以上説明した実施形態では、１つのファイ
ル１内に多数の単語のＴＦ、ＤＦがそれぞれセグメント
として格納され、ファイル１内のセグメントがそのまま
の形でユーザのメモリ空間１１にマップされる。ユーザ
のメモリ空間１１にマップすることによって余分なファ
イルオープン・クローズのオーバーヘッドを省くことが
できる。また、ユーザは、メモリ１１上の値を参照、変
更することによってファイル１の中身の値を参照、変更
することができる。

【００２４】また、上記の実施形態では、実際のセグメ
ントのある配置情報はセグメントＩＤから独立して持っ
ているため、セグメントＩＤから配置情報を取得するた
めに２進木検索インデックスを用いている。しかし、多
数のセグメントを交互に複数回参照するような場合にセ
グメントＩＤの検索時間が利用する側に影響を及ぼす。
これを回避するために、敢えてセグメントのファイル配
置に対応した情報（セグメントクイックＩＤ）を用い
て、個々のセグメントに直接アクセスするインターフェ
ースも用意し、作業時間を短縮している。

【００２５】また、上記実施形態では、ファイルへのア
クセスは、構造を意識して行う必要がある。しかし、そ
の構造を意識しないプログラムからアクセスされること
で、論理的な不整合を起こすことが予想される。これを
回避するため、正規のプログラムアクセスかどうかチェ
ックするため、プログラムのマジックデータとセグメン
トのマジックデータを比較する。マジックデータが合わ
ないとき、ファイルのオープンを行わない。それによっ
て、不正なプログラムからのファイル破壊に対処し、フ
ァイルの整合性を確保する。

【００２６】このように多数の小規模な単語別のインデ
ックスをセグメントとし、それらを１つのファイルとし
て管理し、検索に必要なセグメントをユーザのメモリ空
間にマップしてユーザにアクセスさせることによって、
検索に必要なファイルのオープン・クローズのオーバヘ
ッドが減り、検索時間が短縮できる。また、小規模の多
数のインデックスを１ファイルとして扱うことにより、
ファイルを多数作成する必要が無くなり、ファイル管理
に必要となる情報が減り、運用がしやすくなる。

【図面の簡単な説明】

【図１】本発明の一実施形態にかかる情報格納装置のフ
ァイル構成図である。

【図２】同実施形態の情報検索の全体動作を示すフロー
チャートである。

【図３】同実施形態の情報検索におけるファイル内の動
作を示す図である。

【符号の説明】

１ファイル３ＤＬのセグメント５ＴＬのセグメント７ＷＤのセグメント９セグメントＩＤテーブルのセグメント

───────────────────────────────────────────────────── フロントページの続き (72)発明者川辺義宏東京都練馬区旭丘１−51−13 ふぁみりいＣＨ３−Ｅ (72)発明者磯部則和埼玉県浦和市栄和６−８−７−207 Ｆターム(参考） 5B075 ND03 NK02 NK54 PR04 UU06

Claims

【特許請求の範囲】

【請求項１】情報検索システムにおける、検索に必要
な単語別の単語インデックスを格納した情報格納装置に
おいて、多数のセグメントを１個のファイルとして管理し、各セ
グメントには１つの単語の前記単語インデックスが割り
当てられており、更に、ユーザのメモリ空間を有し、前記セグメントにユ
ーザがアクセスするとき、前記ファイル内の前記セグメ
ントを前記ユーザのメモリ空間にマップして、このメモ
リ空間上のセグメントに対してユーザに参照又は変更を
行わせる、情報検索システムの情報格納装置。
【請求項２】前記インデックス情報には単語出現頻度
及び文書出現頻度が含まれれる請求項１記載の情報格納
装置。
【請求項３】情報検索システムにおける、検索に必要
な単語別の単語インデックスを格納するための方法にお
いて、各セグメントに１つの単語の前記単語インデックスが割
り当てられているような多数の前記セグメントを１個の
ファイルとして管理するステップと、前記セグメントにユーザがアクセスするときに、前記フ
ァイル内の前記セグメントを前記ユーザのメモリ空間に
マップして、このメモリ空間上のセグメントに対してユ
ーザに参照又は変更を行わせるステップと、を有する情
報検索システムの情報格納方法。
【請求項４】情報検索システムにおける、検索に必要
な単語別の単語インデックスを格納するための方法であ
って、各セグメントに１つの単語の前記単語インデックスが割
り当てられているような多数の前記セグメントを１個の
ファイルとして管理するステップと、前記単語インデックスにユーザがアクセスするときに、
前記ファイル内の前記単語インデックスを前記ユーザの
メモリ空間にマップして、このメモリ空間にマップした
単語インデックスに対してユーザに参照又は変更を行わ
せるステップと、を有する方法を、コンピュータに実行させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。