JP2000298668A - 情報検索システムの情報格納装置及び方法 - Google Patents

情報検索システムの情報格納装置及び方法

Info

Publication number
JP2000298668A
JP2000298668A JP11104309A JP10430999A JP2000298668A JP 2000298668 A JP2000298668 A JP 2000298668A JP 11104309 A JP11104309 A JP 11104309A JP 10430999 A JP10430999 A JP 10430999A JP 2000298668 A JP2000298668 A JP 2000298668A
Authority
JP
Japan
Prior art keywords
segment
word
file
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11104309A
Other languages
English (en)
Inventor
Yoshiaki Yamazaki
義明 山崎
Tatsuya Nakamura
竜也 中村
Yoshihiro Kawabe
義宏 川辺
Norikazu Isobe
則和 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP11104309A priority Critical patent/JP2000298668A/ja
Publication of JP2000298668A publication Critical patent/JP2000298668A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索時間を短縮することができる情報検索シ
ステムにおける情報格納装置を提供する。 【解決手段】 1つのファイル1の中に、各単語毎のD
F(文書出現頻度)情報を持っているDLセグメント3
と、各単語毎のTF(単語出現頻度)情報を持っている
TLセグメント5と、単語の実データを持っているWD
セグメント7と、それらのセグメントのセグメントID
が格納されているセグメント9とが存在する。辞書に登
録されている全ての単語についてTL,DL,WDのセ
グメント3,5,7のセットがファイル1内に存在す
る。ファイル1内のセグメントに対するユーザによる参
照や変更は、ファイル内の必要なセグメントをユーザの
メモリ空間にマップすることにより行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索システム
における情報格納装置に関する。
【0002】
【従来の技術】情報検索システムでは、検索結果のラン
キングをするために、TF,DFを使用する。ここでラ
ンキングとは、検索結果の文章にスコアを付け、順序付
けをすることである。またTFとは、「Term Frequenc
y」の略で、単語出現頻度、即ち、文書内である単語が
出現する回数を表す。またDFとは、「Document Frequ
ency」の略で、文書出現頻度、即ち、ある単語に対し
て、その単語を含む文書が出現する回数を表す。
【0003】TF,DFは、辞書にある有効な単語すべ
てに必要である。このTF,DFを効率よく短時間で取
り出すことが検索時間の短縮につながる。従来の技術で
は、TF,DF等の検索に必要な情報を検索要求がある
ごとに計算する方式と、TF,DFを予め計算しておき
ファイルに格納しておく方式とがある。また後者には、
1ファイルの中に1単語分のTF,DFを格納する方式
と、1ファイルの各行に各単語のTF,DFを割り当て
る方式との2種類がある。
【0004】
【発明が解決しようとする課題】従来の情報検索システ
ムにおいて、TF,DFの計算を検索時に行う方式の場
合、その計算に時間が掛かり、検索速度を低下させてい
た。また、各単語のTF,DFの登録時に計算を行って
おき、それをファイルに貯めておく方式の場合でも、1
単語に1ファイルを割り当てる構成だと、多数のファイ
ルのオープン・クローズのオーバーヘッドが大きくな
り、検索時間が短縮できない。
【0005】また、各単語のTF,DFをファイルの各
行に割り当てる構成にすると、単語データヘアクセスし
たとき、ファイルのすべての行を検索しなくてはなら
ず、検索時間が短縮できない。また、単語データが頻繁
に変更される場合、変更の完全性を保証するために、変
更が終了するまで他単語のデータにアクセスすることが
できないので、検索要求の遅延につながる。
【0006】本発明は、検索時間を短縮することができ
る情報検索システムにおける情報格納装置を提供するこ
とを目的とするものである。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明の情報格納措置は、多数の単語の単語インデ
ックス(TFやDF等の検索に必要な情報)をそれぞれ
1個のファイル内のセグメント(ファイル中の小領域)
として、それら多数の小規模なセグメントを1個のファ
イルとして管理する。そして、ユーザによるセグメント
へのアクセス(参照や変更(登録や削除も含む))は、
ファイル内の必要なセグメントを全てユーザのメモリ空
間にマップして、ユーザメモリ空間上で行うようにす
る。
【0008】多数の単語インデックスの各々を1個のフ
ァイル内のセグメントとしての管理することにより、フ
ァイルのオープン・クローズのオーバーヘッドが無くな
る。また、必要な各単語のセグメントをすべてユーザの
メモリ空間にマップして、ユーザメモリ空間上でセグメ
ントの情報の参照、登録、変更、削除などを行うことに
より、ファイルを1回オープンすれば、他の余分なファ
イルオープン・クローズ無しに任意の単語インデックス
へのアクセスが可能になる。また、単語インデックスが
増減しても、セグメントの増減だけで対処することがで
き、セグメント内の情報の変更も各セグメントで独立し
て行える。
【0009】そのため、従来技術にあったファイルのオ
ープン・クローズ、テーブル検索の遅延が解決でき、情
報検索の検索速度を向上することができる。
【0010】本発明の情報格納装置は、典型的にはコン
ピュータにより実施することができるが、そのためのコ
ンピュータプログラムは、記録ディスク、半導体メモ
リ、ネットワーク通信信号などの各種の媒体を通じてコ
ンピュータにインストール又はロードすることができ
る。
【0011】
【発明の実施の形態】以下、本発明の実施の形態を具体
的に説明する。
【0012】図1は本発明の一実施形態にかかる情報検
索システムにおける情報格納装置のファイル構成図であ
る。このシステムは、典型的にはコンピュータシステム
を用いて実施することができるが、必ずしもそうでなけ
ればならないわけではなく、専用ハードウェアロジック
回路によって実施することも、それらを組み合わせるこ
ともできる。
【0013】図1に示すように、1つのファイル1の中
に、各単語毎に、DLのセグメント3、TLのセグメン
ト5、WDのセグメント7が存在する。TL,DL,W
Dのセグメント3,5,7のセットは、辞書に登録され
ている単語の数だけある。つまり、単語数×3(DL,
TL,WDのセグメント)の個数のセグメントがこの1
ファイルの中にある。更に、この同じファイル1内に
は、このファイル1内の全てのTL,DL,WDのセグ
メントのセグメントIDが格納されているセグメントI
Dテーブルのセグメント9が存在する。
【0014】ここで、DLとは、DFリストの略で、各
単語毎のDF情報(図示のように、その単語が出現する
文書の文書IDと、その単語についてのその文書のDF
(文書出現頻度))を持っている。また、TLは、TF
リストの略で、各単語毎のTF情報(図示のように、そ
の単語が出現する文書の文書IDと、その文書内でのそ
の単語のTF(単語出現頻度))を持っている。また、
WDは、Wordの略で、その単語の実データ(図示のよう
に、その単語ののデータ長と、その単語のデータそれ自
体)を持っている。
【0015】セグメントIDテーブルのセグメント9に
は、各単語のSEQ(シーケンスID:各単語に対して
任意に割り当てられた整数)と、各単語のTL,DL,
WDのセグメントのSegId(セグメントID:各セ
グメントに割り当てられた任意の整数番号)が含まれて
いる。好ましくは、TL,DL,WDのセグメントにつ
いて、SegIdだけでなく、SegQId(クイック
セグメントID:各セグメントの物理的位置を表す数
値、例えば物理アドレス値そのもの)も含まれている。
【0016】なお、セグメント3、5、7、9はファイ
ル1内のデータの論理的な区分けであり、物理的にはデ
ータが連続的にファイル1に格納されている。そのた
め、ファイル内の1行に1データを割り当てていた従来
技術に比較すると、ファイルのデータ量は格段に少な
い。
【0017】図2は情報検索の全体動作を示すフローチ
ャートである。
【0018】まず、検索に必要な単語の情報を取得し、
その単語に係るTL,DL,WDセグメントをもったフ
ァイル1をオープンする。ファイル1をオープンすると
き、オープンしようとするアプリケーションプログラム
に予め登録されているマジックデータ(セグメントにア
クセスする関数に埋め込まれている)と、ファイル1に
対応して予め設定されているマジックデータとの照合を
行う(S1)。ここで、マジックデータとは、セグメン
ト作成者(アプリケーションプログラム作成者)が任意
に決定した整数であり、ファイル1の作成時に引数とし
て渡されるものである。マジックデータの照合の結果、
一致が得られれば(つまり、アプリケーションプログラ
ムがもつマジックデータが正しければ)ファイル1のオ
ープンに成功し(S2)、一致が得られなければ(つま
り、アプリケーションプログラムがもつマジックデータ
が正しくなければ)ファイル1のオープンに失敗する
(S10)。
【0019】ファイル1のオープンに成功したら(S
2)、ファイル1内のシーケンスIDテーブルセグメン
ト9から、対象の単語に係るTL,DL又はWDセグメ
ントのセグメントID(SegId)を取得する(S
3)。次に、取得したセグメントIDからそのセグメン
トの物理的位置を検索する(S5)(セグメントの実際
の物理的配置を示す配置情報は独立して保持されており
(図示省略)、セグメントIDから配置情報を取得する
ために2進木検索インデックスを用いる)。なお、この
とき、シーケンスIDテーブルセグメント9が各セグメ
ントのクイックセグメントID(SegQId)を保持
している場合は(S4でYES)、そのクイックセグメ
ントIDがそのままセグメントの物理的な位置を表して
いるので、その物理的位置を検索することなく取得でき
る。
【0020】セグメントの物理的な位置を把握したら、
そのセグメントをファイル1から読み出しユーザのメモ
リ空間にマップする(S6)。ユーザは、このメモリ上
の値を参照又は変更することによって、ファイル1の中
の情報にアクセスすることができる(S7)。ユーザ
は、メモリ上の情報の参照又は変更が終了後、そのセグ
メントのリリースを行うことによって、そのセグメント
のメモリ上からの開放が行われる(S8)。そして、フ
ァイル1のクローズによって、ユーザにより変更された
セグメントの情報がファイル1に書き込まれる(S
9)。
【0021】図3は情報検索におけるファイル1内の動
作を示す図である。
【0022】図2に示したステップS3の処理により、
セグメントIDテーブルセグメント9から、例えばSE
Q=1の単語のDLセグメントのSegId(又は、S
egQId)が取得され、続くステップ5の処理で、該
当するDLセグメント3の物理的位置が取得され、続く
ステップS6の処理で、そのDLセグメント3がユーザ
のメモリ空間11にマップされる。メモリ11上にマッ
プされたDLセグメント3´をユーザが参照又は変更
し、その後にファイルがクローズされると、ステップS
9の処理で、ユーザに変更されたDLセグメント3´の
情報がファイル1に書き込まれる(つまり、ファイル1
内のDLセグメント3の情報が更新される)。
【0023】以上説明した実施形態では、1つのファイ
ル1内に多数の単語のTF、DFがそれぞれセグメント
として格納され、ファイル1内のセグメントがそのまま
の形でユーザのメモリ空間11にマップされる。ユーザ
のメモリ空間11にマップすることによって余分なファ
イルオープン・クローズのオーバーヘッドを省くことが
できる。また、ユーザは、メモリ11上の値を参照、変
更することによってファイル1の中身の値を参照、変更
することができる。
【0024】また、上記の実施形態では、実際のセグメ
ントのある配置情報はセグメントIDから独立して持っ
ているため、セグメントIDから配置情報を取得するた
めに2進木検索インデックスを用いている。しかし、多
数のセグメントを交互に複数回参照するような場合にセ
グメントIDの検索時間が利用する側に影響を及ぼす。
これを回避するために、敢えてセグメントのファイル配
置に対応した情報(セグメントクイックID)を用い
て、個々のセグメントに直接アクセスするインターフェ
ースも用意し、作業時間を短縮している。
【0025】また、上記実施形態では、ファイルへのア
クセスは、構造を意識して行う必要がある。しかし、そ
の構造を意識しないプログラムからアクセスされること
で、論理的な不整合を起こすことが予想される。これを
回避するため、正規のプログラムアクセスかどうかチェ
ックするため、プログラムのマジックデータとセグメン
トのマジックデータを比較する。マジックデータが合わ
ないとき、ファイルのオープンを行わない。それによっ
て、不正なプログラムからのファイル破壊に対処し、フ
ァイルの整合性を確保する。
【0026】このように多数の小規模な単語別のインデ
ックスをセグメントとし、それらを1つのファイルとし
て管理し、検索に必要なセグメントをユーザのメモリ空
間にマップしてユーザにアクセスさせることによって、
検索に必要なファイルのオープン・クローズのオーバヘ
ッドが減り、検索時間が短縮できる。また、小規模の多
数のインデックスを1ファイルとして扱うことにより、
ファイルを多数作成する必要が無くなり、ファイル管理
に必要となる情報が減り、運用がしやすくなる。
【図面の簡単な説明】
【図1】本発明の一実施形態にかかる情報格納装置のフ
ァイル構成図である。
【図2】同実施形態の情報検索の全体動作を示すフロー
チャートである。
【図3】同実施形態の情報検索におけるファイル内の動
作を示す図である。
【符号の説明】
1 ファイル 3 DLのセグメント 5 TLのセグメント 7 WDのセグメント 9 セグメントIDテーブルのセグメント
───────────────────────────────────────────────────── フロントページの続き (72)発明者 川辺 義宏 東京都練馬区旭丘1−51−13 ふぁみりい CH3−E (72)発明者 磯部 則和 埼玉県浦和市栄和6−8−7−207 Fターム(参考) 5B075 ND03 NK02 NK54 PR04 UU06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 情報検索システムにおける、検索に必要
    な単語別の単語インデックスを格納した情報格納装置に
    おいて、 多数のセグメントを1個のファイルとして管理し、各セ
    グメントには1つの単語の前記単語インデックスが割り
    当てられており、 更に、ユーザのメモリ空間を有し、前記セグメントにユ
    ーザがアクセスするとき、前記ファイル内の前記セグメ
    ントを前記ユーザのメモリ空間にマップして、このメモ
    リ空間上のセグメントに対してユーザに参照又は変更を
    行わせる、情報検索システムの情報格納装置。
  2. 【請求項2】 前記インデックス情報には単語出現頻度
    及び文書出現頻度が含まれれる請求項1記載の情報格納
    装置。
  3. 【請求項3】 情報検索システムにおける、検索に必要
    な単語別の単語インデックスを格納するための方法にお
    いて、 各セグメントに1つの単語の前記単語インデックスが割
    り当てられているような多数の前記セグメントを1個の
    ファイルとして管理するステップと、 前記セグメントにユーザがアクセスするときに、前記フ
    ァイル内の前記セグメントを前記ユーザのメモリ空間に
    マップして、このメモリ空間上のセグメントに対してユ
    ーザに参照又は変更を行わせるステップと、を有する情
    報検索システムの情報格納方法。
  4. 【請求項4】 情報検索システムにおける、検索に必要
    な単語別の単語インデックスを格納するための方法であ
    って、 各セグメントに1つの単語の前記単語インデックスが割
    り当てられているような多数の前記セグメントを1個の
    ファイルとして管理するステップと、 前記単語インデックスにユーザがアクセスするときに、
    前記ファイル内の前記単語インデックスを前記ユーザの
    メモリ空間にマップして、このメモリ空間にマップした
    単語インデックスに対してユーザに参照又は変更を行わ
    せるステップと、 を有する方法を、コンピュータに実行させるためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP11104309A 1999-04-12 1999-04-12 情報検索システムの情報格納装置及び方法 Pending JP2000298668A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11104309A JP2000298668A (ja) 1999-04-12 1999-04-12 情報検索システムの情報格納装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11104309A JP2000298668A (ja) 1999-04-12 1999-04-12 情報検索システムの情報格納装置及び方法

Publications (1)

Publication Number Publication Date
JP2000298668A true JP2000298668A (ja) 2000-10-24

Family

ID=14377333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11104309A Pending JP2000298668A (ja) 1999-04-12 1999-04-12 情報検索システムの情報格納装置及び方法

Country Status (1)

Country Link
JP (1) JP2000298668A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523152A (ja) * 2008-06-13 2011-08-04 マイクロソフト コーポレーション 検索インデックスフォーマットの最適化

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63253431A (ja) * 1987-04-09 1988-10-20 Nec Software Ltd インバ−テツド構造のデ−タベ−ス検索方式
JPH02158870A (ja) * 1988-12-12 1990-06-19 Nippon Telegr & Teleph Corp <Ntt> データベース検索方式
JPH04262460A (ja) * 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63253431A (ja) * 1987-04-09 1988-10-20 Nec Software Ltd インバ−テツド構造のデ−タベ−ス検索方式
JPH02158870A (ja) * 1988-12-12 1990-06-19 Nippon Telegr & Teleph Corp <Ntt> データベース検索方式
JPH04262460A (ja) * 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523152A (ja) * 2008-06-13 2011-08-04 マイクロソフト コーポレーション 検索インデックスフォーマットの最適化
US8914380B2 (en) 2008-06-13 2014-12-16 Microsoft Corporation Search index format optimizations

Similar Documents

Publication Publication Date Title
CN110275864B (zh) 索引建立方法、数据查询方法及计算设备
US9953107B2 (en) Memory system including key-value store
TW200408980A (en) System and method for managing file names for file system filter drivers
US20240028560A1 (en) Directory management method and system for file system based on cuckoo hash and storage medium
JP2005267600A5 (ja)
WO2018064962A1 (zh) 数据存储方法、电子设备和计算机非易失性存储介质
CN112867999B (zh) 基于版本的表锁定
CN114327642B (zh) 一种数据读写的控制方法及电子设备
CN109460406A (zh) 一种数据处理方法及装置
CN111316255A (zh) 数据存储系统以及用于提供数据存储系统的方法
US20180011897A1 (en) Data processing method having structure of cache index specified to transaction in mobile environment dbms
CN110334065A (zh) 一种文件处理方法和系统
JP2000298668A (ja) 情報検索システムの情報格納装置及び方法
CN107203387A (zh) 目标数据库访问方法与系统
CN112162950B (zh) 基于文件系统的数据处理方法、装置和计算机设备
US20230090835A1 (en) Reducing requests using probabilistic data structures
JP3552318B2 (ja) 文書検索方法およびシステム
JP2924786B2 (ja) 疎結合多重計算機システムにおける共有ファイルの排他制御システム、排他制御方法、および排他制御プログラムを記憶する媒体
CN113535714A (zh) 数据的存储方法、读取方法及计算机设备
CN111090614A (zh) Rom快照的读取方法、装置和存储介质
CN114741177B (zh) 一种信息获取方法及装置
US12499089B2 (en) Directory tree delete as a supported file system operation
JP2000066933A (ja) 時系列データ管理方式
JP2002041567A (ja) データベース管理方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JPH1185585A (ja) 完全メモリ常駐型インデックス方法および装置