JPH08190571A

JPH08190571A - 文書検索方法

Info

Publication number: JPH08190571A
Application number: JP7002405A
Authority: JP
Inventors: Atsushi Hatakeyama; 敦畠山; Katsumi Tada; 勝己多田; Kanji Kato; 寛次加藤; Satoshi Asakawa; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-01-11
Filing date: 1995-01-11
Publication date: 1996-07-23
Anticipated expiration: 2019-08-11
Also published as: JP3552318B2

Abstract

(57)【要約】【目的】連接文字情報を用いて、フルテキストサーチを
効率的に行い、検索ノイズを低減するとともに、処理時
間を短縮し、ディスク使用量を削減する。【構成】予め格納されたテキストデータ１４１０をテキ
ストデータ分割プログラム１３１０により一定の件数に
分割し、分割されたテキストデータについて文書識別子
情報作成プログラム１３２０で文書識別子情報を作成
し、作成された文書識別子情報を用いて文字成分表１４
０１、１４０２、１４０３を作成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書データベースを、
所定の文字列すなわち検索語を指定して文書の全文を対
象として検索することにより、所望の文書を検索する文
書検索方法に係わるものである。特に大量な文書を高速
な検索を行う場合に好適な情報検索方法に関し、大規模
文書データベースに適用されるものである。

【０００２】

【従来の技術】先に、文書の登録の際にキーワード付け
を行う必要のないフルテキストサーチ方式を特願平２−
１９３０１５号（特開平３−１７４６５２号公報参照）
で提案した。この方式は、文書を単語単位に圧縮した凝
縮本文と、文書中の使用文字を一文字単位で登録した文
字成分表を用いて、検索語に関連しない文書をふるい落
とすことによってサーチ速度を等価的に高め、フルテキ
ストサーチを実用レベルで高速に行うことを目的とした
ものである。また、この文字成分表を改良し更に高速な
フルテキストサーチを実現する連接文字成分表方式を特
願平３−３４２６９５号（特開平５−１７４０６４号公
報参照）で提案した。この従来技術で用いる連接文字成
分表は、テキストの中に含まれる所定の長さの連接する
文字列を重複なく全て取り出し、これらを含む文書の識
別子情報をビット列で記述するものである。しかし、全
ての連接文字について識別子情報をビット列で記述する
と、文字の組み合わせの個数分だけビット列が必要とな
り、連接文字成分表が膨大な容量になる。そこで、この
従来技術では、ハッシュ関数を用いて１個のビット列に
複数個の連接文字を割り当てるようにして、容量を抑え
る工夫をしている。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
ハッシュ関数を用いて１個のビット列に複数個の連接文
字を割り当てた場合には、同じビット列にまったく別の
連接文字の文書識別子情報も重畳されることになる。従
って、ある連接文字を指定して該当するビット列から文
書識別子情報を取り出した場合、その情報からはまった
く別の連接文字を含む文書が得られる可能性がある。つ
まり、ハッシュ関数を用いた連接文字成分表による検索
結果には検索ノイズが含まれることになる。このこと
は、大量の文書を登録する大規模な文書検索システムで
は、検索語に関連しない不要な文書のふるい落とし、す
なわち絞り込みが適切に行われない可能性があることを
意味し、その場合には検索性能の低下につながる。

【０００４】ハッシュ関数を用いずに、全ての連接文字
についてそれぞれ１個のビット列を対応させることも考
えられるが、その場合にはビット列のデータ量が膨大な
ものとなり、実用的ではない。具体的に説明すると、日
本語で使用する文字コードは、現在約８,０００種類あ
るので、２文字の組み合わせとしての連接文字の種類
は、８,０００×８,０００＝６,４００万種類となる。
登録する文書数を１００万件とした場合、この６,４０
０万種類のそれぞれの連接文字に１００万ｂｉｔの文書
識別子情報を対応させるので、６,４００万種類×１０
０万ｂｉｔ＝８ＴＢｙｔｅもの容量が必要になる。この
文字成分表の大きさに対し、文書本体の大きさを２０Ｋ
Ｂ／件としても、１００万件で、２０ＫＢ×１００万件
＝２０ＧＢｙｔｅであり、圧倒的に文字成分表の容量の
ほうが大きくなってしまう。

【０００５】すなわち、本発明の解決しようとする課題
は、大規模な情報検索システムにおいても検索ノイズの
少ない連接文字成分表を、実用的な容量で実現すること
にある。

【０００６】

【課題を解決するための手段】本発明は、以下の構成を
採ることにより上述の課題を解決する。

【０００７】文書のテキストデータにおける複数の文字
の共起関係を記述した連接文字を連接文字ファイルに重
複なく格納する連接文字格納ステップと、前記連接文字
ファイルに格納された連接文字を参照して、指定した条
件式中の検索語に含まれる連接文字を含む文書を検索結
果の候補とする文書検索方法において、連接文字格納ス
テップとして、テキストデータ中に現れる連接文字成分
の種類および各連接文字成分の出現する文書数を算出
し、算出された文書数が所定のしきい値より大きい場合
は該当文書の文書番号に対応する位置を“１"とするビ
ット列として登録し、しきい値より小さい場合には該当
文書の文書番号をバイナリデータとして格納することを
特徴とする。

【０００８】より詳細に言うと以下の（１）〜（６）の
各ステップに分けることができる。

【０００９】（１）テキストデータ分割ステップ（２）文書識別子情報作成ステップ（３）文書識別子情報マージステップ（４）検索語分割ステップ（５）文書識別子情報探索ステップ（６）文書識別子情報ＡＮＤステップ（１）から（３）は文字成分表の登録のための処理であ
り、（４）から（６）はこれを用いた検索のための処理
である。これより、各ステップの処理内容を説明する。

【００１０】（１）テキストデータ分割ステップ文字成分表への登録の際、文字の組合せの個数および各
組合せに対応する文書識別視の記憶容量を抑えるために
一回に処理する文書数を適切な数に分割する。分割する
文書数は、予め設定してもよいし、登録に使用する計算
機のメモリ容量から算出してもよい。

【００１１】（２）文書識別子情報作成ステップ（１）で分割した文書群のそれぞれについて別個に文書
識別子情報を作成していく。具体的には、文書中に実際
に現われた文字の組合せとその文字の組合せが現われた
文書識別子の情報を対にして格納する。

【００１２】（３）文書識別子情報マージステップ（２）で作成した文書識別子情報を（１）で分割した文
書群の数分マージして、登録文書全体の文字成分表を作
成する。

【００１３】（４）検索語分割ステップ与えられた検索語を登録時と同じ方法で文字の組合せに
分割する。

【００１４】（５）文書識別子情報探索ステップ（４）で分割した文字のそれぞれについて、文書識別子
情報を探索する。

【００１５】（６）文書識別子情報ＡＮＤステップ（５）で得られた文書識別子情報のそれぞれについて、
ＡＮＤ処理を行うことにより、与えられた検索語の全て
の連接文字を含む文書を文字成分表サーチ結果として出
力する。

【００１６】

【作用】以下、これらのステップからなる本発明の文書
検索方法の原理を説明した上で、その作用を説明する。

【００１７】まず、本発明で用いる文字成分表の構成に
ついて説明する。本発明では、連接文字に対応する文書
識別子情報を管理するのに、文字テーブル、ファイルポ
インタテーブルを用いる。図２は文字テーブルおよびフ
ァイルポインタテーブルの概要を示す図である。

【００１８】たとえば、“構成"という文字列を含む文
書を検索する場合には、まず文字テーブルについて
“構"の文字に対応するレコードを参照してファイルポ
インタテーブルへのポインタ情報５８０を得る。次に、
ファイルポインタテーブルの先頭から５８０バイト目か
らの各レコードを参照して、第二文字目が“成"のレコ
ードを探索する。ファイルポインタテーブルには、各連
接文字の第一文字目ごとに、先頭に第二文字目が０のレ
コードを格納しておく。第二文字目が０のレコードに
は、第一文字目の一文字を含んでいる全ての文書の文書
識別子情報へのポインタを格納しておく。すなわち、第
二文字目が０のレコードは、第一文字だけからなる単一
文字に対応する文書識別子情報をアクセスするためのフ
ァイル識別子（以後ファイルＩＤとも呼ぶ）とファイル
内バイト位置（以後オフセットとも呼ぶ）を格納する。
したがって、各連接文字ごとに第二文字目が０のレコー
ドが必ず存在するため、例えば、“構成"の連接文字を
探索する場合は、“構"に対応するファイルポインタテ
ーブルの先頭から５８０バイト目のレコードから探索を
開始し、再び第二文字目が０になるまで探索を続け、も
し“成"の文字が見つからない場合は、該当する連接文
字がないと判断できる。図２の例では、“成"のレコー
ドが存在するため、ここからファイルＩＤが１、オフセ
ットが１０３４という文書識別子情報へアクセスするた
めの情報を得ることができる。

【００１９】文書識別子情報は、図３のように複数のフ
ァイルに分割格納する。ファイルポインタテーブルのフ
ァイルＩＤ情報により、どのファイルに文書識別子情報
が格納されているかを特定する。なおかつ特定のファイ
ルＩＤは、文書識別子情報をビット列で持つとあらかじ
め決めておく。図３の例では、ファイル１が文書識別子
情報をビット列で持つファイルとしている。図２の例で
は、連接文字“構成"に関する文書識別子情報へのアク
セス情報として、ファイルＩＤが１、オフセットが１,
０３４が得られる。したがって、ファイル１内の１,０
３４バイト目からのビット列“０１１１０１０１０
１．．．．"が文書識別子情報として得られることにな
る。このビット列は、先頭ビットから文書番号に対応し
て、“１"が連接文字“構成"を含む文書を示すことにな
る。すなわち、この例では、“構成"を含む文書の文書
番号は、１、２、３、５、７、９．．．．となる。図３
の他のファイル（ファイル２及びファイル３）は文書識
別子情報をＩＤリストの形式で格納したものである。各
ＩＤリストの先頭は格納してある文書番号の個数を示し
ている。例えば、連接文字“構造"の場合、図２の例で
は、ファイルＩＤが２、オフセットが３４０であるの
で、ファイル２の先頭から３４０バイト目を参照するこ
とによって、連接文字“構造"を含む文書数が５６個あ
り、文書番号が５６２、１０３８、．．．であることが
わかる。

【００２０】このように、ファイルポインタテーブルに
は、データベース中に存在する連接文字のみを登録する
ので、データベース中に存在しない文字の組み合わせは
全て排除できるという利点がある。したがって、文字テ
ーブルやファイルポインタテーブルで実現している連接
文字の管理情報を格納するファイル量やメモリ量を大幅
に削減することができる。また、文書識別子情報をビッ
ト列あるいはＩＤリストの形式で格納し、多くの文書を
格納する場合はビット列で、少ない文書を格納する場合
はＩＤリストの形式で管理することによりファイル容量
を大幅に削減することができる。具体的に説明すると、
ビットリストの形式で文書識別子情報を格納するには、
常にデータベースに登録した全件分のビット数が必要に
なるが、ＩＤリストの形式で文書識別子情報を格納する
場合には、文書識別子を表わすビット数×登録文書数で
すむことになる。例えば、データベースの全登録件数が
１００万件で、一個の文書識別子情報を表わすのに３２
ビットを割り当てるとすると以下の格納領域が必要とな
る。連接文字“構造"を含む文書を１０件登録する場合
に、ビット列ならば、１００万ｂｉｔ＝１２５ＫＢの格
納領域が必要となるが、ＩＤリスト形式ならば、３２ｂ
ｉｔ×１０件＝４０Ｂの格納領域ですむことになる。一
方、例えば、連接文字“構成"を含む文書が１００万件
中で９０万件ある場合には、ビット列ならば、１００万
ｂｉｔ＝１２５ＫＢの格納領域にすむのに対し、ＩＤリ
スト形式の場合、３２ｂｉｔ×９０万件＝３．６ＭＢの
領域が必要となる。したがって、この１００万件を、文
書識別子32ビットで格納する場合には、１００万ｂｉｔ
÷３２ｂｉｔ＝３１,２５０件を境として、これよりも
登録件数が多い場合はビット列形式で、少ない場合はＩ
Ｄリスト形式で文書識別子情報を格納するのが、最も格
納領域を有効に使用する方法である。

【００２１】次に、このような文字成分表の登録の方法
について、原理を説明する。文字テーブルとファイルポ
インタテーブルを用い、データベース中に用いられる連
接文字のみを文字成分表に登録することにより、ファイ
ル容量を実用容量に抑えることができることは既に説明
した。

【００２２】したがって、登録時に全ての連接文字成分
について管理をしようとすると、メモリ容量が足りなく
なり、文字成分表を作ることが不可能となる。磁気ディ
スクをワークにして情報を一旦退避する方法もあるが、
アクセス速度が遅いので登録処理に極めて時間が掛かる
ことになる。そこで、図４のように登録するテキストデ
ータを分割して、分割したテキストデータ毎に文字成分
表を作成し、最後にこれらをマージして全テキストデー
タの文字成分表を作成する。図４では、全部で２万４千
件のテキストデータを８千件毎に分割して文字成分表を
作成する例を示している。“構成"という連接文字につ
いて、最初の８千件のテキストデータでは、文書番号５
０、１４５、２９０．．．．が文書識別子情報として蓄
えられる。同様に、次の８千件、その次の８千件につい
ても各分割したテキストデータ毎に文字成分表を作成す
る。最後に、それぞれで得られた文書識別子情報をマー
ジして、本図の例では、“構成"の連接文字に対する文
書識別子情報として、５０、１４５、２９０、８０９
６、１２３６５、１７８５１、２２９８９．．．という
情報を作成する。

【００２３】検索の際には、入力された検索語を連接文
字に分割し、それぞれの連接文字に対応する文書識別子
情報を読み出してきて、それらの情報の積集合を取り、
これを文字成分表の検索結果とする。すなわち、“建造
物"という検索語については、“建造"と“造物"の２種
類の連接文字について、それぞれ文字成分表の文書識別
子情報を読み出してそれらの積を演算する。例えば、連
接文字“建造"に対応する文書識別子情報が５６２、１
０３８、２４５８．．．．で、連接文字“造物"に対応
する文書識別子情報が２６１、５６２、２４５
８．．．．の場合は、検索語“建造物"の文字成分表サ
ーチ結果は文書番号で５６２、２４５８．．．．とな
る。

【００２４】このように、各連接文字に対する文書識別
子情報はノイズのない情報であるため、これらの文書識
別子情報を論理式演算（ＡＮＤ）して得られる文字成分
表サーチ結果も、従来のハッシングを行う文字成分表の
サーチ結果に比べ、ハッシングに起因するノイズが除去
されることになり、検索精度が大幅に向上できることに
なる。

【００２５】

【実施例】以下、本発明の実施例について図を用いて詳
細に説明する。

【００２６】図１は、本実施例の構成を示す図である。
本実施例は、登録検索用の端末１０１、１０２、．．．
１１０、ネットワーク２００、文書サーバ１０００から
なる。文書サーバ１０００には、ＬＡＮアダプタ１０１
０、ＣＰＵ１０２０、ワークメモリ１０３０、文字テー
ブル１１００とファイルポインタテーブル１２００を格
納するメモリ、テキストデータ分割プログラム１３１
０、文書識別子情報作成プログラム１３２０、文書識別
子情報マージプログラム１３３０、検索語分割プログラ
ム１３４０、文書識別子情報探索プログラム１３５０、
文書識別子情報ANDプログラム１３６０を格納するメモ
リ、文字成分表を分割して格納するファイル１４０１、
１４０２、．．．、テキストデータ１４１０からなる。

【００２７】データの登録時には、テキストデータ分割
プログラム１３１０で登録する文書データを一定の件数
に分割し、分割したそれぞれのテキストデータについて
文書識別子情報作成プログラム１３２０で文書識別子情
報を作成して、最後に分割して作成したそれぞれの文書
識別子情報を文書識別子情報マージプログラム１３３０
でマージして文字テーブル１１００、ファイルポインタ
テーブル１２００、文字成分表１４０１、１４０２、１
４０３を作成する。

【００２８】また、データの検索時には、各端末から与
えられた検索語を検索語分割プログラム１３４０によっ
て文書識別子情報を作成したときと同じアルゴリズムで
連接文字に分割し、それぞれの連接文字について文書識
別子情報探索プログラム１３５０で該当する文書識別子
情報を文字成分表１４０１、１４０２、１４０３から取
り出す。そして、検索語を構成する全ての連接文字に対
応する文書識別子情報を文書識別子情報ＡＮＤプログラ
ム１３６０によってＡＮＤすることで検索語を含む文書
を文字成分表のサーチ結果とする。

【００２９】まず、データの登録処理に従い、文字成分
表の作成手順を説明し、次に検索処理に従って文字成分
表による候補文書の抽出過程を説明する。作用の項でも
説明したように、大量の文書について文字成分表を一度
に登録するには、大量のメモリを使用しなければならな
いので、本実施例では８,０００件ごとに小さな文字成
分表を作成し、最後に一つの文字成分表に統合する処理
を行う。図５に、この文書識別子情報作成処理の手順を
示す。まず、８,０００件のそれぞれの文書について
（５０１０）連接文字の抽出（５０２０）を行い、切り
出した連接文字についてその出現頻度情報を計数（５０
３０）する。そして、算出した出現頻度にしたがって文
書識別子情報を格納するメモリエリアをワークメモリ上
に確保し、それぞれの連接文字の出現頻度情報が所定の
しきい値より大きい場合にはビット列で各連接文字が出
現する文書番号を文書識別子情報として登録（５０４
０）していく。８,０００件の全ての文書について文書
識別子情報を登録し終わったらファイルに文字テーブ
ル、ファイルポインタテーブル、文書識別子情報を格納
（５０５０）しメモリ領域を解放する。８,０００件単
位にこのように小さな分割文字成分表を作成し、最後に
各分割文字成分表をマージ（５０６０）してデータベー
ス全体の文字成分表を作成する。

【００３０】この分割文字成分表のマージ処理（５０６
０）は、図６に示すとおり各分割文字成分表の文字テー
ブルとファイルポインタテーブルを参照し、それぞれの
連接文字に対応する文書識別子情報を統合する形で進め
ていく。図６は二個の分割文字成分表を一個の文字成分
表に統合する例を示している。具体的な処理の手順を図
７に示す。まず、それぞれの分割文字成分表の文字テー
ブルを参照（７０１０）し、統合した文字テーブルを作
成（７０３０）する。この時文字テーブルの各レコード
について（７０２０）、どちらか一方にしか登録されて
いないレコードについては、登録されている側に記録さ
れているファイルポインタテーブルの各文字について
（７０４０）内容を統合したファイルポインタテーブル
に登録する（７０５０）とともに、ファイルポインタテ
ーブルで管理されている文書識別子情報をマージ前の小
さな文字成分表からマージ後の文字成分表へコピー（７
０６０）していく。また、双方の文字テーブルに同じ文
字が存在する場合には、記録されているファイルポイン
タテーブルの各文字について（７０７０）、ファイルポ
インタテーブルに記載された第二文字目を比較しながら
統合したファイルポインタテーブルを作成（７０８０）
していく。すなわち、ファイルポインタテーブルの第二
文字目が一致しない場合には、該当する文書識別子情報
をコピー（７０９０）し、一致する場合には双方の文書
識別子情報をマージ（７１００）して格納する。

【００３１】この文書識別子情報のマージ及びコピーの
際には、マージ後の登録件数から所定の件数よりも多い
場合にはビット列に、少ない場合にはＩＤリストの形式
にして格納する。

【００３２】以上のマージ処理アルゴリズムを図６を用
いて具体的に説明する。“構"の文字は文字テーブル１
および文字テーブル２のどちらにも存在する。したがっ
て、“構"の文字に対応するファイルポインタテーブル
１の内容とファイルポインタテーブル２の内容を統合フ
ァイルポインタテーブルに登録していく。ファイルポイ
ンタテーブルにおける該当レコードの先頭の第二文字目
が０のレコードは、“構"の一文字を含む文書の識別子
情報をアクセスするための情報を格納している。この第
二文字目が０のレコードはファイルポインタテーブル１
とファイルポインタテーブル２の両方に存在するので、
双方のファイルＩＤとオフセットで与えられる文書識別
子情報をマージして統合文字成分表に登録する。“構"
に対応するファイルポインタテーブルの第２レコード
“成"についても同様である。第３レコードについては
ファイルポインタテーブル１が“造"であるのに対し
て、ファイルポインタテーブル２では“築"と異なって
いる。したがって、それぞれの文書識別子情報をマージ
前の小さな文字成分表から統合文字成分表へコピーす
る。

【００３３】検索処理は、図８に示す手順で行う。ま
ず、検索語から連接文字を切り出す（８０１０）。次
に、切り出したそれぞれの連接文字について（８０２
０）、文字テーブルを探索する（８０３０）。そして、
該当するファイルポインタテーブルの各レコードについ
て、第二文字目の探索を行い（８０４０）該当するファ
イルＩＤとオフセットを得る。こうして、得られた文書
識別子情報を格納したファイルとそのオフセット値よ
り、該当する連接文字に対応するＩＤリストまたはビッ
ト列を読み出し、ＩＤリストの場合にはこれをビット列
に変換することにより文書識別子情報を取得する（８０
５０）。この文書識別子情報の取得の過程で該当する連
接文字が文字成分表に登録されていない場合（８０６
０、８０７０）には、すなわち検索語を構成する連接文
字のうちどれか一つでも文字成分表に登録されていなけ
れば、検索語を含む該当文書がないということを意味す
ることになるため検索結果として０件という結果を、文
書識別子情報探索プログラム１３５０がＬＡＮアダプタ
１０１０を介して検索端末に返す。

【００３４】検索語を構成する全ての連接文字について
該当する文書識別子情報が得られた場合は、得られたそ
れぞれの文書識別子情報の積集合をとることによって、
指定された検索語中の全ての連接文字を含む文書のみを
抽出することができる。

【００３５】このようにして得られた文字成分表の検索
結果は、検索ノイズが非常に少ないので、文字成分表の
サーチ結果を表示しても十分実用できる。もちろん、文
字成分表のサーチ結果をもとに、文書本文を検索し実際
に検索語を含む文書のみに絞り込むかあるいは、複数の
検索語間の位置的関係を満たす文書を探すことも可能で
ある。また、文字成分表の検索結果を一度検索端末に表
示し、ユーザの指定により本文の探索を行うかどうかを
決定してもよい。

【００３６】以上、本実施例によれば、データベース中
に存在する連接文字のみを登録するので、データベース
中に存在しない文字の組み合わせは全て排除できるとい
う利点がある。また、文書識別子情報をビット列とＩＤ
リストの形式で格納し、多くの文書識別子情報を格納す
る場合はビット列で、少ない文書識別子情報を格納する
場合はＩＤリストの形式で格納することでファイル容量
を大幅に削減することができる。

【００３７】さらに、各連接文字に対して文書識別子情
報は必ずその連接文字を含むノイズのない情報であるか
ら、これらの文書識別子情報をＡＮＤして得られる文字
成分表サーチ結果も、検索精度を大幅に向上することが
できる。

【００３８】また、本発明によれば２文字以上の連接文
字についても登録することにより、さらに文字成分表サ
ーチの検索ノイズを少なくすることも可能である。

【００３９】

【発明の効果】本発明によれば、文書識別子情報をビッ
ト列とＩＤリストのどちらかの形式で選択的に格納する
ことにし、多くの文書識別子情報を格納する場合はビッ
ト列で、少ない文書識別子情報を格納する場合はＩＤリ
ストの形式で格納することでファイル容量を大幅に削減
することができる。

【００４０】また、各連接文字に対して文書識別子情報
は必ずその連接文字を含むノイズのない情報であり、こ
れらの文書識別子情報を検索語の連接文字の個数分ＡＮ
Ｄするので、文字成分表サーチの検索精度を大幅に向上
することができる。これにより、検索語間の位置的な条
件などを検索する場合にも、より本文情報の検索範囲を
狭めることができるという利点がある。

【００４１】さらに、文字テーブル及びファイルポイン
タテーブルを用いることにより、データベース中に存在
する連接文字のみを登録するので、データベース中に存
在しない文字の組み合わせは全て排除できるので、連接
文字を管理するために必要なメモリ量を少なくできると
いう利点がある。

【００４２】さらにまた、文字成分表の登録の際に、登
録文書を分割して小さな分割文字成分表を作成し、後で
これらの分割文字成分表をマージして目的の文字成分表
を作成することにより、少ないメモリ容量でも効率的に
大きなデータベースの文字成分表を作成することができ
る。

【図面の簡単な説明】

【図１】本発明の第一の実施例の構成図である。

【図２】文字成分表のテーブル構成図である。

【図３】文書識別子情報格納ファイルの概要を示す図で
ある。

【図４】文字成分表登録処理の概要を示す図である。

【図５】登録処理の流れを示すＰＡＤ図である。

【図６】分割文字成分表の統合処理を示す概念図であ
る。

【図７】統合処理の流れを示すＰＡＤ図である。

【図８】検索処理の流れを示すＰＡＤ図である。

フロントページの続き (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウエア開発本部内

Claims

【特許請求の範囲】

【請求項１】文書のテキストデータにおける複数の文字
の共起関係を記述した連接文字を連接文字ファイルに重
複なく格納する連接文字格納ステップと、前記連接文字
ファイルに格納された連接文字を参照して、指定した条
件式中の検索語に含まれる連接文字を含む文書を検索結
果の候補とする文書検索方法において、前記連接文字格納ステップとして、テキストデータ中に
現れる連接文字成分の種類および各連接文字成分の出現
する文書数を算出し、算出された前記文書数が所定のしきい値より大きい場合
は該当文書の文書番号に対応する位置を“１"とするビ
ット列として登録し、前記しきい値より小さい場合には
該当文書の文書番号をバイナリデータとして格納するこ
とを特徴とする文書検索方法。
【請求項２】請求項１に記載の文書検索方法において、前記連接文字格納ステップは、統計情報を用いて予測し
た各連接文字成分の出現頻度を算出し、算出された前記出現頻度が所定のしきい値より大きい場
合は該当文書の文書番号に対応する位置を“１"とする
ビット列として登録し、前記しきい値より小さい場合に
は該当文書の文書番号をバイナリデータとして格納する
ことを特徴とする文書検索方法。
【請求項３】請求項１または請求項２に記載の文書検索
方法において、格納された全文書数をＮ、文書番号を表わすバイナリデ
ータのビット数をＲとしたとき、前記しきい値をＮ／Ｒ
とすることを特徴とする文書検索方法。
【請求項４】請求項１乃至請求項３のいずれかに記載の
文書検索方法において、前記連接文字検索ステップとして、各連接文字の第一文
字目を配列の要素とする文字テーブルと、第二文字目及
びその連接文字を含む文書の識別子情報を格納したファ
イルへのポインタ情報を格納するファイルポインタテー
ブルを持ち、前記文字テーブルに前記ファイルポインタテーブルへの
ポインタ情報を格納し、指定した検索条件式中の検索語に含まれる各連接文字に
ついて、前記文字テーブルを参照して第二文字目を格納
するファイルポインタテーブルへのポインタ情報を得て
前記ファイルポインタテーブルを参照して各連接文字を
含む文書の文書識別子情報を得ることを特徴とする文書
検索方法。
【請求項５】文書のテキストデータにおける連接文字を
連接文字ファイルに重複なく格納する連接文字格納ステ
ップと、指定した条件式中の検索語に含まれる連接文字を含む文
書を、前記連接文字ファイルを参照して検索結果の候補
とする連接文字検索ステップを持つ文書検索方法におい
て、前記連接文字格納ステップとして、登録文書を所定の規
則にしたがって所定の文書数に分割し、分割したそれぞ
れの文書群に対して、連接文字を切り出すとともに各連
接文字に対応する文書識別子の情報を作成し、後でこれ
らの文書識別子情報をマージすることにより、文書の登
録を行うことを特徴とした文書検索方法。
【請求項６】請求項５記載の文書検索方法において、前記連接文字格納ステップとして、所定ビット数の整数
倍の数を単位に各連接文字に対応する文書識別子情報の
作成を行うことを特徴とする文書検索方法。
【請求項７】請求項５記載の文書検索方法において、前記連接文字格納ステップとして、各連接文字に対応す
る文書識別子情報を格納するメモリの容量が所定値を超
えない範囲の文書数を単位に、各連接文字に対応する文
書識別子情報の作成を行うことを特徴とする文書検索方
法。
【請求項８】請求項５乃至請求項７のいずれかに記載の
文書検索方法において、前記連接文字検索ステップで、検索結果の候補とされた
文書をすべて検索結果として出力することを特徴とする
文書検索方法。