JPH08190571A - 文書検索方法 - Google Patents
文書検索方法Info
- Publication number
- JPH08190571A JPH08190571A JP7002405A JP240595A JPH08190571A JP H08190571 A JPH08190571 A JP H08190571A JP 7002405 A JP7002405 A JP 7002405A JP 240595 A JP240595 A JP 240595A JP H08190571 A JPH08190571 A JP H08190571A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character
- concatenated
- search
- identifier information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
効率的に行い、検索ノイズを低減するとともに、処理時
間を短縮し、ディスク使用量を削減する。 【構成】予め格納されたテキストデータ1410をテキ
ストデータ分割プログラム1310により一定の件数に
分割し、分割されたテキストデータについて文書識別子
情報作成プログラム1320で文書識別子情報を作成
し、作成された文書識別子情報を用いて文字成分表14
01、1402、1403を作成する。
Description
所定の文字列すなわち検索語を指定して文書の全文を対
象として検索することにより、所望の文書を検索する文
書検索方法に係わるものである。特に大量な文書を高速
な検索を行う場合に好適な情報検索方法に関し、大規模
文書データベースに適用されるものである。
を行う必要のないフルテキストサーチ方式を特願平2−
193015号(特開平3−174652号公報参照)
で提案した。この方式は、文書を単語単位に圧縮した凝
縮本文と、文書中の使用文字を一文字単位で登録した文
字成分表を用いて、検索語に関連しない文書をふるい落
とすことによってサーチ速度を等価的に高め、フルテキ
ストサーチを実用レベルで高速に行うことを目的とした
ものである。また、この文字成分表を改良し更に高速な
フルテキストサーチを実現する連接文字成分表方式を特
願平3−342695号(特開平5−174064号公
報参照)で提案した。この従来技術で用いる連接文字成
分表は、テキストの中に含まれる所定の長さの連接する
文字列を重複なく全て取り出し、これらを含む文書の識
別子情報をビット列で記述するものである。しかし、全
ての連接文字について識別子情報をビット列で記述する
と、文字の組み合わせの個数分だけビット列が必要とな
り、連接文字成分表が膨大な容量になる。そこで、この
従来技術では、ハッシュ関数を用いて1個のビット列に
複数個の連接文字を割り当てるようにして、容量を抑え
る工夫をしている。
ハッシュ関数を用いて1個のビット列に複数個の連接文
字を割り当てた場合には、同じビット列にまったく別の
連接文字の文書識別子情報も重畳されることになる。従
って、ある連接文字を指定して該当するビット列から文
書識別子情報を取り出した場合、その情報からはまった
く別の連接文字を含む文書が得られる可能性がある。つ
まり、ハッシュ関数を用いた連接文字成分表による検索
結果には検索ノイズが含まれることになる。このこと
は、大量の文書を登録する大規模な文書検索システムで
は、検索語に関連しない不要な文書のふるい落とし、す
なわち絞り込みが適切に行われない可能性があることを
意味し、その場合には検索性能の低下につながる。
についてそれぞれ1個のビット列を対応させることも考
えられるが、その場合にはビット列のデータ量が膨大な
ものとなり、実用的ではない。具体的に説明すると、日
本語で使用する文字コードは、現在約8,000種類あ
るので、2文字の組み合わせとしての連接文字の種類
は、8,000×8,000=6,400万種類となる。
登録する文書数を100万件とした場合、この6,40
0万種類のそれぞれの連接文字に100万bitの文書
識別子情報を対応させるので、6,400万種類×10
0万bit=8TByteもの容量が必要になる。この
文字成分表の大きさに対し、文書本体の大きさを20K
B/件としても、100万件で、20KB×100万件
=20GByteであり、圧倒的に文字成分表の容量の
ほうが大きくなってしまう。
は、大規模な情報検索システムにおいても検索ノイズの
少ない連接文字成分表を、実用的な容量で実現すること
にある。
採ることにより上述の課題を解決する。
の共起関係を記述した連接文字を連接文字ファイルに重
複なく格納する連接文字格納ステップと、前記連接文字
ファイルに格納された連接文字を参照して、指定した条
件式中の検索語に含まれる連接文字を含む文書を検索結
果の候補とする文書検索方法において、連接文字格納ス
テップとして、テキストデータ中に現れる連接文字成分
の種類および各連接文字成分の出現する文書数を算出
し、算出された文書数が所定のしきい値より大きい場合
は該当文書の文書番号に対応する位置を“1"とするビ
ット列として登録し、しきい値より小さい場合には該当
文書の文書番号をバイナリデータとして格納することを
特徴とする。
各ステップに分けることができる。
り、(4)から(6)はこれを用いた検索のための処理
である。これより、各ステップの処理内容を説明する。
組合せに対応する文書識別視の記憶容量を抑えるために
一回に処理する文書数を適切な数に分割する。分割する
文書数は、予め設定してもよいし、登録に使用する計算
機のメモリ容量から算出してもよい。
識別子情報を作成していく。具体的には、文書中に実際
に現われた文字の組合せとその文字の組合せが現われた
文書識別子の情報を対にして格納する。
書群の数分マージして、登録文書全体の文字成分表を作
成する。
分割する。
情報を探索する。
AND処理を行うことにより、与えられた検索語の全て
の連接文字を含む文書を文字成分表サーチ結果として出
力する。
検索方法の原理を説明した上で、その作用を説明する。
ついて説明する。本発明では、連接文字に対応する文書
識別子情報を管理するのに、文字テーブル、ファイルポ
インタテーブルを用いる。図2は文字テーブルおよびフ
ァイルポインタテーブルの概要を示す図である。
書を検索する場合には、まず文字テーブルについて
“構"の文字に対応するレコードを参照してファイルポ
インタテーブルへのポインタ情報580を得る。次に、
ファイルポインタテーブルの先頭から580バイト目か
らの各レコードを参照して、第二文字目が“成"のレコ
ードを探索する。ファイルポインタテーブルには、各連
接文字の第一文字目ごとに、先頭に第二文字目が0のレ
コードを格納しておく。第二文字目が0のレコードに
は、第一文字目の一文字を含んでいる全ての文書の文書
識別子情報へのポインタを格納しておく。すなわち、第
二文字目が0のレコードは、第一文字だけからなる単一
文字に対応する文書識別子情報をアクセスするためのフ
ァイル識別子(以後ファイルIDとも呼ぶ)とファイル
内バイト位置(以後オフセットとも呼ぶ)を格納する。
したがって、各連接文字ごとに第二文字目が0のレコー
ドが必ず存在するため、例えば、“構成"の連接文字を
探索する場合は、“構"に対応するファイルポインタテ
ーブルの先頭から580バイト目のレコードから探索を
開始し、再び第二文字目が0になるまで探索を続け、も
し“成"の文字が見つからない場合は、該当する連接文
字がないと判断できる。図2の例では、“成"のレコー
ドが存在するため、ここからファイルIDが1、オフセ
ットが1034という文書識別子情報へアクセスするた
めの情報を得ることができる。
ァイルに分割格納する。ファイルポインタテーブルのフ
ァイルID情報により、どのファイルに文書識別子情報
が格納されているかを特定する。なおかつ特定のファイ
ルIDは、文書識別子情報をビット列で持つとあらかじ
め決めておく。図3の例では、ファイル1が文書識別子
情報をビット列で持つファイルとしている。図2の例で
は、連接文字“構成"に関する文書識別子情報へのアク
セス情報として、ファイルIDが1、オフセットが1,
034が得られる。したがって、ファイル1内の1,0
34バイト目からのビット列“011101010
1...."が文書識別子情報として得られることにな
る。このビット列は、先頭ビットから文書番号に対応し
て、“1"が連接文字“構成"を含む文書を示すことにな
る。すなわち、この例では、“構成"を含む文書の文書
番号は、1、2、3、5、7、9....となる。図3
の他のファイル(ファイル2及びファイル3)は文書識
別子情報をIDリストの形式で格納したものである。各
IDリストの先頭は格納してある文書番号の個数を示し
ている。例えば、連接文字“構造"の場合、図2の例で
は、ファイルIDが2、オフセットが340であるの
で、ファイル2の先頭から340バイト目を参照するこ
とによって、連接文字“構造"を含む文書数が56個あ
り、文書番号が562、1038、...であることが
わかる。
は、データベース中に存在する連接文字のみを登録する
ので、データベース中に存在しない文字の組み合わせは
全て排除できるという利点がある。したがって、文字テ
ーブルやファイルポインタテーブルで実現している連接
文字の管理情報を格納するファイル量やメモリ量を大幅
に削減することができる。また、文書識別子情報をビッ
ト列あるいはIDリストの形式で格納し、多くの文書を
格納する場合はビット列で、少ない文書を格納する場合
はIDリストの形式で管理することによりファイル容量
を大幅に削減することができる。具体的に説明すると、
ビットリストの形式で文書識別子情報を格納するには、
常にデータベースに登録した全件分のビット数が必要に
なるが、IDリストの形式で文書識別子情報を格納する
場合には、文書識別子を表わすビット数×登録文書数で
すむことになる。例えば、データベースの全登録件数が
100万件で、一個の文書識別子情報を表わすのに32
ビットを割り当てるとすると以下の格納領域が必要とな
る。連接文字“構造"を含む文書を10件登録する場合
に、ビット列ならば、100万bit=125KBの格
納領域が必要となるが、IDリスト形式ならば、32b
it×10件=40Bの格納領域ですむことになる。一
方、例えば、連接文字“構成"を含む文書が100万件
中で90万件ある場合には、ビット列ならば、100万
bit=125KBの格納領域にすむのに対し、IDリ
スト形式の場合、32bit×90万件=3.6MBの
領域が必要となる。したがって、この100万件を、文
書識別子32ビットで格納する場合には、100万bit
÷32bit=31,250件を境として、これよりも
登録件数が多い場合はビット列形式で、少ない場合はI
Dリスト形式で文書識別子情報を格納するのが、最も格
納領域を有効に使用する方法である。
について、原理を説明する。文字テーブルとファイルポ
インタテーブルを用い、データベース中に用いられる連
接文字のみを文字成分表に登録することにより、ファイ
ル容量を実用容量に抑えることができることは既に説明
した。
について管理をしようとすると、メモリ容量が足りなく
なり、文字成分表を作ることが不可能となる。磁気ディ
スクをワークにして情報を一旦退避する方法もあるが、
アクセス速度が遅いので登録処理に極めて時間が掛かる
ことになる。そこで、図4のように登録するテキストデ
ータを分割して、分割したテキストデータ毎に文字成分
表を作成し、最後にこれらをマージして全テキストデー
タの文字成分表を作成する。図4では、全部で2万4千
件のテキストデータを8千件毎に分割して文字成分表を
作成する例を示している。“構成"という連接文字につ
いて、最初の8千件のテキストデータでは、文書番号5
0、145、290....が文書識別子情報として蓄
えられる。同様に、次の8千件、その次の8千件につい
ても各分割したテキストデータ毎に文字成分表を作成す
る。最後に、それぞれで得られた文書識別子情報をマー
ジして、本図の例では、“構成"の連接文字に対する文
書識別子情報として、50、145、290、809
6、12365、17851、22989...という
情報を作成する。
字に分割し、それぞれの連接文字に対応する文書識別子
情報を読み出してきて、それらの情報の積集合を取り、
これを文字成分表の検索結果とする。すなわち、“建造
物"という検索語については、“建造"と“造物"の2種
類の連接文字について、それぞれ文字成分表の文書識別
子情報を読み出してそれらの積を演算する。例えば、連
接文字“建造"に対応する文書識別子情報が562、1
038、2458....で、連接文字“造物"に対応
する文書識別子情報が261、562、245
8....の場合は、検索語“建造物"の文字成分表サ
ーチ結果は文書番号で562、2458....とな
る。
子情報はノイズのない情報であるため、これらの文書識
別子情報を論理式演算(AND)して得られる文字成分
表サーチ結果も、従来のハッシングを行う文字成分表の
サーチ結果に比べ、ハッシングに起因するノイズが除去
されることになり、検索精度が大幅に向上できることに
なる。
細に説明する。
本実施例は、登録検索用の端末101、102、...
110、ネットワーク200、文書サーバ1000から
なる。文書サーバ1000には、LANアダプタ101
0、CPU1020、ワークメモリ1030、文字テー
ブル1100とファイルポインタテーブル1200を格
納するメモリ、テキストデータ分割プログラム131
0、文書識別子情報作成プログラム1320、文書識別
子情報マージプログラム1330、検索語分割プログラ
ム1340、文書識別子情報探索プログラム1350、
文書識別子情報ANDプログラム1360を格納するメモ
リ、文字成分表を分割して格納するファイル1401、
1402、...、テキストデータ1410からなる。
プログラム1310で登録する文書データを一定の件数
に分割し、分割したそれぞれのテキストデータについて
文書識別子情報作成プログラム1320で文書識別子情
報を作成して、最後に分割して作成したそれぞれの文書
識別子情報を文書識別子情報マージプログラム1330
でマージして文字テーブル1100、ファイルポインタ
テーブル1200、文字成分表1401、1402、1
403を作成する。
えられた検索語を検索語分割プログラム1340によっ
て文書識別子情報を作成したときと同じアルゴリズムで
連接文字に分割し、それぞれの連接文字について文書識
別子情報探索プログラム1350で該当する文書識別子
情報を文字成分表1401、1402、1403から取
り出す。そして、検索語を構成する全ての連接文字に対
応する文書識別子情報を文書識別子情報ANDプログラ
ム1360によってANDすることで検索語を含む文書
を文字成分表のサーチ結果とする。
表の作成手順を説明し、次に検索処理に従って文字成分
表による候補文書の抽出過程を説明する。作用の項でも
説明したように、大量の文書について文字成分表を一度
に登録するには、大量のメモリを使用しなければならな
いので、本実施例では8,000件ごとに小さな文字成
分表を作成し、最後に一つの文字成分表に統合する処理
を行う。図5に、この文書識別子情報作成処理の手順を
示す。まず、8,000件のそれぞれの文書について
(5010)連接文字の抽出(5020)を行い、切り
出した連接文字についてその出現頻度情報を計数(50
30)する。そして、算出した出現頻度にしたがって文
書識別子情報を格納するメモリエリアをワークメモリ上
に確保し、それぞれの連接文字の出現頻度情報が所定の
しきい値より大きい場合にはビット列で各連接文字が出
現する文書番号を文書識別子情報として登録(504
0)していく。8,000件の全ての文書について文書
識別子情報を登録し終わったらファイルに文字テーブ
ル、ファイルポインタテーブル、文書識別子情報を格納
(5050)しメモリ領域を解放する。8,000件単
位にこのように小さな分割文字成分表を作成し、最後に
各分割文字成分表をマージ(5060)してデータベー
ス全体の文字成分表を作成する。
0)は、図6に示すとおり各分割文字成分表の文字テー
ブルとファイルポインタテーブルを参照し、それぞれの
連接文字に対応する文書識別子情報を統合する形で進め
ていく。図6は二個の分割文字成分表を一個の文字成分
表に統合する例を示している。具体的な処理の手順を図
7に示す。まず、それぞれの分割文字成分表の文字テー
ブルを参照(7010)し、統合した文字テーブルを作
成(7030)する。この時文字テーブルの各レコード
について(7020)、どちらか一方にしか登録されて
いないレコードについては、登録されている側に記録さ
れているファイルポインタテーブルの各文字について
(7040)内容を統合したファイルポインタテーブル
に登録する(7050)とともに、ファイルポインタテ
ーブルで管理されている文書識別子情報をマージ前の小
さな文字成分表からマージ後の文字成分表へコピー(7
060)していく。また、双方の文字テーブルに同じ文
字が存在する場合には、記録されているファイルポイン
タテーブルの各文字について(7070)、ファイルポ
インタテーブルに記載された第二文字目を比較しながら
統合したファイルポインタテーブルを作成(7080)
していく。すなわち、ファイルポインタテーブルの第二
文字目が一致しない場合には、該当する文書識別子情報
をコピー(7090)し、一致する場合には双方の文書
識別子情報をマージ(7100)して格納する。
際には、マージ後の登録件数から所定の件数よりも多い
場合にはビット列に、少ない場合にはIDリストの形式
にして格納する。
いて具体的に説明する。“構"の文字は文字テーブル1
および文字テーブル2のどちらにも存在する。したがっ
て、“構"の文字に対応するファイルポインタテーブル
1の内容とファイルポインタテーブル2の内容を統合フ
ァイルポインタテーブルに登録していく。ファイルポイ
ンタテーブルにおける該当レコードの先頭の第二文字目
が0のレコードは、“構"の一文字を含む文書の識別子
情報をアクセスするための情報を格納している。この第
二文字目が0のレコードはファイルポインタテーブル1
とファイルポインタテーブル2の両方に存在するので、
双方のファイルIDとオフセットで与えられる文書識別
子情報をマージして統合文字成分表に登録する。“構"
に対応するファイルポインタテーブルの第2レコード
“成"についても同様である。第3レコードについては
ファイルポインタテーブル1が“造"であるのに対し
て、ファイルポインタテーブル2では“築"と異なって
いる。したがって、それぞれの文書識別子情報をマージ
前の小さな文字成分表から統合文字成分表へコピーす
る。
ず、検索語から連接文字を切り出す(8010)。次
に、切り出したそれぞれの連接文字について(802
0)、文字テーブルを探索する(8030)。そして、
該当するファイルポインタテーブルの各レコードについ
て、第二文字目の探索を行い(8040)該当するファ
イルIDとオフセットを得る。こうして、得られた文書
識別子情報を格納したファイルとそのオフセット値よ
り、該当する連接文字に対応するIDリストまたはビッ
ト列を読み出し、IDリストの場合にはこれをビット列
に変換することにより文書識別子情報を取得する(80
50)。この文書識別子情報の取得の過程で該当する連
接文字が文字成分表に登録されていない場合(806
0、8070)には、すなわち検索語を構成する連接文
字のうちどれか一つでも文字成分表に登録されていなけ
れば、検索語を含む該当文書がないということを意味す
ることになるため検索結果として0件という結果を、文
書識別子情報探索プログラム1350がLANアダプタ
1010を介して検索端末に返す。
該当する文書識別子情報が得られた場合は、得られたそ
れぞれの文書識別子情報の積集合をとることによって、
指定された検索語中の全ての連接文字を含む文書のみを
抽出することができる。
結果は、検索ノイズが非常に少ないので、文字成分表の
サーチ結果を表示しても十分実用できる。もちろん、文
字成分表のサーチ結果をもとに、文書本文を検索し実際
に検索語を含む文書のみに絞り込むかあるいは、複数の
検索語間の位置的関係を満たす文書を探すことも可能で
ある。また、文字成分表の検索結果を一度検索端末に表
示し、ユーザの指定により本文の探索を行うかどうかを
決定してもよい。
に存在する連接文字のみを登録するので、データベース
中に存在しない文字の組み合わせは全て排除できるとい
う利点がある。また、文書識別子情報をビット列とID
リストの形式で格納し、多くの文書識別子情報を格納す
る場合はビット列で、少ない文書識別子情報を格納する
場合はIDリストの形式で格納することでファイル容量
を大幅に削減することができる。
報は必ずその連接文字を含むノイズのない情報であるか
ら、これらの文書識別子情報をANDして得られる文字
成分表サーチ結果も、検索精度を大幅に向上することが
できる。
字についても登録することにより、さらに文字成分表サ
ーチの検索ノイズを少なくすることも可能である。
ト列とIDリストのどちらかの形式で選択的に格納する
ことにし、多くの文書識別子情報を格納する場合はビッ
ト列で、少ない文書識別子情報を格納する場合はIDリ
ストの形式で格納することでファイル容量を大幅に削減
することができる。
は必ずその連接文字を含むノイズのない情報であり、こ
れらの文書識別子情報を検索語の連接文字の個数分AN
Dするので、文字成分表サーチの検索精度を大幅に向上
することができる。これにより、検索語間の位置的な条
件などを検索する場合にも、より本文情報の検索範囲を
狭めることができるという利点がある。
タテーブルを用いることにより、データベース中に存在
する連接文字のみを登録するので、データベース中に存
在しない文字の組み合わせは全て排除できるので、連接
文字を管理するために必要なメモリ量を少なくできると
いう利点がある。
録文書を分割して小さな分割文字成分表を作成し、後で
これらの分割文字成分表をマージして目的の文字成分表
を作成することにより、少ないメモリ容量でも効率的に
大きなデータベースの文字成分表を作成することができ
る。
ある。
る。
Claims (8)
- 【請求項1】文書のテキストデータにおける複数の文字
の共起関係を記述した連接文字を連接文字ファイルに重
複なく格納する連接文字格納ステップと、前記連接文字
ファイルに格納された連接文字を参照して、指定した条
件式中の検索語に含まれる連接文字を含む文書を検索結
果の候補とする文書検索方法において、 前記連接文字格納ステップとして、テキストデータ中に
現れる連接文字成分の種類および各連接文字成分の出現
する文書数を算出し、 算出された前記文書数が所定のしきい値より大きい場合
は該当文書の文書番号に対応する位置を“1"とするビ
ット列として登録し、前記しきい値より小さい場合には
該当文書の文書番号をバイナリデータとして格納するこ
とを特徴とする文書検索方法。 - 【請求項2】請求項1に記載の文書検索方法において、 前記連接文字格納ステップは、統計情報を用いて予測し
た各連接文字成分の出現頻度を算出し、 算出された前記出現頻度が所定のしきい値より大きい場
合は該当文書の文書番号に対応する位置を“1"とする
ビット列として登録し、前記しきい値より小さい場合に
は該当文書の文書番号をバイナリデータとして格納する
ことを特徴とする文書検索方法。 - 【請求項3】請求項1または請求項2に記載の文書検索
方法において、 格納された全文書数をN、文書番号を表わすバイナリデ
ータのビット数をRとしたとき、前記しきい値をN/R
とすることを特徴とする文書検索方法。 - 【請求項4】請求項1乃至請求項3のいずれかに記載の
文書検索方法において、 前記連接文字検索ステップとして、各連接文字の第一文
字目を配列の要素とする文字テーブルと、第二文字目及
びその連接文字を含む文書の識別子情報を格納したファ
イルへのポインタ情報を格納するファイルポインタテー
ブルを持ち、 前記文字テーブルに前記ファイルポインタテーブルへの
ポインタ情報を格納し、 指定した検索条件式中の検索語に含まれる各連接文字に
ついて、前記文字テーブルを参照して第二文字目を格納
するファイルポインタテーブルへのポインタ情報を得て
前記ファイルポインタテーブルを参照して各連接文字を
含む文書の文書識別子情報を得ることを特徴とする文書
検索方法。 - 【請求項5】文書のテキストデータにおける連接文字を
連接文字ファイルに重複なく格納する連接文字格納ステ
ップと、 指定した条件式中の検索語に含まれる連接文字を含む文
書を、前記連接文字ファイルを参照して検索結果の候補
とする連接文字検索ステップを持つ文書検索方法におい
て、 前記連接文字格納ステップとして、登録文書を所定の規
則にしたがって所定の文書数に分割し、分割したそれぞ
れの文書群に対して、連接文字を切り出すとともに各連
接文字に対応する文書識別子の情報を作成し、後でこれ
らの文書識別子情報をマージすることにより、文書の登
録を行うことを特徴とした文書検索方法。 - 【請求項6】請求項5記載の文書検索方法において、 前記連接文字格納ステップとして、所定ビット数の整数
倍の数を単位に各連接文字に対応する文書識別子情報の
作成を行うことを特徴とする文書検索方法。 - 【請求項7】請求項5記載の文書検索方法において、 前記連接文字格納ステップとして、各連接文字に対応す
る文書識別子情報を格納するメモリの容量が所定値を超
えない範囲の文書数を単位に、各連接文字に対応する文
書識別子情報の作成を行うことを特徴とする文書検索方
法。 - 【請求項8】請求項5乃至請求項7のいずれかに記載の
文書検索方法において、 前記連接文字検索ステップで、検索結果の候補とされた
文書をすべて検索結果として出力することを特徴とする
文書検索方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP00240595A JP3552318B2 (ja) | 1995-01-11 | 1995-01-11 | 文書検索方法およびシステム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP00240595A JP3552318B2 (ja) | 1995-01-11 | 1995-01-11 | 文書検索方法およびシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08190571A true JPH08190571A (ja) | 1996-07-23 |
| JP3552318B2 JP3552318B2 (ja) | 2004-08-11 |
Family
ID=11528341
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP00240595A Expired - Fee Related JP3552318B2 (ja) | 1995-01-11 | 1995-01-11 | 文書検索方法およびシステム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3552318B2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6003043A (en) * | 1997-02-26 | 1999-12-14 | Hitachi, Ltd. | Text data registering and retrieving system including a database storing a plurality of document files therin and a plural-character occurrence table for a text index and an update text buffer to retrieve a target document in cooperation with the database |
| WO2010035366A1 (ja) * | 2008-09-28 | 2010-04-01 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| WO2010095179A1 (ja) * | 2009-02-23 | 2010-08-26 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| WO2010106605A1 (ja) * | 2009-03-18 | 2010-09-23 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| WO2010116435A1 (ja) * | 2009-03-29 | 2010-10-14 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| US9009655B2 (en) | 2008-09-28 | 2015-04-14 | KOUSOKUYA, Inc. | Code string search apparatus, search method, and program |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
| JPH05174064A (ja) * | 1991-12-25 | 1993-07-13 | Hitachi Ltd | 文書検索方法及び装置 |
| JPH07319920A (ja) * | 1994-05-24 | 1995-12-08 | Hitachi Ltd | 文書検索方法及び装置 |
| JPH0830633A (ja) * | 1994-07-13 | 1996-02-02 | Hitachi Ltd | テキストデータ検索装置 |
-
1995
- 1995-01-11 JP JP00240595A patent/JP3552318B2/ja not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
| JPH05174064A (ja) * | 1991-12-25 | 1993-07-13 | Hitachi Ltd | 文書検索方法及び装置 |
| JPH07319920A (ja) * | 1994-05-24 | 1995-12-08 | Hitachi Ltd | 文書検索方法及び装置 |
| JPH0830633A (ja) * | 1994-07-13 | 1996-02-02 | Hitachi Ltd | テキストデータ検索装置 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6003043A (en) * | 1997-02-26 | 1999-12-14 | Hitachi, Ltd. | Text data registering and retrieving system including a database storing a plurality of document files therin and a plural-character occurrence table for a text index and an update text buffer to retrieve a target document in cooperation with the database |
| WO2010035366A1 (ja) * | 2008-09-28 | 2010-04-01 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| US9009655B2 (en) | 2008-09-28 | 2015-04-14 | KOUSOKUYA, Inc. | Code string search apparatus, search method, and program |
| WO2010095179A1 (ja) * | 2009-02-23 | 2010-08-26 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| WO2010106605A1 (ja) * | 2009-03-18 | 2010-09-23 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
| WO2010116435A1 (ja) * | 2009-03-29 | 2010-10-14 | 株式会社エスグランツ | コード列検索装置、検索方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3552318B2 (ja) | 2004-08-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5748953A (en) | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols | |
| US5745745A (en) | Text search method and apparatus for structured documents | |
| JP3696731B2 (ja) | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| US6094647A (en) | Presearch type document search method and apparatus | |
| US9195738B2 (en) | Tokenization platform | |
| US6757675B2 (en) | Method and apparatus for indexing document content and content comparison with World Wide Web search service | |
| US6138114A (en) | Sort system for merging database entries | |
| JP5038939B2 (ja) | 情報検索システム、方法及びプログラム | |
| US8266150B1 (en) | Scalable document signature search engine | |
| JP3518933B2 (ja) | 構造化文書検索方法 | |
| JP4237813B2 (ja) | 構造化文書管理システム | |
| CN113190644A (zh) | 热更新搜索引擎分词字典的方法及装置 | |
| JPH08147311A (ja) | 構造化文書検索方法及び装置 | |
| JPH08190571A (ja) | 文書検索方法 | |
| JP3497243B2 (ja) | 文書検索方法及び装置 | |
| JP2000003366A (ja) | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
| JP3859044B2 (ja) | インデクス作成方法および検索方法 | |
| JP3489237B2 (ja) | 文書検索方法 | |
| JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
| KR20000041817A (ko) | 음절 단위 패턴으로 구성한 패턴 테이블을 이용한 문자열 부분검색 시스템 및 그 방법 | |
| JP3288063B2 (ja) | 可変長データの格納および参照システム | |
| JP3555181B2 (ja) | 構造化文書検索方法 | |
| JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
| JPH09212523A (ja) | 全文検索方法 | |
| JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040216 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040413 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040426 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080514 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080514 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |