JPH11282876A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH11282876A
JPH11282876A JP10100328A JP10032898A JPH11282876A JP H11282876 A JPH11282876 A JP H11282876A JP 10100328 A JP10100328 A JP 10100328A JP 10032898 A JP10032898 A JP 10032898A JP H11282876 A JPH11282876 A JP H11282876A
Authority
JP
Japan
Prior art keywords
search
document
relevance
fitness
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10100328A
Other languages
English (en)
Other versions
JP3664874B2 (ja
Inventor
Mitsuaki Inaba
葉 光 昭 稲
Naohiko Noguchi
口 直 彦 野
Yuji Sugano
野 祐 司 菅
Mitsuhiro Sato
藤 光 弘 佐
Kai Ito
藤 快 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10032898A priority Critical patent/JP3664874B2/ja
Priority to US09/277,197 priority patent/US6298344B1/en
Publication of JPH11282876A publication Critical patent/JPH11282876A/ja
Application granted granted Critical
Publication of JP3664874B2 publication Critical patent/JP3664874B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99939Privileged access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 全検索結果を保持することなしに、一定件数
ずつ検索結果を取得する場合に、効率的な処理を行うと
ともに、検索対象文書の版を指定して検索することがで
きる文書検索装置を提供すること。 【解決手段】 最下位適合度格納手段117に格納され
ている、前回取得した最下位文書の適合度を、適合度上
限入力手段112に与え、不要な無駄な並べ替えを省い
て次のN件を取得する。また、版情報格納手段107に
よって格納された前回使用した検索対象の版を、版情報
入力手段106に指定して同じ版で検索することによ
り、検索対象が更新されても、結果の整合性が損なわれ
ないようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子化され蓄積され
た文書情報から、所望の文書を検索する文書検索装置に
関し、特に利用者の入力した検索要求に適合する度合に
よって検索結果の順位付けを行う文書検索装置に関する
ものである。
【0002】
【従来の技術】近年、文書検索の分野においては文書デ
ータベースの大規模化が進み、従来のようなキーワード
検索や全文検索ではたとえ検索結果が高速に得られたと
しても、その数が膨大で目的の文書を捜し出すのが困難
な場合が増え、トータルな検索時間は必ずしも短縮され
ているとは言い難い。
【0003】そこで、検索対象文書に文字列が存在する
か否かだけでなく、その出現頻度等に着目して検索結果
文書の順位付けを行ない、目的の文書を効率良く捜し出
せるランキングの手法が注目されている。
【0004】以下、図を参照しながら、ランキング手法
を用いた従来の文書検索装置について説明する。図12
は従来の文書検索装置の構成を示したブロック図であ
る。図12において、1201は検索対象となる文書デ
ータ、1202は文書データを走査し、各フィールドに
ついて、単語が当該フィールドに出現する文書番号と当
該単語の当該フィールドにおける出現頻度を抽出する単
語頻度情報抽出手段、1203は前記単語頻度情報抽出
手段の出力した情報が格納された索引、1204は利用
者からの検索要求を入力する検索要求入力手段、120
5は検索要求にしたがって前記索引から単語が検索対象
フィールドに出現する文書の文書番号と文書数、当該フ
ィールドにおける出現頻度を算出する単語頻度算定手
段、1206は論理演算を行う論理演算手段、1207
は単語の出現文書数と出現頻度に基づいて、各文書と検
索要求の合致する度合を求める適合度算定手段、120
8は取得する検索結果の順位の範囲を指定する取得順位
入力手段、1209は適合度の順に検索結果の文書を並
べ替える文書並べ替え手段、1210は検索した結果を
表示する検索結果出力手段である。
【0005】図13は従来の文書検索装置における処理
の手順を示した流れ図である。まず、検索の前に予め単
語頻度情報抽出手段1202が文書データ1201を走
査し、各文書の各フィールドに出現する単語とその出現
頻度を調べ、当該単語が出現している文書の番号と文書
数、当該フィールドにおける当該単語の出現頻度を索引
1203に出力し、索引を作成しておく。
【0006】上記のように索引を作成した後において、
処理ステップ(以下、単にステップという)1301に
おいて、検索要求入力手段1204には利用者のキーボ
ード等の操作によって検索対象フィールドと単語のペア
を論理演算子で結んだ検索要求文字列が入力される。図
14は、見出しフィールドか本文フィールドに「松下」
を含んで、本文フィールドに「新製品」を含む文書を検
索する場合の、検索要求の例である。
【0007】ステップ1302において、利用者は取得
順位入力手段1208により、検索結果のうち取得した
い順位の範囲を、例えば第11位から第20位までと指
定する。
【0008】ステップ1303において、単語頻度算定
手段1205が索引1203を参照し、検索要求入力手
段1204によって入力された検索要求文字列中の各単
語が指定された検索対象フィールドに出現するような文
書の文書番号、文書数および検索対象フィールドにおけ
る当該単語の出現頻度を算出する。図15は単語頻度算
定手段1205の出力内容の例である。
【0009】次にステップ1304において、論理演算
手段1206が検索要求にしたがって論理演算を施し、
検索結果の文書集合を決定する。図16は、論理演算手
段1206の出力例を示す図である。
【0010】次に、ステップ1305において、適合度
算定手段1207が式(1)によって検索結果集合中の
各文書Dについて検索要求との適合度REL(D)を算
出する。 REL(D)=Σ(単語出現頻度×IDF) IDF=1−log(出現文書数/総文書数) ・・・(1) IDFは文書集合全体における当該単語の当該フィール
ドでの出現の偏りを表すパラメータで、logの底は2
である。図17は、適合度算定手段1207の出力内容
の例である。
【0011】続いてステップ1306において、文書並
べ替え手段1209が適合度の降順に検索結果文書を並
べ替える。ステップ1305からステップ1306を全
ての検索結果文書に対して繰り返す。図18は従来の文
書検索装置における並べ替え処理の概念図である。順位
が(B)の範囲にある文書を結果として取得する場合に
は、(C)の範囲を並び替えなければならず、またそれ
だけの大きさのバッファが必要である。
【0012】例えば、取得順位入力手段1208に第1
1位から第20位までを取得するように指定した場合に
は、文書並べ替え手段1209は20文書分のバッファ
を用意しておき、バッファの空きが無くなるまでは、無
条件に二分探索等の方法によって当該文書をバッファの
適当な格納位置に挿入する。バッファの空きが無い場合
には、当該文書の適合度がバッファ内の最下位文書の適
合度を超える場合にだけ、最下位の文書をバッファから
外し、当該文書をバッファの適当な位置に挿入する。
【0013】最後に、検結果出力手段1210が、取得
順位入力手段1208によって指定された範囲の順位に
ある文書を表示して検索が終了する。
【0014】
【発明が解決しようとする課題】以上説明したように、
ランキングの手法を用いた従来の文書検索システムにお
いては、検索要求に近いものを上位に、検索ゴミを下位
にランキングして閲覧の効率をあげるという目的からみ
て、また、結果の並べ変えの処理に時間がかかるという
処理時間の問題から、取得する順位の範囲を限定して検
索を行うのが一般的である。
【0015】しかしながら上記の従来の文書検索システ
ムでは、上位文書から一定件数ずつ検索結果を取得する
ことを繰り返していくと、取得順位の範囲が下位になる
にしたがって、並べ替えの対象となる文書数が増えてい
き、例えば検索結果集合の最後の数件を取得しようとし
た場合には、結局全結果文書を並べ替えなくてはならな
くなってしまい、この全結果文書の並べ替え処理に時間
がかかってしまうという課題を有していた。
【0016】また、検索対象文書の更新が発生する可能
性のある文書検索装置であれば、もし同じ検索要求で取
得順位の範囲だけを変えた2回の検索の間に、更新が行
われた場合、検索結果に不整合が発生してしまう課題を
有していた。
【0017】さらに、見出しフィールドまたは本文フィ
ールドのいずれかにある単語が出現するような文書を検
索したいと思って、各々のフィールドに対する検索条件
をOR演算子で結んで指定した場合、結果文書の集合と
しては所望の結果が得られても、出現文書数が本来の値
ではないために適合度の値が正しく求まらないという課
題を有していた。
【0018】本発明は上記従来技術の課題を解決するも
ので、その第1の目的は、全検索結果を保持することな
しに、一定件数ずつ検索結果を取得する場合に、並べ替
えの範囲を適合度の上限または下限で指定することによ
り無駄な並べ替えをせず効率的な文書検索ができる文書
検索装置を提供することである。
【0019】本発明の第2の目的は、前回使用した検索
対象文書の版情報を保存するとともに検索に使用する版
を指定することができるようにして、検索対象文書の更
新が発生した場合でも、検索結果の不整合が起きないよ
うにし、また、複数のフィールドをつなげた実際には索
引の存在しない仮想的なフィールドを検索要求として与
えることを許し、このような検索要求に対しても正確な
単語出現頻度と出現文書数をから適合度を算出すること
が可能な文書検索装置を提供することを目的とする。
【0020】
【課題を解決するための手段】上記目的を達成するため
に本発明は、第1に、適合度の上限値を指定する適合度
上限入力手段と、適合度の下限値を指定する適合度下限
入力手段と、取得したい結果件数を指定する取得件数入
力手段と、前記適合度上限入力手段で適合度上限値が指
定された場合には前記適合度算出手段によって算出され
た適合度が前記適合度上限値未満であって、かつ前記取
得件数入力手段によって指定された取得件数を超えない
数の上位文書だけを対象にして適合度の降順に並べ替
え、前記適合度下限入力手段で適合度下限値が指定され
た場合には前記適合度算出手段によって算出された適合
度が前記適合度下限値を超えるものであってかつ前記取
得件数入力手段によって指定された取得件数を超えない
数の上位文書だけを対象にして適合度の降順に並べ替え
る文書並べ替え手段と、取得検索結果における最上位文
書の適合度を格納する最上位適合度格納手段と、前記検
索結果出力手段の出力から結果における最下位文書の適
合度を格納する最下位適合度格納手段とを備えたもので
ある。
【0021】これにより、全検索結果を保持することな
く、逐次、隣接する順位の検索結果を一定件数毎に取得
する場合に、無駄な並べ替えを行わず高速に検索が可能
な文書検索装置が得られる。
【0022】第2に、検索対象文書として複数の版を持
ち、利用可能な最新の版を判定するための最新版判定手
段と、検索に使用する版を指定する版情報入力手段と、
実際に検索に使用した版の情報を格納するための版情報
格納手段とを備えたものである。
【0023】これにより、初回検索時には前記最新版判
定手段によって特定された最新版の検索対象文書を用い
て検索と順位付けを行い、以降、隣接する順位の検索結
果を逐次取得する時には、直前の検索結果取得時に前記
版情報格納手段によって格納された版情報を前記版情報
入力手段に与えて処理を行うことで、直前の検索結果取
得から次の検索結果取得までの間に、検索対象文書の更
新が行われた場合でも、検索結果の整合性が損なわれな
い文書検索装置が得られる。
【0024】第3に、検索対象文書の各単一フィールド
について、単語が当該フィールドに出現する文書の文書
番号と当該単語の当該フィールドにおける出現頻度の情
報とを格納した索引と、複数のフィールドをつなげた実
際には索引の存在しない検索対象フィールドを与えて
も、検索対象フィールドを構成する各フィールドの索引
を参照して、検索対象フィールドにおける出現頻度、出
現文書数を正確に算出する仮想単語頻度算定手段とを備
えたものである。
【0025】これにより、利用者からのより柔軟な検索
要求を受け付けて、ランキングに反映させることが可能
な文書検索装置が得られる。
【0026】第4に、検索対象文書の単一フィールドに
ついて、および複数の単一フィールドをつなげた結合フ
ィールドについて、単語が当該フィールドに出現する文
書の文書番号と当該単語の当該フィールドにおける出現
頻度の情報とを格納した索引と、数のフィールドをつな
げた実際には索引の存在しない検索対象フィールドを与
えても存在する索引を参照して、検索対象フィールドに
おける出現頻度、出現文書数を正確に算出する仮想単語
頻度算定手段とを備えたものである。
【0027】これにより、様々な索引構成が可能で、利
用者からのより柔軟な検索要求を受け付けて、ランキン
グに反映させることが可能な文書検索装置が得られる。
【0028】
【発明の実施の形態】本発明の請求項1に記載の発明
は、文書検索装置に、利用者からの検索要求を受け付け
る検索要求入力手段と、検索要求と検索対象文書との適
合度を算出する適合度算出手段と、適合度の上限値を指
定する適合度上限入力手段と、取得したい結果件数を指
定する取得件数入力手段と、前記適合度算出手段によっ
て算出された適合度が前記適合度上限入力手段で指定さ
れた適合度上限値未満であって、かつ前記取得件数入力
手段によって指定された取得件数を超えない数の上位文
書だけを対象にして適合度の降順に並べ替える文書並べ
替え手段と、前記文書並べ替え手段によって並べ替えら
れた文書と適合度を検索結果として出力する検索結果出
力手段と、前記検索結果出力手段の出力から結果におけ
る最下位文書の適合度を格納する最下位適合度格納手段
とを備えたものであり、全検索結果を保持することな
く、逐次的に一定件数毎の検索結果を取得する場合に、
直前の検索で前記最下位適合度格納手段によって格納さ
れた値を前記適合度上限入力手段に与えることにより、
下位に隣接する順位の一定件数の検索結果を無駄な並べ
替えを行わず高速に取得できるという作用を有する。
【0029】本発明の請求項2に記載の発明は、文書検
索装置に、利用者からの検索要求を受け付ける検索要求
入力手段と、検索要求と検索対象文書との適合度を算出
する適合度算出手段と、適合度の上限値を指定する適合
度上限入力手段と、適合度の下限値を指定する適合度下
限入力手段と、取得したい結果件数を指定する取得件数
入力手段と、前記適合度上限入力手段で適合度上限値が
指定された場合には前記適合度算出手段によって算出さ
れた適合度が前記適合度上限値未満であって、かつ前記
取得件数入力手段によって指定された取得件数を超えな
い数の上位文書だけを対象にして適合度の降順に並べ替
え、前記適合度下限入力手段で適合度下限値が指定され
た場合には前記適合度算出手段によって算出された適合
度が前記適合度下限値を超えるものであってかつ前記取
得件数入力手段によって指定された取得件数を超えない
数の下位文書だけを対象にして適合度の降順に並べ替え
る文書並べ替え手段と、前記文書並べ替え手段によって
並べ替えられた文書と適合度を検索結果として出力する
検索結果出力手段と、前記検索結果出力手段の出力から
結果における最上位文書の適合度を格納する最上位適合
度格納手段と、前記検索結果出力手段の出力から結果に
おける最下位文書の適合度を格納する最下位適合度格納
手段とを備えたものであり、全検索結果を保持すること
なく、逐次的に一定件数毎の検索結果を取得する場合
に、直前の検索で前記最下位適合度格納手段によって格
納された値を前記適合度上限入力手段に与えることによ
り、下位に隣接する順位の一定件数の検索結果を無駄な
並べ替えを行わず高速に取得できるようにするととも
に、直前の検索で前記最上位適合度格納手段によって格
納された値を前記適合度下限入力手段に与えることによ
り、上位に隣接する順位の一定件数の検索結果について
も無駄な並べ替えを行わず高速に取得できるという作用
を有する。
【0030】本発明の請求項3に記載の発明は、請求項
1もしくは2に記載の文書検索装置において、文書検索
装置は、検索対象文書として複数の版を持ち、利用可能
な最新の版を判定するための最新版判定手段と、検索に
使用する版を指定する版情報入力手段と、実際に検索に
使用した版の情報を格納するための版情報格納手段とを
備えたものであり、逐次的に一定件数毎の検索結果を取
得する場合に、初回検索時には前記最新版判定手段によ
って特定された最新版の検索対象文書を用いて検索と順
位付けを行い、以降の上位もしくは下位に隣接する一定
件数の検索結果取得時には、直前の検索結果取得時に前
記版情報格納手段によって格納された版情報を前記版情
報入力手段に与えて処理を行うことにより、直前の検索
結果取得から次の検索結果取得までの間に、検索対象文
書の更新が行われた場合でも、検索結果の整合性が損な
われないという作用を有する。
【0031】本発明の請求項4に記載の発明は、文書検
索装置に、検索対象文書の各単一フィールドについて、
単語が当該フィールドに出現する文書の文書番号と当該
単語の当該フィールドにおける出現頻度の情報とを格納
した索引と、単語と検索対象フィールドの組を論理演算
子で結んだ利用者からの検索要求を受け付ける検索要求
入力手段と、前記検索要求入力手段によって入力された
検索要求にしたがって前記索引を参照し、単語が検索対
象フィールドに出現する文書番号と当該単語の当該フィ
ールドにおける出現頻度を算出する仮想単語頻度算定手
段と、前記仮想単語頻度算出手段が算出した情報に基づ
いて検索要求と文書との適合度を算出する適合度算出手
段と、前記適合度算出手段の出力にしたがって適合度の
降順に文書を並べ替える文書並べ替え手段と、前記文書
並べ替え手段によって並べ替えられた文書を検索結果と
して出力する検索結果出力手段とを備えたものであり、
検索要求入力手段で1つの単語に対して複数のフィール
ドを記述し、これらのフィールドをつなげたものを検索
対象フィールドとして与えることを許し、前記仮想単語
頻度算定手段が各フィールドに対する前記索引を参照し
て検索対象フィールドにおける出現頻度、出現文書数を
正確にを算出し、適合度を求めることができるという作
用を有する。
【0032】本発明の請求項5に記載の発明は、文書検
索装置において、検索対象文書の単一フィールドについ
て、および複数の単一フィールドをつなげたフィールド
について、単語が当該フィールドに出現する文書の文書
番号と当該単語の当該フィールドにおける出現頻度の情
報とを格納した索引と、単語と検索対象フィールドの組
を論理演算子で結んだ利用者からの検索要求を受け付け
る検索要求入力手段と、前記検索要求入力手段によって
入力された検索要求にしたがって前記索引を参照し、単
語が検索対象フィールドに出現する文書番号と当該単語
の当該フィールドにおける出現頻度を算出する仮想単語
頻度算定手段と、前記仮想単語頻度算出手段が算出した
情報に基づいて検索要求と文書との適合度を算出する適
合度算出手段と、前記適合度算出手段の出力にしたがっ
て適合度の降順に文書を並べ替える文書並べ替え手段
と、前記文書並べ替え手段によって並べ替えられた文書
を検索結果として出力する検索結果出力手段とを備えた
ものであり、検索要求入力手段で1つの単語に対して複
数のフィールドを記述し、これらのフィールドをつなげ
たものを検索対象フィールドとして与えることを許し、
前記仮想単語頻度算定手段が存在する前記索引を参照し
て検索対象フィールドにおける出現頻度、出現文書数を
正確に算出し、適合度を求めることができるという作用
を有する。
【0033】以下、本発明の実施の形態について、図1
から図16を用いて説明する。 (実施の形態1)図1は本発明の実施の形態1による文
書検索装置の構成を示したブロック図である。図1にお
いて、101は検索対象となる文書データ、102は文
書データを走査し、各フィールドについて、単語が当該
フィールドに出現する文書番号と当該単語の当該フィー
ルドにおける出現頻度を抽出する単語頻度情報抽出手
段、103は前記単語頻度情報抽出手段の出力した情報
が格納されたフィールド毎の索引、104は最新版の文
書に対応する索引を判定する最新版判定手段、105は
検索すべき指令が入力されるキーボードなどの検索要求
入力手段、106は検索に使用する版を指定する版情報
入力手段、107は実際にどの版を検索に使用したかの
情報を格納する版情報格納手段、108は検索要求入力
手段105によって入力された検索要求にしたがって検
索対象フィールドにおける単語の出現頻度、出現文書数
を求める単語頻度算定手段、109は論理演算を行う論
理演算手段、110は単語出現頻度、出現文書数から文
書と検索要求との適合度を算出する適合度算出手段、1
11は取得する検索結果の件数を指定する取得件数入力
手段、112は取得する文書の適合度の上限を指定する
適合度上限入力手段、113は取得する文書の適合度の
下限を指定する適合度下限入力手段、114は適合度上
限値未満、もしくは適合度下限値を超える文書で、かつ
取得する件数だけを対象に適合度の降順に文書の並べ替
えを行う文書並べ替え手段、115は検索結果を出力す
る出力手段、116は取得した検索結果のなかでの最上
位文書の適合度を格納する最上位適合度格納手段、11
7は取得した検索結果のなかでの最下位の文書の適合度
を格納する最下位適合度格納手段である。
【0034】以上のように構成された文書検索装置につ
いて、その動作を説明する。検索の前に予め単語頻度情
報抽出手段102が文書データ101を走査し、各文書
の各フィールドに出現する単語とその出現頻度を調べ、
当該単語が出現している文書の番号と文書数、当該フィ
ールドにおける当該単語の出現頻度を各フィールド毎の
索引103に出力し、索引を作成しておく。ただし、こ
の時点ではA版の文書データおよび、索引だけが存在
し、B版の文書データおよび索引は存在していないとす
る。
【0035】図2は本発明の実施の形態1における処理
の手順を示す流れ図、図3はステップ210の詳細な処
理手順を示す流れ図、図4は文書並べ替え手段114の
動作を説明する概念図である。 図14に示した検索要
求で、まず第1位から第10位までの検索結果を取得す
る場合を考える。
【0036】ステップ201において、利用者は検索要
求入力手段105により、図14に示すような検索対象
フィールドと単語のペアを論理演算子で結んだ検索要求
文字列を入力する。
【0037】ステップ202において、版情報入力手段
106によって使用する検索対象文書の版を指定するこ
とができるが、初回の検索では指定をしない。
【0038】ステップ202において版が指定されてい
ないので、ステップ203において最新版判定手段10
4が最も新しい検索対象文書の版を「A」であると判定
して単語頻度算定手段108に出力し、自動的に最新版
に対して検索を行うようにする。
【0039】ステップ204において、版情報格納手段
107がステップ202またはステップ203で指定さ
れた版の情報「A」を保存しておく。
【0040】ステップ205において、取得件数入力手
段111により、取得する検索結果の件数「10」を指
定する。
【0041】ステップ206において、適合度上限入力
手段112、または適合度下限手段113によって適合
度上限値もしくは適合度下限値を指定することができる
が、初回の検索ではどちらに対しても値を指定しない。
【0042】ステップ207において、単語頻度算定手
段108は、検索要求入力手段105で入力された検索
要求にしたがって、各単語が検索対象フィールドに出現
する文書数、文書番号、各文書の当該フィールドにおけ
る出現頻度の情報を図15のように出力する。次に、全
ての単語について各単語が検索対象フィールドに出現す
る文書数、文書番号、各文書の当該フィールドにおける
出現頻度の情報を出力したか否かをチェックし、全ての
単語について出力していない場合はステップ207にも
どって処理を行なう一方、全ての単語について出力して
いる場合は次のステップ208へ移行する。
【0043】ステップ208において、論理演算手段1
09は、単語頻度算定手段108の出力した情報に対し
て論理演算を施す。論理演算の結果、図16に示すよう
な情報が残る。
【0044】ステップ209において、論理演算手段1
09の出力した情報をもとにして、適合度算出手段11
0が、検索要求と各文書との適合度を前記式(1)によ
って算出する。
【0045】ステップ210において、文書並べ替え手
段114が、適合度算出手段110の算出した適合度の
降順に結果文書を並べ替える。
【0046】ここで、ステップ210の詳細な処理の手
順を図3を用いて説明する。適合度上限、適合度下限は
指定されていないのでステップ304bに進む。取得件
数入力手段107で入力された値の数だけ用意されたバ
ッファが一杯になっていなければ、ステップ307にす
すみ、当該文書をバッファの適当な位置に挿入する。バ
ッファが一杯になっている場合には、ステップ305b
にすすみ、当該文書の適合度がバッファ内の最下位の文
書の適合度を超えるかどうか調べ、超えない場合にはス
テップ210を抜け、超える場合にはステップ306b
において最下位の文書をバッファから削除したのち、ス
テップ307において当該文書をバッファの適当な位置
に挿入する。
【0047】ステップ209、ステップ210を結果文
書全てについて行えば、バッファ内に第1位から第10
位までの結果が残る。したがってステップ210の次
に、全ての結果文書について並べ替えを行なったか否か
をチェックし、全ての単語について出力していない場合
はステップ209にもどって適合度の算出と、適合度の
順に文書を並べ替える処理を行なう一方、全ての結果文
書について並べ替えを行なったと判断された場合は次の
ステップ211へ移行する。
【0048】ステップ211においては、検索結果出力
手段115がバッファの内容を出力する。
【0049】最後にステップ212において、最上位適
合度格納手段116が出力結果の第1位の文書の適合度
を、最下位適合度格納手段117が第10位の文書の適
合度をそれぞれ保存する。
【0050】続いて、第11位から第20位までの検索
結果を取得するためにステップ201に戻り再度検索を
実行するが、前回の検索時とは次のステップでの処理が
異なる。
【0051】ステップ202において、版情報入力手段
106に、前回、版情報格納手段107によって保存さ
れた版の情報「A」を与える。これによって、次のステ
ップにおいて版が指定されたか否かをチェックした場
合、版が「A」に指定されたと判断されるから最新版の
判定(ステップ203)は実行されず、たとえ前回の検
索時から今回の検索までの間に、新たな「B」という版
の検索対象が追加されたとしても、前回と結果の整合性
を保つことができる。
【0052】ステップ206において、適合度上限入力
手段112に、前回、最下位適合度格納手段117によ
って保存された値、すなわち、第10位の文書の適合度
を与える。適合度下限入力手段113には値を指定しな
い。
【0053】ステップ209において、適合度算定手段
108の出力する内容は、前回の検索時と全く同じはず
である。
【0054】そこで、ステップ210では、その内部処
理についてみると、ステップ302bにおいて、適合度
上限が指定されているのでステップ303bに進む。こ
こで当該文書の適合度が適合度上限以上であれば、この
文書の順位は第10位以上であることがわかるのでこの
文書に対する処理を終えステップ210を抜ける。当該
文書の適合度が適合度上限未満であれば、ステップ30
4bにすすみ、処理を続ける。
【0055】このようにして、下位に隣接する一定件数
の検索結果を、無駄な並べ替え処理をせず高速に取得す
ることが可能となる。
【0056】同様の処理を繰り返し、第101位から第
110位までの検索結果の取得が完了したとする。ここ
で、もう一度、第91位から第100位までの結果を得
たいと思った場合には次のように処理を変えることで行
う。
【0057】ステップ206において、適合度上限入力
手段112には値を指定せず、適合度下限入力手段11
3に、前回、最上位適合度格納手段116によって保存
された値、すなわち第101位の文書の適合度を与え
る。
【0058】ステップ209において、適合度算定手段
108の出力する内容は、前回の検索時と全く同じはず
である。
【0059】そこで、ステップ210では、その内部処
理についてみると、ステップ301において、適合度下
限が指定されているので、ステップ303aに進み、当
該文書の適合度が下限を超えているか否かをチェックす
る。ここで当該文書の適合度が適合度下限以下であれ
ば、この文書の順位は第101位以下であることがわか
るのでこの文書に対する処理を終えステップ210を抜
ける。当該文書の適合度が適合度下限を超える場合に
は、ステップ304aに進む。バッファが一杯になって
いなければ、ステップ307にすすみ、当該文書をバッ
ファの適当な位置に挿入する。バッファが一杯になって
いる場合には、ステップ305aにすすみ、当該文書の
適合度がバッファ内の最上位の文書の適合度を超えるか
どうか調べ、超えている場合にはステップ210を抜
け、超えていない場合にはステップ306aにおいて最
上位の文書をバッファから削除したのち、ステップ30
7において当該文書をバッファの適当な位置に挿入す
る。
【0060】ステップ209、ステップ210を結果文
書全てについて行えば、バッファ内に第91位から第1
00位までの結果が残る。以上の動作により文書の並べ
替え処理が行なわれ、文書は図4に示すようにして並べ
替えられる。このようにして、上位に隣接する一定件数
の検索結果についても、無駄な並べ替え処理をせず効率
良く取得することが可能となる。
【0061】(実施の形態2)図5は本発明の実施の形
態2による文書検索装置の構成を示したブロック図であ
る。図5において、501は検索対象となる文書デー
タ、502は文書データを走査し、各フィールドについ
て、単語が当該フィールドに出現する文書番号と当該単
語の当該フィールドにおける出現頻度を抽出する単語頻
度情報抽出手段、503は前記単語頻度情報抽出手段の
出力した情報が格納されたフィールド毎の索引、504
は検索要求入力手段、505は検索要求入力手段504
によって入力された検索要求にしたがって検索対象フィ
ールドにおける単語の出現頻度、出現文書数を求める仮
想単語頻度算定手段、506は論理演算を行う論理演算
手段、507は単語出現頻度、出現文書数から文書と検
索要求との適合度を算出する適合度算出手段、508は
取得する検索結果の順位の範囲を指定する取得順位入力
手段、509は適合度の順に検索結果の文書を並べ替え
る文書並べ替え手段、510は検索した結果を表示する
検索結果出力手段である。
【0062】従来の文書検索装置と異なるのは、検索要
求入力手段504に検索対象フィールドとして、単一の
フィールドだけでなく複数のフィールドを記述でき、そ
れら複数のフィールドを仮想的につなげた、実際には索
引の存在しない仮想フィールドを指定できる点と、仮想
単語頻度算定手段505が、仮想フィールドにおける単
語の出現頻度、出現文書数を、存在する索引から正確に
算出するようになっている点である。
【0063】以上のように構成された文書検索装置につ
いて、その動作を説明する。検索の前に予め単語頻度情
報抽出手段502が文書データ501を走査し、各文書
の各フィールドに出現する単語とその出現頻度を調べ、
当該単語が出現している文書の番号と文書数、当該フィ
ールドにおける当該単語の出現頻度を各フィールド毎の
索引503に出力し、索引を作成しておく。
【0064】本実施の形態における処理の手順を図13
を用いて説明する。図13のフロー図中、ステップ13
01において、利用者は検索要求入力手段504によ
り、検索対象フィールドと単語のペアを論理演算子で結
んだ検索要求文字列を入力する。図6は見出しフィール
ドか本文フィールドに「松下」を含んで、本文フィール
ドに「新製品」を含む文書を検索する場合の、検索要求
の例である。従来の文書検索装置とは異なり、検索対象
フィールドとして「見出し+本文」という見出しフィー
ルドと本文フィールドをつなげた仮想的なフィールドの
記述が可能になっている。
【0065】次にステップ1302において、利用者は
取得順位入力手段508により、検索結果のうち取得し
たい順位の範囲を、例えば第11位から第20位までと
指定する。
【0066】ステップ1303において、仮想単語頻度
算定手段505が索引503を参照し、検索要求入力手
段504によって入力された検索要求文字列中の各単語
が指定された検索対象フィールドに出現するような文書
の文書番号、文書数および検索対象フィールドにおける
当該単語の出現頻度を算出する。図7は仮想単語頻度算
出手段505の出力内容の例である。「本文=新製品」
に対する情報は直接本文フィールドに対する索引から求
めたものであるが、「見出し+本文=松下」に対する情
報を求める際には、見出しフィールドと本文フィールド
をつなげたフィールドに対する索引は実際には存在しな
いので、仮想単語頻度算出手段505は、まず図15の
ように見出しフィールド、本文フィールドを参照して各
々のフィールドでの情報を得る。その後、文書番号の論
理和集合を求め、その要素数を出現文書数として、各々
のフィールドにおける出現頻度の和を検索対象フィール
ドにおける出現頻度として求める。
【0067】ステップ1304において、論理演算手段
506が検索要求にしたがって論理演算を施し、検索結
果の文書集合を決定する。図8は、論理演算手段506
の出力例である。
【0068】次にステップ1305において、適合度算
定手段507が式(1)によって検索結果集合中の各文
書Dについて検索要求との適合度REL(D)を算出す
る。図9は、適合度算定手段の出力内容の例である。
【0069】続いてステップ1306において、文書並
べ替え手段509が適合度の降順に検索結果文書を並べ
替え、取得順位入力手段508によって指定された範囲
の順位にある文書だけを出力する。
【0070】例えば、取得順位入力手段508に第11
位から第20位までを取得するように指定した場合に
は、文書並べ替え手段509は20文書分のバッファを
用意しておき、バッファの空きが無くなるまでは無条件
に当該文書をバッファに格納し、それ以外の場合は、当
該文書の適合度がバッファ内の最下位文書の適合度を超
える場合にだけ、最下位文書の代わりに当該文書をバッ
ファに格納し、バッファ内の並べ替えを行う。全ての結
果文書について上記操作を行った後、バッファに残って
いる文書の第11位から第20位までを出力する。
【0071】最後に、検索結果出力手段510が並べ替
えられた検索結果を表示して検索が終了する。
【0072】このようにして、図6で示したような、よ
り柔軟な検索要求を受け付けてランキングに反映させる
ことが可能となる。
【0073】(実施の形態3)本発明の実施の形態3に
よる文書検索装置の構成は、図5に示したものと同様で
ある。いま、単語頻度情報抽出手段502によって単一
のフィールドに限らず、複数のフィールドをつなげた結
合フィールドに対する索引を作成しておく。たとえば、 「見出し+本文=○○」 という検索要求が大半を占めるという状況であれば、検
索速度の点から見出しと本文をつなげた結合フィールド
に対する索引を予め作成しておく。そして記憶媒体の容
量に制限があり、見出しフィールドに対する索引は作成
するが、本文フィールドに対する索引は作成しない場合
を考える。
【0074】本実施の形態における処理の手順を図13
を用いて説明する。本実施の形態における処理の手順
は、ステップ1303における処理を除いて実施の形態
2の場合と同様であり、図6と同様の検索要求を与える
とする。図13中、ステップ1303において、仮想単
語頻度算定手段505が索引503を参照し、検索要求
入力手段504によって入力された検索要求文字列中の
各単語が指定された検索対象フィールドに出現するよう
な文書の文書番号、文書数および検索対象フィールドに
おける当該単語の出現頻度を算出する。図11は仮想単
語頻度算出手段505の出力内容の例である。実施の形
態2の場合とは異なり、「本文+見出し=松下」なる検
索要求に対する結果は結合フィールドとして存在する索
引から直接求めたものであるが、「本文=新製品」に対
する結果は本文フィールドの索引は存在しないので、仮
想単語頻度算出手段505は、まず図10のように本文
+見出しフィールド、見出しフィールドを参照して各々
のフィールドでの情報を得る。その後、本文+見出しフ
ィールドにおける出現頻度と見出しフィールドにおける
出現頻度の差を求めて本文フィールドにおける出現頻度
を算出する。その際、出現頻度が0になった文書につい
ては削除し、残った文書の数が本文フィールドにおける
出現文書数となる。
【0075】このようにして、様々な索引構成が可能
で、より柔軟な検索要求を受け付けてランキングに反映
させることが可能となる。
【0076】
【発明の効果】以上のように本発明によれば、検索結果
を保持することなく、逐次、隣接する順位の検索結果を
一定件数毎に取得する場合に、無駄な並べ替えを行わず
効率良く検索が可能であって、検索対象の更新が行われ
た場合でも結果の整合性が損なわれない優れた文書検索
装置を実現できるものである。
【0077】また、様々な索引構成が可能で、より柔軟
な検索要求を受け付けてランキングに反映させることが
可能な優れた文書検索装置を実現できるものである。
【図面の簡単な説明】
【図1】本発明の実施の形態1による文書検索装置の構
成を示したブロック図
【図2】本発明の実施の形態1における文書検索処理の
手順を示す流れ図
【図3】本発明の実施の形態1における文書並べ替え動
作の詳細な処理手順を示す流れ図
【図4】本発明の実施の形態1における文書並べ替え手
段の動作の概念図
【図5】本発明の実施の形態2による文書検索装置の構
成を示したブロック図
【図6】本発明の実施の形態1における検索要求の例を
示す図
【図7】本発明の実施の形態2における仮想単語頻度算
出手段の出力内容の例を示す図
【図8】本発明の実施の形態2における論理演算手段の
出力例を示す図
【図9】本発明の実施の形態2における適合度算定手段
の出力内容の例を示す図
【図10】本発明の実施の形態3における仮想単語頻度
算出手段の中間処理内容の例を示す図
【図11】本発明の実施の形態3における仮想単語頻度
算出手段の出力内容の例を示す図
【図12】従来の文書検索装置の構成を示したブロック
【図13】従来の文書検索装置における処理の手順を示
した流れ図
【図14】検索要求の例
【図15】従来の文書検索装置における単語頻度算定手
段の出力内容の例を示す図
【図16】従来の文書検索装置における論理演算手段の
の出力内容の例を示す図
【図17】従来の文書検索装置における適合度算定手段
の出力内容の例を示す図
【図18】従来の文書検索装置における並べ替え処理の
概念図
【符号の説明】
101 文書データ 102 単語頻度情報抽出手段 103 索引 104 最新版判定手段 105 検索要求入力手段 106 版情報入力手段 107 版情報格納手段 108 単語頻度算定手段 109 論理演算手段 110 適合度算定手段 111 取得件数入力手段 112 適合度上限入力手段 113 適合度下限入力手段 114 文書並べ替え手段 115 結果出力手段 116 最上位適合度格納手段 117 最下位適合度格納手段 501 文書データ 502 単語頻度情報抽出手段 503 索引 504 検索要求入力手段 505 仮想単語頻度算定手段 506 論理演算手段 507 適合度算定手段 508 取得順位入力手段 509 文書並べ替え手段 510 検索結果出力手段 1201 文書データ 1202 単語頻度情報抽出手段 1203 索引 1204 検索要求入力手段 1205 単語頻度算定手段 1206 論理演算手段 1207 適合度算定手段 1208 取得順位入力手段 1209 文書並べ替え手段 1210 検索結果出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐 藤 光 弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 伊 藤 快 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】利用者からの検索要求を受け付ける検索要
    求入力手段と、検索要求と検索対象文書との適合度を算
    出する適合度算出手段と、適合度の上限値を指定する適
    合度上限入力手段と、取得したい結果件数を指定する取
    得件数入力手段と、前記適合度算出手段によって算出さ
    れた適合度が前記適合度上限入力手段で指定された適合
    度上限値未満であって、かつ前記取得件数入力手段によ
    って指定された取得件数を超えない数の上位文書だけを
    対象にして適合度の降順に並べ替える文書並べ替え手段
    と、前記文書並べ替え手段によって並べ替えられた文書
    と適合度を検索結果として出力する検索結果出力手段
    と、前記検索結果出力手段の出力から結果における最下
    位文書の適合度を格納する最下位適合度格納手段とを備
    え、 全検索結果を保持することなく、逐次的に一定件数毎の
    検索結果を取得する場合に、直前の検索で前記最下位適
    合度格納手段によって格納された値を前記適合度上限入
    力手段に与えることにより、下位に隣接する順位の一定
    件数の検索結果を無駄な並べ替えを行わず高速に取得で
    きるようにしたことを特徴とする文書検索装置。
  2. 【請求項2】利用者からの検索要求を受け付ける検索要
    求入力手段と、検索要求と検索対象文書との適合度を算
    出する適合度算出手段と、適合度の上限値を指定する適
    合度上限入力手段と、適合度の下限値を指定する適合度
    下限入力手段と、取得したい結果件数を指定する取得件
    数入力手段と、前記適合度上限入力手段で適合度上限値
    が指定された場合には前記適合度算出手段によって算出
    された適合度が前記適合度上限値未満であって、かつ前
    記取得件数入力手段によって指定された取得件数を超え
    ない数の上位文書だけを対象にして適合度の降順に並べ
    替え、前記適合度下限入力手段で適合度下限値が指定さ
    れた場合には前記適合度算出手段によって算出された適
    合度が前記適合度下限値を超えるものであってかつ前記
    取得件数入力手段によって指定された取得件数を超えな
    い数の下位文書だけを対象にして適合度の降順に並べ替
    える文書並べ替え手段と、前記文書並べ替え手段によっ
    て並べ替えられた文書と適合度を検索結果として出力す
    る検索結果出力手段と、前記検索結果出力手段の出力か
    ら結果における最上位文書の適合度を格納する最上位適
    合度格納手段と、前記検索結果出力手段の出力から結果
    における最下位文書の適合度を格納する最下位適合度格
    納手段とを備え、 全検索結果を保持することなく、逐次的に一定件数毎の
    検索結果を取得する場合に、直前の検索で前記最下位適
    合度格納手段によって格納された値を前記適合度上限入
    力手段に与えることにより、下位に隣接する順位の一定
    件数の検索結果を無駄な並べ替えを行わず高速に取得で
    きるようにするとともに、直前の検索で前記最上位適合
    度格納手段によって格納された値を前記適合度下限入力
    手段に与えることにより、上位に隣接する順位の一定件
    数の検索結果についても無駄な並べ替えを行わず高速に
    取得できるようにしたことを特徴とする文書検索装置。
  3. 【請求項3】文書検索装置は、検索対象文書として複数
    の版を持ち、利用可能な最新の版を判定するための最新
    版判定手段と、検索に使用する版を指定する版情報入力
    手段と、実際に検索に使用した版の情報を格納するため
    の版情報格納手段とを備え、 逐次的に一定件数毎の検索結果を取得する場合に、初回
    検索時には前記最新版判定手段によって特定された最新
    版の検索対象文書を用いて検索と順位付けを行い、以降
    の上位もしくは下位に隣接する一定件数の検索結果取得
    時には、直前の検索結果取得時に前記版情報格納手段に
    よって格納された版情報を前記版情報入力手段に与えて
    処理を行うことにより、直前の検索結果取得から次の検
    索結果取得までの間に、検索対象文書の更新が行われた
    場合でも、検索結果の整合性が損なわれないようにした
    ことを特徴とする、請求項1もしくは2に記載の文書検
    索装置。
  4. 【請求項4】検索対象文書の各単一フィールドについ
    て、単語が当該フィールドに出現する文書の文書番号と
    当該単語の当該フィールドにおける出現頻度の情報とを
    格納した索引と、単語と検索対象フィールドの組を論理
    演算子で結んだ利用者からの検索要求を受け付ける検索
    要求入力手段と、前記検索要求入力手段によって入力さ
    れた検索要求にしたがって前記索引を参照し、単語が検
    索対象フィールドに出現する文書番号と当該単語の当該
    フィールドにおける出現頻度を算出する仮想単語頻度算
    定手段と、前記仮想単語頻度算出手段が算出した情報に
    基づいて検索要求と文書との適合度を算出する適合度算
    出手段と、前記適合度算出手段の出力にしたがって適合
    度の降順に文書を並べ替える文書並べ替え手段と、前記
    文書並べ替え手段によって並べ替えられた文書を検索結
    果として出力する検索結果出力手段とを備え、 前記検索要求入力手段で1つの単語に対して複数のフィ
    ールドを記述し、これらのフィールドをつなげたものを
    検索対象フィールドとして与えることを許し、前記仮想
    単語頻度算定手段が各フィールドに対する前記索引を参
    照して検索対象フィールドにおける出現頻度、出現文書
    数を正確にを算出し、適合度を求めることができるよう
    にしたことを特徴とする文書検索装置。
  5. 【請求項5】検索対象文書の単一フィールドについて、
    および複数の単一フィールドをつなげたフィールドにつ
    いて、単語が当該フィールドに出現する文書の文書番号
    と当該単語の当該フィールドにおける出現頻度の情報と
    を格納した索引と、単語と検索対象フィールドの組を論
    理演算子で結んだ利用者からの検索要求を受け付ける検
    索要求入力手段と、前記検索要求入力手段によって入力
    された検索要求にしたがって前記索引を参照し、単語が
    検索対象フィールドに出現する文書番号と当該単語の当
    該フィールドにおける出現頻度を算出する仮想単語頻度
    算定手段と、前記仮想単語頻度算出手段が算出した情報
    に基づいて検索要求と文書との適合度を算出する適合度
    算出手段と、前記適合度算出手段の出力にしたがって適
    合度の降順に文書を並べ替える文書並べ替え手段と、前
    記文書並べ替え手段によって並べ替えられた文書を検索
    結果として出力する検索結果出力手段とを備え、 前記検索要求入力手段で1つの単語に対して複数のフィ
    ールドを記述し、これらのフィールドをつなげたものを
    検索対象フィールドとして与えることを許し、前記仮想
    単語頻度算定手段が存在する前記索引を参照して検索対
    象フィールドにおける出現頻度、出現文書数を正確に算
    出し、適合度を求めることができるようにしたことを特
    徴とする文書検索装置。
JP10032898A 1998-03-28 1998-03-28 文書検索装置 Expired - Lifetime JP3664874B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10032898A JP3664874B2 (ja) 1998-03-28 1998-03-28 文書検索装置
US09/277,197 US6298344B1 (en) 1998-03-28 1999-03-26 Document searching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10032898A JP3664874B2 (ja) 1998-03-28 1998-03-28 文書検索装置

Publications (2)

Publication Number Publication Date
JPH11282876A true JPH11282876A (ja) 1999-10-15
JP3664874B2 JP3664874B2 (ja) 2005-06-29

Family

ID=14271103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10032898A Expired - Lifetime JP3664874B2 (ja) 1998-03-28 1998-03-28 文書検索装置

Country Status (2)

Country Link
US (1) US6298344B1 (ja)
JP (1) JP3664874B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185095A (ja) * 2002-11-29 2004-07-02 Toshiba Corp 情報検索システム、情報検索方法およびプログラム
JP2006164123A (ja) * 2004-12-10 2006-06-22 Fuji Xerox Co Ltd 文書検索装置および方法
JP2010039671A (ja) * 2008-08-04 2010-02-18 Nippon Telegr & Teleph Corp <Ntt> テキストマイニング装置、方法、プログラム及びその記録媒体
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701310B1 (en) * 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
US7428500B1 (en) 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
US6990631B2 (en) * 2000-07-14 2006-01-24 Ricoh Company, Ltd. Document management apparatus, related document extracting method, and document processing assist method
US20020092022A1 (en) * 2000-11-16 2002-07-11 Dudkicwicz Gil Gavriel System and method for using programming event timing data in a recording device
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7599914B2 (en) 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
JP4839706B2 (ja) * 2005-07-12 2011-12-21 株式会社日立製作所 データベース管理システムのインデックス運用方法
KR100837751B1 (ko) * 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8042053B2 (en) * 2007-09-24 2011-10-18 Microsoft Corporation Method for making digital documents browseable
US8166041B2 (en) * 2008-06-13 2012-04-24 Microsoft Corporation Search index format optimizations
US8744135B2 (en) * 2008-09-16 2014-06-03 Kendyl A. Román Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation
US9904681B2 (en) 2009-01-12 2018-02-27 Sri International Method and apparatus for assembling a set of documents related to a triggering item
US9195640B1 (en) 2009-01-12 2015-11-24 Sri International Method and system for finding content having a desired similarity
US20100180200A1 (en) * 2009-01-12 2010-07-15 Thierry Donneau-Golencer Electronic assistant
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
CN105701120B (zh) 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314950A (ja) * 1995-05-12 1996-11-29 Fujitsu Ltd テキストの検索方法及び装置
JPH1125107A (ja) * 1997-07-02 1999-01-29 Omron Corp データベース検索方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5515488A (en) * 1994-08-30 1996-05-07 Xerox Corporation Method and apparatus for concurrent graphical visualization of a database search and its search history
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US6067552A (en) * 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5802518A (en) * 1996-06-04 1998-09-01 Multex Systems, Inc. Information delivery system and method
EP0822502A1 (en) * 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
EP0883069A1 (en) * 1997-06-06 1998-12-09 Matsushita Electric Industrial Co., Ltd. A retrieval menu creation device and method, and a recording medium storing a retrieval menu creation program
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6041326A (en) * 1997-11-14 2000-03-21 International Business Machines Corporation Method and system in a computer network for an intelligent search engine

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314950A (ja) * 1995-05-12 1996-11-29 Fujitsu Ltd テキストの検索方法及び装置
JPH1125107A (ja) * 1997-07-02 1999-01-29 Omron Corp データベース検索方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185095A (ja) * 2002-11-29 2004-07-02 Toshiba Corp 情報検索システム、情報検索方法およびプログラム
JP2006164123A (ja) * 2004-12-10 2006-06-22 Fuji Xerox Co Ltd 文書検索装置および方法
JP2010039671A (ja) * 2008-08-04 2010-02-18 Nippon Telegr & Teleph Corp <Ntt> テキストマイニング装置、方法、プログラム及びその記録媒体
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Also Published As

Publication number Publication date
JP3664874B2 (ja) 2005-06-29
US6298344B1 (en) 2001-10-02

Similar Documents

Publication Publication Date Title
JPH11282876A (ja) 文書検索装置
JP4881322B2 (ja) 多重索引に基づく情報検索システム
US8862565B1 (en) Techniques for web site integration
US6523030B1 (en) Sort system for merging database entries
JP3581652B2 (ja) データ検索システムと方法およびサーチ・エンジンにおけるその使用
US7526497B2 (en) Database retrieval apparatus, retrieval method, storage medium, and program
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
US20050108325A1 (en) Page aggregation for Web sites
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
JP2001524717A (ja) 情報管理及び検索
CN102142038A (zh) 用于记号空间资料库的多级查询处理系统与方法
US20050027513A1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
JPH09101991A (ja) 情報フィルタリング装置
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JPH1049543A (ja) 文書検索装置
CN101088082A (zh) 全文查询和搜索系统及其使用方法
JP2000331012A (ja) 電子化文書検索方法
JPH064584A (ja) 文章検索装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
JP3678615B2 (ja) 文書検索装置及び文書検索方法
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH07120355B2 (ja) 画像情報記憶検索方法
JPH09212523A (ja) 全文検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050330

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080408

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 9

EXPY Cancellation because of completion of term