JPH11250102A

JPH11250102A - 情報検索方法及び装置

Info

Publication number: JPH11250102A
Application number: JP10069271A
Authority: JP
Inventors: Keiko Aoki; 圭子青木; Kazunori Matsumoto; 一則松本; Kazuo Hashimoto; 和夫橋本
Original assignee: KDD Corp
Current assignee: KDDI Corp
Priority date: 1998-03-05
Filing date: 1998-03-05
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】本発明は、評価値の計算量を大幅に削減で
き、評価関数の計算では、ランダムな順で計算するのに
比べて、全文書中の相対頻度等でソートして計算するこ
とにより、分類精度を劣化させることなく高速化するこ
ともできる情報検索方法及び装置を提供することを目的
とする。【解決手段】本発明はこの目的を達成するために、文
書の集合をクラスタとみなし、順次前記クラスタ同士を
マージしていく際２つのクラスタを引数とする評価関数
を用いて当該評価関数が最大になるようなクラスタの組
合せを求めて前記クラスタ同士をマージするベイジアン
クラスタリングによる情報検索方法において、評価関数
の計算を途中で止め、クラスタリングにおける評価値計
算を行うことに特徴がある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索方法及び
装置に関し、特にベイジアンクラスタリングを用いたク
ラスタリングにおける評価値の計算の高速化を図る情報
検索方法及び装置に関するものである。

【０００２】

【従来の技術】図６は従来の情報検索装置の構成図であ
る。通常、インターネット６１に接続された複数のコン
ピュータ６３が有する文書情報を検索する情報検索装置
は、情報検索サーバ６２と位置付けられる。インターネ
ット６１には、更にページを有する膨大な数のコンピュ
ータ６３と、検索を所望するクライアント６４とが接続
されている。情報検索サーバ６２は、コンピュータ６３
が有するページのＵＲＬであるページ情報を管理し、か
つクライアント６４が指定する情報に合うページのＵＲ
Ｌを検索結果として提供するためのものである。

【０００３】また、情報検索サーバ６２は、コンテンツ
データベース６２１、クラスタデータベース６２２及び
制御部６２３を有している。コンテンツデータベース６
２１には複数のページ情報が記憶され、クラスタデータ
ベース６２２にはページ情報をクラスタリングするため
のノード情報が記憶されている。

【０００４】更に、制御部６２３は、葉ノード情報選択
手段６２３ａ、部分クラスタ生成手段６２３ｂ、再帰ク
ラスタリング手段６２３ｃ及びページ更新／検索手段６
２３ｄを有している。葉ノード情報選択手段６２３ａ
は、複数のページ情報の中から所定の個数の最適なペー
ジ情報を選択するためのものである。部分クラスタ生成
手段６２３ｂは、選択されなかった残りのページ情報を
クラスタの類似する葉ノードに割り当ててクラスタを生
成するためのものである。再帰クラスタリング手段６２
３ｃは、生成されたクラスタの葉ノード方向に向かっ
て、葉ノード情報選択手段６２３ａ及び部分クラスタ生
成手段６２３ｂを再度繰り返されるように指示するため
のものである。ページ更新／検索手段６２３ｄは、生成
されたクラスタにページ情報を追加及び更新したり、該
クラスタからページ情報を検索するためのものでる。

【０００５】図７は、従来の情報検索装置におけるクラ
スタを生成するための再帰クラスタリング関数を示すフ
ローチャートである。これは、図示していないが２分木
の情報構造を探索するために一般に用いられる再帰関数
に類似したものであり、入力（ステップ７０１）はペー
ジ集合を示すノードのポインタである。クラスタを構築
する場合、全てのページを割り当てたルートノードを入
力するものとする。

【０００６】まず、入力されたノードに割り当てられた
ページの数を判断する（ステップ７０２）。このページ
の数が所定の最大数であるｍａｘ個以上であれば、当該
ノードの下層に位置するクラスタを生成する。一方、ペ
ージの数が所定のｍａｘ個より少ないならば類似精度を
高めて総当たりにクラスタリングする（ステップ７０
８）。

【０００７】ノードに割り当てられたページの数がｍａ
ｘ個以上であれば、クラスタ生成関数が呼び出される
（ステップ７０２）。このクラスタ生成関数は、入力と
なるノードのポインタの下層に位置するページをクラス
タリングするものである。この関数の出力は、生成され
た部分クラスタのルートノードのポインタである。

【０００８】次に、生成されたクラスタの各葉ノードに
対して（ステップ７０４）再帰的に呼び出してクラスタ
リングを進めていく。まず、ある葉ノードに対して、当
該葉ノードに割り当てられたページがあるかどうかを判
定する（ステップ７０５）。割り当てられたページがあ
れば、再帰的に自関数（ステップ７０６）を呼び出し
て、クラスタの下層に向かってクラスタリングを進めて
いく。その後、再帰クラスタリング関数で得られたクラ
スタのルートノードを葉ノードとしてマージする（ステ
ップ７０７）。

【０００９】図８は、クラスタ生成関数をフローチャー
トで表したものである。このクラスタ生成関数は、葉ノ
ード選択段階と部分クラスタ生成段階との２つの処理段
階に分けられる。葉ノード選択段階は、複数のページの
中から、クラスタリングした際に最小符号長となるよう
な所定に個数の最適なページを選択するものである。部
分クラスタ生成段階は、選択されたページを葉ノードと
して選択されなかった残りのページを類似する葉ノード
に割り当ててクラスタを完成させるものである。

【００１０】はじめに、入力されたノードのポインタに
割り当てられた複数のページから（ステップ８０１）、
ｍａｘ個のページ集合Ｐ［ｔ］を選択する（ステップ８
０３）。このｍａｘ個を大きくするほど、１回分の分類
単位を大きくできる。ｔは一連の処理を繰り返す度に１
づつ増える数である。このクラスタ生成関数が呼び出さ
れる際のノードには再帰クラスタリング段階の流れか
ら、少なくともｍａｘ個以上のページが割り当てられて
いるはずである。

【００１１】次に、選択されたページ集合Ｐ［ｔ］を公
知のアルゴリズムでクラスタリングを行う（ステップ８
０４）。これは、ｍａｘ個の中で総当たりに類似度を判
定してクラスタリングを行うために、計算量が著しく増
加することはない。

【００１２】そして、生成されたページ集合Ｐ［ｔ］の
クラスタについて、選択されなかった残りのページを当
該クラスタの類似する葉ノードに対して割り当てる（ス
テップ８０５）。

【００１３】次に、生成されたクラスタに符号長Ｌ
［ｔ］を求める（ステップ８０６）。情報の集合の最適
化では、ＭＤＬ（Minimum Description Length creteri
on）基準に基づき、分類結果の符号長が最小になるよう
に選択される。ここでの符号長Ｌは、当該クラスタに必
要なノードの情報量Ｌ₁ と、各葉ノードに割り当てられ
たページ数から分類に必要な符号長Ｌ₂ との和として求
められる。

【００１４】２分木自体の符号化は、木を先行順に訪れ
て内部ノードを訪れたときに１を出力し、葉ノードを訪
れたときに０を出力することによって行う。ノードの情
報量Ｌ₁ は、葉ノードの数（＝ｍａｘ）をｋ（ｋは正の
整数）とすると、木の記述自体に必要な内部ノード数は
Ｌ₁ ＝２ｋ−１となる。

【００１５】よって、葉ノードｉに割り当てられたペー
ジの数をｎ_i 及び全ページから葉ノードｉの情報が選択
された確率をｐ_i ＝ｎ_i ／Σ_j n_jとした場合、各葉ノー
ドに割り当てられたページの数から分類に必要な符号長
はＬ₂ ＝Σn_i log p_i となる。これにより、Ｌ₁ ＋Ｌ₂
がクラスタの符号長Ｌとして求められる。

【００１６】ここで求められたクラスタの符号長Ｌを、
以前の繰り返しによって記憶されている最小符号長Ｌ
_min と比較する。求められた符号長Ｌ［ｔ］が記憶され
ている最小符号長Ｌ_min よりも小さければ、Ｌ［ｔ］が
Ｌ_min として記憶される（ステップ８０７）。

【００１７】これら一連の処理を所定の回数ｃ回繰り返
す（ステップ８０２）ことによって最小符号長となるペ
ージ集合Ｐ［ｔ］が選択される。ページ集合の選択はラ
ンダムに行われるために、この回数ｃが大きいほど最適
なページ集合を選択することができる。

【００１８】また、クラスタ生成段階は、葉ノード選択
段階によって選択されたページ集合Ｐ［ｔ］を類似度に
応じてクラスタリングを行い（ステップ８０８）、次い
で選択されなかった残りのページを生成されたクラスタ
の類似する葉ノードに割り当てる（ステップ８０９）。
このようにして、最小符号長Ｌ_min となるクラスタが生
成される。

【００１９】以上説明したクラスタリング方法による従
来の情報検索装置では、所定のｍａｘ個数以上では多少
類似精度を落として高速にクラスタリングし、所定のｍ
ａｘ個数より小さい場合では類似度を高めて総当たりに
クラスタリングする。そのために、生成時間及び類似精
度にバランスをとってクラスタを生成することができ
る。

【００２０】このような従来の情報検索装置において、
文書の類似検索の方法としては、入力文書と検索対象文
書との適合性に関する確率に従い、検索対象文書をラン
キングする統計的な方法がある。その１つとして、文書
中の語の出現確率を用いて文書集合をベイジアンクラス
タリングする方法があり、この方法は「Makoto IMAYAM
A, Takenobu TOKUNAGA, "Cluster-Based Text Categori
zation; A Comparisonof Categoly Search Strategie
s", Proc. of the Annual International ACM SIGIR Co
nference on Research and Develpment in Information
Rctricval, pp.273-280, 1995」に開示され、また本発
明者による「大量文書向けのクラスタリング手法の評
価」情報処理学会第５５回全国大会（平成９年後期），
３−２０８，１９９７年に提案されている。

【００２１】これらの文献におけるベイジアンクラスタ
リングはドキュメントの集合をクラスタとみなし、順次
クラスタ同士をマージしていくものである。クラスタ同
士をマージする際には、マージ対象となる２つのクラス
タc_i,c_j を引数とする評価関数Ｅ(c_i,c_j) を用い、Ｅ(c
_i,c_j) が最大になるようなc_i,c_j の組を求め、c_i,c_jを
マージする。

【００２２】上記前者の文献に示されたプログラムリス
トによると、Ｅ(c_i,c_j) を以下のように計算している。

【００２３】Ｅ(c_i,c_j) ＝Ｍ(c_i,c_j) −Ｕ(c_i)−Ｕ(c_j)

【００２４】この計算方法の場合、Ｕ（c_i∪c_j) ＝Ｍ(c
_i,c_j) が成り立つのでＵ(c_i)はＭ(c_i,c_j) として計算す
る。但し、Ｍ(c_i,c_j) は以下のようにして求められる。

【００２５】１：function M(c_i,c_j) ２： out=0.0; ３： forall ドキュメント d∈クラスタc_i∪c_j ４： tmp=0.0; ５： forall単語 w∈d ６： tmp=tmp+rate(w,d,c_i ∪c_j); ７： out=out+log(tmp); ８： return out; ９：endfunc

【００２６】ただし、rate(w,d,c)=(d中のw の相対頻
度)(c 中のw の相対頻度) ／（全文書中のw の相対頻
度) ；

【００２７】図９はこの方法をフローチャートで表した
ものである。

【００２８】入力（ステップ９０１）はクラスタc_i,c_j
に含まれる文書の頻度表である。まず、入力されたクラ
スタc_i,c_j それぞれ(c) についてクラスタc_i,c_j （ステ
ップ９０２，９０３）に含まれる文書ｄ中の全ての単語
を全文書中の相対頻度でソートする（ステップ９０４〜
９０６）。これらの結果の値を累積した上でｌｏｇを取
って累積してＥ(c_i,c_j) を出力する（ステップ９０７，
９０８）。

【００２９】

【発明が解決しようとする課題】このような従来の方法
では、従来の技術のアルゴリズムの中で、Ｍ(c_i,c_j) の
内側のループ（第５行、第６行）にほとんどの時間が費
やされる。そして、生成中の全クラスタ対においてクラ
スタ中の全ての文書中の全ての単語について、rateの値
を計算する必要があり、大量文書を処理するためには多
くの計算時間を必要とする。

【００３０】本発明はこれらの問題点を解決するための
もので、評価値の計算量を大幅に削減できると共に、評
価関数の計算ではランダムな順で計算するのに比べて、
全文書中の相対頻度等でソートして計算することによ
り、分類精度を劣化させることなく高速化することもで
きる情報検索方法及び装置を提供することを目的とす
る。

【００３１】

【課題を解決するための手段】上記従来例の問題点を解
決するために、本発明によれば、文書情報を有する複数
のコンピュータがネットワークに接続され、複数の前記
文書情報のインデックス情報を記憶するコンテンツデー
タベースと、該コンテンツデータベースを用いて前記文
書情報を検索及び更新する制御部とを有する情報検索装
置であって、前記制御部は、複数の前記文書情報の中か
らクラスタの葉ノードとなる所定の個数の情報を選択す
る葉ノード情報選択手段と、選択されなかった残りの情
報を類似する前記葉ノードに割り当てる部分クラスタ生
成手段と、前記葉ノード情報選択手段及び前記部分クラ
スタ生成手段によって生成されたクラスタの葉ノードの
方向に向かって繰り返されるように指示する再帰クラス
タリング手段と、生成されたクラスタにページ情報を追
加及び更新し、当該クラスタからページ情報を検索する
ページ更新／検索手段とを有する情報検索装置におい
て、制御部は、評価関数の計算を途中で止め、クラスタ
リングにおける評価値計算を行う評価値計算手段を有す
ることに特徴がある。また、評価値計算手段を、部分ク
ラスタ生成手段及び／又は再帰クラスタリング手段に設
けてもよい。以上のような構成を有する本発明の装置に
よれば、分類精度を劣化させることなく高速化できる情
報検索装置を実現できる。

【００３２】また、文書の集合をクラスタとみなし、順
次前記クラスタ同士をマージしていく際２つの前記クラ
スタを引数とする評価関数を用いて当該評価関数が最大
になるようなクラスタの組合せを求め、前記クラスタ同
士をマージするベイジアンクラスタリングを用いたクラ
スタリングにおける情報検索方法において、前記評価関
数の計算を途中で止め、クラスタリングにおける評価値
計算を行うことにも特徴がある。また、評価関数の計算
を途中で止め、上位所定の個数までの組合せについて前
記評価関数の計算を引き続いて行う。更に、評価関数の
計算を行う際、全文書中の相対頻度、各文書中の相対頻
度及び各クラスタ中の相対頻度の順にソートして計算す
る。よって、特に評価値の計算量を大幅に削減できる。

【００３３】従って、本発明によれば、評価値の計算量
を大幅に削減できると共に、評価関数の計算ではランダ
ムな順で計算するのに比べて、全文書中の相対頻度等で
ソートして計算することにより、分類精度を劣化させる
ことなく高速化できる情報検索方法及び装置を提供でき
る。

【００３４】

【発明の実施の形態】以下、本発明の実施の形態例を図
面に基づいて説明する。はじめに、従来例におけるベイ
ジアンクラスタリングの計算方法の第３〜第７行目を実
行中にｏｕｔの値があまり増えない場合、最後まで計算
してもＭ(c_i,c_j) の値が小さく、クラスタ対c_i,c_j が評
価関数を最大にする可能性は低いが、従来例では計算す
る必要がある。

【００３５】そこで、本発明における情報検索方法で
は、クラスタ中の全ての単語について、評価関数Ｍ，Ｅ
を計算するのではなく、評価関数Ｍを途中まで求めた段
階で評価関数Ｅの値を予測し、評価関数Ｅの推定値が低
いクラスタ対については評価関数Ｅの計算を一時止める
方法である。そして、評価関数Ｅの推定値が所定値より
高いクラスタ対についてのみ、評価関数Ｅの値を計算す
ればよい。そこで、文書中の全単語を用いて評価関数Ｅ
を計算するのではなく、

【００３６】・文書中の相対頻度でソートし、頻度の高
い順から指定された割合（ｒ）の単語集合もしくは、

【００３７】・クラスタ（c_i）中の相対頻度でソート
し、頻度の高い順から指定された割合（ｒ）の単語集合
もしくは、

【００３８】・クラスタ（c_i∪c_j）中の相対頻度でソー
トし、頻度の高い順から指定された割合（ｒ）の単語集
合もしくは、

【００３９】・全文書中の相対頻度でソートし、頻度の
高い順から指定された割合（ｒ）の単語集合

【００４０】で、評価値の高い組合せを予想する。

【００４１】但し、評価関数Ｅの分類精度を保つため、
クラスタ中の各文書の単語種類数が指定された大きさ
（ｓ）以下のものについては全ての単語について評価値
を計算する。

【００４２】次に、本発明に係る実施の形態例の情報検
索装置について説明する。図１は本発明に係る実施の形
態例の情報検索装置の構成を示すブロック図である。同
図において、図６と同じ構成要件は同じ参照番号を付し
ている。異なる構成要件として、１１は評価値計算手段
であり、上位ｔ個のみを残してＭ(c_i,c_j) を途中まで計
算し、Ｍ(c_i,c_j) の途中結果ｍ(i,j,d) によりＭ(c_i,
c_j),Ｕ(c_i), Ｕ(c_j)からＥ(c_i,c_j) を求め、引き続きＭ
(c_i,c_j) を求めてＭ(c_i,c_j),Ｕ(c_i), Ｕ(c_j)からＥ(c_i,
c_j) を求めるものである。なお、評価値計算手段１１は
部分クラスタ生成手段６２３ｂ及び／又は再帰クラスタ
リング手段６２３ｃに含まれてもよい。

【００４３】次に、上記の単語数の割合がｒになるまで
評価値Ｅを計算する関数を全文書中の相対頻度でソーテ
ィングする場合を、図２に示すフローチャートに従って
説明する。

【００４４】入力（ステップ２０１）はクラスタ集合
Ｓ，ｒ，ｓ，ｔである。まず、入力されたクラスタＳ＝
（c₁,c₂,・・・,c_N）中の全てのクラスタについてＵ(c_i)を
求める（ステップ２０２，２０３）。全てのクラスタの
組合せ(c_i,c_j) 間の評価値Ｅ(c_i,c_j) を途中まで求める
（ステップ２０４）。上位ｔ（ｔは正の整数）個までの
組合せについて引き続きＥ(c_i,c_j) を求める（ステップ
２０５）。Ｅ(c_i,c_j) が最大となるようなクラスタの組
合せを類似度が最も高いものとしてマージする。そし
て、クラスタc_i,c_j を子ノードとするクラスタc_kを作成
する（ステップ２０６）。よって、クラスタＳをＳ＝Ｓ
-c_i-c_j+c_k としてクラスタの上層に向かってクラスタリ
ングを進めていく（ステップ２０７）。

【００４５】図３は全文書中の相対頻度でソートした場
合の評価値であり、横軸が単語種類数の割合、縦軸が評
価関数Ｅの値である。同図では、文書５例(d₁,d₂,d₃,
d₄,d₅)を用いて、Ｅ(d₁,d₂) ，Ｅ(d₁,d₃) ，Ｅ(d₁,d₄)
，Ｅ(d₁,d₅) の増え方を示した。同図からわかるよう
に、単語数の割合にほぼ比例してＥが増えている。この
ことから、ある程度の任意の割合ｒの値を用いれば、最
終的な評価関数Ｅの値が精度よく推定できることを示し
ている。

【００４６】単語数の割合が割合ｒになるまで評価関数
Ｅを計算する関数を全文書の相対頻度でソーティングす
る場合について以下に示す。

【００４７】１：function newM(c_i,c_j) ２： out=0.0; ３： forall 文書 d∈（c_i∪c_j）{ ４： if(dの単語の種類数N(d)＞ｓ）５： N_x=rN(d) ６： else N_x=N(d); ７： d 中の単語を全文書中の相対頻度でソートす
る；８： tmp=0.0; ９： for(w=1;w++;w<=N_x) 10： tmp=tmp+rate(F(w),d,c_i ∪c_j); 11： m(i,j,d)=tmp; 12： out=out+log(tmp); 13： } 14：return out; 15：endfunc

【００４８】m(i,j,d)については後で使用する。F(w)は
w 番目に頻度の高い単語の頻度である。

【００４９】次に、上記の単語数の割合がｒになるまで
評価値Ｅ(c_i,c_j) を求めるためのＭ(c_i,c_j) を計算する
関数を全文書中の相対頻度でソーティングする場合を図
４に示すフローチャートに従って説明する。

【００５０】入力（ステップ４０１）はクラスタc_i,c_j
に含まれる文書の頻度表である。まず、クラスタc_i∪c_j
（ステップ４０２，４０３）に含まれる文書ｄ毎の単語
の種類数Ｎ(d) がｓより大きいならばＮ_x をｒＮ(d) と
して（ステップ４０４〜４０６）、単語の種類数Ｎ(d)
がｓより小さければＮ_x をＮ(d) として文書ｄ中の単語
を全文書中の相対頻度でソートし（ステップ４０７）、
更に文書ｄの上位Ｎ個の単語についてかつ上記rateの計
算を行い（ステップ４０８，４０９）結果の値を累積し
た上で途中結果ｍ(i,j,d) を保存し（ステップ４１０）
ｌｏｇを取って累積してＭ(c_i,c_j) を出力する（ステッ
プ４１１，４１２）。

【００５１】その後、評価値の高いものから指定された
上位ｔ個の組合せについて、引続き評価値を求め、最終
的に最大となる組合せを求める。

【００５２】以下に引続き評価値を求めるときに使用す
る関数を示す。

【００５３】１：function cntM(c_i,c_j) ２： out=0.0; ３： forall 文書 d∈（c_i∪c_j）{ ４： tmp=m(i,j,d); ５： if(dの単語の種類数N(d)＞ｓ）｛６： for(w=rN(d)+1;w++;w<=N(d)) ７： tmp=tmp+rate(F(w),d,c_i ∪c_j); ８： } ９： out=out+log(tmp); 10： } 11： return out; 12：endfunc

【００５４】次に、上記の単評価値の高いものから指定
された上位ｔ個の組合せについて、引続き評価値を求
め、最終的に最大となる組合せを求める場合を図５に示
すフローチャートに従って説明する。

【００５５】入力（ステップ５０１）は上位ｔ個の評価
値Ｅ'(c_i,c_j)を持つクラスタ対c_i,c_jである。まず、入
力されたクラスタc_i,c_j それぞれ(c) について（ステッ
プ５０２，５０３，５０４）クラスタc_i,c_j に含まれる
文書ｄ毎の単語の種類数Ｎ(d) がｓより以下であるなら
ば途中結果ｍ(i,j,d) をそのまま用い、単語の種類数Ｎ
(d) がｓより大きくなれば（ステップ５０５）頻度表Ｆ
中の残りの単語F(N_x+1),・・・,F(d)についてrateの計算を
行って累積する（ステップ５０６，５０７）。その結果
の値をｌｏｇを取って更に累積してＭ(c_i,c_j) を出力す
る（ステップ５０８，５０９）。

【００５６】なお、上述した各実施の形態例の構成は単
なる一例であり、各実施の形態例の組み合わせも可能で
あり、その組み合わせも任意に構成できるものである。
また、以上述べた実施の形態例は本発明の一例を示すも
のであって限定するものではなく、本発明は他の変形な
る態様及び変更なる態様で実施することができるもので
ある。よって、本発明の範囲は特許請求の範囲及びその
均等範囲によってのみ規定されるものである。

【００５７】

【発明の効果】以上詳細に説明したように、本発明によ
れば、評価値の計算量を大幅に削減できる。また、評価
関数を求めるためのＭ(c_i,c_j) の計算では、ランダムな
順で計算するのに比べて、全文書中の相対頻度等でソー
トして計算することにより、分類精度を劣化させること
なく高速化することもできる。

【図面の簡単な説明】

【図１】本発明に係る情報検索装置の構成を示すブロッ
ク図である。

【図２】本発明に係る全文書中の相対頻度でソーティン
グを行うことを示すフローチャートである。

【図３】本発明における単語数割合と評価値との関係を
示す特性図である。

【図４】本発明における評価値の高いものから指定され
た上位ｔ個の組合せについて行う場合の処理を示すフロ
ーチャートである。

【図５】本発明における最終的に最大となる組合せを求
める場合の処理を示すフローチャートである。

【図６】従来の情報検索装置の構成を示すブロック図で
ある。

【図７】従来の再帰クラスタリング関数の処理内容を示
すフローチャートである。

【図８】従来のクラスタ生成関数の処理内容を示すフロ
ーチャートである。

【図９】従来におけるベイジアンクラスタリング方法を
示すフローチャートである。

【符号の説明】

１１評価値計算手段６１インターネット６２情報検索サーバ６３コンピュータ６４クライアント６２１コンテンツデータベース６２２クラスタデータベース６２３制御部６２３ａ葉ノード情報選択手段６２３ｂ部分クラスタ生成手段６２３ｃ再帰クラスタリング手段６２３ｄページ更新／検索手段

Claims

【特許請求の範囲】

【請求項１】文書の集合をクラスタとみなし、順次前
記クラスタ同士をマージしていく際２つの前記クラスタ
を引数とする評価関数を用いて当該評価関数が最大にな
るようなクラスタの組合せを求め、前記クラスタ同士を
マージするベイジアンクラスタリングを用いたクラスタ
リングにおける情報検索方法において、前記評価関数の計算を途中で止め、クラスタリングにお
ける評価値計算を行うことを特徴とする情報検索方法。
【請求項２】前記評価関数の計算を途中で止め、上位
所定の個数までの組合せについて前記評価関数の計算を
引き続いて行う請求項１に記載の情報検索方法。
【請求項３】前記評価関数の計算を行う際、全文書中
の相対頻度、各文書中の相対頻度及び各クラスタ中の相
対頻度の順にソートして計算する請求項１に記載の情報
検索方法。
【請求項４】文書情報を有する複数のコンピュータが
ネットワークに接続され、複数の前記文書情報のインデ
ックス情報を記憶するコンテンツデータベースと、該コ
ンテンツデータベースを用いて前記文書情報を検索及び
更新する制御部とを有する情報検索装置であって、前記
制御部は、複数の前記文書情報の中からクラスタの葉ノ
ードとなる所定の個数の情報を選択する葉ノード情報選
択手段と、選択されなかった残りの情報を類似する前記
葉ノードに割り当てる部分クラスタ生成手段と、前記葉
ノード情報選択手段及び前記部分クラスタ生成手段によ
って生成されたクラスタの葉ノードの方向に向かって繰
り返されるように指示する再帰クラスタリング手段と、
生成されたクラスタにページ情報を追加及び更新し、当
該クラスタからページ情報を検索するページ更新／検索
手段とを有する情報検索装置において、前記制御部は、評価関数の計算を途中で止め、クラスタ
リングにおける評価値計算を行う評価値計算手段を有す
ることを特徴とする情報検索装置。
【請求項５】前記評価値計算手段は、前記評価関数の
計算を途中で止め、上位所定の個数までの組合せについ
て前記評価関数の計算を引き続いて行う請求項４に記載
の情報検索装置。
【請求項６】前記評価値計算手段は、前記評価関数の
計算を行う際、全文書中の相対頻度、各文書中の相対頻
度及び各クラスタ中の相対頻度の順にソートして計算す
る請求項４に記載の情報検索装置。
【請求項７】前記評価値計算手段を、前記部分クラス
タ生成手段及び／又は前記再帰クラスタリング手段に設
けた請求項４〜６のいずれか１項に記載の情報検索装
置。