JPH11250102A - 情報検索方法及び装置 - Google Patents
情報検索方法及び装置Info
- Publication number
- JPH11250102A JPH11250102A JP10069271A JP6927198A JPH11250102A JP H11250102 A JPH11250102 A JP H11250102A JP 10069271 A JP10069271 A JP 10069271A JP 6927198 A JP6927198 A JP 6927198A JP H11250102 A JPH11250102 A JP H11250102A
- Authority
- JP
- Japan
- Prior art keywords
- information
- cluster
- evaluation function
- calculation
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 本発明は、評価値の計算量を大幅に削減で
き、評価関数の計算では、ランダムな順で計算するのに
比べて、全文書中の相対頻度等でソートして計算するこ
とにより、分類精度を劣化させることなく高速化するこ
ともできる情報検索方法及び装置を提供することを目的
とする。 【解決手段】 本発明はこの目的を達成するために、文
書の集合をクラスタとみなし、順次前記クラスタ同士を
マージしていく際2つのクラスタを引数とする評価関数
を用いて当該評価関数が最大になるようなクラスタの組
合せを求めて前記クラスタ同士をマージするベイジアン
クラスタリングによる情報検索方法において、評価関数
の計算を途中で止め、クラスタリングにおける評価値計
算を行うことに特徴がある。
き、評価関数の計算では、ランダムな順で計算するのに
比べて、全文書中の相対頻度等でソートして計算するこ
とにより、分類精度を劣化させることなく高速化するこ
ともできる情報検索方法及び装置を提供することを目的
とする。 【解決手段】 本発明はこの目的を達成するために、文
書の集合をクラスタとみなし、順次前記クラスタ同士を
マージしていく際2つのクラスタを引数とする評価関数
を用いて当該評価関数が最大になるようなクラスタの組
合せを求めて前記クラスタ同士をマージするベイジアン
クラスタリングによる情報検索方法において、評価関数
の計算を途中で止め、クラスタリングにおける評価値計
算を行うことに特徴がある。
Description
【0001】
【発明の属する技術分野】本発明は、情報検索方法及び
装置に関し、特にベイジアンクラスタリングを用いたク
ラスタリングにおける評価値の計算の高速化を図る情報
検索方法及び装置に関するものである。
装置に関し、特にベイジアンクラスタリングを用いたク
ラスタリングにおける評価値の計算の高速化を図る情報
検索方法及び装置に関するものである。
【0002】
【従来の技術】図6は従来の情報検索装置の構成図であ
る。通常、インターネット61に接続された複数のコン
ピュータ63が有する文書情報を検索する情報検索装置
は、情報検索サーバ62と位置付けられる。インターネ
ット61には、更にページを有する膨大な数のコンピュ
ータ63と、検索を所望するクライアント64とが接続
されている。情報検索サーバ62は、コンピュータ63
が有するページのURLであるページ情報を管理し、か
つクライアント64が指定する情報に合うページのUR
Lを検索結果として提供するためのものである。
る。通常、インターネット61に接続された複数のコン
ピュータ63が有する文書情報を検索する情報検索装置
は、情報検索サーバ62と位置付けられる。インターネ
ット61には、更にページを有する膨大な数のコンピュ
ータ63と、検索を所望するクライアント64とが接続
されている。情報検索サーバ62は、コンピュータ63
が有するページのURLであるページ情報を管理し、か
つクライアント64が指定する情報に合うページのUR
Lを検索結果として提供するためのものである。
【0003】また、情報検索サーバ62は、コンテンツ
データベース621、クラスタデータベース622及び
制御部623を有している。コンテンツデータベース6
21には複数のページ情報が記憶され、クラスタデータ
ベース622にはページ情報をクラスタリングするため
のノード情報が記憶されている。
データベース621、クラスタデータベース622及び
制御部623を有している。コンテンツデータベース6
21には複数のページ情報が記憶され、クラスタデータ
ベース622にはページ情報をクラスタリングするため
のノード情報が記憶されている。
【0004】更に、制御部623は、葉ノード情報選択
手段623a、部分クラスタ生成手段623b、再帰ク
ラスタリング手段623c及びページ更新/検索手段6
23dを有している。葉ノード情報選択手段623a
は、複数のページ情報の中から所定の個数の最適なペー
ジ情報を選択するためのものである。部分クラスタ生成
手段623bは、選択されなかった残りのページ情報を
クラスタの類似する葉ノードに割り当ててクラスタを生
成するためのものである。再帰クラスタリング手段62
3cは、生成されたクラスタの葉ノード方向に向かっ
て、葉ノード情報選択手段623a及び部分クラスタ生
成手段623bを再度繰り返されるように指示するため
のものである。ページ更新/検索手段623dは、生成
されたクラスタにページ情報を追加及び更新したり、該
クラスタからページ情報を検索するためのものでる。
手段623a、部分クラスタ生成手段623b、再帰ク
ラスタリング手段623c及びページ更新/検索手段6
23dを有している。葉ノード情報選択手段623a
は、複数のページ情報の中から所定の個数の最適なペー
ジ情報を選択するためのものである。部分クラスタ生成
手段623bは、選択されなかった残りのページ情報を
クラスタの類似する葉ノードに割り当ててクラスタを生
成するためのものである。再帰クラスタリング手段62
3cは、生成されたクラスタの葉ノード方向に向かっ
て、葉ノード情報選択手段623a及び部分クラスタ生
成手段623bを再度繰り返されるように指示するため
のものである。ページ更新/検索手段623dは、生成
されたクラスタにページ情報を追加及び更新したり、該
クラスタからページ情報を検索するためのものでる。
【0005】図7は、従来の情報検索装置におけるクラ
スタを生成するための再帰クラスタリング関数を示すフ
ローチャートである。これは、図示していないが2分木
の情報構造を探索するために一般に用いられる再帰関数
に類似したものであり、入力(ステップ701)はペー
ジ集合を示すノードのポインタである。クラスタを構築
する場合、全てのページを割り当てたルートノードを入
力するものとする。
スタを生成するための再帰クラスタリング関数を示すフ
ローチャートである。これは、図示していないが2分木
の情報構造を探索するために一般に用いられる再帰関数
に類似したものであり、入力(ステップ701)はペー
ジ集合を示すノードのポインタである。クラスタを構築
する場合、全てのページを割り当てたルートノードを入
力するものとする。
【0006】まず、入力されたノードに割り当てられた
ページの数を判断する(ステップ702)。このページ
の数が所定の最大数であるmax個以上であれば、当該
ノードの下層に位置するクラスタを生成する。一方、ペ
ージの数が所定のmax個より少ないならば類似精度を
高めて総当たりにクラスタリングする(ステップ70
8)。
ページの数を判断する(ステップ702)。このページ
の数が所定の最大数であるmax個以上であれば、当該
ノードの下層に位置するクラスタを生成する。一方、ペ
ージの数が所定のmax個より少ないならば類似精度を
高めて総当たりにクラスタリングする(ステップ70
8)。
【0007】ノードに割り当てられたページの数がma
x個以上であれば、クラスタ生成関数が呼び出される
(ステップ702)。このクラスタ生成関数は、入力と
なるノードのポインタの下層に位置するページをクラス
タリングするものである。この関数の出力は、生成され
た部分クラスタのルートノードのポインタである。
x個以上であれば、クラスタ生成関数が呼び出される
(ステップ702)。このクラスタ生成関数は、入力と
なるノードのポインタの下層に位置するページをクラス
タリングするものである。この関数の出力は、生成され
た部分クラスタのルートノードのポインタである。
【0008】次に、生成されたクラスタの各葉ノードに
対して(ステップ704)再帰的に呼び出してクラスタ
リングを進めていく。まず、ある葉ノードに対して、当
該葉ノードに割り当てられたページがあるかどうかを判
定する(ステップ705)。割り当てられたページがあ
れば、再帰的に自関数(ステップ706)を呼び出し
て、クラスタの下層に向かってクラスタリングを進めて
いく。その後、再帰クラスタリング関数で得られたクラ
スタのルートノードを葉ノードとしてマージする(ステ
ップ707)。
対して(ステップ704)再帰的に呼び出してクラスタ
リングを進めていく。まず、ある葉ノードに対して、当
該葉ノードに割り当てられたページがあるかどうかを判
定する(ステップ705)。割り当てられたページがあ
れば、再帰的に自関数(ステップ706)を呼び出し
て、クラスタの下層に向かってクラスタリングを進めて
いく。その後、再帰クラスタリング関数で得られたクラ
スタのルートノードを葉ノードとしてマージする(ステ
ップ707)。
【0009】図8は、クラスタ生成関数をフローチャー
トで表したものである。このクラスタ生成関数は、葉ノ
ード選択段階と部分クラスタ生成段階との2つの処理段
階に分けられる。葉ノード選択段階は、複数のページの
中から、クラスタリングした際に最小符号長となるよう
な所定に個数の最適なページを選択するものである。部
分クラスタ生成段階は、選択されたページを葉ノードと
して選択されなかった残りのページを類似する葉ノード
に割り当ててクラスタを完成させるものである。
トで表したものである。このクラスタ生成関数は、葉ノ
ード選択段階と部分クラスタ生成段階との2つの処理段
階に分けられる。葉ノード選択段階は、複数のページの
中から、クラスタリングした際に最小符号長となるよう
な所定に個数の最適なページを選択するものである。部
分クラスタ生成段階は、選択されたページを葉ノードと
して選択されなかった残りのページを類似する葉ノード
に割り当ててクラスタを完成させるものである。
【0010】はじめに、入力されたノードのポインタに
割り当てられた複数のページから(ステップ801)、
max個のページ集合P[t]を選択する(ステップ8
03)。このmax個を大きくするほど、1回分の分類
単位を大きくできる。tは一連の処理を繰り返す度に1
づつ増える数である。このクラスタ生成関数が呼び出さ
れる際のノードには再帰クラスタリング段階の流れか
ら、少なくともmax個以上のページが割り当てられて
いるはずである。
割り当てられた複数のページから(ステップ801)、
max個のページ集合P[t]を選択する(ステップ8
03)。このmax個を大きくするほど、1回分の分類
単位を大きくできる。tは一連の処理を繰り返す度に1
づつ増える数である。このクラスタ生成関数が呼び出さ
れる際のノードには再帰クラスタリング段階の流れか
ら、少なくともmax個以上のページが割り当てられて
いるはずである。
【0011】次に、選択されたページ集合P[t]を公
知のアルゴリズムでクラスタリングを行う(ステップ8
04)。これは、max個の中で総当たりに類似度を判
定してクラスタリングを行うために、計算量が著しく増
加することはない。
知のアルゴリズムでクラスタリングを行う(ステップ8
04)。これは、max個の中で総当たりに類似度を判
定してクラスタリングを行うために、計算量が著しく増
加することはない。
【0012】そして、生成されたページ集合P[t]の
クラスタについて、選択されなかった残りのページを当
該クラスタの類似する葉ノードに対して割り当てる(ス
テップ805)。
クラスタについて、選択されなかった残りのページを当
該クラスタの類似する葉ノードに対して割り当てる(ス
テップ805)。
【0013】次に、生成されたクラスタに符号長L
[t]を求める(ステップ806)。情報の集合の最適
化では、MDL(Minimum Description Length creteri
on)基準に基づき、分類結果の符号長が最小になるよう
に選択される。ここでの符号長Lは、当該クラスタに必
要なノードの情報量L1 と、各葉ノードに割り当てられ
たページ数から分類に必要な符号長L2 との和として求
められる。
[t]を求める(ステップ806)。情報の集合の最適
化では、MDL(Minimum Description Length creteri
on)基準に基づき、分類結果の符号長が最小になるよう
に選択される。ここでの符号長Lは、当該クラスタに必
要なノードの情報量L1 と、各葉ノードに割り当てられ
たページ数から分類に必要な符号長L2 との和として求
められる。
【0014】2分木自体の符号化は、木を先行順に訪れ
て内部ノードを訪れたときに1を出力し、葉ノードを訪
れたときに0を出力することによって行う。ノードの情
報量L1 は、葉ノードの数(=max)をk(kは正の
整数)とすると、木の記述自体に必要な内部ノード数は
L1 =2k−1となる。
て内部ノードを訪れたときに1を出力し、葉ノードを訪
れたときに0を出力することによって行う。ノードの情
報量L1 は、葉ノードの数(=max)をk(kは正の
整数)とすると、木の記述自体に必要な内部ノード数は
L1 =2k−1となる。
【0015】よって、葉ノードiに割り当てられたペー
ジの数をni 及び全ページから葉ノードiの情報が選択
された確率をpi =ni /Σj njとした場合、各葉ノー
ドに割り当てられたページの数から分類に必要な符号長
はL2 =Σni log pi となる。これにより、L1 +L2
がクラスタの符号長Lとして求められる。
ジの数をni 及び全ページから葉ノードiの情報が選択
された確率をpi =ni /Σj njとした場合、各葉ノー
ドに割り当てられたページの数から分類に必要な符号長
はL2 =Σni log pi となる。これにより、L1 +L2
がクラスタの符号長Lとして求められる。
【0016】ここで求められたクラスタの符号長Lを、
以前の繰り返しによって記憶されている最小符号長L
min と比較する。求められた符号長L[t]が記憶され
ている最小符号長Lmin よりも小さければ、L[t]が
Lmin として記憶される(ステップ807)。
以前の繰り返しによって記憶されている最小符号長L
min と比較する。求められた符号長L[t]が記憶され
ている最小符号長Lmin よりも小さければ、L[t]が
Lmin として記憶される(ステップ807)。
【0017】これら一連の処理を所定の回数c回繰り返
す(ステップ802)ことによって最小符号長となるペ
ージ集合P[t]が選択される。ページ集合の選択はラ
ンダムに行われるために、この回数cが大きいほど最適
なページ集合を選択することができる。
す(ステップ802)ことによって最小符号長となるペ
ージ集合P[t]が選択される。ページ集合の選択はラ
ンダムに行われるために、この回数cが大きいほど最適
なページ集合を選択することができる。
【0018】また、クラスタ生成段階は、葉ノード選択
段階によって選択されたページ集合P[t]を類似度に
応じてクラスタリングを行い(ステップ808)、次い
で選択されなかった残りのページを生成されたクラスタ
の類似する葉ノードに割り当てる(ステップ809)。
このようにして、最小符号長Lmin となるクラスタが生
成される。
段階によって選択されたページ集合P[t]を類似度に
応じてクラスタリングを行い(ステップ808)、次い
で選択されなかった残りのページを生成されたクラスタ
の類似する葉ノードに割り当てる(ステップ809)。
このようにして、最小符号長Lmin となるクラスタが生
成される。
【0019】以上説明したクラスタリング方法による従
来の情報検索装置では、所定のmax個数以上では多少
類似精度を落として高速にクラスタリングし、所定のm
ax個数より小さい場合では類似度を高めて総当たりに
クラスタリングする。そのために、生成時間及び類似精
度にバランスをとってクラスタを生成することができ
る。
来の情報検索装置では、所定のmax個数以上では多少
類似精度を落として高速にクラスタリングし、所定のm
ax個数より小さい場合では類似度を高めて総当たりに
クラスタリングする。そのために、生成時間及び類似精
度にバランスをとってクラスタを生成することができ
る。
【0020】このような従来の情報検索装置において、
文書の類似検索の方法としては、入力文書と検索対象文
書との適合性に関する確率に従い、検索対象文書をラン
キングする統計的な方法がある。その1つとして、文書
中の語の出現確率を用いて文書集合をベイジアンクラス
タリングする方法があり、この方法は「Makoto IMAYAM
A, Takenobu TOKUNAGA, "Cluster-Based Text Categori
zation; A Comparisonof Categoly Search Strategie
s", Proc. of the Annual International ACM SIGIR Co
nference on Research and Develpment in Information
Rctricval, pp.273-280, 1995」に開示され、また本発
明者による「大量文書向けのクラスタリング手法の評
価」情報処理学会第55回全国大会(平成9年後期),
3−208,1997年に提案されている。
文書の類似検索の方法としては、入力文書と検索対象文
書との適合性に関する確率に従い、検索対象文書をラン
キングする統計的な方法がある。その1つとして、文書
中の語の出現確率を用いて文書集合をベイジアンクラス
タリングする方法があり、この方法は「Makoto IMAYAM
A, Takenobu TOKUNAGA, "Cluster-Based Text Categori
zation; A Comparisonof Categoly Search Strategie
s", Proc. of the Annual International ACM SIGIR Co
nference on Research and Develpment in Information
Rctricval, pp.273-280, 1995」に開示され、また本発
明者による「大量文書向けのクラスタリング手法の評
価」情報処理学会第55回全国大会(平成9年後期),
3−208,1997年に提案されている。
【0021】これらの文献におけるベイジアンクラスタ
リングはドキュメントの集合をクラスタとみなし、順次
クラスタ同士をマージしていくものである。クラスタ同
士をマージする際には、マージ対象となる2つのクラス
タci,cj を引数とする評価関数E(ci,cj) を用い、E(c
i,cj) が最大になるようなci,cj の組を求め、ci,cjを
マージする。
リングはドキュメントの集合をクラスタとみなし、順次
クラスタ同士をマージしていくものである。クラスタ同
士をマージする際には、マージ対象となる2つのクラス
タci,cj を引数とする評価関数E(ci,cj) を用い、E(c
i,cj) が最大になるようなci,cj の組を求め、ci,cjを
マージする。
【0022】上記前者の文献に示されたプログラムリス
トによると、E(ci,cj) を以下のように計算している。
トによると、E(ci,cj) を以下のように計算している。
【0023】E(ci,cj) =M(ci,cj) −U(ci)−U(cj)
【0024】この計算方法の場合、U(ci∪cj) =M(c
i,cj) が成り立つのでU(ci)はM(ci,cj) として計算す
る。但し、M(ci,cj) は以下のようにして求められる。
i,cj) が成り立つのでU(ci)はM(ci,cj) として計算す
る。但し、M(ci,cj) は以下のようにして求められる。
【0025】 1:function M(ci,cj) 2: out=0.0; 3: forall ドキュメント d∈クラスタci∪cj 4: tmp=0.0; 5: forall単語 w∈d 6: tmp=tmp+rate(w,d,ci ∪cj); 7: out=out+log(tmp); 8: return out; 9:endfunc
【0026】ただし、rate(w,d,c)=(d中のw の相対頻
度)(c 中のw の相対頻度) /(全文書中のw の相対頻
度) ;
度)(c 中のw の相対頻度) /(全文書中のw の相対頻
度) ;
【0027】図9はこの方法をフローチャートで表した
ものである。
ものである。
【0028】入力(ステップ901)はクラスタci,cj
に含まれる文書の頻度表である。まず、入力されたクラ
スタci,cj それぞれ(c) についてクラスタci,cj (ステ
ップ902,903)に含まれる文書d中の全ての単語
を全文書中の相対頻度でソートする(ステップ904〜
906)。これらの結果の値を累積した上でlogを取
って累積してE(ci,cj) を出力する(ステップ907,
908)。
に含まれる文書の頻度表である。まず、入力されたクラ
スタci,cj それぞれ(c) についてクラスタci,cj (ステ
ップ902,903)に含まれる文書d中の全ての単語
を全文書中の相対頻度でソートする(ステップ904〜
906)。これらの結果の値を累積した上でlogを取
って累積してE(ci,cj) を出力する(ステップ907,
908)。
【0029】
【発明が解決しようとする課題】このような従来の方法
では、従来の技術のアルゴリズムの中で、M(ci,cj) の
内側のループ(第5行、第6行)にほとんどの時間が費
やされる。そして、生成中の全クラスタ対においてクラ
スタ中の全ての文書中の全ての単語について、rateの値
を計算する必要があり、大量文書を処理するためには多
くの計算時間を必要とする。
では、従来の技術のアルゴリズムの中で、M(ci,cj) の
内側のループ(第5行、第6行)にほとんどの時間が費
やされる。そして、生成中の全クラスタ対においてクラ
スタ中の全ての文書中の全ての単語について、rateの値
を計算する必要があり、大量文書を処理するためには多
くの計算時間を必要とする。
【0030】本発明はこれらの問題点を解決するための
もので、評価値の計算量を大幅に削減できると共に、評
価関数の計算ではランダムな順で計算するのに比べて、
全文書中の相対頻度等でソートして計算することによ
り、分類精度を劣化させることなく高速化することもで
きる情報検索方法及び装置を提供することを目的とす
る。
もので、評価値の計算量を大幅に削減できると共に、評
価関数の計算ではランダムな順で計算するのに比べて、
全文書中の相対頻度等でソートして計算することによ
り、分類精度を劣化させることなく高速化することもで
きる情報検索方法及び装置を提供することを目的とす
る。
【0031】
【課題を解決するための手段】上記従来例の問題点を解
決するために、本発明によれば、文書情報を有する複数
のコンピュータがネットワークに接続され、複数の前記
文書情報のインデックス情報を記憶するコンテンツデー
タベースと、該コンテンツデータベースを用いて前記文
書情報を検索及び更新する制御部とを有する情報検索装
置であって、前記制御部は、複数の前記文書情報の中か
らクラスタの葉ノードとなる所定の個数の情報を選択す
る葉ノード情報選択手段と、選択されなかった残りの情
報を類似する前記葉ノードに割り当てる部分クラスタ生
成手段と、前記葉ノード情報選択手段及び前記部分クラ
スタ生成手段によって生成されたクラスタの葉ノードの
方向に向かって繰り返されるように指示する再帰クラス
タリング手段と、生成されたクラスタにページ情報を追
加及び更新し、当該クラスタからページ情報を検索する
ページ更新/検索手段とを有する情報検索装置におい
て、制御部は、評価関数の計算を途中で止め、クラスタ
リングにおける評価値計算を行う評価値計算手段を有す
ることに特徴がある。また、評価値計算手段を、部分ク
ラスタ生成手段及び/又は再帰クラスタリング手段に設
けてもよい。以上のような構成を有する本発明の装置に
よれば、分類精度を劣化させることなく高速化できる情
報検索装置を実現できる。
決するために、本発明によれば、文書情報を有する複数
のコンピュータがネットワークに接続され、複数の前記
文書情報のインデックス情報を記憶するコンテンツデー
タベースと、該コンテンツデータベースを用いて前記文
書情報を検索及び更新する制御部とを有する情報検索装
置であって、前記制御部は、複数の前記文書情報の中か
らクラスタの葉ノードとなる所定の個数の情報を選択す
る葉ノード情報選択手段と、選択されなかった残りの情
報を類似する前記葉ノードに割り当てる部分クラスタ生
成手段と、前記葉ノード情報選択手段及び前記部分クラ
スタ生成手段によって生成されたクラスタの葉ノードの
方向に向かって繰り返されるように指示する再帰クラス
タリング手段と、生成されたクラスタにページ情報を追
加及び更新し、当該クラスタからページ情報を検索する
ページ更新/検索手段とを有する情報検索装置におい
て、制御部は、評価関数の計算を途中で止め、クラスタ
リングにおける評価値計算を行う評価値計算手段を有す
ることに特徴がある。また、評価値計算手段を、部分ク
ラスタ生成手段及び/又は再帰クラスタリング手段に設
けてもよい。以上のような構成を有する本発明の装置に
よれば、分類精度を劣化させることなく高速化できる情
報検索装置を実現できる。
【0032】また、文書の集合をクラスタとみなし、順
次前記クラスタ同士をマージしていく際2つの前記クラ
スタを引数とする評価関数を用いて当該評価関数が最大
になるようなクラスタの組合せを求め、前記クラスタ同
士をマージするベイジアンクラスタリングを用いたクラ
スタリングにおける情報検索方法において、前記評価関
数の計算を途中で止め、クラスタリングにおける評価値
計算を行うことにも特徴がある。また、評価関数の計算
を途中で止め、上位所定の個数までの組合せについて前
記評価関数の計算を引き続いて行う。更に、評価関数の
計算を行う際、全文書中の相対頻度、各文書中の相対頻
度及び各クラスタ中の相対頻度の順にソートして計算す
る。よって、特に評価値の計算量を大幅に削減できる。
次前記クラスタ同士をマージしていく際2つの前記クラ
スタを引数とする評価関数を用いて当該評価関数が最大
になるようなクラスタの組合せを求め、前記クラスタ同
士をマージするベイジアンクラスタリングを用いたクラ
スタリングにおける情報検索方法において、前記評価関
数の計算を途中で止め、クラスタリングにおける評価値
計算を行うことにも特徴がある。また、評価関数の計算
を途中で止め、上位所定の個数までの組合せについて前
記評価関数の計算を引き続いて行う。更に、評価関数の
計算を行う際、全文書中の相対頻度、各文書中の相対頻
度及び各クラスタ中の相対頻度の順にソートして計算す
る。よって、特に評価値の計算量を大幅に削減できる。
【0033】従って、本発明によれば、評価値の計算量
を大幅に削減できると共に、評価関数の計算ではランダ
ムな順で計算するのに比べて、全文書中の相対頻度等で
ソートして計算することにより、分類精度を劣化させる
ことなく高速化できる情報検索方法及び装置を提供でき
る。
を大幅に削減できると共に、評価関数の計算ではランダ
ムな順で計算するのに比べて、全文書中の相対頻度等で
ソートして計算することにより、分類精度を劣化させる
ことなく高速化できる情報検索方法及び装置を提供でき
る。
【0034】
【発明の実施の形態】以下、本発明の実施の形態例を図
面に基づいて説明する。はじめに、従来例におけるベイ
ジアンクラスタリングの計算方法の第3〜第7行目を実
行中にoutの値があまり増えない場合、最後まで計算
してもM(ci,cj) の値が小さく、クラスタ対ci,cj が評
価関数を最大にする可能性は低いが、従来例では計算す
る必要がある。
面に基づいて説明する。はじめに、従来例におけるベイ
ジアンクラスタリングの計算方法の第3〜第7行目を実
行中にoutの値があまり増えない場合、最後まで計算
してもM(ci,cj) の値が小さく、クラスタ対ci,cj が評
価関数を最大にする可能性は低いが、従来例では計算す
る必要がある。
【0035】そこで、本発明における情報検索方法で
は、クラスタ中の全ての単語について、評価関数M,E
を計算するのではなく、評価関数Mを途中まで求めた段
階で評価関数Eの値を予測し、評価関数Eの推定値が低
いクラスタ対については評価関数Eの計算を一時止める
方法である。そして、評価関数Eの推定値が所定値より
高いクラスタ対についてのみ、評価関数Eの値を計算す
ればよい。そこで、文書中の全単語を用いて評価関数E
を計算するのではなく、
は、クラスタ中の全ての単語について、評価関数M,E
を計算するのではなく、評価関数Mを途中まで求めた段
階で評価関数Eの値を予測し、評価関数Eの推定値が低
いクラスタ対については評価関数Eの計算を一時止める
方法である。そして、評価関数Eの推定値が所定値より
高いクラスタ対についてのみ、評価関数Eの値を計算す
ればよい。そこで、文書中の全単語を用いて評価関数E
を計算するのではなく、
【0036】・文書中の相対頻度でソートし、頻度の高
い順から指定された割合(r)の単語集合もしくは、
い順から指定された割合(r)の単語集合もしくは、
【0037】・クラスタ(ci)中の相対頻度でソート
し、頻度の高い順から指定された割合(r)の単語集合
もしくは、
し、頻度の高い順から指定された割合(r)の単語集合
もしくは、
【0038】・クラスタ(ci∪cj)中の相対頻度でソー
トし、頻度の高い順から指定された割合(r)の単語集
合もしくは、
トし、頻度の高い順から指定された割合(r)の単語集
合もしくは、
【0039】・全文書中の相対頻度でソートし、頻度の
高い順から指定された割合(r)の単語集合
高い順から指定された割合(r)の単語集合
【0040】で、評価値の高い組合せを予想する。
【0041】但し、評価関数Eの分類精度を保つため、
クラスタ中の各文書の単語種類数が指定された大きさ
(s)以下のものについては全ての単語について評価値
を計算する。
クラスタ中の各文書の単語種類数が指定された大きさ
(s)以下のものについては全ての単語について評価値
を計算する。
【0042】次に、本発明に係る実施の形態例の情報検
索装置について説明する。図1は本発明に係る実施の形
態例の情報検索装置の構成を示すブロック図である。同
図において、図6と同じ構成要件は同じ参照番号を付し
ている。異なる構成要件として、11は評価値計算手段
であり、上位t個のみを残してM(ci,cj) を途中まで計
算し、M(ci,cj) の途中結果m(i,j,d) によりM(ci,
cj),U(ci), U(cj)からE(ci,cj) を求め、引き続きM
(ci,cj) を求めてM(ci,cj),U(ci), U(cj)からE(ci,
cj) を求めるものである。なお、評価値計算手段11は
部分クラスタ生成手段623b及び/又は再帰クラスタ
リング手段623cに含まれてもよい。
索装置について説明する。図1は本発明に係る実施の形
態例の情報検索装置の構成を示すブロック図である。同
図において、図6と同じ構成要件は同じ参照番号を付し
ている。異なる構成要件として、11は評価値計算手段
であり、上位t個のみを残してM(ci,cj) を途中まで計
算し、M(ci,cj) の途中結果m(i,j,d) によりM(ci,
cj),U(ci), U(cj)からE(ci,cj) を求め、引き続きM
(ci,cj) を求めてM(ci,cj),U(ci), U(cj)からE(ci,
cj) を求めるものである。なお、評価値計算手段11は
部分クラスタ生成手段623b及び/又は再帰クラスタ
リング手段623cに含まれてもよい。
【0043】次に、上記の単語数の割合がrになるまで
評価値Eを計算する関数を全文書中の相対頻度でソーテ
ィングする場合を、図2に示すフローチャートに従って
説明する。
評価値Eを計算する関数を全文書中の相対頻度でソーテ
ィングする場合を、図2に示すフローチャートに従って
説明する。
【0044】入力(ステップ201)はクラスタ集合
S,r,s,tである。まず、入力されたクラスタS=
(c1,c2,・・・,cN)中の全てのクラスタについてU(ci)を
求める(ステップ202,203)。全てのクラスタの
組合せ(ci,cj) 間の評価値E(ci,cj) を途中まで求める
(ステップ204)。上位t(tは正の整数)個までの
組合せについて引き続きE(ci,cj) を求める(ステップ
205)。E(ci,cj) が最大となるようなクラスタの組
合せを類似度が最も高いものとしてマージする。そし
て、クラスタci,cj を子ノードとするクラスタckを作成
する(ステップ206)。よって、クラスタSをS=S
-ci-cj+ck としてクラスタの上層に向かってクラスタリ
ングを進めていく(ステップ207)。
S,r,s,tである。まず、入力されたクラスタS=
(c1,c2,・・・,cN)中の全てのクラスタについてU(ci)を
求める(ステップ202,203)。全てのクラスタの
組合せ(ci,cj) 間の評価値E(ci,cj) を途中まで求める
(ステップ204)。上位t(tは正の整数)個までの
組合せについて引き続きE(ci,cj) を求める(ステップ
205)。E(ci,cj) が最大となるようなクラスタの組
合せを類似度が最も高いものとしてマージする。そし
て、クラスタci,cj を子ノードとするクラスタckを作成
する(ステップ206)。よって、クラスタSをS=S
-ci-cj+ck としてクラスタの上層に向かってクラスタリ
ングを進めていく(ステップ207)。
【0045】図3は全文書中の相対頻度でソートした場
合の評価値であり、横軸が単語種類数の割合、縦軸が評
価関数Eの値である。同図では、文書5例(d1,d2,d3,
d4,d5)を用いて、E(d1,d2) ,E(d1,d3) ,E(d1,d4)
,E(d1,d5) の増え方を示した。同図からわかるよう
に、単語数の割合にほぼ比例してEが増えている。この
ことから、ある程度の任意の割合rの値を用いれば、最
終的な評価関数Eの値が精度よく推定できることを示し
ている。
合の評価値であり、横軸が単語種類数の割合、縦軸が評
価関数Eの値である。同図では、文書5例(d1,d2,d3,
d4,d5)を用いて、E(d1,d2) ,E(d1,d3) ,E(d1,d4)
,E(d1,d5) の増え方を示した。同図からわかるよう
に、単語数の割合にほぼ比例してEが増えている。この
ことから、ある程度の任意の割合rの値を用いれば、最
終的な評価関数Eの値が精度よく推定できることを示し
ている。
【0046】単語数の割合が割合rになるまで評価関数
Eを計算する関数を全文書の相対頻度でソーティングす
る場合について以下に示す。
Eを計算する関数を全文書の相対頻度でソーティングす
る場合について以下に示す。
【0047】 1:function newM(ci,cj) 2: out=0.0; 3: forall 文書 d∈(ci∪cj){ 4: if(dの単語の種類数N(d)>s) 5: Nx=rN(d) 6: else Nx=N(d); 7: d 中の単語を全文書中の相対頻度でソートす
る; 8: tmp=0.0; 9: for(w=1;w++;w<=Nx) 10: tmp=tmp+rate(F(w),d,ci ∪cj); 11: m(i,j,d)=tmp; 12: out=out+log(tmp); 13: } 14:return out; 15:endfunc
る; 8: tmp=0.0; 9: for(w=1;w++;w<=Nx) 10: tmp=tmp+rate(F(w),d,ci ∪cj); 11: m(i,j,d)=tmp; 12: out=out+log(tmp); 13: } 14:return out; 15:endfunc
【0048】m(i,j,d)については後で使用する。F(w)は
w 番目に頻度の高い単語の頻度である。
w 番目に頻度の高い単語の頻度である。
【0049】次に、上記の単語数の割合がrになるまで
評価値E(ci,cj) を求めるためのM(ci,cj) を計算する
関数を全文書中の相対頻度でソーティングする場合を図
4に示すフローチャートに従って説明する。
評価値E(ci,cj) を求めるためのM(ci,cj) を計算する
関数を全文書中の相対頻度でソーティングする場合を図
4に示すフローチャートに従って説明する。
【0050】入力(ステップ401)はクラスタci,cj
に含まれる文書の頻度表である。まず、クラスタci∪cj
(ステップ402,403)に含まれる文書d毎の単語
の種類数N(d) がsより大きいならばNx をrN(d) と
して(ステップ404〜406)、単語の種類数N(d)
がsより小さければNx をN(d) として文書d中の単語
を全文書中の相対頻度でソートし(ステップ407)、
更に文書dの上位N個の単語についてかつ上記rateの計
算を行い(ステップ408,409)結果の値を累積し
た上で途中結果m(i,j,d) を保存し(ステップ410)
logを取って累積してM(ci,cj) を出力する(ステッ
プ411,412)。
に含まれる文書の頻度表である。まず、クラスタci∪cj
(ステップ402,403)に含まれる文書d毎の単語
の種類数N(d) がsより大きいならばNx をrN(d) と
して(ステップ404〜406)、単語の種類数N(d)
がsより小さければNx をN(d) として文書d中の単語
を全文書中の相対頻度でソートし(ステップ407)、
更に文書dの上位N個の単語についてかつ上記rateの計
算を行い(ステップ408,409)結果の値を累積し
た上で途中結果m(i,j,d) を保存し(ステップ410)
logを取って累積してM(ci,cj) を出力する(ステッ
プ411,412)。
【0051】その後、評価値の高いものから指定された
上位t個の組合せについて、引続き評価値を求め、最終
的に最大となる組合せを求める。
上位t個の組合せについて、引続き評価値を求め、最終
的に最大となる組合せを求める。
【0052】以下に引続き評価値を求めるときに使用す
る関数を示す。
る関数を示す。
【0053】 1:function cntM(ci,cj) 2: out=0.0; 3: forall 文書 d∈(ci∪cj){ 4: tmp=m(i,j,d); 5: if(dの単語の種類数N(d)>s){ 6: for(w=rN(d)+1;w++;w<=N(d)) 7: tmp=tmp+rate(F(w),d,ci ∪cj); 8: } 9: out=out+log(tmp); 10: } 11: return out; 12:endfunc
【0054】次に、上記の単評価値の高いものから指定
された上位t個の組合せについて、引続き評価値を求
め、最終的に最大となる組合せを求める場合を図5に示
すフローチャートに従って説明する。
された上位t個の組合せについて、引続き評価値を求
め、最終的に最大となる組合せを求める場合を図5に示
すフローチャートに従って説明する。
【0055】入力(ステップ501)は上位t個の評価
値E'(ci,cj)を持つクラスタ対ci,cjである。まず、入
力されたクラスタci,cj それぞれ(c) について(ステッ
プ502,503,504)クラスタci,cj に含まれる
文書d毎の単語の種類数N(d) がsより以下であるなら
ば途中結果m(i,j,d) をそのまま用い、単語の種類数N
(d) がsより大きくなれば(ステップ505)頻度表F
中の残りの単語F(Nx+1),・・・,F(d)についてrateの計算を
行って累積する(ステップ506,507)。その結果
の値をlogを取って更に累積してM(ci,cj) を出力す
る(ステップ508,509)。
値E'(ci,cj)を持つクラスタ対ci,cjである。まず、入
力されたクラスタci,cj それぞれ(c) について(ステッ
プ502,503,504)クラスタci,cj に含まれる
文書d毎の単語の種類数N(d) がsより以下であるなら
ば途中結果m(i,j,d) をそのまま用い、単語の種類数N
(d) がsより大きくなれば(ステップ505)頻度表F
中の残りの単語F(Nx+1),・・・,F(d)についてrateの計算を
行って累積する(ステップ506,507)。その結果
の値をlogを取って更に累積してM(ci,cj) を出力す
る(ステップ508,509)。
【0056】なお、上述した各実施の形態例の構成は単
なる一例であり、各実施の形態例の組み合わせも可能で
あり、その組み合わせも任意に構成できるものである。
また、以上述べた実施の形態例は本発明の一例を示すも
のであって限定するものではなく、本発明は他の変形な
る態様及び変更なる態様で実施することができるもので
ある。よって、本発明の範囲は特許請求の範囲及びその
均等範囲によってのみ規定されるものである。
なる一例であり、各実施の形態例の組み合わせも可能で
あり、その組み合わせも任意に構成できるものである。
また、以上述べた実施の形態例は本発明の一例を示すも
のであって限定するものではなく、本発明は他の変形な
る態様及び変更なる態様で実施することができるもので
ある。よって、本発明の範囲は特許請求の範囲及びその
均等範囲によってのみ規定されるものである。
【0057】
【発明の効果】以上詳細に説明したように、本発明によ
れば、評価値の計算量を大幅に削減できる。また、評価
関数を求めるためのM(ci,cj) の計算では、ランダムな
順で計算するのに比べて、全文書中の相対頻度等でソー
トして計算することにより、分類精度を劣化させること
なく高速化することもできる。
れば、評価値の計算量を大幅に削減できる。また、評価
関数を求めるためのM(ci,cj) の計算では、ランダムな
順で計算するのに比べて、全文書中の相対頻度等でソー
トして計算することにより、分類精度を劣化させること
なく高速化することもできる。
【図1】本発明に係る情報検索装置の構成を示すブロッ
ク図である。
ク図である。
【図2】本発明に係る全文書中の相対頻度でソーティン
グを行うことを示すフローチャートである。
グを行うことを示すフローチャートである。
【図3】本発明における単語数割合と評価値との関係を
示す特性図である。
示す特性図である。
【図4】本発明における評価値の高いものから指定され
た上位t個の組合せについて行う場合の処理を示すフロ
ーチャートである。
た上位t個の組合せについて行う場合の処理を示すフロ
ーチャートである。
【図5】本発明における最終的に最大となる組合せを求
める場合の処理を示すフローチャートである。
める場合の処理を示すフローチャートである。
【図6】従来の情報検索装置の構成を示すブロック図で
ある。
ある。
【図7】従来の再帰クラスタリング関数の処理内容を示
すフローチャートである。
すフローチャートである。
【図8】従来のクラスタ生成関数の処理内容を示すフロ
ーチャートである。
ーチャートである。
【図9】従来におけるベイジアンクラスタリング方法を
示すフローチャートである。
示すフローチャートである。
11 評価値計算手段 61 インターネット 62 情報検索サーバ 63 コンピュータ 64 クライアント 621 コンテンツデータベース 622 クラスタデータベース 623 制御部 623a 葉ノード情報選択手段 623b 部分クラスタ生成手段 623c 再帰クラスタリング手段 623d ページ更新/検索手段
Claims (7)
- 【請求項1】 文書の集合をクラスタとみなし、順次前
記クラスタ同士をマージしていく際2つの前記クラスタ
を引数とする評価関数を用いて当該評価関数が最大にな
るようなクラスタの組合せを求め、前記クラスタ同士を
マージするベイジアンクラスタリングを用いたクラスタ
リングにおける情報検索方法において、 前記評価関数の計算を途中で止め、クラスタリングにお
ける評価値計算を行うことを特徴とする情報検索方法。 - 【請求項2】 前記評価関数の計算を途中で止め、上位
所定の個数までの組合せについて前記評価関数の計算を
引き続いて行う請求項1に記載の情報検索方法。 - 【請求項3】 前記評価関数の計算を行う際、全文書中
の相対頻度、各文書中の相対頻度及び各クラスタ中の相
対頻度の順にソートして計算する請求項1に記載の情報
検索方法。 - 【請求項4】 文書情報を有する複数のコンピュータが
ネットワークに接続され、複数の前記文書情報のインデ
ックス情報を記憶するコンテンツデータベースと、該コ
ンテンツデータベースを用いて前記文書情報を検索及び
更新する制御部とを有する情報検索装置であって、前記
制御部は、複数の前記文書情報の中からクラスタの葉ノ
ードとなる所定の個数の情報を選択する葉ノード情報選
択手段と、選択されなかった残りの情報を類似する前記
葉ノードに割り当てる部分クラスタ生成手段と、前記葉
ノード情報選択手段及び前記部分クラスタ生成手段によ
って生成されたクラスタの葉ノードの方向に向かって繰
り返されるように指示する再帰クラスタリング手段と、
生成されたクラスタにページ情報を追加及び更新し、当
該クラスタからページ情報を検索するページ更新/検索
手段とを有する情報検索装置において、 前記制御部は、評価関数の計算を途中で止め、クラスタ
リングにおける評価値計算を行う評価値計算手段を有す
ることを特徴とする情報検索装置。 - 【請求項5】 前記評価値計算手段は、前記評価関数の
計算を途中で止め、上位所定の個数までの組合せについ
て前記評価関数の計算を引き続いて行う請求項4に記載
の情報検索装置。 - 【請求項6】 前記評価値計算手段は、前記評価関数の
計算を行う際、全文書中の相対頻度、各文書中の相対頻
度及び各クラスタ中の相対頻度の順にソートして計算す
る請求項4に記載の情報検索装置。 - 【請求項7】 前記評価値計算手段を、前記部分クラス
タ生成手段及び/又は前記再帰クラスタリング手段に設
けた請求項4〜6のいずれか1項に記載の情報検索装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10069271A JPH11250102A (ja) | 1998-03-05 | 1998-03-05 | 情報検索方法及び装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10069271A JPH11250102A (ja) | 1998-03-05 | 1998-03-05 | 情報検索方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11250102A true JPH11250102A (ja) | 1999-09-17 |
Family
ID=13397856
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10069271A Pending JPH11250102A (ja) | 1998-03-05 | 1998-03-05 | 情報検索方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11250102A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001125931A (ja) * | 1999-10-27 | 2001-05-11 | Nec Corp | 物理ドメインを区分および再編成するために論理ドメインを定義および利用する方法 |
| WO2007088893A1 (ja) * | 2006-02-01 | 2007-08-09 | Matsushita Electric Industrial Co., Ltd. | 情報分類装置および情報検索装置 |
-
1998
- 1998-03-05 JP JP10069271A patent/JPH11250102A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001125931A (ja) * | 1999-10-27 | 2001-05-11 | Nec Corp | 物理ドメインを区分および再編成するために論理ドメインを定義および利用する方法 |
| WO2007088893A1 (ja) * | 2006-02-01 | 2007-08-09 | Matsushita Electric Industrial Co., Ltd. | 情報分類装置および情報検索装置 |
| JPWO2007088893A1 (ja) * | 2006-02-01 | 2009-06-25 | パナソニック株式会社 | 情報分類装置および情報検索装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7266548B2 (en) | Automated taxonomy generation | |
| JP5369154B2 (ja) | クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法 | |
| US7797323B1 (en) | Producing representative hashes for segments of a file | |
| CN101551806B (zh) | 一种个性化网址导航的方法和系统 | |
| US7424483B2 (en) | Location information recommending apparatus, method, and storage medium | |
| US20040193698A1 (en) | Method for finding convergence of ranking of web page | |
| US8756231B2 (en) | Search using proximity for clustering information | |
| US8650144B2 (en) | Apparatus and methods for lossless compression of numerical attributes in rule based systems | |
| US7680768B2 (en) | Information processing apparatus and method, program, and storage medium | |
| US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
| JP2001519952A (ja) | データ要約装置 | |
| CN110569496A (zh) | 实体链接方法、装置及存储介质 | |
| CN1629844A (zh) | 动态内容聚类 | |
| WO2008086506A1 (en) | Ranking items by optimizing ranking cost function | |
| CN108665148B (zh) | 一种电子资源质量评价方法、装置和存储介质 | |
| CN114385777A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
| WO2022156086A1 (zh) | 人机交互方法、装置、设备及存储介质 | |
| US20090106022A1 (en) | System and method for learning a network of categories using prediction | |
| US9223833B2 (en) | Method for in-loop human validation of disambiguated features | |
| CN107180028A (zh) | 一种基于lda与退火算法组合的推荐技术 | |
| JPH11250102A (ja) | 情報検索方法及び装置 | |
| CN116680367B (zh) | 数据匹配方法、数据匹配装置及计算机可读存储介质 | |
| JP3632359B2 (ja) | 情報検索装置 | |
| CN119203983A (zh) | 多层级批量文本并行去重方法、系统、设备及存储介质 | |
| KR102351264B1 (ko) | 사용자 맞춤형 신간 도서 정보의 제공 방법 및 그 시스템 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040514 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |