JP2000339316A

JP2000339316A - 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体

Info

Publication number: JP2000339316A
Application number: JP11144833A
Authority: JP
Inventors: Kazuhiro Hayakawa; 和宏早川; Hiroto Inagaki; 博人稲垣; Kazuo Tanaka; 一男田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1999-05-25
Filing date: 1999-05-25
Publication date: 2000-12-08

Abstract

(57)【要約】【課題】データを収集する優先順位が検索者の要求と
合致するような収集方法、装置及びコンピュータプログ
ラムを記憶した記録媒体を提供する。【解決手段】データベースを検索するための検索語を
蓄積し、蓄積された検索語から出現回数が高頻度の検索
語を抽出し、抽出された検索語に従ってリンクのリスト
からもっとも優先度が高いリンクを一つ選択し、選択し
たリンクが指す情報を取得して出力し、取得した情報の
内部に含まれるリンクを全て抽出して抽出された各リン
クの優先度を前記の抽出された高頻度の検索語に従って
算出して優先度とリンクを前記リストに追加し、リスト
の中の全てのリンクに対し上記リンクの選択以下の動作
を繰り返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、他の文書へのリン
クを含むような文書が複数のサーバーに分散配置され、
かつ各々のサーバーの保持する文書が独立に追加・削除
・更新されるような分散型ハイパーテキストシステムの
文書を網羅的に取得するための検索連動型情報収集方法
及び装置及びプログラムを記録した記録媒体に関する。

【０００２】

【従来の技術】インターネット上の分散型ハイパーテキ
ストシステムであるＷｏｒｌｄＷｉｄｅＷｅｂ（以下Ｗ
ＷＷ）では、多数のサーバーがその内容を勝手に追加・
削除・更新している。そのため、ＷＷＷの全体を検索す
るためには、まず各サーバーに置かれている文書のコピ
ーを一箇所に集積し、そのデータの中を検索する方法が
採られている。

【０００３】そのような検索システムでは、各サーバー
の文書のコピーを収集するプロセス（以下クローリング
プロセス）が存在する。クローリングプロセスは、デー
タを取得してはそのデータが参照しているリンクを辿り
つづけることにより、分散したデータを集めていく。同
時に、同一文書も一定期間毎に再収集して常に最新の文
書を保持している。しかし、このような収集方法は通常
長い時間がかかるため、効率よくデータを集積するため
に、データを収集する優先順位を決める必要がある。

【０００４】従来、優先順位決定手法として米Ｌｙｃｏ
ｓ社の方法である「被参照リンクが多い文書を優先す
る」という方法があった。この方法は「他の文書からよ
く参照されている情報」すなわち常識的な、すぐに探し
出せる情報が優先されることになる。しかし、検索者は
「自分が知らない情報」「簡単には見つからなかった情
報」こそが求めている情報であり、この優先順位決定方
法ではそのような情報の優先順位が高くならないという
問題があった。

【０００５】

【発明が解決しようとする課題】本発明の目的は、デー
タを収集する優先順位が検索者のニーズと合致するよう
なデータ収集方法を提供する検索連動型情報収集方法及
び装置及びプログラムを記録した記録媒体を提供するこ
とにある。

【０００６】

【課題を解決するための手段】本発明の検索連動型情報
収集方法は、データベースを検索するための検索語を蓄
積し、蓄積された検索語から出現回数が高頻度の検索語
を抽出し、抽出された検索語に従ってリンクのリストか
らもっとも優先度が高いリンクを一つ選択し、選択した
リンクが指す情報を取得して出力し、取得した情報の内
部に含まれるリンクを全て抽出して抽出された各リンク
の優先度を前記の抽出された高頻度の検索語に従って算
出して優先度とリンクを前記リストに追加し、リストの
中の全てのリンクに対し上記リンクの選択以下の動作を
繰り返すことを特徴とする。

【０００７】本発明の検索連動型情報収集装置は、デー
タベースを検索するための検索語を蓄積する手段と、蓄
積された検索語から高頻度の検索語を抽出する手段と、
高頻度の検索語を含むデータにリンクされた情報を収集
してデータベースに追加する手段を具備する。本発明に
よれば、頻繁に用いられる検索後についてより豊富かつ
新しい情報を収集することができる。

【０００８】本発明の検索連動型情報収集プログラムを
記録した記録媒体は、データベースを検索するための検
索語を蓄積し、蓄積された検索語から高頻度の検索語を
抽出し、高頻度の検索語を含むデータにリンクされた情
報を収集してデータベースに追加する。

【０００９】本プログラムは検索要求が頻繁なものにつ
いてより多くの情報を収集することをもっとも主要な特
徴とする。本発明によれば、頻繁に用いられる検索語に
ついてより豊富かつ新しい情報を収集することができ
る。

【００１０】

【発明の実施の形態】図１に本発明の一実施形態による
情報収集装置の全体構成を示す。入力装置１０１は検索
語を入力するためのものである。記憶装置１０４には検
索プログラム、情報収集プログラム、収集したデータを
格納するデータベース、および使用された検索語を記録
する検索履歴データが格納されている。

【００１１】入力装置１０１からは検索語が入力され
る。制御装置１０３は検索語を記憶装置１０４内の検索
履歴データに追加される。また検索プログラムを起動し
検索語を用いてデータベースを検索し、結果を出力装置
１０２に出力する。

【００１２】一方、収集プログラムは検索要求の有無と
は関係なく独立に定期的に起動される。収集プログラム
は与えられた起点から文書中のリンク情報を使って次々
にリンクされた文書を収集する。一般的に、一つの文書
には複数のリンクが含まれており、未収集のリンクは優
先順位を付けて順番に処理する必要がある。

【００１３】このため、検索履歴データを参照し、使用
頻度が高い検索語を調べる。使用頻度が高い検索語が文
書中のリンクと関連度が高い場合、そのリンクの優先順
位を高くする。

【００１４】収集した文書は記憶装置１０４内のデータ
ベースに追加され、検索用に供される。

【００１５】なお簡単のため記憶装置１０４は一つとし
たが、一般的には入出力の負荷を軽減するため複数の記
憶装置１０４にデータベースやプログラムを分散しても
よい。また入力装置１０１・出力装置１０２はネットワ
ークで接続された別のコンピュータでもよい。

【００１６】図２は図１の装置をＣＰＵ２０１を用いて
実現した場合のハードウェア構成を示す図である。図２
において、ＣＰＵ２０１にはメモリ２０２、表示装置で
あるディスプレイ２０４、入力装置であるキーボード２
０３、記憶装置であるハードディスク２０５が接続され
ている。ハードディスク２０５には、検索プログラム２
０６、収集プログラム２０７、データベース２０８、検
索履歴データ２０９が格納されている。

【００１７】図３は図２における情報収集プログラムの
フローチャートである。入力として情報を取得したい起
点リンクのリストをキューに入れ、高頻度検索語抽出の
ためのパラメータを与えてスタート（３１）し、高頻度
検索語を抽出する（３２）。高頻度の検索語の抽出につ
いては図４、図５、図６で説明する。リンクが空であれ
ば（３３）処理を終了する（４１）。リンクが空でなけ
れば、キューからもっとも優先順位の高いリンクを選択
し（３４）、選択したリンクをリストから削除しておく
（３５）。そしてそのリンクが指す情報を取得し（３
６）、取得した情報を出力する（３７）。次に取得した
情報の内部に含まれるリンクを全て抽出し（３８）、抽
出された各リンクの優先度を算出（３９）する。優先度
の求め方は後述する（図７）。そして優先度とリンクを
リストに追加する（４０）。次に別のリンクについて同
様の処理を行い、キューが空になるまで繰り返す（３
３）。

【００１８】なお実際に運用する場合には、無限ループ
になったりあまりにも時間がかかるのを防止するため、
一定時間が経過したらキューが空でなくても終了するよ
うにしておく必要がある。

【００１９】リンクの優先順位は、あらかじめ与えられ
た検索履歴データ中のキーワードとキーワードの出現頻
度の組を用いて算出する。各キーワードについて、（リ
ンクとキーワードとの関連度×キーワードの出現頻度）
を求め、これを各キーワードについて合計した量が大き
いものほど高い優先順位を与える。

【００２０】ここで、リンクとキーワードとの関連度の
算出方法は、そのリンクを含む文書全体とキーワードと
の関連度を流用することが考えられる。文書とキーワー
ドとの関連度としては、ＴＦ＊ＩＤＦが知られている。
この場合、同一文書に含まれるリンクは同一の優先順位
が与えられることになる。ここで、ＴＦ（ＴｅｒｍＦｒ
ｅｑｕｅｎｃｙ）は単語の出現頻度をあらわし、ＩＤＦ
（ＩｎｖｅｒｓｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎ
ｃｙ）は複数の文書の中の何％の文書に単語がでてくる
かの数値の逆数であり、＊は乗算をあらわす。

【００２１】また、ＨＴＭＬの場合にはリンク情報は単
語ないし文節に対して与えられていることが多いので、
この単語の検索履歴データにおける出現頻度を関連度と
して用いることも考えられる。

【００２２】図４はリンクの優先度の計算例を示した図
である。ここではリンクが付与されている単語の検索履
歴データにおける出現頻度を関連度として用いている。

【００２３】まず、検索履歴データから出現頻度の高い
単語として「Ｌｉｎｕｘ」「チャット」「ＭＩＤＩ」
「ダウンロード」「Ｗｉｎｄｏｗｓ」が得られ、それぞ
れ出現回数が図４（Ａ）のようであったとする。一方、
リンクの優先順位を計算したい文書には、「Ｌｉｎｕｘ
のページ」「ＭＩＤＩのページ」の二つのリンクが含ま
れていたとする。すると、「Ｌｉｎｕｘのページ」とい
うリンクには「Ｌｉｎｕｘ」という単語が含まれている
ので、このリンクの検索履歴との関連度は４５０００と
なる。同様に「ＭＩＤＩのページ」の関連度は３７００
０である。優先順位は数値が大きいほうが優先されると
しておけば、この関連度をそのまま優先順位として採用
すればよい。

【００２４】図５は本発明において蓄積された検索語か
ら高頻度の検索語を抽出するステップの例を示したもの
である。（Ａ）は蓄積された検索語の例、（Ｃ）は抽出
された高頻度検索語の例、（Ｂ）は抽出する処理の内容
である。

【００２５】検索システムでは、図５（Ａ）のようにい
つどのような検索が行われたかを検索履歴ファイルに記
録している。

【００２６】図５（Ｂ）は高頻度検索語の抽出処理の動
作フローチャートで、日数Ｄと出力語数Ｎを入力してス
タートする（５１）。Ｄ日前（例えば３日前）から前日
までの検索ログを読み込み（５２）、ログの中の各検索
語の出現回数を調べる（５３）。次に、検索語を出現回
数の多い順に並べ替え（５４）、検索語と出現回数を出
現回数の多い方からＮ個（例えば上位２０％）を出力し
て（５５）、終了する（５６）。出力されるものは、
「順位、検索語、Ｄ日前から前日までの検索語の出現回
数」をＮ個並べた表である。

【００２７】ここで過去何日分の履歴を用いるか、また
上位何％の検索語を出力するかは検索システムの利用頻
度や検索語のばらつきにより変更してよい。また、検索
語が非常に多い場合には、（Ｂ）においてすべての検索
語を出現回数に応じて並べ替える代わりに、ある一定頻
度以下の検索語は切り捨てた残りの検索語についてのみ
並べ替え処理を行ってよい。

【００２８】図６は検索語の抽出基準として検索語の用
いられた回数の代わりに用いられた回数の伸び率を用い
る場合の例である。まず、図５で得られた検索語の順位
及び出現回数の過去の計算結果を記録しておく。

【００２９】次に、新たに図５に従い計算された検索語
の順位及び前日の各検索語の順位から、各検索語につい
て前日と現在の順位の差を求める。たとえば図６（Ａ）
において「金利」は３位から２位に上昇しているので＋
１、逆に「株」は２位から３位に下降しているので−１
となる。

【００３０】この変動分を最新の順位から減算する。す
ると「金利」は１位、「株」は４位となる。

【００３１】上記のように順位の変動を用いることで、
各検索語の今後の順位を推定し、それを実際の順位の代
わりに用いることができる。この例ではもっとも簡単に
１日前の順位との差を順位の変化の傾きとして用いた
が、検索システムの性質によってどのくらい過去の順位
を用いるか、また何次の推定を行うかは変えてよい。

【００３２】図７は、図５や図６で得られた各検索語の
順位に基づき、リンクの優先順位を決定する処理を示す
動作フローチャートである。入力として、優先度を算出
したいリンクのリストと高頻度検索語の出力結果を与え
てスタートする（７１）。全てのリンクの優先度を算出
ずみ（７２）であれば処理を終了（７８）する。算出ず
みでなければ、優先度未算出のリンクを一つ選択し（７
３）、リンクのタイトルを単語に分割する（７４）。分
割するには漢字の連続やカタカナの連続を単語とみなす
方法や、辞書を用いた形態素解析を用いることができ
る。次にあらかじめ算出しておいた高頻度検索語の出力
結果からタイトルの各単語の出現回数を求め（７５）、
出現回数の合計を算出して（７６）、算出結果を選択さ
れたリンクの優先度として出力する（７７）。以上の動
作を全てのリンクについて繰り返す（７２）。

【００３３】リンクの表題としてしばしば「ここ」「こ
れ」といった指示代名詞しかない場合がある。たとえば
「○○新聞のページ」というリンクを作る代わりに、
「○○新聞はここ」という文の「ここ」の部分にリンク
を設定するというような場合である。図７においてリン
クの表題を取得する代わりにリンクを含む文全体の単語
を用いることで、このような場合に対応することができ
る。

【００３４】

【発明の効果】以上説明したように、本発明の請求項１
の検索連動型情報収集方法を用いれば、頻繁に用いられ
る検索語についてより豊富かつ新しい情報を収集するこ
とができる。

【００３５】本発明の請求項２の検索連動型情報収集装
置を用いれば、頻繁に用いられる検索語についてより豊
富かつ新しい情報を収集することができる。

【００３６】本発明の請求項３の検索連動型情報収集プ
ログラムを記録した記録媒体を用いれば、頻繁に用いら
れる検索語についてより豊富かつ新しい情報を収集する
ことができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に必要となるハードウェア
の全体構成を示した図である。

【図２】図１の装置を、ＣＰＵを用いて実現した場合の
ハードウェア構成を示す図である。

【図３】図２における情報収集プログラムのフローチャ
ートである。

【図４】リンクの優先度の計算例を示した図である。

【図５】本発明において蓄積された検索語から高頻度の
検索語を抽出する例を示す図である。

【図６】検索語の抽出基準として検索語の用いられた回
数の代わりに、用いられた回数の伸び率を用いる場合
の、検索語を抽出する例を示す図である。

【図７】リンクの優先順位を決定する処理の動作フロー
である。

【符号の説明】

１０１入力装置１０２出力装置１０３制御装置１０４記憶装置２０１ＣＰＵ２０２メモリ２０３キーボード２０４ディスプレイ２０５ハードディスク２０６検索プログラム２０７収集プログラム２０８データベース２０９検索履歴データ

フロントページの続き (72)発明者田中一男東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内Ｆターム(参考） 5B075 ND03 ND36 NK31 PR04

Claims

【特許請求の範囲】

【請求項１】情報を収集する方法において、データベースを検索するための検索語を蓄積し、蓄積された検索語から出現回数が高頻度の検索語を抽出
し、抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、選択したリンクが指す情報を取得して出力し、取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すことを特徴とする、検索連動型情報収
集方法。
【請求項２】情報を収集する検索連動型情報収集装置
において、データベースを検索するための検索語を蓄積する手段
と、蓄積された検索語から出現回数が高頻度の検索語を抽出
する手段と、抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択する手段と、選択したリンクが指す情報を取得して出力する手段と、取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加する手段と、リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返す手段とを有することを特徴とする、検
索連動型情報収集装置。
【請求項３】情報を収集するコンピュータプログラム
を記憶した記録媒体において、データベースを検索するための検索語を蓄積し、蓄積された検索語から出現回数が高頻度の検索語を抽出
し、抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、選択したリンクが指す情報を取得して出力し、取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すコンピュータプログラムを記憶するこ
とを特徴とする、検索連動型情報収集プログラムを記憶
した記録媒体。