JP2000339316A - 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 - Google Patents
検索連動型情報収集方法、装置及びその方法を記憶した記録媒体Info
- Publication number
- JP2000339316A JP2000339316A JP11144833A JP14483399A JP2000339316A JP 2000339316 A JP2000339316 A JP 2000339316A JP 11144833 A JP11144833 A JP 11144833A JP 14483399 A JP14483399 A JP 14483399A JP 2000339316 A JP2000339316 A JP 2000339316A
- Authority
- JP
- Japan
- Prior art keywords
- link
- search
- extracted
- priority
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 データを収集する優先順位が検索者の要求と
合致するような収集方法、装置及びコンピュータプログ
ラムを記憶した記録媒体を提供する。 【解決手段】 データベースを検索するための検索語を
蓄積し、蓄積された検索語から出現回数が高頻度の検索
語を抽出し、抽出された検索語に従ってリンクのリスト
からもっとも優先度が高いリンクを一つ選択し、選択し
たリンクが指す情報を取得して出力し、取得した情報の
内部に含まれるリンクを全て抽出して抽出された各リン
クの優先度を前記の抽出された高頻度の検索語に従って
算出して優先度とリンクを前記リストに追加し、リスト
の中の全てのリンクに対し上記リンクの選択以下の動作
を繰り返す。
合致するような収集方法、装置及びコンピュータプログ
ラムを記憶した記録媒体を提供する。 【解決手段】 データベースを検索するための検索語を
蓄積し、蓄積された検索語から出現回数が高頻度の検索
語を抽出し、抽出された検索語に従ってリンクのリスト
からもっとも優先度が高いリンクを一つ選択し、選択し
たリンクが指す情報を取得して出力し、取得した情報の
内部に含まれるリンクを全て抽出して抽出された各リン
クの優先度を前記の抽出された高頻度の検索語に従って
算出して優先度とリンクを前記リストに追加し、リスト
の中の全てのリンクに対し上記リンクの選択以下の動作
を繰り返す。
Description
【0001】
【発明の属する技術分野】本発明は、他の文書へのリン
クを含むような文書が複数のサーバーに分散配置され、
かつ各々のサーバーの保持する文書が独立に追加・削除
・更新されるような分散型ハイパーテキストシステムの
文書を網羅的に取得するための検索連動型情報収集方法
及び装置及びプログラムを記録した記録媒体に関する。
クを含むような文書が複数のサーバーに分散配置され、
かつ各々のサーバーの保持する文書が独立に追加・削除
・更新されるような分散型ハイパーテキストシステムの
文書を網羅的に取得するための検索連動型情報収集方法
及び装置及びプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】インターネット上の分散型ハイパーテキ
ストシステムであるWorldWideWeb(以下W
WW)では、多数のサーバーがその内容を勝手に追加・
削除・更新している。そのため、WWWの全体を検索す
るためには、まず各サーバーに置かれている文書のコピ
ーを一箇所に集積し、そのデータの中を検索する方法が
採られている。
ストシステムであるWorldWideWeb(以下W
WW)では、多数のサーバーがその内容を勝手に追加・
削除・更新している。そのため、WWWの全体を検索す
るためには、まず各サーバーに置かれている文書のコピ
ーを一箇所に集積し、そのデータの中を検索する方法が
採られている。
【0003】そのような検索システムでは、各サーバー
の文書のコピーを収集するプロセス(以下クローリング
プロセス)が存在する。クローリングプロセスは、デー
タを取得してはそのデータが参照しているリンクを辿り
つづけることにより、分散したデータを集めていく。同
時に、同一文書も一定期間毎に再収集して常に最新の文
書を保持している。しかし、このような収集方法は通常
長い時間がかかるため、効率よくデータを集積するため
に、データを収集する優先順位を決める必要がある。
の文書のコピーを収集するプロセス(以下クローリング
プロセス)が存在する。クローリングプロセスは、デー
タを取得してはそのデータが参照しているリンクを辿り
つづけることにより、分散したデータを集めていく。同
時に、同一文書も一定期間毎に再収集して常に最新の文
書を保持している。しかし、このような収集方法は通常
長い時間がかかるため、効率よくデータを集積するため
に、データを収集する優先順位を決める必要がある。
【0004】従来、優先順位決定手法として米Lyco
s社の方法である「被参照リンクが多い文書を優先す
る」という方法があった。この方法は「他の文書からよ
く参照されている情報」すなわち常識的な、すぐに探し
出せる情報が優先されることになる。しかし、検索者は
「自分が知らない情報」「簡単には見つからなかった情
報」こそが求めている情報であり、この優先順位決定方
法ではそのような情報の優先順位が高くならないという
問題があった。
s社の方法である「被参照リンクが多い文書を優先す
る」という方法があった。この方法は「他の文書からよ
く参照されている情報」すなわち常識的な、すぐに探し
出せる情報が優先されることになる。しかし、検索者は
「自分が知らない情報」「簡単には見つからなかった情
報」こそが求めている情報であり、この優先順位決定方
法ではそのような情報の優先順位が高くならないという
問題があった。
【0005】
【発明が解決しようとする課題】本発明の目的は、デー
タを収集する優先順位が検索者のニーズと合致するよう
なデータ収集方法を提供する検索連動型情報収集方法及
び装置及びプログラムを記録した記録媒体を提供するこ
とにある。
タを収集する優先順位が検索者のニーズと合致するよう
なデータ収集方法を提供する検索連動型情報収集方法及
び装置及びプログラムを記録した記録媒体を提供するこ
とにある。
【0006】
【課題を解決するための手段】本発明の検索連動型情報
収集方法は、データベースを検索するための検索語を蓄
積し、蓄積された検索語から出現回数が高頻度の検索語
を抽出し、抽出された検索語に従ってリンクのリストか
らもっとも優先度が高いリンクを一つ選択し、選択した
リンクが指す情報を取得して出力し、取得した情報の内
部に含まれるリンクを全て抽出して抽出された各リンク
の優先度を前記の抽出された高頻度の検索語に従って算
出して優先度とリンクを前記リストに追加し、リストの
中の全てのリンクに対し上記リンクの選択以下の動作を
繰り返すことを特徴とする。
収集方法は、データベースを検索するための検索語を蓄
積し、蓄積された検索語から出現回数が高頻度の検索語
を抽出し、抽出された検索語に従ってリンクのリストか
らもっとも優先度が高いリンクを一つ選択し、選択した
リンクが指す情報を取得して出力し、取得した情報の内
部に含まれるリンクを全て抽出して抽出された各リンク
の優先度を前記の抽出された高頻度の検索語に従って算
出して優先度とリンクを前記リストに追加し、リストの
中の全てのリンクに対し上記リンクの選択以下の動作を
繰り返すことを特徴とする。
【0007】本発明の検索連動型情報収集装置は、デー
タベースを検索するための検索語を蓄積する手段と、蓄
積された検索語から高頻度の検索語を抽出する手段と、
高頻度の検索語を含むデータにリンクされた情報を収集
してデータベースに追加する手段を具備する。本発明に
よれば、頻繁に用いられる検索後についてより豊富かつ
新しい情報を収集することができる。
タベースを検索するための検索語を蓄積する手段と、蓄
積された検索語から高頻度の検索語を抽出する手段と、
高頻度の検索語を含むデータにリンクされた情報を収集
してデータベースに追加する手段を具備する。本発明に
よれば、頻繁に用いられる検索後についてより豊富かつ
新しい情報を収集することができる。
【0008】本発明の検索連動型情報収集プログラムを
記録した記録媒体は、データベースを検索するための検
索語を蓄積し、蓄積された検索語から高頻度の検索語を
抽出し、高頻度の検索語を含むデータにリンクされた情
報を収集してデータベースに追加する。
記録した記録媒体は、データベースを検索するための検
索語を蓄積し、蓄積された検索語から高頻度の検索語を
抽出し、高頻度の検索語を含むデータにリンクされた情
報を収集してデータベースに追加する。
【0009】本プログラムは検索要求が頻繁なものにつ
いてより多くの情報を収集することをもっとも主要な特
徴とする。本発明によれば、頻繁に用いられる検索語に
ついてより豊富かつ新しい情報を収集することができ
る。
いてより多くの情報を収集することをもっとも主要な特
徴とする。本発明によれば、頻繁に用いられる検索語に
ついてより豊富かつ新しい情報を収集することができ
る。
【0010】
【発明の実施の形態】図1に本発明の一実施形態による
情報収集装置の全体構成を示す。入力装置101は検索
語を入力するためのものである。記憶装置104には検
索プログラム、情報収集プログラム、収集したデータを
格納するデータベース、および使用された検索語を記録
する検索履歴データが格納されている。
情報収集装置の全体構成を示す。入力装置101は検索
語を入力するためのものである。記憶装置104には検
索プログラム、情報収集プログラム、収集したデータを
格納するデータベース、および使用された検索語を記録
する検索履歴データが格納されている。
【0011】入力装置101からは検索語が入力され
る。制御装置103は検索語を記憶装置104内の検索
履歴データに追加される。また検索プログラムを起動し
検索語を用いてデータベースを検索し、結果を出力装置
102に出力する。
る。制御装置103は検索語を記憶装置104内の検索
履歴データに追加される。また検索プログラムを起動し
検索語を用いてデータベースを検索し、結果を出力装置
102に出力する。
【0012】一方、収集プログラムは検索要求の有無と
は関係なく独立に定期的に起動される。収集プログラム
は与えられた起点から文書中のリンク情報を使って次々
にリンクされた文書を収集する。一般的に、一つの文書
には複数のリンクが含まれており、未収集のリンクは優
先順位を付けて順番に処理する必要がある。
は関係なく独立に定期的に起動される。収集プログラム
は与えられた起点から文書中のリンク情報を使って次々
にリンクされた文書を収集する。一般的に、一つの文書
には複数のリンクが含まれており、未収集のリンクは優
先順位を付けて順番に処理する必要がある。
【0013】このため、検索履歴データを参照し、使用
頻度が高い検索語を調べる。使用頻度が高い検索語が文
書中のリンクと関連度が高い場合、そのリンクの優先順
位を高くする。
頻度が高い検索語を調べる。使用頻度が高い検索語が文
書中のリンクと関連度が高い場合、そのリンクの優先順
位を高くする。
【0014】収集した文書は記憶装置104内のデータ
ベースに追加され、検索用に供される。
ベースに追加され、検索用に供される。
【0015】なお簡単のため記憶装置104は一つとし
たが、一般的には入出力の負荷を軽減するため複数の記
憶装置104にデータベースやプログラムを分散しても
よい。また入力装置101・出力装置102はネットワ
ークで接続された別のコンピュータでもよい。
たが、一般的には入出力の負荷を軽減するため複数の記
憶装置104にデータベースやプログラムを分散しても
よい。また入力装置101・出力装置102はネットワ
ークで接続された別のコンピュータでもよい。
【0016】図2は図1の装置をCPU201を用いて
実現した場合のハードウェア構成を示す図である。図2
において、CPU201にはメモリ202、表示装置で
あるディスプレイ204、入力装置であるキーボード2
03、記憶装置であるハードディスク205が接続され
ている。ハードディスク205には、検索プログラム2
06、収集プログラム207、データベース208、検
索履歴データ209が格納されている。
実現した場合のハードウェア構成を示す図である。図2
において、CPU201にはメモリ202、表示装置で
あるディスプレイ204、入力装置であるキーボード2
03、記憶装置であるハードディスク205が接続され
ている。ハードディスク205には、検索プログラム2
06、収集プログラム207、データベース208、検
索履歴データ209が格納されている。
【0017】図3は図2における情報収集プログラムの
フローチャートである。入力として情報を取得したい起
点リンクのリストをキューに入れ、高頻度検索語抽出の
ためのパラメータを与えてスタート(31)し、高頻度
検索語を抽出する(32)。高頻度の検索語の抽出につ
いては図4、図5、図6で説明する。リンクが空であれ
ば(33)処理を終了する(41)。リンクが空でなけ
れば、キューからもっとも優先順位の高いリンクを選択
し(34)、選択したリンクをリストから削除しておく
(35)。そしてそのリンクが指す情報を取得し(3
6)、取得した情報を出力する(37)。次に取得した
情報の内部に含まれるリンクを全て抽出し(38)、抽
出された各リンクの優先度を算出(39)する。優先度
の求め方は後述する(図7)。そして優先度とリンクを
リストに追加する(40)。次に別のリンクについて同
様の処理を行い、キューが空になるまで繰り返す(3
3)。
フローチャートである。入力として情報を取得したい起
点リンクのリストをキューに入れ、高頻度検索語抽出の
ためのパラメータを与えてスタート(31)し、高頻度
検索語を抽出する(32)。高頻度の検索語の抽出につ
いては図4、図5、図6で説明する。リンクが空であれ
ば(33)処理を終了する(41)。リンクが空でなけ
れば、キューからもっとも優先順位の高いリンクを選択
し(34)、選択したリンクをリストから削除しておく
(35)。そしてそのリンクが指す情報を取得し(3
6)、取得した情報を出力する(37)。次に取得した
情報の内部に含まれるリンクを全て抽出し(38)、抽
出された各リンクの優先度を算出(39)する。優先度
の求め方は後述する(図7)。そして優先度とリンクを
リストに追加する(40)。次に別のリンクについて同
様の処理を行い、キューが空になるまで繰り返す(3
3)。
【0018】なお実際に運用する場合には、無限ループ
になったりあまりにも時間がかかるのを防止するため、
一定時間が経過したらキューが空でなくても終了するよ
うにしておく必要がある。
になったりあまりにも時間がかかるのを防止するため、
一定時間が経過したらキューが空でなくても終了するよ
うにしておく必要がある。
【0019】リンクの優先順位は、あらかじめ与えられ
た検索履歴データ中のキーワードとキーワードの出現頻
度の組を用いて算出する。各キーワードについて、(リ
ンクとキーワードとの関連度×キーワードの出現頻度)
を求め、これを各キーワードについて合計した量が大き
いものほど高い優先順位を与える。
た検索履歴データ中のキーワードとキーワードの出現頻
度の組を用いて算出する。各キーワードについて、(リ
ンクとキーワードとの関連度×キーワードの出現頻度)
を求め、これを各キーワードについて合計した量が大き
いものほど高い優先順位を与える。
【0020】ここで、リンクとキーワードとの関連度の
算出方法は、そのリンクを含む文書全体とキーワードと
の関連度を流用することが考えられる。文書とキーワー
ドとの関連度としては、TF*IDFが知られている。
この場合、同一文書に含まれるリンクは同一の優先順位
が与えられることになる。ここで、TF(TermFr
equency)は単語の出現頻度をあらわし、IDF
(InversedDocument Frequen
cy)は複数の文書の中の何%の文書に単語がでてくる
かの数値の逆数であり、*は乗算をあらわす。
算出方法は、そのリンクを含む文書全体とキーワードと
の関連度を流用することが考えられる。文書とキーワー
ドとの関連度としては、TF*IDFが知られている。
この場合、同一文書に含まれるリンクは同一の優先順位
が与えられることになる。ここで、TF(TermFr
equency)は単語の出現頻度をあらわし、IDF
(InversedDocument Frequen
cy)は複数の文書の中の何%の文書に単語がでてくる
かの数値の逆数であり、*は乗算をあらわす。
【0021】また、HTMLの場合にはリンク情報は単
語ないし文節に対して与えられていることが多いので、
この単語の検索履歴データにおける出現頻度を関連度と
して用いることも考えられる。
語ないし文節に対して与えられていることが多いので、
この単語の検索履歴データにおける出現頻度を関連度と
して用いることも考えられる。
【0022】図4はリンクの優先度の計算例を示した図
である。ここではリンクが付与されている単語の検索履
歴データにおける出現頻度を関連度として用いている。
である。ここではリンクが付与されている単語の検索履
歴データにおける出現頻度を関連度として用いている。
【0023】まず、検索履歴データから出現頻度の高い
単語として「Linux」「チャット」「MIDI」
「ダウンロード」「Windows」が得られ、それぞ
れ出現回数が図4(A)のようであったとする。一方、
リンクの優先順位を計算したい文書には、「Linux
のページ」「MIDIのページ」の二つのリンクが含ま
れていたとする。すると、「Linuxのページ」とい
うリンクには「Linux」という単語が含まれている
ので、このリンクの検索履歴との関連度は45000と
なる。同様に「MIDIのページ」の関連度は3700
0である。優先順位は数値が大きいほうが優先されると
しておけば、この関連度をそのまま優先順位として採用
すればよい。
単語として「Linux」「チャット」「MIDI」
「ダウンロード」「Windows」が得られ、それぞ
れ出現回数が図4(A)のようであったとする。一方、
リンクの優先順位を計算したい文書には、「Linux
のページ」「MIDIのページ」の二つのリンクが含ま
れていたとする。すると、「Linuxのページ」とい
うリンクには「Linux」という単語が含まれている
ので、このリンクの検索履歴との関連度は45000と
なる。同様に「MIDIのページ」の関連度は3700
0である。優先順位は数値が大きいほうが優先されると
しておけば、この関連度をそのまま優先順位として採用
すればよい。
【0024】図5は本発明において蓄積された検索語か
ら高頻度の検索語を抽出するステップの例を示したもの
である。(A)は蓄積された検索語の例、(C)は抽出
された高頻度検索語の例、(B)は抽出する処理の内容
である。
ら高頻度の検索語を抽出するステップの例を示したもの
である。(A)は蓄積された検索語の例、(C)は抽出
された高頻度検索語の例、(B)は抽出する処理の内容
である。
【0025】検索システムでは、図5(A)のようにい
つどのような検索が行われたかを検索履歴ファイルに記
録している。
つどのような検索が行われたかを検索履歴ファイルに記
録している。
【0026】図5(B)は高頻度検索語の抽出処理の動
作フローチャートで、日数Dと出力語数Nを入力してス
タートする(51)。D日前(例えば3日前)から前日
までの検索ログを読み込み(52)、ログの中の各検索
語の出現回数を調べる(53)。次に、検索語を出現回
数の多い順に並べ替え(54)、検索語と出現回数を出
現回数の多い方からN個(例えば上位20%)を出力し
て(55)、終了する(56)。出力されるものは、
「順位、検索語、D日前から前日までの検索語の出現回
数」をN個並べた表である。
作フローチャートで、日数Dと出力語数Nを入力してス
タートする(51)。D日前(例えば3日前)から前日
までの検索ログを読み込み(52)、ログの中の各検索
語の出現回数を調べる(53)。次に、検索語を出現回
数の多い順に並べ替え(54)、検索語と出現回数を出
現回数の多い方からN個(例えば上位20%)を出力し
て(55)、終了する(56)。出力されるものは、
「順位、検索語、D日前から前日までの検索語の出現回
数」をN個並べた表である。
【0027】ここで過去何日分の履歴を用いるか、また
上位何%の検索語を出力するかは検索システムの利用頻
度や検索語のばらつきにより変更してよい。また、検索
語が非常に多い場合には、(B)においてすべての検索
語を出現回数に応じて並べ替える代わりに、ある一定頻
度以下の検索語は切り捨てた残りの検索語についてのみ
並べ替え処理を行ってよい。
上位何%の検索語を出力するかは検索システムの利用頻
度や検索語のばらつきにより変更してよい。また、検索
語が非常に多い場合には、(B)においてすべての検索
語を出現回数に応じて並べ替える代わりに、ある一定頻
度以下の検索語は切り捨てた残りの検索語についてのみ
並べ替え処理を行ってよい。
【0028】図6は検索語の抽出基準として検索語の用
いられた回数の代わりに用いられた回数の伸び率を用い
る場合の例である。まず、図5で得られた検索語の順位
及び出現回数の過去の計算結果を記録しておく。
いられた回数の代わりに用いられた回数の伸び率を用い
る場合の例である。まず、図5で得られた検索語の順位
及び出現回数の過去の計算結果を記録しておく。
【0029】次に、新たに図5に従い計算された検索語
の順位及び前日の各検索語の順位から、各検索語につい
て前日と現在の順位の差を求める。たとえば図6(A)
において「金利」は3位から2位に上昇しているので+
1、逆に「株」は2位から3位に下降しているので−1
となる。
の順位及び前日の各検索語の順位から、各検索語につい
て前日と現在の順位の差を求める。たとえば図6(A)
において「金利」は3位から2位に上昇しているので+
1、逆に「株」は2位から3位に下降しているので−1
となる。
【0030】この変動分を最新の順位から減算する。す
ると「金利」は1位、「株」は4位となる。
ると「金利」は1位、「株」は4位となる。
【0031】上記のように順位の変動を用いることで、
各検索語の今後の順位を推定し、それを実際の順位の代
わりに用いることができる。この例ではもっとも簡単に
1日前の順位との差を順位の変化の傾きとして用いた
が、検索システムの性質によってどのくらい過去の順位
を用いるか、また何次の推定を行うかは変えてよい。
各検索語の今後の順位を推定し、それを実際の順位の代
わりに用いることができる。この例ではもっとも簡単に
1日前の順位との差を順位の変化の傾きとして用いた
が、検索システムの性質によってどのくらい過去の順位
を用いるか、また何次の推定を行うかは変えてよい。
【0032】図7は、図5や図6で得られた各検索語の
順位に基づき、リンクの優先順位を決定する処理を示す
動作フローチャートである。入力として、優先度を算出
したいリンクのリストと高頻度検索語の出力結果を与え
てスタートする(71)。全てのリンクの優先度を算出
ずみ(72)であれば処理を終了(78)する。算出ず
みでなければ、優先度未算出のリンクを一つ選択し(7
3)、リンクのタイトルを単語に分割する(74)。分
割するには漢字の連続やカタカナの連続を単語とみなす
方法や、辞書を用いた形態素解析を用いることができ
る。次にあらかじめ算出しておいた高頻度検索語の出力
結果からタイトルの各単語の出現回数を求め(75)、
出現回数の合計を算出して(76)、算出結果を選択さ
れたリンクの優先度として出力する(77)。以上の動
作を全てのリンクについて繰り返す(72)。
順位に基づき、リンクの優先順位を決定する処理を示す
動作フローチャートである。入力として、優先度を算出
したいリンクのリストと高頻度検索語の出力結果を与え
てスタートする(71)。全てのリンクの優先度を算出
ずみ(72)であれば処理を終了(78)する。算出ず
みでなければ、優先度未算出のリンクを一つ選択し(7
3)、リンクのタイトルを単語に分割する(74)。分
割するには漢字の連続やカタカナの連続を単語とみなす
方法や、辞書を用いた形態素解析を用いることができ
る。次にあらかじめ算出しておいた高頻度検索語の出力
結果からタイトルの各単語の出現回数を求め(75)、
出現回数の合計を算出して(76)、算出結果を選択さ
れたリンクの優先度として出力する(77)。以上の動
作を全てのリンクについて繰り返す(72)。
【0033】リンクの表題としてしばしば「ここ」「こ
れ」といった指示代名詞しかない場合がある。たとえば
「○○新聞のページ」というリンクを作る代わりに、
「○○新聞はここ」という文の「ここ」の部分にリンク
を設定するというような場合である。図7においてリン
クの表題を取得する代わりにリンクを含む文全体の単語
を用いることで、このような場合に対応することができ
る。
れ」といった指示代名詞しかない場合がある。たとえば
「○○新聞のページ」というリンクを作る代わりに、
「○○新聞はここ」という文の「ここ」の部分にリンク
を設定するというような場合である。図7においてリン
クの表題を取得する代わりにリンクを含む文全体の単語
を用いることで、このような場合に対応することができ
る。
【0034】
【発明の効果】以上説明したように、本発明の請求項1
の検索連動型情報収集方法を用いれば、頻繁に用いられ
る検索語についてより豊富かつ新しい情報を収集するこ
とができる。
の検索連動型情報収集方法を用いれば、頻繁に用いられ
る検索語についてより豊富かつ新しい情報を収集するこ
とができる。
【0035】本発明の請求項2の検索連動型情報収集装
置を用いれば、頻繁に用いられる検索語についてより豊
富かつ新しい情報を収集することができる。
置を用いれば、頻繁に用いられる検索語についてより豊
富かつ新しい情報を収集することができる。
【0036】本発明の請求項3の検索連動型情報収集プ
ログラムを記録した記録媒体を用いれば、頻繁に用いら
れる検索語についてより豊富かつ新しい情報を収集する
ことができる。
ログラムを記録した記録媒体を用いれば、頻繁に用いら
れる検索語についてより豊富かつ新しい情報を収集する
ことができる。
【図1】本発明の一実施形態に必要となるハードウェア
の全体構成を示した図である。
の全体構成を示した図である。
【図2】図1の装置を、CPUを用いて実現した場合の
ハードウェア構成を示す図である。
ハードウェア構成を示す図である。
【図3】図2における情報収集プログラムのフローチャ
ートである。
ートである。
【図4】リンクの優先度の計算例を示した図である。
【図5】本発明において蓄積された検索語から高頻度の
検索語を抽出する例を示す図である。
検索語を抽出する例を示す図である。
【図6】検索語の抽出基準として検索語の用いられた回
数の代わりに、用いられた回数の伸び率を用いる場合
の、検索語を抽出する例を示す図である。
数の代わりに、用いられた回数の伸び率を用いる場合
の、検索語を抽出する例を示す図である。
【図7】リンクの優先順位を決定する処理の動作フロー
である。
である。
101 入力装置 102 出力装置 103 制御装置 104 記憶装置 201 CPU 202 メモリ 203 キーボード 204 ディスプレイ 205 ハードディスク 206 検索プログラム 207 収集プログラム 208 データベース 209 検索履歴データ
フロントページの続き (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 ND36 NK31 PR04
Claims (3)
- 【請求項1】 情報を収集する方法において、 データベースを検索するための検索語を蓄積し、 蓄積された検索語から出現回数が高頻度の検索語を抽出
し、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、 選択したリンクが指す情報を取得して出力し、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すことを特徴とする、検索連動型情報収
集方法。 - 【請求項2】 情報を収集する検索連動型情報収集装置
において、 データベースを検索するための検索語を蓄積する手段
と、 蓄積された検索語から出現回数が高頻度の検索語を抽出
する手段と、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択する手段と、 選択したリンクが指す情報を取得して出力する手段と、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加する手段と、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返す手段とを有することを特徴とする、検
索連動型情報収集装置。 - 【請求項3】 情報を収集するコンピュータプログラム
を記憶した記録媒体において、 データベースを検索するための検索語を蓄積し、 蓄積された検索語から出現回数が高頻度の検索語を抽出
し、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、 選択したリンクが指す情報を取得して出力し、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すコンピュータプログラムを記憶するこ
とを特徴とする、検索連動型情報収集プログラムを記憶
した記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11144833A JP2000339316A (ja) | 1999-05-25 | 1999-05-25 | 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11144833A JP2000339316A (ja) | 1999-05-25 | 1999-05-25 | 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000339316A true JP2000339316A (ja) | 2000-12-08 |
Family
ID=15371509
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11144833A Withdrawn JP2000339316A (ja) | 1999-05-25 | 1999-05-25 | 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000339316A (ja) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004118415A (ja) * | 2002-09-25 | 2004-04-15 | Fujitsu Ltd | 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム |
| JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
| JPWO2003091906A1 (ja) * | 2002-04-24 | 2005-09-02 | 富士通株式会社 | 文書表示プログラムおよび文書表示方法 |
| JP2006079454A (ja) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置 |
| JP2007035034A (ja) * | 2005-07-27 | 2007-02-08 | Nhn Corp | リアルタイム急上昇検索語検出方法およびリアルタイム急上昇検索語検出システム |
| JP2009217661A (ja) * | 2008-03-12 | 2009-09-24 | Kddi Corp | 違法コンテンツ判定支援システムおよび違法コンテンツ判定支援システムの制御プログラム |
| JP2011159296A (ja) * | 2003-09-30 | 2011-08-18 | Google Inc | ドキュメントをスコア付けする方法 |
| JP2011253415A (ja) * | 2010-06-03 | 2011-12-15 | Yahoo Japan Corp | フレーズに基づくクエリサジェスチョン装置及び方法 |
| KR101126498B1 (ko) | 2004-05-19 | 2012-03-30 | 엔에이치엔(주) | 인터넷 검색 서비스를 효율적으로 제공하기 위한 검색어관리 방법 및 시스템 |
-
1999
- 1999-05-25 JP JP11144833A patent/JP2000339316A/ja not_active Withdrawn
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2003091906A1 (ja) * | 2002-04-24 | 2005-09-02 | 富士通株式会社 | 文書表示プログラムおよび文書表示方法 |
| JP2004118415A (ja) * | 2002-09-25 | 2004-04-15 | Fujitsu Ltd | 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム |
| JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
| US8521749B2 (en) | 2003-09-30 | 2013-08-27 | Google Inc. | Document scoring based on document inception date |
| US8527524B2 (en) | 2003-09-30 | 2013-09-03 | Google Inc. | Document scoring based on document content update |
| US9767478B2 (en) | 2003-09-30 | 2017-09-19 | Google Inc. | Document scoring based on traffic associated with a document |
| US8639690B2 (en) | 2003-09-30 | 2014-01-28 | Google Inc. | Document scoring based on query analysis |
| JP2011159296A (ja) * | 2003-09-30 | 2011-08-18 | Google Inc | ドキュメントをスコア付けする方法 |
| US8577901B2 (en) | 2003-09-30 | 2013-11-05 | Google Inc. | Document scoring based on query analysis |
| US8549014B2 (en) | 2003-09-30 | 2013-10-01 | Google Inc. | Document scoring based on document content update |
| US8407231B2 (en) | 2003-09-30 | 2013-03-26 | Google Inc. | Document scoring based on link-based criteria |
| KR101126498B1 (ko) | 2004-05-19 | 2012-03-30 | 엔에이치엔(주) | 인터넷 검색 서비스를 효율적으로 제공하기 위한 검색어관리 방법 및 시스템 |
| JP2006079454A (ja) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置 |
| JP2007035034A (ja) * | 2005-07-27 | 2007-02-08 | Nhn Corp | リアルタイム急上昇検索語検出方法およびリアルタイム急上昇検索語検出システム |
| US7822720B2 (en) | 2005-07-27 | 2010-10-26 | Nhn Corporation | Method and system of detecting keyword whose input number is rapidly increased in real time |
| JP2009217661A (ja) * | 2008-03-12 | 2009-09-24 | Kddi Corp | 違法コンテンツ判定支援システムおよび違法コンテンツ判定支援システムの制御プログラム |
| JP2011253415A (ja) * | 2010-06-03 | 2011-12-15 | Yahoo Japan Corp | フレーズに基づくクエリサジェスチョン装置及び方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| USRE36727E (en) | Method of indexing and retrieval of electronically-stored documents | |
| RU2733482C2 (ru) | Способ и система для обновления базы данных поискового индекса | |
| US9081851B2 (en) | Method and system for autocompletion using ranked results | |
| KR100304335B1 (ko) | 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 | |
| US8812478B1 (en) | Distributed crawling of hyperlinked documents | |
| US7792833B2 (en) | Ranking search results using language types | |
| US8549000B2 (en) | Methods and systems for compressing indices | |
| JP2001519952A (ja) | データ要約装置 | |
| US20090094186A1 (en) | Information Retrieval System, Registration Apparatus for Indexes for Information Retrieval, Information Retrieval Method and Program | |
| CN112835923A (zh) | 一种相关检索方法、装置和设备 | |
| KR20040017008A (ko) | 검색엔진을 활용한 정보 제공 시스템 및 그 방법 | |
| JP2000090111A (ja) | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH11265393A (ja) | 情報検索装置 | |
| JP2000339316A (ja) | 検索連動型情報収集方法、装置及びその方法を記憶した記録媒体 | |
| US9886446B1 (en) | Inverted index for text searching within deduplication backup system | |
| JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
| CN101344892B (zh) | 信息处理设备及信息处理方法 | |
| JP4875911B2 (ja) | コンテンツ特定方法及び装置 | |
| JP3547074B2 (ja) | データ検索方法、その装置および記録媒体 | |
| JP2010055164A (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
| US20020062341A1 (en) | Interested article serving system and interested article serving method | |
| JP2011170583A (ja) | 情報検索装置、情報検索方法、情報検索プログラム | |
| JP2003271669A (ja) | 話題抽出装置 | |
| JP2003173351A (ja) | 情報解析、収集、検索方法、装置、プログラム、および記録媒体 | |
| JP5663742B2 (ja) | 画像検索サーバ及び画像検索サーバの画像情報管理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060801 |