JPH11328191A - Wwwロボット検索システム - Google Patents
Wwwロボット検索システムInfo
- Publication number
- JPH11328191A JPH11328191A JP10129829A JP12982998A JPH11328191A JP H11328191 A JPH11328191 A JP H11328191A JP 10129829 A JP10129829 A JP 10129829A JP 12982998 A JP12982998 A JP 12982998A JP H11328191 A JPH11328191 A JP H11328191A
- Authority
- JP
- Japan
- Prior art keywords
- www
- page
- search
- update
- update frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims 2
- 238000000034 method Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 単純な検索ではなく予め更新されているWW
Wページを予想して、該当するページだけを検索ための
探索基準点の自動導出方法を提供する。 【解決手段】 検索した結果より任意のWWWページの
更新頻度を演算する更新頻度演算エンジン22と、更新
頻度から任意の時間における更新期待値を演算する更新
期待度演算エンジン23と、検索優先順位を自動抽出す
る検索順序テーブル作成エンジン24を有し、更新頻度
演算エンジン22と更新期待度演算エンジン23とか
ら、ある時刻におけて任意のWWWページが更新されて
いるかを予想し、検索順序テーブルを作成する。WWW
ロボット検索システムはこの検索順序テーブルに従って
検索する。
Wページを予想して、該当するページだけを検索ための
探索基準点の自動導出方法を提供する。 【解決手段】 検索した結果より任意のWWWページの
更新頻度を演算する更新頻度演算エンジン22と、更新
頻度から任意の時間における更新期待値を演算する更新
期待度演算エンジン23と、検索優先順位を自動抽出す
る検索順序テーブル作成エンジン24を有し、更新頻度
演算エンジン22と更新期待度演算エンジン23とか
ら、ある時刻におけて任意のWWWページが更新されて
いるかを予想し、検索順序テーブルを作成する。WWW
ロボット検索システムはこの検索順序テーブルに従って
検索する。
Description
【0001】
【発明の属する技術分野】本発明は、WWW(Worl
d Wideweb)ロボットによる検索時の探索基準
点の導出方法に関し、特にWWWロボットによる検索を
行う場合において、開始点となる複数個の探索基準点か
ら最適な検索順序を求めるためのWWWロボット検出シ
ステムに関する。
d Wideweb)ロボットによる検索時の探索基準
点の導出方法に関し、特にWWWロボットによる検索を
行う場合において、開始点となる複数個の探索基準点か
ら最適な検索順序を求めるためのWWWロボット検出シ
ステムに関する。
【0002】
【従来の技術】WWWロボット検索システムは、WWW
サーバ内部のWWWページの構造や各WWWページの更
新を検出する機能を有することを特徴とするシステムで
ある。WWWロボット検索システムは、特定のWWWサ
ーバのトップページやある特定のWWWページを始点と
してWWWサーバの検索を実施し、検索によって取得し
たWWWページ情報からページを記述しているHTML
(HyperTextMakeup Languag
e)を解析して、このWWWページからハイパーリンク
されている次のWWWページの位置を抽出する。なお、
HTMLは、WWWにおいてクライアントとサーバとが
通信するためのプロトコルであるHTTP(Hyper
Text Transfer Protcol)にした
がってハイパーテキストを記述するための言語である。
サーバ内部のWWWページの構造や各WWWページの更
新を検出する機能を有することを特徴とするシステムで
ある。WWWロボット検索システムは、特定のWWWサ
ーバのトップページやある特定のWWWページを始点と
してWWWサーバの検索を実施し、検索によって取得し
たWWWページ情報からページを記述しているHTML
(HyperTextMakeup Languag
e)を解析して、このWWWページからハイパーリンク
されている次のWWWページの位置を抽出する。なお、
HTMLは、WWWにおいてクライアントとサーバとが
通信するためのプロトコルであるHTTP(Hyper
Text Transfer Protcol)にした
がってハイパーテキストを記述するための言語である。
【0003】また、この検索システムは、WWWサーバ
ーを検索していく過程において検出した、新規に作成さ
れたWWWページ、変更されたWWWページ、削除され
たWWWページの内容と位置情報を記憶する。WWWロ
ボットは前述の手順により目的のWWWサーバ内部のW
WWページの構造、更新履歴の管理を行う。
ーを検索していく過程において検出した、新規に作成さ
れたWWWページ、変更されたWWWページ、削除され
たWWWページの内容と位置情報を記憶する。WWWロ
ボットは前述の手順により目的のWWWサーバ内部のW
WWページの構造、更新履歴の管理を行う。
【0004】しかしながら、従来のWWW検索ロボット
においては、検索の開始位置は必ず操作者によって予め
指定されており、同様に検索順序も操作者があらかじめ
指定されている。WWW検索ロボットの検索処理は、操
作者があらかじめ指定した検索の開始位置と検索順序か
ら、順次HTMLを解析しWWWページを取得するルー
ルに基づいて処理している。
においては、検索の開始位置は必ず操作者によって予め
指定されており、同様に検索順序も操作者があらかじめ
指定されている。WWW検索ロボットの検索処理は、操
作者があらかじめ指定した検索の開始位置と検索順序か
ら、順次HTMLを解析しWWWページを取得するルー
ルに基づいて処理している。
【0005】このように操作者が事前に指定したパラメ
ータをそのままで用いるような検索ルールで動くWWW
ロボット検索システムにおいては、広範囲に多くのWW
Wページを取得する場合にWWWロボットが検索する範
囲と検索時間、およびネットワークへの負荷は、検索す
るWWWサーバの数とハイパーリンク(HyperLi
nk)の深さの積算に比例する。
ータをそのままで用いるような検索ルールで動くWWW
ロボット検索システムにおいては、広範囲に多くのWW
Wページを取得する場合にWWWロボットが検索する範
囲と検索時間、およびネットワークへの負荷は、検索す
るWWWサーバの数とハイパーリンク(HyperLi
nk)の深さの積算に比例する。
【0006】従来の文書検索システムにおいて、利用者
から指示された語句を含む文書を検索するに当たり、記
憶された文書全体を対象として全文検索を行う機能と、
各文書から予め抽出された語句により構成される索引を
参照して指示語句を含む文書を検索するキーワード検索
機能とを備え、さらにこれら両機能のいずれを利用すべ
きかを、指示された語句その他の条件から判定し、この
判定結果にしたがっていずれか有利な検索を行う判定手
段を備えた文書検索システムも提案されている(例え
ば、特開平10−21255号公報)。しかし、この文
書検索システムでは、全文検索、キーワード検索のいず
れが有利かについてのみ判定するものであり、検索開始
の基準点や検索順序は所定基準に従って実行される。
から指示された語句を含む文書を検索するに当たり、記
憶された文書全体を対象として全文検索を行う機能と、
各文書から予め抽出された語句により構成される索引を
参照して指示語句を含む文書を検索するキーワード検索
機能とを備え、さらにこれら両機能のいずれを利用すべ
きかを、指示された語句その他の条件から判定し、この
判定結果にしたがっていずれか有利な検索を行う判定手
段を備えた文書検索システムも提案されている(例え
ば、特開平10−21255号公報)。しかし、この文
書検索システムでは、全文検索、キーワード検索のいず
れが有利かについてのみ判定するものであり、検索開始
の基準点や検索順序は所定基準に従って実行される。
【0007】これら従来のWWWロボット検索システム
においては、必ず操作者の指定した開始点から、順次ハ
イパーリンクされているWWWページを継続的に検索す
る。しかし、現在のWWWサーバ内部のWWWページの
構造は複雑、かつ、ハイパーリンクの階層も非常に深く
なっており、操作者が事前に開始点を与えて、本情報を
基に順次検索を行う従来の検索ルールでは、WWWサー
バ内部で実際に変更されたWWWページに到達するまで
非常に多くの時間を要するといった問題点が指摘されて
いる。さらに、WWWサーバ検索はネットワークを経由
して行う関係から、不要な検索を多く行うことによりネ
ットワークリソースを浪費し、さらに、ネットワーク負
荷を増大させてしまうという問題点もある。
においては、必ず操作者の指定した開始点から、順次ハ
イパーリンクされているWWWページを継続的に検索す
る。しかし、現在のWWWサーバ内部のWWWページの
構造は複雑、かつ、ハイパーリンクの階層も非常に深く
なっており、操作者が事前に開始点を与えて、本情報を
基に順次検索を行う従来の検索ルールでは、WWWサー
バ内部で実際に変更されたWWWページに到達するまで
非常に多くの時間を要するといった問題点が指摘されて
いる。さらに、WWWサーバ検索はネットワークを経由
して行う関係から、不要な検索を多く行うことによりネ
ットワークリソースを浪費し、さらに、ネットワーク負
荷を増大させてしまうという問題点もある。
【0008】
【発明が解決しようとする課題】本発明の課題は、上述
のような従来技術の問題点を解消し、WWWサーバ内の
各WWWページの更新頻度と更新期待度を導出し、これ
ら2つから最適な検索開始点の検索順序を自動的に導出
することであり、またWWWロボットによる検索時のネ
ットワークへの負荷を軽減するWWWロボット検索シス
テムを提供することにある。
のような従来技術の問題点を解消し、WWWサーバ内の
各WWWページの更新頻度と更新期待度を導出し、これ
ら2つから最適な検索開始点の検索順序を自動的に導出
することであり、またWWWロボットによる検索時のネ
ットワークへの負荷を軽減するWWWロボット検索シス
テムを提供することにある。
【0009】
【課題を解決するための手段】本発明は、WWWロボッ
ト検索システムがWWWページを検索するための優先順
位の決定を自動的に導出して、それに従って実際のWW
Wページの検索を実施する。より具体的には、図1に示
すように、WWWロボット検索システムは、検索した結
果より任意のWWWページの更新頻度を演算する更新頻
度演算エンジン22と、WWWページの更新頻度から任
意の時間における更新期待値を演算する更新期待度演算
エンジン23と、更新頻度と更新期待度の値からWWW
ページの検索優先順位を自動抽出する検索順序テーブル
作成エンジン24と、を具備している。
ト検索システムがWWWページを検索するための優先順
位の決定を自動的に導出して、それに従って実際のWW
Wページの検索を実施する。より具体的には、図1に示
すように、WWWロボット検索システムは、検索した結
果より任意のWWWページの更新頻度を演算する更新頻
度演算エンジン22と、WWWページの更新頻度から任
意の時間における更新期待値を演算する更新期待度演算
エンジン23と、更新頻度と更新期待度の値からWWW
ページの検索優先順位を自動抽出する検索順序テーブル
作成エンジン24と、を具備している。
【0010】
【作用】WWWサーバ・ページ構造記憶部32は、WW
Wサーバ検索エンジン21が検索した結果であるWWW
サーバ内部のWWWページの情報とページ間の繋がりを
表す構造情報を記憶している。WWWサーバ・ページ更
新頻度演算エンジン22は、WWWページの構造情報か
ら各々のWWWページの更新頻度の値を演算し、その結
果をWWWサーバ・ページ更新頻度記憶部33に記憶さ
せる。
Wサーバ検索エンジン21が検索した結果であるWWW
サーバ内部のWWWページの情報とページ間の繋がりを
表す構造情報を記憶している。WWWサーバ・ページ更
新頻度演算エンジン22は、WWWページの構造情報か
ら各々のWWWページの更新頻度の値を演算し、その結
果をWWWサーバ・ページ更新頻度記憶部33に記憶さ
せる。
【0011】WWWサーバ・ページ更新期待度演算エン
ジン23は更新頻度記憶部33の情報からある時刻にお
ける各々のWWWページが更新される期待度を演算する
ためのパラメータを自動生成して、このパラメータをW
WWサーバ・ページ更新期待度記憶部34に記憶させ
る。WWWサーバ検索順序テーブル作成エンジン24は
更新頻度と更新期待度から次回、WWWサーバ検索エン
ジン21が検索を実行する際に、どのWWWサーバのペ
ージから検索しているかを順序付けたテーブルを自動生
成する。
ジン23は更新頻度記憶部33の情報からある時刻にお
ける各々のWWWページが更新される期待度を演算する
ためのパラメータを自動生成して、このパラメータをW
WWサーバ・ページ更新期待度記憶部34に記憶させ
る。WWWサーバ検索順序テーブル作成エンジン24は
更新頻度と更新期待度から次回、WWWサーバ検索エン
ジン21が検索を実行する際に、どのWWWサーバのペ
ージから検索しているかを順序付けたテーブルを自動生
成する。
【0012】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1を参照すると、
本発明の第一の実施の形態は、キーボートやディスプレ
イなどの入出力装置1とプログラム制御により動作する
演算処理部2と、情報を記憶する記憶装置3、そしてイ
ンターネット等を介して外部のWWWサーバと情報のや
り取りを行うネットワーク通信装置4とを含む。
て図面を参照して詳細に説明する。図1を参照すると、
本発明の第一の実施の形態は、キーボートやディスプレ
イなどの入出力装置1とプログラム制御により動作する
演算処理部2と、情報を記憶する記憶装置3、そしてイ
ンターネット等を介して外部のWWWサーバと情報のや
り取りを行うネットワーク通信装置4とを含む。
【0013】記憶装置3は、検索スケジュール記憶部3
1と、WWWサーバ・ページ構造記憶部32、WWWサ
ーバ・ページ更新頻度記憶部33、WWWサーバ・ペー
ジ更新期待値記憶部34、検索順序テーブル35とを備
える。
1と、WWWサーバ・ページ構造記憶部32、WWWサ
ーバ・ページ更新頻度記憶部33、WWWサーバ・ペー
ジ更新期待値記憶部34、検索順序テーブル35とを備
える。
【0014】検索スケジュール記憶部31は、過去にW
WWサーバを検索した開始時間と検索に要した時間の履
歴情報を記憶する。
WWサーバを検索した開始時間と検索に要した時間の履
歴情報を記憶する。
【0015】WWWサーバ・ページ構造記憶部32は、
検索することによって得られたWWWサーバ内に配置さ
れているWWWページの文章の内容とこれらWWWペー
ジが各々どのような接続関係にあるのかを記憶する。
検索することによって得られたWWWサーバ内に配置さ
れているWWWページの文章の内容とこれらWWWペー
ジが各々どのような接続関係にあるのかを記憶する。
【0016】WWWサーバ・ページ更新頻度記憶部33
は、各WWWページの更新頻度の度合いを算出して数値
化した情報を記憶する。
は、各WWWページの更新頻度の度合いを算出して数値
化した情報を記憶する。
【0017】WWWサーバ・ページ更新期待値記憶部3
4は、各WWWページが任意の時間の時点で更新されて
いると期待される可能性を算出して数値化した情報を記
憶する。
4は、各WWWページが任意の時間の時点で更新されて
いると期待される可能性を算出して数値化した情報を記
憶する。
【0018】検索順序テーブル35は、次回に検索を行
う場合に、どのWWWサーバのどのWWWページから検
索するのかという観点から優先順序づけられた情報を記
憶する。
う場合に、どのWWWサーバのどのWWWページから検
索するのかという観点から優先順序づけられた情報を記
憶する。
【0019】演算処理部2は、WWWサーバ検索エンジ
ン21と、WWWサーバ・ページ更新頻度演算エンジン
22、WWWサーバ・ページ更新期待値演算エンジン2
3、WWWサーバ検索順序テーブル作成エンジン24と
を備える。
ン21と、WWWサーバ・ページ更新頻度演算エンジン
22、WWWサーバ・ページ更新期待値演算エンジン2
3、WWWサーバ検索順序テーブル作成エンジン24と
を備える。
【0020】WWWサーバ検索エンジン21は、入出力
装置1からの実行命令を契機として検索順序テーブルが
記憶している順序情報に従って、ネットワーク装置4を
経由して外部のWWWサーバ・ページの検索を実施す
る。検索の結果、WWWページの更新や新規WWWペー
ジの追加・削除、およびWWWページ間のハイパーリン
ク関係といった情報をWWWサーバ・ページ構造記憶部
32に記憶させる。WWWページを検索した時間の情報
は検索スケジュール記憶部31に記憶させる。
装置1からの実行命令を契機として検索順序テーブルが
記憶している順序情報に従って、ネットワーク装置4を
経由して外部のWWWサーバ・ページの検索を実施す
る。検索の結果、WWWページの更新や新規WWWペー
ジの追加・削除、およびWWWページ間のハイパーリン
ク関係といった情報をWWWサーバ・ページ構造記憶部
32に記憶させる。WWWページを検索した時間の情報
は検索スケジュール記憶部31に記憶させる。
【0021】WWWサーバ・ページ更新頻度演算エンジ
ン22は、WWWサーバ・ページ構造記憶部32が記憶
しているWWWページの更新情報やハイパーリンク情報
とWWWサーバ・ページ更新頻度記憶部33が記憶して
いるWWWページ毎の更新頻度に関する情報を基に新た
に各々のWWWページの更新頻度を演算して、演算結果
をWWWサーバ・ページ更新頻度記憶部33に記憶させ
る。
ン22は、WWWサーバ・ページ構造記憶部32が記憶
しているWWWページの更新情報やハイパーリンク情報
とWWWサーバ・ページ更新頻度記憶部33が記憶して
いるWWWページ毎の更新頻度に関する情報を基に新た
に各々のWWWページの更新頻度を演算して、演算結果
をWWWサーバ・ページ更新頻度記憶部33に記憶させ
る。
【0022】WWWサーバ・ページ更新期待値演算エン
ジン23は、WWWサーバ・ページ更新頻度記憶部33
が記憶している情報を元に、各WWWページが任意の時
間の時点で更新されていると期待される度合いを演算し
て、その結果をWWWサーバページ更新期待値記憶部34
に記憶させる。
ジン23は、WWWサーバ・ページ更新頻度記憶部33
が記憶している情報を元に、各WWWページが任意の時
間の時点で更新されていると期待される度合いを演算し
て、その結果をWWWサーバページ更新期待値記憶部34
に記憶させる。
【0023】WWWサーバ検索順序テーブル作成エンジ
ン24は、入出力装置1から入力されたキーとWWWサ
ーバ・ページ更新頻度記憶部33、およびWWWサーバ
・ページ更新期待度記憶部34が記憶している情報から
検索順序を演算して、その結果を検索順序テーブル35
に記憶させる。
ン24は、入出力装置1から入力されたキーとWWWサ
ーバ・ページ更新頻度記憶部33、およびWWWサーバ
・ページ更新期待度記憶部34が記憶している情報から
検索順序を演算して、その結果を検索順序テーブル35
に記憶させる。
【0024】
【動作の説明】次に、図1、図2、図3、図4、図5を
参照して本発明にかかる構成の動作について詳細に説明
する。
参照して本発明にかかる構成の動作について詳細に説明
する。
【0025】入出力装置1からの実行指示を受信を契機
に、WWWサーバ検索エンジン21は検索順序テーブル
35があらかじめ記憶している検索順序に従ってネット
ワーク通信装置4を用いて外部のWWWサーバからWW
Wページの情報を取得する。検索によって取得するWW
Wページ情報は、「現在検索しているWWWページを記
述しているHTML」、「現在検索しているWWWペー
ジが前回検索したときから更新されているか」、「現在
検索しているWWWページをハイパーリンクしていた親
のWWWページ」、「現在検索しているWWWページが
ハイパーリンクしている子のWWWページ」の4つであ
る。WWWサーバ検索エンジン21はこれら4つのWW
Wページに関する情報をWWWサーバ・ページ構造記憶
部32に記憶させる。
に、WWWサーバ検索エンジン21は検索順序テーブル
35があらかじめ記憶している検索順序に従ってネット
ワーク通信装置4を用いて外部のWWWサーバからWW
Wページの情報を取得する。検索によって取得するWW
Wページ情報は、「現在検索しているWWWページを記
述しているHTML」、「現在検索しているWWWペー
ジが前回検索したときから更新されているか」、「現在
検索しているWWWページをハイパーリンクしていた親
のWWWページ」、「現在検索しているWWWページが
ハイパーリンクしている子のWWWページ」の4つであ
る。WWWサーバ検索エンジン21はこれら4つのWW
Wページに関する情報をWWWサーバ・ページ構造記憶
部32に記憶させる。
【0026】WWWサーバ・ページ更新頻度演算エンジ
ン22はWWWサーバ・ページ構造記憶部32が記憶し
ている情報を基に、WWWサーバやWWWページの更新
の頻度の度合いを示すWWWサーバ・ページ更新頻度を
演算して決定する。
ン22はWWWサーバ・ページ構造記憶部32が記憶し
ている情報を基に、WWWサーバやWWWページの更新
の頻度の度合いを示すWWWサーバ・ページ更新頻度を
演算して決定する。
【0027】WWWサーバ検索エンジン21で検索した
WWWサーバ内部のWWWページの構造は図2のような
パーセプトロン型のニューラルネットと同等の形状をし
ている。そこで、本発明では各WWWページのニューラ
ルネットのノードと見なし、更新頻度を各WWWページ
(ノード)の持つ重みがWWWページの更新頻度に相当
すると考えて各WWWページの更新頻度を演算してい
く。図2のようなWWWページ構造をしているWWWサ
ーバの場合、WWWサーバ・ページ更新頻度演算エンジ
ン22は任意のWWWページa の更新頻度をWWWペー
ジa からハイパーリンクする子のWWWページの更新頻
度と現状のWWWページa の更新頻度の値から図2に示
す式(1) を用いて求める。
WWWサーバ内部のWWWページの構造は図2のような
パーセプトロン型のニューラルネットと同等の形状をし
ている。そこで、本発明では各WWWページのニューラ
ルネットのノードと見なし、更新頻度を各WWWページ
(ノード)の持つ重みがWWWページの更新頻度に相当
すると考えて各WWWページの更新頻度を演算してい
く。図2のようなWWWページ構造をしているWWWサ
ーバの場合、WWWサーバ・ページ更新頻度演算エンジ
ン22は任意のWWWページa の更新頻度をWWWペー
ジa からハイパーリンクする子のWWWページの更新頻
度と現状のWWWページa の更新頻度の値から図2に示
す式(1) を用いて求める。
【0028】WWWサーバ・ページ更新頻度演算エンジ
ン22はWWWサーバ内の全てのWWWページの更新頻
度を導出する手法として、任意のWWWページに着目し
て、その着目したWWWページの更新頻度を演算してい
く手法を用いる。着目するWWWページの決定手順を以
下で説明していく。
ン22はWWWサーバ内の全てのWWWページの更新頻
度を導出する手法として、任意のWWWページに着目し
て、その着目したWWWページの更新頻度を演算してい
く手法を用いる。着目するWWWページの決定手順を以
下で説明していく。
【0029】第一に、WWWサーバ・ページ更新頻度演
算エンジン22は、WWWサーバ・ページ構造記憶部3
2が記憶しているWWWページの中で最下部に位置する
子のWWWページに着目して、このページのWWWサー
バ・ページ更新頻度を導出する。第二に、先ほど更新頻
度を導出したページにマークを付ける。第三に、WWW
サーバ・ページ更新頻度演算エンジン22は、WWWサ
ーバ・ページ構造記憶部32が記憶しているWWWペー
ジの中でマークの付いていないWWWページの中で最下
部に位置する子のWWWページを次の着目するWWWペ
ージとする。以後、この手順を繰り返すことによりWW
Wページの更新頻度を導出していく。
算エンジン22は、WWWサーバ・ページ構造記憶部3
2が記憶しているWWWページの中で最下部に位置する
子のWWWページに着目して、このページのWWWサー
バ・ページ更新頻度を導出する。第二に、先ほど更新頻
度を導出したページにマークを付ける。第三に、WWW
サーバ・ページ更新頻度演算エンジン22は、WWWサ
ーバ・ページ構造記憶部32が記憶しているWWWペー
ジの中でマークの付いていないWWWページの中で最下
部に位置する子のWWWページを次の着目するWWWペ
ージとする。以後、この手順を繰り返すことによりWW
Wページの更新頻度を導出していく。
【0030】8つのWWWページが図3のような関係で
ハイパーリンクされている場合には、演算順序は、例え
ば図3の枠1内に示すように『ページ8→ページ5→ペ
ージ6→ページ7→ページ2→ページ3→ページ4→ペ
ージ1』という具合に演算していく。
ハイパーリンクされている場合には、演算順序は、例え
ば図3の枠1内に示すように『ページ8→ページ5→ペ
ージ6→ページ7→ページ2→ページ3→ページ4→ペ
ージ1』という具合に演算していく。
【0031】WWWサーバ・ページ更新頻度演算エンジ
ン22は上記で述べた手法により各々のWWWページの
更新頻度を導き出し、求めた更新頻度をWWWサーバ・
ページ更新頻度記憶部33に記憶させる。
ン22は上記で述べた手法により各々のWWWページの
更新頻度を導き出し、求めた更新頻度をWWWサーバ・
ページ更新頻度記憶部33に記憶させる。
【0032】WWWサーバ・ページ更新期待度演算エン
ジン23は、ある時点におけるWWWページの更新され
ていると期待できる度合いの値を演算して、その結果を
WWWサーバ・ページ更新期待度記憶部34に記憶させ
る。
ジン23は、ある時点におけるWWWページの更新され
ていると期待できる度合いの値を演算して、その結果を
WWWサーバ・ページ更新期待度記憶部34に記憶させ
る。
【0033】WWWサーバ・ページ更新期待度エンジン
23は、各々のWWWページの更新期待度を求める手法
として次の手法を用いて演算する。WWWサーバ・ペー
ジ更新期待度演算エンジン23はWWWページの更新期
待を演算する場合に、検索スケジュール記憶部31が記
憶している前回検索を実施した時点から現在検索を実施
した時点に至るまでの経過時間と、WWWサーバ・ペー
ジ更新頻度記憶部33が記憶している更新頻度wを用い
て、更新期待度Ex を導き出すための図4の式(1)の
パラメータεを図4の式(2)を用いて演算する。任意
の時刻tにおける更新期待度Ex は図4の式(1)から
導出する。
23は、各々のWWWページの更新期待度を求める手法
として次の手法を用いて演算する。WWWサーバ・ペー
ジ更新期待度演算エンジン23はWWWページの更新期
待を演算する場合に、検索スケジュール記憶部31が記
憶している前回検索を実施した時点から現在検索を実施
した時点に至るまでの経過時間と、WWWサーバ・ペー
ジ更新頻度記憶部33が記憶している更新頻度wを用い
て、更新期待度Ex を導き出すための図4の式(1)の
パラメータεを図4の式(2)を用いて演算する。任意
の時刻tにおける更新期待度Ex は図4の式(1)から
導出する。
【0034】WWWサーバ検索順序テーブル作成エンジ
ン24がWWW検索ロボットの検索順序情報を作成する
手順は以下のとおりである。WWWサーバ検索順序テー
ブル作成エンジン24は、第一にWWWサーバ・ページ
構造記憶部32が記憶しているWWWページ情報を検索
順序テーブル35へ複写する(図5の表5-1 )。
ン24がWWW検索ロボットの検索順序情報を作成する
手順は以下のとおりである。WWWサーバ検索順序テー
ブル作成エンジン24は、第一にWWWサーバ・ページ
構造記憶部32が記憶しているWWWページ情報を検索
順序テーブル35へ複写する(図5の表5-1 )。
【0035】第二に、WWWサーバ検索順序テーブル作
成エンジン24は、WWWサーバ・ページ更新期待度記
憶部34、および検索スケジュール記憶部31が記憶し
ている情報から、各WWWページの更新確信度を演算し
て、その結果を検索順序テーブル35に記憶させる(図
5の表5-2 )。
成エンジン24は、WWWサーバ・ページ更新期待度記
憶部34、および検索スケジュール記憶部31が記憶し
ている情報から、各WWWページの更新確信度を演算し
て、その結果を検索順序テーブル35に記憶させる(図
5の表5-2 )。
【0036】第三にWWWサーバ検索順序テーブル作成
エンジン24は、演算によって求めた各WWWページの
更新期待度を値の大きいものが検索の優先順位の高いも
のと見なして、検索順序テーブル35の情報を優先順序
の高い順に並び替える(図5の表5-3 )。
エンジン24は、演算によって求めた各WWWページの
更新期待度を値の大きいものが検索の優先順位の高いも
のと見なして、検索順序テーブル35の情報を優先順序
の高い順に並び替える(図5の表5-3 )。
【0037】第四にWWWサーバ検索順序テーブル作成
エンジン24は、入出力装置1を介して人間(操作者)
から与えられた条件に従って、検索順序テーブル35が
記憶している情報の中から条件に合わないWWWページ
情報を削除する(図5の表5-4 )。
エンジン24は、入出力装置1を介して人間(操作者)
から与えられた条件に従って、検索順序テーブル35が
記憶している情報の中から条件に合わないWWWページ
情報を削除する(図5の表5-4 )。
【0038】
【発明の効果】本発明にかかるWWWロボット検索シス
テムによって得られる効果は、対象としているWWWペ
ージとそのWWWページがハイパーリンクする子のWW
Wページの更新状態から、対象としているWWWページ
のある時刻における更新期待度を自動生成して、その結
果を基にして次回の検索時の優先順序を決定することで
ある。これにより、WWWロボットは更新されている期
待度の高いWWWページから先に検索していくことにな
るので、更新されているWWWページの情報をすばやく
取得することが可能となる。
テムによって得られる効果は、対象としているWWWペ
ージとそのWWWページがハイパーリンクする子のWW
Wページの更新状態から、対象としているWWWページ
のある時刻における更新期待度を自動生成して、その結
果を基にして次回の検索時の優先順序を決定することで
ある。これにより、WWWロボットは更新されている期
待度の高いWWWページから先に検索していくことにな
るので、更新されているWWWページの情報をすばやく
取得することが可能となる。
【0039】また、検索テーブルを作成時に人間(操作
者)の与える条件に従って検索するに値しないWWWペ
ージを間引きできる(図5の表5-4 )ので、不要な検索
作業を軽減させて、WWWロボット検索システムが検索
する際に発生するネットワークへの負荷を軽減すること
ができる。
者)の与える条件に従って検索するに値しないWWWペ
ージを間引きできる(図5の表5-4 )ので、不要な検索
作業を軽減させて、WWWロボット検索システムが検索
する際に発生するネットワークへの負荷を軽減すること
ができる。
【図1】本発明の実施の形態の構成を示すブロック図で
ある。
ある。
【図2】本発明の実施の形態の動作の更新頻度の演算方
法を示す説明図である。
法を示す説明図である。
【図3】本発明の実施の形態の動作の更新頻度演算時の
演算順序の具体例を示す説明図である。
演算順序の具体例を示す説明図である。
【図4】本発明の実施の形態の動作の更新期待度の演算
方法を示す説明図である。
方法を示す説明図である。
【図5】本発明の実施の形態の動作の検索テーブル作成
方法を示す説明図である。
方法を示す説明図である。
1 入出力装置 2 演算処理部 3 記憶装置 4 ネットワーク通信装置 21 WWW サーバ検索エンジン 22 WWW サーバ・ページ更新頻度演算エンジン 23 WWW サーバ・ページ更新期待度演算エンジン 24 WWW サーバ検索順序テーブル作成エンジン 31 検索スケジュール記憶部 32 WWW サーバ・ページ構造記憶部 33 WWW サーバ・ページ更新頻度記憶部 34 WWW サーバ・ページ更新期待度記憶部 35 WWW サーバ検索順序テーブル
Claims (6)
- 【請求項1】 WWWページ検索時に自動生成された検
索順序に従って検索を実施することを特徴とするWWW
ロボット検索システム。 - 【請求項2】 WWWページ検索時に開始点となり得る
複数の探索基準点から最適の基準点を特定し、自動生成
された検索順序に従って検索を実施することを特徴とす
るWWWロボット検索システム。 - 【請求項3】 WWWロボットが検索したWWWページ
の構造を基に任意のWWWページの更新頻度を自動的に
抽出することを特徴とするWWWロボット検索システ
ム。 - 【請求項4】 WWWページ間のハイパーリンク関係に
よって各WWWページから一意に求まる更新頻度から、
任意の時間における更新期待度を自動抽出することを特
徴とするWWWロボット検索システム。 - 【請求項5】 各WWWページの更新頻度と更新期待度
からWWWロボットが検索する場合の検索先の優先順序
を自動生成することを特徴とするWWWロボット検索シ
ステム。 - 【請求項6】 各WWWページの更新頻度を演算する更
新頻度演算エンジンと、WWWページの更新頻度から任
意の時間における更新期待値を演算する更新期待度演算
エンジンと、更新頻度の値と更新期待度の値からWWW
ロボットが検索する場合の検索優先順位を自動抽出する
検索順序テーブル作成エンジンと、を具備することを特
徴とするWWWロボット検索システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10129829A JPH11328191A (ja) | 1998-05-13 | 1998-05-13 | Wwwロボット検索システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10129829A JPH11328191A (ja) | 1998-05-13 | 1998-05-13 | Wwwロボット検索システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11328191A true JPH11328191A (ja) | 1999-11-30 |
Family
ID=15019266
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10129829A Pending JPH11328191A (ja) | 1998-05-13 | 1998-05-13 | Wwwロボット検索システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11328191A (ja) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010102814A (ko) * | 2000-05-02 | 2001-11-16 | 황용길 | 클라이언트 프로그램을 이용한 웹사이트 정보 제공 방법및 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록매체 |
| JP2001337708A (ja) * | 2000-05-30 | 2001-12-07 | Nec Corp | 生産設備制御システム及び方法 |
| EP1120717A3 (en) * | 2000-01-28 | 2002-09-11 | Microsoft Corporation | Adaptive web crawling using a statistical model |
| JP2004118415A (ja) * | 2002-09-25 | 2004-04-15 | Fujitsu Ltd | 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム |
| JP2005189959A (ja) * | 2003-12-24 | 2005-07-14 | Canon Inc | 情報処理方法、情報処理装置、制御プログラム及び記憶媒体 |
| US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
| JP2009223507A (ja) * | 2008-03-14 | 2009-10-01 | Mitsubishi Electric Corp | 周期更新データ管理システム |
| US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
| JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
| US8095565B2 (en) | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
| US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049553A (ja) * | 1996-08-05 | 1998-02-20 | Toshiba Corp | 情報収集方法 |
| JPH1091638A (ja) * | 1996-09-17 | 1998-04-10 | Toshiba Corp | 検索システム |
-
1998
- 1998-05-13 JP JP10129829A patent/JPH11328191A/ja active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049553A (ja) * | 1996-08-05 | 1998-02-20 | Toshiba Corp | 情報収集方法 |
| JPH1091638A (ja) * | 1996-09-17 | 1998-04-10 | Toshiba Corp | 検索システム |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7328401B2 (en) | 2000-01-28 | 2008-02-05 | Microsoft Corporation | Adaptive web crawling using a statistical model |
| EP1120717A3 (en) * | 2000-01-28 | 2002-09-11 | Microsoft Corporation | Adaptive web crawling using a statistical model |
| US7603616B2 (en) | 2000-01-28 | 2009-10-13 | Microsoft Corporation | Proxy server using a statistical model |
| KR20010102814A (ko) * | 2000-05-02 | 2001-11-16 | 황용길 | 클라이언트 프로그램을 이용한 웹사이트 정보 제공 방법및 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록매체 |
| JP2001337708A (ja) * | 2000-05-30 | 2001-12-07 | Nec Corp | 生産設備制御システム及び方法 |
| JP2004118415A (ja) * | 2002-09-25 | 2004-04-15 | Fujitsu Ltd | 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム |
| JP2005189959A (ja) * | 2003-12-24 | 2005-07-14 | Canon Inc | 情報処理方法、情報処理装置、制御プログラム及び記憶媒体 |
| US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
| US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
| US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
| US8095565B2 (en) | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| JP2009223507A (ja) * | 2008-03-14 | 2009-10-01 | Mitsubishi Electric Corp | 周期更新データ管理システム |
| JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
| US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7844594B1 (en) | Information search, retrieval and distillation into knowledge objects | |
| US20010020238A1 (en) | Document searching apparatus, method thereof, and record medium thereof | |
| US7756860B2 (en) | Advanced handling of multiple form fields based on recent behavior | |
| US20070112777A1 (en) | Identification and automatic propagation of geo-location associations to un-located documents | |
| KR20160124079A (ko) | 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법 | |
| JP2006525601A (ja) | 概念ネットワーク | |
| JPH1166081A (ja) | プロファイル取得システム、情報提供システム、プロファイル取得方法及び媒体 | |
| JPH11328191A (ja) | Wwwロボット検索システム | |
| US7783643B2 (en) | Direct navigation for information retrieval | |
| JP4767694B2 (ja) | 不正ハイパーリンク検出装置及びその方法 | |
| KR101933953B1 (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
| US20040034635A1 (en) | Method and system for identifying and matching companies to business event information | |
| WO2019108740A1 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
| JPWO2019239543A1 (ja) | 質問応答装置、質問応答方法およびプログラム | |
| JP2003150624A (ja) | 情報抽出装置および情報抽出方法 | |
| JP2007219722A (ja) | 文書検索サーバおよび文書検索方法 | |
| JP5349032B2 (ja) | 情報選別装置 | |
| JP4212347B2 (ja) | 文書検索装置、プログラムおよび記録媒体 | |
| JPH10260978A (ja) | 情報収集方法及び装置 | |
| KR100445943B1 (ko) | 근접 검색식을 이용한 정보 검색 시스템 및 방법 | |
| JP2021131576A (ja) | 事例カタログ管理装置及び事例カタログ構築方法 | |
| US20060059126A1 (en) | System and method for network searching | |
| JP2003256472A (ja) | 文書検索システム | |
| JP2006185167A (ja) | ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム | |
| JP2001075859A (ja) | 情報巡回獲得装置 |