JP5340751B2

JP5340751B2 - 文書処理装置および文書処理方法

Info

Publication number: JP5340751B2
Application number: JP2009001747A
Authority: JP
Inventors: 稔栄藤; 雄大中山; 和計秋永
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-04-22
Filing date: 2009-01-07
Publication date: 2013-11-13
Anticipated expiration: 2029-01-07
Also published as: US8176033B2; CN101567011A; CN101567011B; JP2009282957A; US20090265344A1

Description

本発明は、ウェブデータを検索するための文書処理装置および文書処理方法に関する。

１９９０年代中頃からインターネットで公開されているＷＷＷ文書が爆発的に増加し、その情報産業上の価値が増している。ＷＷＷ文書は、ＵＲＬ（Uniform Resource Locator）とよばれるインターネット上の論理的な情報格納位置に配置され、相互にそのＵＲＬが参照されることにより構造化されたデータベースが構築されている。この構造化されたデータベースを効率的に検索し、ユーザに提供する検索サービスが重要となっており、このサービスを実行するシステムとしてサーチエンジンが考えられている。

以下の非特許文献１（日本国特許庁総務部企画調査課技術動向班資料）には、サーチエンジンについての記載がなされており、具体的には、
「このサーチエンジンは巨大で刻々変化する情報空間を対象としているが故に、次ぎに挙げるような、従来の検索技術とは異なる機能を具備する必要があり、これら機能の実装と高度化をめざして研究開発が行われている。
・ＷＷＷ上に分散して存在する情報を効率的に収集する機能
・ＨＴＭＬ形式で、自由に不定形で記述された情報からキーワード等を抽出する機能とこれを高速に検索する機能
・容易に検索できるインターフェース機能
・膨大な検索結果を効率よくランキングする機能
」と記載されている。

また、この非特許文献１には、以下の記載がある。このサーチエンジンは、「ＷＷＷロボット、収集テキスト群、インデクサ、検索インデックスファイル、検索サーバ、ブラウザ」などの要素より構成されている。ＷＷＷロボットは、インターネットＷｅｂの世界から「（１）情報収集」する機能を担う。収集テキスト群では収集されたＷＷＷページを格納すると同時に、インデクサにデータを引き渡す前の「（２）データ解析（前処理）」が行われる。インデクサと検索インデックスファイルの要素では全文検索やカテゴリー検索のためのインデックスファイルが生成され「（３）検索処理」のための基本的なデータベースが動作する。検索サーバ・クライアント・ブラウザの要素間では入力や出力に関する情報がやり取りされ、多くの「（４）入出力インターフェース」が介在機能する。

図１は、上述の一般的な検索システムの概略構成を示すシステム構成図である。図１に示すとおり、ウェブロボット５０１は、ＨＴＭＬテキストを含んでいるウェブページをインターネットｗｅｂ５００から自動的に収集する。収集したウェブページはサーバ５０２を経由して、インデックスファイル５０３に記憶される。一方、オペレータがＰＣ５０４を操作することで各ウェブページをインデックスファイル５０３に記憶することもできる。

ユーザは、端末５０７のウェブブラウザを用いてウェブサーバ５０６を介して検索サーバ５０５に検索要求を行う。検索サーバ５０５は、インデックスファイル５０３を参照して検索処理を行い、その結果を端末５０７に出力することにより、端末５０７は、検索結果を得ることができる。

さて、このような処理を行ううえで、膨大な検索結果をユーザは得ることになる。よって、効率的に検索結果を把握することが望まれている。ここでは「膨大な検索結果を効率よくランキングする機能」についての従来技術を説明する。この機能は、適合度と重要度とを組み合わせて行うことが一般的である。適合度とは、ユーザの検索語を多く含んでいるか、またユーザの過去の検索履歴に調和しているかなど検索意図に合致する度合いを計る尺度である。重要度とは、そのＷＷＷ文書が一般的に多くの人に読まれるような有益な情報を含むかどうかの度合いを測る尺度である。

例えば、特許文献１および非特許文献２には、適合度と重要度とを両立させたランキング検索方法の一つであるＨＩＴＳが記載されている。このＨＩＴＳは、あるトピックを表すキーワードを含むＷｅｂページを検索し、検索したＷｅｂページのうち高い適合度を得たＷｅｂページの近傍のＷｅｂグラフからオーソリティとハブを検出するものである。オーソリティとは、Ｗｅｂグラフ中の多くのハブから参照されており、高い評価が得られているＷｅｂページを表す尺度のことである。一方、ハブとは、Ｗｅｂグラフ中で多くのオーソリティを参照しているリンク集に相当するようなＷｅｂページを表す尺度である。ＨＩＴＳでは、反復的な計算によって、Ｗｅｂグラフ中の各Ｗｅｂページのオーソリティスコアとハブスコアを計算し、オーソリティスコア順にＷｅｂページを出力する。これにより、与えられたトピックに関連するＷｅｂページ群の中から重要なＷｅｂページが検索される。図２は、ＨＩＴＳアルゴリズムの概念を示す概念図である。図２に示すように、ウェブページ６０１は、多くのウェブページから参照されているものであることから、オーソリティスコアが高い。一方、ウェブページ６０２は、多くのウェブページを参照しているため、ハブスコアが高い。

以上は検索時に計算されるが、静的なＷＷＷ文書の重要度を計算する手法として、米国グーグル社が利用しているページランク手法が知られている。例えば特許文献２に記載されているように、このページランク手法は、ＷＷＷ文書の膨大なリンク構造を用いている手法である。

例えば、ＷＷＷ文書Ａが、ＷＷＷ文書Ｂを引用していれば、ＷＷＷ文書Ｂの重要へのＷＷＷ文書Ａの支持とみなす。この際、ＷＷＷ文書Ａの重要度がその支持に重み付けされている。ＷＷＷ文書Ａの重要度はそれを引用している他のＷＷＷ文書の支持にその重要度を重み付けした和で表されている。このようにＷＷＷ文書全体の参照を辿り、再帰的に大規模な計算を行えば、各ＷＷＷ文書の重要度が定まるというものである。

近年は、ＷＷＷ文書を閲覧するソフトウェア、ブラウザの機能充実により、サーチエンジンと連携してユーザがどのブラウザを閲覧しているかを計測し、いわゆる人気度を、重要度を決定するパラメータに加えている。

非特許文献３によれば、ＷＷＷ文書の重要度を前述のページランクに加えてユーザ閲覧頻度、時間（すなわち人気度）を加えて行うことを述べている。特許文献３では、同様にある一定期間にある検索結果の中からどのくらいクリックされたかというデータを履歴としてランク計算に用いている。

以上、ＷＷＷ文書の重要度について従来技術を述べたが、適合度に関しては、検索結果、提示の選択肢過多の問題がある。このような選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザ（利用者）の興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法が提案されている。非特許文献１における「Ｅ出力インターフェースＥ−２−１（１）順序付出力」には、以下のことが記載されている。

すなわち、選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザの興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法を提案している。さらに具体的には、ユーザはリンクを辿りながら、１、２、…、ｎまでのページを閲覧（ブラウジング）したとする。ユーザの興味は、直前に読んだページの内容ほど大きいと考え、直前のウェブページに対して重みを多く付けるようにする。一方、対象の単語を含むページの「履歴の重み」を足し合わせることで、その単語の重み（インデックスの重み）とする。ここで図３を用いて説明する。図３は、ユーザが閲覧したウェブページの遷移状態を示す図であり、page1からpage4まで順に閲覧していることを示している。ここで図３におけるＮｗ（ｋ）は、履歴の重みを表すものであり、例えば、Ｎｗ（ｋ）＝ｒ^ｎ−ｋで表すことができる。ユーザは、Page1、Page2、Page3、Page4とブラウジングしたところで、ここで単語ｅは、Page1、Page3、Page4に含まれるため、これらの履歴の重みＮｗ（ｋ）を足し合わせることで「インデックスｅの重み」とする。

上記ブラウジングの後、ユーザはサーチエンジンにキーワードを入力し、必要情報を収集する。収集した各ページに含まれるインデックスを取り出し、それらのインデックスの重みを足し合わせることで、そのページすなわち選択候補の重みを計算する。ユーザは大きく重み付けされたページから順に閲覧して行くことができる。同様のことは、特許文献４および特許文献５にも記載されている。

また、文書検索には、ｔｆ・ｉｄｆ特徴を用いた検索技術が考えられている。これは、文書集合｛Ｄ_ｊ｜ｊ＝１，…，Ｎ｝上に現れるキーワードｔ_ｉ（ｉ＝１，…，Ｍ）を、文書毎に重み付けを計算し、キーワード重みベクトルｗ_ｊとして式（１）の通りに表現することができる。

なお、Tは転置を表す。

ここで、Ｎは検索対象の文書数であり、Ｍは自然言語中のキーワード（例：東京、携帯電話、野球、駅、経済、株、…）であり、非常に大きな数となる。

ここで、各重みは、以下の式（２）により算出することができる。

すなわち、重みは、ターム頻度(ｔｆ:Term Frequency)と文書頻度(Document frequency)の逆数ｉｄｆの積として表現される。なお、タームはキーワードと同義である。

文書Ｄ_ｊに現れるキーワードｔ_ｉの重みｗ_ｊ ^ｉは、文書Ｄ_ｊには数多く現れ、他の文書にはあまり現れないと大きくなるべきである。逆にキーワードｔ_ｉが多く現れても、他の文書にも多く現れるのであれば、その重みｗ_ｊ ^ｉは小さくても良い。この発見的知識を表現したものが、ｔｆ・ｉｄｆ特徴であり、以下の式（３）および式（４）のとおりに定義できる。

freq(i,j)=文書Ｄ_ｊにおけるタームｔ_ｉの出現頻度

Dfreq(i)はタームｔ_ｉが出現する文書数(文書頻度Documentfrequency)
idf_iは文書総数ＮによりDfreq(i)を正規化したもの
ｔｆ・ｉｄｆ特徴には、多くの改良型があるが、ここでは、一般性を失うことなく上記の定義を用いる。

つぎに検索入力を検索ベクトルｑとして現す。これもＭ次元であり、式（５）のように

と表すことができる。

この式（５）においては、キーワードｔ_iを含めばｑ_ｉを１とし、含まなければ０とする。

検索処理は、文書集合の中から、類似性が最大となる文書Ｄ_ｘを探索すればよい。探索には文書内の単語数を正規化するために、式（６）および式（７）のとおり、内積を正規化した余弦距離（コサイン距離）を用いることが一般的である。

ただし、

ただし、上述式（７）そのものは、類似の度合いを表しており、距離の公理系を満たす尺度として用いる余弦距離は、１−ｓｉｍ（ｑ，ｗ_ｊ）となる。

これまでの先行技術を具現化すると、図４に示すキーワード重みベクトルに基づく検索システムを従来例１とすることができる。なお、図４は、一般的な検索システムを示すシステム構成図であり、端末２０、ウェブサーバ２１、検索サーバ２２から構成されている。この例では、端末２０から入力された検索語はウェブサーバ２１に送られ、入力された検索語は、検索ベクトルｑに変換され、検索サーバ２２に送信される。検索サーバ２２では、検索ベクトルｑに従った検索が行われ、検索結果としてＷＷＷ文書Ｄ_ｘがウェブサーバ２１および端末２０に送信される。

この従来例１では、単に検索結果を出力するものであるため、その改良として、ユーザプロファイルを考慮して類似性を評価する形態である、以下の式（８）および式（９）で表されるような評価値を用いた検索システムである従来例２が考えられている。この式（８）および式（９）により算出される評価値に基づいて、検索されたＷＷＷ文書の表示処理が行われる。すなわち、評価値に従った順で検索されたＷＷＷ文書が表示されることになる。

ここで、ｐ_ｋは個人ｋのユーザプロファイルである。

これから分かるように個人ｋのユーザプロファイルは、キーワード重みベクトルの表現をとる。このようにＷＷＷ文書、検索語、個人ｋのユーザプロファイルも同様のベクトルの表現をとることができる。

ユーザプロファイルの構成は、図３にて示されているように（非特許文献１）、過去に閲覧したＷＷＷ文書Ｄ_ｊにおけるＮｗ（ｊ）の和を取る処理を行えばよい。ただし、図３のＮｗ（ｊ）をｗ_ｊに読み替えて、以下の式（１０）を作ることができる。

さらに重要度を評点として加える形態として、以下の式（１１）で示される評価値を用いた検索システムである従来例３が考えられている。

ここでｓ_ｊ(０≦ｓ_ｊ≦１)は、ＷＷＷ文書Ｄ_ｊの重要度である。λ値は式（８）と異なっていて良い。

以上の従来例２〜３における標準的な検索システムの動作を、図５に示す。図５に示されるように、端末２０において、検索語の入力がユーザにより行われ（Ｓ１０１）、ウェブサーバ２１において、検索ベクトルｑが生成される（Ｓ１０２）。ここで生成された検索ベクトルｑは、検索サーバ２２に送信され、検索サーバ２２においては、類似度が上位のものから文書ＩＤが出力される（Ｓ１０３）。ウェブサーバ２１では、類似度が上位のＷＷＷ文書を表示するためのコンテンツが生成され（Ｓ１０４）、端末２０においてコンテンツが表示される（Ｓ１０５）。
米国特許第６１１２２０２号明細書米国特許第６２８５９９９号明細書米国特許出願公開第２００７／０１４３３４５号明細書特開平１０−２０７９０１号公報特開２００２−３２４０１号公報日本国特許庁総務部企画調査課技術動向班資料「テーマ名：サーチエンジンに関する標準技術集作成」ＷＷＷサーチエンジンの技術動向概観、［ONLINE］、［平成２０年１月２９日検索］、インターネット、＜URL：http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/search_engine/douko.htm＞原田昌紀、「ＷＷＷサーチエンジンの技術動向」、信学技報、ＳＳＥ２０００−２２８，ｐｐ．１７−２２，２００１. Matthew Richardson, Amit Prakash, Eric Brill, 2Beyond PageRank: Machine Learning for Static Ranking,", Proc. WWW2006, ［ONLINE］、［平成２０年１月２９日検索］、インターネット、＜URL：http://www2006.org/programme/files/xhtml/3101/p3101-Richardson.html＞辻本昇平、松田憲幸、平嶋宗、豊田順一著、「文脈情報を用いたブラウジング支援−Web上での実装とその実験的評価」、「人工知能学会全国大会（第11回）論文集」、（1997年６月24日）、（社）人工知能学会発行、466頁〜467頁

上述の従来の検索方法においては、以下のことを前提としているものであった。すなわち、（１）良質なＷＷＷ文書からリンクされているＷＷＷ文書は良質であるというページランクの基本概念、（２）ＷＷＷ文書のキーワード重みベクトルｗ、ユーザの個人プロファイルｐは十分な情報により生成されているという事実、を前提としているものであった。

しかしながら、移動端末が視聴するＷＷＷ文書集合（以下、モバイルコンテンツと呼ぶ）には上記の過程が当てはまらないことが多く、必ずしも従来の技術によって適切な検索結果を得ることができないという問題があった。ここで図６にモバイルコンテンツの構造を示す。図６は、サイトＡとサイトＢとにおけるモバイルコンテンツの構造を示す説明図である。ここで、サービスを提供する独立したサーバをサイトと呼ぶ。パーソナルコンピュータから視聴されるＷＷＷ文書は相互に参照される（リンクされる）場合が多いが、モバイルコンテンツは、それぞれサービスを提供するサーバ内では木構造のディレクトリからなるが、サイト間のリンクが少なく独立である場合が多い。例えば、図６に示されるように、サイトＡとサイトＢとでは、相互に独立しており、各コンテンツにおいて何らリンクが張られていない。

このようにサイト間で相互にリンクされることがないため、良質なＷＷＷ文書からリンクされているＷＷＷ文書は良質であるという仮定が成り立ち難い。さらに、ＷＷＷ文書そのものが短い文書であり、キーワードを多く含まないことがＰＣから視聴されるＷＷＷ文書とは性格が異なる。また、ニュースや乗り換え案内など動的に生成されるＷＷＷ文書が多いのが特徴である。例えば図６におけるサイトＡでは、動的ＷＷＷ文書−Ａとして新聞、ニュースが、また動的ＷＷＷ文書−Ｂとして乗り換え案内情報が記憶されている。これら情報は、適宜書き換えられ、またはユーザの要求により生成されるものである。したがって、所定のＵＲＬに存在する文書の内容が異なることが多い。

このような状況から、式（８）または式（１１）にあるような評価値を用いて、個人の視聴履歴を勘案して、リンクの無い数百語からなるコンテンツの重要度を決定することは難しく、また個人プロファイルをキーワード重みベクトルで表現することも難しく、検索者であるユーザが満足するＷＷＷ文書の提示を行うことが困難であった。

そこで、上述の課題を解決するために、本発明は、ＷＷＷ文書間のリンクが少なく、またユーザのアクセスが少ないＷＷＷ文書に対して、ユーザが満足する検索結果を提供することができる文書処理装置および文書処理方法を提供することを目的とする。

上述の課題を解決するために、本発明の文書処理方法は、文書処理装置における文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。

本発明によれば、ユーザのアクセス履歴を記憶させ、このアクセス履歴に従った、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算し、演算された文書類似度を用いて、一の文書におけるキーワード重みベクトルを補正する。そして、補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出することができる。

これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。

また、本発明の文書処理方法において、前記キーワード重みベクトル補正ステップは、前記文書類似度を用いて前記他の文書におけるキーワード重みベクトルを補正し、補正したキーワード重みベクトルを用いて、前記一の文書におけるキーワード重みベクトルを補正することを特徴とすることが好ましい。

これにより、前記他の文書におけるキーワード重みベクトルを補正し、この補正したキーワード重みベクトルを用いた、位置の文書におけるキーワード重みベクトルを補正することができ、文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。

また、本発明の文書処理方法は、ユーザ類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一のユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算するユーザ類似度演算ステップと、ユーザプロファイル補正手段が、前記ユーザ類似度演算ステップにより演算されたユーザ類似度を用いて、前記一のユーザの特徴を示すユーザプロファイルを補正するユーザプロファイル補正ステップと、をさらに備え、前記評価値算出ステップは、さらに、前記ユーザプロファイル補正ステップにより補正された一のユーザプロファイルに基づいて、前記検索のための入力情報に対する評価値を算出することが好ましい。

この発明によれば、ユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算し、演算されたユーザ類似度を用いて、一のユーザのユーザプロファイルを補正する。そして、補正された一のユーザプロファイルに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。

また、本発明の文書処理方法において、前記ユーザプロファイル補正ステップは、前記ユーザ類似度を用いて他のユーザのユーザプロファイルを補正し、当該補正されたユーザプロファイルに基づいて、前記一のユーザのユーザプロファイルを補正することが好ましい。

これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。

また、本発明の文書処理方法は、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップをさらに備え、前記評価値算出ステップは、前記取得ステップにより取得された重要度情報を用いて前記検索のための入力情報に対する評価値を算出することが好ましい。

この発明によれば、文書ごとに付された重要度を示す重要度情報を取得し、取得された重要度情報を用いて検索のための入力情報に対する評価値を算出することができる。これにより、重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。

また、本発明の文書処理方法は、前記評価値算出ステップは、前記一の文書における補正されたキーワード重みベクトルが存在する場合には、当該補正されたキーワード重みベクトルを用いて評価値を算出し、前記一の文書における補正されたキーワード重みベクトルが存在しない場合には、補正前のキーワード重みベクトルを用いて評価値を算出することが好ましい。

この発明によれば、補正されたキーワード重みベクトルの有無に応じて、補正されたキーワード重みベクトルを用いるか、または補正されていないキーワード重みベクトルを用いるかを切り替えることができ、予め保持または収集されていない文書に対しても適切に評価し、ユーザに提供することができる。

また、本発明の文書処理方法は、取得手段が、ユーザからのアクセスにしたがって検索サーバから文書を取得する取得ステップをさらに備え、前記取得ステップにおいて受け付けられたアクセスをアクセス履歴として、収集ステップにおいて収集することが好ましい。

この発明によれば、ユーザ側の端末装置にアクセス履歴の収集機能を備えることなく、その構成を簡易なものにすることができる。

また、本発明の文書処理方法は、文書処理装置の文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップと、重要度補正手段が、前記収集ステップにより収集されたユーザのアクセスに従って、第１の時間帯に一の文書を閲覧したユーザを示す第１のユーザパターンと、第２の時間帯に一の文書を閲覧したユーザを示す第２のユーザパターンとが区別され、当該第１のユーザパターン、第２のユーザパターンの類似度および前記一の文書のアクセス数に基づいて、前記一の文書の重要度を補正する重要度補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルおよび前記重要度補正ステップにより補正された重要度情報に基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。

この発明によれば、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第２の時間帯に一の文書を閲覧したユーザを示す第２のユーザパターンとを区別して記憶しておき、記憶された第1のユーザパターンおよび第2のユーザパターンの類似度および一の文書のアクセス数に基づいて、一の文書の重要度を補正することができる。これにより、一の文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴って文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返し、アクセスされた文書である場合には、その文書は重要度が高いといえる。よってこのようは文書の評価値を高くするように、その重要度を補正しようとするものである。

また、本発明の文書処理方法は、出力手段が、前記評価値算出ステップにより算出された評価値に応じて、ユーザにより検索された検索結果を出力する出力ステップをさらに備えることが好ましい。

この発明により、算出された評価値に基づいた検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。

また、本発明の文書処理方法は、文書処理装置の文書処理方法において、第１生成手段が、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成する第１生成ステップと、第２生成手段が、前記第１の生成ステップにより生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成する第２生成ステップと、第３生成手段が、前記第２の生成ステップにより生成された前記新たなキーワード重みベクトルに基づいて前記新たなユーザプロファイルを生成する第３生成ステップと、ユーザプロファイル類似度生成手段が、前記第３生成ステップにより生成された前記新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算するユーザプロファイル類似度生成ステップと、評価値算出手段が、前記ユーザプロファイル類似度生成ステップにより演算された類似度、キーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する評価値算出ステップと、を備えている。

この発明によれば、まず、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成し、生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成し、新たなキーワード重みベクトルに基づいて新たなユーザプロファイルを生成する。そして、新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返しユーザプロファイルおよびキーワード重みベクトルを生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する。

これにより、キーワード重みベクトルとユーザプロファイルとは相互に依存するように生成することで、ユーザプロファイルがキーワード重みベクトルに伝播することにより、ユーザプロファイルおよびキーワード重みベクトルの平滑化および補完を行うことができる。よって、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができる。また、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。

また、本発明の文書処理方法は、判断手段が、前記ユーザプロファイル類似度生成ステップにより生成された類似度が所定値以上となるか否かを判断する判断ステップと、をさらに備え、前記評価値算出ステップは、前記ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することが好ましい。

この発明によれば、ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することで、ユーザにとっての適合性の高い検索結果を提供することができる。

ところで、本発明は、上記のように文書処理方法の発明として記述できる他に、以下のように、文書処理装置、検索システム、文書処理プログラムの発明としても記述することができる。これらはカテゴリーが異なるだけで、実質的に同一の発明であり、同様の作用・効果を奏する。

すなわち、本発明の文書処理装置は、ユーザのアクセス履歴を収集するアクセス履歴収集手段と、前記アクセス履歴収集手段により収集されたアクセス履歴にしたがって、一の文書を閲覧した複数のユーザを示すユーザパターンと他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算手段と、前記文書類似度演算手段により演算された文書類似度を用いて前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正手段と、前記キーワード重みベクトル補正手段により補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出手段と、を備えている。

また、本発明の検索システムは、アクセス履歴を記憶する利用者端末と、前記利用者端末によりアクセスされた文書のキーワード重みベクトルを生成する情報収集装置と、前記利用者端末のアクセス履歴および前記情報収集装置で生成したキーワード重みベクトルを取得する上記文書処理装置と、を備えている。

また、本発明の文書処理プログラムは、ユーザのアクセス履歴を収集する収集モジュールと、前記収集モジュールにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと、他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算モジュールと、前記文書類似度演算モジュールにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正モジュールと、前記キーワード重みベクトル補正モジュールにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出モジュールと、をコンピュータに機能させるように備えている。

また、本発明の文書処理装置は、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、前記ユーザ抽出手段により抽出されたユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合を抽出する二次ＷＷＷ文書抽出手段と、前記二次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書の重要度を算出する重要度算出手段と備えている。

この発明によれば、検索語に従ってＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出し、当該ユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合を抽出する。そして、抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、ＷＷＷ文書の重要度を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないＷＷＷ文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

また、本発明の文書処理装置において、前記重要度算出手段は、前記ユーザ抽出手段により抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてＷＷＷ文書の重要度を算出することが好ましい。

この発明によれば、抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてＷＷＷ文書の重要度を算出することができ、重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

また、本発明の文書処理装置は、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出手段と、前記二次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書集合に対して前記ユーザ抽出手段により抽出されたユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書の重要度を算出する重要度算出手段とを備えている。

この発明によれば、検索語に従ってＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するとともに、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷＷ文書を参照している他のＷＷＷ文書を抽出する。そして、抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、ＷＷＷ文書の重要度を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

また、本発明の文書処理装置は、複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出し、前記ユーザ抽出手段により抽出されたユーザを示す集合と、前記抽出されたＷＷＷ文書のＷＷＷ文書集合とを合算して、一つのノード集合を抽出する二次ＷＷＷ文書抽出手段と、前記二次ＷＷＷ文書抽出手段により抽出されたノード集合における前記各ＷＷＷ文書間における参照された度合いおよび前記各ユーザが前記各ＷＷＷ文書に対する閲覧した度合いにそれぞれ重み付けを行って、ＷＷＷ文書の重要度を算出する重要度算出手段とを備えている。

この発明によれば、ＷＷＷ文書間における有向グラフとして管理可能なデータを保持しておき、検索語に従って抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出する。また、ＷＷＷ文書間における参照関係を有向グラフとして管理可能にさせるデータに基づいて、各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷＷ文書を参照している他のＷＷＷ文書を抽出し、抽出されたユーザを示す集合と、抽出されたＷＷＷ文書のＷＷＷ文書集合とを合算して、一つのノード集合を抽出する。そして、抽出されたノード集合における各ＷＷＷ文書間における参照された度合いおよび各ユーザが各ＷＷＷ文書に対して閲覧した度合いにそれぞれ重み付けを行って、ＷＷＷ文書の重要度を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

また、本発明の文書処理装置は、複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、前記抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および前記各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出手段と、前記ユーザ抽出手段により抽出されたユーザ集合の各ユーザが、前記二次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出手段と、任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出手段により算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出手段とを備えている。

この発明によれば、検索語に従って抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出し、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および前記各ＷＷＷＷ文書を参照している他のＷＷＷ文書を抽出する。そして、抽出されたユーザ集合の各ユーザが、抽出された各ＷＷＷ文書に対して閲覧した度合いを示すハブスコアを算出する。その後、任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルとハブスコアとの一致の度合いに基づいて重要度を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

また、上述文書処理装置として発明を捉えるほか、以下の通り、文書処理方法として発明を捉えることができる。この場合、その作用効果は、文書処理装置と同じである。

また、本発明の文書処理方法は、文書処理装置の文書処理方法において、一次ＷＷＷ文書抽出手段が、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、ユーザ抽出手段が、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、二次ＷＷＷ文書抽出手段が、前記ユーザ抽出ステップにより抽出されたユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合を抽出する二次ＷＷＷ文書抽出ステップと、重要度算出手段が、前記二次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書の重要度を算出する重要度算出ステップとを備えている。

また、本発明の文書処理方法は、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段を備える文書処理装置の文書処理方法において、

また、本発明の文書処理方法は、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出ステップと、前記二次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書集合に対して前記ユーザ抽出ステップにより抽出されたユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書の重要度を算出する重要度算出ステップとを備えている。

また、本発明の文書処理方法は、複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出し、前記ユーザ抽出ステップにより抽出されたユーザを示す集合と、前記抽出されたＷＷＷ文書のＷＷＷ文書集合とを合算して、一つのノード集合を抽出する二次ＷＷＷ文書抽出ステップと、前記二次ＷＷＷ文書抽出ステップにより抽出されたノード集合における前記各ＷＷＷ文書間における参照された度合いおよび前記各ユーザが前記各ＷＷＷ文書に対する閲覧した度合いにそれぞれ重み付けを行って、ＷＷＷ文書の重要度を算出する重要度算出ステップとを備えている。

また、本発明の文書処理方法は、複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出ステップと、前記ユーザ抽出ステップにより抽出されたユーザ集合の各ユーザが、前記二次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出ステップと、任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出ステップにより算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出ステップとを備えている。

本発明によれば、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。

また、本発明によれば、ユーザの閲覧した度合いに基づいて、モバイルコンテンツなどのアクセス量・リンク量の少ないＷＷＷ文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせることができる。

以下、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

＜第一実施形態＞
図７は、本実施形態のプロクシー装置１００を利用した情報処理システムの機能構成を示すシステム構成図であり、この情報処理システムは、プロクシー装置１００、利用者端末２００、検索サーバ３００、および情報収集装置４００から構成されている。このシステムにおいて、利用者端末２００は検索要求をプロクシー装置１００を介して検索サーバ３００に出力する。検索サーバ３００は、その検索要求に応じた検索処理を実行し、プロクシー装置１００を介して利用者端末２００にその検索結果を返信する。また、情報収集装置４００は、利用者端末２００のアクセス履歴に基づいたＷＷＷ文書を収集し、そして、キーワード重みベクトルを生成する部分である。生成したキーワード重みベクトルは、プロクシー装置１００に出力し、保持させる。

ここで、プロクシー装置１００は、アクセスパターン収集部１０１、ユーザアクセス履歴保持部１０２、キーワードベクトル保持部１０３、ＷＷＷ文書類似度演算部１０４、ユーザ類似度演算部１０５、キーワードベクトル平滑部１０６、ユーザプロファイル平滑部１０７、平滑化ユーザプロファイル保持部１０８、平滑化キーワードベクトル保持部１０９、並び替え部１１０を含んで構成されている。また、利用者端末２００は、ＷＷＷブラウザ２０１、アクセス履歴保持部２０２、アクセス履歴転送部２０３を含んで構成されている。この利用者端末２００は、ユーザを示すものであって、おおむね１００万台程度を想定している。以下、ユーザの数として定数Ｋで表す。

ここでプロクシー装置１００は、図８に示されるハードウウェアにより構成されている。図８は、プロクシー装置１００のハードウェア構成図である。図７に示されるプロクシー装置１００は、物理的には、図８に示すように、ＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、ハードディスク等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図７において説明した各機能は、図８に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。なお、利用者端末２００、検索サーバ３００、情報収集装置４００も同様のハードウェア構成をとるものであり、プログラムにしたがって、各種機能を実行することができるように構成されている。以下、図７に示す機能ブロックに基づいて、各機能ブロックを説明する。

アクセスパターン収集部１０１は、利用者端末２００において一定期間にアクセスしたアクセスパターンを収集する部分である。ここでアクセスパターンとは、ユーザがアクセスしようとしたＷＷＷ文書が配置されているＵＲＬなどのアクセス先情報である。ここで取得したアクセス先情報は、情報収集装置４００に出力される。情報収集装置４００は、後述するとおり、このアクセス先情報に従ってＷＷＷ文書を取得することができる。例えば、情報収集装置４００は、図９に示されるようなＷＷＷ文書を取得することができる。図９は、ＷＷＷ文書の一例を示す説明図であり、携帯電話に関するＷＷＷ文書を示している。この図９では、目的別ナビゲーションなどの情報が記述されており、下線部にはアンカーが形成されており、ユーザはそのアンカーをクリックすることにより下位にあるＷＷＷ文書を閲覧することができる。

また、アクセスパターン収集部１０１は、利用者端末２００が一定期間にアクセスした複数のＷＷＷ文書を情報収集装置４００から取得し、式（１２）に示す閲覧ユーザベクトルｕ_ｊ（Ｋ×１ベクトル）（１≦ｊ≦Ｎ）と、式（１３）に示す訪問ＷＷＷ文書ベクトルｖ_ｋ（Ｎ行1列ベクトル）（１≦ｋ≦Ｋ）を算出する。そして、ユーザアクセス履歴保持部１０２に格納する。

ここで、閲覧ユーザベクトルｕ_ｊは、ＷＷＷ文書Ｄ_ｊがユーザｋにより閲覧されればｕ_ｊ ^ｋ＝１、そうでなければ０とするベクトルとして定義される。

これは、ＷＷＷ文書Ｄ_ｊにとっての閲覧者リスト（ユーザパターン）を表している。なお、Ｋはユーザ数を示す。

同様に、訪問ＷＷＷ文書ベクトルｖ_ｋは、ユーザｋがＷＷＷ文書Ｄ_ｊを閲覧すればｖ_ｋ ^ｊ＝１、そうでなければ０とするベクトルとして定義される。

これは、ユーザｋが閲覧したＷＷＷ文書リストを表している。なお、Ｎは、ＷＷＷ文書数を示す。

ユーザアクセス履歴保持部１０２は、アクセスパターン収集部１０１により収集されたアクセス先情報、訪問ＷＷＷ文書ベクトルｖ_ｋ、閲覧ユーザベクトルｕ_ｊ
およびアクセス先情報に基づいて取得されたＷＷＷ文書そのもの（重要度を含む）を記憶する部分である。

一方、情報収集装置４００は、アクセスパターン収集部１０１から出力されたアクセス先情報に従って、ＷＷＷ文書を取得する。そして、取得したＷＷＷ文書Ｄ_ｊを形態素解析し、そのＷＷＷ文書Ｄ_ｊに含まれているワードを抽出し、抽出したワードに基づいてキーワード重みベクトルｗ_ｊを生成する。キーワード重みベクトルｗ_ｊについては上述したとおり、式（１）〜式（４）に従って生成する。

本実施形態では、ＷＷＷ文書に含まれているワードをそのままキーワード重みベクトルにするのではなく、キーワードシソーラス(thesaurus)辞書を用いて広義語に、類義語のゆれを吸収して置き換える。たとえば、「プロ野球」を「野球」に、「ベースボール」を「野球」に変換する。図１０は、情報収集装置４００からの出力例を示す説明図である。図１０に示すように、情報収集装置４００が取得したＷＷＷ文書Ｄ_ｊに含まれるワードに対して、キーワード、確度、スコア、分野が対応付けて出力される。例えば、ワードが“おサイフケータイ”であると、キーワードとして“携帯電話”が導出される。また、出現頻度ｔｆ_ｊ ^ｉ（１≦ｉ≦Ｍ）であるスコアが算出され、このスコアに基づいて、キーワード重みベクトルｗ_ｊの位置要素であるｗ_ｊ ^ｉが確度“１．０００”として算出される。なお、Ｍは広義語の数である。

ここで、変換されたキーワードは、より広義であり、これをユーザがアクセスしたＷＷＷ全文書全体について行い、ｔｆ・ｉｄｆ特徴の計算を行いキーワード重みベクトルｗ_ｊを求める。さらに、ｗ_ｊは、大きさ１のベクトルとなるように正規化が施される。なお、キーワード重みベクトル、ユーザプロファイルはｔｆ・ｉｄｆ特徴として正規化については述べなかったが、本実施形態では、常に大きさ１の正規化されたベクトルとして扱う。

キーワードベクトル保持部１０３は、情報収集装置４００において生成された式（１）で示されるキーワード重みベクトルｗ_ｊをユーザごと（利用者端末２００ごと）に記憶する部分である。

ＷＷＷ文書類似度演算部１０４は、一のＷＷＷ文書Ｄ_ｊを閲覧するユーザの閲覧ユーザベクトルｕ_ｊと他のＷＷＷ文書Ｄ_ｊｅを閲覧するユーザの閲覧ユーザベクトルｕ_ｊｅとの一致の度合いを演算する部分であり、これら閲覧ユーザベクトルｕ同士の一致の度合いを演算することによって、ＷＷＷ文書間の類似度を判断しようとするものである。閲覧ユーザベクトルの一致の度合いは、以下の式（１４）により演算される。

この式（１４）は、ＷＷＷ文書Ｄ_ｊとＷＷＷ文書Ｄ_ｊｅとを訪れたユーザパターンの一致度をあらわす尺度として用いられるものであり、ＷＷＷ文書間の類似度の判断に使用される。

また、ユーザ類似度演算部１０５は、一のユーザｋにより閲覧されたＷＷＷ文書の訪問文書ベクトルｖ_ｋと、他のユーザｋeにより閲覧されたＷＷＷ文書の訪問文書ベクトルｖ_ｋｅとの一致の度合いを演算する部分であり、これら訪問文書ベクトル同士の一致の度合いを演算することによって、ユーザ間の類似度を判断しようとするものである。訪問文書ベクトルｖの一致の度合いは、以下の式（１５）により演算される。

この式（１５）は、閲覧されたＷＷＷ文書の文書パターンにおいて、ユーザｋとユーザｋｅの類似度を表す尺度として用いられるものであり、ユーザ間の類似度の判断に使用される。

キーワードベクトル平滑部１０６は、キーワードベクトル保持部１０３に保持されている一のＷＷＷ文書におけるキーワード重みベクトルを平滑化する部分であり、当該一のＷＷＷ文書とアクセスパターンの近いＷＷＷ文書を用いてキーワード重みベクトルｗ_ｊを補正する部分である。これにより、一のＷＷＷ文書だけでアクセス数が足りなかったりして、より精密なキーワード重みベクトルを算出することができない場合でも、他の似たようなＷＷＷ文書を用いて、キーワード重みベクトルを補完するよう補正することで、より精密なキーワード重みベクトルを算出することができる。

具体的には、キーワードベクトル平滑部１０６は、式（１４）および以下の式（１６）を用いて、キーワード重みベクトルｗ_ｊの平滑化および補完を行い、平滑化キーワード重みベクトルｗ_ｊ’を生成する。

なお、εは実験的に定める実数である。本実施形態では、１／Ｎとする。

ユーザプロファイル平滑部１０７は、キーワードベクトル保持部１０３に保持されている一のＷＷＷ文書におけるキーワード重みベクトルｗ_ｊおよびユーザアクセス履歴保持部１０２に記憶されている訪問文書ベクトルｖ_ｋを用いてユーザプロファイルｐ_ｋを生成し、この生成されたユーザプロファイルｐ_ｋに対してユーザプロファイルｐ_ｋの平滑化および補完処理を行う部分であり、当該一のユーザとアクセスパターンの近い他のユーザのアクセスパターンを用いてユーザプロファイルを補正する部分である。これにより、一のユーザの訪問ＷＷＷ文書ベクトルだけでは、サンプル数が足りなかったりして、より精密なユーザプロファイルを算出することができない場合でも、他の似たようなユーザの訪問ＷＷＷ文書ベクトルを用いて、ユーザプロファイルを補完するよう補正することで、より精密なユーザプロファイルを算出することができる。

より具体的には、ユーザプロファイル平滑部１０７は、式（１７）にしたがってユーザプロファイルを生成する。ユーザプロファイルｐ_ｋは、列ベクトルであるキーワード重みベクトルｗ_ｊを並べて得られる行列Ｗに（式（１８）参照）、訪問ＷＷＷ文書ベクトルを乗じて初期化されることにより生成される。

ユーザプロファイル平滑部１０７は、このように初期化・生成されたユーザプロファイルｐ_ｋに対し、式（１９）に従った処理によりユーザプロファイルの平滑化・補完を行う。

なお、式（１９）の変形として、以下の式（２０）も適用可能である。

この場合は、閲覧したＷＷＷ文書の類似性ではなく、閲覧したＷＷＷ文書のキーワードの類似性から合成されることになる。

平滑化ユーザプロファイル保持部１０８は、ユーザプロファイル平滑部１０７により平滑化・補完された平滑化ユーザプロファイルｐ_ｊ’を記憶する。

平滑化キーワードベクトル保持部１０９は、キーワードベクトル平滑部１０６により平滑化・補完された平滑化キーワード重みベクトルｗ_ｊ’を記憶する。

並び替え部１１０は、利用者端末２００において入力された検索語に基づいて検索ベクトルｑにより検索サーバ３００において検索され、ＷＷＷ文書検索候補として出力された上位２０件のＷＷＷ文書に対して、並び替え処理を行う部分である。具体的には、上述の式（８）に従って算出された評価値に基づいて上位のものから順に表示するようにしてもよいし、以下の式（２１）のとおり重要度ｓ_ｉを加味したものであってもよい。なお、並び替え部１１０は、検索したＷＷＷ文書を一時的にＷＷＷ文書記憶部（図示せず）に記憶させ、キーワードベクトル保持部１０３にキーワード重みベクトルを記憶させるようにしてもよい。

本実施例ではλは、０．９とする。

なお、本実施形態では、検索サーバ３００から得られるＷＷＷ文書は、すべてユーザアクセス履歴保持部１０２に記憶されているものと仮定する。もちろん、検索サーバ３００が他事業者であり、プロクシー装置１００に存在しないＷＷＷ文書が検索結果として得られる可能性があるが、例外処理は当該ＷＷＷ文書について平滑化しないｗ_jを計算に使用することにより対応できる。すなわち、プロクシー装置１００は、平滑化キーワードベクトル保持部１０９に収集されたＷＷＷ文書のキーワード重みベクトルが記憶されているか否か、またはすでにＷＷＷ文書が保持されているか否かを判断する判断部を備える。そして、プロクシー装置１００にそのキーワード重みベクトルが記憶されたＷＷＷ文書を検索結果として得られた場合には式（２１）を用いて、評価値を算出し、プロクシー装置１００にそのキーワード重みベクトルが記憶されていないＷＷＷ文書を検索結果として得られた場合には式（１１）を用いて評価値を算出するようにしてもよい。また、キーワード重みベクトルまたはユーザプロファイルのいずれか一方のみ平滑化するような構成であってもよい。

つぎに、利用者端末２００について説明する。図７に示されている通り、利用者端末２００は、ＷＷＷブラウザ２０１、アクセス履歴保持部２０２、アクセス履歴転送部２０３を含んで構成されている。この利用者端末２００は、例えば携帯電話、パーソナルコンピュータなどインターネットに接続することができる通信端末であって、図８と同様の構成からなっている。すなわち、ＣＰＵ、ＲＡＭ、ＲＯＭ等から構成されており、入力装置を用いて操作することによりＷＷＷブラウザ２０１を操作し、プロクシー装置１００を介してインターネットにアクセスすることができる。以下、各構成要素について説明する。

ＷＷＷブラウザ２０１は、インターネット上で保持されているウェブページを閲覧するためのアプリケーションである。利用者端末２００のユーザがＷＷＷブラウザ２０１を操作することにより所望のウェブページを閲覧することができる。本実施形態では、ＷＷＷブラウザ２０１は、検索用のウェブページにアクセスし、プロクシー装置１００を介して検索サーバに検索要求を出力し、プロクシー装置１００を介して検索結果を受信し、ユーザに表示することができる。

アクセス履歴保持部２０２は、ＷＷＷブラウザ２０１によりアクセス処理が行われたアクセス先情報（ＵＲＬ）を記憶する部分である。

アクセス履歴転送部２０３は、予め定められた周期またはタイミングでプロクシー装置１００に対してアクセス履歴保持部２０２に記憶されているアクセス先情報を送信する部分である。

つぎに、本実施形態のプロクシー装置１００の動作について説明する。図１１は、本実施形態のプロクシー装置１００の動作を示すフローチャートである。図１１に示すように、アクセスパターン収集部１０１により、各利用者端末２００が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される（Ｓ２０１）。つぎに、ユーザアクセス履歴保持部１０２に、アクセスパターン収集部１０１により収集されたアクセス先情報、アクセスパターン収集部１０１により生成された閲覧ユーザベクトルｕ_ｊ、訪問ＷＷＷ文書ベクトルｖ_ｋ、および情報収集装置４００において取得されたＷＷＷ文書が記憶される（Ｓ２０２）。つぎに、キーワードベクトル保持部１０３には、情報収集装置４００において生成されたキーワード重みベクトルｗ_ｊが記憶される（Ｓ２０３）。なお、Ｓ２０２、Ｓ２０３の順序は逆でもよい。

つぎにユーザ類似度演算部１０５によりユーザ類似度演算が行われる（Ｓ２０４）。また、ＷＷＷ文書類似度演算が行われる（Ｓ２０５）。それぞれ演算されたユーザ類似度およびＷＷＷ文書類似度は、キーワードベクトル平滑部１０６およびユーザプロファイル平滑部１０７により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される（Ｓ２０６、Ｓ２０７）。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部１０９および平滑化ユーザプロファイル保持部１０８に記憶される（Ｓ２０８、Ｓ２０９）。

その後、利用者端末２００から検索要求がくると、その要求に応じて検索サーバ３００に依頼し（Ｓ２１０）、検索サーバ３００から検索結果を受けると、並び替え部１１０により、検索結果は、平滑化キーワード重みベクトルおよび平滑化ユーザプロファイルにより並び替え処理がなされる（Ｓ２１１）。

以上の通り、本実施形態のプロクシー装置１００は、ＷＷＷ文書、ユーザプロファイルの統計的信頼度を上げる効果を有する。統計的言語処理では、観測データの数が十分に大きくない場合は、本来、出現する可能性のあるキーワードが当該ＷＷＷ文書に含まれていないことがある。本実施形態のプロクシー装置１００は、そもそも直接観測することが難しい個人プロファイル内のキーワード、語数が少ないＷＷＷ文書のキーワードを補うことを目的としたものである。

特に、親ディレクトリとして機能し、それ自身が十分にキーワードを持たないＷＷＷ文書、おもに画像からなりキーワードを持たないＷＷＷ文書を同時に訪れることのできる文書のキーワードで補完することができる効果を持つ。

図６に示されるモバイルコンテンツの構造にある、ＷＷＷ文書−ＡをＷＷＷ文書−Ｂ,ＷＷＷ文書−Ｃの親ディレクトリを例に考えてみる。ＷＷＷ文書−Ｂ，ＷＷＷ文書−Ｃのキーワードが親ディレクトリであるＷＷＷ文書−Ａに転写されることが期待される。またマルチメディアコンテンツからなるＷＷＷ文書に対しても同様の効果を持つ。

また、式（１６）と式（１９）は、アクセスパターンの近いＷＷＷ文書、ユーザの距離に応じてスムージングを行っていることに他ならない。これにより、アクセスの少ないユーザプロファイルを周辺ユーザから補うことができ、また文書量の少ないＷＷＷ文書ベクトルを、ユーザのアクセスから補うことができる。

つぎに、プロクシー装置１００の変形例について説明する。図１９は、プロクシー装置１００の変形例におけるブロック図である。図１９に示すように、プロクシー装置１００は、利用者端末２００ａから出力される検索のための信号からアクセスパターン収集部１０１がアクセス履歴を収集し、収集したアクセス履歴をユーザアクセス履歴保持部１０２に記憶させてもよい。この変形例においては、利用者端末２００ａには、アクセス履歴を収集する機能、およびアクセス履歴をプロクシー装置１００に送信する機能は必須ではない。なお、後述する第二の実施形態、第三の実施形態においても同様に、利用者携帯端末２００ａからのアクセス要求をプロクシー装置１００が収集することによりアクセス履歴を収集するように構成してもよい。

ここで、本実施形態のプロクシー装置１００の作用効果について説明する。このプロクシー装置１００は、アクセスパターン収集部１０１により取得された一のユーザのアクセス履歴をユーザアクセス履歴保持部１０２に記憶させる。またアクセスパターン収集部１０１は、一のＷＷＷ文書Ｄ_ｊを閲覧した複数のユーザを示す一のユーザパターンである閲覧ユーザベクトルｕ_ｊと他の文書Ｄ_ｊｅを閲覧した複数のユーザを示す他のユーザパターンでる閲覧ユーザベクトルｕ_ｊｅと生成する。

そして、ユーザ類似度演算部１０５は、ＷＷＷ文書Ｄ_ｊとＷＷＷ文書Ｄ_ｊeとのユーザ類似度を示す文書類似度ｓｉｍ（ｕ_ｊ、ｕ_ｊｅ）を演算する。キーワードベクトル平滑部１０６は、演算された文書類似度ｓｉｍ（ｕ_ｊ、ｕ_ｊｅ）を用いて、他の文書におけるキーワード重みベクトルｗ_ｊｅを補正し、補正したキーワード重みベクトルｗ_ｊｅに基づいて、一の文書におけるキーワード重みベクトルｗ_ｊを補正して平滑化キーワード重みベクトルｗ’_ｊを得る。平滑化キーワードベクトル保持部１０９は、ここで得られた平滑化キーワード重みベクトルｗ’_ｊを記憶する。そして、並び替え部１１０は、平滑化キーワード重みベクトルｗ’_ｊに基づいて、検索のための入力情報に対する評価値B_SCOREを算出することができる。

これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。

また、プロクシー装置１００において、アクセスパターン収集部１０１は、一のユーザにより閲覧された複数の文書を示す一の文書パターンである訪問ＷＷＷ文書ベクトルｖ_ｋと他のユーザにより閲覧された複数の文書を示す他の文書パターンである訪問ＷＷＷ文書ベクトルｖ_ｋｅとを生成し、ユーザアクセス履歴保持部１０２に記憶させる。ＷＷＷ文書類似度演算部１０４は、ユーザ間の類似度を示すユーザ類似度ｓｉｍ（ｖ_ｋ、ｖ_ｋｅ）を演算する。そして、ユーザプロファイル平滑部１０７は、演算されたユーザ類似度ｓｉｍ（ｖ_ｋ、ｖ_ｋｅ）を用いて、他のユーザにおける文書パターンであるユーザプロファイルｐ_ｋｅを補正し、補正したユーザプロファイルｐ_ｋｅに基づいて、一のユーザのユーザプロファイルｐ_ｋを補正して平滑化ユーザプロファイルｐ_ｋを得る。そして、並び替え部１１０は、平滑化された一のユーザプロファイルｐ_ｋに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。

本実施形態では、キーワード重みベクトルｗ_ｊおよびユーザプロファイルｐ_ｋを平滑化しているが、少なくともキーワード重みベクトルｗ_ｊのみ平滑化すればよい。その場合、評価値B_SCOREに入力される平滑化ユーザプロファイルｐ_ｋは、平滑化される前のユーザプロファイルｐ_ｋが入力されることになる。

また、本実施形態のプロクシー装置１００において、アクセスパターン収集部１０１は、ＷＷＷ文書ごとに付された重要度を示す重要度ｓ_ｉを取得する情報収集装置４００からＷＷＷ文書とともに取得し、並び替え部１１０は、その重要度ｓ_ｉを用いて検索のための入力情報に対する評価値B_SCOREを算出する。重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。

また、プロクシー装置１００において、並び替え部１１０は、利用者端末２００からの検索要求に応じて検索結果を出力する際に、上述の通りに算出された評価値B_SCOREに基づいた順番で検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。

また、プロクシー装置１００において、並び替え部１１０は、一のＷＷＷ文書における平滑化されたキーワード重みベクトルｗ’_ｊが存在する場合には、この平滑化されたキーワード重みベクトルｗ’_ｊを用いて評価値B_SCOREを算出し（式２４）、一のＷＷＷ文書における平滑化されたキーワード重みベクトルｗ’_ｊが存在しない場合には、平滑化前のキーワード重みベクトルｗ’_ｊを用いて評価値B_SCORを算出する（式１１）。これにより、ＷＷＷ文書を予め記憶していない場合でも評価処理を実行することができる。

また、プロクシー装置１００において、アクセスパターン収集部１０１はユーザからのアクセスにしたがって検索サーバから文書を取得し、ここで受け付けられたアクセスをアクセス履歴として、ユーザアクセス履歴保持部１０２に記憶させる。これにより、利用者端末２００にアクセス履歴を保持させる機能を不要とし、その構成を簡易なものにすることができる。

＜第二実施形態＞
つぎに、ユーザのアクセスパターンの類似度の時間的変化にしたがった重要度に基づいて評価値を補正する装置について説明する。

図１２は、時間帯ごとに区別して、ＷＷＷ文書にアクセスしたユーザを示す説明図である。一般的に、時間の経緯に伴って閲覧ユーザは遷移するものである。例えば、図１２では、時刻ｔ_０におけるＷＷＷ文書Ｄ_ｊは、ユーザＡからユーザＥにより閲覧されていること、時刻ｔ_１ではユーザＡからＣ、およびユーザＥ、Ｆにより閲覧されていることが示されている。時刻ｔ_０、時刻ｔ_１それぞれの時間帯において閲覧するユーザの一致度が高い場合、その一致度が高いほど、一般的にＷＷＷ文書は重要度が高いといえる。本実施形態ではこの時間の経緯に伴って閲覧するユーザが遷移する状態に応じて、ＷＷＷ文書の重要度を変えようとするものである。

この第二実施形態の構成について説明する。図１３は、第二実施形態におけるプロクシー装置１００ａの機能構成を示すシステム構成図である。第二実施形態におけるプロクシー装置１００ａは、ユーザが繰り返し訪問するWWW文書を重要コンテンツとして、そのＷＷＷ文書に付されている重要度ｓ_ｊを補正するものである。なお、本実施形態は、第一実施形態の拡張として説明し、重複する部分についての説明は省略する。第一実施形態で示されているプロクシー装置１００の構成に加え、重要度補正部１１１および重要度補正値保持部１１２が新たに付されている。

アクセスパターン収集部１０１ａは、第一実施形態のアクセスパターン収集部１０１より拡張したものであって、利用者端末２００から取得したアクセスパターンにしたがって、式（１２）で用いた閲覧ユーザベクトルｕ_ｊを、過去の時間“ｔからｔ＋δまで”と、“ｔ＋δからｔ＋２δまで”のそれぞれについて式（２４）のように区別して生成し、これをユーザアクセス履歴保持部１０２に記憶させる。

重要度補正部１１１は、これらの閲覧ユーザベクトルｕ_ｊ ^{（ｔ，ｔ＋δ）}およびｕ_ｊ ^{（ｔ＋δ，ｔ＋２δ）}を用いて、過去の時間“ｔ,ｔ＋δ”と“ｔ＋δ,ｔ＋２δ”との間のアクセスパターン（ユーザパターン）の類似度とアクセスユーザ数とを勘案したＷＷＷ文書Ｄ_ｊの重要度ｓ_ｊの補正値Δｓ_ｊを計算することができる。

重要度補正値保持部１１２は、重要度補正部１１１により計算された補正値Δｓ_ｊを記憶する部分である。

このΔｓ_ｊにより、過去の時間においてアクセスパターンの変わらないＷＷＷ文書の重要度は式（２４）のように補正される。

並び替え部１１０ａは、利用者端末２００において入力された検索語に基づいた検索ベクトルｑにより検索サーバ３００において検索され、ＷＷＷ文書検索候補として出力された上位２０件のＷＷＷ文書に対して、並び替え処理を行う部分であって、式（２４）にしたがって算出された評価値に基づいて上位のものから順に表示するように制御する。

つぎに、本実施形態のプロクシー装置１００ａの動作について説明する。図１４は、本実施形態のプロクシー装置１００ａの動作を示すフローチャートである。図１３に示すように、アクセスパターン収集部１０１ａにより、各利用者端末２００が所定期間内にアクセスしたアクセス先情報のアクセスパターンが所定の時間帯ごとに区別されて収集される（Ｓ２０１）。つぎに、ユーザアクセス履歴保持部１０２に、アクセスパターン収集部１０１ａにより収集されたアクセス先情報、アクセスパターン収集部１０１ａにより生成された閲覧ユーザベクトルｕ_ｊ、訪問ＷＷＷ文書ベクトルｖ_ｋ、および情報収集装置４００において取得されたＷＷＷ文書（重要度ｓ_ｊ付）が記憶される（Ｓ２０２）。つぎに、キーワードベクトル保持部１０３には、情報収集装置４００において生成されたキーワード重みベクトルｗ_ｊが記憶される（Ｓ２０３）。なお、Ｓ２０２、Ｓ２０３の順序は逆でもよい。

つぎにユーザ類似度演算部１０５によりユーザ類似度演算が行われる（Ｓ２０４）。また、ＷＷＷ文書類似度演算が行われる（Ｓ２０５）。一方、重要度補正部１１１により重要度ｓ_ｊの補正値Δｓ_ｊが生成され（Ｓ２０５ａ）、重要度補正値保持部１１２に記憶される（Ｓ２０５ｂ）。

それぞれ演算されたユーザ類似度およびＷＷＷ文書類似度は、キーワードベクトル平滑部１０６およびユーザプロファイル平滑部１０７により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される（Ｓ２０６、Ｓ２０７）。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部１０９および平滑化ユーザプロファイル保持部１０８に記憶される（Ｓ２０８、Ｓ２０９）。

その後、利用者端末２００から検索要求がくると、その要求に応じて検索サーバ３００に依頼し（Ｓ２１０）、検索サーバ３００から検索結果を受けると、並び替え部１１０により、検索結果は、平滑化キーワード重みベクトル、平滑化ユーザプロファイルおよび補正値Δｓ_ｊにより補正された重要度ｓ_ｊにより並び替え処理がなされる（Ｓ２１１）。

このように、過去から現在において繰り返し閲覧されているようなＷＷＷ文書が上位に表示されるように重要度の補正値Δｓ_ｊを加味した評価値を算出することで、より適合性のあった検索およびその出力を行うことができる。

つぎに、本実施形態のプロクシー装置１００ａの作用効果について説明する。このプロクシー装置１００ａにおいて、ユーザアクセス履歴保持部１０２は、第1の時間帯（例えば、ｔからｔ＋δまで）に一の文書を閲覧したユーザを示す第１のユーザパターンである閲覧ユーザベクトルｕ_ｊ ^{（ｔ，ｔ+σ）}と、第2の時間帯（例えば、ｔ＋δからｔ＋２δ）に一の文書を閲覧したユーザを示す第2のユーザパターンである閲覧ユーザベクトルｕ_ｊ ^{（ｔ＋σ，ｔ+２σ）}とを区別して記憶しておく。ここで記憶された閲覧ユーザベクトルｕ_ｊ ^{（ｔ，ｔ+σ）}および閲覧ユーザベクトルｕ_ｊ ^{（ｔ＋σ，ｔ+２σ）}の類似度および一のＷＷＷ文書のアクセス数に基づいて、一のＷＷＷ文書の重要度を補正することができる。これにより、一のＷＷＷ文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴ってＷＷＷ文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返しアクセスされたＷＷＷ文書である場合、そのようなＷＷＷ文書は重要度が高いといえる。よってこのようはＷＷＷ文書の評価値を高くするように、その重要度を補正しようとするものである。

＜第三実施形態＞
つぎに、第三実施形態のプロクシー装置１００ｂについて説明する。図１５は、第三実施形態のプロクシー装置１００ｂを利用した情報処理システムの機能構成を示すシステム構成図である。このプロクシー装置１００ｂは、プロクシー装置１００において、ユーザ類似度演算部１０５、ＷＷＷ文書類似度演算部１０４、ユーザプロファイル平滑部１０７、キーワードベクトル平滑部１０６に代えて、ＷＷＷ文書・ユーザプロファイル整合部１１３を備えたものである。第一実施形態では、ユーザのアクセスパターンの類似性から、ＷＷＷ文書を統計的バックオフスムージングに相当する処理を行ったが、本実施形態では、ユーザプロファイルを、閲覧されたＷＷＷ文書のキーワード重みベクトルに重畳して平滑化を行なう点で、その基本思想が相違するものである。

図１６は、ユーザとＷＷＷ文書との閲覧関係を示す説明図である。図１６では、例えば、ＷＷＷ文書Ｄ_ａはユーザＡにより閲覧されたことを示している。また、ＷＷＷ文書Ｄ_ｂは、ユーザＢおよびユーザＣにより閲覧されたことを示している。また、ＷＷＷ文書Ｄ_ｃは、ユーザＣおよびユーザＤにより閲覧されたことを示している。この図１６に示される関係により、ユーザプロファイルｐ_ｋとキーワード重みベクトルｗ_ｊとは、相互に依存(リンク)することが理解される。本実施形態では、このリンクすることを利用し、そのリンクを介してユーザプロファイルがキーワード重みベクトルに伝播することを利用して、平滑化・補完を行おうとするものである。

ここで以下の式が成り立つと仮定する。式（２５）は、キーワード重みベクトル推定値ｗ~_jから各ユーザのユーザプロファイル推定値ｐ~_ｋを推定する式である。なお、式（２５）においては、Ｍ行１列ベクトル＝Ｍ行Ｎ列行列×Ｎ行１列ベクトルであり、式（２６）においては、Ｍ行Ｎ列行列ベクトルである。なお、ｗ~は、ｗの上部に‘＾’（ハット）を記述したものと同義であり、本明細書においては便宜上‘ｗ~ ’と記載している。他の文字に付されている‘ ~ ’も同様にその文字の上部に‘＾’（ハット）を記述したものと同義である。

ここで、式（２７）に示す通り、キーワード重みベクトル推定値ｗ~_ｊは、ユーザプロファイル推定値ｐ~_ｋとキーワード重みベクトルｗ_ｊとの加重平均からなると仮定している。なお、式（２７）は、Ｍ行１列ベクトル＝Ｍ行Ｋ列行列×Ｋ行１列ベクトルで構成されているものであり、式（２８）は、Ｍ行Ｋ列行列ベクトルである。

式（２７）の意味するところは、ユーザプロファイルｐ~_ｋからＷＷＷ文書のキーワード重みベクトルｗ~_jへの投影(プロジェクション)であり、このことから平滑効果がもたらされる。このプロジェクションはゲインが１−αであるため、式（２７）の処理を繰り返し行なうことにより、ユーザプロファイルｐ~_ｋとキーワード重みベクトルｗ~_ｊは収束する。収束判定は、例えば新たな計算結果ｗ~_ｊ ^ｎと前回の計算結果ｗ~_ｊ ^ｎ-1の内積ｓｉｍ(ｗ~_ｊ ^ｎ, ｗ~_ｊ ^ｎ-1)が０．９以上となるまで繰り返す等が考えられる。また、ユーザプロファイルｐ~_ｋとキーワード重みベクトルｗ~_ｊの両方が収束するまで繰り返しても良いし、いずれか片方のみが収束するまで繰り返しても良い。

つぎに、図１５に戻り、プロクシー装置１００ｂについて説明する。ＷＷＷ文書・ユーザプロファイル整合部１１３は、キーワードベクトル保持部１０３に記憶されているキーワード重みベクトルｗ_ｊおよびユーザアクセス履歴保持部１０２に記憶されている訪問文書ベクトルｖ_ｋに基づいて生成されたユーザプロファイルｐ_ｋを入力し、式（２５）および式（２７）を用いて、キーワード重みベクトル推定値ｗ_ｊが収束するまで、繰り返しユーザプロファイルｐ_ｋおよびキーワード重みベクトル推定値ｗ_ｊを生成する。

より具体的には、ＷＷＷ文書・ユーザプロファイル整合部１１３は、式（２５）において、初期値として、ユーザプロファイル推定値ｐ~_ｋを生成する。このときＷ~は、初期値のキーワード重みベクトルｗ_ｊである。そして、初期値のｐ~_ｋを式（２７）で用い、キーワード重みベクトル推定値ｗ~_ｊを生成する。このキーワード重みベクトル推定値ｗ~_ｊを式（２５）に再度適用し、ユーザプロファイル推定値ｐ~_ｋを生成する。ここでＷＷＷ文書・ユーザプロファイル整合部１１３は、各要素について正規化処理を行い、キーワード重みベクトル推定値ｗ~_ｊ ^ｎと前回のキーワード重みベクトル推定値ｗ~_ｊ ^ｎ−１との類似度が所定値以上となっているか否かを判断する。ここで類似度は、内積ｓｉｍ（ｗ~_ｊ ^ｎ，ｗ~_ｊ ^ｎ−１）で計算される（式７参照）。

ここで収束したキーワード重みベクトル推定値ｗ~_ｊおよびユーザプロファイル推定値ｐ~_ｋをそれぞれキーワード重みベクトルｗ_ｊ、ユーザプロファイルｐ_ｋとして、ユーザプロファイル保持部１０８ａおよびキーワードベクトル保持部１０９ａに記憶される。

並び替え部１１０は、ユーザプロファイル保持部１０８ａおよびキーワードベクトル保持部１０９ａに記憶されているユーザプロファイルｐ_ｋおよびキーワード重みベクトルｗ_ｊを用いて、上述の式（８）、式（１１）、式（２１）または式（２４）のいずれか１つを用いて評価値を算出し、並び替え処理を行う。

つぎに、このように構成されたプロクシー装置１００ｂの処理について説明する。図１７は、本実施形態のプロクシー装置１００ｂの動作を示すフローチャートである。図１７に示すように、アクセスパターン収集部１０１により、各利用者端末２００が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される（Ｓ２０１）。つぎに、ユーザアクセス履歴保持部１０２に、アクセスパターン収集部１０１により収集されたアクセス先情報、アクセスパターン収集部１０１ａにより生成された閲覧ユーザベクトルｕ_ｊ、訪問ＷＷＷ文書ベクトルｖ_ｋ、および情報収集装置４００において取得されたＷＷＷ文書が記憶される（Ｓ２０２）。ここで記憶された閲覧ユーザベクトルｕ_ｊ、訪問ＷＷＷ文書ベクトルｖ_ｋが用いられキーワード重みベクトルｗ_ｊおよびユーザプロファイルｐ_ｋに対する整合処理がなされる。この整合処理については、図１８において詳細に説明する。そして、整合処理がなされたキーワード重みベクトル、ユーザプロファイルは、それぞれキーワードベクトル保持部１０９ａおよびユーザプロファイル保持部１０８ａに記憶される（Ｓ２０８ａ、Ｓ２０９ａ）。

その後、利用者端末２００から検索要求がくると、その要求に応じて検索サーバ３００に依頼し（Ｓ２１０）、検索サーバ３００から検索結果を受けると、並び替え部１１０により、検索結果は、整合処理された、キーワード重みベクトルおよびユーザプロファイルにより並び替え処理がなされる（Ｓ２１１）。

図１８は、上述のＳ２０５ｃにおける整合処理の詳細な処理を示すフローチャートである。まず、ｎ＝０として、初期化処理がなされ、ｐ~_ｋ ^０＝Ｗ~^ｎ＝０ｖ_ｋが計算される（Ｓ３０１）。つぎに、ｗ~_ｊ ^ｎ＋１＝（１−α）Ｐ~^ｎｕ_j＋αｗ_ｊ ^ｎが計算される（Ｓ３０２）。つぎに、ｐ~_ｋ ^ｎ＋１＝Ｗ~^ｎ＋１ｖ_ｋが計算され（Ｓ３０３）、各要素の正規化（または各個人に重み付け処理）を行う（Ｓ３０４）。そして、ユーザプロファイルｐ~_ｋが収束したか否かが判断される（Ｓ３０５）。例えば、ｐ~_ｋ ^ｎとｐ~_ｋ ^ｎ＋１との内積（ｓｉｍ（ｐ~_ｋ ^ｎ、ｐ~_ｋ ^ｎ＋１））が計算され、所定値未満であると判断されれば、ユーザプロファイルは収束していないと判断し、ｎ＝ｎ＋１とし、Ｓ３０２に戻り、再度処理がなされる。

類似度が所定値以上、例えば０．９以上であれば、ユーザプロファイルは収束したと判断し、そのときのキーワード重みベクトルｗ~_ｊ ^ｎ＋１およびユーザプロファイル推定値ｐ~_ｋ ^ｎ＋１をそれぞれキーワード重みベクトルｗ_ｊ、ユーザプロファイルｐ_ｋとして、ユーザプロファイル保持部１０８ａおよびキーワードベクトル保持部１０９ａに記憶される。そして、並び替え処理のための評価値算出に利用される（式（８）、式（１１）、式（２１）または式（２４）を参照）。

つぎに、本実施形態のプロクシー装置１００ｂの作用効果について説明する。まず、ＷＷＷ文書・ユーザプロファイル整合部１１３は、基準値となるキーワード重みベクトルｗ^ｎ＝０に基づいてユーザプロファイルｐ~_ｋ ^ｎを生成し、生成されたユーザプロファイルｐ~_ｋ ^ｎおよび基準値となるキーワード重みベクトルｗ_ｊに基づいて、新たなキーワード重みベクトルｗ~_ｊ ^ｎ＋１を生成する。新たなキーワード重みベクトルｗ~_ｊ ^ｎ＋１に基づいて新たなユーザプロファイルｐ~_ｋ ^ｎ＋１を生成する。そして、新たなユーザプロファイルｐ~_ｋ ^ｎ＋１と、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルｐ~_ｋ ^ｎとの類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返し、ユーザプロファイルｐ~_ｋ ^ｎ＋１およびキーワード重みベクトルｗ~_ｊ ^ｎ＋１を生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルｗ~_ｊ ^ｎ＋１およびユーザプロファイルｐ~_ｋ ^ｎ＋１に基づいて評価値を算出する。

＜第一実施形態〜第三実施形態の変形例＞
つぎに、第一実施形態〜第三実施形態における変形例について説明する。上記各実施形態においては、利用者端末２００において、アクセス履歴保持部２０２を備えていたものであったが、プロクシー装置１００、１００ａ、１００ｂが備えるようにしてもよい。この場合には、アクセス履歴を利用者端末２００から転送する必要がなくなるため、アクセス履歴転送部２０３は不要となる。

また、上述第一実施形態〜第三実施形態においては、装置および方法の形態で説明したが、プログラムの形態でも実現することができる。すなわち、各構成をプログラムモジュールで構成することで、文書処理プログラムとして実現することができる。具体的な機能構成は、第一実施形態〜第三実施形態における各ブロック図で示されている構成と同様の構成をとるものであり、この構成をモジュール化したプログラムを記憶媒体（ＣＤＲＯＭ等）に記憶させ、パーソナルコンピュータ等に読み込ませることにより実現することができる。

＜第四の実施形態＞
つぎに、ＨＩＴＳを用いてＷＷＷ文書の重要度を算出する方法について説明する。上述の背景技術の欄にて説明したとおり、オーソリティとは、キーワードに関連するページの中で重要度の高いページとなる。よって、オーソリティとなるページは検索結果の上位に表示されることが望ましい。一方で、ハブはオーソリティを発見するための隠れたデータとなる。ＨＩＴＳ計算ステップを以下のとおり、具体的に説明する。

探索対象となるＷＷＷ文書がキーワードマッチング等により抽出される。一般性を失うことなく、例えば上位２００件とし、これをＷＷＷ文書集合Ｒとする。この中にオーソリティとなるＷＷＷ文書があればよいが、ない場合もあるために、このＷＷＷ文書集合Ｒに属するＷＷＷ文書からリンクが張られているＷＷＷ文書、さらにＷＷＷ文書集合Ｒに属するＷＷＷ文書にリンクを張っているＷＷＷ文書を抽出し、これを探索対象Ｓとする。このリンクによる探索空間拡張の概念を図２０に示す。

以下の式（２９）に示されるとおり、探索対象Ｓに属するＷＷＷ文書にオーソリティスコアａ_ｉと、ハブスコアｈ_ｉとを割り当てる。

探索対象Ｓに含まれるＷＷＷ文書の総数はＮとする。また、肩添え字Ｔは行列ベクトルの転置を表す。

１．初期化処理
以下の式（３０）にて示されるとおりオーソリティスコアａ、ハブスコアｈは初期化される。

<t=0>以降の繰り返し演算の回数を表す非負整数である。

２．オーソシティースコアとハブスコアとの更新処理

式（３１）を以下（３２）に示されるリンク構造に従った計算により更新する。

各ページｐに対して、そのページがリンクしているページのオーソリティスコアの総和を計算し、ページｐのハブスコアｈ_ｐを、その総和で置き換える。そして、各ページｐに対して、そのページへリンクしているページのハブスコアの総和を計算し、ページｐのオーソリティａ_ｐを、その総和で置き換える。

３．正規化処理
オーソリティスコアの列ベクトルaとハブスコアの列ベクトルhのノルムが１となるよう正規化する（（式３３）参照）。

上述更新処理および正規化処理をオーソリティスコアとハブスコアとが収束するまで繰り返す。通常、数十回の演算で収束するとされ、ここでは、ｔ＝１００となるまでの結果とする（式（３４）参照）。

なお、この演算の収束性は、行列の固有値問題の解の存在性として保証されている。

まず、リンク構造を以下の式（３５）に示されるＮｘＮの正方接続行列で表現する。

そして、上記の繰り返し計算は以下の式（３６）の通りとなる。

上述の通り表現でき、これと正規化処理が入ることから、以下の式（３７）の通りオーソリティスコアおよびハブスコアを求めることができる。

オーソリティスコアは初期に依存せず、リンク構造から一意に求めることができる。よって、適合度の高かったＷＷＷ文書から、重要度、すなわちこの場合は、オーソリティスコアの高い文書を抽出することができる。

本実施形態は、このＨＩＴＳの計算手法を利用したものである。より具体的には、従来例のＨＩＴＳでは、ＷＷＷ文書のリンク構造を対象とした。本実施形態では、ユーザの閲覧状態を介在したリンク構造を用いて、適合度を計算する点に特徴がある。以下、詳細に説明する。

図２１は、ユーザの閲覧状態を介在させたＨＩＴＳアルゴリズムの概念を示す概念図である。図２１に示すとおり、ＷＷＷ文書集合Ｒは、検索語により適合したＷＷＷ文書集合を示す。ユーザＵ_１〜Ｕ_７は、ＷＷＷ文書集合Ｒを閲覧したユーザを示す。さらにこのユーザユーザＵ_１〜Ｕ_７が閲覧したＷＷＷ文書からＷＷＷ文書集合Ｖが定められる。本実施形態の文書処理装置は、このように定められたＷＷＷ文書集合Ｖに属する各ＷＷＷ文書のオーソリティスコアを算出することにより、検索された各ＷＷＷ文書の重要度を求めようとするものである。以下、この手法を実現するための文書処理装置の構成について説明する。

図２２は、文書処理装置７００の機能を示すブロック図である。この文書処理装置７００は、インデックス保持部７０１（データ構造保持手段）、一次検索部７０２（一次ＷＷＷ文書抽出手段）、一次インデックスセット保持部７０３、アクセス履歴保持部７０４（閲覧履歴保持手段）、二次検索部７０５（ユーザ抽出手段、二次ＷＷＷ文書抽出手段）、二次インデックスセット保持部７０６、オーソリティスコア計算部７０７（重要度算出手段）、ＷＷＷ文書収集部７０８、並替部７０９を含んで構成されている。以下、各構成について説明する。なお、本実施形態においては、一つの装置内に各種構成要素を含んだものとしているが、この構成に限るものではなく、複数の装置を相互にネットワークで接続して構成するようにしても良い。例えば、アクセス履歴保持部７０４は、文書処理装置７００内に構成されているが、利用者端末側などに備えて、必要に応じてアクセス履歴を取得するようにしても良い。

インデックス保持部７０１は、ＷＷＷ文書のインデックスファイル（文書中のキーワードなどの情報）を記憶する部分である。このインデックスファイルには、検索を容易にするための情報としてキーワード、ＵＲＬなどの情報のほか、ＷＷＷ文書のタイトル、当該ＷＷＷ文書に含まれている他のＷＷＷ文書に対するリンク情報（ＵＲＬ）などが記述されることが好ましい。インデックスファイルにリンク情報が記述されている場合には、各ＷＷＷ文書間のリンクの関係を示すための有向グラフのように各ＷＷＷ文書を管理することができる。

一次検索部７０２は、インデックス保持部７０１に記憶されているインデックスファイルから、利用者端末のＷＷＷ文書ブラウザ８００から入力された検索語を含んだＷＷＷ文書を検索する部分である。

一次インデックスセット保持部７０３は、一次検索部７０２により検索されたＷＷＷ文書を初期ＷＷＷ文書集合として記憶する部分である。

アクセス履歴保持部７０４は、ＷＷＷ文書ブラウザ９００（ＷＷＷ文書ブラウザ８００を含む）においてＷＷＷ文書の閲覧履歴を記憶する部分であり、ユーザを特定するためのＩＤ情報と閲覧した内容を示すＵＲＬ等とを対応付けて記憶する。

二次検索部７０５は、一次インデックスセット保持部７０３に記憶されているＷＷＷ文書集合における各ＷＷＷ文書にアクセスしたユーザを、前記アクセス履歴保持部７０４から特定し、さらに特定されたユーザがどのＷＷＷ文書を閲覧したかを検索して、そのＷＷＷ文書集合を抽出する部分である。

二次インデックスセット保持部７０６は、二次検索部７０５により抽出されたＷＷＷ文書集合を記憶する部分である。

オーソリティスコア計算部７０７は、オーソリティスコアを計算する部分である。具体的には、以下の処理により実現される。

オーソリティスコア計算部７０７は、ＷＷＷ文書ブラウザ８００から入力された検索語に適合したＷＷＷ文書集合Ｒを閲覧したユーザ集合Ｕを、アクセス履歴保持部７０４から抽出し、このユーザ集合Ｕにより特定されたユーザ（ＷＷＷ文書ブラウザ）が閲覧したＷＷＷ文書集合Ｖを求める。

一方、ユーザ集合ＵからＷＷＷ文書集合Ｖへの参照情報は、リスト形式である以下の式（３８）により表される。

そして、ユーザ集合Ｕの個数をＭ、ＷＷＷ文書集合Ｖの個数をＮとした場合、それぞれオーソリティスコアａとハブスコアｈとは以下の式（３９）で示されるベクトルをもって表現される。

このベクトル表現からわかるようにオーソリティスコアはＷＷＷ文書集合Ｖの上に定義され、ハブスコアはユーザ集合Ｕの上に定義されている。上述のことを前提にして、図２３に示される処理が実行される。

Ｓ４０１：初期化（式（４０）参照）

Ｓ４０２：更新処理
参照情報Ｅを参考にして以下の式（４１）が計算される。

Ｓ４０３：正規化処理（式（４２）参照）

Ｓ４０４：収束判定処理
オーソリティスコアａおよびハブスコアｈが収束するまで、Ｓ４０２およびＳ４０３の処理が実行される。なお、Ｓ４０２およびＳ４０３の処理が１００回を超えないようにするために処理回数のカウント判定も並行して行われる。

Ｓ４０５：ｔ＝ｔ＋１
Ｓ４０４にて、収束判定がなされない場合には、ｔに１が加算され、Ｓ４０２、およびＳ４０３の処理が実行される。なお、上述したとおり、ｔ＝１００になるまで、上述の処理が繰り返し行われるようにする。このようにして、オーソリティスコアａおよびハブスコアｈが計算される。

ＷＷＷ文書収集部７０８は、一次インデックスセット保持部７０３に保持されているインデックスに従ってＷＷＷ文書を収集する部分である。

並替部７０９は、ＷＷＷ文書収集部７０８により収集されたＷＷＷ文書に対して、二次インデックスセット保持部７０６により抽出されたＷＷＷ文書（インデックス情報）およびオーソリティスコアに従った並び替えを行う部分である。この並び替えによりＷＷＷ文書ブラウザ８００においては、オーソリティスコアの順にＷＷＷ文書は表示されることにより、より重要と思われるＷＷＷ文書は閲覧しやすくなる。

つぎに、本実施形態の作用効果について説明する。本実施形態の文書処理装置７００において、一次検索部７０２は、ＷＷＷ文書ブラウザ８００から入力された検索語に従って検索し、二次検索部７０５は、ここで検索されたＷＷＷ文書Ｒに対してアクセスしたユーザのユーザ集合Ｕを抽出し、当該ユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合Ｖを抽出し、二次インデックスセット保持部７０６に記憶させる。そして、オーソリティスコア計算部７０７は抽出されたＷＷＷ文書集合Ｖに対してユーザが閲覧した度合い（ハブスコアｈ）に基づいて、各ＷＷＷ文書の重要度（オーソリティスコアａ）を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないＷＷＷ文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

＜第四の実施形態の変形例＞
第四の実施形態では、検索語に適合したＷＷＷ文書集合Ｒを訪れたユーザの集合であるユーザ集合Ｕに基づいて、このユーザが参照したＷＷＷ文書の集合であるＷＷＷ文書集合Ｖを求めたが、このＷＷＷ文書集合Ｖが大きくなりすぎること、または、適合度が低いにも関わらず、訪問数が多いＷＷＷ文書（たとえば，特定の人気ポータルサイト）をオーソリティとして抽出してしまうことがありえる。そのため、従来例と同じくＷＷＷ文書集合Ｒから参照されているＷＷＷ文書集合とＷＷＷ文書集合Ｒを参照するＷＷＷ文書集合を加えた拡大ＷＷＷ文書集合Ｓに基づいてオーソリティ計算を行う変形が考えられる。

すなわち、図２４に示すように、検索語に適合したＷＷＷ文書集合Ｒを訪れたユーザ集合Ｕを求める。つぎに、ＷＷＷ文書集合Ｒが参照したＷＷＷ文書集合、およびＷＷＷ文書集合Ｒを参照したＷＷＷ文書集合をＷＷＷ文書集合Ｓとする。そして、ユーザ集合ＵがＷＷＷ文書集合Ｓに属するＷＷＷ文書を参照した参照情報をリスト形式で作成する。具体的には以下の式（４３）の通りとなる。

ユーザＵの個数をＭ、ＷＷＷ文書集合Ｓに属するＷＷＷ文書の個数をＮとして、それぞれオーソリティスコアとハブスコアを以下の式（４４）のベクトルとして表現する。

このベクトル表現からわかるようにオーソリティスコアは集合Ｖの上に定義され，ハブスコアは集合Ｕの上に定義されている．

計算は以下のステップで行われる。これは上述のＨＴＩＳの計算手法と同じであるため、その詳細は省略する。
ステップ１：初期化（式（４５）参照）

ステップ２：更新参照情報Ｅを参考にして以下の式（４６）を計算する．

ステップ３：正規化（（式４７）参照）

ステップ２とステップ３とを繰り返し処理するたびに、ｔを１ずつ増加させｔ＝１００となった時点で終了する。

上述の処理を実行するためには、本変形例においては、第四の実施形態における文書処理装置７００において、二次検索部７０５が、インデックス保持部７０１に記憶されているインデックスファイルを利用して、ＷＷＷ文書集合Ｒの各ＷＷＷ文書を参照する他のＷＷＷ文書およびＷＷＷ文書集合Ｒの各ＷＷＷ文書が参照する他のＷＷＷ文書を含んだＷＷＷ文書集合Ｓを抽出する。そして、二次検索部７０５は、ユーザ集合Ｕにおける各ユーザが参照するＷＷＷ文書集合Ｓの各ＷＷＷ文書を抽出し、参照情報Ｅを抽出し、これを二次インデックスセット保持部７０６に記憶させる。

オーソリティスコア計算部７０７は、これら参照情報Ｅを用いてオーソリティスコアａをＨＩＴＳの手法を用いて計算する。

つぎに、本変形例における文書処理装置７００の作用効果について説明する。この変形例における文書処理装置７００において、一次検索部７０２は、ＷＷＷ文書ブラウザ８００から入力された検索語に従ってＷＷＷ文書集合Ｒを検索し、二次検索部７０５は、ここで検索されたＷＷＷ文書集合Ｒに対してアクセスしたユーザのユーザ集合Ｕをアクセス履歴保持部７０４に記憶されている履歴情報に従って抽出する。さらにこの二次検索部７０５は、インデックス保持部７０１に記憶されている、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータ（インデックスファイル）に基づいて、抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷＷ文書を参照している他のＷＷＷ文書をＷＷＷ文書集合Ｓとして抽出する。二次インデックスセット保持部７０６は、ユーザ集合Ｕにおける各ユーザが、文書集合Ｓに対して参照したことを示す参照情報Ｅを記憶する。そして、オーソリティスコア計算部７０７は、二次検索部７０５ａにおいて抽出され、ＷＷＷ文書集合Ｓに対してユーザ集合Ｕの各ユーザが閲覧した度合い（ハブスコアｈ）に基づいて、ＷＷＷ文書の重要度（オーソリティスコアａ）を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

＜第五の実施形態＞
つぎに、第五の実施形態について説明する。この第五の実施形態では、第四の実施形態とは異なり、リンク構造でＷＷＷ文書とユーザとを区別せず、同じノードとして扱う。またリンク構造は、０、１ではなく、[0.0, 1.0]のような連続値で扱われる。図２５を用いて、本実施形態におけるデータ定義を説明する。

検索語に適合したＷＷＷ文書集合Ｒを閲覧したユーザ集合Ｕを求める。一方で、ＷＷＷ文書集合Ｒが参照され、およびＷＷＷ文書集合Ｒを参照したＷＷＷ文書集合Ｓを求める。ＷＷＷ文書集合Ｓとユーザ集合Ｕとを結合してノード集合Ｗを生成する。このノード集合Ｗに属するノードの個数はＷＷＷ文書数Ｎとユーザ数Ｍとを加算した値となり、表記簡略化のため、Ｌ＝Ｎ＋Ｍとする。

つぎに、以下の式（４８）に示されるように接続行列を定義する．

ここで、一般性を失うことなく、０＜ｔ≦ｓ≦１．０とする。ｔはユーザからＷＷＷ文書へ参照した際における当該参照に対する重み付け係数であり、ｓはＷＷＷ文書集合Ｓ内のＷＷＷ文書への参照に対する重み付け係数である。文書間参照と、ユーザの文書参照とを同一に扱えないと考え、[0,1.0]の重みを導入している。例えば、ｓ＝１．０として、tは実験的に定めればよい。たとえば，ｔ＝０．００１とすることが可能である。

つぎに、オーソリティスコアとハブスコアを以下の式（４９）に示されるベクトルとして表現する．

このベクトル表現からわかるようにオーソリティスコアは集合Ｗの上に定義され、ハブスコアも集合Ｗの上に定義されている。

計算は以下のステップで行われる。この計算処理は、上述したとおり、ＨＩＴＳ手法と同じである。
ステップ１：初期化処理（式（５０）参照）

ステップ２：更新処理
参照情報Ｅを参考にして以下の式（５１）を計算する．

ステップ３：正規化処理（式（５２）参照）

ステップ４：収束判定処理
ステップ２とステップ３を収束するまで繰り返し行うとともに、収束しない場合には、ｔを１ずつ増加させｔ＝１００で終了する。

この具体的な処理を実現する文書処理装置７００ａの機能について説明する。図２６は、文書処理装置７００ａの機能を示すブロック図である。図２２に示される文書処理装置７００とは、一次検索部７０２ａ（一次ＷＷＷ文書抽出手段）、一次インデックスセット保持７０３ａ、二次検索部７０５ａ（二次ＷＷＷ文書抽出手段）、および二次インデックスセット保持部７０６ａの動作内容が異なるだけである。

一次検索部７０２ａは、検索語からＷＷＷ文書集合Ｓを生成する。そして、一次インデックスセット保持部７０３ａは、生成されたＷＷＷ文書集合Ｓを記憶する。つぎに、二次検索部７０５ａは、ＷＷＷ文書集合Ｓ、ＷＷＷ文書集合Ｖ、および参照情報Ｅを得て、ノード集合Ｗと接続行列Ｃを生成する。そして、オーソリティスコア計算部７０７ａは、上述の通り、ステップ１からステップ４の処理を実行することにより、オーソリティスコアを計算することができる。

つぎに、本実施形態の文書処理装置７００ａの作用効果について説明する。この文書処理装置７００ａにおいて、インデックス保持部７０１は、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持しておき、一次検索部７０２ａは、ＷＷＷ文書ブラウザ８００から入力された検索語に従って検索を行う。そして、二次検索部７０５ａは、ここで検索されたＷＷＷ文書のＷＷＷ文書集合Ｒに対してアクセスしたユーザのユーザ集合Ｕを抽出する。また、二次検索部７０５ａは、参照関係を有向グラフとして管理可能にさせるデータに基づいて、各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷＷ文書を参照している他のＷＷＷ文書をＷＷＷ文書集合Ｓとして抽出する。二次検索部７０５ａは、ここで抽出されたユーザを示すユーザ集合Ｕと、抽出されたＷＷＷ文書のＷＷＷ文書集合Ｓとを合算して、一つのノード集合Ｗを生成する。そして、生成されたノード集合Ｗにおける各ＷＷＷ文書間における参照された度合いおよび各ユーザが各ＷＷＷ文書に対して閲覧した度合いにそれぞれ重み付けを行って（接続行列Ｃ）、この接続行列Ｃを用いて各ＷＷＷ文書の重要度（オーソリティスコアａ）を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

＜第五の実施形態の変形例＞
この第五の実施形態の変形として、図２７に示すように接続行列Ｃから直接オーソリティスコアを求めることが考えられる。図２７に示されるとおり、オーソリティスコア計算部７０７ａは、接続行列Ｃを生成する（Ｓ５０１）。つぎに、この接続行列Ｃの転置行列Ｃ^Ｔを生成し、これら接続行列Ｃと転置行列Ｃ^Ｔを乗算することにより、ＣＣ^Ｔの最大固有値に対応する固有ベクトルを算出することで、オーソリティスコアａを算出することができる（Ｓ５０２）。この行列の演算には、例えば下記参考文献に示されている高速近似算法を適用することが考えられる。
［参考文献］
Taher Haveliwala. "Efficient Computation ofPageRank," Stanford University Technical Report, September 1999、［ONLIN］、［平成２０年１２月８日検索］、インターネット
＜http://infolab.stanford.edu/%7Etaherh/papers/efficient-pr.pdf＞

＜第六の実施形態＞
つぎに、第六の実施形態について説明する。第四および第五の実施形態では、検索サービスを想定した文書処理装置を説明したが、第六の実施形態では、より一般的に任意の検索語に対して、ユーザのアクセスパターンだけから重要度を計算する装置を説明する。

本実施形態においては、あるＷＷＷ文書に対するハブベクトルを計算し、このハブベクトルを固定として用いることにより、そのＷＷＷ文書をどのような人が訪れたかで検索語に対する重要度を評価できる。以下、詳細に説明する。

図２４に示すように、検索語に適合したＷＷＷ文書集合Ｒを訪れたユーザ集合Ｕを求め、また、ＷＷＷ文書集合Ｒが参照し、およびＷＷＷ文書集合Ｒを参照したＷＷＷ文書集合Ｓを求める。そして、ユーザ集合ＵがＷＷＷ文書集合Ｓに属するＷＷＷ文書を参照した参照情報をリスト形式で作成する。具体的には以下の式（５３）の通りとなる。

ここでは、ユーザ集合Ｕの個数をＭ、ＷＷＷ文書集合Ｓの個数をＮとして、それぞれオーソリティスコアとハブスコアとを以下の式（５４）のベクトルとして表現する。

このベクトル表現からわかるようにオーソリティスコアはＷＷＷ文書集合Ｖの上に定義され、ハブスコアはユーザ集合Ｕの上に定義されている。
計算は以下のステップで行われる。

ステップ１：初期化処理（式（５５）参照）

ステップ２：更新処理
参照情報Ｅを参考にして以下の式（５６）のとおりの計算が行われる。

ステップ３：正規化処理（式（５７）参照）

ステップ２とステップ３を繰り返すたびにｔを１ずつ増加させ、ｔ＝１００となった時点で終了する。

図２８は、第五の実施形態の文書処理装置７００ｂの機能を示すブロック図である。この文書処理装置７００ｂは、インデックス保持部７０１、一次検索部７０２（一次ＷＷＷ文書抽出手段）、一次インデックスセット保持部７０３、アクセス履歴保持部７０４、二次検索部７０５（ユーザ抽出手段、二次ＷＷＷ文書抽出手段）、二次インデックスセット保持部７０６、ハブスコア計算部７０７ｂ（ハブスコア算出手段）、および重要度計算部７０９ａ（重要度算出手段）を含んで構成されている。上述の文書処理装置７００および７００ａと略同様の構成をとるものであるため、相違する構成について説明する。

第五の実施形態でのハブスコア計算部７０７ｂは、第三および第四のオーソリティスコア計算部７０７とほぼ同じであるが、ハブベクトルを出力する点で相違する。このハブスコア計算部７０７ｂにより計算されたハブベクトルを用いて、一次検索部７０２により任意に検索されて得られたＷＷＷ文書に対する重要度計算部７０９ａは、以下の計算を行う。

なお、この検索された任意のＷＷＷ文書には、当該ＷＷＷ文書を訪問（閲覧）したユーザ訪問回数が記録されているものとする。本実施形態では、この訪問回数を訪問ベクトルｕと称することにし、以下の式（５８）の列ベクトルをもって表す。なお、ユーザ集合Ｕの個数をＭとしている。

上述ハブスコア計算部７０７ｂにより計算されたハブベクトルは、ある特定の検索語、すなわち一般的にはある話題についてのハブとなるユーザを表す。従って、重要度は、以下の式（５９）の通り、式（７）と同様に計算される。

ハブベクトルと訪問ベクトルとの余弦距離１−ｓｉｍ（ｕ，ｈ）が小さければ，そのＷＷＷ文書は所定の検索語に対して適正な結果であるＷＷＷ文書である、いわゆる検索語に近いものであると考えることができ、重要度が高いものであると判断することができる。

この変形として、訪問ベクトルｕとハブベクトルｈとの余弦距離ではなく、他の類似度を用いても良い。例えば、訪問ベクトルｕとハブベクトルｈとの内積を用いても同様にその類似度を算出することができる。また、非類似度を距離として表現する場合は、余弦距離の代わりに絶対値距離、ユークリッド距離、マハラノビス(汎)距離、ミンコフスキー距離などが使える。

つぎに、本実施形態の文書処理装置７００ｂの作用効果について説明する。この文書処理装置７００ｂにおいて、一次検索部７０２ａは、ＷＷＷ文書ブラウザ８００から入力された検索語に従って検索し、ＷＷＷ文書集合Ｒを抽出する。そして、二次検索部７０５ａは、ここで検索されたＷＷＷ文書集合Ｒに対してアクセスしたユーザのユーザ集合Ｕを抽出し、インデックス保持部７０１において保持されている、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータ（インデックスファイル）に基づいて、抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷＷ文書を参照している他のＷＷＷ文書をＷＷＷ文書集合Ｓとして抽出する。そして、ハブスコア計算部７０７ｂは、抽出されたユーザ集合Ｕの各ユーザが、抽出された各ＷＷＷ文書Ｓに対して閲覧した度合いを示すハブスコアｈを算出し、重要度計算部１０９は、任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルｕとハブスコアｈとの一致の度合いに基づいて重要度を算出することができる。これにより、ＷＷＷ文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。

以上、検索語により得られたＷＷＷ文書をあるトピックに関連するドキュメントとし、このドキュメントへのユーザ訪問行動からユーザのハブを求め、このハブを固定した上で、任意のＷＷＷ文書に対して、任意トピックに対する重要度を示す方法も示した。これは、ユーザ訪問行動を観測データ、最初の一次検索結果であるＷＷＷ文書を教師データとして、ＷＷＷ文書に対してジャンル分類を可能とする方法を示している。

従来技術における検索システムの概略構成を示すシステム構成図である。ＨＩＴＳアルゴリズムの概念を示す概念図である。ユーザが閲覧したウェブページの遷移状態を示す図である。検索システムの構成を示すシステム構成図であり、検索システムの動作を示すフローチャートである。サイトＡとサイトＢとにおけるモバイルコンテンツの構造を示す説明図である。第一実施形態のプロクシー装置１００を利用した情報処理システムの機能構成を示すシステム構成図である。プロクシー装置１００のハードウェア構成図である。ＷＷＷ文書の一例を示す説明図である。情報収集装置４００からの出力例を示す説明図である。本実施形態のプロクシー装置１００の動作を示すフローチャートである。時間帯ごとに区別して、ＷＷＷ文書にアクセスしたユーザを示す説明図である。第二実施形態におけるプロクシー装置１００ａを利用した情報処理システムの機能構成を示すシステム構成図である。本実施形態のプロクシー装置１００ａの動作を示すフローチャートである。第三実施形態のプロクシー装置１００ｂを利用した情報処理システムの機能構成を示すシステム構成図である。ユーザとＷＷＷ文書との閲覧関係を示す説明図である本実施形態のプロクシー装置１００ｂの動作を示すフローチャートである。整合処理の詳細な処理を示すフローチャートである。第一の実施形態の変形例におけるプロクシー装置１００の構成を示すブロック図である。探索空間拡張の概念を示す概念図である。ユーザの閲覧状態を介在させたＨＩＴＳアルゴリズムの概念を示す概念図である。第四の実施形態の文書処理装置７００の機能を示すブロック図である。オーソリティスコア計算部７０７の処理を示すフローチャートである。ユーザの閲覧状態を介在させたＨＩＴＳアルゴリズムの概念を示す概念図である。ユーザの閲覧状態を介在させたＨＩＴＳアルゴリズムの概念を示す概念図である。第五の実施形態の文書処理装置７００ａの機能を示すブロック図である。オーソリティスコア計算部７０７ａの処理を示すフローチャートである。第六の実施形態の文書処理装置７００ｂの機能を示すブロック図である。

１００…プロクシー装置、１００ａ…プロクシー装置、１００ｂ…プロクシー装置、１０１…アクセスパターン収集部、１０１ａ…アクセスパターン収集部、１０２…ユーザアクセス履歴保持部、１０３…キーワードベクトル保持部、１０４…ＷＷＷ文書類似度演算部、１０５…ユーザ類似度演算部、１０６…キーワードベクトル平滑部、１０７…ユーザプロファイル平滑部、１０８…平滑化ユーザプロファイル保持部、１０８ａ…ユーザプロファイル保持部、１０９…平滑化キーワードベクトル保持部、１０９ａ…キーワードベクトル保持部、１１０…並び替え部、１１０ａ…並び替え部、１１１…重要度補正部、１１２…重要度補正値保持部、１１３…ＷＷＷ文書・ユーザプロファイル整合部、２００…利用者端末、２０１…ＷＷＷブラウザ、２０２…アクセス履歴保持部、２０３…アクセス履歴転送部、３００…検索サーバ、４００…情報収集装置、５０１…ウェブロボット、５０２…サーバ、５０３…インデックスファイル、５０５…検索サーバ、５０６…ウェブサーバ、５０７…端末７００…文書処理装置、７００ａ…文書処理装置、７００ｂ…文書処理装置、７０１…インデックス保持部、７０２…一次検索部、７０２ａ…一次検索部、７０３…一次インデックスセット保持部、７０３ａ…一次インデックスセット保持、７０４…アクセス履歴保持部、７０５…二次検索部、７０５ａ…二次検索部、７０６…二次インデックスセット保持部、７０６ａ…二次インデックスセット保持部、７０７…オーソリティスコア計算部、７０７ａ…オーソリティスコア計算部、７０７ｂ…ハブスコア計算部、７０８…文書収集部、７０９…並替部、７０９ａ…重要度計算部、８００…文書ブラウザ、９００…文書ブラウザ。

Claims

文書処理装置における文書処理方法において、
アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、
文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、
キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、
評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、
を備える文書処理方法。
前記キーワード重みベクトル補正ステップは、前記文書類似度を用いて前記他の文書におけるキーワード重みベクトルを補正し、補正したキーワード重みベクトルを用いて、前記一の文書におけるキーワード重みベクトルを補正することを特徴とする請求項１に記載の文書処理方法。
ユーザ類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一のユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算するユーザ類似度演算ステップと、
ユーザプロファイル補正手段が、前記ユーザ類似度演算ステップにより演算されたユーザ類似度を用いて、前記一のユーザの特徴を示すユーザプロファイルを補正するユーザプロファイル補正ステップと、
をさらに備え、
前記評価値算出ステップは、さらに、前記ユーザプロファイル補正ステップにより補正された一のユーザプロファイルに基づいて、前記検索のための入力情報に対する評価値を算出することを特徴とする請求項１または２に記載の文書処理方法。
前記ユーザプロファイル補正ステップは、前記ユーザ類似度を用いて他のユーザのユーザプロファイルを補正し、当該補正されたユーザプロファイルに基づいて、前記一のユーザのユーザプロファイルを補正することを特徴とする請求項３に記載の文書処理方法。
取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップをさらに備え、
前記評価値算出ステップは、前記取得ステップにより取得された重要度情報を用いて前記検索のための入力情報に対する評価値を算出することを特徴とする請求項１から４いずれか１項に記載の文書処理方法。
前記評価値算出ステップは、
前記一の文書における補正されたキーワード重みベクトルが存在する場合には、当該補正されたキーワード重みベクトルを用いて評価値を算出し、
前記一の文書における補正されたキーワード重みベクトルが存在しない場合には、補正前のキーワード重みベクトルを用いて評価値を算出することを特徴とする請求項１から５のいずれか１項に記載の文書処理方法。
取得手段が、ユーザからのアクセスにしたがって検索サーバから文書を取得する取得ステップをさらに備え、
前記取得ステップにおいて受け付けられたアクセスをアクセス履歴として、収集ステップにおいて収集することを特徴とする請求項１から６のいずれか１項に記載の文書処理方法。
文書処理装置の文書処理方法において、
アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、
文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、
キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、
取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップと、
重要度補正手段が、前記収集ステップにより収集されたユーザのアクセスに従って、第１の時間帯に一の文書を閲覧したユーザを示す第１のユーザパターンと、第２の時間帯に一の文書を閲覧したユーザを示す第２のユーザパターンとが区別され、当該第１のユーザパターン、第２のユーザパターンの類似度および前記一の文書のアクセス数に基づいて、前記一の文書の重要度を補正する重要度補正ステップと、
評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルおよび前記重要度補正ステップにより補正された重要度情報に基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、
を備える文書処理方法。
出力手段が、前記評価値算出ステップにより算出された評価値に応じて、ユーザにより検索された検索結果を出力する出力ステップをさらに備えることを特徴とする請求項１から８のいずれか１項に記載の文書処理方法。
文書処理装置の文書処理方法において、
第１生成手段が、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成する第１生成ステップと、
第２生成手段が、前記第１の生成ステップにより生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成する第２生成ステップと、
第３生成手段が、前記第２の生成ステップにより生成された前記新たなキーワード重みベクトルに基づいて前記新たなユーザプロファイルを生成する第３生成ステップと、
ユーザプロファイル類似度生成手段が、前記第３生成ステップにより生成された前記新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算するユーザプロファイル類似度生成ステップと、
評価値算出手段が、前記ユーザプロファイル類似度生成ステップにより演算された類似度、キーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する評価値算出ステップと、
を備える文書処理方法。
判断手段が、前記ユーザプロファイル類似度生成ステップにより生成された類似度が所定値以上となるか否かを判断する判断ステップをさらに備え、
前記評価値算出ステップは、前記ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することを特徴とする請求項１０に記載の文書処理方法。
ユーザのアクセス履歴を収集するアクセス履歴収集手段と、
前記アクセス履歴収集手段により収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算手段と、
前記文書類似度演算手段により演算された文書類似度を用いて前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正手段と、
前記キーワード重みベクトル補正手段により補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出手段と、
を備える文書処理装置。
アクセス履歴を記憶する利用者端末と、前記利用者端末によりアクセスされた文書のキーワード重みベクトルを生成する情報収集装置と、前記利用者端末のアクセス履歴および前記情報収集装置で生成したキーワード重みベクトルを取得する請求項１２に記載の文書処理装置と、を備えることを特徴とする検索システム。
ユーザのアクセス履歴を収集する収集モジュールと、
前記収集モジュールにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと、他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算モジュールと、
前記文書類似度演算モジュールにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正モジュールと、
前記キーワード重みベクトル補正モジュールにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出モジュールと、
をコンピュータに機能させる文書処理プログラム。
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、
前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、
前記ユーザ抽出手段により抽出されたユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合を抽出する二次ＷＷＷ文書抽出手段と、
前記二次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書の重要度を算出する重要度算出手段と
備える文書処理装置。
前記重要度算出手段は、前記ユーザ抽出手段により抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてＷＷＷ文書の重要度を算出することを特徴とする請求項１５に記載の文書処理装置。
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、
前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、
ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出手段と、
前記二次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書集合に対して前記ユーザ抽出手段により抽出されたユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書の重要度を算出する重要度算出手段とを備える文書処理装置。
複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、
ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、
前記一次ＷＷＷ文書抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出し、前記ユーザ抽出手段により抽出されたユーザを示す集合と、前記抽出されたＷＷＷ文書のＷＷＷ文書集合とを合算して、一つのノード集合を抽出する二次ＷＷＷ文書抽出手段と、
前記二次ＷＷＷ文書抽出手段により抽出されたノード集合における前記各ＷＷＷ文書間における参照された度合いおよび前記各ユーザが前記各ＷＷＷ文書に対する閲覧した度合いにそれぞれ重み付けを行って、ＷＷＷ文書の重要度を算出する重要度算出手段とを備える文書処理装置。
複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、
ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出手段と、
前記抽出手段により抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および前記各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出手段と、
前記ユーザ抽出手段により抽出されたユーザ集合の各ユーザが、前記二次ＷＷＷ文書抽出手段により抽出された各ＷＷＷ文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出手段と、
任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出手段により算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出手段とを備える文書処理装置。
文書処理装置の文書処理方法において、
一次ＷＷＷ文書抽出手段が、検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、
ユーザ抽出手段が、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、
二次ＷＷＷ文書抽出手段が、前記ユーザ抽出ステップにより抽出されたユーザが閲覧したＷＷＷ文書のＷＷＷ文書集合を抽出する二次ＷＷＷ文書抽出ステップと、
重要度算出手段が、前記二次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書集合に対してユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書の重要度を算出する重要度算出ステップと
を備える文書処理方法。
ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段を備える文書処理装置の文書処理方法において、
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、
前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出ステップと、
前記二次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書集合に対して前記ユーザ抽出ステップにより抽出されたユーザが閲覧した度合いに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書の重要度を算出する重要度算出ステップとを備える文書処理方法。
複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、
前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出し、前記ユーザ抽出ステップにより抽出されたユーザを示す集合と、前記抽出されたＷＷＷ文書のＷＷＷ文書集合とを合算して、一つのノード集合を抽出する二次ＷＷＷ文書抽出ステップと、
前記二次ＷＷＷ文書抽出ステップにより抽出されたノード集合における前記各ＷＷＷ文書間における参照された度合いおよび前記各ユーザが前記各ＷＷＷ文書に対する閲覧した度合いにそれぞれ重み付けを行って、ＷＷＷ文書の重要度を算出する重要度算出ステップとを備える文書処理方法。
複数のユーザにおけるＷＷＷ文書に対する閲覧履歴を保持する閲覧履歴保持手段と、ＷＷＷ文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、
検索語に従ってＷＷＷ文書を抽出する一次ＷＷＷ文書抽出ステップと、
前記一次ＷＷＷ文書抽出ステップにより抽出されたＷＷＷ文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、
前記データ構造保持手段に記憶されているデータに基づいて、前記一次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書が参照している他のＷＷＷ文書、および各ＷＷＷ文書を参照している他のＷＷＷ文書を抽出する二次ＷＷＷ文書抽出ステップと、
前記ユーザ抽出ステップにより抽出されたユーザ集合の各ユーザが、前記二次ＷＷＷ文書抽出ステップにより抽出された各ＷＷＷ文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出ステップと、
任意のＷＷＷ文書に含まれている当該ＷＷＷ文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出ステップにより算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出ステップとを備える文書処理方法。