1990年代中頃からインターネットで公開されているWWW文書が爆発的に増加し、その情報産業上の価値が増している。WWW文書は、URL(Uniform Resource Locator)とよばれるインターネット上の論理的な情報格納位置に配置され、相互にそのURLが参照されることにより構造化されたデータベースが構築されている。この構造化されたデータベースを効率的に検索し、ユーザに提供する検索サービスが重要となっており、このサービスを実行するシステムとしてサーチエンジンが考えられている。
以下の非特許文献1(日本国特許庁総務部企画調査課技術動向班資料)には、サーチエンジンについての記載がなされており、具体的には、
「このサーチエンジンは巨大で刻々変化する情報空間を対象としているが故に、次ぎに挙げるような、従来の検索技術とは異なる機能を具備する必要があり、これら機能の実装と高度化をめざして研究開発が行われている。
・WWW上に分散して存在する情報を効率的に収集する機能
・HTML形式で、自由に不定形で記述された情報からキーワード等を抽出する機能とこれを高速に検索する機能
・容易に検索できるインターフェース機能
・膨大な検索結果を効率よくランキングする機能
」と記載されている。
また、この非特許文献1には、以下の記載がある。このサーチエンジンは、「WWWロボット、収集テキスト群、インデクサ、検索インデックスファイル、検索サーバ、ブラウザ」などの要素より構成されている。WWWロボットは、インターネットWebの世界から「(1)情報収集」する機能を担う。収集テキスト群では収集されたWWWページを格納すると同時に、インデクサにデータを引き渡す前の「(2)データ解析(前処理)」が行われる。インデクサと検索インデックスファイルの要素では全文検索やカテゴリー検索のためのインデックスファイルが生成され「(3)検索処理」のための基本的なデータベースが動作する。検索サーバ・クライアント・ブラウザの要素間では入力や出力に関する情報がやり取りされ、多くの「(4)入出力インターフェース」が介在機能する。
図1は、上述の一般的な検索システムの概略構成を示すシステム構成図である。図1に示すとおり、ウェブロボット501は、HTMLテキストを含んでいるウェブページをインターネットweb500から自動的に収集する。収集したウェブページはサーバ502を経由して、インデックスファイル503に記憶される。一方、オペレータがPC504を操作することで各ウェブページをインデックスファイル503に記憶することもできる。
ユーザは、端末507のウェブブラウザを用いてウェブサーバ506を介して検索サーバ505に検索要求を行う。検索サーバ505は、インデックスファイル503を参照して検索処理を行い、その結果を端末507に出力することにより、端末507は、検索結果を得ることができる。
さて、このような処理を行ううえで、膨大な検索結果をユーザは得ることになる。よって、効率的に検索結果を把握することが望まれている。ここでは「膨大な検索結果を効率よくランキングする機能」についての従来技術を説明する。この機能は、適合度と重要度とを組み合わせて行うことが一般的である。適合度とは、ユーザの検索語を多く含んでいるか、またユーザの過去の検索履歴に調和しているかなど検索意図に合致する度合いを計る尺度である。重要度とは、そのWWW文書が一般的に多くの人に読まれるような有益な情報を含むかどうかの度合いを測る尺度である。
例えば、特許文献1および非特許文献2には、適合度と重要度とを両立させたランキング検索方法の一つであるHITSが記載されている。このHITSは、あるトピックを表すキーワードを含むWebページを検索し、検索したWebページのうち高い適合度を得たWebページの近傍のWebグラフからオーソリティとハブを検出するものである。オーソリティとは、Webグラフ中の多くのハブから参照されており、高い評価が得られているWebページを表す尺度のことである。一方、ハブとは、Webグラフ中で多くのオーソリティを参照しているリンク集に相当するようなWebページを表す尺度である。HITSでは、反復的な計算によって、Webグラフ中の各Webページのオーソリティスコアとハブスコアを計算し、オーソリティスコア順にWebページを出力する。これにより、与えられたトピックに関連するWebページ群の中から重要なWebページが検索される。図2は、HITSアルゴリズムの概念を示す概念図である。図2に示すように、ウェブページ601は、多くのウェブページから参照されているものであることから、オーソリティスコアが高い。一方、ウェブページ602は、多くのウェブページを参照しているため、ハブスコアが高い。
以上は検索時に計算されるが、静的なWWW文書の重要度を計算する手法として、米国グーグル社が利用しているページランク手法が知られている。例えば特許文献2に記載されているように、このページランク手法は、WWW文書の膨大なリンク構造を用いている手法である。
例えば、WWW文書Aが、WWW文書Bを引用していれば、WWW文書Bの重要へのWWW文書Aの支持とみなす。この際、WWW文書Aの重要度がその支持に重み付けされている。WWW文書Aの重要度はそれを引用している他のWWW文書の支持にその重要度を重み付けした和で表されている。このようにWWW文書全体の参照を辿り、再帰的に大規模な計算を行えば、各WWW文書の重要度が定まるというものである。
近年は、WWW文書を閲覧するソフトウェア、ブラウザの機能充実により、サーチエンジンと連携してユーザがどのブラウザを閲覧しているかを計測し、いわゆる人気度を、重要度を決定するパラメータに加えている。
非特許文献3によれば、WWW文書の重要度を前述のページランクに加えてユーザ閲覧頻度、時間(すなわち人気度)を加えて行うことを述べている。特許文献3では、同様にある一定期間にある検索結果の中からどのくらいクリックされたかというデータを履歴としてランク計算に用いている。
以上、WWW文書の重要度について従来技術を述べたが、適合度に関しては、検索結果、提示の選択肢過多の問題がある。このような選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザ(利用者)の興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法が提案されている。非特許文献1における「E出力インターフェース E−2−1(1)順序付出力」には、以下のことが記載されている。
すなわち、選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザの興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法を提案している。さらに具体的には、ユーザはリンクを辿りながら、1、2、…、nまでのページを閲覧(ブラウジング)したとする。ユーザの興味は、直前に読んだページの内容ほど大きいと考え、直前のウェブページに対して重みを多く付けるようにする。一方、対象の単語を含むページの「履歴の重み」を足し合わせることで、その単語の重み(インデックスの重み)とする。ここで図3を用いて説明する。図3は、ユーザが閲覧したウェブページの遷移状態を示す図であり、page1からpage4まで順に閲覧していることを示している。ここで図3におけるNw(k)は、履歴の重みを表すものであり、例えば、Nw(k)=rn−kで表すことができる。ユーザは、Page1、Page2、Page3、Page4とブラウジングしたところで、ここで単語eは、Page1、Page3、Page4に含まれるため、これらの履歴の重みNw(k)を足し合わせることで「インデックスeの重み」とする。
上記ブラウジングの後、ユーザはサーチエンジンにキーワードを入力し、必要情報を収集する。収集した各ページに含まれるインデックスを取り出し、それらのインデックスの重みを足し合わせることで、そのページすなわち選択候補の重みを計算する。ユーザは大きく重み付けされたページから順に閲覧して行くことができる。同様のことは、特許文献4および特許文献5にも記載されている。
また、文書検索には、tf・idf特徴を用いた検索技術が考えられている。これは、文書集合{D
j|j=1,…,N}上に現れるキーワードt
i(i=1,…,M)を、文書毎に重み付けを計算し、キーワード重みベクトルw
jとして式(1)の通りに表現することができる。
なお、Tは転置を表す。
ここで、Nは検索対象の文書数であり、Mは自然言語中のキーワード(例:東京、携帯電話、野球、駅、経済、株、…)であり、非常に大きな数となる。
ここで、各重みは、以下の式(2)により算出することができる。
すなわち、重みは、ターム頻度(tf:Term Frequency)と文書頻度(Document frequency)の逆数idfの積として表現される。なお、タームはキーワードと同義である。
文書D
jに現れるキーワードt
iの重みw
j iは、文書D
jには数多く現れ、他の文書にはあまり現れないと大きくなるべきである。逆にキーワードt
iが多く現れても、他の文書にも多く現れるのであれば、その重みw
j iは小さくても良い。この発見的知識を表現したものが、tf・idf特徴であり、以下の式(3)および式(4)のとおりに定義できる。
freq(i,j)=文書D
jにおけるタームt
iの出現頻度
Dfreq(i)はタームt
iが出現する文書数(文書頻度Documentfrequency)
idf
iは文書総数NによりDfreq(i)を正規化したもの
tf・idf特徴には、多くの改良型があるが、ここでは、一般性を失うことなく上記の定義を用いる。
つぎに検索入力を検索ベクトルqとして現す。これもM次元であり、式(5)のように
と表すことができる。
この式(5)においては、キーワードtiを含めばqiを1とし、含まなければ0とする。
検索処理は、文書集合の中から、類似性が最大となる文書D
xを探索すればよい。探索には文書内の単語数を正規化するために、式(6)および式(7)のとおり、内積を正規化した余弦距離(コサイン距離)を用いることが一般的である。
ただし、
ただし、上述式(7)そのものは、類似の度合いを表しており、距離の公理系を満たす尺度として用いる余弦距離は、1−sim(q,wj)となる。
これまでの先行技術を具現化すると、図4に示すキーワード重みベクトルに基づく検索システムを従来例1とすることができる。なお、図4は、一般的な検索システムを示すシステム構成図であり、端末20、ウェブサーバ21、検索サーバ22から構成されている。この例では、端末20から入力された検索語はウェブサーバ21に送られ、入力された検索語は、検索ベクトルqに変換され、検索サーバ22に送信される。検索サーバ22では、検索ベクトルqに従った検索が行われ、検索結果としてWWW文書Dxがウェブサーバ21および端末20に送信される。
この従来例1では、単に検索結果を出力するものであるため、その改良として、ユーザプロファイルを考慮して類似性を評価する形態である、以下の式(8)および式(9)で表されるような評価値を用いた検索システムである従来例2が考えられている。この式(8)および式(9)により算出される評価値に基づいて、検索されたWWW文書の表示処理が行われる。すなわち、評価値に従った順で検索されたWWW文書が表示されることになる。
ここで、p
kは個人kのユーザプロファイルである。
これから分かるように個人kのユーザプロファイルは、キーワード重みベクトルの表現をとる。このようにWWW文書、検索語、個人kのユーザプロファイルも同様のベクトルの表現をとることができる。
ユーザプロファイルの構成は、図3にて示されているように(非特許文献1)、過去に閲覧したWWW文書D
jにおけるNw(j)の和を取る処理を行えばよい。ただし、図3のNw(j)をw
jに読み替えて、以下の式(10)を作ることができる。
さらに重要度を評点として加える形態として、以下の式(11)で示される評価値を用いた検索システムである従来例3が考えられている。
ここでs
j(0≦s
j≦1)は、WWW文書D
jの重要度である。λ値は式(8)と異なっていて良い。
以上の従来例2〜3における標準的な検索システムの動作を、図5に示す。図5に示されるように、端末20において、検索語の入力がユーザにより行われ(S101)、ウェブサーバ21において、検索ベクトルqが生成される(S102)。ここで生成された検索ベクトルqは、検索サーバ22に送信され、検索サーバ22においては、類似度が上位のものから文書IDが出力される(S103)。ウェブサーバ21では、類似度が上位のWWW文書を表示するためのコンテンツが生成され(S104)、端末20においてコンテンツが表示される(S105)。
米国特許第6112202号明細書
米国特許第6285999号明細書
米国特許出願公開第2007/0143345号明細書
特開平10−207901号公報
特開2002−32401号公報
日本国特許庁総務部企画調査課技術動向班資料 「テーマ名:サーチエンジンに関する標準技術集作成」 WWWサーチエンジンの技術動向概観、[ONLINE]、[平成20年1月29日検索]、インターネット、<URL:http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/search_engine/douko.htm>
原田昌紀、「WWWサーチエンジンの技術動向」、信学技報、SSE2000−228,pp.17−22,2001.
Matthew Richardson, Amit Prakash, Eric Brill, 2Beyond PageRank: Machine Learning for Static Ranking,", Proc. WWW2006, [ONLINE]、[平成20年1月29日検索]、インターネット、<URL:http://www2006.org/programme/files/xhtml/3101/p3101-Richardson.html>
辻本昇平、松田憲幸、平嶋宗、豊田順一著、「文脈情報を用いたブラウジング支援−Web上での実装とその実験的評価」、「人工知能学会全国大会(第11回)論文集」、(1997年6月24日)、(社)人工知能学会発行、466頁〜467頁
上述の従来の検索方法においては、以下のことを前提としているものであった。すなわち、(1)良質なWWW文書からリンクされているWWW文書は良質であるというページランクの基本概念、(2)WWW文書のキーワード重みベクトルw、ユーザの個人プロファイルpは十分な情報により生成されているという事実、を前提としているものであった。
しかしながら、移動端末が視聴するWWW文書集合(以下、モバイルコンテンツと呼ぶ)には上記の過程が当てはまらないことが多く、必ずしも従来の技術によって適切な検索結果を得ることができないという問題があった。ここで図6にモバイルコンテンツの構造を示す。図6は、サイトAとサイトBとにおけるモバイルコンテンツの構造を示す説明図である。ここで、サービスを提供する独立したサーバをサイトと呼ぶ。パーソナルコンピュータから視聴されるWWW文書は相互に参照される(リンクされる)場合が多いが、モバイルコンテンツは、それぞれサービスを提供するサーバ内では木構造のディレクトリからなるが、サイト間のリンクが少なく独立である場合が多い。例えば、図6に示されるように、サイトAとサイトBとでは、相互に独立しており、各コンテンツにおいて何らリンクが張られていない。
このようにサイト間で相互にリンクされることがないため、良質なWWW文書からリンクされているWWW文書は良質であるという仮定が成り立ち難い。さらに、WWW文書そのものが短い文書であり、キーワードを多く含まないことがPCから視聴されるWWW文書とは性格が異なる。また、ニュースや乗り換え案内など動的に生成されるWWW文書が多いのが特徴である。例えば図6におけるサイトAでは、動的WWW文書−Aとして新聞、ニュースが、また動的WWW文書−Bとして乗り換え案内情報が記憶されている。これら情報は、適宜書き換えられ、またはユーザの要求により生成されるものである。したがって、所定のURLに存在する文書の内容が異なることが多い。
このような状況から、式(8)または式(11)にあるような評価値を用いて、個人の視聴履歴を勘案して、リンクの無い数百語からなるコンテンツの重要度を決定することは難しく、また個人プロファイルをキーワード重みベクトルで表現することも難しく、検索者であるユーザが満足するWWW文書の提示を行うことが困難であった。
そこで、上述の課題を解決するために、本発明は、WWW文書間のリンクが少なく、またユーザのアクセスが少ないWWW文書に対して、ユーザが満足する検索結果を提供することができる文書処理装置および文書処理方法を提供することを目的とする。
上述の課題を解決するために、本発明の文書処理方法は、文書処理装置における文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。
本発明によれば、ユーザのアクセス履歴を記憶させ、このアクセス履歴に従った、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算し、演算された文書類似度を用いて、一の文書におけるキーワード重みベクトルを補正する。そして、補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出することができる。
これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明の文書処理方法において、前記キーワード重みベクトル補正ステップは、前記文書類似度を用いて前記他の文書におけるキーワード重みベクトルを補正し、補正したキーワード重みベクトルを用いて、前記一の文書におけるキーワード重みベクトルを補正することを特徴とすることが好ましい。
これにより、前記他の文書におけるキーワード重みベクトルを補正し、この補正したキーワード重みベクトルを用いた、位置の文書におけるキーワード重みベクトルを補正することができ、文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明の文書処理方法は、ユーザ類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一のユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算するユーザ類似度演算ステップと、ユーザプロファイル補正手段が、前記ユーザ類似度演算ステップにより演算されたユーザ類似度を用いて、前記一のユーザの特徴を示すユーザプロファイルを補正するユーザプロファイル補正ステップと、をさらに備え、前記評価値算出ステップは、さらに、前記ユーザプロファイル補正ステップにより補正された一のユーザプロファイルに基づいて、前記検索のための入力情報に対する評価値を算出することが好ましい。
この発明によれば、ユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算し、演算されたユーザ類似度を用いて、一のユーザのユーザプロファイルを補正する。そして、補正された一のユーザプロファイルに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法において、前記ユーザプロファイル補正ステップは、前記ユーザ類似度を用いて他のユーザのユーザプロファイルを補正し、当該補正されたユーザプロファイルに基づいて、前記一のユーザのユーザプロファイルを補正することが好ましい。
これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法は、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップをさらに備え、前記評価値算出ステップは、前記取得ステップにより取得された重要度情報を用いて前記検索のための入力情報に対する評価値を算出することが好ましい。
この発明によれば、文書ごとに付された重要度を示す重要度情報を取得し、取得された重要度情報を用いて検索のための入力情報に対する評価値を算出することができる。これにより、重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。
また、本発明の文書処理方法は、前記評価値算出ステップは、前記一の文書における補正されたキーワード重みベクトルが存在する場合には、当該補正されたキーワード重みベクトルを用いて評価値を算出し、前記一の文書における補正されたキーワード重みベクトルが存在しない場合には、補正前のキーワード重みベクトルを用いて評価値を算出することが好ましい。
この発明によれば、補正されたキーワード重みベクトルの有無に応じて、補正されたキーワード重みベクトルを用いるか、または補正されていないキーワード重みベクトルを用いるかを切り替えることができ、予め保持または収集されていない文書に対しても適切に評価し、ユーザに提供することができる。
また、本発明の文書処理方法は、取得手段が、ユーザからのアクセスにしたがって検索サーバから文書を取得する取得ステップをさらに備え、前記取得ステップにおいて受け付けられたアクセスをアクセス履歴として、収集ステップにおいて収集することが好ましい。
この発明によれば、ユーザ側の端末装置にアクセス履歴の収集機能を備えることなく、その構成を簡易なものにすることができる。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップと、重要度補正手段が、前記収集ステップにより収集されたユーザのアクセスに従って、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第2の時間帯に一の文書を閲覧したユーザを示す第2のユーザパターンとが区別され、当該第1のユーザパターン、第2のユーザパターンの類似度および前記一の文書のアクセス数に基づいて、前記一の文書の重要度を補正する重要度補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルおよび前記重要度補正ステップにより補正された重要度情報に基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。
この発明によれば、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第2の時間帯に一の文書を閲覧したユーザを示す第2のユーザパターンとを区別して記憶しておき、記憶された第1のユーザパターンおよび第2のユーザパターンの類似度および一の文書のアクセス数に基づいて、一の文書の重要度を補正することができる。これにより、一の文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴って文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返し、アクセスされた文書である場合には、その文書は重要度が高いといえる。よってこのようは文書の評価値を高くするように、その重要度を補正しようとするものである。
また、本発明の文書処理方法は、出力手段が、前記評価値算出ステップにより算出された評価値に応じて、ユーザにより検索された検索結果を出力する出力ステップをさらに備えることが好ましい。
この発明により、算出された評価値に基づいた検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、第1生成手段が、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成する第1生成ステップと、第2生成手段が、前記第1の生成ステップにより生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成する第2生成ステップと、第3生成手段が、前記第2の生成ステップにより生成された前記新たなキーワード重みベクトルに基づいて前記新たなユーザプロファイルを生成する第3生成ステップと、ユーザプロファイル類似度生成手段が、前記第3生成ステップにより生成された前記新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算するユーザプロファイル類似度生成ステップと、評価値算出手段が、前記ユーザプロファイル類似度生成ステップにより演算された類似度、キーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する評価値算出ステップと、を備えている。
この発明によれば、まず、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成し、生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成し、新たなキーワード重みベクトルに基づいて新たなユーザプロファイルを生成する。そして、新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返しユーザプロファイルおよびキーワード重みベクトルを生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する。
これにより、キーワード重みベクトルとユーザプロファイルとは相互に依存するように生成することで、ユーザプロファイルがキーワード重みベクトルに伝播することにより、ユーザプロファイルおよびキーワード重みベクトルの平滑化および補完を行うことができる。よって、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができる。また、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法は、判断手段が、前記ユーザプロファイル類似度生成ステップにより生成された類似度が所定値以上となるか否かを判断する判断ステップと、をさらに備え、前記評価値算出ステップは、前記ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することが好ましい。
この発明によれば、ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することで、ユーザにとっての適合性の高い検索結果を提供することができる。
ところで、本発明は、上記のように文書処理方法の発明として記述できる他に、以下のように、文書処理装置、検索システム、文書処理プログラムの発明としても記述することができる。これらはカテゴリーが異なるだけで、実質的に同一の発明であり、同様の作用・効果を奏する。
すなわち、本発明の文書処理装置は、ユーザのアクセス履歴を収集するアクセス履歴収集手段と、前記アクセス履歴収集手段により収集されたアクセス履歴にしたがって、一の文書を閲覧した複数のユーザを示すユーザパターンと他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算手段と、前記文書類似度演算手段により演算された文書類似度を用いて前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正手段と、前記キーワード重みベクトル補正手段により補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出手段と、を備えている。
また、本発明の検索システムは、アクセス履歴を記憶する利用者端末と、前記利用者端末によりアクセスされた文書のキーワード重みベクトルを生成する情報収集装置と、前記利用者端末のアクセス履歴および前記情報収集装置で生成したキーワード重みベクトルを取得する上記文書処理装置と、を備えている。
また、本発明の文書処理プログラムは、ユーザのアクセス履歴を収集する収集モジュールと、前記収集モジュールにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと、他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算モジュールと、前記文書類似度演算モジュールにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正モジュールと、前記キーワード重みベクトル補正モジュールにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出モジュールと、をコンピュータに機能させるように備えている。
また、本発明の文書処理装置は、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、前記ユーザ抽出手段により抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段と備えている。
この発明によれば、検索語に従ってWWW文書に対してアクセスしたユーザのユーザ集合を抽出し、当該ユーザが閲覧したWWW文書のWWW文書集合を抽出する。そして、抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、WWW文書の重要度を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置において、前記重要度算出手段は、前記ユーザ抽出手段により抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてWWW文書の重要度を算出することが好ましい。
この発明によれば、抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてWWW文書の重要度を算出することができ、重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたWWW文書集合に対して前記ユーザ抽出手段により抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段とを備えている。
この発明によれば、検索語に従ってWWW文書に対してアクセスしたユーザのユーザ集合を抽出するとともに、WWW文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書を抽出する。そして、抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、WWW文書の重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出手段により抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出手段とを備えている。
この発明によれば、WWW文書間における有向グラフとして管理可能なデータを保持しておき、検索語に従って抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出する。また、WWW文書間における参照関係を有向グラフとして管理可能にさせるデータに基づいて、各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書を抽出し、抽出されたユーザを示す集合と、抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する。そして、抽出されたノード集合における各WWW文書間における参照された度合いおよび各ユーザが各WWW文書に対して閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および前記各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、前記ユーザ抽出手段により抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出手段により抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出手段と、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出手段により算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出手段とを備えている。
この発明によれば、検索語に従って抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出し、WWW文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各WWW文書が参照している他のWWW文書、および前記各WWWW文書を参照している他のWWW文書を抽出する。そして、抽出されたユーザ集合の各ユーザが、抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出する。その後、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルとハブスコアとの一致の度合いに基づいて重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、上述文書処理装置として発明を捉えるほか、以下の通り、文書処理方法として発明を捉えることができる。この場合、その作用効果は、文書処理装置と同じである。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、一次WWW文書抽出手段が、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、ユーザ抽出手段が、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、二次WWW文書抽出手段が、前記ユーザ抽出ステップにより抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出ステップと、重要度算出手段が、前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段を備える文書処理装置の文書処理方法において、
また、本発明の文書処理方法は、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対して前記ユーザ抽出ステップにより抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出ステップにより抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出ステップと、前記二次WWW文書抽出ステップにより抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、前記ユーザ抽出ステップにより抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出ステップにより抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出ステップと、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出ステップにより算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出ステップとを備えている。
本発明によれば、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明によれば、ユーザの閲覧した度合いに基づいて、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせることができる。
以下、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
<第一実施形態>
図7は、本実施形態のプロクシー装置100を利用した情報処理システムの機能構成を示すシステム構成図であり、この情報処理システムは、プロクシー装置100、利用者端末200、検索サーバ300、および情報収集装置400から構成されている。このシステムにおいて、利用者端末200は検索要求をプロクシー装置100を介して検索サーバ300に出力する。検索サーバ300は、その検索要求に応じた検索処理を実行し、プロクシー装置100を介して利用者端末200にその検索結果を返信する。また、情報収集装置400は、利用者端末200のアクセス履歴に基づいたWWW文書を収集し、そして、キーワード重みベクトルを生成する部分である。生成したキーワード重みベクトルは、プロクシー装置100に出力し、保持させる。
ここで、プロクシー装置100は、アクセスパターン収集部101、ユーザアクセス履歴保持部102、キーワードベクトル保持部103、WWW文書類似度演算部104、ユーザ類似度演算部105、キーワードベクトル平滑部106、ユーザプロファイル平滑部107、平滑化ユーザプロファイル保持部108、平滑化キーワードベクトル保持部109、並び替え部110を含んで構成されている。また、利用者端末200は、WWWブラウザ201、アクセス履歴保持部202、アクセス履歴転送部203を含んで構成されている。この利用者端末200は、ユーザを示すものであって、おおむね100万台程度を想定している。以下、ユーザの数として定数Kで表す。
ここでプロクシー装置100は、図8に示されるハードウウェアにより構成されている。図8は、プロクシー装置100のハードウェア構成図である。図7に示されるプロクシー装置100は、物理的には、図8に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図7において説明した各機能は、図8に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。なお、利用者端末200、検索サーバ300、情報収集装置400も同様のハードウェア構成をとるものであり、プログラムにしたがって、各種機能を実行することができるように構成されている。以下、図7に示す機能ブロックに基づいて、各機能ブロックを説明する。
アクセスパターン収集部101は、利用者端末200において一定期間にアクセスしたアクセスパターンを収集する部分である。ここでアクセスパターンとは、ユーザがアクセスしようとしたWWW文書が配置されているURLなどのアクセス先情報である。ここで取得したアクセス先情報は、情報収集装置400に出力される。情報収集装置400は、後述するとおり、このアクセス先情報に従ってWWW文書を取得することができる。例えば、情報収集装置400は、図9に示されるようなWWW文書を取得することができる。図9は、WWW文書の一例を示す説明図であり、携帯電話に関するWWW文書を示している。この図9では、目的別ナビゲーションなどの情報が記述されており、下線部にはアンカーが形成されており、ユーザはそのアンカーをクリックすることにより下位にあるWWW文書を閲覧することができる。
また、アクセスパターン収集部101は、利用者端末200が一定期間にアクセスした複数のWWW文書を情報収集装置400から取得し、式(12)に示す閲覧ユーザベクトルuj(K×1ベクトル)(1≦j≦N)と、式(13)に示す訪問WWW文書ベクトルvk(N行1列ベクトル)(1≦k≦K)を算出する。そして、ユーザアクセス履歴保持部102に格納する。
ここで、閲覧ユーザベクトルu
jは、WWW文書D
jがユーザkにより閲覧されればu
j k=1、そうでなければ0とするベクトルとして定義される。
これは、WWW文書D
jにとっての閲覧者リスト(ユーザパターン)を表している。なお、Kはユーザ数を示す。
同様に、訪問WWW文書ベクトルv
kは、ユーザkがWWW文書D
jを閲覧すればv
k j=1、そうでなければ0とするベクトルとして定義される。
これは、ユーザkが閲覧したWWW文書リストを表している。なお、Nは、WWW文書数を示す。
ユーザアクセス履歴保持部102は、アクセスパターン収集部101により収集されたアクセス先情報、訪問WWW文書ベクトルvk、閲覧ユーザベクトルuj
およびアクセス先情報に基づいて取得されたWWW文書そのもの(重要度を含む)を記憶する部分である。
一方、情報収集装置400は、アクセスパターン収集部101から出力されたアクセス先情報に従って、WWW文書を取得する。そして、取得したWWW文書Djを形態素解析し、そのWWW文書Djに含まれているワードを抽出し、抽出したワードに基づいてキーワード重みベクトルwjを生成する。キーワード重みベクトルwjについては上述したとおり、式(1)〜式(4)に従って生成する。
本実施形態では、WWW文書に含まれているワードをそのままキーワード重みベクトルにするのではなく、キーワードシソーラス(thesaurus)辞書を用いて広義語に、類義語のゆれを吸収して置き換える。たとえば、「プロ野球」を「野球」に、「ベースボール」を「野球」に変換する。図10は、情報収集装置400からの出力例を示す説明図である。図10に示すように、情報収集装置400が取得したWWW文書Djに含まれるワードに対して、キーワード、確度、スコア、分野が対応付けて出力される。例えば、ワードが“おサイフケータイ”であると、キーワードとして“携帯電話”が導出される。また、出現頻度tfj i(1≦i≦M)であるスコアが算出され、このスコアに基づいて、キーワード重みベクトルwjの位置要素であるwj iが確度“1.000”として算出される。なお、Mは広義語の数である。
ここで、変換されたキーワードは、より広義であり、これをユーザがアクセスしたWWW全文書全体について行い、tf・idf特徴の計算を行いキーワード重みベクトルwjを求める。さらに、wjは、大きさ1のベクトルとなるように正規化が施される。なお、キーワード重みベクトル、ユーザプロファイルはtf・idf特徴として正規化については述べなかったが、本実施形態では、常に大きさ1の正規化されたベクトルとして扱う。
キーワードベクトル保持部103は、情報収集装置400において生成された式(1)で示されるキーワード重みベクトルwjをユーザごと(利用者端末200ごと)に記憶する部分である。
WWW文書類似度演算部104は、一のWWW文書D
jを閲覧するユーザの閲覧ユーザベクトルu
jと他のWWW文書D
jeを閲覧するユーザの閲覧ユーザベクトルu
jeとの一致の度合いを演算する部分であり、これら閲覧ユーザベクトルu同士の一致の度合いを演算することによって、WWW文書間の類似度を判断しようとするものである。閲覧ユーザベクトルの一致の度合いは、以下の式(14)により演算される。
この式(14)は、WWW文書D
jとWWW文書D
jeとを訪れたユーザパターンの一致度をあらわす尺度として用いられるものであり、WWW文書間の類似度の判断に使用される。
また、ユーザ類似度演算部105は、一のユーザkにより閲覧されたWWW文書の訪問文書ベクトルv
kと、他のユーザkeにより閲覧されたWWW文書の訪問文書ベクトルv
keとの一致の度合いを演算する部分であり、これら訪問文書ベクトル同士の一致の度合いを演算することによって、ユーザ間の類似度を判断しようとするものである。訪問文書ベクトルvの一致の度合いは、以下の式(15)により演算される。
この式(15)は、閲覧されたWWW文書の文書パターンにおいて、ユーザkとユーザkeの類似度を表す尺度として用いられるものであり、ユーザ間の類似度の判断に使用される。
キーワードベクトル平滑部106は、キーワードベクトル保持部103に保持されている一のWWW文書におけるキーワード重みベクトルを平滑化する部分であり、当該一のWWW文書とアクセスパターンの近いWWW文書を用いてキーワード重みベクトルwjを補正する部分である。これにより、一のWWW文書だけでアクセス数が足りなかったりして、より精密なキーワード重みベクトルを算出することができない場合でも、他の似たようなWWW文書を用いて、キーワード重みベクトルを補完するよう補正することで、より精密なキーワード重みベクトルを算出することができる。
具体的には、キーワードベクトル平滑部106は、式(14)および以下の式(16)を用いて、キーワード重みベクトルw
jの平滑化および補完を行い、平滑化キーワード重みベクトルw
j’を生成する。
なお、εは実験的に定める実数である。本実施形態では、1/Nとする。
ユーザプロファイル平滑部107は、キーワードベクトル保持部103に保持されている一のWWW文書におけるキーワード重みベクトルwjおよびユーザアクセス履歴保持部102に記憶されている訪問文書ベクトルvkを用いてユーザプロファイルpkを生成し、この生成されたユーザプロファイルpkに対してユーザプロファイルpkの平滑化および補完処理を行う部分であり、当該一のユーザとアクセスパターンの近い他のユーザのアクセスパターンを用いてユーザプロファイルを補正する部分である。これにより、一のユーザの訪問WWW文書ベクトルだけでは、サンプル数が足りなかったりして、より精密なユーザプロファイルを算出することができない場合でも、他の似たようなユーザの訪問WWW文書ベクトルを用いて、ユーザプロファイルを補完するよう補正することで、より精密なユーザプロファイルを算出することができる。
より具体的には、ユーザプロファイル平滑部107は、式(17)にしたがってユーザプロファイルを生成する。ユーザプロファイルp
kは、列ベクトルであるキーワード重みベクトルw
jを並べて得られる行列Wに(式(18)参照)、訪問WWW文書ベクトルを乗じて初期化されることにより生成される。
ユーザプロファイル平滑部107は、このように初期化・生成されたユーザプロファイルp
kに対し、式(19)に従った処理によりユーザプロファイルの平滑化・補完を行う。
なお、式(19)の変形として、以下の式(20)も適用可能である。
この場合は、閲覧したWWW文書の類似性ではなく、閲覧したWWW文書のキーワードの類似性から合成されることになる。
平滑化ユーザプロファイル保持部108は、ユーザプロファイル平滑部107により平滑化・補完された平滑化ユーザプロファイルpj’を記憶する。
平滑化キーワードベクトル保持部109は、キーワードベクトル平滑部106により平滑化・補完された平滑化キーワード重みベクトルwj’を記憶する。
並び替え部110は、利用者端末200において入力された検索語に基づいて検索ベクトルqにより検索サーバ300において検索され、WWW文書検索候補として出力された上位20件のWWW文書に対して、並び替え処理を行う部分である。具体的には、上述の式(8)に従って算出された評価値に基づいて上位のものから順に表示するようにしてもよいし、以下の式(21)のとおり重要度s
iを加味したものであってもよい。なお、並び替え部110は、検索したWWW文書を一時的にWWW文書記憶部(図示せず)に記憶させ、キーワードベクトル保持部103にキーワード重みベクトルを記憶させるようにしてもよい。
本実施例ではλは、0.9とする。
なお、本実施形態では、検索サーバ300から得られるWWW文書は、すべてユーザアクセス履歴保持部102に記憶されているものと仮定する。もちろん、検索サーバ300が他事業者であり、プロクシー装置100に存在しないWWW文書が検索結果として得られる可能性があるが、例外処理は当該WWW文書について平滑化しないwjを計算に使用することにより対応できる。すなわち、プロクシー装置100は、平滑化キーワードベクトル保持部109に収集されたWWW文書のキーワード重みベクトルが記憶されているか否か、またはすでにWWW文書が保持されているか否かを判断する判断部を備える。そして、プロクシー装置100にそのキーワード重みベクトルが記憶されたWWW文書を検索結果として得られた場合には式(21)を用いて、評価値を算出し、プロクシー装置100にそのキーワード重みベクトルが記憶されていないWWW文書を検索結果として得られた場合には式(11)を用いて評価値を算出するようにしてもよい。また、キーワード重みベクトルまたはユーザプロファイルのいずれか一方のみ平滑化するような構成であってもよい。
つぎに、利用者端末200について説明する。図7に示されている通り、利用者端末200は、WWWブラウザ201、アクセス履歴保持部202、アクセス履歴転送部203を含んで構成されている。この利用者端末200は、例えば携帯電話、パーソナルコンピュータなどインターネットに接続することができる通信端末であって、図8と同様の構成からなっている。すなわち、CPU、RAM、ROM等から構成されており、入力装置を用いて操作することによりWWWブラウザ201を操作し、プロクシー装置100を介してインターネットにアクセスすることができる。以下、各構成要素について説明する。
WWWブラウザ201は、インターネット上で保持されているウェブページを閲覧するためのアプリケーションである。利用者端末200のユーザがWWWブラウザ201を操作することにより所望のウェブページを閲覧することができる。本実施形態では、WWWブラウザ201は、検索用のウェブページにアクセスし、プロクシー装置100を介して検索サーバに検索要求を出力し、プロクシー装置100を介して検索結果を受信し、ユーザに表示することができる。
アクセス履歴保持部202は、WWWブラウザ201によりアクセス処理が行われたアクセス先情報(URL)を記憶する部分である。
アクセス履歴転送部203は、予め定められた周期またはタイミングでプロクシー装置100に対してアクセス履歴保持部202に記憶されているアクセス先情報を送信する部分である。
つぎに、本実施形態のプロクシー装置100の動作について説明する。図11は、本実施形態のプロクシー装置100の動作を示すフローチャートである。図11に示すように、アクセスパターン収集部101により、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101により収集されたアクセス先情報、アクセスパターン収集部101により生成された閲覧ユーザベクトルuj、訪問WWW文書ベクトルvk、および情報収集装置400において取得されたWWW文書が記憶される(S202)。つぎに、キーワードベクトル保持部103には、情報収集装置400において生成されたキーワード重みベクトルwjが記憶される(S203)。なお、S202、S203の順序は逆でもよい。
つぎにユーザ類似度演算部105によりユーザ類似度演算が行われる(S204)。また、WWW文書類似度演算が行われる(S205)。それぞれ演算されたユーザ類似度およびWWW文書類似度は、キーワードベクトル平滑部106およびユーザプロファイル平滑部107により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される(S206、S207)。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部109および平滑化ユーザプロファイル保持部108に記憶される(S208、S209)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、平滑化キーワード重みベクトルおよび平滑化ユーザプロファイルにより並び替え処理がなされる(S211)。
以上の通り、本実施形態のプロクシー装置100は、WWW文書、ユーザプロファイルの統計的信頼度を上げる効果を有する。統計的言語処理では、観測データの数が十分に大きくない場合は、本来、出現する可能性のあるキーワードが当該WWW文書に含まれていないことがある。本実施形態のプロクシー装置100は、そもそも直接観測することが難しい個人プロファイル内のキーワード、語数が少ないWWW文書のキーワードを補うことを目的としたものである。
特に、親ディレクトリとして機能し、それ自身が十分にキーワードを持たないWWW文書、おもに画像からなりキーワードを持たないWWW文書を同時に訪れることのできる文書のキーワードで補完することができる効果を持つ。
図6に示されるモバイルコンテンツの構造にある、WWW文書−AをWWW文書−B,WWW文書−Cの親ディレクトリを例に考えてみる。WWW文書−B,WWW文書−Cのキーワードが親ディレクトリであるWWW文書−Aに転写されることが期待される。またマルチメディアコンテンツからなるWWW文書に対しても同様の効果を持つ。
また、式(16)と式(19)は、アクセスパターンの近いWWW文書、ユーザの距離に応じてスムージングを行っていることに他ならない。これにより、アクセスの少ないユーザプロファイルを周辺ユーザから補うことができ、また文書量の少ないWWW文書ベクトルを、ユーザのアクセスから補うことができる。
つぎに、プロクシー装置100の変形例について説明する。図19は、プロクシー装置100の変形例におけるブロック図である。図19に示すように、プロクシー装置100は、利用者端末200aから出力される検索のための信号からアクセスパターン収集部101がアクセス履歴を収集し、収集したアクセス履歴をユーザアクセス履歴保持部102に記憶させてもよい。この変形例においては、利用者端末200aには、アクセス履歴を収集する機能、およびアクセス履歴をプロクシー装置100に送信する機能は必須ではない。なお、後述する第二の実施形態、第三の実施形態においても同様に、利用者携帯端末200aからのアクセス要求をプロクシー装置100が収集することによりアクセス履歴を収集するように構成してもよい。
ここで、本実施形態のプロクシー装置100の作用効果について説明する。このプロクシー装置100は、アクセスパターン収集部101により取得された一のユーザのアクセス履歴をユーザアクセス履歴保持部102に記憶させる。またアクセスパターン収集部101は、一のWWW文書Djを閲覧した複数のユーザを示す一のユーザパターンである閲覧ユーザベクトルujと他の文書Djeを閲覧した複数のユーザを示す他のユーザパターンでる閲覧ユーザベクトルujeと生成する。
そして、ユーザ類似度演算部105は、WWW文書DjとWWW文書Djeとのユーザ類似度を示す文書類似度sim(uj、uje)を演算する。キーワードベクトル平滑部106は、演算された文書類似度sim(uj、uje)を用いて、他の文書におけるキーワード重みベクトルwjeを補正し、補正したキーワード重みベクトルwjeに基づいて、一の文書におけるキーワード重みベクトルwjを補正して平滑化キーワード重みベクトルw’jを得る。平滑化キーワードベクトル保持部109は、ここで得られた平滑化キーワード重みベクトルw’jを記憶する。そして、並び替え部110は、平滑化キーワード重みベクトルw’jに基づいて、検索のための入力情報に対する評価値B_SCOREを算出することができる。
これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、プロクシー装置100において、アクセスパターン収集部101は、一のユーザにより閲覧された複数の文書を示す一の文書パターンである訪問WWW文書ベクトルvkと他のユーザにより閲覧された複数の文書を示す他の文書パターンである訪問WWW文書ベクトルvkeとを生成し、ユーザアクセス履歴保持部102に記憶させる。WWW文書類似度演算部104は、ユーザ間の類似度を示すユーザ類似度sim(vk、vke)を演算する。そして、ユーザプロファイル平滑部107は、演算されたユーザ類似度sim(vk、vke)を用いて、他のユーザにおける文書パターンであるユーザプロファイルpkeを補正し、補正したユーザプロファイルpkeに基づいて、一のユーザのユーザプロファイルpkを補正して平滑化ユーザプロファイルpkを得る。そして、並び替え部110は、平滑化された一のユーザプロファイルpkに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
本実施形態では、キーワード重みベクトルwjおよびユーザプロファイルpkを平滑化しているが、少なくともキーワード重みベクトルwjのみ平滑化すればよい。その場合、評価値B_SCOREに入力される平滑化ユーザプロファイルpkは、平滑化される前のユーザプロファイルpkが入力されることになる。
また、本実施形態のプロクシー装置100において、アクセスパターン収集部101は、WWW文書ごとに付された重要度を示す重要度siを取得する情報収集装置400からWWW文書とともに取得し、並び替え部110は、その重要度siを用いて検索のための入力情報に対する評価値B_SCOREを算出する。重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。
また、プロクシー装置100において、並び替え部110は、利用者端末200からの検索要求に応じて検索結果を出力する際に、上述の通りに算出された評価値B_SCOREに基づいた順番で検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。
また、プロクシー装置100において、並び替え部110は、一のWWW文書における平滑化されたキーワード重みベクトルw’jが存在する場合には、この平滑化されたキーワード重みベクトルw’jを用いて評価値B_SCOREを算出し(式24)、一のWWW文書における平滑化されたキーワード重みベクトルw’jが存在しない場合には、平滑化前のキーワード重みベクトルw’jを用いて評価値B_SCORを算出する(式11)。これにより、WWW文書を予め記憶していない場合でも評価処理を実行することができる。
また、プロクシー装置100において、アクセスパターン収集部101はユーザからのアクセスにしたがって検索サーバから文書を取得し、ここで受け付けられたアクセスをアクセス履歴として、ユーザアクセス履歴保持部102に記憶させる。これにより、利用者端末200にアクセス履歴を保持させる機能を不要とし、その構成を簡易なものにすることができる。
<第二実施形態>
つぎに、ユーザのアクセスパターンの類似度の時間的変化にしたがった重要度に基づいて評価値を補正する装置について説明する。
図12は、時間帯ごとに区別して、WWW文書にアクセスしたユーザを示す説明図である。一般的に、時間の経緯に伴って閲覧ユーザは遷移するものである。例えば、図12では、時刻t0におけるWWW文書Djは、ユーザAからユーザEにより閲覧されていること、時刻t1ではユーザAからC、およびユーザE、Fにより閲覧されていることが示されている。時刻t0、時刻t1それぞれの時間帯において閲覧するユーザの一致度が高い場合、その一致度が高いほど、一般的にWWW文書は重要度が高いといえる。本実施形態ではこの時間の経緯に伴って閲覧するユーザが遷移する状態に応じて、WWW文書の重要度を変えようとするものである。
この第二実施形態の構成について説明する。図13は、第二実施形態におけるプロクシー装置100aの機能構成を示すシステム構成図である。第二実施形態におけるプロクシー装置100aは、ユーザが繰り返し訪問するWWW文書を重要コンテンツとして、そのWWW文書に付されている重要度sjを補正するものである。なお、本実施形態は、第一実施形態の拡張として説明し、重複する部分についての説明は省略する。第一実施形態で示されているプロクシー装置100の構成に加え、重要度補正部111および重要度補正値保持部112が新たに付されている。
アクセスパターン収集部101aは、第一実施形態のアクセスパターン収集部101より拡張したものであって、利用者端末200から取得したアクセスパターンにしたがって、式(12)で用いた閲覧ユーザベクトルu
jを、過去の時間“tからt+δまで”と、“t+δからt+2δまで”のそれぞれについて式(24)のように区別して生成し、これをユーザアクセス履歴保持部102に記憶させる。
重要度補正部111は、これらの閲覧ユーザベクトルu
j (t,t+δ)およびu
j (t+δ,t+2δ)を用いて、過去の時間“t,t+δ”と“t+δ,t+2δ”との間のアクセスパターン(ユーザパターン)の類似度とアクセスユーザ数とを勘案したWWW文書D
jの重要度s
jの補正値Δs
jを計算することができる。
重要度補正値保持部112は、重要度補正部111により計算された補正値Δsjを記憶する部分である。
このΔsjにより、過去の時間においてアクセスパターンの変わらないWWW文書の重要度は式(24)のように補正される。
並び替え部110aは、利用者端末200において入力された検索語に基づいた検索ベクトルqにより検索サーバ300において検索され、WWW文書検索候補として出力された上位20件のWWW文書に対して、並び替え処理を行う部分であって、式(24)にしたがって算出された評価値に基づいて上位のものから順に表示するように制御する。
つぎに、本実施形態のプロクシー装置100aの動作について説明する。図14は、本実施形態のプロクシー装置100aの動作を示すフローチャートである。図13に示すように、アクセスパターン収集部101aにより、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが所定の時間帯ごとに区別されて収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101aにより収集されたアクセス先情報、アクセスパターン収集部101aにより生成された閲覧ユーザベクトルuj、訪問WWW文書ベクトルvk、および情報収集装置400において取得されたWWW文書(重要度sj付)が記憶される(S202)。つぎに、キーワードベクトル保持部103には、情報収集装置400において生成されたキーワード重みベクトルwjが記憶される(S203)。なお、S202、S203の順序は逆でもよい。
つぎにユーザ類似度演算部105によりユーザ類似度演算が行われる(S204)。また、WWW文書類似度演算が行われる(S205)。一方、重要度補正部111により重要度sjの補正値Δsjが生成され(S205a)、重要度補正値保持部112に記憶される(S205b)。
それぞれ演算されたユーザ類似度およびWWW文書類似度は、キーワードベクトル平滑部106およびユーザプロファイル平滑部107により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される(S206、S207)。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部109および平滑化ユーザプロファイル保持部108に記憶される(S208、S209)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、平滑化キーワード重みベクトル、平滑化ユーザプロファイルおよび補正値Δsjにより補正された重要度sjにより並び替え処理がなされる(S211)。
このように、過去から現在において繰り返し閲覧されているようなWWW文書が上位に表示されるように重要度の補正値Δsjを加味した評価値を算出することで、より適合性のあった検索およびその出力を行うことができる。
つぎに、本実施形態のプロクシー装置100aの作用効果について説明する。このプロクシー装置100aにおいて、ユーザアクセス履歴保持部102は、第1の時間帯(例えば、tからt+δまで)に一の文書を閲覧したユーザを示す第1のユーザパターンである閲覧ユーザベクトルuj (t,t+σ)と、第2の時間帯(例えば、t+δからt+2δ)に一の文書を閲覧したユーザを示す第2のユーザパターンである閲覧ユーザベクトルuj (t+σ,t+2σ)とを区別して記憶しておく。ここで記憶された閲覧ユーザベクトルuj (t,t+σ)および閲覧ユーザベクトルuj (t+σ,t+2σ)の類似度および一のWWW文書のアクセス数に基づいて、一のWWW文書の重要度を補正することができる。これにより、一のWWW文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴ってWWW文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返しアクセスされたWWW文書である場合、そのようなWWW文書は重要度が高いといえる。よってこのようはWWW文書の評価値を高くするように、その重要度を補正しようとするものである。
<第三実施形態>
つぎに、第三実施形態のプロクシー装置100bについて説明する。図15は、第三実施形態のプロクシー装置100bを利用した情報処理システムの機能構成を示すシステム構成図である。このプロクシー装置100bは、プロクシー装置100において、ユーザ類似度演算部105、WWW文書類似度演算部104、ユーザプロファイル平滑部107、キーワードベクトル平滑部106に代えて、WWW文書・ユーザプロファイル整合部113を備えたものである。第一実施形態では、ユーザのアクセスパターンの類似性から、WWW文書を統計的バックオフスムージングに相当する処理を行ったが、本実施形態では、ユーザプロファイルを、閲覧されたWWW文書のキーワード重みベクトルに重畳して平滑化を行なう点で、その基本思想が相違するものである。
図16は、ユーザとWWW文書との閲覧関係を示す説明図である。図16では、例えば、WWW文書DaはユーザAにより閲覧されたことを示している。また、WWW文書Dbは、ユーザBおよびユーザCにより閲覧されたことを示している。また、WWW文書Dcは、ユーザCおよびユーザDにより閲覧されたことを示している。この図16に示される関係により、ユーザプロファイルpkとキーワード重みベクトルwjとは、相互に依存(リンク)することが理解される。本実施形態では、このリンクすることを利用し、そのリンクを介してユーザプロファイルがキーワード重みベクトルに伝播することを利用して、平滑化・補完を行おうとするものである。
ここで以下の式が成り立つと仮定する。式(25)は、キーワード重みベクトル推定値w~
jから各ユーザのユーザプロファイル推定値p~
kを推定する式である。なお、式(25)においては、M行1列ベクトル=M行N列行列×N行1列ベクトルであり、式(26)においては、M行N列行列ベクトルである。なお、w~は、wの上部に‘^’(ハット)を記述したものと同義であり、本明細書においては便宜上‘w~ ’と記載している。他の文字に付されている‘ ~ ’も同様にその文字の上部に‘^’(ハット)を記述したものと同義である。
ここで、式(27)に示す通り、キーワード重みベクトル推定値w~
jは、ユーザプロファイル推定値p~
kとキーワード重みベクトルw
jとの加重平均からなると仮定している。なお、式(27)は、M行1列ベクトル=M行K列行列×K行1列ベクトルで構成されているものであり、式(28)は、M行K列行列ベクトルである。
式(27)の意味するところは、ユーザプロファイルp~kからWWW文書のキーワード重みベクトルw~jへの投影(プロジェクション)であり、このことから平滑効果がもたらされる。このプロジェクションはゲインが1−αであるため、式(27)の処理を繰り返し行なうことにより、ユーザプロファイルp~kとキーワード重みベクトルw~jは収束する。収束判定は、例えば新たな計算結果w~j nと前回の計算結果w~j n-1の内積sim(w~j n, w~j n-1)が0.9以上となるまで繰り返す等が考えられる。また、ユーザプロファイルp~kとキーワード重みベクトルw~jの両方が収束するまで繰り返しても良いし、いずれか片方のみが収束するまで繰り返しても良い。
つぎに、図15に戻り、プロクシー装置100bについて説明する。WWW文書・ユーザプロファイル整合部113は、キーワードベクトル保持部103に記憶されているキーワード重みベクトルwjおよびユーザアクセス履歴保持部102に記憶されている訪問文書ベクトルvkに基づいて生成されたユーザプロファイルpkを入力し、式(25)および式(27)を用いて、キーワード重みベクトル推定値wjが収束するまで、繰り返しユーザプロファイルpkおよびキーワード重みベクトル推定値wjを生成する。
より具体的には、WWW文書・ユーザプロファイル整合部113は、式(25)において、初期値として、ユーザプロファイル推定値p~kを生成する。このときW~は、初期値のキーワード重みベクトルwjである。そして、初期値のp~kを式(27)で用い、キーワード重みベクトル推定値w~jを生成する。このキーワード重みベクトル推定値w~jを式(25)に再度適用し、ユーザプロファイル推定値p~kを生成する。ここでWWW文書・ユーザプロファイル整合部113は、各要素について正規化処理を行い、キーワード重みベクトル推定値w~j nと前回のキーワード重みベクトル推定値w~j n−1との類似度が所定値以上となっているか否かを判断する。ここで類似度は、内積sim(w~j n,w~j n−1)で計算される(式7参照)。
ここで収束したキーワード重みベクトル推定値w~jおよびユーザプロファイル推定値p~kをそれぞれキーワード重みベクトルwj、ユーザプロファイルpkとして、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶される。
並び替え部110は、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶されているユーザプロファイルpkおよびキーワード重みベクトルwjを用いて、上述の式(8)、式(11)、式(21)または式(24)のいずれか1つを用いて評価値を算出し、並び替え処理を行う。
つぎに、このように構成されたプロクシー装置100bの処理について説明する。図17は、本実施形態のプロクシー装置100bの動作を示すフローチャートである。図17に示すように、アクセスパターン収集部101により、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101により収集されたアクセス先情報、アクセスパターン収集部101aにより生成された閲覧ユーザベクトルuj、訪問WWW文書ベクトルvk、および情報収集装置400において取得されたWWW文書が記憶される(S202)。ここで記憶された閲覧ユーザベクトルuj、訪問WWW文書ベクトルvkが用いられキーワード重みベクトルwjおよびユーザプロファイルpkに対する整合処理がなされる。この整合処理については、図18において詳細に説明する。そして、整合処理がなされたキーワード重みベクトル、ユーザプロファイルは、それぞれキーワードベクトル保持部109aおよびユーザプロファイル保持部108aに記憶される(S208a、S209a)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、整合処理された、キーワード重みベクトルおよびユーザプロファイルにより並び替え処理がなされる(S211)。
図18は、上述のS205cにおける整合処理の詳細な処理を示すフローチャートである。まず、n=0として、初期化処理がなされ、p~k 0=W~n=0vkが計算される(S301)。つぎに、w~j n+1=(1−α)P~nuj+αwj nが計算される(S302)。つぎに、p~k n+1=W~n+1vkが計算され(S303)、各要素の正規化(または各個人に重み付け処理)を行う(S304)。そして、ユーザプロファイルp~kが収束したか否かが判断される(S305)。例えば、p~k nとp~k n+1との内積(sim(p~k n、p~k n+1))が計算され、所定値未満であると判断されれば、ユーザプロファイルは収束していないと判断し、n=n+1とし、S302に戻り、再度処理がなされる。
類似度が所定値以上、例えば0.9以上であれば、ユーザプロファイルは収束したと判断し、そのときのキーワード重みベクトルw~j n+1およびユーザプロファイル推定値p~k n+1をそれぞれキーワード重みベクトルwj、ユーザプロファイルpkとして、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶される。そして、並び替え処理のための評価値算出に利用される(式(8)、式(11)、式(21)または式(24)を参照)。
つぎに、本実施形態のプロクシー装置100bの作用効果について説明する。まず、WWW文書・ユーザプロファイル整合部113は、基準値となるキーワード重みベクトルwn=0に基づいてユーザプロファイルp~k nを生成し、生成されたユーザプロファイルp~k nおよび基準値となるキーワード重みベクトルwjに基づいて、新たなキーワード重みベクトルw~j n+1を生成する。新たなキーワード重みベクトルw~j n+1に基づいて新たなユーザプロファイルp~k n+1を生成する。そして、新たなユーザプロファイルp~k n+1と、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルp~k nとの類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返し、ユーザプロファイルp~k n+1およびキーワード重みベクトルw~j n+1を生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルw~j n+1およびユーザプロファイルp~k n+1に基づいて評価値を算出する。
これにより、キーワード重みベクトルとユーザプロファイルとは相互に依存するように生成することで、ユーザプロファイルがキーワード重みベクトルに伝播することにより、ユーザプロファイルおよびキーワード重みベクトルの平滑化および補完を行うことができる。よって、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができる。また、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
<第一実施形態〜第三実施形態の変形例>
つぎに、第一実施形態〜第三実施形態における変形例について説明する。上記各実施形態においては、利用者端末200において、アクセス履歴保持部202を備えていたものであったが、プロクシー装置100、100a、100bが備えるようにしてもよい。この場合には、アクセス履歴を利用者端末200から転送する必要がなくなるため、アクセス履歴転送部203は不要となる。
また、上述第一実施形態〜第三実施形態においては、装置および方法の形態で説明したが、プログラムの形態でも実現することができる。すなわち、各構成をプログラムモジュールで構成することで、文書処理プログラムとして実現することができる。具体的な機能構成は、第一実施形態〜第三実施形態における各ブロック図で示されている構成と同様の構成をとるものであり、この構成をモジュール化したプログラムを記憶媒体(CDROM等)に記憶させ、パーソナルコンピュータ等に読み込ませることにより実現することができる。
<第四の実施形態>
つぎに、HITSを用いてWWW文書の重要度を算出する方法について説明する。上述の背景技術の欄にて説明したとおり、オーソリティとは、キーワードに関連するページの中で重要度の高いページとなる。よって、オーソリティとなるページは検索結果の上位に表示されることが望ましい。一方で、ハブはオーソリティを発見するための隠れたデータとなる。HITS計算ステップを以下のとおり、具体的に説明する。
探索対象となるWWW文書がキーワードマッチング等により抽出される。一般性を失うことなく、例えば上位200件とし、これをWWW文書集合Rとする。この中にオーソリティとなるWWW文書があればよいが、ない場合もあるために、このWWW文書集合Rに属するWWW文書からリンクが張られているWWW文書、さらにWWW文書集合Rに属するWWW文書にリンクを張っているWWW文書を抽出し、これを探索対象Sとする。このリンクによる探索空間拡張の概念を図20に示す。
以下の式(29)に示されるとおり、探索対象Sに属するWWW文書にオーソリティスコアa
iと、ハブスコアh
iとを割り当てる。
探索対象Sに含まれるWWW文書の総数はNとする。また、肩添え字Tは行列ベクトルの転置を表す。
1.初期化処理
以下の式(30)にて示されるとおりオーソリティスコアa、ハブスコアhは初期化される。
<t=0>以降の繰り返し演算の回数を表す非負整数である。
2.オーソシティースコアとハブスコアとの更新処理
式(31)を以下(32)に示されるリンク構造に従った計算により更新する。
各ページpに対して、そのページがリンクしているページのオーソリティスコアの総和を計算し、ページpのハブスコアh
pを、その総和で置き換える。そして、各ページpに対して、そのページへリンクしているページのハブスコアの総和を計算し、ページpのオーソリティa
pを、その総和で置き換える。
3.正規化処理
オーソリティスコアの列ベクトルaとハブスコアの列ベクトルhのノルムが1となるよう正規化する((式33)参照)。
上述更新処理および正規化処理をオーソリティスコアとハブスコアとが収束するまで繰り返す。通常、数十回の演算で収束するとされ、ここでは、t=100となるまでの結果とする(式(34)参照)。
なお、この演算の収束性は、行列の固有値問題の解の存在性として保証されている。
まず、リンク構造を以下の式(35)に示されるNxNの正方接続行列で表現する。
そして、上記の繰り返し計算は以下の式(36)の通りとなる。
上述の通り表現でき、これと正規化処理が入ることから、以下の式(37)の通りオーソリティスコアおよびハブスコアを求めることができる。
オーソリティスコアは初期に依存せず、リンク構造から一意に求めることができる。よって、適合度の高かったWWW文書から、重要度、すなわちこの場合は、オーソリティスコアの高い文書を抽出することができる。
本実施形態は、このHITSの計算手法を利用したものである。より具体的には、従来例のHITSでは、WWW文書のリンク構造を対象とした。本実施形態では、ユーザの閲覧状態を介在したリンク構造を用いて、適合度を計算する点に特徴がある。以下、詳細に説明する。
図21は、ユーザの閲覧状態を介在させたHITSアルゴリズムの概念を示す概念図である。図21に示すとおり、WWW文書集合Rは、検索語により適合したWWW文書集合を示す。ユーザU1〜U7は、WWW文書集合Rを閲覧したユーザを示す。さらにこのユーザユーザU1〜U7が閲覧したWWW文書からWWW文書集合Vが定められる。本実施形態の文書処理装置は、このように定められたWWW文書集合Vに属する各WWW文書のオーソリティスコアを算出することにより、検索された各WWW文書の重要度を求めようとするものである。以下、この手法を実現するための文書処理装置の構成について説明する。
図22は、文書処理装置700の機能を示すブロック図である。この文書処理装置700は、インデックス保持部701(データ構造保持手段)、一次検索部702(一次WWW文書抽出手段)、一次インデックスセット保持部703、アクセス履歴保持部704(閲覧履歴保持手段)、二次検索部705(ユーザ抽出手段、二次WWW文書抽出手段)、二次インデックスセット保持部706、オーソリティスコア計算部707(重要度算出手段)、WWW文書収集部708、並替部709を含んで構成されている。以下、各構成について説明する。なお、本実施形態においては、一つの装置内に各種構成要素を含んだものとしているが、この構成に限るものではなく、複数の装置を相互にネットワークで接続して構成するようにしても良い。例えば、アクセス履歴保持部704は、文書処理装置700内に構成されているが、利用者端末側などに備えて、必要に応じてアクセス履歴を取得するようにしても良い。
インデックス保持部701は、WWW文書のインデックスファイル(文書中のキーワードなどの情報)を記憶する部分である。このインデックスファイルには、検索を容易にするための情報としてキーワード、URLなどの情報のほか、WWW文書のタイトル、当該WWW文書に含まれている他のWWW文書に対するリンク情報(URL)などが記述されることが好ましい。インデックスファイルにリンク情報が記述されている場合には、各WWW文書間のリンクの関係を示すための有向グラフのように各WWW文書を管理することができる。
一次検索部702は、インデックス保持部701に記憶されているインデックスファイルから、利用者端末のWWW文書ブラウザ800から入力された検索語を含んだWWW文書を検索する部分である。
一次インデックスセット保持部703は、一次検索部702により検索されたWWW文書を初期WWW文書集合として記憶する部分である。
アクセス履歴保持部704は、WWW文書ブラウザ900(WWW文書ブラウザ800を含む)においてWWW文書の閲覧履歴を記憶する部分であり、ユーザを特定するためのID情報と閲覧した内容を示すURL等とを対応付けて記憶する。
二次検索部705は、一次インデックスセット保持部703に記憶されているWWW文書集合における各WWW文書にアクセスしたユーザを、前記アクセス履歴保持部704から特定し、さらに特定されたユーザがどのWWW文書を閲覧したかを検索して、そのWWW文書集合を抽出する部分である。
二次インデックスセット保持部706は、二次検索部705により抽出されたWWW文書集合を記憶する部分である。
オーソリティスコア計算部707は、オーソリティスコアを計算する部分である。具体的には、以下の処理により実現される。
オーソリティスコア計算部707は、WWW文書ブラウザ800から入力された検索語に適合したWWW文書集合Rを閲覧したユーザ集合Uを、アクセス履歴保持部704から抽出し、このユーザ集合Uにより特定されたユーザ(WWW文書ブラウザ)が閲覧したWWW文書集合Vを求める。
一方、ユーザ集合UからWWW文書集合Vへの参照情報は、リスト形式である以下の式(38)により表される。
そして、ユーザ集合Uの個数をM、WWW文書集合Vの個数をNとした場合、それぞれオーソリティスコアaとハブスコアhとは以下の式(39)で示されるベクトルをもって表現される。
このベクトル表現からわかるようにオーソリティスコアはWWW文書集合Vの上に定義され、ハブスコアはユーザ集合Uの上に定義されている。上述のことを前提にして、図23に示される処理が実行される。
S402:更新処理
参照情報Eを参考にして以下の式(41)が計算される。
S404:収束判定処理
オーソリティスコアaおよびハブスコアhが収束するまで、S402およびS403の処理が実行される。なお、S402およびS403の処理が100回を超えないようにするために処理回数のカウント判定も並行して行われる。
S405:t=t+1
S404にて、収束判定がなされない場合には、tに1が加算され、S402、およびS403の処理が実行される。なお、上述したとおり、t=100になるまで、上述の処理が繰り返し行われるようにする。このようにして、オーソリティスコアaおよびハブスコアhが計算される。
WWW文書収集部708は、一次インデックスセット保持部703に保持されているインデックスに従ってWWW文書を収集する部分である。
並替部709は、WWW文書収集部708により収集されたWWW文書に対して、二次インデックスセット保持部706により抽出されたWWW文書(インデックス情報)およびオーソリティスコアに従った並び替えを行う部分である。この並び替えによりWWW文書ブラウザ800においては、オーソリティスコアの順にWWW文書は表示されることにより、より重要と思われるWWW文書は閲覧しやすくなる。
つぎに、本実施形態の作用効果について説明する。本実施形態の文書処理装置700において、一次検索部702は、WWW文書ブラウザ800から入力された検索語に従って検索し、二次検索部705は、ここで検索されたWWW文書Rに対してアクセスしたユーザのユーザ集合Uを抽出し、当該ユーザが閲覧したWWW文書のWWW文書集合Vを抽出し、二次インデックスセット保持部706に記憶させる。そして、オーソリティスコア計算部707は抽出されたWWW文書集合Vに対してユーザが閲覧した度合い(ハブスコアh)に基づいて、各WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第四の実施形態の変形例>
第四の実施形態では、検索語に適合したWWW文書集合Rを訪れたユーザの集合であるユーザ集合Uに基づいて、このユーザが参照したWWW文書の集合であるWWW文書集合Vを求めたが、このWWW文書集合Vが大きくなりすぎること、または、適合度が低いにも関わらず、訪問数が多いWWW文書(たとえば,特定の人気ポータルサイト)をオーソリティとして抽出してしまうことがありえる。そのため、従来例と同じくWWW文書集合Rから参照されているWWW文書集合とWWW文書集合Rを参照するWWW文書集合を加えた拡大WWW文書集合Sに基づいてオーソリティ計算を行う変形が考えられる。
すなわち、図24に示すように、検索語に適合したWWW文書集合Rを訪れたユーザ集合Uを求める。つぎに、WWW文書集合Rが参照したWWW文書集合、およびWWW文書集合Rを参照したWWW文書集合をWWW文書集合Sとする。そして、ユーザ集合UがWWW文書集合Sに属するWWW文書を参照した参照情報をリスト形式で作成する。具体的には以下の式(43)の通りとなる。
ユーザUの個数をM、WWW文書集合Sに属するWWW文書の個数をNとして、それぞれオーソリティスコアとハブスコアを以下の式(44)のベクトルとして表現する。
このベクトル表現からわかるようにオーソリティスコアは集合Vの上に定義され,ハブスコアは集合Uの上に定義されている.
計算は以下のステップで行われる。これは上述のHTISの計算手法と同じであるため、その詳細は省略する。
ステップ1:初期化(式(45)参照)
ステップ2:更新 参照情報Eを参考にして以下の式(46)を計算する.
ステップ3:正規化((式47)参照)
ステップ2とステップ3とを繰り返し処理するたびに、tを1ずつ増加させt=100となった時点で終了する。
上述の処理を実行するためには、本変形例においては、第四の実施形態における文書処理装置700において、二次検索部705が、インデックス保持部701に記憶されているインデックスファイルを利用して、WWW文書集合Rの各WWW文書を参照する他のWWW文書およびWWW文書集合Rの各WWW文書が参照する他のWWW文書を含んだWWW文書集合Sを抽出する。そして、二次検索部705は、ユーザ集合Uにおける各ユーザが参照するWWW文書集合Sの各WWW文書を抽出し、参照情報Eを抽出し、これを二次インデックスセット保持部706に記憶させる。
オーソリティスコア計算部707は、これら参照情報Eを用いてオーソリティスコアaをHITSの手法を用いて計算する。
つぎに、本変形例における文書処理装置700の作用効果について説明する。この変形例における文書処理装置700において、一次検索部702は、WWW文書ブラウザ800から入力された検索語に従ってWWW文書集合Rを検索し、二次検索部705は、ここで検索されたWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uをアクセス履歴保持部704に記憶されている履歴情報に従って抽出する。さらにこの二次検索部705は、インデックス保持部701に記憶されている、WWW文書間における参照関係を有向グラフとして管理可能なデータ(インデックスファイル)に基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。二次インデックスセット保持部706は、ユーザ集合Uにおける各ユーザが、文書集合Sに対して参照したことを示す参照情報Eを記憶する。そして、オーソリティスコア計算部707は、二次検索部705aにおいて抽出され、WWW文書集合Sに対してユーザ集合Uの各ユーザが閲覧した度合い(ハブスコアh)に基づいて、WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第五の実施形態>
つぎに、第五の実施形態について説明する。この第五の実施形態では、第四の実施形態とは異なり、リンク構造でWWW文書とユーザとを区別せず、同じノードとして扱う。またリンク構造は、0、1ではなく、[0.0, 1.0]のような連続値で扱われる。図25を用いて、本実施形態におけるデータ定義を説明する。
検索語に適合したWWW文書集合Rを閲覧したユーザ集合Uを求める。一方で、WWW文書集合Rが参照され、およびWWW文書集合Rを参照したWWW文書集合Sを求める。WWW文書集合Sとユーザ集合Uとを結合してノード集合Wを生成する。このノード集合Wに属するノードの個数はWWW文書数Nとユーザ数Mとを加算した値となり、表記簡略化のため、L=N+Mとする。
つぎに、以下の式(48)に示されるように接続行列を定義する.
ここで、一般性を失うことなく、0<t≦s≦1.0とする。tはユーザからWWW文書へ参照した際における当該参照に対する重み付け係数であり、sはWWW文書集合S内のWWW文書への参照に対する重み付け係数である。文書間参照と、ユーザの文書参照とを同一に扱えないと考え、[0,1.0]の重みを導入している。例えば、s=1.0として、tは実験的に定めればよい。たとえば,t=0.001とすることが可能である。
つぎに、オーソリティスコアとハブスコアを以下の式(49)に示されるベクトルとして表現する.
このベクトル表現からわかるようにオーソリティスコアは集合Wの上に定義され、ハブスコアも集合Wの上に定義されている。
計算は以下のステップで行われる。この計算処理は、上述したとおり、HITS手法と同じである。
ステップ1:初期化処理(式(50)参照)
ステップ2:更新処理
参照情報Eを参考にして以下の式(51)を計算する.
ステップ4:収束判定処理
ステップ2とステップ3を収束するまで繰り返し行うとともに、収束しない場合には、tを1ずつ増加させt=100で終了する。
この具体的な処理を実現する文書処理装置700aの機能について説明する。図26は、文書処理装置700aの機能を示すブロック図である。図22に示される文書処理装置700とは、一次検索部702a(一次WWW文書抽出手段)、一次インデックスセット保持703a、二次検索部705a(二次WWW文書抽出手段)、および二次インデックスセット保持部706aの動作内容が異なるだけである。
一次検索部702aは、検索語からWWW文書集合Sを生成する。そして、一次インデックスセット保持部703aは、生成されたWWW文書集合Sを記憶する。つぎに、二次検索部705aは、WWW文書集合S、WWW文書集合V、および参照情報Eを得て、ノード集合Wと接続行列Cを生成する。そして、オーソリティスコア計算部707aは、上述の通り、ステップ1からステップ4の処理を実行することにより、オーソリティスコアを計算することができる。
つぎに、本実施形態の文書処理装置700aの作用効果について説明する。この文書処理装置700aにおいて、インデックス保持部701は、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持しておき、一次検索部702aは、WWW文書ブラウザ800から入力された検索語に従って検索を行う。そして、二次検索部705aは、ここで検索されたWWW文書のWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uを抽出する。また、二次検索部705aは、参照関係を有向グラフとして管理可能にさせるデータに基づいて、各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。二次検索部705aは、ここで抽出されたユーザを示すユーザ集合Uと、抽出されたWWW文書のWWW文書集合Sとを合算して、一つのノード集合Wを生成する。そして、生成されたノード集合Wにおける各WWW文書間における参照された度合いおよび各ユーザが各WWW文書に対して閲覧した度合いにそれぞれ重み付けを行って(接続行列C)、この接続行列Cを用いて各WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第五の実施形態の変形例>
この第五の実施形態の変形として、図27に示すように接続行列Cから直接オーソリティスコアを求めることが考えられる。図27に示されるとおり、オーソリティスコア計算部707aは、接続行列Cを生成する(S501)。つぎに、この接続行列Cの転置行列CTを生成し、これら接続行列Cと転置行列CTを乗算することにより、CCTの最大固有値に対応する固有ベクトルを算出することで、オーソリティスコアaを算出することができる(S502)。この行列の演算には、例えば下記参考文献に示されている高速近似算法を適用することが考えられる。
[参考文献]
Taher Haveliwala. "Efficient Computation ofPageRank," Stanford University Technical Report, September 1999、[ONLIN]、[平成20年12月8日検索]、インターネット
<http://infolab.stanford.edu/%7Etaherh/papers/efficient-pr.pdf>
<第六の実施形態>
つぎに、第六の実施形態について説明する。第四および第五の実施形態では、検索サービスを想定した文書処理装置を説明したが、第六の実施形態では、より一般的に任意の検索語に対して、ユーザのアクセスパターンだけから重要度を計算する装置を説明する。
本実施形態においては、あるWWW文書に対するハブベクトルを計算し、このハブベクトルを固定として用いることにより、そのWWW文書をどのような人が訪れたかで検索語に対する重要度を評価できる。以下、詳細に説明する。
図24に示すように、検索語に適合したWWW文書集合Rを訪れたユーザ集合Uを求め、また、WWW文書集合Rが参照し、およびWWW文書集合Rを参照したWWW文書集合Sを求める。そして、ユーザ集合UがWWW文書集合Sに属するWWW文書を参照した参照情報をリスト形式で作成する。具体的には以下の式(53)の通りとなる。
ここでは、ユーザ集合Uの個数をM、WWW文書集合Sの個数をNとして、それぞれオーソリティスコアとハブスコアとを以下の式(54)のベクトルとして表現する。
このベクトル表現からわかるようにオーソリティスコアはWWW文書集合Vの上に定義され、ハブスコアはユーザ集合Uの上に定義されている。
計算は以下のステップで行われる。
ステップ2:更新処理
参照情報Eを参考にして以下の式(56)のとおりの計算が行われる。
ステップ3:正規化処理(式(57)参照)
ステップ2とステップ3を繰り返すたびにtを1ずつ増加させ、t=100となった時点で終了する。
図28は、第五の実施形態の文書処理装置700bの機能を示すブロック図である。この文書処理装置700bは、インデックス保持部701、一次検索部702(一次WWW文書抽出手段)、一次インデックスセット保持部703、アクセス履歴保持部704、二次検索部705(ユーザ抽出手段、二次WWW文書抽出手段)、二次インデックスセット保持部706、ハブスコア計算部707b(ハブスコア算出手段)、および重要度計算部709a(重要度算出手段)を含んで構成されている。上述の文書処理装置700および700aと略同様の構成をとるものであるため、相違する構成について説明する。
第五の実施形態でのハブスコア計算部707bは、第三および第四のオーソリティスコア計算部707とほぼ同じであるが、ハブベクトルを出力する点で相違する。このハブスコア計算部707bにより計算されたハブベクトルを用いて、一次検索部702により任意に検索されて得られたWWW文書に対する重要度計算部709aは、以下の計算を行う。
なお、この検索された任意のWWW文書には、当該WWW文書を訪問(閲覧)したユーザ訪問回数が記録されているものとする。本実施形態では、この訪問回数を訪問ベクトルuと称することにし、以下の式(58)の列ベクトルをもって表す。なお、ユーザ集合Uの個数をMとしている。
上述ハブスコア計算部707bにより計算されたハブベクトルは、ある特定の検索語、すなわち一般的にはある話題についてのハブとなるユーザを表す。従って、重要度は、以下の式(59)の通り、式(7)と同様に計算される。
ハブベクトルと訪問ベクトルとの余弦距離1−sim(u,h)が小さければ,そのWWW文書は所定の検索語に対して適正な結果であるWWW文書である、いわゆる検索語に近いものであると考えることができ、重要度が高いものであると判断することができる。
この変形として、訪問ベクトルuとハブベクトルhとの余弦距離ではなく、他の類似度を用いても良い。例えば、訪問ベクトルuとハブベクトルhとの内積を用いても同様にその類似度を算出することができる。また、非類似度を距離として表現する場合は、余弦距離の代わりに絶対値距離、ユークリッド距離、マハラノビス(汎)距離、ミンコフスキー距離などが使える。
つぎに、本実施形態の文書処理装置700bの作用効果について説明する。この文書処理装置700bにおいて、一次検索部702aは、WWW文書ブラウザ800から入力された検索語に従って検索し、WWW文書集合Rを抽出する。そして、二次検索部705aは、ここで検索されたWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uを抽出し、インデックス保持部701において保持されている、WWW文書間における参照関係を有向グラフとして管理可能なデータ(インデックスファイル)に基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。そして、ハブスコア計算部707bは、抽出されたユーザ集合Uの各ユーザが、抽出された各WWW文書Sに対して閲覧した度合いを示すハブスコアhを算出し、重要度計算部109は、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルuとハブスコアhとの一致の度合いに基づいて重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
以上、検索語により得られたWWW文書をあるトピックに関連するドキュメントとし、このドキュメントへのユーザ訪問行動からユーザのハブを求め、このハブを固定した上で、任意のWWW文書に対して、任意トピックに対する重要度を示す方法も示した。これは、ユーザ訪問行動を観測データ、最初の一次検索結果であるWWW文書を教師データとして、WWW文書に対してジャンル分類を可能とする方法を示している。