JP5340751B2 - 文書処理装置および文書処理方法 - Google Patents

文書処理装置および文書処理方法 Download PDF

Info

Publication number
JP5340751B2
JP5340751B2 JP2009001747A JP2009001747A JP5340751B2 JP 5340751 B2 JP5340751 B2 JP 5340751B2 JP 2009001747 A JP2009001747 A JP 2009001747A JP 2009001747 A JP2009001747 A JP 2009001747A JP 5340751 B2 JP5340751 B2 JP 5340751B2
Authority
JP
Japan
Prior art keywords
document
www
user
www document
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009001747A
Other languages
English (en)
Other versions
JP2009282957A (ja
Inventor
稔 栄藤
雄大 中山
和計 秋永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009001747A priority Critical patent/JP5340751B2/ja
Priority to US12/427,302 priority patent/US8176033B2/en
Priority to CN2009101350586A priority patent/CN101567011B/zh
Publication of JP2009282957A publication Critical patent/JP2009282957A/ja
Application granted granted Critical
Publication of JP5340751B2 publication Critical patent/JP5340751B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、ウェブデータを検索するための文書処理装置および文書処理方法に関する。
1990年代中頃からインターネットで公開されているWWW文書が爆発的に増加し、その情報産業上の価値が増している。WWW文書は、URL(Uniform Resource Locator)とよばれるインターネット上の論理的な情報格納位置に配置され、相互にそのURLが参照されることにより構造化されたデータベースが構築されている。この構造化されたデータベースを効率的に検索し、ユーザに提供する検索サービスが重要となっており、このサービスを実行するシステムとしてサーチエンジンが考えられている。
以下の非特許文献1(日本国特許庁総務部企画調査課技術動向班資料)には、サーチエンジンについての記載がなされており、具体的には、
「このサーチエンジンは巨大で刻々変化する情報空間を対象としているが故に、次ぎに挙げるような、従来の検索技術とは異なる機能を具備する必要があり、これら機能の実装と高度化をめざして研究開発が行われている。
・WWW上に分散して存在する情報を効率的に収集する機能
・HTML形式で、自由に不定形で記述された情報からキーワード等を抽出する機能とこれを高速に検索する機能
・容易に検索できるインターフェース機能
・膨大な検索結果を効率よくランキングする機能
」と記載されている。
また、この非特許文献1には、以下の記載がある。このサーチエンジンは、「WWWロボット、収集テキスト群、インデクサ、検索インデックスファイル、検索サーバ、ブラウザ」などの要素より構成されている。WWWロボットは、インターネットWebの世界から「(1)情報収集」する機能を担う。収集テキスト群では収集されたWWWページを格納すると同時に、インデクサにデータを引き渡す前の「(2)データ解析(前処理)」が行われる。インデクサと検索インデックスファイルの要素では全文検索やカテゴリー検索のためのインデックスファイルが生成され「(3)検索処理」のための基本的なデータベースが動作する。検索サーバ・クライアント・ブラウザの要素間では入力や出力に関する情報がやり取りされ、多くの「(4)入出力インターフェース」が介在機能する。
図1は、上述の一般的な検索システムの概略構成を示すシステム構成図である。図1に示すとおり、ウェブロボット501は、HTMLテキストを含んでいるウェブページをインターネットweb500から自動的に収集する。収集したウェブページはサーバ502を経由して、インデックスファイル503に記憶される。一方、オペレータがPC504を操作することで各ウェブページをインデックスファイル503に記憶することもできる。
ユーザは、端末507のウェブブラウザを用いてウェブサーバ506を介して検索サーバ505に検索要求を行う。検索サーバ505は、インデックスファイル503を参照して検索処理を行い、その結果を端末507に出力することにより、端末507は、検索結果を得ることができる。
さて、このような処理を行ううえで、膨大な検索結果をユーザは得ることになる。よって、効率的に検索結果を把握することが望まれている。ここでは「膨大な検索結果を効率よくランキングする機能」についての従来技術を説明する。この機能は、適合度と重要度とを組み合わせて行うことが一般的である。適合度とは、ユーザの検索語を多く含んでいるか、またユーザの過去の検索履歴に調和しているかなど検索意図に合致する度合いを計る尺度である。重要度とは、そのWWW文書が一般的に多くの人に読まれるような有益な情報を含むかどうかの度合いを測る尺度である。
例えば、特許文献1および非特許文献2には、適合度と重要度とを両立させたランキング検索方法の一つであるHITSが記載されている。このHITSは、あるトピックを表すキーワードを含むWebページを検索し、検索したWebページのうち高い適合度を得たWebページの近傍のWebグラフからオーソリティとハブを検出するものである。オーソリティとは、Webグラフ中の多くのハブから参照されており、高い評価が得られているWebページを表す尺度のことである。一方、ハブとは、Webグラフ中で多くのオーソリティを参照しているリンク集に相当するようなWebページを表す尺度である。HITSでは、反復的な計算によって、Webグラフ中の各Webページのオーソリティスコアとハブスコアを計算し、オーソリティスコア順にWebページを出力する。これにより、与えられたトピックに関連するWebページ群の中から重要なWebページが検索される。図2は、HITSアルゴリズムの概念を示す概念図である。図2に示すように、ウェブページ601は、多くのウェブページから参照されているものであることから、オーソリティスコアが高い。一方、ウェブページ602は、多くのウェブページを参照しているため、ハブスコアが高い。
以上は検索時に計算されるが、静的なWWW文書の重要度を計算する手法として、米国グーグル社が利用しているページランク手法が知られている。例えば特許文献2に記載されているように、このページランク手法は、WWW文書の膨大なリンク構造を用いている手法である。
例えば、WWW文書Aが、WWW文書Bを引用していれば、WWW文書Bの重要へのWWW文書Aの支持とみなす。この際、WWW文書Aの重要度がその支持に重み付けされている。WWW文書Aの重要度はそれを引用している他のWWW文書の支持にその重要度を重み付けした和で表されている。このようにWWW文書全体の参照を辿り、再帰的に大規模な計算を行えば、各WWW文書の重要度が定まるというものである。
近年は、WWW文書を閲覧するソフトウェア、ブラウザの機能充実により、サーチエンジンと連携してユーザがどのブラウザを閲覧しているかを計測し、いわゆる人気度を、重要度を決定するパラメータに加えている。
非特許文献3によれば、WWW文書の重要度を前述のページランクに加えてユーザ閲覧頻度、時間(すなわち人気度)を加えて行うことを述べている。特許文献3では、同様にある一定期間にある検索結果の中からどのくらいクリックされたかというデータを履歴としてランク計算に用いている。
以上、WWW文書の重要度について従来技術を述べたが、適合度に関しては、検索結果、提示の選択肢過多の問題がある。このような選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザ(利用者)の興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法が提案されている。非特許文献1における「E出力インターフェース E−2−1(1)順序付出力」には、以下のことが記載されている。
すなわち、選択肢過多の問題を解決するために、ユーザのブラウジング履歴からユーザの興味を推定し、探索履歴の特徴の重み付けに基づいて列挙するページの順序を並べ替える手法を提案している。さらに具体的には、ユーザはリンクを辿りながら、1、2、…、nまでのページを閲覧(ブラウジング)したとする。ユーザの興味は、直前に読んだページの内容ほど大きいと考え、直前のウェブページに対して重みを多く付けるようにする。一方、対象の単語を含むページの「履歴の重み」を足し合わせることで、その単語の重み(インデックスの重み)とする。ここで図3を用いて説明する。図3は、ユーザが閲覧したウェブページの遷移状態を示す図であり、page1からpage4まで順に閲覧していることを示している。ここで図3におけるNw(k)は、履歴の重みを表すものであり、例えば、Nw(k)=rn−kで表すことができる。ユーザは、Page1、Page2、Page3、Page4とブラウジングしたところで、ここで単語eは、Page1、Page3、Page4に含まれるため、これらの履歴の重みNw(k)を足し合わせることで「インデックスeの重み」とする。
上記ブラウジングの後、ユーザはサーチエンジンにキーワードを入力し、必要情報を収集する。収集した各ページに含まれるインデックスを取り出し、それらのインデックスの重みを足し合わせることで、そのページすなわち選択候補の重みを計算する。ユーザは大きく重み付けされたページから順に閲覧して行くことができる。同様のことは、特許文献4および特許文献5にも記載されている。
また、文書検索には、tf・idf特徴を用いた検索技術が考えられている。これは、文書集合{D|j=1,…,N}上に現れるキーワードt(i=1,…,M)を、文書毎に重み付けを計算し、キーワード重みベクトルwとして式(1)の通りに表現することができる。
Figure 0005340751


なお、Tは転置を表す。
ここで、Nは検索対象の文書数であり、Mは自然言語中のキーワード(例:東京、携帯電話、野球、駅、経済、株、…)であり、非常に大きな数となる。
ここで、各重みは、以下の式(2)により算出することができる。
Figure 0005340751


すなわち、重みは、ターム頻度(tf:Term Frequency)と文書頻度(Document frequency)の逆数idfの積として表現される。なお、タームはキーワードと同義である。
文書Dに現れるキーワードtの重みw は、文書Dには数多く現れ、他の文書にはあまり現れないと大きくなるべきである。逆にキーワードtが多く現れても、他の文書にも多く現れるのであれば、その重みw は小さくても良い。この発見的知識を表現したものが、tf・idf特徴であり、以下の式(3)および式(4)のとおりに定義できる。
Figure 0005340751


freq(i,j)=文書Dにおけるタームtの出現頻度
Figure 0005340751


Dfreq(i)はタームtが出現する文書数(文書頻度Documentfrequency)
idfiは文書総数NによりDfreq(i)を正規化したもの
tf・idf特徴には、多くの改良型があるが、ここでは、一般性を失うことなく上記の定義を用いる。
つぎに検索入力を検索ベクトルqとして現す。これもM次元であり、式(5)のように
Figure 0005340751


と表すことができる。
この式(5)においては、キーワードtiを含めばqを1とし、含まなければ0とする。
検索処理は、文書集合の中から、類似性が最大となる文書Dを探索すればよい。探索には文書内の単語数を正規化するために、式(6)および式(7)のとおり、内積を正規化した余弦距離(コサイン距離)を用いることが一般的である。
Figure 0005340751


ただし、
Figure 0005340751

ただし、上述式(7)そのものは、類似の度合いを表しており、距離の公理系を満たす尺度として用いる余弦距離は、1−sim(q,w)となる。
これまでの先行技術を具現化すると、図4に示すキーワード重みベクトルに基づく検索システムを従来例1とすることができる。なお、図4は、一般的な検索システムを示すシステム構成図であり、端末20、ウェブサーバ21、検索サーバ22から構成されている。この例では、端末20から入力された検索語はウェブサーバ21に送られ、入力された検索語は、検索ベクトルqに変換され、検索サーバ22に送信される。検索サーバ22では、検索ベクトルqに従った検索が行われ、検索結果としてWWW文書Dがウェブサーバ21および端末20に送信される。
この従来例1では、単に検索結果を出力するものであるため、その改良として、ユーザプロファイルを考慮して類似性を評価する形態である、以下の式(8)および式(9)で表されるような評価値を用いた検索システムである従来例2が考えられている。この式(8)および式(9)により算出される評価値に基づいて、検索されたWWW文書の表示処理が行われる。すなわち、評価値に従った順で検索されたWWW文書が表示されることになる。
Figure 0005340751


ここで、pは個人kのユーザプロファイルである。
Figure 0005340751

これから分かるように個人kのユーザプロファイルは、キーワード重みベクトルの表現をとる。このようにWWW文書、検索語、個人kのユーザプロファイルも同様のベクトルの表現をとることができる。
ユーザプロファイルの構成は、図3にて示されているように(非特許文献1)、過去に閲覧したWWW文書DにおけるNw(j)の和を取る処理を行えばよい。ただし、図3のNw(j)をwに読み替えて、以下の式(10)を作ることができる。
Figure 0005340751

さらに重要度を評点として加える形態として、以下の式(11)で示される評価値を用いた検索システムである従来例3が考えられている。
Figure 0005340751


ここでs(0≦s≦1)は、WWW文書Dの重要度である。λ値は式(8)と異なっていて良い。
以上の従来例2〜3における標準的な検索システムの動作を、図5に示す。図5に示されるように、端末20において、検索語の入力がユーザにより行われ(S101)、ウェブサーバ21において、検索ベクトルqが生成される(S102)。ここで生成された検索ベクトルqは、検索サーバ22に送信され、検索サーバ22においては、類似度が上位のものから文書IDが出力される(S103)。ウェブサーバ21では、類似度が上位のWWW文書を表示するためのコンテンツが生成され(S104)、端末20においてコンテンツが表示される(S105)。
米国特許第6112202号明細書 米国特許第6285999号明細書 米国特許出願公開第2007/0143345号明細書 特開平10−207901号公報 特開2002−32401号公報 日本国特許庁総務部企画調査課技術動向班資料 「テーマ名:サーチエンジンに関する標準技術集作成」 WWWサーチエンジンの技術動向概観、[ONLINE]、[平成20年1月29日検索]、インターネット、<URL:http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/search_engine/douko.htm> 原田昌紀、「WWWサーチエンジンの技術動向」、信学技報、SSE2000−228,pp.17−22,2001. Matthew Richardson, Amit Prakash, Eric Brill, 2Beyond PageRank: Machine Learning for Static Ranking,", Proc. WWW2006, [ONLINE]、[平成20年1月29日検索]、インターネット、<URL:http://www2006.org/programme/files/xhtml/3101/p3101-Richardson.html> 辻本昇平、松田憲幸、平嶋宗、豊田順一著、「文脈情報を用いたブラウジング支援−Web上での実装とその実験的評価」、「人工知能学会全国大会(第11回)論文集」、(1997年6月24日)、(社)人工知能学会発行、466頁〜467頁
上述の従来の検索方法においては、以下のことを前提としているものであった。すなわち、(1)良質なWWW文書からリンクされているWWW文書は良質であるというページランクの基本概念、(2)WWW文書のキーワード重みベクトルw、ユーザの個人プロファイルpは十分な情報により生成されているという事実、を前提としているものであった。
しかしながら、移動端末が視聴するWWW文書集合(以下、モバイルコンテンツと呼ぶ)には上記の過程が当てはまらないことが多く、必ずしも従来の技術によって適切な検索結果を得ることができないという問題があった。ここで図6にモバイルコンテンツの構造を示す。図6は、サイトAとサイトBとにおけるモバイルコンテンツの構造を示す説明図である。ここで、サービスを提供する独立したサーバをサイトと呼ぶ。パーソナルコンピュータから視聴されるWWW文書は相互に参照される(リンクされる)場合が多いが、モバイルコンテンツは、それぞれサービスを提供するサーバ内では木構造のディレクトリからなるが、サイト間のリンクが少なく独立である場合が多い。例えば、図6に示されるように、サイトAとサイトBとでは、相互に独立しており、各コンテンツにおいて何らリンクが張られていない。
このようにサイト間で相互にリンクされることがないため、良質なWWW文書からリンクされているWWW文書は良質であるという仮定が成り立ち難い。さらに、WWW文書そのものが短い文書であり、キーワードを多く含まないことがPCから視聴されるWWW文書とは性格が異なる。また、ニュースや乗り換え案内など動的に生成されるWWW文書が多いのが特徴である。例えば図6におけるサイトAでは、動的WWW文書−Aとして新聞、ニュースが、また動的WWW文書−Bとして乗り換え案内情報が記憶されている。これら情報は、適宜書き換えられ、またはユーザの要求により生成されるものである。したがって、所定のURLに存在する文書の内容が異なることが多い。
このような状況から、式(8)または式(11)にあるような評価値を用いて、個人の視聴履歴を勘案して、リンクの無い数百語からなるコンテンツの重要度を決定することは難しく、また個人プロファイルをキーワード重みベクトルで表現することも難しく、検索者であるユーザが満足するWWW文書の提示を行うことが困難であった。
そこで、上述の課題を解決するために、本発明は、WWW文書間のリンクが少なく、またユーザのアクセスが少ないWWW文書に対して、ユーザが満足する検索結果を提供することができる文書処理装置および文書処理方法を提供することを目的とする。
上述の課題を解決するために、本発明の文書処理方法は、文書処理装置における文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。
本発明によれば、ユーザのアクセス履歴を記憶させ、このアクセス履歴に従った、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算し、演算された文書類似度を用いて、一の文書におけるキーワード重みベクトルを補正する。そして、補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出することができる。
これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明の文書処理方法において、前記キーワード重みベクトル補正ステップは、前記文書類似度を用いて前記他の文書におけるキーワード重みベクトルを補正し、補正したキーワード重みベクトルを用いて、前記一の文書におけるキーワード重みベクトルを補正することを特徴とすることが好ましい。
これにより、前記他の文書におけるキーワード重みベクトルを補正し、この補正したキーワード重みベクトルを用いた、位置の文書におけるキーワード重みベクトルを補正することができ、文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明の文書処理方法は、ユーザ類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一のユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算するユーザ類似度演算ステップと、ユーザプロファイル補正手段が、前記ユーザ類似度演算ステップにより演算されたユーザ類似度を用いて、前記一のユーザの特徴を示すユーザプロファイルを補正するユーザプロファイル補正ステップと、をさらに備え、前記評価値算出ステップは、さらに、前記ユーザプロファイル補正ステップにより補正された一のユーザプロファイルに基づいて、前記検索のための入力情報に対する評価値を算出することが好ましい。
この発明によれば、ユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算し、演算されたユーザ類似度を用いて、一のユーザのユーザプロファイルを補正する。そして、補正された一のユーザプロファイルに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法において、前記ユーザプロファイル補正ステップは、前記ユーザ類似度を用いて他のユーザのユーザプロファイルを補正し、当該補正されたユーザプロファイルに基づいて、前記一のユーザのユーザプロファイルを補正することが好ましい。
これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法は、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップをさらに備え、前記評価値算出ステップは、前記取得ステップにより取得された重要度情報を用いて前記検索のための入力情報に対する評価値を算出することが好ましい。
この発明によれば、文書ごとに付された重要度を示す重要度情報を取得し、取得された重要度情報を用いて検索のための入力情報に対する評価値を算出することができる。これにより、重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。
また、本発明の文書処理方法は、前記評価値算出ステップは、前記一の文書における補正されたキーワード重みベクトルが存在する場合には、当該補正されたキーワード重みベクトルを用いて評価値を算出し、前記一の文書における補正されたキーワード重みベクトルが存在しない場合には、補正前のキーワード重みベクトルを用いて評価値を算出することが好ましい。
この発明によれば、補正されたキーワード重みベクトルの有無に応じて、補正されたキーワード重みベクトルを用いるか、または補正されていないキーワード重みベクトルを用いるかを切り替えることができ、予め保持または収集されていない文書に対しても適切に評価し、ユーザに提供することができる。
また、本発明の文書処理方法は、取得手段が、ユーザからのアクセスにしたがって検索サーバから文書を取得する取得ステップをさらに備え、前記取得ステップにおいて受け付けられたアクセスをアクセス履歴として、収集ステップにおいて収集することが好ましい。
この発明によれば、ユーザ側の端末装置にアクセス履歴の収集機能を備えることなく、その構成を簡易なものにすることができる。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップと、重要度補正手段が、前記収集ステップにより収集されたユーザのアクセスに従って、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第2の時間帯に一の文書を閲覧したユーザを示す第2のユーザパターンとが区別され、当該第1のユーザパターン、第2のユーザパターンの類似度および前記一の文書のアクセス数に基づいて、前記一の文書の重要度を補正する重要度補正ステップと、評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルおよび前記重要度補正ステップにより補正された重要度情報に基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、を備えている。
この発明によれば、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第2の時間帯に一の文書を閲覧したユーザを示す第2のユーザパターンとを区別して記憶しておき、記憶された第1のユーザパターンおよび第2のユーザパターンの類似度および一の文書のアクセス数に基づいて、一の文書の重要度を補正することができる。これにより、一の文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴って文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返し、アクセスされた文書である場合には、その文書は重要度が高いといえる。よってこのようは文書の評価値を高くするように、その重要度を補正しようとするものである。
また、本発明の文書処理方法は、出力手段が、前記評価値算出ステップにより算出された評価値に応じて、ユーザにより検索された検索結果を出力する出力ステップをさらに備えることが好ましい。
この発明により、算出された評価値に基づいた検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、第1生成手段が、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成する第1生成ステップと、第2生成手段が、前記第1の生成ステップにより生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成する第2生成ステップと、第3生成手段が、前記第2の生成ステップにより生成された前記新たなキーワード重みベクトルに基づいて前記新たなユーザプロファイルを生成する第3生成ステップと、ユーザプロファイル類似度生成手段が、前記第3生成ステップにより生成された前記新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算するユーザプロファイル類似度生成ステップと、評価値算出手段が、前記ユーザプロファイル類似度生成ステップにより演算された類似度、キーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する評価値算出ステップと、を備えている。
この発明によれば、まず、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成し、生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成し、新たなキーワード重みベクトルに基づいて新たなユーザプロファイルを生成する。そして、新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返しユーザプロファイルおよびキーワード重みベクトルを生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する。
これにより、キーワード重みベクトルとユーザプロファイルとは相互に依存するように生成することで、ユーザプロファイルがキーワード重みベクトルに伝播することにより、ユーザプロファイルおよびキーワード重みベクトルの平滑化および補完を行うことができる。よって、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができる。また、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
また、本発明の文書処理方法は、判断手段が、前記ユーザプロファイル類似度生成ステップにより生成された類似度が所定値以上となるか否かを判断する判断ステップと、をさらに備え、前記評価値算出ステップは、前記ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することが好ましい。
この発明によれば、ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することで、ユーザにとっての適合性の高い検索結果を提供することができる。
ところで、本発明は、上記のように文書処理方法の発明として記述できる他に、以下のように、文書処理装置、検索システム、文書処理プログラムの発明としても記述することができる。これらはカテゴリーが異なるだけで、実質的に同一の発明であり、同様の作用・効果を奏する。
すなわち、本発明の文書処理装置は、ユーザのアクセス履歴を収集するアクセス履歴収集手段と、前記アクセス履歴収集手段により収集されたアクセス履歴にしたがって、一の文書を閲覧した複数のユーザを示すユーザパターンと他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算手段と、前記文書類似度演算手段により演算された文書類似度を用いて前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正手段と、前記キーワード重みベクトル補正手段により補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出手段と、を備えている。
また、本発明の検索システムは、アクセス履歴を記憶する利用者端末と、前記利用者端末によりアクセスされた文書のキーワード重みベクトルを生成する情報収集装置と、前記利用者端末のアクセス履歴および前記情報収集装置で生成したキーワード重みベクトルを取得する上記文書処理装置と、を備えている。
また、本発明の文書処理プログラムは、ユーザのアクセス履歴を収集する収集モジュールと、前記収集モジュールにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと、他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算モジュールと、前記文書類似度演算モジュールにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正モジュールと、前記キーワード重みベクトル補正モジュールにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出モジュールと、をコンピュータに機能させるように備えている。
また、本発明の文書処理装置は、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、前記ユーザ抽出手段により抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段と備えている。
この発明によれば、検索語に従ってWWW文書に対してアクセスしたユーザのユーザ集合を抽出し、当該ユーザが閲覧したWWW文書のWWW文書集合を抽出する。そして、抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、WWW文書の重要度を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置において、前記重要度算出手段は、前記ユーザ抽出手段により抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてWWW文書の重要度を算出することが好ましい。
この発明によれば、抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてWWW文書の重要度を算出することができ、重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたWWW文書集合に対して前記ユーザ抽出手段により抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段とを備えている。
この発明によれば、検索語に従ってWWW文書に対してアクセスしたユーザのユーザ集合を抽出するとともに、WWW文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書を抽出する。そして、抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、WWW文書の重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出手段により抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出手段と、前記二次WWW文書抽出手段により抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出手段とを備えている。
この発明によれば、WWW文書間における有向グラフとして管理可能なデータを保持しておき、検索語に従って抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出する。また、WWW文書間における参照関係を有向グラフとして管理可能にさせるデータに基づいて、各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書を抽出し、抽出されたユーザを示す集合と、抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する。そして、抽出されたノード集合における各WWW文書間における参照された度合いおよび各ユーザが各WWW文書に対して閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、本発明の文書処理装置は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、前記抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および前記各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、前記ユーザ抽出手段により抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出手段により抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出手段と、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出手段により算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出手段とを備えている。
この発明によれば、検索語に従って抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出し、WWW文書間における参照関係を有向グラフとして管理可能なデータに基づいて、抽出された各WWW文書が参照している他のWWW文書、および前記各WWWW文書を参照している他のWWW文書を抽出する。そして、抽出されたユーザ集合の各ユーザが、抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出する。その後、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルとハブスコアとの一致の度合いに基づいて重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
また、上述文書処理装置として発明を捉えるほか、以下の通り、文書処理方法として発明を捉えることができる。この場合、その作用効果は、文書処理装置と同じである。
また、本発明の文書処理方法は、文書処理装置の文書処理方法において、一次WWW文書抽出手段が、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、ユーザ抽出手段が、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、二次WWW文書抽出手段が、前記ユーザ抽出ステップにより抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出ステップと、重要度算出手段が、前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段を備える文書処理装置の文書処理方法において、
また、本発明の文書処理方法は、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対して前記ユーザ抽出ステップにより抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出ステップにより抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出ステップと、前記二次WWW文書抽出ステップにより抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出ステップとを備えている。
また、本発明の文書処理方法は、複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、前記ユーザ抽出ステップにより抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出ステップにより抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出ステップと、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出ステップにより算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出ステップとを備えている。
本発明によれば、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどのアクセス量・リンク量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、本発明によれば、ユーザの閲覧した度合いに基づいて、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせることができる。
以下、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
<第一実施形態>
図7は、本実施形態のプロクシー装置100を利用した情報処理システムの機能構成を示すシステム構成図であり、この情報処理システムは、プロクシー装置100、利用者端末200、検索サーバ300、および情報収集装置400から構成されている。このシステムにおいて、利用者端末200は検索要求をプロクシー装置100を介して検索サーバ300に出力する。検索サーバ300は、その検索要求に応じた検索処理を実行し、プロクシー装置100を介して利用者端末200にその検索結果を返信する。また、情報収集装置400は、利用者端末200のアクセス履歴に基づいたWWW文書を収集し、そして、キーワード重みベクトルを生成する部分である。生成したキーワード重みベクトルは、プロクシー装置100に出力し、保持させる。
ここで、プロクシー装置100は、アクセスパターン収集部101、ユーザアクセス履歴保持部102、キーワードベクトル保持部103、WWW文書類似度演算部104、ユーザ類似度演算部105、キーワードベクトル平滑部106、ユーザプロファイル平滑部107、平滑化ユーザプロファイル保持部108、平滑化キーワードベクトル保持部109、並び替え部110を含んで構成されている。また、利用者端末200は、WWWブラウザ201、アクセス履歴保持部202、アクセス履歴転送部203を含んで構成されている。この利用者端末200は、ユーザを示すものであって、おおむね100万台程度を想定している。以下、ユーザの数として定数Kで表す。
ここでプロクシー装置100は、図8に示されるハードウウェアにより構成されている。図8は、プロクシー装置100のハードウェア構成図である。図7に示されるプロクシー装置100は、物理的には、図8に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図7において説明した各機能は、図8に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。なお、利用者端末200、検索サーバ300、情報収集装置400も同様のハードウェア構成をとるものであり、プログラムにしたがって、各種機能を実行することができるように構成されている。以下、図7に示す機能ブロックに基づいて、各機能ブロックを説明する。
アクセスパターン収集部101は、利用者端末200において一定期間にアクセスしたアクセスパターンを収集する部分である。ここでアクセスパターンとは、ユーザがアクセスしようとしたWWW文書が配置されているURLなどのアクセス先情報である。ここで取得したアクセス先情報は、情報収集装置400に出力される。情報収集装置400は、後述するとおり、このアクセス先情報に従ってWWW文書を取得することができる。例えば、情報収集装置400は、図9に示されるようなWWW文書を取得することができる。図9は、WWW文書の一例を示す説明図であり、携帯電話に関するWWW文書を示している。この図9では、目的別ナビゲーションなどの情報が記述されており、下線部にはアンカーが形成されており、ユーザはそのアンカーをクリックすることにより下位にあるWWW文書を閲覧することができる。
また、アクセスパターン収集部101は、利用者端末200が一定期間にアクセスした複数のWWW文書を情報収集装置400から取得し、式(12)に示す閲覧ユーザベクトルu(K×1ベクトル)(1≦j≦N)と、式(13)に示す訪問WWW文書ベクトルv(N行1列ベクトル)(1≦k≦K)を算出する。そして、ユーザアクセス履歴保持部102に格納する。
ここで、閲覧ユーザベクトルuは、WWW文書Dがユーザkにより閲覧されればu =1、そうでなければ0とするベクトルとして定義される。
Figure 0005340751


これは、WWW文書Dにとっての閲覧者リスト(ユーザパターン)を表している。なお、Kはユーザ数を示す。
同様に、訪問WWW文書ベクトルvは、ユーザkがWWW文書Dを閲覧すればv =1、そうでなければ0とするベクトルとして定義される。
Figure 0005340751


これは、ユーザkが閲覧したWWW文書リストを表している。なお、Nは、WWW文書数を示す。
ユーザアクセス履歴保持部102は、アクセスパターン収集部101により収集されたアクセス先情報、訪問WWW文書ベクトルv、閲覧ユーザベクトルu
およびアクセス先情報に基づいて取得されたWWW文書そのもの(重要度を含む)を記憶する部分である。
一方、情報収集装置400は、アクセスパターン収集部101から出力されたアクセス先情報に従って、WWW文書を取得する。そして、取得したWWW文書Dを形態素解析し、そのWWW文書Dに含まれているワードを抽出し、抽出したワードに基づいてキーワード重みベクトルwを生成する。キーワード重みベクトルwについては上述したとおり、式(1)〜式(4)に従って生成する。
本実施形態では、WWW文書に含まれているワードをそのままキーワード重みベクトルにするのではなく、キーワードシソーラス(thesaurus)辞書を用いて広義語に、類義語のゆれを吸収して置き換える。たとえば、「プロ野球」を「野球」に、「ベースボール」を「野球」に変換する。図10は、情報収集装置400からの出力例を示す説明図である。図10に示すように、情報収集装置400が取得したWWW文書Dに含まれるワードに対して、キーワード、確度、スコア、分野が対応付けて出力される。例えば、ワードが“おサイフケータイ”であると、キーワードとして“携帯電話”が導出される。また、出現頻度tf (1≦i≦M)であるスコアが算出され、このスコアに基づいて、キーワード重みベクトルwの位置要素であるw が確度“1.000”として算出される。なお、Mは広義語の数である。
ここで、変換されたキーワードは、より広義であり、これをユーザがアクセスしたWWW全文書全体について行い、tf・idf特徴の計算を行いキーワード重みベクトルwを求める。さらに、wは、大きさ1のベクトルとなるように正規化が施される。なお、キーワード重みベクトル、ユーザプロファイルはtf・idf特徴として正規化については述べなかったが、本実施形態では、常に大きさ1の正規化されたベクトルとして扱う。
キーワードベクトル保持部103は、情報収集装置400において生成された式(1)で示されるキーワード重みベクトルwをユーザごと(利用者端末200ごと)に記憶する部分である。
WWW文書類似度演算部104は、一のWWW文書Dを閲覧するユーザの閲覧ユーザベクトルuと他のWWW文書Djeを閲覧するユーザの閲覧ユーザベクトルujeとの一致の度合いを演算する部分であり、これら閲覧ユーザベクトルu同士の一致の度合いを演算することによって、WWW文書間の類似度を判断しようとするものである。閲覧ユーザベクトルの一致の度合いは、以下の式(14)により演算される。
Figure 0005340751


この式(14)は、WWW文書DとWWW文書Djeとを訪れたユーザパターンの一致度をあらわす尺度として用いられるものであり、WWW文書間の類似度の判断に使用される。
また、ユーザ類似度演算部105は、一のユーザkにより閲覧されたWWW文書の訪問文書ベクトルvと、他のユーザkeにより閲覧されたWWW文書の訪問文書ベクトルvkeとの一致の度合いを演算する部分であり、これら訪問文書ベクトル同士の一致の度合いを演算することによって、ユーザ間の類似度を判断しようとするものである。訪問文書ベクトルvの一致の度合いは、以下の式(15)により演算される。
Figure 0005340751


この式(15)は、閲覧されたWWW文書の文書パターンにおいて、ユーザkとユーザkeの類似度を表す尺度として用いられるものであり、ユーザ間の類似度の判断に使用される。
キーワードベクトル平滑部106は、キーワードベクトル保持部103に保持されている一のWWW文書におけるキーワード重みベクトルを平滑化する部分であり、当該一のWWW文書とアクセスパターンの近いWWW文書を用いてキーワード重みベクトルwを補正する部分である。これにより、一のWWW文書だけでアクセス数が足りなかったりして、より精密なキーワード重みベクトルを算出することができない場合でも、他の似たようなWWW文書を用いて、キーワード重みベクトルを補完するよう補正することで、より精密なキーワード重みベクトルを算出することができる。
具体的には、キーワードベクトル平滑部106は、式(14)および以下の式(16)を用いて、キーワード重みベクトルwの平滑化および補完を行い、平滑化キーワード重みベクトルw’を生成する。
Figure 0005340751



なお、εは実験的に定める実数である。本実施形態では、1/Nとする。
ユーザプロファイル平滑部107は、キーワードベクトル保持部103に保持されている一のWWW文書におけるキーワード重みベクトルwおよびユーザアクセス履歴保持部102に記憶されている訪問文書ベクトルvを用いてユーザプロファイルpを生成し、この生成されたユーザプロファイルpに対してユーザプロファイルpの平滑化および補完処理を行う部分であり、当該一のユーザとアクセスパターンの近い他のユーザのアクセスパターンを用いてユーザプロファイルを補正する部分である。これにより、一のユーザの訪問WWW文書ベクトルだけでは、サンプル数が足りなかったりして、より精密なユーザプロファイルを算出することができない場合でも、他の似たようなユーザの訪問WWW文書ベクトルを用いて、ユーザプロファイルを補完するよう補正することで、より精密なユーザプロファイルを算出することができる。
より具体的には、ユーザプロファイル平滑部107は、式(17)にしたがってユーザプロファイルを生成する。ユーザプロファイルpは、列ベクトルであるキーワード重みベクトルwを並べて得られる行列Wに(式(18)参照)、訪問WWW文書ベクトルを乗じて初期化されることにより生成される。
Figure 0005340751


Figure 0005340751

ユーザプロファイル平滑部107は、このように初期化・生成されたユーザプロファイルpに対し、式(19)に従った処理によりユーザプロファイルの平滑化・補完を行う。
Figure 0005340751

なお、式(19)の変形として、以下の式(20)も適用可能である。
Figure 0005340751


この場合は、閲覧したWWW文書の類似性ではなく、閲覧したWWW文書のキーワードの類似性から合成されることになる。
平滑化ユーザプロファイル保持部108は、ユーザプロファイル平滑部107により平滑化・補完された平滑化ユーザプロファイルp’を記憶する。
平滑化キーワードベクトル保持部109は、キーワードベクトル平滑部106により平滑化・補完された平滑化キーワード重みベクトルw’を記憶する。
並び替え部110は、利用者端末200において入力された検索語に基づいて検索ベクトルqにより検索サーバ300において検索され、WWW文書検索候補として出力された上位20件のWWW文書に対して、並び替え処理を行う部分である。具体的には、上述の式(8)に従って算出された評価値に基づいて上位のものから順に表示するようにしてもよいし、以下の式(21)のとおり重要度sを加味したものであってもよい。なお、並び替え部110は、検索したWWW文書を一時的にWWW文書記憶部(図示せず)に記憶させ、キーワードベクトル保持部103にキーワード重みベクトルを記憶させるようにしてもよい。
Figure 0005340751


本実施例ではλは、0.9とする。
なお、本実施形態では、検索サーバ300から得られるWWW文書は、すべてユーザアクセス履歴保持部102に記憶されているものと仮定する。もちろん、検索サーバ300が他事業者であり、プロクシー装置100に存在しないWWW文書が検索結果として得られる可能性があるが、例外処理は当該WWW文書について平滑化しないwjを計算に使用することにより対応できる。すなわち、プロクシー装置100は、平滑化キーワードベクトル保持部109に収集されたWWW文書のキーワード重みベクトルが記憶されているか否か、またはすでにWWW文書が保持されているか否かを判断する判断部を備える。そして、プロクシー装置100にそのキーワード重みベクトルが記憶されたWWW文書を検索結果として得られた場合には式(21)を用いて、評価値を算出し、プロクシー装置100にそのキーワード重みベクトルが記憶されていないWWW文書を検索結果として得られた場合には式(11)を用いて評価値を算出するようにしてもよい。また、キーワード重みベクトルまたはユーザプロファイルのいずれか一方のみ平滑化するような構成であってもよい。
つぎに、利用者端末200について説明する。図7に示されている通り、利用者端末200は、WWWブラウザ201、アクセス履歴保持部202、アクセス履歴転送部203を含んで構成されている。この利用者端末200は、例えば携帯電話、パーソナルコンピュータなどインターネットに接続することができる通信端末であって、図8と同様の構成からなっている。すなわち、CPU、RAM、ROM等から構成されており、入力装置を用いて操作することによりWWWブラウザ201を操作し、プロクシー装置100を介してインターネットにアクセスすることができる。以下、各構成要素について説明する。
WWWブラウザ201は、インターネット上で保持されているウェブページを閲覧するためのアプリケーションである。利用者端末200のユーザがWWWブラウザ201を操作することにより所望のウェブページを閲覧することができる。本実施形態では、WWWブラウザ201は、検索用のウェブページにアクセスし、プロクシー装置100を介して検索サーバに検索要求を出力し、プロクシー装置100を介して検索結果を受信し、ユーザに表示することができる。
アクセス履歴保持部202は、WWWブラウザ201によりアクセス処理が行われたアクセス先情報(URL)を記憶する部分である。
アクセス履歴転送部203は、予め定められた周期またはタイミングでプロクシー装置100に対してアクセス履歴保持部202に記憶されているアクセス先情報を送信する部分である。
つぎに、本実施形態のプロクシー装置100の動作について説明する。図11は、本実施形態のプロクシー装置100の動作を示すフローチャートである。図11に示すように、アクセスパターン収集部101により、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101により収集されたアクセス先情報、アクセスパターン収集部101により生成された閲覧ユーザベクトルu、訪問WWW文書ベクトルv、および情報収集装置400において取得されたWWW文書が記憶される(S202)。つぎに、キーワードベクトル保持部103には、情報収集装置400において生成されたキーワード重みベクトルwが記憶される(S203)。なお、S202、S203の順序は逆でもよい。
つぎにユーザ類似度演算部105によりユーザ類似度演算が行われる(S204)。また、WWW文書類似度演算が行われる(S205)。それぞれ演算されたユーザ類似度およびWWW文書類似度は、キーワードベクトル平滑部106およびユーザプロファイル平滑部107により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される(S206、S207)。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部109および平滑化ユーザプロファイル保持部108に記憶される(S208、S209)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、平滑化キーワード重みベクトルおよび平滑化ユーザプロファイルにより並び替え処理がなされる(S211)。
以上の通り、本実施形態のプロクシー装置100は、WWW文書、ユーザプロファイルの統計的信頼度を上げる効果を有する。統計的言語処理では、観測データの数が十分に大きくない場合は、本来、出現する可能性のあるキーワードが当該WWW文書に含まれていないことがある。本実施形態のプロクシー装置100は、そもそも直接観測することが難しい個人プロファイル内のキーワード、語数が少ないWWW文書のキーワードを補うことを目的としたものである。
特に、親ディレクトリとして機能し、それ自身が十分にキーワードを持たないWWW文書、おもに画像からなりキーワードを持たないWWW文書を同時に訪れることのできる文書のキーワードで補完することができる効果を持つ。
図6に示されるモバイルコンテンツの構造にある、WWW文書−AをWWW文書−B,WWW文書−Cの親ディレクトリを例に考えてみる。WWW文書−B,WWW文書−Cのキーワードが親ディレクトリであるWWW文書−Aに転写されることが期待される。またマルチメディアコンテンツからなるWWW文書に対しても同様の効果を持つ。
また、式(16)と式(19)は、アクセスパターンの近いWWW文書、ユーザの距離に応じてスムージングを行っていることに他ならない。これにより、アクセスの少ないユーザプロファイルを周辺ユーザから補うことができ、また文書量の少ないWWW文書ベクトルを、ユーザのアクセスから補うことができる。
つぎに、プロクシー装置100の変形例について説明する。図19は、プロクシー装置100の変形例におけるブロック図である。図19に示すように、プロクシー装置100は、利用者端末200aから出力される検索のための信号からアクセスパターン収集部101がアクセス履歴を収集し、収集したアクセス履歴をユーザアクセス履歴保持部102に記憶させてもよい。この変形例においては、利用者端末200aには、アクセス履歴を収集する機能、およびアクセス履歴をプロクシー装置100に送信する機能は必須ではない。なお、後述する第二の実施形態、第三の実施形態においても同様に、利用者携帯端末200aからのアクセス要求をプロクシー装置100が収集することによりアクセス履歴を収集するように構成してもよい。
ここで、本実施形態のプロクシー装置100の作用効果について説明する。このプロクシー装置100は、アクセスパターン収集部101により取得された一のユーザのアクセス履歴をユーザアクセス履歴保持部102に記憶させる。またアクセスパターン収集部101は、一のWWW文書Dを閲覧した複数のユーザを示す一のユーザパターンである閲覧ユーザベクトルuと他の文書Djeを閲覧した複数のユーザを示す他のユーザパターンでる閲覧ユーザベクトルujeと生成する。
そして、ユーザ類似度演算部105は、WWW文書DとWWW文書Djeとのユーザ類似度を示す文書類似度sim(u、uje)を演算する。キーワードベクトル平滑部106は、演算された文書類似度sim(u、uje)を用いて、他の文書におけるキーワード重みベクトルwjeを補正し、補正したキーワード重みベクトルwjeに基づいて、一の文書におけるキーワード重みベクトルwを補正して平滑化キーワード重みベクトルw’を得る。平滑化キーワードベクトル保持部109は、ここで得られた平滑化キーワード重みベクトルw’を記憶する。そして、並び替え部110は、平滑化キーワード重みベクトルw’に基づいて、検索のための入力情報に対する評価値B_SCOREを算出することができる。
これにより、アクセスするユーザのユーザパターンの近い文書に基づいて、キーワード重みベクトルを補完することができ、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができ、その結果より精度のよい検索を可能にさせる。
また、プロクシー装置100において、アクセスパターン収集部101は、一のユーザにより閲覧された複数の文書を示す一の文書パターンである訪問WWW文書ベクトルvと他のユーザにより閲覧された複数の文書を示す他の文書パターンである訪問WWW文書ベクトルvkeとを生成し、ユーザアクセス履歴保持部102に記憶させる。WWW文書類似度演算部104は、ユーザ間の類似度を示すユーザ類似度sim(v、vke)を演算する。そして、ユーザプロファイル平滑部107は、演算されたユーザ類似度sim(v、vke)を用いて、他のユーザにおける文書パターンであるユーザプロファイルpkeを補正し、補正したユーザプロファイルpkeに基づいて、一のユーザのユーザプロファイルpを補正して平滑化ユーザプロファイルpを得る。そして、並び替え部110は、平滑化された一のユーザプロファイルpに基づいて、検索のための入力情報に対する評価値を算出することができる。これにより、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
本実施形態では、キーワード重みベクトルwおよびユーザプロファイルpを平滑化しているが、少なくともキーワード重みベクトルwのみ平滑化すればよい。その場合、評価値B_SCOREに入力される平滑化ユーザプロファイルpは、平滑化される前のユーザプロファイルpが入力されることになる。
また、本実施形態のプロクシー装置100において、アクセスパターン収集部101は、WWW文書ごとに付された重要度を示す重要度sを取得する情報収集装置400からWWW文書とともに取得し、並び替え部110は、その重要度sを用いて検索のための入力情報に対する評価値B_SCOREを算出する。重要度を評価値に反映させることができ、より適切な評価結果を提供することができる。
また、プロクシー装置100において、並び替え部110は、利用者端末200からの検索要求に応じて検索結果を出力する際に、上述の通りに算出された評価値B_SCOREに基づいた順番で検索結果を出力することができ、より評価値の高い重要な文書から順に出力することができるなど、よりユーザに見やすい検索結果を提供することができる。
また、プロクシー装置100において、並び替え部110は、一のWWW文書における平滑化されたキーワード重みベクトルw’が存在する場合には、この平滑化されたキーワード重みベクトルw’を用いて評価値B_SCOREを算出し(式24)、一のWWW文書における平滑化されたキーワード重みベクトルw’が存在しない場合には、平滑化前のキーワード重みベクトルw’を用いて評価値B_SCORを算出する(式11)。これにより、WWW文書を予め記憶していない場合でも評価処理を実行することができる。
また、プロクシー装置100において、アクセスパターン収集部101はユーザからのアクセスにしたがって検索サーバから文書を取得し、ここで受け付けられたアクセスをアクセス履歴として、ユーザアクセス履歴保持部102に記憶させる。これにより、利用者端末200にアクセス履歴を保持させる機能を不要とし、その構成を簡易なものにすることができる。
<第二実施形態>
つぎに、ユーザのアクセスパターンの類似度の時間的変化にしたがった重要度に基づいて評価値を補正する装置について説明する。
図12は、時間帯ごとに区別して、WWW文書にアクセスしたユーザを示す説明図である。一般的に、時間の経緯に伴って閲覧ユーザは遷移するものである。例えば、図12では、時刻tにおけるWWW文書Dは、ユーザAからユーザEにより閲覧されていること、時刻tではユーザAからC、およびユーザE、Fにより閲覧されていることが示されている。時刻t、時刻tそれぞれの時間帯において閲覧するユーザの一致度が高い場合、その一致度が高いほど、一般的にWWW文書は重要度が高いといえる。本実施形態ではこの時間の経緯に伴って閲覧するユーザが遷移する状態に応じて、WWW文書の重要度を変えようとするものである。
この第二実施形態の構成について説明する。図13は、第二実施形態におけるプロクシー装置100aの機能構成を示すシステム構成図である。第二実施形態におけるプロクシー装置100aは、ユーザが繰り返し訪問するWWW文書を重要コンテンツとして、そのWWW文書に付されている重要度sを補正するものである。なお、本実施形態は、第一実施形態の拡張として説明し、重複する部分についての説明は省略する。第一実施形態で示されているプロクシー装置100の構成に加え、重要度補正部111および重要度補正値保持部112が新たに付されている。
アクセスパターン収集部101aは、第一実施形態のアクセスパターン収集部101より拡張したものであって、利用者端末200から取得したアクセスパターンにしたがって、式(12)で用いた閲覧ユーザベクトルuを、過去の時間“tからt+δまで”と、“t+δからt+2δまで”のそれぞれについて式(24)のように区別して生成し、これをユーザアクセス履歴保持部102に記憶させる。
Figure 0005340751

重要度補正部111は、これらの閲覧ユーザベクトルu (t,t+δ)およびu (t+δ,t+2δ)を用いて、過去の時間“t,t+δ”と“t+δ,t+2δ”との間のアクセスパターン(ユーザパターン)の類似度とアクセスユーザ数とを勘案したWWW文書Dの重要度sの補正値Δsを計算することができる。
Figure 0005340751

重要度補正値保持部112は、重要度補正部111により計算された補正値Δsを記憶する部分である。
このΔsにより、過去の時間においてアクセスパターンの変わらないWWW文書の重要度は式(24)のように補正される。
並び替え部110aは、利用者端末200において入力された検索語に基づいた検索ベクトルqにより検索サーバ300において検索され、WWW文書検索候補として出力された上位20件のWWW文書に対して、並び替え処理を行う部分であって、式(24)にしたがって算出された評価値に基づいて上位のものから順に表示するように制御する。
Figure 0005340751

つぎに、本実施形態のプロクシー装置100aの動作について説明する。図14は、本実施形態のプロクシー装置100aの動作を示すフローチャートである。図13に示すように、アクセスパターン収集部101aにより、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが所定の時間帯ごとに区別されて収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101aにより収集されたアクセス先情報、アクセスパターン収集部101aにより生成された閲覧ユーザベクトルu、訪問WWW文書ベクトルv、および情報収集装置400において取得されたWWW文書(重要度s付)が記憶される(S202)。つぎに、キーワードベクトル保持部103には、情報収集装置400において生成されたキーワード重みベクトルwが記憶される(S203)。なお、S202、S203の順序は逆でもよい。
つぎにユーザ類似度演算部105によりユーザ類似度演算が行われる(S204)。また、WWW文書類似度演算が行われる(S205)。一方、重要度補正部111により重要度sの補正値Δsが生成され(S205a)、重要度補正値保持部112に記憶される(S205b)。
それぞれ演算されたユーザ類似度およびWWW文書類似度は、キーワードベクトル平滑部106およびユーザプロファイル平滑部107により平滑化・補完処理され、平滑化キーワード重みベクトル、平滑化ユーザプロファイルが生成される(S206、S207)。生成された平滑化キーワード重みベクトル、平滑化ユーザプロファイルは、それぞれ平滑化キーワードベクトル保持部109および平滑化ユーザプロファイル保持部108に記憶される(S208、S209)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、平滑化キーワード重みベクトル、平滑化ユーザプロファイルおよび補正値Δsにより補正された重要度sにより並び替え処理がなされる(S211)。
このように、過去から現在において繰り返し閲覧されているようなWWW文書が上位に表示されるように重要度の補正値Δsを加味した評価値を算出することで、より適合性のあった検索およびその出力を行うことができる。
つぎに、本実施形態のプロクシー装置100aの作用効果について説明する。このプロクシー装置100aにおいて、ユーザアクセス履歴保持部102は、第1の時間帯(例えば、tからt+δまで)に一の文書を閲覧したユーザを示す第1のユーザパターンである閲覧ユーザベクトルu (t,t+σ)と、第2の時間帯(例えば、t+δからt+2δ)に一の文書を閲覧したユーザを示す第2のユーザパターンである閲覧ユーザベクトルu (t+σ,t+2σ)とを区別して記憶しておく。ここで記憶された閲覧ユーザベクトルu (t,t+σ)および閲覧ユーザベクトルu (t+σ,t+2σ)の類似度および一のWWW文書のアクセス数に基づいて、一のWWW文書の重要度を補正することができる。これにより、一のWWW文書に対する重要度をより適切なものにすることができる。すなわち、時間の経過に伴ってWWW文書にアクセスするユーザは異なるものであるが、ユーザパターンが近く、また同じユーザにより繰り返しアクセスされたWWW文書である場合、そのようなWWW文書は重要度が高いといえる。よってこのようはWWW文書の評価値を高くするように、その重要度を補正しようとするものである。
<第三実施形態>
つぎに、第三実施形態のプロクシー装置100bについて説明する。図15は、第三実施形態のプロクシー装置100bを利用した情報処理システムの機能構成を示すシステム構成図である。このプロクシー装置100bは、プロクシー装置100において、ユーザ類似度演算部105、WWW文書類似度演算部104、ユーザプロファイル平滑部107、キーワードベクトル平滑部106に代えて、WWW文書・ユーザプロファイル整合部113を備えたものである。第一実施形態では、ユーザのアクセスパターンの類似性から、WWW文書を統計的バックオフスムージングに相当する処理を行ったが、本実施形態では、ユーザプロファイルを、閲覧されたWWW文書のキーワード重みベクトルに重畳して平滑化を行なう点で、その基本思想が相違するものである。
図16は、ユーザとWWW文書との閲覧関係を示す説明図である。図16では、例えば、WWW文書DはユーザAにより閲覧されたことを示している。また、WWW文書Dは、ユーザBおよびユーザCにより閲覧されたことを示している。また、WWW文書Dは、ユーザCおよびユーザDにより閲覧されたことを示している。この図16に示される関係により、ユーザプロファイルpとキーワード重みベクトルwとは、相互に依存(リンク)することが理解される。本実施形態では、このリンクすることを利用し、そのリンクを介してユーザプロファイルがキーワード重みベクトルに伝播することを利用して、平滑化・補完を行おうとするものである。
ここで以下の式が成り立つと仮定する。式(25)は、キーワード重みベクトル推定値w~jから各ユーザのユーザプロファイル推定値p~を推定する式である。なお、式(25)においては、M行1列ベクトル=M行N列行列×N行1列ベクトルであり、式(26)においては、M行N列行列ベクトルである。なお、w~は、wの上部に‘^’(ハット)を記述したものと同義であり、本明細書においては便宜上‘w~ ’と記載している。他の文字に付されている‘ ~ ’も同様にその文字の上部に‘^’(ハット)を記述したものと同義である。
Figure 0005340751


Figure 0005340751

ここで、式(27)に示す通り、キーワード重みベクトル推定値w~は、ユーザプロファイル推定値p~とキーワード重みベクトルwとの加重平均からなると仮定している。なお、式(27)は、M行1列ベクトル=M行K列行列×K行1列ベクトルで構成されているものであり、式(28)は、M行K列行列ベクトルである。
Figure 0005340751


Figure 0005340751

式(27)の意味するところは、ユーザプロファイルp~からWWW文書のキーワード重みベクトルw~jへの投影(プロジェクション)であり、このことから平滑効果がもたらされる。このプロジェクションはゲインが1−αであるため、式(27)の処理を繰り返し行なうことにより、ユーザプロファイルp~とキーワード重みベクトルw~は収束する。収束判定は、例えば新たな計算結果w~ と前回の計算結果w~ n-1の内積sim(w~ , w~ n-1)が0.9以上となるまで繰り返す等が考えられる。また、ユーザプロファイルp~とキーワード重みベクトルw~の両方が収束するまで繰り返しても良いし、いずれか片方のみが収束するまで繰り返しても良い。
つぎに、図15に戻り、プロクシー装置100bについて説明する。WWW文書・ユーザプロファイル整合部113は、キーワードベクトル保持部103に記憶されているキーワード重みベクトルwおよびユーザアクセス履歴保持部102に記憶されている訪問文書ベクトルvに基づいて生成されたユーザプロファイルpを入力し、式(25)および式(27)を用いて、キーワード重みベクトル推定値wが収束するまで、繰り返しユーザプロファイルpおよびキーワード重みベクトル推定値wを生成する。
より具体的には、WWW文書・ユーザプロファイル整合部113は、式(25)において、初期値として、ユーザプロファイル推定値p~を生成する。このときW~は、初期値のキーワード重みベクトルwである。そして、初期値のp~を式(27)で用い、キーワード重みベクトル推定値w~を生成する。このキーワード重みベクトル推定値w~を式(25)に再度適用し、ユーザプロファイル推定値p~を生成する。ここでWWW文書・ユーザプロファイル整合部113は、各要素について正規化処理を行い、キーワード重みベクトル推定値w~ と前回のキーワード重みベクトル推定値w~ n−1との類似度が所定値以上となっているか否かを判断する。ここで類似度は、内積sim(w~ ,w~ n−1)で計算される(式7参照)。
ここで収束したキーワード重みベクトル推定値w~およびユーザプロファイル推定値p~をそれぞれキーワード重みベクトルw、ユーザプロファイルpとして、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶される。
並び替え部110は、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶されているユーザプロファイルpおよびキーワード重みベクトルwを用いて、上述の式(8)、式(11)、式(21)または式(24)のいずれか1つを用いて評価値を算出し、並び替え処理を行う。
つぎに、このように構成されたプロクシー装置100bの処理について説明する。図17は、本実施形態のプロクシー装置100bの動作を示すフローチャートである。図17に示すように、アクセスパターン収集部101により、各利用者端末200が所定期間内にアクセスしたアクセス先情報のアクセスパターンが収集される(S201)。つぎに、ユーザアクセス履歴保持部102に、アクセスパターン収集部101により収集されたアクセス先情報、アクセスパターン収集部101aにより生成された閲覧ユーザベクトルu、訪問WWW文書ベクトルv、および情報収集装置400において取得されたWWW文書が記憶される(S202)。ここで記憶された閲覧ユーザベクトルu、訪問WWW文書ベクトルvが用いられキーワード重みベクトルwおよびユーザプロファイルpに対する整合処理がなされる。この整合処理については、図18において詳細に説明する。そして、整合処理がなされたキーワード重みベクトル、ユーザプロファイルは、それぞれキーワードベクトル保持部109aおよびユーザプロファイル保持部108aに記憶される(S208a、S209a)。
その後、利用者端末200から検索要求がくると、その要求に応じて検索サーバ300に依頼し(S210)、検索サーバ300から検索結果を受けると、並び替え部110により、検索結果は、整合処理された、キーワード重みベクトルおよびユーザプロファイルにより並び替え処理がなされる(S211)。
図18は、上述のS205cにおける整合処理の詳細な処理を示すフローチャートである。まず、n=0として、初期化処理がなされ、p~ =W~n=0が計算される(S301)。つぎに、w~ n+1=(1−α)P~j+αw が計算される(S302)。つぎに、p~ n+1=W~n+1が計算され(S303)、各要素の正規化(または各個人に重み付け処理)を行う(S304)。そして、ユーザプロファイルp~が収束したか否かが判断される(S305)。例えば、p~ とp~ n+1との内積(sim(p~ 、p~ n+1))が計算され、所定値未満であると判断されれば、ユーザプロファイルは収束していないと判断し、n=n+1とし、S302に戻り、再度処理がなされる。
類似度が所定値以上、例えば0.9以上であれば、ユーザプロファイルは収束したと判断し、そのときのキーワード重みベクトルw~ n+1およびユーザプロファイル推定値p~ n+1をそれぞれキーワード重みベクトルw、ユーザプロファイルpとして、ユーザプロファイル保持部108aおよびキーワードベクトル保持部109aに記憶される。そして、並び替え処理のための評価値算出に利用される(式(8)、式(11)、式(21)または式(24)を参照)。
つぎに、本実施形態のプロクシー装置100bの作用効果について説明する。まず、WWW文書・ユーザプロファイル整合部113は、基準値となるキーワード重みベクトルwn=0に基づいてユーザプロファイルp~ を生成し、生成されたユーザプロファイルp~ および基準値となるキーワード重みベクトルwに基づいて、新たなキーワード重みベクトルw~ n+1を生成する。新たなキーワード重みベクトルw~ n+1に基づいて新たなユーザプロファイルp~ n+1を生成する。そして、新たなユーザプロファイルp~ n+1と、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルp~ との類似度を演算し、その類似度が所定値以上となるか否かを判断する。ここで、類似度が所定値以上であると判断するまで繰り返し、ユーザプロファイルp~ n+1およびキーワード重みベクトルw~ n+1を生成し、演算された類似度が所定値以上となったときのキーワード重みベクトルw~ n+1およびユーザプロファイルp~ n+1に基づいて評価値を算出する。
これにより、キーワード重みベクトルとユーザプロファイルとは相互に依存するように生成することで、ユーザプロファイルがキーワード重みベクトルに伝播することにより、ユーザプロファイルおよびキーワード重みベクトルの平滑化および補完を行うことができる。よって、例えばモバイルコンテンツなどの文書量の少ない文書のキーワード重みベクトルを、より精度のよいものとすることができる。また、アクセスの少ないユーザにとっては、そのユーザプロファイルを周辺ユーザから伴うことができ、ユーザにとっての適合性の高い検索結果を提供することができる。
<第一実施形態〜第三実施形態の変形例>
つぎに、第一実施形態〜第三実施形態における変形例について説明する。上記各実施形態においては、利用者端末200において、アクセス履歴保持部202を備えていたものであったが、プロクシー装置100、100a、100bが備えるようにしてもよい。この場合には、アクセス履歴を利用者端末200から転送する必要がなくなるため、アクセス履歴転送部203は不要となる。
また、上述第一実施形態〜第三実施形態においては、装置および方法の形態で説明したが、プログラムの形態でも実現することができる。すなわち、各構成をプログラムモジュールで構成することで、文書処理プログラムとして実現することができる。具体的な機能構成は、第一実施形態〜第三実施形態における各ブロック図で示されている構成と同様の構成をとるものであり、この構成をモジュール化したプログラムを記憶媒体(CDROM等)に記憶させ、パーソナルコンピュータ等に読み込ませることにより実現することができる。
<第四の実施形態>
つぎに、HITSを用いてWWW文書の重要度を算出する方法について説明する。上述の背景技術の欄にて説明したとおり、オーソリティとは、キーワードに関連するページの中で重要度の高いページとなる。よって、オーソリティとなるページは検索結果の上位に表示されることが望ましい。一方で、ハブはオーソリティを発見するための隠れたデータとなる。HITS計算ステップを以下のとおり、具体的に説明する。
探索対象となるWWW文書がキーワードマッチング等により抽出される。一般性を失うことなく、例えば上位200件とし、これをWWW文書集合Rとする。この中にオーソリティとなるWWW文書があればよいが、ない場合もあるために、このWWW文書集合Rに属するWWW文書からリンクが張られているWWW文書、さらにWWW文書集合Rに属するWWW文書にリンクを張っているWWW文書を抽出し、これを探索対象Sとする。このリンクによる探索空間拡張の概念を図20に示す。
以下の式(29)に示されるとおり、探索対象Sに属するWWW文書にオーソリティスコアaと、ハブスコアhとを割り当てる。
Figure 0005340751


探索対象Sに含まれるWWW文書の総数はNとする。また、肩添え字Tは行列ベクトルの転置を表す。
1.初期化処理
以下の式(30)にて示されるとおりオーソリティスコアa、ハブスコアhは初期化される。
Figure 0005340751


<t=0>以降の繰り返し演算の回数を表す非負整数である。
2.オーソシティースコアとハブスコアとの更新処理
Figure 0005340751


式(31)を以下(32)に示されるリンク構造に従った計算により更新する。
各ページpに対して、そのページがリンクしているページのオーソリティスコアの総和を計算し、ページpのハブスコアhを、その総和で置き換える。そして、各ページpに対して、そのページへリンクしているページのハブスコアの総和を計算し、ページpのオーソリティaを、その総和で置き換える。
Figure 0005340751

3.正規化処理
オーソリティスコアの列ベクトルaとハブスコアの列ベクトルhのノルムが1となるよう正規化する((式33)参照)。
Figure 0005340751


上述更新処理および正規化処理をオーソリティスコアとハブスコアとが収束するまで繰り返す。通常、数十回の演算で収束するとされ、ここでは、t=100となるまでの結果とする(式(34)参照)。
Figure 0005340751


なお、この演算の収束性は、行列の固有値問題の解の存在性として保証されている。
まず、リンク構造を以下の式(35)に示されるNxNの正方接続行列で表現する。
Figure 0005340751

そして、上記の繰り返し計算は以下の式(36)の通りとなる。
Figure 0005340751

上述の通り表現でき、これと正規化処理が入ることから、以下の式(37)の通りオーソリティスコアおよびハブスコアを求めることができる。
Figure 0005340751

オーソリティスコアは初期に依存せず、リンク構造から一意に求めることができる。よって、適合度の高かったWWW文書から、重要度、すなわちこの場合は、オーソリティスコアの高い文書を抽出することができる。
本実施形態は、このHITSの計算手法を利用したものである。より具体的には、従来例のHITSでは、WWW文書のリンク構造を対象とした。本実施形態では、ユーザの閲覧状態を介在したリンク構造を用いて、適合度を計算する点に特徴がある。以下、詳細に説明する。
図21は、ユーザの閲覧状態を介在させたHITSアルゴリズムの概念を示す概念図である。図21に示すとおり、WWW文書集合Rは、検索語により適合したWWW文書集合を示す。ユーザU〜Uは、WWW文書集合Rを閲覧したユーザを示す。さらにこのユーザユーザU〜Uが閲覧したWWW文書からWWW文書集合Vが定められる。本実施形態の文書処理装置は、このように定められたWWW文書集合Vに属する各WWW文書のオーソリティスコアを算出することにより、検索された各WWW文書の重要度を求めようとするものである。以下、この手法を実現するための文書処理装置の構成について説明する。
図22は、文書処理装置700の機能を示すブロック図である。この文書処理装置700は、インデックス保持部701(データ構造保持手段)、一次検索部702(一次WWW文書抽出手段)、一次インデックスセット保持部703、アクセス履歴保持部704(閲覧履歴保持手段)、二次検索部705(ユーザ抽出手段、二次WWW文書抽出手段)、二次インデックスセット保持部706、オーソリティスコア計算部707(重要度算出手段)、WWW文書収集部708、並替部709を含んで構成されている。以下、各構成について説明する。なお、本実施形態においては、一つの装置内に各種構成要素を含んだものとしているが、この構成に限るものではなく、複数の装置を相互にネットワークで接続して構成するようにしても良い。例えば、アクセス履歴保持部704は、文書処理装置700内に構成されているが、利用者端末側などに備えて、必要に応じてアクセス履歴を取得するようにしても良い。
インデックス保持部701は、WWW文書のインデックスファイル(文書中のキーワードなどの情報)を記憶する部分である。このインデックスファイルには、検索を容易にするための情報としてキーワード、URLなどの情報のほか、WWW文書のタイトル、当該WWW文書に含まれている他のWWW文書に対するリンク情報(URL)などが記述されることが好ましい。インデックスファイルにリンク情報が記述されている場合には、各WWW文書間のリンクの関係を示すための有向グラフのように各WWW文書を管理することができる。
一次検索部702は、インデックス保持部701に記憶されているインデックスファイルから、利用者端末のWWW文書ブラウザ800から入力された検索語を含んだWWW文書を検索する部分である。
一次インデックスセット保持部703は、一次検索部702により検索されたWWW文書を初期WWW文書集合として記憶する部分である。
アクセス履歴保持部704は、WWW文書ブラウザ900(WWW文書ブラウザ800を含む)においてWWW文書の閲覧履歴を記憶する部分であり、ユーザを特定するためのID情報と閲覧した内容を示すURL等とを対応付けて記憶する。
二次検索部705は、一次インデックスセット保持部703に記憶されているWWW文書集合における各WWW文書にアクセスしたユーザを、前記アクセス履歴保持部704から特定し、さらに特定されたユーザがどのWWW文書を閲覧したかを検索して、そのWWW文書集合を抽出する部分である。
二次インデックスセット保持部706は、二次検索部705により抽出されたWWW文書集合を記憶する部分である。
オーソリティスコア計算部707は、オーソリティスコアを計算する部分である。具体的には、以下の処理により実現される。
オーソリティスコア計算部707は、WWW文書ブラウザ800から入力された検索語に適合したWWW文書集合Rを閲覧したユーザ集合Uを、アクセス履歴保持部704から抽出し、このユーザ集合Uにより特定されたユーザ(WWW文書ブラウザ)が閲覧したWWW文書集合Vを求める。
一方、ユーザ集合UからWWW文書集合Vへの参照情報は、リスト形式である以下の式(38)により表される。
Figure 0005340751

そして、ユーザ集合Uの個数をM、WWW文書集合Vの個数をNとした場合、それぞれオーソリティスコアaとハブスコアhとは以下の式(39)で示されるベクトルをもって表現される。
Figure 0005340751


このベクトル表現からわかるようにオーソリティスコアはWWW文書集合Vの上に定義され、ハブスコアはユーザ集合Uの上に定義されている。上述のことを前提にして、図23に示される処理が実行される。
S401:初期化(式(40)参照)
Figure 0005340751

S402:更新処理
参照情報Eを参考にして以下の式(41)が計算される。
Figure 0005340751

S403:正規化処理(式(42)参照)
Figure 0005340751

S404:収束判定処理
オーソリティスコアaおよびハブスコアhが収束するまで、S402およびS403の処理が実行される。なお、S402およびS403の処理が100回を超えないようにするために処理回数のカウント判定も並行して行われる。
S405:t=t+1
S404にて、収束判定がなされない場合には、tに1が加算され、S402、およびS403の処理が実行される。なお、上述したとおり、t=100になるまで、上述の処理が繰り返し行われるようにする。このようにして、オーソリティスコアaおよびハブスコアhが計算される。
WWW文書収集部708は、一次インデックスセット保持部703に保持されているインデックスに従ってWWW文書を収集する部分である。
並替部709は、WWW文書収集部708により収集されたWWW文書に対して、二次インデックスセット保持部706により抽出されたWWW文書(インデックス情報)およびオーソリティスコアに従った並び替えを行う部分である。この並び替えによりWWW文書ブラウザ800においては、オーソリティスコアの順にWWW文書は表示されることにより、より重要と思われるWWW文書は閲覧しやすくなる。
つぎに、本実施形態の作用効果について説明する。本実施形態の文書処理装置700において、一次検索部702は、WWW文書ブラウザ800から入力された検索語に従って検索し、二次検索部705は、ここで検索されたWWW文書Rに対してアクセスしたユーザのユーザ集合Uを抽出し、当該ユーザが閲覧したWWW文書のWWW文書集合Vを抽出し、二次インデックスセット保持部706に記憶させる。そして、オーソリティスコア計算部707は抽出されたWWW文書集合Vに対してユーザが閲覧した度合い(ハブスコアh)に基づいて、各WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、モバイルコンテンツなどのアクセス量・リンク量の少ないWWW文書に対する重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第四の実施形態の変形例>
第四の実施形態では、検索語に適合したWWW文書集合Rを訪れたユーザの集合であるユーザ集合Uに基づいて、このユーザが参照したWWW文書の集合であるWWW文書集合Vを求めたが、このWWW文書集合Vが大きくなりすぎること、または、適合度が低いにも関わらず、訪問数が多いWWW文書(たとえば,特定の人気ポータルサイト)をオーソリティとして抽出してしまうことがありえる。そのため、従来例と同じくWWW文書集合Rから参照されているWWW文書集合とWWW文書集合Rを参照するWWW文書集合を加えた拡大WWW文書集合Sに基づいてオーソリティ計算を行う変形が考えられる。
すなわち、図24に示すように、検索語に適合したWWW文書集合Rを訪れたユーザ集合Uを求める。つぎに、WWW文書集合Rが参照したWWW文書集合、およびWWW文書集合Rを参照したWWW文書集合をWWW文書集合Sとする。そして、ユーザ集合UがWWW文書集合Sに属するWWW文書を参照した参照情報をリスト形式で作成する。具体的には以下の式(43)の通りとなる。
Figure 0005340751

ユーザUの個数をM、WWW文書集合Sに属するWWW文書の個数をNとして、それぞれオーソリティスコアとハブスコアを以下の式(44)のベクトルとして表現する。
Figure 0005340751


このベクトル表現からわかるようにオーソリティスコアは集合Vの上に定義され,ハブスコアは集合Uの上に定義されている.
計算は以下のステップで行われる。これは上述のHTISの計算手法と同じであるため、その詳細は省略する。
ステップ1:初期化(式(45)参照)
Figure 0005340751


ステップ2:更新 参照情報Eを参考にして以下の式(46)を計算する.
Figure 0005340751


ステップ3:正規化((式47)参照)
Figure 0005340751


ステップ2とステップ3とを繰り返し処理するたびに、tを1ずつ増加させt=100となった時点で終了する。
上述の処理を実行するためには、本変形例においては、第四の実施形態における文書処理装置700において、二次検索部705が、インデックス保持部701に記憶されているインデックスファイルを利用して、WWW文書集合Rの各WWW文書を参照する他のWWW文書およびWWW文書集合Rの各WWW文書が参照する他のWWW文書を含んだWWW文書集合Sを抽出する。そして、二次検索部705は、ユーザ集合Uにおける各ユーザが参照するWWW文書集合Sの各WWW文書を抽出し、参照情報Eを抽出し、これを二次インデックスセット保持部706に記憶させる。
オーソリティスコア計算部707は、これら参照情報Eを用いてオーソリティスコアaをHITSの手法を用いて計算する。
つぎに、本変形例における文書処理装置700の作用効果について説明する。この変形例における文書処理装置700において、一次検索部702は、WWW文書ブラウザ800から入力された検索語に従ってWWW文書集合Rを検索し、二次検索部705は、ここで検索されたWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uをアクセス履歴保持部704に記憶されている履歴情報に従って抽出する。さらにこの二次検索部705は、インデックス保持部701に記憶されている、WWW文書間における参照関係を有向グラフとして管理可能なデータ(インデックスファイル)に基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。二次インデックスセット保持部706は、ユーザ集合Uにおける各ユーザが、文書集合Sに対して参照したことを示す参照情報Eを記憶する。そして、オーソリティスコア計算部707は、二次検索部705aにおいて抽出され、WWW文書集合Sに対してユーザ集合Uの各ユーザが閲覧した度合い(ハブスコアh)に基づいて、WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第五の実施形態>
つぎに、第五の実施形態について説明する。この第五の実施形態では、第四の実施形態とは異なり、リンク構造でWWW文書とユーザとを区別せず、同じノードとして扱う。またリンク構造は、0、1ではなく、[0.0, 1.0]のような連続値で扱われる。図25を用いて、本実施形態におけるデータ定義を説明する。
検索語に適合したWWW文書集合Rを閲覧したユーザ集合Uを求める。一方で、WWW文書集合Rが参照され、およびWWW文書集合Rを参照したWWW文書集合Sを求める。WWW文書集合Sとユーザ集合Uとを結合してノード集合Wを生成する。このノード集合Wに属するノードの個数はWWW文書数Nとユーザ数Mとを加算した値となり、表記簡略化のため、L=N+Mとする。
つぎに、以下の式(48)に示されるように接続行列を定義する.
Figure 0005340751

ここで、一般性を失うことなく、0<t≦s≦1.0とする。tはユーザからWWW文書へ参照した際における当該参照に対する重み付け係数であり、sはWWW文書集合S内のWWW文書への参照に対する重み付け係数である。文書間参照と、ユーザの文書参照とを同一に扱えないと考え、[0,1.0]の重みを導入している。例えば、s=1.0として、tは実験的に定めればよい。たとえば,t=0.001とすることが可能である。
つぎに、オーソリティスコアとハブスコアを以下の式(49)に示されるベクトルとして表現する.
Figure 0005340751


このベクトル表現からわかるようにオーソリティスコアは集合Wの上に定義され、ハブスコアも集合Wの上に定義されている。
計算は以下のステップで行われる。この計算処理は、上述したとおり、HITS手法と同じである。
ステップ1:初期化処理(式(50)参照)
Figure 0005340751

ステップ2:更新処理
参照情報Eを参考にして以下の式(51)を計算する.
Figure 0005340751

ステップ3:正規化処理(式(52)参照)
Figure 0005340751

ステップ4:収束判定処理
ステップ2とステップ3を収束するまで繰り返し行うとともに、収束しない場合には、tを1ずつ増加させt=100で終了する。
この具体的な処理を実現する文書処理装置700aの機能について説明する。図26は、文書処理装置700aの機能を示すブロック図である。図22に示される文書処理装置700とは、一次検索部702a(一次WWW文書抽出手段)、一次インデックスセット保持703a、二次検索部705a(二次WWW文書抽出手段)、および二次インデックスセット保持部706aの動作内容が異なるだけである。
一次検索部702aは、検索語からWWW文書集合Sを生成する。そして、一次インデックスセット保持部703aは、生成されたWWW文書集合Sを記憶する。つぎに、二次検索部705aは、WWW文書集合S、WWW文書集合V、および参照情報Eを得て、ノード集合Wと接続行列Cを生成する。そして、オーソリティスコア計算部707aは、上述の通り、ステップ1からステップ4の処理を実行することにより、オーソリティスコアを計算することができる。
つぎに、本実施形態の文書処理装置700aの作用効果について説明する。この文書処理装置700aにおいて、インデックス保持部701は、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持しておき、一次検索部702aは、WWW文書ブラウザ800から入力された検索語に従って検索を行う。そして、二次検索部705aは、ここで検索されたWWW文書のWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uを抽出する。また、二次検索部705aは、参照関係を有向グラフとして管理可能にさせるデータに基づいて、各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。二次検索部705aは、ここで抽出されたユーザを示すユーザ集合Uと、抽出されたWWW文書のWWW文書集合Sとを合算して、一つのノード集合Wを生成する。そして、生成されたノード集合Wにおける各WWW文書間における参照された度合いおよび各ユーザが各WWW文書に対して閲覧した度合いにそれぞれ重み付けを行って(接続行列C)、この接続行列Cを用いて各WWW文書の重要度(オーソリティスコアa)を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
<第五の実施形態の変形例>
この第五の実施形態の変形として、図27に示すように接続行列Cから直接オーソリティスコアを求めることが考えられる。図27に示されるとおり、オーソリティスコア計算部707aは、接続行列Cを生成する(S501)。つぎに、この接続行列Cの転置行列Cを生成し、これら接続行列Cと転置行列Cを乗算することにより、CCの最大固有値に対応する固有ベクトルを算出することで、オーソリティスコアaを算出することができる(S502)。この行列の演算には、例えば下記参考文献に示されている高速近似算法を適用することが考えられる。
[参考文献]
Taher Haveliwala. "Efficient Computation ofPageRank," Stanford University Technical Report, September 1999、[ONLIN]、[平成20年12月8日検索]、インターネット
<http://infolab.stanford.edu/%7Etaherh/papers/efficient-pr.pdf>
<第六の実施形態>
つぎに、第六の実施形態について説明する。第四および第五の実施形態では、検索サービスを想定した文書処理装置を説明したが、第六の実施形態では、より一般的に任意の検索語に対して、ユーザのアクセスパターンだけから重要度を計算する装置を説明する。
本実施形態においては、あるWWW文書に対するハブベクトルを計算し、このハブベクトルを固定として用いることにより、そのWWW文書をどのような人が訪れたかで検索語に対する重要度を評価できる。以下、詳細に説明する。
図24に示すように、検索語に適合したWWW文書集合Rを訪れたユーザ集合Uを求め、また、WWW文書集合Rが参照し、およびWWW文書集合Rを参照したWWW文書集合Sを求める。そして、ユーザ集合UがWWW文書集合Sに属するWWW文書を参照した参照情報をリスト形式で作成する。具体的には以下の式(53)の通りとなる。
Figure 0005340751

ここでは、ユーザ集合Uの個数をM、WWW文書集合Sの個数をNとして、それぞれオーソリティスコアとハブスコアとを以下の式(54)のベクトルとして表現する。
Figure 0005340751

このベクトル表現からわかるようにオーソリティスコアはWWW文書集合Vの上に定義され、ハブスコアはユーザ集合Uの上に定義されている。
計算は以下のステップで行われる。
ステップ1:初期化処理(式(55)参照)
Figure 0005340751

ステップ2:更新処理
参照情報Eを参考にして以下の式(56)のとおりの計算が行われる。
Figure 0005340751

ステップ3:正規化処理(式(57)参照)
Figure 0005340751


ステップ2とステップ3を繰り返すたびにtを1ずつ増加させ、t=100となった時点で終了する。
図28は、第五の実施形態の文書処理装置700bの機能を示すブロック図である。この文書処理装置700bは、インデックス保持部701、一次検索部702(一次WWW文書抽出手段)、一次インデックスセット保持部703、アクセス履歴保持部704、二次検索部705(ユーザ抽出手段、二次WWW文書抽出手段)、二次インデックスセット保持部706、ハブスコア計算部707b(ハブスコア算出手段)、および重要度計算部709a(重要度算出手段)を含んで構成されている。上述の文書処理装置700および700aと略同様の構成をとるものであるため、相違する構成について説明する。
第五の実施形態でのハブスコア計算部707bは、第三および第四のオーソリティスコア計算部707とほぼ同じであるが、ハブベクトルを出力する点で相違する。このハブスコア計算部707bにより計算されたハブベクトルを用いて、一次検索部702により任意に検索されて得られたWWW文書に対する重要度計算部709aは、以下の計算を行う。
なお、この検索された任意のWWW文書には、当該WWW文書を訪問(閲覧)したユーザ訪問回数が記録されているものとする。本実施形態では、この訪問回数を訪問ベクトルuと称することにし、以下の式(58)の列ベクトルをもって表す。なお、ユーザ集合Uの個数をMとしている。
Figure 0005340751

上述ハブスコア計算部707bにより計算されたハブベクトルは、ある特定の検索語、すなわち一般的にはある話題についてのハブとなるユーザを表す。従って、重要度は、以下の式(59)の通り、式(7)と同様に計算される。
Figure 0005340751


ハブベクトルと訪問ベクトルとの余弦距離1−sim(u,h)が小さければ,そのWWW文書は所定の検索語に対して適正な結果であるWWW文書である、いわゆる検索語に近いものであると考えることができ、重要度が高いものであると判断することができる。
この変形として、訪問ベクトルuとハブベクトルhとの余弦距離ではなく、他の類似度を用いても良い。例えば、訪問ベクトルuとハブベクトルhとの内積を用いても同様にその類似度を算出することができる。また、非類似度を距離として表現する場合は、余弦距離の代わりに絶対値距離、ユークリッド距離、マハラノビス(汎)距離、ミンコフスキー距離などが使える。
つぎに、本実施形態の文書処理装置700bの作用効果について説明する。この文書処理装置700bにおいて、一次検索部702aは、WWW文書ブラウザ800から入力された検索語に従って検索し、WWW文書集合Rを抽出する。そして、二次検索部705aは、ここで検索されたWWW文書集合Rに対してアクセスしたユーザのユーザ集合Uを抽出し、インデックス保持部701において保持されている、WWW文書間における参照関係を有向グラフとして管理可能なデータ(インデックスファイル)に基づいて、抽出された各WWW文書が参照している他のWWW文書、および各WWWW文書を参照している他のWWW文書をWWW文書集合Sとして抽出する。そして、ハブスコア計算部707bは、抽出されたユーザ集合Uの各ユーザが、抽出された各WWW文書Sに対して閲覧した度合いを示すハブスコアhを算出し、重要度計算部109は、任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルuとハブスコアhとの一致の度合いに基づいて重要度を算出することができる。これにより、WWW文書の重要度を精度良く算出することができ、精度の良い検索を可能にさせる。
以上、検索語により得られたWWW文書をあるトピックに関連するドキュメントとし、このドキュメントへのユーザ訪問行動からユーザのハブを求め、このハブを固定した上で、任意のWWW文書に対して、任意トピックに対する重要度を示す方法も示した。これは、ユーザ訪問行動を観測データ、最初の一次検索結果であるWWW文書を教師データとして、WWW文書に対してジャンル分類を可能とする方法を示している。
従来技術における検索システムの概略構成を示すシステム構成図である。 HITSアルゴリズムの概念を示す概念図である。 ユーザが閲覧したウェブページの遷移状態を示す図である。 検索システムの構成を示すシステム構成図であり、 検索システムの動作を示すフローチャートである。 サイトAとサイトBとにおけるモバイルコンテンツの構造を示す説明図である。 第一実施形態のプロクシー装置100を利用した情報処理システムの機能構成を示すシステム構成図である。 プロクシー装置100のハードウェア構成図である。 WWW文書の一例を示す説明図である。 情報収集装置400からの出力例を示す説明図である。 本実施形態のプロクシー装置100の動作を示すフローチャートである。 時間帯ごとに区別して、WWW文書にアクセスしたユーザを示す説明図である。 第二実施形態におけるプロクシー装置100aを利用した情報処理システムの機能構成を示すシステム構成図である。 本実施形態のプロクシー装置100aの動作を示すフローチャートである。 第三実施形態のプロクシー装置100bを利用した情報処理システムの機能構成を示すシステム構成図である。 ユーザとWWW文書との閲覧関係を示す説明図である 本実施形態のプロクシー装置100bの動作を示すフローチャートである。 整合処理の詳細な処理を示すフローチャートである。 第一の実施形態の変形例におけるプロクシー装置100の構成を示すブロック図である。 探索空間拡張の概念を示す概念図である。 ユーザの閲覧状態を介在させたHITSアルゴリズムの概念を示す概念図である。 第四の実施形態の文書処理装置700の機能を示すブロック図である。 オーソリティスコア計算部707の処理を示すフローチャートである。 ユーザの閲覧状態を介在させたHITSアルゴリズムの概念を示す概念図である。 ユーザの閲覧状態を介在させたHITSアルゴリズムの概念を示す概念図である。 第五の実施形態の文書処理装置700aの機能を示すブロック図である。 オーソリティスコア計算部707aの処理を示すフローチャートである。 第六の実施形態の文書処理装置700bの機能を示すブロック図である。
100…プロクシー装置、100a…プロクシー装置、100b…プロクシー装置、101…アクセスパターン収集部、101a…アクセスパターン収集部、102…ユーザアクセス履歴保持部、103…キーワードベクトル保持部、104…WWW文書類似度演算部、105…ユーザ類似度演算部、106…キーワードベクトル平滑部、107…ユーザプロファイル平滑部、108…平滑化ユーザプロファイル保持部、108a…ユーザプロファイル保持部、109…平滑化キーワードベクトル保持部、109a…キーワードベクトル保持部、110…並び替え部、110a…並び替え部、111…重要度補正部、112…重要度補正値保持部、113…WWW文書・ユーザプロファイル整合部、200…利用者端末、201…WWWブラウザ、202…アクセス履歴保持部、203…アクセス履歴転送部、300…検索サーバ、400…情報収集装置、501…ウェブロボット、502…サーバ、503…インデックスファイル、505…検索サーバ、506…ウェブサーバ、507…端末700…文書処理装置、700a…文書処理装置、700b…文書処理装置、701…インデックス保持部、702…一次検索部、702a…一次検索部、703…一次インデックスセット保持部、703a…一次インデックスセット保持、704…アクセス履歴保持部、705…二次検索部、705a…二次検索部、706…二次インデックスセット保持部、706a…二次インデックスセット保持部、707…オーソリティスコア計算部、707a…オーソリティスコア計算部、707b…ハブスコア計算部、708…文書収集部、709…並替部、709a…重要度計算部、800…文書ブラウザ、900…文書ブラウザ。

Claims (23)

  1. 文書処理装置における文書処理方法において、
    アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、
    文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、
    キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、
    評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、
    を備える文書処理方法。
  2. 前記キーワード重みベクトル補正ステップは、前記文書類似度を用いて前記他の文書におけるキーワード重みベクトルを補正し、補正したキーワード重みベクトルを用いて、前記一の文書におけるキーワード重みベクトルを補正することを特徴とする請求項1に記載の文書処理方法。
  3. ユーザ類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一のユーザにより閲覧された複数の文書を示す一の文書パターンと他のユーザにより閲覧された複数の文書を示す他の文書パターンとにより、ユーザ間の類似度を示すユーザ類似度を演算するユーザ類似度演算ステップと、
    ユーザプロファイル補正手段が、前記ユーザ類似度演算ステップにより演算されたユーザ類似度を用いて、前記一のユーザの特徴を示すユーザプロファイルを補正するユーザプロファイル補正ステップと、
    をさらに備え、
    前記評価値算出ステップは、さらに、前記ユーザプロファイル補正ステップにより補正された一のユーザプロファイルに基づいて、前記検索のための入力情報に対する評価値を算出することを特徴とする請求項1または2に記載の文書処理方法。
  4. 前記ユーザプロファイル補正ステップは、前記ユーザ類似度を用いて他のユーザのユーザプロファイルを補正し、当該補正されたユーザプロファイルに基づいて、前記一のユーザのユーザプロファイルを補正することを特徴とする請求項3に記載の文書処理方法。
  5. 取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップをさらに備え、
    前記評価値算出ステップは、前記取得ステップにより取得された重要度情報を用いて前記検索のための入力情報に対する評価値を算出することを特徴とする請求項1から4いずれか1項に記載の文書処理方法。
  6. 前記評価値算出ステップは、
    前記一の文書における補正されたキーワード重みベクトルが存在する場合には、当該補正されたキーワード重みベクトルを用いて評価値を算出し、
    前記一の文書における補正されたキーワード重みベクトルが存在しない場合には、補正前のキーワード重みベクトルを用いて評価値を算出することを特徴とする請求項1から5のいずれか1項に記載の文書処理方法。
  7. 取得手段が、ユーザからのアクセスにしたがって検索サーバから文書を取得する取得ステップをさらに備え、
    前記取得ステップにおいて受け付けられたアクセスをアクセス履歴として、収集ステップにおいて収集することを特徴とする請求項1から6のいずれか1項に記載の文書処理方法。
  8. 文書処理装置の文書処理方法において、
    アクセス履歴収集手段が、ユーザのアクセス履歴を収集する収集ステップと、
    文書類似度演算手段が、前記収集ステップにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示す一のユーザパターンと他の文書を閲覧した複数のユーザを示す他のユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算ステップと、
    キーワード重みベクトル補正手段が、前記文書類似度演算ステップにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正ステップと、
    取得手段が、文書ごとに付された重要度を示す重要度情報を取得する取得ステップと、
    重要度補正手段が、前記収集ステップにより収集されたユーザのアクセスに従って、第1の時間帯に一の文書を閲覧したユーザを示す第1のユーザパターンと、第2の時間帯に一の文書を閲覧したユーザを示す第2のユーザパターンとが区別され、当該第1のユーザパターン、第2のユーザパターンの類似度および前記一の文書のアクセス数に基づいて、前記一の文書の重要度を補正する重要度補正ステップと、
    評価値算出手段が、前記キーワード重みベクトル補正ステップにより補正されたキーワード重みベクトルおよび前記重要度補正ステップにより補正された重要度情報に基づいて、検索のための入力情報に対する評価値を算出する評価値算出ステップと、
    を備える文書処理方法。
  9. 出力手段が、前記評価値算出ステップにより算出された評価値に応じて、ユーザにより検索された検索結果を出力する出力ステップをさらに備えることを特徴とする請求項1から8のいずれか1項に記載の文書処理方法。
  10. 文書処理装置の文書処理方法において、
    第1生成手段が、基準値となるキーワード重みベクトルに基づいてユーザプロファイルを生成する第1生成ステップと、
    第2生成手段が、前記第1の生成ステップにより生成されたユーザプロファイルおよび基準値となるキーワード重みベクトルに基づいて、新たなキーワード重みベクトルを生成する第2生成ステップと、
    第3生成手段が、前記第2の生成ステップにより生成された前記新たなキーワード重みベクトルに基づいて前記新たなユーザプロファイルを生成する第3生成ステップと、
    ユーザプロファイル類似度生成手段が、前記第3生成ステップにより生成された前記新たなユーザプロファイルと、当該新たなユーザプロファイルの直近に生成されたユーザプロファイルとの類似度を演算するユーザプロファイル類似度生成ステップと、
    評価値算出手段が、前記ユーザプロファイル類似度生成ステップにより演算された類似度、キーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出する評価値算出ステップと、
    を備える文書処理方法。
  11. 判断手段が、前記ユーザプロファイル類似度生成ステップにより生成された類似度が所定値以上となるか否かを判断する判断ステップをさらに備え、
    前記評価値算出ステップは、前記ユーザプロファイル類似度生成ステップにより演算された類似度が所定値以上となったときのキーワード重みベクトルおよびユーザプロファイルに基づいて評価値を算出することを特徴とする請求項10に記載の文書処理方法。
  12. ユーザのアクセス履歴を収集するアクセス履歴収集手段と、
    前記アクセス履歴収集手段により収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算手段と、
    前記文書類似度演算手段により演算された文書類似度を用いて前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正手段と、
    前記キーワード重みベクトル補正手段により補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出手段と、
    を備える文書処理装置。
  13. アクセス履歴を記憶する利用者端末と、前記利用者端末によりアクセスされた文書のキーワード重みベクトルを生成する情報収集装置と、前記利用者端末のアクセス履歴および前記情報収集装置で生成したキーワード重みベクトルを取得する請求項12に記載の文書処理装置と、を備えることを特徴とする検索システム。
  14. ユーザのアクセス履歴を収集する収集モジュールと、
    前記収集モジュールにより収集されたアクセス履歴にしたがった、一の文書を閲覧した複数のユーザを示すユーザパターンと、他の文書を閲覧した複数のユーザを示すユーザパターンとにより、文書間の類似度を示す文書類似度を演算する文書類似度演算モジュールと、
    前記文書類似度演算モジュールにより演算された文書類似度を用いて、前記一の文書におけるキーワード重みベクトルを補正するキーワード重みベクトル補正モジュールと、
    前記キーワード重みベクトル補正モジュールにより補正されたキーワード重みベクトルに基づいて、検索のための入力情報に対する評価値を算出する評価値算出モジュールと、
    コンピュータに機能させる文書処理プログラム。
  15. 検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、
    前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、
    前記ユーザ抽出手段により抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出手段と、
    前記二次WWW文書抽出手段により抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段と
    備える文書処理装置。
  16. 前記重要度算出手段は、前記ユーザ抽出手段により抽出されたユーザ集合における各ユーザが閲覧した度合いに基づいてWWW文書の重要度を算出することを特徴とする請求項15に記載の文書処理装置。
  17. 検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、
    前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出手段と、
    WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、
    前記二次WWW文書抽出手段により抽出されたWWW文書集合に対して前記ユーザ抽出手段により抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出手段により抽出されたWWW文書の重要度を算出する重要度算出手段とを備える文書処理装置。
  18. 複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、
    WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
    検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、
    前記一次WWW文書抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出手段により抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出手段と、
    前記二次WWW文書抽出手段により抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出手段とを備える文書処理装置。
  19. 複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、
    WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、
    検索語に従ってWWW文書を抽出する一次WWW文書抽出手段と、
    前記抽出手段により抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出手段と、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出手段により抽出された各WWW文書が参照している他のWWW文書、および前記各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出手段と、
    前記ユーザ抽出手段により抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出手段により抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出手段と、
    任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出手段により算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出手段とを備える文書処理装置。
  20. 文書処理装置の文書処理方法において、
    一次WWW文書抽出手段が、検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、
    ユーザ抽出手段が、前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、
    二次WWW文書抽出手段が、前記ユーザ抽出ステップにより抽出されたユーザが閲覧したWWW文書のWWW文書集合を抽出する二次WWW文書抽出ステップと、
    重要度算出手段が、前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対してユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップと
    を備える文書処理方法。
  21. WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段を備える文書処理装置の文書処理方法において、
    検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、
    前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を抽出するユーザ抽出ステップと、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、
    前記二次WWW文書抽出ステップにより抽出されたWWW文書集合に対して前記ユーザ抽出ステップにより抽出されたユーザが閲覧した度合いに基づいて、前記一次WWW文書抽出ステップにより抽出されたWWW文書の重要度を算出する重要度算出ステップとを備える文書処理方法。
  22. 複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、
    検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、
    前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出し、前記ユーザ抽出ステップにより抽出されたユーザを示す集合と、前記抽出されたWWW文書のWWW文書集合とを合算して、一つのノード集合を抽出する二次WWW文書抽出ステップと、
    前記二次WWW文書抽出ステップにより抽出されたノード集合における前記各WWW文書間における参照された度合いおよび前記各ユーザが前記各WWW文書に対する閲覧した度合いにそれぞれ重み付けを行って、WWW文書の重要度を算出する重要度算出ステップとを備える文書処理方法。
  23. 複数のユーザにおけるWWW文書に対する閲覧履歴を保持する閲覧履歴保持手段と、WWW文書間における参照関係を有向グラフとして管理可能なデータを保持するデータ構造保持手段と、を備える文書処理装置の文書処理方法において、
    検索語に従ってWWW文書を抽出する一次WWW文書抽出ステップと、
    前記一次WWW文書抽出ステップにより抽出されたWWW文書に対してアクセスしたユーザのユーザ集合を前記閲覧履歴保持手段から抽出するユーザ抽出ステップと、
    前記データ構造保持手段に記憶されているデータに基づいて、前記一次WWW文書抽出ステップにより抽出された各WWW文書が参照している他のWWW文書、および各WWW文書を参照している他のWWW文書を抽出する二次WWW文書抽出ステップと、
    前記ユーザ抽出ステップにより抽出されたユーザ集合の各ユーザが、前記二次WWW文書抽出ステップにより抽出された各WWW文書に対して閲覧した度合いを示すハブスコアを算出するハブスコア算出ステップと、
    任意のWWW文書に含まれている当該WWW文書を訪問したユーザの訪問ベクトルと前記ハブスコア算出ステップにより算出されたハブスコアとの一致の度合いに基づいて重要度を算出する重要度算出ステップとを備える文書処理方法。
JP2009001747A 2008-04-22 2009-01-07 文書処理装置および文書処理方法 Expired - Fee Related JP5340751B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009001747A JP5340751B2 (ja) 2008-04-22 2009-01-07 文書処理装置および文書処理方法
US12/427,302 US8176033B2 (en) 2008-04-22 2009-04-21 Document processing device and document processing method
CN2009101350586A CN101567011B (zh) 2008-04-22 2009-04-22 文档处理装置、文档处理方法以及检索系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008111524 2008-04-22
JP2008111524 2008-04-22
JP2009001747A JP5340751B2 (ja) 2008-04-22 2009-01-07 文書処理装置および文書処理方法

Publications (2)

Publication Number Publication Date
JP2009282957A JP2009282957A (ja) 2009-12-03
JP5340751B2 true JP5340751B2 (ja) 2013-11-13

Family

ID=41201985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009001747A Expired - Fee Related JP5340751B2 (ja) 2008-04-22 2009-01-07 文書処理装置および文書処理方法

Country Status (3)

Country Link
US (1) US8176033B2 (ja)
JP (1) JP5340751B2 (ja)
CN (1) CN101567011B (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082637A1 (en) * 2008-09-30 2010-04-01 Yahoo; Inc. Web Page and Web Site Importance Estimation Using Aggregate Browsing History
JP4633162B2 (ja) * 2008-12-01 2011-02-16 株式会社エヌ・ティ・ティ・ドコモ インデックス生成システム、情報検索システム、及びインデックス生成方法
GB2472250A (en) * 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance
EP2354975B1 (en) * 2010-02-09 2013-04-10 ExB Asset Management GmbH Automatic association of informational entities
CN103026358A (zh) * 2010-09-13 2013-04-03 日本电气株式会社 数据整合处理设备、系统、方法和程序
US9117067B2 (en) * 2011-01-28 2015-08-25 Ntt Docomo, Inc Mobile information terminal and gripping-feature learning method
JP5552448B2 (ja) * 2011-01-28 2014-07-16 株式会社日立製作所 検索式生成装置、検索システム、検索式生成方法
US9424360B2 (en) * 2013-03-12 2016-08-23 Google Inc. Ranking events
US10521807B2 (en) * 2013-09-05 2019-12-31 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
US9646104B1 (en) * 2014-06-23 2017-05-09 Amazon Technologies, Inc. User tracking based on client-side browse history
US10182046B1 (en) 2015-06-23 2019-01-15 Amazon Technologies, Inc. Detecting a network crawler
US9712520B1 (en) 2015-06-23 2017-07-18 Amazon Technologies, Inc. User authentication using client-side browse history
CN105630788B (zh) * 2014-10-28 2019-05-03 佳能株式会社 用于确定具有区别性事实的近似判断的方法和装置
CN104462310B (zh) * 2014-11-28 2018-02-02 北京国双科技有限公司 网页搜索关键词的相关性检测方法及装置
US10290022B1 (en) 2015-06-23 2019-05-14 Amazon Technologies, Inc. Targeting content based on user characteristics
CN108628821B (zh) * 2017-03-21 2022-11-25 腾讯科技(深圳)有限公司 一种词汇挖掘方法及装置
US10476673B2 (en) 2017-03-22 2019-11-12 Extrahop Networks, Inc. Managing session secrets for continuous packet capture systems
US9967292B1 (en) 2017-10-25 2018-05-08 Extrahop Networks, Inc. Inline secret sharing
US10389574B1 (en) 2018-02-07 2019-08-20 Extrahop Networks, Inc. Ranking alerts based on network monitoring
JP7199079B2 (ja) * 2018-07-03 2023-01-05 Bank Invoice株式会社 情報処理装置、情報処理方法およびプログラム
US10411978B1 (en) 2018-08-09 2019-09-10 Extrahop Networks, Inc. Correlating causes and effects associated with network activity
US10965702B2 (en) 2019-05-28 2021-03-30 Extrahop Networks, Inc. Detecting injection attacks using passive network monitoring
US11165814B2 (en) 2019-07-29 2021-11-02 Extrahop Networks, Inc. Modifying triage information based on network monitoring
US11388072B2 (en) 2019-08-05 2022-07-12 Extrahop Networks, Inc. Correlating network traffic that crosses opaque endpoints
US10742677B1 (en) 2019-09-04 2020-08-11 Extrahop Networks, Inc. Automatic determination of user roles and asset types based on network monitoring
US11165823B2 (en) 2019-12-17 2021-11-02 Extrahop Networks, Inc. Automated preemptive polymorphic deception
WO2022066910A1 (en) 2020-09-23 2022-03-31 Extrahop Networks, Inc. Monitoring encrypted network traffic
US11463466B2 (en) 2020-09-23 2022-10-04 Extrahop Networks, Inc. Monitoring encrypted network traffic
JP7049010B1 (ja) * 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
US11349861B1 (en) 2021-06-18 2022-05-31 Extrahop Networks, Inc. Identifying network entities based on beaconing activity
US11296967B1 (en) 2021-09-23 2022-04-05 Extrahop Networks, Inc. Combining passive network analysis and active probing
US11843606B2 (en) * 2022-03-30 2023-12-12 Extrahop Networks, Inc. Detecting abnormal data access based on data similarity
US12483384B1 (en) 2025-04-16 2025-11-25 Extrahop Networks, Inc. Resynchronizing encrypted network traffic

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3531344B2 (ja) * 1996-03-11 2004-05-31 富士ゼロックス株式会社 情報検索装置
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
JPH10207901A (ja) 1997-01-22 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法及びシステム
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
JP2002032401A (ja) 2000-07-18 2002-01-31 Mitsubishi Electric Corp 文書検索方法及び文書検索装置及び文書検索方法をコンピュータに実現させるためのプログラムを記録したコンピュータで読取可能な記録媒体
JP2002215665A (ja) * 2001-01-16 2002-08-02 Dainippon Printing Co Ltd 情報推薦サーバー装置
JP2002312397A (ja) * 2001-04-09 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> 相関アイテム検出方法および装置、お薦めアイテム紹介方法および装置、相関アイテム検出プログラム、お薦めアイテム紹介プログラム、同プログラムを記録した記録媒体
US7289985B2 (en) * 2004-04-15 2007-10-30 Microsoft Corporation Enhanced document retrieval
CN1825302A (zh) * 2005-02-22 2006-08-30 中国电子技术标准化研究所 一种xml文档处理方法
JP2007004779A (ja) * 2005-05-26 2007-01-11 Tokyo Electric Power Co Inc:The リンク生成、リンク重要度及び類似文書に関する情報処理方法及び装置
US7933897B2 (en) 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
WO2007084616A2 (en) * 2006-01-18 2007-07-26 Ilial, Inc. System and method for context-based knowledge search, tagging, collaboration, management and advertisement

Also Published As

Publication number Publication date
US8176033B2 (en) 2012-05-08
CN101567011A (zh) 2009-10-28
CN101567011B (zh) 2013-09-04
JP2009282957A (ja) 2009-12-03
US20090265344A1 (en) 2009-10-22

Similar Documents

Publication Publication Date Title
JP5340751B2 (ja) 文書処理装置および文書処理方法
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US7779001B2 (en) Web page ranking with hierarchical considerations
US7720870B2 (en) Method and system for quantifying the quality of search results based on cohesion
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US8745039B2 (en) Method and system for user guided search navigation
Tyagi et al. Weighted page rank algorithm based on number of visits of links of web page
JP4638439B2 (ja) ウェブ検索の個人化
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
CN1702654B (zh) 计算显示页面中块的重要度的方法和系统
JP2009528628A (ja) ラベル付きドキュメントからラベルなしドキュメントへの関連度の伝播
JP2008538149A (ja) 格付け方法、検索結果組織化方法、格付けシステム及び検索結果組織化システム
CN109960721B (zh) 基于源内容的多重压缩构造内容
JP5103051B2 (ja) 情報処理システム及び情報処理方法
WO2006124287A2 (en) Importance ranking for a hierarchical collection of objects
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP2009187384A (ja) 検索装置、検索方法、検索プログラム、および、記録媒体
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2011248827A (ja) 言語横断型情報検索方法、言語横断型情報検索システム及び言語横断型情報検索プログラム
KR20120020558A (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2010282403A (ja) 文書検索方法
Hussein et al. An Effective Web Mining Algorithm using Link Analysis
JP5769648B2 (ja) 関連語取得装置及び関連語取得方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130807

R150 Certificate of patent or registration of utility model

Ref document number: 5340751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees