WO2011052526A1

WO2011052526A1 - 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置

Info

Publication number: WO2011052526A1
Application number: PCT/JP2010/068820
Authority: WO
Inventors: 志学岩淵
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2009-10-30
Filing date: 2010-10-25
Publication date: 2011-05-05
Anticipated expiration: 2012-04-30
Also published as: CN102598038A; EP2482247A1; BR112012010120A2; KR101640051B1; KR20140127360A; CN102598038B; EP2482247A4; US20120216107A1; KR20120088792A

Abstract

　Ｗｅｂページを構成しているコンテンツの中からのそのＷｅｂページ特有のコンテンツを容易に抽出する。コンピュータを、指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段、指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段、及び、計算された出現頻度に基づいて、指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段、として機能させる。

Description

特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置

　本発明は、Ｗｅｂページを構成するコンテンツを抽出する技術分野に関する。

　従来、Ｗｅｂサイト上に公開されているＷｅｂページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。例えば、非特許文献１には、ユーザにより画像データのＵＲＬが指定されると、当該ＵＲＬに対応する画像データをＷｅｂ上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。

"バナー自動作成"、[online]、[平成21年10月21日検索]、インターネット<ＵＲＬ：http://hyperbannermaker.com/>

　Ｗｅｂサイトを構成する各Ｗｅｂページには、そのＷｅｂサイトの目的に沿った内容が掲載される。そのため、Ｗｅｂサイトを構成する各Ｗｅｂページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。そして、そのＷｅｂページの内容を決める要因が、Ｗｅｂページを構成しているコンテンツ（例えば、テキストデータ、画像データ等）の内容である。従って、Ｗｅｂページを構成しているコンテンツの中で、そのＷｅｂページを特徴付けるコンテンツ、すなわち、そのＷｅｂページ特有のコンテンツが存在することがある。

　非特許文献１に記載の技術は、Ｗｅｂページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Ｗｅｂページに特有のコンテンツを容易に抽出することはできない。そのため、どのコンテンツがＷｅｂページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Ｗｅｂページに特有のコンテンツを的確に抽出することができない。また、対象とするＷｅｂページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。

　また、例えば、ＨＴＭＬ（HyperText Markup Language）文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。しかしながら、抽出されたコンテンツの中には、Ｗｅｂページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。

　本発明は以上の点に鑑みてなされたものであり、Ｗｅｂページを構成しているコンテンツの中からのそのＷｅｂページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。

　上記課題を解決するために、請求項１に記載の発明は、コンピュータを、指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段、として機能させることを特徴とする。

　この発明によれば、指定されたＷｅｂページを構成している各コンテンツの出現頻度が夫々計算される。この出現頻度が小さいコンテンツであるほど、指定されたＷｅｂページ以外にはあまり出現しないコンテンツである。そのため、出現頻度に基づいて、指定されたＷｅｂページに特有のコンテンツを特定することができる。よって、Ｗｅｂページに特有のコンテンツを容易に抽出することができる。

　請求項２に記載の発明は、請求項１に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、最も出現頻度が小さいコンテンツを判断することで、指定されたＷｅｂページに特有のコンテンツが特定される。

　請求項３に記載の発明は、請求項１に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、出現頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたＷｅｂページに特有のコンテンツであると特定される。

　請求項４に記載の発明は、請求項１乃至３の何れか１項に記載の特有コンテンツ判定プログラムにおいて、前記計算手段が、所定のサイトに含まれる複数のＷｅｂページ上における各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、所定のサイトに含まれる或る複数のＷｅｂページ上において、指定されたＷｅｂページを構成している各コンテンツの出現頻度が計算されるので、サイト内で共通して用いられるコンテンツは、Ｗｅｂページに特有のコンテンツではないと判定することが可能となり、Ｗｅｂページに特有のコンテンツを判断する精度を上げることができる。

　請求項５に記載の発明は、請求項１乃至４の何れか１項に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、前記所定のサイトに含まれる予め定められた種類の各ＷｅｂページについてＷｅｂページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段が、前記記憶されたコンテンツ情報に基づいて、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、所定のサイトに含まれる予め定められた種類の各Ｗｅｂページについて予め抽出したておいた結果としてのコンテンツ情報に基づいて、指定されたＷｅｂページを構成している各コンテンツの出現頻度が計算されるので、出現頻度が正確に計算され、Ｗｅｂページに特有のコンテンツを判断する精度を上げることができる。

　請求項６に記載の発明は、請求項１乃至５の何れか１項に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、１つ以上のコンテンツで構成されたコンテンツグループの単位で、Ｗｅｂページを構成しているコンテンツを抽出し、前記計算手段が、前記指定されたＷｅｂページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツグループのうち、当該Ｗｅｂページに特有であるコンテンツグループを判定するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、コンテンツグループの単位でＷｅｂページに特有のコンテンツが判断されるので、例えば、Ｗｅｂページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Ｗｅｂページに特有のコンテンツとなるものを抽出することができる。

　請求項７に記載の発明は、請求項６に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、所定のマークアップ言語で記述され、Ｗｅｂページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、Ｗｅｂページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、的確にコンテンツグループを抽出することができる。

　請求項８に記載の発明は、請求項７に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めるように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Ｗｅｂページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Ｗｅｂページに特有のコンテンツを判断する精度を上げることができる。

　請求項９に記載の発明は、請求項１乃至８の何れか１項に記載の特有コンテンツ判定プログラムにおいて、特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段として前記コンピュータを更に機能させることを特徴とする。

　この発明によれば、Ｗｅｂページに特有のコンテンツに基づいて新たなコンテンツが生成されるので、例えば、当該Ｗｅｂページに掲載されている内容の特徴を示すコンテンツを生成することができる。

　請求項１０に記載の発明は、請求項９に記載の特有コンテンツ判定プログラムにおいて、前記生成手段が、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする。

　請求項１１に記載の発明は、請求項９又は請求項１０に記載の特有コンテンツ判定プログラムにおいて、前記生成手段が、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする。

　請求項１２に記載の発明は、請求項１乃至８の何れか１項に記載の特有コンテンツ判定プログラムにおいて、特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたＷｅｂページに挿入する挿入手段として前記コンピュータを更に機能させることを特徴とする。

　この発明によれば、特有のコンテンツであると判定されたコンテンツに関連するコンテンツが、指定されたＷｅｂページに挿入されるので、Ｗｅｂページの特徴と関連する情報を当該Ｗｅｂページに追加することができる。

　請求項１３に記載の発明は、請求項１２に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Ｗｅｂページに特有のコンテンツであると判定し、前記挿入手段が、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたＷｅｂページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Ｗｅｂページに挿入するように、前記コンピュータを機能させることを特徴とする。

　この発明によれば、各ブログの記事のテキストデータにその記事特有の内容が含まれているのであれば、特有コンテンツ判定装置により各ブログの記事のテキストデータを抽出することができる。これにより、Ｗｅｂページに掲載されているブログの内容に関連する情報を当該Ｗｅｂページに追加することができる。

　請求項１４に記載の発明は、指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段と、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段と、前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段と、を備えることを特徴とする。

　請求項１５に記載の発明は、請求項１４に記載の特有コンテンツ判定装置において、前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定することを特徴とする。

　請求項１６に記載の発明は、請求項１４に記載の特有コンテンツ判定装置において、前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定することを特徴とする。

　請求項１７に記載の発明は、請求項１４乃至１６の何れか１項に記載の特有コンテンツ判定装置において、前記計算手段は、所定のサイトに含まれる複数のＷｅｂページ上における各コンテンツの出現頻度を計算することを特徴とする。

　請求項１８に記載の発明は、請求項１４乃至１７の何れか１項に記載の特有コンテンツ判定装置において、前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各ＷｅｂページについてＷｅｂページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算することを特徴とする。

　請求項１９に記載の発明は、請求項１４乃至１８の何れか１項に記載の特有コンテンツ判定装置において、前記抽出手段は、１つ以上のコンテンツで構成されたコンテンツグループの単位で、Ｗｅｂページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたＷｅｂページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツグループのうち、当該Ｗｅｂページに特有であるコンテンツグループを判定することを特徴とする。

　請求項２０に記載の発明は、請求項１９に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Ｗｅｂページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。

　請求項２１に記載の発明は、請求項２０に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。

　請求項２２に記載の発明は、指定されたＷｅｂページを構成しているコンテンツを抽出する抽出行程と、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算行程と、前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定行程と、を有することを特徴とする。

　請求項２３に記載の発明は、コンピュータを、指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段、として機能させる特有コンテンツ判定プログラムがコンピュータ読み取り可能に記録されていることを特徴とする。

　請求項２４に記載の発明は、請求項１４乃至２１の何れか１項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、を備えることを特徴とする。

　請求項２５に記載の発明は、請求項２４に記載のコンテンツ生成装置において、前記生成手段は、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成することを特徴とする。

　請求項２６に記載の発明は、請求項２４又は請求項２５に記載のコンテンツ生成装置において、前記生成手段は、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成することを特徴とする。

　請求項２７に記載の発明は、請求項１４乃至２１の何れか１項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたＷｅｂページに挿入する挿入手段と、を備えることを特徴とする。

　請求項２８に記載の発明は、請求項２７に記載の関連コンテンツ挿入装置において、前記特有コンテンツ判定装置は、前記指定されたＷｅｂページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Ｗｅｂページに特有のコンテンツであると判定し、前記挿入手段は、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたＷｅｂページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Ｗｅｂページに挿入することを特徴とする。

　本発明によれば、出現頻度が小さいコンテンツであるほど、指定されたＷｅｂページ以外にはあまり出現しないコンテンツである。そのため、出現頻度に基づいて、指定されたＷｅｂページに特有のコンテンツを特定することができる。よって、Ｗｅｂページに特有のコンテンツを容易に抽出することができる。

一実施形態に係るショッピングシステムＳの概要構成の一例を示す図である。一実施形態に係るコンテンツ生成サーバ１の概要構成の一例を示すブロック図である。Ｗｅｂページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。Ｗｅｂページの構成例を示す図である。ＨＴＭＬ文書から生成されたＤＯＭツリーの一例を示す図である。素材抽出ＤＢ１０１に登録される情報の内容の一例を示す図である。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の素材抽出処理における処理例を示すフローチャートである。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の１ページ対応抽出処理における処理例を示すフローチャートである。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のツリー探索処理における処理例を示すフローチャートである。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のコンテンツ生成処理における処理例を示すフローチャートである。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の特有コンテンツブロック判定処理における処理例を示すフローチャートである。一実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のFlashコンテンツ生成処理における処理例を示すフローチャートである。一実施形態に係るブログシステムＢＳの概要構成の一例を示す図である。一実施形態に係るブログサーバ６の概要構成の一例を示すブロック図である。ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。Ｗｅｂページの構成例を示す図である。ＨＴＭＬ文書から生成されたＤＯＭツリーの一例を示す図である。記憶部６５に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。一実施形態に係るブログサーバ６のシステム制御部７０の広告コンテンツ挿入処理における処理例を示すフローチャートである。一実施形態に係るブログサーバ６のシステム制御部７０の１ページ対応抽出処理における処理例を示すフローチャートである。一実施形態に係るブログサーバ６のシステム制御部７０の特有コンテンツブロック判定処理における処理例を示すフローチャートである。一実施形態の変形例に係るブログサーバ６のシステム制御部７０のブログ更新時処理における処理例を示すフローチャートである。

　［１．第１実施形態］
　以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ネットワーク上の電子的なやりとりにより商品の売買が行われるショッピングシステムにおいて、ショッピングサイトのＷｅｂページから抽出されたＷｅｂページに特有のコンテンツに基づいて新たなコンテンツを生成するサーバ装置に対して本発明を適用した場合の実施形態である。

　［１－１．ショッピングシステムの構成及び機能概要］
　先ず、本実施形態に係るショッピングシステムＳの構成及び概要機能について、図１を用いて説明する。

　図１は、本実施形態に係るショッピングシステムＳの概要構成の一例を示す図である。

　図１に示すように、ショッピングシステムＳは、特有コンテンツ判定装置及びコンテンツ生成装置の一例としてのコンテンツ生成サーバ１と、ショッピングサーバ２と、管理端末３と、複数の店舗端末４と、複数のユーザ端末５と、を含んで構成されている。そして、コンテンツ生成サーバ１と、ショッピングサーバ２と、各店舗端末４と、各ユーザ端末５とは、ネットワークＮＷを介して、例えば、通信プロトコルにＴＣＰ／ＩＰ等を用いて相互にデータの送受信が可能になっている。なお、ネットワークＮＷは、例えば、インターネット、専用通信回線（例えば、ＣＡＴＶ（Community Antenna Television）回線）、移動体通信網（基地局等を含む）、及びゲートウェイ等により構築されている。また、コンテンツ生成サーバ１と管理端末３とは、ＬＡＮ（Local Area Network）等のネットワークを介して接続されている。なお、コンテンツ生成サーバ１とショッピングサーバ２とが、同じくＬＡＮ等のネットワークを介して接続されても良い。

　このような構成のショッピングシステムＳにおいて、ショッピングサーバ２は、店舗端末４やユーザ端末５からのリクエストに応じて、ショッピングサイトを構成するＷｅｂページを送信するＷｅｂサーバである。また、ショッピングサーバ２は、店舗端末４からのリクエストに基づいて、ショッピングサイトで販売される商品を登録し、その商品の詳細な説明等が掲載される商品詳細ページを生成する。そして、ショッピングサーバ２は、商品詳細ページＤＢ２０１を備え、生成した商品詳細ページ（商品詳細ページのＨＴＭＬ文書（ドキュメントデータの一例）、商品詳細ページの素材である画像データ等）を商品詳細ページＤＢ２０１に登録する。また、ショッピングサーバ２は、商品詳細ページを閲覧したユーザのユーザ端末５からのリクエストに基づいて、商品の購入の処理を行う。

　店舗端末４は、ショッピングサイトで商品を販売する店舗の従業員に使用される端末装置である。店舗端末４としては、例えば、パーソナルコンピュータ等が用いられる。

　ユーザ端末５は、ショッピングサイトで商品を購入するユーザに使用される端末装置である。ユーザ端末５としては、例えば、パーソナルコンピュータ、ＰＤＡ、携帯電話機等が用いられる。

　コンテンツ生成サーバ１は、管理端末３や店舗端末４からのリクエストに基づいて、指定された商品詳細ページの特徴を示す（ひいては、商品の特徴を示す）Flashコンテンツ（Adobe Systems社により規格化されたソフトウェア）を生成する。生成されるFlashコンテンツは、例えば、商品のバナー画像、商品を紹介するスライドショーコンテンツ、動画コンテンツ等である。そして、Flashコンテンツは、例えば、店舗が運営するＷｅｂサイトに掲載されたり、ショッピングサイトを構成するＷｅｂページの素材として用いられたりする。

　このようなFlashコンテンツを生成するため、コンテンツ生成サーバ１は、素材抽出ＤＢ１０１を備え、商品詳細ページＤＢ２０１に登録されている商品詳細ページを構成するＷｅｂ素材としてのコンテンツ（画像データ、ＨＴＭＬ文書に記述されているテキストデータ等）を抽出して、その抽出結果を素材抽出ＤＢ１０１に登録しておく。そして、コンテンツ生成サーバ１は、指定された商品詳細ページから抽出されたコンテンツの中からその商品詳細ページ特有のコンテンツを特定し、特定されたコンテンツに基づいてFlashコンテンツを生成する。

　管理端末３は、ショッピングシステムＳのシステム管理者により使用される端末装置である。管理端末３としては、例えば、パーソナルコンピュータ等が用いられる。

　［１－２．コンテンツ生成サーバの構成及び機能］
　次に、コンテンツ生成サーバ１の構成及び機能について、図２を用いて説明する。

　図２は、本実施形態に係るコンテンツ生成サーバ１の概要構成の一例を示すブロック図である。また、図３は、Ｗｅｂページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。また、図４は、Ｗｅｂページの構成例を示す図である。また、図５は、ＨＴＭＬ文書から生成されたＤＯＭツリーの一例を示す図である。また、図６は、素材抽出ＤＢ１０１に登録される情報の内容の一例を示す図である。

　図２に示すように、コンテンツ生成サーバ１は、操作部１１と、表示部１２と、通信部１３と、ドライブ部１４と、記憶手段の一例としての記憶部１５と、入出力インタフェース部１６と、システム制御部２０と、を備えている。そして、システム制御部２０と入出力インタフェース部１６とは、システムバス２１を介して接続されている。

　操作部１１は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部２０に出力するようになっている。表示部１２は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部１３は、ネットワークＮＷ等に接続して、ショッピングサーバ２、管理端末３、店舗端末４、ユーザ端末５等との通信状態を制御するようになっている。ドライブ部１４は、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等のディスクＤＫからデータ等を読み出す一方、当該ディスクＤＫに対してデータ等を記録するようになっている。記憶部１５は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部１５には、素材抽出ＤＢ１０１が構築されている。入出力インタフェース部１６は、操作部１１～記憶部１５とシステム制御部２０との間のインタフェース処理を行うようになっている。システム制御部２０は、ＣＰＵ（Central Processing Unit）１７、ＲＯＭ（Read Only Memory）１８、ＲＡＭ（Random Access Memory）１９等により構成されている。

　システム制御部２０は、ＣＰＵ１７が、ＲＯＭ１８や記憶部１５に記憶された各種プログラムを読み出し実行することによりコンテンツ生成サーバ１の各部を制御する。また、システム制御部２０は、コンテンツ生成ソフトウェア（特有コンテンツ判定プログラムの一例）を実行することにより、抽出手段、計算手段、判定手段及び生成手段として機能する。なお、コンテンツ生成ソフトウェア等は、例えば、他のサーバ装置等からネットワークＮＷを介して取得されるようにしても良いし、ＣＤ－ＲＯＭ等のディスクＤＫに記録されてドライブ部１４を介して読み込まれるようにしても良い。

　コンテンツ生成ソフトウェアは、商品詳細ページ特有のコンテンツに基づいてFlashコンテンツを生成するためのプログラムである。図３に示すように、コンテンツ生成ソフトウェアは、マネージャ部、素材抽出エンジン、ＳＷＦ（ShockWave Flash Object）生成エンジン等により構成されている。マネージャ部は、素材抽出エンジン及びＳＷＦエンジンの実行を制御するとともに、コンテンツ生成ソフトウェアを利用するユーザ（店舗従業員やシステム管理者）に対して、Flashコンテンツを生成するためのＧＵＩ（Graphical User Interface）を提供するためのソフトウェアである。素材抽出エンジンは、商品詳細ページのＨＴＭＬ文書からＷｅｂ素材としてのコンテンツを抽出するとともに、商品詳細ページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、後述のコンテンツブロック（コンテンツグループの一例）の単位で行われる。ＳＷＦエンジンは、与えられた１又は複数のコンテンツ（Ｗｅｂ素材）に基づいてFlashコンテンツを生成するためのソフトウェアである。なお、新たなコンテンツとしてFlashコンテンツ以外のリッチインターネットアプリケーションを生成する場合、ＳＷＦ生成エンジンに代えて、例えば、マイクロソフト社のSilverlight（商標）の生成エンジンを適用しても良い。また、Ajax（Asynchronous JavaScript（登録商標） + XML）等の技術を利用して動的ページを実現するスクリプトを生成するソフトウエアを適用しても良い。

　以下に、Flashコンテンツの生成の概要について説明する。図３に示すように、システム制御部２０は、ショッピングサーバ２から商品詳細ページＤＢ２０１に登録されているＨＴＭＬ文書を取得して解析し、Ｗｅｂ素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報（コンテンツ情報の一例）を素材抽出ＤＢ１０１に登録する（１）。この処理は、Flashコンテンツの生成前に予め行われ、基本的には、商品詳細ページＤＢ２０１に登録されている全ＨＴＭＬ文書、すなわち、ショッピングサイトを構成する全ての商品詳細ページについて抽出が行われる。

　その後、システム管理者又は店舗従業員により、Flashコンテンツの生成対象となる商品詳細ページのＨＴＭＬ文書のＵＲＬが指定される（２）。すると、システム制御部２０は、指定されたＵＲＬに基づいてショッピングサーバ２からＨＴＭＬ文書を取得し、コンテンツブロックを抽出する。そして、制御部２０は、素材抽出ＤＢ１０１を参照して、抽出した各コンテンツブロックの全商品詳細ページにおける出現頻度を計算する。計算される出現頻度としては、出現回数（度数）であっても良いし、全商品詳細ページの全コンテンツブロックに対する出現回数の割合（相対度数）であっても良い。そして、システム制御部２０は、出現頻度に基づいて、指定されたＵＲＬに対応する商品詳細ページに特有であるコンテンツブロックを判定する。具体的に、システム制御部２０は、出現頻度の最も小さいコンテンツブロックを、指定されたＵＲＬに対応する商品詳細ページ特有のコンテンツブロックであると判定する（３）。

　システム制御部２０は、特有のコンテンツブロックであると判定したコンテンツブロックに含まれるコンテンツをショッピングサーバ２を介して商品詳細ページＤＢ２０１から取得する。システム制御部２０は、取得したコンテンツに基づいてFlashコンテンツを生成する（４）。そして、システム管理者又は店舗従業員は、生成されたFlashコンテンツをダウンロードする（５）。なお、Flashコンテンツのダウンロードの前に、システム管理者や店舗従業員によって適宜Flashコンテンツを修正することができるようにしても良い。

　次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがＷｅｂ素材として抽出されるものとする。

　例えば、商品詳細ページの構成（レイアウト）が図４に示すようなものであるとする。Ｗｅｂ素材としての各コンテンツは、商品詳細ページ上において、それぞれ或るまとまり（かたまり）毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、ＨＴＭＬ文書に記述されているＤＩＶタグ及びＴＡＢＬＥタグ（予め定められたタグの一例）により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、ＤＩＶタグ及びＴＡＢＬＥタグによりブロック化（グループ化）される。なお、ＤＩＶタグ及びＴＡＢＬＥタグを、「ブロック化タグ」という。

　図４には、コンテンツブロック３０１～３０６が表示されている。コンテンツブロック３０１は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストＡ及び画像ａにより構成されている。また、コンテンツブロック３０２は、例えば、各種カテゴリの商品に関するＷｅｂページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のＷｅｂページへのリンクを示すテキストＢ、テキストＣ及びテキストＤにより構成されている。また、コンテンツブロック３０３は、例えば、商品に関する情報が表示されるコンテンツブロックであり、商品名等の見出しを示すテキストＥ、コンテンツブロック３０４及びコンテンツブロック３０５により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック３０３に含まれるコンテンツはテキストＥのみとされ、コンテンツブロック３０４及びコンテンツブロック３０５は、コンテンツブロック３０３から独立しているものとされる。コンテンツブロック３０４は、例えば、商品の詳細を示すコンテンツブロックであり、詳細な説明を示すテキストＦ、商品等の画像としての画像ｂ及び画像ｃにより構成されている。コンテンツブロック３０５は、例えば、商品購入の際の一般的な注意事項等を示すコンテンツブロックであり、テキストＧ及びテキストＨにより構成されている。コンテンツブロック３０６は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストＩにより構成されている。

　これらのコンテンツブロックのうち、コンテンツブロック３０１、３０２、３０５及び３０６は、図４に示す商品詳細ページ以外の商品詳細ページ上でも比較的頻繁に現れる。一方、コンテンツブロック３０３（テキストＥ）及びコンテンツブロック３０４は、当該商品詳細ページにだけに用いられるか、又は、他の商品詳細ページで用いられるとしても、その頻度はコンテンツブロック３０１、３０２、３０５及び３０６に比べて小さい。よって、例えば、コンテンツブロック３０３又はコンテンツブロック３０４が、当該商品詳細ページ特有のコンテンツブロックであると判断されることとなる。

　図４に示す商品詳細ページのＨＴＭＬ文書をＤＯＭ（Document Object Model）ツリー、すなわち、木構造で表したものが図５である。なお、図５に示すＤＯＭツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。

　ＤＯＭツリーにおいては、ＤＩＶタグを示すＤＩＶノード及びＴＡＢＬＥタグを示すＴＡＢＬＥノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる（以下、「ブロック化ノード」という）。システム制御部２０は、例えば、深さ優先探索によりＤＯＭツリーを探索し、コンテンツブロックを確定していく。具体的に、システム制御部２０は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード（以下、「上位のブロック化ノード」という）を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード（以下、「下位のブロック化ノード」という）を発見すると、コンテンツブロックが分割される。例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木（以下、「上位部分木」という）に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木（以下、「下位部分木」という）に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける（例えば、コンテンツブロック３０４とコンテンツブロック３０３）。この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。例えば、コンテンツブロック３０１、３０２、３０３及び３０６の階層は１であり、コンテンツブロック３０４及び３０５の階層は２である。つまり、階層の値が小さいほど階層的により上位となる。

　これを、ＨＴＭＬ文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。

　このようにしてコンテンツブロックを抽出すると、システム制御部２０は、抽出結果を示すコンテンツブロック対応情報を素材抽出ＤＢ１０１に登録する。図６に示すように、コンテンツブロック対応情報（符号４０１）は、コンテンツブロック毎に登録される。コンテンツブロック対応情報には、抽出元のＨＴＭＬ文書のＵＲＬ設定部分（符号４０２）とブロック構成情報（符号４０３）とにより構成されている。ブロック構成情報には、抽出された各コンテンツが設定される。ここで、テキストデータについては、ＤＯＭツリーにおけるテキストノードの内容が設定される。一方、画像データについては、画像データそのものの代わりとして、ＤＯＭツリーにおいてＩＭＧタグを示すＩＭＧノードのｓｒｃ属性としての画像データのＵＲＬが設定される。

　［１－３．ショッピングシステムの動作］
　次に、ショッピングシステムＳの動作について、図７乃至図１２を用いて説明する。

　［１－３－１　全商品詳細ページからのコンテンツブロック抽出時］
　図７は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の素材抽出処理における処理例を示すフローチャートである。

　素材抽出処理は、例えば、定期的に実行されたり、システム管理者の操作に基づいて管理端末３から素材抽出処理の実行のリクエストが送信されてきたときに開始される。素材抽出処理において、システム制御部２０は、商品詳細ページＤＢ２０１に登録されている全てのＨＴＭＬ文書を解析する。そのために、システム制御部２０は、例えば、商品詳細ページＤＢ２０１に登録されているＨＴＭＬ文書の一覧の情報を予めショッピングサーバ２から取得しておき、この一覧の情報に基づいてＨＴＭＬ文書を取得しても良いし、ショッピングサイトのトップページのＨＴＭＬ文書から次々とリンクを辿って、商品詳細ページのＨＴＭＬ文書を順次取得しても良い。

　図７に示すように、システム制御部２０は、素材抽出ＤＢ１０１を初期化する（ステップＳ１）。具体的に、システム制御部２０は、素材抽出ＤＢ１０１にコンテンツブロック対応情報が登録されている場合には、全てのコンテンツブロック対応情報を素材抽出ＤＢ１０１から削除する。

　次いで、システム制御部２０は、全商品詳細ページのうち最初に取得すべき商品詳細ページのＨＴＭＬ文書のＵＲＬを特定し（ステップＳ２）、特定したＵＲＬを設定したリクエストをショッピングサーバ２に送信することにより、当該ショッピングサーバ２からＨＴＭＬ文書を取得する（ステップＳ３）。次いで、システム制御部２０は、取得したＨＴＭＬ文書を指定して、後述する１ページ対応抽出処理を実行する（ステップＳ４）。この１ページ対応抽出処理では、取得したＨＴＭＬ文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が登録される。

　次いで、システム制御部２０は、全ての商品詳細ページのコンテンツブロックを抽出したか否かを判定する（ステップＳ５）。このとき、システム制御部２０は、コンテンツブロックを抽出していない商品詳細ページが存在する場合には（ステップＳ５：ＮＯ）、次の商品詳細ページのＨＴＭＬ文書のＵＲＬを特定して（ステップＳ６）、ステップＳ３に移行する。そして、システム制御部２０は、ステップＳ３～Ｓ６の処理を繰り返して全ての商品詳細ページのコンテンツブロックを抽出すると（ステップＳ５：ＹＥＳ）、素材抽出処理を終了させる。

　なお、システム制御部２０は、素材抽出ＤＢ１０１を初期化してコンテンツブロック対応情報を登録し直さなくても良い。例えば、システム制御部２０は、素材抽出ＤＢ１０１を初期化を行わず、前回素材抽出処理を実行した後に新規生成された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出ＤＢ１０１に追加登録し、また、前回素材抽出処理を実行した後に更新された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出ＤＢ１０１に更新登録しても良い。

　図８は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の１ページ対応抽出処理における処理例を示すフローチャートである。

　図８に示すように、システム制御部２０は、先ず、取得したＨＴＭＬ文書のＤＯＭツリーをＲＡＭ１９上に生成する（ステップＳ２１）。

　次いで、システム制御部２０は、ブロック数ＮＵＭに０を設定するとともに、階層ＬＶに０を設定する（ステップＳ２２）。ブロック数ＮＵＭは、現時点で発見済みのコンテンツブロックの個数である。また、階層ＬＶは、ＤＯＭツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。ＮＵＭ及びＬＶは何れもグローバル変数であり、１ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。

　次いで、システム制御部２０は、ＤＯＭツリーのルートノードを指定して（ステップＳ２３）、ツリー探索処理を実行する（ステップＳ２４）。ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Ｗｅｂページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。

　次いで、システム制御部２０は、ツリー探索処理により生成された各コンテンツブロック対応情報を素材抽出ＤＢ１０１に登録する（ステップＳ２５）。システム制御部２０は、この処理を終えると、１ページ対応抽出処理を終了させる。

　図９は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のツリー探索処理における処理例を示すフローチャートである。

　図９に示すように、システム制御部２０は、先ず、指定されたノードの種類を判定する（ステップＳ３１）。このとき、システム制御部２０は、指定されたノードの種類が、ＤＩＶノード又はＴＡＢＬＥノード（ブロック化ノード）である場合には、すなわち、コンテンツブロックが発見された場合には（ステップＳ３１：ＤＩＶ又はＴＡＢＬＥ）、ステップＳ３２に移行する。

　ステップＳ３２において、システム制御部２０は、ブロック数ＮＵＭに１を加算するとともに、階層ＬＶに１を加算する。次いで、システム制御部２０は、ブロック番号ＢＮ［ＬＶ］にＮＵＭを設定する（ステップＳ３３）。ブロック番号ＢＮ［ＬＶ］は、現在探索中のノードが属する階層ＬＶで示されるコンテンツブロックのブロック番号である。このブロック番号は、コンテンツブロックの発見順に付与される。また、ＢＮ［ＬＶ］は、グローバル変数である。

　次いで、システム制御部２０は、ブロック番号ＢＮ［ＬＶ］のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する（ステップＳ３４）。具体的に、システム制御部２０は、コンテンツブロック対応情報を格納する領域をＲＡＭ１９上に設定し、取得したＨＴＭＬ文書のＵＲＬを、当該領域に設定する。

　次いで、システム制御部２０は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する（ステップＳ３５）。このとき、システム制御部２０は、未だ探索されていない子ノードが存在する場合には（ステップＳ３５：ＹＥＳ）、ステップＳ３６に移行する。

　ステップＳ３６において、システム制御部２０は、探索されていない子ノードのうちの１つの子ノードを指定して、ツリー探索処理を実行する（ステップＳ３７）。システム制御部２０は、ツリー探索処理を終えると、ステップＳ３５に移行する。

　そして、システム制御部２０は、ステップＳ３５～Ｓ３７の処理を繰り返して全ての子ノードのツリー探索処理を終えると（ステップＳ３５：ＮＯ）、ステップＳ３８に移行する。なお、システム制御部２０は、指定されたノードの子ノードが１つも存在しない場合にも、ステップＳ３８に移行する。ステップＳ３８において、システム制御部２０は、階層ＬＶから１を減算して、ツリー探索処理を終了させる。

　ステップＳ３１において、システム制御部２０は、指定されたノードの種類がテキストノードである場合には（ステップＳ３１：テキスト）、指定されたノードの内容（テキストデータ）を、ブロック番号ＢＮ［ＬＶ］のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する（ステップＳ３９）。システム制御部２０は、この処理を終えると、ツリー探索処理を終了させる。

　ステップＳ３１において、システム制御部２０は、指定されたノードの種類がＩＭＧノードである場合には（ステップＳ３１：ＩＭＧ）、指定されたノードのｓｒｃ属性として設定されている画像データのＵＲＬを取得し、取得したＵＲＬを、ブロック番号ＢＮ［ＬＶ］のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する（ステップＳ４０）。システム制御部２０は、この処理を終えると、ツリー探索処理を終了させる。

　ステップＳ３１において、システム制御部２０は、指定されたノードの種類が、ＤＩＶノード、ＴＡＢＬＥノード、テキストノード、及びＩＭＧノードの何れでもない場合には（ステップＳ３１：その他）、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する（ステップＳ４１）。このとき、システム制御部２０は、未だ探索されていない子ノードが存在する場合には（ステップＳ４１：ＹＥＳ）、探索されていない子ノードのうちの１つの子ノードを指定して（ステップＳ４２）、ツリー探索処理を実行する（ステップＳ４３）。システム制御部２０は、ツリー探索処理を終えると、ステップＳ４１に移行する。

　一方、システム制御部２０は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが１つも存在しない場合には（ステップＳ４１：ＮＯ）、ツリー探索処理を終了させる。

　［１－３－２　Flashコンテンツ生成時］
　図１０は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のコンテンツ生成処理における処理例を示すフローチャートである。

　コンテンツ生成処理は、システム管理者の操作に基づいて管理端末３からコンテンツ生成処理の実行のリクエストが送信されてきたとき、又は、店舗従業員の操作に基づいて店舗端末４からコンテンツ生成処理の実行のリクエストが送信されてきたときに開始される。

　そして、システム管理者又は店舗従業員がFlashコンテンツの生成対象とするＨＴＭＬ文書のＵＲＬを指定すると、図１０に示すように、システム制御部２０は、指定されたＵＲＬを管理端末３又は店舗端末４から受信する（ステップＳ５１）。次いで、システム制御部２０は、受信したＵＲＬを設定したリクエストをショッピングサーバ２に送信することにより、当該ショッピングサーバ２からＨＴＭＬ文書を取得する（ステップＳ５２）。

　次いで、システム制御部２０は、取得したＨＴＭＬ文書を指定して、後述する特有コンテンツブロック判定処理を実行する（ステップＳ５３）。この特有コンテンツブロック判定処理では、取得したＨＴＭＬ文書からコンテンツブロックが抽出され、当該ＨＴＭＬ文書特有のコンテンツブロックが判定される。

　次いで、システム制御部２０は、特有と判定されたコンテンツブロックを構成する各コンテンツを取得する（ステップＳ５４）。このとき、システム制御部２０は、テキストデータを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報からテキストデータを取得する。一方、システム制御部２０は、画像データを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報から画像データのＵＲＬを取得し、取得されたＵＲＬを設定したリクエストをショッピングサーバ２に送信することにより、商品詳細ページＤＢ２０１に登録されている画像データをショッピングサーバ２から取得する。

　次いで、システム制御部２０は、取得した全てのコンテンツを指定して、後述するFlashコンテンツ生成処理を実行する（ステップＳ５５）。

　次いで、システム制御部２０は、Flashコンテンツ生成処理において生成されたFlashコンテンツを、生成要求元の管理端末３又は店舗端末４に送信する（ステップＳ５６）。システム制御部２０は、この処理を終えると、コンテンツ生成処理を終了させる。

　図１１は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０の特有コンテンツブロック判定処理における処理例を示すフローチャートである。

　図１１に示すように、システム制御部２０は、先ず、１ページ対応抽出処理と同様に、取得したＨＴＭＬ文書のＤＯＭツリー生成（ステップＳ６１）、ブロック数ＮＵＭ及び階層ＬＶに対して０の設定を行い（ステップＳ６２）、ＤＯＭツリーのルートノードを指定して（ステップＳ６３）、ツリー探索処理を実行する（ステップＳ６４）。

　次いで、システム制御部２０は、ブロック番号ｉに１を設定する（ステップＳ６５）。次いで、システム制御部２０は、ブロック番号ｉのコンテンツブロックの出現頻度を計算する（ステップＳ６６）。

　具体的に、システム制御部２０は、ツリー探索処理において生成されたコンテンツブロック対応情報ｉ（ブロック番号ｉのコンテンツブロックに対応するコンテンツブロック対応情報）のブロック構成情報と、素材抽出ＤＢ１０１に登録されている各コンテンツブロック対応情報のブロック構成情報とを比較する。このとき、システム制御部２０は、ブロック構成情報の内容が一致する場合には、出現回数１回としてカウントする。このとき、システム制御部２０は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。また、システム制御部２０は、素材抽出ＤＢ１０１に登録されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報ｉのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数１回としてカウントしても良い。更に、システム制御部２０は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。例えば、システム制御部２０は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。そして、システム制御部２０は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。システム制御部２０は、このようにしてコンテンツブロック対応情報ｉのブロック構成情報と、素材抽出ＤＢ１０１に登録されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。

　システム制御部２０は、出現頻度を計算すると、ブロック番号ｉに１を加算して（ステップＳ６７）、ブロック番号ｉがブロック数ＮＵＭの値より大きいか否かを判定する（ステップＳ６８）。このとき、システム制御部２０は、ブロック番号ｉがブロック数ＮＵＭの値以下である場合には（ステップＳ６８：ＮＯ）、ステップＳ６６に移行する。そして、システム制御部２０は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると（ステップＳ６８：ＹＥＳ）、ステップＳ６９に移行する。

　ステップＳ６９において、システム制御部２０は、コンテンツブロック１からブロック数ＮＵＭが示すブロック番号までの全てのコンテンツブロックの出現頻度同士を比較して、出現頻度が最も少ないコンテンツブロックを、特有のコンテンツブロックであると判定する（ステップＳ６９）。システム制御部２０は、この処理を終えると、特有コンテンツブロック判定処理を終了させる。

　図１２は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部２０のFlashコンテンツ生成処理における処理例を示すフローチャートである。なお、本実施形態においては、商品詳細ページに掲載されている商品を紹介するコンテンツとして、特有のコンテンツブロックであると判定されたコンテンツブロックに含まれる各コンテンツをスライドショー表示するFlashコンテンツを生成するものとして以下説明する。

　図１２に示すように、システム制御部２０は、先ず、指定された各コンテンツの表示サイズを調整する（ステップＳ７１）。例えば、システム制御部２０は、Flashコンテンツ再生時の実際の表示サイズに合うように、画像データの縦横の画素数を調整したり、テキストデータのフォントサイズ等を調整する。また、システム制御部２０は、コンテンツの表示サイズがFlashコンテンツ再生時の実際の表示サイズに比べて大きすぎる場合には、当該コンテンツを複数に分割する。また、システム制御部２０は、コンテンツの表示サイズがFlashコンテンツ再生時の実際の表示サイズに比べて小さすぎる場合には、複数のコンテンツを１つに結合する。

　次いで、システム制御部２０は、各コンテンツの表示順序を決定する（ステップＳ７２）。各コンテンツの表示順序は、基本的にはツリー探索処理におけるコンテンツブロック対応情報に対するコンテンツの設定順と同じ順序である。つまり、ＨＴＭＬ文書において当該文書の先頭の近くに規定されているコンテンツほど、表示順序が早くなる。

　次いで、システム制御部２０は、各コンテンツの遷移方法を決定する（ステップＳ７３）。つまり、システム制御部２０は、スライドショー表示において、表示するコンテンツを切り換える際に施されるエフェクト（表示効果）を決定する。エフェクトとしては、例えば、フェードイン／フェードアウト、スライド、ランダムブロック、ワイプ、エフェクトなし等がある。

　次いで、システム制御部２０は、ステップＳ７１において調整が行われた各コンテンツに基づき、ステップＳ７２及びＳ７３において決定された条件に基づいてFlashコンテンツを生成する（ステップＳ７４）。システム制御部２０は、この処理を終えると、Flashコンテンツ生成処理を終了させる。

　以上説明したように、本実施形態によれば、コンテンツ生成サーバ１のシステム制御部２０が、指定されたＵＲＬに対応する商品詳細ページを構成しているコンテンツを抽出し、指定されたＵＲＬに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算し、指定されたＵＲＬに対応する商品詳細ページを構成するコンテンツのうち、出現頻度が最も小さいコンテンツを当該商品詳細ページに特有のコンテンツであると判断する。

　従って、出現頻度が小さいコンテンツであるほど、指定された商品詳細ページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定された商品詳細ページに特有のコンテンツを特定される。よって、商品詳細ページに特有のコンテンツを容易に抽出することができる。

　また、コンテンツ生成サーバ１のシステム制御部２０が、商品詳細ページに特有のコンテンツであると判断されたコンテンツに基づいてFlashコンテンツを生成する。

　従って、当該商品詳細ページに掲載されている商品の内容等を端的に示し又は特徴を示すコンテンツを生成することができる。

　また、コンテンツ生成サーバ１のシステム制御部２０が、ショッピングサイトに含まれる複数の商品詳細ページ上における各コンテンツの出現頻度を計算する。

　従って、ショッピングサイトに含まれる複数のＷｅｂページ上において、指定された商品詳細ページを構成している各コンテンツの出現頻度が計算されるので、ショッピングサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。

　また、コンテンツ生成サーバ１のシステム制御部２０が、ショッピングサイトを構成する全ての商品詳細ページについて、商品詳細ページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツブロック対応情報を予め素材抽出ＤＢ１０１に登録しておき、素材抽出ＤＢ１０１に登録された各コンテンツブロック対応情報に基づいて、指定されたＵＲＬに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算する。

　従って、全ての商品詳細ページに基づいて出現頻度計算されるので、特有のコンテンツを判断する精度を上げることができる。

　また、コンテンツ生成サーバ１のシステム制御部２０が、１つ以上のコンテンツで構成されるコンテンツブロックの単位で、商品詳細ページを構成しているコンテンツを抽出し、指定されたＵＲＬに対応する商品詳細ページを構成している各コンテンツブロック出現頻度を計算し、指定されたＵＲＬに対応する商品詳細ページを構成するコンテンツブロックのうち、出現頻度が最も小さいコンテンツブロックを当該商品詳細ページに特有のコンテンツブロックであると判断する。

　従って、商品詳細ページ上において、例えば、ヘッダ部分、ナビゲーション部分、商品の詳細を示す部分、商品購入の際の一般的な注意事項等を示す部分、コピーライト表示の部分等のように、１つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、商品詳細ページに特有のコンテンツブロックを抽出することができる。

　また、コンテンツ生成サーバ１のシステム制御部２０が、商品詳細ページを構成しているコンテンツを当該商品詳細ページのＨＴＭＬ文書に基づいて抽出し、ＨＴＭＬ文書においてＤＩＶタグ又はＴＡＢＬＥタグに基づいてコンテンツブロックを定める。

　従って、ＤＩＶタグにより、ＨＴＭＬ文書の作成の際に明示的にブロック化された１つ以上のコンテンツを特定することができ、また、ＴＡＢＬＥタグにより、表形式でブロック化されて表示される１つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、商品詳細ページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Ｗｅｂページに特有のコンテンツを判断する精度を上げることができる。

　なお、上記第１実施形態においては、指定された商品詳細ページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、素材抽出ＤＢ１０１に登録されている全てのコンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定された商品詳細ページを構成する各コンテンツブロックの出現頻度を計算する場合に、ショッピングサイトに含まれる全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようになっていたが、全ての商品詳細ページを対象としなくても良い。例えば、対象となる店舗の指定を可能とし、指定された店舗に対応する全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようにしても良い。また、例えば、予め定められたページ数分の商品詳細ページを対象としても良い。

　また、予め各商品詳細ページからコンテンツブロックの抽出しておかなくても良い。例えば、Flashコンテンツ生成時に、出現頻度を計算するのに必要な各商品詳細ページについてコンテンツブロックの抽出を行えば良い。

　また、上記第１実施形態においては、システム管理者又は店舗従業員から商品詳細ページのＨＴＭＬ文書のＵＲＬを指定されたときに、Flashコンテンツを生成するようにしていたが、例えば、新規の商品詳細ページが作成されたときや、商品詳細ページが更新されたときに、新規作成され又は更新された商品詳細ページについてのFlashコンテンツを生成しても良い。

　また、上記第１実施形態においては、出現頻度が最も小さいコンテンツブロックのみをＷｅｂページに特有のコンテンツとしていたが、例えば、出現頻度が１番目に小さいコンテンツブロックからＮ番目（Ｎは２以上の自然数）に小さいコンテンツまでのＮ個のコンテンツブロックをＷｅｂページに特有のコンテンツブロックとしても良い。これは、例えば、所望の処理に必要なコンテンツブロックの個数が２個以上で予め定められている場合に適用することができる。また、例えば、所望の処理に必要なコンテンツ（コンテンツブロックではない）の個数が２個以上で予め定められている場合に、出現頻度が１番目に小さいコンテンツブロックに含まれるコンテンツのみでは足りないときには、出現頻度が２番目に小さいコンテンツブロックをＷｅｂページに特有のコンテンツであると追加認定し、出現頻度が１番目に小さいコンテンツブロックと２番目に小さいコンテンツブロックに含まれるコンテンツのみで足りないときには、出現頻度が３番目に小さいコンテンツブロックをＷｅｂページに特有のコンテンツであると追加認定する、といった処理を行っても良い。

　また、上記第１実施形態においては、Ｗｅｂページに特有のコンテンツを用いてFlashコンテンツを生成していたが、Flashコンテンツ以外のコンテンツ（例えば、動画データ、静止画像データ、電子文書等）を生成しても良い。

　また、Ｗｅｂページに特有のコンテンツの用途としては新たなコンテンツの生成のみに限られるものではない。例えば、Ｗｅｂページに特有の画像データを判定し、特有の画像データと判定された画像データを、当該Ｗｅｂページを代表する画像データとして、検索結果等に表示しても良い。

　［２．第２実施形態］
　以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ブログサービスを提供するブログシステムにおいて、ブログページ送信するサーバ装置に対して本発明を適用した場合の実施形態である。

　［２－１．ブログシステムの構成及び機能概要］
　先ず、本実施形態に係るブログシステムＢＳの構成及び概要機能について、図１３を用いて説明する。

　図１３は、本実施形態に係るブログシステムＢＳの概要構成の一例を示す図である。図１３において、図１と同様の要素については同様の符号を付してある。

　図１３に示すように、ブログシステムＢＳは、特有コンテンツ判定装置及び関連コンテンツ挿入装置の一例としてのブログサーバ６と、管理端末３と、複数のユーザ端末５と、を含んで構成されている。そして、ブログサーバ６と、各ユーザ端末５とは、ネットワークＮＷを介して、例えば、通信プロトコルにＴＣＰ／ＩＰ等を用いて相互にデータの送受信が可能になっている。また、ブログサーバ６と管理端末３とは、ＬＡＮ等のネットワークを介して接続されている。

　このような構成のブログシステムＢＳにおいて、ブログサーバ６は、ユーザ端末５からのリクエストに応じて、ブログサービスサイトを構成するＷｅｂページを送信するＷｅｂサーバである。ユーザ端末５を利用するユーザがブログサービスサイトのユーザ登録をすると、そのユーザは、当該ブログサービスサイトにおいてユーザ自身のブログを運営することができるようになっている。そして、ユーザ登録されたユーザ（ブロガー）は、ブログサービスサイトにアクセスして、自己のブログを更新（ブログ記事（ブログ１件毎の記録）を追加）することができるようになっている。そのため、ブログサーバ６は、ブログの更新に応じて、ブログのＷｅｂページとして、１又は複数のブログ記事が掲載されるブログページを生成又は更新する。そして、ブログサーバ６は、ブログページＤＢ６０１を備え、ブログページを当該ブログページＤＢ６０１に登録する。

　また、ブログサーバ６は、システム管理者により指定されたブロガーのブログページに対して、広告コンテンツ（関連コンテンツの一例）を挿入する。広告コンテンツとしては、例えば、広告文章のテキストデータ、バナーの画像データ、動画データ、Adobe Flash（商標）やSilverlight（商標）等により生成されたリッチインターネットアプリケーション（ＲＩＡ）等がある。各ブログページに挿入される広告コンテンツは、対象のブログページに掲載されているブログ記事に関連する商品やサービスに関する広告を示すコンテンツである。そのため、ブログサーバ６は、複数の広告コンテンツが登録されている広告ＤＢ６０２を備える。そして、ブログサーバ６は、ブログページからブログ記事を抽出し、更にブログ記事から特徴語を抽出して、抽出した特徴語に関連する広告コンテンツを選択する。

　ユーザ端末５は、ブロガーとしてのユーザや、ブログを閲覧するユーザにより利用される端末装置である。ユーザ端末５としては、例えば、パーソナルコンピュータ、ＰＤＡ、携帯電話機等が用いられる。

　管理端末３は、ブログシステムＢＳのシステム管理者により使用される端末装置である。管理端末３としては、例えば、パーソナルコンピュータ等が用いられる。

　［２－２．ブログサーバの構成及び機能］
　次に、ブログサーバ６の構成及び機能について、図１４を用いて説明する。

　図１４は、本実施形態に係るブログサーバ６の概要構成の一例を示すブロック図である。また、図１５は、ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。また、図１６は、Ｗｅｂページの構成例を示す図である。また、図１７は、ＨＴＭＬ文書から生成されたＤＯＭツリーの一例を示す図である。また、図１８は、記憶部６５に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。

　図１４に示すように、ブログサーバ６は、操作部６１と、表示部６２と、通信部６３と、ドライブ部６４と、記憶手段の一例としての記憶部６５と、入出力インタフェース部６６と、システム制御部７０と、を備えている。そして、システム制御部７０と入出力インタフェース部６６とは、システムバス７１を介して接続されている。

　操作部６１は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部７０に出力するようになっている。表示部６２は、例えば、ＣＲＴディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部６３は、ネットワークＮＷ等に接続して、管理端末３、ユーザ端末５等との通信状態を制御するようになっている。ドライブ部６４は、例えば、フレキシブルディスク、ＣＤ、ＤＶＤ等のディスクＤＫからデータ等を読み出す一方、当該ディスクＤＫに対してデータ等を記録するようになっている。

　記憶部６５は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部６５には、ブログページＤＢ６０１及び広告ＤＢ６０２が構築されている。ブログページＤＢ６０１には、ブログサービスサイトを構成する各ブログページ（ブログページのＨＴＭＬ文書（ドキュメントデータの一例）、ブログページの素材である画像データ等）が、例えば、そのページのＵＲＬ及びブロガーの識別情報であるユーザＩＤに対応付けて登録されている。広告ＤＢ６０２には、複数の広告コンテンツが、その広告コンテンツによる広告対象の商品やサービスに関連するキーワードに対応付けて登録されている。ここで、広告コンテンツにテキストデータ以外のコンテンツが含まれている場合には、当該コンテンツのＵＲＬも対応付けて登録されている。また、ブログページ上に表示された広告コンテンツをユーザが選択したときに広告対象の商品やサービスに関するＷｅｂページに移動するため、当該ＷｅｂページのＵＲＬも対応付けて登録されている。

　入出力インタフェース部６６は、操作部６１～記憶部６５とシステム制御部７０との間のインタフェース処理を行うようになっている。システム制御部７０は、ＣＰＵ６７、ＲＯＭ６８、ＲＡＭ６９等により構成されている。

　システム制御部７０は、ＣＰＵ６７が、ＲＯＭ６８や記憶部６５に記憶された各種プログラムを読み出し実行することによりブログサーバ６の各部を制御する。また、システム制御部７０は、広告コンテンツ挿入ソフトウェア（特有コンテンツ判定プログラムの一例）を実行することにより、抽出手段、計算手段、判定手段及び挿入手段として機能する。なお、広告コンテンツ挿入ソフトウェア等は、例えば、他のサーバ装置等からネットワークＮＷを介して取得されるようにしても良いし、ＣＤ－ＲＯＭ等のディスクＤＫに記録されてドライブ部６４を介して読み込まれるようにしても良い。

　広告コンテンツ挿入ソフトウェアは、ブログページに広告コンテンツを挿入するためのプログラムである。図１５に示すように、広告コンテンツ挿入ソフトウェアは、マネージャ部、素材抽出エンジン、文章解析エンジン、広告選択部等により構成されている。マネージャ部は、素材抽出エンジン、文章解析エンジン及び広告選択部の実行を制御する。素材抽出エンジンは、ブログページのＨＴＭＬ文書からＷｅｂ素材としてのコンテンツを抽出するとともに、ブログページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、コンテンツブロック（コンテンツグループの一例）の単位で行われる。本実施形態においては、例えば、その記事特有の内容を含むブログ記事が、ブログページに特有のコンテンツブロックに相当する。

　文章解析エンジンは、ブログページ特有のコンテンツとして抽出されたブログ記事から当該ブログページの特徴語を抽出するためのソフトウェアである。広告選択部は、抽出された特徴語をキーワードとして、ブログページに関連する広告コンテンツを選択するためのソフトウェアである。

　以下に、広告コンテンツの挿入の概要について説明する。図１５に示すように、システム管理者により対象のブロガーのユーザＩＤが指定される（１）。すると、システム制御部７０は、指定されたユーザＩＤに対応する全ブログページのＨＴＭＬ文書をブログページＤＢ６０１から取得して解析し、Ｗｅｂ素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報（コンテンツ情報の一例）を生成する（２）。次いで、システム制御部７０は、抽出した各コンテンツブロックの、指定されたユーザＩＤに対応する全ブログページにおける出現頻度を計算する。本実施形態において計算される出現頻度は、例えば、出現回数（度数）である。そして、システム制御部７０は、出現頻度に基づいて、各ブログページにおいて特有であるコンテンツブロックを判定する。具体的に、システム制御部７０は、各ブログページにおいて、出現頻度が所定の閾値以下であるコンテンツブロックを、そのブログページ特有のコンテンツブロックであると判定する（３）。

　システム制御部７０は、特有のコンテンツブロックであると判定したコンテンツブロック、すなわち、ブログ記事に対して形態素解析等の分析を行って、ブロックページ毎の特徴語を抽出する（４）。特徴語の抽出方法としては、種々の方法があり、また公知であるので、詳細な説明は省略する。一例としては、出現頻度の最も高い単語を特徴語とする。

　次いで、システム制御部７０は、広告ＤＢ６０２を参照し、抽出した特徴語に関連する広告コンテンツを選択する（５）。そして、システム制御部７０は、選択した広告コンテンツをブログページに挿入して表示させるための規定（タグやデータそのものの記述等）を、ブログページのＨＴＭＬ文書に挿入する（６）。

　例えば、ブログページの構成（レイアウト）が図１６に示すようなものであるとする。Ｗｅｂ素材としての各コンテンツは、ブログページ上において、それぞれ或るまとまり（かたまり）毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、ＨＴＭＬ文書に記述されているＤＩＶタグ及びＴＡＢＬＥタグ（予め定められたタグの一例）により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、ＤＩＶタグ及びＴＡＢＬＥタグによりブロック化（グループ化）される。

　図１６には、コンテンツブロック７０１～７０６が表示されている。コンテンツブロック７０１は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストＡ及び画像ａにより構成されている。また、コンテンツブロック７０２は、例えば、他のＷｅｂページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のＷｅｂページへのリンクを示すテキストＢ、テキストＣ及びテキストＤにより構成されている。また、コンテンツブロック７０３は、例えば、ブログの表示領域に対応するコンテンツブロックであり、ブログ等の見出しを示すテキストＥ、コンテンツブロック７０４及びコンテンツブロック７０５により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック７０３に含まれるコンテンツはテキストＥのみとされ、コンテンツブロック７０４及びコンテンツブロック７０５は、コンテンツブロック７０３から独立しているものとされる。コンテンツブロック７０４及び７０５は、夫々１件のブログ記事である。コンテンツブロック７０４には、ブログ記事の表題や本文を示すテキストＦ及びＧにより構成されている。コンテンツブロック７０５には、ブログ記事の表題や本文を示すテキストＨ、Ｉ及びＪと、ブログ記事に関連してブロガーにより登録された画像ｂ及びｃとにより構成されている。コンテンツブロック７０６は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストＩにより構成されている。

　これらのコンテンツブロックのうち、コンテンツブロック７０１、７０２、７０３及び７０６は、図１６に示すブログページ以外のブログページ上でも比較的頻繁に現れる。一方、コンテンツブロック７０４及びコンテンツブロック７０５は、基本的に当該ブログページにだけに用いられる。よって、コンテンツブロック７０４又はコンテンツブロック７０５が、当該ブログページ特有のコンテンツブロックであると判断されることとなる。

　本実施形態においては、その記事特有の内容を含むブログ記事に相当するコンテンツブロックを特有のコンテンツブロックと判定されるようにする必要がある。こうした特有の内容を含むブログ記事は、１ページ内に複数含まれている場合がある。そのため、出現頻度が所定の閾値以下であるコンテンツブロックは、全て特有のコンテンツブロックとされる。例えば、閾値の値を１回に設定する。そうすると、特有の内容を含むブログ記事は、特有のコンテンツブロックと判定され、他のブログ記事と同じような内容のみを含むブログ記事は、特有のコンテンツブロックとは判定されない。また、ヘッダ部分、ナビゲーション部分、コピーライト表示部分等の各ブログページに共通するようなコンテンツブロックの出現頻度は夫々２回以上となるので、これらも特有のコンテンツブロックとは判定されない。なお、閾値は記憶部６５に予め記憶される。

　図１６に示すブログページのＨＴＭＬ文書をＤＯＭツリー、すなわち、木構造で表したものが図１７である。なお、図１７に示すＤＯＭツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。

　第１実施形態の場合と同様にコンテンツブロックを抽出すると、システム制御部７０は、抽出結果を示すコンテンツブロック対応情報を一時的に記憶部６５に保存する。図１８に示すように、コンテンツブロック対応情報（符号４０１）は、コンテンツブロック毎に保存される。なお、本実施形態においては、ブログページ特有のコンテンツブロックであると判定されたコンテンツブロック、すなわち、ブログ記事から特徴語を抽出するので、テキストデータが抽出されれば良く、画像データについては抽出しなくても良い。

　［２－３．ブログシステムの動作］
　次に、ブログシステムＢＳの動作について、図１９乃至図２１を用いて説明する。

　図１９は、本実施形態に係るブログサーバ６のシステム制御部７０の広告コンテンツ挿入処理における処理例を示すフローチャートである。

　広告コンテンツ挿入処理は、例えば、システム管理者の操作に基づいて管理端末３から広告コンテンツ挿入処理の実行のリクエストが送信されてきたときに開始される。

　そして、システム管理者が広告コンテンツの挿入対象とするブログを運営するブロガーのユーザＩＤを指定すると、図１９に示すように、システム制御部７０は、指定されたユーザＩＤを管理端末３から受信する（ステップＳ１０１）。

　次いで、システム制御部７０は、ブロック数ＮＵＭに０を設定する（ステップＳ１０２）。ブロック数ＮＵＭは、現時点で発見済みのコンテンツブロックの個数である。また、ＮＵＭはグローバル変数であり、後述する１ページ対応抽出処理及びツリー探索処理からアクセスが可能である。

　次いで、システム制御部７０は、受信したユーザＩＤに対応する最初のブログページのＨＴＭＬ文書をブログページＤＢ６０１から取得する（ステップＳ１０３）。次いで、システム制御部７０は、取得したＨＴＭＬ文書を指定して、後述する１ページ対応抽出処理を実行する（ステップＳ１０４）。この１ページ対応抽出処理では、取得したＨＴＭＬ文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が保存される。

　次いで、システム制御部７０は、受信したユーザＩＤに対応する全てのブログページのコンテンツブロックを抽出したか否かを判定する（ステップＳ１０５）。このとき、システム制御部７０は、コンテンツブロックを抽出していないブログページが存在する場合には（ステップＳ１０５：ＮＯ）、次のブログページのＨＴＭＬ文書をブログページＤＢ６０１から取得して（ステップＳ１０６）、ステップＳ１０４に移行する。そして、システム制御部７０は、ステップＳ１０４～Ｓ１０６の処理を繰り返して全てのブログページのコンテンツブロックを抽出すると（ステップＳ１０５：ＹＥＳ）、ステップＳ１０７に移行する。

　ステップＳ１０７において、システム制御部７０は、受信したユーザＩＤに対応する最初のブログページのＨＴＭＬ文書を特定する。

　次いで、システム制御部７０は、取得したＨＴＭＬ文書を指定して、後述する特有コンテンツブロック判定処理を実行する（ステップＳ１０８）。この特有コンテンツブロック判定処理では、特定したＨＴＭＬ文書からコンテンツブロックが抽出され、ブログページ特有のコンテンツブロックが判定される。

　次いで、システム制御部７０は、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する（ステップＳ１０９）。次いで、システム制御部７０は、抽出した特徴語に基づいて、ブログページに関連する広告ページを当該ブログページに挿入する（ステップＳ１１０）。具体的に、システム制御部７０は、抽出した特徴語をキーワードとし、広告ＤＢ６０２を参照して当該キーワードに対応する広告コンテンツを選択する。次いで、システム制御部７０は、特定したＨＴＭＬ文書上の所定の位置に、選択した広告コンテンツの規定を挿入する。例えば、システム制御部７０は、広告コンテンツにテキストデータが含まれている場合には、当該テキストデータの内容をＨＴＭＬ文書に追加する。また、例えば、システム制御部７０は、広告コンテンツに画像データが含まれている場合には、当該画像データを表示するためのＩＭＧタグをＨＴＭＬ文書に追加する。また、例えば、システム制御部７０は、広告対象の商品やサービスに関するＷｅｂページへのリンク情報をＨＴＭＬ文書に追加する。

　システム制御部７０は、特定したＨＴＭＬ文書に広告コンテンツの規定を挿入すると、当該ＨＴＭＬ文書で、ブログページＤＢ６０１に登録されているＨＴＭＬ文書を更新する（ステップＳ１１１）。

　次いで、システム制御部７０は、受信したユーザＩＤに対応する全てのブログページに広告コンテンツを挿入したか否かを判定する（ステップＳ１１２）。このとき、システム制御部７０は、広告コンテンツを挿入していないブログページが存在する場合には（ステップＳ１１２：ＮＯ）、次のブログページのＨＴＭＬ文書を特定して（ステップＳ１１３）、ステップＳ１０８に移行する。そして、システム制御部７０は、ステップＳ１０８～Ｓ１１３の処理を繰り返して全てのブログページに広告コンテンツを挿入すると（ステップＳ１１２：ＹＥＳ）、記憶部６５に保存させておいた全てのコンテンツブロック対応情報を、記憶部６５から削除する（ステップＳ１１４）。システム制御部７０は、この処理を終えると、広告コンテンツ挿入処理を終了させる。

　図２０は、本実施形態に係るブログサーバ６のシステム制御部７０の１ページ対応抽出処理における処理例を示すフローチャートである。

　図２０に示すように、システム制御部７０は、先ず、取得したＨＴＭＬ文書のＤＯＭツリーをＲＡＭ６９上に生成する（ステップＳ１２１）。

　次いで、システム制御部７０は、階層ＬＶに０を設定する（ステップＳ１２２）。階層ＬＶは、ＤＯＭツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。ＬＶはグローバル変数であり、１ページ対応抽出処理及びツリー探索処理からアクセスが可能である。

　次いで、システム制御部７０は、ＤＯＭツリーのルートノードを指定して（ステップＳ１２３）、ツリー探索処理を実行する（ステップＳ１２４）。ツリー探索処理の処理内容は、第１実施形態の場合と同様であるので、詳細な説明は省略する。

　次いで、システム制御部７０は、ツリー探索処理により生成された各コンテンツブロック対応情報を記憶部６５に保存する（ステップＳ１２５）。システム制御部７０は、この処理を終えると、１ページ対応抽出処理を終了させる。

　図２１は、本実施形態に係るコンテンツ生成サーバ１のシステム制御部７０の特有コンテンツブロック判定処理における処理例を示すフローチャートである。

　図２１に示すように、システム制御部７０は、先ず、１ページ対応抽出処理と同様に、指定されたＨＴＭＬ文書のＤＯＭツリー生成（ステップＳ１６１）、ブロック数ＮＵＭ及び階層ＬＶに対して０の設定を行い（ステップＳ１６２）、ＤＯＭツリーのルートノードを指定して（ステップＳ１６３）、ツリー探索処理を実行する（ステップＳ１６４）。

　次いで、システム制御部７０は、ブロック番号ｉに１を設定する（ステップＳ１６５）。次いで、システム制御部７０は、ブロック番号ｉのコンテンツブロックの出現頻度を計算する（ステップＳ１６６）。

　具体的に、システム制御部７０は、ステップＳ１６４のツリー探索処理において生成されたコンテンツブロック対応情報ｉのブロック構成情報と、記憶部６５に保存されている各コンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。出現頻度の計算方法は、第１実施形態の場合と同様である。

　システム制御部７０は、出現頻度を計算すると、計算した出現頻度が、記憶部６５に記憶されている閾値以下であるか否かを判定する（ステップＳ１６７）。このとき、システム制御部７０は、出現頻度が閾値以下である場合には（ステップＳ１６７：ＹＥＳ）、ブロック番号ｉのコンテンツブロックを、特有のコンテンツブロックの１つであると判定する（ステップＳ１６８）。つまり、システム制御部７０は、ブロック番号ｉのコンテンツブロックを、指定されたＨＴＭＬ文書が対応するブログページに特有のコンテンツブロックに加える。

　システム制御部７０は、出現頻度が閾値よりも大きい場合（ステップＳ１６７：ＮＯ）、又は、ステップＳ１６８の処理を終えた場合には、ブロック番号ｉに１を加算して（ステップＳ１６９）、ブロック番号ｉがブロック数ＮＵＭの値より大きいか否かを判定する（ステップＳ１７０）。このとき、システム制御部７０は、ブロック番号ｉがブロック数ＮＵＭの値以下である場合には（ステップＳ１７０：ＮＯ）、ステップＳ１６６に移行する。そして、システム制御部７０は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると（ステップＳ１７０：ＹＥＳ）、特有コンテンツブロック判定処理を終了させる。

　なお、システム制御部７０は、ステップＳ１６４のツリー探索処理によりコンテンツブロックを抽出していたが、広告コンテンツ挿入処理から実行された１ページ対応抽出処理（図１９ステップＳ１０４）において、受信したブロガーのユーザＩＤに対応する全てのブログページについてコンテンツブロックが抽出され、その結果としてコンテンツブロック対応情報が記憶部６５に記憶されているので、再度コンテンツブロックを抽出しなくても良い。その場合には、指定されたＨＴＭＬ文書のＵＲＬに基づいて、当該ＨＴＭＬ文書が対応するブログページを構成する各コンテンツブロックのコンテンツブロック対応情報を記憶部６５から取得することができる。

　［２－４．変形例１］
　次に、本実施形態の変形例について、図２２を用いて説明する。

　これまでの説明においては、システム管理者によりブロガーが指定されたときに、指定されたブロガーのブログページに広告コンテンツを挿入していたが、ブログが更新されたタイミングで広告コンテンツを挿入しても良い。

　図２２は、本実施形態の変形例に係るブログサーバ６のシステム制御部７０のブログ更新時処理における処理例を示すフローチャートである。なお、図２２において、図１９と同様の処理については同様のステップ番号を付してある。

　先ず、ブログの更新に先立ち、ブロガーは、ユーザ端末５を操作してブログサービスサイトにアクセスし、自身のユーザＩＤとパスワードとを入力することによりブログサービスサイトにログインする。このログインにより、ブログサーバ６はユーザ端末５に対してセッションＩＤを発行し、セッションＩＤとユーザＩＤとを対応付けて管理する。ユーザ端末５からブログサーバ６へのリクエストにはセッションＩＤが含まれているので、ブログサーバ６は、どのブロガーからのリクエストであるかを特定することができる。

　そして、ブロガーが新しいブログ記事の登録操作を行うと、ユーザ端末５は、ブログ記事のデータ（表題や本文等のテキストデータ、画像データ等）をブログサーバ６に送信し、図２２に示すように、ブログサーバ６のシステム制御部７０は、ブログ記事のデータを受信する（ステップＳ１７１）。次いで、システム制御部７０は、ブロガーのユーザＩＤに対応するブログページの中から、更新すべきブログページのＨＴＭＬ文書をブログページＤＢ６０１から取得する（ステップＳ１７２）。次いで、システム制御部７０は、受信したブログ記事のデータに基づいて、取得したＨＴＭＬ文書を更新する（ステップＳ１７３）。例えば、システム制御部７０は、取得したＨＴＭＬ文書に、ブログ記事用のＴＡＢＬＥタグ又はＤＩＶタグを追加し、当該タグに挟まれた形で、受信したブログ記事の表題や本文のテキストデータ等を追加する。次いで、システム制御部７０は、ブログ記事のデータを追加したＨＴＭＬ文書で、ブログページＤＢ６０１に登録されているＨＴＭＬ文書を更新する（ステップＳ１７４）。

　次いで、システム制御部７０は、ブロガーのユーザＩＤに対応する全てのブログページからコンテンツブロックを抽出する（ステップＳ１０３～Ｓ１０６）。

　次いで、システム制御部７０は、ステップＳ１７３において更新したＨＴＭＬ文書を指定して、特有コンテンツブロック判定処理を実行し（ステップＳ１０８）、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する（ステップＳ１０９）。

　次いで、システム制御部７０は、指定されたＨＴＭＬ文書から、既存の広告コンテンツの規定を削除し（ステップＳ７７５）、抽出した特徴語をキーワードとして、関連する広告コンテンツの規定を挿入する（ステップＳ１１０）。つまり、システム制御部７０は、ブログページ上に表示される広告コンテンツを変更する。

　そして、システム制御部７０は、広告コンテンツの規定が挿入されたＨＴＭＬ文書で、ブログページＤＢ６０１に登録されているＨＴＭＬ文書を更新し（ステップＳ１１１）、記憶部６５から全てのコンテンツブロック対応情報を削除する（ステップＳ１１４）。

　なお、ブログの更新に伴ってブログページを新規に生成しなければならない場合の処理も、基本的に上述した処理と同様で良い。ただし、新規に生成されたブログページには、広告コンテンツは未だ挿入されていないので、ステップＳ１７５における広告コンテンツの規定の削除は行われない。

　［２－５．変形例２］
　これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる閾値として１回を設定していたが、２回以上の値を閾値として設定しても良い。

　例えば、閾値を１回とした場合には、出現頻度が１回であるコンテンツブロック（ブログ記事）がブログページに特有のコンテンツとして抽出され、抽出されたブログ記事のテキストデータから特徴語が抽出される。このとき、抽出された各ブログ記事のテキストデータのデータ量が少ないと、そこから抽出される単語の数は少なくなる。そして、十分な数の単語を抽出することができないと、どの単語が特徴語であるかを全く判断することができない場合や、的確に判断することができない場合がある。そこで、閾値の値を上げて、ブログページに特有のコンテンツと判定される条件をゆるめることで、特徴語を抽出する対象となるブログ記事を増やしていく。これにより、特徴語を抽出することが可能となる。

　具体的には、ブログサーバ６のシステム制御部７０が、最初は閾値を１回に設定して、ブログページに特有のコンテンツブロックを判定することにより、出現回数が１回のブログ記事を抽出して特徴語を抽出する。このとき、システム制御部７０は、特徴語を抽出することができないと判定した場合には、閾値を２回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部７０は、それでも特徴語を抽出することができないと判定した場合には、閾値を３回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部７０は、こうした処理を、特徴語が抽出することができるまで継続する。つまり、特有のコンテンツブロックの抽出結果に基づく処理を正常に行うことができなかった場合に、閾値を上げるのである。

　ただし、閾値を無制限に上げていくと、ブログ記事ではないものも抽出されてしまうので、閾値がある程度まで上がると処理を中断するものとする。例えば、閾値が、指定されたブロガーに対応するブログページのページ数の値にまで上がると、各ブログページで共通して用いられるコンテンツブロックを抽出してしまうので、閾値がブログページのページ数の値になったら処理を中断しても良い。

　また例えば、ブログページの所定ページ数あたり１回のみ出現するコンテンツブロックをブログページ特有のコンテンツブロックであると、システム管理者側で予め定めても良い。この場合、指定されたブロガーに対応するブログページのページ数に比例して、閾値としての出現回数を変えても良い。

　［２－６．変形例３］
　これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる出現頻度として、出現回数（度数）を用いていたが、指定されたブロガーに対応するブログページの全コンテンツブロックに対する出現回数の割合（相対度数）を用いても良い。

　例えば、ブロガーが登録したブログ記事に対して、他のユーザからコメントを登録することができ、ブログ記事とともにコメントが閲覧可能になっているとする。このコメントのテキストデータもブログページを構成するコンテンツの１つとなる。ブログサーバ６のシステム制御部７０は、コメントのテキストデータをブログページに追加する場合、当該ブログページのＨＴＭＬ文書に、ブロック化タグの記述を追加した上で当該テキストデータを追加することにより、コメントのテキストデータを、ブログ記事や他のコメントのテキストデータとは独立したコンテンツブロックとする。そして、システム制御部７０は、コンテンツブロックとしてコメントのテキストデータを抽出し、抽出したコメントのテキストデータが特有の内容を有している場合には、そのコメントに関連する広告コンテンツをブログページに挿入するようにする。

　ところで、或るブログ記事に対して複数のコメントが登録された場合において、複数のコメントの各内容が、例えば、多数派の意見と少数派の意見といったように、頻繁に出現する内容と、あまり頻繁には出現しない内容とに分かれる場合がある。このとき、多数派の意見は、一般的な意見であり、あまり特徴的な内容ではないと考えることができる。一方、少数派の意見は、特異な意見であり、ブログページに特有の内容と考えることができる。そうした場合に、少数派の意見を示すコメントをブログページ特有のコンテンツとして抽出したい。

　しかしながら、多数派の意見の数と少数派の意見の数は、相対的なものであり、コメントの総数によって変化する。こうした場合において、出現頻度として度数を用い、閾値を例えば１回とすると、頻繁に現れない内容（少数派の意見）を適切に抽出することができない場合がある。そこで、出現頻度として相対度数を用い、閾値を所定の割合に設定するのである。このときの閾値は任意に設定することができる。例えば、抽出されたコンテンツブロックの内容がＮ個のパターン（Ｎは２以上の整数）に分けられる場合、少数派の意見を区別するために、閾値には１÷Ｎ未満の範囲で閾値を設定しても良い。このように、システム制御部７０が、その時々の状況に応じて閾値を変更しても良い。

　なお、ブログ等のような記事に対してコメント等を登録することができるシステムとして、例えば、或るユーザが登録したつぶやきに対して、これをフォローするつぶやきを他のユーザが登録することができるTwitter（商標）や、電子掲示板等がある。

　以上説明したように、本実施形態によれば、ブログサーバ６のシステム制御部７０が、ＨＴＭＬ文書が指定されることによって順次指定されたブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツの出現頻度を計算し、指定されたブログページを構成するコンテンツのうち、出現頻度が所定の閾値以下のコンテンツを当該ブログページに特有のコンテンツであると判断する。

　従って、出現頻度が小さいコンテンツであるほど、指定されたブログページ以外にはあまり出現しないコンテンツであるので、出現頻度が閾値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたブログページに特有のコンテンツであると特定される。よって、ブログページに特有のコンテンツを容易に抽出することができる。

　また、ブログサーバ６のシステム制御部７０が、指定されたブログページに特有のコンテンツに関連する広告コンテンツを当該ブログページに挿入する。

　従って、ブログページの特徴と関連する情報をＷｅｂページに追加することができる。

　また、ブログサーバ６のシステム制御部７０が、指定されたブログページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを、当該ブログページに特有のコンテンツであると判定し、ブログの記事のテキストデータから当該ブログページの特徴語を抽出し、当該特徴語をキーワードとして、予め関連付けられている広告コンテンツを、当該ブログページに挿入する。

　従って、ブログページに掲載されているブログの内容に関連する広告を当該ブログページに追加することができる。

　また、ブログサーバ６のシステム制御部７０が、ブログサービスサイトに含まれる複数のブログページ上における各コンテンツの出現頻度を計算する。

　従って、ブログサービスサイトに含まれる複数のＷｅｂページ（例えば、指定されたブロガーのユーザＩＤに対応する複数のブログページ）上において、指定されたブログページを構成している各コンテンツの出現頻度が計算されるので、ブログサービスサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。

　また、ブログサーバ６のシステム制御部７０が、１つ以上のコンテンツで構成されるコンテンツブロックの単位で、ブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツブロック出現頻度を計算し、指定されたブログページを構成するコンテンツブロックのうち、出現頻度が閾値以下のコンテンツブロックを当該ブログページに特有のコンテンツブロックであると判断する。

　従って、ブログページ上において、例えば、ヘッダ部分、ナビゲーション部分、ブログが表示される部分、コピーライト表示の部分等のように、１つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、ブログページに特有のコンテンツブロックを抽出することができる。

　また、ブログサーバ６のシステム制御部７０が、ブログページを構成しているコンテンツを当該ブログページのＨＴＭＬ文書に基づいて抽出し、ＨＴＭＬ文書においてＤＩＶタグ又はＴＡＢＬＥタグに基づいて、コンテンツブロックを定める。

　従って、ＤＩＶタグにより、ＨＴＭＬ文書の作成の際に明示的にブロック化された１つ以上のコンテンツを特定することができ、また、ＴＡＢＬＥタグにより、表形式でブロック化されて表示される１つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、ブログページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Ｗｅｂページに特有のコンテンツを判断する精度を上げることができる。

　なお、上記第２実施形態においては、指定されたブログページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、指定されたブロガーのユーザＩＤに対応する全てのブログページを構成する各コンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定されたブログページを構成する各コンテンツブロックの出現頻度を計算する場合に、指定されたブロガーに対応する全てのブログページを対象とした範囲に出現する頻度を計算するようになっていたが、対象とする範囲はこれだけに限られるものではない。例えば、予め定められたページ数分のブログページを対象としても良いし、ブログサービスサイトを構成する全てのブログページを対象としても良い。

　また、上記第２実施形態として、Ｗｅｂページに特有のコンテンツに関連するコンテンツとして、商品やサービスに関する広告を示す広告コンテンツを、当該Ｗｅｂページに挿入していたが、関連するコンテンツであれば広告コンテンツに限られるものではない。例えば、特有のコンテンツと判定されたブログ記事等のコンテンツに関連する画像データ（静止画や動画像）を、背景画像や挿入画像（挿絵等）として挿入しても良い。具体的には、例えば、画像データ用のデータベースを構築し、当該データベースに、画像データとキーワードとを対応付けて登録しておく。画像データに対応付けられるキーワードは、その画像データによって表される画像を示す単語や当該画像に関連する単語である。そして、特有のコンテンツと判定されたコンテンツから特徴語を抽出し、抽出した特徴語をキーワードとして、関連する画像データをデータベースから選択する。そして、対象のＨＴＭＬ文書のＢＯＤＹタグに、選択した画像データのＵＲＬをｂａｃｋｇｒｏｕｎｄ属性として挿入したり、対象のＨＴＭＬ文書の所定位置に、選択した画像データを表示するＩＭＧタグを挿入したりする。これにより、特有のコンテンツと判定されたブログ記事等のコンテンツの内容に適した画像をＷｅｂページに挿入することができる。

　また、Ｗｅｂページに特有のコンテンツの用途としては、関連するコンテンツをＷｅｂページに挿入することのみに限られるものではない。例えば、Ｗｅｂページに特有のコンテンツに基づいて、新たなコンテンツを生成しても良い。

　また、上記各実施形態においては、Ｗｅｂページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。例えば、Ｗｅｂページ上に表示されるコンテンツ、又は、Ｗｅｂページが表示されている際に再生されるコンテンツ（例えば、動画データ、音声データ、電子文書等）であれば良い。また、所定の種類のコンテンツのみを抽出しても良い。

　また、上記各実施形態においては、ＤＩＶタグに挟まれているコンテンツ、及び、ＴＡＢＬＥタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。

　また、上記各実施形態においては、Ｗｅｂページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。

　また、上記各実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からＨＴＭＬ文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。

　また、上記各実施形態においては、ＨＴＭＬ文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Ｗｅｂページを構成するコンテンツを示すデータ（例えば、ＸＨＴＭＬ（Extensible HyperText Markup Language）文書等）に対してドキュメントデータを適用しても良い。

　また、上記実施形態においては、ショッピングサイトにおける商品詳細ページを構成するコンテンツや、ブログサービスサイトにおけるブログページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。

１　コンテンツ生成サーバ
２　ショッピングサーバ
３　管理端末
４　店舗端末
５　ユーザ端末
１１　操作部
１２　表示部
１３　通信部
１４　ドライブ部
１５　記憶部
１６　入出力インタフェース部
１７　ＣＰＵ
１８　ＲＯＭ
１９　ＲＡＭ
２０　システム制御部
２１　システムバス
１０１　素材抽出ＤＢ
２０１　商品詳細ページＤＢ
ＮＷ　ネットワーク
Ｓ　ショッピングシステム
６　ブログサーバ６
６１　操作部
６２　表示部
６３　通信部
６４　ドライブ部
６５　記憶部
６６　入出力インタフェース部
６７　ＣＰＵ
６８　ＲＯＭ
６９　ＲＡＭ
６０　システム制御部
６１　システムバス
６０１　ブログページＤＢ
６０２　広告ＤＢ
ＢＳ　ブログシステム

Claims

　コンピュータを、
　指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段、
　前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
　前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段、
　として機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１に記載の特有コンテンツ判定プログラムにおいて、
　前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１に記載の特有コンテンツ判定プログラムにおいて、
　前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１乃至３の何れか１項に記載の特有コンテンツ判定プログラムにおいて、
　前記計算手段が、所定のサイトに含まれる複数のＷｅｂページ上における各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１乃至４の何れか１項に記載の特有コンテンツ判定プログラムにおいて、
　前記抽出手段が、前記所定のサイトに含まれる予め定められた種類の各ＷｅｂページについてＷｅｂページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
　前記計算手段が、前記記憶されたコンテンツ情報に基づいて、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１乃至５の何れか１項に記載の特有コンテンツ判定プログラムにおいて、
　前記抽出手段が、１つ以上のコンテンツで構成されたコンテンツグループの単位で、Ｗｅｂページを構成しているコンテンツを抽出し、
　前記計算手段が、前記指定されたＷｅｂページを構成しているコンテンツグループの出現頻度を計算し、
　前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツグループのうち、当該Ｗｅｂページに特有であるコンテンツグループを判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項６に記載の特有コンテンツ判定プログラムにおいて、
　前記抽出手段が、所定のマークアップ言語で記述され、Ｗｅｂページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項７に記載の特有コンテンツ判定プログラムにおいて、
　前記抽出手段が、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めるように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１乃至８の何れか１項に記載の特有コンテンツ判定プログラムにおいて、
　特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段として前記コンピュータを更に機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項９に記載の特有コンテンツ判定プログラムにおいて、
　前記生成手段が、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項９又は請求項１０に記載の特有コンテンツ判定プログラムにおいて、
　前記生成手段が、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１乃至８の何れか１項に記載の特有コンテンツ判定プログラムにおいて、
　特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたＷｅｂページに挿入する挿入手段として前記コンピュータを更に機能させることを特徴とする特有コンテンツ判定プログラム。
　請求項１２に記載の特有コンテンツ判定プログラムにおいて、
　前記判定手段が、前記指定されたＷｅｂページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Ｗｅｂページに特有のコンテンツであると判定し、
　前記挿入手段が、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたＷｅｂページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Ｗｅｂページに挿入するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
　指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段と、
　前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段と、
　前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段と、
　を備えることを特徴とする特有コンテンツ判定装置。
　請求項１４に記載の特有コンテンツ判定装置において、
　前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定することを特徴とする特有コンテンツ判定装置。
　請求項１４に記載の特有コンテンツ判定装置において、
　前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Ｗｅｂページに特有のコンテンツであると判定することを特徴とする特有コンテンツ判定装置。
　請求項１４乃至１６の何れか１項に記載の特有コンテンツ判定装置において、
　前記計算手段は、所定のサイトに含まれる複数のＷｅｂページ上における各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
　請求項１４乃至１７の何れか１項に記載の特有コンテンツ判定装置において、
　前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各ＷｅｂページについてＷｅｂページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
　前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
　請求項１４乃至１８の何れか１項に記載の特有コンテンツ判定装置において、
　前記抽出手段は、１つ以上のコンテンツで構成されたコンテンツグループの単位で、Ｗｅｂページを構成しているコンテンツを抽出し、
　前記計算手段は、前記指定されたＷｅｂページを構成しているコンテンツグループの出現頻度を計算し、
　前記判定手段は、前記指定されたＷｅｂページを構成しているコンテンツグループのうち、当該Ｗｅｂページに特有であるコンテンツグループを判定することを特徴とする特有コンテンツ判定装置。
　請求項１９に記載の特有コンテンツ判定装置において、
　前記抽出手段は、所定のマークアップ言語で記述され、Ｗｅｂページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。
　請求項２０に記載の特有コンテンツ判定装置において、
　前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。
　指定されたＷｅｂページを構成しているコンテンツを抽出する抽出行程と、
　前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算行程と、
　前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定行程と、
　を有することを特徴とする特有コンテンツ判定方法。
　コンピュータを、
　指定されたＷｅｂページを構成しているコンテンツを抽出する抽出手段、
　前記指定されたＷｅｂページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
　前記計算された出現頻度に基づいて、前記指定されたＷｅｂページを構成しているコンテンツのうち、当該Ｗｅｂページに特有であるコンテンツを判定する判定手段、
　として機能させる特有コンテンツ判定プログラムがコンピュータ読み取り可能に記録されていることを特徴とする記録媒体。
　請求項１４乃至２１の何れか１項に記載の特有コンテンツ判定装置と、
　前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、
　を備えることを特徴とするコンテンツ生成装置。
　請求項２４に記載のコンテンツ生成装置において、
　前記生成手段は、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成することを特徴とするコンテンツ生成装置。
　請求項２４又は請求項２５に記載のコンテンツ生成装置において、
　前記生成手段は、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成することを特徴とするコンテンツ生成装置。
　請求項１４乃至２１の何れか１項に記載の特有コンテンツ判定装置と、
　前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたＷｅｂページに挿入する挿入手段と、
　を備えることを特徴とする関連コンテンツ挿入装置。
　請求項２７に記載の関連コンテンツ挿入装置において、
　前記特有コンテンツ判定装置は、前記指定されたＷｅｂページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Ｗｅｂページに特有のコンテンツであると判定し、
　前記挿入手段は、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたＷｅｂページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Ｗｅｂページに挿入することを特徴とする関連コンテンツ挿入装置。