JP6541737B2

JP6541737B2 - 選択装置、選択方法、選択プログラム、モデルおよび学習データ

Info

Publication number: JP6541737B2
Application number: JP2017180129A
Authority: JP
Inventors: 賢太郎西
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-07-10
Anticipated expiration: 2037-09-20
Also published as: US20190087485A1; US11409773B2; JP2019057029A

Description

本発明は、選択装置、選択方法、選択プログラム、モデルおよび学習データに関する。

従来、人物や事象等の概念をエンティティとし、エンティティ間の関係性を構造化したナレッジベースと呼ばれる技術が知られている。また、このようなナレッジデータベースを効率的に作成するため、エンティティのクラスタリングを行い、クラスタリングの結果に基づいて、エンティティ間の関係性を更新する技術が知られている。

特許第６０８８０９１号公報

"On Emerging Entity Detection" Michael Farber, Achim Rettinger, Boulos El Asmar

しかしながら、上述した技術では、新たなエンティティを効率よく追加することができない場合がある。

例えば、ニュース記事等、インターネット上に投稿されたコンテンツから新たなエンティティ（以下、「新出エンティティ」と記載する。）を抽出するといった手法が考えられる。しかしながら、どのコンテンツにどのような新出エンティティが含まれているかを推定するのは、困難である。

本願は、上記に鑑みてなされたものであって、新出エンティティの追加を効率化することを目的とする。

本願に係る選択装置は、新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部とを有することを特徴とする。

実施形態の一態様によれば、新出エンティティの追加を効率化することができる。

図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。図２は、実施形態に係る情報提供装置の構成例を示す図である。図３は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。図４は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。図５は、実施形態に係る検索ログデータベースに登録される情報の一例を示す図である。図６は、実施形態に係る投稿情報データベースに登録される情報の一例を示す図である。図７は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図８は、実施形態に係るモデルデータベースに登録される情報の一例を示す図である。図９は、実施形態に係る情報提供装置が学習データの作成対象とする要素候補を選択する処理の一例を示す図である。図１０は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。図１１は、ハードウェア構成の一例を示す図である。

以下に、本願に係る選択装置、選択方法、選択プログラム、モデルおよび学習データを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る選択装置、選択方法、選択プログラム、モデルおよび学習データが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
〔１．情報提供装置が提供する処理について〕
まず、図１を用いて、選択装置の一例となる情報提供装置が実行する選択処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置１０が実行する処理として、知識を体系化、組織化した情報が登録されるナレッジデータベースに登録する新たなエンティティを検出するモデルを作成するための学習データの元となるエンティティを選択する選択処理の一例について説明する。

〔１−１．情報提供装置の概要〕
情報提供装置１０は、インターネット等の所定のネットワークＮ（例えば、図２を参照。）を介して、ログサーバ１００、および説明コンテンツサーバ２００と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置１０は、ネットワークＮを介して、任意の数のログサーバ１００や説明コンテンツサーバ２００と通信可能であってよい。また、情報提供装置１０は、例えば、利用者が使用する利用者端末（図示は、省略）からの要求に基づいて、ナレッジデータベースに登録された各種情報の提供を行う機能を有するものとする。

例えば、利用者端末は、ナレッジデータベースの検索を行う際の検索クエリを情報提供装置１０に送信する。このような場合、情報提供装置１０は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を利用者端末へと提供する。

ここで、情報提供装置１０が検索するナレッジデータベースについて説明する。ナレッジデータベースには、各種の知識が体系化、組織化された状態で登録されている。例えば、ナレッジデータベースには、登録される要素であるエンティティ（以下、「要素」と記載する場合がある。）と、エンティティ間の関係性を示す情報（以下、「関係情報」と記載する。）とが登録されている。エンティティは、実世界における人物、物体、建築物等の主語となりうる各種の物、職業や国籍等といった属性、各種の状態や事象等、世の中における各種の物事に対応する情報である。また、関係情報は、２つのエンティティ間の関係性を示す情報である。なお、情報提供装置１０が有するナレッジデータベースにおける要素（すなわち、ナレッジデータベースに登録されたエンティティ）は、任意の物事や事象と対応していてよい。

ログサーバ１００は、各種の履歴を保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、ログサーバ１００は、インターネットを介した各種の検索を行う際に利用者が入力した検索クエリのログを保持する。例えば、ログサーバ１００は、ウェブ検索、路線検索、電子商店街における取引対象の検索、地図検索、コンテンツ検索等、任意の検索における検索クエリのログを保持する。

また、ログサーバ１００は、インターネット上に投稿された各種のコンテンツである投稿情報を保持する。例えば、ログサーバ１００は、ウェブサイト上に投稿されたニュース、ブログ、ＳＮＳ（Social Networking Service）等を保持する。なお、ログサーバ１００は、ニュースを配信するサーバ装置、ブログを管理するサーバ装置、ＳＮＳを管理するサーバ装置等によって実現されてもよい。

説明コンテンツサーバ２００は、人物、物体、建築物、コンテンツ、事象等、各種の要素を説明する説明コンテンツの管理や配信を行う情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、説明コンテンツサーバ２００は、ウィキペディア（登録商標）やインターネットを介した辞書サービス等、ナレッジデータベースにおいて要素となりえる各種の対象を説明するコンテンツである説明コンテンツの管理や配信を行う。

〔１−２．選択処理について〕
ここで、ナレッジデータベースに新たな事柄を示す要素を登録する処理を考える。このようなナレッジデータベースに新たな要素（以下、「新出要素」と記載する。）を登録するには、新出要素を示す文字列のみならず、新出要素が他の要素とどのような関係を有するかを示す関係情報が必要となる。このような新出要素や関係情報を効率よくナレッジデータベースに追加するため、ニュース記事等、インターネット上に投稿されたコンテンツから新出要素を抽出するといった手法が考えられる。しかしながら、どのコンテンツにどのような新出要素が含まれているかを判断するのは、困難である。

そこで、情報提供装置１０は、以下の選択処理を実行する。まず、情報提供装置１０は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。続いて、情報提供装置１０は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。

例えば、ある単語を要素候補とする場合、その単語を含む検索履歴からは、その単語の検索の状況を推定することができる。また、その単語を含む投稿からは、その単語の投稿の状況を推定することができる。このような検索の状況や投稿の状況は、その単語が新出要素を示すか否かの指標となりえる。例えば、その単語が新出要素を示す場合、その単語の検索や投稿は、ある日から突然行われるとも考えられる。そこで、情報提供装置１０は、検索履歴が示す検索の状況と、投稿情報が示す投稿の状況とに基づいて、新出要素である可能性が高い要素候補を選択する。

例えば、情報提供装置１０は、ある要素候補に関する検索履歴が示す検索の数と、その要素候補に関する投稿履歴が示す投稿情報の数とに基づいて、学習データを生成するための要素候補の選択を行う。例えば、情報提供装置１０は、検索の数の変化の内容と、投稿の数の変化の内容とに基づいて、学習データを生成するための要素候補の選択を行う。より具体的な例を挙げると、情報提供装置１０は、ある日を境に検索が行われ、かつ、その日を境に投稿が行われるようになった要素候補を学習データを生成するための要素候補として選択する。

また、情報提供装置１０は、選択処理によって選択された要素候補に基づいて、モデルの学習を行う学習処理を実行する。すなわち、情報提供装置１０は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。例えば、情報提供装置１０は、選択された要素候補、選択された要素候補に関する投稿情報、および選択された要素候補と他の要素との関係性を示す関係情報との組を学習データとして生成する。そして、情報提供装置１０は、学習データを用いて、モデルの学習を行う。

より具体的には、情報提供装置１０は、選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。また、情報提供装置１０は、選択された要素候補と、選択された要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。また、情報提供装置１０は、選択された要素候補に関する投稿情報と、選択された要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を示す関係情報を抽出する関係推定モデルの学習を行う。例えば、情報提供装置１０は、投稿情報から、新出属性との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。

また、情報提供装置１０は、学習処理によって学習が行われたモデルを用いて、投稿情報から新出要素や関係情報を抽出し、抽出した新出要素や関係情報に基づいて、ナレッジデータベースを更新する更新処理を実行する。

〔１−３．情報提供装置が実行する処理の一例について〕
以下、図１を用いて、情報提供装置１０が実行する選択処理、学習処理、および更新処理（以下、「各処理」と総称する場合がある。）の一例について説明する。まず、情報提供装置１０は、選択処理を実行する。このような選択処理において、情報提供装置１０は、まず、所定の期間内に作成された説明コンテンツを説明コンテンツサーバ２００から取得する（ステップＳ１）。

例えば、ある事柄に対して説明コンテンツが新たに登録された場合、その説明コンテンツが説明する事柄は、新出要素となる可能性が高い。そこで、情報提供装置１０は、登録されてから経過した日時が所定の期間内（例えば、数か月）となる説明コンテンツを説明コンテンツサーバ２００から取得する。

続いて、情報提供装置１０は、説明コンテンツから、新出要素の候補となる要素（以下、「要素候補」と記載する。）と、要素候補と他の要素との関係を示す関係情報とを抽出する（ステップＳ２）。例えば、図１に示す例では、情報提供装置１０は、説明コンテンツを識別する説明コンテンツＩＤ（Identifier）が「コンテンツＩＤ＃１」となる説明コンテンツ「説明コンテンツ＃１」であって、登録日時が「日時＃１」となる説明コンテンツを取得する。このような場合、情報提供装置１０は、説明コンテンツの主題を示すと推定される文字列を要素候補として抽出するとともに、要素候補と他の要素との間の関係性を示す関係情報を説明コンテンツの内容から推定する。すなわち、情報提供装置１０は、説明コンテンツが新たに登録された場合は、その説明コンテンツから要素候補を取得する。

ここで、情報提供装置１０は、形態素解析や意味推定等の各種文章解析技術を用いて、要素候補や関係情報を抽出してよい。また、例えば、説明コンテンツには、説明コンテンツの主題となる事柄がどれであるか、主題となる事柄と他の事柄との間の関係性が何であるかを示す情報（例えば、インフォボックスと呼ばれる情報）が含まれる場合がある。このようなインフォボックスが説明コンテンツに含まれる場合、情報提供装置１０は、インフォボックスから要素候補や関係情報を抽出してもよい。

また、例えば、情報提供装置１０は、説明コンテンツが登録されてから所定の期間内（例えば、１か月）以内にインフォボックスが追加された場合には、かかるインフォボックスに登録された関係情報を要素候補の関係情報として採用してもよい。また、インフォボックスには、要素候補のカテゴリやクラス等といった分類を示す分類情報が含まれる場合がある。このような分類情報がインフォボックスに含まれる場合、情報提供装置１０は、要素候補の分類情報をインフォボックスから抽出してもよい。

このような処理の結果、情報提供装置１０は、要素候補と、要素候補と紐付けられる関係情報との組を候補データとして抽出する。例えば、情報提供装置１０は、説明コンテンツ＃１に、要素候補＃１と、要素候補＃１と他の第１要素との関係性を示す関係情報＃１−１と、要素候補＃１と他の第２要素との関係性を示す関係情報＃１−２とが含まれている場合、説明コンテンツ＃１から、要素候補＃１と、関係情報群＃１（関係情報＃１−１、および関係情報＃１−２）とを対応付けた候補データ＃１を生成する。なお、情報提供装置１０は、候補データ＃１に要素候補と紐付けられる分類情報を含めてもよい。

ここで、新たに説明コンテンツが登録された事柄には、新出要素に関する説明コンテンツ以外にも、例えば、既に存在した他言語の説明コンテンツを日本語に翻訳した説明コンテンツ等、新たな事柄に関する説明コンテンツ以外のコンテンツが含まれる場合がある。そこで、情報提供装置１０は、候補データの中から、新出要素の確度が高い要素候補の候補データを選択する。より具体的には、情報提供装置１０は、要素候補の検索履歴と、要素候補に関する投稿情報とを取得する（ステップＳ３）。そして、情報提供装置１０は、特定した検索履歴の数と、投稿情報の数とに基づいて、新出要素とする要素候補を選択する。

例えば、情報提供装置１０は、所定の日時における検索履歴と投稿履歴との増加量が所定の条件を満たす要素候補を特定し、特定した要素候補に基づいた学習データを生成する（ステップＳ４）。より具体的には、情報提供装置１０は、説明コンテンツから抽出した複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。

例えば、新作の映画を新出要素とする態様について考える。このような新作の映画が発表された場合、その映画のタイトルを検索クエリとする検索の回数は、発表前と比較して、発表後に急増すると考えられる。また、このような新作の映画が発表された場合、新作の映画のタイトルを含むニュースやＳＮＳの数が発表前と比較して、発表後に急増すると考えられる。このため、新出要素を検索クエリとする検索の回数や投稿情報の数は、ある日時を境に急増すると考えられる。また、このような新作の映画が発表された場合、発表してからある程度の期間が経過してから説明コンテンツが生成されることとなる。さらに、小説が映画化されたというような場合には、映画の発表日時よりも前に検索クエリや投稿情報に要素候補が含まれると考えられる。さらに、その映画のタイトルを含む検索クエリの増加と、その映画のタイトルを含む投稿情報の増加とが連動していない場合は、その映画のタイトルとなる文字列と同じ文字列であって、異なる事柄を示す文字列が検索もしくは投稿されていると考えられる。

そこで、情報提供装置１０は、要素候補を抽出した説明コンテンツが登録された日時を基準日時とし、基準日時よりも所定の期間だけ前の検索履歴や投稿情報を取得する。例えば、情報提供装置１０は、基準日時の過去１年間に入力された検索クエリであって、要素候補を含む検索クエリや、基準日時の過去１年間に投稿された投稿情報であって、要素候補を含む投稿情報を取得する。そこで、情報提供装置１０は、説明コンテンツから抽出した要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。

例えば、図１に示す例では、要素候補＃１を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補＃１を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。図１に示す例では、図１中（Ａ）に示すように、ある日時まで検索クエリおよび投稿情報の数が「０」となり、図１中（Ｂ）に示すように、ある日時で検索クエリおよび投稿情報の数が急増している。このように、要素候補＃１を含む検索クエリの数および投稿情報の数が、同じ日時に「０」から「１」以上へと変遷した場合は、要素候補＃１が新出要素である可能性が高い。このような場合、情報提供装置１０は、要素候補＃１を学習対象として選択し、要素候補＃１の候補データ＃１を学習データ＃１とする。

また、情報提供装置１０は、要素候補を含む投稿情報のうち、投稿情報の数が急増した日時に投稿された投稿情報を学習データとして抽出する。例えば、図１に示す例では、情報提供装置１０は、要素候補＃１を含む投稿情報のうち、投稿情報の数が「０」から「１」以上に変化した日時に投稿された投稿情報群＃１を抽出し、抽出した投稿情報群＃１を学習データ＃１に含める。このような選択処理の結果、情報提供装置１０は、新出要素である可能性が高い要素候補と、その要素候補と他の候補との関係性を示す関係情報と、その要素候補を含む投稿情報とを学習データとして取得することができる。

ここで、上述した選択処理においては、検索クエリの数および投稿情報の数が、同じ日時に「０」から「１」以上へと変遷した場合は、その日時に投稿された投稿情報を学習データとして抽出した。このように、検索クエリの数および投稿情報の数が「０」から「１」以上へと変遷した日時に投稿された投稿情報は、要素候補を新出要素として説明する投稿情報であると考えられる。

このように要素候補を新出要素として説明する投稿情報には、要素候補が新出要素であることを示す様な特徴を有する文章が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報に新出要素が含まれているか否かを推定するモデルを作成することができると考えられる。

また、要素候補を新出要素として説明する投稿情報には、新出要素である要素候補の文字列が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報から新出要素と推定される文字列を抽出するモデルを作成することができると考えられる。

また、要素候補を新出要素として説明する投稿情報には、新出要素である要素候補を説明する文字列、すなわち、新出要素である要素候補と他の要素との関連性を示す文字列が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報から新出要素と他の要素との関係性を示す関係情報を推定するモデルを作成することができると考えられる。

そこで、情報提供装置１０は、選択処理によって生成された学習データを用いて、投稿情報が新出要素を含むか否かを判定する判定モデル、投稿情報から新出要素を抽出する抽出モデル、および投稿情報から新出要素と他の要素との関係性を示す関係情報を推定する関係推定モデルを学習する（ステップＳ５）。例えば、情報提供装置１０は、学習データ＃１に含まれる投稿情報群＃１を正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報が新出要素を示す投稿情報であるか否かを判定する判定モデルを生成する。より具体的な例を挙げると、情報提供装置１０は、学習データ＃１に含まれる投稿情報群＃１を入力した際に、入力された投稿情報に新出要素が含まれる旨を示す情報を出力し、要素候補＃１を含む投稿情報であって、投稿情報群＃１に含まれない投稿情報を入力した際に、入力された投稿情報に新出要素が含まれない旨を示す情報を出力するように、判定モデルの学習を行う。

また、情報提供装置１０は、要素候補＃１と投稿情報群＃１とを正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報から新出要素を抽出する抽出モデルを生成する。より具体的な例を挙げると、情報提供装置１０は、投稿情報群＃１に含まれる各投稿情報を入力した際に、要素候補＃１を示す情報を出力するように、抽出モデルの学習を行う。すなわち、情報提供装置１０は、投稿情報群＃１を入力データとした際に、出力データが要素候補＃１となるように、抽出モデルの学習を行う。

また、情報提供装置１０は、投稿情報群＃１と関係情報群＃１とを正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報から新出要素の関係情報を推定する関係推定モデルを生成する。より具体的な例を挙げると、情報提供装置１０は、投稿情報群＃１に含まれる各投稿情報を入力した際に、関係情報群＃１に含まれる関係情報を推定するように、関係推定モデルの学習を行う。

例えば、情報提供装置１０は、関係推定モデルとして、投稿情報から、新出要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。例えば、情報提供装置１０は、学習データ＃１に含まれる各投稿情報から、任意の文章解析技術を用いて、要素候補との間に所定の関係性を有する他の要素を抽出する。

例えば、情報提供装置１０は、投稿情報が新作映画の説明である場合、出演者の文字列、監督の文字列、配給会社の文字列等を抽出する。そして、情報提供装置１０は、例えば、投稿情報を入力した際に、出演者の文字列を抽出するよう第１の関係推定モデルを学習し、投稿情報を入力した際に、監督の文字列を抽出するよう第２の関係推定モデルを学習し、投稿情報を入力した際に、配給会社の文字列を抽出するよう第３の関係推定モデルを学習する。

ここで、情報提供装置１０は、任意の予測モデルを用いて関係推定モデルの学習を行ってよい。例えば、情報提供装置１０は、ナレッジベースに登録済みのエンティティと関係情報とに基づいて、関係推定モデルの学習を行ってもよい。より具体的な例を挙げると、情報提供装置１０は、投稿情報に含まれる要素であって、要素候補と所定の関係性を有する他の要素がナレッジデータベース中のエンティティである特性を利用し、かかる「他の要素」が人間であるか否か、人間である場合には性別や職業が何であるかをナレッジデータベースから特定する。そして、情報提供装置１０は、特定した関係情報と要素候補と要素との間の関係性を関係推定モデルに学習させてもよい。すなわち、情報提供装置１０は、投稿情報に含まれる各要素と要素候補との間の関係性を予測する関係推定モデルの学習を行ってもよい。

そして、情報提供装置１０は、各モデルを用いて更新処理を実行する。すなわち、情報提供装置１０は、新出要素を含む投稿情報を特定し、特定情報から新出要素と関係情報を抽出し、抽出した新出要素と関係情報とを用いて、ナレッジデータベースを更新する（ステップＳ６）。例えば、情報提供装置１０は、新たな投稿情報＃Ｎ１および投稿情報＃Ｎ２が存在する場合、判定モデルを用いて、各投稿情報＃Ｎ１、＃Ｎ２が新出要素を含む投稿情報（以下、「新出投稿」と記載する場合がある。）であるか否かを判定する。そして、情報提供装置１０は、投稿情報＃Ｎ１が新出投稿であると判定された場合は、抽出モデルと関係推定モデルとを用いて、投稿情報＃Ｎ１から、新出要素や関係情報を抽出する。

より具体的には、情報提供装置１０は、投稿情報＃Ｎ１から新出要素を抽出するとともに、新出要素とそれぞれ所定の関係性を有する他の要素とを抽出する。そして、情報提供装置１０は、抽出した新出要素と関係情報とを用いて、ナレッジデータベースを更新する。例えば、情報提供装置１０は、新出要素をナレッジデータベースに登録するとともに、新出要素と、抽出した他の要素と、新出要素と他の要素との間の関係性を示す関係情報とを対応付けたトリプルの設定を行う。例えば、情報提供装置１０は、投稿情報を入力した際に、監督の文字列を抽出するよう学習が行われた関係推定モデルが、投稿情報＃Ｎ１から監督の文字列を抽出した場合は、抽出モデルが抽出した新出要素と、関係推定モデルが抽出した文字列（すなわち、他の要素）と、要素間の関係を示す関係情報「監督」とを対応付けたトリプルと呼ばれる情報を登録する。

すなわち、情報提供装置１０が更新するナレッジデータベースにおいては、２つのエンティティとエンティティ間の関係性を示す関係情報とからなるトリプルと呼ばれる情報が登録されることにより、各種の知識が体系化されている。換言すると、ナレッジデータベースにおいては、主語（Ｓ）となるエンティティと、目的語（Ｏ）となるエンティティと、述語（Ｐ）となる関係情報とからなるトリプルによって、様々な知識が体系的に表されている。

このように、情報提供装置１０は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。そして、情報提供装置１０は、特定された検索履歴の数と、特定された投稿情報の数とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。このため、情報提供装置１０は、モデルを用いた新出要素の追加を効率化することができる。

〔１−４．モデルについて〕
ここで、情報提供装置１０は、任意の形式の判定モデル、抽出モデル、および関係推定モデル（以下、「各モデル」と記載する場合がある。）の学習を行ってよい。例えば、情報提供装置１０は、回帰モデル、Ｂａｇｏｆｗｏｒｄｓ、ＳＶＭ（Support Vector Machine）やＤＮＮ（Deep Neural Network）、ＣＲＦ（Conditional Random Fields）、ＬＳＴＭ（Long short-term memory）等、任意のモデルが採用可能である。

例えば、上述した学習処理により学習が行われた判定モデルは、所定の要素に関する投稿情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、投稿情報が新たな要素に関する投稿情報であるか否かを示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。

また、例えば、上述した学習処理により学習が行われた抽出モデルは、新たな要素に関する投稿情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、投稿情報に含まれる情報のうち新たな要素を示す情報を示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。

また、例えば、上述した学習処理により学習が行われた関係推定モデルは、新たな要素に関する投稿情報が入力される入力層と、出力層と、記入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、投稿情報に含まれる情報のうち新たな要素と他の要素との間の関係性を示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。

ここで、各モデルが「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、各モデルが含む第１要素は、x1やx2等といった入力データ（xi）に対応する。また、第１要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。

また、各モデルがＤＮＮ（Deep Neural Network）等、１つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、各モデルが含む第１要素は、入力層または中間層が有するいずれかのノードに対応する。また、第２要素は、第１要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第１要素の重みは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。

情報提供装置１０は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有する各モデルを用いて、新出要素や関係情報を取得する。具体的には、判定モデルは、投稿情報が入力された場合に、その投稿情報に新出要素が含まれるか否かを示すスコアを出力するように、各種のパラメータ（例えば、接続係数）が設定される。また、抽出モデルは、投稿情報が入力された場合に、その投稿情報から新出要素である可能性が高い文字列等の情報を示す情報を出力するように、各種のパラメータが設定される。また、関係推定モデルは、投稿情報が入力された場合に、その投稿情報が示す新出要素と所定の関係性を有する他の要素を示す情報を出力するように、各種のパラメータが設定される。

なお、実施形態に係る各モデルは、所定のモデルにデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。また、情報提供装置１０がＧＡＮ（Generative Adversarial Networks）を用いた学習処理を行う場合、各モデルは、ＧＡＮの一部を構成するモデルであってもよい。

例えば、情報提供装置１０は、新たな要素の候補である要素候補のうち、要素候補に関する検索履歴の数と要素候補に関する投稿情報の数とに基づいて選択された要素候補と、要素候補に関する検索履歴と、要素候補と他の要素との間の関係性を示す情報とを含む学習データを用いて、上述した学習を行うことで、各モデルを生成する。なお、情報提供装置１０は、いかなる学習アルゴリズムを用いて各を生成してもよい。例えば、情報提供装置１０は、ニューラルネットワーク（neural network）、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の学習アルゴリズムを用いて学習モデルを生成する。一例として、情報提供装置１０がニューラルネットワークを用いて各モデルを生成する場合、各モデルは、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

なお、学習データは、上述した各種のモデルとして情報提供装置１０を動作させるデータである。すなわち、学習データは、新出要素の候補である要素候補のうち、要素候補に関する検索履歴の数と要素候補に関する投稿情報の数とに基づいて選択された要素候補と、要素候補に関する検索履歴と、要素候補と他の要素との間の関係性を示す情報とを含みコンピュータを、上述した各種のモデルとして機能させるためのデータである。

〔１−５．学習データについて〕
上述した説明では、情報提供装置１０は、検索クエリや投稿情報の数が「０」から「１」以上となった日時に投稿された投稿情報を学習データとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、検索クエリや投稿情報の数が「０」から「１」以上となった日中に投稿された投稿情報を学習データとしてもよく、検索クエリや投稿情報の数が「０」から「１」以上となった日から所定の日時が経過するまでの間に投稿された投稿情報を学習データとしてもよい。

また、例えば、情報提供装置１０は、検索履歴が示す検索の状況や、投稿履歴が示す投稿の状況に基づいて、学習データとする要素候補を選択するのであれば、任意の状況に基づいて、要素候補の選択を行ってよい。例えば、情報提供装置１０は、検索履歴や投稿履歴の数が所定の閾値以下となる期間が所定の閾値以上存在し、ある日を境に、検索履歴や投稿履歴の数が所定の閾値以上となった場合は、対応する要素候補を学習データとして選択してもよい。また、情報提供装置１０は、検索履歴や投稿履歴が示す検索や投稿の統計的な状況等、任意の状況に基づいて、要素候補の選択を行ってよい。

また、情報提供装置１０は、正例のみならず、負例となる学習データを生成してもよい。例えば、情報提供装置１０は、ある要素候補についての投稿情報であって、検索クエリや投稿情報の数が「０」から「１」以上となった日に投稿された投稿情報を正例とし、その要素候補についての投稿情報であって、検索クエリや投稿情報の数が「０」から「１」以上となった日から所定の日時が経過した後に投稿された投稿情報を負例とする。そして、情報提供装置１０は、正例および負例を用いて、判定モデルの学習を行ってもよい。

なお、情報提供装置１０は、を作成する際、任意の期間に登録された投稿情報を取得して良い。例えば、情報提供装置１０は、過去１年分の投稿情報や検索クエリを取得し、取得した投稿情報や検索クエリを用いて、要素候補が新出要素であるか否かを判定してもよい。

また、新出要素が生じてから、新出要素の説明コンテンツが生成されたり、インフォボックスが生成されるまでの期間は、所定の範囲内（例えば、平均で４０日）に収まると予測される。そこで、情報提供装置１０は、説明コンテンツが生成された若しくはインフォボックスが生成された日時から４０日前の投稿情報を取得し、取得した投稿情報を学習データとしてもよい。

〔２．情報提供装置の構成〕
以下、上記した情報提供装置１０が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置の構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、ログサーバ１００や説明コンテンツサーバ２００との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、エンティティデータベース３１、トリプルデータベース３２、検索ログデータベース３３、投稿情報データベース３４、学習データデータベース３５、およびモデルデータベース３６（以下、「各データベース３１〜３６」と総称する場合がある。）を記憶する。

以下、図３〜８を用いて、各データベース３１〜３６に登録される情報の一例を説明する。エンティティデータベース３１には、エンティティに関する情報が登録される。例えば、図３は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。図３に示すように、エンティティデータベース３１には、「エンティティＩＤ」、「エンティティ種別」、「ノードＩＤ」、「ノード種別」、および「データ」といった項目を有する情報が登録される。

ここで、「エンティティＩＤ」とは、エンティティの識別子である。また、「エンティティ種別」とは、対応付けられた「エンティティＩＤ」が示すエンティティの種別を示す情報であり、例えば、エンティティが「人物」を示すエンティティであるか「職業」を示すエンティティであるかといった情報を示す。「ノードＩＤ」は、対応付けられた「エンティティＩＤ」が示すエンティティと関連するノードの識別子である。「ノード種別」は、対応付けられた「ノードＩＤ」が示すノードの種別を示す情報であり、ノードが名前を示すか、写真を示すか、職業を示すか等といった情報である。また、「データ」とは、対応付けられた「ノードＩＤ」が示すノードのデータである。

例えば、図３に示す例では、エンティティＩＤ「Ｅ１１」、エンティティ種別「人物」、ノードＩＤ「Ｉ１１１」、ノード種別「名前」、およびデータ「名前＃１」が対応付けて登録されている。このような情報は、エンティティＩＤ「Ｅ１１」が示すエンティティ（すなわち、エンティティＥ１１）が「人物」を示すエンティティであり、そのエンティティが示す人物の「名前」を示すノードとしてノードＩＤ「Ｉ１１１」が登録されており、その名前が「名前＃１」である旨を示す。なお、図１に示す例では、「名前＃１」や「写真＃１」等といった概念的な値を記載したが、実際には、エンティティデータベース３１には、対応付けられたエンティティと対応する人物の名前、写真、生年月日等を示す各種の情報が登録されることとなる。

トリプルデータベース３２には、トリプルを示す情報が登録される。例えば、図４は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。図４に示す例では、トリプルデータベース３２には、「トリプルＩＤ」、「関係情報ＩＤ」、「種別」、「第１要素」、および「第２要素」といった項目を有する情報が登録される。

ここで、「トリプルＩＤ」とは、トリプルを識別する識別子である。また、「関係情報ＩＤ」とは、トリプルに含まれる関係情報を識別する識別子である。また、「種別」とは、トリプルに含まれるエンティティ間の関係性を示す情報である。また、「第１要素」および「第２要素」とは、対応付けられた「トリプルＩＤ」が示すトリプルに含まれるエンティティのエンティティＩＤである。

例えば、図４に示す例では、トリプルＩＤ「トリプル＃１」、関係情報ＩＤ「Ｃ１」、種別「職業」、第１要素「Ｅ１１」、および第２要素「Ｅ２１」が対応付けて登録されている。このような情報は、トリプルＩＤ「トリプル＃１」が示すトリプルとして、エンティティＥ１１とエンティティＥ１２と関係情報Ｃ１とが対応付けて登録されており、エンティティＥ２１がエンティティＥ１１の職業である旨を示す。

検索ログデータベース３３には、検索クエリの履歴、すなわち、検索履歴が登録される。例えば、図５は、実施形態に係る検索ログデータベースに登録される情報の一例を示す図である。図５に示すように、検索ログデータベース３３には、検索ログを識別する識別子である「検索ログＩＤ」、入力された検索クエリを示す「検索クエリ」、および検索が行われた日時を示す「検索日時」といった項目を有する情報が登録される。

例えば、図５に示す例では、検索ログデータベース３３には、検索ログＩＤ「検索ログ＃１」、検索クエリ「検索クエリ＃１」、および検索日時「検索日時＃１」といった情報が対応付けて登録されている。このような情報は、検索ログＩＤ「検索ログ＃１」が示す検索ログの検索クエリが「検索クエリ＃１」であり、検索日時が「検索日時＃１」であった旨を示す。なお、図５に示す例では、「検索ログ＃１」、「検索クエリ＃１」、「検索日時＃１」といった概念的な値について記載したが、実際には、検索ログデータベース３３には、検索ログを識別する数値や文字列、検索クエリとして入力された文字列、検索日時を示す数値等が登録される。

投稿情報データベース３４には、投稿情報が登録される。例えば、図６は、実施形態に係る投稿情報データベースに登録される情報の一例を示す図である。図６に示すように、投稿情報データベース３４には、投稿情報を識別する識別子である「投稿ログＩＤ」、投稿情報の内容を示す「投稿情報」、および投稿情報が投稿された日時を示す「投稿日時」といった項目を有する情報が登録される。

例えば、図６に示す例では、投稿情報データベース３４には、投稿ログＩＤ「投稿ログ＃１」、投稿情報「投稿情報＃１」、および投稿日時「投稿日時＃１」といった情報が対応付けて登録されている。このような情報は、投稿ログＩＤ「投稿ログ＃１」が示す投稿情報が「投稿情報＃１」であり、投稿日時が「投稿日時＃１」であった旨を示す。なお、図６に示す例では、「投稿ログ＃１」、「投稿情報＃１」、「投稿日時＃１」といった概念的な値について記載したが、実際には、投稿情報データベース３４には、投稿情報を識別する数値や文字列、投稿情報として入力された文字列、投稿日時を示す数値等が登録される。

学習データデータベース３５には、学習データが登録される。例えば、図７は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図７に示すように、学習データデータベース３５には、学習データを識別する識別子である「学習データＩＤ」、学習データに含まれる要素候補である「要素候補」、学習データに含まれる関係情報である「関係情報」、および学習データに含まれる投稿情報である「投稿情報」といった項目を有する情報が登録される。

例えば、図７に示す例では、学習データデータベース３５には、学習データＩＤ「学習データ＃１」、要素候補「要素候補＃１」、関係情報「関係情報群＃１」、投稿情報「投稿情報群＃１」が対応付けて登録されている。このような情報は、学習データＩＤ「学習データ＃１」が示す学習データとして、「要素候補＃１」、「関係情報群＃１」、および「投稿情報群＃１」が対応付けて登録されている旨を示す。また、このような情報は、「関係情報群＃１」として、「要素候補＃１」と所定の関係を有する他の要素が「対象要素＃１−１」であり、その関係が「関係＃１−１」である旨が登録されている旨を示す。また、このような情報は、「投稿情報群＃１」として「投稿情報＃１−１」や「投稿情報＃１−２」が登録されている旨を示す。

なお、図７に示す例では、「学習データ＃１」、「要素候補＃１」、「関係情報＃１−１」、「関係＃１−１」、「投稿情報＃１−１」といった概念的な値について記載したが、実際には、学習データデータベース３５には、学習データを識別する数値や文字列、要素候補、関係情報、関係、投稿情報等となる文字列等が登録される。

モデルデータベース３６には、各モデルのデータが登録される。例えば、図８は、実施形態に係るモデルデータベースに登録される情報の一例を示す図である。図８に示すように、モデルデータベース３６には、モデルの種別を示す「モデル種別」およびモデルの情報である「モデルデータ」とが対応付けて登録される。

例えば、図８に示す例では、モデルデータベース３６には、モデル種別「判定モデル」およびモデルデータ「モデルデータ＃１」が対応付けて登録されている。このような情報は、「判定モデル」であるモデルの各種パラメータが「モデルデータ＃１」である旨を示す。なお、図８に示す例では、「モデルデータ＃１」といった概念的な値を記載したが、実際には、ノード間の接続関係や接続係数等といったモデルを構成するために必要な各種の情報が登録される。

図２に戻り、説明を続ける。制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図２に示すように、制御部４０は、取得部４１、特定部４２、選択部４３、抽出部４４、学習部４５、および更新部４６を有する。取得部４１は、要素候補を説明する説明コンテンツが登録された場合は、説明コンテンツから要素候補を取得する。例えば、取得部４１は、所定の時間間隔で説明コンテンツサーバ２００を参照し、所定の期間内に新たに登録された説明コンテンツを取得する。このような場合、取得部４１は、各種の文字解析技術を用いて、説明コンテンツが主題する物事を示すテキストを抽出し、抽出したテキストを要素候補とする。

特定部４２は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。より具体的には、特定部４２は、取得部４１により説明コンテンツから取得された要素候補の検索履歴と、要素候補に関する投稿情報とを特定する。例えば、特定部４２は、要素候補の投稿情報であって、説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する。

例えば、特定部４２は、所定の時間間隔で、ログサーバ１００から各種の検索履歴や投稿情報を取得する。そして、特定部４２は、取得した検索履歴を検索ログデータベース３３に登録し、取得した投稿情報を、投稿情報データベース３４に登録しておく。また、特定部４２は、取得部４１によって要素候補が取得された場合は、検索ログデータベース３３を参照し、要素候補を検索クエリとして含む検索ログを特定する。また、特定部４２は、取得された要素候補を含む投稿情報を投稿情報データベース３４から特定する。

ここで、特定部４２は、検索履歴や投稿情報を特定する際、検索日時や投稿日時を考慮してもよい。例えば、特定部４２は、取得された要素候補の説明コンテンツが登録された日時を特定し、検索履歴や投稿情報のうち、特定した日時よりも前の所定の期間内に検索或いは投稿された検索履歴や投稿情報を特定してもよい。例えば、特定部４２は、説明コンテンツの登録日前４０日間の投稿情報を特定してもよい。

選択部４３は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。例えば、選択部４３は、複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。例えば、選択部４３は、複数の要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。

例えば、図９は、実施形態に係る情報提供装置が学習データの作成対象とする要素候補を選択する処理の一例を示す図である。なお、図９中（Ａ）には、ある要素候補＃１を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補＃１を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。また、図９中（Ｂ）には、ある要素候補＃２を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補＃２を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。

例えば、図９中（ａ）に示す日時において、要素候補＃１を含む検索履歴や投稿情報が急に生じており、図９中（ａ）よりも前の図９中（ｂ）に示す期間においては、要素候補＃１を含む検索履歴や投稿情報が存在しない。検索履歴の数や投稿情報の数がこのような変遷を辿る場合、要素候補＃１は、新出要素である可能性が高い。そこで、選択部４３は、検索履歴および投稿情報が存在しない状態から、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補＃１を、学習データの作成対象として選択する。

一方、図９中（Ｂ）に示すように、要素候補＃２を含む検索履歴や投稿情報の数は、増減を繰り返しながらも一定量が存在している。ここで、図９中（ｃ）に示す日時において、要素候補＃１を含む検索履歴や投稿情報が急増しているものの、図９中（ｄ）に示すように、過去にも要素候補＃２を含む検索履歴や投稿情報の数が急増する日時が存在する。検索履歴の数や投稿情報の数がこのような変遷を辿る場合、要素候補＃２は、新出要素ではない可能性が高い。具体的な例を挙げると、要素候補＃２が小説のタイトルである場合、図９中（ｄ）に示す日時において要素候補＃２が話題となり、図９中（ｃ）に示す日時において要素候補＃２の小説が映画化されたといった態様が考えられる。このような要素候補＃２を学習データとした場合、真に新出要素が含まれる投稿情報を選択することができず、学習データの確度が低下する結果、新出要素の抽出精度が低下する恐れがある。そこで、情報提供装置１０は、要素候補＃２を学習データの作成対象から除外する。

図２に戻り、説明を続ける。抽出部４４は、選択部４３により選択された要素候補に関する投稿情報のうち、投稿情報や検索情報の数が急増した日時に投稿された投稿情報を学習データとして抽出する。また、抽出部４４は、要素候補を説明する説明コンテンツから、要素候補と他の要素との関係性を学習データとして抽出する。例えば、抽出部４４は、選択部４３が学習データの作成対象とする要素候補を選択した場合、選択した要素候補を含む投稿情報であって、投稿情報や検索情報の数が「０」から「１」以上に増加した日に投稿された投稿情報を抽出する。そして、抽出部４４は、要素候補と抽出した投稿情報とを対応付けて学習データデータベース３５に登録する。

また、抽出部４４は、要素候補の説明コンテンツにインフォボックスが登録されている場合、かかるインフォボックスから要素候補と他の要素との間の関係性を示す関係情報を抽出する。なお、抽出部４４は、文字解析技術や、例えば、説明コンテンツに設定された他の説明コンテンツへのリンク関係等から、要素候補と他の要素との間の関係性を示す関係情報を特定してもよい。そして、抽出部４４は、抽出した関係情報を要素候補と対応付けて学習データデータベース３５に登録する。

学習部４５は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。すなわち、学習部４５は、選択部４３により選択された要素候補に関する学習データを用いて、各モデルの学習を行う。例えば、学習部４５は、選択された要素候補、要素候補に関する投稿情報、および要素候補と他の要素との関係性を学習データとして、学習データが有する各種の特徴を各モデルに学習させる。

例えば、学習部４５は、学習データの投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。例えば、学習部４５は、学習データに含まれる投稿情報を入力した際に、入力された投稿情報に新出要素が含まれる旨を示す情報を出力し、他の投稿情報を入力した際に、入力された投稿情報に新出要素が含まれない旨を示す情報を出力するように、判定モデルの学習を行う。

また、例えば、学習部４５は、学習データの要素候補と、要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。例えば、学習部４５は、ある学習データの投稿情報を入力した際に、その学習データの要素候補を示す情報を出力するように、抽出モデルの学習を行う。

また、例えば、学習部４５は、学習データの投稿情報と、その学習データの要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う。より具体的には、学習部４５は、投稿情報から、新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。

例えば、学習部４５は、関係推定モデルとして、それぞれ異なる関係性と対応付けた複数のモデルを準備する。また、学習部４５は、例えば、第１の関係性と対応付けたモデルを学習する場合、学習データデータベース３５を参照し、要素候補とその要素候補との間に第１の関係性を有する他の要素とを特定する。そして、学習部４５は、第１の関係性と対応付けたモデルに対して投稿情報を入力した際に、特定した他の要素を示す情報出力するように、そのモデルの学習を行う。このような処理を各関係推定モデルについて実行することで、学習部４５は、投稿情報から、要素候補と所定の関係性を有する他の要素を抽出するモデル、すなわち、要素候補と他の要素との間の関係性を推定するための関係推定モデルを学習することができる。

更新部４６は、学習部４５によって学習が行われた各モデルを用いて、ナレッジデータベースの更新を行う。例えば、更新部４６は、投稿されてから所定の時間が経過していない投稿情報をログサーバ１００から取得する。そして、更新部４６は、判定モデルを用いて、各投稿情報が新出要素を含むか否かを判定する。

また、更新部４６は、ある投稿情報に新出要素が含まれると判定モデルが判定した場合は、抽出モデルを用いて、その投稿情報から新出要素を抽出する。すなわち、更新部４６は、抽出モデルを用いて、新出要素が含まれると判定された投稿情報から新出要素を示す可能性が高い文字列の抽出を行う。また、更新部４６は、関係推定モデルを用いて、新出要素が含まれると判定された投稿情報から、新出要素と所定の関係性を有すると推定される他の要素を抽出する。

そして、更新部４６は、抽出した新出要素と、新出要素と他の要素との関係性を用いて、ナレッジデータベースの更新を行う。例えば、更新部４６は、新出要素を示すエンティティをエンティティデータベース３１に登録する。また、更新部４６は、新出要素と所定の関係性を有する他の要素のエンティティをエンティティデータベース３１から特定する。そして、更新部４６は、トリプルとして、新出要素のエンティティと、特定した他の要素のエンティティと、その要素を抽出した関係推定モデルと対応する関係（すなわち、「種別」）との組をトリプルとして、トリプルデータベース３２に登録する。

〔３．情報提供装置が実行する処理の流れの一例〕
続いて、図１０を用いて、情報提供装置１０が実行する処理の流れについて説明する。図１０は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。

まず、情報提供装置１０は、所定の期間内に作成された説明コンテンツを取得する（ステップＳ１０１）。続いて、情報提供装置１０は、説明コンテンツから要素候補を抽出する（ステップＳ１０２）。また、情報提供装置１０は、抽出した要素候補に関する検索履歴と投稿履歴とを取得する（ステップＳ１０３）。そして、情報提供装置１０は、要素候補のうち、所定の日時における検索履歴と投稿履歴との増加量が所定の閾値を超える要素候補を選択する（ステップＳ１０４）。

また、情報提供装置１０は、選択した要素候補と、所定の日時に投稿された投稿履歴と、関係情報とを学習データとする（ステップＳ１０５）。そして、情報提供装置１０は、学習データを用いて、各モデルを学習する（ステップＳ１０６）。また、情報提供装置１０は、判定モデルを用いて、新出要素を含む投稿情報を特定し（ステップＳ１０７）、特定した投稿情報から、抽出モデルと関係推定モデルとを用いて、新出要素と関係情報とを抽出する（ステップＳ１０８）。そして、情報提供装置１０は、ナレッジデータベースに新出要素と関係情報とを登録し（ステップＳ１０９）、処理を終了する。

〔４．変形例〕
上記では、情報提供装置１０による選択処理、学習処理および更新処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する提供処理や選択処理のバリエーションについて説明する。

〔４−１．エンティティの種別について〕
上述した例では、ナレッジデータベースの一例として、人物と人物の職業とを関連付けたトリプルが登録されるナレッジデータベースを示した。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報提供装置１０は、任意の物事を示すナレッジデータベースの更新を行ってよい。より具体的には、情報提供装置１０は、任意の物事を新出要素として選択し、学習データの生成を行ってよく、任意の物事を新出要素として抽出して良い。

〔４−２．装置構成〕
情報提供装置１０は、自装置でナレッジデータベースを管理せずともよい。例えば、記憶部３０に登録された各データベース３１〜３６は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０は、検索処理を実現するフロントエンドサーバと、選択処理を実現するバックエンドサーバとで実現されてもよい。このような場合、バックエンドサーバには、図２に示す各４１〜４６が配置され、フロントエンドサーバには、ナレッジデータベースに検索を行う機能を発揮するための機能構成が配置される。

〔４−３．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔４−４．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。図１１は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔５．効果〕
上述したように、情報提供装置１０は、新たな要素の候補である要素候補に関する検索履歴と、その要素候補に関する投稿情報とを特定する。そして、情報提供装置１０は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。この結果、情報提供装置１０は、新出要素に関する情報の特徴をモデルに学習させることができる結果、モデルを用いた新出要素の抽出を実現し、新出エンティティの追加を効率化することができる。

例えば、情報提供装置１０は、検索履歴が示す検索の状況と、投稿情報が示す投稿の状況とに基づいて、学習データを生成するための要素候補を選択する。また、例えば、情報提供装置１０は、検索履歴が示す検索の数と、投稿情報が示す投稿の数とに基づいて、学習データを生成するための要素候補を選択する。このため、情報提供装置１０は、新出要素である可能性が高い要素候補を学習データを生成するための要素候補として選択することができる。

また、情報提供装置１０は、要素候補を説明する説明コンテンツが登録された場合は、その説明コンテンツから要素候補を取得する。そして、情報提供装置１０は、要素候補の検索履歴と、その要素候補に関する投稿情報とを特定する。例えば、情報提供装置１０は、要素候補の投稿情報であって、説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する。このため、情報提供装置１０は、新出要素の可能性が高い要素候補の中から、学習データの生成対象を選択するので、学習データの確度を向上させることができる。

また、情報提供装置１０は、複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。例えば、情報提供装置１０は、複数の要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、その所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。このため、情報提供装置１０は、学習データの確度を向上させることができる。

また、情報提供装置１０は、選択された要素候補に関する投稿情報のうち、所定の日時に投稿された投稿情報を学習データとして抽出する。また、情報提供装置１０は、選択された要素候補を説明する説明コンテンツから、要素候補と他の要素との関係性を学習データとして抽出する。このため、情報提供装置１０は、新出要素を検出するためのモデルの学習を実現する学習データを生成できる。

また、情報提供装置１０は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。例えば、情報提供装置１０は、要素候補、その要素候補に関する投稿情報、およびその要素候補と他の要素との関係性を学習データとしてモデルに学習させる。例えば、情報提供装置１０は、選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。また、例えば、情報提供装置１０は、選択された要素候補と、その要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。また、例えば、情報提供装置１０は、要素候補に関する投稿情報と、その要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う。より具体的には、情報提供装置１０は、関係推定モデルとして、投稿情報から、新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。

このような処理の結果、情報提供装置１０は、各種の投稿情報から、新出要素を精度良く検出するとともに、新出要素と他の要素との間の関係性を推定することができる。この結果、情報提供装置１０は、例えば、ナレッジデータベースが有するトリプルの自動的な更新を実現できる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、付与部は、特定手段や特定回路に読み替えることができる。

１０情報提供装置
２０通信部
３０記憶部
３１エンティティデータベース
３２トリプルデータベース
３３検索ログデータベース
３４投稿情報データベース
３５学習データデータベース
３６モデルデータベース
４０制御部
４１取得部
４２特定部
４３選択部
４４抽出部
４５学習部
４６更新部
１００ログサーバ
２００説明コンテンツサーバ

Claims

新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と
を有することを特徴とする選択装置。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と
を有することを特徴とする選択装置。
新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得部と
前記取得部により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と、
を有することを特徴とする選択装置。
前記特定部は、前記取得部により取得された要素候補の投稿情報であって、前記説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する
ことを特徴とする請求項３に記載の選択装置。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択部と
を有することを特徴とする選択装置。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択部と
を有することを特徴とする選択装置。
前記選択部により選択された要素候補に関する投稿情報のうち、前記所定の日時に投稿された投稿情報を前記学習データとして抽出する抽出部
を有することを特徴とする請求項５または６に記載の選択装置。
前記抽出部は、前記選択部により選択された要素候補を説明する説明コンテンツから、前記要素候補と他の要素との関係性を前記学習データとして抽出する
ことを特徴とする請求項７に記載の選択装置。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と、
前記選択部により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習部と
を有することを特徴とする選択装置。
前記学習部は、前記選択部により選択された要素候補、当該要素候補に関する投稿情報、および当該要素候補と他の要素との関係性を前記学習データとして前記モデルに学習させる
ことを特徴とする請求項９に記載の選択装置。
前記学習部は、前記選択部により選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う
ことを特徴とする請求項９または１０に記載の選択装置。
前記学習部は、前記選択部により選択された要素候補と、当該要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う
ことを特徴とする請求項９〜１１のうちいずれか１つに記載の選択装置。
前記学習部は、前記選択部により選択された要素候補に関する投稿情報と、当該要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う
ことを特徴とする請求項９〜１２のうちいずれか１つに記載の選択装置。
前記学習部は、前記関係推定モデルとして、投稿情報から、前記新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する
ことを特徴とする請求項１３に記載の選択装置。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と
をコンピュータに実行させるための選択プログラム。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と
をコンピュータに実行させるための選択プログラム。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得工程と
前記取得工程により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と、
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得手順と
前記取得手順により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と、
をコンピュータに実行させるための選択プログラム。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択工程と
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択手順と
をコンピュータに実行させるための選択プログラム。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択工程と
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択手順と
をコンピュータに実行させるための選択プログラム。
選択装置が実行する選択方法であって、
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と、
前記選択工程により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習工程と
を含むことを特徴とする選択方法。
新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と、
前記選択手順により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習手順と
をコンピュータに実行させるための選択プログラム。