JP6541737B2 - 選択装置、選択方法、選択プログラム、モデルおよび学習データ - Google Patents

選択装置、選択方法、選択プログラム、モデルおよび学習データ Download PDF

Info

Publication number
JP6541737B2
JP6541737B2 JP2017180129A JP2017180129A JP6541737B2 JP 6541737 B2 JP6541737 B2 JP 6541737B2 JP 2017180129 A JP2017180129 A JP 2017180129A JP 2017180129 A JP2017180129 A JP 2017180129A JP 6541737 B2 JP6541737 B2 JP 6541737B2
Authority
JP
Japan
Prior art keywords
candidate
information
selection
post
post information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017180129A
Other languages
English (en)
Other versions
JP2019057029A (ja
Inventor
賢太郎 西
賢太郎 西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017180129A priority Critical patent/JP6541737B2/ja
Priority to US16/129,692 priority patent/US11409773B2/en
Priority to JP2019072876A priority patent/JP6956133B2/ja
Publication of JP2019057029A publication Critical patent/JP2019057029A/ja
Application granted granted Critical
Publication of JP6541737B2 publication Critical patent/JP6541737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、選択装置、選択方法、選択プログラム、モデルおよび学習データに関する。
従来、人物や事象等の概念をエンティティとし、エンティティ間の関係性を構造化したナレッジベースと呼ばれる技術が知られている。また、このようなナレッジデータベースを効率的に作成するため、エンティティのクラスタリングを行い、クラスタリングの結果に基づいて、エンティティ間の関係性を更新する技術が知られている。
特許第6088091号公報
"On Emerging Entity Detection" Michael Farber, Achim Rettinger, Boulos El Asmar
しかしながら、上述した技術では、新たなエンティティを効率よく追加することができない場合がある。
例えば、ニュース記事等、インターネット上に投稿されたコンテンツから新たなエンティティ(以下、「新出エンティティ」と記載する。)を抽出するといった手法が考えられる。しかしながら、どのコンテンツにどのような新出エンティティが含まれているかを推定するのは、困難である。
本願は、上記に鑑みてなされたものであって、新出エンティティの追加を効率化することを目的とする。
本願に係る選択装置は、新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部とを有することを特徴とする。
実施形態の一態様によれば、新出エンティティの追加を効率化することができる。
図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。 図2は、実施形態に係る情報提供装置の構成例を示す図である。 図3は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。 図5は、実施形態に係る検索ログデータベースに登録される情報の一例を示す図である。 図6は、実施形態に係る投稿情報データベースに登録される情報の一例を示す図である。 図7は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図8は、実施形態に係るモデルデータベースに登録される情報の一例を示す図である。 図9は、実施形態に係る情報提供装置が学習データの作成対象とする要素候補を選択する処理の一例を示す図である。 図10は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。 図11は、ハードウェア構成の一例を示す図である。
以下に、本願に係る選択装置、選択方法、選択プログラム、モデルおよび学習データを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る選択装置、選択方法、選択プログラム、モデルおよび学習データが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1.情報提供装置が提供する処理について〕
まず、図1を用いて、選択装置の一例となる情報提供装置が実行する選択処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置10が実行する処理として、知識を体系化、組織化した情報が登録されるナレッジデータベースに登録する新たなエンティティを検出するモデルを作成するための学習データの元となるエンティティを選択する選択処理の一例について説明する。
〔1−1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2を参照。)を介して、ログサーバ100、および説明コンテンツサーバ200と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数のログサーバ100や説明コンテンツサーバ200と通信可能であってよい。また、情報提供装置10は、例えば、利用者が使用する利用者端末(図示は、省略)からの要求に基づいて、ナレッジデータベースに登録された各種情報の提供を行う機能を有するものとする。
例えば、利用者端末は、ナレッジデータベースの検索を行う際の検索クエリを情報提供装置10に送信する。このような場合、情報提供装置10は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を利用者端末へと提供する。
ここで、情報提供装置10が検索するナレッジデータベースについて説明する。ナレッジデータベースには、各種の知識が体系化、組織化された状態で登録されている。例えば、ナレッジデータベースには、登録される要素であるエンティティ(以下、「要素」と記載する場合がある。)と、エンティティ間の関係性を示す情報(以下、「関係情報」と記載する。)とが登録されている。エンティティは、実世界における人物、物体、建築物等の主語となりうる各種の物、職業や国籍等といった属性、各種の状態や事象等、世の中における各種の物事に対応する情報である。また、関係情報は、2つのエンティティ間の関係性を示す情報である。なお、情報提供装置10が有するナレッジデータベースにおける要素(すなわち、ナレッジデータベースに登録されたエンティティ)は、任意の物事や事象と対応していてよい。
ログサーバ100は、各種の履歴を保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、ログサーバ100は、インターネットを介した各種の検索を行う際に利用者が入力した検索クエリのログを保持する。例えば、ログサーバ100は、ウェブ検索、路線検索、電子商店街における取引対象の検索、地図検索、コンテンツ検索等、任意の検索における検索クエリのログを保持する。
また、ログサーバ100は、インターネット上に投稿された各種のコンテンツである投稿情報を保持する。例えば、ログサーバ100は、ウェブサイト上に投稿されたニュース、ブログ、SNS(Social Networking Service)等を保持する。なお、ログサーバ100は、ニュースを配信するサーバ装置、ブログを管理するサーバ装置、SNSを管理するサーバ装置等によって実現されてもよい。
説明コンテンツサーバ200は、人物、物体、建築物、コンテンツ、事象等、各種の要素を説明する説明コンテンツの管理や配信を行う情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、説明コンテンツサーバ200は、ウィキペディア(登録商標)やインターネットを介した辞書サービス等、ナレッジデータベースにおいて要素となりえる各種の対象を説明するコンテンツである説明コンテンツの管理や配信を行う。
〔1−2.選択処理について〕
ここで、ナレッジデータベースに新たな事柄を示す要素を登録する処理を考える。このようなナレッジデータベースに新たな要素(以下、「新出要素」と記載する。)を登録するには、新出要素を示す文字列のみならず、新出要素が他の要素とどのような関係を有するかを示す関係情報が必要となる。このような新出要素や関係情報を効率よくナレッジデータベースに追加するため、ニュース記事等、インターネット上に投稿されたコンテンツから新出要素を抽出するといった手法が考えられる。しかしながら、どのコンテンツにどのような新出要素が含まれているかを判断するのは、困難である。
そこで、情報提供装置10は、以下の選択処理を実行する。まず、情報提供装置10は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。続いて、情報提供装置10は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。
例えば、ある単語を要素候補とする場合、その単語を含む検索履歴からは、その単語の検索の状況を推定することができる。また、その単語を含む投稿からは、その単語の投稿の状況を推定することができる。このような検索の状況や投稿の状況は、その単語が新出要素を示すか否かの指標となりえる。例えば、その単語が新出要素を示す場合、その単語の検索や投稿は、ある日から突然行われるとも考えられる。そこで、情報提供装置10は、検索履歴が示す検索の状況と、投稿情報が示す投稿の状況とに基づいて、新出要素である可能性が高い要素候補を選択する。
例えば、情報提供装置10は、ある要素候補に関する検索履歴が示す検索の数と、その要素候補に関する投稿履歴が示す投稿情報の数とに基づいて、学習データを生成するための要素候補の選択を行う。例えば、情報提供装置10は、検索の数の変化の内容と、投稿の数の変化の内容とに基づいて、学習データを生成するための要素候補の選択を行う。より具体的な例を挙げると、情報提供装置10は、ある日を境に検索が行われ、かつ、その日を境に投稿が行われるようになった要素候補を学習データを生成するための要素候補として選択する。
また、情報提供装置10は、選択処理によって選択された要素候補に基づいて、モデルの学習を行う学習処理を実行する。すなわち、情報提供装置10は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。例えば、情報提供装置10は、選択された要素候補、選択された要素候補に関する投稿情報、および選択された要素候補と他の要素との関係性を示す関係情報との組を学習データとして生成する。そして、情報提供装置10は、学習データを用いて、モデルの学習を行う。
より具体的には、情報提供装置10は、選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。また、情報提供装置10は、選択された要素候補と、選択された要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。また、情報提供装置10は、選択された要素候補に関する投稿情報と、選択された要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を示す関係情報を抽出する関係推定モデルの学習を行う。例えば、情報提供装置10は、投稿情報から、新出属性との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。
また、情報提供装置10は、学習処理によって学習が行われたモデルを用いて、投稿情報から新出要素や関係情報を抽出し、抽出した新出要素や関係情報に基づいて、ナレッジデータベースを更新する更新処理を実行する。
〔1−3.情報提供装置が実行する処理の一例について〕
以下、図1を用いて、情報提供装置10が実行する選択処理、学習処理、および更新処理(以下、「各処理」と総称する場合がある。)の一例について説明する。まず、情報提供装置10は、選択処理を実行する。このような選択処理において、情報提供装置10は、まず、所定の期間内に作成された説明コンテンツを説明コンテンツサーバ200から取得する(ステップS1)。
例えば、ある事柄に対して説明コンテンツが新たに登録された場合、その説明コンテンツが説明する事柄は、新出要素となる可能性が高い。そこで、情報提供装置10は、登録されてから経過した日時が所定の期間内(例えば、数か月)となる説明コンテンツを説明コンテンツサーバ200から取得する。
続いて、情報提供装置10は、説明コンテンツから、新出要素の候補となる要素(以下、「要素候補」と記載する。)と、要素候補と他の要素との関係を示す関係情報とを抽出する(ステップS2)。例えば、図1に示す例では、情報提供装置10は、説明コンテンツを識別する説明コンテンツID(Identifier)が「コンテンツID#1」となる説明コンテンツ「説明コンテンツ#1」であって、登録日時が「日時#1」となる説明コンテンツを取得する。このような場合、情報提供装置10は、説明コンテンツの主題を示すと推定される文字列を要素候補として抽出するとともに、要素候補と他の要素との間の関係性を示す関係情報を説明コンテンツの内容から推定する。すなわち、情報提供装置10は、説明コンテンツが新たに登録された場合は、その説明コンテンツから要素候補を取得する。
ここで、情報提供装置10は、形態素解析や意味推定等の各種文章解析技術を用いて、要素候補や関係情報を抽出してよい。また、例えば、説明コンテンツには、説明コンテンツの主題となる事柄がどれであるか、主題となる事柄と他の事柄との間の関係性が何であるかを示す情報(例えば、インフォボックスと呼ばれる情報)が含まれる場合がある。このようなインフォボックスが説明コンテンツに含まれる場合、情報提供装置10は、インフォボックスから要素候補や関係情報を抽出してもよい。
また、例えば、情報提供装置10は、説明コンテンツが登録されてから所定の期間内(例えば、1か月)以内にインフォボックスが追加された場合には、かかるインフォボックスに登録された関係情報を要素候補の関係情報として採用してもよい。また、インフォボックスには、要素候補のカテゴリやクラス等といった分類を示す分類情報が含まれる場合がある。このような分類情報がインフォボックスに含まれる場合、情報提供装置10は、要素候補の分類情報をインフォボックスから抽出してもよい。
このような処理の結果、情報提供装置10は、要素候補と、要素候補と紐付けられる関係情報との組を候補データとして抽出する。例えば、情報提供装置10は、説明コンテンツ#1に、要素候補#1と、要素候補#1と他の第1要素との関係性を示す関係情報#1−1と、要素候補#1と他の第2要素との関係性を示す関係情報#1−2とが含まれている場合、説明コンテンツ#1から、要素候補#1と、関係情報群#1(関係情報#1−1、および関係情報#1−2)とを対応付けた候補データ#1を生成する。なお、情報提供装置10は、候補データ#1に要素候補と紐付けられる分類情報を含めてもよい。
ここで、新たに説明コンテンツが登録された事柄には、新出要素に関する説明コンテンツ以外にも、例えば、既に存在した他言語の説明コンテンツを日本語に翻訳した説明コンテンツ等、新たな事柄に関する説明コンテンツ以外のコンテンツが含まれる場合がある。そこで、情報提供装置10は、候補データの中から、新出要素の確度が高い要素候補の候補データを選択する。より具体的には、情報提供装置10は、要素候補の検索履歴と、要素候補に関する投稿情報とを取得する(ステップS3)。そして、情報提供装置10は、特定した検索履歴の数と、投稿情報の数とに基づいて、新出要素とする要素候補を選択する。
例えば、情報提供装置10は、所定の日時における検索履歴と投稿履歴との増加量が所定の条件を満たす要素候補を特定し、特定した要素候補に基づいた学習データを生成する(ステップS4)。より具体的には、情報提供装置10は、説明コンテンツから抽出した複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。
例えば、新作の映画を新出要素とする態様について考える。このような新作の映画が発表された場合、その映画のタイトルを検索クエリとする検索の回数は、発表前と比較して、発表後に急増すると考えられる。また、このような新作の映画が発表された場合、新作の映画のタイトルを含むニュースやSNSの数が発表前と比較して、発表後に急増すると考えられる。このため、新出要素を検索クエリとする検索の回数や投稿情報の数は、ある日時を境に急増すると考えられる。また、このような新作の映画が発表された場合、発表してからある程度の期間が経過してから説明コンテンツが生成されることとなる。さらに、小説が映画化されたというような場合には、映画の発表日時よりも前に検索クエリや投稿情報に要素候補が含まれると考えられる。さらに、その映画のタイトルを含む検索クエリの増加と、その映画のタイトルを含む投稿情報の増加とが連動していない場合は、その映画のタイトルとなる文字列と同じ文字列であって、異なる事柄を示す文字列が検索もしくは投稿されていると考えられる。
そこで、情報提供装置10は、要素候補を抽出した説明コンテンツが登録された日時を基準日時とし、基準日時よりも所定の期間だけ前の検索履歴や投稿情報を取得する。例えば、情報提供装置10は、基準日時の過去1年間に入力された検索クエリであって、要素候補を含む検索クエリや、基準日時の過去1年間に投稿された投稿情報であって、要素候補を含む投稿情報を取得する。そこで、情報提供装置10は、説明コンテンツから抽出した要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。
例えば、図1に示す例では、要素候補#1を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補#1を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。図1に示す例では、図1中(A)に示すように、ある日時まで検索クエリおよび投稿情報の数が「0」となり、図1中(B)に示すように、ある日時で検索クエリおよび投稿情報の数が急増している。このように、要素候補#1を含む検索クエリの数および投稿情報の数が、同じ日時に「0」から「1」以上へと変遷した場合は、要素候補#1が新出要素である可能性が高い。このような場合、情報提供装置10は、要素候補#1を学習対象として選択し、要素候補#1の候補データ#1を学習データ#1とする。
また、情報提供装置10は、要素候補を含む投稿情報のうち、投稿情報の数が急増した日時に投稿された投稿情報を学習データとして抽出する。例えば、図1に示す例では、情報提供装置10は、要素候補#1を含む投稿情報のうち、投稿情報の数が「0」から「1」以上に変化した日時に投稿された投稿情報群#1を抽出し、抽出した投稿情報群#1を学習データ#1に含める。このような選択処理の結果、情報提供装置10は、新出要素である可能性が高い要素候補と、その要素候補と他の候補との関係性を示す関係情報と、その要素候補を含む投稿情報とを学習データとして取得することができる。
ここで、上述した選択処理においては、検索クエリの数および投稿情報の数が、同じ日時に「0」から「1」以上へと変遷した場合は、その日時に投稿された投稿情報を学習データとして抽出した。このように、検索クエリの数および投稿情報の数が「0」から「1」以上へと変遷した日時に投稿された投稿情報は、要素候補を新出要素として説明する投稿情報であると考えられる。
このように要素候補を新出要素として説明する投稿情報には、要素候補が新出要素であることを示す様な特徴を有する文章が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報に新出要素が含まれているか否かを推定するモデルを作成することができると考えられる。
また、要素候補を新出要素として説明する投稿情報には、新出要素である要素候補の文字列が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報から新出要素と推定される文字列を抽出するモデルを作成することができると考えられる。
また、要素候補を新出要素として説明する投稿情報には、新出要素である要素候補を説明する文字列、すなわち、新出要素である要素候補と他の要素との関連性を示す文字列が含まれていると考えられる。このため、このような投稿情報の特徴を学習した場合、投稿情報から新出要素と他の要素との関係性を示す関係情報を推定するモデルを作成することができると考えられる。
そこで、情報提供装置10は、選択処理によって生成された学習データを用いて、投稿情報が新出要素を含むか否かを判定する判定モデル、投稿情報から新出要素を抽出する抽出モデル、および投稿情報から新出要素と他の要素との関係性を示す関係情報を推定する関係推定モデルを学習する(ステップS5)。例えば、情報提供装置10は、学習データ#1に含まれる投稿情報群#1を正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報が新出要素を示す投稿情報であるか否かを判定する判定モデルを生成する。より具体的な例を挙げると、情報提供装置10は、学習データ#1に含まれる投稿情報群#1を入力した際に、入力された投稿情報に新出要素が含まれる旨を示す情報を出力し、要素候補#1を含む投稿情報であって、投稿情報群#1に含まれない投稿情報を入力した際に、入力された投稿情報に新出要素が含まれない旨を示す情報を出力するように、判定モデルの学習を行う。
また、情報提供装置10は、要素候補#1と投稿情報群#1とを正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報から新出要素を抽出する抽出モデルを生成する。より具体的な例を挙げると、情報提供装置10は、投稿情報群#1に含まれる各投稿情報を入力した際に、要素候補#1を示す情報を出力するように、抽出モデルの学習を行う。すなわち、情報提供装置10は、投稿情報群#1を入力データとした際に、出力データが要素候補#1となるように、抽出モデルの学習を行う。
また、情報提供装置10は、投稿情報群#1と関係情報群#1とを正解データとし、正解データが有する特徴をモデルに学習させることで、投稿情報から新出要素の関係情報を推定する関係推定モデルを生成する。より具体的な例を挙げると、情報提供装置10は、投稿情報群#1に含まれる各投稿情報を入力した際に、関係情報群#1に含まれる関係情報を推定するように、関係推定モデルの学習を行う。
例えば、情報提供装置10は、関係推定モデルとして、投稿情報から、新出要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。例えば、情報提供装置10は、学習データ#1に含まれる各投稿情報から、任意の文章解析技術を用いて、要素候補との間に所定の関係性を有する他の要素を抽出する。
例えば、情報提供装置10は、投稿情報が新作映画の説明である場合、出演者の文字列、監督の文字列、配給会社の文字列等を抽出する。そして、情報提供装置10は、例えば、投稿情報を入力した際に、出演者の文字列を抽出するよう第1の関係推定モデルを学習し、投稿情報を入力した際に、監督の文字列を抽出するよう第2の関係推定モデルを学習し、投稿情報を入力した際に、配給会社の文字列を抽出するよう第3の関係推定モデルを学習する。
ここで、情報提供装置10は、任意の予測モデルを用いて関係推定モデルの学習を行ってよい。例えば、情報提供装置10は、ナレッジベースに登録済みのエンティティと関係情報とに基づいて、関係推定モデルの学習を行ってもよい。より具体的な例を挙げると、情報提供装置10は、投稿情報に含まれる要素であって、要素候補と所定の関係性を有する他の要素がナレッジデータベース中のエンティティである特性を利用し、かかる「他の要素」が人間であるか否か、人間である場合には性別や職業が何であるかをナレッジデータベースから特定する。そして、情報提供装置10は、特定した関係情報と要素候補と要素との間の関係性を関係推定モデルに学習させてもよい。すなわち、情報提供装置10は、投稿情報に含まれる各要素と要素候補との間の関係性を予測する関係推定モデルの学習を行ってもよい。
そして、情報提供装置10は、各モデルを用いて更新処理を実行する。すなわち、情報提供装置10は、新出要素を含む投稿情報を特定し、特定情報から新出要素と関係情報を抽出し、抽出した新出要素と関係情報とを用いて、ナレッジデータベースを更新する(ステップS6)。例えば、情報提供装置10は、新たな投稿情報#N1および投稿情報#N2が存在する場合、判定モデルを用いて、各投稿情報#N1、#N2が新出要素を含む投稿情報(以下、「新出投稿」と記載する場合がある。)であるか否かを判定する。そして、情報提供装置10は、投稿情報#N1が新出投稿であると判定された場合は、抽出モデルと関係推定モデルとを用いて、投稿情報#N1から、新出要素や関係情報を抽出する。
より具体的には、情報提供装置10は、投稿情報#N1から新出要素を抽出するとともに、新出要素とそれぞれ所定の関係性を有する他の要素とを抽出する。そして、情報提供装置10は、抽出した新出要素と関係情報とを用いて、ナレッジデータベースを更新する。例えば、情報提供装置10は、新出要素をナレッジデータベースに登録するとともに、新出要素と、抽出した他の要素と、新出要素と他の要素との間の関係性を示す関係情報とを対応付けたトリプルの設定を行う。例えば、情報提供装置10は、投稿情報を入力した際に、監督の文字列を抽出するよう学習が行われた関係推定モデルが、投稿情報#N1から監督の文字列を抽出した場合は、抽出モデルが抽出した新出要素と、関係推定モデルが抽出した文字列(すなわち、他の要素)と、要素間の関係を示す関係情報「監督」とを対応付けたトリプルと呼ばれる情報を登録する。
すなわち、情報提供装置10が更新するナレッジデータベースにおいては、2つのエンティティとエンティティ間の関係性を示す関係情報とからなるトリプルと呼ばれる情報が登録されることにより、各種の知識が体系化されている。換言すると、ナレッジデータベースにおいては、主語(S)となるエンティティと、目的語(O)となるエンティティと、述語(P)となる関係情報とからなるトリプルによって、様々な知識が体系的に表されている。
このように、情報提供装置10は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。そして、情報提供装置10は、特定された検索履歴の数と、特定された投稿情報の数とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。このため、情報提供装置10は、モデルを用いた新出要素の追加を効率化することができる。
〔1−4.モデルについて〕
ここで、情報提供装置10は、任意の形式の判定モデル、抽出モデル、および関係推定モデル(以下、「各モデル」と記載する場合がある。)の学習を行ってよい。例えば、情報提供装置10は、回帰モデル、Bag of words、SVM(Support Vector Machine)やDNN(Deep Neural Network)、CRF(Conditional Random Fields)、LSTM(Long short-term memory)等、任意のモデルが採用可能である。
例えば、上述した学習処理により学習が行われた判定モデルは、所定の要素に関する投稿情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、投稿情報が新たな要素に関する投稿情報であるか否かを示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。
また、例えば、上述した学習処理により学習が行われた抽出モデルは、新たな要素に関する投稿情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、投稿情報に含まれる情報のうち新たな要素を示す情報を示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。
また、例えば、上述した学習処理により学習が行われた関係推定モデルは、新たな要素に関する投稿情報が入力される入力層と、出力層と、記入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、投稿情報に含まれる情報のうち新たな要素と他の要素との間の関係性を示す値を出力層から出力するよう、コンピュータを機能させるためのモデルである。
ここで、各モデルが「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、各モデルが含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
また、各モデルがDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、各モデルが含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
情報提供装置10は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有する各モデルを用いて、新出要素や関係情報を取得する。具体的には、判定モデルは、投稿情報が入力された場合に、その投稿情報に新出要素が含まれるか否かを示すスコアを出力するように、各種のパラメータ(例えば、接続係数)が設定される。また、抽出モデルは、投稿情報が入力された場合に、その投稿情報から新出要素である可能性が高い文字列等の情報を示す情報を出力するように、各種のパラメータが設定される。また、関係推定モデルは、投稿情報が入力された場合に、その投稿情報が示す新出要素と所定の関係性を有する他の要素を示す情報を出力するように、各種のパラメータが設定される。
なお、実施形態に係る各モデルは、所定のモデルにデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。また、情報提供装置10がGAN(Generative Adversarial Networks)を用いた学習処理を行う場合、各モデルは、GANの一部を構成するモデルであってもよい。
例えば、情報提供装置10は、新たな要素の候補である要素候補のうち、要素候補に関する検索履歴の数と要素候補に関する投稿情報の数とに基づいて選択された要素候補と、要素候補に関する検索履歴と、要素候補と他の要素との間の関係性を示す情報とを含む学習データを用いて、上述した学習を行うことで、各モデルを生成する。なお、情報提供装置10は、いかなる学習アルゴリズムを用いて各を生成してもよい。例えば、情報提供装置10は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて学習モデルを生成する。一例として、情報提供装置10がニューラルネットワークを用いて各モデルを生成する場合、各モデルは、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
なお、学習データは、上述した各種のモデルとして情報提供装置10を動作させるデータである。すなわち、学習データは、新出要素の候補である要素候補のうち、要素候補に関する検索履歴の数と要素候補に関する投稿情報の数とに基づいて選択された要素候補と、要素候補に関する検索履歴と、要素候補と他の要素との間の関係性を示す情報とを含みコンピュータを、上述した各種のモデルとして機能させるためのデータである。
〔1−5.学習データについて〕
上述した説明では、情報提供装置10は、検索クエリや投稿情報の数が「0」から「1」以上となった日時に投稿された投稿情報を学習データとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、検索クエリや投稿情報の数が「0」から「1」以上となった日中に投稿された投稿情報を学習データとしてもよく、検索クエリや投稿情報の数が「0」から「1」以上となった日から所定の日時が経過するまでの間に投稿された投稿情報を学習データとしてもよい。
また、例えば、情報提供装置10は、検索履歴が示す検索の状況や、投稿履歴が示す投稿の状況に基づいて、学習データとする要素候補を選択するのであれば、任意の状況に基づいて、要素候補の選択を行ってよい。例えば、情報提供装置10は、検索履歴や投稿履歴の数が所定の閾値以下となる期間が所定の閾値以上存在し、ある日を境に、検索履歴や投稿履歴の数が所定の閾値以上となった場合は、対応する要素候補を学習データとして選択してもよい。また、情報提供装置10は、検索履歴や投稿履歴が示す検索や投稿の統計的な状況等、任意の状況に基づいて、要素候補の選択を行ってよい。
また、情報提供装置10は、正例のみならず、負例となる学習データを生成してもよい。例えば、情報提供装置10は、ある要素候補についての投稿情報であって、検索クエリや投稿情報の数が「0」から「1」以上となった日に投稿された投稿情報を正例とし、その要素候補についての投稿情報であって、検索クエリや投稿情報の数が「0」から「1」以上となった日から所定の日時が経過した後に投稿された投稿情報を負例とする。そして、情報提供装置10は、正例および負例を用いて、判定モデルの学習を行ってもよい。
なお、情報提供装置10は、を作成する際、任意の期間に登録された投稿情報を取得して良い。例えば、情報提供装置10は、過去1年分の投稿情報や検索クエリを取得し、取得した投稿情報や検索クエリを用いて、要素候補が新出要素であるか否かを判定してもよい。
また、新出要素が生じてから、新出要素の説明コンテンツが生成されたり、インフォボックスが生成されるまでの期間は、所定の範囲内(例えば、平均で40日)に収まると予測される。そこで、情報提供装置10は、説明コンテンツが生成された若しくはインフォボックスが生成された日時から40日前の投稿情報を取得し、取得した投稿情報を学習データとしてもよい。
〔2.情報提供装置の構成〕
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、ログサーバ100や説明コンテンツサーバ200との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、エンティティデータベース31、トリプルデータベース32、検索ログデータベース33、投稿情報データベース34、学習データデータベース35、およびモデルデータベース36(以下、「各データベース31〜36」と総称する場合がある。)を記憶する。
以下、図3〜8を用いて、各データベース31〜36に登録される情報の一例を説明する。エンティティデータベース31には、エンティティに関する情報が登録される。例えば、図3は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。図3に示すように、エンティティデータベース31には、「エンティティID」、「エンティティ種別」、「ノードID」、「ノード種別」、および「データ」といった項目を有する情報が登録される。
ここで、「エンティティID」とは、エンティティの識別子である。また、「エンティティ種別」とは、対応付けられた「エンティティID」が示すエンティティの種別を示す情報であり、例えば、エンティティが「人物」を示すエンティティであるか「職業」を示すエンティティであるかといった情報を示す。「ノードID」は、対応付けられた「エンティティID」が示すエンティティと関連するノードの識別子である。「ノード種別」は、対応付けられた「ノードID」が示すノードの種別を示す情報であり、ノードが名前を示すか、写真を示すか、職業を示すか等といった情報である。また、「データ」とは、対応付けられた「ノードID」が示すノードのデータである。
例えば、図3に示す例では、エンティティID「E11」、エンティティ種別「人物」、ノードID「I111」、ノード種別「名前」、およびデータ「名前#1」が対応付けて登録されている。このような情報は、エンティティID「E11」が示すエンティティ(すなわち、エンティティE11)が「人物」を示すエンティティであり、そのエンティティが示す人物の「名前」を示すノードとしてノードID「I111」が登録されており、その名前が「名前#1」である旨を示す。なお、図1に示す例では、「名前#1」や「写真#1」等といった概念的な値を記載したが、実際には、エンティティデータベース31には、対応付けられたエンティティと対応する人物の名前、写真、生年月日等を示す各種の情報が登録されることとなる。
トリプルデータベース32には、トリプルを示す情報が登録される。例えば、図4は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。図4に示す例では、トリプルデータベース32には、「トリプルID」、「関係情報ID」、「種別」、「第1要素」、および「第2要素」といった項目を有する情報が登録される。
ここで、「トリプルID」とは、トリプルを識別する識別子である。また、「関係情報ID」とは、トリプルに含まれる関係情報を識別する識別子である。また、「種別」とは、トリプルに含まれるエンティティ間の関係性を示す情報である。また、「第1要素」および「第2要素」とは、対応付けられた「トリプルID」が示すトリプルに含まれるエンティティのエンティティIDである。
例えば、図4に示す例では、トリプルID「トリプル#1」、関係情報ID「C1」、種別「職業」、第1要素「E11」、および第2要素「E21」が対応付けて登録されている。このような情報は、トリプルID「トリプル#1」が示すトリプルとして、エンティティE11とエンティティE12と関係情報C1とが対応付けて登録されており、エンティティE21がエンティティE11の職業である旨を示す。
検索ログデータベース33には、検索クエリの履歴、すなわち、検索履歴が登録される。例えば、図5は、実施形態に係る検索ログデータベースに登録される情報の一例を示す図である。図5に示すように、検索ログデータベース33には、検索ログを識別する識別子である「検索ログID」、入力された検索クエリを示す「検索クエリ」、および検索が行われた日時を示す「検索日時」といった項目を有する情報が登録される。
例えば、図5に示す例では、検索ログデータベース33には、検索ログID「検索ログ#1」、検索クエリ「検索クエリ#1」、および検索日時「検索日時#1」といった情報が対応付けて登録されている。このような情報は、検索ログID「検索ログ#1」が示す検索ログの検索クエリが「検索クエリ#1」であり、検索日時が「検索日時#1」であった旨を示す。なお、図5に示す例では、「検索ログ#1」、「検索クエリ#1」、「検索日時#1」といった概念的な値について記載したが、実際には、検索ログデータベース33には、検索ログを識別する数値や文字列、検索クエリとして入力された文字列、検索日時を示す数値等が登録される。
投稿情報データベース34には、投稿情報が登録される。例えば、図6は、実施形態に係る投稿情報データベースに登録される情報の一例を示す図である。図6に示すように、投稿情報データベース34には、投稿情報を識別する識別子である「投稿ログID」、投稿情報の内容を示す「投稿情報」、および投稿情報が投稿された日時を示す「投稿日時」といった項目を有する情報が登録される。
例えば、図6に示す例では、投稿情報データベース34には、投稿ログID「投稿ログ#1」、投稿情報「投稿情報#1」、および投稿日時「投稿日時#1」といった情報が対応付けて登録されている。このような情報は、投稿ログID「投稿ログ#1」が示す投稿情報が「投稿情報#1」であり、投稿日時が「投稿日時#1」であった旨を示す。なお、図6に示す例では、「投稿ログ#1」、「投稿情報#1」、「投稿日時#1」といった概念的な値について記載したが、実際には、投稿情報データベース34には、投稿情報を識別する数値や文字列、投稿情報として入力された文字列、投稿日時を示す数値等が登録される。
学習データデータベース35には、学習データが登録される。例えば、図7は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図7に示すように、学習データデータベース35には、学習データを識別する識別子である「学習データID」、学習データに含まれる要素候補である「要素候補」、学習データに含まれる関係情報である「関係情報」、および学習データに含まれる投稿情報である「投稿情報」といった項目を有する情報が登録される。
例えば、図7に示す例では、学習データデータベース35には、学習データID「学習データ#1」、要素候補「要素候補#1」、関係情報「関係情報群#1」、投稿情報「投稿情報群#1」が対応付けて登録されている。このような情報は、学習データID「学習データ#1」が示す学習データとして、「要素候補#1」、「関係情報群#1」、および「投稿情報群#1」が対応付けて登録されている旨を示す。また、このような情報は、「関係情報群#1」として、「要素候補#1」と所定の関係を有する他の要素が「対象要素#1−1」であり、その関係が「関係#1−1」である旨が登録されている旨を示す。また、このような情報は、「投稿情報群#1」として「投稿情報#1−1」や「投稿情報#1−2」が登録されている旨を示す。
なお、図7に示す例では、「学習データ#1」、「要素候補#1」、「関係情報#1−1」、「関係#1−1」、「投稿情報#1−1」といった概念的な値について記載したが、実際には、学習データデータベース35には、学習データを識別する数値や文字列、要素候補、関係情報、関係、投稿情報等となる文字列等が登録される。
モデルデータベース36には、各モデルのデータが登録される。例えば、図8は、実施形態に係るモデルデータベースに登録される情報の一例を示す図である。図8に示すように、モデルデータベース36には、モデルの種別を示す「モデル種別」およびモデルの情報である「モデルデータ」とが対応付けて登録される。
例えば、図8に示す例では、モデルデータベース36には、モデル種別「判定モデル」およびモデルデータ「モデルデータ#1」が対応付けて登録されている。このような情報は、「判定モデル」であるモデルの各種パラメータが「モデルデータ#1」である旨を示す。なお、図8に示す例では、「モデルデータ#1」といった概念的な値を記載したが、実際には、ノード間の接続関係や接続係数等といったモデルを構成するために必要な各種の情報が登録される。
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、取得部41、特定部42、選択部43、抽出部44、学習部45、および更新部46を有する。取得部41は、要素候補を説明する説明コンテンツが登録された場合は、説明コンテンツから要素候補を取得する。例えば、取得部41は、所定の時間間隔で説明コンテンツサーバ200を参照し、所定の期間内に新たに登録された説明コンテンツを取得する。このような場合、取得部41は、各種の文字解析技術を用いて、説明コンテンツが主題する物事を示すテキストを抽出し、抽出したテキストを要素候補とする。
特定部42は、新たな要素の候補である要素候補に関する検索履歴と、要素候補に関する投稿情報とを特定する。より具体的には、特定部42は、取得部41により説明コンテンツから取得された要素候補の検索履歴と、要素候補に関する投稿情報とを特定する。例えば、特定部42は、要素候補の投稿情報であって、説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する。
例えば、特定部42は、所定の時間間隔で、ログサーバ100から各種の検索履歴や投稿情報を取得する。そして、特定部42は、取得した検索履歴を検索ログデータベース33に登録し、取得した投稿情報を、投稿情報データベース34に登録しておく。また、特定部42は、取得部41によって要素候補が取得された場合は、検索ログデータベース33を参照し、要素候補を検索クエリとして含む検索ログを特定する。また、特定部42は、取得された要素候補を含む投稿情報を投稿情報データベース34から特定する。
ここで、特定部42は、検索履歴や投稿情報を特定する際、検索日時や投稿日時を考慮してもよい。例えば、特定部42は、取得された要素候補の説明コンテンツが登録された日時を特定し、検索履歴や投稿情報のうち、特定した日時よりも前の所定の期間内に検索或いは投稿された検索履歴や投稿情報を特定してもよい。例えば、特定部42は、説明コンテンツの登録日前40日間の投稿情報を特定してもよい。
選択部43は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。例えば、選択部43は、複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。例えば、選択部43は、複数の要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。
例えば、図9は、実施形態に係る情報提供装置が学習データの作成対象とする要素候補を選択する処理の一例を示す図である。なお、図9中(A)には、ある要素候補#1を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補#1を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。また、図9中(B)には、ある要素候補#2を含む検索クエリの数の変遷を各日時ごとに点線でプロットし、要素候補#2を含む投稿情報の数の変遷を各日付ごとに直線でプロットした。
例えば、図9中(a)に示す日時において、要素候補#1を含む検索履歴や投稿情報が急に生じており、図9中(a)よりも前の図9中(b)に示す期間においては、要素候補#1を含む検索履歴や投稿情報が存在しない。検索履歴の数や投稿情報の数がこのような変遷を辿る場合、要素候補#1は、新出要素である可能性が高い。そこで、選択部43は、検索履歴および投稿情報が存在しない状態から、所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補#1を、学習データの作成対象として選択する。
一方、図9中(B)に示すように、要素候補#2を含む検索履歴や投稿情報の数は、増減を繰り返しながらも一定量が存在している。ここで、図9中(c)に示す日時において、要素候補#1を含む検索履歴や投稿情報が急増しているものの、図9中(d)に示すように、過去にも要素候補#2を含む検索履歴や投稿情報の数が急増する日時が存在する。検索履歴の数や投稿情報の数がこのような変遷を辿る場合、要素候補#2は、新出要素ではない可能性が高い。具体的な例を挙げると、要素候補#2が小説のタイトルである場合、図9中(d)に示す日時において要素候補#2が話題となり、図9中(c)に示す日時において要素候補#2の小説が映画化されたといった態様が考えられる。このような要素候補#2を学習データとした場合、真に新出要素が含まれる投稿情報を選択することができず、学習データの確度が低下する結果、新出要素の抽出精度が低下する恐れがある。そこで、情報提供装置10は、要素候補#2を学習データの作成対象から除外する。
図2に戻り、説明を続ける。抽出部44は、選択部43により選択された要素候補に関する投稿情報のうち、投稿情報や検索情報の数が急増した日時に投稿された投稿情報を学習データとして抽出する。また、抽出部44は、要素候補を説明する説明コンテンツから、要素候補と他の要素との関係性を学習データとして抽出する。例えば、抽出部44は、選択部43が学習データの作成対象とする要素候補を選択した場合、選択した要素候補を含む投稿情報であって、投稿情報や検索情報の数が「0」から「1」以上に増加した日に投稿された投稿情報を抽出する。そして、抽出部44は、要素候補と抽出した投稿情報とを対応付けて学習データデータベース35に登録する。
また、抽出部44は、要素候補の説明コンテンツにインフォボックスが登録されている場合、かかるインフォボックスから要素候補と他の要素との間の関係性を示す関係情報を抽出する。なお、抽出部44は、文字解析技術や、例えば、説明コンテンツに設定された他の説明コンテンツへのリンク関係等から、要素候補と他の要素との間の関係性を示す関係情報を特定してもよい。そして、抽出部44は、抽出した関係情報を要素候補と対応付けて学習データデータベース35に登録する。
学習部45は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。すなわち、学習部45は、選択部43により選択された要素候補に関する学習データを用いて、各モデルの学習を行う。例えば、学習部45は、選択された要素候補、要素候補に関する投稿情報、および要素候補と他の要素との関係性を学習データとして、学習データが有する各種の特徴を各モデルに学習させる。
例えば、学習部45は、学習データの投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。例えば、学習部45は、学習データに含まれる投稿情報を入力した際に、入力された投稿情報に新出要素が含まれる旨を示す情報を出力し、他の投稿情報を入力した際に、入力された投稿情報に新出要素が含まれない旨を示す情報を出力するように、判定モデルの学習を行う。
また、例えば、学習部45は、学習データの要素候補と、要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。例えば、学習部45は、ある学習データの投稿情報を入力した際に、その学習データの要素候補を示す情報を出力するように、抽出モデルの学習を行う。
また、例えば、学習部45は、学習データの投稿情報と、その学習データの要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う。より具体的には、学習部45は、投稿情報から、新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。
例えば、学習部45は、関係推定モデルとして、それぞれ異なる関係性と対応付けた複数のモデルを準備する。また、学習部45は、例えば、第1の関係性と対応付けたモデルを学習する場合、学習データデータベース35を参照し、要素候補とその要素候補との間に第1の関係性を有する他の要素とを特定する。そして、学習部45は、第1の関係性と対応付けたモデルに対して投稿情報を入力した際に、特定した他の要素を示す情報出力するように、そのモデルの学習を行う。このような処理を各関係推定モデルについて実行することで、学習部45は、投稿情報から、要素候補と所定の関係性を有する他の要素を抽出するモデル、すなわち、要素候補と他の要素との間の関係性を推定するための関係推定モデルを学習することができる。
更新部46は、学習部45によって学習が行われた各モデルを用いて、ナレッジデータベースの更新を行う。例えば、更新部46は、投稿されてから所定の時間が経過していない投稿情報をログサーバ100から取得する。そして、更新部46は、判定モデルを用いて、各投稿情報が新出要素を含むか否かを判定する。
また、更新部46は、ある投稿情報に新出要素が含まれると判定モデルが判定した場合は、抽出モデルを用いて、その投稿情報から新出要素を抽出する。すなわち、更新部46は、抽出モデルを用いて、新出要素が含まれると判定された投稿情報から新出要素を示す可能性が高い文字列の抽出を行う。また、更新部46は、関係推定モデルを用いて、新出要素が含まれると判定された投稿情報から、新出要素と所定の関係性を有すると推定される他の要素を抽出する。
そして、更新部46は、抽出した新出要素と、新出要素と他の要素との関係性を用いて、ナレッジデータベースの更新を行う。例えば、更新部46は、新出要素を示すエンティティをエンティティデータベース31に登録する。また、更新部46は、新出要素と所定の関係性を有する他の要素のエンティティをエンティティデータベース31から特定する。そして、更新部46は、トリプルとして、新出要素のエンティティと、特定した他の要素のエンティティと、その要素を抽出した関係推定モデルと対応する関係(すなわち、「種別」)との組をトリプルとして、トリプルデータベース32に登録する。
〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図10を用いて、情報提供装置10が実行する処理の流れについて説明する。図10は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、所定の期間内に作成された説明コンテンツを取得する(ステップS101)。続いて、情報提供装置10は、説明コンテンツから要素候補を抽出する(ステップS102)。また、情報提供装置10は、抽出した要素候補に関する検索履歴と投稿履歴とを取得する(ステップS103)。そして、情報提供装置10は、要素候補のうち、所定の日時における検索履歴と投稿履歴との増加量が所定の閾値を超える要素候補を選択する(ステップS104)。
また、情報提供装置10は、選択した要素候補と、所定の日時に投稿された投稿履歴と、関係情報とを学習データとする(ステップS105)。そして、情報提供装置10は、学習データを用いて、各モデルを学習する(ステップS106)。また、情報提供装置10は、判定モデルを用いて、新出要素を含む投稿情報を特定し(ステップS107)、特定した投稿情報から、抽出モデルと関係推定モデルとを用いて、新出要素と関係情報とを抽出する(ステップS108)。そして、情報提供装置10は、ナレッジデータベースに新出要素と関係情報とを登録し(ステップS109)、処理を終了する。
〔4.変形例〕
上記では、情報提供装置10による選択処理、学習処理および更新処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する提供処理や選択処理のバリエーションについて説明する。
〔4−1.エンティティの種別について〕
上述した例では、ナレッジデータベースの一例として、人物と人物の職業とを関連付けたトリプルが登録されるナレッジデータベースを示した。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報提供装置10は、任意の物事を示すナレッジデータベースの更新を行ってよい。より具体的には、情報提供装置10は、任意の物事を新出要素として選択し、学習データの生成を行ってよく、任意の物事を新出要素として抽出して良い。
〔4−2.装置構成〕
情報提供装置10は、自装置でナレッジデータベースを管理せずともよい。例えば、記憶部30に登録された各データベース31〜36は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、検索処理を実現するフロントエンドサーバと、選択処理を実現するバックエンドサーバとで実現されてもよい。このような場合、バックエンドサーバには、図2に示す各41〜46が配置され、フロントエンドサーバには、ナレッジデータベースに検索を行う機能を発揮するための機能構成が配置される。
〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4−4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
〔5.効果〕
上述したように、情報提供装置10は、新たな要素の候補である要素候補に関する検索履歴と、その要素候補に関する投稿情報とを特定する。そして、情報提供装置10は、特定された検索履歴と、特定された投稿情報とに基づいて、要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する。この結果、情報提供装置10は、新出要素に関する情報の特徴をモデルに学習させることができる結果、モデルを用いた新出要素の抽出を実現し、新出エンティティの追加を効率化することができる。
例えば、情報提供装置10は、検索履歴が示す検索の状況と、投稿情報が示す投稿の状況とに基づいて、学習データを生成するための要素候補を選択する。また、例えば、情報提供装置10は、検索履歴が示す検索の数と、投稿情報が示す投稿の数とに基づいて、学習データを生成するための要素候補を選択する。このため、情報提供装置10は、新出要素である可能性が高い要素候補を学習データを生成するための要素候補として選択することができる。
また、情報提供装置10は、要素候補を説明する説明コンテンツが登録された場合は、その説明コンテンツから要素候補を取得する。そして、情報提供装置10は、要素候補の検索履歴と、その要素候補に関する投稿情報とを特定する。例えば、情報提供装置10は、要素候補の投稿情報であって、説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する。このため、情報提供装置10は、新出要素の可能性が高い要素候補の中から、学習データの生成対象を選択するので、学習データの確度を向上させることができる。
また、情報提供装置10は、複数の要素候補のうち、所定の日時において、検索履歴の数の増加量が所定の閾値を超え、かつ、投稿情報の数の増加量が所定の閾値を超えた要素候補を選択する。例えば、情報提供装置10は、複数の要素候補のうち、所定の日時よりも前における検索履歴および投稿情報が存在せず、かつ、その所定の日時において検索履歴の数が所定の閾値を超え、かつ、投稿情報の数が所定の閾値を超えた要素候補を選択する。このため、情報提供装置10は、学習データの確度を向上させることができる。
また、情報提供装置10は、選択された要素候補に関する投稿情報のうち、所定の日時に投稿された投稿情報を学習データとして抽出する。また、情報提供装置10は、選択された要素候補を説明する説明コンテンツから、要素候補と他の要素との関係性を学習データとして抽出する。このため、情報提供装置10は、新出要素を検出するためのモデルの学習を実現する学習データを生成できる。
また、情報提供装置10は、選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる。例えば、情報提供装置10は、要素候補、その要素候補に関する投稿情報、およびその要素候補と他の要素との関係性を学習データとしてモデルに学習させる。例えば、情報提供装置10は、選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う。また、例えば、情報提供装置10は、選択された要素候補と、その要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う。また、例えば、情報提供装置10は、要素候補に関する投稿情報と、その要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う。より具体的には、情報提供装置10は、関係推定モデルとして、投稿情報から、新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する。
このような処理の結果、情報提供装置10は、各種の投稿情報から、新出要素を精度良く検出するとともに、新出要素と他の要素との間の関係性を推定することができる。この結果、情報提供装置10は、例えば、ナレッジデータベースが有するトリプルの自動的な更新を実現できる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、付与部は、特定手段や特定回路に読み替えることができる。
10 情報提供装置
20 通信部
30 記憶部
31 エンティティデータベース
32 トリプルデータベース
33 検索ログデータベース
34 投稿情報データベース
35 学習データデータベース
36 モデルデータベース
40 制御部
41 取得部
42 特定部
43 選択部
44 抽出部
45 学習部
46 更新部
100 ログサーバ
200 説明コンテンツサーバ

Claims (26)

  1. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と
    を有することを特徴とする選択装置。
  2. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と
    を有することを特徴とする選択装置。
  3. 新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得部
    前記取得部により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と、
    を有することを特徴とする選択装置。
  4. 前記特定部は、前記取得部により取得された要素候補の投稿情報であって、前記説明コンテンツが登録されるよりも前の所定の期間内に投稿された投稿情報を特定する
    ことを特徴とする請求項に記載の選択装置。
  5. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択部と
    を有することを特徴とする選択装置。
  6. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択部と
    を有することを特徴とする選択装置。
  7. 前記選択部により選択された要素候補に関する投稿情報のうち、前記所定の日時に投稿された投稿情報を前記学習データとして抽出する抽出部
    を有することを特徴とする請求項またはに記載の選択装置。
  8. 前記抽出部は、前記選択部により選択された要素候補を説明する説明コンテンツから、前記要素候補と他の要素との関係性を前記学習データとして抽出する
    ことを特徴とする請求項に記載の選択装置。
  9. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定部と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択部と、
    前記選択部により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習部
    を有することを特徴とする選択装置。
  10. 前記学習部は、前記選択部により選択された要素候補、当該要素候補に関する投稿情報、および当該要素候補と他の要素との関係性を前記学習データとして前記モデルに学習させる
    ことを特徴とする請求項に記載の選択装置。
  11. 前記学習部は、前記選択部により選択された要素候補に関する投稿情報を用いて、投稿情報が新たな要素に関する投稿であるか否かを判定する判定モデルの学習を行う
    ことを特徴とする請求項または1に記載の選択装置。
  12. 前記学習部は、前記選択部により選択された要素候補と、当該要素候補に関する投稿情報を用いて、投稿情報に含まれる新たな要素を抽出する要素抽出モデルの学習を行う
    ことを特徴とする請求項〜1のうちいずれか1つに記載の選択装置。
  13. 前記学習部は、前記選択部により選択された要素候補に関する投稿情報と、当該要素候補と他の要素との関係性とを用いて、投稿情報に含まれる新たな要素と他の要素との関係性を抽出する関係推定モデルの学習を行う
    ことを特徴とする請求項〜1のうちいずれか1つに記載の選択装置。
  14. 前記学習部は、前記関係推定モデルとして、投稿情報から、前記新たな要素との間に所定の関係性を有する他の要素を抽出する複数のモデルであって、それぞれ異なる関係性を有する他の要素を抽出する複数のモデルを学習する
    ことを特徴とする請求項1に記載の選択装置。
  15. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と
    を含むことを特徴とする選択方法。
  16. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴が示す検索の状況と、特定された前記投稿情報が示す投稿の状況とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と
    をコンピュータに実行させるための選択プログラム。
  17. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と
    を含むことを特徴とする選択方法。
  18. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴が示す検索の数と、特定された前記投稿情報が示す投稿の数とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と
    をコンピュータに実行させるための選択プログラム。
  19. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得工程と
    前記取得工程により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と、
    を含むことを特徴とする選択方法。
  20. 新たな要素の候補である要素候補を説明する説明コンテンツが登録された場合は、当該説明コンテンツから前記要素候補を取得する取得手順と
    前記取得手順により取得された要素候補の検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と、
    をコンピュータに実行させるための選択プログラム。
  21. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択工程と
    を含むことを特徴とする選択方法。
  22. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時において、前記検索履歴の数の増加量が所定の閾値を超え、かつ、前記投稿情報の数の増加量が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択手順と
    をコンピュータに実行させるための選択プログラム。
  23. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択工程と
    を含むことを特徴とする選択方法。
  24. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、複数の要素候補のうち、所定の日時よりも前における前記検索履歴および前記投稿情報が存在せず、かつ、当該所定の日時において前記検索履歴の数が所定の閾値を超え、かつ、前記投稿情報の数が所定の閾値を超えた要素候補を、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補として選択する選択手順と
    をコンピュータに実行させるための選択プログラム。
  25. 選択装置が実行する選択方法であって、
    新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定工程と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択工程と、
    前記選択工程により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習工程と
    を含むことを特徴とする選択方法。
  26. 新たな要素の候補である要素候補に関する検索履歴と、当該要素候補に関する投稿情報とを特定する特定手順と、
    特定された前記検索履歴と、特定された前記投稿情報とに基づいて、前記要素候補のうち、新たな要素に関する情報の特徴をモデルに学習させるための学習データを生成するための要素候補を選択する選択手順と、
    前記選択手順により選択された要素候補に関する情報を用いて、新たな要素に関する情報の特徴をモデルに学習させる学習手順と
    をコンピュータに実行させるための選択プログラム。
JP2017180129A 2017-09-20 2017-09-20 選択装置、選択方法、選択プログラム、モデルおよび学習データ Active JP6541737B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017180129A JP6541737B2 (ja) 2017-09-20 2017-09-20 選択装置、選択方法、選択プログラム、モデルおよび学習データ
US16/129,692 US11409773B2 (en) 2017-09-20 2018-09-12 Selection device, selection method, and non-transitory computer readable storage medium
JP2019072876A JP6956133B2 (ja) 2017-09-20 2019-04-05 モデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017180129A JP6541737B2 (ja) 2017-09-20 2017-09-20 選択装置、選択方法、選択プログラム、モデルおよび学習データ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019072876A Division JP6956133B2 (ja) 2017-09-20 2019-04-05 モデル

Publications (2)

Publication Number Publication Date
JP2019057029A JP2019057029A (ja) 2019-04-11
JP6541737B2 true JP6541737B2 (ja) 2019-07-10

Family

ID=65719321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017180129A Active JP6541737B2 (ja) 2017-09-20 2017-09-20 選択装置、選択方法、選択プログラム、モデルおよび学習データ

Country Status (2)

Country Link
US (1) US11409773B2 (ja)
JP (1) JP6541737B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6720402B2 (ja) * 2017-03-21 2020-07-08 株式会社Preferred Networks サーバ装置、学習済モデル提供プログラム、学習済モデル提供方法及び学習済モデル提供システム
JP7417922B2 (ja) * 2019-10-30 2024-01-19 株式会社ジェイテクト 知識モデル構築システム及び知識モデル構築方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011775A (ja) 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法、プログラム及び記録媒体
CN101583951B (zh) * 2007-01-18 2012-02-15 富士通株式会社 关键字管理系统和关键字管理方法
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8499008B2 (en) * 2009-07-24 2013-07-30 Yahoo! Inc. Mixing knowledge sources with auto learning for improved entity extraction
JP2013225181A (ja) * 2012-04-19 2013-10-31 Hitachi Solutions Ltd 情報レコメンドシステム、方法、およびプログラム
JP5879412B1 (ja) * 2014-09-19 2016-03-08 ヤフー株式会社 検索制御プログラム、検索装置、検索制御方法及び検索システム
JP6373767B2 (ja) 2015-01-26 2018-08-15 Kddi株式会社 話題語ランキング装置、話題語ランキング方法、およびプログラム
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
US10459914B2 (en) * 2015-09-18 2019-10-29 Facebook, Inc. Detecting key topics on online social networks
JP2017182710A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法および情報提供方法
JP6097429B1 (ja) 2016-03-31 2017-03-15 株式会社三菱総合研究所 情報抽出装置、情報抽出方法、およびプログラム
JP6088091B1 (ja) 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
US10235469B2 (en) * 2016-11-30 2019-03-19 Facebook, Inc. Searching for posts by related entities on online social networks

Also Published As

Publication number Publication date
US20190087485A1 (en) 2019-03-21
US11409773B2 (en) 2022-08-09
JP2019057029A (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
US20240029086A1 (en) Discovery of new business openings using web content analysis
CN104574192B (zh) 在多个社交网络中识别同一用户的方法及装置
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN107357793B (zh) 信息推荐方法和装置
CN110413877A (zh) 一种资源推荐方法、装置及电子设备
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN110516033B (zh) 一种计算用户偏好的方法和装置
CN110765117A (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
US20240028646A1 (en) Textual similarity model for graph-based metadata
JP6546254B2 (ja) 推定装置、推定方法、および推定プログラム
JP7041299B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
CN107545075B (zh) 一种基于在线评论和情境感知的餐馆推荐方法
CN111782936A (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP2019053409A (ja) 付与装置、付与方法、付与プログラム、及びモデル
JP6541737B2 (ja) 選択装置、選択方法、選択プログラム、モデルおよび学習データ
JP2020135770A (ja) 推定装置、推定方法および推定プログラム
JP7273888B2 (ja) 決定装置、決定方法、および決定プログラム
JP6956133B2 (ja) モデル
JP6705763B2 (ja) 生成装置、生成方法および生成プログラム
CN116340643B (zh) 对象推荐的调整方法及装置、存储介质、电子设备
KR102221263B1 (ko) 뇌기능 지식 베이스 자가 성장 시스템 및 방법
JP7044922B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN115757747A (zh) 意图识别方法、装置、设备以及存储介质
JP2020035072A (ja) 情報処理装置、情報処理方法および情報処理プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190611

R150 Certificate of patent or registration of utility model

Ref document number: 6541737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250