WO2014132402A1

WO2014132402A1 - データ処理装置および物語モデル構築方法

Info

Publication number: WO2014132402A1
Application number: PCT/JP2013/055477
Authority: WO
Inventors: 浜田　伸一郎
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2014-09-04
Anticipated expiration: 2015-08-28
Also published as: CN105264518B; US9904677B2; US20160012040A1; JP5945062B2; JPWO2014132402A1; CN105264518A

Abstract

　実施形態のデータ処理装置（１００）は、イベントスロット系列抽出器（２）と、機械学習用事例生成器（３）と、後続イベントスロット推定訓練器（７）と、を備える。イベントスロット系列抽出器（２）は、訓練用タグ付き文書からイベントスロット系列を共有項とともに抽出してイベントスロット系列データを生成する。機械学習用事例生成器（３）は、イベントスロット系列データから、イベントスロット履歴特徴と共有項履歴特徴との少なくともいずれかの特徴量を含む特徴ベクトルで表現された訓練用事例データを生成する。後続イベントスロット推定訓練器（７）は、訓練用事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続するイベントスロットを推定するための物語モデルである後続イベントスロット推定モデル（Ｄ１０）を構築する。

Description

データ処理装置および物語モデル構築方法

　本発明の実施形態は、データ処理装置および物語モデル構築方法に関する。

　照応解析（Anaphora　Resolution）、共参照解析（Coreference　Resolution）、対話処理（Dialog　Processing）などの文脈解析（Contextual　Analysis）は、自然言語処理において文書を正しく理解する上で重要なタスクである。文脈解析には、シャンクのスクリプトやフィルモアのフレームのような手続き的知識（Procedural　Knowledge）を用いることが有効であることが知られている。手続き的知識とは、ある一連の手続に続く手続は何か、ということに関する知識である。この手続き的知識を計算機で再現するモデルが物語モデルである。

　従来、互いに関連する述語と格のペア（以下、「イベントスロット」と呼ぶ。）の系列を任意の文書群から獲得し、このイベントスロット系列から事例データを生成して、機械学習の訓練によって物語モデルを構築することが提案されている。

　イベントスロット系列は、項を共有する述語と共有項の格種別との組み合わせであるイベントスロットを要素とし、そのイベントスロットを出現順に並べたものである。イベントスロット系列の要素となるイベントスロットの種類は多種多様であるため、十分な学習を行って高精度な物語モデルを構築するには、それに見合う膨大な学習データが必要となる。しかし、信頼性の高い学習データを大量に入手するのは非常にコストがかかる。このため、十分な学習データが集められずに学習データ不足が生じ、その結果、構築される物語モデルの精度が低くなるといった懸念がある。

V．Pekar．2006．Acquisition　of　verb　entailment　from　text．In　"Proceedings　of　the　main　conference　on　Human　Language　Technology　Conference　of　the　North　American　Chapter　of　the　Association　of　Computational　Linguistics"，pages　49．56．Association　for　Computational　Linguistic． I．Szpektor　and　I．Dagan．2008．Learning　entailment　rules　for　unary　templates．In　"Proceedings　of　the　22nd　International　Conference　on　Computational　Linguistics-Volume　1"，pages　849．856．Association　for　Computational　Linguistics． N．Chambers　and　D．Jurafsky．2009．Unsupervised　learning　of　narrative　schemas　and　their　participants．In　"Proceedings　of　the　Joint　Conference　of　the　47th　Annual　Meeting　of　the　ACL　and　the　4th　International　Joint　Conference　on　Natural　Language　Processing　of　the　AFNLP：Volume　2-Volume　2"，pages　602．610．Association　for　Computational　Linguistics． R．Kneser　and　H．Ney．Improved　backing-off　for　m-gram　language　modeling．In　Proceedings　of　ICASSP，Vol．1，pp．181．184，1995． R．Rosenfeld："Adaptive　Statistical　Language　Modeling：A　Maximum　Entropy　Approach"，Ph．D．Thesis，Technical　Report　CMU-CS-94-138，School　of　Computer　Science，Carnegie＿Mellon　University，Pittsburgh，PA，114　pages，1994． Goodman　and　Joshua　T："A　bit　of　progress　in　language　modeling"，Computer　Speech　\&　Language，volume　15，number　4，pages　403-434，2001．Elsevier． Sven　Martin，Christoph　Hamacher，Jorg　Liermann，FrankWessel，and　Hermann　Ney．1999．Assessment　of　smoothing　methods　and　complex　stochastic　language　modeling．In　6th　European　Conference　on　Speech　Communication　and　Technology，volume　5，pages　1939．1942，Budapest，Hungary，September．

　本発明が解決しようとする課題は、精度の高い物語モデルを構築することができるデータ処理装置および物語モデル構築方法を提供することである。

　実施形態のデータ処理装置は、抽出部と、事例生成部と、モデル構築部と、を備える。抽出部は、述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する。事例生成部は、前記要素系列を構成する前記要素の１つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する１つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する１つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する。モデル構築部は、前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築する。

図１は、「犯罪者」を共有項とするイベントスロット系列を用いた確率モデルの模式図である。図２は、非特許文献３に記載されている方法を説明する模式図である。図３は、第１実施形態に係るデータ処理装置の構成例を示すブロック図である。図４は、訓練用タグ付き文書の具体例を示す図である。図５は、訓練用イベントスロット系列データの具体例を示す図である。図６は、イベントスロット系列抽出器が実施する処理を説明するフローチャートである。図７は、訓練用事例データの具体例を示す図である。図８は、機械学習用事例生成器が実施する処理を説明するフローチャートである。図９は、イベントスロット履歴特徴生成器による処理を説明するフローチャートである。図１０は、共有項履歴特徴生成器による処理を説明するフローチャートである。図１１は、共有項表現生成器により生成される共有項表現群の一例を示す図である。図１２は、共有項表現生成器による処理を説明するフローチャートである。図１３は、後続イベントスロット推定モデルの一例を示す図である。図１４は、後続イベントスロット推定訓練器が実施する処理を説明するフローチャートである。図１５は、予測処理における機械学習用事例生成器の処理を説明するフローチャートである。図１６は、後続イベントスロット推定結果の一例を示す図である。図１７は、後続イベントスロット予測器が実行する処理を説明するフローチャートである。図１８は、第２実施形態に係るデータ処理装置の構成例を示すブロック図である。図１９は、訓練用事例データの具体例を示す図である。図２０は、組み合わせ特徴生成器による処理を説明するフローチャートである。図２１は、データ処理装置のハードウェア構成を説明する図である。

　以下、実施形態のデータ処理装置および物語モデル構築方法を、図面を参照して説明する。

　文脈解析において文脈を正しく理解するための手法として、機械学習により構築される物語モデルを用いることは極めて有効である。特に近年では、インターネットを利用したクラウド・スマートコミュニケーションが広く普及しており、たとえば掲示板やブログ、Ｔｗｉｔｔｅｒ（登録商標）、ＳＮＳ（Social　Networking　Service）などのユーザ生成メディア（ＣＧＭ：Consumer　Generated　Media）からインターネット上での評判や意見を拾い出すような分析が行われる。このような分析において、物語モデルを用いることにより、正しく文脈を理解できるようになることが期待される。

　本実施形態の物語モデル構築方法では、述語項構造解析および共参照解析が行われた文書群からイベントスロット系列群を抽出し、抽出したイベントスロット系列群を用いて機械学習用の事例データ群を生成し、この事例データ群を用いた機械学習により物語モデルを構築する。

　イベントスロット系列は、共有項を持つ述語と格種別のペアの系列である。従来、このイベントスロット系列の確率モデルを手続き的知識として利用して文脈解析などを行う試みがなされている。これは、項を共有する述語同士は何らかの関係を持っているという仮説に基づくものである。従来の方式では、共有項は、イベントスロットを見つけ出すために用いられ、共有項を除いたイベントスロット系列に対してのみ、頻度のカウントが行われる。

　図１は、「犯罪者」を共有項とするイベントスロット系列を用いた確率モデルの模式図である。図１（ａ）は日本語の例を示し、図１（ｂ）は英語の例を示している。図中の矢印は確率モデルの存在を示しており、矢印の元が条件付き確率における条件となる確率変数、矢印の先が評価対象となる確率変数を示している。また、図中の破線は確率モデルが存在しないことを示している。従来の方式によると、この図１に示す例では、頻度のカウント（およびそれに基づく確率計算）は、共有項である「犯罪者」を除いたイベントスロット系列（犯す（動２）．ガ格，捕まえる（動１）．ヲ格，投獄する（動４）．ヲ格）に対してのみ行われる。なお、図１に示す例では、述語の語義曖昧性除去処理を行って、イベントスロット系列を構成する各イベントスロットの述語に、当該述語の語義を特定するための語義特定情報（動２、動１、動４など）を付加しているが、語義特定情報を述語に付加することは必須ではない。

　イベントスロット系列の要素となるイベントスロットは、述語と格種別の組み合わせであるため、その種類は述語の語彙数×格種別の数となり膨大である。したがって、十分な学習を行うには、それに見合う膨大な学習データが必要となる。信頼性の高い学習データをたくさん集めるのは非常にコストがかかる。このため十分な学習データが集められず、学習データ不足が起こり、その結果、構築されるモデルの精度が低くなるという問題が生じていた。

　学習データ不足において特に致命的なケースは、連接性に関する手がかりが得られない状況である。たとえば図１に示した例において、「捕まえる（動１）．ヲ格」と「投獄する（動４）．ヲ格」の連接性を学習するには、従来の方式では、それらが連続出現した頻度を数える必要がある。しかし、学習データ中でこれら２つのイベントスロットが１度も連続出現しないというような状況はしばしば起こり得る。すると、連接性を考慮した予測ができなくなり、大きな精度低下を招くことになる。

　ゼロ確率を解決する方法として、従来、様々な平滑化手法（たとえば、非特許文献４参照）が提案されている。これらの平滑化手法は、未知の系列に一定の低確率を割り当てる方法である。しかし、これらの平滑化手法は、統計的なむらを無くすための方法であり、ゼロ確率を回避することはできるものの、適切な確率が割り当てられるとは限らない。

　本質的な問題は、あるイベントスロットに後続するイベントスロットは何かという問題を解くのに必要な手がかりが不足していることにある。そこで実施形態では、一定量の学習用の解析済テキスト（述語項構造解析および共参照解析が行われた文書）から、後続イベントスロットを予測するための手がかりを、従来の方式よりも多く抽出して、精度の高い物語モデルを構築する方法を提案する。

　述語と、述語に従属する複数の格と、それぞれの格を充足する項と、の３つのノードからなる木構造を述語項構造と呼ぶ。述語項構造は、日本語、英語など、あらゆる言語に対して適用可能な構造である。ただし、日本語の場合、格種別は「が」「を」「に」などの助詞によって明示される。一方、英語の場合、格種別は、位置によって示されるもの（主格・対象格）と、意味を汲み取らなければ決定できないものとがある。このように格の表現方法は、言語によって異なる。

　文の述語項構造は、述語項構造解析器により解析することができる。述語項構造解析器は言語ごとに用意され、言語固有の格の表現方法を処理して述語項構造を出力する。出力された述語項構造自体は、格の種類に違いはあっても構造そのものは同じである。本実施形態は、既存の述語項構造解析器を用いることを前提としている。このため、格の表現方法の違いについて意識する必要はない。換言すれば、本実施形態は、日本語に特化したものではなく、あらゆる言語に対して適用可能である。

　なお、格文法が扱う体系として表層格と深層格とがあり、日本語の場合は主に表層格が用いられる。表層格とは、「が」「を」「に」などの表層的現象をそのまま格種別として扱う格の分類方法である。深層格とは、意味的観点から格を分類する方法である。この表層格と深層格の違いについても、述語項構造解析器が吸収する。以下では、日本語の例のみを挙げて説明するが、上述したように、本実施形態は、あらゆる言語に対して適用可能である。

（実施形態の概要）
　ここで、本実施形態の物語モデル構築方法の概要について説明する。本実施形態の物語モデル構築方法は、後続するイベントスロットを予測するための手がかりとなるイベントスロットの連接性に関する情報として、従来の手法で用いているイベントスロット系列の頻度に加えて、共有項の系列の頻度を利用することを基本方針とする。すなわち、本実施形態では、イベントスロット系列の頻度と共有項の系列の頻度との２種類の統計量を評価値として扱い、これらの合算を含む計算処理を用いて、後続するイベントスロットの確率を求める。合算は手がかりのＯＲを取る効果があるため、少なくともどちらかの手がかりが有効であれば、イベントスロットのつながりを予測することが可能となる。

　本実施形態において実現すべき機能は、下記［Ａ］～［Ｃ］となる。
［Ａ］：イベントスロット系列の頻度（に準ずる統計量）の計算。
［Ｂ］：共有項の系列の頻度（に準ずる統計量）の計算。
［Ｃ］：統計量［Ａ］と統計量［Ｂ］とを、これらの和を取る処理を含むかたちで統合する確率計算。

　一般論として、識別モデルに基づく機械学習手法は、複数の由来の異なる事象を条件とした確率分布を１つの最適化処理で導出することができる手法である。本実施形態では、この点に着目し、由来の異なる上記［Ａ］の統計量および上記［Ｂ］の統計量を計算する処理と、上記［Ｃ］の複数の統計量を統合する処理とを、識別モデルに基づく機械学習手法を利用して、単一の最適化処理で解く方法を提案する。

　具体的には、本実施形態の物語モデル構築方法は、以下の手順を含む。
［１］：述語項構造解析および共参照解析が行われた文書群から共有項を持つイベントスロット系列群を抽出する。
［２］：［１］で抽出したイベントスロット系列群に対し、イベントスロット系列内のイベントスロット（注目要素）ごとに、そのイベントスロットの履歴に関する１つ以上の特徴量と、共有項の履歴に関する１つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルｘと、イベントスロット（注目要素）を識別するためのラベルｙとを組み合わせた事例データ（ｘ，ｙ）を生成し、事例データ群を得る。
［３］：ロジスティック回帰などの確率を計算できる識別モデル手法を用い、［２］で取得した事例データ群を学習データとした多クラス分類問題を解く（機械学習を行う）ことにより、物語モデルを構築する。

　本実施形態において、イベントスロットの履歴とは、当該イベントスロットを末尾の要素とするイベントスロット列内の部分系列（Ｎｇｒａｍ系列）をいう。たとえばＮｇｒａｍ次数を２とする場合（ｂｉｇｒａｍ）、図１（ａ）の例では、「投獄する（動４）．ヲ格」の履歴は「捕まえる（動１）．ヲ格」－「投獄する（動４）．ヲ格」となり、「捕まえる（動１）．ヲ格」の履歴は「犯す（動２）．ガ格　」－「捕まえる（動１）．ヲ格」となる。ただし、イベントスロットの履歴に関する特徴量は、Ｎｇｒａｍ系列の特徴量だけでなく、次数がｎ以下のすべての部分系列の特徴量を含む。たとえばＮｇｒａｍ次数を２とする場合、イベントスロットの履歴に関する特徴量は、当該イベントスロットとそれに連接する１つ前のイベントスロットとを要素とする部分系列（ｂｉｇｒａｍ系列）の特徴量だけでなく、当該イベントスロットのみを要素とする部分系列（ｕｎｉｇｒａｍ系列（本実施形態ではｕｎｉｇｒａｍも系列とみなす））の特徴量も含む。これにより、ｂｉｇｒａｍが０頻度だった場合に、ｕｎｉｇｒａｍで補完する平滑化の効果を得ることができる。

　また、本実施形態において、共有項の履歴とは、上述したイベントスロットの部分系列に対応する共有項の系列をいう。たとえばｂｉｇｒａｍ系列の場合、図１（ａ）の例では、「投獄する（動４）．ヲ格」の共有項の履歴、および、「捕まえる（動１）．ヲ格」の共有項の履歴は、ともに「犯罪者」－「犯罪者」となる。このように、共有項の履歴は、部分系列に含まれる要素の数に対応する共有項の数（共有項が連続する数）を表している。ただし、共有項の履歴に関する特徴量は、「犯罪者」のような表層の系列の特徴量だけでなく、たとえば、共有項の意味的カテゴリや固有表現タイプなどを表す他の表現方法での系列の特徴量も含む。これにより、共有項の系列の頻度を適切な粒度で求めることが可能となる。

　なお、言語モデルの構築方法として識別モデルを利用することが非特許文献５に記載されている。非特許文献５では、識別モデルを用いた様々な異なる統計量の統合例を紹介しており、５．３節では、その一例として、Ｎｇｒａｍとトリガの２つの手がかりを統合した言語モデルを構築することが記載されている。本実施形態では、たとえばこの非特許文献５に記載の方法を応用し、識別モデルに基づく機械学習手法を利用して、物語モデルを構築することができる。

　本実施形態によれば、上述したように、イベントスロット系列からイベントスロットの履歴に関する特徴量と共有項の履歴に関する特徴量とを含む事例ベクトルで表現された事例データを生成し、この事例データを用いて識別モデルに基づく機械学習を行うことで物語モデルを構築するため、精度の高い物語モデルを構築することができる。

　なお、イベントスロット系列を用いた確率モデルの構築に関し、イベントスロット系列の情報だけでなく共有項の情報も併せて使用することが、非特許文献３に記載されている。しかし、非特許文献３に記載されている方法は、共有項の履歴に関する情報を用いるものではなく、共有項の情報は、イベントスロット系列をより厳密に区別するために用いている。つまり、非特許文献３に記載されている方法は、たとえば図２に示すように、実質的には、イベントスロットの確率と共有項の確率の積を取るのに近いかたちで確率モデルを構築している。このため、非特許文献３に記載されている方法では、学習データ不足という問題は解消されず、むしろ問題が深刻化する傾向にある。

　これに対して、本実施形態の物語モデル構築方法によれば、共有項の履歴に関する特徴量を特徴ベクトルの次元に含ませるかたちで事例データを生成し、この事例データを用いて識別モデルに基づく機械学習を行うことで物語モデルを構築するため、学習データ不足を解消して、精度の高い物語モデルを構築することができる。

（第１実施形態）
　次に、本実施形態に係るデータ処理装置の具体例について説明する。図３は、第１実施形態に係るデータ処理装置１００の構成例を示すブロック図である。データ処理装置１００は、図３に示すように、テキスト解析器１と、イベントスロット系列抽出器２（抽出部）と、機械学習用事例生成器３（事例生成部）と、イベントスロット履歴特徴生成器４と、共有項履歴特徴生成器５と、共有項表現生成器６と、後続イベントスロット推定訓練器７（モデル構築部）と、後続イベントスロット推定予測器８（予測部）と、を備える。なお、図３中の角丸四角形は、データ処理装置１００を構成する上記各モジュール１～８の入出力データを表している。

　データ処理装置１００により実行される処理は、「訓練処理」と「予測処理」とに大別される。訓練処理は、イベントスロット系列抽出器２、機械学習用事例生成器３、イベントスロット履歴特徴生成器４、共有項履歴特徴生成器５、共有項表現生成器６および後続イベントスロット推定訓練器７を用いて、訓練用タグ付き文書群Ｄ１から後続イベントスロット推定モデルＤ１０（物語モデル）を構築する処理である。予測処理は、テキスト解析器１、イベントスロット系列抽出器２、機械学習用事例生成器３、イベントスロット履歴特徴生成器４、共有項履歴特徴生成器５、共有項表現生成器６および後続イベントスロット推定予測器８と、訓練処理により構築された後続イベントスロット推定モデルＤ１０とを用いて、解析対象文書Ｄ５の後続イベントスロットを推定する処理である。なお、図３中の破線の矢印は訓練処理における処理フローを示し、実線の矢印は予測処理における処理フローを示し、一点鎖線の矢印は訓練処理と予測処理の双方で共通する処理フローを示している。

　まず、訓練処理の概要について説明する。データ処理装置１００が訓練処理を実行する場合、イベントスロット系列抽出器２には、訓練用タグ付き文書群Ｄ１が入力される。イベントスロット系列抽出器２は、訓練用タグ付き文書群Ｄ１を受け取り、この訓練用タグ付き文書群Ｄ１に含まれる訓練用タグ付き文書からイベントスロット系列を抽出する処理を行って、訓練用イベントスロット系列データ群Ｄ２を出力する。

　次に、機械学習用事例生成器３が、訓練用イベントスロット系列データ群Ｄ２を受け取り、イベントスロット履歴特徴生成器４、共有項履歴特徴生成器５および共有項表現生成器６と連携して、訓練用イベントスロット系列データ群Ｄ２に含まれる訓練用イベントスロット系列データから事例データを生成する処理を行って、訓練用事例データ群Ｄ３を出力する。

　次に、後続イベントスロット推定訓練器７が、訓練用事例データ群Ｄ３を受け取り、この訓練用事例データ群Ｄ３を用いた機械学習の訓練を行って、後続イベントスロット推定モデルＤ１０を出力する。この後続イベントスロット推定モデルＤ１０は物語モデルそのものであり、次に説明する予測処理において、解析対象文書Ｄ５の後続イベントスロットを推定するために用いられる。

　次に、予測処理の概要について説明する。データ処理装置１００が予測処理を実行する場合、まず、解析対象文書Ｄ５がテキスト解析器１に入力される。テキスト解析器１は、解析対象文書Ｄ５を受け取り、この解析対象文書Ｄ５に対して述語項構造解析や共参照解析などを行って、解析対象タグ付き文書Ｄ６を出力する。

　次に、イベントスロット系列抽出器２が、解析対象タグ付き文書Ｄ６を受け取り、この解析対象タグ付き文書Ｄ６からイベントスロット系列を抽出する処理を行って、予測用イベントスロット系列データ群Ｄ７を出力する。

　次に、機械学習用事例生成器３が、予測用イベントスロット系列データ群Ｄ７を受け取り、イベントスロット履歴特徴生成器４、共有項履歴特徴生成器５および共有項表現生成器６と連携して、予測用イベントスロット系列データ群Ｄ７に含まれる予測用イベントスロット系列データから事例データを生成する処理を行って、予測用事例データ群Ｄ８を出力する。

　次に、後続イベントスロット推定予測器８が、予測用事例データ群Ｄ８と、訓練処理により構築された後続イベントスロット推定モデルＤ１０とを受け取り、後続イベントスロット推定モデルＤ１０を用いて後続イベントスロットを予測する処理を行って、後続イベントスロット推定結果Ｄ９を出力する。この後続イベントスロット推定結果Ｄ９には、解析対象文書Ｄ５から抽出されたイベントスロット系列に後続する後続イベントスロットとして出現する可能性があるイベントスロットそれぞれについての確率が示されている。物語モデルを活用するアプリケーションは、自身の処理の中で、この後続イベントスロット推定結果Ｄ９の情報を文脈理解のための何らかの判断材料として用いることができる。

　次に、訓練処理に用いる各モジュールの詳細について、訓練処理の具体例を例示しながら説明する。

　まず、イベントスロット系列抽出器２について説明する。訓練処理において、イベントスロット系列抽出器２は、上述したように、訓練用タグ付き文書群Ｄ１を入力し、訓練用イベントスロット系列データ群Ｄ２を出力する。

　図４は、イベントスロット系列抽出器２が入力する訓練用タグ付き文書群Ｄ１の一部である訓練用タグ付き文書の具体例を示す図であり、図４（ａ）は日本語の例、図４（ｂ）は英語の例をそれぞれ示している。図４に示すように、訓練用タグ付き文書は、形態素（単語分割）情報が付与されたテキストと、ゼロ照応や代名詞照応などの照応関係が解決された照応解決済みの述語項構造解析情報と、共参照情報とを含む。本実施形態において、述語項構造解析情報と共参照情報は必須となるが、訓練用タグ付き文書が図４に示すフォーマットでなければ処理できないわけではない。すなわち、訓練用タグ付き文書は、述語項構造解析情報と共参照情報とを含むものであれば、任意のフォーマットで表現されたものを利用することができる。なお、図４（ａ）の日本語の例と、図４（ｂ）の英語の例とでは、使用する言語の違いはあるものの、データ自体に本質的な違いはない。したがって、以下では日本語の例についてのみ説明する。

　図４に示す訓練用タグ付き文書において、“テキストと形態素解析（単語分割）情報”のセクションでは、テキストが単語分割されており、各単語に形態素番号が割り振られている。また、“照応解決済の述語項構造情報”のセクションでは、テキスト上で省略されている項が照応解析によって照応解決された状態での各述語の述語項構造に関する情報が、各述語に割り振られたＩＤとともに示されている。各述語の述語項構造は、述語の形態素番号とその語義、述語に従属する各項の格種別および形態素番号を含む。なお、図４（ａ）に示す例において、形態素番号１２の述語や形態素番号１５の述語のガ格とヲ格は、照応解析によって解決された項である。また、“共参照情報”のセクションでは、テキスト上で共参照関係にあるとみなせる名詞句群（以下、共参照クラスタという。）ごとに、各共参照クラスタに割り振ったＩＤとともに、その共参照クラスタのメンバーを述語項構造と対応付けるかたちで示している。

　なお、図４に例示したような訓練用タグ付き文書は、たとえば、任意のテキストに対して、後述する予測処理において用いるテキスト解析器１（あるいは同等の機能を持つモジュール）を利用して解析結果のタグを付加することで生成してもよいし、任意のテキストに対して、人手によりタグを付加することで生成してもよい。

　図５は、イベントスロット系列抽出器２が出力する訓練用イベントスロット系列データ群Ｄ２の一部である訓練用イベントスロット系列データの具体例を示す図であり、図４（ａ）に示した訓練用タグ付き文書から抽出された訓練用イベントスロット系列データの例を示している。図５に示す訓練用イベントスロット系列データにおいて、左側のセクションには、最後尾に“＜／ｓ＞”という要素が追加されたイベントスロット系列が示されている。系列内の各イベントスロットは項を共有しており、その共有項の情報が右側のセクションに示されている。なお、系列の最後尾の“＜／ｓ＞”という要素は、その系列の終了を示す擬似的なイベントスロットであり、終了しやすい系列パターンを学習するために用いられる。

　図５に示すような訓練用イベントスロット系列データは、図４（ａ）に示したような訓練用タグ付き文書から、共参照クラスタの数だけ生成される。すなわち、図５の例は、図４（ａ）に示した訓練用タグ付き文書から、［Ｃ０１］のＩＤで示される共参照クラスタについて生成された訓練用イベントスロット系列データであるが、図４（ａ）に示した訓練用タグ付き文書からは、さらに［Ｃ０２］のＩＤで示される共参照クラスタについても同様に、訓練用イベントスロット系列データが生成される。

　図６は、イベントスロット系列抽出器２が実施する処理を説明するフローチャートである。イベントスロット系列抽出器２は、入力された訓練用タグ付き文書群Ｄ１に含まれる訓練用タグ付き文書（図４参照）のそれぞれに対して、以下のステップＳ１０１～ステップＳ１０４の処理を行って訓練用イベントスロット系列データ（図５参照）を生成し、訓練用イベントスロット系列データ群Ｄ２を出力する。なお、図６に例示するイベントスロット系列抽出器２の処理は、図４に例示したフォーマットの訓練用タグ付き文書から、図５に例示したフォーマットの訓練用イベントスロット系列データを生成する例である。訓練用タグ付き文書や訓練用イベントスロット系列データのフォーマットが図４や図５の例と異なる場合は、イベントスロット系列抽出器２は、そのフォーマットに合わせた処理を行えばよい。

　ステップＳ１０１：イベントスロット系列抽出器２は、入力データである訓練用タグ付き文書の“共参照情報”のセクションから、共参照クラスタを１つ取り出す。

　ステップＳ１０２：イベントスロット系列抽出器２は、共参照クラスタ内の各メンバーの形態素番号と表層を列挙したものを、出力データとなる訓練用イベントスロット系列データの右側のセクションに記述する。

　ステップＳ１０３：イベントスロット系列抽出器２は、共参照クラスタ内の各メンバーのカッコ内に書かれた情報（イベントスロット情報）を系列として取り出し、述語の形態素番号を述語の表層と語義に置き換え、さらにその系列の最後尾に“＜／ｓ＞”という要素を加えた後、出力データとなる訓練用イベントスロット系列データの左側のセクションに記述する。

　ステップＳ１０４：イベントスロット系列抽出器２は、訓練用タグ付き文書の“共参照情報”のセクションに記述されているすべての共参照クラスタについて、上記のステップＳ１０１～ステップＳ１０３の処理を行う。

　次に、機械学習用事例生成器３について説明する。まず、本実施形態に係るデータ処理装置１００における機械学習用事例生成器３の位置づけについて説明する。本実施形態に係るデータ処理装置１００において、後続イベントスロット推定訓練器７および後続イベントスロット推定予測器８が行う機械学習処理は、識別モデルをベースとして、Ｎｇｒａｍ系列の確率を予測することを目的とする。つまり、ｙをイベントスロット、ｘをイベントスロット系列の履歴とするとき、Ｐ（ｙ｜ｘ）が予測すべき確率となる。この最適化には最尤推定を用いるが、そのためには機械学習用に表現されたｘとｙの組を事例データとして予め作成する必要がある。機械学習用事例生成器３は、その事例データを作成する処理を担当する。

　機械学習用事例生成器３は、上述したように、イベントスロット系列抽出器２から訓練用イベントスロット系列データ群Ｄ２を入力として受け取り、訓練用事例データ群Ｄ３を出力する。

　図７は、機械学習用事例生成器３が出力する訓練用事例データ群Ｄ３の一部である訓練用事例データの具体例を示す図であり、図５に示した訓練用イベントスロット系列データから生成された訓練用事例データの例を示している。ただし、図７の訓練用事例データは、Ｎｇｒａｍ次数を２（ｂｉｇｒａｍ）とし、図５に示した訓練用イベントスロット系列データの「投獄する（動４）．ヲ格」を注目要素としたときの、当該注目要素に関する訓練用事例データである。

　図７に示す訓練用事例データにおいて、“ｙ：”で始まるセクションには、出力ラベルが記載されている。出力ラベルは、後続イベントスロットを予測する予測処理において正解となるイベントスロットを表している。

　また、図７に示す訓練用事例データにおいて、“ｘ：”で始まるセクションには、後続イベントスロットを予測するための手がかりとなる情報に対応する特徴ベクトルが記載されている。特徴ベクトルは、要素（次元）ごとにカンマで区切られており、各要素はコロンで区切られている。コロンより前にあるのは次元を識別するための次元ＩＤであり、コロンより後にあるのはその次元での値（特徴量）である。ここで指定されなかった次元の値は０とみなす。この表記は、ほとんどの要素が０となる高次元スパースなベクトルをコンパクトに表現するのによく用いられる記法である。次元ＩＤは文字列で表され、異なる事例の特徴ベクトルに含まれる要素間で、同一次元かどうかを判定するために用いられる。後続の機械学習処理においては、数学的なベクトルに解釈しなければならないときには、各次元ＩＤが異なるベクトル要素番号になるよう適当に割り振ることをする（各次元ＩＤを数学的ベクトルのどの要素番号に割り当てても最適化の結果は同じである)。なお、本実施形態では、各次元の値には１か０しか用いないものとする。

　特徴ベクトルは、上述したように、イベントスロットの履歴に関する１以上の特徴量と共有項の履歴に関する１以上の特徴量とを含む。図７に示す例において、“［ＥｖｅｎｔＳｌｏｔ］”で始まる次元ＩＤに対応する値がイベントスロットの履歴に関する特徴量（以下、イベントスロット履歴特徴という。）であり、“［ＳｈａｒｅＡｒｇ］”で始まる次元ＩＤに対応する値が共有項の履歴に関する特徴量（以下、共有項履歴特徴という。）である。ここで、イベントスロット履歴特徴および共有項履歴特徴は、Ｎｇｒａｍ次数をｉとするとき、ｉ以下のすべての次数のＮｇｒａｍ系列について生成される。たとえば、図７に示す例では、Ｎｇｒａｍ次数が２であるため、ｂｉｇｒａｍ系列の履歴特徴とｕｎｉｇｒａｍ系列の履歴特徴が生成されている。これにより、ｂｉｇｒａｍ系列が０頻度だった場合に、ｕｎｉｇｒａｍ系列で補完する平滑化の効果を得ることができる。なお、実施形態によっては、上述したイベントスロット履歴特徴、または、共有項履歴特徴のいずれか一方のみを含む特徴ベクトルを用いてもよい。

　図８は、機械学習用事例生成器３が実施する処理を説明するフローチャートである。機械学習用事例生成器３は、入力された訓練用イベントスロット系列データ群Ｄ２に含まれる訓練用イベントスロット系列データ（図５参照）のそれぞれに対して、以下のステップＳ２０１～ステップＳ２０８の処理を行って訓練用事例データ（図７参照）を生成し、訓練用事例データ群Ｄ３を出力する。

　ステップＳ２０１：機械学習用事例生成器３は、入力データである訓練用イベントスロット系列データの左側のセクションに記載されたイベントスロット系列から、注目要素となるイベントスロット（以下、注目スロットという。）を順に１つ取り出す。

　ステップＳ２０２：機械学習用事例生成器３は、注目スロットの履歴に当たる部分系列を、イベントスロット系列から取り出す。たとえばｂｉｇｒａｍならば、注目スロットの１つ前のイベントスロットまでを含む部分系列を取り出し、ｔｒｉｇｒａｍならば、注目スロットの２つ前のイベントスロットまでを含む部分系列を取り出す。ここで、注目要素となるイベントスロットがイベントスロット系列の先頭付近であり、Ｎｇｒａｎ次数を満たせる長さがない場合は、“＜ｓ＞”などのダミー要素を不足するイベントスロットの数だけ先頭に付加すればよい。

　ステップＳ２０３：機械学習用事例生成器３は、イベントスロット系列データの右側のセクションに記載された共有項の情報を取り出す。

　ステップＳ２０４：機械学習用事例生成器３は、注目スロットの記載を元に、出力データとなる訓練用事例データの“ｙ：”で始まるセクションに出力ラベルを記載する。ここでは、注目スロットの記載がそのまま出力ラベルとなる。

　ステップＳ２０５：機械学習用事例生成器３は、注目スロットとその注目スロットの履歴の情報をイベントスロット履歴特徴生成器４に渡し、イベントスロット履歴特徴生成器４からイベントスロット履歴特徴群を得る。図７に示した訓練用事例データの例では、“［ＥｖｅｎｔＳｌｏｔ］”で始まる次元ＩＤに対応する値がイベントスロット履歴特徴であり、機械学習用事例生成器３は、これらイベントスロット履歴特徴の集まりであるイベントスロット履歴特徴群を、イベントスロット履歴特徴生成器４から取得する。

　ステップＳ２０６：機械学習用事例生成器３は、共有項の情報を共有項履歴特徴生成器５に渡し、共有項履歴特徴生成器５から共有項履歴特徴群を得る。図７に示した訓練用事例データの例では、“［ＳｈａｒｅＡｒｇ］”で始まる次元ＩＤに対応する値が共有項履歴特徴であり、機械学習用事例生成器３は、これら共有項履歴特徴の集まりである共有項履歴特徴群を、共有項履歴特徴生成器５から取得する。

　ステップＳ２０７：機械学習用事例生成器３は、以上のように取得したイベントスロット履歴特徴群や共有項履歴特徴群をマージした結果を、特徴ベクトルとして、出力データとなる訓練用事例データの“ｘ：”で始まるセクションに書き込む。

　ステップＳ２０８：機械学習用事例生成器３は、イベントスロット系列データの左側のセクションに記載されたイベントスロット系列に含まれるすべてのイベントスロットについて、上記のステップＳ２０１～ステップＳ２０７の処理を行う。

　次に、イベントスロット履歴特徴生成器４について説明する。イベントスロット履歴特徴生成器４は、機械学習用事例生成器３から注目スロットとその注目スロットの履歴の情報を入力として受け取り、上述したイベントスロット履歴特徴群を機械学習用事例生成器３に返す。

　図９は、イベントスロット履歴特徴生成器４による処理を説明するフローチャートである。イベントスロット履歴特徴生成器４は、機械学習用事例生成器３から注目スロットとその注目スロットの履歴の情報を受け取ると、図９のステップＳ３０１～ステップＳ３１０の処理を行って、イベントスロット履歴特徴群を機械学習用事例生成器３に返す。

　ステップＳ３０１：イベントスロット履歴特徴生成器４は、返り値（特徴量表現文字列リスト）用の変数ｒｅｓｕｌｔを用意し、空のリストを代入する。

　ステップＳ３０２：イベントスロット履歴特徴生成器４は、Ｎｇｒａｍ次数をＮとするとき、１からＮまでの範囲のループ変数ｌｅｎを用意し、ループ１を開始する。

　ステップＳ３０３：イベントスロット履歴特徴生成器４は、特徴量表現文字列ｓを用意し、“［ＥｖｅｎｔＳｌｏｔ］”＋注目スロットを代入する。

　ステップＳ３０４：イベントスロット履歴特徴生成器４は、１からｌｅｎまでの範囲のループ変数ｉを用意し、ループ２を開始する。

　ステップＳ３０５：イベントスロット履歴特徴生成器４は、注目スロットの履歴の情報から注目スロットのｉ個前のイベントスロットを取り出し、特徴量表現文字列ｓにアンダーバーを挟んで追加する。

　ステップＳ３０６：イベントスロット履歴特徴生成器４は、ループ２の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ３０７：イベントスロット履歴特徴生成器４は、特徴量表現文字列ｓに“：１”を追加する。

　ステップＳ３０８：イベントスロット履歴特徴生成器４は、特徴量表現文字列リストｒｅｓｕｌｔに特徴量表現文字列ｓを追加する。

　ステップＳ３０９：イベントスロット履歴特徴生成器４は、ループ１の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ３１０：イベントスロット履歴特徴生成器４は、特徴量表現文字列リストｒｅｓｕｌｔを返り値として返す。

　次に、共有項履歴特徴生成器５について説明する。共有項履歴特徴生成器５は、機械学習用事例生成器３から共有項の情報を入力として受け取り、上述した共有項履歴特徴群を機械学習用事例生成器３に返す。

　図１０は、共有項履歴特徴生成器５による処理を説明するフローチャートである。共有項履歴特徴生成器５は、機械学習用事例生成器３から共有項の情報を受け取ると、図１０のステップＳ４０１～ステップＳ４１３の処理を行って、共有項履歴特徴群を機械学習用事例生成器３に返す。

　ステップＳ４０１：共有項履歴特徴生成器５は、返り値（特徴量表現文字列リスト）用の変数ｒｅｓｕｌｔを用意し、空のリストを代入する。

　ステップＳ４０２：共有項履歴特徴生成器５は、共有項表現生成器６に共有項の情報を渡して呼び出し、共有項表現生成器６から共有項表現群を得る。

　ステップＳ４０３：共有項履歴特徴生成器５は、共有項表現群から順に１つずつ取り出して以下の処理を実行する（ループ１）。

　ステップＳ４０４：共有項履歴特徴生成器５は、Ｎｇｒａｍ次数をＮとするとき、１からＮまでの範囲のループ変数ｌｅｎを用意し、ループ２を開始する。

　ステップＳ４０５：共有項履歴特徴生成器５は、特徴量表現文字列ｓを用意し、“［ＳｈａｒｅＡｒｇ］”＋共有項表現を代入する。

　ステップＳ４０６：共有項履歴特徴生成器５は、１からｌｅｎまでの範囲のループ変数ｉを用意し、ループ３を開始する。

　ステップＳ４０７：共有項履歴特徴生成器５は、特徴量表現文字列ｓにアンダーバーを挟んで共有項表現を追加する。

　ステップＳ４０８：共有項履歴特徴生成器５は、ループ３の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ４０９：共有項履歴特徴生成器５は、特徴量表現文字列ｓに“：１”を追加する。

　ステップＳ４１０：共有項履歴特徴生成器５は、特徴量表現文字列リストｒｅｓｕｌｔに特徴量表現文字列ｓを追加する。

　ステップＳ４１１：共有項履歴特徴生成器５は、ループ２の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ４１２：共有項履歴特徴生成器５は、ループ１の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ４１３：共有項履歴特徴生成器５は、特徴量表現文字列リストｒｅｓｕｌｔを返り値として返す。

　次に、共有項表現生成器６について説明する。共有項表現生成器６は、共有項履歴特徴生成器５から共有項の情報を入力として受け取り、共有項表現群を共有項履歴特徴生成器５に返す。

　図１１は、共有項表現生成器６により生成される共有項表現群の一例を示す図であり、図５に例示したイベントスロット系列データに含まれる共有項の情報が共有項表現生成器６に入力されたときに生成される共有項表現群の例である。図１１に示すように、共有項表現生成器６が生成する共有項表現群は、共有項の表層（正規化された表層であってもよい）以外に、固有表現認識の結果を用いた表現と、意味的カテゴリによる表現とを含む。なお、これらの表現以外にも、さらに品詞（普通名詞・固有名詞・数名視など）を共有項の表現の１つに加えてもよい。共有項の表現に品詞を加えることにより、品詞単位での共有項の傾向を扱うことができるようになる。なお、共有項表現は、上記のような表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて共有項を区別したものであればよい。

　図１２は、共有項表現生成器６による処理を説明するフローチャートである。共有項表現生成器６は、共有項履歴特徴生成器５から共有項の情報を受け取ると、図１２のステップＳ５０１～ステップＳ５０７の処理を行って、共有項表現群を共有項履歴特徴生成器５に返す。

　ステップＳ５０１：共有項表現生成器６は、返り値（共有項表現リスト）用の変数ｒｅｓｕｌｔを用意し、空のリストを代入する。

　ステップＳ５０２：共有項表現生成器６は、表層群から順に１つずつ表層を取り出して以下の処理を実行する（ループ１）。

　ステップＳ５０３：共有項表現生成器６は、特徴量表現文字列リストｒｅｓｕｌｔに当該表層を追加する。

　ステップＳ５０４：共有項表現生成器６は、表層を元に固有表現認識処理を行い、得られた固有表現タイプを特徴量表現文字列リストｒｅｓｕｌｔに追加する。なお、固有表現認識とは、ＰＥＲＳＯＮ，ＯＲＧＡＮＩＺＡＴＩＯＮ，ＬＯＣＡＴＩＯＮなどといった固有表現のタイプを識別する処理である。

　ステップＳ５０５：共有項表現生成器６は、表層についてシソーラスなどを用いて意味カテゴリを同定し、得られた意味カテゴリを階層ごとに特徴量表現文字列リストｒｅｓｕｌｔに追加する。

　ステップＳ５０６：共有項表現生成器６は、ループ１の分岐処理（繰り返すか終了するかの判定）を行う。

　ステップＳ５０７：共有項表現生成器６は、特徴量表現文字列リストｒｅｓｕｌｔを返り値として返す。

　次に、後続イベントスロット推定訓練器７について説明する。後続イベントスロット推定器７は、上述したように、機械学習用事例生成器３から訓練用事例データ群Ｄ３を入力として受け取り、後続イベントスロット推定モデルＤ１０（物語モデル）を出力する。

　図１３は、後続イベントスロット推定モデルＤ１０の一例を示す図である。図１３に示す後続イベントスロット推定モデルＤ１０において、それぞれの行は、各クラスの特徴ベクトルに相当し、クラス番号順に並んでいる。ここで、クラスは上述した出力ラベルｙに相当し、クラス番号とは出力ラベルｙに対応する番号のことである。また、図１３に示す後続イベントスロット推定モデルＤ１０において、行内の各フィールドは特徴ベクトルの要素（次元）であり、次元番号順に並んでいる。次元番号は、次元ＩＤに対応する番号のことである。後続イベントスロット推定訓練器７が出力する後続イベントスロット推定モデルＤ１０は、実際は膨大なデータサイズになるが、説明の便宜のため、図１３では小さな次元数とクラス数で例示している。

　図１４は、後続イベントスロット推定訓練器７が実施する処理を説明するフローチャートである。後続イベントスロット推定訓練器７は、入力された訓練用事例データ群Ｄ３を用いて以下のステップＳ６０１～ステップＳ６０４の処理を行って、物語モデルとなる後続イベントスロット推定モデルＤ１０を生成し、出力する。

　ステップＳ６０１：後続イベントスロット推定訓練器７は、入力された訓練用事例データ群Ｄ３に含まれる出力ラベルｙを、互いに異なる番号（クラス番号）に割り当てる。

　ステップＳ６０２：後続イベントスロット推定訓練器７は、入力された訓練用事例データ群Ｄ３に含まれる特徴量の次元ＩＤを、互いに異なる番号（次元番号）に割り当てる。

　ステップＳ６０３：後続イベントスロット推定訓練器７は、下記式（１）で示すロジスティック回帰の最適化式を解く。つまり、目的関数Ｌを最小化する重みベクトル群ｗ^（ｃ）（ただし∈Ｙ）を求める。ただし、クラス集合をＹ＝｛１，２．．Ｃ｝、ｘから抽出した特徴ベクトルをφ（ｘ）、λを任意の定数、Ｎを事例数、（ｘ（ｉ），ｙ（ｉ））をｉ番目の事例としている。

　ステップＳ６０４：後続イベントスロット推定訓練器７は、式（１）の最適化式を解くことで得られた重みベクトル群ｗ^（ｃ）（ただしｃ∈Ｙ）を、後続イベントスロット推定モデルＤ１０として出力する。

　次に、以上のように生成された後続イベントスロット推定モデルＤ１０を用いて後続イベントスロットを推定する予測処理を行うための各モジュールの詳細について説明する。

　まず、テキスト解析器１について説明する。予測処理においては、上述したように、解析対象文書Ｄ５がテキスト解析器１に入力される。テキスト解析器１は、入力された解析対象文書Ｄ５に対して、たとえば、形態素解析、述語構造解析、および共参照解析を行って、図４に例示した訓練用タグ付き文書と同様のフォーマットの解析対象タグ付き文書Ｄ６を生成し、出力する。なお、テキスト解析器１が実施する形態素解析、述語構造解析、および共参照解析は既存技術であるため、ここでは説明を省略する。

　次に、イベントスロット系列抽出器２について説明する。予測処理においては、イベントスロット系列抽出器２は、テキスト解析器１が出力する解析対象タグ付き文書Ｄ６を入力として受け取り、予測用イベントスロット系列データ群Ｄ７を出力する。予測処理においてイベントスロット系列抽出器２が実施する処理は、訓練処理における処理と同様である。予測用イベントスロット系列データ群Ｄ７は、図５に例示した訓練用イベントスロット系列データと同様のフォーマットの予測用イベントスロット系列データの集まりである。

　ここで、予測処理において予測すべき問題設定について説明する。一般的に、予測すべき問題設定はアプリケーションによって異なる。対話処理への応用の場合、与えられた文書に続きそうなイベントスロットとその確率を推定するという問題設定が適切である。また、日本語などでのゼロ照応解析への応用の場合は、文書中のある述語の省略項（英語などでの代名詞照応解析の場合は、省略項ではなく代名詞）が、その前方文脈に対して最も連接しやすいイベントスロット系列を選ぶという問題設定が適切である。本実施形態ではアプリケーションによらない説明をするため、より単純な設定として、与えられたイベントスロット系列に対して、最も続きそうな後続イベントスロット（あるいは何も続かないというケース）とその確率を推定するという問題を解くものとする。なお、上述の与えられたイベントスロット系列としては、イベントスロット系列抽出器２が出力する予測用イベントスロット系列データ群Ｄ７のうちのいずれかのイベントスロット系列データがすでに選ばれているとし、その選び方はここでは議論しないとする。

　次に、機械学習用事例生成器３について説明する。予測処理においては、機械学習用事例生成器３は、イベントスロット系列抽出器２が出力する予測用イベントスロット系列データ群Ｄ７を入力として受け取り、選ばれたイベントスロット系列データから予測用事例データを生成して、予測用事例データ群Ｄ８を出力する。予測用事例データは、図７に例示した訓練用事例データと同様のフォーマットであるが、出力ラベルｙが不定となっている点のみ、訓練用事例データと異なる。

　図１５は、予測処理における機械学習用事例生成器３の処理を説明するフローチャートである。機械学習用事例生成器３は、入力された予測用イベントスロット系列データ群Ｄ７から選ばれた予測用イベントスロット系列データに対して、以下のステップＳ７０１およびステップＳ７０２の処理を行って予測用事例データを生成し、予測用事例データ群Ｄ８を出力する。

　ステップＳ７０１：機械学習用事例生成器３は、予測用イベントスロット系列データの左側のセクションに記載されたイベントスロット系列から、最後尾の要素である“＜／ｓ＞”を除去する。

　ステップＳ７０２：機械学習用事例生成器３は、残ったイベントスロット系列を履歴とみなして、図８のステップＳ２０２、ステップＳ２０３、ステップＳ２０５～ステップＳ２０８と同様の処理を行って、予測用事例データ群Ｄ８を出力する。なお、予測処理の場合、予測用事例データの出力ラベルｙは不定であるため、空欄のままとする、あるいはダミー値を埋め込んでおく。

　次に、後続イベントスロット推定予測器８について説明する。後続イベントスロット推定予測器８は、機械学習用事例生成器３が出力する予測用事例データ群Ｄ８を入力として受け取り、訓練処理において構築された後続イベントスロット推定モデルＤ１０を用いて、機械学習の予測処理を行って、後続イベントスロット推定結果Ｄ９を出力する。

　図１６は、後続イベントスロット推定結果Ｄ９の一例を示す図である。図１６に示す後続イベントスロット推定結果Ｄ９では、各クラスの条件付確率Ｐ（ｃ｜ｘ）（ただしｃ∈Ｙ）がクラス番号順に列挙されている。各クラスの確率は、各イベントスロットが、与えられたイベントスロット系列に対して後続するかどうかの確からしさを示している。

　図１７は、後続イベントスロット推定予測器８が実行する処理を説明するフローチャートである。後続イベントスロット推定予測器８は、入力された予測用事例データ群Ｄ８に対し、後続イベントスロット推定モデルＤ１０を用いて以下のステップＳ８０１～ステップＳ８０３の処理を行って、後続イベントスロット推定結果Ｄ９を出力する。

　ステップＳ８０１：後続イベントスロット推定予測器８は、入力された予測用事例データ群Ｄ８に含まれる特徴量の次元ＩＤを、後続イベントスロット推定訓練器７と同様の手順（図１４のステップＳ６０２と同様）で、互いに異なる番号（次元番号）に割り当てる。

　ステップＳ８０２：後続イベントスロット推定予測器８は、下記式（３）で示すロジスティック回帰の推定の式に基づき、各クラスの確率を算出する。ただし、クラス集合をＹ＝｛１，２．．Ｃ｝、ｘから抽出した特徴ベクトルをφ（ｘ）としている。

　ステップＳ８０３：後続イベントスロット推定予測器８は、式（３）により得られた各クラスの確率Ｐ（ｃ｜ｘ）（ただしｃ∈Ｙ）を、後続イベントスロット推定結果Ｄ９として出力する。

　以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係るデータ処理装置１００では、イベントスロット系列抽出器２（抽出部）が、訓練用タグ付き文書（述語項構造解析および共参照解析が行われた文書）から、訓練用イベントスロット系列データ（共有項を持つ述語と共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の要素を文書における述語の出現順に並べた要素系列、および共有項）を抽出する。そして、機械学習用事例生成器３（事例生成部）が、訓練用イベントスロット系列データから、イベントスロット履歴特徴および共有項履歴特徴を含む特徴ベクトルｘと出力ラベルｙとの組み合わせである訓練用事例データ（要素系列を構成する要素の１つを注目要素としたときに、注目要素のそれぞれについて、注目要素を末尾の要素とする要素系列内の部分系列に関する１以上の特徴量と、部分系列に含まれる要素の数に対応する共有項の数に関する１以上の特徴量と、を含む特徴ベクトルで表現された事例データ）を生成する。そして、後続イベントスロット推定訓練器７（モデル構築部）が、訓練用事例データを用いて、式（１）に示したロジスティック回帰の最適化式を解く（識別モデルに基づく機械学習を行う）ことにより、後続イベントスロット推定モデルＤ１０（物語モデル）を構築する。このように、本実施形態に係るデータ処理装置１００によれば、イベントスロット履歴特徴だけでなく、共有項履歴特徴も含む特徴ベクトルで表現された事例データを生成し、この事例データを用いた機械学習により物語モデルを構築するようにしているので、後続イベントスロットを予測するための手がかりを従来よりも多く抽出して、精度の高い物語モデルを構築することができる。

　また、本実施形態に係るデータ処理装置１００では、機械学習用事例生成器３が訓練用事例データや予測用事例データを生成する際に、共有項履歴特徴生成器５および共有項表現生成器６と連携して、表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて共有項を区別した共有項表現ごとに、共有項履歴特徴を生成するようにしている。したがって、本実施形態に係るデータ処理装置１００によれば、共有項履歴特徴を適切な粒度で生成して、精度の高い物語モデルを構築することができる。

　また、本実施形態に係るデータ処理装置１００では、機械学習用事例生成器３が訓練用事例データや予測用事例データを生成する際に、イベントスロット履歴特徴および共有項履歴特徴として、ｕｎｉｇｒａｍ（ユニグラム）系列を含む部分系列のそれぞれについて特徴量を生成するようにしている。したがって、本実施形態に係るデータ処理装置１００によれば、イベントスロット系列の確率がゼロとなるゼロ確率を有効に解決して、精度の高い物語モデルを構築することができる。

　また、本実施形態に係るデータ処理装置１００では、イベントスロット系列抽出器２が抽出するイベントスロット系列は、各イベントスロットに含まれる述語に、該述語の語義を特定する語義特定情報が付加されている。したがって、本実施形態に係るデータ処理装置１００によれば、述語の語義の曖昧さを除去して、精度の高い物語モデルを構築することができる。

（第２実施形態）
　次に、第２実施形態について説明する。第２実施形態では、第１実施形態で用いた共有項履歴特徴の代わりに、共有項履歴特徴を包含する機能を持つワイルドカード履歴と共有項の組み合わせ特徴を用いる。

　まず、ワイルドカード履歴について説明する。ワイルドカード履歴とは、イベントスロットの履歴となるイベントスロット系列内の部分系列の一部の要素をワイルドカード（あらゆるイベントスロットとマッチする要素）に置き換えたものである。たとえば“Ａ＿Ｂ＿Ｃ”（Ａ，Ｂ，Ｃはこの順番で現れるイベントスロット）という履歴があるとき、ワイルドカードを＊とすると、“Ａ＿Ｂ＿Ｃ”（ワイルドカードなしの履歴）、“Ａ＿Ｂ＿＊”（Ｃをワイルドカードで置き換えた履歴）、“Ａ＿＊＿Ｃ”（Ｂをワイルドカードで置き換えた履歴）、“Ａ＿＊＿＊”（ＢとＣをワイルドカードで置き換えた履歴）、“＊＿Ｂ＿Ｃ”（Ａをワイルドカードで置き換えた履歴）、“＊＿＊＿Ｃ”（ＡとＢをワイルドカードで置き換えた履歴）、“＊＿＊＿＊”（ＡとＢとＣのすべてをワイルドカードで置き換えた履歴）が、ワイルドカード履歴のバリエーションとして挙げられる。“Ａ＿＊＿＊”のワイルドカード履歴の場合、注目要素の３つ前に“Ａ”という要素を持つあらゆる履歴とマッチする。なお、ワイルドカード履歴は、非特許文献６において“skipping　model”として紹介されており、また、非特許文献５および非特許文献７において“Distance　Trigram”として紹介されている。

　第１実施形態で用いた共有項の履歴は、共有項を、イベントスロットの履歴の長さ（イベントスロットの履歴となる部分系列の要素数に対応する数）だけ並べる形で定義した。たとえば、共有項を“Ｘ”とすると、長さ３の部分系列に対応する共有項の履歴は“Ｘ＿Ｘ＿Ｘ”と表現した。ここで、ワイルドカード履歴と共有項とのＡＮＤをとった組み合わせ特徴を考える。組み合わせ特徴とは、双方の特徴量が１となるときのみ１となる特徴量であり、次元ＩＤは両者のＩＤを“＆”でつないで表すとする。たとえばワイルドカード履歴“Ａ＿＊＿＊”と共有項“Ｘ”のＡＮＤをとった組み合わせ特徴は、“Ａ＿＊＿＊”と表すとし、このときワイルドカード履歴“Ａ＿＊＿＊”と共有項“Ｘ”のいずれの特徴も成立していることを示している。

　ここで、第１実施形態で用いた共有項履歴特徴は、ワイルドカード履歴と共有項の組み合わせ特徴に包含されることに着目する。たとえば、共有項“Ｘ”の長さ３の履歴“Ｘ＿Ｘ＿Ｘ”に関する共有項履歴特徴は、ワイルドカード履歴“＊＿＊＿＊”と共有項”Ｘ”の組み合わせ特徴”“＊＿＊＿＊＆Ｘ”と同じ意味を持っている。なぜなら、ワイルドカード履歴“＊＿＊＿＊”は長さ３の履歴であることを表しており、“＊＿＊＿＊＆Ｘ”は、長さ３の履歴が共有項“Ｘ”に関する履歴であることを表しているためである。

　“＊＿＊＿＊”以外のワイルドカード履歴と共有項の組み合わせ特徴は、上記の組み合わせ特徴よりもやや制約のかかった特徴となる。たとえば“Ａ＿＊＿＊＆Ｘ”は、長さ３の共有項”Ｘ”の履歴を持ち、かつ、イベントスロット履歴における注目要素の３つ前の要素が“Ｘ”でなければならない。このことは、共有項履歴特徴だけでは制約がゆるすぎる場合に、別のワイルドカード履歴特徴と組み合わせることで、イベントスロット系列に対して適度な制約を与えるよう調整できることを示している。

　第２実施形態に係るデータ処理装置では、機械学習用事例生成器３が訓練用事例データや予測用事例データを生成する際に、第１実施形態で用いた共有項履歴特徴の代わりにワイルドカード履歴と共有項の組み合わせ特徴を用いることで、共有項履歴特徴では制約がゆるすぎる場合に、イベントスロット系列に対して適度な制約を与えるような調整を実現する。具体的には、第２実施形態では、ワイルドカード履歴のすべてのバリエーションと共有項の組み合わせ特徴を特徴ベクトル内に持たせて機械学習を行う。機械学習は、予測にとって重要となる特徴には大きな重みを付与し、重要でない特徴には小さな重みを付与する調整機構を持つため、共有項履歴だけでは十分な予測ができないと考えられるパターンにおいて、適切な制約を持つワイルドカード履歴と共有項の組み合わせ特徴に大きな重みを割り当てることができる。なお、第２実施形態の機械学習処理には特別な処置は加えておらず、第１実施形態とまったく同じものを用いている。

　ワイルドカード履歴のうち、すべての要素をワイルドカードで置き換えたものと共有項との組み合わせ特徴は、上述したように、第１実施形態で用いた共有項履歴特徴と同じ意味を持つ。このため、第２実施形態で生成される訓練用事例データや予測用事例データは、第１実施形態で生成される訓練用事例データや予測用事例データの特徴ベクトルｘに対して、さらに、注目要素のそれぞれについて、一部の要素をワイルドカードで置き換えた部分系列と共有項とのＡＮＤ条件による組み合わせに関する１以上の特徴量を要素として含む特徴ベクトルｘを持つことを意味する。

　図１８は、第２実施形態に係るデータ処理装置２００の構成例を示すブロック図である。図１８に示すように、第２実施形態に係るデータ処理装置２００は、図３に示した第１実施形態に係るデータ処理装置１００と比較して、機械学習用事例生成器３の代わりに機械学習用事例生成器３’（事例生成部）を用い、共有項履歴特徴生成器５の代わりに組み合わせ特徴生成器９を用いている点が異なる。第２実施形態に係るデータ処理装置２００のその他の構成は、第１実施形態に係るデータ処理装置１００と同様である。このため、以下では、第１実施形態に係るデータ処理装置１００と同様の構成要素は同一の符号を付して重複した説明を省略し、相違点についてのみ説明する。

　機械学習用事例生成器３’は、イベントスロット系列抽出器２から訓練用イベントスロット系列データ群Ｄ２（または予測用イベントスロット系列データ群Ｄ７）を入力として受け取り、イベントスロット履歴特徴生成器４、組み合わせ特徴生成器９および共有項表現生成器６と連携して事例データを生成する処理を行って、訓練用事例データ群Ｄ３’（または予測用事例データ群Ｄ８’）を出力する。

　図１９は、機械学習用事例生成器３’が出力する訓練用事例データ群Ｄ３’の一部である訓練用事例データの具体例を示す図であり、図５に示した訓練用イベントスロット系列データから生成された訓練用事例データの例を示している。ただし、図１９の訓練用事例データは、Ｎｇｒａｍ次数を２（ｂｉｇｒａｍ）とし、図５に示した訓練用イベントスロット系列データの「投獄する（動４）．ヲ格」を注目要素としたときの、当該注目要素に関する訓練用事例データである。

　図１９に示す訓練用事例データでは、図７に示した第１実施形態の訓練用事例データの例と比較して、特徴ベクトルｘに“［ＳｈａｒｅＡｒｇ］”で始まる次元ＩＤに対応する共有項履歴特徴が含まれていない。その代わりに、特徴ベクトルｘに“［Ｗｉｌｄ＆Ａｒｇ］”で始まる次元ＩＤに対応するワイルドカード履歴と共有項の組み合わせ特徴が含まれている。

　図１９に例示した訓練用事例データにおいて、ワイルドカード履歴と共有項の組み合わせ特徴に用いるワイルドカード履歴のバリエーションは以下の４つである。
　捕まえる（動１）．ヲ格＿投獄する（動４）．ヲ格
　＊＿投獄する（動４）．ヲ格
　捕まえる（動１）．ヲ格＿＊
　＊＿＊
　一方、ワイルドカード履歴と共有項の組み合わせ特徴に用いる共有項のバリエーションは以下の６つである。
　山田
　犯罪者
　＜ＰＥＲＳＯＮ＞
　＜Ｔｈｉｎｇ＞
　＜Ｔｈｉｎｇ／Ａｇｅｎｔ＞
　＜Ｔｈｉｎｇ／Ａｇｅｎｔ／Ｐｅｒｓｏｎ＞
　したがって、ワイルドカード履歴と共有項の組み合わせ特徴としては、合計２４（＝４×６）種類の特徴が生成される。

　これら２４種類の特徴のうち、ワイルドカード履歴“＊＿＊”と共有項の組み合わせ特徴（６種類）は、図７に例示した第１実施形態の訓練用事例データに含まれる共有項履歴特徴と等価である。したがって、図１９に例示した訓練用事例データの特徴ベクトルｘは、図７に例示した第１実施形態の訓練用事例データの特徴ベクトルｘに対して、さらに１８種類の特徴量を付加したものになる。

　機械学習用事例生成器３’は、入力された訓練用イベントスロット系列データ群Ｄ２に含まれる訓練用イベントスロット系列データ（図５参照）のそれぞれに対して、第１実施形態の機械学習用事例生成器３と同様の処理（図８のステップＳ２０１～ステップＳ２０８）を行って図１９に示すような訓練用事例データを生成し、訓練用事例データ群Ｄ３’を出力する。ただし、第１実施形態の機械学習用事例生成器３では、図８のステップＳ２０６において、共有項履歴特徴生成器５に共有項の情報を渡して共有項履歴特徴群を得ていたのに対し、第２実施形態の機械学習用事例生成器３’は、組み合わせ特徴生成器９にイベントスロットの履歴の情報と共有項の情報を渡して、ワイルドカード履歴と共有項の組み合わせ特徴群を得る。

　また、機械学習用事例生成器３’は、予測処理においては、イベントスロット系列抽出器２が出力する予測用イベントスロット系列データ群Ｄ７を入力として受け取り、選ばれたイベントスロット系列データに対し、第１実施形態の機械学習用事例生成器３と同様の処理（図１５のステップＳ７０１およびステップＳ７０２）を行って予測用事例データを生成して、予測用事例データ群Ｄ８を出力する。なお、予測用事例データは、図１９に例示した訓練用事例データと同様のフォーマットであるが、出力ラベルｙが不定となっている点のみ、訓練用事例データと異なる。

　次に、組み合わせ特徴生成器９について説明する。組み合わせ特徴生成器９は、機械学習用事例生成器３’からイベントスロットの履歴の情報と共有項の情報を入力として受け取り、上述したワイルドカード履歴と共有項の組み合わせ特徴群を機械学習用事例生成器３’に返す。

　図２０は、組み合わせ特徴生成器９による処理を説明するフローチャートである。組み合わせ特徴生成器９は、機械学習用事例生成器３’からイベントスロットの履歴の情報と共有項の情報とを受け取ると、図２０のステップＳ９０１～ステップＳ９１０の処理を行って、ワイルドカード履歴と共有項の組み合わせ特徴群を機械学習用事例生成器３に返す。

　ステップＳ９０１：組み合わせ特徴生成器９は、ワイルドカードイベントスロット履歴リストｗという変数を用意し、空のリストを代入する。

　ステップＳ９０２：組み合わせ特徴生成器９は、イベントスロットの履歴の情報（注目スロットとその注目スロットの履歴の情報）をイベントスロット履歴特徴生成器４に渡し、イベントスロット履歴特徴生成器４からイベントスロット履歴特徴群を得る。

　ステップＳ９０３：組み合わせ特徴生成器９は、イベントスロット履歴特徴群からイベントスロット履歴特徴を１つ取り出す。

　ステップＳ９０４：組み合わせ特徴生成器９は、イベントスロット履歴に含まれる任意の要素をワイルドカード“＊”に置き換えることで、ワイルドカード履歴のすべてのバリエーションを取得する（イベントスロット履歴の長さがＮであれば２のＮ乗のバリエーションを取得する）。

　ステップＳ９０５：組み合わせ特徴生成器９は、取得したワイルドカード履歴のすべてのバリエーションをワイルドカードイベントスロット履歴リストｗに追加する。

　ステップＳ９０６：組み合わせ特徴生成器９は、イベントスロット履歴特徴群のすべてのイベントスロット履歴特徴について、上記のステップＳ９０３～ステップＳ９０５の処理を行う。

　ステップＳ９０７：組み合わせ特徴生成器９は、共有項表現リストａという変数を用意し、空のリストを代入する。

　ステップＳ９０８：組み合わせ特徴生成器９は、共有項の情報を共有項表現生成器６に渡して得た共有項表現群を共有項表現リストａに追加する。

　ステップＳ９０９：組み合わせ特徴生成器９は、ワイルドカードイベントスロット履歴リストｗ内の任意の要素と共有項表現リストａ内の任意の要素とのペアについて、両者の文字列を“＆”で挟みこむ形でつなぐ処理をすべてのペアに対して行い、ワイルドカード履歴と共有項の組み合わせ特徴の次元ＩＤ群ｃを得る。

　ステップＳ９１０：組み合わせ特徴生成器９は、ワイルドカード履歴と共有項の組み合わせ特徴の次元ＩＤ群ｃの各要素について、最後尾に“：１”を付与したものを、返り値として返す。

　以上、具体的な例を挙げながら説明したように、本実施形態に係るデータ処理装置２００によれば、第１実施形態の事例データで用いた共有項履歴特徴では制約がゆるすぎる場合に、イベントスロット系列に対して適度な制約を与えるような調整を行って、精度の高い物語モデルを構築することができる。

　第１実施形態に係るデータ処理装置１００や第２実施形態に係るデータ処理装置２００の上述した各機能は、たとえば、データ処理装置１００（２００）において所定のプログラムを実行することにより実現することができる。この場合、データ処理装置１００（２００）は、たとえば図２１に示すように、ＣＰＵ（Central　Processing　Unit）１０１などの制御装置、ＲＯＭ（Read　Only　Memory）１０２やＲＡＭ（Random　Access　Memory）１０３などの記憶装置、ネットワークに接続して通信を行う通信Ｉ／Ｆ１０４、各部を接続するバス１１０などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。

　データ処理装置１００（２００）で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact　Disk　Recordable）、ＤＶＤ（Digital　Versatile　Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

　また、データ処理装置１００（２００）で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、データ処理装置１００（２００）で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

　また、データ処理装置１００（２００）で実行されるプログラムを、ＲＯＭ１０２等に予め組み込んで提供するように構成してもよい。

　データ処理装置１００（２００）で実行されるプログラムは、データ処理装置１００（２００）の各処理部（テキスト解析器１、イベントスロット系列抽出器２、機械学習用事例生成器３（３’）、イベントスロット履歴特徴生成器４、共有項履歴特徴生成器５（組み合わせ特徴生成器９）、共有項表現生成器６、後続イベントスロット推定訓練７、および後続イベントスロット推定予測器８）を含むモジュール構成となっており、実際のハードウェアとしては、たとえば、ＣＰＵ１０１（プロセッサ）が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部が主記憶装置上にロードされ、上述した各処理部が主記憶装置上に生成されるようになっている。なお、データ処理装置１００（２００）は、上述した各処理部の一部または全部を、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field-Programmable　Gate　Array）などの専用のハードウェアを用いて実現することも可能である。

　なお、以上説明したデータ処理装置１００（２００）は、後続イベントスロット推定モデルＤ１０（物語モデル）を構築する訓練処理と、訓練処理で構築された後続イベントスロット推定モデルＤ１０を用いて解析対象文書Ｄ５の後続イベントスロットを推定する予測処理との双方を行うようにしている。しかし、データ処理装置１００（２００）は、予測処理のみを行うように構成することもできる。この場合、たとえば外部装置などを用いて事前に訓練処理を行い、後続イベントスロット推定モデルＤ１０を構築しておく。そして、データ処理装置１００（２００）は、解析対象文書Ｄ５を入力するとともに、外部装置などから後続イベントスロット推定モデルＤ１０を入力して、上述した予測処理を行う。

　また、以上説明したデータ処理装置１００（２００）は、訓練処理で構築された後続イベントスロット推定モデルＤ１０を用いて解析対象文書Ｄ５の後続イベントスロットを推定する予測処理を行う例であるが、データ処理装置１００（２００）は、訓練処理で構築された後続イベントスロット推定モデルＤ１０（物語モデル）を用いて、他の様々なアプリケーションを実行するように構成されていてもよい。たとえば、照応解析のアプリケーションを実行する場合は、訓練処理で構築された後続イベントスロット推定モデルＤ１０（物語モデル）を用いて照応解析のための事例データを生成し、この事例データを用いて機械学習を行う構成とすることで、照応解析を行うことができる。

　以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する抽出部と、
　前記要素系列を構成する前記要素の１つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する１つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する１つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する事例生成部と、
　前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築するモデル構築部と、を備えるデータ処理装置。
　前記事例生成部は、前記注目要素のそれぞれについて、一部の前記要素をワイルドカードで置き換えた前記部分系列と前記共有項とのＡＮＤ条件による組み合わせに関する１以上の特徴量をさらに含む特徴ベクトルで表現された前記事例データを生成する、請求項１に記載のデータ処理装置。
　前記共有項の系列に関する特徴量は、前記共有項を、表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて区別した１以上の特徴量である、請求項１に記載のデータ処理装置。
　前記部分系列は、前記注目要素のみを要素とするユニグラム系列を含む、請求項１に記載のデータ処理装置。
　前記要素に含まれる前記述語は、該述語の語義を特定する語義特定情報が付加されている、請求項１に記載のデータ処理装置。
　述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する抽出部と、
　前記要素系列を構成する前記要素の１つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する１つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する１つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する事例生成部と、
　先行文脈に後続する前記要素を推定するための物語モデルを入力する入力部と、
　前記事例データと前記物語モデルとを用いて、先行文脈に後続する前記要素を予測する予測部と、を備え、
　前記物語モデルは、事前に訓練用の前記事例データを用いて識別モデルに基づく機械学習を行うことにより生成されている、データ処理装置。
　データ処理装置において実行される物語モデル構築方法であって、
　前記データ処理装置の抽出部が、述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する工程と、
　前記データ処理装置の事例生成部が、前記要素系列を構成する前記要素の１つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する１つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する１つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する工程と、
　前記データ処理装置のモデル構築部が、前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築する工程と、を含む物語モデル構築方法。