WO2021140957A1

WO2021140957A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2021140957A1
Application number: PCT/JP2020/048727
Authority: WO
Inventors: 正典宮原; 裕士堀口
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-01-08
Filing date: 2020-12-25
Publication date: 2021-07-15
Anticipated expiration: 2022-07-08
Also published as: EP4089598A4; JP7639710B2; JPWO2021140957A1; EP4089598A1

Abstract

本開示は、予測分析に対するユーザの満足度を向上させることができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。情報処理装置は、予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出するリーク検出部を備える。本技術は、例えば、機械学習モデル、又は、機械学習モデルを使用するためのＡＰＩを生成し、公開するシステムに適用できる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本開示は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、予測分析に対するユーザの満足度を向上させるようにした情報処理装置、情報処理方法、及び、プログラムに関する。

　近年、ビジネスにおいて様々なデータが蓄積されるようになり、蓄積されたデータをビジネスに活用することの重要性が認識されるようになって久しい。データのビジネス活用の手法として、例えば機械学習を用いて過去のデータから将来の結果を予測する予測分析技術を利用した手法が知られている（例えば、特許文献１参照）。

特開２０１７－１６３２１号公報

　しかしながら、予測分析技術では、予測分析に用いる予測モデルの事前評価時の予測精度が高いにも関わらず、実運用時に期待した予測精度が得られず、ユーザの満足度が低下する場合がある。この主要な原因の１つとして、リーク（leakage）が考えられる。

　リークとは、予測時に利用できないデータを予測モデルの学習に用いること、又は、そのデータ自体を意味する。例えば、弁当の販売数を予測する場合、「その日に弁当が完売したか否か」というデータを学習に用いれば、予測モデルの予測精度が向上することが想定される。しかし、販売数を予測する目的は、数日前の時点で弁当の販売数を予測して製造数を決めることであり、完売したか否かという当日にならないとわからないデータは、実際には利用することができない。そのため、「その日に弁当が完売したか否か」というデータを学習に用いると、上述したように、事前評価時と実運用時とで予測モデルの予測精度の乖離が発生し、ユーザの満足度が低下するおそれがある。

　これに対して、特許文献１では、リークについて特に検討されていない。

　本開示は、このような状況に鑑みてなされたものであり、予測分析に対するユーザの満足度を向上させるようにするものである。

　本開示は、予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出するリーク検出部を備える。

　本開示によれば、予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性が検出される。

予測分析のビジネス導入を説明する図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る分析処理を模式的に示す図である。本開示の実施形態に係る過去事例の一例を説明する図である。本開示の実施形態に係るユーザデータの一例を説明する図である。ユーザに提示する画像の一例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係る過去事例記憶部の一例を示す図である。本開示の実施形態に係る時系列処理部の構成例を示す図である。本開示の実施形態に係るリーク検出補正部の構成例を示す図である。本開示の実施形態に係る情報処理の手順を示すフローチャートである。本開示の実施形態に係る時系列処理の手順を示すフローチャートである。本開示の実施形態に係る構築データセットの例を示す図である。図１３の構築データセットを系列毎に分離した例を示す図である。図１３の構築データセットの予測対象の時系列のグラフの例を示す図である。ユーザに提示する画像の一例を示す図である。本開示の実施形態に係るリーク検出処理の手順を示すフローチャートである。本開示の実施形態に係るリーク検出処理の手順を示すフローチャートである。予測モデルの検証方法を説明するための図である。ユーザに提示する画像の一例を示す図である。情報処理装置や端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の各実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．背景
　　　１－２．実施形態に係る情報処理システムの構成例
　　　１－３．実施形態に係る情報処理の概要
　　　１－４．実施形態に係る情報処理装置の構成例
　　　１－５．実施形態に係る時系列処理部の構成例
　　　１－６．実施形態に係るリーク検出補正部の構成例
　　　１－７．実施形態に係る情報処理の手順
　　２．変形例
　　３．ハードウェア構成

＜１．実施形態＞
［１－１．背景］
　まず、本開示の実施の形態について詳細に説明する前に、本開示の実施形態の背景として、予測分析をビジネスに活用するためのワークフローについて説明する。

　予測分析をビジネス活用する場合、ユーザは、蓄積されたデータに基づいてどのような予測分析を行うかを決定する。さらにユーザは、決定した予測分析の実証実験を行うことで、予測分析を導入して得られるビジネス効果を評価する。このように、実証実験を行い予測分析によって得られるビジネス効果を評価することで、ユーザは効果が高い予測分析をビジネスに導入することができ、予測分析をビジネスにより活用することができる。

　実際に予測分析をビジネスに活用するためのワークフローとして、例えば図１に示すフローがあげられる。図１は、予測分析のビジネス導入を説明する図である。

　ステップＳ１において、ユーザは、蓄積されたデータにおいてどのデータを利用して何を予測するか問題設定を行う。例えば、問題設定には、「顧客の年収や総資産などのデータを利用して、ローンの貸し倒れが起こるか否かを予測する」ことや、「過去の売り上げや顧客の年齢層などのデータを利用して、将来の売り上げを予測する」ことなどがある。このように、ビジネス分野やユーザによって適切な問題設定が異なる。そのため、ユーザは例えば自身の知識や経験に基づいて問題設定を行う。

　ステップＳ２において、ユーザは、蓄積されたデータから問題設定に応じたデータセットを構築する。ユーザは、例えば蓄積されたデータから予測分析に用いるデータを抽出したり、予測分析に合わせてデータの解釈や構造化を行ったりして、データセットを構築する。データセットの構築にも例えばユーザの知識や経験が必要となる場合がある。

　ステップＳ３において、ユーザは、問題設定およびデータセットに基づき、予測モデルを生成する。予測モデルは一般的な機械学習を用いて生成する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルを生成することができる。

　ステップＳ４において、ユーザは、生成した予測モデルの精度を評価する。予測モデルの精度は、例えば曲線下面積（ＡＵＣ）やＡｃｃｕｒａｃｙなど、一般的な評価指標を用いて評価する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルの精度を評価することができる。

　ステップＳ５において、ユーザは、生成した予測モデルを用いた実証実験を行う。例えばユーザは、期間や地域など範囲を限定してデータを収集し、生成した予測モデルを用いてデータの予測分析を行う。ユーザは、分析結果に応じて例えば商品の仕入れや営業先を変更するなど、試験的に予測分析をビジネスに導入する。

　ステップＳ６において、ユーザは、実証実験の効果を測定する。ユーザは、例えば予測分析を試験導入した場合の売り上げと導入する前の売り上げとを比較するなど、実験前後のデータを比較することで効果を測定する。その後、ユーザは、実証実験の結果や測定した効果に応じて、実際のビジネスに予測分析を導入する。

　以上のように、実際のビジネスに予測分析を導入する場合、問題設定やデータセットの構築においてユーザの知識や経験が必要となり、導入のボトルネックとなってしまう可能性がある。また、実証実験にはコストがかかるため、予測分析のビジネス導入によってある程度の効果が得られる確証がないと実証実験に移りにくい。このように、実証実験への移行もハードルが高い傾向がある。

　本開示は、かかる点に着目し、情報処理装置が問題設定の抽出やデータセットの構築を含めた予測分析を行うようにしたものである。

［１－２．実施形態に係る情報処理システムの構成例］
　図２は、本開示の実施形態に係る情報処理システム１の構成例を示す図である。情報処理システム１は、端末装置１１、及び、情報処理装置１２を備える。端末装置１１と情報処理装置１２とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。なお、情報処理システム１は、複数台の端末装置１１や、複数台の情報処理装置１２を備えていてもよい。

　端末装置１１は、ユーザによって利用される情報処理装置である。端末装置１１は、予測分析に関するサービスの提供に用いられる。端末装置１１は、実施形態における処理を実現可能であれば、どのような装置であってもよい。例えば、端末装置１１は、ユーザに予測分析に関するサービスを提供し、情報を表示するディスプレイを有する構成であれば、どのような装置であってもよい。例えば、端末装置１１は、ノート型ＰＣ（Personal Computer）、デスクトップＰＣ、タブレット型端末、スマートフォン、携帯電話機、ＰＤＡ（Personal Digital Assistant）等の装置とされる。

　情報処理装置１２は、予測分析に関するサービスをユーザに提供するために用いられる。情報処理装置１２は、ユーザデータに基づく問題設定および予測分析評価の結果に関する情報を、ユーザに表示するように制御する情報処理装置である。情報処理装置１２は、問題設定および予測分析評価の結果に関する情報を示す画像を生成し、画像を端末装置１１へ提供する。

　また、情報処理装置１２は、端末装置１１の表示を制御する。すなわち、情報処理装置１２は、端末装置１１に表示する情報を提供するサーバ装置でもある。例えば、情報処理装置１２は、端末装置１１に制御情報を含む画像を送信することにより、端末装置１１の表示を制御する。ここで、制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語やＣＳＳ等により記述される。

　なお、情報処理装置１２は、提供する画像等を表示するアプリケーションを端末装置１１に提供してもよい。また、情報処理装置１２から端末装置１１に提供されるアプリケーションそのものを制御情報とみなしてもよい。

［１－３．実施形態に係る情報処理の概要］
　以下、図３乃至図５を用いて情報処理装置１２が行う分析処理の概要について説明する。

　図３は、本開示の実施形態に係る分析処理を模式的に示す図である。図４は、本開示の実施形態に係る過去事例の一例を説明する図である。図５は、本開示の実施形態に係るユーザデータの一例を説明する図である。

　図３の例では、過去事例を参照してユーザデータを用いた予測分析を行う場合について説明する。ここで、ユーザデータとは例えばユーザが収集したデータである。ユーザデータには、例えば顧客情報や商品情報等の種々のデータが含まれる。ユーザはユーザデータを用いて例えば来月の売り上げ等、予測分析を行う。

　一般的に、ユーザデータを用いて予測分析を行う場合、「どのデータを用いて何を予測するか」という問題設定をユーザ自身が行う必要がある。予測分析の問題設定を行うにはユーザの知識と経験が求められる場合があり、ユーザにとって負担となる可能性がある。そこで、実施形態に係る分析処理では、過去事例を参照して予測分析の問題設定を自動で行い、ユーザの負担を軽減しようとするものである。

　ステップＳ１１において、情報処理装置１２は、過去事例を取得する。ここで、過去事例には、過去に行った予測分析の問題設定が含まれる。具体的には、過去事例には、過去に何を予測したかという予測対象（以下、過去対象ともいう）と、過去の予測にどのデータを用いたかという過去対象の予測分析に用いた分析データセット（以下、過去データセットともいう）と、が含まれる。

　ここで、図４を用いて過去事例の一例を説明する。図４に示すように、過去事例には例えば過去データセット３１が含まれる。過去データセット３１には、例えば「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」が含まれる。また、図４では、「貸し倒れ」が過去対象であることを斜線で示している。このように、過去事例には、過去データセット３１と過去対象（ここでは「貸し倒れ」）とが含まれる。

　図３に戻り、ステップＳ１２において、情報処理装置１２は、ユーザデータを取得する。ここで、図５を用いてユーザデータの一例を説明する。ユーザデータは、ユーザが生成、収集したデータであり、予測分析のモデル生成等に用いるデータである。図５に示すユーザデータ４１には、例えば「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」、「年収入」、「全口座残高」および「貸し倒れ」が含まれる。

　図３に戻り、ステップＳ１３において、情報処理装置１２は、取得した過去事例およびユーザデータ４１に基づいて予測対象を抽出する。情報処理装置１２は、例えば、過去事例からユーザに関連する過去対象を選択する。情報処理装置１２は、例えば所属部署や過去にユーザが行った予測分析など、ユーザに関する情報を用いて推薦システムを利用することで、過去対象を選択する。ここでは、情報処理装置１２が過去事例から図４に示す過去データセット３１の「貸し倒れ」を過去対象として選択したものとする。

　情報処理装置１２は、選択した過去対象と同じ項目を、今回予測分析を行う予測対象（以下、抽出対象ともいう）としてユーザデータ４１から抽出する。図４の例では、情報処理装置１２が選択した過去対象は「貸し倒れ」である。したがって、情報処理装置１２は、図５に示すユーザデータ４１から「貸し倒れ」を予測対象として抽出する。図５では、抽出対象である「貸し倒れ」を斜線で示している。なお、抽出対象の抽出方法の詳細は、図７を用いて後述する。

　図３に戻り、ステップＳ１４において、情報処理装置１２は、ユーザデータ４１に基づいて抽出対象の予測分析に用いるデータセット（以下、構築データセットともいう）を構築する。情報処理装置１２は、例えば抽出対象に関連する項目を構築データセットとして抽出する。例えば、情報処理装置１２は、図５に示すユーザデータ４１から「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」を抽出し構築データセットを生成する。

　なお、ここでは、情報処理装置１２が、図５に示すユーザデータ４１の一部を含むデータセットを構築するとしたが、これに限定されない。ユーザデータ４１全てを含むデータセットを構築してもよい。なお、データセットの構築方法の詳細は、図７を用いて後述する。

　図３に戻り、ステップＳ１５において、情報処理装置１２は、抽出対象および構築データセットに基づいて予測モデルを学習する。情報処理装置１２は、構築データセットのデータのうち予測対象（抽出対象）を除くデータを特徴ベクトルに変換する。情報処理装置１２は、特徴ベクトルと抽出対象とに基づき、機械学習によって、分類または回帰問題を解くことで予測モデルを生成する。

　ステップＳ１６において、情報処理装置１２は、生成した予測モデルを評価することで、予測分析の精度を評価する。情報処理装置１２は、予測モデルと構築データセットとを用いて、予測モデルを評価する。なお、評価指標は、例えば分類分析の場合はＡＵＣやＡｃｃｕｒａｃｙ、回帰分析の場合はＭＡＥ（Mean Absolute Error）など、分析手法に応じて選択される。

　ステップＳ１７において、情報処理装置１２は、抽出対象と評価結果とを含む抽出情報をユーザに提示する。ここで、図６を用いて抽出情報のユーザへの提示例について説明する。図６は、情報処理装置１２の制御により、端末装置１１においてユーザに提示される画像の一例を示す図である。

　図６に示すように、情報処理装置１２は、問題設定および評価結果の組み合わせをユーザに提示する。図６では、情報処理装置１２が複数の問題設定を抽出する場合の抽出結果を表示している。この場合、情報処理装置１２は画像ＩＭ１のように問題設定および評価結果の組み合わせを一覧にして表示する。

　これにより、ユーザは、例えば評価結果を参考にして情報処理装置１２が提示した問題設定で予測分析を行うか否かを決定することができる。

　なお、情報処理装置１２がユーザに提示する内容は、問題設定および評価結果に限定されない。情報処理装置１２が、構築データセット、抽出対象および評価結果の少なくとも１つをユーザに提示するようにしてもよい。あるいは、予測分析を行った場合に得られる効果等、ユーザが問題設定を選択する場合の参考情報を、情報処理装置１２が提示するようにしてもよい。

　以上のように、情報処理装置１２が問題設定を抽出することで、ユーザは、問題設定を行わなくてよく、より容易に予測分析を行うことができるようになる。また、情報処理装置１２が予測分析の精度評価を行うことで、ユーザは、精度評価に基づき、実行する予測分析を選択することができ、より容易に精度の高い予測分析を行うことができる。

［１－４．実施形態に係る情報処理装置の構成例］
　次に、図７を用いて、図２の情報処理装置１２の構成例について説明する。

　情報処理装置１２は、通信部１０１、記憶部１０２、及び、制御部１０３を備える。なお、情報処理装置１２は、情報処理装置１２の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を備えていてもよい。

（通信部）
　通信部１０１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１０１は、ネットワークＮと有線または無線で接続され、端末装置１１や外部サーバ等の他の情報処理装置との間で情報の送受信を行う。

（記憶部）
　記憶部１０２は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１０２は、図７に示すように、過去事例記憶部１２１、ユーザデータ記憶部１２２、及び、ユーザプロファイル記憶部１２３を備える。なお、図示を省略するが、記憶部１０２は、端末装置１１に提供する画像の基となる画像等の種々の情報を記憶してもよい。

（過去事例記憶部）
　過去事例記憶部１２１は、過去事例を記憶する。過去事例には、過去に行った予測分析に関する情報が含まれる。過去事例記憶部１２１は、例えば過去に予測分析をビジネス導入した際の事例を記憶する。なお、過去事例は、情報処理装置１２が保持せずに、外部サーバ等から適宜取得してもよい。

　図８は、過去事例記憶部１２１の一例を示す図である。過去事例記憶部１２１は、例えば、「問題設定」、「データセット」、「収集コスト」、「予測モデル」、「モデル評価結果」、「実証実験」、「ビジネス効果」等に関する情報を事例ごとに記憶する。過去事例記憶部１２１は、過去事例Ａ、Ｂ、・・・というように、複数の過去事例を記憶する。

　「問題設定」は、予測分析で何のデータを使用して何を予測したかを示す情報である。「問題設定」には、例えば、「何のデータを使用したか」という複数の「使用項目」（説明変数）と、「何を予測したか」という１つの「予測対象」（目的変数）が含まれる。例えば、上述した図４に示す例では、斜線で示す項目が予測対象であり、残りの項目が使用項目である。

　「データセット」は、予測モデルの学習に用いた過去データセットである。例えば、「データセット」は、「入力データ」と「正解データ」とを含むデータセットである。例えば、図４に示す過去データセット３１が、かかる「データセット」に相当する。

　「収集コスト」は、予測分析で使用したデータの収集にかかったコストである。「収集コスト」には、例えば項目ごとにデータの収集にかかった期間や費用などが含まれる。

　「予測モデル」は、記憶する「問題設定」および「データセット」を用いて生成した過去の予測モデル（以下、過去モデルともいう）である。「予測モデル」は、例えば機械学習によって、分類または回帰問題を解くことで生成されたモデルである。

　「モデル評価結果」は、記憶する「予測モデル」の精度評価の結果である。「モデル評価結果」には、ＡＵＣやＡｃｃｕｒａｃｙなどの評価指標による評価結果が含まれる。

　「実証実験」は、予測分析のビジネス導入のために行った実証実験の内容や結果に関する情報である。「実証実験」には、例えば、実験を行った期間や範囲、実験に使用したデータ、実験によって得られた効果や、実験にかかった費用などの情報が含まれる。

　「ビジネス効果」は、予測分析をビジネス導入した後に得られたビジネス効果に関する情報である。「ビジネス効果」には、例えば、向上した売上額などの利益額や、削減した人件費などの経費削減額といった情報が含まれる。

　このように、図８に示した例では、過去事例記憶部１２１は、過去に予測分析をビジネス導入した場合の種々の情報を、複数の過去事例ごとに記憶する。なお、上述した過去事例は一例であり、過去事例記憶部１２１は、「問題設定」および「データセット」を記憶していれば、例えば「収集コスト」や「モデル評価結果」、「実証実験」等、一部の情報を記憶していなくてもよく、あるいは上述した情報以外の情報を記憶してもよい。

（ユーザデータ記憶部）
　図７に戻り、ユーザデータ記憶部１２２について説明する。ユーザデータは、ユーザが作成または収集した種々のデータである。ユーザデータのデータ形式には、例えば下記に挙げるように多岐に渡る形式が想定される。

・テキスト－単語、文章、ＨＴＭＬ（HyperText Markup Language）など
・メディア－ＲＧＢ画像、深度画像、ベクタ画像、動画、音声など
・複合文書－オフィス文書、ＰＤＦ、Ｗｅｂページ、電子メールなど
・センサデータ－現在位置、加速度、心拍数など
・アプリケーションデータ－起動ログ、処理中のファイル情報など
・データベース－リレーショナルデータベース、キーバリューストアなど

　なお、ユーザデータは、情報処理装置１２に保持されずに、端末装置１１や外部サーバ等から適宜取得されてもよい。また、ユーザデータは、カメラやセンサ等から直接取得した生データであってもよく、あるいは、生データに特徴量抽出等の処理を行った処理データであってもよい。あるいは、ユーザデータは、生データや処理データの認識処理を行った認識結果であるメタデータを含んでいてもよい。

（ユーザプロファイル記憶部）
　次に、ユーザプロファイル記憶部１２３について説明する。ユーザプロファイル記憶部１２３は、ユーザに関するプロファイル情報を記憶する。プロファイル情報は、例えばユーザ情報やユーザ事例情報を含む。

　ユーザ情報は、ユーザに関する情報であり、例えばユーザＩＤやユーザが所属する会社名、部署、業界等に関する情報を含む。ユーザ情報に、例えばウェブサイトやデータベースの検索履歴やウェブサイトの閲覧履歴、メールやオフィス文書に含まれるキーワードなど、ユーザの興味や関心に関連する情報を含めてもよい。

　また、ユーザ事例情報は、ユーザが行った過去の予測分析に関する情報を含む。ユーザ事例情報には、例えばユーザが過去に行った予測分析に関する情報やユーザが携わった過去事例に関する情報などが含まれる。なお、かかる予測分析はユーザ自身が行ったものであってもよく、ユーザが所属する部署や会社が行ったものであってもよい。

（制御部）
　制御部１０３は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１２内部に記憶されたプログラム（例えば、本開示に係るプログラム）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１０３は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable GateArray）等の集積回路により実現される。

　制御部１０３は、取得部１４１、情報処理部１４２、及び、表示制御部１４３を備える。情報処理部１４２は、時間予測部１５１、解釈部１５２、抽出部１５３、時系列処理部１５４、リーク検出補正部１５５、学習部１５６、評価部１５７、予測部１５８、収集決定部１５９、及び、寄与度算出部１６０を備える。

　なお、制御部１０３の内部構造は、図７に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１０３が有する各処理部の接続関係は、図７に示した接続関係に限られず、他の接続関係であってもよい。

（取得部）
　取得部１４１は、記憶部１０２から各種情報を取得する。例えば、取得部１４１は、過去事例記憶部１２１から複数の過去事例を取得する。例えば、取得部１４１は、ユーザデータ記憶部１２２からユーザデータを取得する。例えば、取得部１４１は、ユーザプロファイル記憶部１２３からプロファイル情報を取得する。なお、取得部１４１は、過去事例記憶部１２１、ユーザデータ記憶部１２２およびユーザプロファイル記憶部１２３に代えて、外部サーバや端末装置１１等から各種情報を取得してもよい。

（時間予測部）
　時間予測部１５１は、取得部１４１がデータの取得を開始してから問題設定抽出等の処理結果をユーザに提示するまでに制御部１０３が行う分析処理にかかる時間を予測する。

　例えば、時間予測部１５１は、取得部１４１が所定時間（例えば１秒）に取得したユーザデータ（以下、一部データともいう）を用いて、問題設定の抽出や学習、評価等の分析処理を行う。分析処理は、取得部１４１がデータの取得を開始してから処理結果をユーザに提示するまでに制御部１０３の各部が行う処理であり、詳細は後述する。

　そして、時間予測部１５１は、一部データを用いて行った分析処理の処理時間を計測する。時間予測部１５１は、計測した処理時間に基づき、分析処理にかかる時間（予測処理時間）を予測する。詳しくは、時間予測部１５１は、予測処理時間＝（計測した処理時間）＊（ユーザデータのサイズ／一部データのサイズ）として、予測処理時間を算出する。

　分析処理は、ユーザデータの種類やサイズによって数時間以上、場合によっては数日かかることもある。そのため、分析処理にかかる時間を知りたいというユーザの要望がある。そこで、時間予測部１５１は、一部データを用いて予測処理時間を算出する。これにより、分析処理にかかる時間の見積もりをユーザに提示することができる。このとき、予測処理時間の算出に使用するデータのサイズを、例えば１秒で取得できるサイズに限定することで、予測処理時間の算出にかかる時間を短時間に抑えることができる。

　また、時間予測部１５１は、単にユーザデータのサイズから予測処理時間を算出するのではなく、実際に一部データを用いた分析処理を実行して予測処理時間を算出する。ユーザデータのサイズは容易に取得できるが、予測分析にかかる時間はユーザデータのサイズだけでなく、データの性質に依存する。そのため、時間予測部１５１が、実際に処理を実行して予測処理時間を算出することで、予測処理時間の予測精度を向上させることができる。

　なお、ここでは、時間予測部１５１が、所定時間に取得した一部データを用いて予測処理時間を算出するとしたが、これに限定されない。例えば、時間予測部１５１が所定サイズ（例えば１００行～２０００行）の一部データを用いて予測処理時間を算出してもよい。

　あるいは、時間予測部１５１が、予め用意してある学習済みの処理時間予測モデルを用いて予測処理時間を予測するようにしてもよい。この場合、時間予測部１５１は、例えば、一部データから項目数（列数）、各項目の欠損率、各項目のデータ型（文字列／数値／日付等）、機械学習の種類（二値分類／多値分類／回帰等）などの情報を抽出する。時間予測部１５１は、抽出した情報を用いて、学習済みの処理時間予測モデルによって、予測処理時間を予測する。

　また、時間予測部１５１は、一定時間の経過や各部の処理が終了したタイミングなど、所定のタイミングで予測処理時間を更新してもよい。時間予測部１５１は、一部データを用い、所定のタイミングでまだ終了していない処理を実行する。時間予測部１５１は、実行した処理にかかった時間に基づき、予測処理時間を再度算出することで、予測処理時間を更新する。

　なお、予測処理時間の更新に用いる一部データは、更新前の予測処理時間の算出に用いた一部データと同じであってもよく、今回の更新時に改めて取得したユーザデータであってもよい。例えば、後述する解釈部１５２で、全てのユーザデータに対して構造化処理を行った場合、構造化処理を行った全てのユーザデータの中から所定サイズのユーザデータを取得して一部データとしてもよい。

（解釈部）
　解釈部１５２は、取得部１４１がユーザデータ記憶部１２２から取得したユーザデータを解析し、構造化する。まず、解釈部１５２が行うデータ解析について説明する。

　上述したように、ユーザデータには種々のデータ形式が含まれる。解釈部１５２は、例えばデータの種類ごとに認識器（図示省略）を用いてユーザデータを解析する。認識器は、例えば記憶部１０２に記憶されているものとする。

　具体的に、解釈部１５２は、例えばユーザデータに含まれる画像データに対して画像用の認識器を用いて画像の中から顔／文字列／一般物体などを検出する認識処理を行う。例えば、画像データが商品購入を示すレシートの画像であった場合、解釈部１５２は、画像に付与されたデータから、ユーザＩＤ（端末ＩＤ）、撮影場所、撮影時刻などを検出する。また、解釈部１５２は、画像から文字列を検出し、電話番号、会社名、購入商品、商品の値段、合計額、支払方法（現金／クレジット／電子マネー／ＱＲコード（登録商標）決済など）などを認識する。解釈部１５２は、認識結果をメタデータとして生データであるユーザデータに付与する。

　画像データ以外でも、解釈部１５２は、例えばユーザデータに含まれる音声データに対して音声用の認識器を用いて話者を認識し、発話内容をテキスト化する。あるいは、加速度データに対して、解釈部１５２は、時刻ごとにユーザの移動行動（徒歩／自転車／電車など）を認識する。また、テキストデータに対して、解釈部１５２は、表記ゆれの補正や類義語辞書を用いた類似表現の追加を行う。このように、解釈部１５２は、ユーザデータをデータの種類ごとに解析し、メタデータを付与する。

　上述した例では、解釈部１５２が１つの認識器を用いて１つのデータを認識する場合について説明したが、例えば解釈部１５２が１つのデータに対して複数の認識器を用いて認識を行うようにしてもよい。例えば音声データを認識する場合、解釈部１５２は、まず音声データをテキストデータに変換し、変換後のテキストデータを多言語に翻訳する。続いて、解釈部１５２は、翻訳したテキストデータの表記ゆれを補正したり、類似表現の追加を行ったりする。このように、解釈部１５２は認識器を多段に使用してユーザデータを認識してもよい。

　なお、上述したデータ認識は一例であり、解釈部１５２は、種々の既知の技術に基づき、ユーザデータを認識してもよい。

　続いて、解釈部１５２は、解析結果に基づいてユーザデータを構造化する。解釈部１５２は、テンプレートを用いてユーザデータに付与されたメタデータの構造化を行う。テンプレートは、予測分析に特化したものであり、例えば複数のテンプレートを記憶部１０２が予め記憶しているものとする。

　解釈部１５２は、メタデータが付与されたユーザデータが入力されると、データを最も適合するテンプレートに当てはめることでデータの構造化を行う。

　例えば、「ユーザ」という概念が「年齢」、「性別」という概念を持ち、「商品」という概念が「価格」という概念を持つとする。「ユーザ」と「商品」は「購入」という関係を持ち、「購入」という概念は「購入日時」という概念を持つとする。例えばこのようなデータ構造のテンプレートを用いて、解釈部１５２は非構造化データであるメタデータを構造化する。

　さらに、解釈部１５２が、メタデータを新たに付与してもよい。ここで付与したメタデータは、問題設定を抽出する際に利用される。例えば、解釈部１５２が、レシート画像に付与された「商品名」から「食費」や「生活雑費」のような上位カテゴリをメタデータとして付与してもよい。

　なお、上述した構造化は一例であり、解釈部１５２は、種々の既知の技術に基づき、ユーザデータの構造化を行ってもよい。また、上述したテンプレートや上位カテゴリは一例であり、解釈部１５２は、予測分析に特化した種々のテンプレートやカテゴリ、メタデータを用いてユーザデータの構造化を行ってもよい。また、ユーザデータ記憶部１２２が記憶するユーザデータがすでに構造化されている場合は、解釈部１５２の処理を省略してもよい。

　このように、解釈部１５２がユーザデータの解析、構造化を行うことで、ユーザの負担を軽減することができる。

（抽出部）
　続いて、抽出部１５３は、解釈部１５２が構造化したユーザデータ（以下、構造化データともいう）および取得部１４１が取得した過去事例に基づき、予測分析における問題設定を抽出する。問題設定は「何のデータ項目を使用するか」という複数の「使用項目」（説明変数）と、「何を予測するか」という１つの「予測対象」（目的変数）とを含む。

　抽出部１５３は、過去事例に基づき、構造化データから「予測対象」を抽出する。抽出部１５３は、例えば、過去事例に含まれる過去対象と同じ項目（変数）を構造化データから「予測対象」として抽出する。

　このとき、抽出部１５３は、例えばプロファイル情報に基づき、ユーザと関連がある、あるいはユーザの関心が高いと考えられる「予測対象」を抽出する。例えば、ユーザが商品販売に関するビジネスを行っている場合、「売り上げ」予測に対する関心が高いと考えられる。そこで、この場合、抽出部１５３は、「売り上げ」を予測対象として抽出する。

　具体的に、抽出部１５３は、例えばプロファイル情報に基づき、推薦システムを用いて過去事例の過去対象から候補を抽出する。抽出部１５３は、抽出した候補の中からユーザデータにも含まれる項目を問題設定の「予測対象」とする。推薦システムには、例えばランキング学習や内容ベースフィルタリング、協調フィルタリング、あるいはこれらを組み合わせたシステムが含まれる。

　なお、抽出部１５３が複数の「予測対象」を抽出してもよい。例えば、ランキング学習のように過去対象がランキング形式で複数抽出される場合、抽出部１５３は、ランキング上位から所定数の「予測対象」を抽出する。このように、抽出部１５３が複数の「予測対象」を抽出することで、抽出部１５３は、ユーザに関係する「予測対象」を幅広く抽出することができる。

　抽出部１５３は、抽出した「予測対象」（抽出対象）ごとに複数の「使用項目」を抽出する。抽出部１５３は、構造化データの中から抽出対象に関連する項目（変数）を「使用項目」（説明変数）に設定する。抽出部１５３は、抽出対象に少しでも関連する項目を「使用項目」に設定してもよい。この場合、情報処理装置１２は、抽出後の処理である予測モデル学習において学習の精度を向上させることができる。あるいは、抽出部１５３は、抽出対象に関連が高いものから順に所定数の項目を「使用項目」に設定してもよい。この場合、情報処理装置１２は、予測モデル学習における処理負荷を低減させることができる。

　抽出部１５３は、抽出した「予測対象」及び「使用項目」（以下、抽出項目ともいう）に基づいてデータセットを構築する。抽出部１５３は、構造化データから予測対象及び抽出項目に該当するデータを抽出することで、データセットを構築する。このように、抽出部１５３がデータセットを構築することで、ユーザが問題設定に応じたデータセットを構築する必要がなく、ユーザの負担を軽減することができる。

　上述したように、抽出部１５３が、例えば複数の問題設定を抽出するようにしてもよい。この場合、抽出部１５３は、「予測対象」と、「予測対象」に対応する複数の「使用項目」との組み合わせを複数抽出する。また、抽出部１５３は、抽出した問題設定に応じたデータセットを構築する。したがって、抽出部１５３は、複数の問題設定を抽出した場合、各問題設定に対応するデータセットを複数構築する。このように、抽出部１５３がデータセットを構築することで、問題設定が複数ある場合でもユーザは対応するデータセットをそれぞれ構築する必要がなく、ユーザの負担を低減することができる。

（時系列処理部）
　時系列処理部１５４は、抽出部１５３により構築された構築データセットが時系列のデータセット（以下、時系列データセットと称する）である場合、時系列データセットの日時のリサンプリングを行う。例えば、時系列処理部１５４は、時系列データセットのサンプリング間隔（時間間隔）を補正したり、予測対象の欠損値を補間したりする。

　また、時系列処理部１５４は、構築データセットが複数の異なる系列の時系列データセットを含む場合、系列毎に時系列データセットを分離し、分離した系列毎に時系列データセットの日時のリサンプリングを行う。

　さらに、時系列処理部１５４は、構築データセットが時系列データセットである場合、予測対象の値の傾向が大きく変化する変化点の検出を行い、変化点に基づいて構築データセットを分割する。

　なお、時系列処理部１５４の詳細な構成例については、図９を用いて後述する。

（リーク検出補正部）
　リーク検出補正部１５５は、構築データセットの性質、及び、過去事例記憶部１２１に記憶されている過去事例等に基づいて、構築データセットのリークの可能性の検出を行う。また、リーク検出補正部１５５、必要に応じて、検出したリークの可能性に基づいて、構築データセットを補正する。

　なお、リーク検出補正部１５５の詳細な構成例については、図１０を用いて後述する。

（学習部）
　学習部１５６は、抽出部１５３が抽出した問題設定と、抽出部１５３が抽出した構築データセット又はリーク検出補正部１５５により補正された構築データセットとに基づき、予測モデルを学習する。抽出部１５３が複数の問題設定を抽出する場合、学習部１５６は複数の問題設定それぞれに対応する予測モデルを学習する。

　学習部１５６は、構築データセットを学習用データとテスト用データに分割する。学習部１５６は、学習用データを特徴ベクトルに変換する。学習部１５６は、特徴ベクトルと予測対象に基づき、機械学習によって、例えば分類または回帰問題を解くことで、予測モデルを生成する。なお、上述した機械学習は一例であり、学習部１５６は、種々の既知の技術に基づき、予測モデルを学習してもよい。

　ここでは、学習部１５６が構築データセットを分割するとしたが、これは一例であり、例えば抽出部１５３が学習用データセットとテスト用データセットのそれぞれを構築するようにしてもよい。

（評価部）
　評価部１５７は、学習部１５６が生成した予測モデルを評価する。学習部１５６が複数の予測モデルを生成する場合、評価部１５７は複数の予測モデルそれぞれについて評価を行う。

　評価部１５７は、予測モデルおよびテスト用データに基づき、評価指標を用いて予測モデルを評価する。評価指標は、例えば二値分類であればＡＵＣ、多値分類であればＡｃｃｕｒａｃｙ、回帰であればＭＡＥなどである。なお、上述した評価指標は一例であり、評価部１５７は、種々の既知の技術に基づき、予測モデルの評価を行ってもよい。例えばユーザが評価指標を指定してもよい。

（予測部）
　予測部１５８は、予測モデルをビジネスに導入した場合のビジネス効果を予測する。学習部１５６が複数の予測モデルを生成する場合、予測部１５８は複数の予測モデルをビジネスに導入した場合のビジネス効果（以下、予測効果ともいう）をそれぞれ予測する。

　予測部１５８は、過去事例記憶部１２１から、抽出部１５３が抽出した抽出対象と同じ項目を過去対象とする過去事例を選択する。予測部１５８は、選択した過去事例に含まれる「ビジネス効果」を新たな「予測対象」（以下、効果予測対象ともいう）として予測分析を行う。

　具体的に、まず予測部１５８は、「ビジネス効果」を「効果予測対象」に設定する。次に、予測部１５８は、過去事例から「ビジネス効果」に関連する項目を「使用項目」に設定する。なお、予測部１５８は、例えば過去事例および構造化したユーザデータ（あるいは構築データセット）の両方に含まれる項目の中から「使用項目」を設定するようにしてもよい。

　予測部１５８は、過去事例から「使用項目」に該当するデータを抽出することで、データセット（以下、効果学習データセットともいう）を構築する。予測部１５８は、効果予測データセットおよび「効果予測対象」に基づき、機械学習によって、例えば回帰問題を解くことで、予測モデル（以下、効果予測モデルともいう）を生成する。

　続いて、予測部１５８は、構造化したユーザデータから「使用項目」に該当するデータを抽出してデータセット（以下、効果予測データセットともいう）を構築する。予測部１５８は、効果予測データセットおよび生成した効果予測モデルに基づき、学習部１５６が生成した予測モデルをビジネス導入した場合のビジネス効果を予測する。

　なお、上述した手法は一例であり、予測部１５８は、種々の既知の技術に基づき、ビジネス効果を予測してもよい。また、予測部１５８が行う効果予測データセットの構築や効果予測モデルの学習等を抽出部１５３や学習部１５６の一部の機能を用いて実行するようにしてもよい。

（収集決定部）
　収集決定部１５９は、抽出した問題設定ごとに、過去事例およびユーザデータに基づき、ユーザに収集を提案するデータ項目（以下、提案項目ともいう）を決定する。問題設定が複数ある場合、収集決定部１５９は複数の問題設定ごとに提案項目を決定する。なお、収集決定部１５９が１つの問題設定に対して複数の提案項目を決定してもよい。

　収集決定部１５９は、過去事例のデータセット（過去データセット）と、抽出部１５３が構築したデータセット又はリーク検出補正部１５５が補正したデータセット（構築データセット）とを比較する。収集決定部１５９は、過去データセットに含まれ、構築データセットに含まれない「使用項目」（以下、「未収集項目」ともいう）を抽出する。

　まず、収集決定部１５９は、過去事例において、「未収集項目」を使用しなかった場合のビジネス効果を予測する。具体的には、収集決定部１５９は、「未収集項目」を除く過去データセットを利用して予測モデルを学習し、予測モデルの精度を評価する。収集決定部１５９は、評価した予測精度でのビジネス効果を改めて算出する。なお、ここでの予測モデルの学習、評価およびビジネス効果の算出は、学習部１５６、評価部１５７および予測部１５８の処理と同様であるため、説明を省略する。

　収集決定部１５９は、算出したビジネス効果に基づき、効果が減少した「未収集項目」を提案項目に決定する。

　なお、収集決定部１５９が複数の「未収集項目」を抽出する場合、収集決定部１５９は、「未収集項目」ごとにビジネス効果を再算出する。そして、収集決定部１５９は、ビジネス効果の減少量が最も大きい「未収集項目」を提案項目に決定する。あるいは、収集決定部１５９は、ビジネス効果の減少量が閾値以上の「未収集項目」を提案項目に決定してもよく、あるいは所定数の「未収集項目」を提案項目に決定してもよい。

　また、データ収集にかかった「収集コスト」が過去事例に含まれる場合、収集決定部１５９は、改めて算出したビジネス効果と収集コストに基づき、提案項目を決定してもよい。この場合、収集決定部１５９は、予測部１５８が「未収集項目」を含めて算出したビジネス効果から収集コストを引いた導入効果と「未収集項目」を含めず算出したビジネス効果との差を算出する。収集決定部１５９は、算出した差が大きい「未収集項目」を提案項目に決定する。

　このように、収集決定部１５９がデータの「収集コスト」も含めて提案項目を決定することで、情報処理装置１２は、収集コストが低くデータの収集が容易である未収集項目を優先してユーザに提案することができる。あるいは、情報処理装置１２は、収集コストは高いが使用するとビジネス効果が大きい未収集項目のデータ収集をユーザに提案することができる。

　なお、ここでは、収集決定部１５９が「未収集項目」を使用しなかった場合の予測モデルの学習、精度評価およびビジネス効果の算出を行うとしたが、これに限定されない。例えば、学習部１５６、評価部１５７および予測部１５８がそれぞれ予測モデルの学習、精度評価およびビジネス効果の算出を行うようにしてもよい。この場合、収集決定部１５９は、各部の結果に基づき、提案項目を決定する。

　また、ここでは、収集決定部１５９がビジネス効果に基づいて提案項目を決定するとしたが、これに限定されない。収集決定部１５９が、例えば予測モデルの評価結果に基づいて提案項目を決定するようにしてもよい。この場合、収集決定部１５９は、「未収集項目」を使用せずに学習した予測モデルの精度を評価し、評価の減少量が少ない「未使用項目」を提案項目に決定する。

（寄与度算出部）
　寄与度算出部１６０は、学習部１５６で学習した予測モデルに入力されるテスト用データの特徴量のうち、どの特徴量がどれだけ予測結果に寄与するかを示す寄与度を算出する。具体的に、寄与度算出部１６０は、寄与度の算出対象とする特徴量を予測モデルの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する。

　ここで、寄与度算出部１６０が算出する寄与度には、正の値と負の値とが含まれる。寄与度が正の値であることは、特徴量の集合が予測に対して正に寄与する、すなわち予測モデルによって予測される予測確率を向上させることを意味する。また、寄与度が負の値であることは、特徴量の集合が予測に対して負に寄与する、すなわち予測モデルによって予測される予測確率を低下させることを意味する。

　また、寄与度算出部１６０は、寄与度を算出した特徴量が、特徴量の集合（項目）に占める割合を算出する。算出した割合が低いと、寄与度が高くても滅多に発生しないケースであり、ユーザにとっての利用価値が低くなる。そこで、本開示の実施形態では、寄与度算出部１６０が寄与度を算出した特徴量の割合を算出し、かかる割合もユーザに提示する。これにより、ユーザは、発生度合いも考慮して、データの寄与度を確認することができる。

　なお、ここでは、予測部１５８、寄与度算出部１６０および収集決定部１５９がそれぞれビジネス効果、寄与度を算出し、提案項目を決定するとしたが、これら全てを算出／決定する必要はない。例えば、寄与度算出部１６０が寄与度を算出するようにし、予測部１５８によるビジネス効果の算出および収集決定部１５９による提案項目の決定を省略してもよい。あるいは、寄与度算出部１６０による寄与度の算出および予測部１５８によるビジネス効果の算出を行うようにし、収集決定部１５９による提案項目の決定を省略してもよい。また、算出／決定する処理をユーザが選択できるようにしてもよい。

（表示制御部）
　表示制御部１４３は、各種情報の表示を制御する。表示制御部１４３は、端末装置１１における各種情報の表示を制御する。表示制御部１４３は、表示態様を制御する制御情報を含む画像を生成する。この制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）やＣＳＳ等のスクリプト言語により記述される。表示制御部１４３は、上記のような制御情報を含む画像を端末装置１１に提供することにより、制御情報にしたがって端末装置１１に上述した表示処理を行わせる。なお、表示制御部１４３は、上記に限らず、種々の従来技術を適宜用いて、端末装置１１の表示を制御してもよい。

［１－５．実施形態に係る時系列処理部の構成例］
　図９は、図７の時系列処理部１５４の構成例を示している。

　時系列処理部１５４は、分離部２０１、リサンプリング部２０２、及び、変化点検出部２０３を備える。

（分離部）
　分離部２０１は、構築データセットが複数の異なる系列の時系列データセットを含む場合、系列毎に時系列データセットを分離する。例えば、分離部２０１は、構築データセット内の日時に関する項目（以下、日時項目と称する）の値が重複する度合いに基づいて、構築データセットを複数の系列の時系列データセットに分離する。

（リサンプリング部）
　リサンプリング部２０２は、構築データセットが時系列データセットである場合、時系列データセットの日時のリサンプリングを行う。また、リサンプリング部２０２は、構築データセットが複数の時系列データセットを含む場合、系列毎に時系列データセットの日時のリサンプリングを行う。

（変化点検出部）
　変化点検出部２０３は、構築データセットが時系列データセットである場合、予測対象の値の傾向が大きく変化する変化点の検出を行う。また、変化点検出部２０３は、検出した変化点に基づいて構築データセットを分割する。

［１－６．実施形態に係るリーク検出補正部の構成例］
　図１０は、図７のリーク検出補正部１５５の構成例を示している。

　リーク検出補正部１５５は、発生日時特定部２２１、取得日時特定部２２２、予測実行タイミング設定部２２３、リーク検出部２２４、及び、リーク補正部２２５を備える。

（発生日時特定部）
　発生日時特定部２２１は、構築データセットに含まれる各データの発生日時を特定する。発生日時は、例えば、データに関連する事象が真に発生した日時を示す。発生日時は、例えば、年、月、日、及び、時刻のうちの１つ以上により表される。

（取得日時特定部）
　取得日時特定部２２２は、構築データセットに含まれる各データの取得日時を特定する。所得日時は、例えば、ユーザが実際にデータを取得できるようになった日時、又は、ユーザが実際にデータを取得した日時を示す。取得日時は、例えば、年、月、日、及び、時刻のうちの１つ以上により表される。

　例えば、２０１９年１２月８日の出荷数のデータの発生日時は、２０１９年１２月８日となる。一方、２０１９年１２月８日の出荷数のデータを必ずしもその日のうちにユーザが取得できるとは限らない。例えば、ある製品の出荷数が、各工場で記録され、月末に集計され、実際にデータ分析担当者（ユーザ）が利用できるようになるのが、翌月の１５日となるケースが想定される。この場合、出荷数のデータの所得日時は、２０２０年１月１５日となる。

（予測実行タイミング設定部）
　予測実行タイミング設定部２２３は、予測対象の性質、及び、過去事例記憶部１２１に記憶されている過去事例等に基づいて、予測対象の予測を行うタイミング（以下、予測実行タイミングと称する）を設定する。

（リーク検出部）
　リーク検出部２２４は、構築データセットの性質、及び、過去事例記憶部１２１に記憶されている過去事例等に基づいて、構築データセットのリークの可能性の検出を行う。

　なお、構築データセットの性質は、例えば、構築データセット全体の性質、構築データセットの各項目の性質、及び、構築データセットに含まれる各データの性質を含む。

（リーク補正部）
　リーク補正部２２５は、例えば、端末装置１１を介して入力されるユーザからの指示、過去事例記憶部１２１に記憶されている過去事例、及び、ユーザプロファイル記憶部１２３に記憶されているプロファイル情報等に基づいて、リーク検出部２２４により検出されたリークの可能性を解消するように、構築データセットを補正する。

［１－７．実施形態に係る情報処理の手順］
　次に、図１１のフローチャートを用いて、実施形態に係る情報処理の手順について説明する。

　ステップＳ１０１において、取得部１４１は、上述したように、記憶部１０２から過去事例およびユーザデータを取得する。

　ステップＳ１０２において、時間予測部１５１は、上述したように、取得した一部のユーザデータを用いて分析処理にかかる処理時間（予測処理時間）を予測する。

　ステップＳ１０３において、解釈部１５２は、上述したように、ユーザデータを解析し、構造化することで構造化データを生成する。

　ステップＳ１０４において、抽出部１５３は、上述したように、構造化データおよび過去事例に基づき、問題設定を抽出する。

　ステップＳ１０５において、抽出部１５３は、上述したように、抽出した問題設定に応じたデータセット（構築データセット）を構築する。

　ステップＳ１０６において、時系列処理部１５４は、時系列処理を実行する。

　ここで、図１２のフローチャートを用いて、時系列処理の詳細について説明する。

　ステップＳ１５１において、分離部２０１は、時系列データセットであるか否かを判定する。例えば、分離部２０１は、構築データセットの項目の中に「日時」に関する日時項目がある場合、構築データセットが時系列データセットであると判定し、処理はステップＳ１５２に進む。

　日時項目とは、例えば、年、月、日、時刻、及び、曜日のうち少なくとも１つによりデータが表される項目である。

　図１３は、構築データセットの例を示している。この構築データセットは、「日付」、「販売地域」、「販売数」、「イベント（予定）」、及び、「広告費（予定）」の項目を含んでいる。この例では、「日付」が日時項目となる。

　なお、以下、「販売数」が予測対象であり、「販売地域」がカテゴリに関する項目（以下、カテゴリ項目と称する）であるものとする。カテゴリとは、例えば、部類、分類、ジャンル等である。

　なお、以下、構築データセットの１行分のデータであって、各項目のデータを含む１組のデータをレコードと称する。

　ステップＳ１５２において、分離部２０１は、日時が重複するレコードの数をカウントする。例えば、分離部２０１は、日時項目により構築データセットをソートする。そして、分離部２０１は、日時項目の値が他のレコードと重複するレコードの数をカウントする。

　例えば、図１３の構築データセットにおいて、「日付」の値が他のレコードと重複するレコードの数がカウントされる。

　ステップＳ１５３において、分離部２０１は、日時が重複するレコードが一定比率以上存在するか否かを判定する。具体的には、分離部２０１は、ステップＳ１５２の処理で求めたレコード数が、構築データセットの全レコード数に占める比率を計算する。分離部２０１は、計算した比率が所定の閾値以上である場合、日時が重複するレコードが一定比率以上存在すると判定し、処理はステップＳ１５４に進む。

　ステップＳ１５４において、分離部２０１は、各カテゴリ内で日時が重複しないレコードの数をカウントする。例えば、分離部２０１は、カテゴリ項目の値（以下、カテゴリ値と称する）毎に構築データセットを複数の系列に分割する。次に、分離部２０１は、各系列のデータセットを日時項目によりソートする。次に、分離部２０１は、各系列のデータセット毎に他のレコードと日時が重複しないレコードの数をカウントする。そして、分離部２０１は、各系列のデータセット毎にカウントしたレコード数を合計する。

　例えば、図８の構築データセットが、「販売地域」の値が「地域Ａ」の系列のデータセットと「地域Ｂ」の系列のデータセットに分割される。次に、「地域Ａ」の系列のデータセットにおいて「日付」の値が他のレコードと重複しないレコードの数がカウントされる。同様に、「地域Ｂ」の系列のデータセットにおいて、「日付」の値が他のレコードと重複しないレコードの数がカウントされる。そして、「地域Ａ」の系列のデータセットにおいてカウントされたレコード数と、「地域Ｂ」の系列のデータセットにおいてカウントされたレコード数が合計される。

　ステップＳ１５５において、分離部２０１は、各カテゴリ内で日時が重複しないレコードの比率が一定以上であるか否かを判定する。具体的には、分離部２０１は、ステップＳ１５４の処理で求めたレコード数が、構築データセットの全レコード数に占める比率を計算する。分離部２０１は、計算した比率が所定の閾値以上である場合、各カテゴリ内で日時が重複しないレコードの比率が一定以上であると判定し、処理はステップＳ１５６に進む。

　これは、例えば、構築データセットにおいて日時項目の値が重複するレコードの比率が高い一方、構築データセットをカテゴリ値により複数の系列に分割することにより、日時が重複するレコードの比率が大幅に低下する場合が想定される。

　ステップＳ１５６において、分離部２０１は、構築データセットが、複数系列の時系列データセットを含んでいると判定する。すなわち、分離部２０１は、カテゴリ値毎に複数の系列の時系列データセットに構築データセットが分離されると判定する。

　例えば、図１３の構築データセットでは、「日付」の値が他のレコードと重複するレコードの比率が高い。一方、図１４に示されるように、構築データセットを「地域Ａ」の系列のデータセット及び「地域Ｂ」の系列のデータセットに分割すると、各系列のデータセットにおいて、「日付」の値が他のレコードと重複するレコードの比率が低下する。従って、図１３の構築データセットは、「販売地域」が「地域Ａ」の系列と「販売地域」が「地域Ｂ」の系列の２系列の時系列データセットに分離されると判定される。

　その後、処理はステップＳ１５８に進む。

　一方、ステップＳ１５５において、各カテゴリ内で日時が重複しないレコードの比率が一定未満であると判定された場合、処理はステップＳ１５７に進む。

　また、ステップＳ１５３において、日時が重複するレコードが一定比率以上存在しないと判定された場合、処理はステップＳ１５７に進む。

　ステップＳ１５７において、分離部２０１は、構築データセットが、単一系列の時系列のデータセットであると判定する。

　その後、処理はステップＳ１５８に進む。

　ステップＳ１５８において、リサンプリング部２０２は、データセットの日時のリサンプリングを行う。

　具体的には、リサンプリング部２０２は、構築データセットを系列毎に分割し、各系列のデータセットを日時項目によりソートする。なお、構築データセットが単一系列の時系列データセットの場合、構築データセット全体が１つの系列となる。

　次に、リサンプリング部２０２は、系列毎に隣接するレコード間の時間間隔を算出する。そして、リサンプリング部２０２は、全ての系列において、最も出現頻度が高い時間間隔（以下、最頻時間間隔と称する）を求める。

　次に、リサンプリング部２０２は、最頻時間間隔に基づいて、時間単位を設定する。例えば、最頻時間間隔＜６０秒である場合、時間単位は「秒」に設定される。６０秒≦最頻時間間隔＜６０×６０秒である場合、時間単位は「分」に設定される。６０×６０秒≦最頻時間間隔＜２４×６０×６０秒である場合、時間単位は「時」に設定される。２４×６０×６０秒≦最頻時間間隔＜３６５×２４×６０×６０秒である場合、時間単位は「日」に設定される。３６５×２４×６０×６０秒≦最頻時間間隔である場合、時間単位は「年」に設定される。

　そして、リサンプリング部２０２は、設定した時間単位で系列毎にデータセットのリサンプリングを行う。すなわち、各系列のデータセットの日時項目の値が、設定された時間単位に基づいて再設定される。

　ステップＳ１５９において、リサンプリング部２０２は、予測対象の欠損値を補間する。具体的には、リサンプリング部２０２は、系列毎に、予測対象の値が欠損している日時における値を補間する。補間方法には、例えば、前値継承、移動平均等の中から、予測対象の性質に適した方法が用いられる。

　例えば、９時から１７時までの営業時間内に１時間間隔で取得されるデータセットでは、１８時から翌日の８時までの期間（以下、欠損期間と称する）内のデータが欠損する。これに対して、ステップＳ１５８及びステップＳ１５９の処理により、欠損期間における予測対象のデータが補間される。

　図１５は、図１３の構築データセットにおいて、「販売地域」が「地域Ａ」の系列と「販売地域」が「地域Ｂ」の系列のデータセットのリサンプリングを行った後の各系列の販売数の時系列の推移を示すグラフである。横軸は日付を示し、縦軸は販売数を示している。

　ステップＳ１６０において、変化点検出部２０３は、予測対象の変化点が存在するか否かを判定する。

　具体的には、変化点検出部２０３は、系列毎に予測対象の値を時系列に並べた場合に、予測対象の値の傾向が大きく変化する点（日時）の検出を行う。変化点の検出方法は、例えば、予測対象の性質に適した方法が用いられる。例えば、日時の昇順で繰り返し予測対象の時系列予測を行い、予測と実際の値が大きく外れた点を変化点として検出する方法が考えられる。

　変化点検出部２０３は、少なくとも１つの系列において変化点が検出された場合、予測対象の変化点が存在すると判定し、処理はステップＳ１６１に進む。

　ステップＳ１６１において、変化点検出部２０３は、変化点に基づいて、データセットを分割する。具体的には、変化点検出部２０３は、いずれかの系列で検出された変化点毎に、構築データセットを複数の期間に分割する。

　そして、例えば、最後の期間より前のデータセットを無視し、最後の期間のデータセットのみを用いて学習処理を行うことにより、予測モデルが予測対象の変化が起きる前のデータの影響を受けることが防止される。これにより、実運用時に予測モデルの予測精度が低下することが防止される。

　その後、処理はステップＳ１６２に進む。

　なお、例えば、構築データセットに複数のカテゴリ項目が含まれる場合、各カテゴリ項目について、ステップＳ１５４乃至ステップＳ１６１の処理をそれぞれ行うようにしてもよい。これにより、各カテゴリ項目について、構築データセットの分離、及び、リサンプリングが行われる。

　一方、ステップＳ１６０において、変化点検出部２０３は、いずれの系列においても変化点が検出されなかった場合、予測対象の変化点が存在しないと判定し、ステップＳ１６１の処理はスキップされ、処理はステップＳ１６２に進む。

　ステップＳ１６２において、表示制御部１４３は、時系列処理の結果をユーザに提示する。例えば、表示制御部１４３は、端末装置１１において、図１６の画像を表示させる。

　図１６の画像には、グラフ３０１、リストボックス３０２、リストボックス３０３、チェックボックス３０４、リストボックス３０５、「戻る」ボタン３０６、「キャンセル」ボタン３０７、及び、「実行」ボタン３０８が表示されている。

　グラフ３０１は、図１３の構築データセットの「地域Ａ」の系列の販売数及び「地域Ｂ」の系列に販売数のグラフを示している。すなわち、構築データセットが「地域Ａ」と「地域Ｂ」の２系統の時系列データセットに分離され、各時系列データセットの日時のリサンプリングを行った結果が示されている。

　リストボックス３０２及びリストボックス３０３は、予測期間の設定に用いられる。予測期間とは、予測対象（例えば、販売数）の予測を行う対象となる期間である。リストボックス３０２は、予測期間の開始日時の設定に用いられ、リストボックス３０３は、予測期間の終了日時の設定に用いられる。すなわち、リストボックス３０２により設定された日時からリストボックス３０３により設定された日時までが予測期間に設定される。この例では、予測実行タイミングを基準にして、１０日先から４０日先までの期間が予測期間に設定されている。

　チェックボックス３０４は、リストボックス３０２及びリストボックス３０３を用いずに、予測期間を直接入力する場合に用いられる。すなわち、チェックボックス３０４がチェックされると、予測期間の直接入力が可能になる。一方、チェックボックス３０４のチェックが外されると、リストボックス３０２及びリストボックス３０３による予約期間の入力が可能になる。

　リストボックス３０５は、構築データセットを複数の時系列データセットに分離する系列の選択に用いられる。例えば、構築データセットが、複数のカテゴリ項目により、それぞれ複数の時系列データセットに分離可能である場合、リストボックス３０５には、各カテゴリ項目の名前が系列名として表示される。そして、リストボックス３０５により選択されたカテゴリ項目に基づいて分離された時系列データセットのグラフが、グラフ３０１として表示される。

　「戻る」ボタン３０６は、図１６の画像に遷移する前の画像に戻る場合に用いられる。

　「キャンセル」ボタン３０７は、予測モデルの学習及び評価の実行をキャンセルする場合に用いられる。

　「実行」ボタン３０７は、予測モデルの学習及び評価を実行する場合に用いられる。

　その後、時系列処理は終了する。

　図１２に戻り、一方、ステップＳ１５１において、分離部２０１は、構築データセットの項目の中に日時項目がない場合、構築データセットが非時系列データセットであると判定し、ステップＳ１５１乃至ステップＳ１６２の処理はスキップされ、時系列処理は終了する。

　図１１に戻り、ステップＳ１０７において、リーク検出補正部１５５は、リーク検出処理を実行する。

　ここで、図１７及び図１８のフローチャートを用いて、リーク検出処理の詳細について説明する。

　ステップＳ２０１において、発生日時特定部２２１及び取得日時特定部２２２は、データの発生日時及び取得日時を特定する。

　具体的には、発生日時特定部２２１は、構築データセットに含まれる各データの発生日時を特定する。

　なお、データの発生日時は、ユーザにより指示されたり、自明であったりする場合が多い。この場合、発生日時特定部２２１は、その発生日時をそのままデータの発生日時に設定する。例えば、「２０１９年１２月８日」の「出荷数」のデータの発生日時は、２０１９年１２月８日に特定される。

　一方、データの発生日時が不明である場合、発生日時特定部２２１は、例えば、データの内容等に基づいて、発生日時を推定する。

　例えば、発生日時特定部２２１は、データに関連する現象、及び、各種の現象の発生時期に関するデータベースに基づいて、データの発生日時を推定する。例えば、画像データに建造物が写っている場合、その建造物の築年月日が分かれば、その画像データの発生日時は、その築年月日以降であると推定される。例えば、構築データセットの項目に「曲名」が含まれる場合、各レコードに含まれるデータの発生日時は、同じレコードに含まれる曲名の曲の発売日以降であると推定される。例えば、ある製造装置の故障データは、その製造装置の生産時期及び寿命から推定することが可能である。

　また、取得日時特定部２２２は、データセットに含まれる各データの取得日時を特定する。

　データの取得日時は、例えば、ビジネスにおけるワークフローの影響を強く受けるため、発生日時のように、データベースを用いて推定を行うことは難しい。一方、ビジネスで利用するデータは、ビジネスのワークフローの管理下にあるため、取得日時が記録されていることが多い。

　従って、例えば、取得日時特定部２２２は、各データのファイルのタイムスタンプ、Ｅｘｉｆ（Exchangeable image file format）情報、データベースの更新時刻、バージョン管理システムの履歴等に基づいて、各データの取得日時を特定する。

　ステップＳ２０２において、予測実行タイミング設定部２２３は、予測を実行するタイミングを設定する。

　予測対象の予測を実行するタイミング（予測実行タイミング）は、最も早くても、予測に用いるデータセットの最後のデータを取得したタイミング以降となる。ただし、実際には、最後のデータを取得してから予測を実行するまでの間には、ギャップと呼ばれる一定の期間が必要となる。

　そこで、例えば、予測実行タイミング設定部２２３は、過去事例、及び、予測対象の性質等に基づいて、予測期間よりどのくらい前に、予測対象の予測を実行するかを設定する。

　例えば、予測対象が「弁当の出荷数」である場合、前日の売上金額等を使用した方が、予測精度が向上する。しかし、例えば、弁当の食材の発注期限が遅くとも３日前であれば、予測実行タイミング設定部２２３は、予測期間の３日前に予測実行タイミングを設定する。

　また、例えば、上述した図１６の画像において、予測期間が設定されている場合、その予測期間に基づいて、予測実行タイミングが設定される。例えば、図１６の例では、予測期間が１０日先から４０日先までの期間に設定されているので、予測実行タイミングは、予測期間の４０日前に設定される。

　ステップＳ２０３において、リーク検出部２２４は、発生日時又は取得日時が予測実行タイミングより後のデータが存在するか否かを判定する。例えば、リーク検出部２２４は、構築データセット内の各データの発生日時及び取得日時と予測実行タイミングと比較する。そして、リーク検出部２２４は、発生日時及び取得日時のうち少なくとも一方が予測実行タイミングより後のデータが存在する場合、発生日時又は取得日時が予測実行タイミングより後のデータが存在すると判定し、処理はステップＳ２０４に進む。

　ステップＳ２０４において、リーク検出部２２４は、時系列リークの可能性があると判定する。すなわち、リーク検出部２２４は、発生日時又は取得日時が予測実行タイミングより後のデータは、予測実行タイミングまでに発生しない、又は、所得できないため、リークの可能性があると判定する。このように、データの発生日時又は取得日時と、予測実行タイミングとの関係に基づいて、時系列リークの可能性が検出される。

　その後、処理はステップＳ２０５に進む。

　一方、ステップＳ２０３において、リーク検出部２２４は、発生日時及び取得日時のうち少なくとも一方が予測実行タイミングより後のデータが存在しない場合、発生日時又は取得日時が予測実行タイミングより後のデータが存在しないと判定し、ステップＳ２０４の処理はスキップされ、処理はステップＳ２０５に進む。すなわち、時系列リークの可能性が低いと判定される。

　ステップＳ２０５において、リーク検出部２２４は、データセットの各項目の識別性を判定する。すなわち、リーク検出部２２４は、データセットの各項目が、データセット内の各レコードを識別可能な識別情報（例えば、ＩＤ等）を含むか否かを判定する。

　なお、識別性がある項目（以下、識別項目と称する）の性質の例として、以下が挙げられる。

・項目内のデータのユニーク率が１００％又は１００％に近い。
・項目名に「ＩＤ」の文字列を含む。
・データセットの先頭又は先頭に近い列に配置される。
・日時項目でない。
・データが文字列又は整数により表される。
・データに単位がつかない。

　例えば、リーク検出部２２４は、上記の性質等に基づいて、ルールベース、又は、機械学習ベースにより、データセットの各項目の識別性を判定する。

　ステップＳ２０６において、リーク検出部２２４は、ステップＳ２０５の処理の結果に基づいて、識別項目が存在するか否かを判定する。識別項目が存在すると判定された場合、処理はステップＳ２０７に進む。

　ステップＳ２０７において、リーク検出部２２４は、識別項目のクラスタリングを行う。例えば、リーク検出部２２４は、識別項目のデータ（識別情報）が文字列により表される場合、レーベンシュタイン距離ベースでクラスタリングを行う。

　これにより、構築データセット内のレコードが識別項目（識別情報）に基づいて、複数のクラスタに分類される。

　ステップＳ２０８において、リーク検出部２２４は、各クラスタと予測対象の相関を調べる。例えば、リーク検出部２２４は、各クラスタと、各クラスタに含まれるレコード内の予測対象の値との間の相関係数を算出する。

　ステップＳ２０９において、リーク検出部２２４は、識別項目と予測対象との間に相関があるか否かを判定する。リーク検出部２２４は、ステップＳ２０８の処理で算出した相関係数が所定の閾値以上である場合、識別項目と予測対象との間に相関があると判定し、処理はステップＳ２１０に進む。

　ステップＳ２１０において、リーク検出部２２４は、識別情報リークの可能性があると判定する。

　通常、識別項目に含まれる識別情報の値は、レコードを一意に識別する以外の意味を持たない。しかし、識別情報と予測対象との間に相関があるということは、予測対象に関連する重要な情報が識別情報に漏れだしている可能性が高いと想定される。例えば、識別情報にユーザの性別を示す文字が含まれ、予測対象がユーザの洋服の購入額である場合、性別と洋服の購入額の間には、ある程度の相関があると想定される。従って、この場合、識別情報リークの可能性があると判定される可能性がある。

　その後、処理はステップＳ２１１に進む。

　一方、ステップＳ２０９において、リーク検出部２２４は、ステップＳ２０８の処理で算出した相関係数が所定の閾値未満である場合、識別項目と予測対象の相関がないと判定し、ステップＳ２１０の処理はスキップされ、処理はステップＳ２１１に進む。すなわち、識別情報リークの可能性が低いと判定される。

　また、ステップＳ２０６において、識別項目が存在しないと判定された場合、ステップＳ２０７乃至ステップＳ２１０の処理はスキップされ、処理はステップＳ２１１に進む。

　ステップＳ２１１において、リーク検出部２２４は、データセットにカテゴリ項目が含まれるか否かを判定する。リーク検出部２２４が、構築データセットにカテゴリ項目が含まれると判定した場合、処理はステップＳ２１２に進む。

　ステップＳ２１２において、リーク検出部２２４は、カテゴリにより分割したグループを用いて、グループＫ分割交差検証を行う。

　具体的には、まず、リーク検出部２２４は、カテゴリ項目の値（カテゴリ値）毎に、構築データセットを複数のグループに分割する。そして、リーク検出部２２４は、各グループをそれぞれ１つずつテスト用データとし、残りのグループを学習用データとして、予測モデルの学習及び検証を行う。これにより、各グループをテスト用データに用いた場合の予測モデルの予測精度が求められる。

　ステップＳ２１３において、リーク検出部２２４は、グループ間の予測精度の差が大きいか否かを判定する。具体的には、リーク検出部２２４は、各グループをテスト用データに用いた場合の予測モデルの予測精度を比較する。リーク検出部２２４は、例えば、各グループの予測精度の間に有意な差がある場合、グループ間の予測精度の差が大きいと判定し、処理はステップＳ２１４に進む。或いは、例えば、リーク検出部２２４は、各グループの予測精度の最大値と最小値の差が所定の閾値以上である場合、グループ間の予測精度の差が大きいと判定し、処理はステップＳ２１４に進む。

　ステップＳ２１４において、リーク検出部２２４は、カテゴリリークの可能性があると判定する。すなわち、そのカテゴリ項目のデータは、予測分析に有用な情報を含んでいる可能性がある一方、そのカテゴリ項目のデータに基づいて、単純なルールベースで、設定された問題を高精度に解ける可能性がある。そのような問題は、実用上意味がないため、そのカテゴリ項目にリークの可能性があると判定される。

　その後、処理はステップＳ２１５に進む。

　一方、ステップＳ２１３において、リーク検出部２２４は、例えば、各グループの予測精度の間に有意な差がない場合、グループ間の予測精度の差が小さいと判定し、ステップＳ２１４の処理はスキップされ、処理はステップＳ２１５に進む。或いは、例えば、リーク検出部２２４は、各グループの予測精度の最大値と最小値の差が所定の閾値未満である場合、グループ間の予測精度の差が小さいと判定し、ステップＳ２１４の処理はスキップされ、処理はステップＳ２１５に進む。すなわち、カテゴリリークの可能性が低いと判定される。

　なお、構築データセットにカテゴリ項目が複数含まれる場合、例えば、ステップＳ２１２乃至ステップＳ２１４の処理が、各カテゴリ項目に対して実行される。

　また、ステップＳ２１１において、データセットにカテゴリ項目が含まれないと判定された場合、ステップＳ２１２乃至ステップＳ２１４の処理はスキップされ、処理はステップＳ２１５に進む。

　ステップＳ２１５において、図１２のステップＳ１５１の処理と同様に、構築データセットが、時系列データセットであるか否かが判定される。構築データセットが、非時系列データセットであると判定された場合、処理はステップＳ２１６に進む。

　ステップＳ２１６において、リーク検出部２２４は、ホールドアウト検証とＫ分割交差検証を行う。

　具体的には、リーク検出部２２４は、構築データセットの（レコードの）並び順を保持したまま、ホールドアウト検証を行う。例えば、リーク検出部２２４は、図１９に示されるように、構築データセットの先頭から所定の割合（例えば、８０％）のレコードを学習用データ（ｔｒａｉｎ）に設定し、残りのレコードをテスト用データ（ｈｏｌｄｏｕｔ）に設定して、予測モデルの学習及び検証を行う。これにより、予測モデルの予測精度が求められる。

　また、リーク検出部２２４は、構築データセットの（レコードの）並び順を保持したまま、Ｋ分割交差検証を行う。例えば、リーク検出部２２４は、図１９に示されるように、構築データセットを３個のグループ（ｆｏｌｄ１乃至ｆｏｌｄ３）に分割する。そして、リーク検出部２２４は、各グループをそれぞれ１つずつテスト用データとし、残りのグループを学習用データとして、予測モデルの学習及び検証を行う。これにより、各グループをテスト用データに用いた場合の予測モデルの予測精度が求められる。

　ステップＳ２１７において、リーク検出部２２４は、ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が大きいか否かを判定する。具体的には、リーク検出部２２４は、ホールドアウト検証における予測精度と、Ｋ分割交差検証において各グループをそれぞれテスト用データに用いた場合の複数の予測精度とを比較する。

　リーク検出部２２４は、Ｋ分割交差検証における複数の予測精度のうちの少なくとも１つが、ホールドアウト検証における予測精度に対して有意な差がある場合、ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が大きいと判定し、処理はステップＳ２１８に進む。

　或いは、例えば、リーク検出部２２４は、Ｋ分割交差検証における各予測精度とホールドアウト検証における予測精度との差を算出する。そして、リーク検出部２２４は、算出した予測精度の差の最大値が所定の閾値以上である場合、ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が大きいと判定し、処理はステップＳ２１８に進む。

　ステップＳ２１８において、リーク検出部２２４は、並び順リークの可能性があると判定する。

　ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が大きい場合、例えば、構築データセットのレコードの並び順に何らかの意味があり、学習用データの選び方により予測モデルの精度が大きく変動することが想定される。

　一方、構築データセットが非時系列データセットである場合、事前評価時と実運用時とでデータの傾向が変化しないことを前提として、予測分析が行われる。しかしながら、学習用データの選び方により予測モデルの精度が大きく変動してしまうと、その前提が成り立たなくなる。

　従って、構築データセットの並び順にリークの可能性があると判定される。

　その後、処理はステップＳ２１９に進む。

　一方、ステップＳ２１７において、リーク検出部２２４は、Ｋ分割交差検証における各予測精度とホールドアウト検証における予測精度との間に有意な差がない場合、ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が小さいと判定し、ステップＳ２１８の処理はスキップされ、処理はステップＳ２１９に進む。すなわち、並び順リークの可能性が低いと判定される。

　或いは、例えば、リーク検出部２２４は、Ｋ分割交差検証における予測精度とホールドアウト検証における予測精度との差の最大値が所定の閾値未満である場合、ホールドアウト検証の結果とＫ分割交差検証の結果との間の差が小さいと判定し、ステップＳ２１８の処理はスキップされ、処理はステップＳ２１９に進む。すなわち、並び順リークの可能性が低いと判定される。

　また、ステップＳ２１５において、構築データセットが、時系列データセットであると判定された場合、ステップＳ２１６乃至ステップＳ２１８の処理はスキップされ、処理はステップＳ２１９に進む。

　ステップＳ２１９において、リーク検出部２２４は、データセットの項目名に基づいて、項目名リークの可能性を検出する。

　例えば、各現象の予測又は制御の困難度が、予めデータベース化され、記憶部１０２に記憶されている。

　一方、例えば、リーク検出部２２４は、ルールベース又は単語間の分散表現の類似度等に基づいて、構築データセットの各項目の項目名と各現象とのマッチング行う。次に、リーク検出部２２４は、上述したデータベースに基づいて、構築データセットの各項目に対応する現象の予測又は制御の困難度を求める。そして、リーク検出部２２４は、困難度が所定の閾値以上の現象に対応する項目をリークの可能性があると判定する。

　例えば、一般に自然現象は制御することが難しく、早期の予測が困難である。従って、例えば、「気温」、「天気」、「震度」のような自然現象に関する項目名がデータセットに含まれており、かつ、予測実行タイミングが１か月以上先である場合、この項目はリークの可能性があると判定される。

　ステップＳ２２０において、リーク検出部２２４は、データセットのドメインに基づいて、ドメインリークの可能性を検出する。例えば、リーク検出部２２４は、構築データセット全体のドメイン（例えば、営業、生産管理、人事等）に基づいて、個々のドメインでリークしがちな過去事例等を参考にして、構築データセットのリークの可能性を検出する。

　その後、リーク検出処理は終了する。

　図１１に戻り、ステップＳ１０８において、学習部１５６は、上述したように、問題設定および構築データセットに基づき、予測モデルを学習する。

　ステップＳ１０９において、評価部１５７は、上述したように、データセットを学習用データとテスト用データに分割し、学習用データを用いて予測モデルを生成する。評価部１５７は、テスト用データを用いて予測モデルを評価する。

　ステップＳ１１０において、予測部１５８は、上述したように、予測モデルをビジネス導入した場合のビジネス効果を予測する。

　ステップＳ１１１において、収集決定部１５９は、上述したように、過去事例に基づき、データセットに追加するとビジネス効果が増加する可能性がある項目を提案項目に決定する。

　ステップＳ１１２において、寄与度算出部１６０は、上述したように、テスト用データの特徴量の寄与度を算出する。

　ステップＳ１１３において、表示制御部１４３は、処理結果をユーザに提示する。例えば、表示制御部１４３は、図２０の分析処理結果を示す画像を端末装置１１に表示させる。

　この画像では、学習部１５６で学習された予測モデルに入力されるテスト用データの各特徴量（項目）がどれだけ予測結果に寄与するかを示す寄与度が表示されている。

　例えば、「先週の出荷数」、「曜日」、「日付」等の項目毎の寄与度が棒グラフで表示されている。また、上述したように、寄与度は正の値および負の値が含まれる。そこで、正の値の合計値と負の値の合計値とをそれぞれ合わせた値が棒グラフとして表示されている。

　また、リークの可能性があると判定された「先週の出荷数」、「気温」、「湿度」の項目に対して、リークの可能性があることを示すアイコン３３１乃至アイコン３３３が表示されている。

　さらに、リークの可能性があると判定された「先週の出荷数」の項目に対して、ウインドウ３３４が表示されている。ウインドウ３３４内には、「先週の出荷数」はリークの可能性が高いこと、寄与度が非常に高いこと、及び、リークの可能性が高いと判定された理由が表示されている。ここでは、「先週の出荷数」が１ヶ月前（予測実行タイミング）に取得できないことが理由として示されている。

　また、リークの可能性があると判定された「気温」及び「湿度」の項目に対して、ウインドウ３３５が表示されている。ウインドウ３３５内には、「気温」及び「湿度」はリークの可能性が高いこと、及び、リークの可能性が高いと判定された理由が表示されている。ここでは、「気温」及び「湿度」が１ヶ月前（予測実行タイミング）に取得することが困難であることが理由として示されている。

　さらに、画像の下方に、ウインドウ３３６が表示されている。ウインドウ３３６内には、リークの可能性がある項目を除去する前と後の予測精度、及び、リークの可能性がある項目を除去することにより実運用時に同じ予測精度を維持できる利点があることが示されている。また、ユーザが自動リーク補正を適用するか否かを選択するためのメニューが表示されている。

　図１１に戻り、ステップＳ１１４において、情報処理部１４２は、データセット又は問題設定を補正するか否かを判定する。

　例えば、リーク補正部２２５は、図２０の画像のウインドウ３３６において、ユーザが自動リーク補正の適用を選択した場合、構築データセットを補正すると判定し、処理はステップＳ１１５に進む。

　また、例えば、リーク補正部２２５は、図２０の画像のウインドウ３３６において、ユーザが自動リーク補正の適用を選択しなくても、リークの可能性が所定の閾値以上の項目が構築データセットに含まれる場合、構築データセットを補正すると判定し、処理はステップＳ１１５に進む。

　さらに、例えば、学習部１５６は、端末装置１１を介して構築データセット又は問題設定の補正の指令が入力された場合、構築データセット又は問題設定を補正すると判定し、処理はステップＳ１１５に進む。

　ステップＳ１１５において、情報処理部１４２は、データセット又は問題設定を補正する。

　例えば、リーク補正部２２５は、図２０の画像において、ユーザが自動リーク補正の適用を選択した場合、リークの可能性がある項目を全て構築データセットから除去する。

　例えば、リーク補正部２２５は、図２０の画像において、ユーザが自動リーク補正の適用を選択しなかった場合、リークの可能性が所定の閾値以上の項目を構築データセットから除去する。

　例えば、学習部１５６は、構築データセット又は問題設定の補正の指令がユーザにより入力された場合、指令に従って、構築データセット又は問題設定を補正する。

　その後、処理はステップＳ１０６に戻り、ステップＳ１１４において、データセット又は問題設定を補正しないと判定されるまで、ステップＳ１０６乃至ステップＳ１１５の処理が繰り返し実行される。これにより、補正した構築データセット又は問題設定に基づいて、予測モデルの学習及び評価等が行われる。

　一方、ステップＳ１１４において、データセット及び問題設定の補正を行わないと判定された場合、情報処理は終了する。

　なお、例えば、時間予測部１５１が、各ステップの処理が終了したタイミングで処理時間を予測するようにしてもよい。

　また、例えば、抽出部１５３が問題設定を複数抽出する場合、情報処理装置１２が、１つの問題設定ごとにステップＳ１０５乃至ステップＳ１１５の処理を繰り返し実行することで、全ての問題設定に対する分析処理を実行するようにしてもよい。

　以上のようにして、予測分析に対するユーザの満足度を向上させることができる。

　例えば、情報処理システム１のように、問題設定から予測分析までを自動化した予測分析システムでは、人間がデータをチェックしないことに加えて、精度を高める方向にデータ収集やモデルチューニングを行うため、特にリークが発生しやすい。その結果、事前評価では高いビジネス効果が見込めると判断され、予測分析をビジネスに導入したものの、実際に運用してみると期待した効果が得られないという状況が起きやすくなる。その結果、ユーザの満足度が低下する。

　一方、本開示によれば、上述したように、構築データセットにおいてリークの可能性がある項目及びデータを、自動的に高精度に検出することができる。さらに、検出したリークに対する補正を自動又はマニュアルで（手動的に）行うことができる。

　これにより、事前評価時と実運用時とで、予測モデルの予測精度が大きく変動することが防止され、ユーザの期待通りの予測精度及びビジネス効果が得られる確率が向上する。その結果、ユーザの満足度が向上する。

＜２．変形例＞
　上記の各構成は一例であり、情報処理システム１は、過去事例およびユーザデータに基づき、問題設定の抽出およびデータセットの構築が可能であればどのようなシステム構成であってもよい。例えば、情報処理装置１２と端末装置１１とが一体であってもよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、例えば、リークの可能性の検出結果に対する各ユーザからのフィードバックをユーザプロファイル記憶部１２３に蓄積し、自動リーク補正時の補正方法をユーザ毎に個人化するようにしてもよい。例えば、自動リーク補正時に構築データセットから除去する項目をユーザ毎に個人化するようにしてもよい。

　また、例えば、上述した複数の種類のリークの可能性を総合して、リークの可能性を判定するようにしてもよい。

　また、例えば、構築データセットが日時項目を含まなくても、例えば、所定の時間間隔でレコードが並べられた時系列データセットであるとみなして、時系列の予測分析処理を行うようにしてもよい。

　また、例えば、図１８のステップＳ２１２の処理において、カテゴリ項目以外の項目の値に基づいて、構築データセットを複数のグループに分割して、グループＫ分割交差検証を行うようにしてもよい。また、例えば、２以上の項目の値の組み合わせに基づいて、構築データセットを複数のグループに分割して、グループＫ分割交差検証を行うようにしてもよい。

　また、例えば、図１８のステップＳ２１６の処理において、Ｋ分割交差検証のみを行い、Ｋ分割交差検証におけるグループ間の予測精度の差が大きい場合、並び順リークの可能性かあると判定するようにしてもよい。すなわち、構築データセットの並び順を保持したまま、複数の異なるパターンで構築データセットを学習用データとテスト用データに分割し、パターン毎に予測モデルの検証を行った結果得られた予測精度の差に基づいて、並び順リークの可能性を検出するようにしてもよい。

　また、例えば、予測実行タイミングと予測期間との関係により、リークの可能性がある項目及びデータが変化する場合がある。従って、予測期間により、異なる構築データセットを用いて予測モデルの学習を行い、予測期間毎に異なる予測モデルを用いて実際の予測分析を行うようにしてもよい。例えば、１～１２か月後の予測分析を行う場合、１か月後、２～４か月後、５～８か月後、９～１２か月後で、動的に予測モデルを切り替えて予測分析を行うようにしてもよい。

　また、例えば、リークの可能性の検出結果を表示する画像において、例えば、リークの可能性があると判定された項目以外に、例えばリークの可能性があると判定されたデータ、及び、その理由を表示するようにしてもよい。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

＜３．ハードウェア構成＞
　上述してきた各実施形態や変形例に係る情報処理装置１２や端末装置１１等の情報機器は、例えば図２１に示すような構成のコンピュータ１０００によって実現される。図２１は、情報処理装置１２や端末装置１１等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１２を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic Input Output System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係るプログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１２として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１０３等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラムや、記憶部１０２内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本技術は以下のような構成も取ることができる。

（１）
　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出するリーク検出部を
　備える情報処理装置。
（２）
　前記リーク検出部は、前記データセットに含まれるデータの発生日時又は取得日時と、予測分析を行うタイミングとの関係に基づいて、前記データセットのリークの可能性を検出する
　前記（１）に記載の情報処理装置。
（３）
　前記リーク検出部は、前記発生日時又は前記取得日時が前記予測分析を行うタイミングより後であるデータを、リークの可能性があると判定する
　前記（２）に記載の情報処理装置。
（４）
　前記リーク検出部は、前記データセットの識別性がある識別項目と前記予測分析の予測対象との相関関係に基づいて、前記データセットのリークの可能性を検出する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記リーク検出部は、前記識別項目と前記予測対象との間に相関がある場合、前記識別項目にリークの可能性があると判定する
　前記（４）に記載の情報処理装置。
（６）
　前記リーク検出部は、前記データセットの少なくとも１つの項目の値により前記データセットを複数のグループに分割し、グループＫ分割交差検証を行った結果に基づいて、前記項目のデータのリークの可能性を検出する
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記リーク検出部は、前記グループ間の予測精度の差に基づいて、前記項目のデータのリークの可能性を検出する
　前記（６）に記載の情報処理装置。
（８）
　前記リーク検出部は、前記データセットの並び順を保持したまま、複数の異なるパターンで前記データセットを学習用データとテスト用データに分割し、前記パターン毎に前記予測モデルの検証を行った結果に基づいて、前記データセットのリークの可能性を検出する
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記リーク検出部は、前記パターン間の予測精度の差に基づいて、前記データセットの並び順のリークの可能性を検出する
　前記（８）に記載の情報処理装置。
（１０）
　前記リーク検出部は、前記データセットの項目名に基づいて、前記データセットのリークの可能性を検出する
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記リーク検出部は、前記データセットのドメインに基づいて、前記データセットのリークの可能性を検出する
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記データセットのリークの可能性の検出結果の表示を制御する表示制御部を
　さらに備える前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　前記表示制御部は、前記データセットにおいてリークの可能性がある項目又はデータ、及び、リークの可能性がある理由の表示を制御する
　さらに備える前記（１２）に記載の情報処理装置。
（１４）
　前記データセットのリークの可能性の検出結果に基づいて、前記データセットの補正を行うリーク補正部を
　さらに備える前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記リーク補正部は、リークの可能性がある項目を前記データセットから除去する
　前記（１４）に記載の情報処理装置。
（１６）
　前記リーク補正部は、前記データセットのリークの可能性の検出結果に対するユーザからのフィードバックに基づいて、前記データセットの補正方法を個人化する
　前記（１４）又は（１５）に記載の情報処理装置。
（１７）
　前記データセット内の日時に関する項目の値が重複する度合いに基づいて、前記データセットを複数の系列の時系列データセットに分離する分離部を
　さらに備える前記（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記データセット内の日時に関する項目の値の間隔に基づいて、前記データセットのリサンプリングを行うリサンプリング部を
　さらに備える前記（１）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
　情報処理装置が、
　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出する
　情報処理方法。
（２０）
　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出する
　処理をコンピュータに実行させるためのプログラム。

　１　情報処理システム，　１１　端末装置，　１２　情報処理装置，　１０３　制御部，　１４２　情報処理部，　１４３　表示制御部，　１５２　解釈部，　１５３　抽出部，　１５４　時系列処理部，　１５５　リーク検出補正部，　１５６　学習部，　１５７　評価部，　２０１　分離部，　２０２　リサンプリング部，　２０３　変化点検出部，　２２３　予測タイミング設定部，　２２４　リーク検出部，　２２５　リーク補正部

Claims

　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出するリーク検出部を
　備える情報処理装置。
　前記リーク検出部は、前記データセットに含まれるデータの発生日時又は取得日時と、予測分析を行うタイミングとの関係に基づいて、前記データセットのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記リーク検出部は、前記発生日時又は前記取得日時が前記予測分析を行うタイミングより後であるデータを、リークの可能性があると判定する
　請求項２に記載の情報処理装置。
　前記リーク検出部は、前記データセットの識別性がある識別項目と前記予測分析の予測対象との相関関係に基づいて、前記データセットのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記リーク検出部は、前記識別項目と前記予測対象との間に相関がある場合、前記識別項目にリークの可能性があると判定する
　請求項４に記載の情報処理装置。
　前記リーク検出部は、前記データセットの少なくとも１つの項目の値により前記データセットを複数のグループに分割し、グループＫ分割交差検証を行った結果に基づいて、前記項目のデータのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記リーク検出部は、前記グループ間の予測精度の差に基づいて、前記項目のデータのリークの可能性を検出する
　請求項６に記載の情報処理装置。
　前記リーク検出部は、前記データセットの並び順を保持したまま、複数の異なるパターンで前記データセットを学習用データとテスト用データに分割し、前記パターン毎に前記予測モデルの検証を行った結果に基づいて、前記データセットのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記リーク検出部は、前記パターン間の予測精度の差に基づいて、前記データセットの並び順のリークの可能性を検出する
　請求項８に記載の情報処理装置。
　前記リーク検出部は、前記データセットの項目名に基づいて、前記データセットのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記リーク検出部は、前記データセットのドメインに基づいて、前記データセットのリークの可能性を検出する
　請求項１に記載の情報処理装置。
　前記データセットのリークの可能性の検出結果の表示を制御する表示制御部を
　さらに備える請求項１に記載の情報処理装置。
　前記表示制御部は、前記データセットにおいてリークの可能性がある項目又はデータ、及び、リークの可能性がある理由の表示を制御する
　さらに備える請求項１２に記載の情報処理装置。
　前記データセットのリークの可能性の検出結果に基づいて、前記データセットの補正を行うリーク補正部を
　さらに備える請求項１に記載の情報処理装置。
　前記リーク補正部は、リークの可能性がある項目を前記データセットから除去する
　請求項１４に記載の情報処理装置。
　前記リーク補正部は、前記データセットのリークの可能性の検出結果に対するユーザからのフィードバックに基づいて、前記データセットの補正方法を個人化する
　請求項１４に記載の情報処理装置。
　前記データセット内の日時に関する項目の値が重複する度合いに基づいて、前記データセットを複数の系列の時系列データセットに分離する分離部を
　さらに備える請求項１に記載の情報処理装置。
　前記データセット内の日時に関する項目の値の間隔に基づいて、前記データセットのリサンプリングを行うリサンプリング部を
　さらに備える請求項１に記載の情報処理装置。
　情報処理装置が、
　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出する
　情報処理方法。
　予測分析に用いる予測モデルの学習に用いるデータセットの性質に基づいて、前記データセットのリークの可能性を検出する
　処理をコンピュータに実行させるためのプログラム。