JP7107246B2

JP7107246B2 - 推定装置、推定方法、及びプログラム

Info

Publication number: JP7107246B2
Application number: JP2019029769A
Authority: JP
Inventors: 匡宏幸島; 達史松林; 浩之戸田
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2022-07-27
Anticipated expiration: 2039-02-21
Also published as: JP2020135554A; US20220138375A1; WO2020170867A1

Description

本発明は、推定装置、推定方法、及びプログラムに係り、特に、打ち切りデータから混合モデルのパラメタを推定するための推定装置、推定方法、及びプログラムに関する。

打ち切りデータとは、観測値がある閾値以上（またはある閾値以下）であるサンプルについては、値が観測されず、閾値以上である、という情報しか得られないデータのことを指す。病気の発症や人の死亡などを記述する臨床データや、インターネット回線利用者の契約履歴データ、Ｅコマースサイトのサービス利用履歴データなど多くのデータが打ち切りデータとして表現される。打ち切りデータを用いる問題の代表例は、例えばある機器が故障するまでに要する時間の分布を推定する、生存時間分析である。生存時間分布は、初期故障や劣化故障などの存在によりしばしば多峰性をもつため、混合モデルを用いた分布推定が広く用いられる。

打ち切りデータから混合モデルのパラメタを推定するには、文献（非特許文献１）で提案されているＥＭＣＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎｆｏｒＣｅｎｓｏｒｅｄＭｉｘｔｕｒｅｍｏｄｅｌｓ）アルゴリズムが適用できる。

Didier Chauveau. A stochastic em algorithm for mixtures with censored data. Journal of statistical planning and inference, Vol.46, No.1, 1995, pp.1-25.

しかし、このアプローチには以下の２つの問題があった。

１つ目は、局所最適解の存在である。すなわち、ＥＭＣＭは目的関数の単調減少は保証されるものの収束先は初期値に依存して変わるため、異なる初期値からの繰り返し実行が必要となってしまう、という問題があった。

２つ目は、モデルで利用する確率分布の切断分布（ある一定の範囲でしか値をとらないように変更した分布）の統計量の計算の必要性である。すなわち、１次元正規分布の切断分布である１次元切断正規分布などの例外的なものを除き、この統計量は解析的に計算することができず、モンテカルロ法などの数値計算を利用することが必要となる、という問題があった。ＥＭＣＭは、パラメタの更新と統計量の計算を何度も繰り返すアルゴリズムであるから、各反復で数値計算を繰り返すことは避けることが望ましいと考えられる。

本発明は上記の点に鑑みてなされたものであり、計算時間を抑えて、打ち切りデータの確率分布を表すモデルのパラメタを精度良く推定することができる推定装置、推定方法、及びプログラムを提供することを目的とする。

本発明に係る推定装置は、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する推定装置であって、前記打ち切りデータの入力を受け付ける入力部と、前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定するパラメタ推定部と、を備えて構成される。

また、本発明に係る推定方法は、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する推定方法であって、入力部が、前記打ち切りデータの入力を受け付け、パラメタ推定部が、前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定する。

また、本発明に係るプログラムは、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する処理をコンピュータに実行させるプログラムであって、入力部が、前記打ち切りデータの入力を受け付け、パラメタ推定部が、前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定することを含む処理をコンピュータに実行させるプログラムである。

本発明に係る推定装置、推定方法及びプログラムによれば、入力部が、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの入力を受け付ける。

そして、パラメタ推定部が、入力部が受け付けた打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、観測データの確率密度関数を用いて表される、打ち切りデータの確率分布を表すモデルと、入力部が受け付けた打ち切りデータから得られる、打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、モデルのパラメタを推定する。

このように、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、観測データの確率密度関数を用いて表される、当該打ち切りデータの確率分布を表すモデルと、当該打ち切りデータから得られる、当該打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、モデルのパラメタを推定することにより、計算時間を抑えて、打ち切りデータの確率分布を表すモデルのパラメタを精度良く推定することができる。

また、本発明に係る推定装置の前記打ち切りデータの確率分布を表すモデルは、前記観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、前記変数の確率分布と、前記観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、前記変数が与えられた下での、前記観測データの確率分布と、を用いて表されることができる。

また、本発明に係る推定装置の前記目的関数は、前記打ち切りデータの確率分布を表すモデルと、前記打ち切りデータの確率分布とのカルバックライブラーダイバージェンス、又はＬ_２ダイバージェンスであることができる。

本発明の推定装置、推定方法、及びプログラムによれば、計算時間を抑えて、打ち切りデータの確率分布を表すモデルのパラメタを精度良く推定することができる。

１次元の打ち切りデータの例を表すイメージ図である。２次元の打ち切りデータの例を表すイメージ図である。１次元の打ち切りデータの生存時間表現の例を表すイメージ図である。２次元の打ち切りデータの生存時間表現の例を表すイメージ図である。本発明の実施の形態に係る推定装置として機能するコンピュータの概略構成を示すブロック図である。本発明の実施の形態に係る推定装置の構成を示すブロック図である。本発明の実施の形態に係る推定装置の推定処理ルーチンを示すフローチャートである。

以下、本発明の実施の形態について図面を用いて説明する。

＜本発明の実施の形態に係る推定装置の原理＞
まず、本発明の実施形態の原理について説明する。

本発明の実施の形態では、次に示す目的関数の異なる２つの手法を構築した。１つ目は確率分布間のＫｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ（ＫＬ：カルバック－ライブラー）ダイバージェンス最小化に基づく推定手法、２つ目は確率分布間のＬ_２ダイバージェンス最小化に基づく推定手法である。１つ目の推定手法では非常にシンプルな繰り返し計算でパラメタの推定が可能であり、２つ目の推定手法では、繰り返しの必要すらなく解析的にパラメタの推定が可能である。

本発明の実施の形態に係る手法を構築する上でポイントとなるのは、ｅｘａｍｐｌａｒｂａｓｅｄｍｏｄｅｌ（以下、ｅｍｂ）と呼ばれるアプローチ（参考文献１）の利用である。
［参考文献１］Danial Lashkari and Polina Golland, "Convex clustering with exemplar-based models", In Advances in neural information processing systems, 2008, pp.825-832.

ｅｍｂアプローチでは、混合モデルの各コンポーネントのパラメタを陽にパラメタとしては扱わず、データ点の存在する点に各コンポーネントを配置する。これによって、混合比（各コンポーネントの重みパラメタ）のみの推定を行う定式化をすることで大域的最適解へ収束するアルゴリズムが構築できる。上記の手法は、このアプローチに対して打ち切りデータを入力として利用できるよう発展させたものとみなすことができる。

更に、上述したＥＭＣＭで必要となる切断分布の統計量はコンポーネントのパラメタの推定に必要なものであったため、このアプローチの採用により数値計算の繰り返し実行の必要のない手法を構築することができる。

なお、文献（参考文献１）の方法では、通常のデータを用いてＫＬダイバージェンス最小化によるｅｍｂを行う手法を提案しているが、打ち切りデータを扱うことができない。

確率分布の誤差の関数にＬ_２ダイバージェンスを用いるアプローチは文献（参考文献２）でも考えられているが、打ち切りデータではなく通常のデータを入力する状況を考えている。
［参考文献２］DavidW Scott, "Parametric statistical modeling by minimum integrated square error", Technometrics, Vol.43, No.3, 2001, pp.274-285.

また、打ち切りデータを利用し、かつＬ_２ダイバージェンスを用いる研究には文献（参考文献３）が存在するが、指数分布、ワイブル分布のように単峰の単純な分布をモデルとして用いる場合のみが考えられている。
［参考文献３］Srabashi Basu, Ayanendranath Basu, and MCJones, "Robust and efficient parametric estimation for censored survival data", Annals of the Institute of Statistical Mathematics, Vol.58, No.2, 2006, pp.341-355.

＜＜準備＞＞
＜＜＜打ち切りデータ＞＞＞
まず、打ち切りデータについて説明する。図１に、１次元の打ち切りデータの例を示す。図１の例に示すように、打ち切りデータの代表例である機器故障データを用いて説明する。

機器故障データでは、各機器の設置された時刻と故障が起こった際の故障の時刻が記録されている。機器１及び２に関しては観察期間中に故障が起きているため、その時刻が記録されている。一方、機器３及び４に関しては観察期間中には故障せずに、観察が打ち切られたため、故障の時刻が記録されてはいない。

しかしながら、機器３及び機器４の何れも、いつかは必ず故障するとして、故障の時刻は観察終了時刻以降にあるということは読み取れる。このように機器１と２のように観測値（故障の時刻）が分かるデータと機器３と４のように観測値（故障の時刻）がある値以上であることが分かるデータの組からなるデータを、打ち切りデータと呼ぶ。

図１の機器故障データは、１次元の打ち切りデータであるが、本手法では２次元以上の打ち切りデータも扱うことができるためここで説明する。

図２は、ある２つのサービスの利用者の利用期間を表す２次元の打ち切りデータである。図２のケースでは、利用者の（少なくとも１つの）サービスを利用開始した時刻と各サービスを追加契約または解約した時刻が記録されている。

利用者１は両サービスを同時に利用開始し、観察期間中に同時に解約しているため両方のサービスの解約時刻が記録されている。利用者２は両サービスを同時に利用開始し、観察期間中にサービス２のみを解約している。利用者３は両サービスを同時に利用開始し、観察期間中にサービス１のみを解約している。利用者４はサービス２をまず利用開始し、観察期間中にサービス１を追加契約している。よって、観測の打ち切りによって、利用者２のサービス１の解約時刻、利用者３のサービス２の解約時刻、利用者４のサービス１と２の解約時刻は記録されていない。

このように２次元の打ち切りデータにおいては、打ち切られている値の次元が異なる、３通りの打ち切りの種類が存在する。一般にｎ次元の打ち切りデータでは２^ｎ－１種類の打ち切りが存在する。なお、以下、各次元に観測が打ち切られるかが決まる例を用いて説明するが、どれか一つの要素が打ち切られたときに全ての要素が観測されなくなるという状況でも同様のアプローチで対応することができる。

ここで、打ち切りデータの定義を与える。扱いを簡単にするため、観測データは図１のようなカレンダー時刻ではなく、生存時間（機器の設置から故障までの時間、サービスの契約から解約までの時間）を用いて表現する。図１の観測データを生存時間で表現したものを図３、図２の観測データを生存時間で表現したものを図４に示す。多次元の打ち切りデータとして定義するため、以下では図４を説明の例に用いる。

打ち切りデータを

と書く。ここで、

と、

とは共にｄ_ｘ次元のベクトルであり、

、

である。ｘ_ｉｊが利用者ｉのサービスｊの利用時間、ｗ_ｉｊが利用者ｉのサービスｊの解約時刻が記録されたか（ｗ_ｉｊ＝１）、打ち切りにより記録されなかったか（ｗ_ｉｊ＝０）を表す。同様に、ｉ番目の利用者の、観測終了時刻までの時間の長さを

と書く。ｖ_ｉｊが利用者ｉのサービスｊ利用開始時刻から観測終了時刻までの長さを表す。打ち切りにより観測値が観測されなかったとき（ｗ_ｉｊ＝０）には、ｘ_ｉｊ＝ｖ_ｉｊと設定されているとする。

＜＜＜混合モデル＞＞＞
次に、本発明の実施の形態で用いるモデルについて説明する。混合モデルで表される、観測値の確率密度関数は一般に下記式（１）で定義される。

ここで、Ｋは混合数、

がｋ番目コンポーネントの確率分布を表す。コンポーネントの確率分布

には、例えば下記式で表されるガウス分布が利用できる。

ここで、

とσとは、ガウス分布の平均と標準偏差を表す。ただし、ｅｂｍ（参考文献１）のアプローチに従い、コンポーネントの確率分布のパラメタ

はＫ＝ｎとして、それぞれが観測データ点に対応するよう

と設定されたもの等であるとする。この場合には、観測値の確率密度関数は、観測データの各々に対する、各コンポーネントの混合モデルで表され、各コンポーネントに含まれる、ガウス分布の平均を、対応する観測値とする。本手法は打ち切りデータを扱うため、Ｋ＝ｎとし、値が観測されていれば（ｗ_ｉｊ＝１）、μ_ｉｊ＝ｘ_ｉｊ、そうでなければ（ｗ_ｉｊ＝０）、μ_ｉｊ＝ｘ_ｉｊ＋εと設定してもよい。εは０以上の値を取る確率分布（例えば指数分布）からランダムに生成した値を表す。また、データ数が多い場合には、例えばランダムに選んだ１００個のデータのみを用いてもよいし、事前知識に基づいて設定したコンポーネントを用いてもよい。標準偏差σは交差検証法等により決定することが可能である。

上記モデルを用いたときの打ち切りデータ

の生成過程は次のように記述できる。まず、各サンプルについて観測終了までの時間の長さ

が既知のもと、打ち切りが起こるか否かを表す変数

が、下記式（２）の確率分布に従い生成される。

ただし、

と、

とのうち、ｗ_ｉｊ＝１である、観測値が観測された要素の集合を

とし、ｗ_ｉｊ＝０である、観測値が観測されなかった集合を

とする。また、観測値が観測された要素と、観測値が観測されなかった要素とを区別しない場合に、観測データと呼ぶこととする。コンポーネントの確率分布

に、上記式（２）のガウス分布のように標準的な確率分布を利用すると、

を累積密度関数を用いて解析的に計算できる。

であり、少なくとも一つ観測された要素がある場合、

は下記式（４）で表される分布にしたがって生成される。

ここで、

はデルタ関数であり、ｆ_ｔｒはｆを観測されなかった要素に関して周辺化した分布の切断分布であり、下記式で表される。

ただし、ｆ_ｔｒは下記式（５）～（６）に従う。

コンポーネントが上記式（２）のガウス分布である場合、

は

となる。ただし、

はそれぞれ

から

と

に対応する次元の要素を抜き出したベクトルである。

であり、一つも観測された要素がない場合、下記式（７）で示すように、デルタ関数のみの表現となる。

よって、上記をまとめると、各打ち切りデータの生成確率は、下記式（８）で与えられる。

＜＜ＫＬダイバージェンスとＬ_２ダイバージェンス＞＞
次に、提案手法の目的関数を定義する際に利用するダイバージェンスについて記す。良く知られるように、確率分布ｐ（ｘ）とｑ（ｘ）とに対するカルバックライブラー（ＫＬ）ダイバージェンスは下記式（９）で定義される。

これに加え、本発明の実施の形態では、下記で定義されるＬ_２ダイバージェンス（参考文献２）も利用する場合についても説明する（下記式（１０））。

Ｌ_２ダイバージェンスは、２つの確率密度関数の２乗誤差として定義されている。何れのダイバージェンスを用いるべきかについては、問題に応じて異なる。よって、本発明の実施の形態では、何れのダイバージェンスを利用する場合にも適用できるように、２種類の手法を構築することとした。

＜＜ＫＬダイバージェンスの最適化による推定＞＞
まず、目的関数としてＫＬダイバージェンスを利用する場合の提案手法を示す。打ち切りデータの確率分布を表すモデル

と、打ち切りデータから得られる真の確率分布

とのＫＬダイバージェンスは、上記式（９）の定義に従い、下記式（１１）で与えられる。

これは、下記式（１２）のように式変形することができる。

定数項を除去し、未知である真の分布

に関する期待値を標本平均で置き換えれば、下記の式（１３）が導かれる。

ここで、

は、データから計算できる量であり、これを目的関数とすることでアルゴリズムを導く。具体的には、下記式（１４）の最適化問題を解けばよい。

ここで、制約条件（パラメタの要素が０以上、かつ、和が１）は、混合モデルｆが確率分布となるためのものである。ラグランジュの未定乗数法を用いると、上記の最適化問題の解は、下記式（１５）を満たすことが分かる。

よって、上記式（１５）に基づいて

の更新を繰り返すことにより、最適化が可能となる。なお、参考文献１の手法と同様に、計算量の削減と収束を早めるため、パラメタ更新の際にθ_ｋがある閾値（例えば１０^－３／ｎ）より小さい場合には、θ_ｋ＝０と設定した後に、全体を和が１になるように調整する、再正規化操作を行ってもよい。

＜＜Ｌ_２ダイバージェンスの最適化による推定＞＞
次に、Ｌ_２ダイバージェンスを利用する場合の提案手法を示す。ＫＬダイバージェンスとは異なり、Ｌ_２ダイバージェンスの定義から直接目的関数を定義することはせず、ＫＬダイバージェンスを用いた際の目的関数に注目することにより新たな目的関数を定義する。

ＫＬダイバージェンスを用いた際の目的関数（式（１２））に注目すると、混合モデルｆの周辺分布

と、変数が与えられた下での観測値の真の分布

のＫＬダイバージェンスに対応する項と、観測値が観測されなかったことを表す変数のモデルの分布

と、真の分布

を用いた対数尤度比に対応する項との２つの項をそれぞれ

で重み付き和を取ることで構成されていることが分かる。

この洞察に基づき、これら２つの各項でＫＬダイバージェンス／対数尤度比を用いている箇所をＬ_２ダイバージェンスに置き換えることで、目的関数を下記式のように設計することができる。

これを式変形すれば、

となる。更に、定数項（Ｃｏｎｓｔ）を除去し、真の分布に関する平均を標本平均で置き換えた下記式の最適化を考える。

ただし、

とおいた。これを目的関数とすることで、アルゴリズムを導出する。

は、行列・ベクトル形式で、下記式（１６）、（１７）のように表すことができる。

ただし、下記式（１８）～（２０）に従う。

また、

は、コンポーネントの分布にガウス分布を用いる場合、解析的に計算できる値であり、下記式（２１）のように表すことができる。

上記式（２１）中で、

に関して総和をとる際、

や

は

の値によって異なる値であることを明記しておく。これにより、目的関数は

に関する２次の形式で表現されることが分かる。よって、パラメタの推定値は下記で示す制約付きの２次最適化問題を解くことで得ることができる。

数値ソルバーを用いて直接上記式（２２）の最適化問題を解くことができる。その際、正則化項を加えた下記の最適化問題を解くことにしてもよい。

ただし、βがハイパーパラメタを表す。また、例えば次に示す近似的な方法を用いてもよい。上記式（２２）の最適化問題から制約条件を外した問題の最適解は下記式（２３）、（２４）のように求められる。

ただし、

は正則化項、βはハイパーパラメタであり、パラメタの発散を防ぐ効果がある。

は、値が０以上かつ和が１であるから、下記式（２５）の処理で条件を満たす

が得られる。

ただし、

は、

ノルムを表す

本発明の実施の形態では、以上説明した２つの手法の何れかにより、モデルのパラメタを推定することにより、計算時間を抑えて、打ち切りデータの確率分布を表すモデルのパラメタを精度良く推定することができる。

＜本発明の実施の形態に係る推定装置の構成＞
次に、図５及び図６を参照して、本発明の実施の形態に係る推定装置１の構成について説明する。図５は、本発明の実施の形態に係る推定装置１として機能するコンピュータの概略構成を示すブロック図である。図６は、本発明の実施の形態に係る推定装置１の構成を示すブロック図である。

図５に示すように、推定装置１は、ＣＰＵ１１０と、ＲＡＭ等のメモリ１２０と、通信インターフェース（ＩＦ）部１３０と、キーボード等の入力部１４０と、ディスプレイ等の表示部１５０と、後述する推定処理ルーチンを実行するためのプログラム１７０を記憶したＲＯＭ等の記憶部１６０とを備えたコンピュータで構成されている。また、ＣＰＵ１１０、メモリ１２０、通信ＩＦ部１３０、入力部１４０、表示部１５０、及び記憶部１６０は、バス１００を介して接続されている。また、通信ＩＦ部１３０は、ＬＡＮケーブル等の通信回線により外部装置２と接続されている。なお、ネットワーク（図示しない）を介して外部装置２と接続される構成としてもよい。

図６に示すように、本実施形態に係る推定装置１は、データ処理部１０と、パラメタ推定部２０と、パラメタ出力部３０と、記憶部４０と、入力部５０と、出力部６０とを備えて構成される。

データ処理部１０は、入力部５０が受け付けた観測値が観測されたサンプルの観測データ

と、観測値が観測されなかったサンプルの観測データ

と、各サンプルについて観測値が観測されたか否かを表す変数

とを含む打ち切りデータ

をデータ記憶部４１に格納する。サンプルは、例えば、上述の図１、３の例では各機器のこと、図２、４の例では各利用者のことである。

パラメタ推定部２０は、入力部５０が受け付けた打ち切りデータ

の各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、観測データの確率密度関数を用いて表される、打ち切りデータ

の確率分布を表すモデル

と、入力部５０が受け付けた打ち切りデータ

から得られる、当該打ち切りデータ

の真の確率分布

とのダイバージェンスである目的関数を最適化することにより、モデルのパラメタ

を推定する。

具体的には、パラメタ推定部２０は、まず、当該打ち切りデータ

の真の確率分布

を求める。

次に、パラメタ推定部２０は、目的関数を、当該打ち切りデータ

の確率分布を表すモデル

と、当該打ち切りデータ

の真の確率分布

とのＫＬダイバージェンス、又はＬ_２ダイバージェンスとして、パラメタを推定する。

ここで、打ち切りデータの確率分布を表すモデル

は、上記式（８）で示すように、観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、観測データの確率分布

と、観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、変数が与えられた下での、変数の確率分布

と、を用いて表される。

パラメタ推定部２０は、ＫＬダイバージェンスを用いる場合、上記式（１５）のパラメタ更新を繰り返すことにより、パラメタを推定する。また、パラメタ推定部２０は、Ｌ_２ダイバージェンスを用いる場合、上記式（２４）、（２５）を用いてパラメタを推定する。

そして、パラメタ推定部２０は、推定したパラメタ

をパラメタ記憶部４２に格納する。

パラメタ出力部３０は、パラメタ記憶部４２のパラメタ

を取得し、パラメタ出力部３０に当該パラメタ

を渡す。

記憶部４０は、データ記憶部４１と、パラメタ記憶部４２とを含む。データ記憶部４１には、打ち切りデータ

が格納される。また、パラメタ記憶部４２には、モデルのパラメタ

が格納される。

入力部５０は、外部装置２から、打ち切りデータ

の入力を受け付ける。そして、入力部５０は、受け付けた打ち切りデータ

を、データ処理部１０に渡す。

出力部６０は、パラメタ出力部３０から受け取ったモデルのパラメタ

を、外部装置２へ出力する。

＜本発明の実施の形態に係る推定装置の作用＞
図７は、本発明の実施の形態に係る推定処理ルーチンを示すフローチャートである。

入力部５０に打ち切りデータ

が入力されると、推定装置１において、図７に示す推定処理ルーチンが実行される。

まず、ステップＳ１００において、入力部５０は、観測値が観測されたサンプルの観測データ

と、観測値が観測されなかったサンプルの観測データ

とを含む打ち切りデータ

の入力を受け付ける。また、入力部５０は、各サンプルｉについての観測終了時刻までの時間の長さの入力を受け付ける。

ステップＳ１１０において、パラメタ推定部２０は、目的関数を、当該打ち切りデータ

の確率分布を表すモデル

と、当該打ち切りデータ

の確率分布

とのＫＬダイバージェンス、又はＬ_２ダイバージェンスとして、上記式（１５）のパラメタ更新を繰り返すことにより、パラメタを推定するか、あるいは、上記式（２４）、（２５）を用いてパラメタを推定する。

ステップＳ１２０において、出力部６０は、上記ステップＳ１１０により推定されたパラメタ

を出力する。

以上説明したように、本発明の実施形態に係る推定装置によれば、観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、観測データの確率密度関数を用いて表される、当該打ち切りデータの確率分布を表すモデルと、当該打ち切りデータから得られる、当該打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、モデルのパラメタを推定するため、計算時間を抑えて、打ち切りデータの確率分布を表すモデルのパラメタを精度良く推定することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述の実施の形態では、ダイバージェンスとしてＫＬダイバージェンス又はＬ_２ダイバージェンスを用いる場合について説明したが、これに限定されるものではなく、他のダイバージェンスを用いることも可能である。

また、上述の実施の形態では、時系列データである打ち切りデータを前提に記載しているが、これに限定されるものではなく、時系列データではない任意の打ち切りデータに対しても本発明の適用が可能である。

また、上述の実施の形態に係る推定装置１は、各部の処理をプログラムとして構築し、推定装置として利用されるコンピュータにインストールして実行させる構成として説明したが、ネットワークを介して流通させる構成としてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１推定装置
２外部装置
１０データ処理部
２０パラメタ推定部
３０パラメタ出力部
４０記憶部
４１データ記憶部
４２パラメタ記憶部
５０入力部
６０出力部
１００バス
１１０ＣＰＵ
１２０メモリ
１３０通信ＩＦ部
１４０入力部
１５０表示部
１６０記憶部
１７０プログラム

Claims

観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する推定装置であって、
前記打ち切りデータの入力を受け付ける入力部と、
前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定するパラメタ推定部と、
を含む推定装置。
前記打ち切りデータの確率分布を表すモデルは、
前記観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、前記変数の確率分布と、
前記観測データの確率密度関数と、各サンプルについて予め与えられた、観測終了までの時間の長さとを用いて表される、前記変数が与えられた下での、前記観測データの確率分布と、
を用いて表される請求項１記載の推定装置。
前記目的関数は、前記打ち切りデータの確率分布を表すモデルと、前記打ち切りデータの確率分布とのカルバックライブラーダイバージェンス、又はＬ_２ダイバージェンスである
請求項１又は２記載の推定装置。
観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する推定方法であって、
入力部が、前記打ち切りデータの入力を受け付け、
パラメタ推定部が、前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定する
推定方法。
観測値が観測されたサンプルの観測データと、観測値が観測されなかったサンプルの観測データと、各サンプルについて観測値が観測されたか否かを表す変数とを含む打ち切りデータの確率分布を表すモデルのパラメタを推定する処理をコンピュータに実行させるプログラムであって、
入力部が、前記打ち切りデータの入力を受け付け、
パラメタ推定部が、前記入力部が受け付けた前記打ち切りデータの各サンプルに対応する、観測値の分布を表す各コンポーネントの混合モデルで表される、前記観測データの確率密度関数を用いて表される、前記打ち切りデータの確率分布を表すモデルと、前記入力部が受け付けた前記打ち切りデータから得られる、前記打ち切りデータの確率分布とのダイバージェンスである目的関数を最適化することにより、前記モデルのパラメタを推定する
ことを含む処理をコンピュータに実行させるプログラム。