WO2012128207A1

WO2012128207A1 - 多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラム

Info

Publication number: WO2012128207A1
Application number: PCT/JP2012/056862
Authority: WO
Inventors: 遼平藤巻; 森永　聡
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-18
Filing date: 2012-03-16
Publication date: 2012-09-27
Anticipated expiration: 2013-09-18
Also published as: CN103221945B; US8731881B2; JP5403456B2; KR101329904B1; CN103221945A; EP2687994A1; US20140214747A1; KR20130080060A; JPWO2012128207A1; US20130211801A1; SG189314A1; EP2687994A4

Abstract

混合モデルのモデル選択問題に対して、混合の数および種類と共に指数的に増加するモデルの候補数に対して、適切な基準のもとで高速にモデル選択を実現する。混合モデル推定装置は、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、混合数の候補値から混合数を設定し、設定した混合数に対し、データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるようにコンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、処理部によるモデル推定結果を出力するモデル推定結果出力部とを有する。

Description

多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラム

　本発明は、多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラムに関し、特に混合するモデルの数、種類、パラメータを推定する多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラムに関する。

　混合モデル（混合分布）は、複数のモデルによってデータを表現するモデルであり、産業応用上、重要なモデルである。このようなモデルには、例えば混合正規分布や混合隠れマルコフモデルなど様々なモデルが存在する。産業上の応用例としては、例えば外れ値検出による不正医療請求の検出（非特許文献１）や、ネットワークの障害検出（非特許文献２）などに混合モデルが利用されている。その他にも、マーケティングにおける顧客行動のクラスタリング（類似する顧客が同一のモデルに属するとみなして学習する）や文章のトピック分析（同一トピックの文章が同一のモデルに属するとみなして学習する）なども混合モデルの重要な応用例である。

　一般的に、混合モデルを構成する複数のモデル（「コンポーネント」とも言う。）の混合の数（混合数）と各コンポーネントの種類が特定されている場合には、ＥＭアルゴリズム（非特許文献３）や変分ベイズ法（非特許文献４）など、公知の任意の技術を利用して、分布（モデル）のパラメータを特定することが可能である。このパラメータを推定するためには、混合の数や各コンポーネントの種類を決定する必要がある。このような、モデルの形を特定する問題は、一般的に「モデル選択問題」や「システム同定問題」と呼ばれ、信頼性のあるモデルを構築するために極めて重要な問題であり、そのための技術が提案されている。

　例えば、混合するモデルの数を決定する方法として、モデル事後確率が最大となるモデルを選択する方法が知られている。この方法として、１）ベイズ情報量基準に基づく方法、２）変分ベイズ法に基づく方法（例えば非特許文献４）、３）Dirichlet過程を利用したノンパラメトリックベイズ推定によって決定する方法（例えば非特許文献５）、など複数提案されている。

Kenji Yamanishi, Jun-ichi Takeuchi, Graham Williams, and Peter Milne, "Online Unsupervised Outlier Detection Using Finite Mixtures with Discounting Learning Algorithms", Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2000), ACM Press, 2000, pp. 320-324. Kenji Yamanishi, and Yuko Maruyama, "Dynamic Syslog Mining for Network Failure Monitoring", Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2005), ACM Press, 2005, pp. 499-508. A.P. Dempster, N.M. Laird, and D.B. Rubin, "Maximum Likelihood from Incomplete Data via the EM Algorithm", Journal of Royal Statical Society. Series B (Methodological), Vol.39, No.1, 1977, pp. 1-38. Adrian Corduneanu and Christopher M. Bishop, "Variational Bayesian Model Selection for Mixture Distributions", In Artificial Intelligence and Statistics 2001, T. Jaakkola and T. Richardson (eds.), Morgan Kaufmann, pp. 27-34. Carl Edward Rasmussen, "The Infinite Gaussian Mixture Model", in Advances in Neural Information Processing Systems 12, S.A. Solla, T.K. Leen and K.-R. Muller (eds.), MIT Press (2000), pp. 554-560. Ryohei Fujimaki, Satoshi Morinaga, Michinari Monmma, Kenji Aoki and Takayuki Nakata, "Linear Time Model Selection for Mixture of Heterogeneous Components", Proceedings of the 1st Asian Conference on Machine Learning, 2009

　上記１）の方法では、モデルの事前分布に仮定を置くことなくモデル選択を行うことができる。しかし、この場合、混合モデルではフィッシャー情報行列が非正則となり、基準を正しく定義することができず、適切な混合数を選択することができない。

　上記２）および３）の方法では、混合比に対する事前分布としてDirechlet分布やDirechlet過程を用いることで混合数を決定する。しかし、この場合、一般的にはモデル事後確率の高いモデルを選択していることにはならないため、適切な混合数を選択することは難しい。

　さらに、上記１）から３）の方法では、混合するモデルの種類を最適化することは、計算量の問題で事実上不可能である。この計算量の問題の例として、混合多項式曲線の選択問題を説明する。

　多項式曲線は、直線（１次曲線）、２次曲線、３次曲線と、複数の次数が存在する。そのため、混合数を１からＣ_ｍａｘまで、曲線の次数を１からＤ_ｍａｘまで探索して最適なモデルを選択する場合、上記の方法では、直線が１つと２次曲線が２つ（混合数は３）、３次曲線が３つと４次曲線が２つ（混合数は５）など全てのモデルの候補に対して情報量基準を計算する必要があった。このモデルの候補の数は、例えばＣ_ｍａｘ＝１０、Ｄ_ｍａｘ＝１０とした場合には約十万通り、Ｃ_ｍａｘ＝２０、Ｄ_ｍａｘ＝２０とした場合には数百億通りとなり、探索すべきモデルの複雑さと共に指数的に増加する。

　なお、上記の方法のほか、赤池情報量基準や交差検定など他のモデル選択基準に基づく方法も提案されている。しかし、いずれもコンポーネント種類の組合せを回避することはできない。

　上記に関し、非特許文献６では、ベイズ情報量基準と等価性の知られる最小記述長に関して、隠れ変数に対する期待情報量基準を最小化することで、混合するモデルの数と種類を効率的に探索する方法が提案されている。しかし、この方法では、上記１）の方法と同様の理由により混合モデルではフィッシャー情報行列が非正則となり、基準そのものが正当性を失うため、適切なモデル選択を行うことができない。

　本発明の目的は、上記課題を解決し、混合モデルのモデル選択問題に対して、混合の数および種類と共に指数的に増加するモデルの候補数に対して、適切な基準のもとで高速にモデル選択を実現する混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラムを提供することにある。

　本発明の第１の観点によれば、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有することを特徴とする混合モデル推定装置が提供される。

　本発明の第２の観点によれば、データ入力部が、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力し、処理部が、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定し、モデル推定結果出力部が、前記処理部によるモデル推定結果を出力することを特徴とする混合モデル推定方法が提供される。

　本発明の第３の観点によれば、コンピュータを、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有する混合モデル推定装置として機能させるための混合モデル推定プログラムが提供される。

　本発明によれば、混合モデルのモデル選択問題に対して、混合の数および種類と共に指数的に増加するモデルの候補数に対して、適切な基準のもと高速にモデル選択を実現することができる。

本発明の実施の形態に係る混合モデル推定装置の構成を示すブロック図である。図１に示す混合モデル推定装置の動作を示すフローチャートである。

　次に、本発明に係る混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラムの実施の形態について、図面を参照して詳細に説明する。

　本発明の実施の形態では、入力されたデータ（観測値）に対し、式（１）のＰ（Ｘ|θ）に示される混合モデルの推定を行う装置及び方法を提案する。

　式（１）において、Ｃは混合数を、Ｘは入力されたデータに対してその混合モデル推定のターゲットとなる確率変数を、θ＝（π_１，…，π_Ｃ，φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ）はモデル（コンポーネント）のパラメータを、Ｓ_１，…，Ｓ_Ｃはコンポーネント種類を表す（パラメータθのうち、π_１，…，π_Ｃは混合数１からＣの混合比、φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣは混合数１からＣに対応するコンポーネントＳ_１からＳ_Ｃに関する分布のパラメータをそれぞれ表す）。なお、Ｓ_１からＳ_Ｃとなりうるコンポーネント候補は、例えば混合分布では、｛正規分布、対数正規分布、指数分布｝であったり、混合多項曲線モデルでは、｛０次曲線、１次曲線、２次曲線、３次曲線｝であったりする。また、θは、混合数Ｃとコンポーネント種類Ｓ_１，…，Ｓ_Ｃの関数であるが、表記の都合上で省略する。

　次に、確率変数Ｘに対する隠れ変数Ｚ＝（Ｚ_１，…，Ｚ_Ｃ）を定義する。Ｚｃ＝１は、Ｘがｃ番目のコンポーネントから生成されたデータであることを意味し、Ｚｃ＝０は、そうでないことを意味する。また、Σ_ｃ＝１ ^ＣＺｃ＝１である。ＸとＺの組は「完全変数」と呼ばれる（その対比として、Ｘは不完全変数と呼ぶ）。この完全変数に関する同時分布は、式（２）に示すＰ（Ｘ，Ｚ|θ）として定義される。

　以下の説明では、確率変数Ｘに対するＮ個の観測値（データ）をｘ_ｎ（ｎ＝１，…，Ｎ）、観測値ｘ_ｎに対するＮ個の隠れ変数Ｚの値をｚ_ｎ（ｎ＝１，…，Ｎ）とする。この隠れ変数Ｚの値ｚ_ｎの事後確率は、式（３）に示すＰ（ｚ_ｎ|ｘ_ｎ，θ）であらわされる。

　なお、本実施の形態では混合モデルに対して説明しているが、本発明はこれに限定されず、例えば混合モデルを拡張した隠れマルコフモデル等、類似のモデルに関する拡張は容易に構成することが可能である。同様に、本実施の形態では、ターゲットとなる確率変数をＸとした分布について説明しているが、本発明はこれに限定されず、例えば混合回帰モデルや混合分類モデルのように、条件付モデルＰ（Ｙ｜Ｘ）（Ｙはターゲットとなる確率変数）に関しても適用可能である。

　図１を参照すると、本発明の実施の形態に関わる混合モデル推定装置１１０は、混合モデルを構成する複数のモデルにより表現されるデータ（入力データ）１１１を入力し、その入力データ１１１に対して混合の数および各コンポーネントの種類を最適化し、モデル推定結果１１２として出力する。この混合モデル推定装置１１０は、データ入力装置（データ入力部）１０１と、混合数設定部１０２と、初期化処理部１０３と、隠れ変数変分確率計算処理部１０４と、隠れ変数変分確率記憶部１０５と、モデル最適化処理部１０６と、最適性判定処理部１０７と、最適モデル選択処理部１０８と、モデル推定結果出力装置（モデル推定結果出力部）１０９とを含む。

　このうち、混合数設定部１０２、初期化処理部１０３、隠れ変数変分確率計算処理部１０４、モデル最適化処理部１０６、最適性判定処理部１０７、および最適モデル選択処理部１０８は、本発明の処理部に対応するものであり、例えばプログラム制御により動作するコンピュータ（ＣＰＵ（Central Processing Unit）、プロセッサ、データ処理装置等）で構成されるが、それぞれの機能を実現可能な構成であれば、ハードウェア及びソフトウェア構成はいずれのものでもよい。

　データ入力装置１０１は、入力データ１１１を入力するための装置であり、この際に混合されるコンポーネントの種類及びそのパラメータや、混合数の候補値など、モデルの推定に必要なパラメータを同時に入力する。データ入力装置１０１は、入力データ１１１及びそのモデルの推定に必要なパラメータを入力可能な装置であれば、いずれの構成でもよく、例えば通信装置や記憶装置およびコンピュータ等のデバイスで構成してもよい。

　混合数設定部１０２は、モデルの混合数を入力された混合数の候補値から選択して設定する。以下では、設定された混合数をＣと表記することとする。

　初期化処理部１０３は、推定のための初期化処理を実施する。なお、初期化は任意の方法によって実施することが可能である。例としては、コンポーネントの種類をコンポーネントごとにランダムに設定し、設定された種類にしたがって、各コンポーネントのパラメータをランダムに設定する方法や、隠れ変数の変分確率をランダムに設定する方法が挙げられる。

　隠れ変数変分確率計算処理部１０４は、隠れ変数の変分確率を計算する。ここで、パラメータθは、初期化処理部１０３あるいはモデル最適化処理部１０６で計算されているため、その値を利用する。

　隠れ変数の変分確率ｑ（Ｚ）の計算方法は、式（４）に示される最適化問題を解くことによって計算される。

　Ｚ＾Ｎ＝Ｚ_１，…，Ｚ_Ｎは、データに対応する隠れ変数であり、上付きの（ｔ）は、ｔ回目の繰り返しで計算された値であることを示す。また、モデルは、Ｈ＝（Ｓ_１，…，Ｓ_Ｃ）と定義している。最適化されるＧは、ベイズ事後確率の下界であり、式（５）によって計算される。また、Ｑ^{（ｔ－１）}＝｛ｑ^（０），ｑ^（１），…，ｑ^{（ｔ－１）}｝は、隠れ変数変分確率記憶部１０５に記憶されている、前の繰り返し処理までに計算された隠れ変数の変分確率の集合である。

　隠れ変数変分確率記憶部１０５は、隠れ変数変分確率計算処理部１０４で計算された各データに対する隠れ変数の変分確率を記憶する（前の段落におけるＱ^{（ｔ－１）}がＱ^（ｔ）に更新される）。隠れ変数変分確率記憶部１０５は、計算された各データに対する隠れ変数の変分確率を記憶可能なメモリ等の記憶装置であれば、いずれの構成でもよく、例えばコンピュータ内に内蔵されるものでも、外部に設けられるものでもよい。

　モデル最適化処理部１０６は、隠れ変数変分確率記憶部１０５へ記憶されている隠れ変数の変分確率Ｑ^（ｔ）を読み込み、式（６）によって、ｔ回目の繰り返しにおける最適なモデルＨ^（ｔ）とパラメータθ^（ｔ）を算出する。

　この処理において重要な点は、式（５）によって定義されたＧは、コンポーネントごとに最適化の関数を分解することが可能なため、コンポーネント種類の組合せ（Ｓ_１からＳ_Ｃのどの種類を指定するか）を考慮することなく、Ｓ_１からＳ_Ｃ及びパラメータφ_１ ^Ｓ１からφ_Ｃ ^ＳＣを別々に最適化することが可能な点である。これによって、コンポーネントの種類を最適化する際に、組合せ爆発を回避して最適化を実行することが可能となる。

　最適性判定処理部１０７では、式（７）で計算されるモデル事後確率の下界の収束を判定する。

　その結果、モデル事後確率の下界の収束が判定していない場合には、隠れ変数変分確率計算処理部１０４から最適性判定処理部１０７の処理を繰り返す。

　以上の隠れ変数変分確率計算処理部１０４から最適性判定処理部１０７の処理を繰り返し、モデルとパラメータを最適化することで、モデル事後確率の下界を最大化する適切なモデルを選択することが可能となる。繰り返し処理によってモデル事後確率の下界が単調に増加することは、式（８）として示される。

　混合数設定部１０２で設定された混合数Ｃに対して、隠れ変数変分確率計算処理部１０４から最適性判定処理部１０７の処理で、コンポーネントの種類とパラメータが最適化される。

　最適モデル選択処理部１０８は、最大化されたモデル事後確率の下界の値（式（７）の第１項）が、現在設定されているモデル事後確率の下界よりも大きい場合には、そのモデルを最適なモデルとして設定する。全ての混合数の候補値についてモデルの事後確率の下界（及びコンポーネント種類とパラメータ）が計算され、最適な混合数が計算された場合には、処理がモデル推定結果出力装置１０９へ移り、まだ最適化の済んでいない混合数の候補が存在する場合には、混合数設定部１０２へ処理が移る。

　モデル推定結果出力装置１０９は、最適な混合数、コンポーネントの種類、パラメータなどをモデル推定結果１１２として出力する。モデル推定結果出力装置１０９は、モデル推定結果１１２を出力可能なものであれば、いずれの構成でもよく、例えば通信装置や記憶装置およびコンピュータ等のデバイスで構成してもよい。

　図２を参照すると、本実施の形態に関する混合モデル推定装置１１０は、概略以下のように動作する。

　まず、データ入力装置１０１から入力データ１１１を入力する（ステップＳ１００）。

　次に、混合数設定部１０２において、入力された混合数の候補値のうち、まだ最適化の行なわれていない混合数を選択し設定する（ステップＳ１０１）。

　次に、初期化処理部１０３において、指定された混合数に対して、推定のためパラメータや隠れ変数変分確率の初期化処理を実施する（ステップＳ１０２）。

　次に、隠れ変数変分確率計算処理部１０４において、隠れ変数の変分確率を計算し、計算された変分確率を隠れ変数変分確率記憶部１０５へ記憶する（ステップＳ１０３）。

　次に、モデル最適化処理部１０６において、各コンポーネントに対して種類とパラメータの推定を実施する（ステップＳ１０４）。

　次に、最適性判定処理部１０７において、モデル事後確率の下界が収束したかを判定する（ステップＳ１０５、Ｓ１０６）。

　その結果、収束と判定されなかった場合（ステップＳ１０６：ＮＯ）には、隠れ変数変分確率計算処理部１０４、モデル最適化処理部１０６、最適性判定処理部１０７において、それぞれステップＳ１０３からＳ１０６の処理を繰り返す。

　一方、収束したと判定された場合（ステップＳ１０６：ＹＥＳ）には、最適モデル選択処理部１０８において、現在設定されている最適なモデル（混合数、種類、パラメータ）のモデル事後確率の下界と、ステップＳ１０６までで計算されたモデル事後確率の下界を比較し、値の大きい方を最適なモデルとして設定する（ステップＳ１０７）。

　次に、推定されていない混合数の候補が残っているかを判定する（Ｓ１０８）。

　その結果、残っている場合（ステップＳ１０８：ＹＥＳ）には、混合数設定部１０２、初期化処理部１０３、隠れ変数変分確率計算処理部１０４、モデル最適化処理部１０６、最適性判定処理部１０７、最適モデル選択処理部１０８において、それぞれステップＳ１０１からＳ１０８の処理を繰り返す。

　一方、残っていない場合（ステップＳ１０８：ＮＯ）には、モデル推定結果出力装置１０９により、モデル推定結果１１２を出力し、処理を完了する（ステップＳ１０９）。

　従って、本実施の形態によれば、モデル事後確率の下界を最大化することによって、混合するモデルの数、種類、パラメータの全てを効率よく推定することができる。つまり、コンポーネントごとに分離されたモデル事後確率の下界を繰り返し最適化することで、コンポーネントの種類とパラメータとを最適化し、コンポーネントの数も最適化することができる。

　これにより、混合モデルのモデル選択問題に対して、混合の数および種類と共に指数的に増加するモデルの候補数に対して、適切な基準のもとで高速にモデル選択を実現することができる。

　以下では、本実施の形態で提案する混合モデル推定装置が適用可能なモデルやその応用例について、具体的に説明する。

　（独立性の異なる複数の混合分布）
　本実施の形態で提案する混合モデル推定装置を利用すると、多次元データに対して独立性の異なる複数の分布の混合分布に関し、混合の数および各コンポーネントの独立性を高速に最適化することが可能である。

　例えば、３次元の正規分布を例に考えると、３次元では、次元の独立（従属）の組合せが８種類考えられ、コンポーネントの候補として独立性（共分散行列の非対角要素の非ゼロ要素の位置）の異なる正規分布を与えることが考えられる。
　例えば異なる年代や性別、生活習慣をもつ人々の健康診断検査値（体重、血圧、血糖など）を入力データとし、分布推定をする場合に、年代・性別・生活習慣によって異なる検査値の依存関係を自動的にモデル化することが可能である。さらにそのような依存関係を選択した上で、どのデータがどのコンポーネントから発生したかを隠れ変数の事後確率の値から調べることによって、検査項目間の依存関係の異なる群の抽出（クラスタリング）を行うことができる。

　なお、本実施の形態で提案する混合モデル推定装置を利用すると、多次元正規分布に関わらず、任意の多次元分布に関して適用することが可能である。

　（異種多様な複数の混合分布）
　本実施の形態で提案する混合モデル推定装置を利用すると、複数の異なる分布の混合分布に関して、混合の数および各コンポーネントの分布の種類を最適化することが可能である。

　例えば、正規分布、対数正規分布、指数分布を混合させる分布の候補とした場合には、各分布の数とパラメータが最適化された混合分布を計算することが可能である。

　例として、オペレーショナルリスクの推定への応用を説明する。リスクの分布は一般には小さなリスクをもつ多数の事象群（例えば事務手続きのミスなど。対数正規分布などでモデル化）と、低頻度であるが高リスクの事象群（株の誤発注など。高い平均値をもつ正規分布などでモデル化）が混合した分布となる。

　本発明を利用することによって、リスクの種類が複数（多変量）となった場合でも、自動的に適切な分布の種類、数、パラメータを自動決定しリスクの分布を推定することが可能である。

　本実施の形態で提案する混合モデル推定装置を利用すると、正規分布、対数正規分布、指数分布の例に関わらず、任意の複数種類の分布に関して適用することが可能である。

　（異なる種類の確率的な回帰関数の混合分布）
　本実施の形態で提案する混合モデル推定装置を利用すると、異なる種類の確率的回帰関数の混合分布に関して、混合の数および各コンポーネントに関する回帰関数を最適化することが可能である。

　例えば、多項式曲線（多次元の場合は曲面）による回帰曲線の混合モデルを考える。この場合、各コンポーネントの候補としては、次数の異なる多項式曲線が考えられる。本発明で提案する混合モデル推定装置を利用すると、混合の数と各コンポーネントの多項式曲線の次数を最適化することが可能である。

　本実施の形態で提案する混合モデル推定装置を利用すると、多項式曲線の例に関わらず、任意の複数種類の回帰関数の混合モデルに関して適用することが可能である。

　（異なる種類の確率的な識別関数の混合分布）
　本実施の形態で提案する混合モデル推定装置を利用すると、異なる種類の確率的分類関数の混合分布に関して、混合の数および各コンポーネントに関する分類関数を最適化することが可能である。

　例えば、自動車データから取得される複数のセンサ値を用いて自動車に発生する故障の種類を特定する故障診断を考える。故障や自動車、走行状態によって、注目すべきセンサが異なるため、分類関数が利用すべきセンサ値もかわってくる。

　本実施の形態を利用することによって、様々なデータが混在する場合にも、複数の異なるセンサ値を利用する分類関数を自動的に推定することが可能である（コンポーネントの候補は、どのセンサ値を利用するか等）。

　（異なる出力確率を持つ隠れマルコフモデルの混合分布）
　本実施の形態で提案する混合モデル推定装置を利用すると、異なる出力確率を持つ隠れマルコフモデルについて、隠れ状態数と出力確率の種類、パラメータを最適化することが可能である。

　例えば、隠れ状態によって出力確率が正規分布、対数正規分布、指数分布といった異なる分布である場合にも、各分布の数とパラメータが最適化された隠れマルコフモデルを学習することが可能である。

　例えば、音声認識では隠れ状態数や出力確率の推定が重要となるが、複数の異なる環境で取得された音声はノイズの状態などが異なるため、出力確率が異なる。このような状況でも本実施の形態を利用することによって効率的なモデル推定が可能となる。

　上記の混合モデル推定装置は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。この場合のハードウェア、ソフトウェア構成は特に限定されるものではなく、上述した機能を実現可能なものであれば、いずれの形態でも適用可能である。

　上記の実施の形態及び実施例の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。

　（付記１）混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、
　前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、
　前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有することを特徴とする混合モデル推定装置。

　（付記２）前記処理部は、前記混合数の候補値の全ての混合数について、前記モデル事後確率の下界、前記コンポーネントの種類及びそのパラメータを計算することにより、最適な混合モデルの混合数を求めることを特徴とする付記１に記載の混合モデル推定装置。

　（付記３）前記混合モデルは、前記混合数をＣとし、前記確率変数をＸとし、前記コンポーネントの種類をＳ_１，…，Ｓ_Ｃとし、前記コンポーネントのパラメータをθ＝（π_１，…，π_Ｃ，φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ）（π_１，…，π_Ｃ：混合数１からＣの混合比、φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ：混合数１からＣに対応するコンポーネントＳ_１からＳ_Ｃに関する分布のパラメータ）としたとき、式（１）で示され、
　前記確率変数Ｘと前記隠れ変数Ｚとの組である完全変数に関する同時分布は、前記確率変数Ｘに対する隠れ変数をＺ＝（Ｚ_１，…，Ｚ_Ｃ）としたとき、式（２）で定義され、
　前記隠れ変数Ｚの事後確率は、前記確率変数Ｘに対するＮ個のデータをｘ_ｎ（ｎ＝１，…，Ｎ）とし、前記ｘ_ｎに対するＮ個の隠れ変数Ｚの値をｚ_ｎ（ｎ＝１，…，Ｎ）としたとき、式（３）で表され、
　前記処理部は、前記隠れ変数をＺ^Ｎ＝Ｚ_１，…，Ｚ_Ｎとし、前記隠れ変数の変分確率をＱ^（ｔ）＝｛ｑ^（０），ｑ^（１），…，ｑ^（ｔ）｝（上付きの（ｔ）：ｔ回目の繰り返しで計算された値）とし、前記混合モデルをＨ＝（Ｓ_１，…，Ｓ_Ｃ）とし、前記モデル事後確率の下界をＧとしたとき、前記隠れ変数の変分確率を、式（４）で示される最適化問題を解くことで計算し、前記モデル事後確率の下界を、式（５）で計算し、前記隠れ変数の変分確率を用いて、ｔ回目の繰り返しにおける最適な混合モデルＨ^（ｔ）とそのコンポーネントのパラメータθ^（ｔ）とを、式（６）で計算し、前記モデル事後確率の下界の収束を、式（７）で判定し、収束したと判定されない場合、式（４）から式（７）の処理を繰り返し、収束したと判定された場合、現在設定されている最適な混合モデルのモデル事後確率の下界と、今回計算されたモデル事後確率の下界とを比較し、値の大きい方を最適な混合モデルとして設定し、前記混合数の候補値の全ての混合数について、式（４）から式（７）の処理を繰り返すことにより最適な混合モデルを推定することを特徴とする付記１又は２に記載の混合モデル推定装置。

　（付記４）前記混合モデルは、独立性の異なる複数の混合分布で構成されることを特徴とする付記１から３のいずれかに記載の混合モデル推定装置。

　（付記５）
　前記混合モデルは、異種多様な複数の混合分布で構成されることを特徴とする付記１から３のいずれかに記載の混合モデル推定装置。

　（付記６）
　前記混合モデルは、異なる種類の確率的な回帰関数の混合分布で構成されることを特徴とする付記１から３のいずれかに記載の混合モデル推定装置。

　（付記７）
　前記混合モデルは、異なる種類の確率的な識別関数の混合分布で構成されることを特徴とする付記１から３のいずれかに記載の混合モデル推定装置。

　（付記８）
　前記混合モデルは、異なる出力確率を持つ隠れマルコフモデルの混合分布で構成されることを特徴とする付記１から３のいずれか１項に記載の混合モデル推定装置。

　（付記９）データ入力部が、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力し、処理部が、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定し、モデル推定結果出力部が、前記処理部によるモデル推定結果を出力することを特徴とする混合モデル推定方法。

　（付記１０）前記処理部が、前記混合数の候補値の全ての混合数について、前記モデル事後確率の下界、前記コンポーネントの種類及びそのパラメータを計算することにより、最適な混合モデルの混合数を求めることを特徴とする付記９に記載の混合モデル推定方法。

　（付記１１）前記混合モデルは、前記混合数をＣとし、前記確率変数をＸとし、前記コンポーネントの種類をＳ_１，…，Ｓ_Ｃとし、前記コンポーネントのパラメータをθ＝（π_１，…，π_Ｃ，φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ）（π_１，…，π_Ｃ：混合数１からＣの混合比、φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ：混合数１からＣに対応するコンポーネントＳ_１からＳ_Ｃに関する分布のパラメータ）としたとき、式（１）で示され、
　前記確率変数Ｘと前記隠れ変数Ｚとの組である完全変数に関する同時分布は、前記確率変数Ｘに対する隠れ変数をＺ＝（Ｚ_１，…，Ｚ_Ｃ）としたとき、式（２）で定義され、
　前記隠れ変数Ｚの事後確率は、前記確率変数Ｘに対するＮ個のデータをｘ_ｎ（ｎ＝１，…，Ｎ）とし、前記ｘ_ｎに対するＮ個の隠れ変数Ｚの値をｚ_ｎ（ｎ＝１，…，Ｎ）としたとき、式（３）で表され、
　前記処理部が、前記隠れ変数をＺ^Ｎ＝Ｚ_１，…，Ｚ_Ｎとし、前記隠れ変数の変分確率をＱ^（ｔ）＝｛ｑ^（０），ｑ^（１），…，ｑ^（ｔ）｝（上付きの（ｔ）：ｔ回目の繰り返しで計算された値）とし、前記混合モデルをＨ＝（Ｓ_１，…，Ｓ_Ｃ）とし、前記モデル事後確率の下界をＧとしたとき、前記隠れ変数の変分確率を、式（４）で示される最適化問題を解くことで計算し、前記モデル事後確率の下界を、式（５）で計算し、前記隠れ変数の変分確率を用いて、ｔ回目の繰り返しにおける最適な混合モデルＨ^（ｔ）とそのコンポーネントのパラメータθ^（ｔ）とを、式（６）で計算し、前記モデル事後確率の下界の収束を、式（７）で判定し、収束したと判定されない場合、式（４）から式（７）の処理を繰り返し、収束したと判定された場合、現在設定されている最適な混合モデルのモデル事後確率の下界と、今回計算されたモデル事後確率の下界とを比較し、値の大きい方を最適な混合モデルとして設定し、前記混合数の候補値の全ての混合数について、式（４）から式（７）の処理を繰り返すことにより最適な混合モデルを推定することを特徴とする付記９又は１０に記載の混合モデル推定方法。

　（付記１２）前記混合モデルは、独立性の異なる複数の混合分布で構成されることを特徴とする付記９から１１のいずれかに記載の混合モデル推定方法。

　（付記１３）
　前記混合モデルは、異種多様な複数の混合分布で構成されることを特徴とする付記９から１１のいずれかに記載の混合モデル推定方法。

　（付記１４）
　前記混合モデルは、異なる種類の確率的な回帰関数の混合分布で構成されることを特徴とする付記９から１１のいずれかに記載の混合モデル推定方法。

　（付記１５）
　前記混合モデルは、異なる種類の確率的な識別関数の混合分布で構成されることを特徴とする付記９から１１のいずれかに記載の混合モデル推定方法。

　（付記１６）
　前記混合モデルは、異なる出力確率を持つ隠れマルコフモデルの混合分布で構成されることを特徴とする付記９から１１のいずれかに記載の混合モデル推定方法。

　（付記１７）コンピュータを、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有する混合モデル推定装置として機能させるための混合モデル推定プログラム。

　（付記１８）前記処理部が、前記混合数の候補値の全ての混合数について、前記モデル事後確率の下界、前記コンポーネントの種類及びそのパラメータを計算することにより、最適な混合モデルの混合数を求めることを特徴とする付記１７に記載の混合モデル推定プログラム。

　（付記１９）前記混合モデルは、前記混合数をＣとし、前記確率変数をＸとし、前記コンポーネントの種類をＳ_１，…，Ｓ_Ｃとし、前記コンポーネントのパラメータをθ＝（π_１，…，π_Ｃ，φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ）（π_１，…，π_Ｃ：混合数１からＣの混合比、φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ：混合数１からＣに対応するコンポーネントＳ_１からＳ_Ｃに関する分布のパラメータ）としたとき、式（１）で示され、
　前記確率変数Ｘと前記隠れ変数Ｚとの組である完全変数に関する同時分布は、前記確率変数Ｘに対する隠れ変数をＺ＝（Ｚ_１，…，Ｚ_Ｃ）としたとき、式（２）で定義され、
　前記隠れ変数Ｚの事後確率は、前記確率変数Ｘに対するＮ個のデータをｘ_ｎ（ｎ＝１，…，Ｎ）とし、前記ｘ_ｎに対するＮ個の隠れ変数Ｚの値をｚ_ｎ（ｎ＝１，…，Ｎ）としたとき、式（３）で表され、
　前記処理部が、前記隠れ変数をＺ^Ｎ＝Ｚ_１，…，Ｚ_Ｎとし、前記隠れ変数の変分確率をＱ^（ｔ）＝｛ｑ^（０），ｑ^（１），…，ｑ^（ｔ）｝（上付きの（ｔ）：ｔ回目の繰り返しで計算された値）とし、前記混合モデルをＨ＝（Ｓ_１，…，Ｓ_Ｃ）とし、前記モデル事後確率の下界をＧとしたとき、前記隠れ変数の変分確率を、式（４）で示される最適化問題を解くことで計算し、前記モデル事後確率の下界を、式（５）で計算し、前記隠れ変数の変分確率を用いて、ｔ回目の繰り返しにおける最適な混合モデルＨ^（ｔ）とそのコンポーネントのパラメータθ^（ｔ）とを、式（６）で計算し、前記モデル事後確率の下界の収束を、式（７）で判定し、収束したと判定されない場合、式（４）から式（７）の処理を繰り返し、収束したと判定された場合、現在設定されている最適な混合モデルのモデル事後確率の下界と、今回計算されたモデル事後確率の下界とを比較し、値の大きい方を最適な混合モデルとして設定し、前記混合数の候補値の全ての混合数について、式（４）から式（７）の処理を繰り返すことにより最適な混合モデルを推定することを特徴とする付記１７又は１８に記載の混合モデル推定プログラム。

　（付記２０）前記混合モデルは、独立性の異なる複数の混合分布で構成されることを特徴とする付記１７から１９のいずれかに記載の混合モデル推定プログラム。

　（付記２１）
　前記混合モデルは、異種多様な複数の混合分布で構成されることを特徴とする付記１７から１９のいずれかに記載の混合モデル推定プログラム。

　（付記２２）
　前記混合モデルは、異なる種類の確率的な回帰関数の混合分布で構成されることを特徴とする付記１７から１９のいずれかに記載の混合モデル推定プログラム。

　（付記２３）
　前記混合モデルは、異なる種類の確率的な識別関数の混合分布で構成されることを特徴とする付記１７から１９のいずれかに記載の混合モデル推定プログラム。

　（付記２４）
　前記混合モデルは、異なる出力確率を持つ隠れマルコフモデルの混合分布で構成されることを特徴とする付記１７から１９のいずれかに記載の混合モデル推定プログラム。

　以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１１年３月１８日に出願された日本出願特願２０１１－０６０７３２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上説明したようには、本発明は、多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラムの用途に利用可能であり、例えば独立性の異なる複数の混合分布、異種多様な複数の混合分布、異なる種類の確率的な回帰関数の混合分布、異なる種類の確率的な識別関数の混合分布、異なる出力確率を持つ隠れマルコフモデルの混合分布等の混合モデルを推定する装置、方法、プログラムの用途に利用可能である。

１０１　データ入力装置（データ入力部）
１０２　混合数設定部
１０３　初期化処理部
１０４　隠れ変数変分確率計算処理部
１０５　隠れ変数変分確率記憶部
１０６　モデル最適化処理部
１０７　最適性判定処理部
１０８　最適モデル選択処理部
１０９　モデル推定結果出力装置（モデル推定結果出力部）
１１０　混合モデル推定装置
１１１　入力データ
１１２　モデル推定結果

Claims

　混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、
　前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、
　前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有することを特徴とする混合モデル推定装置。
　前記処理部は、前記混合数の候補値の全ての混合数について、前記モデル事後確率の下界、前記コンポーネントの種類及びそのパラメータを計算することにより、最適な混合モデルの混合数を求めることを特徴とする請求項１に記載の混合モデル推定装置。
　前記混合モデルは、
　前記混合数をＣとし、前記確率変数をＸとし、前記コンポーネントの種類をＳ_１，…，Ｓ_Ｃとし、前記コンポーネントのパラメータをθ＝（π_１，…，π_Ｃ，φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ）（π_１，…，π_Ｃ：混合数１からＣの混合比、φ_１ ^Ｓ１，…，φ_Ｃ ^ＳＣ：混合数１からＣに対応するコンポーネントＳ_１からＳ_Ｃに関する分布のパラメータ）としたとき、

で示され、
　前記確率変数Ｘと前記隠れ変数Ｚとの組である完全変数に関する同時分布は、
　前記確率変数Ｘに対する隠れ変数をＺ＝（Ｚ_１，…，Ｚ_Ｃ）としたとき、

で定義され、
　前記隠れ変数Ｚの事後確率は、
　前記確率変数Ｘに対するＮ個のデータをｘ_ｎ（ｎ＝１，…，Ｎ）とし、前記ｘ_ｎに対するＮ個の隠れ変数Ｚの値をｚ_ｎ（ｎ＝１，…，Ｎ）としたとき、

で表され、
　前記処理部は、
　前記隠れ変数をＺ^Ｎ＝Ｚ_１，…，Ｚ_Ｎとし、前記隠れ変数の変分確率をＱ^（ｔ）＝｛ｑ^（０），ｑ^（１），…，ｑ^（ｔ）｝（上付きの（ｔ）：ｔ回目の繰り返しで計算された値）とし、前記混合モデルをＨ＝（Ｓ_１，…，Ｓ_Ｃ）とし、前記モデル事後確率の下界をＧとしたとき、
　前記隠れ変数の変分確率を、

で示される最適化問題を解くことで計算し、
　前記モデル事後確率の下界を、

で計算し、
　前記隠れ変数の変分確率を用いて、ｔ回目の繰り返しにおける最適な混合モデルＨ^（ｔ）とそのコンポーネントのパラメータθ^（ｔ）とを、

で計算し、
　前記モデル事後確率の下界の収束を、

で判定し、収束したと判定されない場合、式（４）から式（７）の処理を繰り返し、収束したと判定された場合、現在設定されている最適な混合モデルのモデル事後確率の下界と、今回計算されたモデル事後確率の下界とを比較し、値の大きい方を最適な混合モデルとして設定し、
　前記混合数の候補値の全ての混合数について、式（４）から式（７）の処理を繰り返すことにより最適な混合モデルを推定することを特徴とする請求項１又は２に記載の混合モデル推定装置。
　前記混合モデルは、独立性の異なる複数の混合分布で構成されることを特徴とする請求項１から３のいずれか１項に記載の混合モデル推定装置。
　前記混合モデルは、異種多様な複数の混合分布で構成されることを特徴とする請求項１から３のいずれか１項に記載の混合モデル推定装置。
　前記混合モデルは、異なる種類の確率的な回帰関数の混合分布で構成されることを特徴とする請求項１から３のいずれか１項に記載の混合モデル推定装置。
　前記混合モデルは、異なる種類の確率的な識別関数の混合分布で構成されることを特徴とする請求項１から３のいずれか１項に記載の混合モデル推定装置。
　前記混合モデルは、異なる出力確率を持つ隠れマルコフモデルの混合分布で構成されることを特徴とする請求項１から３のいずれか１項に記載の混合モデル推定装置。
　データ入力部が、混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力し、
　処理部が、前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定し、
　モデル推定結果出力部が、前記処理部によるモデル推定結果を出力することを特徴とする混合モデル推定方法。
　コンピュータを、
　混合モデルの推定対象となるデータと、このデータの混合モデルの推定に必要な、混合数の候補値と、前記混合モデルを構成するコンポーネントの種類及びそのパラメータとを入力するデータ入力部と、
　前記混合数の候補値から混合数を設定し、設定した混合数に対し、前記データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率を計算し、計算した隠れ変数の変分確率を用いて前記混合モデルのコンポーネントごとに分離されたモデル事後確率の下界が最大となるように前記コンポーネントの種類及びそのパラメータを最適化することにより最適な混合モデルを推定する処理部と、
　前記処理部によるモデル推定結果を出力するモデル推定結果出力部とを有する混合モデル推定装置として機能させるための混合モデル推定プログラム。