WO2013042789A1 - 運用管理装置、運用管理方法、及びプログラム - Google Patents
運用管理装置、運用管理方法、及びプログラム Download PDFInfo
- Publication number
- WO2013042789A1 WO2013042789A1 PCT/JP2012/074313 JP2012074313W WO2013042789A1 WO 2013042789 A1 WO2013042789 A1 WO 2013042789A1 JP 2012074313 W JP2012074313 W JP 2012074313W WO 2013042789 A1 WO2013042789 A1 WO 2013042789A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- correlation
- evaluation value
- servers
- correlation destruction
- destruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Definitions
- the correlation destruction detection unit 103 detects the correlation destruction of the correlation included in the correlation model 122 using the performance information newly collected by the performance information collection unit 101, and generates the correlation destruction information 123 ( Step S104).
- the correlation destruction detection unit 103 stores the correlation destruction information 123 in the correlation destruction storage unit 113.
- the correlation destruction detection unit 103 inputs the measurement value of one of the two metrics among the plurality of metrics to the correlation function corresponding to the two metrics. When the difference between the obtained predicted value of the other metric and the measured value of the other metric (conversion error due to the correlation function) is greater than or equal to a predetermined value, it is detected as a correlation destruction of the correlation between the two metrics.
- the evaluation value calculation unit 105 evaluates the conditional expression of each evaluation rule in the evaluation rule information 125 for the set of two servers 203 related to the correlation in which each correlation destruction is detected, included in the correlation destruction information 123. Then, the evaluation value coefficients (evaluation value coefficient 1, evaluation value coefficient 2) of the true evaluation rule are extracted. The evaluation value calculation unit 105 calculates an evaluation value according to Equation 1 using the extracted evaluation value coefficient.
- the failure similarity calculation unit 108 matches the presence / absence of correlation destruction indicated by the evaluated correlation destruction information 126 and the presence / absence of correlation destruction indicated by the correlation destruction pattern 128 for each of the plurality of correlations between the servers 203.
- the ratio is calculated as the similarity.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
Abstract
不変関係分析において、精度の高い分析結果が得られる運用管理装置を提供する。 運用管理装置100は、相関破壊検出部103と、評価値算出部105とを含む。相関モデル記憶部103は、1以上の処理装置を含むシステムにおける、処理装置で実行される複数のサーバ203の内の異なる2つのサーバ203のメトリック間の相関関係の相関破壊を検出する。評価値算出部105は、入力されたメトリックの計測値から、2つのサーバ203間の相関関係に相関破壊が検出された場合、システムにおける、当該相関破壊が検出された相関関係に係る2つのサーバ203間の関係をもとに、当該相関破壊の評価値を算出し、出力する。
Description
本発明は、運用管理装置、運用管理方法、及びプログラムに関し、特に、システムの障害検出を行う運用管理装置、運用管理方法、及びプログラムに関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
特許文献1記載の運用管理システムは、システムの複数のメトリック(性能指標)の計測値をもとに、複数のメトリック間の組み合わせのそれぞれに対して相関関数を決定することにより、複数の相関関係を示す相関関数を含む相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、新たに入力されたメトリックの計測値に対して相関関係の破壊(相関破壊)が発生しているかどうかを判定し、相関破壊が集中しているメトリックを検出する等の方法により、障害の原因を特定に可能にする。このように、相関破壊をもとに障害原因を分析する技術は、不変関係分析と呼ばれる。
不変関係分析では、メトリックの値の大きさでは無くメトリック間の相関関係に着目するため、それぞれのメトリックの値を閾値と比較することにより障害検出を行う場合に比べて、閾値の設定が不要、閾値により検出できない障害の検出が可能、異常原因の特定が容易等の利点がある。
なお、関連技術として、特許文献2には、移動通信網における通信品質の指標の確率分布に基づき、通信網の異常を検出する技術が開示されている。また、特許文献3には、イベントの相関解析ルールを用いて、障害原因を特定する技術が開示されている。また、特許文献4には、ネットワークの障害の確信度を算出し、確信度順に表示する技術が開示されている。
特許文献1記載の運用管理システムは、システムの複数のメトリック(性能指標)の計測値をもとに、複数のメトリック間の組み合わせのそれぞれに対して相関関数を決定することにより、複数の相関関係を示す相関関数を含む相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、新たに入力されたメトリックの計測値に対して相関関係の破壊(相関破壊)が発生しているかどうかを判定し、相関破壊が集中しているメトリックを検出する等の方法により、障害の原因を特定に可能にする。このように、相関破壊をもとに障害原因を分析する技術は、不変関係分析と呼ばれる。
不変関係分析では、メトリックの値の大きさでは無くメトリック間の相関関係に着目するため、それぞれのメトリックの値を閾値と比較することにより障害検出を行う場合に比べて、閾値の設定が不要、閾値により検出できない障害の検出が可能、異常原因の特定が容易等の利点がある。
なお、関連技術として、特許文献2には、移動通信網における通信品質の指標の確率分布に基づき、通信網の異常を検出する技術が開示されている。また、特許文献3には、イベントの相関解析ルールを用いて、障害原因を特定する技術が開示されている。また、特許文献4には、ネットワークの障害の確信度を算出し、確信度順に表示する技術が開示されている。
上述の特許文献1に記載された不変関係分析を、データセンターのように、複数の独立した業務システムが混在する環境に適用した場合、これらの独立した業務システム間に相関関係が抽出され、当該相関関係に対して相関破壊が検出されることがある。このような独立した業務システム間の相関関係に係る相関破壊の検出は、障害原因の特定を困難にする、あるいは、障害原因の特定を誤る要因(ノイズ)となる可能性がある。
本発明の目的は、上述の課題を解決し、不変関係分析において、ノイズが排除された精度の高い分析結果が得られる運用管理装置、運用管理方法、及びプログラムを提供することである。
本発明の目的は、上述の課題を解決し、不変関係分析において、ノイズが排除された精度の高い分析結果が得られる運用管理装置、運用管理方法、及びプログラムを提供することである。
本発明の一態様における運用管理装置は、1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出する相関破壊検出手段と、入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する評価値算出手段とを含む。
本発明の一態様における運用管理方法は、1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する処理を実行させるプログラムを格納する。
本発明の一態様における運用管理方法は、1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する処理を実行させるプログラムを格納する。
本発明の効果は、不変関係分析において、精度の高い分析結果が得られることである。
(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における運用管理システムの構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システムは、運用管理装置100と分析対象システム200とを含む。運用管理装置100と分析対象システム200とは、ネットワーク等により接続される。
分析対象システム200は、例えば、データセンター等、運用管理装置100が不変関係分析を行う対象となるシステムである。
図3は、本発明の第1の実施の形態における分析対象システム200の構成の例を示すブロック図である。
ここで、分析対象システム200は、物理的なコンピュータである処理装置201を1以上含む。処理装置201では、例えば、データセンターの顧客毎に構築されるシステム等、複数の業務システム(サブシステム)202の処理が実行される。業務システム202の各々は、1以上のサーバ203により構成される。サーバ203は、例えば、3層モデルにおけるWEBサーバ、アプリケーション(AP)サーバ、データベース(DB)サーバ等のサービス処理を実行するソフトウェアモジュールであり、処理装置201のCPU(Central Processing Unit)で実行される。この場合、1つの処理装置201に、1つのサーバ203が配置されてもよく、1つの処理装置201に、複数のサーバ203が配置されてもよい。また、1つの業務システム202を構成する複数のサーバ203の各々が、異なる処理装置201に配置されてもよい。
図3の例では、分析対象システム200は、WEBサーバ、APサーバ、DBサーバの3層モデルからなる、システム識別子Sys1、Sys2の2つの業務システム202を含む。システム識別子Sys1の業務システム202は、サーバ識別子WEB_T1、AP_T1、及び、DB_T1のWEBサーバ、APサーバ、及び、DBサーバを含む。システム識別子Sys2の業務システム202は、サーバ識別子WEB_T2、AP_T2、及び、DB_T2のWEBサーバ、APサーバ、及び、DBサーバを含む。また、装置識別子SV1の処理装置201には、サーバ識別子WEB_T1、WEB_T2のWEBサーバが配置され、装置識別子SV2の処理装置201には、サーバ識別子AP_T1、AP_T2、DB_T1、DB_T2のAPサーバ、DBサーバが配置される。
運用管理装置100は、分析対象システム200に対する不変関係分析を行う。
運用管理装置100は、性能情報収集部101、相関モデル生成部102、相関破壊検出部103、構成情報生成部104、評価値算出部105、対話部106、対処実行部107、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、構成情報記憶部114、及び、評価規則記憶部115を含む。
ここで、性能情報収集部101は、所定の時間間隔で、分析対象システム200上の各サーバ203から、当該サーバ203において計測された所定の種目の性能値の実測データ(計測値)を取得する。性能値の種目としては、例えば、CPU使用率、メモリ使用量、ディスク使用量等、当該サーバ203に関するコンピュータリソースの使用率や使用量が用いられる。
ここで、サーバ203における所定の性能値の種目をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックの値は、整数や小数の数値により表される。各メトリックは、メトリックの識別子(メトリック識別子)により識別される。メトリック識別子は、当該メトリック識別子で示されるメトリックを含むサーバ203のサーバ識別子と性能値の種目を含む。例えば、メトリック識別子WEB1_T1.CPUは、サーバ識別子WEB1_T1のサーバ203のCPU使用率を示す。各サーバ203は、メトリック識別子をメトリックの計測値に付与して、運用管理装置100に出力する。なお、メトリックは、特許文献1における要素に相当する。
相関モデル生成部102は、特許文献1と同様に、性能系列情報121をもとに、分析対象システム200上の複数のメトリック内の異なる2つのメトリック間の相関関係を示す相関関数を含む相関モデル122を生成する。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
相関破壊検出部103は、特許文献1と同様に、新たに入力された性能情報について、相関モデル122に含まれる各メトリックの組み合わせに対する相関関係の相関破壊を検出する。
相関破壊記憶部113は、相関破壊検出部103による相関破壊の検出結果を相関破壊情報123として記憶する。
構成情報生成部104は、各サーバ203の属性を示す、構成情報124を生成する。ここで、属性は、分析対象システム200におけるサーバ203間の関係を判別するための属性である。
構成情報記憶部114は、構成情報生成部104が生成した構成情報124を記憶する。
評価規則記憶部115は、評価値算出部105が構成情報124を用いて相関破壊の評価値を算出するために用いる規則である、評価規則情報125を記憶する。
評価値算出部105は、構成情報124と評価規則情報125とをもとに、相関破壊が検出された相関関係について、当該相関破壊の評価値を算出する。
対話部106は、管理者等に相関破壊の検出結果を提示し、管理者等から障害に対する対処等の指示を受け付ける。
対処実行部107は、管理者等により指示された対処を分析対象システム200上で実行する。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、構成情報記憶部114、及び、評価規則記憶部115は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態における運用管理装置100の動作について説明する。
ここでは、分析対象システム200が図3の構成である場合を例に、動作を説明する。
また、分析対象システム200の各サーバ203では、1つのメトリック(CPU使用率)が用いられ、異なる2つのサーバ203の当該メトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われると仮定する。
また、図3の分析対象システム200において、システム識別子Sys1の業務システム202とSys2の業務システム202とは、独立した業務システム202であるが、これらの業務システム202の処理内容や、運用時間帯等の特性が類似しており、これらの業務システム202間で、相関関係が抽出されると仮定する。そして、例えば、システム識別子Sys1の業務システム202が、障害や保守により、通常時とは異なる動作をした場合、業務システム202間の相関関係に相関破壊が検出される。
図4は、本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の性能情報収集部101は、分析対象システム200上の各処理装置201から、性能情報を収集する(ステップS101)。性能情報収集部101は、取得した性能情報を性能系列情報121として性能情報記憶部111に保存する。
相関モデル生成部102は、性能情報記憶部111の性能系列情報121を参照し、管理者等により指定された所定のモデル化期間の性能情報をもとに、相関モデル122を生成し、相関モデル記憶部112に保存する(ステップS102)。
ここで、相関モデル122は、複数のメトリックの内の2つのメトリックの組み合わせ毎に、当該2つのメトリック間の相関関係を示す相関関数(または、変換関数)を含む。相関関数は、1つのメトリックの値の時系列から他のメトリックの値の時系列を予測する関数である。相関モデル生成部102は、所定のモデル化期間の性能系列情報121を基に、各メトリックの組み合わせについて、相関関数の係数を決定する。相関関数の係数は、特許文献1と同様に、メトリックの計測値の時系列に対する、システム同定処理によって決定される。
図5は、本発明の第1の実施の形態における相関モデル122の例を示す図である。図5において、各ノードはメトリック(各サーバ203のCPU使用量)、ノード間の矢印は2つのメトリックの内の一方から他方への相関関係を示す。また、これらの相関関係のそれぞれについて、相関関数(図示せず)が決定される。図5の例では、システム識別子Sys1、Sys2の業務システム202の各々における、WEBサーバ、APサーバ、DBサーバの相互間で、相関関係が検出される。また、システム識別子Sys1とSys2の業務システム202間でも、WEBサーバ間、APサーバ間、DBサーバ間で相関関係が検出される。
例えば、相関モデル生成部102は、図3の分析対象システム200に対して、図5に示すような相関モデル122を生成する。
次に、構成情報生成部104は、分析対象システム200における各サーバ203の属性を収集して構成情報124を生成する(ステップS103)。構成情報生成部104は、構成情報124を構成情報記憶部114に保存する。
ここで、構成情報生成部104は、サーバ203の相互間で行われる通信、あるいは、サーバ203と運用管理装置100や図示しない他の装置との通信において、サーバ203から送出されるデータを監視する。そして、構成情報生成部104は、監視したデータの内容をもとに、各サーバ203の属性を収集する。構成情報生成部104は、例えば、サーバ203の属性として、当該サーバ203を含む業務システム202のシステム識別子、当該業務システム202のシステム種別(例えば、3層モデルであるかどうか)、当該当該サーバ203のサーバ種別(例えば、WEBサーバ、APサーバ、DBサーバ)を取得する。これらの情報は、例えば、サーバ203が送出するデータに含まれる当該サーバ203のサーバ識別子から取得する。例えば、サーバ識別子「WEB_T1」における「1」がシステム識別子「Sys1」、「T」がシステム種別「3層モデル」、「WEB」がサーバ種別「WEBサーバ」を示す場合、構成情報生成部104は、サーバ識別子「WEB_T1」のサーバ203の属性として、システム識別子「Sys1」、システム種別「3層モデル」、及び、サーバ種別「WEB」を取得する。
なお、構成情報生成部104は、業務システム202を構成する各サーバ203のソフトウェアモジュールが処理装置201で実行されるときに処理装置201により参照される、業務システム202や各サーバ203の設定ファイルを、図示しない記憶装置から取得し、取得した設定ファイルの内容をもとに、各サーバ203の属性を決定してもよい。例えば、業務システム202の設定ファイルに、当該業務システム202のシステム識別子、当該業務システム202のシステム種別、当該業務システム202を構成するサーバ203のサーバ識別子、及び、当該サーバ203のサーバ種別が含まれる場合、構成情報生成部104は、当該業務システム202の設定ファイルをもとに、各サーバ203の属性として、当該サーバ203を含む業務システム202のシステム識別子、当該業務システム202のシステム種別、及び、当該サーバ203のサーバ種別を決定する。
図7は、本発明の第1の実施の形態における構成情報124の例を示す図である。図7の構成情報124では、各サーバ203のサーバ識別子に対する属性として、当該サーバ203を含む業務システム202のシステム識別子(SystemID)、当該業務システム202のシステム種別が3層モデルであるかどうかを示すフラグ(is3Tier)、当該サーバ203のサーバ種別がWEBサーバであるか、APサーバであるか、DBサーバであるかどうかを示すフラグ(isWeb、isAP、isDB)が設定される。これらのフラグには、属性が真のときに1、偽のときに0が設定される。
例えば、構成情報生成部104は、図3の分析対象システム200に対して、図7の構成情報124を生成する。
次に、相関破壊検出部103は、性能情報収集部101により新たに収集された性能情報を用いて、相関モデル122に含まれる相関関係の相関破壊を検出し、相関破壊情報123を生成する(ステップS104)。相関破壊検出部103は、相関破壊情報123を相関破壊記憶部113に保存する。
ここで、相関破壊検出部103は、特許文献1と同様に、複数のメトリックの内の2つのメトリックの内の一方のメトリックの計測値を、当該2つのメトリックに対応する相関関数に入力して得られた他方のメトリックの予測値と、当該他方のメトリックの計測値との差分(相関関数による変換誤差)が所定値以上の場合、当該2つのメトリック間の相関関係の相関破壊として検出する。
また、相関破壊検出部103は、相関破壊が検出された相関関係について、変換誤差を示す相関破壊度を付与する。相関破壊検出部103は、例えば、変換誤差の値を相関破壊度として付与する。ここで、相関破壊検出部103は、変換誤差の大きさに応じた値であれば、変換誤差の値に応じて定義されたレベル等、他の値を相関破壊度として付与してもよい。
図6は、本発明の第1の実施の形態における相関破壊情報123の例を示す図である。相関破壊情報123は、相関破壊が検出された相関関係と当該相関関係の相関破壊度とを含む。なお、相関破壊検出部103は、相関破壊情報123において、相関関係を相関破壊度の大きい順番に設定してもよい。
ここで、図3の分析対象システム200におけるサーバ識別子WEB_T1のWEBサーバに障害が発生したことにより、図5の相関モデル122の各相関関係に相関破壊が発生し、図6のような相関破壊が検出されたと仮定する。図6の例では、異なる業務システム202間の相関関係(WEB_T1とWEB_T2間)の相関破壊度が大きく、相関破壊情報123の上位に提示される。
例えば、相関破壊検出部103は、図6に示すような相関破壊情報123を相関破壊記憶部113に保存する。
次に、評価値算出部105は、ステップS104で検出された相関破壊について、構成情報124と評価規則情報125をもとに、評価値を算出する(ステップS105)。
図8は、本発明の第1の実施の形態における評価規則情報125の例を示す図である。図8の例では、評価規則情報125は、評価規則の名前(評価規則名)に対して、当該評価規則の条件式と、当該条件式が真の場合に用いられる評価値係数(評価値係数1、評価値係数2)とが定義されている。
図8の評価規則情報125において、条件式のs1、s2は、相関破壊が検出された相関関係に係る2つのサーバ203のサーバ識別子を示す。ここで、相関破壊が検出された相関関係に係る2つのサーバ203のサーバ識別子の各々は、例えば、相関破壊が検出された相関関係に係る2つのメトリックのメトリック識別子の各々から抽出される。SystemID()は、引数で与えられたサーバ識別子に対する業務システム202のシステム識別子(SystemID)を、図7の構成情報124から抽出する関数である。is3Tier()、isWeb()、isAP()、及び、isDB()は、それぞれ、引数で与えられたサーバ識別子対する3層モデル、WEBサーバ、APサーバ、及び、DBサーバを示すフラグを、図7の構成情報124から抽出する関数である。2項演算子「==」は、両辺の整数値が一致したときに真、その他の場合に偽となる。2項演算子「∧」は、両辺が真であるときに真、その他の場合に偽となる。
ここで、評価値算出部105は、相関破壊情報123に含まれる、各相関破壊が検出された相関関係に係る2つのサーバ203の組について、評価規則情報125の各評価規則の条件式を評価し、真である評価規則の評価値係数(評価値係数1、評価値係数2)を抽出する。評価値算出部105は、抽出した評価値係数を用いて、数1式により、評価値を算出する。
図8の評価規則情報125では、評価規則名SameSysBoostの評価規則の条件式により、相関破壊が検出された相関関係に係る2つのサーバ203の各々を含む業務システム202の識別子が同じかどうかの判定が行われる。条件式が真の場合(業務システム202の識別子が同じ場合)、評価値係数1「3」、評価値係数2「0.5」が抽出される。
したがって、相関破壊が検出された相関関係に係る2つのサーバ203の各々を含む業務システム202の識別子が同じ場合、異なる場合に比べて、評価値は大きくなる。
さらに、評価規則名ConjBoost1、ConjBoost2の評価規則の条件式により、相関関係に係る2つのサーバ203が、3層モデルにおいて直接的な利用関係にあるかどうかの判定が行われる。ここで、直接的な利用関係とは、例えば、WEBサーバとAPサーバ、APサーバとDBサーバのように、一方のサーバ203が、他方のサーバ203に直接アクセスして、当該他方のサーバ203のサービスを利用することを示す。条件式が真の場合(直接的な利用関係にある場合)、評価値係数1「2」、評価値係数2「0.5」が抽出される。
また、評価規則名TranceReduceの評価規則の条件式により、相関関係に係る2つのサーバ203が、3層モデルにおいて間接的な利用関係にあるかどうかの判定が行われる。ここで、間接的な利用関係とは、例えば、WEBサーバとDBサーバのように、一方のサーバ203が、他方のサーバ203を間接的に利用することを示す。条件式が真の場合(間接的な利用関係にある場合)、評価値係数1「0.2」、評価値係数2「0」が抽出される。
したがって、相関破壊が検出された相関関係に係る2つのサーバ203が直接的な利用関係にある場合、間接的な利用関係にある場合に比べて、評価値は大きくなる。また、相関破壊が検出された相関関係に係る2つのサーバ203が直接的または間接的な利用関係にある場合、いずれの利用関係にもない場合に比べて、評価値は大きくなる。
次に、評価値算出部105は、相関破壊情報123の各相関破壊に、評価値を付与した評価済み相関破壊情報126を生成する(ステップS106)。
図9は、本発明の第1の実施の形態における評価済み相関破壊情報126の例を示す図である。評価済み相関破壊情報126は、相関破壊が検出された相関関係と当該相関関係の相関破壊度、及び、評価値とを含む。なお、評価値算出部105は、相関破壊情報123において、相関関係を評価値の大きい順番に並べてもよい。また、評価値算出部105は、相関破壊情報123に、評価値が所定の閾値以上の相関関係だけを設定してもよい。
図9の例では、異なる業務システム202間の相関関係(WEB_T1とWEB_T2間)の評価値は小さく、評価済み相関破壊情報126の下位に提示されている。また、直接的な利用関係があるサーバ203間の相関関係(WEB_T1とAP_T1間、AP_T1とDB_T1間)の評価値は大きく、評価済み相関破壊情報126の上位に提示されている。
例えば、評価値算出部105は、図9に示すような評価済み相関破壊情報126を生成する。
次に、評価値算出部105は、対話部106を介して評価済み相関破壊情報126を管理者等に出力する(ステップS107)。そして、対処実行部107は、対話部106を介して管理者等より受け付けた障害に対する対処を、分析対象システム200上で実行する(ステップS108)。
例えば、評価値算出部105は、図9の評価済み相関破壊情報126を管理者等に出力する。
上述した、図6の相関破壊情報123では、相関破壊が検出された相関関係が相関破壊度とともに提示される。したがって、特許技術文献1の技術のように、相関破壊情報123が提示された場合、管理者等は、相関関係の相関破壊度が大きい、システム識別子Sys1の業務システム202におけるWEBサーバと、システム識別子Sys2の業務システム202におけるWEBサーバの障害の可能性を認識する。そして、管理者等は、システム識別子Sys1の業務システム202に加えて、本来必要のない、システム識別子Sys2の業務システム202について、障害原因を調査する必要がある。
しかしながら、図9の評価済み相関破壊情報126では、相関破壊が検出された相関関係が評価値とともに提示される。したがって、図9の評価済み相関破壊情報126が提示された場合、管理者等は、図9の評価済み相関破壊情報126をもとに、相関関係の評価値が大きい、システム識別子Sys1の業務システム202におけるWEBサーバとAPサーバに障害がある可能性を認識する。そして、管理者等は、障害原因の調査範囲を、システム識別子Sys1の業務システム202のみに絞ることができる。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、本発明の第1の実施の形態の運用管理装置100は、相関破壊検出部103と、評価値算出部105とを含む。
ここで、相関破壊検出部103は、1以上の処理装置を含むシステムにおける、処理装置で実行される複数のサーバ203の内の異なる2つのサーバ203のメトリック間相関関係の相関破壊を検出する。評価値算出部105は、入力されたメトリックの計測値から、2つのサーバ203間の相関関係に相関破壊が検出された場合、システムにおける、当該相関破壊が検出された相関関係に係る2つのサーバ203間の関係をもとに、当該相関破壊の評価値を算出し、出力する。
本発明の第1の実施の形態によれば、不変関係分析において、精度の高い分析結果が得られる。その理由は、評価値算出部105が、分析対象システム200における、相関破壊が検出された相関関係に係る2つのサーバ203間の関係をもとに、当該相関関係の相関破壊の評価値を算出するためである。これにより、管理者等は、相関破壊が検出された相関関係の内で、障害原因の特定を誤る要因(ノイズ)となる相関関係を除去して、障害原因の特定に有効な相関関係をもとに障害原因の調査を行うことができ、障害原因を迅速に特定できる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、運用管理装置100が、サーバ203間の複数の相関関係の各々に関して、過去の障害発生時における相関破壊の有無と、入力されたメトリックの計測値に対する、評価値が所定値以上の相関破壊の有無との類似度を算出する点において、本発明の第1の実施の形態と異なる。
はじめに、本発明の第2の実施の形態の構成について説明する。図10は、本発明の第2の実施の形態における運用管理システムの構成を示すブロック図である。
図10を参照すると、本発明の第2の実施の形態における運用管理装置100は、本発明の第1の実施の形態における運用管理装置100の構成に加えて、障害類似度算出部108と相関破壊パターン記憶部118とを含む。
相関破壊パターン記憶部118は、過去の障害発生時における相関破壊の検出結果を示す相関破壊パターン128を記憶する。
障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関して、相関破壊パターン128で示される相関破壊の有無と、評価済み相関破壊情報126で示される相関破壊の有無との類似度を算出する。
次に、本発明の第2の実施の形態における運用管理装置100の動作について説明する。
図11は、本発明の第2の実施の形態における、運用管理装置100の処理を示すフローチャートである。ここで、性能情報収集部101が性能情報を収集してから、評価済み相関破壊情報126を生成するまでの処理(ステップS201からS206)は、本発明の第1の実施の形態(ステップS101からS106)と同様となる。
本発明の第2の実施の形態においては、評価値算出部105は、評価済み相関破壊情報126に、評価値が所定の閾値以上の相関関係を設定する。
図12は、本発明の第2の実施の形態における評価済み相関破壊情報126の例を示す図である。ここでは、評価値算出部105は、評価済み相関破壊情報126に、評価値が1以上の相関関係を設定すると仮定する。
この場合、評価値算出部105は、例えば、図6の相関破壊情報123に対して、図12の評価済み相関破壊情報126を生成する。
次に、障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関して、相関破壊パターン128で示される相関破壊の有無と、評価済み相関破壊情報126で示される相関破壊の有無との類似度を算出する(ステップS207)。
図13は、本発明の第2の実施の形態における相関破壊パターン128の例を示す図である。相関破壊パターン128は、図13に示すように、過去に発生した障害の名前(障害名)と、当該障害が発生したときの相関モデル122における相関関係毎の相関破壊検出結果のリストとの組を1以上含む。図13において、相関破壊検出結果の「○」は相関破壊無し、「×」は相関破壊有りを示す。
なお、相関破壊パターン128は、過去に障害が発生したときに、評価済み相関破壊情報126をもとに、評価値が所定の閾値以上の相関関係を相関破壊有り、それ以外の相関関係を相関破壊無しとして、生成されてもよい。
障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関する、評価済み相関破壊情報126で示される相関破壊の有無と、相関破壊パターン128で示される相関破壊の有無とが一致した割合を類似度として算出する。
図14は、本発明の第2の実施形態における類似度の算出例を示す図である。例えば、図12の評価済み相関破壊情報126と図13の障害名「WEB_T1障害」についての相関破壊パターン128とを比較した場合、図14に示すように、8つの相関関係について、相関破壊の有無が一致する。この場合、類似度(相関破壊の有無の一致度)は、相関破壊の有無一致数/相関関係の数=88%と算出される。
なお、障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関する、過去の障害発生時における相関破壊の有無と、評価済み相関破壊情報126における相関破壊の有無との類似度が算出できれば、他の方法を用いて類似度を算出してもよい。例えば、障害類似度算出部108は、相関破壊パターン128における相関破壊が検出された相関関係の内、評価済み相関破壊情報126において相関破壊が検出された相関関係の割合を類似度としてもよい。また、相関破壊検出部103は、相関モデル122に含まれる相関関係をいくつかのグループに分類し、グループ毎の相関破壊数の分布の類似度を算出してもよい。
次に、評価値算出部105は、対話部106を介して評価済み相関破壊情報126を管理者等に出力する(ステップS208)。ここで、評価値算出部105は、ステップS207で算出された類似度が所定の閾値以上の障害がある場合、当該障害の障害名、及び、類似度を評価済み相関破壊情報126とともに出力する。そして、対処実行部107は、対話部106を介して管理者等より受け付けた障害に対する対処を、分析対象システム200上で実行する(ステップS209)。
例えば、評価値算出部105は、図12の評価済み相関破壊情報126とともに、類似した障害の障害名「WEB_T1障害」、類似度「88%」を出力する。管理者等は、図12の評価済み相関破壊情報126により示される相関破壊が、サーバ識別子WEB_T1のWEBサーバの障害により発生している可能性を認識することができる。
以上により、本発明の第2の実施の形態の動作が完了する。
本発明の第2の実施の形態によれば、不変関係分析において、正確な障害原因を管理者に提示できる。その理由は、障害類似度算出部108が、サーバ203間の複数の相関関係の各々に関する、相関破壊パターン128に含まれる過去の障害時における相関破壊の有無と、入力されたメトリックの計測値に対する、評価値が所定値以上の相関破壊の有無との類似度を算出するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の実施の形態においては、図7の構成情報124における属性、及び、図8の評価規則情報125における評価規則を用いているが、分析対象システム200における複数のサーバ203間の関係に関する、他の属性、及び、評価規則を用いてもよい。例えば、同じサーバ種別の複数のサーバ203の各々が異なる処理装置201に配置され、当該サーバ種別の処理に関する負荷分散構成(サーバグループ)が構築されている場合、これらのサーバ203が同じサーバグループに含まれていることを識別するための属性(例えば、サーバグループの識別子)を用いて、相関破壊が検出された相関関係に係る2つのサーバ203が同じサーバグループに含まれているかどうかを検出してもよい。この場合、相関破壊が検出された相関関係に係る2つのサーバ203が同じサーバグループに含まれる場合、含まれない場合に比べて、評価値が大きくなるように、評価規則を設定してもよい。
また、本発明の実施の形態においては、評価規則情報125の条件式において、図8のような関数や演算子を用いたが、構成情報124の内容を取得する他の関数や、他の比較演算子や論理演算子を用いてもよい。
また、本発明の実施の形態においては、図8の評価規則情報125における評価規則から得られる評価値係数1、評価値係数2、及び、数1式により評価値を算出しているが、サーバ203間の分析対象システム200内での関係に応じて評価値が算出できるものであれば、各評価規則に対して1つの評価値係数だけを用いる、或いは、評価値の算出に相関破壊度を含めない等、他の数式を用いて、評価値を算出してもよい。
また、本発明の実施の形態においては、分析対象システム200の各サーバ203において1つのメトリックが用いられ、異なる2つのサーバ203の当該メトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われる場合について、説明したが、分析対象システム200の各サーバ203において複数のメトリックが用いられ、異なる2つのサーバ203の当該複数のメトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われてもよい。この場合、異なる2つのサーバ203間の複数の相関破壊のそれぞれについて、本発明の実施の形態と同様に、評価値が算出される。
この出願は、2011年9月19日に出願された日本出願特願2011−203980を基礎とする優先権を主張し、その開示の全てをここに取り込む。
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における運用管理システムの構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システムは、運用管理装置100と分析対象システム200とを含む。運用管理装置100と分析対象システム200とは、ネットワーク等により接続される。
分析対象システム200は、例えば、データセンター等、運用管理装置100が不変関係分析を行う対象となるシステムである。
図3は、本発明の第1の実施の形態における分析対象システム200の構成の例を示すブロック図である。
ここで、分析対象システム200は、物理的なコンピュータである処理装置201を1以上含む。処理装置201では、例えば、データセンターの顧客毎に構築されるシステム等、複数の業務システム(サブシステム)202の処理が実行される。業務システム202の各々は、1以上のサーバ203により構成される。サーバ203は、例えば、3層モデルにおけるWEBサーバ、アプリケーション(AP)サーバ、データベース(DB)サーバ等のサービス処理を実行するソフトウェアモジュールであり、処理装置201のCPU(Central Processing Unit)で実行される。この場合、1つの処理装置201に、1つのサーバ203が配置されてもよく、1つの処理装置201に、複数のサーバ203が配置されてもよい。また、1つの業務システム202を構成する複数のサーバ203の各々が、異なる処理装置201に配置されてもよい。
図3の例では、分析対象システム200は、WEBサーバ、APサーバ、DBサーバの3層モデルからなる、システム識別子Sys1、Sys2の2つの業務システム202を含む。システム識別子Sys1の業務システム202は、サーバ識別子WEB_T1、AP_T1、及び、DB_T1のWEBサーバ、APサーバ、及び、DBサーバを含む。システム識別子Sys2の業務システム202は、サーバ識別子WEB_T2、AP_T2、及び、DB_T2のWEBサーバ、APサーバ、及び、DBサーバを含む。また、装置識別子SV1の処理装置201には、サーバ識別子WEB_T1、WEB_T2のWEBサーバが配置され、装置識別子SV2の処理装置201には、サーバ識別子AP_T1、AP_T2、DB_T1、DB_T2のAPサーバ、DBサーバが配置される。
運用管理装置100は、分析対象システム200に対する不変関係分析を行う。
運用管理装置100は、性能情報収集部101、相関モデル生成部102、相関破壊検出部103、構成情報生成部104、評価値算出部105、対話部106、対処実行部107、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、構成情報記憶部114、及び、評価規則記憶部115を含む。
ここで、性能情報収集部101は、所定の時間間隔で、分析対象システム200上の各サーバ203から、当該サーバ203において計測された所定の種目の性能値の実測データ(計測値)を取得する。性能値の種目としては、例えば、CPU使用率、メモリ使用量、ディスク使用量等、当該サーバ203に関するコンピュータリソースの使用率や使用量が用いられる。
ここで、サーバ203における所定の性能値の種目をメトリック(性能指標)とし、同一時刻に計測された複数のメトリックの値の組を性能情報とする。メトリックの値は、整数や小数の数値により表される。各メトリックは、メトリックの識別子(メトリック識別子)により識別される。メトリック識別子は、当該メトリック識別子で示されるメトリックを含むサーバ203のサーバ識別子と性能値の種目を含む。例えば、メトリック識別子WEB1_T1.CPUは、サーバ識別子WEB1_T1のサーバ203のCPU使用率を示す。各サーバ203は、メトリック識別子をメトリックの計測値に付与して、運用管理装置100に出力する。なお、メトリックは、特許文献1における要素に相当する。
相関モデル生成部102は、特許文献1と同様に、性能系列情報121をもとに、分析対象システム200上の複数のメトリック内の異なる2つのメトリック間の相関関係を示す相関関数を含む相関モデル122を生成する。
相関モデル記憶部112は、相関モデル生成部102が生成した相関モデル122を記憶する。
相関破壊検出部103は、特許文献1と同様に、新たに入力された性能情報について、相関モデル122に含まれる各メトリックの組み合わせに対する相関関係の相関破壊を検出する。
相関破壊記憶部113は、相関破壊検出部103による相関破壊の検出結果を相関破壊情報123として記憶する。
構成情報生成部104は、各サーバ203の属性を示す、構成情報124を生成する。ここで、属性は、分析対象システム200におけるサーバ203間の関係を判別するための属性である。
構成情報記憶部114は、構成情報生成部104が生成した構成情報124を記憶する。
評価規則記憶部115は、評価値算出部105が構成情報124を用いて相関破壊の評価値を算出するために用いる規則である、評価規則情報125を記憶する。
評価値算出部105は、構成情報124と評価規則情報125とをもとに、相関破壊が検出された相関関係について、当該相関破壊の評価値を算出する。
対話部106は、管理者等に相関破壊の検出結果を提示し、管理者等から障害に対する対処等の指示を受け付ける。
対処実行部107は、管理者等により指示された対処を分析対象システム200上で実行する。
なお、運用管理装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。また、性能情報記憶部111、相関モデル記憶部112、相関破壊記憶部113、構成情報記憶部114、及び、評価規則記憶部115は、それぞれ個別の記憶媒体でも、一つの記憶媒体によって構成されてもよい。
次に、本発明の第1の実施の形態における運用管理装置100の動作について説明する。
ここでは、分析対象システム200が図3の構成である場合を例に、動作を説明する。
また、分析対象システム200の各サーバ203では、1つのメトリック(CPU使用率)が用いられ、異なる2つのサーバ203の当該メトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われると仮定する。
また、図3の分析対象システム200において、システム識別子Sys1の業務システム202とSys2の業務システム202とは、独立した業務システム202であるが、これらの業務システム202の処理内容や、運用時間帯等の特性が類似しており、これらの業務システム202間で、相関関係が抽出されると仮定する。そして、例えば、システム識別子Sys1の業務システム202が、障害や保守により、通常時とは異なる動作をした場合、業務システム202間の相関関係に相関破壊が検出される。
図4は、本発明の第1の実施の形態における、運用管理装置100の処理を示すフローチャートである。
はじめに、運用管理装置100の性能情報収集部101は、分析対象システム200上の各処理装置201から、性能情報を収集する(ステップS101)。性能情報収集部101は、取得した性能情報を性能系列情報121として性能情報記憶部111に保存する。
相関モデル生成部102は、性能情報記憶部111の性能系列情報121を参照し、管理者等により指定された所定のモデル化期間の性能情報をもとに、相関モデル122を生成し、相関モデル記憶部112に保存する(ステップS102)。
ここで、相関モデル122は、複数のメトリックの内の2つのメトリックの組み合わせ毎に、当該2つのメトリック間の相関関係を示す相関関数(または、変換関数)を含む。相関関数は、1つのメトリックの値の時系列から他のメトリックの値の時系列を予測する関数である。相関モデル生成部102は、所定のモデル化期間の性能系列情報121を基に、各メトリックの組み合わせについて、相関関数の係数を決定する。相関関数の係数は、特許文献1と同様に、メトリックの計測値の時系列に対する、システム同定処理によって決定される。
図5は、本発明の第1の実施の形態における相関モデル122の例を示す図である。図5において、各ノードはメトリック(各サーバ203のCPU使用量)、ノード間の矢印は2つのメトリックの内の一方から他方への相関関係を示す。また、これらの相関関係のそれぞれについて、相関関数(図示せず)が決定される。図5の例では、システム識別子Sys1、Sys2の業務システム202の各々における、WEBサーバ、APサーバ、DBサーバの相互間で、相関関係が検出される。また、システム識別子Sys1とSys2の業務システム202間でも、WEBサーバ間、APサーバ間、DBサーバ間で相関関係が検出される。
例えば、相関モデル生成部102は、図3の分析対象システム200に対して、図5に示すような相関モデル122を生成する。
次に、構成情報生成部104は、分析対象システム200における各サーバ203の属性を収集して構成情報124を生成する(ステップS103)。構成情報生成部104は、構成情報124を構成情報記憶部114に保存する。
ここで、構成情報生成部104は、サーバ203の相互間で行われる通信、あるいは、サーバ203と運用管理装置100や図示しない他の装置との通信において、サーバ203から送出されるデータを監視する。そして、構成情報生成部104は、監視したデータの内容をもとに、各サーバ203の属性を収集する。構成情報生成部104は、例えば、サーバ203の属性として、当該サーバ203を含む業務システム202のシステム識別子、当該業務システム202のシステム種別(例えば、3層モデルであるかどうか)、当該当該サーバ203のサーバ種別(例えば、WEBサーバ、APサーバ、DBサーバ)を取得する。これらの情報は、例えば、サーバ203が送出するデータに含まれる当該サーバ203のサーバ識別子から取得する。例えば、サーバ識別子「WEB_T1」における「1」がシステム識別子「Sys1」、「T」がシステム種別「3層モデル」、「WEB」がサーバ種別「WEBサーバ」を示す場合、構成情報生成部104は、サーバ識別子「WEB_T1」のサーバ203の属性として、システム識別子「Sys1」、システム種別「3層モデル」、及び、サーバ種別「WEB」を取得する。
なお、構成情報生成部104は、業務システム202を構成する各サーバ203のソフトウェアモジュールが処理装置201で実行されるときに処理装置201により参照される、業務システム202や各サーバ203の設定ファイルを、図示しない記憶装置から取得し、取得した設定ファイルの内容をもとに、各サーバ203の属性を決定してもよい。例えば、業務システム202の設定ファイルに、当該業務システム202のシステム識別子、当該業務システム202のシステム種別、当該業務システム202を構成するサーバ203のサーバ識別子、及び、当該サーバ203のサーバ種別が含まれる場合、構成情報生成部104は、当該業務システム202の設定ファイルをもとに、各サーバ203の属性として、当該サーバ203を含む業務システム202のシステム識別子、当該業務システム202のシステム種別、及び、当該サーバ203のサーバ種別を決定する。
図7は、本発明の第1の実施の形態における構成情報124の例を示す図である。図7の構成情報124では、各サーバ203のサーバ識別子に対する属性として、当該サーバ203を含む業務システム202のシステム識別子(SystemID)、当該業務システム202のシステム種別が3層モデルであるかどうかを示すフラグ(is3Tier)、当該サーバ203のサーバ種別がWEBサーバであるか、APサーバであるか、DBサーバであるかどうかを示すフラグ(isWeb、isAP、isDB)が設定される。これらのフラグには、属性が真のときに1、偽のときに0が設定される。
例えば、構成情報生成部104は、図3の分析対象システム200に対して、図7の構成情報124を生成する。
次に、相関破壊検出部103は、性能情報収集部101により新たに収集された性能情報を用いて、相関モデル122に含まれる相関関係の相関破壊を検出し、相関破壊情報123を生成する(ステップS104)。相関破壊検出部103は、相関破壊情報123を相関破壊記憶部113に保存する。
ここで、相関破壊検出部103は、特許文献1と同様に、複数のメトリックの内の2つのメトリックの内の一方のメトリックの計測値を、当該2つのメトリックに対応する相関関数に入力して得られた他方のメトリックの予測値と、当該他方のメトリックの計測値との差分(相関関数による変換誤差)が所定値以上の場合、当該2つのメトリック間の相関関係の相関破壊として検出する。
また、相関破壊検出部103は、相関破壊が検出された相関関係について、変換誤差を示す相関破壊度を付与する。相関破壊検出部103は、例えば、変換誤差の値を相関破壊度として付与する。ここで、相関破壊検出部103は、変換誤差の大きさに応じた値であれば、変換誤差の値に応じて定義されたレベル等、他の値を相関破壊度として付与してもよい。
図6は、本発明の第1の実施の形態における相関破壊情報123の例を示す図である。相関破壊情報123は、相関破壊が検出された相関関係と当該相関関係の相関破壊度とを含む。なお、相関破壊検出部103は、相関破壊情報123において、相関関係を相関破壊度の大きい順番に設定してもよい。
ここで、図3の分析対象システム200におけるサーバ識別子WEB_T1のWEBサーバに障害が発生したことにより、図5の相関モデル122の各相関関係に相関破壊が発生し、図6のような相関破壊が検出されたと仮定する。図6の例では、異なる業務システム202間の相関関係(WEB_T1とWEB_T2間)の相関破壊度が大きく、相関破壊情報123の上位に提示される。
例えば、相関破壊検出部103は、図6に示すような相関破壊情報123を相関破壊記憶部113に保存する。
次に、評価値算出部105は、ステップS104で検出された相関破壊について、構成情報124と評価規則情報125をもとに、評価値を算出する(ステップS105)。
図8は、本発明の第1の実施の形態における評価規則情報125の例を示す図である。図8の例では、評価規則情報125は、評価規則の名前(評価規則名)に対して、当該評価規則の条件式と、当該条件式が真の場合に用いられる評価値係数(評価値係数1、評価値係数2)とが定義されている。
図8の評価規則情報125において、条件式のs1、s2は、相関破壊が検出された相関関係に係る2つのサーバ203のサーバ識別子を示す。ここで、相関破壊が検出された相関関係に係る2つのサーバ203のサーバ識別子の各々は、例えば、相関破壊が検出された相関関係に係る2つのメトリックのメトリック識別子の各々から抽出される。SystemID()は、引数で与えられたサーバ識別子に対する業務システム202のシステム識別子(SystemID)を、図7の構成情報124から抽出する関数である。is3Tier()、isWeb()、isAP()、及び、isDB()は、それぞれ、引数で与えられたサーバ識別子対する3層モデル、WEBサーバ、APサーバ、及び、DBサーバを示すフラグを、図7の構成情報124から抽出する関数である。2項演算子「==」は、両辺の整数値が一致したときに真、その他の場合に偽となる。2項演算子「∧」は、両辺が真であるときに真、その他の場合に偽となる。
ここで、評価値算出部105は、相関破壊情報123に含まれる、各相関破壊が検出された相関関係に係る2つのサーバ203の組について、評価規則情報125の各評価規則の条件式を評価し、真である評価規則の評価値係数(評価値係数1、評価値係数2)を抽出する。評価値算出部105は、抽出した評価値係数を用いて、数1式により、評価値を算出する。
したがって、相関破壊が検出された相関関係に係る2つのサーバ203の各々を含む業務システム202の識別子が同じ場合、異なる場合に比べて、評価値は大きくなる。
さらに、評価規則名ConjBoost1、ConjBoost2の評価規則の条件式により、相関関係に係る2つのサーバ203が、3層モデルにおいて直接的な利用関係にあるかどうかの判定が行われる。ここで、直接的な利用関係とは、例えば、WEBサーバとAPサーバ、APサーバとDBサーバのように、一方のサーバ203が、他方のサーバ203に直接アクセスして、当該他方のサーバ203のサービスを利用することを示す。条件式が真の場合(直接的な利用関係にある場合)、評価値係数1「2」、評価値係数2「0.5」が抽出される。
また、評価規則名TranceReduceの評価規則の条件式により、相関関係に係る2つのサーバ203が、3層モデルにおいて間接的な利用関係にあるかどうかの判定が行われる。ここで、間接的な利用関係とは、例えば、WEBサーバとDBサーバのように、一方のサーバ203が、他方のサーバ203を間接的に利用することを示す。条件式が真の場合(間接的な利用関係にある場合)、評価値係数1「0.2」、評価値係数2「0」が抽出される。
したがって、相関破壊が検出された相関関係に係る2つのサーバ203が直接的な利用関係にある場合、間接的な利用関係にある場合に比べて、評価値は大きくなる。また、相関破壊が検出された相関関係に係る2つのサーバ203が直接的または間接的な利用関係にある場合、いずれの利用関係にもない場合に比べて、評価値は大きくなる。
次に、評価値算出部105は、相関破壊情報123の各相関破壊に、評価値を付与した評価済み相関破壊情報126を生成する(ステップS106)。
図9は、本発明の第1の実施の形態における評価済み相関破壊情報126の例を示す図である。評価済み相関破壊情報126は、相関破壊が検出された相関関係と当該相関関係の相関破壊度、及び、評価値とを含む。なお、評価値算出部105は、相関破壊情報123において、相関関係を評価値の大きい順番に並べてもよい。また、評価値算出部105は、相関破壊情報123に、評価値が所定の閾値以上の相関関係だけを設定してもよい。
図9の例では、異なる業務システム202間の相関関係(WEB_T1とWEB_T2間)の評価値は小さく、評価済み相関破壊情報126の下位に提示されている。また、直接的な利用関係があるサーバ203間の相関関係(WEB_T1とAP_T1間、AP_T1とDB_T1間)の評価値は大きく、評価済み相関破壊情報126の上位に提示されている。
例えば、評価値算出部105は、図9に示すような評価済み相関破壊情報126を生成する。
次に、評価値算出部105は、対話部106を介して評価済み相関破壊情報126を管理者等に出力する(ステップS107)。そして、対処実行部107は、対話部106を介して管理者等より受け付けた障害に対する対処を、分析対象システム200上で実行する(ステップS108)。
例えば、評価値算出部105は、図9の評価済み相関破壊情報126を管理者等に出力する。
上述した、図6の相関破壊情報123では、相関破壊が検出された相関関係が相関破壊度とともに提示される。したがって、特許技術文献1の技術のように、相関破壊情報123が提示された場合、管理者等は、相関関係の相関破壊度が大きい、システム識別子Sys1の業務システム202におけるWEBサーバと、システム識別子Sys2の業務システム202におけるWEBサーバの障害の可能性を認識する。そして、管理者等は、システム識別子Sys1の業務システム202に加えて、本来必要のない、システム識別子Sys2の業務システム202について、障害原因を調査する必要がある。
しかしながら、図9の評価済み相関破壊情報126では、相関破壊が検出された相関関係が評価値とともに提示される。したがって、図9の評価済み相関破壊情報126が提示された場合、管理者等は、図9の評価済み相関破壊情報126をもとに、相関関係の評価値が大きい、システム識別子Sys1の業務システム202におけるWEBサーバとAPサーバに障害がある可能性を認識する。そして、管理者等は、障害原因の調査範囲を、システム識別子Sys1の業務システム202のみに絞ることができる。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、本発明の第1の実施の形態の運用管理装置100は、相関破壊検出部103と、評価値算出部105とを含む。
ここで、相関破壊検出部103は、1以上の処理装置を含むシステムにおける、処理装置で実行される複数のサーバ203の内の異なる2つのサーバ203のメトリック間相関関係の相関破壊を検出する。評価値算出部105は、入力されたメトリックの計測値から、2つのサーバ203間の相関関係に相関破壊が検出された場合、システムにおける、当該相関破壊が検出された相関関係に係る2つのサーバ203間の関係をもとに、当該相関破壊の評価値を算出し、出力する。
本発明の第1の実施の形態によれば、不変関係分析において、精度の高い分析結果が得られる。その理由は、評価値算出部105が、分析対象システム200における、相関破壊が検出された相関関係に係る2つのサーバ203間の関係をもとに、当該相関関係の相関破壊の評価値を算出するためである。これにより、管理者等は、相関破壊が検出された相関関係の内で、障害原因の特定を誤る要因(ノイズ)となる相関関係を除去して、障害原因の特定に有効な相関関係をもとに障害原因の調査を行うことができ、障害原因を迅速に特定できる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、運用管理装置100が、サーバ203間の複数の相関関係の各々に関して、過去の障害発生時における相関破壊の有無と、入力されたメトリックの計測値に対する、評価値が所定値以上の相関破壊の有無との類似度を算出する点において、本発明の第1の実施の形態と異なる。
はじめに、本発明の第2の実施の形態の構成について説明する。図10は、本発明の第2の実施の形態における運用管理システムの構成を示すブロック図である。
図10を参照すると、本発明の第2の実施の形態における運用管理装置100は、本発明の第1の実施の形態における運用管理装置100の構成に加えて、障害類似度算出部108と相関破壊パターン記憶部118とを含む。
相関破壊パターン記憶部118は、過去の障害発生時における相関破壊の検出結果を示す相関破壊パターン128を記憶する。
障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関して、相関破壊パターン128で示される相関破壊の有無と、評価済み相関破壊情報126で示される相関破壊の有無との類似度を算出する。
次に、本発明の第2の実施の形態における運用管理装置100の動作について説明する。
図11は、本発明の第2の実施の形態における、運用管理装置100の処理を示すフローチャートである。ここで、性能情報収集部101が性能情報を収集してから、評価済み相関破壊情報126を生成するまでの処理(ステップS201からS206)は、本発明の第1の実施の形態(ステップS101からS106)と同様となる。
本発明の第2の実施の形態においては、評価値算出部105は、評価済み相関破壊情報126に、評価値が所定の閾値以上の相関関係を設定する。
図12は、本発明の第2の実施の形態における評価済み相関破壊情報126の例を示す図である。ここでは、評価値算出部105は、評価済み相関破壊情報126に、評価値が1以上の相関関係を設定すると仮定する。
この場合、評価値算出部105は、例えば、図6の相関破壊情報123に対して、図12の評価済み相関破壊情報126を生成する。
次に、障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関して、相関破壊パターン128で示される相関破壊の有無と、評価済み相関破壊情報126で示される相関破壊の有無との類似度を算出する(ステップS207)。
図13は、本発明の第2の実施の形態における相関破壊パターン128の例を示す図である。相関破壊パターン128は、図13に示すように、過去に発生した障害の名前(障害名)と、当該障害が発生したときの相関モデル122における相関関係毎の相関破壊検出結果のリストとの組を1以上含む。図13において、相関破壊検出結果の「○」は相関破壊無し、「×」は相関破壊有りを示す。
なお、相関破壊パターン128は、過去に障害が発生したときに、評価済み相関破壊情報126をもとに、評価値が所定の閾値以上の相関関係を相関破壊有り、それ以外の相関関係を相関破壊無しとして、生成されてもよい。
障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関する、評価済み相関破壊情報126で示される相関破壊の有無と、相関破壊パターン128で示される相関破壊の有無とが一致した割合を類似度として算出する。
図14は、本発明の第2の実施形態における類似度の算出例を示す図である。例えば、図12の評価済み相関破壊情報126と図13の障害名「WEB_T1障害」についての相関破壊パターン128とを比較した場合、図14に示すように、8つの相関関係について、相関破壊の有無が一致する。この場合、類似度(相関破壊の有無の一致度)は、相関破壊の有無一致数/相関関係の数=88%と算出される。
なお、障害類似度算出部108は、サーバ203間の複数の相関関係の各々に関する、過去の障害発生時における相関破壊の有無と、評価済み相関破壊情報126における相関破壊の有無との類似度が算出できれば、他の方法を用いて類似度を算出してもよい。例えば、障害類似度算出部108は、相関破壊パターン128における相関破壊が検出された相関関係の内、評価済み相関破壊情報126において相関破壊が検出された相関関係の割合を類似度としてもよい。また、相関破壊検出部103は、相関モデル122に含まれる相関関係をいくつかのグループに分類し、グループ毎の相関破壊数の分布の類似度を算出してもよい。
次に、評価値算出部105は、対話部106を介して評価済み相関破壊情報126を管理者等に出力する(ステップS208)。ここで、評価値算出部105は、ステップS207で算出された類似度が所定の閾値以上の障害がある場合、当該障害の障害名、及び、類似度を評価済み相関破壊情報126とともに出力する。そして、対処実行部107は、対話部106を介して管理者等より受け付けた障害に対する対処を、分析対象システム200上で実行する(ステップS209)。
例えば、評価値算出部105は、図12の評価済み相関破壊情報126とともに、類似した障害の障害名「WEB_T1障害」、類似度「88%」を出力する。管理者等は、図12の評価済み相関破壊情報126により示される相関破壊が、サーバ識別子WEB_T1のWEBサーバの障害により発生している可能性を認識することができる。
以上により、本発明の第2の実施の形態の動作が完了する。
本発明の第2の実施の形態によれば、不変関係分析において、正確な障害原因を管理者に提示できる。その理由は、障害類似度算出部108が、サーバ203間の複数の相関関係の各々に関する、相関破壊パターン128に含まれる過去の障害時における相関破壊の有無と、入力されたメトリックの計測値に対する、評価値が所定値以上の相関破壊の有無との類似度を算出するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の実施の形態においては、図7の構成情報124における属性、及び、図8の評価規則情報125における評価規則を用いているが、分析対象システム200における複数のサーバ203間の関係に関する、他の属性、及び、評価規則を用いてもよい。例えば、同じサーバ種別の複数のサーバ203の各々が異なる処理装置201に配置され、当該サーバ種別の処理に関する負荷分散構成(サーバグループ)が構築されている場合、これらのサーバ203が同じサーバグループに含まれていることを識別するための属性(例えば、サーバグループの識別子)を用いて、相関破壊が検出された相関関係に係る2つのサーバ203が同じサーバグループに含まれているかどうかを検出してもよい。この場合、相関破壊が検出された相関関係に係る2つのサーバ203が同じサーバグループに含まれる場合、含まれない場合に比べて、評価値が大きくなるように、評価規則を設定してもよい。
また、本発明の実施の形態においては、評価規則情報125の条件式において、図8のような関数や演算子を用いたが、構成情報124の内容を取得する他の関数や、他の比較演算子や論理演算子を用いてもよい。
また、本発明の実施の形態においては、図8の評価規則情報125における評価規則から得られる評価値係数1、評価値係数2、及び、数1式により評価値を算出しているが、サーバ203間の分析対象システム200内での関係に応じて評価値が算出できるものであれば、各評価規則に対して1つの評価値係数だけを用いる、或いは、評価値の算出に相関破壊度を含めない等、他の数式を用いて、評価値を算出してもよい。
また、本発明の実施の形態においては、分析対象システム200の各サーバ203において1つのメトリックが用いられ、異なる2つのサーバ203の当該メトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われる場合について、説明したが、分析対象システム200の各サーバ203において複数のメトリックが用いられ、異なる2つのサーバ203の当該複数のメトリック間で、相関モデル122の生成、及び、相関破壊の検出が行われてもよい。この場合、異なる2つのサーバ203間の複数の相関破壊のそれぞれについて、本発明の実施の形態と同様に、評価値が算出される。
この出願は、2011年9月19日に出願された日本出願特願2011−203980を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 運用管理装置
101 性能情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 構成情報生成部
105 評価値算出部
106 対話部
107 対処実行部
108 障害類似度算出部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊記憶部
114 構成情報記憶部
115 評価規則記憶部
118 相関破壊パターン記憶部
121 性能系列情報
122 相関モデル
123 相関破壊情報
124 構成情報
125 評価規則情報
126 評価済み相関破壊情報
128 相関破壊パターン
200 分析対象システム
201 処理装置
202 業務システム
203 サーバ
101 性能情報収集部
102 相関モデル生成部
103 相関破壊検出部
104 構成情報生成部
105 評価値算出部
106 対話部
107 対処実行部
108 障害類似度算出部
111 性能情報記憶部
112 相関モデル記憶部
113 相関破壊記憶部
114 構成情報記憶部
115 評価規則記憶部
118 相関破壊パターン記憶部
121 性能系列情報
122 相関モデル
123 相関破壊情報
124 構成情報
125 評価規則情報
126 評価済み相関破壊情報
128 相関破壊パターン
200 分析対象システム
201 処理装置
202 業務システム
203 サーバ
Claims (18)
- 1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出する相関破壊検出手段と、
入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する評価値算出手段と
を含む運用管理装置。 - 前記システムは、1以上の前記サーバの集合であるサブシステムを複数含み、
前記評価値算出手段は、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの各々を含む前記サブシステムが同じ関係にある場合、異なる関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する
請求項1に記載の運用管理装置。 - 前記評価値算出手段は、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの内の一方のサーバが他方のサーバを直接的に利用する関係にある場合、間接的に利用する関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する
請求項1に記載の運用管理装置。 - 前記評価値算出手段は、前記相関破壊が検出された前記相関関係に係る2つのサーバの各々の種別をもとに、一方のサーバが他方のサーバアプリケーションを直接的に利用するか、間接的に利用するかを判定する
請求項3に記載の運用管理装置。 - 前記評価値算出手段は、前記サーバ間で前記相関破壊が検出された前記相関関係の内、前記評価値が所定値以上の前記相関関係を出力する
請求項1乃至4のいずれかに記載の運用管理装置。 - さらに、前記サーバ間の複数の前記相関関係の各々に関する、障害時における前記相関破壊の有無と、入力された前記メトリックの計測値に対する、前記評価値が所定値以上の前記相関破壊の有無との類似度を算出し、出力する障害類似度算出手段を含む
請求項1乃至5のいずれかに記載の運用管理装置。 - 1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、
入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する
運用管理方法。 - 前記システムは、1以上の前記サーバの集合であるサブシステムを複数含み、
前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの各々を含む前記サブシステムが同じ関係にある場合、異なる関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する
請求項7に記載の運用管理方法。 - 前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの内の一方のサーバが他方のサーバを直接的に利用する関係にある場合、間接的に利用する関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する
請求項7に記載の運用管理方法。 - 前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバの各々の種別をもとに、一方のサーバが他方のサーバアプリケーションを直接的に利用するか、間接的に利用するかを判定する
請求項9に記載の運用管理方法。 - 前記評価値を算出する場合、前記サーバ間で前記相関破壊が検出された前記相関関係の内、前記評価値が所定値以上の前記相関関係を出力する
請求項7乃至10のいずれかに記載の運用管理方法。 - さらに、前記サーバ間の複数の前記相関関係の各々に関する、障害時における前記相関破壊の有無と、入力された前記メトリックの計測値に対する、前記評価値が所定値以上の前記相関破壊の有無との類似度を算出し、出力する
請求項7乃至11のいずれかに記載の運用管理方法。 - コンピュータに、
1以上の処理装置を含むシステムにおける、前記処理装置で実行される複数のサーバの内の異なる2つのサーバのメトリック間の相関関係の相関破壊を検出し、
入力されたメトリックの計測値から、前記2つのサーバ間の前記相関関係に前記相関破壊が検出された場合、前記システムにおける、当該相関破壊が検出された前記相関関係に係る2つのサーバ間の関係をもとに、当該相関破壊の評価値を算出し、出力する処理を実行させるプログラムを格納する、
コンピュータが読み取り可能な記録媒体。 - 前記システムは、1以上の前記サーバの集合であるサブシステムを複数含み、
前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの各々を含む前記サブシステムが同じ関係にある場合、異なる関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する処理を前記コンピュータに実行させる前記プログラムを格納する、
請求項13に記載のコンピュータが読み取り可能な記録媒体。 - 前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバ間の関係として、当該2つのサーバの内の一方のサーバが他方のサーバを直接的に利用する関係にある場合、間接的に利用する関係にある場合に比べて前記評価値が大きい値となるように、前記評価値を算出する処理を前記コンピュータに実行させる前記プログラムを格納する、
請求項13に記載のコンピュータが読み取り可能な記録媒体。 - 前記評価値を算出する場合、前記相関破壊が検出された前記相関関係に係る2つのサーバの各々の種別をもとに、一方のサーバが他方のサーバアプリケーションを直接的に利用するか、間接的に利用するかを判定する処理を前記コンピュータに実行させる前記プログラムを格納する、
請求項15に記載のコンピュータが読み取り可能な記録媒体。 - 前記評価値を算出する場合、前記サーバ間で前記相関破壊が検出された前記相関関係の内、前記評価値が所定値以上の前記相関関係を出力する処理を前記コンピュータに実行させる前記プログラムを格納する、
請求項13乃至16のいずれかに記載のコンピュータが読み取り可能な記録媒体。 - さらに、前記サーバ間の複数の前記相関関係の各々に関する、障害時における前記相関破壊の有無と、入力された前記メトリックの計測値に対する、前記評価値が所定値以上の前記相関破壊の有無との類似度を算出し、出力する処理を前記コンピュータに実行させる前記プログラムを格納する、
請求項13乃至17のいずれかに記載のコンピュータが読み取り可能な記録媒体。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14/344,890 US9389946B2 (en) | 2011-09-19 | 2012-09-14 | Operation management apparatus, operation management method, and program |
| JP2013534779A JP5874936B2 (ja) | 2011-09-19 | 2012-09-14 | 運用管理装置、運用管理方法、及びプログラム |
| EP12833105.5A EP2759938B1 (en) | 2011-09-19 | 2012-09-14 | Operations management device, operations management method, and program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011203980 | 2011-09-19 | ||
| JP2011-203980 | 2011-09-19 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2013042789A1 true WO2013042789A1 (ja) | 2013-03-28 |
Family
ID=47914547
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2012/074313 Ceased WO2013042789A1 (ja) | 2011-09-19 | 2012-09-14 | 運用管理装置、運用管理方法、及びプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US9389946B2 (ja) |
| EP (1) | EP2759938B1 (ja) |
| JP (1) | JP5874936B2 (ja) |
| WO (1) | WO2013042789A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11200529B2 (en) | 2015-08-06 | 2021-12-14 | Ns Solutions Corporation | Information processing apparatus, information processing system, information processing method and non-transitory computer readable recording medium |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5267736B2 (ja) * | 2010-06-07 | 2013-08-21 | 日本電気株式会社 | 障害検出装置、障害検出方法およびプログラム記録媒体 |
| JP6024448B2 (ja) * | 2012-12-26 | 2016-11-16 | 富士通株式会社 | 情報処理プログラム、情報処理方法及び装置 |
| JP5971395B2 (ja) * | 2013-02-18 | 2016-08-17 | 日本電気株式会社 | システム分析装置、及び、システム分析方法 |
| JP6330456B2 (ja) * | 2014-04-30 | 2018-05-30 | 富士通株式会社 | 相関係数算出方法、相関係数算出プログラムおよび相関係数算出装置 |
| US10331802B2 (en) | 2016-02-29 | 2019-06-25 | Oracle International Corporation | System for detecting and characterizing seasons |
| US10885461B2 (en) | 2016-02-29 | 2021-01-05 | Oracle International Corporation | Unsupervised method for classifying seasonal patterns |
| US10699211B2 (en) | 2016-02-29 | 2020-06-30 | Oracle International Corporation | Supervised method for classifying seasonal patterns |
| US11113852B2 (en) | 2016-02-29 | 2021-09-07 | Oracle International Corporation | Systems and methods for trending patterns within time-series data |
| US10198339B2 (en) * | 2016-05-16 | 2019-02-05 | Oracle International Corporation | Correlation-based analytic for time-series data |
| US10635563B2 (en) | 2016-08-04 | 2020-04-28 | Oracle International Corporation | Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems |
| US11082439B2 (en) | 2016-08-04 | 2021-08-03 | Oracle International Corporation | Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems |
| US10915830B2 (en) | 2017-02-24 | 2021-02-09 | Oracle International Corporation | Multiscale method for predictive alerting |
| US10949436B2 (en) | 2017-02-24 | 2021-03-16 | Oracle International Corporation | Optimization for scalable analytics using time series models |
| US10817803B2 (en) | 2017-06-02 | 2020-10-27 | Oracle International Corporation | Data driven methods and systems for what if analysis |
| US10997517B2 (en) | 2018-06-05 | 2021-05-04 | Oracle International Corporation | Methods and systems for aggregating distribution approximations |
| US10963346B2 (en) | 2018-06-05 | 2021-03-30 | Oracle International Corporation | Scalable methods and systems for approximating statistical distributions |
| US11138090B2 (en) | 2018-10-23 | 2021-10-05 | Oracle International Corporation | Systems and methods for forecasting time series with variable seasonality |
| US12001926B2 (en) | 2018-10-23 | 2024-06-04 | Oracle International Corporation | Systems and methods for detecting long term seasons |
| US10855548B2 (en) | 2019-02-15 | 2020-12-01 | Oracle International Corporation | Systems and methods for automatically detecting, summarizing, and responding to anomalies |
| US11533326B2 (en) | 2019-05-01 | 2022-12-20 | Oracle International Corporation | Systems and methods for multivariate anomaly detection in software monitoring |
| US11537940B2 (en) | 2019-05-13 | 2022-12-27 | Oracle International Corporation | Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests |
| US11887015B2 (en) | 2019-09-13 | 2024-01-30 | Oracle International Corporation | Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0730540A (ja) | 1993-07-08 | 1995-01-31 | Hitachi Ltd | ネットワーク障害監視装置 |
| JP2006340050A (ja) | 2005-06-02 | 2006-12-14 | Nec Corp | 異常検出システムおよび保全システム |
| JP2009199533A (ja) | 2008-02-25 | 2009-09-03 | Nec Corp | 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム |
| JP2010086115A (ja) | 2008-09-30 | 2010-04-15 | Hitachi Ltd | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 |
| JP2010186310A (ja) * | 2009-02-12 | 2010-08-26 | Nec Corp | 運用管理装置および運用管理方法ならびにそのプログラム |
| WO2011083687A1 (ja) * | 2010-01-08 | 2011-07-14 | 日本電気株式会社 | 運用管理装置、運用管理方法、及びプログラム記憶媒体 |
| JP2011170802A (ja) * | 2010-02-22 | 2011-09-01 | Fujitsu Ltd | 障害パターン生成プログラムおよび障害パターン生成装置 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2538332B1 (en) * | 2010-02-15 | 2020-04-01 | Nec Corporation | Fault cause extraction apparatus,fault cause extraction method and program recording medium |
| JP5267736B2 (ja) * | 2010-06-07 | 2013-08-21 | 日本電気株式会社 | 障害検出装置、障害検出方法およびプログラム記録媒体 |
| US8922560B2 (en) * | 2010-06-30 | 2014-12-30 | Exelis Inc. | Method and apparatus for correlating simulation models with physical devices based on correlation metrics |
-
2012
- 2012-09-14 EP EP12833105.5A patent/EP2759938B1/en not_active Not-in-force
- 2012-09-14 WO PCT/JP2012/074313 patent/WO2013042789A1/ja not_active Ceased
- 2012-09-14 US US14/344,890 patent/US9389946B2/en active Active
- 2012-09-14 JP JP2013534779A patent/JP5874936B2/ja not_active Expired - Fee Related
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0730540A (ja) | 1993-07-08 | 1995-01-31 | Hitachi Ltd | ネットワーク障害監視装置 |
| JP2006340050A (ja) | 2005-06-02 | 2006-12-14 | Nec Corp | 異常検出システムおよび保全システム |
| JP2009199533A (ja) | 2008-02-25 | 2009-09-03 | Nec Corp | 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム |
| JP2010086115A (ja) | 2008-09-30 | 2010-04-15 | Hitachi Ltd | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 |
| JP2010186310A (ja) * | 2009-02-12 | 2010-08-26 | Nec Corp | 運用管理装置および運用管理方法ならびにそのプログラム |
| WO2011083687A1 (ja) * | 2010-01-08 | 2011-07-14 | 日本電気株式会社 | 運用管理装置、運用管理方法、及びプログラム記憶媒体 |
| JP2011170802A (ja) * | 2010-02-22 | 2011-09-01 | Fujitsu Ltd | 障害パターン生成プログラムおよび障害パターン生成装置 |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP2759938A4 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11200529B2 (en) | 2015-08-06 | 2021-12-14 | Ns Solutions Corporation | Information processing apparatus, information processing system, information processing method and non-transitory computer readable recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| US20140365829A1 (en) | 2014-12-11 |
| JP5874936B2 (ja) | 2016-03-02 |
| EP2759938B1 (en) | 2019-09-11 |
| EP2759938A4 (en) | 2015-08-12 |
| EP2759938A1 (en) | 2014-07-30 |
| US9389946B2 (en) | 2016-07-12 |
| JPWO2013042789A1 (ja) | 2015-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5874936B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
| JP6394726B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
| CN102713861B (zh) | 操作管理装置、操作管理方法以及程序存储介质 | |
| US9658916B2 (en) | System analysis device, system analysis method and system analysis program | |
| JP6183450B2 (ja) | システム分析装置、及び、システム分析方法 | |
| US8677191B2 (en) | Early detection of failing computers | |
| JP5267749B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
| US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
| US20160055044A1 (en) | Fault analysis method, fault analysis system, and storage medium | |
| JP6183449B2 (ja) | システム分析装置、及び、システム分析方法 | |
| US20200012550A1 (en) | Enabling symptom verification | |
| JP5267748B2 (ja) | 運用管理システム、運用管理方法、及びプログラム | |
| JP5446894B2 (ja) | ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム | |
| JP5971395B2 (ja) | システム分析装置、及び、システム分析方法 | |
| JP2017211806A (ja) | 通信の監視方法、セキュリティ管理システム及びプログラム | |
| CN116010023A (zh) | 虚拟机迁移方法、装置、电子设备和介质 | |
| JP7027912B2 (ja) | 順序制御プログラム、順序制御方法、及び情報処理装置 | |
| CN117076172A (zh) | 故障辅助定位方法、系统、设备及存储介质 | |
| CN117234852A (zh) | 一种异常服务检测方法、装置、电子设备及存储介质 | |
| CN116974915A (zh) | 基于cmdb的ci模型评测方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12833105 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 14344890 Country of ref document: US |
|
| ENP | Entry into the national phase |
Ref document number: 2013534779 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
