JP4859558B2

JP4859558B2 - コンピュータシステムの制御方法及びコンピュータシステム

Info

Publication number: JP4859558B2
Application number: JP2006181263A
Authority: JP
Inventors: 友洋中村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-06-30
Filing date: 2006-06-30
Publication date: 2012-01-25
Anticipated expiration: 2026-06-30
Also published as: US20080004841A1; US7542877B2; JP2008009842A

Description

本発明は、発生する障害を予防又は発生した障害を復旧する機能を備えるコンピュータシステムに関し、特に、障害の予防又は障害の復旧のための処理の制御方法に関する。

コンピュータ技術の進歩によって、様々な社会活動にコンピュータシステムが深く関わるようになってきた。コンピュータシステムの高性能化は、短時間に巨額の資金や商品の取引を処理するオンライントレーディングや電子商取引の普及を促進し、金融や流通・サービス業においてコンピュータシステムは欠かせない装置となった。さらに、原子力発電所等のプラント制御や、航空機や鉄道等の運行制御、電子政府等における行政サービス等の社会インフラストラクチャにおいてもコンピュータシステムが重要な役割を担っている。

このように、様々な社会活動においてコンピュータシステムが欠かせない装置となったことによって、コンピュータシステムの機能低下、動作異常及びサービス停止を招くコンピュータシステムの障害（以下、システム障害と略す）が発生すると、その社会的影響が非常に大きく、巨額の損失、信用の失墜及び社会的な混乱を引き起こすようになった。

一方、主にコンピュータシステムのコスト低減を目的に、様々なメーカーのハードウェアやソフトウェアを組み合わせてコンピュータシステムを構築するオープンシステムが広く使われるようになってきた。オープンシステムは、汎用ハードウェア部品の高性能化及び低価格化、及びオープンソースソフトウェアの技術進歩に伴って、ソフトウェアやハードウェアの外部仕様のオープン化が進展したことで、普及が促進している。

オープンシステムによって、ユーザーはコストや機能等の面で最適な製品を組み合わせてコンピュータシステムの構築ができるようになった。その反面で、複数のメーカーの製品の組み合わせによってコンピュータシステムが実現されているため、製品相互間の相性により発生する不具合や、機能の細分化によるコンピュータシステムの複雑化により、システム障害発生時の原因究明が困難となってきている。

前に述べたコンピュータシステムの一例として、Ｗｅｂシステムがある。Ｗｅｂシステムは、例えば、電子商取引等において、複数のサプライヤと複数のコンシューマの間を結んで、時々刻々と変化する商品の流通に適応した迅速な取引及び電子決済による決済処理の容易化を実現している。このようなＷｅｂシステムでシステム障害が発生すると、商品流通や決済処理の停止等によって、経済活動に大きな影響を与える。

Ｗｅｂシステムの代表的な構成はＷｅｂサーバ、アプリケーションサーバ及びデータベースサーバの３層構成であり、それぞれの層を１台以上のコンピュータによって構築する。それぞれのコンピュータは、ハードウェア及びソフトウェア共に複数のメーカの製品が使われることも多い。Ｗｅｂシステムでは、クライアントからのリクエストをＷｅｂサーバが受け付ける。アプリケーションサーバは、Ｗｅｂサーバが受け付けたリクエストの内容に応じた処理を行う、その際、アプリケーションサーバは、データベースサーバに問い合わせ及び要求をして、その結果をＷｅｂサーバ経由でクライアントに返すことによって処理を完了する。

このように、最近のコンピュータシステムでは、複数のハードウェア部品及び複数のソフトウェア部品（以下、これらをまとめてシステムコンポーネントと呼ぶ）の組み合わせによって一つのリクエストに対する処理が実現される。よって、一つのシステムコンポーネントで発生した異常が、他のシステムコンポーネントに影響を与えることがあり、影響の拡大によってシステム障害が発生する。

しかし、コンピュータシステムが様々なメーカの様々なシステムコンポーネントの組み合わせで実現されているので、システムコンポーネント相互の影響関係を全て明らかにすることは困難となっている。また、並行して処理される複数の異なるリクエストに対する処理の相互間でも影響を与え合うことがある。このため、システム障害発生時にコンピュータシステムの中で、どのような異常がどこで発生したか、また、その影響範囲はどの程度か、を特定することが困難となっている。さらには、システム障害の発生そのものを迅速に検出することも困難となってきている。

前に述べた問題に対して、様々な解決方法が提案されてきた。

特開２００５−２１６０６６号公報では、複数のコンピュータシステムが相互に関連しつつ活動するシステムを監視し、コンピュータシステムで発生した異常をオンラインで検出する方法が開示されている。この方法は、コンピュータシステム上でプログラムによって実現されるサービスと、そのサービスを実現する際の複数のシステムコンポーネントにまたがるトランザクションのログを対応付けて記録し、確率モデルにより通常時と異なるトランザクションのパターンの出現を検出し異常の発生を検出する方法である。しかし、この方法では、トランザクションのパターンに変化が現れない場合に異常と判断できない。

特開２００５−２１６０６６号公報では、コンピュータシステムのモニタ値等の監視データと運用管理ツールやユーザーの入力等のイベントとの相関関係を抽出し、監視データで過去の相関関係を検索して、現在発生しているイベントを抽出することによって、システム障害を検出する方法が開示されている。しかし、この方法では、障害予防処理及び障害復旧処理による効果や影響を求めることができない。また、そのための情報を相関関係に記録することができない。

特開２００５−３８２２３号公報では、コンピュータシステムの動作状態を検出し、ルールとして記述された条件式の中から現在のコンピュータシステムの動作状態に当てはまるルールを検索し、検索された複数のルールに記述されている対処方法に対して、それぞれのルールに記述されている効果を比較して、効果の高い対処方法を選択して実行し、その結果得られた実際の効果によってルールに記述されている効果を更新する方法が開示されている。この方法では、ルールに記述されていない異常に対する予防処理及び復旧処理をすることができない。また、対処方法の実行によって生じた効果や、処理の優先度に関する更新は、ルールに記載されていた条件式に含まれる指標に関してのみ更新され、その他の指標に対する影響については考慮されていない。

以上説明した特許文献に開示された解決方法を組み合わせることで実現できるコンピュータシステムの障害予防・障害復旧制御方法の一例としては、複数のコンピュータシステムのログに基づいて、確率モデルや相関履歴によって、コンピュータシステムで発生したイベントを検出し、設定されたルールに従ってコンピュータシステムの障害の予防及び障害の復旧を行い、その結果得られた実際の効果によってルールを更新する制御方法が考えられる。
特開２００５−２１６０６６号公報特開２００５−３２７２６１号公報特開２００５−３８２２３号公報中村隆英他著，「統計入門」，東京大学出版会，１９８９年，ISBN 4-13-042060-7 S. Zhang他，「Ensembles of Models for Automated Diagnosis of System Performance Problems」，International Conference on Dependable Systems and Networks (DSN 2005)，２００５年６月，ｐ．６４４−６５３ P. Bodik他，「Combining Visualization and Statistical Analysis to Improve Operator Confidence and Efficiency for Failure Detection and Localization」，The 2nd IEEE International Conference on Autonomic Computing (ICAC '05)，２００５年６月 Nello Cristianini他著，「サポートベクターマシン入門」, 共立出版，２００５年，ISBN 4-320-12134-1

前述した背景技術から、本発明で解決すべき課題をまとめると以下の通りである。

コンピュータシステムは、社会システムの様々な分野で不可欠なシステムとなっており、コンピュータシステム技術の進歩による利用の高度化を背景に、大規模化、複雑化が進行している。そのため、システム障害による影響範囲及び規模が急激に増大している。また、一方ではコンピュータシステムの信頼性及び可用性の低下が懸念されている。

特に、階層型システムとオープンシステムの普及によるコンピュータシステムを構成するシステムコンポーネントの細分化と複数メーカー製品の組み合わせによる複雑化は、組み合わせの相性に関連する信頼性及び可用性の低下要因として問題となっている。

システムコンポーネントのすべての組み合わせに対して信頼性及び可用性を十分に事前に確保することは、システムコンポーネントの組み合わせの数が膨大であるため、現実的ではない。よって、システム障害の発生可能性を前提として、システム障害の発生を早期に検出して、障害を復旧させることが課題である。さらに、システム障害の発生を予測して、障害を予防することが課題である。

そのためには、システム障害の発生を高精度に予測し、及び、障害を高精度に検出し、、システムの障害原因を正しく判定し、システムの障害原因に応じた適切な予防処理及び復旧処理を行う一連の制御を実現することが課題となる。

前述した従来技術では、コンピュータシステムのリソース量や負荷等を示すモニタ値と、人、他のコンピュータ及びプログラム等からの入出力操作や設定変更等によって、システムで発生するイベントとの間の相関履歴を生成する。そして、生成された相関履歴を用いて、システム障害の発生を検出し、及び障害の原因を判定し、予め設定されたルールに基づいて障害復旧のための対処方法を選択することによって、この課題を解決してきた。しかし、システムの障害原因に対応した適切な予防処理及び復旧処理の実現には、さらに、以下の課題があり、本発明はこれらの課題を解決するものである。

（課題１）コンピュータシステムの構成、ユーザー入力及び外部環境等の動的な変化に対応して、システム障害の予防及び復旧処理を選択し、及び処理命令を制御する。すなわち、課題１は、固定的なシステム障害の予防処理及び復旧処理の選択、及び処理の命令の制御では、コンピュータシステムの稼動中のリソース増減や冗長構成の変更等の設定変更、及び外部ネットワークの接続変更等の変化に対して、不必要、不十分又は過大な予防処理及び復旧処理を選択して実行することを防ぐことである。処理の命令の制御とは、処理の実行タイミング、処理の実行順序及び処理の実行時のシステム設定等を含む。

（課題２）予めルールに記述されていないシステム障害に対して適切な予防処理及び復旧処理を選択する。すなわち、課題２は、障害の予測及び検出方法として、例えば、通常時の稼動状態との変化を捉えて異常を判定する手法等を用いることによって、予めルールに記述されていない異常状態が予測又は検出される場合にも対応することである。

（課題３）システム障害の予防処理及び復旧処理と、その他の制御との影響関係を考慮して予防処理及び復旧処理の命令を制御する。すなわち、課題３は、システム障害発生の予測、システム障害発生の検出及びシステム障害の原因の判定に基づいて選択されたシステム障害の予防処理及び復旧処理、及びシステムに対するその他の処理について、例えば、重複した処理や相反する処理を選択的に実行し、及び複数の処理の実行順序を制御し、矛盾なく効果の高い処理の制御を実現することである。システムに対するその他の処理は、例えば、計画保守及び臨時保守によるシステムコンポーネントの更新及びシステムの再起動がある。

（課題４）システム障害の予防処理及び復旧処理及びその他の処理によって副次的に生じるシステムへの影響を考慮して、予防処理及び復旧処理及びその他の処理を選択し、処理の命令を制御する。これによって、副次的に生じたシステムへの影響への対策をする。すなわち、課題４は、現在のコンピュータシステムの状態が、選択されたシステム障害の予防処理及び復旧処理、及びシステムに対するその他の処理を実行した場合に、システムにどのような影響が生じるかを予測する。そして、調査結果に基づいて処理を選択し、実行順序を見直し、及び予想される影響に対する対策の処理を追加する等の制御を、当該処理の実行前にすることによって、効果が高く副作用の少ない制御を実現することである。

本発明の代表的な一形態によると、１台又は複数のコンピュータで構成されるコンピュータシステムの制御方法であって、前記コンピュータは、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを備え、前記コンピュータシステムは、前記コンピュータシステムの稼動状態を表す複数の観測対象の状態値、前記コンピュータシステムにおいて実行される処理を示す情報、及び前記コンピュータシステムにおいて発生したイベントを示す情報を含む稼動履歴情報を受信する情報収集手段と、前記各観測対象の状態値に対して統計処理を行うことによって算出され、当該各観測対象間の相関関係を示す情報を格納する第１の相関領域と、前記処理の実行時及び非実行時の前記観測対象の状態値、又は、前記イベントの発生時及び前記イベント非発生時の前記観測対象の状態値に対して統計処理を行うことによって算出され、前記観測対象と前記処理との間の相関関係、又は、前記観測対象と前記イベントとの間の相関関係を示す情報を格納する第２の相関領域と、前記処理の実行前後の前記観測対象の状態値、又は、前記イベントの発生前後の前記観測対象の状態値に対して統計処理を行うことによって算出され、前記処理の実行前後の前記観測対象の状態値の変化、又は、前記イベントの発生前後の前記観測対象の状態値の変化を示す情報を格納する第３の相関領域と、から構成される相関管理表を管理する情報管理手段と、前記コンピュータシステムにおいて発生した障害を排除するための対応処理を生成する障害対応手段と、生成された前記対応処理の有効性を判定する評価手段と、前記判定の結果に基づいて前記対応処理の実行可否を決定する処理命令手段と、を備え、前記制御方法は、前記コンピュータシステムが、前記各コンピュータから受信した前記稼動履歴情報に基づいて、前記第１の相関領域、前記第２の相関領域及び前記第３の相関領域に格納する情報を生成して前記相関管理表に記録し、第１の観測対象の状態値及び第２の観測対象の状態値を含む前記稼動履歴情報を受信した場合に、前記第１の観測対象の状態値及び前記第２の観測対象の状態値から第１の相関関係を算出し、前記第１の相関領域から、前記第１の観測対象と前記第２の観測対象との相関関係を示す第２の相関関係を読み出して、前記第１の相関関係が前記第２の相関関係と一致しているか否かを判定し、前記第２の相関関係と一致しない場合には、前記第２の相関領域を参照して、前記第１の観測対象及び前記第２の観測対象と相関のある前記処理又は前記イベントを特定し、前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントであるか否かを判定し、前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントではない場合には、前記特定された処理又は前記特定されたイベントに対する第１の対応処理を生成し、前記第１の対応処理に基づいて前記第３の相関領域を参照して、前記生成された第１の対応処理の実行前後の前記各観測対象の状態値の変化に基づいて、前記コンピュータシステムにおける復旧効果、及び、前記コンピュータシステムに障害が発生するか否かを表す影響を判定し、前記判定結果に基づいて、前記第１の対応処理の実行の要否、実行順序及び実行時刻の少なくともいずれかを決定する。

本発明の一形態によれば、より効果の高い処理を生成できる。

まず、本発明の概要について説明する。

本発明は、発生する障害を予防又は発生した障害を復旧する機能を備えるコンピュータシステムにおいて、コンピュータシステムのリソース量や負荷等を示すモニタ値と、人、他のコンピュータ及び他のプログラム等からの入出力操作及び設定変更等によってシステムで発生するイベントとの相関の履歴を用いて、現在のコンピュータシステムの稼動状態を判定する。そして、障害の予防及び障害の復旧のための処理を選択し、他の予定されているイベントと選択された予防処理及び復旧処理によるコンピュータシステムへの影響を判定し、処理の実行順序や実行される処理を選択する制御方法に関する。

本発明の代表的な実施形態では、障害の予防及び復旧の対象となる複数のコンピュータを備え、これらのコンピュータを接続するネットワークからなるコンピュータシステムから稼動状況等の情報を収集する手段と、収集した情報及び収集した情報を統計処理して得られる統計値の相互の相関関係を示す相関情報を記憶する手段と、記憶された相関情報を参照して障害を検出し、障害原因を解析し、障害を予防し、及び障害復旧処理の候補を生成し、さらに、予防処理及び復旧処理による障害の回避及び障害回復の効果と他への影響を推定して、効果が高く他への影響が少ない予防処理及び復旧処理の選択的な実行を可能とする障害予防・復旧制御方法、コンピュータシステム及び障害予防・復旧プログラムを提供する。

以下、本発明による障害予防・復旧制御方法について、いくつかの具体例に分けて説明する。

本発明の第１の実施に形態に示す障害予防・復旧制御方法（第１の方法）は、以下の部分から構成される障害予防・復旧制御部によって実現される。

まず、障害予防及び障害復旧の制御対象システムの状態や特性を解析し記録するために、稼動状態を示すモニタ値や発生したイベント及び実行された処理に関する情報を収集し、統計処理によって統計値を計算する情報収集・統計処理部を備える。また、収集した情報や統計値の間の相関関係を解析し、相関情報として記憶する相関情報記憶部を備える。また、相関情報記憶部に記憶された情報を入出力する相関情報更新部及び相関情報抽出部を備える。相関情報としては、例えば、２つのモニタ値Ｘ、ＹがＸ＝ａＹの関係にあること、イベントＣの発生は統計値ＤがＤ＞０の時であること、及び、処理Ｅの実行後に統計値Ｆが減少すること等の情報が記録される。

さらに、障害検出及び障害原因の解析、及びそれらに対応した予防処理及び復旧処理の候補を生成するために、情報収集・統計処理部から得られる現在のシステムの状態を示すモニタ値等の情報と、相関情報記憶部から得られる相関情報とを使って、現在のシステムの状態がこれまでのシステムの稼動状態と比べて異常であるかを検出する異常検出・原因解析・予防・復旧処理候補生成部を備える。異常検出・原因解析・予防・復旧処理候補生成部は、異常箇所を解析する。また、異常検出・原因解析・予防・復旧処理候補生成部は、相関情報から、異常検出時に原因に応じた対策を生成する。異常検出の例として、相関情報では２つのモニタ値Ｘ、ＹがＸ＝Ｙの関係にあるが、最新のモニタ値ではＸ＞＞Ｙとなった場合に、Ｘ又はＹの少なくとも一つに異常が現れたと検出することがある。また、処理候補は複数あってもよい。

さらに、異常検出・原因解析・予防・復旧処理候補生成部によって生成された予防・復旧処理候補に対して、相関情報を使ってその処理を実行した際の効果と影響を評価する処理効果・影響評価部を備える。また、生成された処理を命令する処理命令部を備える。また、処理効果・影響評価部及び処理命令部を制御する評価・命令制御部を備える。相関情報には、処理実行後のモニタ値や統計値等の変化が含まれており、これらの変化がその処理で解消しようとしている異常と合致していれば効果があると評価でき、異常を悪化させたり、他の正常値を変化させたりする場合には影響があると評価する。

処理効果・影響評価部はこれらの評価によって、一定の基準を満たす処理を実行候補として処理命令部に送る。処理命令部は、実行候補の中から効果が高く、影響の低い処理を選択して、他の処理との順序を調整して、制御対象システムに命令する。評価・命令制御部は、処理効果・影響評価部及び処理命令部における判定及び調整の基準を制御する。具体的には、効果があると判定する閾値の設定、及び実行順序を調整する際の効果と影響の優先度の設定等がある。また、評価・命令制御部には、異常検出・原因解析・予防・復旧処理候補生成部の出力や効果及び影響の評価結果、実行候補となっている処理リストの表示、及び、閾値や優先度の調整用インタフェース等を含む。

第１の方法によれば、時間の経過に応じて相関情報が更新されていくので、コンピュータシステムの動的な変化に応じて、障害を検知し、原因を解析し、処理候補を生成し、効果と影響を評価する。そのため、処理の評価結果も変化をしていくので、構成の変化に対応した適切な処理を選択して実行することができる。これによって第１の課題を解決することができる。

また、相関情報には、処理Ａの実行後に統計値Ｂが減少すること等の情報が記録されているので、これを逆に検索することで統計値Ｂが増加する異常時に、統計値Ｂを減少させる処理Ａを効果のある処理候補として生成することができる。つまり、相関情報を検索することによって、未知の異常に対して効果のある処理を生成できる。これによって第２の課題を解決することができる。

本発明の第２の実施の形態に示す障害予防・復旧制御方法（第２の方法）は、第１の方法と以下の点が異なる。

第１の方法では、相関情報を使って障害を検出し、及び障害原因を解析して、予防・復旧処理候補を生成した。しかし、相関情報によらずに処理候補を生成する場合もある。第２の方法では、処理効果・影響評価部に対して処理を与える処理命令入力部を備えることによって、外部から処理を指定するインタフェースと、そのインタフェースを介して入力された処理命令の効果及び影響を、相関情報を使って評価する方法を提供する。外部からの処理命令入力は、異常の発生時に限らず、通常時のシステム構成変更、ソフトウェアの更新、計画保守及び臨時保守等も含まれる。

第２の方法によれば、外部から入力した処理命令に対して、処理の実行前に効果や影響を評価することができ、想定外の影響を与える処理の実行に停止することができる。これによって、第１の課題と第３の課題を解決することができる。

本発明の第３の実施の形態に示す障害予防・復旧制御方法（第３の方法）は、第１及び第２の方法に以下の点が追加されている。

第３の方法では、処理効果・影響評価部において、処理の十分な効果が期待できない場合、及び他への影響が大きい場合に、処理の候補を見直すためのフィードバックループを備える。異常検出・原因解析・予防・復旧処理候補生成部では、処理候補を再度生成する。また、外部からの処理命令が入力される処理命令入力部でも、同様に、別の処理命令の入力を受け付ける。評価・命令制御部では、フィードバックループの収束条件を制御する。例えば、フィードバック時に処理生成の世代を管理し、３世代を限度にフィードバックを可能とする等の制御ができる。

第３の方法によれば、処理の効果や影響によって、実行前に処理を見直すことができ、システムに副次的に生じた影響への対策をすることができる。これによって第４の課題を解決することができる。

本発明の第４の実施の形態に示す障害予防・復旧制御方法（第４の方法）は、第３の方法に以下の点が追加されている。

第３の方法では、処理効果・影響評価部において、処理による他へ与える影響が大きい場合に処理の見直しをするフィードバックループを設けたが、処理を見直しても適切な処理が見つからない場合がある。これに対し、第４の方法では、他への影響を低減する別の処理を生成して、生成された複数の処理によって障害予防・復旧を実現する影響低減処理候補生成部を備える。追加される処理は、相関情報を用いて、影響を低減する効果をもつ処理を検索することで生成できる。第４の方法では、影響低減処理の再帰的な生成による無限ループを防ぐために、第３の方法と同様に、評価・命令制御部において、処理の再帰的な生成を制限する制御をする。

第４の方法によれば、他への影響を抑えつつ効果の高い障害予防・復旧処理を実行できる。これによって第４の課題を解決することができる。

本発明の第５の実施の形態に示す障害予防・復旧制御方法（第５の方法）は、第１〜第４の方法に対して以下の点が拡張されている。

第１〜第４の方法に含まれる相関情報は、ある特定の時点におけるモニタ値、統計値、イベント及び処理の間の相関関係を記録した情報である。しかし、障害には、時間軸上で別の時点の指標と相関のある場合がある。第５の方法では、相関情報記憶部は、相関情報を記録する際に、過去の状態と現在の状態におけるモニタ値等の相関関係を記録する。

第５の方法によれば、より多くの相関情報を抽出及び利用でき、より効果が高く、より影響の少ない処理を実行できる可能性を高めることができる。

本発明の第６の実施の形態に示す障害予防・復旧制御方法（第６の方法）は、第１〜５の方法に対して以下の点が拡張されている。

第１〜５の方法に含まれる相関情報は、個々のイベントや処理を単位として相関関係を記録した情報である。しかし、イベント間、処理間及びイベントと処理の間には、時間軸上で依存関係のある場合がある。第６の方法では、相関情報記憶部は、一連のイベント及び処理のシーケンスを単位として相関関係を記録する。

第６の方法によれば、第５の方法と同様に、より多くの相関情報を抽出及び利用でき、より効果が高く、より影響の少ない処理を実行できる可能性を高めることができる。

次に、本発明の個々の実施の形態を説明する前に、本発明のコンピュータシステムの概要について、図１を参照して説明する。

図１に示すように、本発明のコンピュータシステムは、制御対象システム１０１及び障害予防・復旧制御部１０６を備える。

制御対象システム１０１は、１台又は複数のコンピュータ１０２及びコンピュータ１０２間を接続するネットワーク１０４を備える。各コンピュータ１０２は、演算処理をするプロセッサ、プロセッサによる演算処理に使用するデータ及びプログラムを記憶する記憶部、及び、ネットワーク１０４と接続されるインタフェースを備える。

プロセッサは、記憶部に記憶された各種プログラムを呼び出して実行することによって、各種処理を行う。ネットワークインタフェースは、例えば、ＴＣＰ／ＩＰプロトコルを用いて通信可能なＬＡＮカードである。コンピュータ１０２は、ネットワークインタフェースによって、コンピュータ１０５等のネットワーク１０４に接続された機器と通信することができる。

各コンピュータ１０２は、プログラムを実行することによって、障害予防・復旧制御部１０６と情報を送受信し、障害予防・復旧制御部１０６からの指示によって処理を実行するエージェント１０３が含まれる。

エージェント１０３は、ネットワーク１０４を介して障害予防復旧制御部１０６と通信する。エージェント１０３は、コンピュータ１０２毎に一つ又は複数存在してもよい。また、複数のコンピュータ１０２でエージェント１０３を共有してもよい。また、エージェント１０３のみを含むコンピュータ１０２を用意し、他のコンピュータ１０２はエージェント１０３を含まない構成でもよい。

障害予防・復旧制御部１０６は、１台又は複数のコンピュータ１０５を備える。これらのコンピュータ１０５は、ネットワーク１０４に接続され、制御対象システム１０１の各コンピュータ１０２と情報を送受信し、各コンピュータ１０２に各種処理を命令する。

各コンピュータ１０５は、演算処理をするプロセッサ、プロセッサによる演算処理に使用するデータ及びプログラムを記憶する記憶部、及び、ネットワーク１０４と接続されるインタフェースを備える。

プロセッサは、記憶部に記憶された各種プログラムを呼び出して実行することによって、各種処理を行う。ネットワークインタフェースは、例えば、ＴＣＰ／ＩＰプロトコルを用いて通信可能なＬＡＮカードである。コンピュータ１０５は、ネットワークインタフェースによって、コンピュータ１０２等のネットワーク１０４に接続された機器と通信することができる。

障害予防・復旧制御部１０６は、図１に示すように制御対象システム１０１とは別のコンピュータ１０５で構成してもよいが、制御対象システム１０１内のコンピュータ１０２で構成してもよい。その場合、障害予防・復旧制御部１０６は、制御対象システム１０１内に含まれる。

次に、本発明の実施の形態について図を参照して個々に説明する。

（第１実施形態）
図２は、本発明の第１の実施の形態の構成を示すブロック図である。

第１の実施の形態のコンピュータシステムは、図２に示すように、制御対象システム１０１及び障害予防・復旧制御部１０６を備える。本発明による制御方法の主要な部分は障害予防・復旧制御部１０６に含まれるので、以下に、この部分について詳細に説明する。

障害予防・復旧制御部１０６は、情報を収集し、相関情報を抽出し、蓄積し、読み出す。そして、障害予防・復旧制御部１０６は、収集した情報と相関情報を使ってコンピュータシステムの異常を検出し、異常の原因を解析し、異常を予防し、復旧処理候補を生成し、復旧処理の効果及び影響を評価し、制御対象システムに対して処理を命令する。さらに、障害予防・復旧制御部１０６は、以上の動作を制御する。

このため、障害予防・復旧制御部１０６は、情報収集・統計処理部２０１、相関情報更新部２０２、相関情報記憶部２０３、相関情報抽出部２０４、異常検出・原因解析・予防・復旧処理候補生成部２０５、予防・復旧処理効果・影響評価部２０６、評価・命令制御部２０７及び予防・復旧処理命令部２０８を備える。これらの各部は、記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。

情報収集・統計処理部２０１は、制御対象システム１０１から稼動状態を示すモニタ値、制御対象システム１０１で発生したイベント、及び制御対象システム１０１によって実行された処理に関する情報を収集する。情報収集・統計処理部２０１によって収集されるモニタ値は、ＣＰＵ使用率及びメモリ使用量等のシステムモニタ値、ページフォルト発生数及び割込処理発生回数等のオペレーティングシステムが収集するモニタ値、ファンクション呼び出し回数等のミドルウェアが収集するモニタ値、個々のアプリケーションが出力するログに含まれる稼動状態を示すモニタ値が含まれる。

本発明では、モニタ値は時間的に連続して又は周期的に出力される測定値であり、例えば、処理の呼び出し回数は、単位時間に０、２、０、１、３、・・・のような時間順に並んだ数列で表現される。

制御対象システム１０１で発生したイベントは、メモリのパリティエラー等のハードウェアの診断結果等に関する情報、メモリシステムのガーベージコレクション等のソフトウェアの動作に関する情報、アプリケーションの負荷調整等のシステムコンポーネントの制御に関する情報、及び、外部ネットワークの切断や電源電圧降下等の外部環境の変化に関する情報が含まれる。本発明では、イベントは、時間的に離散して又は不定の時間間隔で出力される測定値である。例えば、ハードウェアの故障等では、時刻Ｔ₁に部位Ｈ₁で発生、時刻Ｔ₂に部位Ｈ₂で発生のような、時刻とイベントの内容の組み合わせによって、実行された処理が表現される。

制御対象システム１０１によって実行された処理は、管理者の指示によるシステムの構成変更及び再起動等のシステムへの命令等に関する情報、ユーザー入力によるプログラムの設定変更や、データベースへのクエリ実行等のソフトウェアへの命令等に関する情報が含まれる。本発明では、実行された処理は時間的に離散して又は不定の時間間隔で出力される測定値である。例えば、アプリケーションの再起動では、時刻Ｔ₃にユーザーＰ₃の指示によりアプリケーションＡ₃を再起動、時刻Ｔ₄に管理者Ｐ_kの指示によりアプリケーションＡ₄を再起動のような、時刻と処理の内容の組み合わせによって、実行された処理が表現される。

ここで、処理とは、制御対象システム１０１外部からの指示や命令によって制御対象システム１０１内で起こった事象であり、イベントは、それ以外の事象である。イベントと実行された処理を明確に区別することは、本発明では本質的なことではないので、以下では両者をまとめてイベント、又は、イベント及び処理のように省略して表す。

情報収集・統計処理部２０１は、収集した情報に対して統計的な処理もする。統計的な処理とは、収集した情報に基づいて計算できるあらゆる値（統計値）を求める処理である。具体的には、統計的な処理は、モニタ値の累積値、時間平均、分散又は度数分布を求める処理、イベントが発生した時のモニタ値の最大値及び最小値を求める処理、二つのイベントが同時に発生する頻度を求める処理等を含む。

情報収集・統計処理部２０１は、収集した情報を相関情報記憶部２０３へ記録する。また、情報収集・統計処理部２０１は、イベント及び処理等の情報相互の相関関係を示す値、モニタ値及び統計値を生成する。これらの値の生成も統計的な処理に含まれるが、相関情報記憶部２０３へ記録するために求めた値は、特に相関情報と呼ぶ。相関情報の詳細については後で述べる。

本実施の形態では、相関情報にモニタ値の統計値を含めたが、統計値は必須の構成ではなく、モニタ値とイベントとの相関関係のみを相関情報としてもよい。

次に、相関情報記憶部２０３、相関情報更新部２０２及び相関情報抽出部２０４について説明する。

相関情報記憶部２０３は、モニタ値、統計値、イベントや処理等の情報相互の相関関係を示す値を記録する。相関関係を示す値の詳細は後で述べるが、例えば、モニタ値Ｃとモニタ値Ｄの相関係数や回帰線を示す方程式及び共起確率がある。本発明では、これらの相関関係を示す値を総称して相関情報と呼ぶ。

相関情報記憶部２０３は、二つの情報ＡとＢの相関値を表で表現した相関表や、二つの情報ＡとＢの相関関係を確率で表現した確率モデル等の形式で、相関情報を記録する。相関情報は、情報収集・統計処理部２０１で生成され、相関情報更新部２０２によって、相関情報記憶部２０３へ記録される。また、相関情報記憶部２０３に記録されている相関情報は、相関情報抽出部２０４によって読み出される。なお、相関情報更新部２０２、相関情報記憶部２０３及び相関情報抽出部２０４は、各々一つのみ図示したが、各々が複数あってもよい。

次に、異常検出・原因解析・予防・復旧処理候補生成部（以下、検出・処理生成部と略す）２０５について説明する。

検出・処理生成部２０５は、情報収集・統計処理部２０１によって収集・統計処理された情報と、相関情報抽出部２０４によって相関情報記憶部２０３から読み出された相関情報を利用して、制御対象システム１０１の異常状態を検出する。そして、検出・処理生成部２０５は、原因を解析し、障害の回避及び回復をするための予防・復旧処理の候補を生成する。

検出・処理生成部２０５によって行われる異常状態の検出及び原因の解析方法は、例えば、前述した“Ensembles of Models for Automated Diagnosis of System Performance Problems”、S. Zhang他（非特許文献２）及び“Combining Visualization and Statistical Analysis to Improve Operator Confidence and Efficiency for Failure Detection and Localization”、P. Bodik他（非特許文献３）に示す方法を使用することができる。

次に、より簡単な異常状態の検出方法を例示する。相関情報記憶部２０３に記録された相関情報ではモニタ値Ｘとモニタ値Ｙの回帰線がＹ＝Ｘであるとき、情報収集・統計処理部２０１から得た現在のモニタ値Ｘとモニタ値Ｙの関係がＹ＝２Ｘである場合、モニタ値Ｘ及びＹの少なくとも一つに異常が現れていることが検出できる。その他に、制御対象システムの異常を示すイベントが相関情報記憶部２０３に記録されているとき、情報収集・統計処理部２０１が取得した現在のイベントが、異常を示すイベントであるか否かを検出する方法もある。

また、モニタ値Ｚが閾値Ｗを越えた場合に異常と検出する方法でもよい。通常一定間隔で収集されるべき情報が、情報収集・統計処理部２０１によって収集できないときに、異常と検出する方法でもよい。

このように、異常検出及び原因解析の方法は、情報収集・統計処理部２０１から取得した情報と、相関情報記憶部２０３に記録されている相関情報とのいずれか一方を利用する方法、及びこれらの両方を利用する方法が採用できる。本発明では、検出・処理生成部２０５における異常検出・原因解析方法は、情報収集・統計処理部２０１から取得した情報及び相関情報記憶部２０３に記録されている相関情報の少なくとも一つを利用して、制御対象システム１０１の異常を検出する方法及び異常の原因を解析する方法のあらゆるものを含む。

検出・処理生成部２０５では、前に述べた方法による異常検出及び異常原因の解析の結果に基づいて、検出された異常から発生する障害の回避及び回復をするための予防・復旧処理の候補を生成する。処理の候補の生成方法は、異常の原因に対応した処理の候補のルールを予め与えておき、これに基づいて処理の候補を生成する方法がある。また、過去に発生した異常に対して実行された処理を相関情報記憶部２０３に履歴として記録しておき、同様の異常に対して実行された処理の履歴に基づいて処理の候補を生成する方法もある。

さらに、その方法で効果のあった処理のみを履歴として記録しておき、それを処理の候補とする方法もある。また、相関情報記憶部２０３に記録されている実行された処理の中で、異常原因となっているモニタ値や統計値等と相関関係のある処理を、相関情報を用いて検索する方法もある。

検出・処理生成部２０５では、予防・復旧処理を一つに決定する必要はなく、一つ又は複数の候補を生成してもよい。本発明では、検出・処理生成部２０５における予防・復旧処理候補生成方法は、情報収集・統計処理部２０１から取得した情報及び相関情報記憶部２０３に記録されている相関情報のいずれか一方を利用して制御対象システム１０１の異常を検出又は異常の原因を解析した結果に基づいて、検出された異常から発生する障害の回避及び回復をするための予防・復旧処理の候補を生成するあらゆる方法を含む。

また、検出・処理生成部２０５では、制御対象システム１０１に現在発生している異常の他に、制御対象システム１０１に将来発生するであろう異常の予兆を検出することもできる。例えば、モニタ値と正常値（回帰線）とのズレが大きければ異常と判定するが、モニタ値と正常値（回帰線）とのズレがまだ小さいが、だんだんと大きくなっている場合に異常の予兆と判定することができる。

次に、予防・復旧処理効果・影響評価部(以下、評価部と略す)２０６について説明する。

評価部２０６は、異常検出時に、検出・処理生成部２０５から、原因解析結果と予防・復旧処理の候補を受け付け、情報収集・統計処理部２０１によって取得される制御対象システム１０１の状態を示す情報と、相関情報抽出部２０４を介して相関情報記憶部２０３に記憶された相関情報とを利用して、予防・復旧処理の候補の実行によって制御対象システム１０１に与える効果及び影響を評価する。評価の方法の例としては、以下の方法がある。

まず、検出・処理生成部２０５から、異常原因となっているモニタ値や統計値と、その値の正常値と現在の異常値とを取得する。さらに、検出・処理生成部２０５から、異常を回避・回復する一つもしくは複数の処理の候補を取得する。次に、相関情報抽出部２０４を介して相関情報記憶部２０３から得られる相関情報から、処理の候補のモニタ値、統計値及びイベント等との相関情報を取得する。

そして、取得した相関情報を用いて情報収集・統計処理部２０１から得られる制御対象システム１０１の現在の状態を示す情報を更新する。これによって、処理の候補を実行した場合の制御対象システム１０１の実行後の状態を算出し、異常原因となっているモニタ値や統計値が、異常値から正常値にどの程度変化するかを算出できる。この算出結果がより正常値に近づく場合に、予防・復旧処理の効果が高いと評価する。

一方、同様の方法で、処理の候補を実行した後の、異常原因となっていないモニタ値や統計値を算出する。この算出された値が相関情報に対して異常値になっていないかを影響として評価する。ここで、正常値からの乖離が大きくなる場合に、処理の影響が大きいと評価する。

評価部２０６における効果と影響の評価方法は前に述べた方法に限らない。本発明では、情報収集・統計処理部２０１から取得した情報、及び相関情報記憶部２０３に記録されている相関情報の少なくとも一つを利用して、検出・処理生成部２０５で生成した予防・復旧処理候補が制御対象システム１０１の状態を異常から正常へ変化させる程度の評価（効果の評価）、及び正常から異常へ変化させる程度を評価（影響の評価）の少なくとも一つを行うあらゆる方法を含む。

次に予防・復旧処理命令部（以下、命令部と略す）２０８について説明する。

命令部２０８は、評価部２０６から予防・復旧処理の候補、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序、実行時刻等を決定する。決定の方法の一例として、一定以上の効果と、一定以下の影響が予想される処理を実行候補とし、さらにその中でより効果の高い処理から実行するように順序を定める方法がある。

命令部２０８は、実行候補とされた処理を実行順序や実行時刻に従って制御対象システム１０１に対して命令を発行してもよい。また、命令部２０８は、実行候補の処理と実行順序や実行時刻に関する情報を制御対象システム１０１に対して送信してもよい。

評価・命令制御部２０７は、評価部２０６及び命令部２０８の動作を制御する。具体的には、評価部２０６の動作の制御とは、評価部における効果の評価方法、影響の評価方法及び評価の実施周期等の制御がある。

効果の評価方法とは、例えば、効果の有無を判定する閾値の設定、異常原因となっているモニタ値や統計値の現状値Ｘと処理候補の実行後の値Ｙ、及び正常値Ｚから効果量を定量化する関数ｆ（Ｘ，Ｙ，Ｚ）の設定等がある。関数ｆ（Ｘ，Ｙ，Ｚ）の一例としては、異常度が正常値からの乖離量の２乗に比例するとして、処理候補実行前後の異常度の比を効果とする場合、ｆ（Ｘ，Ｙ，Ｚ）＝（Ｘ−Ｚ）×（Ｘ−Ｚ）／｛（Ｙ−Ｚ）×（Ｙ−Ｚ）｝等が挙げられる。この例では、ｆ（Ｘ，Ｙ，Ｚ）の値が大きいほど効果が高いと判定される。

このような効果及び影響の評価方法は、制御対象システム１０１で実行されている処理や、対象とするモニタ値、統計値及びイベント等によって判定の基準が変わり、さらに時間的にも評価基準が変化することがある。よって、評価・命令制御部２０７には、これらを設定するためのインタフェースが含まれる。

このインタフェースは、制御対象システム１０１の稼動前及び稼動中に効果及び影響の判定に関わる設定をする入力部と、設定できる項目を示す表示部と、設定内容を評価部２０６に伝える設定部とを備える。入力部への入力方法としては、コマンドラインインタフェースによる入力、グラフィカルインタフェースによる入力、ファイルによる入力及びボリュームやスイッチ等の装置による入力等が含まれる。

命令部２０８の動作の制御としては、命令部２０８において、評価部２０６から取得した予防・復旧処理の候補と、その処理の効果及び影響に関する情報によって、処理の実行の要否の判定方法や、処理の実行順序の決定方法の制御がある。実行の要否の判定方法の一例として、最低限必要とされる効果の閾値の設定、最大限許容される影響の閾値の設定及び判定をする関数の設定がある。また、実行順序の決定方法の一例として、処理の候補の並び替えの方法（具体的には、効果の高い処理を優先するか、影響の少ない処理を優先するかの選択）等がある。

命令部２０８の動作の制御においても、評価部２０６の動作の制御と同様の設定をするためのインタフェースが含まれる。このインタフェースの構成も評価部２０６の設定をするインタフェースと同様である。

次に、第１の実施の形態の障害予防・復旧制御部１０６の動作について、図３のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ３０２）。

次に、相関情報更新部２０２は、情報収集・統計処理部２０１によって収集された情報を用いて、相関情報記憶部２０３に記憶された相関情報を更新する（ステップ３０３）。なお、初期状態においては、ステップ３０３の処理は、相関情報の追加である。

次に、検出・処理生成部２０５は、現在のシステム状態及び相関情報から異常の有無を検出する（ステップ３０４）。異常の有無の検出方法の一例は前に述べた通りである。ステップ３０４において異常が検出されなければ、ステップ３０２に戻る。

一方、ステップ３０４において異常が検出されれば、相関情報を用いて異常原因を調査し、障害予防・復旧処理候補を生成する（ステップ３０５）。このステップ３０５の処理の一例は前に述べた通りである。

次に、予防・復旧処理効果・影響評価部２０６は、相関情報を用いて、処理の効果及び影響を評価する（ステップ３０６）。処理の効果及び影響は、ステップ３０７において評価・命令制御部２０７に入力された条件に従って評価される。

そして、命令部２０８は、処理の効果の有無を判定する（ステップ３０８）。効果は、ステップ３０９において評価・命令制御部２０７に入力された条件に従って判定される。

処理の効果が期待できなければ、ステップ３０２に戻る。一方、処理の効果が期待できれば、命令部２０８が制御対象システム１０１に対して処理を命令する（ステップ３１０）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ３１１において評価・命令制御部２０７に入力された方法に従う。命令の制御方法は、例えば、システムの状態による処理の実行の制御、影響が大きくても直ぐに実行する、所定の時間になったら処理を実行する、等である。

ステップ３１０において処理が命令されると、ステップ３０２に戻る。

なお、ステップ３０３の相関情報の更新は、ステップ３０４の後、又はステップ３０２に戻る前の任意の時点で実行してもよい。また、ステップ３０７、ステップ３０９及びステップ３１１の各入力処理は、予め定められた値（方法）を用いれば、このステップがなくてもよい。

次に、相関情報記憶部２０３に記録される相関情報の記録方法について、図４を参照して説明する。

前に述べたように、相関情報記憶部２０３に記録される相関情報の記録方法としては、相関表による方法と確率モデルによる方法がある。図４では相関表４０９を用いた方法について示す。なお、相関表は、確率モデルより作成が容易で、かつ、確率モデルより学習効果を容易に把握することができる。

相関表４０９には、モニタ値４０１、統計値４０２、イベント４０３及び実行された処理（以下、処理と略す）４０４が記録される。以下では、これらを総称して相関情報の項目と呼ぶ。

図４に示す例では、相関表４０９は縦軸と横軸の２軸で構成され、相関情報の項目の総当り表の形式となっている。各相関情報の項目は、一つ又は複数の要素を含む。例えば、イベント４０３はｅ₁〜ｅ_YのＹ個の項目を含む。図４に示す例では、相関情報の項目の要素の総数は（Ｗ＋Ｘ＋Ｙ＋Ｚ）である。相関表４０９は、縦横それぞれ（Ｗ＋Ｘ＋Ｙ＋Ｚ）のサイズの表である。

相関表４０９の領域Ａ（４０５）は、モニタ値４０１と統計値４０２と間の相関関係に関する情報が記録される領域である。領域Ａ（４０５）では、主に、連続的に出力される値の間の相関度及び比例関係等が記録される。例えば、第１ＣＰＵの使用率ｍ₁及び第２ＣＰＵの使用率ｍ₂の二つのモニタ値に関して、ｍ₁＝ｍ₂の関係等が記録される。

領域Ａ（４０５）に記録された情報を用いることによって、モニタ値４０１間、統計値４０２間及びモニタ値４０１と統計値４０２との間が通常と異なる場合を検出することができる。なお、領域Ａ（４０５）では縦軸と横軸は対称であるため、例えば、ｍ₁行のｍ₂列と、ｍ₂行のｍ₁列とは同じ値が記録される。よって領域Ａ（４０５）の三角形の左下半分又は右上半分の領域はなくてもよい。領域Ａ（４０５）へデータを記録する処理の詳細については、図５〜図７を参照して説明する。

相関表４０９の領域Ｂ（４０６）は、モニタ値４０１及び統計値４０２の、イベント４０３及び処理４０４に対する相関関係に関する情報が記録される領域である。領域Ｂ（４０６）では、主に、イベント４０３が発生した時又は処理４０４が実行された時のモニタ値４０１及び統計値４０２と、それ以外の時のモニタ値４０１及び統計値４０２の相違が記録される。領域Ｂ（４０６）に記録された情報を用いることによって、モニタ値４０１及び統計値４０２から、発生しているイベント４０３及び実行されている処理４０４を求めることができる。領域Ｂ（４０６）へデータを記録する処理の詳細については、図８及び図９を参照して説明する。

相関表４０９の領域Ｃ（４０７）は、イベント４０３及び処理４０４の、モニタ値４０１及び統計値４０２に対する相関関係に関する情報が記録される領域である。領域Ｃ（４０７）では、主に、イベント４０３が発生する前後又は処理４０４が実行される前後のモニタ値４０１及び統計値４０２の相違が記録される。領域Ｃ（４０７）に記録された情報を用いることによって、イベント４０３の発生や処理４０４の実行により、その後モニタ値４０１及び統計値４０２にどのような効果及び影響が現れるかを求めることができる。領域Ｃ（４０７）へデータを記録する処理の詳細については、図１０及び図１１を参照して説明する。

なお、領域Ｂ（４０６）と領域Ｃ（４０７）は、共に、モニタ値４０１及び統計値４０２と、イベント４０３及び処理４０４との間の相関関係を記録する領域であるが、前に述べたように記録される情報が異なる。また、利用方法についても、領域Ｂ（４０６）が、主に、モニタ値４０１又は統計値４０２から発生しているイベント４０３及び実行されている処理４０４を求めるのに利用されるのに対して、領域Ｃ（４０７）は、イベント４０３の発生又は処理４０４の実行によるモニタ値４０１及び統計値４０２への影響を求めるのに利用される違いがあるので、両方の情報が記録される必要がある。

相関表４０９の領域Ｄ（４０８）は、イベント４０３と処理４０４との間の相関関係に関する情報が記録される領域である。領域Ｄ（４０８）では、主に、イベント４０３の発生又は処理４０４の実行と同時又は引き続いて発生するイベント４０３及び実行される処理４０４を記録する。領域Ｄ（４０８）に記録された情報を用いることによって、イベント４０３及び処理４０４の連鎖関係を求めることができる。例えば、処理Ａを実行するとイベントＢが発生するような連鎖関係が分かる。領域Ｄ（４０８）へデータを記録する処理の詳細については、図１２及び図１３を参照して説明する。

図４で示した、相関表４０９の構成は一例に過ぎない。例えば、領域Ａ〜Ｄ（４０５〜４０８）をそれぞれ別の相関表としてもよい。また、モニタ値４０１、統計値４０２、イベント４０３及び処理４０４の一部を含まない構成の相関表でもよい。さらに、個々の領域の記録の方法についても、要素間の相関を表すあらゆる形式の情報を記録することができる。以下、相関の記録方法について詳細に述べるが、これは相関を表す情報の一例に過ぎない。

相関表４０９の領域Ａ（４０５）に記録される相関関係の一例を図５〜図７を参照して説明する。

図５は、モニタ値ｍ_a又は統計値ｓ_aをｘ軸５０１にとり、別のモニタ値ｍ_b又は統計値ｓ_bをｙ軸５０２にとった場合の、相関関係の例を示した図である。

図５中の●は、ｘ軸とｙ軸の値の間に正の相関５０３がある状態で、○は負の相関５０４がある状態を示している。

例えば、ＣＰＵ使用率は、アプリケーションの使用ユーザ数に比例して増加すると考えられ、正の相関５０３の一例である。一方、メモリの残容量は、アプリケーションの使用ユーザ数に比例して減少すると考えられ負の相関５０４の一例である。また、ディスク読み出しのリトライ回数はアプリケーションを使用しているユーザ数とは無関係と考えられ、この場合は相関関係は正や負の相関とはならない。

相関係数５０５はこのような相関関係を定量化する一つの指標である。相関係数ｒは、Ｎ個のｘ，ｙの組（ｘ_i，ｙ_i）（ｉ＝１、２、・・・、Ｎ）に対して、図５に示す式５０５で定義される値である。相関係数ｒは、正の相関５０３では１に近い１以下の正の値をとり、負の相関５０４では−１に近い−１以上の負の値をとる。一方、相関が無い場合には０に近い値をとる。つまり、相関係数ｒは、二つの値の相関の正負と強さを示す。

相関係数ｒを、相関表４０９の領域Ａ（４０５）に記録することによって、モニタ値４０１と統計値４０２との間の相関関係を表わすことができる。相関係数ｒでは、相関の強さだけでなく、正の相関か負の相関かも知ることができるが、正の相関がｙ＝ｘなのか、ｙ＝２ｘなのかは、相関係数ｒだけでは分からない。そこで相関がある場合には、その相関関係を示す方程式を求める。この方程式で表される線は回帰線と呼ばれる。回帰線の求め方については、「統計入門」中村隆英他著（非特許文献１）に詳しく開示されている。

図６は、モニタ値と統計値との別な相関関係の例を示した図である。

図５では、二つのモニタ値と統計値との間に線形な相関がある場合について述べたが、例えば、アプリケーション操作の応答時間（レスポンスタイム）ｍ_bとアプリケーションの使用ユーザ数ｍ_aの関係では、通常、線形な相関ではなく、例えば、図６に示すような２次曲線６０３のような相関関係となる。このような相関関係の場合には、図５に示した相関係数ｒ（５０５）は相関がない場合と同じ０に近い値をとる。このような場合には、ｘ軸方向をｘの２乗とする統計処理によって、線形相関６０５を求めることができる。情報収集・統計処理部２０１は、このような統計処理も行う。前述した相関表４０９の領域Ａ（４０５）に記録する方法の一例は、統計値ｓ_cをｘの２乗（ｍ_aの２乗）としてモニタ値ｍ_bと統計値ｓ_cの相関関係として記録する方法である。なお、線形な相関関係の求め方の一例は、サポートベクターマシンを利用する方法がある。この方法については「サポートベクターマシン入門」、Nello Cristianini他著（非特許文献４）に詳しく開示されている。

図５及び図６では、モニタ値４０１と統計値４０２との間の相関関係の記録方法の一例を説明した。次に、図５及び図６を参照して前述した相関関係の記録方法を用いて相関表４０９の領域Ａ（４０５）に記録されている相関情報を更新する処理について、図７のフローチャートを参照して説明する。

最初に、時刻ｔ_a+xのモニタ値及び統計値を情報取得・統計処理部２０１から取得する（ステップ７０２）。次に、図６に示した統計処理を、必要に応じて行う（ステップ７０３）。そして、取得した時刻ｔ_a+xのモニタ値及び統計値を保存し（ステップ７０４）、時刻ｔ_a+1〜ｔ_a+xのモニタ値及び統計値を読み出す（ステップ７０５）。

これらの読み出した値から、図５及び図６で示したグラフが生成できる。ここでは、相関表４０９の縦軸の要素を更新対象Ａ、横軸の要素を調査対象Ｂと呼ぶ。最初に更新対象Ａを最初のモニタ値ｍ₁又は統計値ｓ₁とする（ステップ７０６）。次に、調査対象ＢをＡの次のモニタ値ｍ₂又は統計値ｓ₂とする（ステップ７０７）。

そして、更新対象Ａと調査対象Ｂとの相関係数及び回帰線等の相関情報を図５及び図６に示した方法によって計算する（ステップ７０８）。ステップ７０８で計算された結果は相関表４０９の縦軸Ａ及び横軸Ｂに登録される（ステップ７０９）。

その後、次の調査対象があるか否かを判定する（ステップ７１０）。次の調査対象があれば、次の調査対象を調査対象Ｂに設定し、ステップ７０８に戻る。一方、次の調査対象がなければ、ステップ７１２に進む。

ステップ７１２では、次の更新対象があるか否かを判定する。次の更新対象があれば、次の更新対象を更新対象Ａに設定し、ステップ７０７に戻る。一方、次の更新対象がなければ、最も古い時刻ｔ_a+1のモニタ値及び統計値を削除する（ステップ７１４）。そして、時刻が次の時刻ｔ_a+x+1になったら、ａに１を加算して、ステップ７０２に戻る。

次に、相関表４０９の領域Ｂ（４０６）に記録される相関関係の一例を図８及び図９を参照して説明する。

図８に示す遷移表８０１は、時刻ｔ_a+1〜ｔ_a+xの間のイベントの発生及び実行される処理に対する、各時刻におけるモニタ値及び統計値の変化を示した表である。

この遷移表８０１から、横軸８０２にモニタ値ｍ₁をとり、イベントｅ_Aの発生時とそれ以外の時とに分けて、モニタ値ｍ₁の分布確率８０３を縦軸に示した分布図８０６を作成する。この分布図８０６から、イベントｅ_Aとモニタ値ｍ₁との相関関係を求める。

横軸８０２上で、○はイベントｅ_A発生時のモニタ値ｍ₁を示す。グラフ８０５は、○の分布確率８０３をガウス分布によって示したものである。また、このガウス分布の平均値はａ_o、分散はσ_oである。

同様に、●はイベントｅ_Aが発生していない時のモニタ値ｍ₁を示す。グラフ８０４は、●の分布確率８０３をガウス分布によって示したものである。また、このガウス分布の平均値はａ_x、分散はσ_xである。

分布図８０６において、平均値ａ_oとａ_xとの差が大きく、分散σ_oとσ_xとの差が小さいモニタ値及び統計値は、イベントの発生及び実行される処理と相関が強い。

次に、図８で説明した相関関係の方法によって相関表４０９の領域Ｂ（４０６）に記録されている相関情報を更新する処理の一例について、図９のフローチャートを参照して説明する。

最初に、時刻ｔ_a+xのモニタ値、時刻ｔ_a+xの統計値、時刻ｔ_a+xに発生したイベント及び時刻ｔ_a+xに実行された処理を情報取得・統計処理部２０１から取得する（ステップ９０２）。次に、図８に示した統計処理を、必要に応じて行う（ステップ９０３）。そして、時刻ｔ_a+xのモニタ値及び時刻ｔ_a+xに発生したイベント等を保存し（ステップ９０４）、時刻ｔ_a+1〜ｔ_a+xのモニタ値及び時刻ｔ_a+1〜ｔ_a+xに発生したイベント等を読み出す（ステップ９０５）。

これらの読み出した値から、図８で示したグラフが生成できる。ここでは、相関表４０９の横軸の要素を対象Ａ、縦軸の要素を更新対象Ｂと呼ぶ。最初に対象Ａを最初のイベントｅ₁又は処理ｐ₁とする（ステップ９０６）。次に、更新対象Ｂを最初のモニタ値ｍ₁又は統計値ｓ₁とする（ステップ９０７）。次に、対象Ａとなるイベントの発生時と未発生時又は対象Ａとなる処理の実行時と未実行時の更新対象Ｂの分布を求め（ステップ９０８）、それぞれの平均値及び分散を計算して、計算結果を相関表４０９の縦軸Ｂ及び横軸Ａに登録する（ステップ９０９）。

その後、次の更新対象があるか否かを判定する（ステップ９１０）。次の更新対象があれば、次の更新対象を更新対象Ｂに設定し、ステップ９０８に戻る。一方、次の更新対象がなければ、ステップ９１２に進む。

ステップ９１２では、次の対象イベント又は処理があるか判定する（ステップ９１２）次の対象イベント又は処理があれば、次の対象イベント又は処理を対象Ａに設定し、ステップ９０７に戻る。一方、次の更新対象がなければ、最も古い時刻ｔ_a+1のモニタ値及びイベントを削除する（ステップ９１４）。そして、時刻が次の時刻ｔ_a+x+1になったらａに１を加算して、ステップ９０２に戻る。

次に、相関表４０９の領域Ｃ（４０７）に記録される相関関係の一例を図１０及び図１１を参照して説明する。

図１０に示す遷移表１００１は、時刻ｔ_a+1〜ｔ_a+xの間のイベント発生又は処理実行の有無と、各時刻におけるモニタ値及び統計値を示した表である。

この遷移表１００１から、横軸１００２にモニタ値ｍ₁をとり、イベントｅ_Aの発生前と発生後とに分けて、モニタ値ｍ₁の分布確率１００３を縦軸に示した分布図１００６を作成する。この分布図１００６から、イベントｅ_Aとモニタ値ｍ₁の相関関係を求める。

横軸１００２上で、○はイベントｅ_A発生前のモニタ値ｍ₁を示す。グラフ１００５は、○の分布確率１００３をガウス分布によって示しものである。また、このガウス分布の平均値をａ_b、分散はσ_bである。

同様に、●はイベントｅ_Aの発生後のモニタ値ｍ₁を示す。グラフ１００４は、●の分布確率１００３をガウス分布によって示したものである。また、このガウス分布の平均ａ_a、分散σ_aである。

分布図１００６において、平均値ａ_bとａ_aとの差が大きく、分散σ_bとσ_aとの差が小さいモニタ値及び統計値は、イベントの発生及び処理の実行によって受ける変化が大きい。

次に、図１０で説明した相関関係の方法によって相関表４０９の領域Ｃ（４０７）に記録されている相関情報を更新する処理の一例について、図１１のフローチャートを参照して説明する。

最初に、時刻ｔ_a+xのモニタ値、時刻ｔ_a+xの統計値、時刻ｔ_a+xに発生したイベント及時刻ｔ_a+xに実行された処理を情報取得・統計処理部２０１から取得する（ステップ１１０２）。次に、図１０に示した統計処理を、必要に応じて行う（ステップ１１０３）。そして、時刻ｔ_a+xのモニタ値及び時刻ｔ_a+xに発生したイベント等を保存し（ステップ１１０４）、時刻ｔ_a+1〜ｔ_a+xのモニタ値及び時刻ｔ_a+1〜ｔ_a+xに発生したイベント等を読み出す（ステップ１１０５）。

これらの読み出した値から、図１０で示したグラフが生成できる。ここでは、相関表４０９の縦軸の要素を対象Ａ、横軸の要素を更新対象Ｂと呼ぶ。最初に対象Ａを最初のイベントｅ₁又は処理ｐ₁とする（ステップ１１０６）。次に、更新対象Ｂを最初のモニタ値ｍ₁又は統計値ｓ₁とする（ステップ１１０７）。次に、対象Ａとなるイベントの発生前と発生後又は対象Ａとなる処理の実行前と実行後の更新対象Ｂの分布を求め（ステップ１１０８）、それぞれの平均値及び分散を計算して、計算結果を相関表４０９の縦軸Ａ及び横軸Ｂに登録する（ステップ１１０９）。

その後、次の更新対象があるか否かを判定する（ステップ１１１０）。次の更新対象があれば、次の更新対象を更新対象Ｂに設定し、ステップ１１０８に戻る。一方、次の更新対象がなければ、ステップ１１１２に進む。

ステップ１１１２では、次の対象イベント又は処理があるか判定する（ステップ１１１２）。次の対象イベント又は処理があれば、次の対象イベント又は処理を対象Ａに設定し、ステップ１１０７に戻る。一方、次の更新対象がなければ、最も古い時刻ｔ_a+1のモニタ値及びイベントを削除する（ステップ１１１４）。そして、時刻が次の時刻ｔ_a+x+1になったらａに１を加算して、ステップ１１０２に戻る。

次に、相関表４０９の領域Ｄ（４０８）に記録される相関関係の一例を図１２及び図１３を参照して説明する。

図１２に示す遷移表１２０１は、時刻ｔ_a+1〜ｔ_a+xの相関検出期間に発生したイベント又は実行された処理を示した表である。この遷移表１２０１では，○印がイベントの発生又は処理の実行を示す。

この遷移表１２０１から、イベントと処理との相関関係を求め、相関表４０９の領域Ｄ（４０８）に記録する。領域Ｄ（４０８）では、例えば、縦軸を先に起こったイベント又は先に実行された処理１２０３とし、横軸を後で起こったイベント又は後で実行された処理１２０２とする。

そして、遷移表１２０１の相関検出期間における、イベントの発生と処理の実行順序から領域Ｄ（４０８）に相関情報を記録する。例えば、イベントｅ₂に注目すると、時刻ｔ_a+2でイベントｅ₂は発生しており、相関検出期間中のそれ以後の時刻に発生しれているイベント又は実行されている処理は、ｐ₂が１回、ｅ₂が２回である。これを領域Ｄ（４０８）のｅ₂の行に記録することで、イベントｅ₂に引き続いて再度ｅ₂が発生する可能性が高いことがわかる。

次に、図１２で説明した相関関係の方法によって相関表４０９の領域Ｄ（４０８）に記録されている相関情報を更新する処理の一例について、図１３のフローチャートを参照して説明する。

最初に、時刻ｔ_a+xに発生したイベント及び時刻ｔ_a+xに実行された処理を情報取得・統計処理部２０１から取得する（ステップ１３０２）。次に、図１２に示した統計処理を、必要に応じて行う（ステップ１３０３）。そして、時刻ｔ_a+xに発生したイベント及び時刻ｔ_a+xに実行された処理を保存し（ステップ１３０４）、時刻ｔ_a+1〜ｔ_a+xに発生したイベント及び時刻ｔ_a+1〜ｔ_a+xに実行された処理を読み出す（ステップ１３０５）。

これらの読み出した値から、図１２で示した相関表が生成できる。ここでは、相関表４０９の縦軸の要素を更新対象Ａと呼ぶ。最初に時刻ｔ_a+1に更新対象Ａが発生しているか又は実行されたかを判定する（ステップ１３０７）。更新対象Ａが発生も実行もされていなければ、時刻がｔ_a+xであるか否かを判定する（ステップ１３０８）。その結果、時刻がｔ_a+xでなければ、時刻を１単位時間進め（ステップ１３０９）、ステップ１３０７に戻る。一方、時刻がｔ_a+xであれば、ステップ１３１２に進む。

一方、ステップ１３０７にて、更新対象Ａが発生又は実行されていると判定されれば、その時刻以降に発生したイベント、実行された処理について、それぞれ何回発生及び実行したかを計数し（ステップ１３１０）、計数結果を相関情報として保存する（ステップ１３１１）。

次に、別の更新対象となるイベント又は処理の有無を判定する（ステップ１３１２）。別の更新対象があれば、次の更新対象を更新対象Ａに設定し、時刻を初期状態に戻す（ステップ１３１３）。別の更新対象がなければ、最も古い時刻ｔ_a+1のイベント又は処理を削除する（ステップ１３１４）。そして、時刻が次の時刻ｔ_a+x+1になったらａに１を加算して、ステップ１３０２に戻る。

ここまでは、相関情報記憶部２０３へ登録される相関情報の作成方法の一例を説明してきたが、次に検出・処理生成部２０５の動作について、図１４のフローチャートを参照して説明する。

検出・処理生成部２０５は、情報収集・統計処理部２０１から現在のモニタ値及び統計値等の情報を読み出し、相関情報抽出部２０４を介して相関情報記憶部２０３から相関情報を読み出す（ステップ１４０２）。この処理では、領域Ａ（４０５）に記録された相関情報が使用される。

次に、現在のモニタ値及び統計値と相関情報とを比較する（ステップ１４０３）。ステップ１４０３では、例えば、相関情報において、モニタ値ｍ₁と統計値ｓ₁の相関係数が１で、ｓ₁＝ｍ₁の回帰線の関係がある場合に、現在のモニタ値ｍ₁と統計値ｓ₁の関係がｓ₁＝ｍ₁になっているかを比較する。現在のモニタ値及び統計値と相関情報との間に矛盾がなければ、異常がなかったものとして検出・処理生成部２０５の動作は終了する。

一方、現在のモニタ値及び統計値と相関情報との間に矛盾があれば、引き続いて相関情報の領域Ｂ（４０６）を読み出す（ステップ１４０５）。そして、矛盾のあったモニタ値及び統計値と相関のあるイベント及び処理を検索する（ステップ１４０６）。

領域Ｂ（４０６）には、イベントの発生時と未発生時及び処理の実行時と非実行時のモニタ値及び統計値が取る値の平均値及び分散等が記録されている。よって、矛盾のあったモニタ値及び統計値の現在の値がイベントの発生や処理の実行に該当するものを検索できる。その後、検索されたイベント及び処理が、正常なイベント及び処理かを判定する（ステップ１４０７）。ステップ１４０７では、例えば、イベント及び処理に付属させてある属性を見て判断する。

検索されたイベント及び処理が正常なイベント及び処理であれば、異常がなかったものとして検出・処理生成部２０５の動作は終了する。一方、検索されたイベント及び処理が正常でないイベント及び処理と相関関係があった場合には、その障害や異常に対する予防・復旧処理候補を生成する（ステップ１４０８）。このステップ１４０８の処理の詳細は前に述べた通りである。

なお、ステップ１４０６において、相関のあるイベント・処理が見つからなかった場合には、類似の事象がこれまでに生じていなかった未知の障害及び異常の可能性がある。その場合には、障害又は異常があったものとして、ステップ１４０８にて予防・復旧処理の候補を生成する。なお、この場合には、障害及び異常がなかったものとして扱うこともできる。

次に、予防・復旧処理効果・影響評価部（評価部）２０６の動作について、図１５のフローチャートを参照して説明する。

評価部２０６は、検出・処理生成部２０５から、異常検出時に異常のあったモニタ値及び統計値に関する情報と、予防・復旧処理の候補を取得する。さらに、情報収集・統計処理部２０１から現在のモニタ値及び統計値等の情報を取得する。そして、相関情報抽出部２０４を介して相関情報記憶部２０３から相関情報を読み出す(ステップ１５０２)。この処理では、主に領域Ｃ（４０７）及び領域Ｄ（４０８）に記録されている相関情報が使用される。

次に、予防・復旧処理の候補の実行後に、異常のあったモニタ値及び統計値にどのような変化を与えるかに関する相関情報を、領域Ｃ（４０７）から取得する（ステップ１５０３）。そして、取得したモニタ値及び統計値の変化を、現在のモニタ値及び統計値に加えることによって、異常状態が解消されるか否かを評価する（ステップ１５０４）。すなわち、予防・復旧処理の候補の実行の効果を評価する。

評価の結果、予防・復旧処理の候補の効果が期待できなければ、ステップ１５０８に進み、別の処理の候補を検討する。一方、予防・復旧処理の候補の効果が期待できれば、その効果を記録する（ステップ１５０５）。そして、その処理によって他のモニタ値及び統計値に与えられる変化を領域Ｃ（４０７）から求める。そして、求められたモニタ値及び統計値の変化を、現在のモニタ値及び統計値に加えることによって、他の異常状態が発生しないかを評価する（ステップ１５０６）。

他の異常状態が発生し、予防・復旧処理の候補の実行による影響があれば、その影響を記録する(ステップ１５０７)。ステップ１５０３からステップ１５０７の処理を一つのループとして、別の予防・復旧処理候補があれば（ステップ１５０８）、ステップ１５０３に戻って同様の処理をする。

一方、全ての処理の候補に対する評価が終了したら、予防・復旧処理、ステップ１５０５で記録された効果及びステップ１５０７で記録された影響に関する情報を、予防・復旧処理命令部２０８へ送る（ステップ１５０９）。その後、処理を終了する。

評価・命令制御部２０７及び予防・復旧処理命令部２０８の動作は、図２及び図３で説明したとおりである。

（第２実施形態）
次に、本発明の第２の実施の形態を図１６に示す。第２の実施の形態は、前述した第１の実施の形態と以下の点が異なる。

図２に示すように第１の実施の形態では、検出された異常に対する予防及び復旧のために生成された処理の候補について効果及び影響を評価した。しかし、第２の実施の形態では、外部から入力された処理命令について効果及び影響を評価する。このため、第２の実施の形態の障害予防・復旧制御部１０６は、処理命令入力部１６０１を備える。

第２の実施の形態の障害予防・復旧制御部１０６は、情報収集・統計処理部２０１、相関情報更新部２０２、相関情報記憶部２０３、相関情報抽出部２０４、処理命令入力部１６０１、処理効果・影響評価部１６０２、評価・命令制御部１６０３及び処理命令部１６０４を備える。これらの各部は、図には示されていない記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。第２の実施の形態の障害予防・復旧制御部１０６の構成のうち、第１の実施の形態と同じ動作をする構成には同じ符号を付し、その説明は省略する。

処理命令入力部１６０１は、外部から処理が指定されるインタフェースである。処理命令入力部１６０１に入力された処理命令は、異常の発生時に限らず、通常時のシステム構成変更、ソフトウェアの更新、計画保守及び臨時保守等も含まれる。

処理効果・影響評価部１６０２は、第１の実施の形態の評価部２０６と同様に、処理命令入力部１６０１から入力された処理命令に対する効果及び影響を評価する。よって、処理効果・影響評価部１６０２では、通常時に実行される処理による影響で異常状態が発生しないかを評価することもできる。

評価・命令制御部１６０３は、第１の実施の形態の評価・命令制御部２０７と同様に、処理効果・影響評価部１６０２及び処理命令部１６０４の動作を制御する。

処理命令部１６０４は、第１の実施の形態の予防・復旧処理命令部２０８と同様に、処理効果・影響評価部１６０２から入力された処理命令、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序及び実行時刻等を決定する。

次に、第２の実施の形態の障害予防・復旧制御部１０６の動作について、図１７のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ１７０２）。

次に、相関情報更新部２０２は、情報収集・統計処理部２０１によって収集された情報を用いて、相関情報記憶部２０３に記憶された相関情報を更新する（ステップ１７０３）。なお、初期状態において、ステップ１７０３の処理は、相関情報の追加である。

次に、処理命令入力部１６０１が、外部からの処理命令の入力を受け付ける（ステップ１７０４）。

次に、処理効果・影響評価部１６０２は、相関情報を用いて、処理の効果及び影響を評価する（ステップ１７０５）。処理の効果及び影響は、ステップ１７０６において評価・命令制御部１６０３に入力された条件に従って評価される。

そして、処理命令部１６０４は、処理の効果の有無を判定する（ステップ１７０７）。効果は、ステップ１７０８において評価・命令制御部１６０３に入力された条件に従って判定される。

処理の効果が期待できなければ、処理は実行されず、ステップ１７０２に戻る。一方、処理の効果が期待できれば、他への影響を判定する（ステップ１７０９）。影響は、ステップ１７１０において評価・命令制御部１６０３に入力された条件に従って判定される。

判定の結果、影響が大きい場合には処理は実行されず、ステップ１７０２に戻る。一方、影響の大きさが問題ないレベルであると判定されれば、処理命令部１６０４が制御対象システム１０１に対して処理を命令する（ステップ１７１１）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ１７１２において評価・命令制御部１６０３に入力された方法に従う。

ステップ１７１１において処理が命令されると、ステップ１７０２に戻る。

なお、ステップ１７０３の相関情報の更新は、ステップ１７０４の後、又はステップ１７０２に戻る前の任意の時点で実行してもよい。また、ステップ１７０６、ステップ１７０８、ステップ１７１０及びステップ１７１２の各入力処理は、予め定められた値（方法）を用いれば、これらのステップがなくてもよい。

さらに、処理が実行されなかった場合には、処理命令入力部１６０１に対して通知をする。処理命令入力部１６０１は、通知を受けると、処理が実行されなかったことを表示又は記録する。

以上説明したように、第２の実施の形態では、処理命令入力部１６０１から入力された処理命令に対する効果及び影響を評価するので、通常時に実行される処理によって異常状態が発生しないかも評価することができ、管理者に異常事態の発生を報知することができる。よって、管理者による操作ミスを低減することができる。

（第３実施形態）
次に、本発明の第３の実施の形態を図１８に示す。第３の実施の形態は、前述した第１の実施の形態及び第２の実施の形態と以下の点で異なる。

図２及び図１６に示すように第１及び第２の実施の形態では、処理の候補に対して効果及び影響を評価した結果、処理が実行されない場合があった。しかし、第３の実施の形態では、処理効果・影響評価部１８０３において、処理の効果が十分に期待できない場合や、他への影響が大きい場合に処理の候補を見直す。このため、第３の実施の形態の障害予防・復旧制御部１０６は、フィードバックループ１８０４及び１８０５を備える。

第３の実施の形態の障害予防・復旧制御部１０６は、情報収集・統計処理部２０１、相関情報更新部２０２、相関情報記憶部２０３、相関情報抽出部２０４、異常検出・原因解析・予防・復旧処理候補生成部１８０１、処理命令入力部１８０２、処理効果・影響評価部１８０３、評価・命令制御部１８０６及び処理命令部１８０７を備える。これらの各部は、図には示されていない記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。第３の実施の形態の障害予防・復旧制御部１０６の構成のうち、第１の実施の形態と同じ動作をする構成には同じ符号を付し、その説明は省略する。

異常検出・原因解析・予防・復旧処理候補生成部（以下、検出・処理生成部と略す）１８０１は、情報収集・統計処理部２０１によって収集・統計処理された情報と、相関情報抽出部２０４によって相関情報記憶部２０３から読み出された相関情報を利用して、制御対象システム１０１の異常状態を検出する。また、検出・処理生成部１８０１は、処理効果・影響評価部１８０３において、処理の効果が十分に期待できない場合や、他への影響が大きい場合に、フィードバックループ１８０４による通知に基づいて、処理の候補を見直す。

なお、第３の実施の形態では、前述した第２の実施の形態のように、検出・処理生成部１８０１は設けられていなくてもよい。

処理命令入力部１８０２は、外部から処理が指定されるインタフェースである。処理命令入力部１８０２に入力された処理命令は、異常の発生時に限らず、通常時のシステム構成変更、ソフトウェアの更新、計画保守及び臨時保守等も含まれる。また、処理命令入力部１８０２は、処理効果・影響評価部１８０３において、処理の効果が十分に期待できない場合、及び他への影響が大きい場合に、フィードバックループ１８０５による通知に基づいて、処理命令の再入力を受け付ける。この処理命令入力部１８０２によって受け付けられた処理によって、別の処理を実行することができる。

処理効果・影響評価部１８０３は、第１の実施の形態の評価部２０６と同様に、異常検出時に、検出・処理生成部１８０１から、原因解析結果と予防・復旧処理の候補を受け付る。そして、情報収集・統計処理部２０１によって取得される制御対象システム１０１の状態を示す情報と、相関情報抽出部２０４を介して相関情報記憶部２０３に記憶された相関情報とを利用して、予防・復旧処理の候補の実行によって制御対象システム１０１に与える効果及び影響を評価する。さらに、処理効果・影響評価部１８０３は、処理の効果が十分に期待できない場合や、他への影響が大きい場合に、フィードバックループ１８０４によって、その旨を検出・処理生成部１８０１に通知する。

また、処理効果・影響評価部１８０３は、第２の実施の形態の処理効果・影響評価部１６０２と同様に、処理命令入力部１８０２から入力された処理命令に対する効果及び影響を評価する。さらに、処理効果・影響評価部１８０３は、処理の効果が十分に期待できない場合や、他への影響が大きい場合に、フィードバックループ１８０５によって、その旨を処理命令入力部１８０２に通知する。

評価・命令制御部１８０６は、第１の実施の形態の評価・命令制御部２０７と同様に、処理効果・影響評価部１８０３及び処理命令部１８０７の動作を制御する。評価・命令制御部１８０６は、フィードバックループ１８０４及び１８０５の収束条件を制御する。例えば、フィードバック時に世代管理を行い、三世代を限度にフィードバックを可能とする等の制御をすることもできる。

処理命令部１８０７は、第１の実施の形態の予防・復旧処理命令部２０８と同様に、処理効果・影響評価部１８０３から入力された処理命令、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序及び実行時刻等を決定する。

次に、第３の実施の形態の障害予防・復旧制御部１０６の動作について、図１９のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ１９０２）。

次に、相関情報更新部２０２は、情報収集・統計処理部２０１によって収集された情報を用いて、相関情報記憶部２０３に記憶された相関情報を更新する（ステップ１９０３）。なお、初期状態において、ステップ１９０３の処理は、相関情報の追加である。

ステップ１９０３の後、第３の実施の形態の任意的構成である検出・処理生成部１８０１の有無によって処理が分岐する。検出・処理生成部１８０１が備わる場合は、ステップ１９０４に進み、相関情報を用いて異常を検出する。一方、検出・処理生成部１８０１が備わっていない場合は、ステップ１９１６に進み、処理命令入力部１８０２からの入力を待つ。

ステップ１９０４では、検出・処理生成部１８０１は、現在のシステム状態及び相関情報から異常の有無を検出する。異常の有無の検出方法の一例は前に述べた通りである。ステップ１９０４にて異常が検出されなければ、ステップ１９０２に戻る。

一方、ステップ１９０４にて異常が検出されれば、相関情報を用いて異常原因を調査し、障害予防・復旧処理候補を生成する（ステップ１９０５）。このステップ１９０５の処理の一例は前に述べた通りである。

次に、処理効果・影響評価部１８０２は、相関情報を用いて、処理の効果及び影響を評価する（ステップ１９０６）。処理の効果及び影響は、ステップ１９０７において評価・命令制御部１８０６に入力された条件に従って評価される。

そして、処理命令部１８０７は、処理の効果の有無を判定する（ステップ１９０８）。効果は、ステップ１９０９において評価・命令制御部１８０６に入力された条件に従って判定される。評価・命令制御部１８０６には、フィードバック１９１４及び１９１５の繰り返し回数の制限も入力される。

処理の効果が期待できなければ、ステップ１９０５に戻る（１９１４）。一方、処理の効果が期待できれば、他への影響を判定する（ステップ１９１０）。影響は、ステップ１９１１において評価・命令制御部１８０６に入力された条件に従って判定される。

判定の結果、影響が大きい場合には処理は実行されず、ステップ１９０５に戻る（１９１４）。一方、影響の大きさが問題ないレベルであると判定されれば、処理命令部１８０７が制御対象システム１０１に対して処理を命令する（ステップ１９１２）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ１９１３において評価・命令制御部１８０６に入力された方法に従う。

ステップ１９１２において処理が命令されると、ステップ１９０２に戻る。

一方、処理命令入力部１８０２が、外部からの処理命令の入力を受け付ける（ステップ１９１６）。この場合もステップ１９０６以下、ステップ１９０５で生成された処理と同様の処理が行われる。なお、この場合は、ステップ１９０８及び１９１０からのフィードバックループ１９１５によって、ステップ１９１６に戻る。

フィードバックループ１９１４及び１９１５は、評価・命令制御部１８０６に入力された回数に従って制限される。

以上説明したように、第３の実施の形態では、処理の効果及び影響によって処理を見直すため、フィードバックループ１８０４及び１８０５を備える。これによって、別の処理を選択又は別の処理命令の入力を受け付けることによって、より適切な別の処理を実行することができる。

（第４実施形態）
次に、本発明の第４の実施の形態を図２０に示す。第４の実施の形態は、前述した第３の実施の形態と以下の点で異なる。

図１８に示した第３の実施の形態では、フィードバックループ１８０４、１８０５を設け、検出・処理生成部１８０１で処理候補の再生成、又は、処理命令入力部１８０２で別の処理命令の入力を受け付けることによって、別の処理を実行することが可能である。しかし、処理の再生成や処理命令の再入力によって、効果があり他への影響も少ない処理が実行できるとは限らない。そこで、効果はあるが、他への影響も生じる処理に対して、その影響を打ち消す処理を同時又は続いて実行することによって、全体として効果が大きく影響の少ない処理を実行する方法がある。このため、第４の実施の形態の障害予防・復旧制御部１０６は、影響低減処理候補生成部２００１を備える。

第４の実施の形態の障害予防・復旧制御部１０６は、情報収集・統計処理部２０１、相関情報更新部２０２、相関情報記憶部２０３、相関情報抽出部２０４、異常検出・原因解析・予防・復旧処理候補生成部１８０１、処理命令入力部１８０２、影響低減処理候補生成部２００１、処理効果・影響評価部２００３、評価・命令制御部２００４及び処理命令部２００５を備える。これらの各部は、記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。第４の実施の形態の障害予防・復旧制御部１０６の構成のうち、第３の実施の形態と同じ動作をする構成には同じ符号を付し、その説明は省略する。

影響低減処理候補生成部２００１は、処理効果・影響評価部２００３及び処理命令部２００５によって、効果はあるが他への影響もあると判断された処理に関する情報をフィードバックループ２００２を経由して取得する。そして、相関情報抽出部２０４を介して、相関情報記憶部２０３からその影響の低減に効果のある処理を検索する。

処理効果・影響評価部２００３は、第３の実施の形態の処理効果・影響評価部１８０３と同様に、異常検出時に、検出・処理生成部１８０１から、原因解析結果と予防・復旧処理の候補を受け付け、実行される処理によって制御対象システム１０１に与える効果及び影響を評価する。

評価・命令制御部２００４は、第３の実施の形態の評価・命令制御部１８０６と同様に、処理効果・影響評価部２００３及び処理命令部２００５の動作を制御する。さらに、評価・命令制御部２００４は、影響低減処理候補生成部２００１へのフィードバックループ２００２のフィードバック回数を制御する。また、このようにして生成された影響低減処理候補について、ペアとなる処理との実行順序等の実行スケジューリングも制御する。

処理命令部２００５は、第３の実施の形態の予防・復旧処理命令部１８０７と同様に、処理効果・影響評価部２００３から入力された処理命令、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序及び実行時刻等を決定する。

なお、第４の実施の形態では、前述した第２の実施の形態のように、検出・処理生成部１８０１は設けられていなくてもよい。

次に、第４の実施の形態の障害予防・復旧制御部１０６の動作について、図２１のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ２１０２）。

次に、相関情報更新部２０２は、情報収集・統計処理部２０１によって収集された情報を用いて、相関情報記憶部２０３に記憶された相関情報を更新する（ステップ２１０３）。なお、初期状態において、ステップ２１０３の処理は、相関情報の追加である。

ステップ２１０３の後、第４の実施の形態の任意的構成である検出・処理生成部１８０１の有無によって処理が分岐する。検出・処理生成部１８０１が備わる場合は、ステップ２１０４に進み、相関情報を用いて異常を検出する。一方、検出・処理生成部１８０１が備わっていない場合は、ステップ２１１６に進み、処理命令入力部１８０２からの入力を待つ。

ステップ２１０４では、検出・処理生成部１８０１は、現在のシステム状態及び相関情報から異常の有無を検出する。異常の有無の検出方法の一例は前に述べた通りである。ステップ２１０４にて異常が検出されなければ、ステップ２１０２に戻る。

一方、ステップ２１０４にて異常が検出されれば、相関情報を用いて異常原因を調査し、障害予防・復旧処理候補を生成する（ステップ２１０５）。このステップ２１０５の処理の一例は前に述べた通りである。

次に、処理効果・影響評価部２００３は、相関情報を用いて、処理の効果及び影響を評価する（ステップ２１０６）。処理の効果及び影響は、ステップ２１０７において評価・命令制御部２００４に入力された条件に従って評価される。

そして、処理命令部２００５は、処理の効果の有無を判定する（ステップ２１０８）。効果は、ステップ２１０９において評価・命令制御部２００４に入力された条件に従って判定される。評価・命令制御部２００４には、フィードバック２１１４及び２１１５の回数制限も入力される。

処理の効果が期待できなければ、ステップ２１０５に戻る（２１１４）。一方、処理の効果が期待できれば、他への影響を判定する（ステップ２１１０）。影響は、ステップ２１１１において評価・命令制御部２００４に入力された条件に従って判定される。

判定の結果、影響が大きい場合には、ステップ２１１８に戻る（２１１７）。影響低減処理候補生成部２００１は、影響を低減する処理の候補を生成する（ステップ２１１８）。生成された影響を低減する処理の候補は、ステップ２１０６以下の処理において、影響を低減する効果の有無及び他への影響の大きさが評価される。評価・命令制御部２００４には、フィードバック２１１７の回数制限も入力される。

一方、影響の大きさが問題ないレベルであると判定されれば、処理命令部２００５が制御対象システム１０１に対して処理を命令する（ステップ２１１２）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ２１１３において評価・命令制御部２００４に入力された方法に従う。

ステップ２１１２において処理が命令されると、ステップ２１０２に戻る。

一方、処理命令入力部１８０２が、外部からの処理命令の入力を受け付ける（ステップ２１１６）。この場合もステップ２１０６以下、ステップ２１０５で生成された処理と同様の処理が行われる。なお、この場合は、ステップ２１０８及び２１１０からのフィードバックループ２１１５によって、ステップ２１１６に戻る。

フィードバックループ２１１４、２１１５及び２１１７は、評価・命令制御部２００４に入力された回数に従って制限される。

以上説明したように、第４の実施の形態では、処理の影響を低減する処理を生成するため、フィードバックループ２００２を備える。これによって、影響を低減する別の処理を同時又は続いて実行することによって、全体として効果が大きく影響の少ない処理を実現することができる。

（第５実施形態）
次に、本発明の第５の実施の形態を図２２に示す。第５の実施の形態は、前述した第１の実施の形態と以下の点で異なる。

図２に示すように第１の実施の形態では、相関情報記憶部２０３は、基準とした一つの時刻から一定の期間の情報に基づき生成された相関情報を記録している。しかし、一つの時刻において相関関係が明確でないときでも、時刻をずらすと相関関係が明らかになる情報もある。そこで、第５の実施の形態では、時刻をずらして相関関係を記憶するように構成する。

第５の実施の形態の障害予防・復旧制御部１０６は、情報収集・統計処理部２２０１、相関情報更新部２２０２、相関情報記憶部２２０３、相関情報制御部２２０４、相関情報抽出部２２０５、異常検出・原因解析・予防・復旧処理候補生成部２２０６、処理効果・影響評価部２２０７、評価・命令制御部２２０８及び処理命令部２２０９を備える。これらの各部は、記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。

情報収集・統計処理部２２０１は、第１の実施の形態の情報収集・統計処理部２０１と同様に、イベント及び処理等の情報相互の相関関係を示す値、モニタ値及び統計値を生成する。

相関情報更新部２２０２は、第１の実施の形態の相関情報更新部２２０２と同様に、情報収集・統計処理部２２０１で生成された相関情報を、相関情報記憶部２２０３に記録する。

相関情報記憶部２２０３は、複数の記憶部を備え、各記憶部は時刻をずらして求められた複数の相関関係を記憶する。例えば、−１０分の記載のある記憶部は、モニタ値Ａと、１０分古い時刻のモニタ値Ｂとに基づいて作成した相関情報を記録する。

すなわち、第５の実施の形態の相関関係において、ずらされた時刻は、指標Ａと指標Ｂの相関情報作成時に、指標Ａの時刻に比べて、所定時間だけ古い時刻の指標Ｂのデータを使用することを意味する。ここで、指標とはモニタ値、統計値、イベント及び処理等である。

相関情報制御部２２０４は、これらの複数の記憶部を備える相関情報記憶部２２０３のそれぞれの相関情報を生成する際の時刻差を設定する。相関情報制御部２２０４は外部インタフェースを持ち、外部インタフェースを介して、時刻差を設定する。

なお、第５の実施の形態では、相関情報更新部２２０２、相関情報抽出部２２０５、検出・処理生成部２２０６、評価部２２０７、評価・命令制御部２２０８、命令部２２０９等は、複数の記憶部を備える相関情報記憶部２２０３に対応するために、複数の相関情報を使った処理が可能に構成されている。

相関情報抽出部２２０５は、第１の実施の形態の相関情報抽出部２０４と同様に、相関情報記憶部２２０３から相関情報を読み出す。

異常検出・原因解析・予防・復旧処理候補生成部（以下、検出・処理生成部と略す）２２０６は、第１の実施の形態の検出・処理生成部２０５と同様に、情報収集・統計処理部２２０１によって収集・統計処理された情報と、相関情報抽出部２２０５によって相関情報記憶部２２０３から読み出された相関情報を利用して、制御対象システム１０１の異常状態を検出する。

処理効果・影響評価部２２０７は、第１の実施の形態の評価部２０６と同様に、異常検出時に、検出・処理生成部２２０６から、原因解析結果と予防・復旧処理の候補を受け付ける。そして、情報収集・統計処理部２２０１によって取得される制御対象システム１０１の状態を示す情報と、相関情報抽出部２２０５を介して相関情報記憶部２２０３に記憶された相関情報とを利用して、予防・復旧処理の候補の実行によって制御対象システム１０１に与える効果及び影響を評価する。

評価・命令制御部２２０８は、第１の実施の形態の評価・命令制御部２０７と同様に、処理効果・影響評価部２２０７及び処理命令部２２０９の動作を制御する。

処理命令部２２０９は、第１の実施の形態の予防・復旧処理命令部２０８と同様に、処理効果・影響評価部２２０７から入力された処理命令、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序及び実行時刻等を決定する。

次に、第５の実施の形態の障害予防・復旧制御部１０６の動作について、図２３のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ２３０２）。

次に、相関情報更新部２２０２は、情報収集・統計処理部２２０１によって収集された情報を保存し（ステップ２３０３）、情報収集・統計処理部２２０１から過去のシステム状態を取得する（ステップ２３０４）。そして、相関情報更新部２２０２は、時刻差をつけた相関情報の生成も含め、相関情報記憶部２２０３に記憶された全ての相関情報を更新する（ステップ２３０５）。

次に、検出・処理生成部２２０６は、現在のシステム状態及び相関情報から異常の有無を検出する（ステップ２３０６）。異常の有無の検出方法の一例は前に述べた通りである。ステップ２３０６において異常が検出されなければ、ステップ２３０２に戻る。

一方、ステップ２３０６において異常が検出されれば、相関情報を用いて異常原因を調査し、障害予防・復旧処理候補を生成する（ステップ２３０７）。このステップ２３０７の処理の一例は前に述べた通りである。

次に、処理効果・影響評価部２２０７は、複数の相関情報を用いて、処理の効果及び影響を評価する（ステップ２３０８）。処理の効果及び影響は、ステップ２３０９において評価・命令制御部２２０８に入力された条件に従って評価される。

そして、処理命令部２２０９は、処理の効果の有無を判定する（ステップ２３１０）。効果は、ステップ２３１１において評価・命令制御部２２０８に入力された条件に従って判定される。

処理の効果が期待できなければ、ステップ２３０２に戻る。一方、処理の効果が期待できれば、処理命令部２２０９が制御対象システム１０１に対して処理を命令する（ステップ２３１２）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ２３１３において評価・命令制御部２２０８に入力された方法に従う。

ステップ２３１２において処理が命令されると、ステップ２３０２に戻る。

なお、ステップ２３０４及び２４０５の相関情報の更新は、ステップ２３０６の後、又はステップ２３０２に戻る前の任意の時点で実行してもよい。また、ステップ２３０９、ステップ２３１１及びステップ２３１３の各入力処理は、予め定められた値（方法）を用いれば、このステップがなくてもよい。

以上説明したように、第５の実施の形態では、相関情報記憶部２２０３に時刻をずらした複数の相関関係を記憶するので、指標間の相関をより適切に把握することができ、より適切な処理を実行することができる。

（第６実施形態）
次に、本発明の第６の実施の形態を図２４に示す。第６の実施の形態は、前述した第３の実施の形態と以下の点で異なる。

図１８に示した第３の実施の形態では、フィードバックループ１８０４、１８０５を設け、検出・処理生成部１８０１で処理候補の再生成、又は、処理命令入力部１８０２で別の処理命令の入力を受け付けることによって、別の処理を実行することが可能である。しかし、処理の再生成や処理命令の再入力によって、効果があり他への影響も少ない処理が実行できるとは限らない。また、実行する処理によって、別の障害を発生させる可能性もある。そこで、効果は小さいが、他への影響が少ない処理に対して、その効果を増強する処理を同時又は続いて実行することによって、全体として効果が大きく影響の少ない処理を実現する方法や、別の障害の発生を予測して、その障害を回避する方法がある。このため、第６の実施の形態の障害予防・復旧制御部１０６は、システム状態仮想更新部２４０５を備える。

第６の実施の形態の障害予防・復旧制御部１０６は、情報収集・統計処理部２０１、相関情報更新部２０２、相関情報記憶部２０３、相関情報抽出部２０４、異常検出・原因解析・予防・復旧処理候補生成部２４０１、処理効果・影響評価部２４０２、システム状態仮想更新部２４０５、評価・命令制御部２４０６及び処理命令部２４０７を備える。これらの各部は、記憶部に記憶されたプログラムをプロセッサが実行することによって実現される。

第６の実施の形態の障害予防・復旧制御部１０６の構成のうち、第３の実施の形態と同じ動作をする構成には同じ符号を付し、その説明は省略する。なお、第３の実施の形態の障害予防・復旧制御部１０６に含まれる処理命令入力部１８０２は設けられていないが、処理命令入力部を設けてもよい。

異常検出・原因解析・予防・復旧処理候補生成部（以下、検出・処理生成部と略す）２４０１は、情報収集・統計処理部２０１によって収集・統計処理された情報と、相関情報抽出部２０４によって相関情報記憶部２０３から読み出された相関情報を利用して、制御対象システム１０１の異常状態を検出する。また、検出・処理生成部２４０１は、処理効果・影響評価部２４０２において、処理の効果が十分に期待できない場合や、他への影響が大きい場合に、フィードバックループ２４０３による通知に基づいて、処理の候補を見直す。

処理効果・影響評価部２４０２は、第３の実施の形態の処理効果・影響評価部１８０３と同様に、異常検出時に、検出・処理生成部２４０１から、原因解析結果と予防・復旧処理の候補を受け付け、実行される処理によって制御対象システム１０１に与える効果及び影響を評価する。

システム状態仮想更新部２４０５は、処理効果・影響評価部２４０２及び処理命令部２４０７によって、効果は少ないが他への影響も少ないと判断された処理等の実行後に起こるモニタ値及び統計値の変化に関する情報と、現在のシステムの状態に関する情報とをフィードバックループ２４０４を経由して取得する。そして、システム状態仮想更新部２４０５は、処理実行後のシステム状態を仮想的に作成し、検出・処理生成部２４０１に送る。

検出・処理生成部２４０１は、仮想的に作成されたシステムの状態の情報から、相関情報を参照して、処理実行後のシステムにおける異常検出及び原因解析をする。これによって効果の少ない処理と同時に又は続いて実行すべき処理の候補を生成する。

評価・命令制御部２４０６は、第３の実施の形態の評価・命令制御部１８０６と同様に、処理効果・影響評価部２４０２及び処理命令部２４０７の動作を制御する。

処理命令部２４０７は、第３の実施の形態の予防・復旧処理命令部１８０７と同様に、処理効果・影響評価部２４０２から入力された処理命令、及び、その処理の効果及び影響に関する情報を取得して、処理の実行の要否、実行順序、実行時刻等を決定する。

次に、第６の実施の形態の障害予防・復旧制御部１０６の動作について、図２５のフローチャートを参照して説明する。

最初に、情報収集・統計処理部２０１は、制御対象システム１０１の状態に関する情報を収集する（ステップ２５０２）。

次に、相関情報更新部２０２は、情報収集・統計処理部２０１によって収集された情報を用いて、相関情報記憶部２０３に記憶された相関情報を更新する（ステップ２５０３）。なお、初期状態において、ステップ２５０３の処理は、相関情報の追加である。

次に、ステップ２５０４では、検出・処理生成部２４０１は、現在のシステム状態及び相関情報から異常の有無を検出する（ステップ２５０４）。異常の有無の検出方法の一例は前に述べた通りである。ステップ２５０４にて異常が検出されなければ、ステップ２５０２に戻る。

一方、ステップ２５０４にて異常が検出されれば、相関情報を用いて異常原因を調査し、障害予防・復旧処理候補を生成する（ステップ２５０５）。このステップの一例は前に述べた通りである。

次に、処理効果・影響評価部２４０２は、相関情報を用いて、処理の効果及び影響を評価する（ステップ２５０６）。処理の効果及び影響は、ステップ２５０７において評価・命令制御部２４０６に入力された条件に従って評価される。

そして、処理命令部２４０７は、他への影響を判定する（ステップ２５０８）。影響は、ステップ２５０９において評価・命令制御部２４０６に入力された条件に従って判定される。評価・命令制御部２４０６には、フィードバック２５１４の回数制限も入力される。

判定の結果、影響が大きい場合には処理は実行されず、ステップ２５０５に戻る（２５１４）。一方、影響の大きさが問題ないレベルであると判定されれば、処理の効果の有無を判定する（ステップ２５１０）。効果は、ステップ２５１１において評価・命令制御部２４０６に入力された条件に従って判定される。

判定の結果、処理の効果が期待できなければ、ステップ２５０５に戻る（２５１４）。一方、処理の効果が期待できれば、ステップ２５１６に戻る（２５１５）。そして、処理実行後のシステム状態の情報を生成し（ステップ２５１６）、処理実行後のシステム状態で異常が検出されるかを調査する（ステップ２５０４）。

さらに、処理命令部２４０７が制御対象システム１０１に対して処理を命令する（ステップ２５１２）。命令の実行要否及び命令の実行順序等の命令制御方法は、ステップ２５１３において評価・命令制御部２４０６に入力された方法に従う。

ステップ２５１２において処理が命令されると、ステップ２５０２に戻る。

フィードバックループ２５１４及び２５１５は、評価・命令制御部２４０６に入力された回数に従って制限される。

以上説明したように、第６の実施の形態では、処理の効果及び影響を予測する、フィードバックループ２４０４を備える。これによって、適切な別の処理を選択することによって、より適切な処理を実行することができる。

（第７実施形態）
次に、本発明の第７の実施の形態を図２６に示す。

第１〜６の実施の形態の相関情報は、個々のイベント及び個々の処理を単位として相関関係を記録したが、イベント間や処理間に時間軸上で依存関係が存在する場合がある。第７の実施の形態では、相関情報記憶部２０３に、一連のイベント（イベントシーケンス）や、一連の処理（処理シーケンス）を単位として相関関係を記録する。

図２６は、第７の実施の形態の相関表２６０６の構成図である。

イベントシーケンス２６０１は、複数のイベントを順序も含めて一まとめにしたものである。例えば、図中イベントシーケンスＥ_aは、イベントｅ_aの次にイベントｅ_bが起こり、最後にイベントｅ_cが起こる一連のイベントである。なお、イベントシーケンス２６０１の中には処理が含まれてもよい。

同様に、処理シーケンス２６０２は、複数の処理を順序も含めて一まとめにしたものである。例えば、処理シーケンスＰ_aは、処理ｐ_aの次に処理ｐ_bを実行し、最後に処理ｐ_cを実行する一連の処理である。なお、処理シーケンス２６０２の中にはイベントが含まれてもよい。

以上説明したように、第７の実施の形態では、イベントシーケンスや処理シーケンスとの相関情報を元に処理の効果及び影響を予測し、処理の選択し及び選択された処理を実行する。これによって、より正確な処理の効果及び影響の予測ができ、より適切な処理を選択及び実行することができる。

以上、本発明の実施の形態として、７つの例を示したが、これらの７つの実施例を相互に組み合わせた実施の形態も本発明の範疇に含まれる。また各実施例において、一部の機能や動作フローを除いた実施の形態も本発明の範疇に含まれる。

図２７は、本発明によるコンピュータシステムの実装例である。制御対象のコンピュータシステム１０１には、制御対象コンピュータ１０２がノード１〜ノードＮまでのＮ台含まれる。各コンピュータ１０２は、ハードウェア（ＨＷ）上でオペレーティングシステム（ＯＳ）が実行される。さらに、制御対象コンピュータシステム１０１には、システム監視エージェント１０３及びアプリケーションプログラム（ＡＰ）が動作している。ＣＰＵの使用率やメモリの使用量などのハードウェア状態（ＨＷ状態）や、システムコール回数などのオペレーティングシステム状態（ＯＳ状態）、処理スループットなどのアプリケーション状態（ＡＰ状態）等は、システム監視エージェント１０３によって収集される。また、制御対象コンピュータ１０２に対する処理履歴も、システム監視エージェント１０３によって収集される。

障害予防・復旧制御部１０６は、監視コンピュータ１０５と相関情報記憶部２０３とを備える。監視コンピュータ１０５は、ハードウェア（ＨＷ）上で、オペレーティングシステム（ＯＳ）及びシステム統合監視プログラムが動作している。システム統合監視プログラムでは、制御対象コンピュータシステム１０２のシステム監視エージェント１０３が収集した状態情報を収集して、相関分析などの統計処理を行う情報収集・統計処理部２０１と、統計情報や相関情報などから制御対象システム１０１で生じた異常を検出して異常を予防・復旧する処理を生成する異常検出・処理生成部２０５と、異常検出・処理生成部２０５で生成された処理の候補に対して、統計情報や相関情報から処理の効果・影響を評価し、選択的に処理を実行する処理効果・影響評価部及び処理命令部（２０６・２０８）が含まれる。実行される処理は、制御対象コンピュータ１０２のシステム監視エージェント１０３に伝達され実行される。相関情報記憶部２０３は、システム統合監視プログラムとの間で相関情報をやりとりする。相関情報の例としては、アプリケーション状態（例：リクエスト数）とハードウェア状態（例：メモリ使用量）が比例関係であることや、制御対象コンピュータ１０２で処理Ａ、Ｂ、Ｃを実行したときのハードウェア状態変化（例：メモリ使用量の変化）がそれぞれ異なるという情報などが挙げられる。

図２７のコンピュータシステムで、システム監視エージェント１０３と障害予防・復旧制御部１０６を使ったシステム監視を行う手順の例は、次の１２ステップである。
（１）システム監視エージェント１０３が制御対象コンピュータの状態情報収集をする。
（２）システム監視エージェント１０３が収集した情報を統計処理する。
（３）システム監視エージェント１０３が監視コンピュータ１０５に対して情報を送信する。
（４）情報収集・統計処理部２０１がシステム監視エージェント１０３から情報を収集する。
（５）情報収集・統計処理部２０１が相関分析等の統計処理を行う。
（６）異常検出・処理生成部２０５が相関情報記憶部２０３から相関情報を抽出する。
（７）情報収集・統計処理部２０１が相関情報記憶部２０３の相関情報を更新する。
（８）異常検出・処理生成部２０５が統計情報や相関情報から異常を検出する。
（９）異常検出・処理生成部２０５が検出した異常を予防・復旧するための処理候補を生成する。
（１０）処理効果・影響評価部・処理命令部（２０６・２０８）が処理の効果・影響を評価する。
（１１）処理効果・影響評価部・処理命令部（２０６・２０８）が選択した処理命令をシステム監視エージェント１０３に送信する。
（１２）システム監視エージェント１０３が処理命令を実行する。

図２８は、図２７に示したコンピュータシステムにおいて、異常が発生した際の動作の例を示した図である。図２８では、制御対象コンピュータ１０２のノード１に、メモリリークの異常が生じた場合を例に、異常の復旧を実現するまでに、障害予防・復旧制御部内等でやりとりされる情報について示す。

ノード１で生じたメモリリークの異常は、ノード１のシステム監視エージェント１０３から監視コンピュータ１０５に対して、ノード１でのリクエスト数は小であるが、メモリ使用量が大であるという状態情報として伝達される。

異常検出・処理生成部２０５は統計情報として、ノード１でのリクエスト数は小であるが、メモリ使用量が大であるという統計情報を受け取り、さらに、それまでに情報収集・統計処理部２０１が更新してきた相関情報を相関情報記憶部２０３から受け取る。相関情報によると、リクエスト数が小ならばメモリ使用量も小であるが、ノード１ではリクエスト数が小であるにも関わらず、メモリ使用量が大であることから、ノード１で異常が生じていることを検出する。異常検出・処理生成部２０５は、メモリ使用量が大である異常の際の処理候補を生成し、ここではメモリ増設、ガーベージコレクション（ＧＣ）、リブート（ｒｅｂｏｏｔ）の３つを処理候補として出力する。

処理効果・影響評価部・処理命令部（２０６・２０８）では、３つの処理候補の処理実行後のメモリ使用量の増減について相関情報から評価し、最も処理効果の大きいリブート（ｒｅｂｏｏｔ）を選択して、ノード１のシステム監視エージェント１０３に対してリブート（ｒｅｂｏｏｔ）命令を発行する。ノード１のシステム監視エージェント１０３はリブート（ｒｅｂｏｏｔ）命令を受けて、ノード１のリブートを実施する。

特許請求の範囲に記載した以外の本発明の観点の代表的なものとして、次のものがあげられる。

（１）請求項１６に記載のコンピュータシステムであって、
前記処理生成部は、前記情報収集手段によって収集された情報及び前記相関情報からコンピュータシステムで実行されるサービスに生じる障害の予兆を検出し、前記予兆が検出された障害を予防するための処理を生成するコンピュータシステム。

（２）請求項１６に記載のコンピュータシステムであって、
前記評価部は、前記処理の実行によって前記コンピュータシステムに与えられる効果が所定の値より小さいとき、又は、前記処理の実行によって前記コンピュータシステムに与えられる影響が所定の値より大きいときに、その処理の実行の中止を決定し、前記処理生成部又は前記入力部にその処理が実行されないことを通知し、前記処理生成部に処理の再生成を求め又は前記入力部に前記処理の再入力を求めるコンピュータシステム。

（３）上記（２）に記載のコンピュータシステムであって、
前記評価部は、前記再生成された及び再入力された処理の実行によってコンピュータシステムに与えられる効果及び影響を判定し、前記判定の結果、前記処理の実行によってコンピュータシステムに与えられる効果及び影響が所定の範囲でなければ、さらに、処理を繰り返し再生成し又は処理の再入力を繰り返し求め、
前記評価部は、前記処理生成部に処理の再生成を求める回数、及び、前記入力部に前記処理の再入力を求める回数の少なくとも一つを変更する機能を含み、
前記コンピュータシステムは、前記回数を設定するインタフェースを備えるコンピュータシステム。

（４）請求項１６に記載のコンピュータシステムであって、
前記処理生成部は、前記処理の実行によって前記コンピュータシステムに与えられる影響が所定の値より大きければ、前記相関情報を参照して、前記影響を軽減する処理を生成するコンピュータシステム。

（５）上記（４）に記載のコンピュータシステムであって、
前記評価部は、前記生成された影響を軽減する処理の実行によってコンピュータシステムに与えられる影響を判定し、
前記処理生成部は、前記影響を軽減する処理の実行によってコンピュータシステムに与えられる影響が所定の値より大きければ、さらに、影響を軽減する処理を繰り返し生成し、
前記処理生成部は、前記影響を軽減する処理を生成する回数を変更する機能を含み、
前記コンピュータシステムは、前記処理生成部に対して前記回数を設定するインタフェースを備えるコンピュータシステム。

（６）請求項１６に記載のコンピュータシステムであって、
相関情報記憶部は、前記情報収集手段によって収集された情報の収集時刻に差をつけた情報間の相関関係を記録するコンピュータシステムであって、
（７）請求項１６に記載のコンピュータシステムであって、
前記処理の実行によって前記コンピュータシステムに与える効果及び影響の判定結果に基づいて、前記処理の実行後の前記コンピュータシステムの状態を推定する状態更新部を備え、
前記処理生成部は、前記相関情報を参照して、前記推定されたシステム状態において生じる障害を検出し、前記検出された障害を回避する処理を生成するコンピュータシステム。

（８）上記（７）に記載のコンピュータシステムであって、
前記評価部は、前記生成された障害を回避する処理の実行によってコンピュータシステムに与えられる影響を判定し、
前記処理生成部は、前記判定の結果、前記処理の実行によってコンピュータシステムに与えられる障害が検出されると、さらに、障害を回避する処理を繰り返し生成し、
前記処理生成部は、前記障害を回復する処理を生成する回数を変更する機能を含み、
前記コンピュータシステムは、前記回数を設定するインタフェースを備えるコンピュータシステム。

（９）請求項１６に記載のコンピュータシステムであって、
前記相関情報記憶手段は、前記情報収集手段によって収集された情報から計算される統計値の間の相関関係、及び前記収集された情報と前記統計値との間の相関関係の少なくとも一つを相関情報として記録するコンピュータシステム。

（１０）請求項１６に記載のコンピュータシステムであって、
前記相関情報記憶手段は、前記情報収集手段によって収集された情報を、前記イベントの発生時の情報とそれ以外の時の情報とを区別して、記録するコンピュータシステム。

（１１）請求項１６に記載のコンピュータシステムであって、
前記相関情報記憶手段は、前記収集された情報を、前記イベントの発生前の情報と前記イベントの発生後の情報とを区別して、記録するコンピュータシステム。

（１２）請求項１６に記載のコンピュータシステムであって、
前記相関情報記憶手段は、複数のイベントを含むイベントシーケンスの間の相関関係、及び前記収集された情報と前記イベントシーケンスとの間の相関関係の少なくとも一つを相関情報として記録するコンピュータシステム。

本発明により、障害の検出及び障害の予測に基づいて、障害予防処理及び障害復旧処理を生成し、その処理による効果及び影響を考慮した予防・復旧処理の実行によって、低コストで高可用なシステム運用が実現できる。よって、アプリケーションサーバや運用管理ツールの基盤技術として利用可能である。

本発明の実施の形態のコンピュータシステムの概要の説明図である。本発明の第１の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第１の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第１の実施の形態の相関情報記憶部に記録される相関情報の説明図である。本発明の第１の実施の形態の相関表の領域Ａに記録される相関関係の一例の説明図である。本発明の第１の実施の形態の相関表の領域Ａに記録される相関関係の別な例の説明図である。本発明の第１の実施の形態の相関表の領域Ａに記録される相関情報を更新する処理のフローチャートである。本発明の第１の実施の形態の相関表の領域Ｂに記録される相関関係の一例の説明図である。本発明の第１の実施の形態の相関表の領域Ｂに記録される相関情報を更新する処理のフローチャートである。本発明の第１の実施の形態の相関表の領域Ｃに記録される相関関係の一例の説明図である。本発明の第１の実施の形態の相関表の領域ＣＢに記録される相関情報を更新する処理のフローチャートである。本発明の第１の実施の形態の相関表の領域Ｄに記録される相関関係の一例の説明図である。本発明の第１の実施の形態の相関表の領域ＤＢに記録される相関情報を更新する処理のフローチャートである。本発明の第１の実施の形態の検出・処理生成部の動作を示すフローチャートである。本発明の第１の実施の形態の予防・復旧処理効果・影響評価部の動作を示すフローチャートである。本発明の第２の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第２の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第３の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第３の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第４の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第４の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第５の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第５の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第６の実施の形態の障害予防・復旧制御部の構成を示すブロック図である。本発明の第６の実施の形態の障害予防・復旧制御部の動作を示すフローチャートである。本発明の第７の実施の形態の相関情報記憶部に記録される相関情報の説明図である。本発明によるコンピュータシステムの実現例の説明図である。本発明によるコンピュータシステムの実現例における障害復旧時の動作説明図である。

符号の説明

１０１制御対象システム
１０６、２０９、１６０５、１８０８、２００６、２２１０、２４０８障害予防・復旧制御部の実施例
２０１情報収集・統計処理部
２０２、２２０２相関情報更新部
２０４、２２０５相関情報抽出部
２０３、２２０３相関情報記憶部
２０５、１８０１、２２０６、２４０１検出・処理生成部
２０６、１６０２、１８０３、２００３、２２０７、２４０２処理効果・影響評価部
２０８、１６０４、１８０７、２００５、２２０９、２４０７処理命令部
２０７、１６０３、１８０６、２００４、２２０８、２４０６評価・命令制御部
４０９、２６０６相関表の実装例
１６０１、１８０２処理命令入力部
２００１影響低減処理候補生成部
２２０４相関情報制御部
２４０５システム状態仮想更新部

Claims

１台又は複数のコンピュータで構成されるコンピュータシステムの制御方法であって、
前記コンピュータは、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを備え、
前記コンピュータシステムは、
前記コンピュータシステムの稼動状態を表す複数の観測対象の状態値、前記コンピュータシステムにおいて実行される処理を示す情報、及び前記コンピュータシステムにおいて発生したイベントを示す情報を含む稼動履歴情報を受信する情報収集手段と、
前記各観測対象の状態値に対して統計処理を行うことによって算出され、当該各観測対象間の相関関係を示す情報を格納する第１の相関領域と、
前記処理の実行時及び非実行時の前記観測対象の状態値、又は、前記イベントの発生時及び前記イベント非発生時の前記観測対象の状態値に対して統計処理を行うことによって算出され、前記観測対象と前記処理との間の相関関係、又は、前記観測対象と前記イベントとの間の相関関係を示す情報を格納する第２の相関領域と、
前記処理の実行前後の前記観測対象の状態値、又は、前記イベントの発生前後の前記観測対象の状態値に対して統計処理を行うことによって算出され、前記処理の実行前後の前記観測対象の状態値の変化、又は、前記イベントの発生前後の前記観測対象の状態値の変化を示す情報を格納する第３の相関領域と、から構成される相関管理表を管理する情報管理手段と、
前記コンピュータシステムにおいて発生した障害を排除するための対応処理を生成する障害対応手段と、
生成された前記対応処理の有効性を判定する評価手段と、
前記判定の結果に基づいて前記対応処理の実行可否を決定する処理命令手段と、を備え、
前記制御方法は、
前記コンピュータシステムが、
前記各コンピュータから受信した前記稼動履歴情報に基づいて、前記第１の相関領域、前記第２の相関領域及び前記第３の相関領域に格納する情報を生成して前記相関管理表に記録し、
第１の観測対象の状態値及び第２の観測対象の状態値を含む前記稼動履歴情報を受信した場合に、前記第１の観測対象の状態値及び前記第２の観測対象の状態値から第１の相関関係を算出し、
前記第１の相関領域から、前記第１の観測対象と前記第２の観測対象との相関関係を示す第２の相関関係を読み出して、前記第１の相関関係と前記第２の相関関係とを比較して、第２の相関関係を満たしているか否かを判定し、
前記第２の相関関係を満たしていない場合には、前記第２の相関領域を参照して、前記第１の観測対象及び前記第２の観測対象と相関のある前記処理又は前記イベントを特定し、
前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントであるか否かを判定し、
前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントではない場合には、前記特定された処理又は前記特定されたイベントに対する第１の対応処理を生成し、
前記第１の対応処理に基づいて前記第３の相関領域を参照して、前記生成された第１の対応処理の実行前後の前記各観測対象の状態値の変化に基づいて、前記コンピュータシステムにおける復旧効果、及び、前記コンピュータシステムに障害が発生するか否かを表す影響を判定し、
前記判定結果に基づいて、前記第１の対応処理の実行の要否、実行順序及び実行時刻の少なくともいずれかを決定することを特徴とする制御方法。
前記第１の相関関係と前記第２の相関関係との差の大きさに基づいて、前記コンピュータシステムにおいて生じる障害の予兆を検出し、
前記予兆が検出された障害を予防するための第２の対応処理を生成することを特徴とする請求項１に記載の制御方法。
前記第１の対応処理を実行した場合の前記復旧効果が所定の値より小さいとき、又は、前記第１の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第１の対応処理を実行した場合の前記影響が所定の値より大きいときに、前記第１の対応処理の実行を中止し、
新たな第３の対応処理を生成することを特徴とする請求項１に記載の制御方法。
前記生成された第３の対応処理を実行した場合の前記復旧効果及び前記影響を判定し、
前記第３の対応処理を実行した場合の前記復旧効果が所定の値より小さいとき、又は、前記第３の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第３の対応処理を実行した場合の前記影響が所定の値より大きいときに、さらに、新たな前記第３の対応処理を生成し、
前記第３の対応処理の生成回数を制限することを特徴とする請求項３に記載の制御方法。
前記第１の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第１の対応処理を実行した場合の前記影響が所定の値より大きいとき、前記相関管理情報を参照して、前記第１の対応処理を実行した場合の前記影響を軽減するための第４の対応処理を生成することを特徴とする請求項１に記載の制御方法。
前記生成された第４の対応処理を実行した場合の前記影響を判定し、
前記第４の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第４の対応処理を実行した場合の前記影響が所定の値より大きいときに、さらに、新たな前記第４の対応処理を生成し、
前記第４の対応処理の生成回数を制限することを特徴とする請求項５に記載の制御方法。
前記第２の相関関係は、前記第１の観測対象の状態値と、前記所定時間分だけ受信時刻が当該第１の観測対象の状態値における受信時間より前である前記第２の観測対象の状態値との相関関係を表すことを特徴とする請求項１に記載の制御方法。
前記第１の対応処理を実行した場合の前記復旧効果及び前記影響を判定し、
前記判定の結果に基づいて、前記第１の対応処理の実行後の前記コンピュータシステムの状態を推定し、
前記相関管理情報を参照して、前記推定されたコンピュータシステムの状態において生じる障害に対応する処理を検出し、
前記検出された処理によって生じる障害を回避するための第５の対応処理を生成することを特徴とする請求項１に記載の制御方法。
前記生成された第５の対応処理を実行した場合の前記影響及び前記効果を判定し、
前記第５の対応処理を実行した場合の前記影響が所定の値より大きいとき、又は、前記第５の対応処理を実行した場合の前記影響が所定の値より小さいが、前記第５の対応処理を実行した場合の前記効果が小さいときに、さらに、新たな前記第５の対応処理を生成し、
前記第５の対応処理の生成回数を制限することを特徴とする請求項８に記載の制御方法。
前記第１の対応処理を実行した場合の前記復旧効果及び前記影響の判定方法又は判定基準の少なくともいずれかを変更することを特徴とする請求項１に記載の制御方法。
前記第１の対応処理の実行の要否、実行順序及び実行時刻の少なくともいずれかを変更することを特徴とする請求項１に記載の制御方法。
前記受信した稼動履歴情報を、前記イベントの発生時の情報とそれ以外の時の情報とを区別して、記録することを特徴とする請求項１に記載の制御方法。
前記受信した稼動履歴情報を、前記イベントの発生前の情報と前記イベントの発生後の情報とを区別して、記録することを特徴とする請求項１に記載の制御方法。
１台又は複数のコンピュータで構成されるコンピュータシステムであって、
前記コンピュータは、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを備え、
前記コンピュータシステムは、
前記コンピュータシステムの稼動情報を表す複数の観測対象の状態値、前記コンピュータシステムにおいて実行される処理を示す情報、及び前記コンピュータシステムにおいて発生したイベントを示す情報を含む稼動履歴情報を受信する情報収集手段と、
前記各観測対象の状態値に対して統計処理を行うことによって算出され、当該各観測対象間の相関関係を示す情報を格納する第１の相関領域と、
前記処理の実行時及び非実行時の前記観測対象の状態値、又は、前記イベントの発生時及び前記イベント非発生時の前記観測対象の状態値に対して統計処理を行うことによって算出され、前記観測対象と前記処理との間の相関関係、又は、前記観測対象と前記イベントとの間の相関関係を示す情報を格納する第２の相関領域と、
前記処理の実行前後の前記観測対象の状態値、又は、前記イベントの発生前後の前記観測対象の状態値に対して統計処理を行うことによって算出され、前状処理の実行前後の前記観測対象の状態値の変化、又は、前記イベントの発生前後の前記観測対象の状態値の変化を示す情報を格納する第３の相関領域と、から構成される相関管理表を管理する情報管理手段と、
前記コンピュータシステムにおいて発生した障害を排除するための対応処理を生成する障害対応手段と、
生成された前記対応処理の有効性を判定する評価手段と、
前記判定結果に基づいて前記対応処理の実行可否を決定する処理命令手段と、を備え、
前記コンピュータシステムは、
前記情報収集手段が、コンピュータから受信した前記稼動履歴情報に基づいて、第１の相関領域、第２の相関領域及び第３の相関領域に格納する情報を生成して前記相関管理表に記録し、
前記障害対応手段が、第１の観測対象の状態値及び第２の観測対象の状態値を含む前記稼動履歴情報を受信した場合に、前記第１の観測対象の状態値及び前記第２の観測対象の状態値から第１の相関関係を算出し、
前記障害対応手段が、前記第１の相関領域から、前記第１の観測対象と前記第２の観測対象との相関関係を示す第２の相関関係を読み出して、前記第１の相関関係と前記第２の相関関係とを比較して、第２の相関関係を満たしているか否かを判定し、
前記障害対応手段が、前記第２の相関関係を満たしていない場合には、前記第２の相関領域を参照して、前記第１の観測対象及び前記第２の観測対象と相関のある前記処理又は前記イベントを特定し、
前記障害対応手段が、前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントであるか否かを判定し、
前記障害対応手段が、前記特定された処理又は前記特定されたイベントが、正常な前記処理又は正常な前記イベントではない場合には、前記特定された処理又は前記特定されたイベントに対する第１の対応処理を生成し、
前記評価手段が、前記第１の対応処理に基づいて前記第３の相関領域を参照して、前記第１の対応処理の実行前後の前記各観測対象の状態値の変化に基づいて、前記コンピュータシステムにおける復旧効果、及び、前記コンピュータシステムに新たな障害が発生するか否かを表す影響を判定し、
前記処理命令手段が、前記判定の結果に基づいて、前記第１の対応処理の実行の要否、実行順序及び実行時刻の少なくともいずれかを決定することを特徴とするコンピュータシステム。
前記評価手段は、前記第１の対応処理を実行した場合の前記復旧効果及び前記影響の判定方法及び判定基準の少なくともいずれかを変更する機能を含み、
前記コンピュータシステムは、さらに、前記判定方法及び判定基準を設定するインタフェースを備えることを特徴とする請求項１４に記載のコンピュータシステム。
前記処理命令手段は、前記第１の対応処理の実行の要否、実行順序及び実行時刻の少なくともいずれかを変更する機能を含み、
前記コンピュータシステムは、さらに、前記第１の対応処理の実行の要否、実行順序及び実行時刻を設定するインタフェースを備えることを特徴とする請求項１４に記載のコンピュータシステム。
前記評価手段は、前記第１の対応処理を実行した場合の前記復旧効果が所定の値より小さいとき、又は、前記第１の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第１の対応処理を実行した場合の前記影響が所定の値より大きいときに、前記第１の対応処理の実行の中止を決定し、前記障害対応手段に前記第１の対応処理が実行されないことを通知し、
前記評価手段は、新たな前記第１の対応処理の生成を前記障害対応手段に対して要求し、
前記評価手段は、さらに、前記第１の対応処理の生成回数を変更する機能を含み、
前記障害対応手段は、前記第１の対応処理を実行した場合の前記復旧効果が所定の値より大きく、かつ、前記第１の対応処理を実行した場合の前記影響が所定の値より大きいときには、前記相関管理情報を参照して、前記影響を軽減する第２の対応処理を生成し、
前記障害対応手段は、さらに、前記第２の対応処理の生成回数を変更する機能を含み、
前記コンピュータシステムは、さらに、前記評価手段に対する前記第１の対応処理の生成回数、及び、前記障害対応手段に対する前記第２の対応処理の生成回数を設定するインタフェースを備えることを特徴とする請求項１４に記載のコンピュータシステム。
前記コンピュータシステムは、前記第１の対応処理を実行した場合の前記復旧効果及び前記影響の判定結果に基づいて、前記第１の対応処理の実行後の前記コンピュータシステムの状態を推定する状態更新手段を備え、
前記障害対応手段は、前記相関管理情報を参照して、前記推定されたコンピュータシステムの状態において生じる障害に対応する前記処理又は前記イベントを検出し、前記検出された処理又はイベントによって生じる障害を回避するための第３の対応処理を生成し、
前記障害対応手段は、さらに、前記第３の対応処理の生成回数を変更する機能を含み、
前記コンピュータシステムは、さらに、前記障害対応手段に対して前記生成回数を設定するインタフェースを備えることを特徴とする請求項１４に記載のコンピュータシステム。