JP2017521802A

JP2017521802A - スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ

Info

Publication number: JP2017521802A
Application number: JP2017512421A
Authority: JP
Inventors: ミクー，セバスチャン; ペロタン，マチュー
Original assignee: ブル
Priority date: 2014-05-16
Filing date: 2015-05-12
Publication date: 2017-08-03
Also published as: US20170091000A1; US10528402B2; FR3021138A1; IL248953A0; WO2015173274A1; EP3143505A1; FR3021138B1; EP3143505B1

Abstract

本発明は、コンポーネント（Ｃ１、Ｃ２、Ｃ３．．．Ｃ６）のセットを含むスーパーコンピュータ（ＳＣ）を管理するための方法であって、前記コンポーネントに関連するセンサによって通知（Ｎ）を生成するステップと、モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層のより低い階層レベルのモジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成するための少なくとも１つの相関エンジンを含む、ステップと、前記階層内のより高い階層レベルのモジュールによって生成された発信イベントに基づいて、警報（Ａ）を生成するステップとを含む、方法に関する。

Description

発明の分野
本発明は、計算センタ、特にスーパーコンピュータの分野に関する。本発明は、特に、これらのスーパーコンピュータ、並びにスーパーコンピュータを構成するコンポーネント及び機器の監視に関する。

発明の背景
超高速計算機（又はスーパーコンピュータ）は、特に計算速度の点で、その設計上の周知の技術を用いて可能な限り最高の性能を達成するために設計されるコンピュータである。スーパーコンピュータは、従来のコンピュータに対するそれらの優位性を、使用されるコンポーネントの技術及びそれらのアーキテクチャの両方から引き出す。

従って、スーパーコンピュータは、数ペタフロップスの速度を有し、まもなくエクサフロップスを達成するであろう。フロップス（「１秒当たりの浮動小数点演算命令実行回数」を表す）は、コンピュータの処理速度を推定するための一般に容認された測定単位である。

このアーキテクチャは、特に、幾つかのタスクを同時に実行するために、「パイプライン」又は並列であってもよい。保持されるアーキテクチャにかかわらず、スーパーコンピュータは、非常に多数の機器を含み、それらの機器自体、多数のコンポーネント（メモリ、マイクロプロセッサ等）を含む。

典型的には、各機器は、機器のコンポーネントの１つ又は機器自体がステータスを変化させると直ちに、監視システムに通知メッセージを送信してもよい。この種のメッセージは、一般に「イベント」と呼ばれる。この監視システムは、これらの全てのイベントを収集して処理する役割を有し、それに応じて反応するべきである。

例えば、機器が、所与の時間経過で多数の温度警報を送信した場合、監視サービスは、機器のスイッチを切る決定を下さなければならない可能性がある。

しかし、単一の問題に関係する警報が、異なる機器（又はコンポーネント）から「到来し」、且つまた監視システムにおいて相関される可能性がある。例えば、これは、キャビネットの上端に位置するコンポーネント及び／又は機器の全体が、場合により冷却回路の問題のために温度警報を発する場合に当てはまる。そのとき、スーパーコンピュータのマネージャ用に警報をトリガすることが重要である。

監視サービスはまた、データベースを提供してもよく、それによって収集され相関されるこれらの情報で監視サービスを更新してもよい。次に、このデータベースは、より複雑な相関、統計計算等に使用されてもよい。

計算能力を獲得するために、スーパーコンピュータはますます複雑になる。

それに応じて、スーパーコンピュータ内に生成され得るイベント数も増加する。この点は、（例えば、スーパーコンピュータにおける領域、キャビネットに影響する）或る問題が、同時に又は非常に短期間内に、多数の機器及びコンポーネントにチェーンイベントを生成する可能性があるため、なおさら重要である。

現在の解決法は、１つ又は幾つかの相関エンジンに基づくが、しかし、それらは既に可能性の限界に到達している。現場に配置された或る監視システムは、数時間の処理遅延を示し、それは、コンピュータに対して著しい危険負担を引き起こす可能性がある（重大な事象が適切な時点でマネージャに報告されない等）。

状況を改善することを目指す研究作業及び調査は、実際の相関エンジン、又は処理チェーンをより効率的にするための相補的モジュールの付加に本質的に取り組む。しかしながら、相関エンジンのまわりで設計されるアーキテクチャは、かかるスケーリングには適していない。この結果として、スーパーコンピュータに対する既存の監視システムの不適切性の問題をできるだけ最小化するために、現場におけるその場限りの適合のみが局所的に着手され得るようになった。

発明の概要
本発明の目的は、前に言及した欠点を少なくとも部分的に克服する監視システムを提供することである。より具体的には、本発明は、様々な構成のスーパーコンピュータに、特に「小型」スーパーコンピュータ、「大型」スーパーコンピュータ、及び次世代スーパーコンピュータに適合し得る監視システムを提供することに関する。

この目的のために、本発明は、コンポーネントのセットを含むスーパーコンピュータを管理するための方法であって、前記コンポーネントに関連するセンサによって通知を生成するステップと、モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層の最下位階層レベルのモジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成するための少なくとも１つの相関エンジンを含む、ステップと、前記階層内の最上位階層レベルのモジュールによって生成された発信イベントから、警報を生成するステップとを含む、方法を提案する。

この目的のために、本発明はまた、コンポーネントのセットと、通知を生成する、前記コンポーネントに関連するセンサとを含むスーパーコンピュータの監視システムであって、前記管理システムは、モジュールの階層を含み、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成できる少なくとも１つの相関エンジンを含み、前記センサが、前記階層の最下位階層レベルのモジュールに前記通知を着信イベントとして送信するために提供され、前記階層内の最上位階層レベルのモジュールが、警報を生成し、且つそれらをモニタに送信するために提供される、監視システムを提案する。

好ましい実施形態によれば、本発明は、前に説明した本発明の目的のいずれか一方と共に、別々に、又は互いの部分的な組み合わせとして、若しくは互いの完全な組み合わせとして用いられ得る以下の特徴の１つ又は幾つかを含む。
− 管理方法は、前記スーパーコンピュータに送信される補正動作をトリガするステップを更に含む。
− 前記イベントは、所定の基準に従って、前記少なくとも１つの相関エンジンのうちの１つの相関エンジンに向けて導かれる。
− 前記警報は、マン−マシンインターフェースを有するモニタに送信される。
− 補正動作は、前記モニタによって前記スーパーコンピュータに送信される。
− 情報処理システムにロードされると、本発明に従った方法を適用できる命令を含む、コンピュータプログラム。
− 前記階層内のより高い階層レベルのモジュールは、補正動作をトリガし、且つ補正動作を前記スーパーコンピュータに送信するために提供される。
− モジュールは、所定の基準に従って、前記少なくとも１つの相関エンジンのうちの１つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロックを更に含む。
− 前記相関エンジンの少なくとも幾つかは、規則体系によって適用される。
− 前記モジュールは、「Syslog」プロトコルに従って通信するために提供される。
− 前記通知は、ＳＮＭＰプロトコルに従って送信される。
− 少なくとも１つのスーパーコンピュータ及び本発明による監視システムを含む、システム。
− 少なくとも１つのスーパーコンピュータ、本発明による監視システム、及びモニタを含むシステムであって、前記モニタが、前記監視システムから警報を受信するために、且つ前記スーパーコンピュータに補正動作を送信するために提供されるシステム。

本発明の他の特徴及び利点は、例として提供される本発明の好ましい実施形態に続く説明を読み、添付の図面を参照することで明らかになるであろう。

スーパーコンピュータを概略的に示す。本発明の実施形態に従って、相関モジュールの階層の例を概略的に示す。本発明の適用に従って、相関モジュールの例を概略的に示す。

発明の詳細な説明
図１に示されているように、スーパーコンピュータＳＣ又は超高速計算機は、幾つかのキャビネット又は「ラック」Ａ１、Ａ２からなり、それらのキャビネット又は「ラック」では、様々な機器Ｅ１、Ｅ２、Ｅ３．．．Ｅ８が「引き出し」に配置される。各機器自体は、一般に、多数の電子コンポーネントＣ１、Ｃ２、Ｃ３．．．Ｃ６からなる。

図１において、明確にするために、機器Ｅ１及びＥ２の内部コンポーネントに限って示されているが、しかし、他の機器もコンポーネントからなることは明白である。また、各キャビネットにおける、示されたコンポーネントの数及び機器の数は、純粋に実例目的で図に示されている。スーパーコンピュータは、はるかに多くのコンポーネント及び機器を有する。

センサが、コンポーネントに関連付けられる。１つ又は幾つかのセンサが、同じコンポーネント用に提供されてもよい。同じセンサがまた、幾つかのコンポーネント用に提供されてもよい。従って、センサとコンポーネントとの間の異なる関連構成が提供されてもよい。

機器にセンサを有するための対処、さもなければ１つ又は複数のセンサと関連付けられるコンポーネント又は機器のグループを形成するための対処がなされてもよい。

センサは、異なる性質であってよく、異なるタイプの情報、即ち温度、湿度レベル、電気消費を捕捉してもよいが、しかしまた、データ処理と関係する情報、即ちハードウェアエラー、ソフトウェアエラー、データトラフィック等を捕捉してもよい。

これらのセンサは、通知を生成するために提供される。これらの通知は、例えばＩＥＴＦ（インターネット技術標準化委員会）からＳＴＤ６２によって定義されたＳＮＭＰ（簡易ネットワーク管理プロトコル）プロトコルの「INFORM」メッセージであってもよい。「INFORM」メッセージは、メッセージの受信機（ここではモジュール）が、メッセージの良好な受信を通知する点で「TRAP」メッセージと異なる。

従って、一般に、センサは、ＳＮＭＰエージェントからこのメッセージを送信してもよい。それは、SNMPTRAPD「デーモン」によって受信され、次にSMPTTによって処理され、Syslogデーモンに送信される。Syslogプロトコルは、続いて説明される。

通知Ｎは、監視システムＳＳに送信され、監視システムＳＳは、任意選択的に警報ＡをモニタＭに供給し、且つ／又はスーパーコンピュータＳＣに向けた補正動作Ｒ１をトリガするために、それらの通知を処理してもよい。補正動作Ｒ２もモニタＭによってトリガされてもよい。

モニタＭは、コンピュータ、コンソール、タブレット、「スマートフォン」などのコンピュータ端末であってよく、それは、人間のマネージャにマン−マシンインターフェースを提供する可能性を与える。幾つかのモニタが提供されてもよい。

このインターフェースは、一方では、生の形式で、又はより高度な形式（統計データ、開発計算等）の下で、監視システムからの警報Ａをマネージャに提示し、他方では監視システムＳＳ及びスーパーコンピュータＳＣ上でのトリガ動作をマネージャに提示する可能性を与える。これらの動作は、追加情報用の探索であってよいが、しかしまた、補正動作Ｒ２であってもよい。

監視システムＳＳ又はモニタＭによって生成されるこれらの補正動作Ｒ１、Ｒ２は、警報Ａに関連する問題を部分的又は完全に解決することを目指す。

この解決は、或る状況において、その問題の原因を補正し得る。従って、ソフトウェアエラーの場合、責任を負うソフトウェアの更新がトリガされ、その問題を完全に解決し得る。

しかし、これはまた原因を実際には抑制せずに、問題の症状上の抑制であり得る。従って、キャビネット又はキャビネット部における温度の著しい上昇に関連する警報の場合、影響されるコンポーネント又は機器はオフにされてもよい。これはスーパーコンピュータのいかなる危険及び損傷も回避するためである。

警報Ａは、更に、マネージャ用にトリガされてもよく、次にマネージャは、その問題を実際に解決するために必要とされるアプローチに着手してもよい（原因の分析、現場での調査等）。或る手段に自動的に着手するように適合されたコンピュータ管理システムに警報Ａを導くことも可能であり得る。

従って、異なる実装形態が可能である。

監視システムＳＳは、モジュールＭ１、Ｍ２、Ｍ３．．．Ｍ９の構造を含む。各モジュールは、着信イベントを相関でき、且つ発信イベントを生成できる少なくとも１つの相関エンジンを含んでもよい。更に、構造内にいかなる相関エンジンも含まないモジュールが提供されてもよい。

図２によって示されている例において、構造は階層である。

発信イベントは、階層内の上部階層レベルのモジュールに送信され、発信イベントは、上部階層レベルのモジュールにとって着信イベントと見なされる。

従って、図２において、モジュールＭ４は、モジュールＭ１、Ｍ２、Ｍ３にとってそれぞれ発信イベントであるｅ１、ｅ２、ｅ３を着信イベントとして有する。また、発信イベントｅ４は、モジュールＭ９用の着信イベントと見なされる。

これらのモジュールは、幾つかのハードウェア又は仮想マシンからなるデータ処理プラットフォーム上に様々な方法で分散されてもよい。例えば、階層レベルが所与のマシン上に配置されてもよく、さもなければ幾つかのレベルが同じマシン上に配置されてもよい。さもなければ、同じ階層レベルの更なる幾つかのモジュールが、幾つかのマシン上に配置されてもよい等である。

図２に示されている階層は、３つの階層レベルを含む。明らかに、これは例であり、本発明による監視システムＳＳは、任意の数の階層レベルを含んでもよい。このレベル数は、階層の各レベル用のモジュール数及び一般的なアーキテクチャと同様に、監視システムＳＳのユーザによって構成されてもよい。

この構成は、スーパーコンピュータのサイズ及びアーキテクチャに依存して実行されてもよい。それはまた、スーパーコンピュータのアーキテクチャの開発を考慮するためか又は監視システムＳＳによって生成された結果を考慮するために、スーパーコンピュータの動作中に適合されてもよい。従って、動作中に、大多数のイベントが或る領域から生じることが理解される場合、新しいモジュールを追加することによって、又は既存のモジュールを再割り当てすることによって、この領域用により多くのモジュールを配置することが有用になり得る。

センサは、それらの通知を着信イベントとして、より低い階層レベルのモジュールに送信するために提供される。図２の例において、コンポーネントＣ１に関連するセンサは、その通知をモジュールＭ１に送信し、コンポーネントＣ２に関連するセンサは、その通知をモジュールＭ２に送信し、モジュールＭ７にそれ自体の通知を送信する、コンポーネントＣ６に関連するセンサまで同様である。

この実施形態において、階層レベルの最高レベルから生じるイベントは、警報と見なされてもよく、次に、警報はモニタＭに送信される。イベントはまた、これらの警報を生成するために予備処理動作の主題であってもよい。

図２に示されている例において、より高いレベルの層は、単一のモジュールＭ９を有する。このモジュールＭ９は、警報ＡをモニタＭに送信するのと同様に、補正動作Ｒ１をスーパーコンピュータ（図２には示さず）に向けて送信してもよい。

しかしながら、より高いレベルの層内に幾つかのモジュールを備えた本発明の適用を想定することが可能である。

前に述べたように、本発明によれば、各モジュールは、着信イベントを相関させるための、且つ発信イベントを生成するための少なくとも１つの相関エンジンを含む。

従って、図３に示されているように、モジュールは、相関エンジンＭＣに対して前処理又は後処理され得る他の機能を更に含んでもよい。

階層の各モジュールは、異なる機能、及び各機能における異なる適用（アプリケーション）を含んでもよい。

可能な実施形態によれば、同じ階層レベルのモジュールは類似している（同じ機能、機能における同じ実装形態）が、しかし、他の実施形態が可能であり、それらの実施形態によれば、同じ階層レベル内でさえ、モジュールは、異なる機能及び共通の機能用に異なる適用を有してもよい。

着信イベントＥは、別のモジュールの（直下の階層レベルの）発信イベント、さもなければセンサからの通知であってもよい。

この第２の場合、通知は、前に説明したように、ＳＮＭＰプロトコルに従ってもよく、特に「INFORM」メッセージであってもよい。それらは、更に、ＩＥＴＦからのＲＦＣ５４２４によって定義された「Syslog」プロトコルに準拠してもよい。

監視システムのモジュール間で送信されるイベントは、様々な標準化されたプロトコル又は「プロプライエタリ」プロトコルに準拠してもよい。それらはまた、この同じ「Syslog」プロトコルに準拠してもよい。

いずれにしても、これは、「Syslogファイル」を適所に設定することなしにモジュール間の直接通信であってもよく、その結果、通信は、加速され、モジュールの追加は、マネージャにより非常に単純で迅速な方法で構成され得る。

着信イベントＥは、第一に、機能フォーマットブロックＬＦによって処理されてもよい。この機能は、着信イベントを再整理し任意選択的に完成すること、及び特にその臨界レベルを指定すること、所定のスキームに従ってイベントの内容をフォーマットすること等を目指す。この処理は、後続の処理動作を促進する可能性を提供する。

次に、イベントは、フィルタリング及び分散ＦＤ機能ブロックに送信される。

この機能は、所定の基準に従って、モジュール内の異なる部分、特に異なる相関エンジンにイベントを導く可能性を提供する。

基準は、多様であってもよい。例えば、これは、所与のタイプのイベント（例えば温度に関係するイベント）を処理するための専用相関エンジンを有してもよい。従って、所定の基準は、適切な相関エンジンに各イベントを導く可能性を提供する。

それほど負荷をかけられない相関エンジンにイベントを導くことによって、負荷分散を実行することがまた可能であり得る。それほど負荷をかけられない相関エンジンの決定は、異なる方法で、即ち、相関エンジンからの周期的負荷測定によって、予め分散された着信イベントに対する統計値に依存する推定によって等で達成されてもよい。監視装置ＭＤは、様々な相関エンジンの負荷に関する情報を確立し、且つフィルタリング及びステアリング機能ブロックＦＤに情報を導く役割を果たしてもよい。

フィルタリング及び分散機能ブロックＦＤはまた、着信イベントをフィルタリングする可能性を提供する。

このフィルタリングは、アバランシェの危険を制限する目標を有し得る。実際に、スーパーコンピュータの或る動作不良は、連鎖反応及び／又はコンポーネントからの非常に多数の通知を引き起こす可能性がある。例えば、換気システムの障害は、温度が上昇すると共に、実際の換気システムからの通知、及び次に計算コンポーネントから来るますます多くの通知等を引き起こし得る。これらの現象は、或る場合には監視システムを完全に輻輳させ、従って、問題の解決を妨げるか又は減速させる可能性がある。

フィルタリングは、関連する負荷から相関エンジンをアンロードするために、同じ原因に明白に関係する、数を低減した着信イベントを選択する可能性を提供する。更に、それは、或る臨界を有する処理イベントのみを維持する可能性を提供する。従って、より低い情報レベルを表すイベントは、より高い優先権（より高い臨界を有する）を備えたイベントを促進するために廃棄されてもよい。

次に、着信イベントは、前処理機能ブロックＬＥＰに送信されてもよい。

このブロックは、必要に応じて、追加情報を備えたイベントを完了する目的を有する。これらの追加情報は、異なる方法で接続されてもよく、且つ相関エンジンの実装形態に依存してもよい。その範囲において、モジュールに含まれる相関エンジンは、特殊化され、従って異なる実装形態の主題であってもよい。これらの前処理機能ブロックＬＥＰは、各相関エンジンに適合されてもよい。従ってまた、図３の例において、３つの相関エンジンが３つの前処理機能ブロックと共に示されている。

次に、イベントは、前処理機能ブロックＬＥＰに対応する相関エンジンＭＣに送信される。

前に述べたように、各相関エンジンは、異なる実装形態の主題であってもよい。この実装形態は、特定のイベントのタイプを処理するための相関エンジンの特殊化に適合されてもよい。ＭＣモジュールはまた、単一のユニークな相関エンジンのみを含んでもよい。

相関エンジンは、並列に動作し、且つできるだけ処理負荷を分散するために、幾つかのハードウェアマシンにわたって分散されてもよい。同じハードウェア又は仮想マシン内に幾つかのモジュールＭを配置することがまた可能である。

アーキテクチャ及び配置のこれらの選択は、監視システムマネージャによる決定の主題であるべきである。しかし、本発明によるかかる監視システムが、設定されず、帰納的に修正されてもよいことに留意されたい。それは、管理されるスーパーコンピュータに生じる展開のために、しかしまた、管理履歴の情報から修正されてもよい。従って、マネージャは、或る動作不良が、最適な方法で処理されていないことを理解し、且つ将来のために動作不良をよりよく検討するために監視システムを修正する決定を下してもよい。

次に、相関エンジンは、結果を処理するためのブロックＲＰにイベントを送信する。このブロックは、発信イベントを慎重に作成し、形成することを目指す。ここで、任意選択的に、モジュール又は他の装置との相互運用性を可能にするために、プロトコル適合を適所に設定することが可能である。

結果を処理するためのこのブロックはまた、前に説明したように、管理されたスーパーコンピュータに補正動作Ｒ１を送信するために提供されもよい。

結果を処理するためのこのブロックはまた、監視システムのモジュール全体に共通であってもよいデータベースのイベントメモリにおける記憶をトリガしてもよい。このデータベースＤＢは、（特に機能的な前処理ブロックＬＥＰで）新しいイベントを処理するために履歴を参照できるように、履歴（様々な処理されたイベントの「ログ」）を維持する可能性を提供する。それはまた、統計を実行するために、さもなければ受信警報に関する一層明確な情報を得るために、外部装置、例えば（図２に関連して説明した）モニタによって利用されてもよい。

相関エンジンは、異なる技術を適用してもよい。適用される技術は、スーパーコンピュータにおけるマネージャの専門的技術及び／又は知識に従って、マネージャの選択に依存してもよい。それはまた、選択の瞬間に市場に出ているエンジンのコスト又は性能の検討に依存してもよい。それはまた、相関エンジンの専門家の場合、処理されるイベントのタイプに適合されてもよい。

用いられる技術にかかわらず、相関エンジン用の強い制約は、迅速で妥当な結果を可能にすることである。迅速さは、（自動的に又は手動で）検出された問題に対する迅速な反応を可能にするために重要である。妥当性は、誤警報の最小化、及び特に最大限の関連イベントの検出、即ち管理されたスーパーコンピュータに関連する問題を明らかにすることを意味する。

多くの技術が、相関エンジンを適用するために開発された。多くの代替形態及び実装形態がそれぞれある３つの大きい技術ファミリに言及してもよい。

第１の技術ファミリは、規則に基づいている（「規則ベースのシステム」）。これらは、恐らく最も現代的な技術である。それらは、規則をベースにして、格納された規則と着信イベントとを一致させようと試みることからなる。一致の場合、規則は、そこから推測され、結論が確立されてもよい。これらの結論は、新しいイベントの送信、補正動作のトリガ、処理動作等に存してもよい。

これらの技術の実装形態のうち、システムＳＥＣ（「シンプルイベント相関器」）、JRules、Kazimir等に言及してもよい。

別の技術ファミリは、「コードブック」と呼ばれる。これは、多少、規則ベース技術の代替であるが、しかし、イベントを個々に検討する代わりに、イベントは、ベクトルに集められ、ベクトルは、様々な提起された問題に関連する署名を含むマトリックスと比較される。目標は、管理されたスーパーコンピュータからイベントセット（通知）の主な原因を探索することである。

別のファミリは、人工知能技術を利用する。これらは、ベイジアンネットワーク、エキスパートシステム等、又はこれらの技術の組み合わせであってもよい。

本発明の利点の１つは、その柔軟性である。

監視システムＳＳは、このように非常にオープンであり、且つ主に、スーパーコンピュータのサイズに依存するが、しかしまた、それらの管理に必要とされる技術に依存する最大限の必要性を潜在的に満たすために、異なる構造を考案し適所に設定する可能性を提供する。

実装形態の観点から、このモデルは、「プラグイン」を備えたプラットフォームと見なされてもよい。従って、要素は、プラットフォームのコアへの影響なしに、交換され、拡張されてもよい。拡張は、明確な特定のサブセットに対してのみなされてもよい（かかるものが必要である場合）。また、アーキテクチャは、本解決法をなくす必要なしに、スーパーコンピュータの開発に従って、経時的に変化し得る。メンテナンス及び開発コストは、それによって低減される。

当然のことながら、本発明は、説明され図示された例及び実施形態に限定されず、本発明は、当業者にアクセス可能な多くの代替形態を有し得る。

Claims

コンポーネント（Ｃ１、Ｃ２、Ｃ３．．．Ｃ６）のセットを含むスーパーコンピュータ（ＳＣ）を管理するための方法であって、
− 前記コンポーネントに関連するセンサによって通知（Ｎ）を生成するステップと、
− モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層の最下位階層レベルの前記モジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成するための少なくとも１つの相関エンジンを含む、ステップと
を含む、方法であって、
前記階層内の最上位階層レベルの前記モジュールによって生成された発信イベントから、警報（Ａ）を生成するステップを含む、方法。
前記スーパーコンピュータに送信される補正動作（Ｒ１）をトリガするステップを更に含む、請求項１に記載の方法。
前記イベントが、所定の基準に従って、前記少なくとも１つの相関エンジンのうちの１つの相関エンジンに向けて導かれる、請求項１又は２に記載の方法。
前記警報が、マン−マシンインターフェースを有するモニタ（Ｍ）に送信される、請求項１から３のいずれか一項に記載の方法。
補正動作（Ｒ２）が、前記モニタ（Ｍ）によって前記スーパーコンピュータ（ＳＣ）に送信される、請求項４に記載の方法。
情報処理システムにロードされると、請求項１から５のいずれか一項に記載の方法を適用できる命令を含む、コンピュータプログラム。
コンポーネント（Ｃ１、Ｃ２、Ｃ３．．．Ｃ６）のセットと、通知（Ｎ）を生成する、前記コンポーネントに関連するセンサとを含むスーパーコンピュータ（ＳＣ）の監視システム（ＳＳ）であって、前記監視システムは、モジュールの階層を含み、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成できる少なくとも１つの相関エンジンを含み、前記センサが、前記階層の最下位階層レベルのモジュールに前記通知を着信イベントとして送信するように構成される、監視システム（ＳＳ）であって、前記階層内の最上位階層レベルの前記モジュールが、警報（Ａ）を生成し、且つそれらをモニタ（Ｍ）に送信するように構成されることを特徴とする、監視システム（ＳＳ）。
前記階層内のより高い階層レベルの前記モジュールが、補正動作（Ｒ１）をトリガし、且つそれを前記スーパーコンピュータに送信するために提供される、請求項７に記載の監視システム。
モジュールが、所定の基準に従って、前記少なくとも１つの相関エンジンのうちの１つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロック（ＦＤ）を更に含む、請求項７又は８に記載の監視システム。
前記相関エンジンの少なくとも幾つかが、規則体系によって適用される、請求項７から９のいずれか一項に記載の監視システム。
前記モジュールが、「Syslog」プロトコルに従って通信するために提供される、請求項７から１０のいずれか一項に記載の監視システム。
前記通知（Ｎ）が、ＳＮＭＰプロトコルに従って送信されるように適合される、請求項７から１１のいずれか一項に記載の監視システム。
少なくとも１つのスーパーコンピュータ（ＳＣ）及び請求項７から１２のいずれか一項に記載の監視システム（ＳＳ）を含む、システム。
少なくとも１つのスーパーコンピュータ（ＳＣ）、請求項７〜１２のいずれか一項に記載の監視システム（ＳＳ）、及びモニタ（Ｍ）を含むシステムであって、前記モニタが、前記監視システム（ＳＳ）から警報（Ａ）を受信するために、且つ前記スーパーコンピュータに補正動作（Ｒ２）を送信するために提供される、システム。