JP2017521802A - スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ - Google Patents

スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ Download PDF

Info

Publication number
JP2017521802A
JP2017521802A JP2017512421A JP2017512421A JP2017521802A JP 2017521802 A JP2017521802 A JP 2017521802A JP 2017512421 A JP2017512421 A JP 2017512421A JP 2017512421 A JP2017512421 A JP 2017512421A JP 2017521802 A JP2017521802 A JP 2017521802A
Authority
JP
Japan
Prior art keywords
hierarchy
supercomputer
monitoring system
module
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2017512421A
Other languages
English (en)
Inventor
ミクー,セバスチャン
ペロタン,マチュー
Original Assignee
ブル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブル filed Critical ブル
Publication of JP2017521802A publication Critical patent/JP2017521802A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0847Transmission error
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本発明は、コンポーネント(C1、C2、C3...C6)のセットを含むスーパーコンピュータ(SC)を管理するための方法であって、前記コンポーネントに関連するセンサによって通知(N)を生成するステップと、モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層のより低い階層レベルのモジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成するための少なくとも1つの相関エンジンを含む、ステップと、前記階層内のより高い階層レベルのモジュールによって生成された発信イベントに基づいて、警報(A)を生成するステップとを含む、方法に関する。

Description

発明の分野
本発明は、計算センタ、特にスーパーコンピュータの分野に関する。本発明は、特に、これらのスーパーコンピュータ、並びにスーパーコンピュータを構成するコンポーネント及び機器の監視に関する。
発明の背景
超高速計算機(又はスーパーコンピュータ)は、特に計算速度の点で、その設計上の周知の技術を用いて可能な限り最高の性能を達成するために設計されるコンピュータである。スーパーコンピュータは、従来のコンピュータに対するそれらの優位性を、使用されるコンポーネントの技術及びそれらのアーキテクチャの両方から引き出す。
従って、スーパーコンピュータは、数ペタフロップスの速度を有し、まもなくエクサフロップスを達成するであろう。フロップス(「1秒当たりの浮動小数点演算命令実行回数」を表す)は、コンピュータの処理速度を推定するための一般に容認された測定単位である。
このアーキテクチャは、特に、幾つかのタスクを同時に実行するために、「パイプライン」又は並列であってもよい。保持されるアーキテクチャにかかわらず、スーパーコンピュータは、非常に多数の機器を含み、それらの機器自体、多数のコンポーネント(メモリ、マイクロプロセッサ等)を含む。
典型的には、各機器は、機器のコンポーネントの1つ又は機器自体がステータスを変化させると直ちに、監視システムに通知メッセージを送信してもよい。この種のメッセージは、一般に「イベント」と呼ばれる。この監視システムは、これらの全てのイベントを収集して処理する役割を有し、それに応じて反応するべきである。
例えば、機器が、所与の時間経過で多数の温度警報を送信した場合、監視サービスは、機器のスイッチを切る決定を下さなければならない可能性がある。
しかし、単一の問題に関係する警報が、異なる機器(又はコンポーネント)から「到来し」、且つまた監視システムにおいて相関される可能性がある。例えば、これは、キャビネットの上端に位置するコンポーネント及び/又は機器の全体が、場合により冷却回路の問題のために温度警報を発する場合に当てはまる。そのとき、スーパーコンピュータのマネージャ用に警報をトリガすることが重要である。
監視サービスはまた、データベースを提供してもよく、それによって収集され相関されるこれらの情報で監視サービスを更新してもよい。次に、このデータベースは、より複雑な相関、統計計算等に使用されてもよい。
計算能力を獲得するために、スーパーコンピュータはますます複雑になる。
それに応じて、スーパーコンピュータ内に生成され得るイベント数も増加する。この点は、(例えば、スーパーコンピュータにおける領域、キャビネットに影響する)或る問題が、同時に又は非常に短期間内に、多数の機器及びコンポーネントにチェーンイベントを生成する可能性があるため、なおさら重要である。
現在の解決法は、1つ又は幾つかの相関エンジンに基づくが、しかし、それらは既に可能性の限界に到達している。現場に配置された或る監視システムは、数時間の処理遅延を示し、それは、コンピュータに対して著しい危険負担を引き起こす可能性がある(重大な事象が適切な時点でマネージャに報告されない等)。
状況を改善することを目指す研究作業及び調査は、実際の相関エンジン、又は処理チェーンをより効率的にするための相補的モジュールの付加に本質的に取り組む。しかしながら、相関エンジンのまわりで設計されるアーキテクチャは、かかるスケーリングには適していない。この結果として、スーパーコンピュータに対する既存の監視システムの不適切性の問題をできるだけ最小化するために、現場におけるその場限りの適合のみが局所的に着手され得るようになった。
発明の概要
本発明の目的は、前に言及した欠点を少なくとも部分的に克服する監視システムを提供することである。より具体的には、本発明は、様々な構成のスーパーコンピュータに、特に「小型」スーパーコンピュータ、「大型」スーパーコンピュータ、及び次世代スーパーコンピュータに適合し得る監視システムを提供することに関する。
この目的のために、本発明は、コンポーネントのセットを含むスーパーコンピュータを管理するための方法であって、前記コンポーネントに関連するセンサによって通知を生成するステップと、モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層の最下位階層レベルのモジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成するための少なくとも1つの相関エンジンを含む、ステップと、前記階層内の最上位階層レベルのモジュールによって生成された発信イベントから、警報を生成するステップとを含む、方法を提案する。
この目的のために、本発明はまた、コンポーネントのセットと、通知を生成する、前記コンポーネントに関連するセンサとを含むスーパーコンピュータの監視システムであって、前記管理システムは、モジュールの階層を含み、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルのモジュールに送信される発信イベントを着信イベントとして生成できる少なくとも1つの相関エンジンを含み、前記センサが、前記階層の最下位階層レベルのモジュールに前記通知を着信イベントとして送信するために提供され、前記階層内の最上位階層レベルのモジュールが、警報を生成し、且つそれらをモニタに送信するために提供される、監視システムを提案する。
好ましい実施形態によれば、本発明は、前に説明した本発明の目的のいずれか一方と共に、別々に、又は互いの部分的な組み合わせとして、若しくは互いの完全な組み合わせとして用いられ得る以下の特徴の1つ又は幾つかを含む。
− 管理方法は、前記スーパーコンピュータに送信される補正動作をトリガするステップを更に含む。
− 前記イベントは、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導かれる。
− 前記警報は、マン−マシンインターフェースを有するモニタに送信される。
− 補正動作は、前記モニタによって前記スーパーコンピュータに送信される。
− 情報処理システムにロードされると、本発明に従った方法を適用できる命令を含む、コンピュータプログラム。
− 前記階層内のより高い階層レベルのモジュールは、補正動作をトリガし、且つ補正動作を前記スーパーコンピュータに送信するために提供される。
− モジュールは、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロックを更に含む。
− 前記相関エンジンの少なくとも幾つかは、規則体系によって適用される。
− 前記モジュールは、「Syslog」プロトコルに従って通信するために提供される。
− 前記通知は、SNMPプロトコルに従って送信される。
− 少なくとも1つのスーパーコンピュータ及び本発明による監視システムを含む、システム。
− 少なくとも1つのスーパーコンピュータ、本発明による監視システム、及びモニタを含むシステムであって、前記モニタが、前記監視システムから警報を受信するために、且つ前記スーパーコンピュータに補正動作を送信するために提供されるシステム。
本発明の他の特徴及び利点は、例として提供される本発明の好ましい実施形態に続く説明を読み、添付の図面を参照することで明らかになるであろう。
スーパーコンピュータを概略的に示す。 本発明の実施形態に従って、相関モジュールの階層の例を概略的に示す。 本発明の適用に従って、相関モジュールの例を概略的に示す。
発明の詳細な説明
図1に示されているように、スーパーコンピュータSC又は超高速計算機は、幾つかのキャビネット又は「ラック」A1、A2からなり、それらのキャビネット又は「ラック」では、様々な機器E1、E2、E3...E8が「引き出し」に配置される。各機器自体は、一般に、多数の電子コンポーネントC1、C2、C3...C6からなる。
図1において、明確にするために、機器E1及びE2の内部コンポーネントに限って示されているが、しかし、他の機器もコンポーネントからなることは明白である。また、各キャビネットにおける、示されたコンポーネントの数及び機器の数は、純粋に実例目的で図に示されている。スーパーコンピュータは、はるかに多くのコンポーネント及び機器を有する。
センサが、コンポーネントに関連付けられる。1つ又は幾つかのセンサが、同じコンポーネント用に提供されてもよい。同じセンサがまた、幾つかのコンポーネント用に提供されてもよい。従って、センサとコンポーネントとの間の異なる関連構成が提供されてもよい。
機器にセンサを有するための対処、さもなければ1つ又は複数のセンサと関連付けられるコンポーネント又は機器のグループを形成するための対処がなされてもよい。
センサは、異なる性質であってよく、異なるタイプの情報、即ち温度、湿度レベル、電気消費を捕捉してもよいが、しかしまた、データ処理と関係する情報、即ちハードウェアエラー、ソフトウェアエラー、データトラフィック等を捕捉してもよい。
これらのセンサは、通知を生成するために提供される。これらの通知は、例えばIETF(インターネット技術標準化委員会)からSTD62によって定義されたSNMP(簡易ネットワーク管理プロトコル)プロトコルの「INFORM」メッセージであってもよい。「INFORM」メッセージは、メッセージの受信機(ここではモジュール)が、メッセージの良好な受信を通知する点で「TRAP」メッセージと異なる。
従って、一般に、センサは、SNMPエージェントからこのメッセージを送信してもよい。それは、SNMPTRAPD「デーモン」によって受信され、次にSMPTTによって処理され、Syslogデーモンに送信される。Syslogプロトコルは、続いて説明される。
通知Nは、監視システムSSに送信され、監視システムSSは、任意選択的に警報AをモニタMに供給し、且つ/又はスーパーコンピュータSCに向けた補正動作R1をトリガするために、それらの通知を処理してもよい。補正動作R2もモニタMによってトリガされてもよい。
モニタMは、コンピュータ、コンソール、タブレット、「スマートフォン」などのコンピュータ端末であってよく、それは、人間のマネージャにマン−マシンインターフェースを提供する可能性を与える。幾つかのモニタが提供されてもよい。
このインターフェースは、一方では、生の形式で、又はより高度な形式(統計データ、開発計算等)の下で、監視システムからの警報Aをマネージャに提示し、他方では監視システムSS及びスーパーコンピュータSC上でのトリガ動作をマネージャに提示する可能性を与える。これらの動作は、追加情報用の探索であってよいが、しかしまた、補正動作R2であってもよい。
監視システムSS又はモニタMによって生成されるこれらの補正動作R1、R2は、警報Aに関連する問題を部分的又は完全に解決することを目指す。
この解決は、或る状況において、その問題の原因を補正し得る。従って、ソフトウェアエラーの場合、責任を負うソフトウェアの更新がトリガされ、その問題を完全に解決し得る。
しかし、これはまた原因を実際には抑制せずに、問題の症状上の抑制であり得る。従って、キャビネット又はキャビネット部における温度の著しい上昇に関連する警報の場合、影響されるコンポーネント又は機器はオフにされてもよい。これはスーパーコンピュータのいかなる危険及び損傷も回避するためである。
警報Aは、更に、マネージャ用にトリガされてもよく、次にマネージャは、その問題を実際に解決するために必要とされるアプローチに着手してもよい(原因の分析、現場での調査等)。或る手段に自動的に着手するように適合されたコンピュータ管理システムに警報Aを導くことも可能であり得る。
従って、異なる実装形態が可能である。
監視システムSSは、モジュールM1、M2、M3...M9の構造を含む。各モジュールは、着信イベントを相関でき、且つ発信イベントを生成できる少なくとも1つの相関エンジンを含んでもよい。更に、構造内にいかなる相関エンジンも含まないモジュールが提供されてもよい。
図2によって示されている例において、構造は階層である。
発信イベントは、階層内の上部階層レベルのモジュールに送信され、発信イベントは、上部階層レベルのモジュールにとって着信イベントと見なされる。
従って、図2において、モジュールM4は、モジュールM1、M2、M3にとってそれぞれ発信イベントであるe1、e2、e3を着信イベントとして有する。また、発信イベントe4は、モジュールM9用の着信イベントと見なされる。
これらのモジュールは、幾つかのハードウェア又は仮想マシンからなるデータ処理プラットフォーム上に様々な方法で分散されてもよい。例えば、階層レベルが所与のマシン上に配置されてもよく、さもなければ幾つかのレベルが同じマシン上に配置されてもよい。さもなければ、同じ階層レベルの更なる幾つかのモジュールが、幾つかのマシン上に配置されてもよい等である。
図2に示されている階層は、3つの階層レベルを含む。明らかに、これは例であり、本発明による監視システムSSは、任意の数の階層レベルを含んでもよい。このレベル数は、階層の各レベル用のモジュール数及び一般的なアーキテクチャと同様に、監視システムSSのユーザによって構成されてもよい。
この構成は、スーパーコンピュータのサイズ及びアーキテクチャに依存して実行されてもよい。それはまた、スーパーコンピュータのアーキテクチャの開発を考慮するためか又は監視システムSSによって生成された結果を考慮するために、スーパーコンピュータの動作中に適合されてもよい。従って、動作中に、大多数のイベントが或る領域から生じることが理解される場合、新しいモジュールを追加することによって、又は既存のモジュールを再割り当てすることによって、この領域用により多くのモジュールを配置することが有用になり得る。
センサは、それらの通知を着信イベントとして、より低い階層レベルのモジュールに送信するために提供される。図2の例において、コンポーネントC1に関連するセンサは、その通知をモジュールM1に送信し、コンポーネントC2に関連するセンサは、その通知をモジュールM2に送信し、モジュールM7にそれ自体の通知を送信する、コンポーネントC6に関連するセンサまで同様である。
この実施形態において、階層レベルの最高レベルから生じるイベントは、警報と見なされてもよく、次に、警報はモニタMに送信される。イベントはまた、これらの警報を生成するために予備処理動作の主題であってもよい。
図2に示されている例において、より高いレベルの層は、単一のモジュールM9を有する。このモジュールM9は、警報AをモニタMに送信するのと同様に、補正動作R1をスーパーコンピュータ(図2には示さず)に向けて送信してもよい。
しかしながら、より高いレベルの層内に幾つかのモジュールを備えた本発明の適用を想定することが可能である。
前に述べたように、本発明によれば、各モジュールは、着信イベントを相関させるための、且つ発信イベントを生成するための少なくとも1つの相関エンジンを含む。
従って、図3に示されているように、モジュールは、相関エンジンMCに対して前処理又は後処理され得る他の機能を更に含んでもよい。
階層の各モジュールは、異なる機能、及び各機能における異なる適用(アプリケーション)を含んでもよい。
可能な実施形態によれば、同じ階層レベルのモジュールは類似している(同じ機能、機能における同じ実装形態)が、しかし、他の実施形態が可能であり、それらの実施形態によれば、同じ階層レベル内でさえ、モジュールは、異なる機能及び共通の機能用に異なる適用を有してもよい。
着信イベントEは、別のモジュールの(直下の階層レベルの)発信イベント、さもなければセンサからの通知であってもよい。
この第2の場合、通知は、前に説明したように、SNMPプロトコルに従ってもよく、特に「INFORM」メッセージであってもよい。それらは、更に、IETFからのRFC5424によって定義された「Syslog」プロトコルに準拠してもよい。
監視システムのモジュール間で送信されるイベントは、様々な標準化されたプロトコル又は「プロプライエタリ」プロトコルに準拠してもよい。それらはまた、この同じ「Syslog」プロトコルに準拠してもよい。
いずれにしても、これは、「Syslogファイル」を適所に設定することなしにモジュール間の直接通信であってもよく、その結果、通信は、加速され、モジュールの追加は、マネージャにより非常に単純で迅速な方法で構成され得る。
着信イベントEは、第一に、機能フォーマットブロックLFによって処理されてもよい。この機能は、着信イベントを再整理し任意選択的に完成すること、及び特にその臨界レベルを指定すること、所定のスキームに従ってイベントの内容をフォーマットすること等を目指す。この処理は、後続の処理動作を促進する可能性を提供する。
次に、イベントは、フィルタリング及び分散FD機能ブロックに送信される。
この機能は、所定の基準に従って、モジュール内の異なる部分、特に異なる相関エンジンにイベントを導く可能性を提供する。
基準は、多様であってもよい。例えば、これは、所与のタイプのイベント(例えば温度に関係するイベント)を処理するための専用相関エンジンを有してもよい。従って、所定の基準は、適切な相関エンジンに各イベントを導く可能性を提供する。
それほど負荷をかけられない相関エンジンにイベントを導くことによって、負荷分散を実行することがまた可能であり得る。それほど負荷をかけられない相関エンジンの決定は、異なる方法で、即ち、相関エンジンからの周期的負荷測定によって、予め分散された着信イベントに対する統計値に依存する推定によって等で達成されてもよい。監視装置MDは、様々な相関エンジンの負荷に関する情報を確立し、且つフィルタリング及びステアリング機能ブロックFDに情報を導く役割を果たしてもよい。
フィルタリング及び分散機能ブロックFDはまた、着信イベントをフィルタリングする可能性を提供する。
このフィルタリングは、アバランシェの危険を制限する目標を有し得る。実際に、スーパーコンピュータの或る動作不良は、連鎖反応及び/又はコンポーネントからの非常に多数の通知を引き起こす可能性がある。例えば、換気システムの障害は、温度が上昇すると共に、実際の換気システムからの通知、及び次に計算コンポーネントから来るますます多くの通知等を引き起こし得る。これらの現象は、或る場合には監視システムを完全に輻輳させ、従って、問題の解決を妨げるか又は減速させる可能性がある。
フィルタリングは、関連する負荷から相関エンジンをアンロードするために、同じ原因に明白に関係する、数を低減した着信イベントを選択する可能性を提供する。更に、それは、或る臨界を有する処理イベントのみを維持する可能性を提供する。従って、より低い情報レベルを表すイベントは、より高い優先権(より高い臨界を有する)を備えたイベントを促進するために廃棄されてもよい。
次に、着信イベントは、前処理機能ブロックLEPに送信されてもよい。
このブロックは、必要に応じて、追加情報を備えたイベントを完了する目的を有する。これらの追加情報は、異なる方法で接続されてもよく、且つ相関エンジンの実装形態に依存してもよい。その範囲において、モジュールに含まれる相関エンジンは、特殊化され、従って異なる実装形態の主題であってもよい。これらの前処理機能ブロックLEPは、各相関エンジンに適合されてもよい。従ってまた、図3の例において、3つの相関エンジンが3つの前処理機能ブロックと共に示されている。
次に、イベントは、前処理機能ブロックLEPに対応する相関エンジンMCに送信される。
前に述べたように、各相関エンジンは、異なる実装形態の主題であってもよい。この実装形態は、特定のイベントのタイプを処理するための相関エンジンの特殊化に適合されてもよい。MCモジュールはまた、単一のユニークな相関エンジンのみを含んでもよい。
相関エンジンは、並列に動作し、且つできるだけ処理負荷を分散するために、幾つかのハードウェアマシンにわたって分散されてもよい。同じハードウェア又は仮想マシン内に幾つかのモジュールMを配置することがまた可能である。
アーキテクチャ及び配置のこれらの選択は、監視システムマネージャによる決定の主題であるべきである。しかし、本発明によるかかる監視システムが、設定されず、帰納的に修正されてもよいことに留意されたい。それは、管理されるスーパーコンピュータに生じる展開のために、しかしまた、管理履歴の情報から修正されてもよい。従って、マネージャは、或る動作不良が、最適な方法で処理されていないことを理解し、且つ将来のために動作不良をよりよく検討するために監視システムを修正する決定を下してもよい。
次に、相関エンジンは、結果を処理するためのブロックRPにイベントを送信する。このブロックは、発信イベントを慎重に作成し、形成することを目指す。ここで、任意選択的に、モジュール又は他の装置との相互運用性を可能にするために、プロトコル適合を適所に設定することが可能である。
結果を処理するためのこのブロックはまた、前に説明したように、管理されたスーパーコンピュータに補正動作R1を送信するために提供されもよい。
結果を処理するためのこのブロックはまた、監視システムのモジュール全体に共通であってもよいデータベースのイベントメモリにおける記憶をトリガしてもよい。このデータベースDBは、(特に機能的な前処理ブロックLEPで)新しいイベントを処理するために履歴を参照できるように、履歴(様々な処理されたイベントの「ログ」)を維持する可能性を提供する。それはまた、統計を実行するために、さもなければ受信警報に関する一層明確な情報を得るために、外部装置、例えば(図2に関連して説明した)モニタによって利用されてもよい。
相関エンジンは、異なる技術を適用してもよい。適用される技術は、スーパーコンピュータにおけるマネージャの専門的技術及び/又は知識に従って、マネージャの選択に依存してもよい。それはまた、選択の瞬間に市場に出ているエンジンのコスト又は性能の検討に依存してもよい。それはまた、相関エンジンの専門家の場合、処理されるイベントのタイプに適合されてもよい。
用いられる技術にかかわらず、相関エンジン用の強い制約は、迅速で妥当な結果を可能にすることである。迅速さは、(自動的に又は手動で)検出された問題に対する迅速な反応を可能にするために重要である。妥当性は、誤警報の最小化、及び特に最大限の関連イベントの検出、即ち管理されたスーパーコンピュータに関連する問題を明らかにすることを意味する。
多くの技術が、相関エンジンを適用するために開発された。多くの代替形態及び実装形態がそれぞれある3つの大きい技術ファミリに言及してもよい。
第1の技術ファミリは、規則に基づいている(「規則ベースのシステム」)。これらは、恐らく最も現代的な技術である。それらは、規則をベースにして、格納された規則と着信イベントとを一致させようと試みることからなる。一致の場合、規則は、そこから推測され、結論が確立されてもよい。これらの結論は、新しいイベントの送信、補正動作のトリガ、処理動作等に存してもよい。
これらの技術の実装形態のうち、システムSEC(「シンプルイベント相関器」)、JRules、Kazimir等に言及してもよい。
別の技術ファミリは、「コードブック」と呼ばれる。これは、多少、規則ベース技術の代替であるが、しかし、イベントを個々に検討する代わりに、イベントは、ベクトルに集められ、ベクトルは、様々な提起された問題に関連する署名を含むマトリックスと比較される。目標は、管理されたスーパーコンピュータからイベントセット(通知)の主な原因を探索することである。
別のファミリは、人工知能技術を利用する。これらは、ベイジアンネットワーク、エキスパートシステム等、又はこれらの技術の組み合わせであってもよい。
本発明の利点の1つは、その柔軟性である。
監視システムSSは、このように非常にオープンであり、且つ主に、スーパーコンピュータのサイズに依存するが、しかしまた、それらの管理に必要とされる技術に依存する最大限の必要性を潜在的に満たすために、異なる構造を考案し適所に設定する可能性を提供する。
実装形態の観点から、このモデルは、「プラグイン」を備えたプラットフォームと見なされてもよい。従って、要素は、プラットフォームのコアへの影響なしに、交換され、拡張されてもよい。拡張は、明確な特定のサブセットに対してのみなされてもよい(かかるものが必要である場合)。また、アーキテクチャは、本解決法をなくす必要なしに、スーパーコンピュータの開発に従って、経時的に変化し得る。メンテナンス及び開発コストは、それによって低減される。
当然のことながら、本発明は、説明され図示された例及び実施形態に限定されず、本発明は、当業者にアクセス可能な多くの代替形態を有し得る。

Claims (14)

  1. コンポーネント(C1、C2、C3...C6)のセットを含むスーパーコンピュータ(SC)を管理するための方法であって、
    − 前記コンポーネントに関連するセンサによって通知(N)を生成するステップと、
    − モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層の最下位階層レベルの前記モジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成するための少なくとも1つの相関エンジンを含む、ステップと
    を含む、方法であって、
    前記階層内の最上位階層レベルの前記モジュールによって生成された発信イベントから、警報(A)を生成するステップを含む、方法。
  2. 前記スーパーコンピュータに送信される補正動作(R1)をトリガするステップを更に含む、請求項1に記載の方法。
  3. 前記イベントが、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導かれる、請求項1又は2に記載の方法。
  4. 前記警報が、マン−マシンインターフェースを有するモニタ(M)に送信される、請求項1から3のいずれか一項に記載の方法。
  5. 補正動作(R2)が、前記モニタ(M)によって前記スーパーコンピュータ(SC)に送信される、請求項4に記載の方法。
  6. 情報処理システムにロードされると、請求項1から5のいずれか一項に記載の方法を適用できる命令を含む、コンピュータプログラム。
  7. コンポーネント(C1、C2、C3...C6)のセットと、通知(N)を生成する、前記コンポーネントに関連するセンサとを含むスーパーコンピュータ(SC)の監視システム(SS)であって、前記監視システムは、モジュールの階層を含み、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成できる少なくとも1つの相関エンジンを含み、前記センサが、前記階層の最下位階層レベルのモジュールに前記通知を着信イベントとして送信するように構成される、監視システム(SS)であって、前記階層内の最上位階層レベルの前記モジュールが、警報(A)を生成し、且つそれらをモニタ(M)に送信するように構成されることを特徴とする、監視システム(SS)。
  8. 前記階層内のより高い階層レベルの前記モジュールが、補正動作(R1)をトリガし、且つそれを前記スーパーコンピュータに送信するために提供される、請求項7に記載の監視システム。
  9. モジュールが、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロック(FD)を更に含む、請求項7又は8に記載の監視システム。
  10. 前記相関エンジンの少なくとも幾つかが、規則体系によって適用される、請求項7から9のいずれか一項に記載の監視システム。
  11. 前記モジュールが、「Syslog」プロトコルに従って通信するために提供される、請求項7から10のいずれか一項に記載の監視システム。
  12. 前記通知(N)が、SNMPプロトコルに従って送信されるように適合される、請求項7から11のいずれか一項に記載の監視システム。
  13. 少なくとも1つのスーパーコンピュータ(SC)及び請求項7から12のいずれか一項に記載の監視システム(SS)を含む、システム。
  14. 少なくとも1つのスーパーコンピュータ(SC)、請求項7〜12のいずれか一項に記載の監視システム(SS)、及びモニタ(M)を含むシステムであって、前記モニタが、前記監視システム(SS)から警報(A)を受信するために、且つ前記スーパーコンピュータに補正動作(R2)を送信するために提供される、システム。
JP2017512421A 2014-05-16 2015-05-12 スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ Ceased JP2017521802A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1454397A FR3021138B1 (fr) 2014-05-16 2014-05-16 Architecture de correlation d'evenements pour la surveillance de supercalculateur
FR1454397 2014-05-16
PCT/EP2015/060531 WO2015173274A1 (fr) 2014-05-16 2015-05-12 Architecture de correlation d'evenements pour la surveillance de supercalculateur

Publications (1)

Publication Number Publication Date
JP2017521802A true JP2017521802A (ja) 2017-08-03

Family

ID=52423777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017512421A Ceased JP2017521802A (ja) 2014-05-16 2015-05-12 スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ

Country Status (6)

Country Link
US (1) US10528402B2 (ja)
EP (1) EP3143505B1 (ja)
JP (1) JP2017521802A (ja)
FR (1) FR3021138B1 (ja)
IL (1) IL248953A0 (ja)
WO (1) WO2015173274A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3040095B1 (fr) * 2015-08-13 2019-06-14 Bull Sas Systeme de surveillance pour supercalculateur utilisant des donnees topologiques
US11108620B2 (en) * 2019-11-05 2021-08-31 At&T Intellectual Property I, L.P. Multi-dimensional impact detect and diagnosis in cellular networks
FR3113962A1 (fr) * 2020-09-10 2022-03-11 CS GROUP - France Procédé et système de surveillance d’un système informatique

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330758A (ja) * 2002-05-09 2003-11-21 Nec Corp 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム
US20070283002A1 (en) * 2006-05-31 2007-12-06 Christof Bornhoevd Modular monitor service for smart item monitoring
JP2008131386A (ja) * 2006-11-21 2008-06-05 Canon Inc 情報処理装置
JP2010073123A (ja) * 2008-09-22 2010-04-02 Nec Corp ログ管理装置、システム、方法、及びプログラム
JP2011014073A (ja) * 2009-07-06 2011-01-20 Nec Computertechno Ltd ログ管理システム、ログ管理方法、ログ収集部及びプログラム
JP2012043121A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 運用管理システム、運用管理方法及び運用管理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864662A (en) * 1996-06-28 1999-01-26 Mci Communication Corporation System and method for reported root cause analysis
FR2802663B1 (fr) * 1999-12-21 2002-01-25 Bull Sa Procede de correlation d'alarmes dans un systeme d'administration hierarchisee
WO2002023338A2 (en) * 2000-09-18 2002-03-21 Tenor Networks, Inc. System resource availability manager
US20040144927A1 (en) * 2003-01-28 2004-07-29 Auner Gregory W. Microsystems arrays for digital radiation imaging and signal processing and method for making microsystem arrays
US7184777B2 (en) * 2002-11-27 2007-02-27 Cognio, Inc. Server and multiple sensor system for monitoring activity in a shared radio frequency band
US7889070B2 (en) * 2006-10-17 2011-02-15 At&T Intellectual Property I, L.P. Methods, systems, devices and computer program products for transmitting medical information from mobile personal medical devices
US8549157B2 (en) * 2007-04-23 2013-10-01 Mcafee, Inc. Transparent secure socket layer
US20080281607A1 (en) * 2007-05-13 2008-11-13 System Services, Inc. System, Method and Apparatus for Managing a Technology Infrastructure
US9131266B2 (en) * 2012-08-10 2015-09-08 Qualcomm Incorporated Ad-hoc media presentation based upon dynamic discovery of media output devices that are proximate to one or more users
CN103986743A (zh) * 2013-02-07 2014-08-13 伊姆西公司 用于在物联网中采集数据的方法、装置和系统
US10154321B2 (en) * 2014-05-26 2018-12-11 Agt International Gmbh System and method for registering sensors used in monitoring-systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330758A (ja) * 2002-05-09 2003-11-21 Nec Corp 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム
US20070283002A1 (en) * 2006-05-31 2007-12-06 Christof Bornhoevd Modular monitor service for smart item monitoring
JP2008131386A (ja) * 2006-11-21 2008-06-05 Canon Inc 情報処理装置
JP2010073123A (ja) * 2008-09-22 2010-04-02 Nec Corp ログ管理装置、システム、方法、及びプログラム
JP2011014073A (ja) * 2009-07-06 2011-01-20 Nec Computertechno Ltd ログ管理システム、ログ管理方法、ログ収集部及びプログラム
JP2012043121A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 運用管理システム、運用管理方法及び運用管理装置

Also Published As

Publication number Publication date
US20170091000A1 (en) 2017-03-30
US10528402B2 (en) 2020-01-07
FR3021138A1 (fr) 2015-11-20
IL248953A0 (en) 2017-01-31
WO2015173274A1 (fr) 2015-11-19
EP3143505A1 (fr) 2017-03-22
FR3021138B1 (fr) 2017-10-06
EP3143505B1 (fr) 2023-04-19

Similar Documents

Publication Publication Date Title
CN111787073B (zh) 一种统一服务的限流熔断平台及其方法
US11265336B2 (en) Detecting anomalies in networks
US10616044B1 (en) Event based service discovery and root cause analysis
CN108964960B (zh) 一种告警事件的处理方法及装置
US10686807B2 (en) Intrusion detection system
CN105191257B (zh) 用于检测多阶段事件的方法和装置
CN113748660A (zh) 用于处理指示在经由网络传输的流量中检测到异常的警报消息的方法和装置
Cotroneo et al. A fault correlation approach to detect performance anomalies in virtual network function chains
KR102365839B1 (ko) 애플리케이션 성능 모니터링 방법 및 장치
JP2010537563A (ja) 状態の遠隔監視制御装置
CN105264861A (zh) 用于检测多阶段事件的方法和设备
US10728085B1 (en) Model-based network management
US20160110544A1 (en) Disabling and initiating nodes based on security issue
US20230009270A1 (en) OPC UA-Based Anomaly Detection and Recovery System and Method
CN113656241B (zh) 一种容器终端全生命周期管控系统及方法
US9280741B2 (en) Automated alerting rules recommendation and selection
CN113489149A (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN106095571A (zh) 多rac集群系统、数据访问方法及装置
JP2017521802A (ja) スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ
WO2017176676A1 (en) Graph-based fusing of heterogeneous alerts
US10110440B2 (en) Detecting network conditions based on derivatives of event trending
Pérez et al. Self-organizing capabilities in 5G networks: NFV & SDN coordination in a complex use case
CN110958267B (zh) 一种虚拟网络内部威胁行为的监测方法及系统
US20230359514A1 (en) Operation-based event suppression
US10237122B2 (en) Methods, systems, and computer readable media for providing high availability support at a bypass switch

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200115

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20200624