JP2017521802A - スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ - Google Patents
スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ Download PDFInfo
- Publication number
- JP2017521802A JP2017521802A JP2017512421A JP2017512421A JP2017521802A JP 2017521802 A JP2017521802 A JP 2017521802A JP 2017512421 A JP2017512421 A JP 2017512421A JP 2017512421 A JP2017512421 A JP 2017512421A JP 2017521802 A JP2017521802 A JP 2017521802A
- Authority
- JP
- Japan
- Prior art keywords
- hierarchy
- supercomputer
- monitoring system
- module
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0847—Transmission error
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/86—Event-based monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
本発明は、計算センタ、特にスーパーコンピュータの分野に関する。本発明は、特に、これらのスーパーコンピュータ、並びにスーパーコンピュータを構成するコンポーネント及び機器の監視に関する。
超高速計算機(又はスーパーコンピュータ)は、特に計算速度の点で、その設計上の周知の技術を用いて可能な限り最高の性能を達成するために設計されるコンピュータである。スーパーコンピュータは、従来のコンピュータに対するそれらの優位性を、使用されるコンポーネントの技術及びそれらのアーキテクチャの両方から引き出す。
本発明の目的は、前に言及した欠点を少なくとも部分的に克服する監視システムを提供することである。より具体的には、本発明は、様々な構成のスーパーコンピュータに、特に「小型」スーパーコンピュータ、「大型」スーパーコンピュータ、及び次世代スーパーコンピュータに適合し得る監視システムを提供することに関する。
− 管理方法は、前記スーパーコンピュータに送信される補正動作をトリガするステップを更に含む。
− 前記イベントは、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導かれる。
− 前記警報は、マン−マシンインターフェースを有するモニタに送信される。
− 補正動作は、前記モニタによって前記スーパーコンピュータに送信される。
− 情報処理システムにロードされると、本発明に従った方法を適用できる命令を含む、コンピュータプログラム。
− 前記階層内のより高い階層レベルのモジュールは、補正動作をトリガし、且つ補正動作を前記スーパーコンピュータに送信するために提供される。
− モジュールは、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロックを更に含む。
− 前記相関エンジンの少なくとも幾つかは、規則体系によって適用される。
− 前記モジュールは、「Syslog」プロトコルに従って通信するために提供される。
− 前記通知は、SNMPプロトコルに従って送信される。
− 少なくとも1つのスーパーコンピュータ及び本発明による監視システムを含む、システム。
− 少なくとも1つのスーパーコンピュータ、本発明による監視システム、及びモニタを含むシステムであって、前記モニタが、前記監視システムから警報を受信するために、且つ前記スーパーコンピュータに補正動作を送信するために提供されるシステム。
図1に示されているように、スーパーコンピュータSC又は超高速計算機は、幾つかのキャビネット又は「ラック」A1、A2からなり、それらのキャビネット又は「ラック」では、様々な機器E1、E2、E3...E8が「引き出し」に配置される。各機器自体は、一般に、多数の電子コンポーネントC1、C2、C3...C6からなる。
Claims (14)
- コンポーネント(C1、C2、C3...C6)のセットを含むスーパーコンピュータ(SC)を管理するための方法であって、
− 前記コンポーネントに関連するセンサによって通知(N)を生成するステップと、
− モジュールの階層を用いて前記通知を処理するステップであって、前記通知が、前記階層の最下位階層レベルの前記モジュール用の着信イベントを形成し、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成するための少なくとも1つの相関エンジンを含む、ステップと
を含む、方法であって、
前記階層内の最上位階層レベルの前記モジュールによって生成された発信イベントから、警報(A)を生成するステップを含む、方法。 - 前記スーパーコンピュータに送信される補正動作(R1)をトリガするステップを更に含む、請求項1に記載の方法。
- 前記イベントが、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導かれる、請求項1又は2に記載の方法。
- 前記警報が、マン−マシンインターフェースを有するモニタ(M)に送信される、請求項1から3のいずれか一項に記載の方法。
- 補正動作(R2)が、前記モニタ(M)によって前記スーパーコンピュータ(SC)に送信される、請求項4に記載の方法。
- 情報処理システムにロードされると、請求項1から5のいずれか一項に記載の方法を適用できる命令を含む、コンピュータプログラム。
- コンポーネント(C1、C2、C3...C6)のセットと、通知(N)を生成する、前記コンポーネントに関連するセンサとを含むスーパーコンピュータ(SC)の監視システム(SS)であって、前記監視システムは、モジュールの階層を含み、各モジュールが、着信イベントを相関させ、且つ前記階層内のより高いレベルの前記モジュールに送信される発信イベントを着信イベントとして生成できる少なくとも1つの相関エンジンを含み、前記センサが、前記階層の最下位階層レベルのモジュールに前記通知を着信イベントとして送信するように構成される、監視システム(SS)であって、前記階層内の最上位階層レベルの前記モジュールが、警報(A)を生成し、且つそれらをモニタ(M)に送信するように構成されることを特徴とする、監視システム(SS)。
- 前記階層内のより高い階層レベルの前記モジュールが、補正動作(R1)をトリガし、且つそれを前記スーパーコンピュータに送信するために提供される、請求項7に記載の監視システム。
- モジュールが、所定の基準に従って、前記少なくとも1つの相関エンジンのうちの1つの相関エンジンに向けて導くことができるフィルタリング及びステアリング機能ブロック(FD)を更に含む、請求項7又は8に記載の監視システム。
- 前記相関エンジンの少なくとも幾つかが、規則体系によって適用される、請求項7から9のいずれか一項に記載の監視システム。
- 前記モジュールが、「Syslog」プロトコルに従って通信するために提供される、請求項7から10のいずれか一項に記載の監視システム。
- 前記通知(N)が、SNMPプロトコルに従って送信されるように適合される、請求項7から11のいずれか一項に記載の監視システム。
- 少なくとも1つのスーパーコンピュータ(SC)及び請求項7から12のいずれか一項に記載の監視システム(SS)を含む、システム。
- 少なくとも1つのスーパーコンピュータ(SC)、請求項7〜12のいずれか一項に記載の監視システム(SS)、及びモニタ(M)を含むシステムであって、前記モニタが、前記監視システム(SS)から警報(A)を受信するために、且つ前記スーパーコンピュータに補正動作(R2)を送信するために提供される、システム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1454397A FR3021138B1 (fr) | 2014-05-16 | 2014-05-16 | Architecture de correlation d'evenements pour la surveillance de supercalculateur |
| FR1454397 | 2014-05-16 | ||
| PCT/EP2015/060531 WO2015173274A1 (fr) | 2014-05-16 | 2015-05-12 | Architecture de correlation d'evenements pour la surveillance de supercalculateur |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017521802A true JP2017521802A (ja) | 2017-08-03 |
Family
ID=52423777
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017512421A Ceased JP2017521802A (ja) | 2014-05-16 | 2015-05-12 | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US10528402B2 (ja) |
| EP (1) | EP3143505B1 (ja) |
| JP (1) | JP2017521802A (ja) |
| FR (1) | FR3021138B1 (ja) |
| IL (1) | IL248953A0 (ja) |
| WO (1) | WO2015173274A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR3040095B1 (fr) * | 2015-08-13 | 2019-06-14 | Bull Sas | Systeme de surveillance pour supercalculateur utilisant des donnees topologiques |
| US11108620B2 (en) * | 2019-11-05 | 2021-08-31 | At&T Intellectual Property I, L.P. | Multi-dimensional impact detect and diagnosis in cellular networks |
| FR3113962A1 (fr) * | 2020-09-10 | 2022-03-11 | CS GROUP - France | Procédé et système de surveillance d’un système informatique |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003330758A (ja) * | 2002-05-09 | 2003-11-21 | Nec Corp | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム |
| US20070283002A1 (en) * | 2006-05-31 | 2007-12-06 | Christof Bornhoevd | Modular monitor service for smart item monitoring |
| JP2008131386A (ja) * | 2006-11-21 | 2008-06-05 | Canon Inc | 情報処理装置 |
| JP2010073123A (ja) * | 2008-09-22 | 2010-04-02 | Nec Corp | ログ管理装置、システム、方法、及びプログラム |
| JP2011014073A (ja) * | 2009-07-06 | 2011-01-20 | Nec Computertechno Ltd | ログ管理システム、ログ管理方法、ログ収集部及びプログラム |
| JP2012043121A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 運用管理システム、運用管理方法及び運用管理装置 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5864662A (en) * | 1996-06-28 | 1999-01-26 | Mci Communication Corporation | System and method for reported root cause analysis |
| FR2802663B1 (fr) * | 1999-12-21 | 2002-01-25 | Bull Sa | Procede de correlation d'alarmes dans un systeme d'administration hierarchisee |
| WO2002023338A2 (en) * | 2000-09-18 | 2002-03-21 | Tenor Networks, Inc. | System resource availability manager |
| US20040144927A1 (en) * | 2003-01-28 | 2004-07-29 | Auner Gregory W. | Microsystems arrays for digital radiation imaging and signal processing and method for making microsystem arrays |
| US7184777B2 (en) * | 2002-11-27 | 2007-02-27 | Cognio, Inc. | Server and multiple sensor system for monitoring activity in a shared radio frequency band |
| US7889070B2 (en) * | 2006-10-17 | 2011-02-15 | At&T Intellectual Property I, L.P. | Methods, systems, devices and computer program products for transmitting medical information from mobile personal medical devices |
| US8549157B2 (en) * | 2007-04-23 | 2013-10-01 | Mcafee, Inc. | Transparent secure socket layer |
| US20080281607A1 (en) * | 2007-05-13 | 2008-11-13 | System Services, Inc. | System, Method and Apparatus for Managing a Technology Infrastructure |
| US9131266B2 (en) * | 2012-08-10 | 2015-09-08 | Qualcomm Incorporated | Ad-hoc media presentation based upon dynamic discovery of media output devices that are proximate to one or more users |
| CN103986743A (zh) * | 2013-02-07 | 2014-08-13 | 伊姆西公司 | 用于在物联网中采集数据的方法、装置和系统 |
| US10154321B2 (en) * | 2014-05-26 | 2018-12-11 | Agt International Gmbh | System and method for registering sensors used in monitoring-systems |
-
2014
- 2014-05-16 FR FR1454397A patent/FR3021138B1/fr active Active
-
2015
- 2015-05-12 US US15/311,576 patent/US10528402B2/en active Active
- 2015-05-12 JP JP2017512421A patent/JP2017521802A/ja not_active Ceased
- 2015-05-12 EP EP15724199.3A patent/EP3143505B1/fr active Active
- 2015-05-12 WO PCT/EP2015/060531 patent/WO2015173274A1/fr not_active Ceased
-
2016
- 2016-11-14 IL IL248953A patent/IL248953A0/en unknown
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003330758A (ja) * | 2002-05-09 | 2003-11-21 | Nec Corp | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム |
| US20070283002A1 (en) * | 2006-05-31 | 2007-12-06 | Christof Bornhoevd | Modular monitor service for smart item monitoring |
| JP2008131386A (ja) * | 2006-11-21 | 2008-06-05 | Canon Inc | 情報処理装置 |
| JP2010073123A (ja) * | 2008-09-22 | 2010-04-02 | Nec Corp | ログ管理装置、システム、方法、及びプログラム |
| JP2011014073A (ja) * | 2009-07-06 | 2011-01-20 | Nec Computertechno Ltd | ログ管理システム、ログ管理方法、ログ収集部及びプログラム |
| JP2012043121A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 運用管理システム、運用管理方法及び運用管理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20170091000A1 (en) | 2017-03-30 |
| US10528402B2 (en) | 2020-01-07 |
| FR3021138A1 (fr) | 2015-11-20 |
| IL248953A0 (en) | 2017-01-31 |
| WO2015173274A1 (fr) | 2015-11-19 |
| EP3143505A1 (fr) | 2017-03-22 |
| FR3021138B1 (fr) | 2017-10-06 |
| EP3143505B1 (fr) | 2023-04-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111787073B (zh) | 一种统一服务的限流熔断平台及其方法 | |
| US11265336B2 (en) | Detecting anomalies in networks | |
| US10616044B1 (en) | Event based service discovery and root cause analysis | |
| CN108964960B (zh) | 一种告警事件的处理方法及装置 | |
| US10686807B2 (en) | Intrusion detection system | |
| CN105191257B (zh) | 用于检测多阶段事件的方法和装置 | |
| CN113748660A (zh) | 用于处理指示在经由网络传输的流量中检测到异常的警报消息的方法和装置 | |
| Cotroneo et al. | A fault correlation approach to detect performance anomalies in virtual network function chains | |
| KR102365839B1 (ko) | 애플리케이션 성능 모니터링 방법 및 장치 | |
| JP2010537563A (ja) | 状態の遠隔監視制御装置 | |
| CN105264861A (zh) | 用于检测多阶段事件的方法和设备 | |
| US10728085B1 (en) | Model-based network management | |
| US20160110544A1 (en) | Disabling and initiating nodes based on security issue | |
| US20230009270A1 (en) | OPC UA-Based Anomaly Detection and Recovery System and Method | |
| CN113656241B (zh) | 一种容器终端全生命周期管控系统及方法 | |
| US9280741B2 (en) | Automated alerting rules recommendation and selection | |
| CN113489149A (zh) | 基于实时状态感知的电网监控系统业务主节点选取方法 | |
| CN106095571A (zh) | 多rac集群系统、数据访问方法及装置 | |
| JP2017521802A (ja) | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ | |
| WO2017176676A1 (en) | Graph-based fusing of heterogeneous alerts | |
| US10110440B2 (en) | Detecting network conditions based on derivatives of event trending | |
| Pérez et al. | Self-organizing capabilities in 5G networks: NFV & SDN coordination in a complex use case | |
| CN110958267B (zh) | 一种虚拟网络内部威胁行为的监测方法及系统 | |
| US20230359514A1 (en) | Operation-based event suppression | |
| US10237122B2 (en) | Methods, systems, and computer readable media for providing high availability support at a bypass switch |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170117 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190130 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190423 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190514 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190913 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191112 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191217 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191223 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200115 |
|
| A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20200624 |