JP2000353154A

JP2000353154A - 障害監視システム

Info

Publication number: JP2000353154A
Application number: JP11163567A
Authority: JP
Inventors: Tomoaki Nagano; 知明長野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-06-10
Filing date: 1999-06-10
Publication date: 2000-12-19

Abstract

(57)【要約】【課題】大規模並列計算機システムにおいて、システ
ム内で生じた障害を発生時系列順に正確に把握する。【解決手段】それぞれが独立した計算機である複数の
ノードと、上記ノード間の信号経路を切り換えるクロス
バデータスイッチと、上記クロスバデータスイッチの駆
動を制御するクロスバ制御装置と、上記ノードおよび上
記クロスバデータスイッチおよび上記クロスバ制御装置
に接続され、障害を監視するとともに障害を検出すると
直ちに所定の障害情報を出力するスレーブ・サービスプ
ロセッサと、上記障害情報を受信することにより、障害
の発生時系列を監視するマスタ・サービスプロセッサと
を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、障害監視システム
に関し、特に大規模並列計算機システムで使用される障
害監視システムに関するものである。

【０００２】

【従来の技術】従来より、大規模並列計算機システムを
使って、流れの数値シミュレーション等の大規模数値計
算が行われている。すなわち、連立一次方程式等の計算
を複数の計算機（以下、ノードという）に分担させて行
うことにより、計算の高速化を図っている。このような
大規模並列計算機の一例としては、例えば日本電株式会
社製のスーパーコンピュータＳＸ−５シリーズがあり、
これは１６個のＣＰＵを搭載したノードを最大で３２個
設置することにより、４ＴＦＬＯＰＳの演算性能を実現
している。

【０００３】ところで、このような大規模並列計算機シ
ステムは一般的に、システム内で発生する障害の監視お
よび復旧を行うため、サービスプロセッサと呼ばれる障
害監視装置が設置されている。サービスプロセッサは、
システム内に複数設置されるのが一般的であり、システ
ムを構成する各装置（例えばノード、クロスバデータス
イッチ、クロスバ制御装置等）毎に設けられたり、また
は、システム内の装置を複数のグループに分けたものに
それぞれ設けられたりしている。したがって、各サービ
スプロセッサは、担当する装置（または装置群）の障害
監視をそれぞれが独立して行い、個別にハードディスク
ドライブ等に障害情報を記憶保持している。

【０００４】システムで発生する障害としては、例えば
ノード内におけるＣＰＵのレジスタの故障等がある。レ
ジスタに故障が発生すると、その故障したノードにおけ
る計算が最初に破綻し、上述のとおり並列計算では各ノ
ードで行われている計算は互いに関連しているため、一
つのノードでの計算の破綻が次々その他のノードに伝搬
し、一瞬にしてシステム全体の計算が停止することにな
る。

【０００５】このような事態が生じてしまった場合、停
止した計算を復旧するためには、故障したノードを早期
に特定し、ＣＰＵの交換等を行う必要がある。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
並列計算機システムでは、複数のサービスプロセッサが
独立して機能しているため、障害情報の発生時系列を一
意に判別するのが困難という問題がある。すなわち、各
サービスプロセッサ内では、障害情報に障害発生時刻を
付加したものを、ハードディスクドライブ等に記録する
のだが、各サービスプロセッサに内蔵されている時計が
完全に同期しているとは限らないため、事故の後で障害
情報を調べた際に、時間的に近接して発生した障害の発
生順序が不明になる場合がある。

【０００７】また、仮に各サービスプロセッサの時計が
完全に同期していたとしても、時間計測の分解能内で発
生した障害に関しては、障害発生の順序を正確に把握す
るのは困難である。

【０００８】本発明は、このような課題を解決するため
のものであり、大規模並列計算機システムにおいて、シ
ステム内で生じた障害を発生時系列順に正確に把握する
ことができる障害監視システムを提供することを目的と
する。

【０００９】

【課題を解決するための手段】このような目的を達成す
るために、本発明に係る障害監視システムは、それぞれ
が独立した計算機である複数のノードと、上記ノード間
の信号経路を切り換えるクロスバデータスイッチと、上
記クロスバデータスイッチの駆動を制御するクロスバ制
御装置と、上記ノードおよび上記クロスバデータスイッ
チおよび上記クロスバ制御装置に接続され、障害を監視
するとともに障害を検出すると直ちに所定の障害情報を
出力するスレーブ・サービスプロセッサと、上記障害情
報を受信することにより、障害の発生時系列を監視する
マスタ・サービスプロセッサとを備えたものである。

【００１０】また、本発明のその他の態様として以下の
ようなものもある。すなわち、上記スレーブ・サービス
プロセッサは、上記障害情報を記録するためのハードデ
ィスクドライブを有してもよい。また、上記マスタ・サ
ービスプロセッサは、上記障害情報を記録するためのハ
ードディスクドライブを有してもよい。また、上記障害
情報は、報告元のスレーブ・サービスプロセッサの番号
と、障害の発生した装置の番号と、報告元における障害
の登録番号とで構成されていてもよい。また、上記障害
情報は、障害の度合いを示す番号をさらに有してもよ
い。さらに、上記障害監視システムは、大規模並列計算
機システムに適用されてもよい。

【００１１】

【発明の実施の形態】次に、本発明の一つの実施の形態
について図を用いて説明する。図１は、本発明の一つの
実施の形態を示すブロック図である。同図に示すよう
に、本実施の形態に係る障害監視システムは、複数のノ
ード１０と、複数のクロスバデータスイッチ２０と、１
台のクロスバ制御装置３０と、ハードディスクドライブ
４０ａを備えた複数のスレーブ・サービスプロセッサ４
０と、ハードディスクドライブ５０ａを備えた１台のマ
スタ・サービスプロセッサ５０とで構成されている。

【００１２】ノード１０は、単数または複数のＣＰＵを
搭載した計算機であり、ノード毎に独立した計算機とし
て機能する。同図ではノード０〜７の計８台が設置され
ている。

【００１３】クロスバデータスイッチ２０は、各ノード
１０間に接続され、ノード間を伝送される信号の経路を
切り換える装置である。したがって、各ノード１０は、
クロスバデータスイッチ２０によって、ノード１０間に
おけるデータの送受信およびプロセッサ間通信を行うこ
とが可能となる。同図ではクロスバデータスイッチ０〜
３の計４台が設置されている。また、システム内に存在
する各ノード１０およびクロスバデータスイッチ２０
は、ノード１０とクロスバデータスイッチ２０とを仲介
する通信線とは独立した障害処理専用の通信線により、
スレーブＳＶＰ４０と接続されている

【００１４】クロスバ制御装置３０は、各ノードに接続
され、クロスバデータスイッチ２０の駆動を制御する装
置である。

【００１５】ハードディスクドライブ（以下、ＨＤＤと
いう）４０ａを備えたスレーブ・サービスプロセッサ
（以下、スレーブＳＶＰという）２０は、システム内の
各装置に接続され、障害監視を行う障害処理装置であ
る。そして、障害を発見すると後述の障害情報を出力
し、ＨＤＤ４０ａに記憶保持するとともにマスタＳＶＰ
５０に対して送信する。同図ではスレーブＳＶＰ０〜４
の計５台が設置され、ノード１０およびクロスバデータ
スイッチ２０およびクロスバ制御装置３０に接続されて
いる。

【００１６】ＨＤＤ５０ａを備えたマスタ・サービスプ
ロセッサ（以下、マスタＳＶＰという）５０は、スレー
ブＳＶＰ４０から送られてくる障害情報を受信し、シス
テム全体における障害を監視する統合障害処理装置であ
る。したがって、マスタＳＶＰ５０は、全てのスレーブ
ＳＶＰ４０に接続され、受信した障害情報をＨＤＤ５０
ａに記憶保持する。

【００１７】このように、本実施の形態に係る障害監視
システムは、複数のノード１０と、ノード間クロスバネ
ットワーク装置（クロスバデータスイッチ２０およびク
ロスバ制御装置３０）と、複数の障害処理装置（スレー
ブＳＶＰ４０およびマスタＳＶＰ５０）とで構成された
マルチノード型コンピュータシステムである。

【００１８】また、これらシステムを構成するノード１
０、クロスバデータスイッチ２０、クロスバ制御装置３
０、スレーブＳＶＰ４０およびマスタＳＶＰ５０には、
それぞれシステム内で固有の装置番号が付与されてい
る。したがって、各スレーブＳＶＰ４０は、同一の装置
番号テーブル（表１）を用いて障害処理を行う。

【００１９】［表１］ ──────────────────── 装置名装置番号 ──────────────────── マスタＳＶＰ０００スレーブＳＶＰ００１０スレーブＳＶＰ１０１１スレーブＳＶＰ２０１２スレーブＳＶＰ３０１３スレーブＳＶＰ４０１４ノード００２０ノード１０２１ノード２０２２ノード３０２３ノード４０２４ノード５０２５ノード６０２６ノード７０２７クロスバ制御装置０３０クロスバデータスイッチ００３１クロスバデータスイッチ１０３２クロスバデータスイッチ２０３３クロスバデータスイッチ３０３４ ────────────────────

【００２０】次に、本発明の動作について説明する。

【００２１】［単一の障害が発生した場合］ここでは、
障害情報の採取処理の流れを、単一のノードに障害が発
生した場合（図１のノード７に障害が発生したものとす
る）を例にして説明する。

【００２２】まず、ノード７の障害を監視するスレーブ
ＳＶＰ４は、ノード７で障害の発生を検出すると、マス
タＳＶＰ５０に対して障害情報を送信する。すなわち、
このスレーブＳＶＰ４の装置番号「０１４」と、障害の
発生したノード７の装置番号「０２７」と、スレーブＳ
ＶＰ４が管理する障害情報のシーケンシャルな登録番号
「００００００２５１４」と、障害の度合いを示す番号
「４」とからなる障害情報を送信する。

【００２３】図２は、スレーブＳＶＰ４がマスタＳＶＰ
５０に対して送信する、障害の発生を通知するための通
信内容（障害情報）を示す説明図である。同図におい
て、装置番号は表１に基づいて決定され、障害の度合い
を示す番号は表２に基づいて決定される。

【００２４】［表２］ ──────────────────────────────── 障害の度合い略称番号 ──────────────────────────────── 重度の障害ＣＨＥＣＫ０将来重度の障害となりうる障害ＣＡＵＴＩＯＮ１軽度の障害ＷＡＲＮＩＮＧ２障害以外のシグナルＡＴＴＥＮＴＩＯＮ３ ────────────────────────────────

【００２５】なお、障害の発生時系列のみを知りたい場
合は、障害の度合いを示すコードを付加しなくてもよ
い。障害情報のデータサイズをなるべく小さくした方
が、障害の通知を高速で行う上で都合がよいといえる。
また、伝送上の問題等がなければ、障害情報にその他の
情報を付加してもよい。

【００２６】その後、障害情報を受信したマスタＳＶＰ
５は、受信した障害情報に対して、マスタＳＶＰ５０が
管理するシーケンシャルな登録番号を付与し、さらにマ
スタＳＶＰ５０が管理する時計による時間情報を障害発
生時間として付与して障害登録情報を構成し、マスタＳ
ＶＰ５に接続されているＨＤＤ５ａに記録する。

【００２７】障害登録情報の一例を示すと次のとおりで
ある。左から順に、障害の発生した年月日（マスタＳＶ
Ｐ５０で付加）、障害の発生した時刻（マスタＳＶＰで
付加）、マスタＳＶＰ５０における障害登録番号、障害
を検出したスレーブＳＶＰの番号、障害の発生した装置
名、スレーブＳＶＰにおける障害登録番号、障害の度合
いを示す略称である。Node***はノード１０を示し、IXS
**はクロスバデータスイッチ２０を示す。

【００２８】 99-02-15 20:51:40 0000005409 SVP02 Node000 0000001027 WARNING 99-02-15 21:35:48 0000005410 SVP03 Node005 0000000873 ATTENTION 99-02-15 23:54:39 0000005411 SVP04 Node006 0000001354 WARNING 99-02-16 01:15:42 0000005412 SVP00 IXS00 0000001161 CAUTION 99-02-16 10:38:09 0000005413 SVP00 IXS11 0000001162 CHECK 99-02-16 11:22:50 0000005414 SVP03 Node004 0000000874 ATTENTION 99-02-17 11:22:47 0000005415 SVP02 Node000 0000001028 CAUTION 99-02-18 15:23:53 0000005416 SVP02 Node002 0000001029 WARNING 99-02-19 14:16:50 0000005417 SVP04 Node006 0000001355 ATTENTION

【００２９】図３は、マスタＳＶＰとスレーブＳＶＰと
がそれぞれ記憶している障害情報を示す説明図である。
同図に示すように、マスタＳＶＰ５は、障害報告通知元
装置番号と報告元障害情報登録番号とに基づいて、スレ
ーブＳＶＰ４の管理する詳細な障害情報を参照すること
ができる。また、スレーブＳＶＰ４では、マスタＳＶＰ
５０への障害発生通知を行った後、ノード７から詳細な
障害内容の収集を行い、収集された詳細な障害情報をス
レーブＳＶＰ４に付属のＨＤＤ４０ａに記録する。

【００３０】以上においては、単一の障害が発生した場
合における障害情報の収集手順について説明したが、複
数の装置が連続して障害を起こした場合も、同様の手順
をとることにより対処することができる。

【００３１】［複数の障害が同時に発生した場合］例え
ばノード７とクロスバデータスイッチ２とが連続して障
害を起こした場合について説明する。

【００３２】まず、ノード７に対応するスレーブＳＶＰ
４が、マスタＳＶＰ５０に対して、報告元のスレーブＳ
ＶＰ４の装置番号「０１４」と、障害の発生した装置の
番号「０２７」と、報告元の障害登録番号とを送信し、
ノード７における詳細な障害情報の収集を開始する。マ
スタＳＶＰ５０は、通知された障害情報に対して、統合
障害登録番号と通知を受け取った時刻とを付加してＨＤ
Ｄ５０ａに障害登録情報として記録する。

【００３３】次いで、クロスバデータスイッチ２で障害
が起こり、対応するスレーブＳＶＰ２が、マスタＳＶＰ
５０に対して、報告元のスレーブＳＶＰ１の装置番号
「０１１」と、障害の発生した装置の番号「０３３」
と、報告元の障害登録番号とを送信する。マスタＳＶＰ
５０は、受信した障害情報に、マスタＳＶＰ５０内にお
ける統合障害登録番号と通知を受け取った時刻とを付加
してからＨＤＤ５０ａに記録する。

【００３４】なお、マスタＳＶＰ５０が記録する障害情
報は、図３に示すように非常にシンプルであり、そのデ
ータサイズも小さなものである。したがって、短時間で
障害情報はマスタＳＶＰ５０に送信され、またマスタＳ
ＶＰ５０は１つの障害を短時間で処理することができ
る。ノード７とクロスバデータスイッチ２が連続して障
害を起こし、二つの障害が発生する時間間隔が非常に小
さい場合においても、マスタＳＶＰ５０上で処理のバッ
ティングが起こる可能性は非常に小さく、障害発生時刻
の刻印は障害発生とほぼ同時に行われる。

【００３５】図４は、図１に係る障害監視システムの詳
細を示すブロック図である。同図に示すように、ノード
１０は、ノード１０内に故障を検出すると１ビットの信
号を出力する故障検出回路１０ａと、レジスタ１０ｂ，
１０ｄと、オア回路１０ｃとで構成されている。スレー
ブＳＶＰ４０は、レジスタ４０ｂ，４０ｅと、ノード番
号に応じて設定された符号を出力するデコーダ４０ｃ
と、セレクタ４０ｄとで構成されている。マスタＳＶＰ
５０は、レジスタ５０ｂと、セレクタ５０ｃと、ＦＩＦ
Ｏ（First In First Out）のバッファ５０ｄとで構成さ
れている。

【００３６】この障害監視システムの動作は以下のとお
りである。故障検出回路１０ａによって、ノード１０内
の故障が検出されると直ちに、１ビットの信号がレジス
タ１０ｂ、オア回路１０ｃおよびレジスタ１０ｄを介し
て出力される。出力された信号はスレーブＳＶＰ４０の
レジスタ４０ｂを介してデコーダ４０ｃに入力される。
デコーダ４０ｃは、接続されているノード毎に一意の符
号が出力されるように設定されている。

【００３７】また、レジスタ４０ｂの出力は、デコーダ
４０ｃだけでなくセレクタ４０ｄの制御端子にも入力さ
れ、セレクタ４０ｄは、入力のあった経路をレジスタ４
０ｅに接続する。したがって、スレーブＳＶＰ４０に最
初に到着した信号のみが、マスタＳＶＰ５０に入力され
ることになる。スレーブＳＶＰ４０から出力された信号
は、マスタＳＶＰ５０のレジスタ５０ｂおよびセレクタ
５０ｃを介してＦＩＦＯのバッファ５０ｄに格納され
る。セレクタ５０ｃの働きは上述のセレクタ４０ｄと同
様である。また、バッファ５０ｄは、ＲＡＭ等の記憶装
置であり、ＨＤＤ５０ａよりも高速に読み書き可能であ
る。したがって、短時間の間に集中的に送られてくる故
障通知信号（障害情報）は、とりあえずバッファ５０ｄ
に書き込まれた後、ＨＤＤ５０ａに書き込まれる。

【００３８】なお、以上の故障検出のための構成および
手順は、クロスバデータスイッチ２０、クロスバ制御装
置３０およびシステム内のその他の回路においても同様
である。また、スレーブＳＶＰとマスタＳＶＰとを結ぶ
各線路（メタリック・ケーブルまたは光ファイバ・ケー
ブル）のクロック・スキューは、何れも等しくなるよう
に調整されている。

【００３９】

【発明の効果】以上説明したとおり本発明は、ノードお
よびクロスバデータスイッチおよびクロスバ制御装置に
設けられ、障害を監視するとともに障害を発見すると直
ちに障害情報を出力するスレーブ・サービスプロセッサ
と、スレーブ・サービスプロセッサからの障害情報を受
信することにより、障害の発生時系列を監視するマスタ
・サービスプロセッサとを有する。

【００４０】このように構成することにより本発明は、
コンピュータシステム内で発生したすべての障害の登録
を最終的に一つの装置であるマスタＳＶＰが行うため、
障害発生順序が一意に判別可能な状態で保存される。

【００４１】また、詳細な障害情報の収集および蓄積
を、それぞれシステムを構成する装置に接続された障害
処理装置に任すため、複数の障害が近接して発生した場
合でも、特定の障害処理装置に負荷および情報が集中す
る可能性が低くなり、負荷分散が行われる。

【図面の簡単な説明】

【図１】本発明の一つの実施の形態を示すブロック図
である。

【図２】スレーブＳＶＰからマスタＳＶＰへ送信され
る障害情報を示す説明図である。

【図３】マスタＳＶＰおよびスレーブＳＶＰ内に登録
されているデータを示す説明図である。

【図４】図１に係る障害監視システムの詳細を示すブ
ロック図である。

【符号の説明】

１０…ノード、２０…クロスバデータスイッチ、３０…
クロスバ制御装置、４０…スレーブ・サービスプロセッ
サ（スレーブＳＶＰ）、５０…マスタ・サービスプロセ
ッサ（マスタＳＶＰ）、１０ａ…故障検出回路、１０
ｂ，１０ｄ…レジスタ、１０ｃ…オア回路、４０ｂ，４
０ｅ…レジスタ、４０ｃ…デコーダ、４０ｄ…セレク
タ、５０ｂ…レジスタ、５０ｃ…セレクタ、５０ｄ…バ
ッファ、４０ａ，５０ａ…ハードディスクドライブ。

Claims

【特許請求の範囲】

【請求項１】それぞれが独立した計算機である複数の
ノードと、前記ノード間の信号経路を切り換えるクロスバデータス
イッチと、前記クロスバデータスイッチの駆動を制御するクロスバ
制御装置と、前記ノードおよび前記クロスバデータスイッチおよび前
記クロスバ制御装置に接続され、障害を監視するととも
に障害を検出すると直ちに所定の障害情報を出力するス
レーブ・サービスプロセッサと、前記障害情報を受信することにより、障害の発生時系列
を監視するマスタ・サービスプロセッサとを備えたこと
を特徴とする障害監視システム。
【請求項２】請求項１において、前記スレーブ・サービスプロセッサは、前記障害情報を
記録するためのハードディスクドライブを有することを
特徴とする障害監視システム。
【請求項３】請求項１において、前記マスタ・サービスプロセッサは、前記障害情報を記
録するためのハードディスクドライブを有することを特
徴とする障害監視システム。
【請求項４】請求項１において、前記障害情報は、報告元のスレーブ・サービスプロセッ
サの番号と、障害の発生した装置の番号と、報告元にお
ける障害の登録番号とで構成されていることを特徴とす
る障害監視システム。
【請求項５】請求項４において、前記障害情報は、障害の度合いを示す番号をさらに有す
ることを特徴とする障害監視システム。
【請求項６】請求項１ないし請求項５の何れか一項に
おいて、前記障害監視システムは、大規模並列計算機システムに
適用されることを特徴とする障害監視システム。