JP2000353154A - 障害監視システム - Google Patents
障害監視システムInfo
- Publication number
- JP2000353154A JP2000353154A JP11163567A JP16356799A JP2000353154A JP 2000353154 A JP2000353154 A JP 2000353154A JP 11163567 A JP11163567 A JP 11163567A JP 16356799 A JP16356799 A JP 16356799A JP 2000353154 A JP2000353154 A JP 2000353154A
- Authority
- JP
- Japan
- Prior art keywords
- fault
- failure
- svp
- monitoring system
- slave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
Abstract
(57)【要約】
【課題】 大規模並列計算機システムにおいて、システ
ム内で生じた障害を発生時系列順に正確に把握する。 【解決手段】 それぞれが独立した計算機である複数の
ノードと、上記ノード間の信号経路を切り換えるクロス
バデータスイッチと、上記クロスバデータスイッチの駆
動を制御するクロスバ制御装置と、上記ノードおよび上
記クロスバデータスイッチおよび上記クロスバ制御装置
に接続され、障害を監視するとともに障害を検出すると
直ちに所定の障害情報を出力するスレーブ・サービスプ
ロセッサと、上記障害情報を受信することにより、障害
の発生時系列を監視するマスタ・サービスプロセッサと
を備える。
ム内で生じた障害を発生時系列順に正確に把握する。 【解決手段】 それぞれが独立した計算機である複数の
ノードと、上記ノード間の信号経路を切り換えるクロス
バデータスイッチと、上記クロスバデータスイッチの駆
動を制御するクロスバ制御装置と、上記ノードおよび上
記クロスバデータスイッチおよび上記クロスバ制御装置
に接続され、障害を監視するとともに障害を検出すると
直ちに所定の障害情報を出力するスレーブ・サービスプ
ロセッサと、上記障害情報を受信することにより、障害
の発生時系列を監視するマスタ・サービスプロセッサと
を備える。
Description
【0001】
【発明の属する技術分野】本発明は、障害監視システム
に関し、特に大規模並列計算機システムで使用される障
害監視システムに関するものである。
に関し、特に大規模並列計算機システムで使用される障
害監視システムに関するものである。
【0002】
【従来の技術】従来より、大規模並列計算機システムを
使って、流れの数値シミュレーション等の大規模数値計
算が行われている。すなわち、連立一次方程式等の計算
を複数の計算機(以下、ノードという)に分担させて行
うことにより、計算の高速化を図っている。このような
大規模並列計算機の一例としては、例えば日本電株式会
社製のスーパーコンピュータSX−5シリーズがあり、
これは16個のCPUを搭載したノードを最大で32個
設置することにより、4TFLOPSの演算性能を実現
している。
使って、流れの数値シミュレーション等の大規模数値計
算が行われている。すなわち、連立一次方程式等の計算
を複数の計算機(以下、ノードという)に分担させて行
うことにより、計算の高速化を図っている。このような
大規模並列計算機の一例としては、例えば日本電株式会
社製のスーパーコンピュータSX−5シリーズがあり、
これは16個のCPUを搭載したノードを最大で32個
設置することにより、4TFLOPSの演算性能を実現
している。
【0003】ところで、このような大規模並列計算機シ
ステムは一般的に、システム内で発生する障害の監視お
よび復旧を行うため、サービスプロセッサと呼ばれる障
害監視装置が設置されている。サービスプロセッサは、
システム内に複数設置されるのが一般的であり、システ
ムを構成する各装置(例えばノード、クロスバデータス
イッチ、クロスバ制御装置等)毎に設けられたり、また
は、システム内の装置を複数のグループに分けたものに
それぞれ設けられたりしている。したがって、各サービ
スプロセッサは、担当する装置(または装置群)の障害
監視をそれぞれが独立して行い、個別にハードディスク
ドライブ等に障害情報を記憶保持している。
ステムは一般的に、システム内で発生する障害の監視お
よび復旧を行うため、サービスプロセッサと呼ばれる障
害監視装置が設置されている。サービスプロセッサは、
システム内に複数設置されるのが一般的であり、システ
ムを構成する各装置(例えばノード、クロスバデータス
イッチ、クロスバ制御装置等)毎に設けられたり、また
は、システム内の装置を複数のグループに分けたものに
それぞれ設けられたりしている。したがって、各サービ
スプロセッサは、担当する装置(または装置群)の障害
監視をそれぞれが独立して行い、個別にハードディスク
ドライブ等に障害情報を記憶保持している。
【0004】システムで発生する障害としては、例えば
ノード内におけるCPUのレジスタの故障等がある。レ
ジスタに故障が発生すると、その故障したノードにおけ
る計算が最初に破綻し、上述のとおり並列計算では各ノ
ードで行われている計算は互いに関連しているため、一
つのノードでの計算の破綻が次々その他のノードに伝搬
し、一瞬にしてシステム全体の計算が停止することにな
る。
ノード内におけるCPUのレジスタの故障等がある。レ
ジスタに故障が発生すると、その故障したノードにおけ
る計算が最初に破綻し、上述のとおり並列計算では各ノ
ードで行われている計算は互いに関連しているため、一
つのノードでの計算の破綻が次々その他のノードに伝搬
し、一瞬にしてシステム全体の計算が停止することにな
る。
【0005】このような事態が生じてしまった場合、停
止した計算を復旧するためには、故障したノードを早期
に特定し、CPUの交換等を行う必要がある。
止した計算を復旧するためには、故障したノードを早期
に特定し、CPUの交換等を行う必要がある。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
並列計算機システムでは、複数のサービスプロセッサが
独立して機能しているため、障害情報の発生時系列を一
意に判別するのが困難という問題がある。すなわち、各
サービスプロセッサ内では、障害情報に障害発生時刻を
付加したものを、ハードディスクドライブ等に記録する
のだが、各サービスプロセッサに内蔵されている時計が
完全に同期しているとは限らないため、事故の後で障害
情報を調べた際に、時間的に近接して発生した障害の発
生順序が不明になる場合がある。
並列計算機システムでは、複数のサービスプロセッサが
独立して機能しているため、障害情報の発生時系列を一
意に判別するのが困難という問題がある。すなわち、各
サービスプロセッサ内では、障害情報に障害発生時刻を
付加したものを、ハードディスクドライブ等に記録する
のだが、各サービスプロセッサに内蔵されている時計が
完全に同期しているとは限らないため、事故の後で障害
情報を調べた際に、時間的に近接して発生した障害の発
生順序が不明になる場合がある。
【0007】また、仮に各サービスプロセッサの時計が
完全に同期していたとしても、時間計測の分解能内で発
生した障害に関しては、障害発生の順序を正確に把握す
るのは困難である。
完全に同期していたとしても、時間計測の分解能内で発
生した障害に関しては、障害発生の順序を正確に把握す
るのは困難である。
【0008】本発明は、このような課題を解決するため
のものであり、大規模並列計算機システムにおいて、シ
ステム内で生じた障害を発生時系列順に正確に把握する
ことができる障害監視システムを提供することを目的と
する。
のものであり、大規模並列計算機システムにおいて、シ
ステム内で生じた障害を発生時系列順に正確に把握する
ことができる障害監視システムを提供することを目的と
する。
【0009】
【課題を解決するための手段】このような目的を達成す
るために、本発明に係る障害監視システムは、それぞれ
が独立した計算機である複数のノードと、上記ノード間
の信号経路を切り換えるクロスバデータスイッチと、上
記クロスバデータスイッチの駆動を制御するクロスバ制
御装置と、上記ノードおよび上記クロスバデータスイッ
チおよび上記クロスバ制御装置に接続され、障害を監視
するとともに障害を検出すると直ちに所定の障害情報を
出力するスレーブ・サービスプロセッサと、上記障害情
報を受信することにより、障害の発生時系列を監視する
マスタ・サービスプロセッサとを備えたものである。
るために、本発明に係る障害監視システムは、それぞれ
が独立した計算機である複数のノードと、上記ノード間
の信号経路を切り換えるクロスバデータスイッチと、上
記クロスバデータスイッチの駆動を制御するクロスバ制
御装置と、上記ノードおよび上記クロスバデータスイッ
チおよび上記クロスバ制御装置に接続され、障害を監視
するとともに障害を検出すると直ちに所定の障害情報を
出力するスレーブ・サービスプロセッサと、上記障害情
報を受信することにより、障害の発生時系列を監視する
マスタ・サービスプロセッサとを備えたものである。
【0010】また、本発明のその他の態様として以下の
ようなものもある。すなわち、上記スレーブ・サービス
プロセッサは、上記障害情報を記録するためのハードデ
ィスクドライブを有してもよい。また、上記マスタ・サ
ービスプロセッサは、上記障害情報を記録するためのハ
ードディスクドライブを有してもよい。また、上記障害
情報は、報告元のスレーブ・サービスプロセッサの番号
と、障害の発生した装置の番号と、報告元における障害
の登録番号とで構成されていてもよい。また、上記障害
情報は、障害の度合いを示す番号をさらに有してもよ
い。さらに、上記障害監視システムは、大規模並列計算
機システムに適用されてもよい。
ようなものもある。すなわち、上記スレーブ・サービス
プロセッサは、上記障害情報を記録するためのハードデ
ィスクドライブを有してもよい。また、上記マスタ・サ
ービスプロセッサは、上記障害情報を記録するためのハ
ードディスクドライブを有してもよい。また、上記障害
情報は、報告元のスレーブ・サービスプロセッサの番号
と、障害の発生した装置の番号と、報告元における障害
の登録番号とで構成されていてもよい。また、上記障害
情報は、障害の度合いを示す番号をさらに有してもよ
い。さらに、上記障害監視システムは、大規模並列計算
機システムに適用されてもよい。
【0011】
【発明の実施の形態】次に、本発明の一つの実施の形態
について図を用いて説明する。図1は、本発明の一つの
実施の形態を示すブロック図である。同図に示すよう
に、本実施の形態に係る障害監視システムは、複数のノ
ード10と、複数のクロスバデータスイッチ20と、1
台のクロスバ制御装置30と、ハードディスクドライブ
40aを備えた複数のスレーブ・サービスプロセッサ4
0と、ハードディスクドライブ50aを備えた1台のマ
スタ・サービスプロセッサ50とで構成されている。
について図を用いて説明する。図1は、本発明の一つの
実施の形態を示すブロック図である。同図に示すよう
に、本実施の形態に係る障害監視システムは、複数のノ
ード10と、複数のクロスバデータスイッチ20と、1
台のクロスバ制御装置30と、ハードディスクドライブ
40aを備えた複数のスレーブ・サービスプロセッサ4
0と、ハードディスクドライブ50aを備えた1台のマ
スタ・サービスプロセッサ50とで構成されている。
【0012】ノード10は、単数または複数のCPUを
搭載した計算機であり、ノード毎に独立した計算機とし
て機能する。同図ではノード0〜7の計8台が設置され
ている。
搭載した計算機であり、ノード毎に独立した計算機とし
て機能する。同図ではノード0〜7の計8台が設置され
ている。
【0013】クロスバデータスイッチ20は、各ノード
10間に接続され、ノード間を伝送される信号の経路を
切り換える装置である。したがって、各ノード10は、
クロスバデータスイッチ20によって、ノード10間に
おけるデータの送受信およびプロセッサ間通信を行うこ
とが可能となる。同図ではクロスバデータスイッチ0〜
3の計4台が設置されている。また、システム内に存在
する各ノード10およびクロスバデータスイッチ20
は、ノード10とクロスバデータスイッチ20とを仲介
する通信線とは独立した障害処理専用の通信線により、
スレーブSVP40と接続されている
10間に接続され、ノード間を伝送される信号の経路を
切り換える装置である。したがって、各ノード10は、
クロスバデータスイッチ20によって、ノード10間に
おけるデータの送受信およびプロセッサ間通信を行うこ
とが可能となる。同図ではクロスバデータスイッチ0〜
3の計4台が設置されている。また、システム内に存在
する各ノード10およびクロスバデータスイッチ20
は、ノード10とクロスバデータスイッチ20とを仲介
する通信線とは独立した障害処理専用の通信線により、
スレーブSVP40と接続されている
【0014】クロスバ制御装置30は、各ノードに接続
され、クロスバデータスイッチ20の駆動を制御する装
置である。
され、クロスバデータスイッチ20の駆動を制御する装
置である。
【0015】ハードディスクドライブ(以下、HDDと
いう)40aを備えたスレーブ・サービスプロセッサ
(以下、スレーブSVPという)20は、システム内の
各装置に接続され、障害監視を行う障害処理装置であ
る。そして、障害を発見すると後述の障害情報を出力
し、HDD40aに記憶保持するとともにマスタSVP
50に対して送信する。同図ではスレーブSVP0〜4
の計5台が設置され、ノード10およびクロスバデータ
スイッチ20およびクロスバ制御装置30に接続されて
いる。
いう)40aを備えたスレーブ・サービスプロセッサ
(以下、スレーブSVPという)20は、システム内の
各装置に接続され、障害監視を行う障害処理装置であ
る。そして、障害を発見すると後述の障害情報を出力
し、HDD40aに記憶保持するとともにマスタSVP
50に対して送信する。同図ではスレーブSVP0〜4
の計5台が設置され、ノード10およびクロスバデータ
スイッチ20およびクロスバ制御装置30に接続されて
いる。
【0016】HDD50aを備えたマスタ・サービスプ
ロセッサ(以下、マスタSVPという)50は、スレー
ブSVP40から送られてくる障害情報を受信し、シス
テム全体における障害を監視する統合障害処理装置であ
る。したがって、マスタSVP50は、全てのスレーブ
SVP40に接続され、受信した障害情報をHDD50
aに記憶保持する。
ロセッサ(以下、マスタSVPという)50は、スレー
ブSVP40から送られてくる障害情報を受信し、シス
テム全体における障害を監視する統合障害処理装置であ
る。したがって、マスタSVP50は、全てのスレーブ
SVP40に接続され、受信した障害情報をHDD50
aに記憶保持する。
【0017】このように、本実施の形態に係る障害監視
システムは、複数のノード10と、ノード間クロスバネ
ットワーク装置(クロスバデータスイッチ20およびク
ロスバ制御装置30)と、複数の障害処理装置(スレー
ブSVP40およびマスタSVP50)とで構成された
マルチノード型コンピュータシステムである。
システムは、複数のノード10と、ノード間クロスバネ
ットワーク装置(クロスバデータスイッチ20およびク
ロスバ制御装置30)と、複数の障害処理装置(スレー
ブSVP40およびマスタSVP50)とで構成された
マルチノード型コンピュータシステムである。
【0018】また、これらシステムを構成するノード1
0、クロスバデータスイッチ20、クロスバ制御装置3
0、スレーブSVP40およびマスタSVP50には、
それぞれシステム内で固有の装置番号が付与されてい
る。したがって、各スレーブSVP40は、同一の装置
番号テーブル(表1)を用いて障害処理を行う。
0、クロスバデータスイッチ20、クロスバ制御装置3
0、スレーブSVP40およびマスタSVP50には、
それぞれシステム内で固有の装置番号が付与されてい
る。したがって、各スレーブSVP40は、同一の装置
番号テーブル(表1)を用いて障害処理を行う。
【0019】[表1] ──────────────────── 装置名 装置番号 ──────────────────── マスタSVP 000 スレーブSVP0 010 スレーブSVP1 011 スレーブSVP2 012 スレーブSVP3 013 スレーブSVP4 014 ノード0 020 ノード1 021 ノード2 022 ノード3 023 ノード4 024 ノード5 025 ノード6 026 ノード7 027 クロスバ制御装置 030 クロスバデータスイッチ0 031 クロスバデータスイッチ1 032 クロスバデータスイッチ2 033 クロスバデータスイッチ3 034 ────────────────────
【0020】次に、本発明の動作について説明する。
【0021】[単一の障害が発生した場合]ここでは、
障害情報の採取処理の流れを、単一のノードに障害が発
生した場合(図1のノード7に障害が発生したものとす
る)を例にして説明する。
障害情報の採取処理の流れを、単一のノードに障害が発
生した場合(図1のノード7に障害が発生したものとす
る)を例にして説明する。
【0022】まず、ノード7の障害を監視するスレーブ
SVP4は、ノード7で障害の発生を検出すると、マス
タSVP50に対して障害情報を送信する。すなわち、
このスレーブSVP4の装置番号「014」と、障害の
発生したノード7の装置番号「027」と、スレーブS
VP4が管理する障害情報のシーケンシャルな登録番号
「0000002514」と、障害の度合いを示す番号
「4」とからなる障害情報を送信する。
SVP4は、ノード7で障害の発生を検出すると、マス
タSVP50に対して障害情報を送信する。すなわち、
このスレーブSVP4の装置番号「014」と、障害の
発生したノード7の装置番号「027」と、スレーブS
VP4が管理する障害情報のシーケンシャルな登録番号
「0000002514」と、障害の度合いを示す番号
「4」とからなる障害情報を送信する。
【0023】図2は、スレーブSVP4がマスタSVP
50に対して送信する、障害の発生を通知するための通
信内容(障害情報)を示す説明図である。同図におい
て、装置番号は表1に基づいて決定され、障害の度合い
を示す番号は表2に基づいて決定される。
50に対して送信する、障害の発生を通知するための通
信内容(障害情報)を示す説明図である。同図におい
て、装置番号は表1に基づいて決定され、障害の度合い
を示す番号は表2に基づいて決定される。
【0024】 [表2] ──────────────────────────────── 障害の度合い 略称 番号 ──────────────────────────────── 重度の障害 CHECK 0 将来重度の障害となりうる障害 CAUTION 1 軽度の障害 WARNING 2 障害以外のシグナル ATTENTION 3 ────────────────────────────────
【0025】なお、障害の発生時系列のみを知りたい場
合は、障害の度合いを示すコードを付加しなくてもよ
い。障害情報のデータサイズをなるべく小さくした方
が、障害の通知を高速で行う上で都合がよいといえる。
また、伝送上の問題等がなければ、障害情報にその他の
情報を付加してもよい。
合は、障害の度合いを示すコードを付加しなくてもよ
い。障害情報のデータサイズをなるべく小さくした方
が、障害の通知を高速で行う上で都合がよいといえる。
また、伝送上の問題等がなければ、障害情報にその他の
情報を付加してもよい。
【0026】その後、障害情報を受信したマスタSVP
5は、受信した障害情報に対して、マスタSVP50が
管理するシーケンシャルな登録番号を付与し、さらにマ
スタSVP50が管理する時計による時間情報を障害発
生時間として付与して障害登録情報を構成し、マスタS
VP5に接続されているHDD5aに記録する。
5は、受信した障害情報に対して、マスタSVP50が
管理するシーケンシャルな登録番号を付与し、さらにマ
スタSVP50が管理する時計による時間情報を障害発
生時間として付与して障害登録情報を構成し、マスタS
VP5に接続されているHDD5aに記録する。
【0027】障害登録情報の一例を示すと次のとおりで
ある。左から順に、障害の発生した年月日(マスタSV
P50で付加)、障害の発生した時刻(マスタSVPで
付加)、マスタSVP50における障害登録番号、障害
を検出したスレーブSVPの番号、障害の発生した装置
名、スレーブSVPにおける障害登録番号、障害の度合
いを示す略称である。Node***はノード10を示し、IXS
**はクロスバデータスイッチ20を示す。
ある。左から順に、障害の発生した年月日(マスタSV
P50で付加)、障害の発生した時刻(マスタSVPで
付加)、マスタSVP50における障害登録番号、障害
を検出したスレーブSVPの番号、障害の発生した装置
名、スレーブSVPにおける障害登録番号、障害の度合
いを示す略称である。Node***はノード10を示し、IXS
**はクロスバデータスイッチ20を示す。
【0028】 99-02-15 20:51:40 0000005409 SVP02 Node000 0000001027 WARNING 99-02-15 21:35:48 0000005410 SVP03 Node005 0000000873 ATTENTION 99-02-15 23:54:39 0000005411 SVP04 Node006 0000001354 WARNING 99-02-16 01:15:42 0000005412 SVP00 IXS00 0000001161 CAUTION 99-02-16 10:38:09 0000005413 SVP00 IXS11 0000001162 CHECK 99-02-16 11:22:50 0000005414 SVP03 Node004 0000000874 ATTENTION 99-02-17 11:22:47 0000005415 SVP02 Node000 0000001028 CAUTION 99-02-18 15:23:53 0000005416 SVP02 Node002 0000001029 WARNING 99-02-19 14:16:50 0000005417 SVP04 Node006 0000001355 ATTENTION
【0029】図3は、マスタSVPとスレーブSVPと
がそれぞれ記憶している障害情報を示す説明図である。
同図に示すように、マスタSVP5は、障害報告通知元
装置番号と報告元障害情報登録番号とに基づいて、スレ
ーブSVP4の管理する詳細な障害情報を参照すること
ができる。また、スレーブSVP4では、マスタSVP
50への障害発生通知を行った後、ノード7から詳細な
障害内容の収集を行い、収集された詳細な障害情報をス
レーブSVP4に付属のHDD40aに記録する。
がそれぞれ記憶している障害情報を示す説明図である。
同図に示すように、マスタSVP5は、障害報告通知元
装置番号と報告元障害情報登録番号とに基づいて、スレ
ーブSVP4の管理する詳細な障害情報を参照すること
ができる。また、スレーブSVP4では、マスタSVP
50への障害発生通知を行った後、ノード7から詳細な
障害内容の収集を行い、収集された詳細な障害情報をス
レーブSVP4に付属のHDD40aに記録する。
【0030】以上においては、単一の障害が発生した場
合における障害情報の収集手順について説明したが、複
数の装置が連続して障害を起こした場合も、同様の手順
をとることにより対処することができる。
合における障害情報の収集手順について説明したが、複
数の装置が連続して障害を起こした場合も、同様の手順
をとることにより対処することができる。
【0031】[複数の障害が同時に発生した場合]例え
ばノード7とクロスバデータスイッチ2とが連続して障
害を起こした場合について説明する。
ばノード7とクロスバデータスイッチ2とが連続して障
害を起こした場合について説明する。
【0032】まず、ノード7に対応するスレーブSVP
4が、マスタSVP50に対して、報告元のスレーブS
VP4の装置番号「014」と、障害の発生した装置の
番号「027」と、報告元の障害登録番号とを送信し、
ノード7における詳細な障害情報の収集を開始する。マ
スタSVP50は、通知された障害情報に対して、統合
障害登録番号と通知を受け取った時刻とを付加してHD
D50aに障害登録情報として記録する。
4が、マスタSVP50に対して、報告元のスレーブS
VP4の装置番号「014」と、障害の発生した装置の
番号「027」と、報告元の障害登録番号とを送信し、
ノード7における詳細な障害情報の収集を開始する。マ
スタSVP50は、通知された障害情報に対して、統合
障害登録番号と通知を受け取った時刻とを付加してHD
D50aに障害登録情報として記録する。
【0033】次いで、クロスバデータスイッチ2で障害
が起こり、対応するスレーブSVP2が、マスタSVP
50に対して、報告元のスレーブSVP1の装置番号
「011」と、障害の発生した装置の番号「033」
と、報告元の障害登録番号とを送信する。マスタSVP
50は、受信した障害情報に、マスタSVP50内にお
ける統合障害登録番号と通知を受け取った時刻とを付加
してからHDD50aに記録する。
が起こり、対応するスレーブSVP2が、マスタSVP
50に対して、報告元のスレーブSVP1の装置番号
「011」と、障害の発生した装置の番号「033」
と、報告元の障害登録番号とを送信する。マスタSVP
50は、受信した障害情報に、マスタSVP50内にお
ける統合障害登録番号と通知を受け取った時刻とを付加
してからHDD50aに記録する。
【0034】なお、マスタSVP50が記録する障害情
報は、図3に示すように非常にシンプルであり、そのデ
ータサイズも小さなものである。したがって、短時間で
障害情報はマスタSVP50に送信され、またマスタS
VP50は1つの障害を短時間で処理することができ
る。ノード7とクロスバデータスイッチ2が連続して障
害を起こし、二つの障害が発生する時間間隔が非常に小
さい場合においても、マスタSVP50上で処理のバッ
ティングが起こる可能性は非常に小さく、障害発生時刻
の刻印は障害発生とほぼ同時に行われる。
報は、図3に示すように非常にシンプルであり、そのデ
ータサイズも小さなものである。したがって、短時間で
障害情報はマスタSVP50に送信され、またマスタS
VP50は1つの障害を短時間で処理することができ
る。ノード7とクロスバデータスイッチ2が連続して障
害を起こし、二つの障害が発生する時間間隔が非常に小
さい場合においても、マスタSVP50上で処理のバッ
ティングが起こる可能性は非常に小さく、障害発生時刻
の刻印は障害発生とほぼ同時に行われる。
【0035】図4は、図1に係る障害監視システムの詳
細を示すブロック図である。同図に示すように、ノード
10は、ノード10内に故障を検出すると1ビットの信
号を出力する故障検出回路10aと、レジスタ10b,
10dと、オア回路10cとで構成されている。スレー
ブSVP40は、レジスタ40b,40eと、ノード番
号に応じて設定された符号を出力するデコーダ40c
と、セレクタ40dとで構成されている。マスタSVP
50は、レジスタ50bと、セレクタ50cと、FIF
O(First In First Out)のバッファ50dとで構成さ
れている。
細を示すブロック図である。同図に示すように、ノード
10は、ノード10内に故障を検出すると1ビットの信
号を出力する故障検出回路10aと、レジスタ10b,
10dと、オア回路10cとで構成されている。スレー
ブSVP40は、レジスタ40b,40eと、ノード番
号に応じて設定された符号を出力するデコーダ40c
と、セレクタ40dとで構成されている。マスタSVP
50は、レジスタ50bと、セレクタ50cと、FIF
O(First In First Out)のバッファ50dとで構成さ
れている。
【0036】この障害監視システムの動作は以下のとお
りである。故障検出回路10aによって、ノード10内
の故障が検出されると直ちに、1ビットの信号がレジス
タ10b、オア回路10cおよびレジスタ10dを介し
て出力される。出力された信号はスレーブSVP40の
レジスタ40bを介してデコーダ40cに入力される。
デコーダ40cは、接続されているノード毎に一意の符
号が出力されるように設定されている。
りである。故障検出回路10aによって、ノード10内
の故障が検出されると直ちに、1ビットの信号がレジス
タ10b、オア回路10cおよびレジスタ10dを介し
て出力される。出力された信号はスレーブSVP40の
レジスタ40bを介してデコーダ40cに入力される。
デコーダ40cは、接続されているノード毎に一意の符
号が出力されるように設定されている。
【0037】また、レジスタ40bの出力は、デコーダ
40cだけでなくセレクタ40dの制御端子にも入力さ
れ、セレクタ40dは、入力のあった経路をレジスタ4
0eに接続する。したがって、スレーブSVP40に最
初に到着した信号のみが、マスタSVP50に入力され
ることになる。スレーブSVP40から出力された信号
は、マスタSVP50のレジスタ50bおよびセレクタ
50cを介してFIFOのバッファ50dに格納され
る。セレクタ50cの働きは上述のセレクタ40dと同
様である。また、バッファ50dは、RAM等の記憶装
置であり、HDD50aよりも高速に読み書き可能であ
る。したがって、短時間の間に集中的に送られてくる故
障通知信号(障害情報)は、とりあえずバッファ50d
に書き込まれた後、HDD50aに書き込まれる。
40cだけでなくセレクタ40dの制御端子にも入力さ
れ、セレクタ40dは、入力のあった経路をレジスタ4
0eに接続する。したがって、スレーブSVP40に最
初に到着した信号のみが、マスタSVP50に入力され
ることになる。スレーブSVP40から出力された信号
は、マスタSVP50のレジスタ50bおよびセレクタ
50cを介してFIFOのバッファ50dに格納され
る。セレクタ50cの働きは上述のセレクタ40dと同
様である。また、バッファ50dは、RAM等の記憶装
置であり、HDD50aよりも高速に読み書き可能であ
る。したがって、短時間の間に集中的に送られてくる故
障通知信号(障害情報)は、とりあえずバッファ50d
に書き込まれた後、HDD50aに書き込まれる。
【0038】なお、以上の故障検出のための構成および
手順は、クロスバデータスイッチ20、クロスバ制御装
置30およびシステム内のその他の回路においても同様
である。また、スレーブSVPとマスタSVPとを結ぶ
各線路(メタリック・ケーブルまたは光ファイバ・ケー
ブル)のクロック・スキューは、何れも等しくなるよう
に調整されている。
手順は、クロスバデータスイッチ20、クロスバ制御装
置30およびシステム内のその他の回路においても同様
である。また、スレーブSVPとマスタSVPとを結ぶ
各線路(メタリック・ケーブルまたは光ファイバ・ケー
ブル)のクロック・スキューは、何れも等しくなるよう
に調整されている。
【0039】
【発明の効果】以上説明したとおり本発明は、ノードお
よびクロスバデータスイッチおよびクロスバ制御装置に
設けられ、障害を監視するとともに障害を発見すると直
ちに障害情報を出力するスレーブ・サービスプロセッサ
と、スレーブ・サービスプロセッサからの障害情報を受
信することにより、障害の発生時系列を監視するマスタ
・サービスプロセッサとを有する。
よびクロスバデータスイッチおよびクロスバ制御装置に
設けられ、障害を監視するとともに障害を発見すると直
ちに障害情報を出力するスレーブ・サービスプロセッサ
と、スレーブ・サービスプロセッサからの障害情報を受
信することにより、障害の発生時系列を監視するマスタ
・サービスプロセッサとを有する。
【0040】このように構成することにより本発明は、
コンピュータシステム内で発生したすべての障害の登録
を最終的に一つの装置であるマスタSVPが行うため、
障害発生順序が一意に判別可能な状態で保存される。
コンピュータシステム内で発生したすべての障害の登録
を最終的に一つの装置であるマスタSVPが行うため、
障害発生順序が一意に判別可能な状態で保存される。
【0041】また、詳細な障害情報の収集および蓄積
を、それぞれシステムを構成する装置に接続された障害
処理装置に任すため、複数の障害が近接して発生した場
合でも、特定の障害処理装置に負荷および情報が集中す
る可能性が低くなり、負荷分散が行われる。
を、それぞれシステムを構成する装置に接続された障害
処理装置に任すため、複数の障害が近接して発生した場
合でも、特定の障害処理装置に負荷および情報が集中す
る可能性が低くなり、負荷分散が行われる。
【図1】 本発明の一つの実施の形態を示すブロック図
である。
である。
【図2】 スレーブSVPからマスタSVPへ送信され
る障害情報を示す説明図である。
る障害情報を示す説明図である。
【図3】 マスタSVPおよびスレーブSVP内に登録
されているデータを示す説明図である。
されているデータを示す説明図である。
【図4】 図1に係る障害監視システムの詳細を示すブ
ロック図である。
ロック図である。
10…ノード、20…クロスバデータスイッチ、30…
クロスバ制御装置、40…スレーブ・サービスプロセッ
サ(スレーブSVP)、50…マスタ・サービスプロセ
ッサ(マスタSVP)、10a…故障検出回路、10
b,10d…レジスタ、10c…オア回路、40b,4
0e…レジスタ、40c…デコーダ、40d…セレク
タ、50b…レジスタ、50c…セレクタ、50d…バ
ッファ、40a,50a…ハードディスクドライブ。
クロスバ制御装置、40…スレーブ・サービスプロセッ
サ(スレーブSVP)、50…マスタ・サービスプロセ
ッサ(マスタSVP)、10a…故障検出回路、10
b,10d…レジスタ、10c…オア回路、40b,4
0e…レジスタ、40c…デコーダ、40d…セレク
タ、50b…レジスタ、50c…セレクタ、50d…バ
ッファ、40a,50a…ハードディスクドライブ。
Claims (6)
- 【請求項1】 それぞれが独立した計算機である複数の
ノードと、 前記ノード間の信号経路を切り換えるクロスバデータス
イッチと、 前記クロスバデータスイッチの駆動を制御するクロスバ
制御装置と、 前記ノードおよび前記クロスバデータスイッチおよび前
記クロスバ制御装置に接続され、障害を監視するととも
に障害を検出すると直ちに所定の障害情報を出力するス
レーブ・サービスプロセッサと、 前記障害情報を受信することにより、障害の発生時系列
を監視するマスタ・サービスプロセッサとを備えたこと
を特徴とする障害監視システム。 - 【請求項2】 請求項1において、 前記スレーブ・サービスプロセッサは、前記障害情報を
記録するためのハードディスクドライブを有することを
特徴とする障害監視システム。 - 【請求項3】 請求項1において、 前記マスタ・サービスプロセッサは、前記障害情報を記
録するためのハードディスクドライブを有することを特
徴とする障害監視システム。 - 【請求項4】 請求項1において、 前記障害情報は、報告元のスレーブ・サービスプロセッ
サの番号と、障害の発生した装置の番号と、報告元にお
ける障害の登録番号とで構成されていることを特徴とす
る障害監視システム。 - 【請求項5】 請求項4において、 前記障害情報は、障害の度合いを示す番号をさらに有す
ることを特徴とする障害監視システム。 - 【請求項6】 請求項1ないし請求項5の何れか一項に
おいて、 前記障害監視システムは、大規模並列計算機システムに
適用されることを特徴とする障害監視システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11163567A JP2000353154A (ja) | 1999-06-10 | 1999-06-10 | 障害監視システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11163567A JP2000353154A (ja) | 1999-06-10 | 1999-06-10 | 障害監視システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000353154A true JP2000353154A (ja) | 2000-12-19 |
Family
ID=15776373
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11163567A Pending JP2000353154A (ja) | 1999-06-10 | 1999-06-10 | 障害監視システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000353154A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2390447A (en) * | 2002-07-02 | 2004-01-07 | Hewlett Packard Co | Fault prediction in logical networks |
| JP2007128285A (ja) * | 2005-11-04 | 2007-05-24 | Nec Corp | マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム |
| US7650532B2 (en) | 2004-10-05 | 2010-01-19 | Hitachi, Ltd. | Storage system |
| JP2010033466A (ja) * | 2008-07-30 | 2010-02-12 | Hitachi Ltd | ストレージ装置及びその制御方法 |
| WO2010064286A1 (ja) * | 2008-12-01 | 2010-06-10 | 富士通株式会社 | 制御回路、情報処理装置及び情報処理装置の制御方法 |
| JP2011076512A (ja) * | 2009-10-01 | 2011-04-14 | Hitachi Solutions Ltd | ジョブ管理サーバーの統合管理システム |
| CN106789155A (zh) * | 2016-11-16 | 2017-05-31 | 深圳市中博睿存科技有限公司 | 元数据仲裁服务器、控制方法和通讯系统 |
-
1999
- 1999-06-10 JP JP11163567A patent/JP2000353154A/ja active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2390447A (en) * | 2002-07-02 | 2004-01-07 | Hewlett Packard Co | Fault prediction in logical networks |
| US7650532B2 (en) | 2004-10-05 | 2010-01-19 | Hitachi, Ltd. | Storage system |
| JP2007128285A (ja) * | 2005-11-04 | 2007-05-24 | Nec Corp | マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム |
| JP2010033466A (ja) * | 2008-07-30 | 2010-02-12 | Hitachi Ltd | ストレージ装置及びその制御方法 |
| WO2010064286A1 (ja) * | 2008-12-01 | 2010-06-10 | 富士通株式会社 | 制御回路、情報処理装置及び情報処理装置の制御方法 |
| JP5152340B2 (ja) * | 2008-12-01 | 2013-02-27 | 富士通株式会社 | 制御回路、情報処理装置及び情報処理装置の制御方法 |
| JP2011076512A (ja) * | 2009-10-01 | 2011-04-14 | Hitachi Solutions Ltd | ジョブ管理サーバーの統合管理システム |
| CN106789155A (zh) * | 2016-11-16 | 2017-05-31 | 深圳市中博睿存科技有限公司 | 元数据仲裁服务器、控制方法和通讯系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4107083B2 (ja) | 高可用ディスク制御装置とその障害処理方法及び高可用ディスクサブシステム | |
| JP4982304B2 (ja) | 電源障害の発生を把握するストレージシステム | |
| US20070226537A1 (en) | Isolating a drive from disk array for diagnostic operations | |
| JP2000353154A (ja) | 障害監視システム | |
| JP2010205216A (ja) | バス変換装置、情報処理装置、制御方法 | |
| WO2019129196A1 (zh) | 电机控制器的容错控制方法、系统及设备、存储介质 | |
| US7627774B2 (en) | Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies | |
| JPH1027115A (ja) | コンピュータシステムの障害情報採取回路 | |
| JP2756315B2 (ja) | 系構成情報の更新制御方式 | |
| JP2633351B2 (ja) | 制御装置の故障検出機構 | |
| JPS6356755A (ja) | スレ−ブプロセツサの異常監視方式 | |
| JP3139160B2 (ja) | 二重化制御システムの制御切替方法 | |
| JPH0635739A (ja) | 切替制御方式 | |
| JPS6113627B2 (ja) | ||
| JPH11250026A (ja) | 並列マルチプロセッサシステムの障害リカバリ方法及び方式 | |
| JP2009003613A (ja) | バス障害検出方法及びバスシステム | |
| JPH1173583A (ja) | 警報収集システム | |
| JP2024121449A (ja) | 状態監視装置、状態監視システム、状態監視方法および状態監視方法のプログラム | |
| JPS63193254A (ja) | 共通入出力バス | |
| JPH05233578A (ja) | 障害装置の縮退方式 | |
| JPH03278213A (ja) | 拡張記憶装置の電源状態遷移検出・報告方法 | |
| JPH07114521A (ja) | マルチマイクロコンピュータシステム | |
| JPH06152570A (ja) | 二重化データ処理装置における系切替え処理方式 | |
| JP2016134827A (ja) | 2重系制御装置 | |
| JPH10275090A (ja) | 基本処理装置の二重化方式 |