JPH10240566A - 計算機システム - Google Patents
計算機システムInfo
- Publication number
- JPH10240566A JPH10240566A JP9045248A JP4524897A JPH10240566A JP H10240566 A JPH10240566 A JP H10240566A JP 9045248 A JP9045248 A JP 9045248A JP 4524897 A JP4524897 A JP 4524897A JP H10240566 A JPH10240566 A JP H10240566A
- Authority
- JP
- Japan
- Prior art keywords
- network
- data
- packet
- failure
- passage confirmation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】
【課題】複数のプロセッサ間を接続するネットワーク上
でケーブル断線等の障害が発生した場合に、故障解析工
数/期間を短縮しMTTRの低減を図り、また、多重化
されたネットワークにおいては、正常動作しているネッ
トワークへ影響を及ぼすことなく、故障位置を特定し、
システム性能低下期間を短縮することを目的とする。 【解決手段】ネットワーク上にデータ通過確認を記録す
る手段を設け、通信データは通過確認用のデータである
ことを表示する手段を有したフォーマットにし、通過確
認用のデータが通過したときのみ、通過確認を記録する
ようにする。この通過確認の記録をトレースし、通過確
認の記録がない箇所のソース側にネットワーク障害があ
ることを判定できるようにする。
でケーブル断線等の障害が発生した場合に、故障解析工
数/期間を短縮しMTTRの低減を図り、また、多重化
されたネットワークにおいては、正常動作しているネッ
トワークへ影響を及ぼすことなく、故障位置を特定し、
システム性能低下期間を短縮することを目的とする。 【解決手段】ネットワーク上にデータ通過確認を記録す
る手段を設け、通信データは通過確認用のデータである
ことを表示する手段を有したフォーマットにし、通過確
認用のデータが通過したときのみ、通過確認を記録する
ようにする。この通過確認の記録をトレースし、通過確
認の記録がない箇所のソース側にネットワーク障害があ
ることを判定できるようにする。
Description
【0001】
【発明の属する技術分野】本発明は、複数のプロセッサ
間で並列に処理を行う計算機システムに関する。
間で並列に処理を行う計算機システムに関する。
【0002】
【従来の技術】従来のプロセッサ間通信用ネットワーク
においては、特開平5−81224号公報記載のよう
に、故障の検出や故障検出後の処理に関するものは多く
論じられているが、故障箇所の特定に関するものはな
く、一般の計算機システムと同様にマシーンチェックラ
ッチの記録を追跡して故障位置を特定する手段が用いら
れている。このため、多数のプロセッサ間の通信ネット
ワークの故障、特にプロセッサ間のケーブルや接続点の
故障箇所特定は人手に頼ることが多く、故障解析工数/
時間の増大、MTTR(Mean Time To Repair)の
増加による可用性の低下を招いていた。
においては、特開平5−81224号公報記載のよう
に、故障の検出や故障検出後の処理に関するものは多く
論じられているが、故障箇所の特定に関するものはな
く、一般の計算機システムと同様にマシーンチェックラ
ッチの記録を追跡して故障位置を特定する手段が用いら
れている。このため、多数のプロセッサ間の通信ネット
ワークの故障、特にプロセッサ間のケーブルや接続点の
故障箇所特定は人手に頼ることが多く、故障解析工数/
時間の増大、MTTR(Mean Time To Repair)の
増加による可用性の低下を招いていた。
【0003】また、プロセッサ間ネットワークが多重化
されているシステムでは、一つのネットワークに故障が
発生したとき、システム全体として稼働させたまま、ネ
ットワークの故障位置を特定し早期に修理しシステム性
能低下の復旧を図る必要があるが、従来技術では、ネッ
トワーク上のケーブル等の故障時には故障位置特定が困
難なため、システム稼働中の故障位置特定は困難であっ
た。
されているシステムでは、一つのネットワークに故障が
発生したとき、システム全体として稼働させたまま、ネ
ットワークの故障位置を特定し早期に修理しシステム性
能低下の復旧を図る必要があるが、従来技術では、ネッ
トワーク上のケーブル等の故障時には故障位置特定が困
難なため、システム稼働中の故障位置特定は困難であっ
た。
【0004】
【発明が解決しようとする課題】本発明の第1の目的
は、プロセッサ間ネットワークの故障、特にプロセッサ
間を接続するケーブル故障の障害箇所を早期に検出し、
故障解析工数/時間の低減、MTTRの低減による可用
性の向上を図ることにある。
は、プロセッサ間ネットワークの故障、特にプロセッサ
間を接続するケーブル故障の障害箇所を早期に検出し、
故障解析工数/時間の低減、MTTRの低減による可用
性の向上を図ることにある。
【0005】本発明の第2の目的は、ケーブル等の故障
時にシステム全体をダウンさせることなく、故障位置特
定を行うことにある。
時にシステム全体をダウンさせることなく、故障位置特
定を行うことにある。
【0006】
【課題を解決するための手段】上記目的は、故障位置を
特定するべき通信経路を自プロセッサへのデータ送受に
より特定する手段と、該経路へ通過確認用のデータを送
出する手段と、通過確認用のデータの通過時のみ通過を
記録する手段を設ける。
特定するべき通信経路を自プロセッサへのデータ送受に
より特定する手段と、該経路へ通過確認用のデータを送
出する手段と、通過確認用のデータの通過時のみ通過を
記録する手段を設ける。
【0007】上記手段により、故障発生時には各プロセ
ッサに対して自プロセッサへの通信を指示し、受信不可
のプロセッサや誤って受信したプロセッサの位置からお
およその故障経路を推定し、次に、該経路へ通過確認用
のデータを送出し、通過確認ラッチをトレースして故障
位置を特定することができる。
ッサに対して自プロセッサへの通信を指示し、受信不可
のプロセッサや誤って受信したプロセッサの位置からお
およその故障経路を推定し、次に、該経路へ通過確認用
のデータを送出し、通過確認ラッチをトレースして故障
位置を特定することができる。
【0008】上記手段によれば、人手による故障解析工
数を大幅に削減し、MTTRの低減ひいては可用性の向
上を図ることができる。また、ネットワークが2重化さ
れた複数プロセッサシステムでは、システムをダウンさ
せないで故障位置の特定を行うことができ、また、シス
テム性能低下期間を低減することができる。
数を大幅に削減し、MTTRの低減ひいては可用性の向
上を図ることができる。また、ネットワークが2重化さ
れた複数プロセッサシステムでは、システムをダウンさ
せないで故障位置の特定を行うことができ、また、シス
テム性能低下期間を低減することができる。
【0009】
【発明の実施の形態】以下、本発明の一実施例を図を用
いて説明する。
いて説明する。
【0010】図1は、本発明の実施例の構成図である。
各プロセッサ(図中のPE)101は、ネットワークを
通じて接続しており、自PEを含む任意のPEと通信が
可能である。
各プロセッサ(図中のPE)101は、ネットワークを
通じて接続しており、自PEを含む任意のPEと通信が
可能である。
【0011】ネットワーク107はクロスバ方式であ
り、Z,Y,Xの3次元のクロスバスイッチ(XB)か
ら構成されている。各次元毎に複数の同一なクロスバス
イッチZ−XB(102)、Y−XB(103)、X−
XB(104)から構成される。各スイッチには8本の
通信路105が入力され、8本の通信路105が次段の
スイッチへ出力される。また、各スイッチには各入出力
に対応して通過確認ラッチ106が一個配備されてい
る。
り、Z,Y,Xの3次元のクロスバスイッチ(XB)か
ら構成されている。各次元毎に複数の同一なクロスバス
イッチZ−XB(102)、Y−XB(103)、X−
XB(104)から構成される。各スイッチには8本の
通信路105が入力され、8本の通信路105が次段の
スイッチへ出力される。また、各スイッチには各入出力
に対応して通過確認ラッチ106が一個配備されてい
る。
【0012】当ネットワークの交換方式はパケット交換
方式であり、通過確認用データもパケットである。以後
通過確認用データをトレースパケットと言う。
方式であり、通過確認用データもパケットである。以後
通過確認用データをトレースパケットと言う。
【0013】前記のPE101、ネットワーク107は
保守用端末とそれぞれイーサネット110、スキャン専
用信号112で接続されている。スキャン専用信号11
1は制御信号、データ信号、アドレス信号で構成されて
いる。
保守用端末とそれぞれイーサネット110、スキャン専
用信号112で接続されている。スキャン専用信号11
1は制御信号、データ信号、アドレス信号で構成されて
いる。
【0014】図2は、故障解析手順の概略を示した図で
ある。201〜204で同一PE間の1対1通信を行う
ことにより障害発生経路の絞り込みを行い、205で故
障位置特定処理を行う(図3に詳細を示す)。該故障解
析の制御は保守用端末から行い、保守用端末は、図1の
イーサネット110やスキャン信号111を用いてPE
101やネットワークスイッチ102〜104から故障
解析用データの収集を行う。故障解析開始は異常報告を
保守用端末が受けてから、自動的に行うことも可能であ
るし、人手により指示することも可能である。
ある。201〜204で同一PE間の1対1通信を行う
ことにより障害発生経路の絞り込みを行い、205で故
障位置特定処理を行う(図3に詳細を示す)。該故障解
析の制御は保守用端末から行い、保守用端末は、図1の
イーサネット110やスキャン信号111を用いてPE
101やネットワークスイッチ102〜104から故障
解析用データの収集を行う。故障解析開始は異常報告を
保守用端末が受けてから、自動的に行うことも可能であ
るし、人手により指示することも可能である。
【0015】図3は、図2の205に対応する故障箇所
特定処理の概要を示した図である。点線より左側は保守
用端末108での処理、右側はPE101での処理を示
す。保守用端末108の動作は、スイッチ102〜10
4のスキャン制御、PEへのトレースパケット送出指
示、通信経路の特定、通過確認ラッチトレース、障害箇
所表示等の解析動作から構成される。
特定処理の概要を示した図である。点線より左側は保守
用端末108での処理、右側はPE101での処理を示
す。保守用端末108の動作は、スイッチ102〜10
4のスキャン制御、PEへのトレースパケット送出指
示、通信経路の特定、通過確認ラッチトレース、障害箇
所表示等の解析動作から構成される。
【0016】図4は、パケットの構成図である。PE1
01は保守用端末108から故障位置トレースパケット
の送出を指示されると、図4の2ワード目の第3ビット
を‘1’にしてトレースパケットであることを示すフラ
グ(Jフラグ)を設定してパケットを送出する。
01は保守用端末108から故障位置トレースパケット
の送出を指示されると、図4の2ワード目の第3ビット
を‘1’にしてトレースパケットであることを示すフラ
グ(Jフラグ)を設定してパケットを送出する。
【0017】図では示していないが、スイッチ102〜
104はパケットを受信するとJフラグが設定されてい
るかどうかをチェックし入力側の通過確認ラッチをセッ
トする。通過確認ラッチのセットは、受信バッファーに
格納されたパケットの2ワード目の3ビット(Jフラグ
403)を通過確認ラッチのData端子に接続し、パケ
ット受信イベントをクロックのオン条件とすることによ
り実現できる。トレースパケットをスイッチから次段の
スイッチまたはPE101に送出する場合は送信バッフ
ァのJフラグ403のデータ出力側の通過確認ラッチに
セットする。
104はパケットを受信するとJフラグが設定されてい
るかどうかをチェックし入力側の通過確認ラッチをセッ
トする。通過確認ラッチのセットは、受信バッファーに
格納されたパケットの2ワード目の3ビット(Jフラグ
403)を通過確認ラッチのData端子に接続し、パケ
ット受信イベントをクロックのオン条件とすることによ
り実現できる。トレースパケットをスイッチから次段の
スイッチまたはPE101に送出する場合は送信バッフ
ァのJフラグ403のデータ出力側の通過確認ラッチに
セットする。
【0018】通過確認ラッチのセット方法としては、ス
イッチ内の制御プログラムによりパケットのデータをチ
ェックして設定する方法もある。また、ハードウェアで
実現する方法も上記方法以外にもSet/Reset端子を用
いる方法がある。送受信バッファに格納されたデータで
なくとも通過確認ラッチのセットに用いることはでき
る。
イッチ内の制御プログラムによりパケットのデータをチ
ェックして設定する方法もある。また、ハードウェアで
実現する方法も上記方法以外にもSet/Reset端子を用
いる方法がある。送受信バッファに格納されたデータで
なくとも通過確認ラッチのセットに用いることはでき
る。
【0019】図1で、X印のある通信路105が断線し
ている場合について故障解析動作を説明する。まず、通
常動作中に任意のPE101からPE間ネットワークの
異常報告を受けた保守用端末は、図2に基づき、各PE
に対し自PEへの1対1通信をイーサネット110を通
じて指示する。各PEは自PE宛にパケットを送出す
る。保守用端末は各PEからパケット送出完了の報告を
受けた後、パケット未到着のプロセッサ、宛先誤りのパ
ケットを受信したPE有無を調べる(202〜20
3)。パケット未到着のプロセッサ、宛先誤りのパケッ
トを受信したPEがあった場合、204の障害通信経路
特定動作を行う。パケットを伝送して行く通信経路はこ
こでは述べないが、一定のアルゴリズムにより決定さ
れ、ルーティングテーブルに記録されている。この経路
は図4に示すようにパケット内の1〜2ワードにも記述
されている。パケット未到着のプロセッサ、宛先誤りの
パケットを受信したPEがない場合、つまり1対1通信
が正常に終了した場合、本発明では述べないが。別手段
により故障解析を進める。
ている場合について故障解析動作を説明する。まず、通
常動作中に任意のPE101からPE間ネットワークの
異常報告を受けた保守用端末は、図2に基づき、各PE
に対し自PEへの1対1通信をイーサネット110を通
じて指示する。各PEは自PE宛にパケットを送出す
る。保守用端末は各PEからパケット送出完了の報告を
受けた後、パケット未到着のプロセッサ、宛先誤りのパ
ケットを受信したPE有無を調べる(202〜20
3)。パケット未到着のプロセッサ、宛先誤りのパケッ
トを受信したPEがあった場合、204の障害通信経路
特定動作を行う。パケットを伝送して行く通信経路はこ
こでは述べないが、一定のアルゴリズムにより決定さ
れ、ルーティングテーブルに記録されている。この経路
は図4に示すようにパケット内の1〜2ワードにも記述
されている。パケット未到着のプロセッサ、宛先誤りの
パケットを受信したPEがない場合、つまり1対1通信
が正常に終了した場合、本発明では述べないが。別手段
により故障解析を進める。
【0020】204により障害通信経路を特定できた場
合、保守用端末は205の障害箇所特定処理を実行す
る。この詳細を図3により説明する。まず、全ての通過
確認ラッチ106をスキャン専用信号111を通してリ
セットしておき(301)、イーサネット110から障
害通信経路上のPEに対しトレースパケットの送出を指
示する(302)。該指示を受けたPEは該当する障害
通信経路に対してトレースパケットを送出する(30
3)。該PEからトレースパケットの送出完了報告を受
けた後、保守用端末108は該PEがパケットを受信し
ていないことを確認後、スキャン専用信号111を通し
てトレース経路上の通過確認ラッチを探索し、点灯して
いないラッチを検出する(304〜305)。図1の断
線の場合、クロスバスイッチ104(X−XB)の入力
側の通過確認ラッチが点灯しておらず、ソース側のクロ
スバスイッチ103(Y−XB1)の出力側通過確認ラ
ッチは点灯している。このため、X−XB104とY−
XB103間に断線があることがわかる。
合、保守用端末は205の障害箇所特定処理を実行す
る。この詳細を図3により説明する。まず、全ての通過
確認ラッチ106をスキャン専用信号111を通してリ
セットしておき(301)、イーサネット110から障
害通信経路上のPEに対しトレースパケットの送出を指
示する(302)。該指示を受けたPEは該当する障害
通信経路に対してトレースパケットを送出する(30
3)。該PEからトレースパケットの送出完了報告を受
けた後、保守用端末108は該PEがパケットを受信し
ていないことを確認後、スキャン専用信号111を通し
てトレース経路上の通過確認ラッチを探索し、点灯して
いないラッチを検出する(304〜305)。図1の断
線の場合、クロスバスイッチ104(X−XB)の入力
側の通過確認ラッチが点灯しておらず、ソース側のクロ
スバスイッチ103(Y−XB1)の出力側通過確認ラ
ッチは点灯している。このため、X−XB104とY−
XB103間に断線があることがわかる。
【0021】この結果は保守用端末のディスプレイにエ
ラー箇所が表示され(305)、ケーブルの取り替えが
行われる。
ラー箇所が表示され(305)、ケーブルの取り替えが
行われる。
【0022】
【発明の効果】上記実施例によれば、人手でケーブルの
断線をチェックすることなく、故障箇所を特定できるの
で、ネットワークの故障解析工数を大幅に消滅でき、シ
ステムのMTTRを短縮できる。多重化されたプロセッ
サ間ネットワークでも、保守用端末からリモートで断線
したケーブル位置を検出できるので、正常に動作してい
るネットワークへ物理的に干渉することなく、故障解析
ができ、システム性能低下期間を短縮することができ
る。
断線をチェックすることなく、故障箇所を特定できるの
で、ネットワークの故障解析工数を大幅に消滅でき、シ
ステムのMTTRを短縮できる。多重化されたプロセッ
サ間ネットワークでも、保守用端末からリモートで断線
したケーブル位置を検出できるので、正常に動作してい
るネットワークへ物理的に干渉することなく、故障解析
ができ、システム性能低下期間を短縮することができ
る。
【図1】本発明の一実施例のケーブル切断時のトレース
方法を示す図である。
方法を示す図である。
【図2】障害解析手順概略を示す。
【図3】障害箇所特定手順を示す。
【図4】当実施例のパケットフォーマットを示す。
101…プロセッサ(PE)、 102〜104…ク
ロスバスイッチ、105…通信経路、 1
06…通過確認ラッチ、107…PE間ネットワーク、
108…保守用端末、109…スキャン制御回路、
110…イーサネット、111…スキャン専用信
号、201〜204…プロセッサ間通信による障害経路
特定処理、205…障害箇所特定処理、301〜303
…障害箇所特定用トレースパケット送出処理、304…
通過確認ラッチトレース処理、 305…障害箇所表
示処理、401…パケットID、 402…ル
ーティング情報フィールド、403…トレースパケット
フラグ。
ロスバスイッチ、105…通信経路、 1
06…通過確認ラッチ、107…PE間ネットワーク、
108…保守用端末、109…スキャン制御回路、
110…イーサネット、111…スキャン専用信
号、201〜204…プロセッサ間通信による障害経路
特定処理、205…障害箇所特定処理、301〜303
…障害箇所特定用トレースパケット送出処理、304…
通過確認ラッチトレース処理、 305…障害箇所表
示処理、401…パケットID、 402…ル
ーティング情報フィールド、403…トレースパケット
フラグ。
Claims (2)
- 【請求項1】複数のプロセッサで並列に処理を行う計算
機システムにおいて、複数のプロセッサ間通信用ネット
ワークの故障位置特定のために、ネットワーク上にデー
タの通過確認を記録する手段を有することを特徴とする
計算機システム。 - 【請求項2】請求項1に記載の計算機システムにおい
て、ネットワークに送出するデータ上に通過確認用のデ
ータである旨を指定する手段を設け、該指定があるデー
タが通過したときのみ前記通過確認を記録する手段に記
録することを特徴とする計算機システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9045248A JPH10240566A (ja) | 1997-02-28 | 1997-02-28 | 計算機システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9045248A JPH10240566A (ja) | 1997-02-28 | 1997-02-28 | 計算機システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10240566A true JPH10240566A (ja) | 1998-09-11 |
Family
ID=12713974
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9045248A Pending JPH10240566A (ja) | 1997-02-28 | 1997-02-28 | 計算機システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10240566A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000330822A (ja) * | 1999-04-07 | 2000-11-30 | Internatl Business Mach Corp <Ibm> | データ処理システムにおける動的トレーシングによる集中トレース機能 |
-
1997
- 1997-02-28 JP JP9045248A patent/JPH10240566A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000330822A (ja) * | 1999-04-07 | 2000-11-30 | Internatl Business Mach Corp <Ibm> | データ処理システムにおける動的トレーシングによる集中トレース機能 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0668041A (ja) | コンピュータ・システム | |
| JP3574425B2 (ja) | 耐多重障害ネットワーク構造を利用したパケット処理方法 | |
| JPH04351032A (ja) | ネットワーク切替制御方法 | |
| CN112636944B (zh) | Olt设备脱网智能诊断方法及系统 | |
| JPH10240566A (ja) | 計算機システム | |
| JP3551481B2 (ja) | ルータ装置のテスト方法及びルータテスト用装置 | |
| JP3961517B2 (ja) | システム、クロスバ装置及びそれらに用いる障害通知方法 | |
| CN101902369B (zh) | 背板交叉系统的故障定位方法及装置 | |
| JPS641987B2 (ja) | ||
| JP2005269004A (ja) | 多重ループ型ネットワークの故障箇所判定方法、多重ループ型ネットワーク、ノード装置 | |
| JP5367002B2 (ja) | 監視サーバおよび監視プログラム | |
| JP3301383B2 (ja) | ネットワークシステムの試験方法とネットワーク試験システム | |
| JP2881185B2 (ja) | メッセージ切換装置 | |
| JP7827672B2 (ja) | 伝送装置、伝送システム、伝送装置の制御方法、および伝送装置の制御プログラム | |
| JPH0435251A (ja) | リングネットワークの障害監視方式 | |
| JPH10124141A (ja) | コントローラの故障解析装置 | |
| JPH08163162A (ja) | ループ式データ伝送装置 | |
| JPH0563716A (ja) | リングバスの応答確認方式 | |
| JP3084310B2 (ja) | コンピュータネットワーク監視方式 | |
| JPH06324966A (ja) | 通信障害区間推定システム | |
| JPH01140361A (ja) | チャネル診断機能付データ処理システム | |
| JPH10133903A (ja) | データ転送制御装置及び折返し試験方式 | |
| JPH0923254A (ja) | 系間データリンク方式 | |
| JP2956385B2 (ja) | バスライン監視方式 | |
| KR100318964B1 (ko) | 프로세서간 통신 노드의 장애진단방법 |