JPH08227406A - 並列計算機 - Google Patents

並列計算機

Info

Publication number
JPH08227406A
JPH08227406A JP7033329A JP3332995A JPH08227406A JP H08227406 A JPH08227406 A JP H08227406A JP 7033329 A JP7033329 A JP 7033329A JP 3332995 A JP3332995 A JP 3332995A JP H08227406 A JPH08227406 A JP H08227406A
Authority
JP
Japan
Prior art keywords
packet
network
processor
diagnostic
processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7033329A
Other languages
English (en)
Inventor
Takahisa Akese
貴久 明瀬
Toshimitsu Ando
利光 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7033329A priority Critical patent/JPH08227406A/ja
Publication of JPH08227406A publication Critical patent/JPH08227406A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【目的】並列計算機において、複数のプロセッサを接続
しプロセッサ間データ転送を行うネットワークの信頼性
を向上する。 【構成】CPU11,21,31、メモリ12,22,
32及びプロセッサやネットワークの故障を診断しOS
やユーザーに対して報告を行う診断パケットを使用し、
診断パケットを自分に対して送受信するセルフテストを
行う機構、並列計算機システムの立ち上げ時に診断パケ
ットの送受信を行う機構、システム稼働中にネットワー
クが未使用時及び定期的に診断パケットを送受信する機
構を持ったネットワークインターフェース回路14,2
4,34を内蔵し、それぞれを内部バス13,23,3
3によって接続した演算プロセッサPU(1)1…PU
(n)2及び診断専用プロセッサPU(n+1)3とプ
ロセッサ間データ転送用ネットワーク4とデータ転送信
号10,20,30とシステム全体の運用に使用するサ
ービスプロセッサ(SVP)5とプロセッサ制御信号6
によって構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数のプロセッサを接
続したネットワークによりプロセッサ間データ転送を行
う並列計算機のネットワーク診断方法に関連する。
【0002】
【従来の技術】従来の複数のコンピュータをLAN等の
コンピュータネットワークで接続したシステムにおい
て、例えばイーサネットで接続した場合ネットワークに
障害があるか否かをテストする従来技術として、W.リ
チャード.ステーグンス著「UNIXネットワークプロ
グラミング」(トッパン刊)のP527〜550にUN
IXシステムにおけるpingルーチンが記述されてい
る。
【0003】
【発明が解決しようとする課題】従来技術であるUNI
Xシステムにおけるpingコマンドは、複数のプロセ
ッサをネットワークで接続しプロセッサ間データ転送を
行う並列計算機については考えられていない。また、p
ingコマンドは、ユーザがマニュアルでコマンドを発
行することにより有効になるもので、システム運行中、
不注意によりプロセッサ間データ信号線を切断してしま
った場合や、何らかの外乱により何れかのプロセッサや
ネットワークを構成するハードウェアが故障してしまっ
た場合などは障害部位の発見が難しい。プロセッサの数
が少なければ従来の方法やサービスプロセッサ等の使用
により人手で障害部位の指摘は可能だが、超並列計算機
の様にプロセッサの数が多くなってくると障害部位の発
見にかなり時間と工数がかかってしまう。
【0004】多くの並列計算機は複数のプロセッサ間を
大量のケーブルで接続している可能性が高く、プロセッ
サ数の増加に比例してケーブルも増えるので、並列計算
機は今までの計算機に比べ処理能力が大幅に向上する反
面、障害処理を強化しなければ、システムの稼働率が落
ちてしまう可能性がある。
【0005】
【課題を解決するための手段】上記課題を解決する為
に、複数のプロセッサを接続したネットワークによりプ
ロセッサ間データ転送を行う並列計算機において、従来
のネットワーク診断テスト手段を各プロセッサが自分に
対して自動的に行うセルフテストの制御手段を持つ。
【0006】またネットワーク上に通常の演算を行うプ
ロセッサ以外に診断専用のプロセッサを設け、この診断
専用プロセッサが従来のネットワーク診断テスト手段を
自動的に行う制御手段を持つ。
【0007】また、従来のネットワーク診断テスト手段
を、システム立ち上げ時に各プロセッサが自動的に行う
制御手段を持つ。
【0008】また、従来のネットワーク診断テスト手段
を、システム運行中ネットワーク未使用時又は定期的に
自動的に行う制御手段を持つ。
【0009】
【作用】本発明に係わる並列計算機において、プロセッ
サ間ネットワークとネットワークに接続される複数のプ
ロセッサとの間において、ネットワークの故障を診断し
OSやユーザーに対して報告を行う診断パケットを使用
し、各プロセッサが自分に対して自動的に診断テストを
行いセルフテストをする事により、自分がネットワーク
へのデータ送受信処理を正常に行えるか自覚する事が可
能となる。
【0010】また、ネットワーク上に通常の演算を行う
プロセッサ以外に診断専用のプロセッサを設け、このプ
ロセッサにのみ自動的に診断を行わせる事により、他の
演算プロセッサの演算処理を妨げることなくネットワー
クの診断が行え、診断テストによるシステム全体の処理
能力の低下を防ぐ事が可能となる。
【0011】また、システム立ち上げ時に各プロセッサ
が自動的に診断テストを行う事により、何れかのプロセ
ッサ又はネットワークを構成するハードウェアが故障し
たままシステムが動作を開始してしまい誤動作する事を
未然に防ぐ事が可能となる。
【0012】また、システム運行中に各プロセッサがネ
ットワーク未使用時又は定期的に診断テストを自動的に
行う事により、システムの運行中にユーザーがコマンド
を発行することなくネットワークの診断が行え、何らか
の外乱により何れかのプロセッサやネットワークを構成
するハードウェア等が故障しても早期に報告されるの
で、故障したままシステムを運用し続け、誤動作してし
まう事を未然に防ぐ事が可能となる。
【0013】
【実施例】以下、本発明の実施例を図を用いて説明す
る。
【0014】先ず、本発明に係る並列計算機の構成につ
いて述べる。
【0015】図1は、本発明に係る並列計算機であり、
n個の演算プロセッサをネットワークに接続し、プロセ
ッサ間データ転送を行い、かつ、実際の計算に用いるプ
ロセッサ間データ通信とは異なる、ネットワーク上のハ
ードウェアが故障しているか否かを検出する為のネット
ワーク診断専用通信も行う並列計算機の構成を示す。図
1において、1,2はプロセッサ(PU(1),…,P
U(n))を示す。各プロセッサ1,2はCPU11,
21とメモリ12,22及びネットワークインターフェ
ース回路14,24を備え、それぞれがプロセッサ内部
バス13,23を介して接続される。各プロセッサは、
データ転送信号10,20を介してプロセッサ間結合の
ネットワーク4に接続されている。5はサービスプロセ
ッサ(SVP)であり、各プロセッサ1,2に対してプ
ロセッサ制御信号6を介して接続される。
【0016】図2は図1で述べたプロセッサを構成する
回路の一つであり、各プロセッサ1,2とプロセッサ間
結合ネットワーク4との間でデータ転送を行う為のイン
ターフェースであるネットワークインターフェース回路
14の内部構成を示す。図2において、ネットワークイ
ンターフェース回路14は、プロセッサ内メモリの送信
パケット領域からデータを読み取り、ネットワークへデ
ータを送信したり、診断パケットを自動生成する機能を
持つ送信回路101と、101とは逆にネットワークか
らデータを受信しプロセッサ内メモリの受信パケット領
域へデータを書き込んだり診断パケットを受信した時、
診断回路へ診断パケットを転送する機能を持つ受信回路
102と、ネットワークインターフェース回路を制御す
る為の制御コマンドを保持する為のネットワークコント
ロールレジスタ(NCR)104と、ネットワークイン
ターフェース回路内部の状態を示すネットワークステー
タスレジスタ(NSR)103と、受信した診断パケッ
トを解析し、ネットワークを診断するネットワーク診断
回路106と、他プロセッサから診断パケットを受信し
た場合に、パケットヘッダーを書き換え、ネットワーク
を介して元のプロセッサへ送り返す為のパケットヘッダ
ー書き換え回路107及び時間を監視するタイマー監視
回路105を備える。
【0017】送信回路101は、バスデータ入力信号1
10を介してプロセッサ内部メモリ上のパケット送信領
域からパケットを受け取ると、パケット送信信号111
にてネットワークへと送信する。また、バスデータ入力
信号110を介して内部バス13からOS等が作成した
診断パケットが入力されたり、送信回路内部で診断パケ
ットを生成した場合、送信診断パケット出力信号112
を介して診断回路106へ出力し、送信診断パケットが
パケットヘッダー変換回路107から113の送信診断
パケット入力信号を介して入力されると、無条件にパケ
ットヘッダーを書き換えただけの折り返しパケットをパ
ケット送信信号111を介してネットワークへ出力する
機能を持つ。さらに、定期的に診断を行う設定にすると
タイマー監視回路105からのタイマー信号により、一
定の時間毎に診断パケットの送出を行う機能も持つ。ま
た、送信診断パケットを一度送出した後ネットワークス
テータスレジスタ(NSR)の値により受信診断パケッ
トを受け取るか、受信診断パケットが消失してタイムア
ウトになる等、診断処理が終了するまで次の診断パケッ
トは出力しない。
【0018】受信回路102は、ネットワークよりパケ
ット受信信号121を介してパケットを受信すると、バ
スデータ出力信号120を介してプロセッサ内部バスを
経由してメモリ上のパケット受信領域へパケットを出力
する。また、パケット受信信号121を介して他プロセ
ッサからの診断パケットや自プロセッサの送信回路10
1が送信した診断パケットを受信すると、他のプロセッ
サからの診断パケットの場合は折り返しパケット出力信
号123を介しパケットヘッダー変換回路107へパケ
ットを出力し、自プロセッサ内部の送信回路101が送
信した診断パケットの場合は受信診断パケット出力信号
122を介して診断回路106へパケットを出力する機
能を持つ。
【0019】ネットワークステータスレジスタ(NS
R)103は、送信回路101からの送信回路ステータ
ス信号141や受信回路102からの受信回路ステータ
ス信号142及び診断回路106からの診断回路ステー
タス信号143のデータを集約し、プロセッサ内部バス
13と送信回路101へネットワークステータス信号1
40を出力する。
【0020】ネットワークコントロールレジスタ(NC
R)104は、プロセッサ内部バス13からネットワー
クコントロール信号130を介してネットワークコント
ロール命令を受け、送信回路制御信号131を送信回路
101へ出力する。
【0021】診断回路106は、送信回路101からの
送信診断パケットと受信回路102からの受信診断パケ
ットを比較し判定を行いネットワークステータスレジス
タ(NSR)103へ結果を報告する。この時、タイマ
ー監視回路105からのタイマー信号150を使用し
て、送信診断パケットが入力されてから一定期間内に受
信診断パケットが入力されなければタイムアウトエラー
としてネットワークステータスレジスタ(NSR)10
3に結果報告する。報告する内容は、診断を行ったプロ
セッサアドレスと診断結果であり、正常終了かパケット
コンペアエラーかタイムアウトエラーである。
【0022】タイマー監視回路105は、一定期間毎に
プロセッサ内部の回路と送信回路101、診断回路10
6へタイマー信号150を出力する。タイマー割り込み
発生回路としての機能がある。
【0023】パケットヘッダー書換回路107は受信回
路102から折り返しパケット出力信号123を介して
診断パケットが入力されると、パケットの種類を送信診
断パケットから受信診断パケットに変換し、同時に送信
元プロセッサアドレスと受信先プロセッサアドレスをス
ワップして、折り返しパケット入力信号113を介して
送信回路101にパケットヘッダー書き換え後の診断パ
ケットを出力する機能を持つ。
【0024】図3は図2で述べたネットワークインター
フェース回路14を構成する回路の一つである送信回路
101の内部構成を示す。図3において、送信回路10
1は、送信回路制御信号131、ネットワークステータ
ス信号140及びタイマー信号により送信回路101内
部を制御する送信回路制御回路1101、パケットをネ
ットワークへ出力する送信バッファ1102、診断パケ
ットを送信回路101内部で自動的に作成する診断パケ
ット作成回路1103及びOSなどの作成したメモリ上
のパケット内のフラグを読み取り、そのパケットが通常
パケットか診断パケットかを判定するパケットコード解
析回路1104を備える。
【0025】又、それらの大規模な回路の他に、プロセ
ッサ内部バス13からのパケットが通常パケットか診断
パケットかにより送信経路を切り換える通常/診断切り
換えスイッチ1111、診断パケットの作成方法を切り
換える診断パケット作成手段切り換えセレクタ111
2、通常パケットを出力するか診断パケットを出力する
か切り換える通常/診断パケットセレクタ1113、折
り返しパケットと通常/診断パケットのどちらを出力す
るか切り換える折り返しパケットセレクタ1114も備
える。
【0026】送信回路制御回路1101は、ネットワー
クコントロールレジスタ(NCR)104からの送信回
路制御信号131とネットワークステータスレジスタ
(NSR)103からのネットワークステータス信号1
40とタイマー監視回路105からのタイマー信号15
0が入力され内容を解析し、自動診断パケット作成信号
1161を自動診断パケット作成回路1104に、診断
パケット作成手段切り換え信号1162を診断パケット
作成手段切り換えセレクタ1112に、通常/診断パケ
ット送出切り換え信号1163を通常/診断パケットセ
レクタ1113に、折り返しパケット送出切り換え信号
1164を折り返しパケットセレクタ1151に出力
し、送信回路内のパケット送信経路を制御する。
【0027】送信バッファ1102は、プロセッサ内部
バス13からバスデータ入力信号110を介して、OS
などがメモリ12上のパケット送信領域に作成したパケ
ットを受け取るバッファである。同時に本バッファが使
用中であるか否かを送信回路ステータス信号141を介
してネットワークステータスレジスター(NSR)10
3に対して報告を行う。
【0028】診断パケット作成回路1103は、送信回
路制御回路1101から診断パケット作成信号1161
を介して診断パケット作成命令を受けると、自動的に診
断パケットを作成し、パケットをパケット送信経路に出
力する。
【0029】パケットコード解析回路1104はバスデ
ータ入力信号110から入力されたパケットのパケット
コードのみを読み取って、内部バス13から入力された
パケットの種類が通常のパケットか診断パケットかを判
定し、通常/診断切り換えスイッチ1111に送信パケ
ットコード解析報告信号1171を出力し、パケットの
送信経路を切り換える。
【0030】図4は図3と同様に、図2で述べたネット
ワークインターフェース回路14を構成する回路の一つ
である、受信回路102の内部構成を示す。図4におい
て、受信回路102はネットワーク4からパケットを取
り込む受信バッファ1201、受信バッファ1201が
入力したパケットのフラグを読み取って、パケットの種
類が通常パケットか診断パケットか折り返し診断パケッ
トかを判定するパケットコード解析回路1202、受信
バッファ1201やパケットコード解析回路1202な
ど受信回路を構成する回路のステータスを集約し、ネッ
トワークステータスレジスタ(NSR)103に報告す
る受信回路ステータス報告回路1203、パケットコー
ド解析回路1202の結果により受信経路を切り換える
折り返しパケット切り換えスイッチ1211及び通常/
診断パケット切り換えスイッチ1212などを備える。
【0031】受信バッファ1201はネットワーク4か
らパケット受信信号121を介しパケットを取り込み、
そのパケットを受信パケット経路(1)1221へ出力
し、同時に受信バッファ1201内のパケット受信状況
等の報告を受信バッファ状態報告信号1230を介して
受信回路ステータス報告回路1203へ出力する。
【0032】パケットコード解析回路1202は、ネッ
トワーク4からパケット受信信号121を介して入力さ
れた受信パケットのパケットコードのみを読み取って、
その値により受信したパケットが通常パケットか受信診
断パケットか送信診断パケットかの判定を行い、その結
果を通常/診断パケット受信報告信号1240及び折り
返しパケット受信報告信号1250を介して受信回路ス
テータス報告回路1203へ出力する。また同時に折り
返しパケット切り換えスイッチ1211と通常/診断パ
ケット切り換えスイッチ1212の制御を行い受信回路
内部のパケット受信経路を切り換える。
【0033】受信回路ステータス報告回路1203は受
信バッファ1201からの受信バッファ状態報告信号1
230とパケットコード解析回路1202からの通常/
診断パケット受信報告信号1240及び折り返しパケッ
ト受信報告信号1250を受け、その内容を受信回路ス
テータス信号142を介しネットワークステータスレジ
スタ(NSR)103へ出力する。
【0034】図5は本発明に係る並列計算機のプロセッ
サ間データ転送に使用するパケットのフォーマットを示
す。図5においてパケットは、パケットの始まりを示す
パケットヘッダーと内容を示すパケットデータから成
る。パケットヘッダーはパケットの種類を示すパケット
コード、パケットの大きさを示すパケットレングス、送
信元を示す送信元プロセッサアドレス及び受信先を示す
受信先プロセッサアドレスで構成される。
【0035】パケットコードは、前に述べたようにパケ
ットの種類を示すが、具体的には通常の演算時に使用す
る通常パケットと自プロセッサが他のプロセッサに対し
て診断をする送信診断パケットと他のプロセッサからの
診断パケットの返事である受信診断パケットによって値
が変えられ、本実施例では通常通信パケットは“0
0”、送信診断パケットは“01”、受信診断パケット
は“10”とする。
【0036】パケットレングスは、パケットに含まれる
パケットデータの数を示し、診断パケットの場合解析を
容易にする為、パケットデータを2個に設定する。
【0037】送受信プロセッサのアドレスは、並列計算
機立ち上げ時に各プロセッサ毎に違った値がサービスプ
ロセッサSVPより割り当てられているので、その値を
参照して設定する。
【0038】パケットデータは、診断用パケットの場合
ダミーデータとし、解析を容易にする為、第一パケット
データをオール“0”に、第二パケットデータをオール
“F”に設定する。
【0039】図6は本発明に係る並列計算機であり、n
個の演算プロセッサと診断専用のプロセッサをネットワ
ークに接続し、プロセッサ間データ転送とネットワーク
を診断する診断パケットの送受信を行う並列計算機の構
成を示す。図6において、1,2は演算プロセッサ(P
U(1),…,PU(n))を示し3は診断専用プロセ
ッサ(PU(n+1))を示す。各プロセッサ1,2,
3はCPU11,21,31とメモリ12,22,32
及びネットワークインターフェース回路14,24,3
4を備え、それぞれがプロセッサ内部バス13,23,
33を介して接続される。各プロセッサ1,2,3は、
データ転送信号10,20,30によりプロセッサ間結
合のネットワーク4に接続される。5はサービスプロセ
ッサ(SVP)であり、各プロセッサ1,2,3にプロ
セッサ制御信号6を介して接続される。
【0040】続いて本実施例に係る並列計算機の動作を
述べる。
【0041】システム立ち上げ時、サービスプロセッサ
(SVP)5が本並列計算機の構成情報を元に、プロセ
ッサ制御信号6を介して各プロセッサ1,2に並列計算
機を構成するネットワーク4上でのアドレスやネットワ
ーク構成情報などを配布し配布終了後、各プロセッサ内
部が立ち上げ処理を開始する。各プロセッサ1,2は装
置立ち上げ処理に入ると、ネットワークインターフェー
ス回路14に対してセルフテストの要求を発行する。そ
の為に、ネットワークインターフェース回路14内部の
ネットワークコントロールレジスタ(NCR)に、自プ
ロセッサに対して送信診断パケットを送信する命令を発
行する。その命令を受けるとネットワークインターフェ
ース回路14内部の送信回路101が自プロセッサ1宛
の送信診断パケット自動診断パケット作成回路1104
にて作成し、ネットワーク4に送信し同時に、この送信
診断パケットは診断回路106に格納しておく。ネット
ワーク4に送信後、送信診断パケットの受信先プロセッ
サアドレスが自プロセッサ1宛になっている為、送信診
断パケットがネットワーク4からそのままネットワーク
インターフェース回路14内に受信される。パケットを
ネットワークインターフェース回路14内の受信回路1
02が受信すると、そのパケットは送信診断パケットの
為、送信して来たプロセッサ側のアドレスへ送り返す処
理を行う。受信回路102内のパケットコード解析回路
1202が送信診断パケットと解析すると折り返しパケ
ット切り換えスイッチ1211を折り返しパケット処理
側に切り換え、パケットヘッダー書換回路107でパケ
ットコードを受信診断パケットのコード“10”に書き
換た後、送信回路101へパケットを転送し、送信回路
101から再びネットワーク4へと受信診断パケットを
送信する。ネットワーク2がこのパケットを受けると、
送信先プロセッサアドレスが同じ為、再び自プロセッサ
1に対して、本パケットを送り返す。自プロセッサ1
が、受信診断パケットをネットワークインターフェース
回路14内部の受信回路102に受信すると、パケット
コード解析回路1202がパケットコードを解析し、受
信診断パケットと判断する。すると、折り返しパケット
切り換えスイッチ1211と通常/診断パケット切り換
えスイッチ1212を制御し、受信したパケットをネッ
トワーク診断回路106へ転送する。ネットワーク診断
回路106が受信診断パケットを受けると、先程格納し
ておいた送信診断パケットと比較し、パケットが正しけ
ればネットワーク及び自プロセッサ1のネットワークイ
ンターフェース回路14が正常であることをネットワー
クステータスレジスタ(NSR)103に対して報告す
る。これらの動作が終了するとCPU11がネットワー
クステータスレジスタ(NSR)を参照し、問題が無け
ればセルフテストを正常終了するが、送受信診断パケッ
トが受信されなかった場合にはタイムアウトを返し、無
事受信されても診断結果が悪ければ、診断パケットコン
ペアーエラーを返す。セルフテストでこれらの不良が発
生すると、サービスプロセッサ(SVP)5に対して自
プロセッサ1が不良である事を報告する。
【0042】セルフテストが正常終了すると自プロセッ
サ1から他のプロセッサ2に対しての診断を行う。これ
は、パケットの作成方法はセルフパケットと同様に診断
パケット作成回路1104によってパケットを作成し、
今度はセルフパケットのように受信先アドレスを自プロ
セッサ1宛ではなく、他のプロセッサ2宛のアドレスに
設定し、ネットワークインターフェース回路14内部の
送信回路101がネットッワーク4を介して他のプロセ
ッサ2に送信する。他のプロセッサ2が自プロセッサ1
からの送信診断パケットをネットワークインターフェー
ス回路24に受信すると、セルフテストと同様にパケッ
トコードを受信診断パケットに変換し、且つ送信元アド
レスと受信先アドレスのスワップを行って、ネットワー
ク4を介し自プロセッサ1に送り返す。そして自プロセ
ッサ1が受信診断パケットを受信すると、ネットワーク
インターフェース回路14内部の受信回路102は受信
診断パケットを、ネットワークインタフェース回路14
内部のネットワーク診断回路106に転送し、先ほど送
信した送信診断パケットと比較し、比較結果をネットワ
ークステータスレジスタ(NSR)103に報告する。
その後、CPU11がネットワークステータスレジスタ
(NSR)103の値を読み取り、今回診断したプロセ
ッサ2の正常/異常を判定する。他のプロセッサ2へ診
断が終了すると、次のプロセッサへの診断パケット送信
を行い、これを全プロセッサに対して順番に繰り返す。
【0043】各プロセッサ1,2がそれぞれ全プロセッ
サに対する診断を終了すると、システムの稼働に入り、
OS等のブートを開始する。
【0044】システム稼働時の診断は、従来の技術であ
るユーザーコマンドやOS等からのソフトウェアルーチ
ンによる診断パケットの送受信をするものと、ネットワ
ークインターフェース回路14が自動的に診断パケット
を作成しネットワークへ送受信するものと2種類があ
る。従来の技術であるユーザーコマンドからのソフトウ
ェアルーチンによる診断パケットの送受信は、まずメモ
リ12上の送信パケット領域にダミーパケットを作成
し、診断を行いたいプロセッサに対して通常パケットと
して送受信を行い、送信したパケットと受信したパケッ
トをOSがソフトウェア的に解析/判断する方法と、送
信診断パケットとしてメモリ上にパケットを作成し、他
のプロセッサ2へ送信し、他のプロセッサ2が受信診断
パケットに変換して折り返しパケット送信したものを自
プロセッサ1が受信してネットワークインターフェース
回路14がハードウェア的に解析し、その結果をOSが
参照して判断する方法とがある。
【0045】ネットワークインターフェース回路14が
自動的に診断パケットを作成しネットワークへ送受信す
る方法には、OSがネットワークインターフェース回路
14に対し、診断パケットを自動生成して診断を行う命
令を発行し、ネットワークインターフェース回路14内
部の診断パケット作成回路1103が診断パケットを自
動的に生成し、他のプロセッサ2に対して診断パケット
の送受信を行い、ネットワーク診断回路106でハード
ウェア的に解析し、その結果をOSが参照し判断する方
法と、OSが前もってネットワークインターフェース回
路14を、ネットワークが未使用であれば診断パケット
を自動生成して診断を行うモードに設定し、自プロセッ
サ1のネットワークインターフェース回路14に対して
CPU11がアクセスしていない時、診断パケットをネ
ットワークインターフェース回路14内部で診断パケッ
トを自動生成し、他のプロセッサ2に対して診断パケッ
トの送受信を行い、ネットワーク診断回路106でハー
ドウェア的に解析し、その結果が異常であればOSに対
して報告する方法と、OSがネットワークインターフェ
ース回路14を、一定期間毎に診断パケットを発行する
モードに設定し、ネットワークインターフェース回路1
4内部でタイマー監視回路105のタイマー信号150
を参照して一定期間毎に診断パケットを自動生成し、他
のプロセッサ2に対して診断パケットの送受信を行いネ
ットワーク診断回路106でハードウェア的に解析し、
その結果が異常であればOSに対して報告する方法があ
る。
【0046】続いて、今までに述べた並列計算機のシス
テムに追加して、通常の演算を行う複数のプロセッサ
1,2以外に診断専用プロセッサ3をネットワーク4に
接続した場合の動作を以下に述べる。システム立ち上げ
時、サービスプロセッサ(SVP)5が本並列計算機の
構成情報を元に、プロセッサ制御信号6を介して各演算
プロセッサ1,2と診断専用プロセッサ3に並列計算機
を構成するネットワーク4上でのアドレスやネットワー
ク構成情報などを配布し配布終了後、各プロセッサ内部
での処理を開始する。各演算プロセッサ1,2と診断専
用プロセッサ3は装置立ち上げ処理に入ると、各プロセ
ッサ内部のネットワークインターフェース回路に対して
セルフテストの要求を発行し、前に述べたものと同様セ
ルフテスト処理を実行する。セルフテスト処理が終了す
ると、演算プロセッサ1,2はサービスプロセッサ(S
VP)5からのシステム立ち上げ処理終了の報告が入る
までしばらく待ち状態になる。ここで診断専用プロセッ
サ3のみが動作し、各演算プロセッサ1,2に対する診
断処理を行う。診断専用プロセッサ3が全プロセッサに
対する診断処理を終了すると、診断専用プロセッサ3が
サービスプロセッサ(SVP)5に全プロセッサに対す
る診断処理終了の報告を行い、サービスプロセッサ(S
VP)5がそれを受けるとサービスプロセッサ(SV
P)5は全プロセッサにシステム立ち上げ処理終了の報
告を行う。全プロセッサがシステム立ち上げ処理終了の
報告をサービスプロセッサ(SVP)5から受けると全
プロセッサはOS等のブート処理に入りシステム稼働開
始となる。本構成で、システム運用中のネットワーク診
断テストは、演算用プロセッサ1,2からの診断パケッ
ト送受信は行わず、ネットワーク診断専用プロセッサ3
のみが各演算用プロセッサ1,2に対する診断パケット
の送受信とセルフテストを行う。このネットワーク診断
専用プロセッサ3によるネットワークの診断処理におい
て他のプロセッサの故障等が発見されると、演算プロセ
ッサ1,2は診断処理を行っていないので、自分からは
故障プロセッサの存在を把握することができないが、診
断専用プロセッサ3がネットワークの診断処理を行うこ
とによって診断専用プロセッサ3は故障プロセッサの発
見が可能である。診断専用プロセッサ3が演算用プロセ
ッサの故障を発見すると、ネットワーク4を介して全演
算プロセッサ1,2に対して、通常のパケットを使用し
て、ブロードキャスト転送を行い、報告する。この診断
専用プロセッサは常に各自プロセッサ1,2及び3に対
する診断パケットの送受信を行っており、通常のパケッ
トは診断パケット解析結果で故障プロセッサが発見され
たときの各演算用プロセッサ1,2に対するブロードキ
ャスト報告の時のみ行う。
【0047】
【発明の効果】以上に述べたように、本発明によれば、
複数のプロセッサを接続したネットワークによりプロセ
ッサ間データ転送を行う並列計算機においてシステム立
ち上げ時またはシステム運行中、ネットワークや他のプ
ロセッサに対してネットワークを構成するハードウェア
の故障等を診断する診断専用のパケットを送受信するこ
とにより障害の早期検出が可能になる為、計算機システ
ムの稼働率が上がる。又、システムの運行中、通常のデ
ータ転送路と切り換えて診断パケットの送受信を行う
為、通常のデータ通信と衝突することなく安全であり、
又ネットワーク未使用時や定期的な診断パケットの送受
信を行う為、ネットワークの使用効率が向上する。
【0048】さらに演算プロセッサ以外に診断専用のプ
ロセッサを設けることにより、頻繁な診断パケット送受
信によるCPUやシステム全体の処理能力の低下を防ぐ
事ができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る並列計算機の構成の概要
を示す。
【図2】本発明の実施例に係る並列計算機のネットワー
クインターフェース回路の構成を示す。
【図3】本発明の実施例に係るネットワークインターフ
ェース回路内部の送信回路の構成を示す。
【図4】本発明の実施例に係るネットワークインターフ
ェース回路内部の受信回路の構成を示す。
【図5】本発明の実施例に係る並列計算機のプロセッサ
間データ転送に用いるパケットのフォーマットを示す。
【図6】本発明の実施例に係る並列計算機の構成の概要
を示す。
【符号の説明】
1…プロセッサ(PU(1))、 2…プロセッサ
(PU(n))、3…プロセッサ(PU(n+1))、 4
…ネットワーク、5…サービスプロセッサ(SVP)、
6…プロセッサ制御信号、7…ネットワーク制御信号、
10…データ転送信号(PU(1))、11…CPU
(PU(1))、 12…メモリ(PU(1))、
13…プロセッサ内部バス(PU(1))、14…ネットワ
ークインターフェース回路(PU(1))、20…データ
転送信号(PU(n))、 21…CPU(PU(n))、22
…メモリ(PU(n))、 23…プロセッサ内部バ
ス(PU(n))、24…ネットワークインターフェェース回
路(PU(n))、30…データ転送信号(PU(n+1))、
31…CPU(PU(n+1))、32…メモリ(PU
(n+1))、33…プロセッサ内部バス(PU(n+
1))、34…ネットワークインターフェース回路(PU
(n+1))、40…ネットワーク回路障害報告ラッチ、
101…送信回路(PU(1))、102…受信回路(PU
(1))、 201…送信回路(PU(n))、20
2…受信回路(PU(n))、 301…送信回路
(PU(n+1))、302…受信回路(PU(n+1))、1
03…ネットワークステータスレジスタタ(NSR)、10
4…ネットワークコントロールレジスタ(NCR)、105
…タイマー監視回路、 106…パケット診断回
路、107…ヘッダー書換回路、 110…バスデー
タ入力信号、111…パケット送信信号、 112…
送信診断パケット出力信号、113…折り返しパケット入
力信号、 120…バスデータ出力信号、121…パケット受
信信号、 122…受信診断パケット出力信号、12
3…折り返しパケット出力信号、 130…ネットワークコ
ントロール信号、131…送信回路制御信号、 14
0…ネットワークステータス信号、141…送信回路ステー
タス信号、 142…受信回路ステータス信号、143…診
断回路ステータス信号、 150…タイマー信号、1101…
送信回路制御回路、 1102…送信バッファ、1103
…パケットコード解析回路、 1104…診断パケット作成
回路、1111…通常/診断切り換えスイッチ、1112…診断
パケット作成手段切り換えセレクタ、1113…通常/診断
パケットセレクタ、1114…通常/折り返しパケットセレ
クタ、1121…送信パケット転送路(1)、1131…通常パケ
ット転送路、 1132…診断パケット転送路、
1133…自動作成診断パケット転送路、 1141…送信パ
ケット転送路(2)、1151…診断パケット作成信号、1152
…診断パケット作成手段切り換え信号、1153…通常/診
断パケット送出切り換え信号、1154…折り返しパケット
切り換え信号、1161…通常/診断パケット入力切り換え
信号、1201…受信バッファ、 1202…
パケットコード解析回路、1203…受信回路ステータス報
告回路、1211…折り返しパケット切り換えスイッチ、12
12…通常/診断パケット切り換えスイッチ、1221…受信
パケット経路(1)、 1222…受信パケット経路
(2)、1230…受信バッファ状態報告信号、1240…通常
/診断パケット受信報告信号、1250…折り返しパケット
受信報告信号。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】複数のプロセッサを接続したネットワーク
    によりプロセッサ間データ転送を行う並列計算機におい
    て、実際の計算に用いるプロセッサ間データ通信とは異
    なる、ネットワーク上のハードウェアが故障しているか
    否かを検出する為の診断用パケットをネットワーク上に
    転送して各プロセッサとネットワーク間の診断を行い障
    害部位の指摘とOSやユーザーに対する報告を行う並列
    計算機。
  2. 【請求項2】複数のプロセッサを接続したネットワーク
    によりプロセッサ間データ転送を行う並列計算機におい
    て、各プロセッサが診断用パケットを自分に対して転送
    し、セルフテストを行う請求項1に記載されている並列
    計算機。
  3. 【請求項3】複数のプロセッサを接続したネットワーク
    によりプロセッサ間データ転送を行う並列計算機におい
    て、実際の計算に用いる演算用プロセッサ以外にネット
    ワーク上に診断専用のプロセッサを別に接続し、このプ
    ロセッサがネットワーク又は他のプロセッサに対して診
    断用パケットの送受信を行い、ネットワークを構成する
    ハードウェアや他のプロセッサの診断を行う請求項1に
    記載されている並列計算機。
  4. 【請求項4】複数のプロセッサを接続したネットワーク
    によりプロセッサ間データ転送を行う並列計算機におい
    て、システム立ち上げ時にプロセッサがネットワーク上
    に診断パケットを転送しネットワークを構成するハード
    ウェアや他のプロセッサの診断を行う請求項1に記載さ
    れている並列計算機。
  5. 【請求項5】複数のプロセッサを接続したネットワーク
    によりプロセッサ間データ転送を行う並列計算機におい
    て、システム運行中ネットワーク未使用時又はタイマー
    等の使用により定期的に診断パケットをネットワーク上
    に転送し、ネットワークを構成するハードウェアや他の
    プロセッサの診断を行う請求項1に記載されている並列
    計算機。
JP7033329A 1995-02-22 1995-02-22 並列計算機 Pending JPH08227406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7033329A JPH08227406A (ja) 1995-02-22 1995-02-22 並列計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7033329A JPH08227406A (ja) 1995-02-22 1995-02-22 並列計算機

Publications (1)

Publication Number Publication Date
JPH08227406A true JPH08227406A (ja) 1996-09-03

Family

ID=12383525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7033329A Pending JPH08227406A (ja) 1995-02-22 1995-02-22 並列計算機

Country Status (1)

Country Link
JP (1) JPH08227406A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2008152643A (ja) * 2006-12-19 2008-07-03 Nec Corp 障害切り分けシステム、障害切り分け方法、およびプログラム
JP2011192216A (ja) * 2010-03-16 2011-09-29 Fujitsu Ltd 入出力接続装置、情報処理装置及び入出力デバイス検査方法
WO2012127692A1 (ja) * 2011-03-24 2012-09-27 富士通株式会社 情報処理装置、送信装置、および情報処理装置の制御方法
JP5370500B2 (ja) * 2010-02-08 2013-12-18 富士通株式会社 ネットワーク中継装置および診断方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2008152643A (ja) * 2006-12-19 2008-07-03 Nec Corp 障害切り分けシステム、障害切り分け方法、およびプログラム
JP5370500B2 (ja) * 2010-02-08 2013-12-18 富士通株式会社 ネットワーク中継装置および診断方法
JP2011192216A (ja) * 2010-03-16 2011-09-29 Fujitsu Ltd 入出力接続装置、情報処理装置及び入出力デバイス検査方法
US8867369B2 (en) 2010-03-16 2014-10-21 Fujitsu Limited Input/output connection device, information processing device, and method for inspecting input/output device
WO2012127692A1 (ja) * 2011-03-24 2012-09-27 富士通株式会社 情報処理装置、送信装置、および情報処理装置の制御方法

Similar Documents

Publication Publication Date Title
CA1263759A (en) Arrangement for on-line diagnostic testing of an off- line standby processor in a duplicated processor configuration
JP2996440B2 (ja) データ処理システムの診断方式
JPH0746322B2 (ja) 障害装置特定システム
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JPH08227406A (ja) 並列計算機
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
US7685473B2 (en) Computer system, method of detecting a stall in a computer system, and signal-bearing medium embodying a program causing a computer system to perform a method of detecting a stall in a computer system
JP2003330905A (ja) コンピュータシステム
JP4112642B2 (ja) 二重化バスシステム
JPH1027115A (ja) コンピュータシステムの障害情報採取回路
JP3538069B2 (ja) ブロードキャスト通信試験方式
JPH01140361A (ja) チャネル診断機能付データ処理システム
JPH0226253B2 (ja)
JP3291729B2 (ja) 二重化計算機システム
KR940006834B1 (ko) 다중처리기 시스템에서 처리기들 간의 인터럽트 기능장애 진단 및 복구자료 산출방법
WO2004079573A1 (ja) マルチプロセッサシステム
KR930002857B1 (ko) 다중처리기 시스팀에서의 시스팀 구성표 작성방식
US6922736B2 (en) Computer system and data processing method
CA1269141A (en) Task synchronization arrangement and method for remote duplex processors
JPH011350A (ja) ゲ−トウェイのバックアップ方式
JPH103435A (ja) チャネル装置の障害検出方法及びこれを用いた入出力制御装置
JP2000082052A (ja) マルチプロセッサシステム及びその診断方法並びにその制御プログラムを記録した記録媒体
CN118838865A (zh) 芯片系统、安全岛系统及处理错误的方法
JPH0727467B2 (ja) 診断プロセッサ
JPS6324745A (ja) 信号伝送路診断方法