JPH10143484A - 並列計算機の障害回復処理方法 - Google Patents

並列計算機の障害回復処理方法

Info

Publication number
JPH10143484A
JPH10143484A JP8298423A JP29842396A JPH10143484A JP H10143484 A JPH10143484 A JP H10143484A JP 8298423 A JP8298423 A JP 8298423A JP 29842396 A JP29842396 A JP 29842396A JP H10143484 A JPH10143484 A JP H10143484A
Authority
JP
Japan
Prior art keywords
processor
packet
network
transmission
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8298423A
Other languages
English (en)
Inventor
Yoshiya Moriyama
善哉 森山
Katsuo Yoshida
勝男 吉田
Teruyuki Harada
輝之 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Ltd
Hitachi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information Technology Co Ltd filed Critical Hitachi Ltd
Priority to JP8298423A priority Critical patent/JPH10143484A/ja
Publication of JPH10143484A publication Critical patent/JPH10143484A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】プロセッサがパケット送信時に障害が発生した
場合、ネットワーク通信不可状態になり、他プロセッサ
がネットワークを使用した通信が出来なくなる。 【解決手段】診断ユニットが障害プロセッサに対しての
みリセットをかけ、リセットをかけられた障害プロセッ
サは、初期化コードの実行後、ネットワーク通信不可状
態であればパケット押し出しコードを実行し、パケット
押出しコードにより発行されたダミーパケットによりネ
ットワーク通信不可状態を解除する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は並列計算機の障害回
復処理方法に関し、特に、プロセッサ間の通信におい
て、送信側プロセッサの障害発生によるネットワーク上
のパケット滞留の解除に関する。
【0002】
【従来の技術】プロセッサ間の通信が不可となった場合
に、プロセッサ間の通信を回復する方式としては特開平
7−264184号公報に示す如く、迂回経路を設定す
ることで、プロセッサ間の通信回復処理を行う技術が知
られている。
【0003】
【発明が解決しようとする課題】前記、従来技術は、プ
ロセッサやネットワークに障害が発生した場合、障害箇
所を迂回して、他プロセッサ間の通信を行うものであ
り、障害プロセッサに起因するネットワーク上のクリア
処理について考慮されていない。従って、障害プロセッ
サに起因したネットワークの通信不可状態を早期に解除
し、障害プロセッサ以外の他プロセッサに対してネット
ワークを使用可能状態にする必要がある。
【0004】本発明の目的は並列計算機システムにおい
て、障害プロセッサに起因するネットワークの通信不可
状態を早期に解除して、他プロセッサ間のネットワーク
上の通信を可能にする、障害処理方法を提供することに
ある。
【0005】
【課題を解決するための手段】先ず、上記各用語を以下
のように定義して使用する。
【0006】診断ユニットは、システムに1ヶ存在し、
診断パスを制御する。診断パスは、診断ユニットから各
プロセッサに接続し、各プロセッサへのリセットを行う
パス。通信アドレスレジスタは、各プロセッサに存在
し、プロセッサが送信している時、ネットワークを通じ
て通信している相手プロセッサのアドレスを保持するレ
ジスタ。通信フラグビットは、各プロセッサに存在し、
プロセッサが送信処理をしている時にONするビット。初
期化コードは、各プロセッサに存在し、プロセッサにリ
セットがかけられた時、プロセッサを初期化するための
プログラム。パケット押出しコードは、各プロセッサに
存在し、初期化コードから起動され、ネットワーク上に
ダミーパケットを送出するためのプログラム。
【0007】あるプロセッサに障害が発生すると、診断
ユニットは障害プロセッサに対してのみ、診断パスを使
って、リセットをかける。リセットをかけられた障害プ
ロセッサでは先づ、初期化コードが起動する。初期化コ
ードはプロセッサの初期化処理後、通信フラグビットを
参照する。通信フラグビットがONであれば、初期化コ
ードはパケット押出しコードを起動する。起動されたパ
ケット押出しコードは通信アドレスレジスタに示すプロ
セッサに対してダミーパケットを送信する。以上の処理
により、ネットワーク上で送信動作をしていたプロセッ
サに障害が発生した場合、プロセッサ間のネットワーク
通信不可状態を解除することが出来る。
【0008】
【発明の実施の形態】以下、本発明の実施例を図1によ
り説明する。
【0009】図1は本発明の実施例を示すブロック図で
ある。
【0010】並列計算機システムは、管理プロセッサ1
とプロセッサ100、200のn台からなり、ネットワ
ーク転送路5とスキャンネット転送路6に接続する。管
理プロセッサ1は、命令を実行するCPU11と主記憶
回路2とネットワーク制御回路3とスキャン回路10を
有する。プロセッサ100、200も管理プロセッサ1
と同一の構成である。主記憶回路2は、CPU11とネ
ットワーク制御回路3に接続する。また格納するコード
によって初期化コード20とパケット押し出しコード2
1を配置する。 ネットワーク制御回路3は、パケット
送受信回路4とCPU11と主記憶回路2とスキャン回
路10に接続する。パケット送受信回路4は送信フラグ
ビット40と通信アドレスレジスタ41を有し、ネット
ワーク転送路5に接続する。
【0011】スキャン回路10は、CPU11とネット
ワーク制御回路3とパケット送受信回路4とスキャンネ
ット転送路6に接続する。診断ユニット7は、スキャン
制御回路8とCPU9を有し、スキャン制御回路8はス
キャンネット転送路6に接続する。
【0012】次に実施例における並列計算機システムの
動作を説明する。
【0013】並列計算機システム動作中にプロセッサ1
00がプロセッサ200へパケット送信中である時にプ
ロセッサ100が障害を起こしCPU11が停止した場
合、パケット送信途中のままネットワーク制御回路3と
パケット送受信回路4も停止する。このためプロセッサ
100とプロセッサ200の間のネットワーク転送路5
上に送信パケットが滞留し、ネットワーク通信不可状態
になる。ただしこの場合、診断パスであるスキャンネッ
ト転送路6は使用可能である。プロセッサ100は、障
害発生時、スキャン回路10を起動し、スキャンネット
転送路6を介し診断ユニット7へプロセッサ停止通報を
行う。診断ユニット7は、プロセッサ100からのプロ
セッサ停止通報を受け取ると、診断ユニット7内のスキ
ャン制御回路8を起動し、スキャンネット転送路6を介
して管理プロセッサ1へプロセッサ100の障害を報告
する。管理プロセッサ1は、診断ユニット7からプロセ
ッサ100の障害報告を受け取ると、スキャン回路10
を起動し、診断ユニット7へプロセッサ100へのリセ
ット要求をスキャンネット転送路6を介し発行する。診
断ユニット7は、管理プロセッサ1からのプロセッサ1
00へのリセット要求を受け取ると、スキャン制御回路
8を起動し、スキャンネット転送路6を介しプロセッサ
100内のスキャン回路10へリセットを発行する。プ
ロセッサ100内のスキャン回路10は、診断ユニット
7からのリセットを受け取ると、CPU11とネットワ
ーク制御回路3にリセットを発行する。このときパケッ
ト送受信回路4へのリセットは発行しない。
【0014】プロセッサ100内のCPU11は、スキ
ャン回路10がリセットを発行したことにより、 CP
U11の停止状態が解除される。 CPU11は主記憶
回路2内の初期化コード20に起動をかけ、初期化コー
ド20はCPU11とネットワーク制御回路3の初期化
処理を実行する。その後、初期化コード20はパケット
送受信回路4内の送信フラグ40をチェックし、ONで
あればネットワーク通信不可状態であることを示してい
るので、主記憶回路2内のパケット押出しコード21を
起動する。パケット押出しコード21は、パケット送受
信回路4内の通信アドレスレジスタ41により送信相手
プロセッサのアドレス(この場合はプロセッサ200ア
ドレス)を特定し、プロセッサ200へダミーパケット
を送信する。プロセッサ100内のパケット送受信回路
4から発行したダミーパケットは、ネットワーク転送路
5上に滞留したパケットと連結し、同一のパケットとし
てプロセッサ200へ送信される。プロセッサ200
は、このパケットを受信すると不当パケットとして処理
し破棄する。
【0015】以上の様に、ネットワーク転送路5上に滞
留したパケットを押出し、ネットワーク通信不可状態を
解除することにより、ネットワークを使用した他のプロ
セッサ間通信を可能にすることが出来る。
【0016】
【発明の効果】以上説明した様に本発明では、障害プロ
セッサに起因したネットワークの通信不可状態を早期に
解除し、障害プロセッサ以外の他プロセッサがネットワ
ークを通信可能状態にすることで、システムを停止する
ことなく、短時間で運用を再開することが出来る。
【図面の簡単な説明】
【図1】 本発明の実施例を示すブロック図。
【符号の説明】
1…管理プロセッサ、2…主記憶回路、20…初期化コ
ード、21…パケット押出しコード、3…ネットワーク
制御部、4…パケット送受信回路、40…送信フラグビ
ット、41…通信アドレスレジスタ、5…ネットワーク
転送路、6…スキャンネット転送路、7…診断ユニッ
ト、8…スキャン制御回路、9…CPU、10…スキャ
ン回路、11…CPU、100…プロセッサn−1、2
00…プロセッサn
───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉田 勝男 神奈川県秦野市堀山下1番地 株式会社日 立製作所汎用コンピュータ事業部内 (72)発明者 原田 輝之 神奈川県秦野市堀山下1番地 株式会社日 立インフォメーションテクノロジー内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】複数のプロセッサをネットワークにより接
    続して、プロセッサ間のデータ転送を行う並列計算機に
    おいて、 前記診断パスを制御する診断ユニットと、ネットワーク
    とは独立に各プロセッサを接続する診断パスと、各プロ
    セッサに送信相手のプロセッサアドレスを保持する通信
    アドレスレジスタ及び送信中であることを示す送信フラ
    グビットと、各プロセッサに初期化コードとパケット押
    出しコードとを備え、プロセッサ間の1対1通信中、送
    信側プロセッサの停止により、プロセッサ間通信が中断
    して、ネットワーク上にパケットが滞留し、他のプロセ
    ッサ間通信が出来なくなった場合、並列計算機内の管理
    プロセッサが前記診断ユニットを起動することで、前記
    診断ユニットが前記診断パスを介して停止した送信側プ
    ロセッサのみにリセットをかけ、送信側プロセッサの停
    止状態を解除すると同時にリセットをかけられたことで
    送信側プロセッサでは初期化コードが起動され、送信側
    プロセッサの初期化処理終了時、送信フラグビットがO
    Nであれば引続き、パケット押出しコードが起動され、
    通信アドレスレジスタに保持された送信相手プロセッサ
    にダミーパケットを送出することで、ネットワーク上の
    パケットの滞留を解除し、他のプロセッサ間通信を可能
    にすることを特徴とする並列計算機の障害回復処理方
    法。
JP8298423A 1996-11-11 1996-11-11 並列計算機の障害回復処理方法 Pending JPH10143484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8298423A JPH10143484A (ja) 1996-11-11 1996-11-11 並列計算機の障害回復処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8298423A JPH10143484A (ja) 1996-11-11 1996-11-11 並列計算機の障害回復処理方法

Publications (1)

Publication Number Publication Date
JPH10143484A true JPH10143484A (ja) 1998-05-29

Family

ID=17859522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8298423A Pending JPH10143484A (ja) 1996-11-11 1996-11-11 並列計算機の障害回復処理方法

Country Status (1)

Country Link
JP (1) JPH10143484A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181647B2 (en) 2003-10-15 2007-02-20 International Business Machines Corporation Error tracking method and system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181647B2 (en) 2003-10-15 2007-02-20 International Business Machines Corporation Error tracking method and system
US7937627B2 (en) * 2003-10-15 2011-05-03 International Business Machines Corporation Error tracking method and system
US8347151B2 (en) 2003-10-15 2013-01-01 International Business Machines Corporation Error tracking method and system
US8595566B2 (en) 2003-10-15 2013-11-26 International Business Machines Corporation Error tracking method and system

Similar Documents

Publication Publication Date Title
JP3384686B2 (ja) 通信ネットワークから情報を受信するための方法および装置
US7324525B2 (en) Method and apparatus for coalescing acknowledge packets within a server
JP3640187B2 (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
US5944797A (en) Data mover hardware controlled processing in a commanding system and in a commanded system for controlling frame communications on a link
WO2019076047A1 (zh) 流量转发方法和流量转发装置
CN101102305A (zh) 管理网络信息处理的系统和方法
US20050080869A1 (en) Transferring message packets from a first node to a plurality of nodes in broadcast fashion via direct memory to memory transfer
JP2003288283A (ja) 静的エンドツーエンド再送装置および方法
US7564860B2 (en) Apparatus and method for workflow-based routing in a distributed architecture router
CN101447931B (zh) 一种排他操作的实现方法和装置
JPH07202910A (ja) データ・パケットを送信する方法およびデータ処理システム
US8347018B2 (en) Techniques for broadcasting messages on a point-to-point interconnect
CN102299857B (zh) 一种组播报文处理方法、线卡及通信设备
US6757803B1 (en) Distributed buffer recovery
JPH10143484A (ja) 並列計算機の障害回復処理方法
CN108768721B (zh) 一种基于包暂存的主备vnf切换技术
JP2001244977A (ja) データ転送装置、データ転送システム、データ転送方法及び記憶媒体
CN117714375A (zh) 基于用户态的数据多发选收方法、系统及介质
JPH0378659B2 (ja)
JPH0621925A (ja) 多重化伝送路通信制御方式
JPH09181771A (ja) Lanのスイッチング装置
JP3691679B2 (ja) 二重伝送路を有するネットワーク
JPH09275413A (ja) インタネットワーク装置
JP3245552B2 (ja) 転送制御システム
JP2693799B2 (ja) データ伝送方式