JPH03233734A - 耐故障制御方式 - Google Patents

耐故障制御方式

Info

Publication number
JPH03233734A
JPH03233734A JP2030769A JP3076990A JPH03233734A JP H03233734 A JPH03233734 A JP H03233734A JP 2030769 A JP2030769 A JP 2030769A JP 3076990 A JP3076990 A JP 3076990A JP H03233734 A JPH03233734 A JP H03233734A
Authority
JP
Japan
Prior art keywords
fault
processing unit
function
arithmetic processing
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2030769A
Other languages
English (en)
Inventor
Shinichi Nagoya
名児耶 真一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2030769A priority Critical patent/JPH03233734A/ja
Publication of JPH03233734A publication Critical patent/JPH03233734A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は情報処理装置等に適用される耐故障制御方式に
関する。
〔従来の技術〕
従来この種の耐故障制御方式には演算処理装置が故障し
障害状態となった場合に、診断制御装置の判断のもとに
障害状態となった演算処理装置にリトライ処理をさせる
方式がある。
さらに、リトライが不成功となった場合、システムに演
算処理装置が複数あれば、他の正常な演算処理装置に障
害状態となった演算処理装置の処理を続行させるという
方式が知られている。
〔発明が解決しようとする課題〕
上述した従来の耐故障制御方式では、システムに演算処
理装置が複数個存在しないような場合には、1台の演算
処理装置のリトライ処理が不成功であったときには、シ
ステムの運用続行が不可能となり、システムダウンとな
ってしまう、また、障害の発生した原因が間欠故障であ
った場合には、リトライ処理により回復する可能性があ
るが、固定故障であった場合にはりトライ処理が不成功
に終わり即システムダウンとなってしまうという問題点
がある。
〔課題を解決するための手段〕
本発明の方式は、演算処理装置、入出力制御装置、主記
憶装置並びにシステムの初期化制御、保守診断制御及び
障害処理を行う診断制御装置を有する情報処理装置にお
ける耐故障制御方式において、 前記診断制御装置に演算処理装置の機能を代行する機能
と、システムの運用中に演算処理装置に障害が発生した
場合に演算処理装置が実行していた処理を引き継ぐ機能
を設けることにより、演算処理装置に障害が発生後、診
断制御装置によりシステムの運用を続行することを特徴
とする。
〔実施例〕
次に、本発明の一実施例について図面を参照して説明す
る。
第1図は本発明の一実施例を示し、システムに演算処理
装置が1台しか存在しない場合のシステム構成図である
1−1は演算処理装置、1−2は入出力制御装置、1−
3は主記憶装置、1−4は診断制御装置、1−5はシス
テムバス、1−6は診断バスである。
演算処理装置(以下EPUと記す)はシステムバス1−
5を介して、主記憶装置(以下MMと記す)1〜3中に
あるソフトウェア命令を読み出し順次実行する。また、
入出力制御装置(以下IOPと記す)1−2は、EPU
I−1の指示により、ソフトウェア命令の一部である入
出力命令を実行する。
第2図はEPUI−1に障害が発生した場合の(診断制
御装置(以下DGPと記す)1−4の処理を示したフロ
ーチャートである。
以下第1図、第2図双方を参照しながら、EPUl−1
が命令実行中に障害が発生した場合の動作について詳述
する。
EPUI−1が命令実行中に障害が発生すると(2−1
)、EPUI−1は診断バス1−6を経由して、DGP
l−4に対して報告した後、自らクロックを停止する(
2−2)。
DGPl−4はEPUI−1より障害が発生した旨の報
告を受けると(2−3)、最初に診断バス1−6よりク
ロックを供給しながら情報の採取を行う(2−4>。
次に、採取した情報を基に障害が発生したときのEPU
l−1で実行中であった処理が何であったかを認識する
(2−5)、このとき、EPUl−1で発生した障害が
MMI−3にアクセス中かまたはl0PI−2と通信中
に発生した障害が否かを判断する(2−6)。
MMI−3とアクセス中またはI OP 1−2と通信
中の障害ではない場合は、続いて処理2−7に進み2−
5で認識した処理の再実行に引き続き、2−4で採取し
た情報を基に、以後DGP1−4がEPUl−1の替わ
りとしてシステムの運用が再開される(2−8)。
2−6で判断した結果、EPUI−1で発生した障害が
MMI−3とアクセス中またはl0P1−2と通信中の
障害であった場合には、処理2−8に進み2−5で認識
した処理の再実行に続き、MMI−3に対して再アクセ
ス、またはl0PI−2と再通信処理を行い(2−9)
、これが成功すれば処理2−8に進みシステムの運用が
再開される。
処理2−9に於けるMMI−3に対する再アクセス、ま
たはl0PI−2に対する再通信処理が不成功に終わっ
た場合には、EPtJl−1以外の障害と判断しシステ
ムの運用続行は不可能と判断し、システムダウン処理に
移行する(2−11)。
通常、DGPl−4は、EPUI−1に比べると著しく
性能は低いが、性能が縮退されてもシステムダウンとな
らずに運用が継続されることは最近のシステムダウンに
なった場合の影響の庫合から判断すれば重要である。ま
た、DGPl−4はシステム初期化動作中は主体となっ
て高負荷で動作するが、システムの運転中にはかなり低
負荷で動作する為、EPUI−1の代行機能は可能であ
る。
さらに、性能を考直しなければDGP 1−4に特別な
ハードウェアを備えなくともファームウェアの追加機能
のみで本特許は実施可能である。
〔発明の効果〕
以上説明したように、本発明は演算処理装置に障害が発
生した場合にシステムに演算処理装置が1台しか存在し
なくとも、また発生した障害が固定障害であってもシス
テムを極力ダウンさせないという効果がある。さらに、
本発明を実現させる為に特別なハードウェアを備えなく
とも、既存の演算処理装置と診断制御装置とのバスを用
いれば、ファームウェアの追加機能により実現可能であ
る。
【図面の簡単な説明】
第1図は本発明のシステム構成図、第2図はEPUI−
1に障害が発生した場合のDGP 1−4に障害処理フ
ロー図である。 1−1・・・演算処理装置、1−2・・・入出力制御装
置、1−3・・・主記憶装置、1−4・・・診断制御装
置、 =5・・・システムバス、 −6・・・診断バス。

Claims (1)

  1. 【特許請求の範囲】 演算処理装置、入出力制御装置、主記憶装置並びにシス
    テムの初期化制御、保守診断制御及び障害処理を行う診
    断制御装置を有する情報処理装置における耐故障制御方
    式において、 前記診断制御装置に演算処理装置の機能を代行する機能
    と、システムの運用中に演算処理装置に障害が発生した
    場合に演算処理装置が実行していた処理を引き継ぐ機能
    を設けることにより、演算処理装置に障害が発生後、診
    断制御装置によりシステムの運用を続行することを特徴
    とした耐故障制御方式。
JP2030769A 1990-02-09 1990-02-09 耐故障制御方式 Pending JPH03233734A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2030769A JPH03233734A (ja) 1990-02-09 1990-02-09 耐故障制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2030769A JPH03233734A (ja) 1990-02-09 1990-02-09 耐故障制御方式

Publications (1)

Publication Number Publication Date
JPH03233734A true JPH03233734A (ja) 1991-10-17

Family

ID=12312890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2030769A Pending JPH03233734A (ja) 1990-02-09 1990-02-09 耐故障制御方式

Country Status (1)

Country Link
JP (1) JPH03233734A (ja)

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
US7305578B2 (en) Failover method in a clustered computer system
US6594709B1 (en) Methods and apparatus for transferring data using a device driver
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JPH0375834A (ja) パリティの置換装置及び方法
JP2956849B2 (ja) データ処理システム
JPH03233734A (ja) 耐故障制御方式
JPH07183891A (ja) 計算機システム
JP2827713B2 (ja) 二重化装置
JP2998804B2 (ja) マルチマイクロプロセッサシステム
JP2785992B2 (ja) サーバプログラムの管理処理方式
JP2555214B2 (ja) 障害被疑装置の制御方法
JPS62236056A (ja) 情報処理システムの入出力制御装置
JP2977705B2 (ja) ネットワーク接続された多重化コンピュータシステムの制御方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH0630069B2 (ja) 多重化システム
JP3311704B2 (ja) マルチプロセッサ通信機構の故障処理方法
KR100303341B1 (ko) 소형컴퓨터시스템인터페이스버스비지상태회복방법
JPH11134211A (ja) 二重化コンピュータシステムおよびその運用方法
JP3110124B2 (ja) マルチコンピュータシステムにおける障害検出方式
JP2908430B1 (ja) マルチプロセッサシステムのホストプロセッサ監視装置および監視方法
JPH09282291A (ja) 共通記憶装置のロックフラグ解除方式および方法
JP2924732B2 (ja) 情報処理装置の自己診断方法
JPS60195649A (ja) マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式
JPH0575136B2 (ja)