JPH03233734A - 耐故障制御方式 - Google Patents
耐故障制御方式Info
- Publication number
- JPH03233734A JPH03233734A JP2030769A JP3076990A JPH03233734A JP H03233734 A JPH03233734 A JP H03233734A JP 2030769 A JP2030769 A JP 2030769A JP 3076990 A JP3076990 A JP 3076990A JP H03233734 A JPH03233734 A JP H03233734A
- Authority
- JP
- Japan
- Prior art keywords
- fault
- processing unit
- function
- arithmetic processing
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 18
- 230000010365 information processing Effects 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
Landscapes
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は情報処理装置等に適用される耐故障制御方式に
関する。
関する。
従来この種の耐故障制御方式には演算処理装置が故障し
障害状態となった場合に、診断制御装置の判断のもとに
障害状態となった演算処理装置にリトライ処理をさせる
方式がある。
障害状態となった場合に、診断制御装置の判断のもとに
障害状態となった演算処理装置にリトライ処理をさせる
方式がある。
さらに、リトライが不成功となった場合、システムに演
算処理装置が複数あれば、他の正常な演算処理装置に障
害状態となった演算処理装置の処理を続行させるという
方式が知られている。
算処理装置が複数あれば、他の正常な演算処理装置に障
害状態となった演算処理装置の処理を続行させるという
方式が知られている。
上述した従来の耐故障制御方式では、システムに演算処
理装置が複数個存在しないような場合には、1台の演算
処理装置のリトライ処理が不成功であったときには、シ
ステムの運用続行が不可能となり、システムダウンとな
ってしまう、また、障害の発生した原因が間欠故障であ
った場合には、リトライ処理により回復する可能性があ
るが、固定故障であった場合にはりトライ処理が不成功
に終わり即システムダウンとなってしまうという問題点
がある。
理装置が複数個存在しないような場合には、1台の演算
処理装置のリトライ処理が不成功であったときには、シ
ステムの運用続行が不可能となり、システムダウンとな
ってしまう、また、障害の発生した原因が間欠故障であ
った場合には、リトライ処理により回復する可能性があ
るが、固定故障であった場合にはりトライ処理が不成功
に終わり即システムダウンとなってしまうという問題点
がある。
本発明の方式は、演算処理装置、入出力制御装置、主記
憶装置並びにシステムの初期化制御、保守診断制御及び
障害処理を行う診断制御装置を有する情報処理装置にお
ける耐故障制御方式において、 前記診断制御装置に演算処理装置の機能を代行する機能
と、システムの運用中に演算処理装置に障害が発生した
場合に演算処理装置が実行していた処理を引き継ぐ機能
を設けることにより、演算処理装置に障害が発生後、診
断制御装置によりシステムの運用を続行することを特徴
とする。
憶装置並びにシステムの初期化制御、保守診断制御及び
障害処理を行う診断制御装置を有する情報処理装置にお
ける耐故障制御方式において、 前記診断制御装置に演算処理装置の機能を代行する機能
と、システムの運用中に演算処理装置に障害が発生した
場合に演算処理装置が実行していた処理を引き継ぐ機能
を設けることにより、演算処理装置に障害が発生後、診
断制御装置によりシステムの運用を続行することを特徴
とする。
次に、本発明の一実施例について図面を参照して説明す
る。
る。
第1図は本発明の一実施例を示し、システムに演算処理
装置が1台しか存在しない場合のシステム構成図である
。
装置が1台しか存在しない場合のシステム構成図である
。
1−1は演算処理装置、1−2は入出力制御装置、1−
3は主記憶装置、1−4は診断制御装置、1−5はシス
テムバス、1−6は診断バスである。
3は主記憶装置、1−4は診断制御装置、1−5はシス
テムバス、1−6は診断バスである。
演算処理装置(以下EPUと記す)はシステムバス1−
5を介して、主記憶装置(以下MMと記す)1〜3中に
あるソフトウェア命令を読み出し順次実行する。また、
入出力制御装置(以下IOPと記す)1−2は、EPU
I−1の指示により、ソフトウェア命令の一部である入
出力命令を実行する。
5を介して、主記憶装置(以下MMと記す)1〜3中に
あるソフトウェア命令を読み出し順次実行する。また、
入出力制御装置(以下IOPと記す)1−2は、EPU
I−1の指示により、ソフトウェア命令の一部である入
出力命令を実行する。
第2図はEPUI−1に障害が発生した場合の(診断制
御装置(以下DGPと記す)1−4の処理を示したフロ
ーチャートである。
御装置(以下DGPと記す)1−4の処理を示したフロ
ーチャートである。
以下第1図、第2図双方を参照しながら、EPUl−1
が命令実行中に障害が発生した場合の動作について詳述
する。
が命令実行中に障害が発生した場合の動作について詳述
する。
EPUI−1が命令実行中に障害が発生すると(2−1
)、EPUI−1は診断バス1−6を経由して、DGP
l−4に対して報告した後、自らクロックを停止する(
2−2)。
)、EPUI−1は診断バス1−6を経由して、DGP
l−4に対して報告した後、自らクロックを停止する(
2−2)。
DGPl−4はEPUI−1より障害が発生した旨の報
告を受けると(2−3)、最初に診断バス1−6よりク
ロックを供給しながら情報の採取を行う(2−4>。
告を受けると(2−3)、最初に診断バス1−6よりク
ロックを供給しながら情報の採取を行う(2−4>。
次に、採取した情報を基に障害が発生したときのEPU
l−1で実行中であった処理が何であったかを認識する
(2−5)、このとき、EPUl−1で発生した障害が
MMI−3にアクセス中かまたはl0PI−2と通信中
に発生した障害が否かを判断する(2−6)。
l−1で実行中であった処理が何であったかを認識する
(2−5)、このとき、EPUl−1で発生した障害が
MMI−3にアクセス中かまたはl0PI−2と通信中
に発生した障害が否かを判断する(2−6)。
MMI−3とアクセス中またはI OP 1−2と通信
中の障害ではない場合は、続いて処理2−7に進み2−
5で認識した処理の再実行に引き続き、2−4で採取し
た情報を基に、以後DGP1−4がEPUl−1の替わ
りとしてシステムの運用が再開される(2−8)。
中の障害ではない場合は、続いて処理2−7に進み2−
5で認識した処理の再実行に引き続き、2−4で採取し
た情報を基に、以後DGP1−4がEPUl−1の替わ
りとしてシステムの運用が再開される(2−8)。
2−6で判断した結果、EPUI−1で発生した障害が
MMI−3とアクセス中またはl0P1−2と通信中の
障害であった場合には、処理2−8に進み2−5で認識
した処理の再実行に続き、MMI−3に対して再アクセ
ス、またはl0PI−2と再通信処理を行い(2−9)
、これが成功すれば処理2−8に進みシステムの運用が
再開される。
MMI−3とアクセス中またはl0P1−2と通信中の
障害であった場合には、処理2−8に進み2−5で認識
した処理の再実行に続き、MMI−3に対して再アクセ
ス、またはl0PI−2と再通信処理を行い(2−9)
、これが成功すれば処理2−8に進みシステムの運用が
再開される。
処理2−9に於けるMMI−3に対する再アクセス、ま
たはl0PI−2に対する再通信処理が不成功に終わっ
た場合には、EPtJl−1以外の障害と判断しシステ
ムの運用続行は不可能と判断し、システムダウン処理に
移行する(2−11)。
たはl0PI−2に対する再通信処理が不成功に終わっ
た場合には、EPtJl−1以外の障害と判断しシステ
ムの運用続行は不可能と判断し、システムダウン処理に
移行する(2−11)。
通常、DGPl−4は、EPUI−1に比べると著しく
性能は低いが、性能が縮退されてもシステムダウンとな
らずに運用が継続されることは最近のシステムダウンに
なった場合の影響の庫合から判断すれば重要である。ま
た、DGPl−4はシステム初期化動作中は主体となっ
て高負荷で動作するが、システムの運転中にはかなり低
負荷で動作する為、EPUI−1の代行機能は可能であ
る。
性能は低いが、性能が縮退されてもシステムダウンとな
らずに運用が継続されることは最近のシステムダウンに
なった場合の影響の庫合から判断すれば重要である。ま
た、DGPl−4はシステム初期化動作中は主体となっ
て高負荷で動作するが、システムの運転中にはかなり低
負荷で動作する為、EPUI−1の代行機能は可能であ
る。
さらに、性能を考直しなければDGP 1−4に特別な
ハードウェアを備えなくともファームウェアの追加機能
のみで本特許は実施可能である。
ハードウェアを備えなくともファームウェアの追加機能
のみで本特許は実施可能である。
以上説明したように、本発明は演算処理装置に障害が発
生した場合にシステムに演算処理装置が1台しか存在し
なくとも、また発生した障害が固定障害であってもシス
テムを極力ダウンさせないという効果がある。さらに、
本発明を実現させる為に特別なハードウェアを備えなく
とも、既存の演算処理装置と診断制御装置とのバスを用
いれば、ファームウェアの追加機能により実現可能であ
る。
生した場合にシステムに演算処理装置が1台しか存在し
なくとも、また発生した障害が固定障害であってもシス
テムを極力ダウンさせないという効果がある。さらに、
本発明を実現させる為に特別なハードウェアを備えなく
とも、既存の演算処理装置と診断制御装置とのバスを用
いれば、ファームウェアの追加機能により実現可能であ
る。
第1図は本発明のシステム構成図、第2図はEPUI−
1に障害が発生した場合のDGP 1−4に障害処理フ
ロー図である。 1−1・・・演算処理装置、1−2・・・入出力制御装
置、1−3・・・主記憶装置、1−4・・・診断制御装
置、 =5・・・システムバス、 −6・・・診断バス。
1に障害が発生した場合のDGP 1−4に障害処理フ
ロー図である。 1−1・・・演算処理装置、1−2・・・入出力制御装
置、1−3・・・主記憶装置、1−4・・・診断制御装
置、 =5・・・システムバス、 −6・・・診断バス。
Claims (1)
- 【特許請求の範囲】 演算処理装置、入出力制御装置、主記憶装置並びにシス
テムの初期化制御、保守診断制御及び障害処理を行う診
断制御装置を有する情報処理装置における耐故障制御方
式において、 前記診断制御装置に演算処理装置の機能を代行する機能
と、システムの運用中に演算処理装置に障害が発生した
場合に演算処理装置が実行していた処理を引き継ぐ機能
を設けることにより、演算処理装置に障害が発生後、診
断制御装置によりシステムの運用を続行することを特徴
とした耐故障制御方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2030769A JPH03233734A (ja) | 1990-02-09 | 1990-02-09 | 耐故障制御方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2030769A JPH03233734A (ja) | 1990-02-09 | 1990-02-09 | 耐故障制御方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03233734A true JPH03233734A (ja) | 1991-10-17 |
Family
ID=12312890
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2030769A Pending JPH03233734A (ja) | 1990-02-09 | 1990-02-09 | 耐故障制御方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03233734A (ja) |
-
1990
- 1990-02-09 JP JP2030769A patent/JPH03233734A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100557399B1 (ko) | 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법 | |
| US7305578B2 (en) | Failover method in a clustered computer system | |
| US6594709B1 (en) | Methods and apparatus for transferring data using a device driver | |
| JPH0950424A (ja) | ダンプ採取装置およびダンプ採取方法 | |
| JPH0375834A (ja) | パリティの置換装置及び方法 | |
| JP2956849B2 (ja) | データ処理システム | |
| JPH03233734A (ja) | 耐故障制御方式 | |
| JPH07183891A (ja) | 計算機システム | |
| JP2827713B2 (ja) | 二重化装置 | |
| JP2998804B2 (ja) | マルチマイクロプロセッサシステム | |
| JP2785992B2 (ja) | サーバプログラムの管理処理方式 | |
| JP2555214B2 (ja) | 障害被疑装置の制御方法 | |
| JPS62236056A (ja) | 情報処理システムの入出力制御装置 | |
| JP2977705B2 (ja) | ネットワーク接続された多重化コンピュータシステムの制御方式 | |
| JP2001175545A (ja) | サーバシステムおよび障害診断方法ならびに記録媒体 | |
| JPH0630069B2 (ja) | 多重化システム | |
| JP3311704B2 (ja) | マルチプロセッサ通信機構の故障処理方法 | |
| KR100303341B1 (ko) | 소형컴퓨터시스템인터페이스버스비지상태회복방법 | |
| JPH11134211A (ja) | 二重化コンピュータシステムおよびその運用方法 | |
| JP3110124B2 (ja) | マルチコンピュータシステムにおける障害検出方式 | |
| JP2908430B1 (ja) | マルチプロセッサシステムのホストプロセッサ監視装置および監視方法 | |
| JPH09282291A (ja) | 共通記憶装置のロックフラグ解除方式および方法 | |
| JP2924732B2 (ja) | 情報処理装置の自己診断方法 | |
| JPS60195649A (ja) | マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式 | |
| JPH0575136B2 (ja) |