JPS598064A - 多重系計算機システムの障害診断方式 - Google Patents

多重系計算機システムの障害診断方式

Info

Publication number
JPS598064A
JPS598064A JP57115477A JP11547782A JPS598064A JP S598064 A JPS598064 A JP S598064A JP 57115477 A JP57115477 A JP 57115477A JP 11547782 A JP11547782 A JP 11547782A JP S598064 A JPS598064 A JP S598064A
Authority
JP
Japan
Prior art keywords
main memory
series
information
fault
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57115477A
Other languages
English (en)
Inventor
Sei Ogiwara
荻原 聖
Eiji Hasegawa
栄司 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Tokyo Shibaura Electric Co Ltd filed Critical Toshiba Corp
Priority to JP57115477A priority Critical patent/JPS598064A/ja
Publication of JPS598064A publication Critical patent/JPS598064A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、多重系計算機システムの障害診断方式、特に
障害を発生した計算機の主メモリ上にある障害発生直前
までの情報を保存し得る多重系計算機システムの障害診
断方式に関するものである。
〔発明の技術的背票〕
一般に計算機システムを停止に至らしめるような重大な
障害発生直前としては、それを構成するハードウェアの
重要部分の故障及びバグによるプログラムのM走等が考
えられる。
これらの障害の診断をし障害原因を判明させるために最
も有効な手掛りとなる情報は、障害のため停止に至った
時の引算機システムの主メモリ上に存在する。こ第1は
停止した際に主メモリ上に保存されている情報には停止
に至る迄のプログラムの走行壮態や外部記憶装置や周辺
機器との入出力状態などがあるためである。このため、
従来、停止に至る際主メモリ上の情報を、一旦外部記憶
装随に退避させておき、訓η機システムを再起動させた
後、その情報をラインプリンタ等に出力し、障害診断を
行なっている。
第1図によって、従来の障害診断方式を説明する。第1
図に示す計算機システムは中央演算処理装置(以下CP
Uと云う)1、主メモリ2、外部記憶装置(以下バルク
メモリと云う)3、ラインプリンタ(以下LPと云う)
4を設けている。6けパスでを)る。
今、この削舞機システムに前記したようなノ・−ドウエ
ア、又はソフトウェアに起因する障害が発生すると、通
常割込みと云う形で(以下障害割込みと太う) CPU
 1に通知される。ここで障害発生割込みを受信したC
PU 1は、それ迄実行していたグログラムを中断し2
、直ちに主メモリ情報退避グログラム2−1に側脚を移
す。主メモリ情報退避プログラム2−1はこのような状
況下、即ち、今まさに引算機システムが停止せんとする
直前に動作する必要のあるプログラムであるため、通常
のプログラムのように常時はバルクメモリ3上にあシ、
実行時のみ主メモリ2上にロードさせる形態はとれず、
主メモリに常駐する形態のプログラム(主常駐プログラ
ムと云う)である。
主メモリ情報退避プログラム2−1の動作はよく知られ
ているため、詳細な説明は省くが、次のような機能を有
している。
即ち、主メモリ2上にある情報を全量又は選択的に信号
系Aを通してバルクメモリ3の主メモリ情報保存領域3
−1に転送保存した後、61算機システムを停止させる
。そし7でバルクメモリ3の主メモリ情報保存領域3−
1に保存さノ1.でいる情報は、引算機システムを再度
起動した後、図示しないプログラムによって、信号系B
を通してLP4宿に出力し、障害診断に供している。
〔背策技術の問題点〕
以上が訓算機システムにおける障害診断方式の代表[F
IJであるが、これには次のような欠点を有し7ている
。即ち、障害原因がハードウェアにあって前記障害発生
割込みを発生しえなくなったり、信号系AVrCよるバ
ルクメモリ3への転送が不可能になった場合には、この
方式は全く機能し々くなると云うことである。
更に又、障害片囚がソフトウェアにあってプログラムの
藁走により、主メモリ情報退避プログラム2−1が破壊
4 h、たよりな場合も同様である。
多重系システムも上記同様の方法で障害診断のための情
報を得ている。
〔発明の目的〕
本発明は上記欠点を解決することを目的としてなされた
ものであり、ハードウェア及びソフトウェアのいずれの
障害発生に際しても障害診断のための重要な手掛かりの
喪失を防ぎ得る多重余計a機システムの障害診断方式を
提供することを目的としている。
〔発明の概要〕
そして本発明では多重系を構成する計算機のいずれかの
系列において障害が発生した場合、障害を発生した系列
の主メモリ上にある情報を残りの正常動作している系列
で採集することにより、障害診断のための重要々手掛り
の喪失を防ごうとするものである。
実施例 以下図面を参照しつつ実施例を説明する。第2図は本発
明による多重系計算機システムの障害診断方式の一実施
列構成図である。
第2図は2重系の計算機システムであって、これら各計
算機はCPU 1 a 、 1 b 、主メモリ2a。
2b、バルクメモリ3a+3bx LP4a、4bをそ
なえていることは第11¥1と同様である。なお、サフ
ィックスaを伺1.た削讃機を第1系列、bを付した側
a機を第2系列と称することにする。
5a、5bは互に相手系の主メモリをアクセス可能にす
るための装FI s即ち、CPU 1 a i7tgW
 5 B+5bを介して相手系にある主メモIJ 2 
bをアクセスすることができ、又、CPU 1 bは装
置5b。
5aを介(7て相手系にある主メモ’J 2 aをアク
セスすることができるもσ)で、コンピュータシステム
リンケーノ装置(以下C8Lと云う)と称することにす
る。
次に第3図のフローグーヤードvCよって上記第2図々
示実舵例の動作を説明する。
今、第1系列の旧算機に障害が発生した場合を説明する
と、ステップA、Bのオア条件により、ステッfCV?
X示さノする第2系列のCPU 2 bに障害発生が通
知きれる。即ち、図示しない第1系列の停止検出装W1
.出力を第2系列の割込み横用装置に入力するなどのノ
・−ドウエアによる手段(ステップA)、又は第2系列
にある他系状態監視グログラムによる検出などのソフト
ウェアによる手段(ステップB)のいずれかによって、
正常な第2系列が第1系列の障害発生を知、2−(ステ
ップC)。
第1系列の障害停止の通知を受けた第2系列の主メモリ
情報退避プログラム2b−2は、信号系Cを介して障害
停止した第1系列の主メモリ21上にある情報をC8L
 5 a 、 5 bを経由して第2系列のバルクメモ
I73 bの主メモリ情報保存領域3b−2に保存する
(ステップD)。
なお、第2系列の計瀞機システムにおける主メモリ情報
退避プログラム2b−2の前記動作は他の業務プログラ
ムの実行と並行して行なうことが可能である。
なお、多重系計算機システムを構成する計算機け、各々
独立して動作するものでけ々く、各耐η−機は有機的に
結合して動作している。したがって上記実施例で説明し
た第2系列の主メモリ退避プログラム2b−2によって
、第1系列の主メモリ上[Sる情報の採集と共に、第2
系列自身の主メモリ2b上にある情報も併せて、バルク
メモリ3bvCある主メモリ情報保存領3b〜2に保存
するようにさぜれは、より広範な障害診断のための情報
を供することができる。
〔発明の効果〕
以上H’ll’明し戸如く、本発明によれば多重系言1
算機システムにおいて、多11系を構成する計算機のい
ずれかの系列で障害が発生した場合、残りの正常動作し
7ている系列により障害を発生した系列の主2ノモリ上
の情報を採集すると共に、更に必要に応じて正′帛な系
ダ1の主メモリ上にある障害を発生した系列の状態に関
係する同時点の+9を報をも採集することができるσ)
で、より正確でかつ広範々障害診断のための情報を喪失
することのない多重系計n機ンステムのし一害診断方式
を提供できる。
【図面の簡単な説明】
第1図は従来の障害診断方式を説明するための構成図、
第2図d本発明による多重系計算機システムの障害診断
方式を説明するための構成図、第3図は動作説明のため
のフローチャートである。 ■・・・中央演η処理装置M 2・・・主メモリ2−1
・・・主メモリ情報退避プログラム3・・・外部記憶装
置 3−1・・・主メモリ情報保存領域 4・・ラインプリンタ 5a 、5b・・・他系の主メモリをアクセスする装置 慣°許出願人東京芝浦電気株式会社

Claims (1)

    【特許請求の範囲】
  1. 複数の計算機から構成される多重計算機システム内の障
    害発生に際し、障害発生計算機の主メモリ上にある情報
    を喪失することなく保存し得る多重系計算機システムの
    障害診断方式において、障害発生時に作動する主メモリ
    退避プログラムにより障害発生計算機の主メモリ上にあ
    る情報を、正常動作計算機の主メモリ情報保存領域に採
    集することを特徴とする多重系引算機システムの障害診
    断方式。
JP57115477A 1982-07-05 1982-07-05 多重系計算機システムの障害診断方式 Pending JPS598064A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57115477A JPS598064A (ja) 1982-07-05 1982-07-05 多重系計算機システムの障害診断方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57115477A JPS598064A (ja) 1982-07-05 1982-07-05 多重系計算機システムの障害診断方式

Publications (1)

Publication Number Publication Date
JPS598064A true JPS598064A (ja) 1984-01-17

Family

ID=14663490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57115477A Pending JPS598064A (ja) 1982-07-05 1982-07-05 多重系計算機システムの障害診断方式

Country Status (1)

Country Link
JP (1) JPS598064A (ja)

Similar Documents

Publication Publication Date Title
JP7351933B2 (ja) エラーリカバリ方法及び装置
JPS6375963A (ja) システム回復方式
JPH0375834A (ja) パリティの置換装置及び方法
JPH11261663A (ja) 通信処理制御手段及びそれを備えた情報処理装置
JP2956849B2 (ja) データ処理システム
JPS598064A (ja) 多重系計算機システムの障害診断方式
JPH07183891A (ja) 計算機システム
JPH0652130A (ja) マルチプロセッサシステム
JP2937857B2 (ja) 共通記憶装置のロックフラグ解除方式および方法
JP2002229811A (ja) 論理分割システムの制御方法
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
JPS6112580B2 (ja)
Comfort A fault-tolerant system architecture for navy applications
JP3311704B2 (ja) マルチプロセッサ通信機構の故障処理方法
JP3019409B2 (ja) マルチプロセッサシステムのマシンチェックテスト方法
CN115080211A (zh) 一种虚拟化平台系统的任务调度方法、系统及相关组件
JP3340284B2 (ja) 冗長システム
JPH0224731A (ja) エラー処理方法
JPH03111962A (ja) マルチプロセッサ・システム
JPH0916425A (ja) 情報処理システム
JPH0268634A (ja) 電子計算機予備方式
JPH0227449A (ja) ソフトウェア障害時の情報収集方式
JPS60195649A (ja) マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式
JPH0527994A (ja) デイジタル機器の誤出力防止方法
JPH1020968A (ja) 選択的ハードウェア・リセット回路