JPS633344A - 多重化システムの再実行方式 - Google Patents

多重化システムの再実行方式

Info

Publication number
JPS633344A
JPS633344A JP61146572A JP14657286A JPS633344A JP S633344 A JPS633344 A JP S633344A JP 61146572 A JP61146572 A JP 61146572A JP 14657286 A JP14657286 A JP 14657286A JP S633344 A JPS633344 A JP S633344A
Authority
JP
Japan
Prior art keywords
cpu
state
signal
data
faulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61146572A
Other languages
English (en)
Inventor
Junichi Iwasaki
岩先 純一
Shingo Kojima
小嶋 伸吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP61146572A priority Critical patent/JPS633344A/ja
Publication of JPS633344A publication Critical patent/JPS633344A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は情報処理装置に関し、特に複数のCPUで構成
される多重化システムに関する。
従来の技術 昨今のマイクロプロセッサの高性能化により、その応用
分野は様々な領域に拡大した為、そのシステムの信頼性
も高いものが要求されている。マイクロプロセッサを利
用したシステムで高(8頼性を得る場合、1つには複数
のCPUに同一の処理を行わせ、出力を比較して誤動作
を検知するという方法がある。これを多重化システムと
称し、CPU自体の価格が低いマイクロプロセッサ・シ
ステムでは比較的安価で、かつ効果の高い高信頼性シス
テムを得る事ができる。
上記のように、通常、多重化システムを構成する場合に
は、2台の同じCPUを並行運転させる。
これら2台のCPUからの出力結果に不一致が生じた場
合にはどちらかのCPUが異常動作をしたと見なし、そ
のCPUの組を停止させた後、別に用意しである予備の
CP[Jの組を起動して誤動作に対処する為のルーチン
を走らせる、という制御方法が従来から用いられている
発明が解決しようとする問題点 上述した従来の多重化システムでは、誤動作が検出され
た後、システムダウンさせない為!: ハ最小構成でも
CPU2台の組を2組、すなわち4台のCPUが必要と
なり、高コストのシステムとなってしまう。また、誤動
作が検出された場合、主CPUを、それまで動作してい
なかった予備のCPUに切り換えてしまう為、異常が生
じた時点でのCPU内部の状態は全く不明であり、処理
を続行する事は不可能である。さらに、誤動作が生じた
場合、主CPU0組を切り換え、誤動作処理ルーチンを
起動させる為に、かなりのタイムロスを生じ、またハー
ドウェア・ソフトウェア両方に対する負担も大きくなる
という欠点を有している。
そこで、本発明は、3台以上のCPUからなる多重化シ
ステムにおいて、誤動作が検出された時、直ちにマイク
ロプロセッサからの誤動作信号を解析し、極力短いロス
タイムで故障CPUの切り放し、もしくはシステムの再
構成を行い、命令の実行を続行可能とするシステムを提
供する事を目的とする。
問題点を解決する為の手段 本発明の多重化システムは、監視CPUからのデータネ
−致信号に基づいて故障CPUを判断し、監視プロセッ
サの1つが故障の場合には他のCPUを停止させる事が
なく、主CPUが次のバスサイクルに処理を進める以前
に故障cPUの切り放しを行った後処理を続行し、主C
P[Jが故障の場合にも、故障が発生したバスサイクル
の読み出し/書き込み信号をラッチしておいて、システ
ムの再構成の後、システムを破壊している恐れがない場
合には処理の続行を可能とする機能を有している。
実施例 第1図に、CPLlB台を用いて本発明を施したシステ
ムを構成した例を示す。
3台のCPU101.102.103はそれぞれ同一で
あり、コントロールユニット105からのFRM信号に
よって主モードと監視モードが切り換えられるようにな
っている。F RM信号がインアクティブの場合には主
CPUとして通常の動作を行う。
これに対しF R>Ji倍信号アクティブの場合にはC
PUは監視モードとなり、コントロール出力バス、アド
レスバス、データバス上に主CP[Jから出力があった
時、そのバス上の信号と、自分が出力する;まずである
信号を常に比較し続け、不一致が認めろれた場合に不−
致1言号〜i S >/I A Tをアクティブにして
外部のコントロールユニット105 に知らせる。外部
制御回路であるこのコントロールユニット105におい
て故1cpuの特定、切り放し、システムの再構成など
を行う。
CPUの外部には主メモリ、I10装置など104があ
って、コントロールバス106.107、アドレスバス
108、データバス109によりCPU101.102
.103 と接続されている。なお、コントロールバス
は、説明の都合上、CPUからメモリ等へ出力されるコ
ントロール出力バス106ト、CPUに入力されるコン
トロール入力バス107に分割して示す。
本システムにはさらにラッチ116が設けである。
このラッチ116には、誤動作発生時専用緊急停止信号
HALT118 と、主cpuからの読出し/書き込み
信号R/W117 とが人力されている。HALT信号
118の立ち上がり時のR/W信号の状態を保持し、そ
の内容をR/W慣号119としてコントロールユニット
105に出力する。
以下に、第1図に示した3台のCPUによる多重化シス
テムを例にとり、本発明のシステムの動作を詳細に説明
する。
コントロールユニット105は、初期状態では主CPU
とするべきCPUに対するF RM信号のみをインアク
ティブとする。第1図の例では、FRM1信号をインア
クティブとしてCPU 1を主Cpuとし、FRM2信
号及びFRM3信号をアクティブとしてCPU2及びC
PU3を監視CPUとする。また、HALT信号はイン
アクティブとしておく。
3台のCPUが全て正常に動作している場合には、各C
PUは全く同様の動作を続けている為、コントロール出
力バス106、アドレスバス108、データバス109
の各バス上のデータは監視CPUの出力用データと常に
一致する。よって、MSMAT2信号、MSMAT3信
号は共にインアクティブである。コントロールユニット
105 はこれら2つの信号から、システムが正常動作
していると判断しく第7図参照)、MSMAT2信号あ
るいはM S M A T 3信号のどちらかがアクテ
ィブとなるまで各FRM信号及びHALT信号を上述の
初期状態のまま保持する。
続いて、監視CPUであるCPU2が故障した場合の、
故障発生から2台のCPUによるシステム再始動、さら
にもう1つのCPUの故障によるシステムダウンまでの
推移を以下に示す。
CPU2に故障が発生した場合のCPUのメモリ書き込
みサイクルのタイミングチャート及び状態遷移図を第4
図及び第6図に示す。このタイミングチャートでわかる
様に、クロック信号CLKのT1ステートの立上がりで
アドレスA。−23がセットされる。また、T1ステー
トの立下がりでデータD。−1,がセットされる。次い
でT2ステートの立上がりでデータストローブ信号DS
によってバス上のデータが確定する。監視CPUはこの
タイミングでデータの不一致を確認し、MSMAT2を
アクティブにして不一致のあった事をコントロールユニ
ット105に知うせる。コントロールユニット105は
全MSMAT信号を調べ、アクティブになっているのが
MSMAT21つだけであることから、不一致を告げた
CPU2自身が故障していると判断しく第7図参照)、
次のステートからM S M A T 2をマスクし、
以降のシステムの動作に影響を与えないようにする。ま
た、CPU2は監視モードである為、MSMAT以外の
全信号端子は人力状態になっている。よって、CP[J
2はシステムに対して何の動作もできない事になり、シ
ステム側から見た場合、CPU2は完全に切り放された
ものとすることができる。以上の処理は、HALT信号
を使用しない為、主CPUIはそのままロスタイムなく
命令を続行する事ができる。
すなわち、第6図に示したバスサイクルの状態遷移図で
ステー) T +からT、まで進んだあと続いてすぐに
次のステー)T+ に戻る。
なお、この状態では、主CPUIと監視CPU3が1台
ずつで動いている事になる為、さらに監視CPU3が不
一致を検出した場合にはどのCPUが故障したのかを判
断することができない。その為、MSMAT3がアクテ
ィブになった時は、直ちにHALTをアクティブにして
主CPIJ1と監視CPU3の両方に緊急停止をかけ、
システムの破壊を最小限に留める。
CPU2故障発生からここまでのシステムの状態遷移図
を第2図に示し、以下にこの図における各ステートを簡
単に説明する。
(1)T 1 : MSMAT2がアクティブとなる。
(2)T2:MSMAT2をマスクする。
(3)TW2 : MSMAT3がアクティブになるま
で待つ。
(4)T3:CPUIに対するホールド要求信号HLD
RQI、及びCPL13に対するホールド要求信号HL
 D RQ 3をアクティブにする。
(5)T4:(システムダウン) 次に、主CPUIが故障した場合の、故障発生から2台
のCPUによるシステム再始動、さらにもう1つのCP
Uの故障によるシステムダウンまでの推移を以下に示す
この状態の、CPU 1に故障が発生したバスサイクル
のタイミングチャートは第5図に示す様になる。
先に示した、CPU2故障の場合と同様にして、タロツ
ク信号C’LKのT1ステートの立上がりでアドレスA
。−23がセットされる。また、TIステートの立下が
りでデータD O−I Sがセットされる。
次いでT2ステートにおいてCPU2及びCPU3はデ
ータの不一致を確認し、M S M A T 2とMS
MAT3をアクティブにして不一致のあった事をコント
ロールユニット105 に知らせる。コントロールユニ
ット105は全てのMSMATがアクティブになってい
る事から、CPUlが故障と判断しく第7図参照)、次
のステートT3でHALTをアクティブにし、全CPU
に緊急停止をかける。
HALT信号により、実際にアドレスバス及びデータバ
スがハイインピーダンスになるのは、そのバスサイクル
が終了した後である為、緊急停止をかけてからCPUが
停止するまでに最大1バスサイクル分の時間を要する。
よって、HALTをアクティブにしてから1バスサイク
ル分の時間の後、FRMIをアクティブにし、FRM2
をインアクティブにする事により主CPUをcp、ul
からCPU2へ切り換える。この時、HALTによって
全てのコントロール出力はインアクティブになっている
為、切り換え途中にバスの競合が起こる事はない。
また、CPU2を主CPUとしたことで、CPU2のM
SMAT信号は不要になる。そこで、コントロールユニ
ッ)105側のMSMAT2をハイインピーダンスにし
、CPU2との接続を断つ。
ここで、故障を発生したのが監視CPUではな(、主C
PUであるCPU 1である為、異常が認められたバス
サイクルで主メモリ、I10装置等104への書き込み
が行われていた場合、システムの一部が破壊されている
可能性がある。そうなると命令の続行は不可能である。
そこで、ラッチ106により、そのバスサイクルのR/
W信号を保存しておく。もし前の主CPUが書き込み動
作ではなかった場合には監視CPUが故障した場合と同
様、システムの再構成が終了したあと、HALTを解除
して故障発生時に実行していたバスサイクルから命令の
処理を続行する。また、書き込み動作であった場合には
、コントロールユニット105ハシステムの再構成が終
了した後、HALTを解除すると同時にRT/EP信号
を「続行不可能」にして、命令処理の続行が不可能な事
をCPU側に知らせる。
この様にして、どちらの場合でもHALTがインアクテ
ィブとなる事により、システムは再始動するが、この時
、CPUIはFRMがアクティブとなっている為、監視
モードとなっており、MSMAT以外の全出力信号は人
力状態となっている。
また、コントロールユニッ)105側のMSM’AT1
はCPLi 1が主CPUであった時のまま、ハイイン
ピーダンスとなっている。従って、CPU 1はシステ
ムに影響を与える事が不可能となり、システム側からは
CPUIは完全に切り放されたと考えることができる。
このような動作で、システムはCPU2を主CPUとし
て2台のCPU状態で実行を再開する。
上述したように、前の主CPUが書き込み動作を行って
いなかった時にはRT/EPは「続行可能」を示す為、
故障発生バスサイクルから命令処理を続行する。これに
対し、書き込み動作を行っていた時にはRT/EPが「
続行不可能」を示す為、CPU2は直ちに内部割込みを
発生し、あらかじめ用意されている誤動作処理ルーチン
を起動する。
以上のように、主CPUが故障した場合でも、システム
は数クロックサイクル程度のロスタイムで実行を再開す
る事ができる。
第6図のバスサイクルの状態遷移図で説明する。
主CPUに故障が発生した際にはTIステートからT、
まで進む。そこでステートTHに変わって主CPUの切
り換えを行なった後、再びステートT、に戻り、次のス
テートT1へと進んでいく。
なお、CPU2故障の場合と同様、この状態では主CP
Uと監視CPUが1台ずつしかない為、次に不一致が検
出された場合にはシステムの復旧は不可能である。よっ
てこの場合もMSMAT3がアクティブになった時は直
ちにHALTをアクティブにし、両方のCPUを緊急停
止させてシステムの破壊を最小限に留める。
CPU1故障発生からここまでのシステムの状態遷移図
を第3図に示し、以下にこの図の各ステートを説明する
(1)T1:HALTをアクティブにする。
(2)TWI:現在のバスサイクルが終了するのを待つ
(3)T2:FRMIをアクティブにする。
FRM2をインアクティブにする。
MSMAT2をハイインピーダンスにする。
(4)T3:R/W’信号を確認する。
(5)T4 : RT/EPを「続行可能」にする。
HALTをインアクティブにする。
(5’)T4″ :RT/EPを「続行不可能」にする
HALTをインアクティブにする。
(6)TW 4 : M’S MAT 3がアクティブ
になるまで待つ。
(7)T5:HALTをアクティブにする。
(8)T6:(システムダウン) 発明の詳細 な説明したように本発明は、使用するCPU及び制御回
路の信号の種類及びタイミングを最適化することにより
、多重化システムにおける故障CPUの切り放しもしく
はシステムの再構成に生ずるロスタイムを最小限にでき
る。また、可能な限りシステムに支障をきたす事なく、
命令の処理を続行できる効果がある。
【図面の簡単な説明】
第1図は本発明の実施例であるシステムのブロック図で
ある。 第2図は監視CPUであるCPU2の故障からシステム
ダウンまでの状態遷移図である。 第3図は主CPUであるCPU1の故障からシステムダ
ウンまでの状態遷移図である。 第4図は本発明の多重化システムにおいて、監視CPU
であるCPU2に故障が発生した場合のバスサイクルの
タイミングチャートである。 第5図は同様に主CPUであるCPUIに故障が発生し
た場合のタイミングチャートである。 第6図はCPUのバスサイクルの状態遷移図である。 第7図は外部制御回路が故障CPUを特定するための判
断基準である。 (主な参照番号) 101  ・・CPUI   102  ・・CPU2
103  ・・CP U 3 104・・主メモリ、I
10装置′−105拳Oコントロールユニット 106  ・・コントロール出力バス 10’7  ・・コントロール人力ハス108  ・・
アドレスバス 109  ・・テータパス116  ・
・ラッチ

Claims (1)

    【特許請求の範囲】
  1. 主CPUと2台以上の監視CPUからなる多重化システ
    ムにおいて、該多重化システムは前記各監視CPUから
    の出力信号と前記主CPUの出力信号を比較する比較器
    と、バスサイクルの最新の状態を記憶するレジスタと、
    前記比較器からの一致信号により故障CPUを判別する
    故障CPU判別回路を有し、前記故障CPU判別回路の
    出力に基づき特定される故障CPUが前記監視CPUの
    いずれか一つである場合には他のCPUを停止させるこ
    となく、前記主CPUが次のバスサイクルに処理を進め
    る以前に前記故障CPUの切り放しを行った後処理を続
    行し、前記故障CPU判別回路の出力により特定される
    故障CPUが前記主CPUであって該主CPUが書き込
    み動作でなかった場合にはシステム再構成の後、前記レ
    ジスタのデータに基づき処理を続行し、該CPUが書き
    込み動作であった場合にはあらかじめ用意した誤動作ル
    ーチンを起動することを特徴とする多重化システムの再
    実行方式。
JP61146572A 1986-06-23 1986-06-23 多重化システムの再実行方式 Pending JPS633344A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61146572A JPS633344A (ja) 1986-06-23 1986-06-23 多重化システムの再実行方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61146572A JPS633344A (ja) 1986-06-23 1986-06-23 多重化システムの再実行方式

Publications (1)

Publication Number Publication Date
JPS633344A true JPS633344A (ja) 1988-01-08

Family

ID=15410723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61146572A Pending JPS633344A (ja) 1986-06-23 1986-06-23 多重化システムの再実行方式

Country Status (1)

Country Link
JP (1) JPS633344A (ja)

Similar Documents

Publication Publication Date Title
US5491787A (en) Fault tolerant digital computer system having two processors which periodically alternate as master and slave
JP2573508B2 (ja) ディジタルロジック同期モニター方法および装置
JPH0792765B2 (ja) 入/出力コントローラ
JPH0934809A (ja) 高信頼化コンピュータシステム
JPS59106056A (ja) フエイルセイフ式デ−タ処理システム
JP3063334B2 (ja) 高信頼度化情報処理装置
JPS633344A (ja) 多重化システムの再実行方式
JPH08287030A (ja) 多重系計算機システムの自動再起動装置および方法
JPS635439A (ja) 多重化システム
JPH07281915A (ja) 集積回路モジュール同期2重系情報処理装置
JP2998804B2 (ja) マルチマイクロプロセッサシステム
JPH0630069B2 (ja) 多重化システム
CN116820837B (zh) 一种关于系统组件的异常处理方法及装置
JPS6343771B2 (ja)
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH04241039A (ja) ベーシックプロセッシングユニット及び高信頼化コンピュータシステム
JPS5911455A (ja) 中央演算処理装置の冗長システム
JP3055249B2 (ja) プロセッサのデバッグ方式
JPH0855040A (ja) システム運転方法
JPS62296264A (ja) デ−タ処理システムの構成制御方式
JPS6079438A (ja) 情報処理系の系切替制御方式
JPH01120652A (ja) 入出力装置監視時間設定方式
JP3055906B2 (ja) 緊急動作方式
JPH10143393A (ja) 診断処理装置