JPS633344A

JPS633344A - 多重化システムの再実行方式

Info

Publication number: JPS633344A
Application number: JP61146572A
Authority: JP
Inventors: Junichi Iwasaki; 岩先　純一; Shingo Kojima; 小嶋　伸吾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1986-06-23
Filing date: 1986-06-23
Publication date: 1988-01-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は情報処理装置に関し、特に複数のＣＰＵで構成
される多重化システムに関する。

従来の技術昨今のマイクロプロセッサの高性能化により、その応用
分野は様々な領域に拡大した為、そのシステムの信頼性
も高いものが要求されている。マイクロプロセッサを利
用したシステムで高（８頼性を得る場合、１つには複数
のＣＰＵに同一の処理を行わせ、出力を比較して誤動作
を検知するという方法がある。これを多重化システムと
称し、ＣＰＵ自体の価格が低いマイクロプロセッサ・シ
ステムでは比較的安価で、かつ効果の高い高信頼性シス
テムを得る事ができる。

上記のように、通常、多重化システムを構成する場合に
は、２台の同じＣＰＵを並行運転させる。

これら２台のＣＰＵからの出力結果に不一致が生じた場
合にはどちらかのＣＰＵが異常動作をしたと見なし、そ
のＣＰＵの組を停止させた後、別に用意しである予備の
ＣＰ［Ｊの組を起動して誤動作に対処する為のルーチン
を走らせる、という制御方法が従来から用いられている
。

発明が解決しようとする問題点上述した従来の多重化システムでは、誤動作が検出され
た後、システムダウンさせない為！：　ハ最小構成でも
ＣＰＵ２台の組を２組、すなわち４台のＣＰＵが必要と
なり、高コストのシステムとなってしまう。また、誤動
作が検出された場合、主ＣＰＵを、それまで動作してい
なかった予備のＣＰＵに切り換えてしまう為、異常が生
じた時点でのＣＰＵ内部の状態は全く不明であり、処理
を続行する事は不可能である。さらに、誤動作が生じた
場合、主ＣＰＵ０組を切り換え、誤動作処理ルーチンを
起動させる為に、かなりのタイムロスを生じ、またハー
ドウェア・ソフトウェア両方に対する負担も大きくなる
という欠点を有している。

そこで、本発明は、３台以上のＣＰＵからなる多重化シ
ステムにおいて、誤動作が検出された時、直ちにマイク
ロプロセッサからの誤動作信号を解析し、極力短いロス
タイムで故障ＣＰＵの切り放し、もしくはシステムの再
構成を行い、命令の実行を続行可能とするシステムを提
供する事を目的とする。

問題点を解決する為の手段本発明の多重化システムは、監視ＣＰＵからのデータネ
−致信号に基づいて故障ＣＰＵを判断し、監視プロセッ
サの１つが故障の場合には他のＣＰＵを停止させる事が
なく、主ＣＰＵが次のバスサイクルに処理を進める以前
に故障ｃＰＵの切り放しを行った後処理を続行し、主Ｃ
Ｐ［Ｊが故障の場合にも、故障が発生したバスサイクル
の読み出し／書き込み信号をラッチしておいて、システ
ムの再構成の後、システムを破壊している恐れがない場
合には処理の続行を可能とする機能を有している。

実施例第１図に、ＣＰＬｌＢ台を用いて本発明を施したシステ
ムを構成した例を示す。

３台のＣＰＵ１０１．１０２．１０３はそれぞれ同一で
あり、コントロールユニット１０５からのＦＲＭ信号に
よって主モードと監視モードが切り換えられるようにな
っている。Ｆ　ＲＭ信号がインアクティブの場合には主
ＣＰＵとして通常の動作を行う。

これに対しＦ　Ｒ＞Ｊｉ倍信号アクティブの場合にはＣ
ＰＵは監視モードとなり、コントロール出力バス、アド
レスバス、データバス上に主ＣＰ［Ｊから出力があった
時、そのバス上の信号と、自分が出力する；まずである
信号を常に比較し続け、不一致が認めろれた場合に不−
致１言号〜ｉ　Ｓ　＞／Ｉ　Ａ　Ｔをアクティブにして
外部のコントロールユニット１０５　に知らせる。外部
制御回路であるこのコントロールユニット１０５におい
て故１ｃｐｕの特定、切り放し、システムの再構成など
を行う。

ＣＰＵの外部には主メモリ、Ｉ１０装置など１０４があ
って、コントロールバス１０６．１０７、アドレスバス
１０８、データバス１０９によりＣＰＵ１０１．１０２
．１０３　と接続されている。なお、コントロールバス
は、説明の都合上、ＣＰＵからメモリ等へ出力されるコ
ントロール出力バス１０６ト、ＣＰＵに入力されるコン
トロール入力バス１０７に分割して示す。

本システムにはさらにラッチ１１６が設けである。

このラッチ１１６には、誤動作発生時専用緊急停止信号
ＨＡＬＴ１１８　と、主ｃｐｕからの読出し／書き込み
信号Ｒ／Ｗ１１７　とが人力されている。ＨＡＬＴ信号
１１８の立ち上がり時のＲ／Ｗ信号の状態を保持し、そ
の内容をＲ／Ｗ慣号１１９としてコントロールユニット
１０５に出力する。

以下に、第１図に示した３台のＣＰＵによる多重化シス
テムを例にとり、本発明のシステムの動作を詳細に説明
する。

コントロールユニット１０５は、初期状態では主ＣＰＵ
とするべきＣＰＵに対するＦ　ＲＭ信号のみをインアク
ティブとする。第１図の例では、ＦＲＭ１信号をインア
クティブとしてＣＰＵ　１を主Ｃｐｕとし、ＦＲＭ２信
号及びＦＲＭ３信号をアクティブとしてＣＰＵ２及びＣ
ＰＵ３を監視ＣＰＵとする。また、ＨＡＬＴ信号はイン
アクティブとしておく。

３台のＣＰＵが全て正常に動作している場合には、各Ｃ
ＰＵは全く同様の動作を続けている為、コントロール出
力バス１０６、アドレスバス１０８、データバス１０９
の各バス上のデータは監視ＣＰＵの出力用データと常に
一致する。よって、ＭＳＭＡＴ２信号、ＭＳＭＡＴ３信
号は共にインアクティブである。コントロールユニット
１０５　はこれら２つの信号から、システムが正常動作
していると判断しく第７図参照）、ＭＳＭＡＴ２信号あ
るいはＭ　Ｓ　Ｍ　Ａ　Ｔ　３信号のどちらかがアクテ
ィブとなるまで各ＦＲＭ信号及びＨＡＬＴ信号を上述の
初期状態のまま保持する。

続いて、監視ＣＰＵであるＣＰＵ２が故障した場合の、
故障発生から２台のＣＰＵによるシステム再始動、さら
にもう１つのＣＰＵの故障によるシステムダウンまでの
推移を以下に示す。

ＣＰＵ２に故障が発生した場合のＣＰＵのメモリ書き込
みサイクルのタイミングチャート及び状態遷移図を第４
図及び第６図に示す。このタイミングチャートでわかる
様に、クロック信号ＣＬＫのＴ１ステートの立上がりで
アドレスＡ。−２３がセットされる。また、Ｔ１ステー
トの立下がりでデータＤ。−１，がセットされる。次い
でＴ２ステートの立上がりでデータストローブ信号ＤＳ
によってバス上のデータが確定する。監視ＣＰＵはこの
タイミングでデータの不一致を確認し、ＭＳＭＡＴ２を
アクティブにして不一致のあった事をコントロールユニ
ット１０５に知うせる。コントロールユニット１０５は
全ＭＳＭＡＴ信号を調べ、アクティブになっているのが
ＭＳＭＡＴ２１つだけであることから、不一致を告げた
ＣＰＵ２自身が故障していると判断しく第７図参照）、
次のステートからＭ　Ｓ　Ｍ　Ａ　Ｔ　２をマスクし、
以降のシステムの動作に影響を与えないようにする。ま
た、ＣＰＵ２は監視モードである為、ＭＳＭＡＴ以外の
全信号端子は人力状態になっている。よって、ＣＰ［Ｊ
２はシステムに対して何の動作もできない事になり、シ
ステム側から見た場合、ＣＰＵ２は完全に切り放された
ものとすることができる。以上の処理は、ＨＡＬＴ信号
を使用しない為、主ＣＰＵＩはそのままロスタイムなく
命令を続行する事ができる。

すなわち、第６図に示したバスサイクルの状態遷移図で
ステー）　Ｔ　＋からＴ、まで進んだあと続いてすぐに
次のステー）Ｔ＋　に戻る。

なお、この状態では、主ＣＰＵＩと監視ＣＰＵ３が１台
ずつで動いている事になる為、さらに監視ＣＰＵ３が不
一致を検出した場合にはどのＣＰＵが故障したのかを判
断することができない。その為、ＭＳＭＡＴ３がアクテ
ィブになった時は、直ちにＨＡＬＴをアクティブにして
主ＣＰＩＪ１と監視ＣＰＵ３の両方に緊急停止をかけ、
システムの破壊を最小限に留める。

ＣＰＵ２故障発生からここまでのシステムの状態遷移図
を第２図に示し、以下にこの図における各ステートを簡
単に説明する。

（１）Ｔ　１　：　ＭＳＭＡＴ２がアクティブとなる。

（２）Ｔ２：ＭＳＭＡＴ２をマスクする。

（３）ＴＷ２　：　ＭＳＭＡＴ３がアクティブになるま
で待つ。

（４）Ｔ３：ＣＰＵＩに対するホールド要求信号ＨＬＤ
ＲＱＩ、及びＣＰＬ１３に対するホールド要求信号ＨＬ
　Ｄ　ＲＱ　３をアクティブにする。

（５）Ｔ４：（システムダウン）次に、主ＣＰＵＩが故障した場合の、故障発生から２台
のＣＰＵによるシステム再始動、さらにもう１つのＣＰ
Ｕの故障によるシステムダウンまでの推移を以下に示す
。

この状態の、ＣＰＵ　１に故障が発生したバスサイクル
のタイミングチャートは第５図に示す様になる。

先に示した、ＣＰＵ２故障の場合と同様にして、タロツ
ク信号Ｃ’ＬＫのＴ１ステートの立上がりでアドレスＡ
。−２３がセットされる。また、ＴＩステートの立下が
りでデータＤ　Ｏ−Ｉ　Ｓがセットされる。

次いでＴ２ステートにおいてＣＰＵ２及びＣＰＵ３はデ
ータの不一致を確認し、Ｍ　Ｓ　Ｍ　Ａ　Ｔ　２とＭＳ
ＭＡＴ３をアクティブにして不一致のあった事をコント
ロールユニット１０５　に知らせる。コントロールユニ
ット１０５は全てのＭＳＭＡＴがアクティブになってい
る事から、ＣＰＵｌが故障と判断しく第７図参照）、次
のステートＴ３でＨＡＬＴをアクティブにし、全ＣＰＵ
に緊急停止をかける。

ＨＡＬＴ信号により、実際にアドレスバス及びデータバ
スがハイインピーダンスになるのは、そのバスサイクル
が終了した後である為、緊急停止をかけてからＣＰＵが
停止するまでに最大１バスサイクル分の時間を要する。

よって、ＨＡＬＴをアクティブにしてから１バスサイク
ル分の時間の後、ＦＲＭＩをアクティブにし、ＦＲＭ２
をインアクティブにする事により主ＣＰＵをｃｐ、ｕｌ
からＣＰＵ２へ切り換える。この時、ＨＡＬＴによって
全てのコントロール出力はインアクティブになっている
為、切り換え途中にバスの競合が起こる事はない。

また、ＣＰＵ２を主ＣＰＵとしたことで、ＣＰＵ２のＭ
ＳＭＡＴ信号は不要になる。そこで、コントロールユニ
ッ）１０５側のＭＳＭＡＴ２をハイインピーダンスにし
、ＣＰＵ２との接続を断つ。

ここで、故障を発生したのが監視ＣＰＵではな（、主Ｃ
ＰＵであるＣＰＵ　１である為、異常が認められたバス
サイクルで主メモリ、Ｉ１０装置等１０４への書き込み
が行われていた場合、システムの一部が破壊されている
可能性がある。そうなると命令の続行は不可能である。

そこで、ラッチ１０６により、そのバスサイクルのＲ／
Ｗ信号を保存しておく。もし前の主ＣＰＵが書き込み動
作ではなかった場合には監視ＣＰＵが故障した場合と同
様、システムの再構成が終了したあと、ＨＡＬＴを解除
して故障発生時に実行していたバスサイクルから命令の
処理を続行する。また、書き込み動作であった場合には
、コントロールユニット１０５ハシステムの再構成が終
了した後、ＨＡＬＴを解除すると同時にＲＴ／ＥＰ信号
を「続行不可能」にして、命令処理の続行が不可能な事
をＣＰＵ側に知らせる。

この様にして、どちらの場合でもＨＡＬＴがインアクテ
ィブとなる事により、システムは再始動するが、この時
、ＣＰＵＩはＦＲＭがアクティブとなっている為、監視
モードとなっており、ＭＳＭＡＴ以外の全出力信号は人
力状態となっている。

また、コントロールユニッ）１０５側のＭＳＭ’ＡＴ１
はＣＰＬｉ　１が主ＣＰＵであった時のまま、ハイイン
ピーダンスとなっている。従って、ＣＰＵ　１はシステ
ムに影響を与える事が不可能となり、システム側からは
ＣＰＵＩは完全に切り放されたと考えることができる。

このような動作で、システムはＣＰＵ２を主ＣＰＵとし
て２台のＣＰＵ状態で実行を再開する。

上述したように、前の主ＣＰＵが書き込み動作を行って
いなかった時にはＲＴ／ＥＰは「続行可能」を示す為、
故障発生バスサイクルから命令処理を続行する。これに
対し、書き込み動作を行っていた時にはＲＴ／ＥＰが「
続行不可能」を示す為、ＣＰＵ２は直ちに内部割込みを
発生し、あらかじめ用意されている誤動作処理ルーチン
を起動する。

以上のように、主ＣＰＵが故障した場合でも、システム
は数クロックサイクル程度のロスタイムで実行を再開す
る事ができる。

第６図のバスサイクルの状態遷移図で説明する。

主ＣＰＵに故障が発生した際にはＴＩステートからＴ、
まで進む。そこでステートＴＨに変わって主ＣＰＵの切
り換えを行なった後、再びステートＴ、に戻り、次のス
テートＴ１へと進んでいく。

なお、ＣＰＵ２故障の場合と同様、この状態では主ＣＰ
Ｕと監視ＣＰＵが１台ずつしかない為、次に不一致が検
出された場合にはシステムの復旧は不可能である。よっ
てこの場合もＭＳＭＡＴ３がアクティブになった時は直
ちにＨＡＬＴをアクティブにし、両方のＣＰＵを緊急停
止させてシステムの破壊を最小限に留める。

ＣＰＵ１故障発生からここまでのシステムの状態遷移図
を第３図に示し、以下にこの図の各ステートを説明する
。

（１）Ｔ１：ＨＡＬＴをアクティブにする。

（２）ＴＷＩ：現在のバスサイクルが終了するのを待つ
。

（３）Ｔ２：ＦＲＭＩをアクティブにする。

ＦＲＭ２をインアクティブにする。

ＭＳＭＡＴ２をハイインピーダンスにする。

（４）Ｔ３：Ｒ／Ｗ’信号を確認する。

（５）Ｔ４　：　ＲＴ／ＥＰを「続行可能」にする。

ＨＡＬＴをインアクティブにする。

（５’）Ｔ４″　：ＲＴ／ＥＰを「続行不可能」にする
ＨＡＬＴをインアクティブにする。

（６）ＴＷ　４　：　Ｍ’Ｓ　ＭＡＴ　３がアクティブ
になるまで待つ。

（７）Ｔ５：ＨＡＬＴをアクティブにする。

（８）Ｔ６：（システムダウン）発明の詳細な説明したように本発明は、使用するＣＰＵ及び制御回
路の信号の種類及びタイミングを最適化することにより
、多重化システムにおける故障ＣＰＵの切り放しもしく
はシステムの再構成に生ずるロスタイムを最小限にでき
る。また、可能な限りシステムに支障をきたす事なく、
命令の処理を続行できる効果がある。

【図面の簡単な説明】

第１図は本発明の実施例であるシステムのブロック図で
ある。第２図は監視ＣＰＵであるＣＰＵ２の故障からシステム
ダウンまでの状態遷移図である。第３図は主ＣＰＵであるＣＰＵ１の故障からシステムダ
ウンまでの状態遷移図である。第４図は本発明の多重化システムにおいて、監視ＣＰＵ
であるＣＰＵ２に故障が発生した場合のバスサイクルの
タイミングチャートである。第５図は同様に主ＣＰＵであるＣＰＵＩに故障が発生し
た場合のタイミングチャートである。第６図はＣＰＵのバスサイクルの状態遷移図である。第７図は外部制御回路が故障ＣＰＵを特定するための判
断基準である。（主な参照番号）１０１　　・・ＣＰＵＩ　　　１０２　　・・ＣＰＵ２
１０３　　・・ＣＰ　Ｕ　３　１０４・・主メモリ、Ｉ
１０装置′−１０５拳Ｏコントロールユニット１０６　　・・コントロール出力バス１０’７　　・・コントロール人力ハス１０８　　・・
アドレスバス　１０９　　・・テータパス１１６　　・
・ラッチ

Claims

【特許請求の範囲】

主ＣＰＵと２台以上の監視ＣＰＵからなる多重化システ
ムにおいて、該多重化システムは前記各監視ＣＰＵから
の出力信号と前記主ＣＰＵの出力信号を比較する比較器
と、バスサイクルの最新の状態を記憶するレジスタと、
前記比較器からの一致信号により故障ＣＰＵを判別する
故障ＣＰＵ判別回路を有し、前記故障ＣＰＵ判別回路の
出力に基づき特定される故障ＣＰＵが前記監視ＣＰＵの
いずれか一つである場合には他のＣＰＵを停止させるこ
となく、前記主ＣＰＵが次のバスサイクルに処理を進め
る以前に前記故障ＣＰＵの切り放しを行った後処理を続
行し、前記故障ＣＰＵ判別回路の出力により特定される
故障ＣＰＵが前記主ＣＰＵであって該主ＣＰＵが書き込
み動作でなかった場合にはシステム再構成の後、前記レ
ジスタのデータに基づき処理を続行し、該ＣＰＵが書き
込み動作であった場合にはあらかじめ用意した誤動作ル
ーチンを起動することを特徴とする多重化システムの再
実行方式。