JPH0973401A

JPH0973401A - フォールトトレラントシステム

Info

Publication number: JPH0973401A
Application number: JP7230251A
Authority: JP
Inventors: Noriaki Uchino; 則彰内野; Shigetaka Okina; 茂孝翁; Tatsuya Morikawa; 達也森川; Atsushi Funayama; 敦舩山
Original assignee: Seiko Instruments Inc
Current assignee: Seiko Instruments Inc
Priority date: 1995-09-07
Filing date: 1995-09-07
Publication date: 1997-03-18

Abstract

(57)【要約】【課題】システム内のコンピュータユニット１、２、
３、４のいづれかが故障した場合、他のコンピュータユ
ニットが処理代行する。【解決手段】複数のコンピュータユニット１、２、
３、４を持つデータ管理システムに於て、各コンピュー
タユニットは２つ以上の通信ポートＡ，Ｂを持ち、通信
ポートＡ，Ｂは各々のコンピュータユニットと接続可能
であり、全てのコンピュータユニットを接続して構成さ
れたシステムの中の隣接した各コンピュータユニットが
それぞれの前記通信ポートを介して互いに電気的に接続
される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マルチプロセッサ
方式のフォールト・トレラント・コンピュータに関す
る。

【０００２】

【従来の技術】図２は、従来のマルチプロセッサ方式の
フォールト・トレラント・コンピュータの概念図の一例
である。ここで、マルチプロセッサは全く同じ構成のコ
ンピュータユニットを独立に複数台設け、各ユニットの
コモンエリアを介して接続する構成となっている。

【０００３】また、前記各ユニットは各々別々のクロッ
クにより非同期でそれぞれ異なったタスクを実行してい
る。このマルチプロセッサにおいて、フォールト・トレ
ランスは相互監視、故障部分の切り離し、バックアップ
の３ステップによって実現している。

【０００４】この相互監視のステップは、各ユニットが
各々個別のタスクを実行中に定期的に他のユニットの動
作状態を監視し、その監視結果をバックアップ処理回路
に出力するようになっており、このような監視は各ユニ
ットの間で相互に行われる。次のステップでは、バック
アップ処理回路は各ユニットからの監視結果に基づいて
正常なユニットと異常なユニットを決定し、異常ユニッ
トに対してはシステムから切り離すための停止信号を出
力すると共に、正常ユニットに対しては、現在どのユニ
ットが運転状態にあるかを示す動作情報を出力する。

【０００５】続いて、正常ユニットは前記バックアップ
処理回路から受信した動作情報に基づいて実行すべきタ
スクを決定し実行する。この際、各ユニットのタスクが
重複したり漏れることがないようにタスクが決定され
る。なお異常が発見されてシステムから切り離されたユ
ニットのタスクは、正常ユニットがバックアップする。
このため、正常ユニットは状況に応じて複数のタスクを
実行することとなる。

【０００６】また、図３に示すように、各々のコンピュ
ータユニットは自らが制御するデバイスと電気的に接続
されている。

【０００７】

【発明が解決しようとする課題】上述のように、従来技
術では各コンピュータユニットが相互監視を行うため
に、コンピュータユニットの数が増えるに従いその相互
監視ロジックは複雑になり、さらに相互監視の為に使わ
れるＣＰＵパワーの負荷が増大し、コンピュータシステ
ムが本来行うべき処理のための時間が少なくなるという
課題がある。

【０００８】また、図３に示されるように、デバイスを
接続しているコンピュータユニットが故障した場合、デ
バイスの制御と共にデバイスの動作が不能になるという
課題がある。

【０００９】

【課題を解決するための手段】上述の課題を解決するた
め、本願発明におけるシステムは図４に示すように、通
信ポートＡ44と通信ポートＢ45の少なくとも２つ以上の
通信ポートを有する複数のコンピュータユニットによっ
て構成するものであり、該コンピュータユニットの前記
通信ポートは、図５に示すように、全てのコンピュータ
ユニットがそれぞれの通信ポートを介して互いに電気的
に接続されるように各々別のコンピュータユニットと接
続される構成を持っている。

【００１０】前記システム内の全てのコンピュータユニ
ットは、互いに自らが行う処理と同様の処理が代行でき
るコンピュータユニットを少なくとも一つ以上有してお
り、もし、システム内のいづれかのコンピュータユニッ
トに故障が発生した場合、故障したコンピュータユニッ
トの回復処理が行われるまでの間、前記故障したコンピ
ュータユニットが行うべき処理は、システム内の他のコ
ンピュータユニットが代行する。

【００１１】さらに、本構成においてはシステム全体の
故障情報を検出し、これを管理する基準コンピュータユ
ニットと、この基準コンピュータユニットをサポートす
るサブコンピュータユニットを有している。また、前記
基準コンピュータユニットあるいはサブコンピュータユ
ニットは、図６に示すように故障検出コマンドの管理番
号及びコンピュータユニットアドレスを含んだヘッダー
情報６１、各コンピュータユニットの故障情報６２及び
システム全体の故障情報６３を持つ故障検出コマンドを
用いて前記システムの故障を検出する。

【００１２】一方、前記システムに接続されたデバイス
は、図１に示すように該デバイスの制御が代行できる少
なくとも２つ以上のコンピュータユニットに対して同様
に接続され、このデバイスを操作する１つのコンピュー
タユニットに故障が発生し、制御不能になった時、前記
代行可能な他のコンピュータユニットによってデバイス
の操作を行う。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施例を詳細に説明する。図１は本発明によるフォ
ールトトレラントシステムの概略説明図である。この図
面において、基準コンピュータユニット１は、例えばＣ
ＰＵ４１、ＲＯＭ４２、ＲＡＭ４３、通信ポートＡ４
４、通信ポートＢ４５によって構成されており、前記コ
ンピュータユニット１が有する２つの通信ポートはそれ
ぞれサブコンピュータユニット２、デバイス制御用コン
ピュータユニットＡ３と接続されている。また、サブコ
ンピュータユニット２も基準コンピュータユニット１と
同様の構成から成り、前記サブコンピュータユニット２
の２つの通信ポートはそれぞれ前記基準コンピュータユ
ニット１、デバイス制御用コンピュータユニットＢ４に
接続されている。

【００１４】前記基準コンピュータユニット１の通信ポ
ートに接続されたデバイス制御用コンピュータユニット
Ａ３は、前記サブコンピュータユニット２に接続された
デバイス制御用コンピュータユニットＢ４に接続されて
いる。前記基準コンピュータユニット１及びサブコンピ
ュータユニット２は、主にデータ処理を行い、これら各
コンピュータユニットは互いにその機能を代行すること
が可能である。

【００１５】即ち、前記基準コンピュータユニット１に
障害が発生したときには、障害が回復されるまでの間、
前記サブコンピュータユニット２が前記基準コンピュー
タユニット１に代わってシステム全体の処理を行う。前
記デバイス制御用コンピュータユニットＡ３及び前記デ
バイス制御用コンピュータユニットＢ４は、主にデバイ
ス５の制御を行い、これらのコンピュータユニットに接
続するデバイス５は、図１に示すように前記両コンピュ
ータユニットに同時に接続され、どちらのコンピュータ
ユニットからでもデバイスを制御することが可能であ
る。

【００１６】また、前記デバイス制御用コンピュータユ
ニットＡ３に障害が発生した時には、障害が回復するま
で前記デバイス制御用コンピュータユニットＢ４が該デ
バイス制御用コンピュータユニットＡ３が行うべき処理
を代行する。前記基準コンピュータユニット１は、本来
のシステム処理の他にシステム内の故障検出を行う。

【００１７】さらに、システムの故障検出コマンドは図
６に示すようにヘッダー部６１、各々のコンピュータユ
ニットが管理する故障情報６２、及び基準コンピュータ
ユニットが管理する故障情報６３の情報から構成されて
おり、前記ヘッダー部６１は前記故障検出コマンドを発
行したコンピュータユニットのアドレス、該故障検出コ
マンドのフレーム管理番号などで構成される。

【００１８】次に、図７に示す基準コンピュータユニッ
ト以外のコンピュータユニットが故障検出コマンドを受
信した場合の処理について、図７を参考に説明する。基
準コンピュータユニット以外のコンピュータユニットが
ステップ７１にて故障検出コマンドを受信すると、ステ
ップ７２において受信した故障検出コマンドに自らが管
理する故障情報を書き込み、ステップ７３でこの書き込
み処理が終了した故障検出コマンドを受信通信ポートと
は別の通信ポートに書き込み、他のコンピュータユニッ
トに送信する。次に、ステップ７４において送信が成功
したかどうかを確認し、送信が成功した場合には再び故
障検出コマンドの受信を待つ。

【００１９】これにより前記コンピュータシステム内の
全てのコンピュータユニットを経由して故障していない
ことが確認された後、基準コンピュータユニットが発信
した前記故障検出コマンドは再び前記基準コンピュータ
ユニットに戻る。しかしながら、基準コンピュータユニ
ット以外のコンピュータユニットが前記故障検出コマン
ドの送信処理に失敗した場合には、ステップ７５におい
て当該コンピュータユニットは送信失敗情報を対象の故
障検出コマンドに書き込み、ステップ７６において最初
に前記故障検出コマンドを受信した通信ポートに前記送
信失敗情報を書き込んだ故障検出コマンドを送信する。

【００２０】この結果、前記故障検出コマンドは各コン
ピュータユニットの故障情報をのせ、再び基準コンピュ
ータユニットにフィードバックされる。次に、図８のフ
ローチャートに基づいて基準コンピュータユニット１の
故障検出コマンドに関する動作を説明する。

【００２１】まず、基準コンオユータユニットは、ステ
ップ８１で故障検出に必要な情報を故障検出コマンドに
書き込み、ステップ８２において前記故障検出コマンド
を自らの通信ポートＡ３に送信し、システム内の各コン
ピュータユニットを順に回送させる。ステップ８３で
は、システム内を一巡した基準コンピュータユニットか
らの前記故障検出コマンドを再び受信する。ステップ８
４において受信した故障検出コマンドに故障情報がない
ときには再び故障検出コマンドの受信を待つ。

【００２２】一方、前記受信した故障検出コマンドに故
障情報が存在した場合には、ステップ８５において故障
個所の特定が可能か否かを調べる。故障個所の特定が可
能な場合はステップ９０に進み、該故障個所の特定を行
い、ステップ９１において故障処理を行う。

【００２３】受信した故障情報で故障個所の特定が不可
能な場合には、ステップ８６において別の故障検出コマ
ンド管理番号を持った別の故障検出コマンドを用意し、
ステップ８７において前回送信した通信ポートとは別の
通信ポートに前記故障検出コマンドを送信し、システム
内を一巡させた後にステップ８８において前記故障検出
コマンドを再び受信する。

【００２４】ステップ８９では、前記故障検出コマンド
に故障情報が無ければ故障は既に解消されたと判断し、
再び最初の故障検出コマンドを定期的に用意し、前記基
準コンピュータユニットの通信ポートＡに送信する。一
方、ステップ８８で受信した前記故障検出コマンドに再
び故障情報が有れば、ステップ９０で故障個所を特定
し、ステップ９１において故障処理を行う。

【００２５】次に、図９のフローチャートに基づいてサ
ブコンピュータユニット１の故障検出コマンドに関する
動作を説明する。サブコンピュータユニット２は、ステ
ップ９２において常に定期的に前記故障検出コマンドの
受信を監視しており、規定時間以上サブコンピュータユ
ニット２に故障検出コマンドの受信が無かった場合は、
該サブコンピュータユニット２は前記基準コンピュータ
ユニット１に対し、該基準コンピュータユニット１が正
常であるか否かを確認するための確認コマンド送信をス
テップ９４にて実行する。

【００２６】該確認コマンドに対する基準コンピュータ
ユニット１からの応答を規定時間受信しなかった場合に
はサブコンピュータユニットは前記基準コンピュータユ
ニット１の故障と判断し、ステップ９８において前記サ
ブコンピュータユニット２は該基準コンピュータユニッ
ト１故障時の処理を行う。

【００２７】一方、サブコンピュータユニットが前記確
認コマンドを受信した場合には、ステップ９６において
受信データを解析し、次に、ステップ９７において前記
受信データの情報から前記基準コンピュータユニット１
が正常かどうかを判断し、もし基準コンピュータユニッ
ト１が正常で有れば再び前記故障検出コマンドの受信を
待つ。

【００２８】ステップ９７において前記受信データの内
容が前記基準コンピュータユニット１の故障を示してい
れば、前記サブコンピュータユニット２は基準コンピュ
ータユニットの規定時間以内の応答がなかった時と同じ
ように、ステップ９８において前記基準コンピュータユ
ニット１故障時の処理を行う。

【００２９】また、前記基準コンピュータユニット１は
前記故障検出コマンドを送信する前に故障検出コマンド
に含まれる「基準コンピュータユニットが管理する故障
情報」６３の領域に基準コンピュータユニットが管理す
るコンピュータシステムの故障情報を書き込む。

【００３０】基準コンピュータユニット以外のコンピュ
ータユニットは該故障検出コマンドの「基準コンピュー
タユニットが管理する故障情報」６３と、自らが管理す
る情報とを常に参照する事ができ、もし「基準コンピュ
ータユニットが管理する故障情報」６３と自らが管理す
る情報とが異なる場合には、該コンピュータユニットは
故障処理、あるいは回復処理を行うことが可能である。

【００３１】以上のように、前記コンピュータシステム
はコンピュータシステム内の故障を自動的に検出する事
が可能であり、しかもコンピュータシステム内の故障を
検出した場合には、故障が回復するまでの間、故障した
コンピュータユニットの機能を他の代行可能なコンピュ
ータユニットが故障によって実行不可となった処理を代
行することにより、フォールトトレラントシステムを実
現することが可能となる。

【００３２】次に、本発明の第２の実施例について、図
１０を参照して詳細に説明する。図１０において、コン
ピュータシステムを構成する全てのコンピュータユニッ
トは少なくとも図４に示すようにＣＰＵ４１、ＲＯＭ４
２、ＲＡＭ４３、通信ポートＡ４４、通信ポートＢ４５
とによって構成されており、基準コンピュータユニット
１０１が持つ２つの通信ポートは、それぞれサブコンピ
ュータユニット１０２、コンピュータユニットＡ１０３
と接続され、同様に前記サブコンピュータユニット１０
２の２つの通信ポートは前記基準コンピュータユニット
１０１、コンピュータユニットａ１０４と接続されてい
る。

【００３３】基準コンピュータユニット１０１に接続さ
れた前記コンピュータユニットＡ１０３は、さらにコン
ピュータユニットＢ１０５と接続し、該コンピュータユ
ニットＢ１０５はさらにコンピュータユニットＣ１０７
と接続し、該コンピュータユニットＣ１０７はコンピュ
ータユニットｃ１０８と接続し、該コンピュータユニッ
トｃ１０８はコンピュータユニットｂ１０６と接続し、
該コンピュータユニットｂ１０６は前記コンピュータユ
ニットａ１０４と接続している。

【００３４】前記基準コンピュータユニット１０１と前
記サブコンピュータユニット１０２は互いの処理を代行
できる能力を持ち、前記コンピュータユニットＡ１０３
と前記コンピュータユニットａ１０４、前記コンピュー
タユニットＢ１０５と前記コンピュータユニットｂ１０
６、前記コンピュータユニットＣ１０７と前記コンピュ
ータユニットｃ１０８もそれぞれ互いの処理を代行でき
る能力を持っている。

【００３５】前記基準コンピュータユニット１０１はシ
ステムの本来の処理の他にシステム内の故障検出を行
う。システム内の故障検出コマンドは図６に示すよう
に、ヘッダー部６１、各々のコンピュータユニットが管
理する故障情報６２及び基準コンピュータユニットが管
理する故障情報６３の各情報から構成されており、前記
ヘッダー部６１は前記故障検出コマンドを発行したコン
ピュータユニットのアドレス、故障検出コマンドのフレ
ーム管理番号などで構成されている。

【００３６】基準コンピュータユニット１０１以外の各
コンピュータユニットは、図７のフローチャートに示す
ごとく、ステップ７１において基準コンピュータユニッ
トからの故障検出コマンドを受信した際、ステップ７２
において自らが管理する故障情報を受信した故障検出コ
マンドに書き込み、自らの故障情報を書き込んだ故障検
出コマンドを受信した通信ポートとは別の通信ポートに
書き込み、ステップ７３において別のコンピュータユニ
ットに該故障検出コマンドを送信する。

【００３７】この送信が成功した場合には再び基準コン
ピュータユニットからの故障検出コマンドの受信体制に
移る。同様に全てのコンピュータユニットの故障無し確
認がされた場合には、前記基準コンピュータユニットが
発信した故障検出コマンドは前記コンピュータシステム
内の全てのコンピュータユニットを経由した後、再び前
記基準コンピュータユニットにフィードバックされる。

【００３８】しかしながら、基準コンピュータユニット
１０１以外のコンピュータユニットが前記故障検出コマ
ンドの送信処理に失敗した場合、ステップ７５において
この送信失敗情報を送信失敗した前記故障検出コマンド
に書き込み、ステップ７６で前記故障検出コマンドを直
前に受信した通信ポートに送信する。

【００３９】これにより前記故障検出コマンドは各コン
ピュータユニットの故障情報をのせ、再び基準コンピュ
ータユニットに戻る。図８は、基準コンピュータユニッ
ト１０１の故障検出コマンドに関する動作をフローチャ
ートとして示したものである。

【００４０】このフローチャートにおいて、ステップ８
１では故障検出に必要な情報を前記故障検出コマンドに
書き込む。次に、ステップ８２において前記故障検出コ
マンドを前記通信ポートＡ３に送信する。

【００４１】そして、ステップ８３では送信された該故
障検出コマンドはシステム内の故障情報を乗せて再び前
記基準コンピュータユニットに受信され、該受信した故
障検出コマンドに故障情報がないときには再び故障検出
コマンドの受信を待つ。一方、ステップ８４にて前記受
信した故障検出コマンドに故障情報が有った場合には、
ステップ８５において該故障の故障個所の特定が可能か
調べる。

【００４２】該故障個所の特定が可能な場合はステップ
９０において故障個所の特定を行い、ステップ９１で故
障処理を行う。もしそれまでの情報で故障個所の特定が
不可能な場合には、ステップ８６において別の故障検出
コマンド管理番号を持った別の故障検出コマンドを用意
し、この故障検出コマンドをステップ８７において前回
送信した通信ポートとは別の通信ポートに送信し、ステ
ップ８９で故障検出コマンドを再び受信する。

【００４３】該故障検出コマンドに故障情報が無ければ
故障は既に解消されたと判断し、再び定期的に故障検出
コマンドを用意し、前記通信ポートＡに送信する。もし
受信した前記故障検出コマンドに再び故障情報が有れ
ば、ステップ９０で故障個所を特定し、ステップ９１で
故障処理を行う。

【００４４】一方、図９のフローチャートに示すよう
に、ステップ９２においてサブコンピュータユニット１
０２は常に定期的に前記故障検出コマンドを受信するこ
とを監視しており、ステップ９４では前記サブコンピュ
ータユニット２で故障検出コマンドがある規定時間以上
受信されなかった場合に、該サブコンピュータユニット
１０２から前記基準コンピュータユニット１０１に向け
て基準コンピュータユニット１０１が正常であることを
確認するためのコマンドを送信する。

【００４５】前記確認コマンドに対する応答を規定時間
受信しなかった場合は、前記サブコンピュータユニット
２は前記基準コンピュータユニット１が故障していると
判断し、ステップ９８で基準コンピュータユニット１故
障時の処理を行う。前記確認コマンドを受信した場合に
はステップ９６で受信データを解析し、ステップ９７で
該受信データの情報から前記基準コンピュータユニット
１が正常かどうかを判断する。そして、前記基準コンピ
ュータユニット１０１が正常で有れば再び前記故障検出
コマンドの受信を待つ。

【００４６】前記受信データの内容が前記基準コンピュ
ータユニット１０１の故障を示していれば、ステップ９
８で前記サブコンピュータユニット１０２は前記基準コ
ンピュータユニット１０１に対して故障時の処理を行
う。また前記基準コンピュータユニット１０１は前記故
障検出コマンドを送信する前に故障検出コマンドに含ま
れる「基準コンピュータユニットが管理する故障情報」
の領域に該基準コンピュータユニット１０１が管理する
前記コンピュータシステムの故障情報を書き込む。

【００４７】基準コンピュータユニット以外のコンピュ
ータユニットは、該故障検出コマンドの「基準コンピュ
ータユニットが管理する故障情報」と自らが管理する情
報とを常に参照する事ができ、もし「基準コンピュータ
ユニットが管理する故障情報」と自らが管理する情報と
が異なる場合には、当該コンピュータユニットは故障処
理、または回復処理を行うことが可能である。

【００４８】以上示したように、前記コンピュータシス
テムによればコンピュータシステム内の各コンピュータ
ユニットの故障を自動的に検出する事が可能であり、も
しコンピュータシステム内における故障を検出した場合
には、その故障が回復するまでの間、故障したコンピュ
ータユニットの機能を代行可能な他のコンピュータユニ
ットが故障コンピュータユニットが実行できなくなった
処理を代行することにより、フォールトトレラントシス
テムを実現した。

【００４９】図１１は本発明を適用するフォールトトレ
ラントシステムの第三の実施例の概略説明図である。こ
の実施例は外食産業等の店舗内システムに使用されるも
のであって、システムを構成する全てのコンピュータユ
ニットは少なくとも図４に示すような構成となってお
り、基準コンピュータユニット１１１が有する２つの通
信ポートは、それぞれサブコンピュータユニット１１２
の２つの通信ポートと接続された構成となっている。

【００５０】前記コンピュータシステムに接続されるデ
バイス１１３は、前記各コンピュータユニットの接続回
線内に接続され、基準コンピュータユニット１１１及び
サブコンピュータユニット１１２のどちらからでも制御
可能な構成となっている。さらに、前記基準コンピュー
タユニット１１１と前記サブコンピュータユニット１１
２は、互いの処理を代行できる能力を持っており、前記
基準コンピュータユニット１１３に故障が発生した場合
でも前記サブコンピュータユニットが基準コンピュータ
ユニット１１３の処理が代行できるように構成されてい
る。

【００５１】そして、前記基準コンピュータユニット１
１１は、システムの本来の処理と共にシステム内の故障
検出を行っている。本実施例においては、システムを構
成するコンピュータユニットが基準コンピュータユニッ
トとサブコンピュータユニットの２つであるため、図１
２に示すように故障検出コマンドは、少なくとも該コマ
ンドが故障検出コマンドであることを示す情報が含まれ
るヘッダー部と、前記ヘッダー部に含まれない故障情報
などを含んだ部分によって構成されている。

【００５２】前記サブコンピュータユニット１１２は、
前記基準コンピュータユニット１１１から故障検出コマ
ンドを受信した際、通信ポートＡ４４、または通信ポー
トＢ４５を介して前記基準コンピュータユニット１１１
に応答信号を送信する。そして、どちらかの送信に失敗
した場合には、２つの通信ポートのうちの別の通信ポー
トを介して前記送信失敗情報を基準コンピュータユニッ
ト１１２に送信する。

【００５３】基準コンピュータユニット１１１が前記サ
ブコンピュータユニット１１２からの送信失敗情報を受
信した時、あるいは前記サブコンピュータユニット１１
２からの応答の中に故障情報が含まれていた時、あるい
はこれらの応答が規定時間内に返って来なかった時、ま
たは別に故障情報を受信した時には故障処理を行う。

【００５４】同時に、前記サブコンピュータユニット１
１２は基準コンピュータユニット１１１からの故障検出
コマンドの受信を定期的に監視しており、ある一定の規
定時間以上、前記サブコンピュータユニット１１２で故
障検出コマンドを受信できなかった場合には、前記サブ
コンピュータユニット１１２は基準コンピュータユニッ
ト１１１に向けて基準コンピュータユニット１１１が正
常であるか否かを確認するためのコマンドを送信する。

【００５５】そして、サブコンピュータユニットが送信
した確認コマンドに対する基準コンピュータユニットか
らの応答が規定時間以内に受信できなかった場合には、
サブコンピュータユニットは前記基準コンピュータユニ
ット１１１が故障していると判断し、サブコンピュータ
ユニット１１２は基準コンピュータユニット１１１故障
時の処理を行う。

【００５６】一方、確認コマンドを受信した場合には、
図４に示すフローチャート内のステップ９６において受
信したデータを解析し、さらにステップ９７で該受信デ
ータの情報から前記基準コンピュータユニット１１１が
正常かどうかを判断し、基準コンピュータユニット１１
１が正常であると判断されれば再び前記故障検出コマン
ドの受信を待つこととなる。

【００５７】また、受信データの解析内容が前記基準コ
ンピュータユニット１１１の故障を示していれば、サブ
コンピュータユニット１１２は前記基準コンピュータユ
ニット１１１故障時の処理を行う。以上のように、本発
明によれば、コンピュータシステム内の故障を自動的に
検出する事が可能であり、もしシステム内に故障を検出
した場合には故障が回復するまでの間、故障したコンピ
ュータユニットの実行不能となった機能を他のコンピュ
ータユニットが代行処理することにより、フォールトト
レラントシステムを実現した。

【００５８】

【発明の効果】以上説明したように、本発明によればシ
ステムの故障検出に必要なＣＰＵの負荷がコンピュータ
システムを構成するコンピュータユニットの数に依存し
ないために、コンピュータユニットの数が増加してもそ
の相互監視のために本来のコンピュータシステムの処理
能力が低下することなくフォールトトレラントシステム
を実現できる。

【００５９】さらにシステム内のデバイスを制御するコ
ンピュータユニットが故障しても、その処理の代行が可
能な他のコンピュータユニットが存在するため、コンピ
ュータユニットの故障によるシステム機能の停止をなく
すことができる等の効果を有する。

【図面の簡単な説明】

【図１】フォールトトレラントシステム構成１を示す図
である。

【図２】従来のフォールトトレラントコンピュータの概
念図である。

【図３】従来のデバイスの接続図である。

【図４】コンピュータユニットの機能ブロック図であ
る。

【図５】システムブロック図である。

【図６】故障検出コマンドのフォーマット１を示す図で
図である。

【図７】基準コンピュータユニット以外のコンピュータ
ユニットにおける故障検出コマンドの処理を示す図でで
ある。

【図８】基準コンピュータユニットにおける故障検出方
法のフローチャートである。

【図９】サブコンピュータユニットにおける基準コンピ
ュータユニットの故障検出のフローチャートである。

【図１０】フォールトトレラントシステム構成２を示す
図である。

【図１１】フォールトトレラントシステム構成３を示す
図である。

【図１２】故障検出コマンドのフォーマット２を示す図
である。

【符号の説明】

１基準コンピュータユニット２サブコンピュータユニット３デバイス制御用コンピュータユニットＡ４デバイス制御用コンピュータユニットＢ５デバイス２１コンピュータＡ２２コンピュータＢ２３コンピュータＣ２４コンピュータＤ２５バックアップ処理回路３１基準コンピュータユニット３２デバイス制御用コンピュータユニット３３デバイス４１ＣＰＵ４２ＲＯＭ４３ＲＡＭ４４通信ポートＡ４５通信ポートＢ６１ヘッダー部６２各々のコンピュータユニットが管理する故障情報６３基準コンピュータユニットが管理する故障情報１０１基準コンピュータユニット１０２サブコンピュータユニット１０３コンピュータユニットＡ１０４コンピュータユニットａ１０５コンピュータユニットＢ１０６コンピュータユニットｂ１０７コンピュータユニットＣ１０８コンピュータユニットｃ１１１基準コンピュータユニット１１２サブコンピュータユニット１１３デバイス１２１ヘッダー部１２２その他の情報

───────────────────────────────────────────────────── フロントページの続き (72)発明者舩山敦千葉県千葉市美浜区中瀬１丁目８番地セイコー電子工業株式会社内

Claims

【特許請求の範囲】

【請求項１】複数のコンピュータユニットを持つデー
タ管理システムに於て、前記各コンピュータユニットは
それぞれ２つ以上の通信ポートを持ち、該通信ポートは
各々のコンピュータユニットと接続可能であり、全ての
コンピュータユニットを接続して構成されたシステムの
中の隣接した各コンピュータユニットがそれぞれの前記
通信ポートを介して互いに電気的に接続されるように構
成されたフォールトトレラントシステム。
【請求項２】前記コンピュータシステムに於て、少な
くとも１つのコンピュータユニットの機能を他の１つ以
上のコンピュータユニットが代行できるように構成し、
１つのコンピュータユニットが故障した時、該故障した
コンピュータユニットと同様の処理機能を他のコンピュ
ータユニットが代行し、システム全体の処理をストップ
させないようにした請求項１記載のフォールトトレラン
トシステム。
【請求項３】前記コンピュータシステムに於て、シス
テム全体の故障情報を検出し、管理する基準コンピュー
タユニットと、該基準コンピュータユニットをサポート
するサブコンピュータユニットを有する事を特徴とする
請求項１記載のフォールトトレラントシステム。
【請求項４】前記コンピュータシステムに於て、基準
あるいはサブコンピュータユニットによって管理される
故障検出コマンドの管理番号、コンピュータユニットア
ドレスを含んだヘッダー情報、各コンピュータユニット
の故障情報及びシステム全体の故障情報を持つ故障検出
コマンドを用いてシステムの故障を検出することを特徴
とする請求項１記載のフォールトトレラントシステム。
【請求項５】前記基準コンピュータユニット以外のコ
ンピュータユニットは、基準コンピュータユニットが送
信した故障検出コマンドを受信した時、自らが管理する
故障情報を前記故障検出コマンドに書き込み、故障情報
を受信した通信ポートとは別の通信ポートに送信する事
により、前記基準コンピュータユニットが送信した故障
検出コマンドが全てのコンピュータユニットを経由して
再び基準コンピュータユニットに戻り、基準コンピュー
タユニットで全てのコンピュータユニットの故障情報を
得る事が出来ようにしたことを特徴とする請求項１記載
のフォールトトレラントシステム。
【請求項６】前記基準コンピュータユニットとは別の
コンピュータユニットが故障検出コマンドを受信し、他
のコンピュータユニットへの送信に失敗した時、送信元
のコンピュータユニットは送信失敗情報を故障検出コマ
ンドに書き込み、直前に故障検出コマンドを送信したコ
ンピュータユニットに対し故障検出コマンドを返送し、
この故障検出コマンドを受信した基準コンピュータユニ
ットは各通信ポートから受信した故障検出コマンドの各
送信失敗情報から、システム内部の通信回線及び、各コ
ンピュータユニットの故障の検出と故障箇所の特定を行
うことを特徴とする請求項１記載のフォールトトレラン
トシステム。
【請求項７】サブコンピュータユニットは、所定の時
間内における基準のコンピュータユニットからの故障検
出コマンドの受信を常に監視し、もし故障検出コマンド
が、所定の時間内に受信できなかった時、基準コンピュ
ータユニットに対して基準コンピュータユニット自らの
正常を確認するための故障検出コマンドを送信し、サブ
コンピュータユニットから故障検出コマンドを受信した
基準コンピュータユニットは自らの故障検出を行い、前
記サブコンピュータユニットは所定の時間内に基準コン
ピュータユニットから前記故障検出コマンドが送られて
こないかを再び監視すると共に、基準コンピュータユニ
ットから前記故障検出コマンドを受信した時は、前記故
障検出コマンド内の故障情報を確認することによって、
基準コンピュータユニットの故障を前記サブコンピュー
タユニットが検出した時、サブコンピュータユニットが
前記基準コンピュータユニットの故障情報をシステム内
に送信することを特徴とする請求項１記載のフォールト
トレラントシステム。
【請求項８】前記コンピュータシステムに接続される
デバイスは、同じ機能を有する少なくとも２つ以上のコ
ンピュータユニットに対して同様に接続され、１つのコ
ンピュータユニットが故障しても他のコンピュータユニ
ットによって前記デバイスの操作を可能としたことを特
徴とする請求項１記載のフォールトトレラントシステ
ム。
【請求項９】前記コンピュータシステムに於て、シス
テム故障時に故障検出コマンドを前記システム内で送信
し、各コンピュータユニット及びシステム全体の情報を
それぞれのコンピュータユニットによって監視する事に
より、システムの回復情報を得る事を可能とした請求項
１記載のフォールトトレラントシステム。