JPH0973401A - フォールトトレラントシステム - Google Patents

フォールトトレラントシステム

Info

Publication number
JPH0973401A
JPH0973401A JP7230251A JP23025195A JPH0973401A JP H0973401 A JPH0973401 A JP H0973401A JP 7230251 A JP7230251 A JP 7230251A JP 23025195 A JP23025195 A JP 23025195A JP H0973401 A JPH0973401 A JP H0973401A
Authority
JP
Japan
Prior art keywords
computer unit
failure
computer
detection command
failure detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7230251A
Other languages
English (en)
Inventor
Noriaki Uchino
則彰 内野
Shigetaka Okina
茂孝 翁
Tatsuya Morikawa
達也 森川
Atsushi Funayama
敦 舩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Instruments Inc
Original Assignee
Seiko Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Instruments Inc filed Critical Seiko Instruments Inc
Priority to JP7230251A priority Critical patent/JPH0973401A/ja
Publication of JPH0973401A publication Critical patent/JPH0973401A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】 システム内のコンピュータユニット1、2、
3、4のいづれかが故障した場合、他のコンピュータユ
ニットが処理代行する。 【解決手段】 複数のコンピュータユニット1、2、
3、4を持つデータ管理システムに於て、各コンピュー
タユニットは2つ以上の通信ポートA,Bを持ち、通信
ポートA,Bは各々のコンピュータユニットと接続可能
であり、全てのコンピュータユニットを接続して構成さ
れたシステムの中の隣接した各コンピュータユニットが
それぞれの前記通信ポートを介して互いに電気的に接続
される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチプロセッサ
方式のフォールト・トレラント・コンピュータに関す
る。
【0002】
【従来の技術】図2は、従来のマルチプロセッサ方式の
フォールト・トレラント・コンピュータの概念図の一例
である。ここで、マルチプロセッサは全く同じ構成のコ
ンピュータユニットを独立に複数台設け、各ユニットの
コモンエリアを介して接続する構成となっている。
【0003】また、前記各ユニットは各々別々のクロッ
クにより非同期でそれぞれ異なったタスクを実行してい
る。このマルチプロセッサにおいて、フォールト・トレ
ランスは相互監視、故障部分の切り離し、バックアップ
の3ステップによって実現している。
【0004】この相互監視のステップは、各ユニットが
各々個別のタスクを実行中に定期的に他のユニットの動
作状態を監視し、その監視結果をバックアップ処理回路
に出力するようになっており、このような監視は各ユニ
ットの間で相互に行われる。次のステップでは、バック
アップ処理回路は各ユニットからの監視結果に基づいて
正常なユニットと異常なユニットを決定し、異常ユニッ
トに対してはシステムから切り離すための停止信号を出
力すると共に、正常ユニットに対しては、現在どのユニ
ットが運転状態にあるかを示す動作情報を出力する。
【0005】続いて、正常ユニットは前記バックアップ
処理回路から受信した動作情報に基づいて実行すべきタ
スクを決定し実行する。この際、各ユニットのタスクが
重複したり漏れることがないようにタスクが決定され
る。なお異常が発見されてシステムから切り離されたユ
ニットのタスクは、正常ユニットがバックアップする。
このため、正常ユニットは状況に応じて複数のタスクを
実行することとなる。
【0006】また、図3に示すように、各々のコンピュ
ータユニットは自らが制御するデバイスと電気的に接続
されている。
【0007】
【発明が解決しようとする課題】上述のように、従来技
術では各コンピュータユニットが相互監視を行うため
に、コンピュータユニットの数が増えるに従いその相互
監視ロジックは複雑になり、さらに相互監視の為に使わ
れるCPUパワーの負荷が増大し、コンピュータシステ
ムが本来行うべき処理のための時間が少なくなるという
課題がある。
【0008】また、図3に示されるように、デバイスを
接続しているコンピュータユニットが故障した場合、デ
バイスの制御と共にデバイスの動作が不能になるという
課題がある。
【0009】
【課題を解決するための手段】上述の課題を解決するた
め、本願発明におけるシステムは図4に示すように、通
信ポートA44と通信ポートB45の少なくとも2つ以上の
通信ポートを有する複数のコンピュータユニットによっ
て構成するものであり、該コンピュータユニットの前記
通信ポートは、図5に示すように、全てのコンピュータ
ユニットがそれぞれの通信ポートを介して互いに電気的
に接続されるように各々別のコンピュータユニットと接
続される構成を持っている。
【0010】前記システム内の全てのコンピュータユニ
ットは、互いに自らが行う処理と同様の処理が代行でき
るコンピュータユニットを少なくとも一つ以上有してお
り、もし、システム内のいづれかのコンピュータユニッ
トに故障が発生した場合、故障したコンピュータユニッ
トの回復処理が行われるまでの間、前記故障したコンピ
ュータユニットが行うべき処理は、システム内の他のコ
ンピュータユニットが代行する。
【0011】さらに、本構成においてはシステム全体の
故障情報を検出し、これを管理する基準コンピュータユ
ニットと、この基準コンピュータユニットをサポートす
るサブコンピュータユニットを有している。また、前記
基準コンピュータユニットあるいはサブコンピュータユ
ニットは、図6に示すように故障検出コマンドの管理番
号及びコンピュータユニットアドレスを含んだヘッダー
情報61、各コンピュータユニットの故障情報62及び
システム全体の故障情報63を持つ故障検出コマンドを
用いて前記システムの故障を検出する。
【0012】一方、前記システムに接続されたデバイス
は、図1に示すように該デバイスの制御が代行できる少
なくとも2つ以上のコンピュータユニットに対して同様
に接続され、このデバイスを操作する1つのコンピュー
タユニットに故障が発生し、制御不能になった時、前記
代行可能な他のコンピュータユニットによってデバイス
の操作を行う。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施例を詳細に説明する。図1は本発明によるフォ
ールトトレラントシステムの概略説明図である。この図
面において、基準コンピュータユニット1は、例えばC
PU41、ROM42、RAM43、通信ポートA4
4、通信ポートB45によって構成されており、前記コ
ンピュータユニット1が有する2つの通信ポートはそれ
ぞれサブコンピュータユニット2、デバイス制御用コン
ピュータユニットA3と接続されている。また、サブコ
ンピュータユニット2も基準コンピュータユニット1と
同様の構成から成り、前記サブコンピュータユニット2
の2つの通信ポートはそれぞれ前記基準コンピュータユ
ニット1、デバイス制御用コンピュータユニットB4に
接続されている。
【0014】前記基準コンピュータユニット1の通信ポ
ートに接続されたデバイス制御用コンピュータユニット
A3は、前記サブコンピュータユニット2に接続された
デバイス制御用コンピュータユニットB4に接続されて
いる。前記基準コンピュータユニット1及びサブコンピ
ュータユニット2は、主にデータ処理を行い、これら各
コンピュータユニットは互いにその機能を代行すること
が可能である。
【0015】即ち、前記基準コンピュータユニット1に
障害が発生したときには、障害が回復されるまでの間、
前記サブコンピュータユニット2が前記基準コンピュー
タユニット1に代わってシステム全体の処理を行う。前
記デバイス制御用コンピュータユニットA3及び前記デ
バイス制御用コンピュータユニットB4は、主にデバイ
ス5の制御を行い、これらのコンピュータユニットに接
続するデバイス5は、図1に示すように前記両コンピュ
ータユニットに同時に接続され、どちらのコンピュータ
ユニットからでもデバイスを制御することが可能であ
る。
【0016】また、前記デバイス制御用コンピュータユ
ニットA3に障害が発生した時には、障害が回復するま
で前記デバイス制御用コンピュータユニットB4が該デ
バイス制御用コンピュータユニットA3が行うべき処理
を代行する。前記基準コンピュータユニット1は、本来
のシステム処理の他にシステム内の故障検出を行う。
【0017】さらに、システムの故障検出コマンドは図
6に示すようにヘッダー部61、各々のコンピュータユ
ニットが管理する故障情報62、及び基準コンピュータ
ユニットが管理する故障情報63の情報から構成されて
おり、前記ヘッダー部61は前記故障検出コマンドを発
行したコンピュータユニットのアドレス、該故障検出コ
マンドのフレーム管理番号などで構成される。
【0018】次に、図7に示す基準コンピュータユニッ
ト以外のコンピュータユニットが故障検出コマンドを受
信した場合の処理について、図7を参考に説明する。基
準コンピュータユニット以外のコンピュータユニットが
ステップ71にて故障検出コマンドを受信すると、ステ
ップ72において受信した故障検出コマンドに自らが管
理する故障情報を書き込み、ステップ73でこの書き込
み処理が終了した故障検出コマンドを受信通信ポートと
は別の通信ポートに書き込み、他のコンピュータユニッ
トに送信する。次に、ステップ74において送信が成功
したかどうかを確認し、送信が成功した場合には再び故
障検出コマンドの受信を待つ。
【0019】これにより前記コンピュータシステム内の
全てのコンピュータユニットを経由して故障していない
ことが確認された後、基準コンピュータユニットが発信
した前記故障検出コマンドは再び前記基準コンピュータ
ユニットに戻る。しかしながら、基準コンピュータユニ
ット以外のコンピュータユニットが前記故障検出コマン
ドの送信処理に失敗した場合には、ステップ75におい
て当該コンピュータユニットは送信失敗情報を対象の故
障検出コマンドに書き込み、ステップ76において最初
に前記故障検出コマンドを受信した通信ポートに前記送
信失敗情報を書き込んだ故障検出コマンドを送信する。
【0020】この結果、前記故障検出コマンドは各コン
ピュータユニットの故障情報をのせ、再び基準コンピュ
ータユニットにフィードバックされる。次に、図8のフ
ローチャートに基づいて基準コンピュータユニット1の
故障検出コマンドに関する動作を説明する。
【0021】まず、基準コンオユータユニットは、ステ
ップ81で故障検出に必要な情報を故障検出コマンドに
書き込み、ステップ82において前記故障検出コマンド
を自らの通信ポートA3に送信し、システム内の各コン
ピュータユニットを順に回送させる。ステップ83で
は、システム内を一巡した基準コンピュータユニットか
らの前記故障検出コマンドを再び受信する。ステップ8
4において受信した故障検出コマンドに故障情報がない
ときには再び故障検出コマンドの受信を待つ。
【0022】一方、前記受信した故障検出コマンドに故
障情報が存在した場合には、ステップ85において故障
個所の特定が可能か否かを調べる。故障個所の特定が可
能な場合はステップ90に進み、該故障個所の特定を行
い、ステップ91において故障処理を行う。
【0023】受信した故障情報で故障個所の特定が不可
能な場合には、ステップ86において別の故障検出コマ
ンド管理番号を持った別の故障検出コマンドを用意し、
ステップ87において前回送信した通信ポートとは別の
通信ポートに前記故障検出コマンドを送信し、システム
内を一巡させた後にステップ88において前記故障検出
コマンドを再び受信する。
【0024】ステップ89では、前記故障検出コマンド
に故障情報が無ければ故障は既に解消されたと判断し、
再び最初の故障検出コマンドを定期的に用意し、前記基
準コンピュータユニットの通信ポートAに送信する。一
方、ステップ88で受信した前記故障検出コマンドに再
び故障情報が有れば、ステップ90で故障個所を特定
し、ステップ91において故障処理を行う。
【0025】次に、図9のフローチャートに基づいてサ
ブコンピュータユニット1の故障検出コマンドに関する
動作を説明する。サブコンピュータユニット2は、ステ
ップ92において常に定期的に前記故障検出コマンドの
受信を監視しており、規定時間以上サブコンピュータユ
ニット2に故障検出コマンドの受信が無かった場合は、
該サブコンピュータユニット2は前記基準コンピュータ
ユニット1に対し、該基準コンピュータユニット1が正
常であるか否かを確認するための確認コマンド送信をス
テップ94にて実行する。
【0026】該確認コマンドに対する基準コンピュータ
ユニット1からの応答を規定時間受信しなかった場合に
はサブコンピュータユニットは前記基準コンピュータユ
ニット1の故障と判断し、ステップ98において前記サ
ブコンピュータユニット2は該基準コンピュータユニッ
ト1故障時の処理を行う。
【0027】一方、サブコンピュータユニットが前記確
認コマンドを受信した場合には、ステップ96において
受信データを解析し、次に、ステップ97において前記
受信データの情報から前記基準コンピュータユニット1
が正常かどうかを判断し、もし基準コンピュータユニッ
ト1が正常で有れば再び前記故障検出コマンドの受信を
待つ。
【0028】ステップ97において前記受信データの内
容が前記基準コンピュータユニット1の故障を示してい
れば、前記サブコンピュータユニット2は基準コンピュ
ータユニットの規定時間以内の応答がなかった時と同じ
ように、ステップ98において前記基準コンピュータユ
ニット1故障時の処理を行う。
【0029】また、前記基準コンピュータユニット1は
前記故障検出コマンドを送信する前に故障検出コマンド
に含まれる「基準コンピュータユニットが管理する故障
情報」63の領域に基準コンピュータユニットが管理す
るコンピュータシステムの故障情報を書き込む。
【0030】基準コンピュータユニット以外のコンピュ
ータユニットは該故障検出コマンドの「基準コンピュー
タユニットが管理する故障情報」63と、自らが管理す
る情報とを常に参照する事ができ、もし「基準コンピュ
ータユニットが管理する故障情報」63と自らが管理す
る情報とが異なる場合には、該コンピュータユニットは
故障処理、あるいは回復処理を行うことが可能である。
【0031】以上のように、前記コンピュータシステム
はコンピュータシステム内の故障を自動的に検出する事
が可能であり、しかもコンピュータシステム内の故障を
検出した場合には、故障が回復するまでの間、故障した
コンピュータユニットの機能を他の代行可能なコンピュ
ータユニットが故障によって実行不可となった処理を代
行することにより、フォールトトレラントシステムを実
現することが可能となる。
【0032】次に、本発明の第2の実施例について、図
10を参照して詳細に説明する。図10において、コン
ピュータシステムを構成する全てのコンピュータユニッ
トは少なくとも図4に示すようにCPU41、ROM4
2、RAM43、通信ポートA44、通信ポートB45
とによって構成されており、基準コンピュータユニット
101が持つ2つの通信ポートは、それぞれサブコンピ
ュータユニット102、コンピュータユニットA103
と接続され、同様に前記サブコンピュータユニット10
2の2つの通信ポートは前記基準コンピュータユニット
101、コンピュータユニットa104と接続されてい
る。
【0033】基準コンピュータユニット101に接続さ
れた前記コンピュータユニットA103は、さらにコン
ピュータユニットB105と接続し、該コンピュータユ
ニットB105はさらにコンピュータユニットC107
と接続し、該コンピュータユニットC107はコンピュ
ータユニットc108と接続し、該コンピュータユニッ
トc108はコンピュータユニットb106と接続し、
該コンピュータユニットb106は前記コンピュータユ
ニットa104と接続している。
【0034】前記基準コンピュータユニット101と前
記サブコンピュータユニット102は互いの処理を代行
できる能力を持ち、前記コンピュータユニットA103
と前記コンピュータユニットa104、前記コンピュー
タユニットB105と前記コンピュータユニットb10
6、前記コンピュータユニットC107と前記コンピュ
ータユニットc108もそれぞれ互いの処理を代行でき
る能力を持っている。
【0035】前記基準コンピュータユニット101はシ
ステムの本来の処理の他にシステム内の故障検出を行
う。システム内の故障検出コマンドは図6に示すよう
に、ヘッダー部61、各々のコンピュータユニットが管
理する故障情報62及び基準コンピュータユニットが管
理する故障情報63の各情報から構成されており、前記
ヘッダー部61は前記故障検出コマンドを発行したコン
ピュータユニットのアドレス、故障検出コマンドのフレ
ーム管理番号などで構成されている。
【0036】基準コンピュータユニット101以外の各
コンピュータユニットは、図7のフローチャートに示す
ごとく、ステップ71において基準コンピュータユニッ
トからの故障検出コマンドを受信した際、ステップ72
において自らが管理する故障情報を受信した故障検出コ
マンドに書き込み、自らの故障情報を書き込んだ故障検
出コマンドを受信した通信ポートとは別の通信ポートに
書き込み、ステップ73において別のコンピュータユニ
ットに該故障検出コマンドを送信する。
【0037】この送信が成功した場合には再び基準コン
ピュータユニットからの故障検出コマンドの受信体制に
移る。同様に全てのコンピュータユニットの故障無し確
認がされた場合には、前記基準コンピュータユニットが
発信した故障検出コマンドは前記コンピュータシステム
内の全てのコンピュータユニットを経由した後、再び前
記基準コンピュータユニットにフィードバックされる。
【0038】しかしながら、基準コンピュータユニット
101以外のコンピュータユニットが前記故障検出コマ
ンドの送信処理に失敗した場合、ステップ75において
この送信失敗情報を送信失敗した前記故障検出コマンド
に書き込み、ステップ76で前記故障検出コマンドを直
前に受信した通信ポートに送信する。
【0039】これにより前記故障検出コマンドは各コン
ピュータユニットの故障情報をのせ、再び基準コンピュ
ータユニットに戻る。図8は、基準コンピュータユニッ
ト101の故障検出コマンドに関する動作をフローチャ
ートとして示したものである。
【0040】このフローチャートにおいて、ステップ8
1では故障検出に必要な情報を前記故障検出コマンドに
書き込む。次に、ステップ82において前記故障検出コ
マンドを前記通信ポートA3に送信する。
【0041】そして、ステップ83では送信された該故
障検出コマンドはシステム内の故障情報を乗せて再び前
記基準コンピュータユニットに受信され、該受信した故
障検出コマンドに故障情報がないときには再び故障検出
コマンドの受信を待つ。一方、ステップ84にて前記受
信した故障検出コマンドに故障情報が有った場合には、
ステップ85において該故障の故障個所の特定が可能か
調べる。
【0042】該故障個所の特定が可能な場合はステップ
90において故障個所の特定を行い、ステップ91で故
障処理を行う。もしそれまでの情報で故障個所の特定が
不可能な場合には、ステップ86において別の故障検出
コマンド管理番号を持った別の故障検出コマンドを用意
し、この故障検出コマンドをステップ87において前回
送信した通信ポートとは別の通信ポートに送信し、ステ
ップ89で故障検出コマンドを再び受信する。
【0043】該故障検出コマンドに故障情報が無ければ
故障は既に解消されたと判断し、再び定期的に故障検出
コマンドを用意し、前記通信ポートAに送信する。もし
受信した前記故障検出コマンドに再び故障情報が有れ
ば、ステップ90で故障個所を特定し、ステップ91で
故障処理を行う。
【0044】一方、図9のフローチャートに示すよう
に、ステップ92においてサブコンピュータユニット1
02は常に定期的に前記故障検出コマンドを受信するこ
とを監視しており、ステップ94では前記サブコンピュ
ータユニット2で故障検出コマンドがある規定時間以上
受信されなかった場合に、該サブコンピュータユニット
102から前記基準コンピュータユニット101に向け
て基準コンピュータユニット101が正常であることを
確認するためのコマンドを送信する。
【0045】前記確認コマンドに対する応答を規定時間
受信しなかった場合は、前記サブコンピュータユニット
2は前記基準コンピュータユニット1が故障していると
判断し、ステップ98で基準コンピュータユニット1故
障時の処理を行う。前記確認コマンドを受信した場合に
はステップ96で受信データを解析し、ステップ97で
該受信データの情報から前記基準コンピュータユニット
1が正常かどうかを判断する。そして、前記基準コンピ
ュータユニット101が正常で有れば再び前記故障検出
コマンドの受信を待つ。
【0046】前記受信データの内容が前記基準コンピュ
ータユニット101の故障を示していれば、ステップ9
8で前記サブコンピュータユニット102は前記基準コ
ンピュータユニット101に対して故障時の処理を行
う。また前記基準コンピュータユニット101は前記故
障検出コマンドを送信する前に故障検出コマンドに含ま
れる「基準コンピュータユニットが管理する故障情報」
の領域に該基準コンピュータユニット101が管理する
前記コンピュータシステムの故障情報を書き込む。
【0047】基準コンピュータユニット以外のコンピュ
ータユニットは、該故障検出コマンドの「基準コンピュ
ータユニットが管理する故障情報」と自らが管理する情
報とを常に参照する事ができ、もし「基準コンピュータ
ユニットが管理する故障情報」と自らが管理する情報と
が異なる場合には、当該コンピュータユニットは故障処
理、または回復処理を行うことが可能である。
【0048】以上示したように、前記コンピュータシス
テムによればコンピュータシステム内の各コンピュータ
ユニットの故障を自動的に検出する事が可能であり、も
しコンピュータシステム内における故障を検出した場合
には、その故障が回復するまでの間、故障したコンピュ
ータユニットの機能を代行可能な他のコンピュータユニ
ットが故障コンピュータユニットが実行できなくなった
処理を代行することにより、フォールトトレラントシス
テムを実現した。
【0049】図11は本発明を適用するフォールトトレ
ラントシステムの第三の実施例の概略説明図である。こ
の実施例は外食産業等の店舗内システムに使用されるも
のであって、システムを構成する全てのコンピュータユ
ニットは少なくとも図4に示すような構成となってお
り、基準コンピュータユニット111が有する2つの通
信ポートは、それぞれサブコンピュータユニット112
の2つの通信ポートと接続された構成となっている。
【0050】前記コンピュータシステムに接続されるデ
バイス113は、前記各コンピュータユニットの接続回
線内に接続され、基準コンピュータユニット111及び
サブコンピュータユニット112のどちらからでも制御
可能な構成となっている。さらに、前記基準コンピュー
タユニット111と前記サブコンピュータユニット11
2は、互いの処理を代行できる能力を持っており、前記
基準コンピュータユニット113に故障が発生した場合
でも前記サブコンピュータユニットが基準コンピュータ
ユニット113の処理が代行できるように構成されてい
る。
【0051】そして、前記基準コンピュータユニット1
11は、システムの本来の処理と共にシステム内の故障
検出を行っている。本実施例においては、システムを構
成するコンピュータユニットが基準コンピュータユニッ
トとサブコンピュータユニットの2つであるため、図1
2に示すように故障検出コマンドは、少なくとも該コマ
ンドが故障検出コマンドであることを示す情報が含まれ
るヘッダー部と、前記ヘッダー部に含まれない故障情報
などを含んだ部分によって構成されている。
【0052】前記サブコンピュータユニット112は、
前記基準コンピュータユニット111から故障検出コマ
ンドを受信した際、通信ポートA44、または通信ポー
トB45を介して前記基準コンピュータユニット111
に応答信号を送信する。そして、どちらかの送信に失敗
した場合には、2つの通信ポートのうちの別の通信ポー
トを介して前記送信失敗情報を基準コンピュータユニッ
ト112に送信する。
【0053】基準コンピュータユニット111が前記サ
ブコンピュータユニット112からの送信失敗情報を受
信した時、あるいは前記サブコンピュータユニット11
2からの応答の中に故障情報が含まれていた時、あるい
はこれらの応答が規定時間内に返って来なかった時、ま
たは別に故障情報を受信した時には故障処理を行う。
【0054】同時に、前記サブコンピュータユニット1
12は基準コンピュータユニット111からの故障検出
コマンドの受信を定期的に監視しており、ある一定の規
定時間以上、前記サブコンピュータユニット112で故
障検出コマンドを受信できなかった場合には、前記サブ
コンピュータユニット112は基準コンピュータユニッ
ト111に向けて基準コンピュータユニット111が正
常であるか否かを確認するためのコマンドを送信する。
【0055】そして、サブコンピュータユニットが送信
した確認コマンドに対する基準コンピュータユニットか
らの応答が規定時間以内に受信できなかった場合には、
サブコンピュータユニットは前記基準コンピュータユニ
ット111が故障していると判断し、サブコンピュータ
ユニット112は基準コンピュータユニット111故障
時の処理を行う。
【0056】一方、確認コマンドを受信した場合には、
図4に示すフローチャート内のステップ96において受
信したデータを解析し、さらにステップ97で該受信デ
ータの情報から前記基準コンピュータユニット111が
正常かどうかを判断し、基準コンピュータユニット11
1が正常であると判断されれば再び前記故障検出コマン
ドの受信を待つこととなる。
【0057】また、受信データの解析内容が前記基準コ
ンピュータユニット111の故障を示していれば、サブ
コンピュータユニット112は前記基準コンピュータユ
ニット111故障時の処理を行う。以上のように、本発
明によれば、コンピュータシステム内の故障を自動的に
検出する事が可能であり、もしシステム内に故障を検出
した場合には故障が回復するまでの間、故障したコンピ
ュータユニットの実行不能となった機能を他のコンピュ
ータユニットが代行処理することにより、フォールトト
レラントシステムを実現した。
【0058】
【発明の効果】以上説明したように、本発明によればシ
ステムの故障検出に必要なCPUの負荷がコンピュータ
システムを構成するコンピュータユニットの数に依存し
ないために、コンピュータユニットの数が増加してもそ
の相互監視のために本来のコンピュータシステムの処理
能力が低下することなくフォールトトレラントシステム
を実現できる。
【0059】さらにシステム内のデバイスを制御するコ
ンピュータユニットが故障しても、その処理の代行が可
能な他のコンピュータユニットが存在するため、コンピ
ュータユニットの故障によるシステム機能の停止をなく
すことができる等の効果を有する。
【図面の簡単な説明】
【図1】フォールトトレラントシステム構成1を示す図
である。
【図2】従来のフォールトトレラントコンピュータの概
念図である。
【図3】従来のデバイスの接続図である。
【図4】コンピュータユニットの機能ブロック図であ
る。
【図5】システムブロック図である。
【図6】故障検出コマンドのフォーマット1を示す図で
図である。
【図7】基準コンピュータユニット以外のコンピュータ
ユニットにおける故障検出コマンドの処理を示す図でで
ある。
【図8】基準コンピュータユニットにおける故障検出方
法のフローチャートである。
【図9】サブコンピュータユニットにおける基準コンピ
ュータユニットの故障検出のフローチャートである。
【図10】フォールトトレラントシステム構成2を示す
図である。
【図11】フォールトトレラントシステム構成3を示す
図である。
【図12】故障検出コマンドのフォーマット2を示す図
である。
【符号の説明】
1 基準コンピュータユニット 2 サブコンピュータユニット 3 デバイス制御用コンピュータユニットA 4 デバイス制御用コンピュータユニットB 5 デバイス 21 コンピュータA 22 コンピュータB 23 コンピュータC 24 コンピュータD 25 バックアップ処理回路 31 基準コンピュータユニット 32 デバイス制御用コンピュータユニット 33 デバイス 41 CPU 42 ROM 43 RAM 44 通信ポートA 45 通信ポートB 61 ヘッダー部 62 各々のコンピュータユニットが管理する故障情報 63 基準コンピュータユニットが管理する故障情報 101 基準コンピュータユニット 102 サブコンピュータユニット 103 コンピュータユニットA 104 コンピュータユニットa 105 コンピュータユニットB 106 コンピュータユニットb 107 コンピュータユニットC 108 コンピュータユニットc 111 基準コンピュータユニット 112 サブコンピュータユニット 113 デバイス 121 ヘッダー部 122 その他の情報
───────────────────────────────────────────────────── フロントページの続き (72)発明者 舩山 敦 千葉県千葉市美浜区中瀬1丁目8番地 セ イコー電子工業株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数のコンピュータユニットを持つデー
    タ管理システムに於て、前記各コンピュータユニットは
    それぞれ2つ以上の通信ポートを持ち、該通信ポートは
    各々のコンピュータユニットと接続可能であり、全ての
    コンピュータユニットを接続して構成されたシステムの
    中の隣接した各コンピュータユニットがそれぞれの前記
    通信ポートを介して互いに電気的に接続されるように構
    成されたフォールトトレラントシステム。
  2. 【請求項2】 前記コンピュータシステムに於て、少な
    くとも1つのコンピュータユニットの機能を他の1つ以
    上のコンピュータユニットが代行できるように構成し、
    1つのコンピュータユニットが故障した時、該故障した
    コンピュータユニットと同様の処理機能を他のコンピュ
    ータユニットが代行し、システム全体の処理をストップ
    させないようにした請求項1記載のフォールトトレラン
    トシステム。
  3. 【請求項3】 前記コンピュータシステムに於て、シス
    テム全体の故障情報を検出し、管理する基準コンピュー
    タユニットと、該基準コンピュータユニットをサポート
    するサブコンピュータユニットを有する事を特徴とする
    請求項1記載のフォールトトレラントシステム。
  4. 【請求項4】 前記コンピュータシステムに於て、基準
    あるいはサブコンピュータユニットによって管理される
    故障検出コマンドの管理番号、コンピュータユニットア
    ドレスを含んだヘッダー情報、各コンピュータユニット
    の故障情報及びシステム全体の故障情報を持つ故障検出
    コマンドを用いてシステムの故障を検出することを特徴
    とする請求項1記載のフォールトトレラントシステム。
  5. 【請求項5】 前記基準コンピュータユニット以外のコ
    ンピュータユニットは、基準コンピュータユニットが送
    信した故障検出コマンドを受信した時、自らが管理する
    故障情報を前記故障検出コマンドに書き込み、故障情報
    を受信した通信ポートとは別の通信ポートに送信する事
    により、前記基準コンピュータユニットが送信した故障
    検出コマンドが全てのコンピュータユニットを経由して
    再び基準コンピュータユニットに戻り、基準コンピュー
    タユニットで全てのコンピュータユニットの故障情報を
    得る事が出来ようにしたことを特徴とする請求項1記載
    のフォールトトレラントシステム。
  6. 【請求項6】 前記基準コンピュータユニットとは別の
    コンピュータユニットが故障検出コマンドを受信し、他
    のコンピュータユニットへの送信に失敗した時、送信元
    のコンピュータユニットは送信失敗情報を故障検出コマ
    ンドに書き込み、直前に故障検出コマンドを送信したコ
    ンピュータユニットに対し故障検出コマンドを返送し、
    この故障検出コマンドを受信した基準コンピュータユニ
    ットは各通信ポートから受信した故障検出コマンドの各
    送信失敗情報から、システム内部の通信回線及び、各コ
    ンピュータユニットの故障の検出と故障箇所の特定を行
    うことを特徴とする請求項1記載のフォールトトレラン
    トシステム。
  7. 【請求項7】 サブコンピュータユニットは、所定の時
    間内における基準のコンピュータユニットからの故障検
    出コマンドの受信を常に監視し、もし故障検出コマンド
    が、所定の時間内に受信できなかった時、基準コンピュ
    ータユニットに対して基準コンピュータユニット自らの
    正常を確認するための故障検出コマンドを送信し、サブ
    コンピュータユニットから故障検出コマンドを受信した
    基準コンピュータユニットは自らの故障検出を行い、前
    記サブコンピュータユニットは所定の時間内に基準コン
    ピュータユニットから前記故障検出コマンドが送られて
    こないかを再び監視すると共に、基準コンピュータユニ
    ットから前記故障検出コマンドを受信した時は、前記故
    障検出コマンド内の故障情報を確認することによって、
    基準コンピュータユニットの故障を前記サブコンピュー
    タユニットが検出した時、サブコンピュータユニットが
    前記基準コンピュータユニットの故障情報をシステム内
    に送信することを特徴とする請求項1記載のフォールト
    トレラントシステム。
  8. 【請求項8】 前記コンピュータシステムに接続される
    デバイスは、同じ機能を有する少なくとも2つ以上のコ
    ンピュータユニットに対して同様に接続され、1つのコ
    ンピュータユニットが故障しても他のコンピュータユニ
    ットによって前記デバイスの操作を可能としたことを特
    徴とする請求項1記載のフォールトトレラントシステ
    ム。
  9. 【請求項9】 前記コンピュータシステムに於て、シス
    テム故障時に故障検出コマンドを前記システム内で送信
    し、各コンピュータユニット及びシステム全体の情報を
    それぞれのコンピュータユニットによって監視する事に
    より、システムの回復情報を得る事を可能とした請求項
    1記載のフォールトトレラントシステム。
JP7230251A 1995-09-07 1995-09-07 フォールトトレラントシステム Pending JPH0973401A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7230251A JPH0973401A (ja) 1995-09-07 1995-09-07 フォールトトレラントシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7230251A JPH0973401A (ja) 1995-09-07 1995-09-07 フォールトトレラントシステム

Publications (1)

Publication Number Publication Date
JPH0973401A true JPH0973401A (ja) 1997-03-18

Family

ID=16904888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7230251A Pending JPH0973401A (ja) 1995-09-07 1995-09-07 フォールトトレラントシステム

Country Status (1)

Country Link
JP (1) JPH0973401A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012016850A (ja) * 2010-07-06 2012-01-26 Canon Inc 画像形成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012016850A (ja) * 2010-07-06 2012-01-26 Canon Inc 画像形成装置

Similar Documents

Publication Publication Date Title
US4775976A (en) Method and apparatus for backing up data transmission system
US5742851A (en) Information processing system having function to detect fault in external bus
KR100448709B1 (ko) 데이터 버스 시스템 및 그 제어방법
US5377322A (en) Information handling method and system utilizing multiple interconnected processors and controllers
JPH0973401A (ja) フォールトトレラントシステム
JP2002024050A (ja) コントローラシステム
JPS62169266A (ja) デ−タ送受信端末装置
JP2000020336A (ja) 二重化通信システム
JPH08149145A (ja) Lanシステム
JPS5917467B2 (ja) 制御用計算機のバツクアツプ方式
US6480466B1 (en) Terminal switching apparatus and method
JP2737480B2 (ja) 二重化通信制御装置の切り替え方法及び装置
JP6852910B2 (ja) フォールトトレラント装置、障害復帰方法、およびプログラム
JPH09274573A (ja) バックアップ・システム
JPH0756763A (ja) 二重化制御システムの切替え方法
JP2645433B2 (ja) 計算機システム
JPH0697989A (ja) 二重系処理装置のプロセス系用回線への切替方法及び装置
JPH0983526A (ja) 多重化通信方法
JP3084383B2 (ja) リング通信路障害処理方式
JPH07146849A (ja) コンピュータ間通信のバックアップシステム
JPH1145189A (ja) データ設定方法及びデータ処理装置
JPS63279646A (ja) 網管理装置の自動再開処理方式
JPH09160875A (ja) マルチエージェント相互バックアップ方式
JPH11102307A (ja) リモート制御装置の障害処理方式
KR19990050461A (ko) 고 가용성 시스템의 오류 처리방법