JP2000298594A - フォールトトレラント制御方法および冗長コンピュータシステム - Google Patents

フォールトトレラント制御方法および冗長コンピュータシステム

Info

Publication number
JP2000298594A
JP2000298594A JP11105282A JP10528299A JP2000298594A JP 2000298594 A JP2000298594 A JP 2000298594A JP 11105282 A JP11105282 A JP 11105282A JP 10528299 A JP10528299 A JP 10528299A JP 2000298594 A JP2000298594 A JP 2000298594A
Authority
JP
Japan
Prior art keywords
fault
module
match
information processing
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11105282A
Other languages
English (en)
Inventor
Akira Kogure
晃 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11105282A priority Critical patent/JP2000298594A/ja
Publication of JP2000298594A publication Critical patent/JP2000298594A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】外乱要因による過渡的なフォールトや間欠フォ
ールトを判断できるようにする。 【解決手段】情報処理構成要素1a,1bの動作の比較
を行い、該比較結果が不一致となり、かつ、フォールト
の発生が検出されなかった場合は、各情報処理構成要素
1a,1bの動作状態をそれぞれ結果記憶装置3a,3
bに記憶するとともに再実行処理を行って再度動作の比
較を行う。この比較結果が一致した場合は、各情報処理
構成要素にそのまま処理を継続させ、不一致となった場
合は、再実行における各情報処理構成要素の動作状態と
結果記憶装置3a,3bに記憶した動作状態との比較を
行う。この状態比較で、いずれかの動作状態が不一致と
なった場合は、不一致となった方をシステムから切り離
し、両方とも不一致となった場合は、システムの運用を
停止する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ハードウェアを二
重化した冗長コンピュータシステムおよびそのシステム
において行われるフォールトトレラント制御方法に関す
る。
【0002】
【従来の技術】図5に、従来の冗長コンピュータシステ
ムの概略構成を示す。この冗長コンピュータシステム
は、CPUやメモリなどで構成される情報処理構成要素
100a、100bと、これら情報処理構成要素100
a、100bにそれぞれ設けられた同期・比較装置10
1a、101bと、ディスク装置やネットワーク・イン
ターフェース・カードなどで構成される入出力構成要素
102a、102bと、これら入出力構成要素102
a、102bにそれぞれ設けられた比較装置103a、
103bとからなる。
【0003】同期・比較装置101a、101bは互い
に協調し合って、情報処理構成要素100a、100b
における動作を同期させるとともに、情報処理構成要素
100a、100bの動作または出力が一致しているか
どうかの比較を行う。また、同期・比較装置101a、
101bは、それぞれに入出力構成要素102a、10
2bの出力が入力されており、両入力が一致しているか
どうかの比較を個々に行い、比較結果が一致している場
合に、入出力構成要素102a、102bの出力を情報
処理構成要素100a、100bに入力する。
【0004】比較装置103a、103bは、入出力構
成要素102a、102bの動作または出力が一致して
いるかどうかの比較を行う。また、比較装置103a、
103bは、それぞれに情報処理構成要素100a、1
00bの出力が入力されており、両入力が一致している
かどうかの比較を個々に行い、比較結果が一致している
場合に、情報処理構成要素100a、100bの出力を
入出力構成要素102a、102bに入力する。
【0005】上記の冗長コンピュータシステムでは、同
期・比較装置101a、101bによって情報処理構成
要素100a、100bの動作または出力の不整合が検
出された場合は、情報処理構成要素100a、100b
のいずれかでフォールトが発生したとして以下にような
運用が行われる。
【0006】情報処理構成要素100a、100bのど
ちらか一方においてフォールトの発生が検出されている
場合は、フォールトの発生が検出された方の情報処理構
成要素をシステムから切り離して縮退運用を行う。情報
処理構成要素100a、100bのいずれからもフォー
ルトの発生が検出されない場合は、フォールトの発生箇
所を特定できない致命的な固定フォールトが発生したと
して、その時点で運用を停止するか、あるいは情報処理
構成要素100a、100bのどちらか一方が正常状態
にあると想定して他方を切り離して縮退運用を行う。
【0007】また、上記の冗長コンピュータシステムで
は、比較装置103a、103bによって入出力構成要
素102a、102bの動作または出力の不整合が検出
された場合は、入出力構成要素102a、102bのい
ずれかでフォールトが発生したとして以下にような運用
が行われる。
【0008】入出力構成要素102a、102bのどち
らか一方においてフォールトの発生が検出されている場
合は、フォールトの発生が検出された方の入出力構成要
素をシステムから切り離して縮退運用を行う。入出力構
成要素102a、102bのいずれからもフォールトの
発生が検出されない場合は、入出力構成要素102a、
102bに対する入出力処理の再実行を行う。再実行に
おいて、比較装置103a、103bにおける入出力構
成要素102a、102bの動作または出力の比較結果
が一致した場合は、フォールトは外乱要因による過渡的
なものと判断してそのまま処理を継続し、比較結果が再
び不整合になった場合には、フォールトの発生箇所を特
定できない致命的な固定フォールトが発生したとして、
その時点で運用を停止するか、あるいは入出力構成要素
102a、102bのどちらか一方が正常状態にあると
想定して他方を切り離して縮退運用を行う。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た従来の冗長コンピュータシステムにおいては、ハード
ウェア以外の冗長手段を持たないため、システム構成要
素、例えば情報処理構成要素でフォールトの発生が検出
されなかった場合は、外乱要因による過渡的なフォール
トやハードウェア故障と外乱要因の複合条件により発生
する間欠フォールトを無条件に致命的なフォールトと判
断されてしまうという問題がある。近年、半導体集積度
の向上、動作電圧の低下、動作周波数の向上、携帯電話
やモバイル機器の普及など、外乱要因による過渡的なフ
ォールトや間欠フォールトの発生する確率が増加してき
ており、上記問題に対する何らかの対策が必要となって
いた。
【0010】なお、システム構成要素を三重化以上の冗
長構造とすることで上記問題を解決することが可能であ
るが、この場合は、大幅なコストの上昇を避けることが
できない。
【0011】本発明の目的は、上記問題を解決し、最小
限のコストで、外乱要因による過渡的なフォールトや間
欠フォールトを判断することができる、冗長コンピュー
タシステムおよびフォールトトレラント制御方法を提供
することにある。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明のフォールトトレラント制御方法は、システ
ム構成要素が二重化されてそれぞれ同期がとられる冗長
コンピュータシステムにおいて行われるフォールトトレ
ラント制御方法において、前記システム構成要素の少な
くとも1つの二重化されたモジュールについて、該二重
化されたモジュールの動作または出力が一致しているか
どうかの比較を行う第1のステップと、前記第1のステ
ップの比較結果が不一致となり、かつ、前記二重化され
たモジュールのいずれにおいてもフォールトの発生が検
出されなかった場合は、該各モジュールの動作状態をそ
れぞれ記憶するとともに再実行処理を行って再度各モジ
ュールの動作または出力が一致しているかどうかの比較
を行う第2のステップと、前記第2のステップの比較結
果が一致した場合は、各モジュールにそのまま処理を継
続させ、比較結果が不一致となった場合は、再実行にお
ける各モジュールの動作の状態と前記第2のステップで
記憶した動作の状態との比較を行う第3のステップと、
前記第3のステップの状態比較で、いずれかのモジュー
ルの動作状態が不一致となった場合は、該不一致となっ
た方のモジュールをシステムから切り離し、両方とも不
一致となった場合は、システムの運用を停止し、両方と
も一致となった場合は、前記第2のステップの再実行処
理を再度行う第4のステップとを含むことを特徴とす
る。
【0013】また、本発明の冗長コンピュータシステム
は、システム構成要素が二重化されてそれぞれ同期がと
られる冗長コンピュータシステムにおいて、前記システ
ム構成要素の少なくとも1つの二重化されたモジュール
がそれぞれ、 前記二重化されたモジュールの動作また
は出力が一致しているかどうかの比較を行う比較手段
と、前記比較手段による比較結果が不一致の場合で、か
つ、前記二重化されたモジュールのいずれにおいてもフ
ォールトが検出されなかった場合に、該各モジュールの
動作状態がそれぞれ記憶される結果記憶手段とを有し、
前記二重化されたモジュールがそれぞれ、前記比較手段
による比較結果が不一致となった場合は再実行処理を行
い、該再実行における前記比較手段による比較結果が一
致した場合はそのまま処理を継続し、該再実行における
比較結果が不一致となった場合には、該再実行における
動作状態と前記結果記憶手段に記憶されている状態とを
比較し、該比較結果が不一致となった場合に、自らシス
テムから切り離すように構成されていることを特徴とす
る。
【0014】(作用)上記のとおりの本発明において
は、二重化されたモジュールの動作または出力が不一致
となり、かつ、いずれのモジュールにおいてもフォール
トの発生が検出されなかった場合は、各モジュールの動
作状態をそれぞれ記憶するとともに再実行処理を行い、
該再実行における各モジュールの動作または出力が一致
しているかどうかの比較が行われる。この再実行におけ
る比較結果が一致した場合は、フォールトは放射線や電
磁ノイズなどの外乱要因による過渡的なものと判断し
て、各モジュールにそのまま処理を継続させ、不一致と
なった場合は、各モジュールの再実行における動作状態
と先の実行処理で記憶された各モジュールの動作状態と
の比較が行われる。そして、この状態比較において、い
ずれかのモジュールの動作状態が不一致となった場合
は、該不一致となった方のモジュールにフォールトが発
生しているとして該モジュールをシステムから切り離
し、両方とも不一致となった場合は、原理的に二重化構
造の冗長システムでは対処できない二重の固定的または
間欠的なフォールトが発生したと判断して、システムの
運用が停止される。このように、本発明によれば、ハー
ドウェアを三重化することなく、外乱要因による過渡的
なフォールトや間欠フォールトを判断することができ
る。
【0015】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0016】図1に、本発明の冗長コンピュータシステ
ムの一実施形態を示す。この冗長コンピュータシステム
は、演算制御モジュールと入出力制御モジュールがそれ
ぞれ二重化されたフォールトトレランス構造になってい
る。各モジュールは、それぞれフォールトの発生を検証
する機能を備え、フォールトを検出すると、自らシステ
ムから切り離すように構成されている。以下、各モジュ
ールの構成を具体的に説明する。
【0017】演算制御モジュールは、情報処理構成要素
1a,1b、ライトキャッシュ2a,2b、結果記憶装
置3a,3b、同期・比較装置4a,4bからなる。入
出力制御モジュールは、入出力構成要素5a,5b、結
果記憶装置6a,6b、比較装置7a,7bからなる。
【0018】情報処理構成要素1a,1bは、システム
全体の制御や演算を行うためのCPUおよびメモリ(メ
インメモリ)などから構成される。入出力構成要素5
a,5bは、ディスク装置やネットワーク・インターフ
ェース・カードなどから構成される。
【0019】同期・比較装置4a,4bは、互いに協調
し合って、システムクロック、入出力割り込みまたはタ
イマー割り込み、ソフトウェアのブレークポイントなど
により情報処理構成要素1a,1bの動作の同期をとる
とともに、これら情報処理構成要素1a,1bの動作ま
たは出力が一致しているかどうかの比較を行う。また、
同期・比較装置4a,4bは、入出力構成要素5a,5
bに対しても同様に動作の同期、比較を行う。さらに、
この同期・比較装置4a,4bは、それぞれに入出力構
成要素5a,5bの出力が入力されており、これら入力
が一致しているかどうかの比較を個々に行い、両入力が
一致している場合にのみ、入出力構成要素5a,5bの
出力をそれぞれ情報処理構成要素1a,1bに入力す
る。
【0020】比較装置7a,7bは、入出力構成要素5
a,5bの動作または出力が一致しているかどうかの比
較を行う。また、この比較装置7a,7bは、それぞれ
に情報処理構成要素1a,1bの出力が入力されてお
り、両入力が一致しているかどうかの比較を個々に行
い、両入力の比較結果が一致している場合にのみ、情報
処理構成要素1a,1bの出力をそれぞれ入出力構成要
素5a,5bに入力する。ライトキャッシュ2a,2b
は、それぞれ同期・比較装置4a,4bにおける情報処
理構成要素1a,1bの動作または出力の一致の確認が
行われるまでの間の、情報処理構成要素1a,1b内の
メインメモリに対する書き込みデータを保持する。
【0021】結果記憶装置3a,3bは、それぞれ同期
・比較装置4a,4bによって情報処理構成要素1a,
1bの動作または出力の不整合が検出された場合で、情
報処理構成要素1a,1bのいずれにおいてもフォール
トの発生が検出されなかった場合に、情報処理構成要素
1a,1bの動作状態を記憶する。
【0022】結果記憶装置6a,6bは、それぞれ比較
装置7a,7bによって入出力構成要素5a,5bの動
作または出力の不整合が検出された場合で、入出力構成
要素5a,5bのいずれにおいてもフォールトの発生が
検出されなかった場合に、入出力構成要素5a,5bの
動作状態を記憶する。
【0023】次に、この冗長コンピュータシステムの動
作を具体的に説明する。
【0024】(1)演算制御モジュールの動作 システムが起動されて実行されると、まず、同期・比較
装置4a,4bが、情報処理構成要素1a、1bにおけ
る動作の同期をとるとともに情報処理構成要素1a,1
bにおける動作または出力が一致しているかどうかの比
較を行う。
【0025】同期・比較装置4a,4bによる情報処理
構成要素1a,1bの動作または出力の一致の確認が行
われると、それまでの間の情報処理構成要素1a,1b
内のメインメモリに対する書き込みデータがそれぞれラ
イトキャッシュ2a,2bに保持される。
【0026】同期・比較装置4a,4bによって情報処
理構成要素1a,1bの動作または出力の不整合が検出
された場合は、情報処理構成要素1a,1bのいずれか
でフォールトが発生したとして各モジュールによる以下
のような制御が行われる。
【0027】情報処理構成要素1a,1bのどちらか一
方においてフォールトの発生が検出された場合は、フォ
ールトの発生が検出された方の情報処理構成要素を含む
モジュールがシステムから切り離されて縮退運用が行わ
れる。
【0028】情報処理構成要素1a,1bのいずれから
もフォールトの発生が検出されない場合は、結果記憶装
置3a、3bに情報処理構成要素1a,1bの状態が記
憶された後、ライトキャッシュ2a,2bの内容が無効
とされ、情報処理構成要素1a,1bの状態がそれぞれ
実行前の状態に戻されて再実行処理が行われる。
【0029】再実行処理が行われると、再び同期・比較
装置4a,4bによる情報処理構成要素1a,1bの動
作または出力の一致の確認が行われると同時に、それま
での間の情報処理構成要素1a,1bのメインメモリに
対する書き込みデータがそれぞれライトキャッシュ2
a,2bに保持される。
【0030】上記の再実行で、同期・比較装置4a,4
bによって情報処理構成要素1a,1bの動作または出
力の一致が検出された場合は、フォールトは外乱要因に
よる過渡的なものと判断され、そのまま処理(通常処
理)が継続される。
【0031】一方、上記再実行で再度、同期・比較装置
4a,4bにて不整合が検出された場合には、情報処理
構成要素1aの状態と結果記憶装置3aに記憶された状
態、情報処理構成要素1bの状態と結果記憶装置3bに
記憶された状態がそれぞれ比較される。この比較におい
て、情報処理構成要素1a,1bの一方が一致して他方
が不一致となった場合は、不一致となった方の情報処理
構成要素を含むモージュールがシステムから切り離され
て縮退運用が行われ、両方とも不一致となった場合に
は、二重の固定的または間欠的なフォールトが発生した
と判断して、その時点でシステムの運用が停止される。
両方とも一致となった場合には、同様の再実行が繰り返
される。なお、所定の回数だけ再実行が行われても、情
報処理構成要素1a,1bの間に不整合があり、かつ、
結果記憶装置とも不一致となる場合には、フォールトの
発生箇所を特定することができない致命的な固定フォー
ルトが発生したと判断して、その時点でシステムの運用
を停止する。
【0032】切り離された情報処理構成要素は、診断お
よび修理を行い、正常であることを確認した上で再びシ
ステムに組み込む。この組み込みの際、正常に動作して
いる情報処理構成要素の状態を、組み込まれる情報処理
構成要素にコピーし、再度、同期・比較装置4a,4b
によって情報処理構成要素の動作の同期をとるようにす
る。
【0033】(2)入出力制御モジュールの動作 比較装置7a,7bによって入出力構成要素5a,5b
の動作または出力の不整合が検出された場合は、入出力
構成要素5a,5bののいずれかでフォールトが発生し
たとして各モジュールによる以下のような制御が行われ
る。
【0034】入出力構成要素5a,5bのどちらか一方
においてフォールトの発生が検出された場合は、フォー
ルトの発生が検出された方の入出力構成要素を含むモジ
ュールがシステムから切り離されて縮退運用が行われ
る。
【0035】入出力構成要素5a,5bのいずれからも
フォールトの発生が検出されなかった場合は、結果記憶
装置6a、6bに入出力構成要素5a,5bの状態がそ
れぞれ記憶された後、入出力処理の再実行が行われる。
【0036】上記の再実行で、比較装置7a,7bによ
って入出力構成要素5a,5bの出力の一致が検出され
た場合は、フォールトは外乱要因による過渡的なものと
判断され、そのまま処理が継続される。再度、比較装置
7a,7bにて不整合が検出された場合には、入出力構
成要素5aの状態と結果記憶装置6aに記憶された状
態、入出力構成要素5bの状態と結果記憶装置6bに記
憶された状態がそれぞれ比較される。この比較におい
て、入出力構成要素5a,5bの一方が一致して他方が
不一致となった場合は、不一致となった方の入出力構成
要素を含むモージュールがシステムから切り離されて縮
退運用が行われ、両方とも不一致となった場合には、二
重の固定的または間欠的なフォールトが発生したと判断
して、その時点でシステムの運用が停止される。両方と
も一致となった場合には、同様の再実行が繰り返され
る。
【0037】なお、所定の回数だけ再実行が行われて
も、入出力構成要素5a,5bの出力に不整合があり、
かつ、結果記憶装置6a,6bに記憶された状態とも不
一致となる場合には、フォールトの発生箇所を特定する
ことができない致命的な固定フォールトが発生したと判
断して、その時点でシステムの運用が停止される。
【0038】切り離された入出力構成要素は、診断およ
び修理を行い、正常であることを確認した上で、再びシ
ステムに組み込まれる。この組み込みの際、正常に動作
している入出力構成要素の状態を、組み込まれる入出力
構成要素にコピーし、再度、同期・比較装置4a,4b
によって入出力構成要素の動作の同期をとるようにす
る。
【0039】以上のように本形態の冗長コンピュータシ
ステムにおいては、ライトキャッシュ2a,2b、結果
記憶装置3a,3bを設けたことにより、情報処理構成
要素1a,1bに不整合が生じた場合の再実行による情
報処理構成要素の状態の比較が可能になっており、これ
によりフォールトの発生箇所を特定できる。
【0040】また、本形態においては、結果記憶装置6
a,6bを設けたことにより、入出力構成要素5a,5
bに不整合が生じた場合の再実行による入出力構成要素
の状態の比較が可能になっており、これによりフォール
トの発生箇所を特定できる。なお、本形態では、演算制
御モジュールおよび入出力制御モジュールが二重化さ
れ、これらモジュールについて再実行によるフォールト
発生箇所の特定を行うようにしたが、本発明はこれに限
定されるものではなく、システムを構成するいずれかの
二重化されたモジュールについて再実行によるフォール
ト発生箇所の特定を行うようにしてもよい。
【0041】また、情報処理構成要素1a,1bまたは
入出力構成要素5a,5bに不整合が生じた場合の再実
行の回数は特に限定されるものではないが、再実行の回
数を多くとればとるほど信頼性は向上することになる。
【0042】(他の実施形態)図2に、本発明の冗長コ
ンピュータシステムの他の実施形態を示す。この冗長コ
ンピュータシステムは、各演算制御モジュールにそれぞ
れ再実行回数カウンタ8a,8bが設けられ、各入出力
制御モジュールにそれぞれ再実行回数カウンタ9a,9
bが設けられた以外は図1に示したシステムと同様の構
成となっている。図2中、図1に示すものと同じ構成に
は同じ符号を付してある。
【0043】本形態では、情報処理構成要素1a,1b
は、それぞれ複数のCPUとメモリ(メインメモリ)か
ら構成されている。入出力構成要素5a,5bは、それ
ぞれディスク装置と2つのネットワークインターフェー
スカードから構成されている。このネットワークインタ
ーフェースカードの一方は、各入出力制御モジュール間
を接続するプライベートLANに接続され、他方はパブ
リックLANに接続されている。
【0044】再実行回数カウンタ8a,8bおよび再実
行回数カウンタ9a,9bは、それぞれ各演算制御モジ
ュールおよび各入出力制御モジュールにおける再実行の
回数をカウントするためのものである。
【0045】図3および図4に、この冗長コンピュータ
システムにおけるフォールトトレラント制御動作のフロ
ーを示す。以下、この図3および図4を参照してフォー
ルトトレラント制御動作を説明する。
【0046】システムを起動して通常実行を行うと(ス
テップS10)、情報処理構成要素1a,1bの動作を
システムクロック、入出力割り込みまたはタイマー割り
込み、ソフトウェアのブレークポイントなどにより同期
させる(ステップS11)。
【0047】続いて、情報処理構成要素1a,1bの動
作又は出力が一致しているかどうかの確認を行う(ステ
ップS12)。この確認の際に、それまでの間の情報処
理構成要素1a,1b内のメインメモリに対する書き込
みデータがそれぞれライトキャッシュ2a,2bに保持
される。
【0048】上記ステップS12の確認が一致である場
合は、各ライトキャッシュ2a,2bの内容を各情報処
理構成要素のメインメモリにそれぞれ書き出した後(ス
テップS13)、上述のステップS10の通常実行に戻
る。不整合が検出された場合は、続いて、各情報処理構
成要素1a,1bにおけるフォールト発生の有無を確認
する(ステップS14)。
【0049】上記ステップS14の確認で、情報処理構
成要素1a,1bのどちらか一方においてフォールトの
発生が検出された場合は、フォールトの発生が検出され
た方の情報処理構成要素を含むモジュールをシステムか
ら切り離して縮退運用行う(ステップS15)。また、
情報処理構成要素1a,1bのいずれからもフォールト
の発生が検出されない場合は、結果記憶装置3a、3b
に情報処理構成要素1a,1bの状態を記憶し(ステッ
プS16)、再実行回数カウンタ8a,8bのカウンタ
値を1インクリメントする(ステップS17)。
【0050】上記ステップS16,S17の後、ライト
キャッシュ2a,2bの内容を無効にして、情報処理構
成要素1a,1bの状態をそれぞれ実行前の状態に戻し
(ステップS18)、再実行回数カウンタ8a,8bの
カウンタ値が規定値を超えていないかを確認する(ステ
ップS19)。
【0051】上記ステップS19の確認で、カウンタ値
が規定値を超えた場合はシステムの運用を停止し(ステ
ップS20)、カウンタ値が規定値以内の場合は再実行
を行う(ステップS21)。ここで、再実行はI/O発
生またはライトキャッシュに保持される書き込みデータ
が満杯になるまで行われる。
【0052】上記ステップS21にて再実行が行われる
と、上記ステップS11の場合と同様にして、情報処理
構成要素1a,1bの動作を同期させる(ステップS2
2)。続いて、情報処理構成要素1a,1bの動作又は
出力が一致しているかどうかの確認を行う(ステップS
23)。この確認の際に、それまでの間の情報処理構成
要素1a,1b内のメインメモリに対する書き込みデー
タがそれぞれライトキャッシュ2a,2bに保持され
る。
【0053】上記ステップS22の確認が一致である場
合は、再実行回数カウンタ8a,8bのカウンタ値を0
にし(ステップS24)、上述のステップS13の処理
に戻る。不一致である場合は、続いて、各情報処理構成
要素1a,1bにおけるフォールト発生の有無を確認す
る(ステップS25)。
【0054】上記ステップS25の確認で、情報処理構
成要素1a,1bのどちらか一方においてフォールトの
発生が検出された場合は、フォールトの発生が検出され
た方の情報処理構成要素を含むモジュールをシステムか
ら切り離して縮退運用行う(ステップS26)。また、
情報処理構成要素1a,1bのいずれからもフォールト
の発生が検出されない場合は、情報処理構成要素1a,
1bの状態が結果記憶装置3a、3bに記憶されている
状態と一致するかを確認する(ステップS27)。情報
処理構成要素1a,1bのどちらか一方において状態の
不一致が確認された場合は、状態の不一致が検出された
方の情報処理構成要素を含むモジュールをシステムから
切り離して縮退運用行い(ステップS26)、ともに状
態の一致が確認された場合は、再実行回数カウンタ8
a,8bのカウンタ値を1インクリメントする(ステッ
プS28)。
【0055】続いて、ライトキャッシュ2a,2bの内
容を無効にして、情報処理構成要素1a,1bの状態を
それぞれ前回の同期処理時点の状態に戻し(ステップS
29)、再実行回数カウンタ8a,8bのカウンタ値が
規定値を超えていないかを確認する(ステップS3
0)。カウンタ値が規定値以上の場合はシステムの運用
を停止し(ステップS31)、カウンタ値が規定値より
小さな場合は前述のステップS13に戻って再実行を行
う。
【0056】
【発明の効果】以上説明したように、本発明によれば、
ハードウェアを三重化することなく、外乱要因による過
渡的なフォールトや間欠フォールトを判断することがで
きるので、より低コストで、より信頼性の高い冗長コン
ピュータシステムを提供することができる。
【図面の簡単な説明】
【図1】本発明の冗長コンピュータシステムの一実施形
態を示すブロック図である。
【図2】本発明の冗長コンピュータシステムの他の実施
形態を示すブロック図である。
【図3】図2に示す冗長コンピュータシステムにおいて
行われるフォールトトレラント制御動作の一例を示すフ
ローチャート図である。
【図4】図2に示す冗長コンピュータシステムにおいて
行われるフォールトトレラント制御動作の一例を示すフ
ローチャート図である。
【図5】従来の冗長コンピュータシステムの概略構成を
示すブロック図である。
【符号の説明】
1a,1b 情報処理構成要素 2a,2b ライトキャッシュ 3a,3b,6a,6b 結果記憶装置 4a,4b 同期・比較装置 5a,5b 入出力構成要素 7a,7b 比較装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 システム構成要素が二重化されてそれぞ
    れ同期がとられる冗長コンピュータシステムにおいて行
    われるフォールトトレラント制御方法において、 前記システム構成要素の少なくとも1つの二重化された
    モジュールについて、該二重化されたモジュールの動作
    または出力が一致しているかどうかの比較を行う第1の
    ステップと、 前記第1のステップの比較結果が不一致となり、かつ、
    前記二重化されたモジュールのいずれにおいてもフォー
    ルトの発生が検出されなかった場合は、該各モジュール
    の動作状態をそれぞれ記憶するとともに再実行処理を行
    って再度各モジュールの動作または出力が一致している
    かどうかの比較を行う第2のステップと、 前記第2のステップの比較結果が一致した場合は、各モ
    ジュールにそのまま処理を継続させ、比較結果が不一致
    となった場合は、再実行における各モジュールの動作の
    状態と前記第2のステップで記憶した動作の状態との比
    較を行う第3のステップと、 前記第3のステップの状態比較で、いずれかのモジュー
    ルの動作状態が不一致となった場合は、該不一致となっ
    た方のモジュールをシステムから切り離し、両方とも不
    一致となった場合は、システムの運用を停止し、両方と
    も一致となった場合は、前記第2のステップの再実行処
    理を再度行う第4のステップとを含むことを特徴とする
    フォールトトレラント制御方法。
  2. 【請求項2】 請求項1に記載のフォールトトレラント
    制御方法において、 前記モジュールをCPUおよびメインメモリを含む情報
    処理構成要素とすることを特徴とするフォールトトレラ
    ント制御方法。
  3. 【請求項3】 請求項2に記載のフォールトトレラント
    制御方法において、 前記第1または第2のステップにおける各情報処理構成
    要素の動作または出力の比較を行う際に、それまでの各
    情報処理構成要素内のメインメモリに対する書き込みデ
    ータをライトキャッシュに保持するようにし、該比較結
    果が一致した場合に、前記ライトキャッシュに保持され
    たデータを前記メインメモリに書き出すステップをさら
    に含むことを特徴とするフォールトトレラント制御方
    法。
  4. 【請求項4】 請求項1に記載のフォールトトレラント
    制御方法において、 前記第4のステップの、状態比較が両方とも一致となっ
    た場合に行われる再実行処理の繰り返しが所定回数行わ
    れても、前記第2のステップの比較結果が不一致とな
    り、かつ、前記第3のステップの比較結果が不一致とな
    る場合には、システムの運用を停止するステップをさら
    に含むことを特徴とするフォールトトレラント制御方
    法。
  5. 【請求項5】 システム構成要素が二重化されてそれぞ
    れ同期がとられる冗長コンピュータシステムにおいて、 前記システム構成要素の少なくとも1つの二重化された
    モジュールがそれぞれ、 前記二重化されたモジュール
    の動作または出力が一致しているかどうかの比較を行う
    比較手段と、 前記比較手段による比較結果が不一致の場合で、かつ、
    前記二重化されたモジュールのいずれにおいてもフォー
    ルトが検出されなかった場合に、該各モジュールの動作
    状態がそれぞれ記憶される結果記憶手段とを有し、 前記比較手段による比較結果が不一致となった場合は再
    実行処理を行い、該再実行における前記比較手段による
    比較結果が一致した場合はそのまま処理を継続し、該再
    実行における比較結果が不一致となった場合には、該再
    実行における動作状態と前記結果記憶手段に記憶されて
    いる状態とを比較し、該比較結果が不一致となった場合
    に、自らシステムから切り離すように構成されているこ
    とを特徴とする冗長コンピュータシステム。
  6. 【請求項6】 請求項5に記載の冗長コンピュータシス
    テムにおいて、 前記モジュールがCPUおよびメインメモリを含む情報
    処理構成要素であることを特徴とする冗長コンピュータ
    システム。
  7. 【請求項7】 請求項6に記載の冗長コンピュータシス
    テムにおいて、 前記情報処理構成要素はそれぞれ、 前記比較手段による比較が行われる際に、それまでの間
    の前記メインメモリに対する書き込みデータを保持する
    ライトキャッシュを有し、 前記ライトキャッシュは、前記比較手段における比較結
    果が一致した場合に、保持されたデータが前記メインメ
    モリに書き出されるように構成されていることを特徴と
    する冗長コンピュータシステム。
  8. 【請求項8】 請求項5に記載の冗長コンピュータシス
    テムにおいて、 再実行処理の回数をカウントするカウンタ手段をさらに
    有し、 前記二重化されたモジュールはそれぞれ、前記カウンタ
    手段のカウンタ値が規定値を超えない範囲で再実行処理
    を繰り返すように構成されていることを特徴とする冗長
    コンピュータシステム。
JP11105282A 1999-04-13 1999-04-13 フォールトトレラント制御方法および冗長コンピュータシステム Pending JP2000298594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11105282A JP2000298594A (ja) 1999-04-13 1999-04-13 フォールトトレラント制御方法および冗長コンピュータシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11105282A JP2000298594A (ja) 1999-04-13 1999-04-13 フォールトトレラント制御方法および冗長コンピュータシステム

Publications (1)

Publication Number Publication Date
JP2000298594A true JP2000298594A (ja) 2000-10-24

Family

ID=14403329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11105282A Pending JP2000298594A (ja) 1999-04-13 1999-04-13 フォールトトレラント制御方法および冗長コンピュータシステム

Country Status (1)

Country Link
JP (1) JP2000298594A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363221B1 (ko) * 2000-11-10 2002-12-05 디스크뱅크(주) 대용량 디스크 저장 장치 및 이를 위한 폴트 톨로런스제공 방법
JP2009505183A (ja) * 2005-08-08 2009-02-05 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 少なくとも2つの命令実行部および1つの比較ユニットを備えたコンピュータシステムを制御する方法および装置
JP2009505185A (ja) * 2005-08-08 2009-02-05 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 少なくとも2つの実行ユニットを有するコンピュータシステムにおいてデータを比較する方法およびデバイス
US7519856B2 (en) 2004-12-21 2009-04-14 Nec Corporation Fault tolerant system and controller, operation method, and operation program used in the fault tolerant system
US7539897B2 (en) 2004-12-21 2009-05-26 Nec Corporation Fault tolerant system and controller, access control method, and control program used in the fault tolerant system
JP4795433B2 (ja) * 2005-06-30 2011-10-19 インテル コーポレイション ロックステップ式二重化モジュール冗長システムにおける訂正不能エラーレートの低減
WO2021157103A1 (ja) * 2020-02-04 2021-08-12 オムロン株式会社 情報処理装置、制御方法およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100363221B1 (ko) * 2000-11-10 2002-12-05 디스크뱅크(주) 대용량 디스크 저장 장치 및 이를 위한 폴트 톨로런스제공 방법
US7519856B2 (en) 2004-12-21 2009-04-14 Nec Corporation Fault tolerant system and controller, operation method, and operation program used in the fault tolerant system
US7539897B2 (en) 2004-12-21 2009-05-26 Nec Corporation Fault tolerant system and controller, access control method, and control program used in the fault tolerant system
JP4795433B2 (ja) * 2005-06-30 2011-10-19 インテル コーポレイション ロックステップ式二重化モジュール冗長システムにおける訂正不能エラーレートの低減
JP2009505183A (ja) * 2005-08-08 2009-02-05 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 少なくとも2つの命令実行部および1つの比較ユニットを備えたコンピュータシステムを制御する方法および装置
JP2009505185A (ja) * 2005-08-08 2009-02-05 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 少なくとも2つの実行ユニットを有するコンピュータシステムにおいてデータを比較する方法およびデバイス
WO2021157103A1 (ja) * 2020-02-04 2021-08-12 オムロン株式会社 情報処理装置、制御方法およびプログラム
CN114981781A (zh) * 2020-02-04 2022-08-30 欧姆龙株式会社 信息处理装置、控制方法和程序
US12106103B2 (en) 2020-02-04 2024-10-01 Omron Corporation Information processing device, control method, and non-transitory computer readable medium
CN114981781B (zh) * 2020-02-04 2026-02-27 欧姆龙株式会社 信息处理装置、控制方法和记录介质

Similar Documents

Publication Publication Date Title
US4941087A (en) System for bumpless changeover between active units and backup units by establishing rollback points and logging write and read operations
CN103647834B (zh) 一种用于处理多阶段分布式任务调度的系统及方法
US8635492B2 (en) State recovery and lockstep execution restart in a system with multiprocessor pairing
US6058491A (en) Method and system for fault-handling to improve reliability of a data-processing system
US20090044044A1 (en) Device and method for correcting errors in a system having at least two execution units having registers
US7516361B2 (en) Method for automatic checkpoint of system and application software
Siewiorek Fault tolerance in commercial computers
US7793147B2 (en) Methods and systems for providing reconfigurable and recoverable computing resources
US20050240806A1 (en) Diagnostic memory dump method in a redundant processor
JP2500038B2 (ja) マルチプロセッサ・コンピュ―タ・システム、フォ―ルト・トレラント処理方法及びデ―タ処理システム
EP0433979A2 (en) Fault-tolerant computer system with/config filesystem
MXPA06005797A (es) Sistema y metodo para la recuperacion en caso de fallas.
JPH02118872A (ja) I/oの読み取りに対するエラーチェック機能を有したデュアルレールプロセッサ
KR100304319B1 (ko) 시간 지연 이중화 기술을 구현하는 장치 및 방법
JP2001505338A (ja) フォールト・トレラント・コンピュータ・システム
CN108228391B (zh) 一种LockStep处理机及管理方法
JP3030658B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JP2000298594A (ja) フォールトトレラント制御方法および冗長コンピュータシステム
JP3774826B2 (ja) 情報処理装置
JP3063334B2 (ja) 高信頼度化情報処理装置
US20060242456A1 (en) Method and system of copying memory from a source processor to a target processor by duplicating memory writes
JP3235785B2 (ja) 二重化情報処理装置
JP3423732B2 (ja) 情報処理装置及び情報処理装置における障害処理方法
CN120448191B (zh) 一种双核锁步处理器故障恢复装置和方法
KR0152240B1 (ko) 메모리 데이타 불일치 검출 및 복구 방법