JPH0728667A - 故障許容コンピュータシステム - Google Patents
故障許容コンピュータシステムInfo
- Publication number
- JPH0728667A JPH0728667A JP6140633A JP14063394A JPH0728667A JP H0728667 A JPH0728667 A JP H0728667A JP 6140633 A JP6140633 A JP 6140633A JP 14063394 A JP14063394 A JP 14063394A JP H0728667 A JPH0728667 A JP H0728667A
- Authority
- JP
- Japan
- Prior art keywords
- computer system
- monitoring
- monitoring means
- status
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2097—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C29/00—Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
- G11C29/70—Masking faults in memories by using spares or by reconfiguring
- G11C29/74—Masking faults in memories by using spares or by reconfiguring using duplex memories, i.e. using dual copies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
(57)【要約】
【目的】 コンピュータシステムにおいて、システム内
で故障が発生した箇所をより監視要素によって具体的に
識別し、オペレータの介在なしに最も適当な回復動作を
行うことを可能にする。 【構成】 コンピュータシステムは複数の複製されたユ
ニットを具備する。これらユニットの少なくとも2つ
が、システムの状態を監視するための監視要素を含む。
これら監視要素は、状態情報を交換するため相互に通信
を行い、これら監視要素の両方が両監視要素によって集
められた情報に基づいてシステムの状態の組み合わされ
た観点を形成できるようにする。
で故障が発生した箇所をより監視要素によって具体的に
識別し、オペレータの介在なしに最も適当な回復動作を
行うことを可能にする。 【構成】 コンピュータシステムは複数の複製されたユ
ニットを具備する。これらユニットの少なくとも2つ
が、システムの状態を監視するための監視要素を含む。
これら監視要素は、状態情報を交換するため相互に通信
を行い、これら監視要素の両方が両監視要素によって集
められた情報に基づいてシステムの状態の組み合わされ
た観点を形成できるようにする。
Description
【0001】
【産業上の利用分野】本発明は、故障許容(fault-toler
ant)コンピュータシステムに関する。
ant)コンピュータシステムに関する。
【0002】
【従来の技術】故障許容性(fault tolerance)は、コン
ピュータシステム内においてシステムの要素を複製する
ことによって達成できることが知られている。例えば、
一方が現用ユニット(active unit)として機能し、他方
が待機ユニット(stand-by)として機能する2つの処理ユ
ニットを提供することができる。即ち、回復不可能な故
障が現用ユニット内において検出された場合、待機ユニ
ットが現用ユニットとして切り替えられ、システムの動
作を継続することができる。同様に、ディスクミラー化
システム(disk mirroring system)を使用してデータ格
納ユニットを複製することが知られている。
ピュータシステム内においてシステムの要素を複製する
ことによって達成できることが知られている。例えば、
一方が現用ユニット(active unit)として機能し、他方
が待機ユニット(stand-by)として機能する2つの処理ユ
ニットを提供することができる。即ち、回復不可能な故
障が現用ユニット内において検出された場合、待機ユニ
ットが現用ユニットとして切り替えられ、システムの動
作を継続することができる。同様に、ディスクミラー化
システム(disk mirroring system)を使用してデータ格
納ユニットを複製することが知られている。
【0003】
【発明が解決しようとする課題】このようなシステム内
においては、より適切な回復動作が行えるように、故障
の箇所をどのようにして正確に決定するかという問題が
発生するが、本発明の目的はかかる問題を解決するため
の新規の方法を提供することにある。
においては、より適切な回復動作が行えるように、故障
の箇所をどのようにして正確に決定するかという問題が
発生するが、本発明の目的はかかる問題を解決するため
の新規の方法を提供することにある。
【0004】
【課題を解決するための手段】本発明によると、複数の
相互接続されたユニットを具備するコンピュータシステ
ムが提供される。これらユニットのうち少なくとも2つ
が、システムの状態を監視する監視手段を有しており、
更にこれら監視手段は状態情報を交換するため相互に通
信を行う。それにより、これら監視手段の両方が、両監
視手段によって集められた情報に基づいてシステムの状
態の結合された観点(view)を形成することを可能にす
る。後に説明されるように、本発明は、故障を単にロー
カル的観点のみではなくシステムのグローバル的観点に
基づいて故障が識別されるべきことを可能にする。この
ようにして、故障が発生した箇所をより具体的に識別
し、オペレータの介在なしに最も適当な回復動作を行う
ことが可能となる。
相互接続されたユニットを具備するコンピュータシステ
ムが提供される。これらユニットのうち少なくとも2つ
が、システムの状態を監視する監視手段を有しており、
更にこれら監視手段は状態情報を交換するため相互に通
信を行う。それにより、これら監視手段の両方が、両監
視手段によって集められた情報に基づいてシステムの状
態の結合された観点(view)を形成することを可能にす
る。後に説明されるように、本発明は、故障を単にロー
カル的観点のみではなくシステムのグローバル的観点に
基づいて故障が識別されるべきことを可能にする。この
ようにして、故障が発生した箇所をより具体的に識別
し、オペレータの介在なしに最も適当な回復動作を行う
ことが可能となる。
【0005】
【実施例】本発明による1つのコンピュータシステムの
一例について、以下、添付図面を参照しつつ説明する。
一例について、以下、添付図面を参照しつつ説明する。
【0006】図1に示されるように、このシステムは、
2つの処理ユニット10及び11を含む。これら処理シ
ステムの各々は、例えば、UNIXオペレーティングシステ
ムの下で動作(running)するICL DRS 6000プロセッサか
ら構成されていてもよい。これら処理ユニットは、両方
とも2つのデータ格納ユニット12及び13へのアクセ
スを有している。各データ格納ユニットは、例えば、複
数のディスクドライブを保持するキャビネットから構成
される。これらの処理ユニットは、1又は複数のローカ
ルエリアネットワーク(local area network: LAN)14
によって相互接続されている。
2つの処理ユニット10及び11を含む。これら処理シ
ステムの各々は、例えば、UNIXオペレーティングシステ
ムの下で動作(running)するICL DRS 6000プロセッサか
ら構成されていてもよい。これら処理ユニットは、両方
とも2つのデータ格納ユニット12及び13へのアクセ
スを有している。各データ格納ユニットは、例えば、複
数のディスクドライブを保持するキャビネットから構成
される。これらの処理ユニットは、1又は複数のローカ
ルエリアネットワーク(local area network: LAN)14
によって相互接続されている。
【0007】動作において、処理ユニット10、11の
一方は現用ユニット(active unit)として機能し、他方
は待機ユニット(stand-by)として機能する。現用処理ユ
ニットの失敗又は故障(failure)を示す故障状態(fault
condition)が検出されると、システムは他方の処理ユニ
ットを現用ユニットにするために切り替えられ、それに
よりシステムの動作を継続することができる。
一方は現用ユニット(active unit)として機能し、他方
は待機ユニット(stand-by)として機能する。現用処理ユ
ニットの失敗又は故障(failure)を示す故障状態(fault
condition)が検出されると、システムは他方の処理ユニ
ットを現用ユニットにするために切り替えられ、それに
よりシステムの動作を継続することができる。
【0008】データ格納ユニット12、13はパラレル
に使用され、データはこれら2つのユニットの間でミラ
ー化(mirrored)される。このようしてデータ格納ユニッ
トの1つが故障した場合でもデータは存在し続け、シス
テム動作を継続することができる。また、これらユニッ
トの1つが故障した後でもミラー動作(mirror operatio
n)を継続することができるように、待機ユニットとして
更なるデータ格納ユニット(不図示)を提供することも
できる。
に使用され、データはこれら2つのユニットの間でミラ
ー化(mirrored)される。このようしてデータ格納ユニッ
トの1つが故障した場合でもデータは存在し続け、シス
テム動作を継続することができる。また、これらユニッ
トの1つが故障した後でもミラー動作(mirror operatio
n)を継続することができるように、待機ユニットとして
更なるデータ格納ユニット(不図示)を提供することも
できる。
【0009】処理ユニット10、11の各々は、ここで
は高可用性マネージャ(high availability manager: HA
M)と呼ばれるソフトウエア要素を動作させるが、これは
システム監視及び管理設備を提供するためである。
は高可用性マネージャ(high availability manager: HA
M)と呼ばれるソフトウエア要素を動作させるが、これは
システム監視及び管理設備を提供するためである。
【0010】図2は、HAMの一例を示す図である。HAM2
0は、複数のサブテストモジュール21を含む。これら
のモジュールは、ローカルプロセッサ(即ち、HAMがそ
の中で動作するプロセッサ)及びこれに接続されたユニ
ットに関連する種々のチェックを行う。例えば、これら
のチェックには、プロセッサとデータ格納ユニットとの
間のインターフェースのチェックが含まれる。テストモ
ジュール21は、一連の状態報告を生成する。後述する
ように、HAMはまた遠隔処理ユニット内のHAMからの状態
報告(status reports)を受信する。
0は、複数のサブテストモジュール21を含む。これら
のモジュールは、ローカルプロセッサ(即ち、HAMがそ
の中で動作するプロセッサ)及びこれに接続されたユニ
ットに関連する種々のチェックを行う。例えば、これら
のチェックには、プロセッサとデータ格納ユニットとの
間のインターフェースのチェックが含まれる。テストモ
ジュール21は、一連の状態報告を生成する。後述する
ように、HAMはまた遠隔処理ユニット内のHAMからの状態
報告(status reports)を受信する。
【0011】テストモジュール及び遠隔HAMから送られ
てきたこれらの状態報告は、UNIXパイプ22により監視
要素23に供給される。監視要素23は、周期的に、即
ち2乃至3秒毎に動作してパイプ22からの状態報告を
読み出し適当な動作を行う。監視要素23はシステム状
態テーブル24を維持する。システム状態テーブル24
は、各サブテストについて、そのサブテストからの最新
の状態報告を含むエントリを保持する。各エントリは、
対応するサブテストから状態報告が受信されるごとに所
定の初期値にリセットされる年令値(age value)を含
む。状態テーブル24内の全ての年令値は、監視要素2
3によって周期的に減分される。これにより、各年令値
は、対応する状態報告がどれ位長い間有効であったかを
示す。
てきたこれらの状態報告は、UNIXパイプ22により監視
要素23に供給される。監視要素23は、周期的に、即
ち2乃至3秒毎に動作してパイプ22からの状態報告を
読み出し適当な動作を行う。監視要素23はシステム状
態テーブル24を維持する。システム状態テーブル24
は、各サブテストについて、そのサブテストからの最新
の状態報告を含むエントリを保持する。各エントリは、
対応するサブテストから状態報告が受信されるごとに所
定の初期値にリセットされる年令値(age value)を含
む。状態テーブル24内の全ての年令値は、監視要素2
3によって周期的に減分される。これにより、各年令値
は、対応する状態報告がどれ位長い間有効であったかを
示す。
【0012】監視要素23は、また複数のレコードを含
むコンフィギュレーションファイル25へのアクセスも
持つ。各レコードは、1又は複数の状態報告の特定の組
合わせを指定し、またこの組合わせが発生した場合に行
われるべき動作を指定する。この動作には、例えば、オ
ペレータへのエラーメッセージの表示や幾つかの自動故
障回復動作の実行が含まれる。コンフィギュレーション
ファイル25内の各レコードは、またオプションとし
て、動作がトリガされる前にその状態報告がどれ位長く
有効であるべきかを指定する時間値(time value)を含む
こともできる。これにより、他のプロセッサに特定の故
障状況に関する報告を転送するための時間を与えて、そ
の結果システムワイド(system-wide)の決定が故障位置
及びその故障に対して採られるべき動作に関して可能と
なる。ある状態報告は、状態テーブル内のその年令値が
この時間値よりも小さい場合に“熟した(mature)”と見
なされる。
むコンフィギュレーションファイル25へのアクセスも
持つ。各レコードは、1又は複数の状態報告の特定の組
合わせを指定し、またこの組合わせが発生した場合に行
われるべき動作を指定する。この動作には、例えば、オ
ペレータへのエラーメッセージの表示や幾つかの自動故
障回復動作の実行が含まれる。コンフィギュレーション
ファイル25内の各レコードは、またオプションとし
て、動作がトリガされる前にその状態報告がどれ位長く
有効であるべきかを指定する時間値(time value)を含む
こともできる。これにより、他のプロセッサに特定の故
障状況に関する報告を転送するための時間を与えて、そ
の結果システムワイド(system-wide)の決定が故障位置
及びその故障に対して採られるべき動作に関して可能と
なる。ある状態報告は、状態テーブル内のその年令値が
この時間値よりも小さい場合に“熟した(mature)”と見
なされる。
【0013】後に詳細に説明されるように、監視要素2
3はコンフィギュレーションファイル25を走査し、状
態報告ファイル内の現在報告されている故障状態にマッ
チするレコードを見つける。レコードが発見された場合
は、そのレコードで指定された動作が行われる。
3はコンフィギュレーションファイル25を走査し、状
態報告ファイル内の現在報告されている故障状態にマッ
チするレコードを見つける。レコードが発見された場合
は、そのレコードで指定された動作が行われる。
【0014】図3は監視要素23の動作を示すフロー図
であり、以下、同フロー図のステップに沿ってその動作
を説明する。
であり、以下、同フロー図のステップに沿ってその動作
を説明する。
【0015】ステップ(301)において、監視要素23が
パイプ22から状態報告を得る。
パイプ22から状態報告を得る。
【0016】ステップ(302)において、監視要素23
は、すると、状態報告をそれが良い報告であるか悪い報
告であるか、即ちそれが新たな故障状態が検出されてい
ることを示すか否かを調べるためにチェックする。
は、すると、状態報告をそれが良い報告であるか悪い報
告であるか、即ちそれが新たな故障状態が検出されてい
ることを示すか否かを調べるためにチェックする。
【0017】ステップ(303)において、状態報告が悪い
報告である場合には、その状態報告がローカル処理ユニ
ットからのものであるか又は遠隔処理ユニットからのも
のであるかを調べるためのチェックが行われる。
報告である場合には、その状態報告がローカル処理ユニ
ットからのものであるか又は遠隔処理ユニットからのも
のであるかを調べるためのチェックが行われる。
【0018】ステップ(304)において、状態報告がロー
カル処理ユニットからのものである場合、その状態報告
を含むメッセージが生成され、LAN14を通じて遠隔処
理ユニットに送られる。遠隔処理ユニット内のHAM20
がこのメッセージを受信すると、その状態報告をそのパ
イプ22に送る。
カル処理ユニットからのものである場合、その状態報告
を含むメッセージが生成され、LAN14を通じて遠隔処
理ユニットに送られる。遠隔処理ユニット内のHAM20
がこのメッセージを受信すると、その状態報告をそのパ
イプ22に送る。
【0019】ステップ(305)において、監視要素23
は、次に、そのローカルな状態テーブル24内の適当な
エントリを、そのエントリ内にその状態報告を書き込む
ことにより更新し、そのエントリの年令値をリセットす
る。
は、次に、そのローカルな状態テーブル24内の適当な
エントリを、そのエントリ内にその状態報告を書き込む
ことにより更新し、そのエントリの年令値をリセットす
る。
【0020】ステップ(306)において、状態報告が良い
報告である場合には、監視要素23はパイプ22から次
の状態報告を得るためにステップ(301)に戻る。一方、
状態報告が悪い報告である場合には、以下のステップが
実行される。
報告である場合には、監視要素23はパイプ22から次
の状態報告を得るためにステップ(301)に戻る。一方、
状態報告が悪い報告である場合には、以下のステップが
実行される。
【0021】ステップ(307)において、コンフィギュレ
ーションファイル25が開かれる。
ーションファイル25が開かれる。
【0022】ステップ(308)において、そのコンフィギ
ュレーションファイル25から1つのレコードが読み出
される。
ュレーションファイル25から1つのレコードが読み出
される。
【0023】ステップ(309)において、状態テーブル2
4が、次に、そのレコードによって指定される特定の報
告又は報告の組合わせが存在するか否かを見い出すため
に調べられる。
4が、次に、そのレコードによって指定される特定の報
告又は報告の組合わせが存在するか否かを見い出すため
に調べられる。
【0024】ステップ(310)において、状態報告の指定
された組合わせが存在する場合には、これら報告が熟し
ているか否か、即ちこれらが(存在する場合)コンフィ
ギュレーションファイル25のレコード内で指定される
時間値よりも長時間に渡って有効であったか否かを知る
ためにチェックされる。これは、状態テーブル24のエ
ントリ内の年令値をコンフィギュレーションファイル2
5のレコード内の時間値と比較する動作を含む。
された組合わせが存在する場合には、これら報告が熟し
ているか否か、即ちこれらが(存在する場合)コンフィ
ギュレーションファイル25のレコード内で指定される
時間値よりも長時間に渡って有効であったか否かを知る
ためにチェックされる。これは、状態テーブル24のエ
ントリ内の年令値をコンフィギュレーションファイル2
5のレコード内の時間値と比較する動作を含む。
【0025】ステップ(311)において、報告が熟してい
る場合、監視要素23はコンフィギュレーションファイ
ル25のレコード内で指定されている動作を示すエラー
メッセージを生成する。そして状態テーブル24内の関
連するエントリが“報告済(reported)”とマークされ
る。一旦報告済とマークされると、その状態が変化する
か又は削除されるまでエラー状態は監視要素23によっ
て無視される。
る場合、監視要素23はコンフィギュレーションファイ
ル25のレコード内で指定されている動作を示すエラー
メッセージを生成する。そして状態テーブル24内の関
連するエントリが“報告済(reported)”とマークされ
る。一旦報告済とマークされると、その状態が変化する
か又は削除されるまでエラー状態は監視要素23によっ
て無視される。
【0026】ステップ(312)において、コンフィギュレ
ーションファイル25がその後閉じられ、監視要素23
は次の状態報告を得るためステップ(301)に戻る。
ーションファイル25がその後閉じられ、監視要素23
は次の状態報告を得るためステップ(301)に戻る。
【0027】ステップ(313)において、状態報告の指定
された組合わせが存在しない場合、又はその報告がまだ
熟していない場合は、コンフィギュレーションファイル
25の終端に達したか否かを調べるためのチェックが行
われる。終端に達してない場合には、監視要素23はコ
ンフィギュレーションファイル25からの次のレコード
を読み出すためステップ(308)に戻る。
された組合わせが存在しない場合、又はその報告がまだ
熟していない場合は、コンフィギュレーションファイル
25の終端に達したか否かを調べるためのチェックが行
われる。終端に達してない場合には、監視要素23はコ
ンフィギュレーションファイル25からの次のレコード
を読み出すためステップ(308)に戻る。
【0028】ステップ(314)において、コンフィギュレ
ーションファイルの終端に達した場合には、現在の状態
報告と関連して任意のレコードがコンフィギュレーショ
ンファイル25内に発見されたか調べるためのチェック
が行われる。
ーションファイルの終端に達した場合には、現在の状態
報告と関連して任意のレコードがコンフィギュレーショ
ンファイル25内に発見されたか調べるためのチェック
が行われる。
【0029】ステップ(315)において、有効なレコード
が発見されなかった場合は、認識されてない故障状態が
検出されたことを示すエラーメッセージが生成される。
そうすると、監視要素23はコンフィギュレーションフ
ァイル25を閉じて、次の状態報告を得るためにステッ
プ(312)に進む。
が発見されなかった場合は、認識されてない故障状態が
検出されたことを示すエラーメッセージが生成される。
そうすると、監視要素23はコンフィギュレーションフ
ァイル25を閉じて、次の状態報告を得るためにステッ
プ(312)に進む。
【0030】要約すると、各HAMが故障の位置について
の決定をその状態報告ファイルの内容に基づいて行うこ
とがわかる。各状態報告ファイルは、両方のHAMによっ
て生成された状態報告を保持する。これにより、各HAM
は、ローカルテストモジュール21によって集められた
ローカル情報のみならず、遠隔プロセッサ内のHAMから
送られた情報にも基づいて故障の分析をすることができ
る。従って、各HAMは、故障を単にローカル的な観点(vi
ew)からではなく、システムのグローバル的な観点(vie
w)に基づいて検出することができる。
の決定をその状態報告ファイルの内容に基づいて行うこ
とがわかる。各状態報告ファイルは、両方のHAMによっ
て生成された状態報告を保持する。これにより、各HAM
は、ローカルテストモジュール21によって集められた
ローカル情報のみならず、遠隔プロセッサ内のHAMから
送られた情報にも基づいて故障の分析をすることができ
る。従って、各HAMは、故障を単にローカル的な観点(vi
ew)からではなく、システムのグローバル的な観点(vie
w)に基づいて検出することができる。
【0031】例えば、処理ユニットの1つがそのデータ
格納インターフェースの1つの上に故障を有する場合、
そのHAMは対応するデータ格納ユニットが消失したこと
を検出し、他方の処理ユニット内のHAMに状態報告メッ
セージを送り、他方のユニットにこのことを知らせる。
その一方、他方の処理ユニット内のHAMは、両方のデー
タ格納ユニットが正常に動作していることを検出し、第
1の処理ユニット内のHAMに状態報告メッセージを送
り、第1の処理ユニットにこの事実を知らせる。これに
より、両方のHAMがそれらの状態テーブル内の状態報告
から第1の処理ユニット上のデータ格納インターフェー
スが故障したことを推論でき、そして両方のHAMがこの
故障から回復するための適当な動作、例えば第2の処理
ユニットを現用プロセッサにするための切り替え動作を
行う。尚、HAM間の情報の交換なしには、いずれのHAMも
この故障の位置を識別することができないことに注意す
べきである。
格納インターフェースの1つの上に故障を有する場合、
そのHAMは対応するデータ格納ユニットが消失したこと
を検出し、他方の処理ユニット内のHAMに状態報告メッ
セージを送り、他方のユニットにこのことを知らせる。
その一方、他方の処理ユニット内のHAMは、両方のデー
タ格納ユニットが正常に動作していることを検出し、第
1の処理ユニット内のHAMに状態報告メッセージを送
り、第1の処理ユニットにこの事実を知らせる。これに
より、両方のHAMがそれらの状態テーブル内の状態報告
から第1の処理ユニット上のデータ格納インターフェー
スが故障したことを推論でき、そして両方のHAMがこの
故障から回復するための適当な動作、例えば第2の処理
ユニットを現用プロセッサにするための切り替え動作を
行う。尚、HAM間の情報の交換なしには、いずれのHAMも
この故障の位置を識別することができないことに注意す
べきである。
【0032】
【発明の効果】以上説明したように、本発明によると、
コンピュータシステムにおいて、故障が発生した箇所を
より具体的に識別し、オペレータの介在なしに最も適当
な回復動作を行うことが可能となる。
コンピュータシステムにおいて、故障が発生した箇所を
より具体的に識別し、オペレータの介在なしに最も適当
な回復動作を行うことが可能となる。
【図1】本発明を具現化する故障許容コンピュータシス
テム全体のブロック図である。
テム全体のブロック図である。
【図2】本発明による故障許容コンピュータシステムの
高可用性マネージャ(HAM)要素のブロック図である。
高可用性マネージャ(HAM)要素のブロック図である。
【図3】HAMの動作を示すフロー図である。
10 処理ユニット 11 処理ユニット 12 データ格納ユニット 13 データ格納ユニット 20 高可用性マネージャ(HAM) 21 テストモジュール 22 パイプ 23 監視要素 24 システム状態テーブル 25 コンフィギュレーションファイル
Claims (3)
- 【請求項1】 コンピュータシステムにおいて、前記コ
ンピュータシステムが、 (a)第1及び第2の相互接続されたユニット、 (b)システムの状態の第1のローカル的観点を形成する
ためにシステムを監視する、前記第1のユニット内の第
1の監視手段、 (c)システムの状態の第2のローカル的観点を形成する
ためにシステムを監視する、前記第2のユニット内の第
2の監視手段、及び (d)前記第1及び第2の監視手段にシステムの状態のそ
れらの夫々対応するローカル的観点に関する情報を交換
することを許容するように前記第1及び第2の監視手段
を相互接続する相互接続手段を具備し、ここで (e)前記第1及び第2の監視手段の各々が、システムの
状態の結合されたグローバル的観点を形成するために前
記システムの状態の第1及び第2のローカル的観点を結
合する結合手段を更に具備することを特徴とするシステ
ム。 - 【請求項2】 請求項1に記載のコンピュータシステム
において、 (a)前記監視手段の各々が複数の状態報告を保持する状
態テーブルを有し、これらの報告の幾つかはその監視手
段によってローカル的に生成され、これら報告のその他
は前記他方の監視手段によって生成され、更に(b)前記
監視手段の各々が、状態報告の所定の組合わせについて
その状態テーブルをサーチし、そして前記組合わせが検
出された場合所定の動作を開始する手段を有することを
特徴とするコンピュータシステム。 - 【請求項3】 請求項2に記載のコンピュータシステム
において、前記所定の動作が、状態報告のある組合わせ
に対して、これらの状態報告が少なくとも所定の時間だ
け有効であった場合にのみ開始されることを特徴とする
コンピュータシステム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| GB9313255.3 | 1993-06-26 | ||
| GB939313255A GB9313255D0 (en) | 1993-06-26 | 1993-06-26 | Fault-tolerant computer systmes |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0728667A true JPH0728667A (ja) | 1995-01-31 |
Family
ID=10737883
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6140633A Pending JPH0728667A (ja) | 1993-06-26 | 1994-06-23 | 故障許容コンピュータシステム |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US5517616A (ja) |
| EP (1) | EP0632381B1 (ja) |
| JP (1) | JPH0728667A (ja) |
| AU (1) | AU674231B2 (ja) |
| DE (1) | DE69430649T2 (ja) |
| GB (1) | GB9313255D0 (ja) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB9313255D0 (en) * | 1993-06-26 | 1993-08-11 | Int Computers Ltd | Fault-tolerant computer systmes |
| JP3675851B2 (ja) * | 1994-03-15 | 2005-07-27 | 富士通株式会社 | 計算機監視方式 |
| EP0727899A1 (de) * | 1995-02-16 | 1996-08-21 | Siemens Aktiengesellschaft | Prüfsystem eines Rechnersystems |
| GB9606833D0 (en) * | 1996-03-30 | 1996-06-05 | Int Computers Ltd | Multi-processor system |
| US5742753A (en) * | 1996-06-06 | 1998-04-21 | The Boeing Company | Mesh interconnected array in a fault-tolerant computer system |
| JP3296784B2 (ja) * | 1998-05-12 | 2002-07-02 | 沖電気工業株式会社 | 多重化システム |
| JP3545642B2 (ja) | 1999-05-17 | 2004-07-21 | 松下電器産業株式会社 | 監視システム及び方法 |
| US8315636B2 (en) * | 2005-02-24 | 2012-11-20 | Cisco Technology, Inc. | Techniques for distributing data among nodes based on dynamic spatial/organizational state of a mobile node |
| US20070070904A1 (en) * | 2005-09-26 | 2007-03-29 | King Steven R | Feedback mechanism for flexible load balancing in a flow-based processor affinity scheme |
| US7787453B2 (en) * | 2006-08-03 | 2010-08-31 | Broadcom Corporation | Network interface controller with receive side scaling and quality of service |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4590550A (en) * | 1983-06-29 | 1986-05-20 | International Business Machines Corporation | Internally distributed monitoring system |
| FR2561410B1 (fr) * | 1984-03-13 | 1987-11-20 | Merlin Gerin | Commande de process associe a deux automates programmables redondants |
| US4797884A (en) * | 1986-09-29 | 1989-01-10 | Texas Instruments Incorporated | Redundant device control unit |
| US5272702A (en) * | 1991-08-05 | 1993-12-21 | Fisher Controls International, Inc. | Integrity mapping in data communication system |
| GB9313255D0 (en) * | 1993-06-26 | 1993-08-11 | Int Computers Ltd | Fault-tolerant computer systmes |
-
1993
- 1993-06-26 GB GB939313255A patent/GB9313255D0/en active Pending
-
1994
- 1994-04-22 DE DE69430649T patent/DE69430649T2/de not_active Expired - Lifetime
- 1994-04-22 EP EP94302882A patent/EP0632381B1/en not_active Expired - Lifetime
- 1994-06-23 JP JP6140633A patent/JPH0728667A/ja active Pending
- 1994-06-23 AU AU65936/94A patent/AU674231B2/en not_active Ceased
-
1995
- 1995-07-31 US US08/509,418 patent/US5517616A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0632381A2 (en) | 1995-01-04 |
| DE69430649T2 (de) | 2003-01-02 |
| DE69430649D1 (de) | 2002-06-27 |
| AU6593694A (en) | 1995-01-05 |
| EP0632381B1 (en) | 2002-05-22 |
| US5517616A (en) | 1996-05-14 |
| GB9313255D0 (en) | 1993-08-11 |
| AU674231B2 (en) | 1996-12-12 |
| EP0632381A3 (en) | 1997-05-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6865157B1 (en) | Fault tolerant shared system resource with communications passthrough providing high availability communications | |
| US7627779B2 (en) | Multiple hierarichal/peer domain file server with domain based, cross domain cooperative fault handling mechanisms | |
| US6594775B1 (en) | Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms | |
| US6757836B1 (en) | Method and apparatus for resolving partial connectivity in a clustered computing system | |
| CN101582787B (zh) | 一种双机备份系统及备份方法 | |
| US7788524B2 (en) | Fault-tolerant networks | |
| US7219260B1 (en) | Fault tolerant system shared system resource with state machine logging | |
| US6578160B1 (en) | Fault tolerant, low latency system resource with high level logging of system resource transactions and cross-server mirrored high level logging of system resource transactions | |
| US5473771A (en) | Fault-tolerant processing system architecture | |
| US7702667B2 (en) | Methods and systems for validating accessibility and currency of replicated data | |
| CN110807064B (zh) | Rac分布式数据库集群系统中的数据恢复装置 | |
| US8615578B2 (en) | Using a standby data storage system to detect the health of a cluster of data storage servers | |
| US20040225697A1 (en) | Storage operation management program and method and a storage management computer | |
| JP2011530127A (ja) | データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム | |
| JP2001249856A (ja) | ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム | |
| GB2410406A (en) | Status generation and heartbeat signalling for a node of a high-availability cluster | |
| CN109120522B (zh) | 一种多路径状态监测方法及装置 | |
| JPH0728667A (ja) | 故障許容コンピュータシステム | |
| CN119071141A (zh) | 负载均衡方法、装置、设备及存储介质 | |
| CN105490847A (zh) | 一种私有云存储系统中节点故障实时检测及处理方法 | |
| CA2241861C (en) | A scheme to perform event rollup | |
| JP3447347B2 (ja) | 障害検出方法 | |
| JP3691272B2 (ja) | 分散処理システムおよび障害解析情報の保存方法 | |
| Corsava et al. | Self-healing intelligent infrastructure for computational clusters | |
| JPH0934852A (ja) | クラスタシステム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030423 |