JPH1125062A

JPH1125062A - 障害回復システム

Info

Publication number: JPH1125062A
Application number: JP9193242A
Authority: JP
Inventors: Mina Tsutsumi; 美菜堤; Hidenori Nakazato; 秀則中里; Hideki Arai; 英樹新井
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-07-03
Filing date: 1997-07-03
Publication date: 1999-01-29

Abstract

(57)【要約】【課題】システム資源の有効利用を図ることのできる
障害回復システムを実現する。【解決手段】チェックポイントモジュール３は、サー
バモジュール２ａのチェックポイントを行う。サーバモ
ジュール２ａに障害が発生した場合、クライアントモジ
ュール１は、この障害発生をシステム管理モジュール４
に通知する。システム管理モジュール４は、この通知を
受け取ると、サーバモジュール２ａと同一のサーバモジ
ュール２ｂを新たに生成する。また、サーバモジュール
２ａの最新のチェックポイント情報をチェックポイント
モジュール３から取得し、このチェックポイント情報を
新たに生成したサーバモジュール２ｂに送る。サーバモ
ジュール２ｂでは、クライアントモジュール１から処理
依頼を受けた場合、チェックポイントまでに行われた処
理を省略した時点から処理を開始する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、クライアント・サ
ーバ型のシステムにおけるサーバの障害回復を行う障害
回復システムに関する。

【０００２】

【従来の技術】あるモジュールが故障を起こした場合
に、故障を起こす以前の安定な状態へ該当モジュールの
状態を戻すために、各モジュールの安定な状態を該当モ
ジュールと異なるモジュールに記録する。このモジュー
ル状態を記録する動作を「チェックポイント」と呼ぶ。
チェックポイントは、各モジュールがそれぞれの判断に
より、該当モジュールの状態が安定している時期に、該
当モジュールが能動的に要求することによって行う。こ
の場合のモジュールの単位は、ある装置であったり、一
つのサービスを提供するプログラムであったり、また、
それらの集合であってもよい。例えば、このような技術
を示す文献として、“J.Grey他著、渡辺栄一訳「フォー
ルト・トレラント・システム」マグロウヒルブック”が
ある。

【０００３】従来の障害回復方法としては、ある処理モ
ジュールでの障害発生に備えて、該当処理モジュールと
同様の処理を行う予備の処理モジュールと、システム内
でのチェックポイントを行うモジュール（チェックポイ
ント処理モジュール）を用意しておく。そして、該当処
理モジュールでの処理中に障害が発生した場合、予備の
処理モジュールの状態を最新のチェックポイントによっ
て記録した状態に設定し、引き続き処理を実行してい
た。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の障害回復方法では、起こるかどうか分からない障害
発生に備えて、システム内に予め予備の処理モジュール
を用意しておく必要があり、そのためのシステム資源が
必要であるという問題点があった。

【０００５】このような点から、システム資源の有効利
用を図ることのできる障害回復システムの実現が望まれ
ていた。

【０００６】

【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。〈請求項１の構成〉処理を依頼するクライアントモジュ
ールと、クライアントモジュールから依頼された処理を
実行すると共に、チェックポイント情報が通知された場
合は、このチェックポイント情報を元に、チェックポイ
ントまでに行われた処理以降の処理から実行するサーバ
モジュールと、サーバモジュールの処理中のチェックポ
イントを行うチェックポイントモジュールと、サーバモ
ジュールで障害が発生した場合、このサーバモジュール
と同一のサーバモジュールを生成すると共に、障害が発
生したサーバモジュールの最新のチェックポイント情報
をチェックポイントモジュールから取得し、このチェッ
クポイント情報を新たに生成したサーバモジュールに送
出するシステム管理モジュールとを備えたことを特徴と
する障害回復システムである。

【０００７】〈請求項１の説明〉クライアントモジュー
ルやサーバモジュール等は、例えば、別々のコンピュー
タ上に設けられた分散システムであるが、このような分
散システムに限定されるものではなく、同一のコンピュ
ータ上に設けられた非分散システムでも、クライアント
−サーバ型のシステムであれば同様に適用可能である。

【０００８】請求項１の発明では、通常運用時では、運
用系のサーバモジュールに対する予備系のサーバモジュ
ールは存在しない。そして、運用系のサーバモジュール
に障害が発生すると、システム管理モジュールは、予備
系のサーバモジュールを新たに生成する。また、チェッ
クポイントモジュールは、運用系のサーバモジュールの
チェックポイントを行っている。システム管理モジュー
ルは、運用系のサーバモジュールに障害が発生すると、
チェックポイントモジュールから最新のチェックポイン
ト情報を取得し、これを新たに生成したサーバモジュー
ルに送る。新たに生成されたサーバモジュールでは、受
け取ったチェックポイント情報に基づき、チェックポイ
ントまで行われた処理を省略して、それ以降の処理を実
行する。

【０００９】このように、あるサーバモジュールで障害
が発生してから同一のサーバモジュールを生成するた
め、予め障害回復用にサーバモジュールの冗長構成をと
る必要がなくなり、使用メモリを削減することができ、
システム資源の有効利用を図ることができる。

【００１０】また、チェックポイント情報により、障害
発生後のサーバ処理プログラムは最初からでなく、処理
の途中から開始できるため、処理時間の短縮を図ること
ができる。

【００１１】〈請求項２の構成〉請求項１において、サ
ーバに対して処理を要求し、一定時間内に応答を受け取
れなかった場合は、サーバの障害と判断し、システム管
理モジュールに対して障害発生を通知すると共に、シス
テム管理モジュールから新たなサーバモジュールの情報
を受け取った場合は、そのサーバモジュールに対して処
理を要求するクライアントモジュールと、クライアント
モジュールから障害発生の通知を受けた場合は、新たに
生成したサーバモジュールの情報を、クライアントモジ
ュールに通知するシステム管理モジュールとを備えたこ
とを特徴とする障害回復システムである。

【００１２】〈請求項２の説明〉請求項２の発明は、ク
ライアントモジュールがサーバモジュールの障害発生を
監視し、サーバから一定時間内に応答を受け取れなかっ
た場合は、サーバに障害が発生したと判断し、これをシ
ステム管理モジュールに通知するようにしたものであ
る。これにより、システム管理モジュールは、新たなサ
ーバモジュールを生成し、このサーバモジュールの情報
をクライアントモジュールに通知する。

【００１３】このような動作により、請求項２の発明で
は、請求項１の効果に加えて、クライアント−サーバ型
のシステムとして、確実な障害回復を行うことができる
効果を有している。

【００１４】

【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。《具体例》〈構成〉図１は本発明の障害回復システムの具体例を示
す構成図である。図示例では障害回復システムとして、
分散処理システムの例を示している。図の装置は、クラ
イアントモジュール１、サーバモジュール２ａ，２ｂ、
チェックポイントモジュール３、システム管理モジュー
ル４からなる。

【００１５】クライアントモジュール１は、処理の依頼
を行うモジュールであり、サーバモジュール２ａ，２ｂ
は、クライアントモジュール１からの処理依頼に対して
処理を実行するモジュールである。ここで、サーバモジ
ュール２ａは通常運用時（運用系）のモジュールであ
り、サーバモジュール２ｂは、サーバモジュール２ａの
障害発生時に新たに生成されるサーバモジュール２ａと
同一構成のモジュール（予備系のモジュール）である。
チェックポイントモジュール３は、サーバモジュール２
ａのチェックポイントを行うモジュールであり、システ
ム管理モジュール４はシステム全体の管理を行うモジュ
ールである。

【００１６】クライアントモジュール１は、処理依頼部
１１、サーバ選択部１２、応答監視部１３を備えてい
る。処理依頼部１１は、サーバ選択部１２からのサーバ
選択信号に基づき、いずれかのサーバモジュール２ａ，
２ｂに処理依頼を行う機能部である。サーバ選択部１２
は、システム管理モジュール４からのサーバ生成信号に
基づき、どちらのサーバモジュール２ａ，２ｂを処理依
頼のモジュールとして選択するかを決定する機能部であ
る。応答監視部１３は、処理依頼後にサーバモジュール
２ａ（２ｂ）からの応答を監視し、一定時間サーバモジ
ュール２ａ（２ｂ）から応答がなかった場合は障害発生
と判断し、これをシステム管理モジュール４に通知する
応答監視部１３から構成される。

【００１７】サーバモジュール２ａ，２ｂは、クライア
ントモジュール１からの処理依頼に対して、その処理を
実行するサーバ処理部２１ａ，２１ｂと、障害発生後に
要求された処理を最初からではなく、途中から開始でき
るように制御する再開処理部２２ａ，２２ｂとをそれぞ
れ備えている。

【００１８】チェックポイントモジュール３は、サーバ
処理部２１ａ（２１ｂ）の処理をチェックポイントし、
システム管理モジュール４に出力する機能部である。

【００１９】システム管理モジュール４は、障害監視部
４１、サーバモジュール生成部４２、チェックポイント
情報取得部４３からなる。障害監視部４１は、クライア
ントモジュール１の応答監視部１３からの情報に基づ
き、システム内のサーバモジュール２ａ（２ｂ）の障害
発生を監視する機能部である。サーバモジュール生成部
４２は、障害監視部４１が障害発生と判断した場合は、
障害が発生したサーバモジュール２ａと同一のサーバモ
ジュール２ｂを生成し、生成したサーバモジュール２ｂ
の情報をクライアントモジュール１のサーバ選択部１２
に通知する機能部である。また、チェックポイント情報
取得部４３は、チェックポイントモジュール３に保持さ
れているチェックポイント情報を取得し、その情報をサ
ーバモジュール２ｂの再開処理部２２ｂに送信する機能
を備えている。

【００２０】〈動作〉図２は、本具体例の障害回復シス
テムの動作を説明するためのシーケンスチャートであ
る。

【００２１】上記具体例の障害回復システムにおいて、
通常運用時では、予備系のサーバモジュール２ｂは存在
していない。

【００２２】先ず、クライアントモジュール１は、サー
バモジュール２ａに対して処理依頼を行う。サーバモジ
ュール２ａでは依頼された処理をサーバ処理部２１ａで
処理する。また、チェックポイントモジュール３によっ
てサーバモジュール２ａのチェックポイントが行われ、
このチェックポイント情報がチェックポイントモジュー
ル３内に格納される。

【００２３】クライアントモジュール１では、処理要求
依頼を出した後、サーバモジュール２ａからの応答の受
信を待つが、サーバモジュール２ａの処理中に障害が発
生した場合、応答を受信できない。一定時間内に応答を
受け取れなかった場合、クライアントモジュール１はサ
ーバモジュール２ａにおける障害と判断し、その旨をシ
ステム管理モジュール４の障害監視部４１に通知する。

【００２４】障害発生の通知を受けた障害監視部４１
は、サーバモジュール生成部４２に対して、サーバモジ
ュール２ａで障害が発生したことを通知する。サーバモ
ジュール生成部４２では、サーバモジュール２ａと同一
のサーバモジュール２ｂを生成し、チェックポイント情
報取得部４３に、障害発生モジュールがサーバモジュー
ル２ａであり、新たに生成したモジュールがサーバモジ
ュール２ｂであることを通知する。

【００２５】チェックポイント情報取得部４３では、チ
ェックポイントモジュール３からサーバモジュール２ａ
の最新のチェックポイント情報を取得し、その情報をサ
ーバモジュール２ｂの再開処理部２２ｂに送信し、サー
バモジュール生成部４２に処理が終了したことを通知す
る。これにより、サーバモジュール生成部４２ではサー
バモジュール２ｂのアドレスをクライアントモジュール
１のサーバ選択部１２に通知する。

【００２６】クライアントモジュール１は、サーバモジ
ュール２ｂに対して処理の依頼を出す。依頼を受けたサ
ーバモジュール２ｂは、サーバ処理部２１ｂを最初から
でなく、チェックポイントまでに行われた処理を省略し
た時点から開始する。そのために、再開処理部２２ｂ
は、受信したチェックポイント情報からサーバ処理部２
１ｂを開始する位置までジャンプさせ、データ情報を設
定してサーバ処理部２１ｂをその位置から開始させる。

【００２７】〈効果〉以上のように、本具体例によれ
ば、あるサーバモジュールで障害が発生してから同一の
サーバモジュールを生成するため、予め障害回復用にサ
ーバモジュールの冗長構成をとる必要がなくなり、使用
メモリを削減することができ、システム資源の有効利用
を図ることができる。

【００２８】また、チェックポイント情報により、障害
発生後のサーバ処理プログラムは最初からでなく、処理
の途中から開始できるため、処理時間の短縮を図ること
ができる。

【００２９】《利用形態》上記具体例では、障害回復シ
ステムとして分散システムに適用した例を示したが、非
分散システムでもクライアント−サーバ型のシステムで
あれば同様に適用可能である。また、具体例では、クラ
イアントモジュール１やチェックポイントモジュール３
をサーバモジュール２ａ，２ｂと区別しているが、これ
らのモジュールについても、別のモジュールからのサー
バモジュールと見なしてもよい。

【図面の簡単な説明】

【図１】本発明の障害回復システムの具体例の構成図で
ある。

【図２】本発明の障害回復システムの具体例の動作を説
明するためのシーケンスチャートである。

【符号の説明】

１クライアントモジュール２ａ、２ｂサーバモジュール３チェックポイントモジュール４システム管理モジュール

Claims

【特許請求の範囲】

【請求項１】処理を依頼するクライアントモジュール
と、前記クライアントモジュールから依頼された処理を実行
すると共に、チェックポイント情報が通知された場合
は、このチェックポイント情報を元に、チェックポイン
トまでに行われた処理以降の処理から実行するサーバモ
ジュールと、前記サーバモジュールの処理中のチェックポイントを行
うチェックポイントモジュールと、前記サーバモジュールで障害が発生した場合、このサー
バモジュールと同一のサーバモジュールを生成すると共
に、前記障害が発生したサーバモジュールの最新のチェ
ックポイント情報を前記チェックポイントモジュールか
ら取得し、このチェックポイント情報を前記新たに生成
したサーバモジュールに送出するシステム管理モジュー
ルとを備えたことを特徴とする障害回復システム。
【請求項２】請求項１において、サーバに対して処理を要求し、一定時間内に応答を受け
取れなかった場合は、前記サーバの障害と判断し、シス
テム管理モジュールに対して障害発生を通知すると共
に、前記システム管理モジュールから新たなサーバモジ
ュールの情報を受け取った場合は、そのサーバモジュー
ルに対して処理を要求するクライアントモジュールと、前記クライアントモジュールから障害発生の通知を受け
た場合は、新たに生成したサーバモジュールの情報を、
前記クライアントモジュールに通知するシステム管理モ
ジュールとを備えたことを特徴とする障害回復システ
ム。