JPH1125062A - 障害回復システム - Google Patents

障害回復システム

Info

Publication number
JPH1125062A
JPH1125062A JP9193242A JP19324297A JPH1125062A JP H1125062 A JPH1125062 A JP H1125062A JP 9193242 A JP9193242 A JP 9193242A JP 19324297 A JP19324297 A JP 19324297A JP H1125062 A JPH1125062 A JP H1125062A
Authority
JP
Japan
Prior art keywords
module
server
processing
checkpoint
server module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9193242A
Other languages
English (en)
Inventor
Mina Tsutsumi
美菜 堤
Hidenori Nakazato
秀則 中里
Hideki Arai
英樹 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9193242A priority Critical patent/JPH1125062A/ja
Publication of JPH1125062A publication Critical patent/JPH1125062A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 システム資源の有効利用を図ることのできる
障害回復システムを実現する。 【解決手段】 チェックポイントモジュール3は、サー
バモジュール2aのチェックポイントを行う。サーバモ
ジュール2aに障害が発生した場合、クライアントモジ
ュール1は、この障害発生をシステム管理モジュール4
に通知する。システム管理モジュール4は、この通知を
受け取ると、サーバモジュール2aと同一のサーバモジ
ュール2bを新たに生成する。また、サーバモジュール
2aの最新のチェックポイント情報をチェックポイント
モジュール3から取得し、このチェックポイント情報を
新たに生成したサーバモジュール2bに送る。サーバモ
ジュール2bでは、クライアントモジュール1から処理
依頼を受けた場合、チェックポイントまでに行われた処
理を省略した時点から処理を開始する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、クライアント・サ
ーバ型のシステムにおけるサーバの障害回復を行う障害
回復システムに関する。
【0002】
【従来の技術】あるモジュールが故障を起こした場合
に、故障を起こす以前の安定な状態へ該当モジュールの
状態を戻すために、各モジュールの安定な状態を該当モ
ジュールと異なるモジュールに記録する。このモジュー
ル状態を記録する動作を「チェックポイント」と呼ぶ。
チェックポイントは、各モジュールがそれぞれの判断に
より、該当モジュールの状態が安定している時期に、該
当モジュールが能動的に要求することによって行う。こ
の場合のモジュールの単位は、ある装置であったり、一
つのサービスを提供するプログラムであったり、また、
それらの集合であってもよい。例えば、このような技術
を示す文献として、“J.Grey他著、渡辺栄一訳「フォー
ルト・トレラント・システム」マグロウヒルブック”が
ある。
【0003】従来の障害回復方法としては、ある処理モ
ジュールでの障害発生に備えて、該当処理モジュールと
同様の処理を行う予備の処理モジュールと、システム内
でのチェックポイントを行うモジュール(チェックポイ
ント処理モジュール)を用意しておく。そして、該当処
理モジュールでの処理中に障害が発生した場合、予備の
処理モジュールの状態を最新のチェックポイントによっ
て記録した状態に設定し、引き続き処理を実行してい
た。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の障害回復方法では、起こるかどうか分からない障害
発生に備えて、システム内に予め予備の処理モジュール
を用意しておく必要があり、そのためのシステム資源が
必要であるという問題点があった。
【0005】このような点から、システム資源の有効利
用を図ることのできる障害回復システムの実現が望まれ
ていた。
【0006】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈請求項1の構成〉処理を依頼するクライアントモジュ
ールと、クライアントモジュールから依頼された処理を
実行すると共に、チェックポイント情報が通知された場
合は、このチェックポイント情報を元に、チェックポイ
ントまでに行われた処理以降の処理から実行するサーバ
モジュールと、サーバモジュールの処理中のチェックポ
イントを行うチェックポイントモジュールと、サーバモ
ジュールで障害が発生した場合、このサーバモジュール
と同一のサーバモジュールを生成すると共に、障害が発
生したサーバモジュールの最新のチェックポイント情報
をチェックポイントモジュールから取得し、このチェッ
クポイント情報を新たに生成したサーバモジュールに送
出するシステム管理モジュールとを備えたことを特徴と
する障害回復システムである。
【0007】〈請求項1の説明〉クライアントモジュー
ルやサーバモジュール等は、例えば、別々のコンピュー
タ上に設けられた分散システムであるが、このような分
散システムに限定されるものではなく、同一のコンピュ
ータ上に設けられた非分散システムでも、クライアント
−サーバ型のシステムであれば同様に適用可能である。
【0008】請求項1の発明では、通常運用時では、運
用系のサーバモジュールに対する予備系のサーバモジュ
ールは存在しない。そして、運用系のサーバモジュール
に障害が発生すると、システム管理モジュールは、予備
系のサーバモジュールを新たに生成する。また、チェッ
クポイントモジュールは、運用系のサーバモジュールの
チェックポイントを行っている。システム管理モジュー
ルは、運用系のサーバモジュールに障害が発生すると、
チェックポイントモジュールから最新のチェックポイン
ト情報を取得し、これを新たに生成したサーバモジュー
ルに送る。新たに生成されたサーバモジュールでは、受
け取ったチェックポイント情報に基づき、チェックポイ
ントまで行われた処理を省略して、それ以降の処理を実
行する。
【0009】このように、あるサーバモジュールで障害
が発生してから同一のサーバモジュールを生成するた
め、予め障害回復用にサーバモジュールの冗長構成をと
る必要がなくなり、使用メモリを削減することができ、
システム資源の有効利用を図ることができる。
【0010】また、チェックポイント情報により、障害
発生後のサーバ処理プログラムは最初からでなく、処理
の途中から開始できるため、処理時間の短縮を図ること
ができる。
【0011】〈請求項2の構成〉請求項1において、サ
ーバに対して処理を要求し、一定時間内に応答を受け取
れなかった場合は、サーバの障害と判断し、システム管
理モジュールに対して障害発生を通知すると共に、シス
テム管理モジュールから新たなサーバモジュールの情報
を受け取った場合は、そのサーバモジュールに対して処
理を要求するクライアントモジュールと、クライアント
モジュールから障害発生の通知を受けた場合は、新たに
生成したサーバモジュールの情報を、クライアントモジ
ュールに通知するシステム管理モジュールとを備えたこ
とを特徴とする障害回復システムである。
【0012】〈請求項2の説明〉請求項2の発明は、ク
ライアントモジュールがサーバモジュールの障害発生を
監視し、サーバから一定時間内に応答を受け取れなかっ
た場合は、サーバに障害が発生したと判断し、これをシ
ステム管理モジュールに通知するようにしたものであ
る。これにより、システム管理モジュールは、新たなサ
ーバモジュールを生成し、このサーバモジュールの情報
をクライアントモジュールに通知する。
【0013】このような動作により、請求項2の発明で
は、請求項1の効果に加えて、クライアント−サーバ型
のシステムとして、確実な障害回復を行うことができる
効果を有している。
【0014】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。 《具体例》 〈構成〉図1は本発明の障害回復システムの具体例を示
す構成図である。図示例では障害回復システムとして、
分散処理システムの例を示している。図の装置は、クラ
イアントモジュール1、サーバモジュール2a,2b、
チェックポイントモジュール3、システム管理モジュー
ル4からなる。
【0015】クライアントモジュール1は、処理の依頼
を行うモジュールであり、サーバモジュール2a,2b
は、クライアントモジュール1からの処理依頼に対して
処理を実行するモジュールである。ここで、サーバモジ
ュール2aは通常運用時(運用系)のモジュールであ
り、サーバモジュール2bは、サーバモジュール2aの
障害発生時に新たに生成されるサーバモジュール2aと
同一構成のモジュール(予備系のモジュール)である。
チェックポイントモジュール3は、サーバモジュール2
aのチェックポイントを行うモジュールであり、システ
ム管理モジュール4はシステム全体の管理を行うモジュ
ールである。
【0016】クライアントモジュール1は、処理依頼部
11、サーバ選択部12、応答監視部13を備えてい
る。処理依頼部11は、サーバ選択部12からのサーバ
選択信号に基づき、いずれかのサーバモジュール2a,
2bに処理依頼を行う機能部である。サーバ選択部12
は、システム管理モジュール4からのサーバ生成信号に
基づき、どちらのサーバモジュール2a,2bを処理依
頼のモジュールとして選択するかを決定する機能部であ
る。応答監視部13は、処理依頼後にサーバモジュール
2a(2b)からの応答を監視し、一定時間サーバモジ
ュール2a(2b)から応答がなかった場合は障害発生
と判断し、これをシステム管理モジュール4に通知する
応答監視部13から構成される。
【0017】サーバモジュール2a,2bは、クライア
ントモジュール1からの処理依頼に対して、その処理を
実行するサーバ処理部21a,21bと、障害発生後に
要求された処理を最初からではなく、途中から開始でき
るように制御する再開処理部22a,22bとをそれぞ
れ備えている。
【0018】チェックポイントモジュール3は、サーバ
処理部21a(21b)の処理をチェックポイントし、
システム管理モジュール4に出力する機能部である。
【0019】システム管理モジュール4は、障害監視部
41、サーバモジュール生成部42、チェックポイント
情報取得部43からなる。障害監視部41は、クライア
ントモジュール1の応答監視部13からの情報に基づ
き、システム内のサーバモジュール2a(2b)の障害
発生を監視する機能部である。サーバモジュール生成部
42は、障害監視部41が障害発生と判断した場合は、
障害が発生したサーバモジュール2aと同一のサーバモ
ジュール2bを生成し、生成したサーバモジュール2b
の情報をクライアントモジュール1のサーバ選択部12
に通知する機能部である。また、チェックポイント情報
取得部43は、チェックポイントモジュール3に保持さ
れているチェックポイント情報を取得し、その情報をサ
ーバモジュール2bの再開処理部22bに送信する機能
を備えている。
【0020】〈動作〉図2は、本具体例の障害回復シス
テムの動作を説明するためのシーケンスチャートであ
る。
【0021】上記具体例の障害回復システムにおいて、
通常運用時では、予備系のサーバモジュール2bは存在
していない。
【0022】先ず、クライアントモジュール1は、サー
バモジュール2aに対して処理依頼を行う。サーバモジ
ュール2aでは依頼された処理をサーバ処理部21aで
処理する。また、チェックポイントモジュール3によっ
てサーバモジュール2aのチェックポイントが行われ、
このチェックポイント情報がチェックポイントモジュー
ル3内に格納される。
【0023】クライアントモジュール1では、処理要求
依頼を出した後、サーバモジュール2aからの応答の受
信を待つが、サーバモジュール2aの処理中に障害が発
生した場合、応答を受信できない。一定時間内に応答を
受け取れなかった場合、クライアントモジュール1はサ
ーバモジュール2aにおける障害と判断し、その旨をシ
ステム管理モジュール4の障害監視部41に通知する。
【0024】障害発生の通知を受けた障害監視部41
は、サーバモジュール生成部42に対して、サーバモジ
ュール2aで障害が発生したことを通知する。サーバモ
ジュール生成部42では、サーバモジュール2aと同一
のサーバモジュール2bを生成し、チェックポイント情
報取得部43に、障害発生モジュールがサーバモジュー
ル2aであり、新たに生成したモジュールがサーバモジ
ュール2bであることを通知する。
【0025】チェックポイント情報取得部43では、チ
ェックポイントモジュール3からサーバモジュール2a
の最新のチェックポイント情報を取得し、その情報をサ
ーバモジュール2bの再開処理部22bに送信し、サー
バモジュール生成部42に処理が終了したことを通知す
る。これにより、サーバモジュール生成部42ではサー
バモジュール2bのアドレスをクライアントモジュール
1のサーバ選択部12に通知する。
【0026】クライアントモジュール1は、サーバモジ
ュール2bに対して処理の依頼を出す。依頼を受けたサ
ーバモジュール2bは、サーバ処理部21bを最初から
でなく、チェックポイントまでに行われた処理を省略し
た時点から開始する。そのために、再開処理部22b
は、受信したチェックポイント情報からサーバ処理部2
1bを開始する位置までジャンプさせ、データ情報を設
定してサーバ処理部21bをその位置から開始させる。
【0027】〈効果〉以上のように、本具体例によれ
ば、あるサーバモジュールで障害が発生してから同一の
サーバモジュールを生成するため、予め障害回復用にサ
ーバモジュールの冗長構成をとる必要がなくなり、使用
メモリを削減することができ、システム資源の有効利用
を図ることができる。
【0028】また、チェックポイント情報により、障害
発生後のサーバ処理プログラムは最初からでなく、処理
の途中から開始できるため、処理時間の短縮を図ること
ができる。
【0029】《利用形態》上記具体例では、障害回復シ
ステムとして分散システムに適用した例を示したが、非
分散システムでもクライアント−サーバ型のシステムで
あれば同様に適用可能である。また、具体例では、クラ
イアントモジュール1やチェックポイントモジュール3
をサーバモジュール2a,2bと区別しているが、これ
らのモジュールについても、別のモジュールからのサー
バモジュールと見なしてもよい。
【図面の簡単な説明】
【図1】本発明の障害回復システムの具体例の構成図で
ある。
【図2】本発明の障害回復システムの具体例の動作を説
明するためのシーケンスチャートである。
【符号の説明】
1 クライアントモジュール 2a、2b サーバモジュール 3 チェックポイントモジュール 4 システム管理モジュール

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 処理を依頼するクライアントモジュール
    と、 前記クライアントモジュールから依頼された処理を実行
    すると共に、チェックポイント情報が通知された場合
    は、このチェックポイント情報を元に、チェックポイン
    トまでに行われた処理以降の処理から実行するサーバモ
    ジュールと、 前記サーバモジュールの処理中のチェックポイントを行
    うチェックポイントモジュールと、 前記サーバモジュールで障害が発生した場合、このサー
    バモジュールと同一のサーバモジュールを生成すると共
    に、前記障害が発生したサーバモジュールの最新のチェ
    ックポイント情報を前記チェックポイントモジュールか
    ら取得し、このチェックポイント情報を前記新たに生成
    したサーバモジュールに送出するシステム管理モジュー
    ルとを備えたことを特徴とする障害回復システム。
  2. 【請求項2】 請求項1において、 サーバに対して処理を要求し、一定時間内に応答を受け
    取れなかった場合は、前記サーバの障害と判断し、シス
    テム管理モジュールに対して障害発生を通知すると共
    に、前記システム管理モジュールから新たなサーバモジ
    ュールの情報を受け取った場合は、そのサーバモジュー
    ルに対して処理を要求するクライアントモジュールと、 前記クライアントモジュールから障害発生の通知を受け
    た場合は、新たに生成したサーバモジュールの情報を、
    前記クライアントモジュールに通知するシステム管理モ
    ジュールとを備えたことを特徴とする障害回復システ
    ム。
JP9193242A 1997-07-03 1997-07-03 障害回復システム Pending JPH1125062A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9193242A JPH1125062A (ja) 1997-07-03 1997-07-03 障害回復システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9193242A JPH1125062A (ja) 1997-07-03 1997-07-03 障害回復システム

Publications (1)

Publication Number Publication Date
JPH1125062A true JPH1125062A (ja) 1999-01-29

Family

ID=16304702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9193242A Pending JPH1125062A (ja) 1997-07-03 1997-07-03 障害回復システム

Country Status (1)

Country Link
JP (1) JPH1125062A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123464A (ja) * 2006-11-16 2008-05-29 Hitachi Ltd リモートコンソール機構を備えたサーバシステム
JP2008293358A (ja) * 2007-05-25 2008-12-04 Fujitsu Ltd 分散処理プログラム、分散処理方法、分散処理装置、および分散処理システム
US7663280B2 (en) 2005-05-19 2010-02-16 Panasonic Corporation Spindle motor and disk drive device using the same
US9329952B2 (en) 2010-12-07 2016-05-03 International Business Machines Corporation Reducing application downtime during failover

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7663280B2 (en) 2005-05-19 2010-02-16 Panasonic Corporation Spindle motor and disk drive device using the same
JP2008123464A (ja) * 2006-11-16 2008-05-29 Hitachi Ltd リモートコンソール機構を備えたサーバシステム
JP2008293358A (ja) * 2007-05-25 2008-12-04 Fujitsu Ltd 分散処理プログラム、分散処理方法、分散処理装置、および分散処理システム
US9329952B2 (en) 2010-12-07 2016-05-03 International Business Machines Corporation Reducing application downtime during failover
US9329953B2 (en) 2010-12-07 2016-05-03 International Business Machines Corporation Reducing application downtime during failover

Similar Documents

Publication Publication Date Title
EP1533701B1 (en) System and method for failover
US6134673A (en) Method for clustering software applications
JP3253883B2 (ja) プロセスリスタート方法及びプロセス監視装置
US7213246B1 (en) Failing over a virtual machine
US7178050B2 (en) System for highly available transaction recovery for transaction processing systems
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US7620842B2 (en) Method for highly available transaction recovery for transaction processing systems
JP3154942B2 (ja) 分散チェックポイント生成方法および同方法が適用される計算機システム
US6978398B2 (en) Method and system for proactively reducing the outage time of a computer system
US7113980B2 (en) Exactly once JMS communication
US7146532B2 (en) Persistent session and data in transparently distributed objects
US20010056554A1 (en) System for clustering software applications
US20030158908A1 (en) Exactly once cache framework
US6629260B1 (en) Automatic reconnection of partner software processes in a fault-tolerant computer system
CN108989391B (zh) 一种一致性处理的方法及系统
CN114764380A (zh) 一种基于etcd的分布式集群控制方法和装置
EP2524302B1 (en) Persistent application activation and timer notifications
WO2025246814A1 (zh) 高可用数据管理
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JPH1125062A (ja) 障害回復システム
WO2003023633A1 (en) Exactly once cache framework
AU2002332845A1 (en) Exactly once cache framework
JPH0879246A (ja) 分散型通信システムおよびその障害回復方法
JPH07183891A (ja) 計算機システム
CN111563010B (zh) 一种基于双机冗余系统的数据同步方法、系统及存储介质