JPH08278909A - 高信頼化システムおよび方法 - Google Patents

高信頼化システムおよび方法

Info

Publication number
JPH08278909A
JPH08278909A JP7082175A JP8217595A JPH08278909A JP H08278909 A JPH08278909 A JP H08278909A JP 7082175 A JP7082175 A JP 7082175A JP 8217595 A JP8217595 A JP 8217595A JP H08278909 A JPH08278909 A JP H08278909A
Authority
JP
Japan
Prior art keywords
database
module
log information
processor
checkpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7082175A
Other languages
English (en)
Inventor
Masanori Hirano
正則 平野
Tsunemichi Shiozawa
恒道 塩澤
Yasuo Kinouchi
康夫 木ノ内
Takashi Suzuki
孝至 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7082175A priority Critical patent/JPH08278909A/ja
Publication of JPH08278909A publication Critical patent/JPH08278909A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】同一地点内またはノード相互において、相手方
プロセッサまたは相手方ノードの障害時に、自分のトラ
ンザクション処理に影響を与えることなく、障害のプロ
セッサまたはノードに対するトランザクション処理をバ
ックアップし、高信頼化を保証しながら、システム全体
の経済化を図る。 【構成】各モジュールのプロセッサの使用率が50%以
下となるようにデータベースを割り当て、障害となった
モジュールの半導体ファイル装置からチェックポイント
データベースを読み出し、チェックポイント時点後のロ
グ情報に従ってデータベースを復元し、障害となったモ
ジュールのトランザクション処理を再開する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、2台のモジュールのう
ち一方が障害となった場合でも、トランザクション処理
に影響を及ぼすことなく、障害となったモジュールに対
するトランザクション処理をバックアップして、システ
ムの高信頼化を保証しながら、システムの経済化を図る
ことができる高信頼化システムおよび高信頼化方法に関
する。
【0002】
【従来の技術】オンラインリアルタイム処理とは、デー
タが発生する都度、その場で端末から入力し、通信回線
を通してコンピュータシステムに入力して即時処理し、
その結果を端末等に応答する処理方式である。オンライ
ンリアルタイムシステムは、銀行におけるバンキングシ
ステム、列車等の座席予約システム等で使用されている。
トランザクションとは、オンラインリアルタイムシステ
ムにおいて、コンピュータシステムに対して端末等から
処理を要求してくる単位のことである。従来、トランザ
クション処理の高信頼化方法としては、プロセッサを2
台設けて、そのうちの1台のプロセッサで全トランザク
ションの処理を行い(以下、このプロセッサをアクトプ
ロセッサと記す)、残りの1台を予備として待機させる
(以下、このプロセッサをスタンバイプロセッサと記
す)方法が一般に採用されている。この方法では、アク
トプロセッサが障害になった場合、スタンバイプロセッ
サが半導体ファイル装置からチェックポイントデータベ
ースとログ情報を読み出し、これらの情報によりアクト
プロセッサが障害になった時点のデータベースを復元し
て、トランザクション処理を再開する。しかしながら、
再開処理の間、全てのトランザクション処理が中断され
るという問題がある。また、この方法では、地震、水害
等の大規模災害時には、システム(ノード)全体の機能
が停止してしまう。このような場合でも、トランザクシ
ョン処理を継続させるためには、遠隔地点にも予備のプ
ロセッサを設置することが必要であり、遠隔地点に2台
のプロセッサを設置して待機させておくと、全体で4台
のプロセッサを設置しながら、実際にトランザクション
処理のために稼働するプロセッサは1台だけであるた
め、高信頼のための設備費が膨大になるという問題があ
る。
【0003】図8は、従来のノード内のアクト−スタン
バイプロセッサによるバックアップシステムの接続構成
図である。図8において、1,2はプロセッサ、3は半
導体ファイル装置、4は通信制御装置(CCU)、5
5,56はそれぞれプロセッサ1,2と通信制御装置4
を接続する信号線、57,58はそれぞれプロセッサ
1,2と半導体ファイル装置3を接続する信号線、59
はプロセッサ1とプロセッサ2を接続する信号線、60
はトランザクションが送られてくる通信回線である。一
方のプロセッサ1は、アクトプロセッサとしてトランザ
クション処理を行い、他方のプロセッサ2はスタンバイ
プロセッサとして待機しているものとする。通信回線6
0から入力されたトランザクションは通信制御装置4で
受信され、信号線55を介してプロセッサ1に入力され
る。プロセッサ1は主メモリ上にデータベースを有して
おり、このデータベースの内容に従ってトランザクショ
ン処理を行うとともに、データベースの更新を行う。デ
ータベースの更新を行った場合、そのデータベース内の
アドレスおよび更新データをログ情報として信号線57
を介して半導体ファイル装置3に書き込む。さらに、ト
ランザクションへの応答を信号線55を介して通信制御
装置4に送出する。このようにして、逐次、通信回線6
0を介して送られてきるトランザクションは処理され
る。プロセッサ1は、予め決められた周期で、主メモリ
上のデータベースを半導体ファイル装置3にチェックポ
イント情報として格納する。
【0004】図9は、従来のノード間バックアップ方法
を説明するための接続構成図である。図9において、1
000は地点A(例えば、東京)のノード、2000は
地点B(例えば、大阪)に設置されたバックアップノー
ドである。地点Aと地点Bは遠隔地に位置しており、地
点Aで地震、水害等の災害によりノード1000全体が
障害となった場合には、地点Bでバックアップが可能で
ある。なお、ノード1000内の1〜10は図8の符号
と同じものを示し、ノード2000内の101〜110
はそれぞれ図8の1〜10と同じものである。3000
は、ノード1000内の通信制御装置4とノード200
0内の通信制御装置104とを接続する信号線である。
ノード1000内のプロセッサ1はアクトプロセッサと
してトランザクション処理を行い、プロセッサ2はスタ
ンバイプロセッサとして、プロセッサ1が障害となった
場合に、トランザクション処理をバックアップするため
に待機している。ノード2000のプロセッサ101は
主メモリ上にプロセッサ1のデータベースを有してお
り、トランザクション処理は行わないが、プロセッサ1
から信号線55、通信制御装置4、通信回線3000、
通信制御装置104、信号線405を介して送られてく
るデータベース更新のログ情報により、主メモリ内のデ
ータベースを更新するとともに、信号線407を介して
半導体ファイル装置103にもログ情報を書き込む。ま
た、予め決められた周期で、主メモリ上のデータベース
をチェックポイント情報として半導体ファイル装置10
3に書き込む。プロセッサ102はプロセッサ101が
障害となった場合、これをバックアップするために待機
している。
【0005】
【発明が解決しようとする課題】このように、従来、図
8に示すようなノード内のバックアップ方法を採用する
とともに、図9に示すようなノード間のバックアップ方
法を採用していた。しかしながら、図8および図9のバ
ックアップ方法では、次のような問題がある。すなわ
ち、図8においては、プロセッサ1が障害になった場
合、スタンバイプロセッサ2で処理を再開するため、プ
ロセッサ1は障害である旨を信号線59を介してスタン
バイプロセッサ2に通知する。この通知を受信したプロ
セッサ2は、半導体ファイル装置3からチェックポイン
トデータベースを主メモリ上に読み出し、その後、ログ
情報によりチェックポイント時点からのデータベースの
更新内容を上書きする。これにより、プロセッサ2の主
メモリには、プロセッサ1が障害になった時点のデータ
ベースが復元される。データベースの復元が終了する
と、プロセッサ2は信号線56を介して通信制御装置4
に通知する。通信制御装置4は、送られてきたトランザ
クションを信号線56を介してプロセッサ2に送り、プ
ロセッサ2によりトランザクション処理が再開される。
この方法では、プロセッサ2が再開処理を行っている
間、全てのトランザクション処理が中断されるという問
題がある。
【0006】次に、図9においては、ノード1000で
大規模災害が生じ、このためトランザクション処理が不
可能となった場合、図示されていないが、通信回線6
0、110に接続され、これらのノードが正常か否かを
監視するための管理ノードにより障害が検出され、トラ
ンザクション送出元に対してノード1000が障害であ
る旨を通知する。以後、トランザクションは通信回線4
10を介してノード2000に送られ、プロセッサ10
1で処理される。しかし、このような大規模災害時に
も、トランザクション処理を可能とするためには、図9
に示すように4台のプロセッサを設置しながら、実際に
トランザクション処理のために稼働するのは1台のプロ
セッサのみであり、高信頼化のための設備コスト負担は
極めて大となるという問題がある。
【0007】本発明の目的は、このような従来の課題を
解決し、障害処理中にかけるトランザクション処理での
影響範囲を極力少なくするとともに、モジュール全体と
しての高信頼化を図ることができ、また異なる2地点で
のノード相互のバックアップのためのプロセッサ使用率
の余裕を共用することができる高信頼化システムおよび
方法を提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明による高信頼化システムは、プロセッサと
該プロセッサによりアクセスされる半導体ファイル装置
とを備えたモジュールを2台設置し、データベースを用
いてトランザクション処理を行う高信頼の情報処理シス
テムにおいて、各モジュールのプロセッサの使用率が5
0%以下となるように、各モジュールに割り当てられた
データベースを格納する主メモリと、各モジュールが障
害となり、自ら回復処理を実施したが、回復できないこ
とが判明したとき、その旨を他モジュールに通知する障
害通知手段と、該障害通知手段により通知を受けると、
各モジュールが相互に他モジュールの半導体ファイル装
置をアクセスして、チェックポイント時点のデータベー
スを上記主メモリに読み出すとともに、該チェックポイ
ント時点後のログ情報を読み出し、上記データベースに
上書きして、障害時点の他モジュールのデータベースを
復元する中央処理手段とを有することを特徴としてい
る。
【0009】また、本発明による高信頼化方法は、プ
ロセッサと該プロセッサによりアクセスされる半導体フ
ァイル装置とを備えたモジュールを2台設置し、データ
ベースを用いてトランザクション処理を行う高信頼化方
法において、使用率が50%以下となるように、分割さ
れたデータベースが割り当てられた各モジュールは、割
り当てられた全てのデータベースを主メモリに格納し、
該データベースを用いてトランザクション処理を行い、
該データベースの更新を主メモリ上で行うとともに、該
データベースの更新履歴をログ情報として上記半導体フ
ァイル装置に書き込み、かつ予め決められたチェックポ
イントで主メモリ上の全てのデータベースをチェックポ
イント情報として該半導体ファイル装置に書き込み、ト
ランザクション処理中に障害となったモジュールは、半
導体ファイル装置からチェックポイント時点のデータベ
ースを主メモリ上に読み出すとともに、該チェックポイ
ント時点後のログ情報を読み出して、該ログ情報で上記
データベース上に上書きし、障害時点のデータベースを
復元して、トランザクション処理を再開するが、再度障
害となった場合には、同じ処理を繰り返して、予め決め
られた回数の再開処理を行っても回復しない場合には、
固定障害であることを2台のうちの正常なモジュールに
通知し、該正常なモジュールは、プロセッサの50%の
使用率で自モジュールに対するトランザクション処理を
行いながら、残りの50%の使用率で障害となったモジ
ュールの半導体ファイル装置からチェックポイント時点
のデータベースを主メモリ上に読み出し、該チェックポ
イント時点後のログ情報を読み出して、該ログ情報で上
記データベースに上書きし、障害となった時点の他モジ
ュールのデータベースを復元して、他モジュールのデー
タベースに対するトランザクション処理も処理すること
を特徴としている。
【0010】また、2台のモジュールを異なる2地点
A,Bに設置し、それぞれ分散してトランザクション処
理を行い、地点Aの第1のモジュールと地点Bの第1の
モジュールは相互に相手モジュールのデータベースを備
え、自モジュールのデータベースのログ情報を通信回線
を介して送信し、該ログ情報を受信したモジュールは、
相手モジュールのデータベースを更新し、地点Aの第2
のモジュールと地点Bの第2のモジュールも上記と同じ
処理を行い、A,Bいずれかの地点で1台のモジュール
が障害となった場合には、同一地点の正常なモジュール
が障害となったモジュールのトランザクション処理を継
続し、A,Bいずれかの地点で2台のモジュールが同時
に障害となった場合には、他地点の2台のモジュール
が、障害となった地点の2台のモジュールのトランザク
ション処理を継続することも特徴としている。
【0011】
【作用】本発明においては、2台のモジュールがプロセ
ッサの使用率50%以内で自モジュールに対するトラン
ザクション処理を行い、いずれか一方のモジュールが障
害となった場合には、正常なモジュールはプロセッサの
50%の使用率で自モジュールに対するトランザクショ
ン処理を行いながら、残りの50%の使用率で障害とな
ったモジュールの半導体ファイル装置からチェックポイ
ント時点のデータベースおよびログ情報を読み出し、他
モジュールが障害となった時点のデータベースを復元
し、他モジュールに対するトランザクション処理を肩代
りする。これにより、障害処理中におけるトランザクシ
ョン処理に対する影響を少なくでき、かつモジュール全
体の高信頼化を図ることができる。また、異なる2地点
にそれぞれ2台のモジュールを設置し、それぞれ独立に
プロセッサの使用率50%以内で自モジュールに対する
トランザクション処理を行い、地点の異なるモジュール
間では、相互に相手モジュールのデータベースを持ち合
い、データベースの更新履歴をログ情報として通信回線
を介して送り、地点の異なる2モジュール間での相互バ
ックアップを可能としている。この時、同一地点内での
モジュール間相互バックアップと異なる2地点間でのノ
ード間相互バックアップのためのプロセッサ使用率の余
裕を共用することにより、効率のよい高信頼化方法を実
現することができる。
【0012】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の第1の実施例を示すトラン
ザクション処理の高信頼化システムの構成図である。図
1において、1,2はモジュール、3,4はそれぞれモ
ジュール1,2内のプロセッサ、5,6はそれぞれモジ
ュール1,2内の半導体ファイル装置、7,8はそれぞ
れプロセッサ3,4内の中央処理装置であって、命令の
実行、入出力処理を行うものである。また、9,10は
それぞれプロセッサ3,4内の主メモリ、11,12は
それぞれプロセッサ3,4内の障害検出・通知装置、1
3,14はそれぞれ主メモリ9,10に記憶されている
データベース、15,16はそれぞれ半導体ファイル
5,6に記憶されているチェックポイント時点のデータ
ベース、17,18はそれぞれ半導体ファイル装置5,
6に記憶されているログ情報、19は通信回線26を介
してトランザクションを受信する通信制御装置である。
また、24,25は受信したトランザクションをそれぞ
れ中央処理装置7,8に送る信号線、20,21はそれ
ぞれ中央処理装置7,8と半導体ファイル装置5,6と
を接続する信号線、22,23はそれぞれ中央処理装置
7,8と半導体ファイル装置6,5とを接続する信号
線、27は障害検出・通知装置11,12間を接続する
信号線、28,29はそれぞれ中央処理装置7,8と主
メモリ9,10とを接続する信号線、30,31はそれ
ぞれ中央処理装置7,8と障害検出・通知装置11,1
2間を接続する信号線である。
【0013】図2は、本発明の各モジュールのプロセッ
サの通常動作および障害検出時動作の各フローチャート
である。図1において、通信回線26を介して送られて
きたトランザクションは、通信制御装置19で受信され
る。通信制御装置19は、当該トランザクションがモジ
ュール1内のデータベース13で処理されるものであれ
ば、信号線24を介して中央処理装置7に送られ、また
モジュール2内のデータベース14で処理されるもので
あれば、信号線25を介して中央処理装置8に送られ
る。以下、当該トランザクションがモジュール1内のデ
ータベース13で処理されるものとして説明する。図2
に示すように、中央処理装置7に送られたトランザクシ
ョンは、データベース13に従って処理された後(ステ
ップ301,302)、信号線28を介して主メモリ9
にアクセスされ、データベース13の内容が書き換えら
れる(ステップ303)。また、中央処理装置7は、書
き換えたデータベース13のアドレスおよび書き換え内
容を信号線20を介して半導体ファイル装置5のログ情
報17にも書き込む(ステップ304)。その後、中央
処理装置7は当該トランザクションへの応答を信号線2
4を介して通信制御装置(CCU)19に送ると(ステ
ップ305)、通信制御装置19は通信回線26を介し
てトランザクション送出元に当該トランザクションへの
応答を送る。同じように、通信回線26を介して送られ
てくるトランザクションは、モジュール1またはモジュ
ール2で処理される。この場合、モジュール1,2に
は、プロセッサ3,4の使用率が50%以下となるよう
にデータベース13,14の量が調整されて格納されて
いる。また、中央処理装置7,8は、予め決められた周
期でデータベース13,14の内容をチェックポイント
情報として、信号線20,21を介して半導体ファイル
装置5,6のチェックポイントデータベースエリア1
5,16に書き込む。
【0014】図1、図2において、トランザクションが
上述のように処理されている途中で、モジュール1が障
害なり、この障害をプロセッサ3内の障害検出・通知装
置11で検出したとする(ステップ311)。障害検出
・通知装置11は、信号線30を介して中央処理装置7
をリセットする(ステップ313)。これにより、中央
処理装置7は、プログラムを最初から開始し、信号線2
8を介して主メモリ9の内容を初期化し(ステップ31
4)、信号線20を介して半導体ファイル装置5内のチ
ェックポイントデータベース15を主メモリ9のデータ
ベース格納エリア13に読み出す(ステップ315)。
さらに、中央処理装置7は、信号線20を介して半導体
ファイル装置5に格納されているログ情報17を読み出
し、このログ情報に従って主メモリ9上のデータベース
13を書き換える(ステップ316)。チェックポイン
ト時点からの全ログ情報について上記処理が終了すると
(ステップ317)、主メモリ9上のデータベース13
は、障害が検出された直前の内容となる。このようにし
て、データベース13が復元されると、再びモジュール
1でのトランザクション処理が再開される(ステップ3
18)。データベース13の回復中に再度プロセッサ3
が障害になると、それを障害検出・通知装置11が検出
し、前述と同じデータベース回復処理を行う。障害検出
・通知装置11は予め決められた回数だけ障害を検出す
ると(ステップ312)、プロセッサ3が固定障害であ
るとみなして、信号線27を介してその旨をモジュール
2内の障害検出・通知装置12に通知する(ステップ3
19)。障害検出・通知装置12は、信号線31を介し
て中央処理装置8にモジュール1が固定障害であること
を通知する。
【0015】図3は、本発明による相手方障害時のモジ
ュールのプロセッサの動作フローチャートである。中央
処理装置8は、信号線23を介して半導体ファイル装置
5からチェックポイントデータベース15を主メモリ1
0に読み出す(ステップ321)。次に、中央処理装置
8は、信号線23を介して半導体ファイル装置5に格納
されているログ情報17を読み出し(ステップ32
2)、このログ情報に従って、主メモリ10に読み出し
たチェックポイントデータベース15を書き換える(ス
テップ323)。チェックポイント時点からの全ログ情
報について上記処理が終了すると(ステップ324)、
主メモリ10上にはモジュール1の障害直前のデータベ
ースが復元される。中央処理装置8は、信号線25を介
して通信制御装置(CCU)19にモジュール1のデー
タベースが復元されたことを通知する(ステップ32
5)。通信制御装置19は、モジュール1で処理される
トランザクションも信号線25を介して中央処理装置8
に送る(ステップ326)。これにより、モジュール1
に対するトランザクション処理は、モジュール2で再開
される。モジュール2は、プロセッサの使用率50%以
内で自モジュールに対するトランザクション処理を行う
とともに、残りの50%の使用率で上述のモジュール1
のデータベースの復元を行い、次にモジュール1に対す
るトランザクション処理を行う(ステップ327)。こ
のようにして、プロセッサ3,4がそれぞれプロセッサ
の使用率50%以内でトランザクション処理を半分ずつ
分担して処理を行うことにより、いずれか一方のプロセ
ッサが障害となった場合でも、相互にバックアップが可
能となる。また、いずれか一方のモジュールが障害とな
り、当該モジュールのデータベースを復元中でも、正常
なモジュールのトランザクション処理は影響を受けない
ため、全体のトランザクション処理への影響は少なくて
すむという利点がある。
【0016】図4は、本発明の第2の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図4において、1〜31の符号は図1と同じものを示
す。32,33はそれぞれ半導体ファイル装置5,6に
格納されているプロセッサ4,3内のデータベース1
4,13のチェックポイントデータベース、34,35
はそれぞれ半導体ファイル装置5,6に格納されている
ログ情報である。図1の実施例と異なる点は、プロセッ
サ3でトランザクション処理を行った場合、ログ情報を
半導体ファイル装置5内のエリア17のみでなく、半導
体ファイル装置6内のエリア35にも格納すること、お
よびプロセッサ3内のデータベース13のチェックポイ
ントデータベースを半導体ファイル装置5内のエリア1
5のみでなく、半導体ファイル装置6内のエリア33に
も格納することである。また、同じように、プロセッサ
4からのログ情報は半導体ファイル装置5,6のエリア
18,34に格納され、チェックポイントデータベース
は半導体ファイル装置6,5のエリア16,32に格納
される。このように、ログ情報とチェックポイントデー
タベースを2台の半導体ファイル装置5,6に二重化し
て格納することにより、どちらかの半導体ファイル装置
が障害となって、ログ情報およびチェックポイントデー
タベースが失われたとしても、正常な半導体ファイル装
置からログ情報およびチェックポイントデータベースを
読み出して再開処理を行うことが可能となり、信頼性を
より一層向上できる。
【0017】図5は、本発明の第3の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図5において、符号1〜31は図1の実施例と同じもの
を示している。36,37はそれぞれモジュール1,2
内に設けられた2台目の半導体ファイル装置、38,3
9はそれぞれ半導体ファイル装置36,37内のチェッ
クポイントデータベース、40,41はそれぞれ半導体
ファイル装置37,38内のログ情報である。図5の実
施例が図1の実施例と異なる点は、モジュール1,2内
にそれぞれ半導体ファイル装置を2台設け、チェックポ
イントデータベースおよびログ情報を2台の半導体ファ
イル装置36,37に二重化して格納することである。
これにより、半導体ファイル装置の1台が障害となり、
チェックポイントデータベースおよびログ情報が失われ
たとしても正常な半導体ファイル装置からチェックポイ
ントデータベースおよびログ情報を読み出して再開処理
を行うことが可能となり、信頼性を一層向上させること
ができる。
【0018】図6は、本発明の第4の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図6において、符号1〜31および36〜41は図5の
実施例と同じものを示している。42はプロセッサ3が
半導体ファイル装置6に格納したチェックポイントデー
タベース、43はプロセッサ3が半導体ファイル装置6
に格納したログ情報である。図6においては、図5の状
態でトランザクション処理を行っているとき、半導体フ
ァイル装置5が障害となり(×で示す)、半導体ファイ
ル装置5内のチェックポイントデータベース15および
ログ情報17が失われたため、プロセッサ3が半導体フ
ァイル装置6にチェックポイントデータベース42およ
びログ情報43を格納した場合を示している。このよう
に、いずれか一方のモジュールの半導体ファイル装置の
1台が故障した場合、他モジュールの半導体ファイル装
置にチェックポイントデータベースおよびログ情報を書
き込むことにより、常にチェックポイントデータベース
およびログ情報が半導体ファイル装置に二重化して格納
されるため、全体としての信頼性をより一層向上でき
る。
【0019】図7は、本発明の第5の実施例を示すトラ
ンザクション処理のノード間における高信頼化システム
の構成図である。図7において、1000は地点A(例
えば、東京)のノード、2000は地点B(例えば、大
阪)のノードである。地点Aと地点Bは離れた場所に位
置し、いずれかの地点で地震、水害等の災害によりノー
ド全体が障害となった場合に、他の正常なノードが障害
になったノードのバックアップを可能とするものであ
る。ノード1000内で、符号1〜31は図1と同じも
のを示し、ノード2000内の101〜131はそれぞ
れ図1の1〜31と同じものを示している。201,2
02は、それぞれプロセッサ103,3のデータベース
113、13のコピーデータベース、203,204は
それぞれプロセッサ104,4のデータベース114,
14のコピーデータベース、205,206はプロセッ
サ3,103のコピーデータベース201,202を予
め決められた周期で半導体ファイル装置5,105に格
納したチェックポイントデータベース、209,210
はプロセッサ4,104のコピーデータベース203,
204を予め決められた周期で半導体ファイル装置6,
106に格納したチェックポイントデータベース、20
7,208はプロセッサ3,103のコピーデータベー
ス201,202の更新履歴を半導体ファイル装置5,
105に格納したログ情報、211,212はプロセッ
サ4,104のコピーデータベース203,204の更
新履歴を半導体ファイル装置6,106に格納したログ
情報である。3000は、通信制御装置19と通信制御
装置119間を接続する通信回線である。
【0020】図7において、プロセッサ3,4,10
3,104はそれぞれデータベース13,14,11
3,114を用い、プロセッサの使用率50%以内でト
ランザクション処理を行う。ノード1000内では、モ
ジュール1とモジュール2とが相互バックアップ状態に
あり、ノード2000内ではモジュール101とモジュ
ール102とが相互バックアップ状態にある。各ノード
でのトランザクション処理および各ノード内で1台のモ
ジュールが障害となった場合のモジュール間のバックア
ップ処理は、図1において説明した通りである。ここで
は、ノード間のバックアップ処理について、図7により
説明する。ノード1000のモジュール1とノード20
00のモジュール101、ノード1000のモジュール
2とノード2000のモジュール102とが、相互バッ
クアップ状態にある。ノード1000の中央処理装置7
は、データベース13に対するトランザクション処理を
行うとともに、予め決められた周期でログ情報17を信
号線20を介して半導体ファイル装置5から読み出し、
信号線24を介して通信制御装置19に送る。通信制御
装置19は、ログ情報を通信回線3000を介して通信
制御装置119に送る。通信制御装置119は、ログ情
報を通信回線124を介して中央処理装置107に送
る。
【0021】中央処理装置107は、送られたログ情報
をもとにコピーデータベース202を書き換える。ま
た、中央処理装置107は、送られたログ情報を信号線
120を介して半導体ファイル装置105のログ情報格
納エリア208に書き込む。プロセッサ109のコピー
データベース202は、中央処理装置107の制御のも
とに、予め決められた周期で信号線120を介して半導
体ファイル装置105のチェックポイントデータベース
格納エリア206に書き込まれる。全く同じように、ノ
ード2000のプロセッサ103のデータベース113
は、ノード1000のプロセッサ3内のコピーデータベ
ース201に復元され、さらに半導体ファイル装置5内
にコピーデータベース201のチェックポイントデータ
ベース205およびログ情報207が格納される。以
上、ノード1000内のモジュール1とノード2000
内のモジュール101のデータベースを相互に送り合っ
て、相手モジュールのデータベースのコピーを主メモリ
に復元する方法、およびチェックポイントデータベー
ス、ログ情報を半導体ファイル装置に格納する方法につ
いて述べた。全く同じようにして、ノード1000内の
モジュール2とノード2000内のモジュール102
は、相互バックアップ状態にある。
【0022】このような状態で、ノード2000が地
震、水害等の災害によりトランザクション処理が停止す
ると、図7では図示省略されているが、通信回線26,
126に接続され、これらのノードが正常か否かを監視
する管理ノードにより障害が検出されるので、管理ノー
ドによりトランザクション送出元にノード2000が障
害である旨を通知する。以後、トランザクションは、通
信回線26を介してノード1000に送られる。トラン
ザクションを受信した通信制御装置19は、信号線2
4,25を介して中央処理装置7,8に通知する。中央
処理装置7は、50%の使用率で自モジュールへのトラ
ンザクション処理を行うとともに、残りの50%のプロ
セッサ使用率でモジュール101に対するトランザクシ
ョン処理もデータベース201を用いて処理する。中央
処理装置8も、同じように50%のプロセッサ使用率で
自モジュールに対するトランザクション処理を行いなが
ら、残りの50%のプロセッサ使用率でモジュール10
2に対するトランザクションをデータベース203を用
いて処理する。各モジュールは、正常時にはプロセッサ
の使用率50%以内で自モジュールに対するトランザク
ション処理を行いながら、残りの50%のプロセッサ使
用率により、 同一ノード内のモジュール障害時には、正常なモジュ
ールが障害となったモジュールのトランザクション処理
をバックアップし、 ノード全体が障害時には、正常なノードの2台のモジ
ュールが障害となったノードの2台のモジュールに対す
るトランザクション処理をバックアップする。このよう
に、ノード内でのモジュール間相互バックアップと、ノ
ード間での相互バックアップのためのプロセッサの使用
率の余裕を共用することにより、高い信頼度を維持した
まま、経済的にシステムを構成することができる。
【0023】
【発明の効果】以上説明したように、本発明によれば、
同一地点内の2台のモジュールによる相互バックアップ
では、いずれか一方のモジュールが障害となったとき、
正常なモジュールで処理していたトランザクション処理
に影響を与えることなく、障害となったモジュールに対
するトランザクション処理をバックアップできる。ま
た、地震、水害等の大規模災害に対して、システム全体
として高信頼化を図るためには、異なる2地点間での相
互バックアップが必要となるが、ノード内のモジュール
間相互バックアップのためのプロセッサ使用率の余裕と
ノード間相互バックアップのためのプロセッサ使用率の
余裕を共用することにより、システムの高信頼化を保証
しながら、システム全体としての経済化を図ることがで
きる。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
【図2】図1におけるアクトプロセッサの正常時動作お
よび障害時動作のフローチャートである。
【図3】図1におけるスタンバイプロセッサの障害時動
作のフローチャートである。
【図4】本発明の第2の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
【図5】本発明の第3の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
【図6】本発明の第4の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
【図7】本発明の第5の実施例を示すトランザクション
処理のノード間の高信頼化システムの構成図である。
【図8】従来のトランザクション処理の高信頼化システ
ムの構成図である。
【図9】従来のトランザクション処理のノード間の高信
頼化システムの構成図である。
【符号の説明】
1,2…モジュール、3,4…プロセッサ、5,6…半
導体ファイル装置、7,8…中央処理装置、9,10…
主メモリ、11,12…障害検出・通知装置、13,1
4…データベース、15,16…チェックポイントデー
タベース、17,18…ログ情報、19…通信制御装
置、26…通信回線、20〜25,27…信号線、3
2,33…半導体ファイル装置内の相手方チェックポイ
ントデータベース、34,35…半導体ファイル装置内
の相手方ログ情報、36,37…他の半導体ファイル装
置、38,39…他の半導体ファイル装置内のチェック
ポイントデータベース、40,41…他の半導体ファイ
ル装置内のログ情報、42,43…相手方のチェックポ
イントデータベース、およびログ情報、101,102
…モジュール、103,104…プロセッサ、105,
106…半導体ファイル装置、107,108…中央処
理装置、109,110…主メモリ、111,112…
障害検出・通知装置、113,114,115,116
…チェックポイントデータベース、202,204,1
17,118…ログ情報。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 孝至 東京都千代田区内幸町1丁目1番6号 日 本電信電話株式会社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】プロセッサと該プロセッサによりアクセス
    される半導体ファイル装置とを備えたモジュールを2台
    設置し、データベースを用いてトランザクション処理を
    行う高信頼の情報処理システムにおいて、 各モジュールのプロセッサの使用率が50%以下となる
    ように、各モジュールに割り当てられたデータベースを
    格納する主メモリと、 各モジュールが障害となり、自ら回復処理を実施した
    が、回復できないことが判明したとき、その旨を他モジ
    ュールに通知する障害通知手段と、 該障害通知手段により通知を受けると、各モジュールが
    相互に他モジュールの半導体ファイル装置をアクセスし
    て、チェックポイント時点のデータベースを上記主メモ
    リに読み出すとともに、該チェックポイント時点後のロ
    グ情報を読み出し、上記データベースに上書きして、障
    害時点の他モジュールのデータベースを復元する中央処
    理手段とを有することを特徴とする高信頼化システム。
  2. 【請求項2】プロセッサと該プロセッサによりアクセス
    される半導体ファイル装置とを備えたモジュールを2台
    設置し、データベースを用いてトランザクション処理を
    行う高信頼化方法において、 使用率が50%以下となるように、分割されたデータベ
    ースが割り当てられた各モジュールは、割り当てられた
    全てのデータベースを主メモリに格納し、該データベー
    スを用いてトランザクション処理を行い、該データベー
    スの更新を主メモリ上で行うとともに、該データベース
    の更新履歴をログ情報として上記半導体ファイル装置に
    書き込み、かつ予め決められたチェックポイントで主メ
    モリ上の全てのデータベースをチェックポイント情報と
    して該半導体ファイル装置に書き込み、 トランザクション処理中に障害となったモジュールは、
    半導体ファイル装置からチェックポイント時点のデータ
    ベースを主メモリ上に読み出すとともに、該チェックポ
    イント時点後のログ情報を読み出して、該ログ情報で上
    記データベース上に上書きし、障害時点のデータベース
    を復元して、トランザクション処理を再開するが、 再度障害となった場合には、同じ処理を繰り返して、予
    め決められた回数の再開処理を行っても回復しない場合
    には、固定障害であることを2台のうちの正常なモジュ
    ールに通知し、 該正常なモジュールは、プロセッサの50%の使用率で
    自モジュールに対するトランザクション処理を行いなが
    ら、残りの50%の使用率で障害となったモジュールの
    半導体ファイル装置からチェックポイント時点のデータ
    ベースを主メモリ上に読み出し、該チェックポイント時
    点後のログ情報を読み出して、該ログ情報で上記データ
    ベースに上書きし、障害となった時点の他モジュールの
    データベースを復元して、他モジュールのデータベース
    に対するトランザクション処理も処理することを特徴と
    する高信頼化方法。
  3. 【請求項3】前記各モジュールは、チェックポイント時
    点のデータベースおよびログ情報を、自モジュール内の
    半導体ファイル装置と、他モジュール内の半導体ファイ
    ル装置の両方に二重化して格納することを特徴とする請
    求項2に記載の高信頼化方法。
  4. 【請求項4】前記各モジュールは、半導体ファイル装置
    を2台設け、チェックポイント時点のデータベースおよ
    びログ情報を前記2台の半導体ファイル装置に二重化し
    て格納することを特徴とする請求項2に記載の高信頼化
    方法。
  5. 【請求項5】前記各モジュールは、半導体ファイル装置
    の2台のうちの1台が故障した場合、他モジュールの1
    台にもチェックポイント時点のデータベースおよびログ
    情報を格納し、常にチェックポイント時点のデータベー
    スおよびログ情報を2台の半導体ファイル装置に二重化
    して格納することを特徴とする請求項4に記載の高信頼
    化方法。
  6. 【請求項6】前記2台のモジュールを異なる2地点A,
    Bに設置し、それぞれ分散してトランザクション処理を
    行い、 地点Aの第1のモジュールと地点Bの第1のモジュール
    は相互に相手モジュールのデータベースを備え、自モジ
    ュールのデータベースのログ情報を通信回線を介して送
    信し、該ログ情報を受信したモジュールは、相手モジュ
    ールのデータベースを更新し、 地点Aの第2のモジュールと地点Bの第2のモジュール
    も上記と同じ処理を行い、 A,Bいずれかの地点で1台のモジュールが障害となっ
    た場合には、同一地点の正常なモジュールが障害となっ
    たモジュールのトランザクション処理を継続し、 A,Bいずれかの地点で2台のモジュールが同時に障害
    となった場合には、他地点の2台のモジュールが、障害
    となった地点の2台のモジュールのトランザクション処
    理を継続することを特徴とする請求項2に記載の高信頼
    化方法。
JP7082175A 1995-04-07 1995-04-07 高信頼化システムおよび方法 Pending JPH08278909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7082175A JPH08278909A (ja) 1995-04-07 1995-04-07 高信頼化システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7082175A JPH08278909A (ja) 1995-04-07 1995-04-07 高信頼化システムおよび方法

Publications (1)

Publication Number Publication Date
JPH08278909A true JPH08278909A (ja) 1996-10-22

Family

ID=13767104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7082175A Pending JPH08278909A (ja) 1995-04-07 1995-04-07 高信頼化システムおよび方法

Country Status (1)

Country Link
JP (1) JPH08278909A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339300A (ja) * 2004-05-28 2005-12-08 Hitachi Ltd データベース処理方法およびシステム並びにその処理プログラム
JP2006164080A (ja) * 2004-12-09 2006-06-22 Hitachi Ltd データ処理方法及びシステム
JP2007304859A (ja) * 2006-05-11 2007-11-22 Hitachi Ltd 記憶媒体への書き込み回数を管理する計算機システム及びその制御方法
JP2008293256A (ja) * 2007-05-24 2008-12-04 Nec Corp 冗長構成サーバシステムにおけるファイルバックアップ方法、プログラム、及び、冗長構成サーバシステム
JP2009042846A (ja) * 2007-08-06 2009-02-26 Hitachi Ltd 分散監視制御システム
JP2010160822A (ja) * 2010-04-23 2010-07-22 Hitachi Ltd データベース処理方法、データベース処理システム及びデータベース管理プログラム
JP2010530108A (ja) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド 共有データセンタ災害復旧システム及び方法
US8281007B2 (en) 2006-03-28 2012-10-02 Fujitsu Limited Cluster control apparatus, cluster control method, and computer product
JP2017021415A (ja) * 2015-07-07 2017-01-26 株式会社東芝 防災情報システム、送受信方法、防災情報送受信装置及びコンピュータプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339300A (ja) * 2004-05-28 2005-12-08 Hitachi Ltd データベース処理方法およびシステム並びにその処理プログラム
JP2006164080A (ja) * 2004-12-09 2006-06-22 Hitachi Ltd データ処理方法及びシステム
US8281007B2 (en) 2006-03-28 2012-10-02 Fujitsu Limited Cluster control apparatus, cluster control method, and computer product
JP2007304859A (ja) * 2006-05-11 2007-11-22 Hitachi Ltd 記憶媒体への書き込み回数を管理する計算機システム及びその制御方法
JP2008293256A (ja) * 2007-05-24 2008-12-04 Nec Corp 冗長構成サーバシステムにおけるファイルバックアップ方法、プログラム、及び、冗長構成サーバシステム
JP2010530108A (ja) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド 共有データセンタ災害復旧システム及び方法
JP2009042846A (ja) * 2007-08-06 2009-02-26 Hitachi Ltd 分散監視制御システム
JP2010160822A (ja) * 2010-04-23 2010-07-22 Hitachi Ltd データベース処理方法、データベース処理システム及びデータベース管理プログラム
JP2017021415A (ja) * 2015-07-07 2017-01-26 株式会社東芝 防災情報システム、送受信方法、防災情報送受信装置及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US7577867B2 (en) Cross tagging to data for consistent recovery
US6539462B1 (en) Remote data copy using a prospective suspend command
US7694177B2 (en) Method and system for resynchronizing data between a primary and mirror data storage system
CN100492307C (zh) 用于故障解决的系统和方法
EP1639470B1 (en) Method, system and program for handling a failover to a remote storage location
US7120824B2 (en) Method, apparatus and program storage device for maintaining data consistency and cache coherency during communications failures between nodes in a remote mirror pair
US7437598B2 (en) System, method and circuit for mirroring data
US5907673A (en) Checkpointing computer system having duplicated files for executing process and method for managing the duplicated files for restoring the process
US6697960B1 (en) Method and system for recovering data to maintain business continuity
US7539703B2 (en) Setup method for disaster recovery system
US20070276983A1 (en) System method and circuit for differential mirroring of data
US11307944B2 (en) Automated failover for asynchronous remote copy
CN112181723B (zh) 一种金融灾备方法、装置、存储介质及电子设备
JP2001356945A (ja) データバックアップ・リカバリー方式
JPH086910A (ja) クラスタ型計算機システム
JPH08278909A (ja) 高信頼化システムおよび方法
WO2025246814A1 (zh) 高可用数据管理
KR100290057B1 (ko) 파일 시스템 및 파일 관리 방법
US20050177692A1 (en) Shared data mirroring apparatus, method, and system
JP4095139B2 (ja) コンピュータシステムおよびファイル管理方法
JP2011253400A (ja) 分散ミラードディスクシステム、コンピュータ装置、ミラーリング方法およびそのプログラム
CN100437499C (zh) 计算机平台快取资料备援处理方法及系统
EP1056011A2 (en) Method and system for recovering data
JPH09330303A (ja) コンピュータシステムおよびそのシステムにおける障害回復方法
JP3312652B2 (ja) マルチプロセッサアーキテクチャでのデータベース管理方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040319