JPH0736721A - 多重化コンピュータシステムの制御方式 - Google Patents
多重化コンピュータシステムの制御方式Info
- Publication number
- JPH0736721A JPH0736721A JP5176552A JP17655293A JPH0736721A JP H0736721 A JPH0736721 A JP H0736721A JP 5176552 A JP5176552 A JP 5176552A JP 17655293 A JP17655293 A JP 17655293A JP H0736721 A JPH0736721 A JP H0736721A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- storage device
- active
- new
- standby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000011084 recovery Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000002747 voluntary effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】
【目的】 障害原因の解析を迅速に行い、また業務引継
用データの保護をより確実なものにすることを目的とす
る。 【構成】 多重化コンピュータシステムのある系(運用
系)1で障害が発生したときその原因を調べるためのデ
−タを格納する障害解析用記憶装置3を各コンピュータ
システムに共通のものとして設け、この業務を引き継ぐ
他系(新運用系)2は前記格納処理が終了した後でこの
記憶装置を自系に接続し、その内容を参照することによ
り前記原因を調べている。また、復旧後の運用系1は、
新運用系2の管理下となっている(運用系に対応の)業
務引継用記憶装置4を自系に接続して再び本来の分担業
務を実行しようとするとき、新運用系2に対してこの記
憶装置がオフライン処理されているかどうかを問い合わ
せ、「オフライン処理済」の確認がとれた場合のみ当該
記憶装置を自系に接続するようにしている。
用データの保護をより確実なものにすることを目的とす
る。 【構成】 多重化コンピュータシステムのある系(運用
系)1で障害が発生したときその原因を調べるためのデ
−タを格納する障害解析用記憶装置3を各コンピュータ
システムに共通のものとして設け、この業務を引き継ぐ
他系(新運用系)2は前記格納処理が終了した後でこの
記憶装置を自系に接続し、その内容を参照することによ
り前記原因を調べている。また、復旧後の運用系1は、
新運用系2の管理下となっている(運用系に対応の)業
務引継用記憶装置4を自系に接続して再び本来の分担業
務を実行しようとするとき、新運用系2に対してこの記
憶装置がオフライン処理されているかどうかを問い合わ
せ、「オフライン処理済」の確認がとれた場合のみ当該
記憶装置を自系に接続するようにしている。
Description
【0001】
【産業上の利用分野】本発明は、一方の系(運用系)で
障害が発生してダウン処理が実行される場合にこの系の
業務を他系(待機系)が引継ぐようにしたもので、銀行
のオンラインシステムや交通管制システムなどの各種シ
ステムに適用される多重化コンピュータシステムに関
し、特に、障害の発生原因を調査するために必要な運用
系内情報を各系に共通の障害解析用記憶装置に格納し、
新運用系(待機系)がこの格納情報に基づいて障害原因
を解析するようにした多重化コンピュータシステムの制
御方式に関するものである。
障害が発生してダウン処理が実行される場合にこの系の
業務を他系(待機系)が引継ぐようにしたもので、銀行
のオンラインシステムや交通管制システムなどの各種シ
ステムに適用される多重化コンピュータシステムに関
し、特に、障害の発生原因を調査するために必要な運用
系内情報を各系に共通の障害解析用記憶装置に格納し、
新運用系(待機系)がこの格納情報に基づいて障害原因
を解析するようにした多重化コンピュータシステムの制
御方式に関するものである。
【0002】さらには、運用系が処理中の業務を待機系
が引き継ぐために必要なデータ、例えば運用系の障害発
生のために処理が中断してしまった業務データなどを格
納する業務引継用記憶装置を設けておき、運用系の障害
発生を確認した待機系はこの業務引継用記憶装置を自系
に接続して運用系がそれまでに実行していた業務を引き
継いで新運用系となり、その後に復旧した運用系(障害
系)が所定のタイミングでこの業務引継用記憶装置を再
び自系に接続して自己の担当業務の実行を再開するよう
にした多重化コンピュータシステムの制御方式に関す
る。
が引き継ぐために必要なデータ、例えば運用系の障害発
生のために処理が中断してしまった業務データなどを格
納する業務引継用記憶装置を設けておき、運用系の障害
発生を確認した待機系はこの業務引継用記憶装置を自系
に接続して運用系がそれまでに実行していた業務を引き
継いで新運用系となり、その後に復旧した運用系(障害
系)が所定のタイミングでこの業務引継用記憶装置を再
び自系に接続して自己の担当業務の実行を再開するよう
にした多重化コンピュータシステムの制御方式に関す
る。
【0003】なお、本明細書で用いる「待機系」とはあ
くまで運用系が担当の第1の業務についてのことであ
り、運用系が正常に動作しているときの「待機系」で
は、 ・他の第2の業務を実行することなしに専ら運用系の障
害発生に備える ・他の第2の業務の運用系として動作する ことなどが選択的に行われている。そして、後者の「待
機系」の場合には、(第1の業務担当の)運用系がダウ
ンすると本来の仕事である第2の業務に加えて第1の業
務をも実行するかたちの「新運用系」となる。
くまで運用系が担当の第1の業務についてのことであ
り、運用系が正常に動作しているときの「待機系」で
は、 ・他の第2の業務を実行することなしに専ら運用系の障
害発生に備える ・他の第2の業務の運用系として動作する ことなどが選択的に行われている。そして、後者の「待
機系」の場合には、(第1の業務担当の)運用系がダウ
ンすると本来の仕事である第2の業務に加えて第1の業
務をも実行するかたちの「新運用系」となる。
【0004】
【従来の技術】図5は一般的な二重化コンピュータシス
テムの適用例を示す説明図であり、21はコンピュータシ
ステム(運用系)、22はコンピュータシステム(待機
系)、23、23′はCPU、24、24′はメモリ(主記憶装
置)、25、25′はディジタルI/Oコントローラ(DIO
C) 、26、26′はシステムコントローラ、27、27′はフ
ァイル系コントローラ、28、28′は回線系コントロー
ラ、29、29′はLANコントローラ、30、30′はシステ
ムディスク装置、31、31′はメモリダンプの出力先とし
ての障害解析用ディスク装置、32は二重化切替装置、33
は系間通信パス、34は運用系21および待機系22それぞれ
からの入出力が行われる共通ディスク装置(業務引継用
ディスク装置)、35は運用系21に対応の業務引継用ディ
スク装置、36は待機系22に対応の業務引継用ディスク装
置、37は回線切替え装置、38はLANやWANなどのネ
ットワーク、39は端末システムをそれぞれ示している。
テムの適用例を示す説明図であり、21はコンピュータシ
ステム(運用系)、22はコンピュータシステム(待機
系)、23、23′はCPU、24、24′はメモリ(主記憶装
置)、25、25′はディジタルI/Oコントローラ(DIO
C) 、26、26′はシステムコントローラ、27、27′はフ
ァイル系コントローラ、28、28′は回線系コントロー
ラ、29、29′はLANコントローラ、30、30′はシステ
ムディスク装置、31、31′はメモリダンプの出力先とし
ての障害解析用ディスク装置、32は二重化切替装置、33
は系間通信パス、34は運用系21および待機系22それぞれ
からの入出力が行われる共通ディスク装置(業務引継用
ディスク装置)、35は運用系21に対応の業務引継用ディ
スク装置、36は待機系22に対応の業務引継用ディスク装
置、37は回線切替え装置、38はLANやWANなどのネ
ットワーク、39は端末システムをそれぞれ示している。
【0005】なお、本明細書で用いる「系間通信路」と
は二重化切替装置32または系間通信パス33のことであ
る。また、本明細書を通じて、障害解析用ディスク装置
および業務引継用ディスク装置のそれぞれを必要に応じ
てディスク装置と記述する。
は二重化切替装置32または系間通信パス33のことであ
る。また、本明細書を通じて、障害解析用ディスク装置
および業務引継用ディスク装置のそれぞれを必要に応じ
てディスク装置と記述する。
【0006】ここで、二重化切替装置32は、コンピュー
タシステム同士の相互監視機能を持っており、運用系21
に電源故障やソフトウェアの異常ループ・内部矛盾など
の各種障害が発生したときにはその旨を示す割込みビッ
トを待機系22に通知し、さらには待機系22の方で系間通
信パス33を介して運用系21の障害を検出したときにはそ
の原因を問合せるための系間通信路として用いられる。
タシステム同士の相互監視機能を持っており、運用系21
に電源故障やソフトウェアの異常ループ・内部矛盾など
の各種障害が発生したときにはその旨を示す割込みビッ
トを待機系22に通知し、さらには待機系22の方で系間通
信パス33を介して運用系21の障害を検出したときにはそ
の原因を問合せるための系間通信路として用いられる。
【0007】また、系間通信パス33は二重化されてお
り、待機系22は、運用系21に対する定周期診断、すなわ
ち定周期で所定のメッセージを送信してこれに対する返
事を確認するといった診断処理を行い、運用系21からの
所定の返事を確認できないときには二重化切替装置32の
表示ビットを使用して運用系21に障害原因を問い合わせ
ている。
り、待機系22は、運用系21に対する定周期診断、すなわ
ち定周期で所定のメッセージを送信してこれに対する返
事を確認するといった診断処理を行い、運用系21からの
所定の返事を確認できないときには二重化切替装置32の
表示ビットを使用して運用系21に障害原因を問い合わせ
ている。
【0008】このように、運用系21からの障害発生通知
といった相互監視ルートと、待機系22から運用系21に送
ったメッセージに対する所定の応答の有無といった定周
期診断ルートとの2系統により、待機系22は各種障害が
発生していないかどうかをチェックしている。
といった相互監視ルートと、待機系22から運用系21に送
ったメッセージに対する所定の応答の有無といった定周
期診断ルートとの2系統により、待機系22は各種障害が
発生していないかどうかをチェックしている。
【0009】そして、待機系22は、前記の相互監視ルー
トまたは定周期診断ルートのいずれかにより障害発生を
確認すると、運用系21に対してもう一方のルート経由で
障害原因を問い合わせるようにしている。
トまたは定周期診断ルートのいずれかにより障害発生を
確認すると、運用系21に対してもう一方のルート経由で
障害原因を問い合わせるようにしている。
【0010】これは、相互監視ルートまたは定周期診断
ルートのハードウェア障害が発生しているだけで運用系
21は正常に動作している場合と、運用系21のソフトウェ
アや電源などの障害が発生している場合とを識別し、後
者についてのみ待機系を切り替えて新運用系に設定する
ためである。
ルートのハードウェア障害が発生しているだけで運用系
21は正常に動作している場合と、運用系21のソフトウェ
アや電源などの障害が発生している場合とを識別し、後
者についてのみ待機系を切り替えて新運用系に設定する
ためである。
【0011】すなわち、前者の場合には、障害原因の問
い合わせに対する応答として、電源やソフトウェアの正
常動作を示す表示ビットなどが運用系21から待機系22に
送られるが、後者の場合にはこのようなことはない。な
お、相互監視ルートと定周期診断ルートのそれぞれから
障害発生が確認されたときには、待機系22は、運用系21
に対して障害原因を問い合わせることなしに当該運用系
内部での障害発生と判断する。
い合わせに対する応答として、電源やソフトウェアの正
常動作を示す表示ビットなどが運用系21から待機系22に
送られるが、後者の場合にはこのようなことはない。な
お、相互監視ルートと定周期診断ルートのそれぞれから
障害発生が確認されたときには、待機系22は、運用系21
に対して障害原因を問い合わせることなしに当該運用系
内部での障害発生と判断する。
【0012】図6は一般的な二重化切替装置32の具体例
を示す説明図であり、23、23′はCPU、25、25′はデ
ィジタルI/Oコントローラ(DIOC) 、41は電源異常通
知の入力ビット(COMP)、42はパニック発生通知の入力ビ
ット(CALL)、43はパニック発生通知の出力ビット(PANI
C) 、44はソフトウェア故障通知の入力ビット(WDTI: Wa
tch Dog Timer Input) 、45はウォッチドッグタイマ
ー、46、46′は外部設備インタフェースをそれぞれ示し
ている。
を示す説明図であり、23、23′はCPU、25、25′はデ
ィジタルI/Oコントローラ(DIOC) 、41は電源異常通
知の入力ビット(COMP)、42はパニック発生通知の入力ビ
ット(CALL)、43はパニック発生通知の出力ビット(PANI
C) 、44はソフトウェア故障通知の入力ビット(WDTI: Wa
tch Dog Timer Input) 、45はウォッチドッグタイマ
ー、46、46′は外部設備インタフェースをそれぞれ示し
ている。
【0013】ここで、電源が切断した系の外部設備イン
タフェース46、46′の信号が変化すると他系の入力ビッ
ト(COMP)41は“1”から“0”に変化し、「ソフトウェ
ア異常(パニック)」が発生したときのパニック関数が
自系の出力ビット(PANIC) 43をONにすると他系の入力ビ
ット(CALL)42が“0”から“1”に変化する。
タフェース46、46′の信号が変化すると他系の入力ビッ
ト(COMP)41は“1”から“0”に変化し、「ソフトウェ
ア異常(パニック)」が発生したときのパニック関数が
自系の出力ビット(PANIC) 43をONにすると他系の入力ビ
ット(CALL)42が“0”から“1”に変化する。
【0014】また、ウォッチドッグタイマー45により異
常ループ(無限ループ)やパニックには至らないOSプ
ログラムの内部矛盾(デッドロックなど)といった「ソ
フトウェア故障」が検出されたときには、入力ビット(W
DTI)44の値が変化する。
常ループ(無限ループ)やパニックには至らないOSプ
ログラムの内部矛盾(デッドロックなど)といった「ソ
フトウェア故障」が検出されたときには、入力ビット(W
DTI)44の値が変化する。
【0015】このように、ソフトウェアの故障は、その
コンピュータシステム全体が完全に非動作状態となる
「ソフトウェア異常(パニック)」と、その一部は動作
状態のままとなる可能性が高い「ソフトウェア故障」と
に大別される。
コンピュータシステム全体が完全に非動作状態となる
「ソフトウェア異常(パニック)」と、その一部は動作
状態のままとなる可能性が高い「ソフトウェア故障」と
に大別される。
【0016】このような内容を持つ二重化コンピュータ
システムでは、運用系21の障害発生の原因を調査するた
め、そのメモリ24やシステムディスク装置30などの格納
デ−タをディスク装置31に出力すること、すなわちメモ
リダンプが行われる。
システムでは、運用系21の障害発生の原因を調査するた
め、そのメモリ24やシステムディスク装置30などの格納
デ−タをディスク装置31に出力すること、すなわちメモ
リダンプが行われる。
【0017】そして、この障害原因の解析は、障害発生
状態から復旧した運用系(障害系)21がその再立ち上げ
後に自系のディスク装置31の内容を参照することにより
行っている。
状態から復旧した運用系(障害系)21がその再立ち上げ
後に自系のディスク装置31の内容を参照することにより
行っている。
【0018】また、業務引継用ディスク装置35には運用
系21での直近の処理内容が所定単位で順次格納されてお
り、運用系21の障害発生により待機系22が新運用系に切
り替わる際、新運用系(待機系)22はこのディスク装置
35を参照することにより、業務引継ぎに必要なデ−タ、
すなわち運用系21のダウンのために処理が中断したかた
ちとなっている業務デ−タやそれに関連したデ−タなど
(以下の説明では業務引継用デ−タという)を確認する
ことになる。
系21での直近の処理内容が所定単位で順次格納されてお
り、運用系21の障害発生により待機系22が新運用系に切
り替わる際、新運用系(待機系)22はこのディスク装置
35を参照することにより、業務引継ぎに必要なデ−タ、
すなわち運用系21のダウンのために処理が中断したかた
ちとなっている業務デ−タやそれに関連したデ−タなど
(以下の説明では業務引継用デ−タという)を確認する
ことになる。
【0019】そして、運用系(障害系)21は、ダウン状
態から正常状態に復旧したとき、任意のタイミングで業
務引継用ディスク装置35を自系に接続して本来の分担業
務の実行を再開するか、またはこの業務引継用ディスク
装置35を自系に接続することなくそれまでの状態を継続
することとしている。
態から正常状態に復旧したとき、任意のタイミングで業
務引継用ディスク装置35を自系に接続して本来の分担業
務の実行を再開するか、またはこの業務引継用ディスク
装置35を自系に接続することなくそれまでの状態を継続
することとしている。
【0020】このとき、待機系(新運用系)22は、前者
の場合には運用系21から引き継いだ業務の実行から開放
され自系の本来の業務のみを実行し、後者の場合には依
然としてこれらの引継ぎ業務と本来の分担業務のそれぞ
れを実行する。
の場合には運用系21から引き継いだ業務の実行から開放
され自系の本来の業務のみを実行し、後者の場合には依
然としてこれらの引継ぎ業務と本来の分担業務のそれぞ
れを実行する。
【0021】
【発明が解決しようとする課題】このように、従来の多
重化コンピュータシステムの制御方式では、メモリダン
プの出力先として自系内(運用系内)の障害解析用ディ
スク装置を用いその解析作業も復旧後の運用系が行って
おり、また、運用系(障害系)は、復旧した後も自系の
本来の分担業務を新運用系から取り戻さずにいるか、取
り戻すとしても業務引継用ディスク装置を任意のタイミ
ングで自系に接続、すなわちこのディスク装置を新運用
系が使用しているかどうかについての考慮なしに自系に
接続している(図7参照)。
重化コンピュータシステムの制御方式では、メモリダン
プの出力先として自系内(運用系内)の障害解析用ディ
スク装置を用いその解析作業も復旧後の運用系が行って
おり、また、運用系(障害系)は、復旧した後も自系の
本来の分担業務を新運用系から取り戻さずにいるか、取
り戻すとしても業務引継用ディスク装置を任意のタイミ
ングで自系に接続、すなわちこのディスク装置を新運用
系が使用しているかどうかについての考慮なしに自系に
接続している(図7参照)。
【0022】そのため、障害解析が遅れ、待機系の負担
をいたずらに増やし、さらには業務引継用ディスク装置
が新運用系で使用されている状態で運用系が当該ディス
ク装置を接続するといったことが発生し、この場合には
新運用系の業務引継用ディスク装置に対する入出力が異
常になるだけでなく、このディスク装置上のデ−タの論
理構成に矛盾が発生して全体のデ−タ破壊を招く恐れが
あるという問題点があった。
をいたずらに増やし、さらには業務引継用ディスク装置
が新運用系で使用されている状態で運用系が当該ディス
ク装置を接続するといったことが発生し、この場合には
新運用系の業務引継用ディスク装置に対する入出力が異
常になるだけでなく、このディスク装置上のデ−タの論
理構成に矛盾が発生して全体のデ−タ破壊を招く恐れが
あるという問題点があった。
【0023】そこで、本発明では、メモリダンプ先の障
害解析用記憶装置を各コンピュータシステムに共通のも
のとして新運用系がこれに所定のタイミングでアクセス
し、また、復旧後の運用系(障害系)は、新運用系(待
機系)が業務引継用記憶装置を使用しているかどうかを
考慮した上での所定のタイミングでこの記憶装置を接続
することにより、運用系の障害解析を迅速に行うととも
に、復旧後の運用系が本来の担当業務を新運用系(待機
系)から取り戻すに際して業務引継用記憶装置の入出力
動作の正常性が確保されるようにすることを目的とす
る。
害解析用記憶装置を各コンピュータシステムに共通のも
のとして新運用系がこれに所定のタイミングでアクセス
し、また、復旧後の運用系(障害系)は、新運用系(待
機系)が業務引継用記憶装置を使用しているかどうかを
考慮した上での所定のタイミングでこの記憶装置を接続
することにより、運用系の障害解析を迅速に行うととも
に、復旧後の運用系が本来の担当業務を新運用系(待機
系)から取り戻すに際して業務引継用記憶装置の入出力
動作の正常性が確保されるようにすることを目的とす
る。
【0024】
【課題を解決するための手段】図1は本発明の基本構成
図である。図において、1は運用系(コンピュータシス
テム)、2は待機系(コンピュータシステム)、3はメ
モリダンプ先の障害解析用記憶装置、4は業務引継用デ
−タを管理するための業務引継用記憶装置をそれぞれ示
している。なお、障害解析用記憶装置3および業務引継
用記憶装置4としてはディスク装置などが用いられる。
図である。図において、1は運用系(コンピュータシス
テム)、2は待機系(コンピュータシステム)、3はメ
モリダンプ先の障害解析用記憶装置、4は業務引継用デ
−タを管理するための業務引継用記憶装置をそれぞれ示
している。なお、障害解析用記憶装置3および業務引継
用記憶装置4としてはディスク装置などが用いられる。
【0025】業務引継用記憶装置4は運用系1の担当業
務についてのものであり、また、待機系2は少なくとも
運用系1と同程度の処理能力を持つコンピュータシステ
ムであり、両者の間では従来と同じように相互監視や定
周期診断が行われている。
務についてのものであり、また、待機系2は少なくとも
運用系1と同程度の処理能力を持つコンピュータシステ
ムであり、両者の間では従来と同じように相互監視や定
周期診断が行われている。
【0026】ここで、運用系で障害が発生してその後復
旧したときの運用系および待機系における基本的な処理
手順は次のようになっている。すなわち、待機系2で
は、 ′相互監視機能や定周期診断機能により障害発生を確
認して運用系1に対し強制ダウン処理の指示を送る。 ′運用系1でのダウン処理にともなって業務引継用記
憶装置4を自系に接続する。 ′運用系1からのダンプ処理の終了通知を受けてから
障害解析用記憶装置3を自系に接続する。 ′復旧後の運用系1からの問い合わせに応じて業務引
継用記憶装置4を自系で使用しているどうかを調べ、
「使用していない」場合にはこの業務引継用記憶装置4
をオフライン処理してその旨を、また「使用している」
場合にはその旨をそれぞれ運用系1に回答する。 といった一連の処理を実行している。
旧したときの運用系および待機系における基本的な処理
手順は次のようになっている。すなわち、待機系2で
は、 ′相互監視機能や定周期診断機能により障害発生を確
認して運用系1に対し強制ダウン処理の指示を送る。 ′運用系1でのダウン処理にともなって業務引継用記
憶装置4を自系に接続する。 ′運用系1からのダンプ処理の終了通知を受けてから
障害解析用記憶装置3を自系に接続する。 ′復旧後の運用系1からの問い合わせに応じて業務引
継用記憶装置4を自系で使用しているどうかを調べ、
「使用していない」場合にはこの業務引継用記憶装置4
をオフライン処理してその旨を、また「使用している」
場合にはその旨をそれぞれ運用系1に回答する。 といった一連の処理を実行している。
【0027】一方、運用系1では、 自系での障害発生を待機系2に通知する。 待機系2からの指示(ステップ′)に基づいて強制
ダウン処理を行い、また、障害原因が前記の「ソフトウ
ェア異常(パニック)」であるときは自発的ダウン処理
が行われる。なお、この処理においてはダンプ処理が伴
い、障害解析に必要なデ−タを主記憶装置などから障害
解析用記憶装置3に格納される。 ダンプ処理が終了したことを待機系2に通知する。 復旧後、待機系2に対して、業務引継用記憶装置4を
使用しているかどうかを問い合わせるとともに、使用し
ていない場合にはこの記憶装置のオフライン処理を要求
する。 待機系2からの応答(ステップ′)に基づき、それ
が「オフライン処理済」を示すものである場合には業務
引継用記憶装置4を自系に再接続し、「使用中」を示す
ものである場合にはこの自系への再接続を行わない。 といった一連の処理を実行している。
ダウン処理を行い、また、障害原因が前記の「ソフトウ
ェア異常(パニック)」であるときは自発的ダウン処理
が行われる。なお、この処理においてはダンプ処理が伴
い、障害解析に必要なデ−タを主記憶装置などから障害
解析用記憶装置3に格納される。 ダンプ処理が終了したことを待機系2に通知する。 復旧後、待機系2に対して、業務引継用記憶装置4を
使用しているかどうかを問い合わせるとともに、使用し
ていない場合にはこの記憶装置のオフライン処理を要求
する。 待機系2からの応答(ステップ′)に基づき、それ
が「オフライン処理済」を示すものである場合には業務
引継用記憶装置4を自系に再接続し、「使用中」を示す
ものである場合にはこの自系への再接続を行わない。 といった一連の処理を実行している。
【0028】
【作用】本発明は、このように、障害解析用記憶装置を
運用系と待機系とに共通の記憶装置で構成しておき、待
機系は、運用系での障害発生にともなうダンプ処理の終
了を確認した後でこれを自系に接続し、また、復旧後の
運用系(障害系)は、新運用系(待機系)が業務引継用
記憶装置のオフライン処理を行ったことを確認してから
これを自系に接続している。
運用系と待機系とに共通の記憶装置で構成しておき、待
機系は、運用系での障害発生にともなうダンプ処理の終
了を確認した後でこれを自系に接続し、また、復旧後の
運用系(障害系)は、新運用系(待機系)が業務引継用
記憶装置のオフライン処理を行ったことを確認してから
これを自系に接続している。
【0029】そのため、障害発生の原因解析が迅速に行
われ、さらには運用系(障害系)において担当業務の実
行を再開するに際し、当該運用系が、新運用系(待機
系)で使用中の業務引継用記憶装置を自系に接続してし
まうといったことは発生せず、この記憶装置のデ−タを
より確実に保護することができる。なお、図示していな
いが複数の待機系の場合にも本発明が適用できることは
勿論である。
われ、さらには運用系(障害系)において担当業務の実
行を再開するに際し、当該運用系が、新運用系(待機
系)で使用中の業務引継用記憶装置を自系に接続してし
まうといったことは発生せず、この記憶装置のデ−タを
より確実に保護することができる。なお、図示していな
いが複数の待機系の場合にも本発明が適用できることは
勿論である。
【0030】
【実施例】図2〜図4を参照して本発明の実施例を説明
する。なお、以下の説明でも、多重化コンピュータシス
テムの一例として二重化コンピュータシステムを用いる
ことにする。
する。なお、以下の説明でも、多重化コンピュータシス
テムの一例として二重化コンピュータシステムを用いる
ことにする。
【0031】図2は、二重化コンピュータシステムの適
用例を示す説明図であり、図5のものに比べ、ハードウ
ェアの点では各系の個々の障害解析用ディスク装置31、
31′を除いてその代わりに各系に共通の障害解析用ディ
スク装置40を新たに設けたことなどが相違している。
用例を示す説明図であり、図5のものに比べ、ハードウ
ェアの点では各系の個々の障害解析用ディスク装置31、
31′を除いてその代わりに各系に共通の障害解析用ディ
スク装置40を新たに設けたことなどが相違している。
【0032】図3は、運用系21で障害が発生したときの
メモリダンプ関連の処理手順を示す説明図である。ここ
で、待機系22の処理は次のようになっている。 (11)二重化切替装置32における運用系21からの入力ビッ
ト41、42、44の変化や、系間通信パス33を用いた定周期
診断結果に基づいて運用系21または系間ハードウェア
(二重化切替装置32、系間通信路パス33など)での障害
発生を確認する。 (12)この確認に用いられなかった方のルート、すなわち
入力ビット41、42、44の変化があったときには系間通信
路パス33により、また定周期診断結果で障害発生を確認
したときには二重化切替装置32によりそれぞれの障害原
因を運用系21に問い合わせる。 (13)この問い合わせに対して所定の監視時間内に応答が
ない場合には運用系21でのソフトウェア障害、電源故障
などと判断し、自系の新運用系への切替え処理を行う。
メモリダンプ関連の処理手順を示す説明図である。ここ
で、待機系22の処理は次のようになっている。 (11)二重化切替装置32における運用系21からの入力ビッ
ト41、42、44の変化や、系間通信パス33を用いた定周期
診断結果に基づいて運用系21または系間ハードウェア
(二重化切替装置32、系間通信路パス33など)での障害
発生を確認する。 (12)この確認に用いられなかった方のルート、すなわち
入力ビット41、42、44の変化があったときには系間通信
路パス33により、また定周期診断結果で障害発生を確認
したときには二重化切替装置32によりそれぞれの障害原
因を運用系21に問い合わせる。 (13)この問い合わせに対して所定の監視時間内に応答が
ない場合には運用系21でのソフトウェア障害、電源故障
などと判断し、自系の新運用系への切替え処理を行う。
【0033】そして、このステップ(13)では、 ・DIOC25′経由による運用系21への強制ダウン指示 ・運用系21に対応の業務引継用ディスク装置35の自系へ
の接続 ・ネットワーク38経由による、新運用系への切替えの利
用者への通知 ・メモリダンプの出力完了(障害解析用ディスク装置40
への格納処理完了)の確認 ・障害解析用ディスク装置40の自系への接続 を順次行っている。
の接続 ・ネットワーク38経由による、新運用系への切替えの利
用者への通知 ・メモリダンプの出力完了(障害解析用ディスク装置40
への格納処理完了)の確認 ・障害解析用ディスク装置40の自系への接続 を順次行っている。
【0034】一方、運用系(障害系)21では、「ソフト
ウェア異常(パニック)」による障害発生の場合の自発
的ダウン処理や新運用系(待機系22)からの指示に基づ
く強制ダウン処理に続いてメモリダンプの出力処理が行
われ、この出力処理が完了したときにはその旨の通知を
新運用系(待機系22)に送っている。なお、この通知に
は二重化処理装置32の出力ビット(PANIC) 43と入力ビッ
ト(CALL)42とが用いられる。
ウェア異常(パニック)」による障害発生の場合の自発
的ダウン処理や新運用系(待機系22)からの指示に基づ
く強制ダウン処理に続いてメモリダンプの出力処理が行
われ、この出力処理が完了したときにはその旨の通知を
新運用系(待機系22)に送っている。なお、この通知に
は二重化処理装置32の出力ビット(PANIC) 43と入力ビッ
ト(CALL)42とが用いられる。
【0035】図4は、復旧後の運用系が業務引継用ディ
スク装置35を強制リザーブするときの処理手順を示す説
明図である。すなわち、復旧後の運用系(障害系)21か
ら新運用系(待機系)22への、ディスク装置35のオフラ
イン・リリース指示に対して新運用系22は、 (21)ディスク装置35を使用しているかどうかを判断し、
「YES 」の場合はその旨を運用系21に通知し、「NO」の
場合は次のステップに進む。 (22)ディスク装置35を使用禁止の状態(オフライン)に
して、次のステップに進む。 (23)ディスク装置35に対してリリースを発行してリザー
ブ状態を解除することができたかどうかを判断してその
結果を運用系21に通知する。 といった処理を行う。
スク装置35を強制リザーブするときの処理手順を示す説
明図である。すなわち、復旧後の運用系(障害系)21か
ら新運用系(待機系)22への、ディスク装置35のオフラ
イン・リリース指示に対して新運用系22は、 (21)ディスク装置35を使用しているかどうかを判断し、
「YES 」の場合はその旨を運用系21に通知し、「NO」の
場合は次のステップに進む。 (22)ディスク装置35を使用禁止の状態(オフライン)に
して、次のステップに進む。 (23)ディスク装置35に対してリリースを発行してリザー
ブ状態を解除することができたかどうかを判断してその
結果を運用系21に通知する。 といった処理を行う。
【0036】なお、運用系(障害系)21から新運用系
(待機系)22に対するオフライン・リリース指示および
これに対する新運用系22から運用系21への応答はそれぞ
れ系間通信パス33経由で行われる。
(待機系)22に対するオフライン・リリース指示および
これに対する新運用系22から運用系21への応答はそれぞ
れ系間通信パス33経由で行われる。
【0037】続いて、復旧後の運用系21は、 (24)先の新運用系22からの回答に基づいて、新運用系22
がディスク装置35をリリースできたかどうかを判断し、
「YES 」の場合は次のステップに進み、「NO」の場合は
「自系への業務引継用ディスク装置35の強制リザーブが
不調」ということで終了する。 (25)ディスク装置35を自系に接続する。 といった処理を行っている。
がディスク装置35をリリースできたかどうかを判断し、
「YES 」の場合は次のステップに進み、「NO」の場合は
「自系への業務引継用ディスク装置35の強制リザーブが
不調」ということで終了する。 (25)ディスク装置35を自系に接続する。 といった処理を行っている。
【0038】
【発明の効果】本発明は、このように、多重化コンピュ
ータシステムのある系(運用系)で障害が発生したとき
その原因を調べるためのデ−タを格納する障害解析用記
憶装置を各コンピュータシステムに共通のものとして設
け、この系の業務を引き継ぐ他系(新運用系)は前記格
納処理が終了した後でこの障害解析用記憶装置を自系に
接続してその内容を参照することにより前記原因を調べ
ている。
ータシステムのある系(運用系)で障害が発生したとき
その原因を調べるためのデ−タを格納する障害解析用記
憶装置を各コンピュータシステムに共通のものとして設
け、この系の業務を引き継ぐ他系(新運用系)は前記格
納処理が終了した後でこの障害解析用記憶装置を自系に
接続してその内容を参照することにより前記原因を調べ
ている。
【0039】また、復旧後の運用系は、新運用系の管理
下となっている(運用系に対応の)業務引継用記憶装置
を自系に接続して再び本来の分担業務を実行しようとす
るとき、新運用系に対してこの記憶装置がオフライン処
理されているかどうかを問い合わせ、「オフライン処理
済」の確認がとれた場合のみ当該記憶装置を自系に接続
するようにしている。
下となっている(運用系に対応の)業務引継用記憶装置
を自系に接続して再び本来の分担業務を実行しようとす
るとき、新運用系に対してこの記憶装置がオフライン処
理されているかどうかを問い合わせ、「オフライン処理
済」の確認がとれた場合のみ当該記憶装置を自系に接続
するようにしている。
【0040】そのため、障害原因の解析を迅速に行うこ
とができ、また、業務引継用記憶装置に対して運用系
(障害系)と新運用系(待機系)の両方の系からアクセ
ス可能といったことは発生せず、この記憶装置のデ−タ
保護をより確実なものにすることができる。
とができ、また、業務引継用記憶装置に対して運用系
(障害系)と新運用系(待機系)の両方の系からアクセ
ス可能といったことは発生せず、この記憶装置のデ−タ
保護をより確実なものにすることができる。
【図1】本発明の、基本構成図である。
【図2】本発明の、二重化コンピュータシステムの適用
例を示す説明図である。
例を示す説明図である。
【図3】本発明の、運用系で障害が発生したときのメモ
リダンプ関連の処理手順を示す説明図である。
リダンプ関連の処理手順を示す説明図である。
【図4】本発明の、復旧後の運用系が業務引継用ディス
ク装置を強制リザーブするときの処理手順を示す説明図
である。
ク装置を強制リザーブするときの処理手順を示す説明図
である。
【図5】一般的な、二重化コンピュータシステムの適用
例を示す説明図である。
例を示す説明図である。
【図6】一般的な、二重化切替装置の具体例を示す説明
図である。
図である。
【図7】従来の、復旧後の運用系が業務引継用ディスク
装置を強制リザーブするときの様子を示す説明図であ
る。
装置を強制リザーブするときの様子を示す説明図であ
る。
図1において、 1・・・運用系(コンピュータシステム) 2・・・待機系(コンピュータシステム) 3・・・障害解析用記憶装置 4・・・業務引継用記憶装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中山 博之 神奈川県大和市深見西四丁目2番49号 株 式会社ピーエフユー大和工場内 (72)発明者 河合 桂介 神奈川県大和市深見西四丁目2番49号 株 式会社ピーエフユー大和工場内
Claims (3)
- 【請求項1】 複数のコンピュータシステムの内の任意
の一つを運用系に、他のものを待機系とするもので、前
記運用系が障害発生によってダウン処理を行うとき、こ
の障害原因を調査するために必要な運用系内情報を障害
解析用記憶装置に格納するといったダンプ処理を行うと
ともに、系間通信路により前記障害発生を知った前記待
機系が新運用系として動作するようにした多重化コンピ
ュータシステムの制御方式において、 前記障害解析用記憶装置を、前記コンピュータシステム
のそれぞれから入出力可能なかたちで設け、 前記運用系は、前記運用系内情報の前記障害解析用記憶
装置への前記格納処理が終了した後でその旨を前記新運
用系に通知し、 前記新運用系は、この通知を受けた後で前記障害解析用
記憶装置のデータを取り出して前記障害原因を解析する
ようにしたことを特徴とする多重化コンピュータシステ
ムの制御方式。 - 【請求項2】 複数のコンピュータシステムの内の任意
の一つを運用系に、他のものを待機系とし、前記運用系
が処理中の業務を前記待機系で引き継ぐために必要なデ
ータを格納する業務引継用記憶装置を設けたもので、前
記運用系が障害発生によってダウン処理を行うととも
に、系間通信路によりこの障害発生を確認した前記待機
系は前記業務引継用記憶装置を自系に接続して前記運用
系がそれまでに実行していた業務を引き継いで新運用系
として動作するようにした多重化コンピュータシステム
の制御方式において、 前記運用系は、そのダウン状態から復旧したとき、前記
新運用系に対して前記引継用記憶装置を使用しているか
どうかの問い合わせを行い、 これを受けた前記新運用系は、自系で前記共通記憶装置
を使用しているかどうかを確認してその結果を前記運用
系に通知し、 これを受けた前記運用系は、その内容が「使用していな
い」旨であることを確認した上で前記共通記憶装置を再
び自系に接続して自己の担当業務の実行を再開するよう
にしたことを特徴とする多重化コンピュータシステムの
制御方式。 - 【請求項3】 前記新運用系は、自系で前記共通記憶装
置を使用していないことを確認した場合にはこれをオフ
ライン状態としてから前記結果の通知を実行するように
した請求項2記載の多重化コンピュータシステムの制御
方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5176552A JP3025732B2 (ja) | 1993-07-16 | 1993-07-16 | 多重化コンピュータシステムの制御方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5176552A JP3025732B2 (ja) | 1993-07-16 | 1993-07-16 | 多重化コンピュータシステムの制御方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0736721A true JPH0736721A (ja) | 1995-02-07 |
| JP3025732B2 JP3025732B2 (ja) | 2000-03-27 |
Family
ID=16015583
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5176552A Expired - Fee Related JP3025732B2 (ja) | 1993-07-16 | 1993-07-16 | 多重化コンピュータシステムの制御方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3025732B2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999026138A1 (fr) * | 1997-11-14 | 1999-05-27 | Hitachi, Ltd. | Procede de permutation dans un systeme multiplex |
| JP2006012004A (ja) * | 2004-06-29 | 2006-01-12 | Hitachi Ltd | ホットスタンバイシステム |
| JP2007523404A (ja) * | 2004-01-26 | 2007-08-16 | ネットワーク・アプライアンス・インコーポレイテッド | コアダンプに関係するパートナリソースのテイクオーバのためのシステム及び方法 |
| JP2009252188A (ja) * | 2008-04-10 | 2009-10-29 | Nec Corp | フォールトトレラントサーバの動作確認方法及び検査支援プログラム |
| JP2009271858A (ja) * | 2008-05-09 | 2009-11-19 | Toshiba Corp | 計算機システム及びプログラム |
| US8024604B2 (en) | 2008-03-31 | 2011-09-20 | Fujitsu Limited | Information processing apparatus and error processing |
-
1993
- 1993-07-16 JP JP5176552A patent/JP3025732B2/ja not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999026138A1 (fr) * | 1997-11-14 | 1999-05-27 | Hitachi, Ltd. | Procede de permutation dans un systeme multiplex |
| JP2007523404A (ja) * | 2004-01-26 | 2007-08-16 | ネットワーク・アプライアンス・インコーポレイテッド | コアダンプに関係するパートナリソースのテイクオーバのためのシステム及び方法 |
| US7827437B1 (en) | 2004-01-26 | 2010-11-02 | Netapp, Inc. | System and method for takeover of partner re-sources in conjunction with coredump |
| US8032781B1 (en) | 2004-01-26 | 2011-10-04 | Netapp, Inc. | System and method for takeover of partner resources in conjunction with coredump |
| JP2006012004A (ja) * | 2004-06-29 | 2006-01-12 | Hitachi Ltd | ホットスタンバイシステム |
| US8024604B2 (en) | 2008-03-31 | 2011-09-20 | Fujitsu Limited | Information processing apparatus and error processing |
| JP2009252188A (ja) * | 2008-04-10 | 2009-10-29 | Nec Corp | フォールトトレラントサーバの動作確認方法及び検査支援プログラム |
| JP2009271858A (ja) * | 2008-05-09 | 2009-11-19 | Toshiba Corp | 計算機システム及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3025732B2 (ja) | 2000-03-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4628508A (en) | Computer of processor control systems | |
| CA2150059C (en) | Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications | |
| US4941087A (en) | System for bumpless changeover between active units and backup units by establishing rollback points and logging write and read operations | |
| JP4315016B2 (ja) | コンピュータシステムの系切替方法 | |
| US20020120884A1 (en) | Multi-computer fault detection system | |
| JPH0736721A (ja) | 多重化コンピュータシステムの制御方式 | |
| JP3447347B2 (ja) | 障害検出方法 | |
| JP2956849B2 (ja) | データ処理システム | |
| JP3325785B2 (ja) | 計算機の故障検出・回復方式 | |
| JPH10116261A (ja) | 並列計算機システムのチェックポイントリスタート方法 | |
| JPH05314075A (ja) | オンラインコンピュータ装置 | |
| JP3343618B2 (ja) | 端末無中断オンラインシステム | |
| JP2000020336A (ja) | 二重化通信システム | |
| JP2977705B2 (ja) | ネットワーク接続された多重化コンピュータシステムの制御方式 | |
| JP2572176B2 (ja) | パケット交換機のプロセッサ切り替え方式 | |
| JPH06266685A (ja) | 分散形制御システム | |
| JP2908430B1 (ja) | マルチプロセッサシステムのホストプロセッサ監視装置および監視方法 | |
| JPH08249196A (ja) | タスクの冗長化実行方式 | |
| JP3178933B2 (ja) | 冗長系切替えシステムにおける運用情報明渡し装置及び方法 | |
| JPH02310755A (ja) | ヘルスチェック方式 | |
| KR19990050461A (ko) | 고 가용성 시스템의 오류 처리방법 | |
| JPH08235133A (ja) | 多重処理システム | |
| JPH0277943A (ja) | システムリカバリ方法 | |
| JP3105025B2 (ja) | 二重化制御装置 | |
| JP2571003B2 (ja) | データ集信装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |