JPH0736721A

JPH0736721A - 多重化コンピュータシステムの制御方式

Info

Publication number: JPH0736721A
Application number: JP5176552A
Authority: JP
Inventors: Kazuhiro Shimada; 一洋島田; Toshimasa Sogabe; 俊正曾我部; Hiroyuki Nakayama; 博之中山; Keisuke Kawai; 桂介河合
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 1993-07-16
Filing date: 1993-07-16
Publication date: 1995-02-07
Anticipated expiration: 2015-03-27
Also published as: JP3025732B2

Abstract

(57)【要約】【目的】障害原因の解析を迅速に行い、また業務引継
用データの保護をより確実なものにすることを目的とす
る。【構成】多重化コンピュータシステムのある系（運用
系）１で障害が発生したときその原因を調べるためのデ
−タを格納する障害解析用記憶装置３を各コンピュータ
システムに共通のものとして設け、この業務を引き継ぐ
他系（新運用系）２は前記格納処理が終了した後でこの
記憶装置を自系に接続し、その内容を参照することによ
り前記原因を調べている。また、復旧後の運用系１は、
新運用系２の管理下となっている（運用系に対応の）業
務引継用記憶装置４を自系に接続して再び本来の分担業
務を実行しようとするとき、新運用系２に対してこの記
憶装置がオフライン処理されているかどうかを問い合わ
せ、「オフライン処理済」の確認がとれた場合のみ当該
記憶装置を自系に接続するようにしている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一方の系（運用系）で
障害が発生してダウン処理が実行される場合にこの系の
業務を他系（待機系）が引継ぐようにしたもので、銀行
のオンラインシステムや交通管制システムなどの各種シ
ステムに適用される多重化コンピュータシステムに関
し、特に、障害の発生原因を調査するために必要な運用
系内情報を各系に共通の障害解析用記憶装置に格納し、
新運用系（待機系）がこの格納情報に基づいて障害原因
を解析するようにした多重化コンピュータシステムの制
御方式に関するものである。

【０００２】さらには、運用系が処理中の業務を待機系
が引き継ぐために必要なデータ、例えば運用系の障害発
生のために処理が中断してしまった業務データなどを格
納する業務引継用記憶装置を設けておき、運用系の障害
発生を確認した待機系はこの業務引継用記憶装置を自系
に接続して運用系がそれまでに実行していた業務を引き
継いで新運用系となり、その後に復旧した運用系（障害
系）が所定のタイミングでこの業務引継用記憶装置を再
び自系に接続して自己の担当業務の実行を再開するよう
にした多重化コンピュータシステムの制御方式に関す
る。

【０００３】なお、本明細書で用いる「待機系」とはあ
くまで運用系が担当の第１の業務についてのことであ
り、運用系が正常に動作しているときの「待機系」で
は、・他の第２の業務を実行することなしに専ら運用系の障
害発生に備える・他の第２の業務の運用系として動作することなどが選択的に行われている。そして、後者の「待
機系」の場合には、（第１の業務担当の）運用系がダウ
ンすると本来の仕事である第２の業務に加えて第１の業
務をも実行するかたちの「新運用系」となる。

【０００４】

【従来の技術】図５は一般的な二重化コンピュータシス
テムの適用例を示す説明図であり、21はコンピュータシ
ステム（運用系）、22はコンピュータシステム（待機
系）、23、23′はＣＰＵ、24、24′はメモリ（主記憶装
置）、25、25′はディジタルＩ／Ｏコントローラ（DIO
C) 、26、26′はシステムコントローラ、27、27′はフ
ァイル系コントローラ、28、28′は回線系コントロー
ラ、29、29′はＬＡＮコントローラ、30、30′はシステ
ムディスク装置、31、31′はメモリダンプの出力先とし
ての障害解析用ディスク装置、32は二重化切替装置、33
は系間通信パス、34は運用系21および待機系22それぞれ
からの入出力が行われる共通ディスク装置（業務引継用
ディスク装置）、35は運用系21に対応の業務引継用ディ
スク装置、36は待機系22に対応の業務引継用ディスク装
置、37は回線切替え装置、38はＬＡＮやＷＡＮなどのネ
ットワーク、39は端末システムをそれぞれ示している。

【０００５】なお、本明細書で用いる「系間通信路」と
は二重化切替装置32または系間通信パス33のことであ
る。また、本明細書を通じて、障害解析用ディスク装置
および業務引継用ディスク装置のそれぞれを必要に応じ
てディスク装置と記述する。

【０００６】ここで、二重化切替装置32は、コンピュー
タシステム同士の相互監視機能を持っており、運用系21
に電源故障やソフトウェアの異常ループ・内部矛盾など
の各種障害が発生したときにはその旨を示す割込みビッ
トを待機系22に通知し、さらには待機系22の方で系間通
信パス33を介して運用系21の障害を検出したときにはそ
の原因を問合せるための系間通信路として用いられる。

【０００７】また、系間通信パス33は二重化されてお
り、待機系22は、運用系21に対する定周期診断、すなわ
ち定周期で所定のメッセージを送信してこれに対する返
事を確認するといった診断処理を行い、運用系21からの
所定の返事を確認できないときには二重化切替装置32の
表示ビットを使用して運用系21に障害原因を問い合わせ
ている。

【０００８】このように、運用系21からの障害発生通知
といった相互監視ルートと、待機系22から運用系21に送
ったメッセージに対する所定の応答の有無といった定周
期診断ルートとの２系統により、待機系22は各種障害が
発生していないかどうかをチェックしている。

【０００９】そして、待機系22は、前記の相互監視ルー
トまたは定周期診断ルートのいずれかにより障害発生を
確認すると、運用系21に対してもう一方のルート経由で
障害原因を問い合わせるようにしている。

【００１０】これは、相互監視ルートまたは定周期診断
ルートのハードウェア障害が発生しているだけで運用系
21は正常に動作している場合と、運用系21のソフトウェ
アや電源などの障害が発生している場合とを識別し、後
者についてのみ待機系を切り替えて新運用系に設定する
ためである。

【００１１】すなわち、前者の場合には、障害原因の問
い合わせに対する応答として、電源やソフトウェアの正
常動作を示す表示ビットなどが運用系21から待機系22に
送られるが、後者の場合にはこのようなことはない。な
お、相互監視ルートと定周期診断ルートのそれぞれから
障害発生が確認されたときには、待機系22は、運用系21
に対して障害原因を問い合わせることなしに当該運用系
内部での障害発生と判断する。

【００１２】図６は一般的な二重化切替装置32の具体例
を示す説明図であり、23、23′はＣＰＵ、25、25′はデ
ィジタルＩ／Ｏコントローラ（DIOC) 、41は電源異常通
知の入力ビット(COMP)、42はパニック発生通知の入力ビ
ット(CALL)、43はパニック発生通知の出力ビット(PANI
C) 、44はソフトウェア故障通知の入力ビット(WDTI: Wa
tch Dog Timer Input) 、45はウォッチドッグタイマ
ー、46、46′は外部設備インタフェースをそれぞれ示し
ている。

【００１３】ここで、電源が切断した系の外部設備イン
タフェース46、46′の信号が変化すると他系の入力ビッ
ト(COMP)41は“１”から“０”に変化し、「ソフトウェ
ア異常（パニック）」が発生したときのパニック関数が
自系の出力ビット(PANIC) 43をONにすると他系の入力ビ
ット(CALL)42が“０”から“１”に変化する。

【００１４】また、ウォッチドッグタイマー45により異
常ループ（無限ループ）やパニックには至らないＯＳプ
ログラムの内部矛盾（デッドロックなど）といった「ソ
フトウェア故障」が検出されたときには、入力ビット(W
DTI)44の値が変化する。

【００１５】このように、ソフトウェアの故障は、その
コンピュータシステム全体が完全に非動作状態となる
「ソフトウェア異常（パニック）」と、その一部は動作
状態のままとなる可能性が高い「ソフトウェア故障」と
に大別される。

【００１６】このような内容を持つ二重化コンピュータ
システムでは、運用系21の障害発生の原因を調査するた
め、そのメモリ24やシステムディスク装置30などの格納
デ−タをディスク装置31に出力すること、すなわちメモ
リダンプが行われる。

【００１７】そして、この障害原因の解析は、障害発生
状態から復旧した運用系（障害系）21がその再立ち上げ
後に自系のディスク装置31の内容を参照することにより
行っている。

【００１８】また、業務引継用ディスク装置35には運用
系21での直近の処理内容が所定単位で順次格納されてお
り、運用系21の障害発生により待機系22が新運用系に切
り替わる際、新運用系（待機系）22はこのディスク装置
35を参照することにより、業務引継ぎに必要なデ−タ、
すなわち運用系21のダウンのために処理が中断したかた
ちとなっている業務デ−タやそれに関連したデ−タなど
（以下の説明では業務引継用デ−タという）を確認する
ことになる。

【００１９】そして、運用系（障害系）21は、ダウン状
態から正常状態に復旧したとき、任意のタイミングで業
務引継用ディスク装置35を自系に接続して本来の分担業
務の実行を再開するか、またはこの業務引継用ディスク
装置35を自系に接続することなくそれまでの状態を継続
することとしている。

【００２０】このとき、待機系（新運用系）22は、前者
の場合には運用系21から引き継いだ業務の実行から開放
され自系の本来の業務のみを実行し、後者の場合には依
然としてこれらの引継ぎ業務と本来の分担業務のそれぞ
れを実行する。

【００２１】

【発明が解決しようとする課題】このように、従来の多
重化コンピュータシステムの制御方式では、メモリダン
プの出力先として自系内（運用系内）の障害解析用ディ
スク装置を用いその解析作業も復旧後の運用系が行って
おり、また、運用系（障害系）は、復旧した後も自系の
本来の分担業務を新運用系から取り戻さずにいるか、取
り戻すとしても業務引継用ディスク装置を任意のタイミ
ングで自系に接続、すなわちこのディスク装置を新運用
系が使用しているかどうかについての考慮なしに自系に
接続している（図７参照）。

【００２２】そのため、障害解析が遅れ、待機系の負担
をいたずらに増やし、さらには業務引継用ディスク装置
が新運用系で使用されている状態で運用系が当該ディス
ク装置を接続するといったことが発生し、この場合には
新運用系の業務引継用ディスク装置に対する入出力が異
常になるだけでなく、このディスク装置上のデ−タの論
理構成に矛盾が発生して全体のデ−タ破壊を招く恐れが
あるという問題点があった。

【００２３】そこで、本発明では、メモリダンプ先の障
害解析用記憶装置を各コンピュータシステムに共通のも
のとして新運用系がこれに所定のタイミングでアクセス
し、また、復旧後の運用系（障害系）は、新運用系（待
機系）が業務引継用記憶装置を使用しているかどうかを
考慮した上での所定のタイミングでこの記憶装置を接続
することにより、運用系の障害解析を迅速に行うととも
に、復旧後の運用系が本来の担当業務を新運用系（待機
系）から取り戻すに際して業務引継用記憶装置の入出力
動作の正常性が確保されるようにすることを目的とす
る。

【００２４】

【課題を解決するための手段】図１は本発明の基本構成
図である。図において、１は運用系（コンピュータシス
テム）、２は待機系（コンピュータシステム）、３はメ
モリダンプ先の障害解析用記憶装置、４は業務引継用デ
−タを管理するための業務引継用記憶装置をそれぞれ示
している。なお、障害解析用記憶装置３および業務引継
用記憶装置４としてはディスク装置などが用いられる。

【００２５】業務引継用記憶装置４は運用系１の担当業
務についてのものであり、また、待機系２は少なくとも
運用系１と同程度の処理能力を持つコンピュータシステ
ムであり、両者の間では従来と同じように相互監視や定
周期診断が行われている。

【００２６】ここで、運用系で障害が発生してその後復
旧したときの運用系および待機系における基本的な処理
手順は次のようになっている。すなわち、待機系２で
は、 ′相互監視機能や定周期診断機能により障害発生を確
認して運用系１に対し強制ダウン処理の指示を送る。 ′運用系１でのダウン処理にともなって業務引継用記
憶装置４を自系に接続する。 ′運用系１からのダンプ処理の終了通知を受けてから
障害解析用記憶装置３を自系に接続する。 ′復旧後の運用系１からの問い合わせに応じて業務引
継用記憶装置４を自系で使用しているどうかを調べ、
「使用していない」場合にはこの業務引継用記憶装置４
をオフライン処理してその旨を、また「使用している」
場合にはその旨をそれぞれ運用系１に回答する。といった一連の処理を実行している。

【００２７】一方、運用系１では、自系での障害発生を待機系２に通知する。待機系２からの指示（ステップ′）に基づいて強制
ダウン処理を行い、また、障害原因が前記の「ソフトウ
ェア異常（パニック）」であるときは自発的ダウン処理
が行われる。なお、この処理においてはダンプ処理が伴
い、障害解析に必要なデ−タを主記憶装置などから障害
解析用記憶装置３に格納される。ダンプ処理が終了したことを待機系２に通知する。復旧後、待機系２に対して、業務引継用記憶装置４を
使用しているかどうかを問い合わせるとともに、使用し
ていない場合にはこの記憶装置のオフライン処理を要求
する。待機系２からの応答（ステップ′）に基づき、それ
が「オフライン処理済」を示すものである場合には業務
引継用記憶装置４を自系に再接続し、「使用中」を示す
ものである場合にはこの自系への再接続を行わない。といった一連の処理を実行している。

【００２８】

【作用】本発明は、このように、障害解析用記憶装置を
運用系と待機系とに共通の記憶装置で構成しておき、待
機系は、運用系での障害発生にともなうダンプ処理の終
了を確認した後でこれを自系に接続し、また、復旧後の
運用系（障害系）は、新運用系（待機系）が業務引継用
記憶装置のオフライン処理を行ったことを確認してから
これを自系に接続している。

【００２９】そのため、障害発生の原因解析が迅速に行
われ、さらには運用系（障害系）において担当業務の実
行を再開するに際し、当該運用系が、新運用系（待機
系）で使用中の業務引継用記憶装置を自系に接続してし
まうといったことは発生せず、この記憶装置のデ−タを
より確実に保護することができる。なお、図示していな
いが複数の待機系の場合にも本発明が適用できることは
勿論である。

【００３０】

【実施例】図２〜図４を参照して本発明の実施例を説明
する。なお、以下の説明でも、多重化コンピュータシス
テムの一例として二重化コンピュータシステムを用いる
ことにする。

【００３１】図２は、二重化コンピュータシステムの適
用例を示す説明図であり、図５のものに比べ、ハードウ
ェアの点では各系の個々の障害解析用ディスク装置31、
31′を除いてその代わりに各系に共通の障害解析用ディ
スク装置40を新たに設けたことなどが相違している。

【００３２】図３は、運用系21で障害が発生したときの
メモリダンプ関連の処理手順を示す説明図である。ここ
で、待機系22の処理は次のようになっている。 (11)二重化切替装置32における運用系21からの入力ビッ
ト41、42、44の変化や、系間通信パス33を用いた定周期
診断結果に基づいて運用系21または系間ハードウェア
（二重化切替装置32、系間通信路パス33など）での障害
発生を確認する。 (12)この確認に用いられなかった方のルート、すなわち
入力ビット41、42、44の変化があったときには系間通信
路パス33により、また定周期診断結果で障害発生を確認
したときには二重化切替装置32によりそれぞれの障害原
因を運用系21に問い合わせる。 (13)この問い合わせに対して所定の監視時間内に応答が
ない場合には運用系21でのソフトウェア障害、電源故障
などと判断し、自系の新運用系への切替え処理を行う。

【００３３】そして、このステップ(13)では、・DIOC25′経由による運用系21への強制ダウン指示・運用系21に対応の業務引継用ディスク装置35の自系へ
の接続・ネットワーク38経由による、新運用系への切替えの利
用者への通知・メモリダンプの出力完了（障害解析用ディスク装置40
への格納処理完了）の確認・障害解析用ディスク装置40の自系への接続を順次行っている。

【００３４】一方、運用系（障害系）21では、「ソフト
ウェア異常（パニック）」による障害発生の場合の自発
的ダウン処理や新運用系（待機系22）からの指示に基づ
く強制ダウン処理に続いてメモリダンプの出力処理が行
われ、この出力処理が完了したときにはその旨の通知を
新運用系（待機系22）に送っている。なお、この通知に
は二重化処理装置32の出力ビット(PANIC) 43と入力ビッ
ト(CALL)42とが用いられる。

【００３５】図４は、復旧後の運用系が業務引継用ディ
スク装置35を強制リザーブするときの処理手順を示す説
明図である。すなわち、復旧後の運用系（障害系）21か
ら新運用系（待機系）22への、ディスク装置35のオフラ
イン・リリース指示に対して新運用系22は、 (21)ディスク装置35を使用しているかどうかを判断し、
「YES 」の場合はその旨を運用系21に通知し、「NO」の
場合は次のステップに進む。 (22)ディスク装置35を使用禁止の状態（オフライン）に
して、次のステップに進む。 (23)ディスク装置35に対してリリースを発行してリザー
ブ状態を解除することができたかどうかを判断してその
結果を運用系21に通知する。といった処理を行う。

【００３６】なお、運用系（障害系）21から新運用系
（待機系）22に対するオフライン・リリース指示および
これに対する新運用系22から運用系21への応答はそれぞ
れ系間通信パス33経由で行われる。

【００３７】続いて、復旧後の運用系21は、 (24)先の新運用系22からの回答に基づいて、新運用系22
がディスク装置35をリリースできたかどうかを判断し、
「YES 」の場合は次のステップに進み、「NO」の場合は
「自系への業務引継用ディスク装置35の強制リザーブが
不調」ということで終了する。 (25)ディスク装置35を自系に接続する。といった処理を行っている。

【００３８】

【発明の効果】本発明は、このように、多重化コンピュ
ータシステムのある系（運用系）で障害が発生したとき
その原因を調べるためのデ−タを格納する障害解析用記
憶装置を各コンピュータシステムに共通のものとして設
け、この系の業務を引き継ぐ他系（新運用系）は前記格
納処理が終了した後でこの障害解析用記憶装置を自系に
接続してその内容を参照することにより前記原因を調べ
ている。

【００３９】また、復旧後の運用系は、新運用系の管理
下となっている（運用系に対応の）業務引継用記憶装置
を自系に接続して再び本来の分担業務を実行しようとす
るとき、新運用系に対してこの記憶装置がオフライン処
理されているかどうかを問い合わせ、「オフライン処理
済」の確認がとれた場合のみ当該記憶装置を自系に接続
するようにしている。

【００４０】そのため、障害原因の解析を迅速に行うこ
とができ、また、業務引継用記憶装置に対して運用系
（障害系）と新運用系（待機系）の両方の系からアクセ
ス可能といったことは発生せず、この記憶装置のデ−タ
保護をより確実なものにすることができる。

【図面の簡単な説明】

【図１】本発明の、基本構成図である。

【図２】本発明の、二重化コンピュータシステムの適用
例を示す説明図である。

【図３】本発明の、運用系で障害が発生したときのメモ
リダンプ関連の処理手順を示す説明図である。

【図４】本発明の、復旧後の運用系が業務引継用ディス
ク装置を強制リザーブするときの処理手順を示す説明図
である。

【図５】一般的な、二重化コンピュータシステムの適用
例を示す説明図である。

【図６】一般的な、二重化切替装置の具体例を示す説明
図である。

【図７】従来の、復旧後の運用系が業務引継用ディスク
装置を強制リザーブするときの様子を示す説明図であ
る。

【符号の説明】

図１において、１・・・運用系（コンピュータシステム）２・・・待機系（コンピュータシステム）３・・・障害解析用記憶装置４・・・業務引継用記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者中山博之神奈川県大和市深見西四丁目２番49号株式会社ピーエフユー大和工場内 (72)発明者河合桂介神奈川県大和市深見西四丁目２番49号株式会社ピーエフユー大和工場内

Claims

【特許請求の範囲】

【請求項１】複数のコンピュータシステムの内の任意
の一つを運用系に、他のものを待機系とするもので、前
記運用系が障害発生によってダウン処理を行うとき、こ
の障害原因を調査するために必要な運用系内情報を障害
解析用記憶装置に格納するといったダンプ処理を行うと
ともに、系間通信路により前記障害発生を知った前記待
機系が新運用系として動作するようにした多重化コンピ
ュータシステムの制御方式において、前記障害解析用記憶装置を、前記コンピュータシステム
のそれぞれから入出力可能なかたちで設け、前記運用系は、前記運用系内情報の前記障害解析用記憶
装置への前記格納処理が終了した後でその旨を前記新運
用系に通知し、前記新運用系は、この通知を受けた後で前記障害解析用
記憶装置のデータを取り出して前記障害原因を解析する
ようにしたことを特徴とする多重化コンピュータシステ
ムの制御方式。
【請求項２】複数のコンピュータシステムの内の任意
の一つを運用系に、他のものを待機系とし、前記運用系
が処理中の業務を前記待機系で引き継ぐために必要なデ
ータを格納する業務引継用記憶装置を設けたもので、前
記運用系が障害発生によってダウン処理を行うととも
に、系間通信路によりこの障害発生を確認した前記待機
系は前記業務引継用記憶装置を自系に接続して前記運用
系がそれまでに実行していた業務を引き継いで新運用系
として動作するようにした多重化コンピュータシステム
の制御方式において、前記運用系は、そのダウン状態から復旧したとき、前記
新運用系に対して前記引継用記憶装置を使用しているか
どうかの問い合わせを行い、これを受けた前記新運用系は、自系で前記共通記憶装置
を使用しているかどうかを確認してその結果を前記運用
系に通知し、これを受けた前記運用系は、その内容が「使用していな
い」旨であることを確認した上で前記共通記憶装置を再
び自系に接続して自己の担当業務の実行を再開するよう
にしたことを特徴とする多重化コンピュータシステムの
制御方式。
【請求項３】前記新運用系は、自系で前記共通記憶装
置を使用していないことを確認した場合にはこれをオフ
ライン状態としてから前記結果の通知を実行するように
した請求項２記載の多重化コンピュータシステムの制御
方式。