JPH0362235A

JPH0362235A - 複合システムにおけるダウン監視処理方式

Info

Publication number: JPH0362235A
Application number: JP1198539A
Authority: JP
Inventors: Koichi Shiga; 浩一志賀; Yukiyoshi Yanase; 柳瀬　幸好; Kazunori Hiraishi; 平石　壽徳
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-07-31
Filing date: 1989-07-31
Publication date: 1991-03-18
Anticipated expiration: 2013-02-18
Also published as: JP2716537B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕ある業務またはクラスタが異常状態に陥ったことを、異
常状態に陥った業務またはクラスタからダウン監視機構
に通知する複合システムにおけるダウン監視処理方式に
関し。

ダウンの監視機構をＯＳレベルで統合化するとともに、
異常発生のＵＡｇｌｉおよび異常に対する処理を効率的
に実行できるようにすることを目的とし。

各クラスタごとにダウン監視機構を有し、各ダウン監視
機構は、自クラスタ内におけるサブシステムの異常発生
を監視する手段と、自クラスタ内におけるサブシステム
に異常が発生した場合に。

そのサブシステムが異常状態に陥ったことを、他クラス
タに存在するダウン監視機構に通知する手段と、他クラ
スタからサブシステムに関する異常通知を受けた場合に
、あらかしめ登録されている同種のサブシステムまたは
異常に関係する処理を行う処理部を呼び出す手段とを備
えるように構成する。

〔産業上の利用分野〕

本発明は、ある業務またはクラスタが異常状態に陥った
ことを、異常状態に陥った業務またはクラスタからダウ
ン監視機構に通知する複合システムにおけるダウン監視
処理方式に関する。

複数の計算機を通信路等で結合した複合システムを構築
した場合、ある計算機の異常を、他の正常な計算機が認
識する機構が必要とされる。この機構を、“ダウン監視
機構”という、複合システムをＩＩ處する計算機を、“
クラスタ”という。

また、複数のクラスタで同種の業務を遂行するサブシス
テムを動作させ、あるクラスタにおけるサブシステムに
異常が発生した場合、他のクラスタにおけるサブシステ
ムが、異常になったサブシステムの資源などを回収し、
可能であれば、その業務を引き継ぐようなことが必要と
される。

〔従来の技術〕

第８図は従来のダウン監視の例を示す。

従来の複合システムにおけるダウン監視機構１５Ａ、１
５Ｂは、第８図に示すように、正常なりラスタ１３Ａ、
１３Ｂが相互に、いわゆる“Ｉ”ｍＡＬＩＶＥ”という
ような生存通知を行い、異常クラスタを監視する方式を
採用していた。この生存通知が、ある定められた期間内
に到着しない場合には。

何回かの生存問い合わせを行い５それでも応答がないと
きに、相手が異常状態に陥っていると認識する。

また、ある業務を遂行する同種のサブシステムが、相互
に異常を監視する場合にも、それぞれのサブシステムご
とに、定期的に生存通知を行うなどして、異常の発生を
認識するようにしていた。

〔発明が解決しようとする課題〕

従来のダウン監視では、相互に、自分が正常であること
を通知する生存通知を、定期的にある間隔で行うために
、異常が発生しても、他のクラスタは、直ちには異常の
発生を認識することができず１通知の間隔分だけ、異常
の検出が遅延するという問題があった。

また、ある業務を遂行する同種のサブシステムが、相互
に異常を監視するような場合、ダウン監視機構を“業Ｉ
Ｍ（サブシステム）″ごとに作威しなければならないた
め、その開発負担が大きくなるという問題があった。さ
らに、１つのクラスタ内で複数のサブシステムが動作す
るような場合に。

各サブシステムごとに、ダウン監視機構が必要になるた
め、ｃｐｕ資源やメモリ資源などが圧迫されるという問
題があった。

本発明は上記問題点の解決を図り、ダウンの監視ＩＱ横
をＯＳレベルで統合化するとともに、異常発生の認識お
よび異常に対する処理を効率的に実行できるようにする
ことを目的としている。

〔課題を解決するための手段〕

第１図は本発明の構成例を示す。

第１図において、１０は各クラスタが共通にアクセスで
きるようになっているクラスタ関外部記憶装置、１１は
クラスタ間の通信データを格納するクラスタ間通信域、
１２はクラスタの状態（運用中、停止中、ダウン中等）
を管理するクラスタ監視表を表す。

１３Ａ、１３ＢはそれぞれＣＰＵやメモリを持つ処理装
置で構成されるクラスタ、１４Ａ、１４Ｂは自クラスタ
で動作するサブシステムの状態（運用中、停止中、ダウ
ン中等）を管理するサブシステム監視表、１５Ａ、１５
Ｂはオペレーティング・システム（Ｏ３）レベルで統合
化してシステムの整合性を実現するダウン監視機構、１
６は監視部、１７は通知部、１Ｂは出口スケジュール部
、Ｓｌ−Ｓ３はデータベース管理、ＴＳＳその他の各種
業務を遂行するサブシステム、Ｅｌは異常が発生したサ
ブシステムの持っていた資源を回収する障害後処理など
を行う窓口となる資源回収出口を表す。

本発明では、各クラスタ１３Ａ、１３Ｂごとに。

ＯＳレベルでダウン監視機構１５Ａ、１５Ｂを持つ。

各ダウン監視機構１５Ａ、１５Ｂは、監視部１６、通知
部１７．出口スケジュール部１８の各処理部を持つ、監
視部１６は、自クラスタ内におけるサブシステム３１〜
Ｓ３の異常発生を監視する処理を行う０通知部１７は、
自クラスタ内におけるサブシステム５１〜Ｓ３のどれか
に異常が発生した場合に、そのサブシステムが異常状態
に陥ったことを、クラスタ間通信域１１などを介して。

他クラスタに存在するダウン監視機構に通知する処理を
行う、出口スケジュール部１８は、他クラスタからサブ
システムに関する異常通知を受けた場合に、サブシステ
ム監視表１４Ｂなどを参照し。

あらかじめ登録されている同種のサブシステムまたは異
常に関係する処理を行う処理部、すなわちサブシステム
対応の資源回収出口Ｅｌなどを呼び出す処理を行う。

〔作用〕

あるサブシステムが運用を継続できない状態に陥った場
合に、サブシステム運用環境の回収などを行うサブシス
テムダウン処理に先立って、他クラスタに異常を通知す
る０本発明では、このようなりラスタ監視およびサブシ
ステムの監視の機構を、ダウン監視機構１５Ａ、１５Ｂ
として、ＯＳレベルで統合化し、システムの整合性を実
現する。

各サブシステム５ｌ−５３は、あらかじめ監視依頼を、
ダウン監視機構１５Ａ、１５Ｂに対して行っておく、ダ
ウン監視機構１５Ａ、１５Ｂは。

サブシステム監視表１４Ａ、１４Ｂに、監視対象となる
サブシステムの状態を登録する。

各サブシステム５Ｌ−５３は、自サブシステムの異常を
検出したときに、自己申告により、異常となったサブシ
ステム塩を、ダウン監視機構１５Ａ等に通知する。また
、ダウン監視機構１５Ａ等は、監視部１６による各サブ
システム３１−３３ごとの生存通知出口のスケジュール
などにより。

サブシステムの異常を検出する。

例えば、クラスタ１３Ａにおいて、ダウン監視機構１５
ＡがサブシステムＳ１の異常を検出した場合１通知部１
７は、クラスタ１３Ｂのダウン監視機構１５Ｂに、“適
当な通信手段を利用して、その異常を通知する０通知す
る情報は、異常状態に陥ったクラスタ名とサブシステム
塩などである。

通知を受けたクラスタ１３Ｂにおけるダウン監視機構１
５Ｂの出口スケジュール部１８は、異常になったサブシ
ステムＳｌのサブシステム塩により、サブシステム監視
表１４Ｂを検索し、自りラスクにおいて動作しているサ
ブシステムＳｌの資源回収出口Ｅ１をスケジュールする
。この資源回収出口Ｅｌにより、クラスタ１３Ａにおけ
る異常になったサブシステムＳ１が使用していた運用環
境などの資源を回収し、必要に応じて処理中であったト
ランザクションなどの処理を引き継ぐ。

〔実施例〕

第２図は本発明の適用システムの例、第３図は本発明の
実施例で用いる制御テーブルの例、第４図は本発明の実
施例に係るダウン監視機構の初期化時の処理フロー９、
第５図は本発明の実施例に係る監視部処理フロー、第６
図は本発明の実施例に係るダウン監視機構処理説明図、
第７図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例を示す。

本発明は１例えば第２図に示すような複合システムに適
用することができる。システム記憶装置２１は、クラス
タ間通信機能を持ち１例えばクラスタ間で共用可能な半
導体記憶装置で構成される。

なお、この例におけるクラスタ間通信機能を、従来のプ
ロセッサ間通信などによる通信機能に置き換え、クラス
タ間で共用可能な外部記憶装置としての機能を、磁気デ
ィスク装置等のＤＡＳＤに置き換えることも可能である
。

第２図に示す例では、各クラスタを構成する処理部２３
が、ＣＰＵ２４およびローカルに使用するメモリ２５を
持ち、システム記憶装置２１に対しては、メモリ制御装
置（ＭＣＵ）２２を介して。

アクセスできるようになっている。

第１図に示すクラスタ間通信域１１．クラスタ監視表１
２は、システム記憶装置２１内に作威し。

第１図に示すサブシステム監視表１４Ａ、１４Ｂは、各
クラスタのメモリ２５内に作成する。

クラスタ監視表１２は、各クラスタの運用状態を監視す
るためのものであり９例えば第３図（イ）に示すような
情報の記憶領域からなる。

クラスタ識別子は、複合システム内でクラスタを一意に
決定する識別名または識別番号である。

状態表示域には、クラスタが動作を開始し、監視対象に
なった旨の表示や、生存表示などが行われる。動作中の
サブシステム数の領域に、そのクラスタで動作している
サブシステムの数が格納される。資源回収出口のポイン
タ情報は、クラスタが異なっても、異常になったクラス
タの資源を回収するための資源回収出口の仮想空間アド
レスを。

正しく把握できるようにするための情報である。

サブシステム監視表１４は、各クラスタごとのサブシス
テムの運用状態を監視するためのものであり９例えば第
３図（ロ）に示すような情報の記憶領域からなる。

サブシステム識別子は、サブシステムを一意に識別する
情報である。状態表示域には、そのサブシステムが監視
対象になった旨の表示や、生存表示などが行われる。生
存通知出口アドレスは、定期的にある間隔で生存通知を
行わせるために、ダウン監視機構が呼び出す出口のアド
レスである。

資源回収出口アドレスは、他クラスタで動作している同
種のサブシステムの資源回収を行うために。

他クラスタがダウンまたは他クラスタにおけるサブシス
テムがダウンしたときを契機として、ダウン監視機構が
呼び出す資源回収ルーチンのアドレスである。

第１図に示すダウン監視機構１５Ａ、１５Ｂの初期化時
の処理は１例えば第４図に示すとおりである。

■　各クラスタが共用するシステム記憶の初期化が必要
かどうかを判定する。他のクラスタが既に初期化を行っ
ている場合には、初期化の必要がないので１次の処理■
をスキップする。

■　クラスタ監視表１２を初期化する。

■　クラスタ監視表１２中に自クラスタの生存表示があ
るかどうかを判定する。自クラスタの生存表示がある場
合、前に自クラスタに異常が発生し、現在そのダウン後
の再立ち上げ処理中であることになる。したがって１次
の処理■を実行する。生存表示がない場合９次の処理■
をスキップする。

■　障害に対する後処理のため、資源回収出口を呼び出
し、以前使用していたシステム記憶資源を返却する。

■　クラスタ監視表１２に、自クラスタに関する情報を
登録する。

■　クラスタ監視表１２に、自クラスタの生存表示を行
う。

■　周期的に動作する監視部１６に、起動の契機を与え
る。その後、初期化処理を終了する。

起動された監視部１６は、第５図に示す処理■〜■のよ
うな処理を実行する。

■　他クラスタに、自クラスタの生存通知を行うための
“Ｉ’ｓ　ＡＬＩＶＥ”通信の時間間隔を設定する。

■　他クラスタから送ら、れてくる“ｌ’ｗ　ＡＬＩＶ
Ｅ’通信の監視時間間隔を設定する。

■　自クラスタ内におけるサブシステムの生存通知出口
をスケジュールする監視時間間隔を設定する。その後、
監視を開始する。

■　サブシステムの監視時間になったならば、監視対象
となっているサブシステムの生存通知出口をスケジュー
ルし、呼び出す、この処理を。

所定の監視時間間隔ごとに行う、なお１図示省略するが
、他クラスタへの自クラスタの生存通知、および他クラ
スタからの生存通知未着の監視も、所定の時間間隔ごと
に行う、この生存通知に関する処理は、従来の処理と同
様でよい。

各サブシステム３１等と、ダウン監視機構１５とのイン
タフェースは１例えば第６図に示すよっになっている。

各サブシステム３１等は、ダウン監視機構１５に対し、
マクロインタフェースにより、サブシステム監視の依頼
を行う。これに対し、ダウン監視機ｌ１１５は、サブシ
ステム監視表に、サブシステム識別子、生存通知出口、
資源回収出口などの監視に必要な情報を登録する。以後
、第５図に示した監視部の処理などにより、このサブシ
ステムの監視が行われることになる。

ダウン監視機構１５の監視部は、定期的に、サブシステ
ム監視表に登録された生存通知出口をスケジュールする
。この生存通知出口では、自サブシステムが正常に動作
していれば、生存主張をマクロインタフェースで行う、
ダウン監視機構１５は、サブシステム監視表の状態表示
域に、当該サブシステムが生存していることを表示する
。ある時間を待っても、生存通知がない場合には、この
サブシステムに異常が発生したとみなす。

また、サブシステム３１等が、自ら異常を検出した場合
には、マクロインタフェースにより、ダウン監視機構１
５に対し、異常の自己申告を行う。

なお、サブシステムが自分自身の動作異常を検出する技
術は、従来から種々の方式が知られているので、ここで
の詳細な説明は省略する。

ダウン監視機構１５は、サブシステム３１等が異常状態
に陥ったことを検出したならば、他クラスタのダウン監
視機構１５へダウンの通知を行う。

なお、ダウン監視機構１５に対するサブシステム監視の
依頼のタイプによっては、他クラスタのダウン監視機構
１５に対する通知の後で、クラスタ停止をスケジュール
する。

サブシステムＳ１等は、処理を終了するとき。

マクロインタフェースにより、サブシステム監視からの
離脱を、ダウン監視機構１５に依頼する。

これに対し、ダウン監視機構１５は、サブシステム監視
表からの削除を行う、また、必要に応じて。

クラスタ監視表から、自りラスタ分の資源回収ルーチン
（資源回収出口〉の削除を行う。

他クラスタから、クラスタまたはサブシステムのダウン
通知があった場合、ダウン監視機構１５は、第７図に示
す処理を行う。

ダウン監視機構１５は１通知を受けたクラスタ内にある
サブシステム監視表を参照して、これに登録されている
ダウン監視対象サブシステムの資源回収出口Ｅｌをスケ
ジュールし、同種のサブシステムにダウンの旨を通知す
る。これによって。

そのサブシステムＳｔは、異常になったサブシステムの
資源を回収し、必要に応じてその業務を引き継ぐことが
できる。

なお、クラスタ停止タイプの場合には、資源回収出口の
スケジュールに先立って、クラスタ間共有資源（システ
！、資′ａ）の回収処理を行う。

〔発明の効果〕

以上説明したように１本発明によれば、従来の生存通知
のみによる監視方式に比較して、以下の効果がある。

（ａ）　　他クラスタの異常をシステムの負荷状態に影
響されないで正確に、かつ異常発生個所からの自己申告
などによって瞬時に認識することができるようになる。

特に、ホットスタンバイシステム等において、システム
切り替え処理などの高速化が可能になるので、有用であ
る。

へ）ダウン監視機構の統合化により、クラスタ異常、ま
たはある業務異常を、複数のダウン監視機構で監視する
必要がなく、ダウン監視機構間の認識のズレの問題をな
くすことが可能となる。

【図面の簡単な説明】

第１図は本発明の構成例。第２図は本発明の適用システムの例。第３図は本発明の実施例で用いる制御テーブルの例。第４図は本発明の実施例に係るダウン監視機構の初期化
時の処理フロー第５図は本発明の実施例に係る監視部処理フロ第６図は
本発明の実施例に係るダウン監視機構処理説明図。第７図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例。第８図は従来のダウン監視の例を示す。図中、１０はクラスタ間外部記憶装置、１１はクラスタ
間通信域、１２はクラスタ監視表、１３Ａ、１３Ｂはク
ラスタ、１４Ａ、１４Ｂはサブシステム監視表、１５Ａ
、１５Ｂはダウン監視機構。１６は監視部、１７は通知部、１８は出口スケジュール
部、Ｓｌ〜Ｓ３はサブシステム、Ｅｌは資源回収出口を
表す。

Claims

【特許請求の範囲】各々計算機を有する複数のクラスタ（１３Ａ、１３Ｂ）
からなる複合システムにおいて、各クラスタごとにダウ
ン監視機構（１５Ａ、１５Ｂ）を有し、各ダウン監視機構は、自クラスタ内におけるサブシステムの異常発生を監視す
る手段（１６）と、自クラスタ内におけるサブシステムに異常が発生した場
合に、そのサブシステムが異常状態に陥ったことを、他
クラスタに存在するダウン監視機構に通知する手段（１
７）と、他クラスタからサブシステムに関する異常通知を受けた
場合に、あらかじめ登録されている同種のサブシステム
または異常に関係する処理を行う処理部を呼び出す手段
（１８）とを備えたことを特徴とする複合システムにお
けるダウン監視処理方式。