JPH0362235A - 複合システムにおけるダウン監視処理方式 - Google Patents

複合システムにおけるダウン監視処理方式

Info

Publication number
JPH0362235A
JPH0362235A JP1198539A JP19853989A JPH0362235A JP H0362235 A JPH0362235 A JP H0362235A JP 1198539 A JP1198539 A JP 1198539A JP 19853989 A JP19853989 A JP 19853989A JP H0362235 A JPH0362235 A JP H0362235A
Authority
JP
Japan
Prior art keywords
subsystem
cluster
abnormality
monitoring
monitoring mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1198539A
Other languages
English (en)
Other versions
JP2716537B2 (ja
Inventor
Koichi Shiga
浩一 志賀
Yukiyoshi Yanase
柳瀬 幸好
Kazunori Hiraishi
平石 壽徳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1198539A priority Critical patent/JP2716537B2/ja
Publication of JPH0362235A publication Critical patent/JPH0362235A/ja
Application granted granted Critical
Publication of JP2716537B2 publication Critical patent/JP2716537B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 ある業務またはクラスタが異常状態に陥ったことを、異
常状態に陥った業務またはクラスタからダウン監視機構
に通知する複合システムにおけるダウン監視処理方式に
関し。
ダウンの監視機構をOSレベルで統合化するとともに、
異常発生のUAgliおよび異常に対する処理を効率的
に実行できるようにすることを目的とし。
各クラスタごとにダウン監視機構を有し、各ダウン監視
機構は、自クラスタ内におけるサブシステムの異常発生
を監視する手段と、自クラスタ内におけるサブシステム
に異常が発生した場合に。
そのサブシステムが異常状態に陥ったことを、他クラス
タに存在するダウン監視機構に通知する手段と、他クラ
スタからサブシステムに関する異常通知を受けた場合に
、あらかしめ登録されている同種のサブシステムまたは
異常に関係する処理を行う処理部を呼び出す手段とを備
えるように構成する。
〔産業上の利用分野〕
本発明は、ある業務またはクラスタが異常状態に陥った
ことを、異常状態に陥った業務またはクラスタからダウ
ン監視機構に通知する複合システムにおけるダウン監視
処理方式に関する。
複数の計算機を通信路等で結合した複合システムを構築
した場合、ある計算機の異常を、他の正常な計算機が認
識する機構が必要とされる。この機構を、“ダウン監視
機構”という、複合システムをII處する計算機を、“
クラスタ”という。
また、複数のクラスタで同種の業務を遂行するサブシス
テムを動作させ、あるクラスタにおけるサブシステムに
異常が発生した場合、他のクラスタにおけるサブシステ
ムが、異常になったサブシステムの資源などを回収し、
可能であれば、その業務を引き継ぐようなことが必要と
される。
〔従来の技術〕
第8図は従来のダウン監視の例を示す。
従来の複合システムにおけるダウン監視機構15A、1
5Bは、第8図に示すように、正常なりラスタ13A、
13Bが相互に、いわゆる“I”mALIVE”という
ような生存通知を行い、異常クラスタを監視する方式を
採用していた。この生存通知が、ある定められた期間内
に到着しない場合には。
何回かの生存問い合わせを行い5それでも応答がないと
きに、相手が異常状態に陥っていると認識する。
また、ある業務を遂行する同種のサブシステムが、相互
に異常を監視する場合にも、それぞれのサブシステムご
とに、定期的に生存通知を行うなどして、異常の発生を
認識するようにしていた。
〔発明が解決しようとする課題〕
従来のダウン監視では、相互に、自分が正常であること
を通知する生存通知を、定期的にある間隔で行うために
、異常が発生しても、他のクラスタは、直ちには異常の
発生を認識することができず1通知の間隔分だけ、異常
の検出が遅延するという問題があった。
また、ある業務を遂行する同種のサブシステムが、相互
に異常を監視するような場合、ダウン監視機構を“業I
M(サブシステム)″ごとに作威しなければならないた
め、その開発負担が大きくなるという問題があった。さ
らに、1つのクラスタ内で複数のサブシステムが動作す
るような場合に。
各サブシステムごとに、ダウン監視機構が必要になるた
め、cpu資源やメモリ資源などが圧迫されるという問
題があった。
本発明は上記問題点の解決を図り、ダウンの監視IQ横
をOSレベルで統合化するとともに、異常発生の認識お
よび異常に対する処理を効率的に実行できるようにする
ことを目的としている。
〔課題を解決するための手段〕
第1図は本発明の構成例を示す。
第1図において、10は各クラスタが共通にアクセスで
きるようになっているクラスタ関外部記憶装置、11は
クラスタ間の通信データを格納するクラスタ間通信域、
12はクラスタの状態(運用中、停止中、ダウン中等)
を管理するクラスタ監視表を表す。
13A、13BはそれぞれCPUやメモリを持つ処理装
置で構成されるクラスタ、14A、14Bは自クラスタ
で動作するサブシステムの状態(運用中、停止中、ダウ
ン中等)を管理するサブシステム監視表、15A、15
Bはオペレーティング・システム(O3)レベルで統合
化してシステムの整合性を実現するダウン監視機構、1
6は監視部、17は通知部、1Bは出口スケジュール部
、Sl−S3はデータベース管理、TSSその他の各種
業務を遂行するサブシステム、Elは異常が発生したサ
ブシステムの持っていた資源を回収する障害後処理など
を行う窓口となる資源回収出口を表す。
本発明では、各クラスタ13A、13Bごとに。
OSレベルでダウン監視機構15A、15Bを持つ。
各ダウン監視機構15A、15Bは、監視部16、通知
部17.出口スケジュール部18の各処理部を持つ、監
視部16は、自クラスタ内におけるサブシステム31〜
S3の異常発生を監視する処理を行う0通知部17は、
自クラスタ内におけるサブシステム51〜S3のどれか
に異常が発生した場合に、そのサブシステムが異常状態
に陥ったことを、クラスタ間通信域11などを介して。
他クラスタに存在するダウン監視機構に通知する処理を
行う、出口スケジュール部18は、他クラスタからサブ
システムに関する異常通知を受けた場合に、サブシステ
ム監視表14Bなどを参照し。
あらかじめ登録されている同種のサブシステムまたは異
常に関係する処理を行う処理部、すなわちサブシステム
対応の資源回収出口Elなどを呼び出す処理を行う。
〔作用〕
あるサブシステムが運用を継続できない状態に陥った場
合に、サブシステム運用環境の回収などを行うサブシス
テムダウン処理に先立って、他クラスタに異常を通知す
る0本発明では、このようなりラスタ監視およびサブシ
ステムの監視の機構を、ダウン監視機構15A、15B
として、OSレベルで統合化し、システムの整合性を実
現する。
各サブシステム5l−53は、あらかじめ監視依頼を、
ダウン監視機構15A、15Bに対して行っておく、ダ
ウン監視機構15A、15Bは。
サブシステム監視表14A、14Bに、監視対象となる
サブシステムの状態を登録する。
各サブシステム5L−53は、自サブシステムの異常を
検出したときに、自己申告により、異常となったサブシ
ステム塩を、ダウン監視機構15A等に通知する。また
、ダウン監視機構15A等は、監視部16による各サブ
システム31−33ごとの生存通知出口のスケジュール
などにより。
サブシステムの異常を検出する。
例えば、クラスタ13Aにおいて、ダウン監視機構15
AがサブシステムS1の異常を検出した場合1通知部1
7は、クラスタ13Bのダウン監視機構15Bに、“適
当な通信手段を利用して、その異常を通知する0通知す
る情報は、異常状態に陥ったクラスタ名とサブシステム
塩などである。
通知を受けたクラスタ13Bにおけるダウン監視機構1
5Bの出口スケジュール部18は、異常になったサブシ
ステムSlのサブシステム塩により、サブシステム監視
表14Bを検索し、自りラスクにおいて動作しているサ
ブシステムSlの資源回収出口E1をスケジュールする
。この資源回収出口Elにより、クラスタ13Aにおけ
る異常になったサブシステムS1が使用していた運用環
境などの資源を回収し、必要に応じて処理中であったト
ランザクションなどの処理を引き継ぐ。
〔実施例〕
第2図は本発明の適用システムの例、第3図は本発明の
実施例で用いる制御テーブルの例、第4図は本発明の実
施例に係るダウン監視機構の初期化時の処理フロー9、
第5図は本発明の実施例に係る監視部処理フロー、第6
図は本発明の実施例に係るダウン監視機構処理説明図、
第7図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例を示す。
本発明は1例えば第2図に示すような複合システムに適
用することができる。システム記憶装置21は、クラス
タ間通信機能を持ち1例えばクラスタ間で共用可能な半
導体記憶装置で構成される。
なお、この例におけるクラスタ間通信機能を、従来のプ
ロセッサ間通信などによる通信機能に置き換え、クラス
タ間で共用可能な外部記憶装置としての機能を、磁気デ
ィスク装置等のDASDに置き換えることも可能である
第2図に示す例では、各クラスタを構成する処理部23
が、CPU24およびローカルに使用するメモリ25を
持ち、システム記憶装置21に対しては、メモリ制御装
置(MCU)22を介して。
アクセスできるようになっている。
第1図に示すクラスタ間通信域11.クラスタ監視表1
2は、システム記憶装置21内に作威し。
第1図に示すサブシステム監視表14A、14Bは、各
クラスタのメモリ25内に作成する。
クラスタ監視表12は、各クラスタの運用状態を監視す
るためのものであり9例えば第3図(イ)に示すような
情報の記憶領域からなる。
クラスタ識別子は、複合システム内でクラスタを一意に
決定する識別名または識別番号である。
状態表示域には、クラスタが動作を開始し、監視対象に
なった旨の表示や、生存表示などが行われる。動作中の
サブシステム数の領域に、そのクラスタで動作している
サブシステムの数が格納される。資源回収出口のポイン
タ情報は、クラスタが異なっても、異常になったクラス
タの資源を回収するための資源回収出口の仮想空間アド
レスを。
正しく把握できるようにするための情報である。
サブシステム監視表14は、各クラスタごとのサブシス
テムの運用状態を監視するためのものであり9例えば第
3図(ロ)に示すような情報の記憶領域からなる。
サブシステム識別子は、サブシステムを一意に識別する
情報である。状態表示域には、そのサブシステムが監視
対象になった旨の表示や、生存表示などが行われる。生
存通知出口アドレスは、定期的にある間隔で生存通知を
行わせるために、ダウン監視機構が呼び出す出口のアド
レスである。
資源回収出口アドレスは、他クラスタで動作している同
種のサブシステムの資源回収を行うために。
他クラスタがダウンまたは他クラスタにおけるサブシス
テムがダウンしたときを契機として、ダウン監視機構が
呼び出す資源回収ルーチンのアドレスである。
第1図に示すダウン監視機構15A、15Bの初期化時
の処理は1例えば第4図に示すとおりである。
■ 各クラスタが共用するシステム記憶の初期化が必要
かどうかを判定する。他のクラスタが既に初期化を行っ
ている場合には、初期化の必要がないので1次の処理■
をスキップする。
■ クラスタ監視表12を初期化する。
■ クラスタ監視表12中に自クラスタの生存表示があ
るかどうかを判定する。自クラスタの生存表示がある場
合、前に自クラスタに異常が発生し、現在そのダウン後
の再立ち上げ処理中であることになる。したがって1次
の処理■を実行する。生存表示がない場合9次の処理■
をスキップする。
■ 障害に対する後処理のため、資源回収出口を呼び出
し、以前使用していたシステム記憶資源を返却する。
■ クラスタ監視表12に、自クラスタに関する情報を
登録する。
■ クラスタ監視表12に、自クラスタの生存表示を行
う。
■ 周期的に動作する監視部16に、起動の契機を与え
る。その後、初期化処理を終了する。
起動された監視部16は、第5図に示す処理■〜■のよ
うな処理を実行する。
■ 他クラスタに、自クラスタの生存通知を行うための
“I’s ALIVE”通信の時間間隔を設定する。
■ 他クラスタから送ら、れてくる“l’w ALIV
E’通信の監視時間間隔を設定する。
■ 自クラスタ内におけるサブシステムの生存通知出口
をスケジュールする監視時間間隔を設定する。その後、
監視を開始する。
■ サブシステムの監視時間になったならば、監視対象
となっているサブシステムの生存通知出口をスケジュー
ルし、呼び出す、この処理を。
所定の監視時間間隔ごとに行う、なお1図示省略するが
、他クラスタへの自クラスタの生存通知、および他クラ
スタからの生存通知未着の監視も、所定の時間間隔ごと
に行う、この生存通知に関する処理は、従来の処理と同
様でよい。
各サブシステム31等と、ダウン監視機構15とのイン
タフェースは1例えば第6図に示すよっになっている。
各サブシステム31等は、ダウン監視機構15に対し、
マクロインタフェースにより、サブシステム監視の依頼
を行う。これに対し、ダウン監視機l115は、サブシ
ステム監視表に、サブシステム識別子、生存通知出口、
資源回収出口などの監視に必要な情報を登録する。以後
、第5図に示した監視部の処理などにより、このサブシ
ステムの監視が行われることになる。
ダウン監視機構15の監視部は、定期的に、サブシステ
ム監視表に登録された生存通知出口をスケジュールする
。この生存通知出口では、自サブシステムが正常に動作
していれば、生存主張をマクロインタフェースで行う、
ダウン監視機構15は、サブシステム監視表の状態表示
域に、当該サブシステムが生存していることを表示する
。ある時間を待っても、生存通知がない場合には、この
サブシステムに異常が発生したとみなす。
また、サブシステム31等が、自ら異常を検出した場合
には、マクロインタフェースにより、ダウン監視機構1
5に対し、異常の自己申告を行う。
なお、サブシステムが自分自身の動作異常を検出する技
術は、従来から種々の方式が知られているので、ここで
の詳細な説明は省略する。
ダウン監視機構15は、サブシステム31等が異常状態
に陥ったことを検出したならば、他クラスタのダウン監
視機構15へダウンの通知を行う。
なお、ダウン監視機構15に対するサブシステム監視の
依頼のタイプによっては、他クラスタのダウン監視機構
15に対する通知の後で、クラスタ停止をスケジュール
する。
サブシステムS1等は、処理を終了するとき。
マクロインタフェースにより、サブシステム監視からの
離脱を、ダウン監視機構15に依頼する。
これに対し、ダウン監視機構15は、サブシステム監視
表からの削除を行う、また、必要に応じて。
クラスタ監視表から、自りラスタ分の資源回収ルーチン
(資源回収出口〉の削除を行う。
他クラスタから、クラスタまたはサブシステムのダウン
通知があった場合、ダウン監視機構15は、第7図に示
す処理を行う。
ダウン監視機構15は1通知を受けたクラスタ内にある
サブシステム監視表を参照して、これに登録されている
ダウン監視対象サブシステムの資源回収出口Elをスケ
ジュールし、同種のサブシステムにダウンの旨を通知す
る。これによって。
そのサブシステムStは、異常になったサブシステムの
資源を回収し、必要に応じてその業務を引き継ぐことが
できる。
なお、クラスタ停止タイプの場合には、資源回収出口の
スケジュールに先立って、クラスタ間共有資源(システ
!、資′a)の回収処理を行う。
〔発明の効果〕
以上説明したように1本発明によれば、従来の生存通知
のみによる監視方式に比較して、以下の効果がある。
(a)  他クラスタの異常をシステムの負荷状態に影
響されないで正確に、かつ異常発生個所からの自己申告
などによって瞬時に認識することができるようになる。
特に、ホットスタンバイシステム等において、システム
切り替え処理などの高速化が可能になるので、有用であ
る。
へ)ダウン監視機構の統合化により、クラスタ異常、ま
たはある業務異常を、複数のダウン監視機構で監視する
必要がなく、ダウン監視機構間の認識のズレの問題をな
くすことが可能となる。
【図面の簡単な説明】
第1図は本発明の構成例。 第2図は本発明の適用システムの例。 第3図は本発明の実施例で用いる制御テーブルの例。 第4図は本発明の実施例に係るダウン監視機構の初期化
時の処理フロー 第5図は本発明の実施例に係る監視部処理フロ第6図は
本発明の実施例に係るダウン監視機構処理説明図。 第7図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例。 第8図は従来のダウン監視の例を示す。 図中、10はクラスタ間外部記憶装置、11はクラスタ
間通信域、12はクラスタ監視表、13A、13Bはク
ラスタ、14A、14Bはサブシステム監視表、15A
、15Bはダウン監視機構。 16は監視部、17は通知部、18は出口スケジュール
部、Sl〜S3はサブシステム、Elは資源回収出口を
表す。

Claims (1)

  1. 【特許請求の範囲】 各々計算機を有する複数のクラスタ(13A、13B)
    からなる複合システムにおいて、各クラスタごとにダウ
    ン監視機構(15A、15B)を有し、 各ダウン監視機構は、 自クラスタ内におけるサブシステムの異常発生を監視す
    る手段(16)と、 自クラスタ内におけるサブシステムに異常が発生した場
    合に、そのサブシステムが異常状態に陥ったことを、他
    クラスタに存在するダウン監視機構に通知する手段(1
    7)と、 他クラスタからサブシステムに関する異常通知を受けた
    場合に、あらかじめ登録されている同種のサブシステム
    または異常に関係する処理を行う処理部を呼び出す手段
    (18)とを備えたことを特徴とする複合システムにお
    けるダウン監視処理方式。
JP1198539A 1989-07-31 1989-07-31 複合システムにおけるダウン監視処理方式 Expired - Lifetime JP2716537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1198539A JP2716537B2 (ja) 1989-07-31 1989-07-31 複合システムにおけるダウン監視処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1198539A JP2716537B2 (ja) 1989-07-31 1989-07-31 複合システムにおけるダウン監視処理方式

Publications (2)

Publication Number Publication Date
JPH0362235A true JPH0362235A (ja) 1991-03-18
JP2716537B2 JP2716537B2 (ja) 1998-02-18

Family

ID=16392840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1198539A Expired - Lifetime JP2716537B2 (ja) 1989-07-31 1989-07-31 複合システムにおけるダウン監視処理方式

Country Status (1)

Country Link
JP (1) JP2716537B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728746B1 (en) 1995-02-14 2004-04-27 Fujitsu Limited Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
JP2007183918A (ja) * 2005-12-29 2007-07-19 Internatl Business Mach Corp <Ibm> 装置、システム、信号担持媒体、方法(高可用性ネットワーク・ブート・サービスを自律的に保つ装置、システム、および方法)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850049A (ja) * 1981-09-18 1983-03-24 Nec Corp 多重論理装置システム
JPS6385939A (ja) * 1986-09-30 1988-04-16 Nec Corp 情報処理システム
JPS6398764A (ja) * 1986-10-15 1988-04-30 Nec Corp マルチ計算機システムにおけるフアイルリカバリ方式
JPS6461855A (en) * 1987-08-26 1989-03-08 Ibm Multiple processor system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850049A (ja) * 1981-09-18 1983-03-24 Nec Corp 多重論理装置システム
JPS6385939A (ja) * 1986-09-30 1988-04-16 Nec Corp 情報処理システム
JPS6398764A (ja) * 1986-10-15 1988-04-30 Nec Corp マルチ計算機システムにおけるフアイルリカバリ方式
JPS6461855A (en) * 1987-08-26 1989-03-08 Ibm Multiple processor system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728746B1 (en) 1995-02-14 2004-04-27 Fujitsu Limited Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
JP2007183918A (ja) * 2005-12-29 2007-07-19 Internatl Business Mach Corp <Ibm> 装置、システム、信号担持媒体、方法(高可用性ネットワーク・ブート・サービスを自律的に保つ装置、システム、および方法)

Also Published As

Publication number Publication date
JP2716537B2 (ja) 1998-02-18

Similar Documents

Publication Publication Date Title
CN102364448B (zh) 一种计算机故障管理系统的容错方法
CA1169155A (en) Computer or processor control systems
CN101377750B (zh) 一种用于机群容错的系统和方法
EP2626786B1 (en) Multicore processor system, method of monitoring control, and monitoring control program
CN109408210B (zh) 分布式定时任务管理方法及系统
EP2518627B1 (en) Partial fault processing method in computer system
JPS62298839A (ja) 障害時に計算機システムを再始動する方法
US20110041004A1 (en) Backup management method based on mode of failure
US8812896B1 (en) High-availability data center
CN105357038A (zh) 监控虚拟机集群的方法和系统
CN112363865A (zh) 数据库故障恢复方法、装置及人脸图像搜索系统
CN106776282A (zh) 一种bios程序的异常处理方法及装置
CN117573306A (zh) 批量任务调度系统、方法、装置、计算机设备和存储介质
CN114968129A (zh) 磁盘阵列冗余方法、系统、计算机设备和存储介质
CN109062718B (zh) 一种服务器及数据处理方法
JPH09251443A (ja) 情報処理システムのプロセッサ障害回復処理方法
US20030177224A1 (en) Clustered/fail-over remote hardware management system
CN110209497A (zh) 一种主机资源动态扩缩容的方法及系统
CN111897626A (zh) 一种面向云计算场景的虚拟机高可靠系统和实现方法
JPH0362235A (ja) 複合システムにおけるダウン監視処理方式
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
CN109144815A (zh) 一种实时检测的计算机故障处理系统
JPH05314075A (ja) オンラインコンピュータ装置
CN108595625B (zh) Bi工具的运维方法、装置、计算机装置及存储介质
US7657730B2 (en) Initialization after a power interruption

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 12