JPH08297645A - 疎結合システム - Google Patents

疎結合システム

Info

Publication number
JPH08297645A
JPH08297645A JP7102038A JP10203895A JPH08297645A JP H08297645 A JPH08297645 A JP H08297645A JP 7102038 A JP7102038 A JP 7102038A JP 10203895 A JP10203895 A JP 10203895A JP H08297645 A JPH08297645 A JP H08297645A
Authority
JP
Japan
Prior art keywords
host
computers
coupled system
alternative
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7102038A
Other languages
English (en)
Inventor
徹 ▲高▼橋
Toru Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7102038A priority Critical patent/JPH08297645A/ja
Publication of JPH08297645A publication Critical patent/JPH08297645A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 ホストコンピュータに障害が発生した時、代
替ホストコンピュータの決定を確実に行う疎結合システ
ムを提供する。 【構成】 複数のホストコンピュータと、それらに共通
して使用されるホスト間共有資源とを有する疎結合シス
テムにおいて、複数のホストコンピュータの疎結合シス
テムへの接続または切断の状態をそれぞれについて記憶
し、疎結合システムと接続しているホストコンピュータ
のうちのいずれかに障害が発生した場合に、各ホストコ
ンピュータそれぞれの状態の記憶内容の更新を停止し、
疎結合システムと接続しているホストコンピュータの中
から、障害が発生したホストコンピュータの中断した処
理を復旧する代替ホストコンピュータを決定し、代替ホ
ストコンピュータの決定後、各ホストコンピュータのそ
れぞれの状態の記憶内容を更新する複数ホスト制御装置
5を有する構成とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は複数のホストコンピュー
タとそれぞれのホストコンピュータで共有されるホスト
間共有資源とを有する疎結合システムに関する。
【0002】
【従来の技術】複数のホストコンピュータ(以下ホスト
と称す)と、それぞれのホストで共通に使用される共有
ファイルなどのホスト間共有資源とにより構成される疎
結合システムでは、通信回線によってそれぞれのホスト
が互いに接続され、各ホストは他のホストの障害の発生
あるいは疎結合システムへの接続や疎結合システムから
の切断が判るように構成されている。
【0003】図2は従来の疎結合システムの構成を示す
ブロック図である。図2では第1のホスト100と、第
2のホスト200と、第3のホスト300と、ホスト間
共有資源400とによって疎結合システムが構成されて
いる例が示されている。
【0004】図2において、各ホストには、他のホスト
と通信を行うためのホスト間通信手段101、201、
301と、全てのホストの状態を管理するためのホスト
状態管理表103、203、303と、障害が発生した
ホストとその代替ホストの関係を定義する代替ホスト定
義表104、204、304と、ホスト間共有資源との
通信、ホスト状態管理表の更新、および代替ホストコン
ピュータの決定を行う疎結合システム制御手段102、
202、302とがそれぞれ設けられている。このよう
な構成において、各ホストに設けられた疎結合システム
制御手段102、202、302は、他のホストの疎結
合システムへの接続を検出すると、それぞれのホスト状
態管理表103、203、303の該当するホストの状
態を示すデータを「接続」に更新し、他のホストの疎結
合システムからの切断を検出すると、それぞれのホスト
状態管理表103、203、303の該当するホストの
データを「切断」に更新していた。
【0005】また、動作状態を監視するためのウォッチ
ドッグタイマ等によって他のホストの障害を検出した場
合は、それぞれのホスト状態管理表103、203、3
03のデータの中で「接続」となっているホストの中か
ら代替ホストを検索して代替ホストを決定していた。代
替ホストの決定は表1に示すような代替ホスト定義表1
04、204、304を参照して行われ、代替ホストに
決定されたホストは、障害を起こしたホストが実行して
いた処理の復旧を行っていた。
【0006】代替ホストの復旧処理には、例えばホスト
間共有資源400を使用して処理を行っていたホストで
障害が発生し、そのホストがホスト間共有資源400の
一部のメモリ領域を使用不可なロック状態にしたまま停
止した場合に、ロックされたメモリ領域を他のホストで
使用可能にするためのロック解除の処理等がある。
【0007】表1は代替ホスト定義表の内容の例を示し
ており、第1のホストに障害が生じた場合に、第2のホ
ストが代替ホストの第1候補、第3のホストが代替ホス
トの第2候補になることを示している。以下同様に第2
のホストの代替ホスト、第3のホストの代替ホストをそ
れぞれ定義している。
【0008】
【表1】
【0009】
【発明が解決しようとする課題】しかしながら上記した
ような従来の疎結合システムでは、ホスト毎に代替ホス
ト定義表を有して代替ホストを決定していたため、各ホ
ストの代替ホスト定義表間に矛盾が生じて、複数の代替
ホストが同時に決定されたり、代替ホストが決定されな
い等の不正動作を起こす可能性があった。
【0010】また、各代替ホスト定義表の間に矛盾がな
くても、各ホストの接続、切断、および障害の発生のタ
イミングで代替ホストが決定できないことがあった。
【0011】このような例として、図3の各ホストの状
態遷移図に示すような、第1のホストと第3のホストと
が疎結合システムに接続され、第2のホストが切断され
ている状態から、第1のホストに障害が発生して疎結合
システムから切り離され、第1のホストの障害発生直後
に第2のホストが疎結合システムに接続された場合を考
える。
【0012】この場合、第2のホストは第1のホストの
障害発生後に疎結合システムと接続したため、第1のホ
ストの障害を検出できずに第1のホストの代替ホストの
決定処理を行わない。
【0013】また、図3に示すように、障害の検出には
時間を要することがあるため、第3のホストは第2のホ
ストの「接続」処理を行った後に第1のホストの障害を
検出することがある。
【0014】ここで、代替ホスト定義表の内容が従来例
で示した表1のようになっていると、ホスト状態管理表
上で第2のホストは「接続」となっているため、第3の
ホストは第2のホストが代替ホストであると判定して自
己を代替ホストとして認識しないことになる。
【0015】したがって上述したように、どのホストも
第1のホストの代替ホストとしての処理を行わず、第1
のホストの復旧処理が実行されないというおそれがあっ
た。本発明は上記したような従来の技術が有する問題点
を解決するためになされたものであり、ホストに障害が
発生した時、代替ホストの決定を確実に行う疎結合シス
テムを提供することを目的とする。
【0016】
【課題を解決するための手段】上記目的を達成するため
本発明の疎結合システムは、複数のホストコンピュータ
と、それらに共通して使用されるホスト間共有資源とを
有する疎結合システムにおいて、前記複数のホストコン
ピュータの疎結合システムへの接続または切断の状態を
それぞれについて記憶し、前記接続の状態のホストコン
ピュータのいずれかに障害が発生した場合、前記複数の
ホストコンピュータそれぞれの前記状態の記憶内容の更
新を停止し、障害が発生したホストコンピュータの中断
した処理を復旧する代替ホストコンピュータを前記接続
の状態のホストコンピュータの中から決定して、該ホス
トコンピュータに通知し、前記代替ホストコンピュータ
の決定後、前記複数のホストコンピュータそれぞれの前
記状態の記憶内容を更新する複数ホスト制御装置を有
し、前記複数のホストコンピュータそれぞれに、前記複
数ホスト制御装置との間の通信の制御を行う複数ホスト
制御装置通信手段と、前記複数のホストコンピュータ間
の通信の制御、および前記ホスト間共有資源との通信の
制御を行う疎結合システム制御手段とが設けられている
ことを特徴とする。
【0017】このとき、前記複数ホスト制御装置は、複
数のホストコンピュータとの通信を制御するホスト通信
手段と、前記複数のホストコンピュータの疎結合システ
ムへの接続または切断の状態のデータが記憶されるホス
ト状態管理表と、障害が発生したホストコンピュータの
中断した処理を復旧する代替ホストコンピュータの候補
を前記複数のホストコンピュータそれぞれについて記憶
する代替ホスト定義表と、ホストコンピュータの疎結合
システムとの接続を検出した場合に、前記ホスト状態管
理表の該ホストコンピュータの前記データを接続に更新
する接続検出時処理手段と、ホストコンピュータの疎結
合システムからの切断を検出した場合に、前記ホスト状
態管理表の該ホストコンピュータの前記データを切断に
更新する切断検出時処理手段と、前記接続の状態のホス
トコンピュータのいずれかから障害の発生を検出した場
合に、前記ホスト状態管理表の更新停止を指示し、該ホ
ストコンピュータの障害発生を通知する障害検出時処理
手段と、前記障害検出処理手段からの障害発生通知によ
って、前記接続となっているホストコンピュータの中か
ら、前記代替ホスト定義表の内容をもとに前記代替ホス
トコンピュータを決定して、該ホストコンピュータに指
示し、かつ前記ホスト状態管理表の更新停止の解除を指
示する代替ホスト決定手段とを有していてもよい。
【0018】
【作用】上記のように構成された本発明の疎結合システ
ムは、複数ホスト制御装置が複数のホストコンピュータ
の疎結合システムへの接続または切断の状態をそれぞれ
について記憶し、疎結合システムと接続しているホスト
コンピュータのいずれかに障害が発生した場合に、各ホ
ストコンピュータそれぞれの状態の記憶内容の更新を停
止し、疎結合システムと接続しているホストコンピュー
タの中から、障害が発生したホストコンピュータの中断
した処理を復旧する代替ホストコンピュータを決定し、
代替ホストコンピュータの決定後、各ホストコンピュー
タのそれぞれの状態の記憶内容を更新する。
【0019】このことにより、ホストコンピュータに障
害が発生した際には、複数のホストコンピュータそれぞ
れの疎結合システムへの接続または切断の状態の記憶内
容の更新が一時的に停止されるため、ホストコンピュー
タの接続、切断、障害の発生のタイミングに依存するこ
となく確実に代替ホストコンピュータが決定される。
【0020】
【実施例】次に本発明の実施例について図面を参照して
説明する。
【0021】本実施例では、3台のホストによって疎結
合システムが構成されている場合を例にして説明する。
【0022】図1は本発明の疎結合システムの構成を示
すブロック図である。図1において、本実施例の疎結合
システムは、第1のホスト1と第2のホスト2と第3の
ホスト3とホスト間共有資源4とからなる疎結合システ
ムに、各ホストの状態を一括して管理し、かつ障害発生
時の代替ホストの選定を行う複数ホスト制御装置5を追
加した構成である。そして、各ホストには複数ホスト制
御装置5と通信を行うための複数ホスト制御装置通信手
段12、22、32と、各ホスト間の通信の制御、およ
びホスト間共有資源4との通信の制御を行う疎結合シス
テム制御手段11、21、31とが設けられている。
【0023】なお、ホスト間共有資源4は、疎結合シス
テム制御手段11、21、31によって各ホストがそれ
ぞれ複数ホスト制御装置5と接続された後に、各ホスト
と接続されて使用される。
【0024】複数ホスト制御装置5は、障害が発生した
ホストと代替ホストとの関係が記憶される代替ホスト定
義表51と、各ホストと疎結合システムとの「接続」ま
たは「切断」の状態がそれぞれ記憶されるホスト状態管
理表52と、各ホストとの通信制御を行うホスト通信手
段53と、ホストが疎結合システムと接続されたときに
処理を行う接続検出時処理手段54と、ホストが疎結合
システムから切断されるときに処理を行う切断検出時処
理手段55と、ホストに障害が発生したときに処理を行
う障害検出時処理手段56と、障害が発生したホストの
代替を決定する代替ホスト決定手段57とによって構成
されている。
【0025】代替ホスト定義表51は障害ホストと代替
ホストとの関係が定義された表であり、ホストに障害が
発生した時の代替ホストの決定に使用される。ホスト状
態管理表52は各ホストの状態を管理する表であり、各
ホストと疎結合システムとの「接続」または「切断」の
2つの状態のいずれかが記憶される。
【0026】ホスト通信手段53は、複数ホスト制御装
置5と各ホスト間の通信を制御する回路である。
【0027】また、接続検出時処理手段54は、疎結合
システムと接続したホストからの接続通知によってホス
ト状態管理表52の該当するホストのデータを「接続」
に更新し、切断検出時処理手段55は、疎結合システム
から切断するホストからの切断通知によってホスト状態
管理表52の該当するホストのデータを「切断」に更新
する。
【0028】障害検出時処理手段56は、ホスト状態管
理表52で「接続」となっているホストの動作状態をそ
れぞれウォッチドッグタイマ等によって監視し、ホスト
に異常(障害)が発生した場合は代替ホスト決定手段5
7に対して障害の発生を通知する。
【0029】代替ホスト決定手段57は、障害検出時処
理手段56からの障害発生通知によって代替ホスト定義
表51とホスト状態管理表52との内容をもとに代替ホ
ストを決定し、決定した代替ホストに対して障害を起こ
したホストの復旧処理を指示する。
【0030】このような構成において、次に本実施例の
疎結合システムの障害処理時の動作について説明する。
【0031】第1のホスト1と第3のホスト3とが複数
ホスト制御装置5およびホスト間共有資源4に接続され
ている状態から、第1のホスト1に障害が発生した場
合、まず第1のホスト1の障害を検出した障害検出時処
理手段56は、代替ホスト決定手段57に障害発生の通
知を行い、接続検出時処理手段54と切断検出時処理手
段55とがホスト状態管理表52のデータを変更しない
ようにホスト状態管理表52に対して各ホストのデータ
をロックするように指示をする。そして、ホスト状態管
理表52は障害検出時処理手段56の指示にしたがって
記憶しているデータの変更ができないようにロックす
る。
【0032】次に、第1のホスト1の障害発生直後に第
2のホスト2が接続されると、接続検出時処理手段54
はホスト状態管理表52の第2のホスト2のデータを
「接続」へ更新する処理を行う。しかしながら、ホスト
状態管理表52のデータがロックされているため、第2
のホスト2のデータの更新処理は待機状態となる。
【0033】このときホスト状態管理表52は表2に示
す状態になっている。
【0034】
【表2】 一方、第1のホスト1の障害発生の通知を受けた代替ホ
スト決定手段57は、代替ホスト定義表51の内容を検
索する。
【0035】ここで、代替ホスト定義表51の内容が従
来例で示した表1と同様の内容に設定されているものと
すると、代替ホスト決定手段57は、ホスト状態管理表
52上で「切断」となっている代替ホストの第1候補で
ある第2のホスト2を採用せずに、ホスト状態管理表5
2上で「接続」となっている第2候補である第3のホス
ト3を第1のホスト1の代替ホストに決定する。
【0036】代替ホストが決定した後、代替ホスト決定
手段57はホスト状態管理表52に対してデータのロッ
ク解除を指示し、ホスト通信手段53を介して第3のホ
スト3に第1のホスト1の復旧処理を指示する。そし
て、ホスト状態管理表52は代替ホスト決定手段57の
指示にしたがってデータのロックを解除する。
【0037】ホスト状態管理表52のデータのロックが
解除されたら、障害検出時処理手段56はホスト状態管
理表52上の第1のホスト1のデータを「切断」に更新
し、接続検出時処理手段54は第2のホスト2のデータ
を「接続」に更新する。
【0038】したがって、ホストに障害が発生した際、
ホスト状態管理表52のデータを一時的にロックしてい
るため、従来のようなホストの接続、切断、障害の発生
のタイミングに依存せずに確実に代替ホストが決定され
るため、代替ホストによる復旧処理が確実に実行され
る。
【0039】また、代替ホストの決定を複数ホスト制御
装置5で一括して行うため、従来のような複数の代替ホ
スト定義表を有することによる矛盾の発生がなく、不正
動作がなくなる。
【0040】なお、本実施例では疎結合システムを構成
するホストの数が3台の場合を例にして説明している
が、ホストの台数に関係なく本実施例を適用可能であ
る。
【0041】
【発明の効果】本発明は以上説明したように構成されて
いるので、以下に記載する効果を奏する。
【0042】複数のホストコンピュータの疎結合システ
ムへの接続または切断の状態をそれぞれについて記憶
し、疎結合システムと接続しているホストコンピュータ
のいずれかに障害が発生した場合に、各ホストコンピュ
ータそれぞれの状態の記憶内容の更新を停止し、疎結合
システムと接続しているホストコンピュータの中から、
障害が発生したホストコンピュータの中断した処理を復
旧する代替ホストコンピュータを決定し、代替ホストコ
ンピュータの決定後、各ホストコンピュータのそれぞれ
の状態の記憶内容を更新する複数ホスト制御装置を有す
ることで、ホストコンピュータの接続、切断、および障
害の発生のタイミングに依存することなく確実に代替ホ
ストコンピュータが決定されるため、代替ホストコンピ
ュータによる復旧処理が確実に実行される。
【0043】また、代替ホストコンピュータの決定を複
数ホスト制御装置で一括して行うため、従来のような複
数の代替ホスト定義表を有することによる矛盾の発生が
なく、不正動作がなくなる。
【図面の簡単な説明】
【図1】本発明の疎結合システムの構成を示すブロック
図である。
【図2】従来の疎結合システムの構成を示すブロック図
である。
【図3】疎結合システムを構成する3台のホストコンピ
ュータの状態の遷移例を示す図である。
【符号の説明】
1 第1のホスト 2 第2のホスト 3 第3のホスト 4 ホスト間共有資源 5 複数ホスト制御装置 11、21、31 疎結合システム制御手段 12、22、32 複数ホスト制御装置通信手段 51 代替ホスト定義表 52 ホスト状態管理表 53 ホスト通信手段 54 接続検出時処理手段 55 切断検出時処理手段 56 障害検出時処理手段 57 代替ホスト決定手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数のホストコンピュータと、それらに
    共通して使用されるホスト間共有資源とを有する疎結合
    システムにおいて、 前記複数のホストコンピュータの疎結合システムへの接
    続または切断の状態をそれぞれについて記憶し、前記接
    続の状態のホストコンピュータのいずれかに障害が発生
    した場合、前記複数のホストコンピュータそれぞれの前
    記状態の記憶内容の更新を停止し、障害が発生したホス
    トコンピュータの中断した処理を復旧する代替ホストコ
    ンピュータを前記接続の状態のホストコンピュータの中
    から決定して、該ホストコンピュータに通知し、前記代
    替ホストコンピュータの決定後、前記複数のホストコン
    ピュータそれぞれの前記状態の記憶内容を更新する複数
    ホスト制御装置を有し、 前記複数のホストコンピュータそれぞれに、 前記複数ホスト制御装置との間の通信の制御を行う複数
    ホスト制御装置通信手段と、 前記複数のホストコンピュータ間の通信の制御、および
    前記ホスト間共有資源との通信の制御を行う疎結合シス
    テム制御手段とが設けられていることを特徴とする疎結
    合システム。
  2. 【請求項2】 請求項1に記載の疎結合システムにおい
    て、 複数ホスト制御装置は、 複数のホストコンピュータとの通信を制御するホスト通
    信手段と、 前記複数のホストコンピュータの疎結合システムへの接
    続または切断の状態のデータが記憶されるホスト状態管
    理表と、 障害が発生したホストコンピュータの中断した処理を復
    旧する代替ホストコンピュータの候補を前記複数のホス
    トコンピュータそれぞれについて記憶する代替ホスト定
    義表と、 ホストコンピュータの疎結合システムとの接続を検出し
    た場合に、前記ホスト状態管理表の該ホストコンピュー
    タの前記データを接続に更新する接続検出時処理手段
    と、 ホストコンピュータの疎結合システムからの切断を検出
    した場合に、前記ホスト状態管理表の該ホストコンピュ
    ータの前記データを切断に更新する切断検出時処理手段
    と、 前記接続の状態のホストコンピュータのいずれかから障
    害の発生を検出した場合に、前記ホスト状態管理表の更
    新停止を指示し、該ホストコンピュータの障害発生を通
    知する障害検出時処理手段と、 前記障害検出処理手段からの障害発生通知によって、前
    記接続となっているホストコンピュータの中から、前記
    代替ホスト定義表の内容をもとに前記代替ホストコンピ
    ュータを決定して、該ホストコンピュータに指示し、か
    つ前記ホスト状態管理表の更新停止の解除を指示する代
    替ホスト決定手段と、を有することを特徴とする疎結合
    システム。
JP7102038A 1995-04-26 1995-04-26 疎結合システム Pending JPH08297645A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7102038A JPH08297645A (ja) 1995-04-26 1995-04-26 疎結合システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7102038A JPH08297645A (ja) 1995-04-26 1995-04-26 疎結合システム

Publications (1)

Publication Number Publication Date
JPH08297645A true JPH08297645A (ja) 1996-11-12

Family

ID=14316609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7102038A Pending JPH08297645A (ja) 1995-04-26 1995-04-26 疎結合システム

Country Status (1)

Country Link
JP (1) JPH08297645A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144849A (ja) * 1984-01-09 1985-07-31 Fujitsu Ltd 通信制御方式
JPH02231664A (ja) * 1989-01-24 1990-09-13 Internatl Business Mach Corp <Ibm> 通信セツシヨン回復方法
JPH04335456A (ja) * 1991-05-13 1992-11-24 Hokkaido Nippon Denki Software Kk オンライン自動監視装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144849A (ja) * 1984-01-09 1985-07-31 Fujitsu Ltd 通信制御方式
JPH02231664A (ja) * 1989-01-24 1990-09-13 Internatl Business Mach Corp <Ibm> 通信セツシヨン回復方法
JPH04335456A (ja) * 1991-05-13 1992-11-24 Hokkaido Nippon Denki Software Kk オンライン自動監視装置

Similar Documents

Publication Publication Date Title
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US6859889B2 (en) Backup system and method for distributed systems
CN103532753B (zh) 一种基于内存换页同步的双机热备方法
WO2010015574A1 (en) Maintaining data integrity in data servers across data centers
JP3887130B2 (ja) 高可用性計算機システム及び同システムにおけるデータバックアップ方法
EP1574956B1 (en) Distributed system using quorum redundancy and method therefor
CN103856357A (zh) 一种堆叠系统故障处理方法及堆叠系统
CN119946065B (zh) 基于集群网络的数据处理方法和装置、电子设备、介质
CN117271227A (zh) 数据库集群主节点切换方法、系统及管控平台
JP6083480B1 (ja) 監視装置、フォールトトレラントシステムおよび方法
JP2009217358A (ja) 二重化プログラマブルコントローラ
JP3774826B2 (ja) 情報処理装置
US20060023627A1 (en) Computing system redundancy and fault tolerance
JP2003345620A (ja) 多ノードクラスタシステムのプロセス監視方法
JPH08297645A (ja) 疎結合システム
CN111258823A (zh) 一种主从服务器的切换方法及系统
JPH07111685B2 (ja) システム稼動維持方式
JPH09288590A (ja) 仮想計算機システム
JP3652232B2 (ja) マイクロコンピュータのエラー検出方法及びエラー検出回路及びマイクロコンピュータシステム
JP2000020336A (ja) 二重化通信システム
JPH07141308A (ja) 情報処理システムにおけるバックアップ方法
JPH10133963A (ja) 計算機の故障検出・回復方式
CN117785568B (zh) 一种双主双机热备方法及装置
JP2015138987A (ja) 通信システムおよび通信システムにおけるサービス復旧方法