JPH087726B2 - ヘルスチェック方式 - Google Patents

ヘルスチェック方式

Info

Publication number
JPH087726B2
JPH087726B2 JP1133068A JP13306889A JPH087726B2 JP H087726 B2 JPH087726 B2 JP H087726B2 JP 1133068 A JP1133068 A JP 1133068A JP 13306889 A JP13306889 A JP 13306889A JP H087726 B2 JPH087726 B2 JP H087726B2
Authority
JP
Japan
Prior art keywords
data
health check
reception
timeout
control program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1133068A
Other languages
English (en)
Other versions
JPH02310755A (ja
Inventor
正 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1133068A priority Critical patent/JPH087726B2/ja
Publication of JPH02310755A publication Critical patent/JPH02310755A/ja
Publication of JPH087726B2 publication Critical patent/JPH087726B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はホストコンピュータ上の通信管理プログラム
が特定の監視用データを通信処理装置上の通信制御プロ
グラムに送信し通信制御プログラムから監視用データに
応答データを受信することによって通信制御プログラム
と動作状態を監視するヘルスチェック方式に関する。
〔従来の技術〕
従来、この種のヘルスチェック方式では、ホストコン
ピュータ上の通信管理プログラムと通信処理上の通信制
御プログラムとが特定の監視用データおよびこの監視用
データに対する応答データを一定時間間隔で送受信し合
い、通信管理プログラムが監視用データの送信から一定
時間内に応答データを受信しない場合には即座にヘルス
チェックタイムアウト発生とみなして通信制御プログラ
ムの障害発生としていた。
また、より発展したある種のヘルスチェック方式で
は、通信管理プログラムが監査用データの送信から一定
時間内に応答データを受信しない場合でも即座にヘルス
チェックタイムアウト発生とはせずに、データの送受信
状態をチェックして監視用データの送信から応答データ
受信タイムアウト発生までの間になんらかのデータが1
回でも受信されていれば通信制御プログラムが正常に動
作しているものと判断し、データの受信が1回もない場
合に限ってヘルスチェックタイムアウト発生とみなして
通信制御プログラムの障害発生としていた。
〔発明が解決しようとする課題〕
上述した従来のヘルスチェック方式では、前者の方式
の場合、監視用データの送信から一定時間内に応答デー
タを受信しなければ即座にヘルスチェックタイムアウト
発生とみなしていたので、通信処理装置上の通信制御プ
ログラム自身は正常動作中でアプリケーションプログラ
ム間のデータ(以下、アプリケーションデータという)
の送受信は可能だがオンラインシステムの負荷が高まり
応答データを一定時間内に返送できないような状態が発
生したときでも、通信制御プログラムの障害発生とみな
されてしまうという欠点がある。
また、後者の方式の場合、監査用データの送信から応
答データ受信タイムアウト発生までの間になんらかのデ
ータが1回でも受信されていれば通信制御プログラムが
正常に動作しているものと判断していたので、通信制御
プログラムがアプリケーションデータを一切送受信でき
なくなってオンラインシステムが提供している実際の通
信環境が疎外されているような障害が発生している状態
でも、応答データ以外の制御データあるいは保守情報収
集用データが送受信されていれば永久に通信制御プログ
ラムの障害発生を検出できずに正常運用への早期復旧が
できないという欠点がある。
本発明の目的は、上述の点に鑑み、オンラインシステ
ムの高負荷時にも通信処理装置上の通信制御プログラム
を不正に障害発生とみなすことがないとともに、アプリ
ケーションデータを一切送受信できなくなるような異常
発生時には通信制御プログラムの障害発生の検出や速や
かに行えるようにしたヘルスチェック方式を提供するこ
とにある。
〔課題を解決するための手段〕 本発明のヘルスチェック方式は、ホストコンピュータ
上の通信管理プログラムが特定の監視用データを通信処
理装置上の通信制御プログラムに送信し通信制御プログ
ラムから監視用データに対する応答データを受信するこ
とによって通信制御プログラムの動作状態を監視するヘ
ルスチェック方式において、通信管理プログラムが、通
信制御プログラムから受信するすべてのデータを制御デ
ータとアプリケーションデータとに識別して受信回数を
管理する送受信データ管理手段と、監視用データの送信
から応答データ受信タイムアウト発生までの間にアプリ
ケーションデータの受信回数を前記送受信データ管理手
段に問い合わせ1回でも受信していればヘルスチェック
タイムアウト未発生と通知し1回でも受信していなけれ
ばヘルスチェックタイムアウト発生と通知するヘルスチ
ェックタイムアウト検出手段と、応答データ受信タイム
アウト発生時に前記ヘルスチェックタイムアウト検出手
段からヘルスチェックタイムアウト発生かどうかの通知
を受けてヘルスチェックタイムアウト発生でなければ次
の監視用データの送信待ちを開始しヘルスチェックタイ
ムアウト発生であれば障害処理を起動するヘルスチェッ
クコマンド管理手段とを有する。
〔作用〕
本発明のヘルスチェック方式では、送受信データ管理
手段が通信制御プログラムから受信するすべてのデータ
を制御データとアプリケーションデータとに識別して受
信回数を管理し、ヘルスチェックタイムアウト検出手段
が監視用データの送信から応答データ受信タイムアウト
発生までの間のアプリケーションデータの受信回数を送
受信データ管理手段に問い合わせ1回でも受信していれ
ばヘルスチェックタイムアウト未発生と通知し1回も受
信していなければヘルスチェックタイムアウト発生と通
知し、ヘルスチェックコマンド管理手段が応答データ受
信タイムアウト発生時にヘルスチェックタイムアウト検
出手段からヘルスチェックタイムアウト発生かどうかの
通知を受けてヘルスチェックタイムアウト発生でなけれ
ば次の監視用データの送信待ちを開始しヘルスチェック
タイムアウト発生であれば障害処理を起動する。
〔実施例〕
次に、本発明について図面を参照して詳細に説明す
る。
第1図は、本発明の一実施例に係るヘルスチェック方
式の構成を示すブロック図である。本実施例のヘルスチ
ェック方式は、ホストコンピュータ8上で動作する通信
管理プログラム7と、通信処理装置10上で動作する通信
制御プログラム9とから、その主要部が構成されてい
る。
通信管理プログラム7は、通信制御プログラム9から
受信する全てのデータを管理しデータ種別ごとにその受
信回数を受信データ管理テーブル4上に記憶する送受信
データ管理手段1と、監視用データ5を送信し監視用デ
ータ5に対する応答データ6を監視するヘルスチェック
コマンド管理手段2と、監視用データ5に対する応答デ
ータ6が一定時間内に受信されない場合にヘルスチェッ
クコマンド管理手段2によって起動され監視用データ5
の送信から応答データ受信監視タイムアウト発生まで間
のアプリケーションデータ受信状態を調べて1回でも受
信していれば正常動作中とし1回も受信していない場合
にはヘルスチェックタイムアウト発生とするヘルスチェ
ックタイムアウト検出手段3とを含んで構成されてい
る。
第2図を参照すると、送受信データ管理手段1におけ
る処理は、処理判定ステップ101と、データ受信回数カ
ウントステップ102と、アプリケーションデータ受信回
数取得ステップ103とからなる。
第3図を参照すると、ヘルスチェックコマンド管理手
段2における処理は、処理ステージ選択ステップ201
と、アプリケーションデータ受信回数取得および記憶ス
テップ202と、監視用データ送信ステップ203と、応答デ
ータ受信待ちタイマ起動ステップ204と、次監視用デー
タ送信待ちタイマ起動ステップ205と、ヘルスチェック
タイムアウト発生問合せステップ206と、ヘルスチェッ
クタイムアウト発生判定ステップ207と、障害処理起動
ステップ208とからなる。
第4図を参照すると、ヘルスチェックタイムアウト検
出手段3における処理は、アプリケーションデータ受信
回数取得ステップ301と、アプリケーションデータ受信
回数比例ステップ302と、ヘルスチェックタイムアウト
未発生通知ステップ303と、ヘルスチェックタイムアウ
ト発生通知ステップ304とからなる。
第5図を参照すると、受信データ管理テーブル4は、
データリンクレベル制御データ受信回数401と、アプリ
ケーションデータ受信回数402と、その他のデータ受信
回数403とから構成されている。
第6図を参照すると、監視用データ5は、非アプリケ
ーションデータ指示501と、監視コマンド指示502と、情
報503とから構成されている。
第7図を参照すると、応答データ6は、非アプリケー
ションデータ指示601と、監視コマンドに対するレスポ
ンス指示602とから構成されている。
なお、監視用データ5内の非アプリケーションデータ
指示501と応答データ6内の非アプリケーションデータ
指示601とは同一形式であり、データ種別を判定するた
めに用いられる。
次に、このように構成された本実施例のヘルスチェッ
ク方式の動作について説明する。
通信処理装置10上で通信制御プログラム9が活性化さ
れた場合(立ち上げられた場合)、および後述する次監
視用データ送信待ちタイマがタイムアウトした場合に
は、ホストコンピュータ8上の通信管理プログラム7で
は、ヘルスチェックコマンド管理手段2が処理ステージ
の選択を行い(ステップ201)、開始または再開処理ス
テージであるので、送受信データ管理手段1に対してア
プリケーションデータ受信回数402を要求する(ステッ
プ202)。
送受信データ管理手段1は、処理の判定を行い(ステ
ップ101)、アプリケーションデータ受信回数要求の処
理であるので、受信データ管理テーブル4上のアプリケ
ーションデータ受信回数402を取得してヘルスチェック
コマンド管理手段2に通知する(ステップ103)。
ヘルスチェックコマンド管理手段2は、送受信データ
管理手段1から通知されたアプリケーションデータ受信
回数402を記憶し(ステップ202)、監視用データ5を通
信制御プログラム9に送信して(ステップ203)、応答
データ受信待ちタイマ(図示せず)を起動する(ステッ
プ204)。
また、通信制御プログラム9からデータを受信した場
合には、送受信データ管理手段1は、データ受信処理で
あるので(ステップ101)、受信データ種別を識別して
受信データ管理テーブル4上の対応するカウンタ領域を
“1"増加する(ステップ102)。詳しくは、送受信デー
タ管理手段1は、受信データがデータリンクレベル制御
データの場合にはデータリンクレベル制御データ受信回
数401を、アプリケーションデータの場合にはアプリケ
ーションデータ受信回数402を、その他のデータの場合
にはその他のデータ受信回路403をそれぞれ“1"加算す
る。
応答データ受信待ちタイマのタイムアウト前に通信制
御プログラム9から監視用データ5に対する応答データ
6が返送されてくると、ヘルスチェックコマンド管理手
段2は、応答データ受信処理ステージであるので(ステ
ップ201)、次監視用データ送信待ちタイマ(図示せ
ず)を起動する(ステップ205)。
通信制御プログラム9から監視用データ5に対する対
応データ6が返送されてくる前に応答データ受信待ちタ
イマがタイムアウトすると、ヘルスチェックコマンド管
理手段2は、応答データ受信タイムアウト処理ステージ
であるので(ステップ201)、ヘルスチェックタイムア
ウト検出手段3にヘルスチェックタイムアウトの発生を
問い合わせる(ステップ206)。
ヘルスチェックタイムアウト検出手段3は、ステップ
202で述べたのと同様にして送受信データ管理受段1か
ら現在のアプリケーションデータ受信回数402を取得し
(ステップ301)、監視用データ5の送信時にステップ2
02でヘルスチェックコマンド管理手段2により記憶され
たアプリケーションデータ受信回数402と比較する(ス
テップ302)。両方のアプリケーションデータ受信回数4
02が同じ値ならば、監視用データ5の送信から応答デー
タ受信タイムアウト発生までの間に1つもアプリケーシ
ョンデータが受信されていないことを意味するので、ヘ
ルスチェックタイムアウト検出手段3は、“ヘルスチェ
ックタイムアウト発生”を指示する情報をヘルスチェッ
クコマンド管理手段2に通知する(ステップ304)。一
方、現在のアプリケーションデータ受信回数402が記憶
していたアプリケーションデータ受信回数402より増加
していれば、監視用データ5の送信から応答データ受信
タイムアウト発生までの間に1つでもアプリケーション
データが受信されていることを意味するので、ヘルスチ
ェックタイムアウト検出手段3は、“ヘルスチェックタ
イムアウト発生せず”を指示する情報をヘルスチェック
コマンド管理手段2に通知する(ステップ303)。
ヘルスチェックコマンド管理手段3は、ヘルスチェッ
クタイムアウト検出手段3からの通知に基づいてヘルス
チェックタイムアウト発生か否かを判定し(ステップ20
7)、ヘルスチェックタイムアウト発生と判断されれば
通信制御プログラム9の障害発生として障害処理を起動
する(ステップ208)。また、ヘルスチェックタイムア
ウト発生すぜと判断されれば、ヘルスチェックコマンド
管理手段2は、次監視用データ送信待ちタイマを起動す
る(ステップ205)。
〔発明の効果〕
以上述べたように本発明は、ホストコンピュータ上の
通信管理プログラムに送受信データ管理手段,ヘルスチ
ェックコマンド管理手段およびヘルスチェックタイムア
ウト検出手段を設けたことにより、通信制御プログラム
自身は正常動作中でアプリケーションデータの送受信は
可能だがオンラインシステムの負荷が高まり応答データ
を一定時間内に返送できないような状態が発生した場合
でも通信制御プログラムは正常動作しているとみなして
不正に障害発生とすることがないという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例に係るヘルスチェック方式の
構成を示すブロック図、 第2図は第1図中の送受信データ管理手段の詳細な処理
を示す流れ図、 第3図は第1図中のヘルスチェックコマンド管理手段の
詳細な処理を示す流れ図、 第4図は第1図中のヘルスチェックタイムアウト検出手
段の詳細な処理を示す流れ図、 第5図は第1図中の受信データ管理テーブルの詳細な形
式を示す図、 第6図は第1図中の監視用データの詳細な形式を示す
図、 第7図は第1図中の応答データの詳細な形式を示す図で
ある。 図において、 1……送受信データ管理手段、 2……ヘルスチェックコマンド管理手段、 3……ヘルスチェックタイムアウト検出手段、 4……受信データ管理テーブル、 5……監視用データ、 6……応答データ、 7……通信管理プログラム、 8……ホストコンピュータ、 9……通信制御プログラム、 10……通信処理装置、 401……データリンクレベル制御データ受信回数、 402……アプリケーションデータ受信回数、 403……その他のデータ受信回数、 501……非アプリケーションデータ指示、 502……監視コマンド指示、 503……情報、 601……非アプリケーションデータ指示、 602……監視コマンドに対するレスポンス指示である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】ホストコンピュータ上の通信管理プログラ
    ムが特定の監視用データを通信処理装置上の通信制御プ
    ログラムに送信し通信制御プログラムから監視用データ
    に対する応答データを受信することによって通信制御プ
    ログラムの動作状態を監視するヘルスチェック方式にお
    いて、 通信管理プログラムが、 通信制御プログラムから受信するすべてのデータを制御
    データとアプリケーションデータとに識別して受信回数
    を管理する送受信データ管理手段と、 監視用データの送信から応答データ受信タイムアウト発
    生までの間にアプリケーションデータの受信回数を前記
    送受信データ管理手段に問い合わせ1回でも受信してい
    ればヘルスチェックタイムアウト未発生と通知し1回も
    受信していなければヘルスチェックタイムアウト発生と
    通知するヘルスチェックタイムアウト検出手段と、 応答データ受信タイムアウト発生時に前記ヘルスチェッ
    クタイムアウト検出手段からヘルスチェックタイムアウ
    ト発生かどうかの通知を受けてヘルスチェックタイムア
    ウト発生でなければ次の監視用データの送信待ちを開始
    しヘルスチェックタイムアウト発生であれば障害処理を
    起動するヘルスチェックコマンド管理手段と を有することを特徴とするヘルスチェック方式。
JP1133068A 1989-05-26 1989-05-26 ヘルスチェック方式 Expired - Lifetime JPH087726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1133068A JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1133068A JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Publications (2)

Publication Number Publication Date
JPH02310755A JPH02310755A (ja) 1990-12-26
JPH087726B2 true JPH087726B2 (ja) 1996-01-29

Family

ID=15096090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1133068A Expired - Lifetime JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Country Status (1)

Country Link
JP (1) JPH087726B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10285164A (ja) * 1997-04-09 1998-10-23 Nec Corp ネットワーク管理システム及び方法並びにネットワーク管理プログラムを記録した記録媒体
JP2008244645A (ja) * 2007-03-26 2008-10-09 Atsumi Electric Co Ltd ネットワーク機器の生存監視システム及びネットワーク機器の生存監視方法

Also Published As

Publication number Publication date
JPH02310755A (ja) 1990-12-26

Similar Documents

Publication Publication Date Title
US6425093B1 (en) Methods and apparatuses for controlling the execution of software on a digital processing system
JPH06509431A (ja) コンピュータシステムの監視方法及び装置
US5751966A (en) Notification of disconnected service machines that have stopped running
US20150019671A1 (en) Information processing system, trouble detecting method, and information processing apparatus
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
JPH087726B2 (ja) ヘルスチェック方式
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP4034436B2 (ja) クライアント・サーバシステム及びクライアント稼働監視方法
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JPH10171769A (ja) 複合計算機システム
JP3757072B2 (ja) ネットワークシステムを構成する計算機の監視方法
KR100784595B1 (ko) 이동통신 시스템에서 프로세스 상태 관리 방법
KR100462986B1 (ko) 프로세스 고유 정보를 사용한 프로세스 상태 관리 방법
JP7395908B2 (ja) 情報処理システム
JP2699291B2 (ja) 電源異常処理装置
JPH0691565B2 (ja) 相手処理装置の動作監視装置
JPH08329023A (ja) 並列電子計算機システム
JP2889888B2 (ja) 通信処理装置
KR100606339B1 (ko) 에이치엘알 시스템의 프로세스 상태 관리 시스템 및 그 방법
JPH05189342A (ja) 通信処理装置動作監視方式
JPH04262428A (ja) ホットスタンバイシステム
JP2000295259A (ja) Lan異常検出装置
JPH0685942A (ja) 障害自動通知方式
JPH05158585A (ja) ワークステーションの電源制御方式
JPH09251402A (ja) 計算機障害検出システム