JP2007266776A

JP2007266776A - 複数サーバ間でのサービス正常動作監視システムおよびその方法

Info

Publication number: JP2007266776A
Application number: JP2006086559A
Authority: JP
Inventors: Eiichiro Mori; 英一郎森
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-03-27
Filing date: 2006-03-27
Publication date: 2007-10-11

Abstract

【課題】冗長化構成の運用を前提としたサービスシステムにおいて、サービスの故障のみならず、サービスの正常動作状態も監視することで、より早期に、より完全にサービス故障状態を検出する複数サーバ間でのサービス正常動作監視システムおよびその方法を提供する。
【解決手段】複数のサーバで構築されたサービスシステムにおいて、対向するサーバに対して定期的にＵＤＰまたはＴＣＰで通信を行い、その通信パケットの内容によりサービス運用状態の正常／異常判断をするサービス正常動作機能をサービスシステム内の各サーバに持たせ、サービス正常動作監視を冗長構成サーバで相互に行なう。
【選択図】図２

Description

本発明は、複数サーバ間でのサービス正常動作監視システムおよびその方法に係り、特に、サービス正常性動作監視機能をサービスシステム内の各サーバに持たせ、サービス正常動作監視を冗長構成のサーバで相互に行うことを可能にした複数サーバ間でのサービス正常動作監視システムおよびその方法に関するものである。

近年様々なサービスを提供するサーバシステムは増加の一方であり、提供するサービスの中でも、早期故障検出によりサービスの中断時間を最小限に抑えたシステムの要求が一層高まっている。通常、交換システムなどでは、自サーバ内での故障の検出や、監視専用サーバを使用しての通信途絶の検出により、運用系サーバの故障を判断し、あらかじめ物理的に冗長化した装置系を新たに運用化（系切替え）することで、サービスの中断時間を最小限に抑える方式を採ってきた。

また、前述したとおり、冗長化構成運用を前提としたサービスシステムにおいては、サービスの故障を検出する方法として、例えばミドルウェアでは、ミドル上で動作するサービス提供プロセスの生存確認を行い、プロセス消滅時にプロセス再起動を行なう機能がある。

また、冗長化したサーバ間でミドルウェア同士の通信疎通監視を行う事で、通信途絶により対向系サーバの故障を検出し運用系サーバを切替える機能もある。

さらにサービス提供状態のサーバについては、サービス監視用の外部サーバが、サービス提供プロセスと定期的に通信を行い監視している。

例えば、通信部、サービス処理部、プロセス管理部を実行系サーバおよび待機系サーバにそれぞれ設けて、実行系サーバ内に何らかの障害が発生した場合、通信部によるリクエストの受信制御、サービス処理部による処理の実行制御、プロセス管理部によるリクエストの配分制御を待機系サーバに引き継がせて、実行系サーバが行うべきサービスに関する処理を待機系サーバに代替させる技術が知られている。（例えば、特許文献１参照）
一方、二重化された監視／制御プロセッサ間相互で通信を行うための通信手段を設け、発生した事象を監視／制御プロセッサ間で相互に通知し、互いに相互の状態を把握しながらシステムの状態を監視・制御する技術が、また、二重化された監視／監視制御プロセッサ間で一定時間ごとに所定の通知事象を交換し、相互に動作を監視する技術が知られている。（例えば、特許文献２参照）
しかしながら、これらの従来技術は、いずれも、二重化されたサーバ又は監視／制御プロセッサで実行系が障害時に待機系への処理の移行を速やかに行うことだけに限られ、冗長化されたサーバ間にて、定期的に通信を行い、該通信の内容に基づき、相互にサービスの運用状態を判断することで、監視専用サーバを不必要とすることを目的とする発明は存在していない。

また、サービスの正常動作状態の監視を行う為に、サービス監視専用の外部サーバを用意する方法もあるが、サービス提供サーバ以外に監視専用サーバを建てる事になる為、導入コストや消費電力が多くかかってしまうといった点でデメリットも見られる。
特開平０８−２１２０９５号公報特開平１０−１５４０８５号公報

本発明は、冗長化構成の運用を前提としたサービスシステムにおいて、サービスの故障のみならず、サービスの正常動作状態も監視することで、より早期に、より完全にサービス故障状態を検出する複数サーバ間でのサービス正常動作監視システムおよびその方法を提供することを課題とする。

上記課題を解決するための第１の発明は、複数のサーバで構築されたサービスを提供するサーバシステムにおいて、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視手段とを備える。

この第１の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できる複数サーバ間でのサービス正常動作監視システムを提供できる。

第２の発明は、第１の発明記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせる。

この第２の発明によれば、サービス正常動作監視を冗長構成サーバで相互に行うことにより、監視専用サーバを必要としない複数サーバ間でのサービス正常動作監視システムを提供できる。

第３の発明は、第１の発明記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行う。

この第３の発明によれば、通信ルート上のハード故障やパケット紛失などのサービス動作以外での異常検出を最小化する複数サーバ間でのサービス正常動作監視システムを提供できる。

第４の発明は、複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップとを含む。

この第４の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できる複数サーバ間でのサービス正常動作監視方法を提供できる。

第５の発明は、コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップとを実行させるためのプログラムである。

この第５の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できるプログラムを提供できる。

以上、本発明の複数サーバ間でのサービス正常動作監視システムおよびその方法によれば、
（１）サービス正常動作の監視を、監視専用サーバを必要とせずにサービスシステム内のサーバ間で実現することで、設備投資コストを最小限に抑えることができる。
（２）サーバに設定されている複数の通信ルートを全て利用してサービス正常動作をチェックすることで、サービス障害か、ハード障害かの切り分け精度を向上させることができる。
（３）サービス正常動作監視契機を監視対象以外の外部サーバより得ることで、監視対象サーバのソフトクロックの障害／遅延に影響されず、周期的な動作監視ができる。
（４）監視元サーバにて、被監視サーバより周期的にソフト時計時刻を受信し時間差分を比較することで、クロック障害やソフトのスローダウン要因によるサービス異常状態を検出することができる。
（５）各サーバにサービス正常動作監視プログラムを登録／削除（監視開始／監視停止）するインタフェースを設けることで、サーバ再起動等を経由させること無しにダイナミックにサービス正常動作の監視契機が変更でき、ハード・ソフトのオンライン増減設や、障害への対応が可能となる。
（６）被監視サーバ内にアプリケーションのサービス正常動作確認を行うプログラムを用意し、そのプログラムに対して確認するサービスを登録するインタフェースを設けることで、監視するサービスの内容をダイナミックに変更できる。
（７）サーバ増設／減設時にサーバ切離し／組込みを契機に周期的に、監視情報を交換することで、サーバ構成（１重化／２重化など）に対応してダイナミックに監視方法を変更できる。

以下、本発明の実施の形態について、図を参照しながら説明する。なお、全図を通じて理解を容易にするために同様箇所には、同一符号を付して示すものとする。

図１は、本発明の一実施形態における複数サーバ間でのサービス正常動作監視システムの構成図である。同図において、１および２はそれぞれＡＡＡネットワーク及びＢＢＢネットワークであり、複数のハブの接続されたＬＡＮを構成する。１０は任意のサービスを提供する被監視サーバであり、１１は任意のサービスを提供する監視元サーバである。２０はサービス正常動作確認の制御をするプログラムであり、アプリケーション３０やオペレーションシステム４０に対する動作確認開始や動作確認終了の登録機構を持つ。また、プログラム２１からの監視通知を受付け先に動作確認登録された内容に従ってサービス正常動作の確認を行い、プログラム２１へ結果を応答する。さらに必要であれば、異常と判断したシステムの復旧を図る。２１はサービス正常動作監視の制御をするプログラムであり、サーバ１０上のプログラム２０に対する監視開始や監視終了の登録及び、監視の実施やその監視結果によるリアクションを行う。３０は任意のサービスを提供しているアプリケーションであり、プログラム２０に対して、自サービスの正常動作確認開始、終了の登録を行い、定期的にサービスが正常に動作しているかチェックされる。４０はオペレーションシステムであり、任意のサービスを提供しているアプリケーションなどが動作するプラットフォームである。プログラム２０への登録内容により、正常に動作しているかチェックされる場合がある。５０、５１はＡＡＡネットワークに属するハブ（ＨＵＢ）である。５２、５３はＢＢＢネットワークに属するハブ（ＨＵＢ）である。６０はプログラム２０やアプリケーション３０などがデータの読み書きに使用する磁気ディスク装置である。ここではサービス正常性動作確認内容が登録されているｃｏｎｆｉｇファイルなどが格納されている。６１はプログラム２１やアプリケーション３１などがデータの読み書きに使用する磁気ディスク装置である。ここではプログラム２０のサービス動作異常を検出したサービス２１がｓｙｓｌｏｇ＜シスログ＞を書き込むファイルなどが格納されている。ｓｙｓｌｏｇ＜シスログ＞とは、各種のＵＮＩＸ（登録商標）が備えるシステム・ログ出力機能である。７０、７１はシステム監視機構（ＳＣＦ：System Control Facility ）であり、７２はＳＣＦ間接続インタフェース（ＲＣＩ：Remote Cabinet interface）である。

図２は、本発明の一実施形態におけるサービス正常動作時の説明図（その１）であり、図３は、本発明の一実施形態におけるサービス正常動作時の説明図（その２）である。

図４は、本発明の一実施形態におけるサービス正常動作時のタイムチャートであり、図１のサービス正常動作監視システム中の二重化サーバ構成にて、サーバ１１からのサービス正常動作監視契機の場合を示す。以下に、図２と図３を参照しつつ、図４の動作を説明する。

動作（１）
先ず、被監視対象サーバであるサーバ１０のアプリケーション３０よりサービス正常動作確認を制御するプログラム２０に監視通知の登録を行う。登録契機は、初期設定中、運用中を問わず受付けるものとし、登録方法は、アプリケーションインタフェース関数コール（ＡＰＩ：application programming interface)／コマンド起動によるコンフィグ設定値読出しのいずれの方法でも良い。登録する内容は、ＡＰＩ通知時に使用するプロトコル（ＵＤＰ／ＴＣＰ／ｍｓｇ通信）／そのプロトコルを使用するにあたり必要な情報（ｐｏｒｔ番号やｍｅｓｓａｇｅキューＩＤなど) ／通知タイミング( 周期) ／通知する内容／正常時の応答内容／異常時のリアクション( プロセス再起動やサーバ再起動等) などである。またＯＳに対してコマンド発行／プロセスの実行などを実施するよう登録する事も可能とする。プログラム２０では登録内容をメモリ上に保持する事とし、以降プログラム２１からの通信を待つ。

動作（２）
監視元サーバであるサーバ１１のサービス正常動作監視を行うプログラム２１にて監視開始の登録があると、ＡＡＡネットワークの通信ルートを使用してＩＰの上位プロトコルであるＵＤＰ（user datagram protocol）或いはＴＣＰ（transmission control protocol ）により定期的にサーバ１０のプログラム２０に通信を行う。監視停止の登録があるとプログラム２０に対する通信を切断する。プログラム２１への監視開始／停止登録契機は、初期設定中、運用中を問わず受付けるが、監視開始登録後プログラム２１の通信開始（監視有効）契機はサーバ１１が運用状態となってからとする。その理由は、サーバ１０異常検出時のサーバ系切替えによる運用サーバ化に備える為である。また、登録方法は、アプリケーションインタフェース関数コール（ＡＰＩ）／コマンド起動のいずれの方法でも良い。

動作（３）
プログラム２１からの通信を受付けたプログラム２０では、それまでに登録された監視内容通りにアプリケーション３０に対して通知を行い、アプリケーション３０からの応答内容からサービスの正常動作状態をチェックする。登録時にオペレーションシステム４０へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム２０では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム２１へ応答を返す。

動作（４）
プログラム２１では、チェック結果正常を確認すると、プログラム２０にて収集したサーバ１０のソフト時計時刻を退避しておき、再度プログラム２０に対して通信を行い、ソフト時計時刻を再収集させる。先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、しきい値以上時間経過していないかをチェックし、問題なければサービスが正常に動作していると見なし、監視周期時間経過後に再び定期的に通信（監視）を行う。

図５は、本発明の一実施形態におけるサービス異常動作時の説明図であり、アプリケーション３０の異常、オペレーションシステム４０の異常、スローダウン検出および通信タイムアウトにおける動作の流れを示す。

図６は、本発明の一実施形態におけるサービス異常動作時のタイムチャート（その１）であり、アプリケーション３０の異常の場合を示す。以下に、図５を参照しつつ、図６の動作を説明する。

動作（５）
アプリケーション３０からのチェック結果応答にて異常（ＮＧ応答）又は無応答であった場合には、プログラム２０は指定されたリアクションによりアプリケーション３０に対して、サービスの復旧を試みる。その際、保守者へＳＮＭＰトラップ又はシスログにより異常を通知するが、プログラム２１への応答は返さない。登録時にオペレーションシステム４０へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム２０では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム２１へ応答を返す。

図７は、本発明の一実施形態におけるサービス異常動作時のタイムチャート（その２）であり、オペレーションシステム４０の異常の場合を示す。以下に、図５を参照しつつ、図７の動作を説明する。

動作（５’）
オペレーションシステム４０からのコマンド／プログラムの実行結果にて異常（ＮＧ応答）又は無応答であった場合には、プログラム２０は指定されたリアクションによりオペレーションシステム４０に対して、サービスの復旧を試みる。その際、保守者へＳＮＭＰトラップ又はシスログにより異常を通知するが、プログラム２１への応答は返さない。

図８は、本発明の一実施形態におけるサービス異常動作時のタイムチャート（その３）であり、スローダウン検出の場合を示す。以下に、図５を参照しつつ、図８の動作を説明する。

動作（６）
プログラム２１では、先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、一定以上の差分があった場合には、プログラム２０のスローダウンによる異常と判断し、保守者へＳＮＭＰトラップ又はシスログにより異常を通知する。また、ハードウェアによる電源制御装置( 例ではＳＣＦ７０、７１及びＲＣI ７２）があれば、異常となったサーバを停止させ、サーバ系切替えにより自サーバを運用サーバ化することでサービスを自動復旧させる。

図９は、本発明の一実施形態におけるサービス異常動作時のタイムチャート（その４）であり、通信タイムアウトの場合を示す。以下に、図５を参照しつつ、図９の動作を説明する。

動作（７）
プログラム２１では、通信応答がプログラム２０から返って来ずに、ＡＡＡネットワークからの応答タイムアウト時には、サーバ１１に設定されている他の通信ルートであるＢＢＢネットワークを使用してサーバ１０のプログラム２０と再度通信（監視）を試みる。即ち、ＢＢＢネットワークを使用して前述の動作（４）、動作（５）及び動作（６）を行う。その結果、両ネットワーク共にＮＧ（応答タイムアウト）の場合には、サーバ１０は異常であると判断する。

図１０は、本発明の一実施形態における監視通知登録内容を示すデータ構成図であり、（ａ）はアプリケーション監視通知登録内容のデータ構成図を、（ｂ）はオペレーションシステム監視通知登録内容のデータ構成図である。

同図にて、ＡＰＬ／ＯＳ監視種別（選択）は、Application 通信（アプリケーション通信）又は、Operation システム（オペレーションシステム）の監視種別を示し、ＡＰＬ通信とは、正常性動作監視プログラムとアプリケーションとの間の通信のことであり、指定（ｍｓｇ／ＵＤＰ／ＴＣＰ等）された方式で通信を行う。ｍｓｇ通信は、message 通信（メッセージ通信）であり、Solaris ／ LinuxなどのＯＳに実装されているメッセージキューを介した通信方式である。ｍｓｇキューＩＤは、メッセージ通信する上で、通信ユーザ間で認識する共通のＩＤ番号である。通信ユーザ側がこのＩＤ番号を指定してメッセージキューに情報を詰めて、受信ユーザ側でこのＩＤ番号を指定してメッセージキューから情報を取り出すことで、ユーザ間でお互いの通信が実現できる。通知応答タイムアウト時間のｍｓ単位とは、１０００分の１秒単位を示す。

図１１は、本発明の一実施形態におけるソフトウェア構成図（正常動作被監視サーバ側）である。同図において、正常動作被監視サーバ側とは、二重化サーバ構成にて、サーバ１０のことである。即ち、この場合には、サーバ１１からのサービス正常動作監視契機となっているが、サーバ１０からの監視契機でも良い。。

アプリケーションプロセス１０１及びライブラリ部１０３は、アプリケーション３０内に存在し、監視通知の登録方法は、監視通知登録（ユーザ）１０２と監視開始登録受付け部（ＡＰＩ）１０４によるアプリケーションインタフェース関数コール、又は、監視通知登録部（コマンド）１１１によるコマンド起動に基づくコンフィグ設定値読出しのいずれかにより行われる。正常性動作監視プログラムプロセス１０５は、プログラム２０内に存在し、サービス正常動作チェック実行部（正常異常判定）１０７にて、サービス正常性動作のチェックを行い、判定結果他が登録内容（メモリ）１１４に登録される。また、異常検出時リアクション部１１３の履歴も登録内容（メモリ）１１４に登録される。なお、１０６はサービス正常動作結果受信部、１０８はＯＳコマンド実行部、１０９はアプリケーション通信部、１１０は監視通知登録部、１１２はサービス正常動作チェック通知受付け、応答部をそれぞれ示す。

図１２は、本発明の一実施形態におけるソフトウェア構成図（正常動作監視サーバ側）である。同図において、正常動作監視サーバ側とは、二重化サーバ構成にて、サーバ１１のことである。即ち、この場合には、サーバ１１からのサービス正常動作監視契機となっているが、前述したようにサーバ１０からの監視契機であっても良い。

アプリケーションプロセス１０１’及びライブラリ部１０３’は、アプリケーション３１内に存在し、監視開始の登録方法は、監視開始登録（ユーザ）１１５と監視開始登録受付け部（ＡＰＩ）１１６によるアプリケーションインタフェース関数コール、又は、監視開始登録部（コマンド）１１８によるコマンド起動のいずれかにより行われる。サービス正常動作監視部（周期通信、ネットワーク選択）１１９は、プログラム２１内に存在し、サービス正常動作結果判定部１２０による判定結果他が登録内容（メモリ）１１４’に登録される。また、異常検出時リアクション部１２１の履歴も登録内容（メモリ）１１４’に登録される。なお、１１７は監視開始登録部を示す。

以上の実施例を含む実施形態に関し、更に以下の付記を開示する。

（付記１）複数のサーバで構築されたサービスを提供するサーバシステムにおいて、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視手段とを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記２）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせることを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記３）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行うことを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記４）複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップとを含むことを特徴とする複数サーバ間でのサービス正常動作監視方法。

（付記５）コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップとを実行させるためのプログラム。

（付記６）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、監視元サーバにて被監視サーバより周期的にソフト時計時刻を収集する収集手段と、前記収集手段により時間差分を比較して障害を検出する検出手段を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記７）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、各サーバにサービス正常動作監視プログラムを登録又は削除するインタフェースを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記８）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、被監視サーバ内にアプリケーションのサービス正常動作確認を行うサービス内容を登録するインタフェースを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。

（付記９）付記１記載の複数サーバ間でのサービス正常動作監視システムにおいて、冗長構成をとる予備系サーバの組込み後、周期的に監視情報を交換する手段を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。

本発明は、複数のサーバで構築されたサービスを提供するサーバシステムにおいて、サービスの正常動作監視を行うことに利用できる。

本発明の一実施形態における複数サーバ間でのサービス正常動作監視システムの構成図である。本発明の一実施形態におけるサービス正常動作時の説明図（その１）である。本発明の一実施形態におけるサービス正常動作時の説明図（その２）である。本発明の一実施形態におけるサービス正常動作時のタイムチャートである。

本発明の一実施形態におけるサービス異常動作時の説明図である。本発明の一実施形態におけるサービス異常動作時のタイムチャート（その１）である。本発明の一実施形態におけるサービス異常動作時のタイムチャート（その２）である。本発明の一実施形態におけるサービス異常動作時のタイムチャート（その３）である。本発明の一実施形態におけるサービス異常動作時のタイムチャート（その４）である。本発明の一実施形態における監視通知登録内容を示すデータ構成図である。本発明の一実施形態におけるソフトウェア構成図（正常動作被監視サービス側）である。本発明の一実施形態におけるソフトウェア構成図（正常動作監視サービス側）である。

符号の説明

１ＡＡＡネットワーク
２ＢＢＢネットワーク
１０、１１サーバ
２０、２１プログラム
３０、３１アプリケーション
４０オペレーションシステム
５１、５２、５３、５４ハブ
６０、６１磁気ディスク装置
７０、７１ＳＣＦ（System Control Facility)
７２ＲＣＩ（Remote Cabinet Interface）
１０１アプリケーションプロセス
１０２監視通知登録（ユーザ）
１０３ライブラリ部
１０４監視通知登録受付け部（ＡＰＩ）
１０５正常性動作監視プログラムプロセス
１０６サービス正常動作結果受信部
１０７サービス正常動作チェック実行部（正常異常判定）
１０８ＯＳコマンド実行部
１０９アプリケーション通信部
１１０監視通知登録部
１１１監視通知登録部（コマンド）
１１２サービス正常動作チェック通知受付け、応答部
１１３異常検出時リアクション部
１１４登録内容（メモリ）
１１５監視開始登録（ユーザ）
１１６監視開始登録受付け部（ＡＰＩ）
１１７監視開始登録部
１１８監視開始登録部（コマンド）
１１９サービス正常動作監視部（周期通信、ネットワーク選択）
１２０サービス正常動作結果判定部
１２１異常検出時リアクション部

Claims

複数のサーバで構築されたサービスを提供するサーバシステムにおいて、
正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視手段と、
を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
請求項１記載の複数サーバ間でのサービス正常動作監視システムにおいて、
前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせることを特徴とする複数サーバ間でのサービス正常動作監視システム。
請求項１記載の複数サーバ間でのサービス正常動作監視システムにおいて、
前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行うことを特徴とする複数サーバ間でのサービス正常動作監視システム。
複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、
正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップと、
を含むことを特徴とする複数サーバ間でのサービス正常動作監視方法。
コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常／異常判断を行うサービス正常動作監視ステップと、
を実行させるためのプログラム。