JP2007266776A - 複数サーバ間でのサービス正常動作監視システムおよびその方法 - Google Patents
複数サーバ間でのサービス正常動作監視システムおよびその方法 Download PDFInfo
- Publication number
- JP2007266776A JP2007266776A JP2006086559A JP2006086559A JP2007266776A JP 2007266776 A JP2007266776 A JP 2007266776A JP 2006086559 A JP2006086559 A JP 2006086559A JP 2006086559 A JP2006086559 A JP 2006086559A JP 2007266776 A JP2007266776 A JP 2007266776A
- Authority
- JP
- Japan
- Prior art keywords
- service
- normal operation
- server
- monitoring
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【課題】冗長化構成の運用を前提としたサービスシステムにおいて、サービスの故障のみならず、サービスの正常動作状態も監視することで、より早期に、より完全にサービス故障状態を検出する複数サーバ間でのサービス正常動作監視システムおよびその方法を提供する。
【解決手段】複数のサーバで構築されたサービスシステムにおいて、対向するサーバに対して定期的にUDPまたはTCPで通信を行い、その通信パケットの内容によりサービス運用状態の正常/異常判断をするサービス正常動作機能をサービスシステム内の各サーバに持たせ、サービス正常動作監視を冗長構成サーバで相互に行なう。
【選択図】図2
【解決手段】複数のサーバで構築されたサービスシステムにおいて、対向するサーバに対して定期的にUDPまたはTCPで通信を行い、その通信パケットの内容によりサービス運用状態の正常/異常判断をするサービス正常動作機能をサービスシステム内の各サーバに持たせ、サービス正常動作監視を冗長構成サーバで相互に行なう。
【選択図】図2
Description
本発明は、複数サーバ間でのサービス正常動作監視システムおよびその方法に係り、特に、サービス正常性動作監視機能をサービスシステム内の各サーバに持たせ、サービス正常動作監視を冗長構成のサーバで相互に行うことを可能にした複数サーバ間でのサービス正常動作監視システムおよびその方法に関するものである。
近年様々なサービスを提供するサーバシステムは増加の一方であり、提供するサービスの中でも、早期故障検出によりサービスの中断時間を最小限に抑えたシステムの要求が一層高まっている。通常、交換システムなどでは、自サーバ内での故障の検出や、監視専用サーバを使用しての通信途絶の検出により、運用系サーバの故障を判断し、あらかじめ物理的に冗長化した装置系を新たに運用化(系切替え)することで、サービスの中断時間を最小限に抑える方式を採ってきた。
また、前述したとおり、冗長化構成運用を前提としたサービスシステムにおいては、サービスの故障を検出する方法として、例えばミドルウェアでは、ミドル上で動作するサービス提供プロセスの生存確認を行い、プロセス消滅時にプロセス再起動を行なう機能がある。
また、冗長化したサーバ間でミドルウェア同士の通信疎通監視を行う事で、通信途絶により対向系サーバの故障を検出し運用系サーバを切替える機能もある。
さらにサービス提供状態のサーバについては、サービス監視用の外部サーバが、サービス提供プロセスと定期的に通信を行い監視している。
例えば、通信部、サービス処理部、プロセス管理部を実行系サーバおよび待機系サーバにそれぞれ設けて、実行系サーバ内に何らかの障害が発生した場合、通信部によるリクエストの受信制御、サービス処理部による処理の実行制御、プロセス管理部によるリクエストの配分制御を待機系サーバに引き継がせて、実行系サーバが行うべきサービスに関する処理を待機系サーバに代替させる技術が知られている。(例えば、特許文献1参照)
一方、二重化された監視/制御プロセッサ間相互で通信を行うための通信手段を設け、発生した事象を監視/制御プロセッサ間で相互に通知し、互いに相互の状態を把握しながらシステムの状態を監視・制御する技術が、また、二重化された監視/監視制御プロセッサ間で一定時間ごとに所定の通知事象を交換し、相互に動作を監視する技術が知られている。(例えば、特許文献2参照)
しかしながら、これらの従来技術は、いずれも、二重化されたサーバ又は監視/制御プロセッサで実行系が障害時に待機系への処理の移行を速やかに行うことだけに限られ、冗長化されたサーバ間にて、定期的に通信を行い、該通信の内容に基づき、相互にサービスの運用状態を判断することで、監視専用サーバを不必要とすることを目的とする発明は存在していない。
一方、二重化された監視/制御プロセッサ間相互で通信を行うための通信手段を設け、発生した事象を監視/制御プロセッサ間で相互に通知し、互いに相互の状態を把握しながらシステムの状態を監視・制御する技術が、また、二重化された監視/監視制御プロセッサ間で一定時間ごとに所定の通知事象を交換し、相互に動作を監視する技術が知られている。(例えば、特許文献2参照)
しかしながら、これらの従来技術は、いずれも、二重化されたサーバ又は監視/制御プロセッサで実行系が障害時に待機系への処理の移行を速やかに行うことだけに限られ、冗長化されたサーバ間にて、定期的に通信を行い、該通信の内容に基づき、相互にサービスの運用状態を判断することで、監視専用サーバを不必要とすることを目的とする発明は存在していない。
また、サービスの正常動作状態の監視を行う為に、サービス監視専用の外部サーバを用意する方法もあるが、サービス提供サーバ以外に監視専用サーバを建てる事になる為、導入コストや消費電力が多くかかってしまうといった点でデメリットも見られる。
特開平08−212095号公報
特開平10−154085号公報
本発明は、冗長化構成の運用を前提としたサービスシステムにおいて、サービスの故障のみならず、サービスの正常動作状態も監視することで、より早期に、より完全にサービス故障状態を検出する複数サーバ間でのサービス正常動作監視システムおよびその方法を提供することを課題とする。
上記課題を解決するための第1の発明は、複数のサーバで構築されたサービスを提供するサーバシステムにおいて、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視手段とを備える。
この第1の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できる複数サーバ間でのサービス正常動作監視システムを提供できる。
第2の発明は、第1の発明記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせる。
この第2の発明によれば、サービス正常動作監視を冗長構成サーバで相互に行うことにより、監視専用サーバを必要としない複数サーバ間でのサービス正常動作監視システムを提供できる。
第3の発明は、第1の発明記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行う。
この第3の発明によれば、通信ルート上のハード故障やパケット紛失などのサービス動作以外での異常検出を最小化する複数サーバ間でのサービス正常動作監視システムを提供できる。
第4の発明は、複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップとを含む。
この第4の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できる複数サーバ間でのサービス正常動作監視方法を提供できる。
第5の発明は、コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップとを実行させるためのプログラムである。
この第5の発明によれば、サーバの故障のみならず、サービスの正常動作も監視することで、より早期に、より完全にサービス故障状態を検出できるプログラムを提供できる。
以上、本発明の複数サーバ間でのサービス正常動作監視システムおよびその方法によれば、
(1)サービス正常動作の監視を、監視専用サーバを必要とせずにサービスシステム内のサーバ間で実現することで、設備投資コストを最小限に抑えることができる。
(2)サーバに設定されている複数の通信ルートを全て利用してサービス正常動作をチェックすることで、サービス障害か、ハード障害かの切り分け精度を向上させることができる。
(3)サービス正常動作監視契機を監視対象以外の外部サーバより得ることで、監視対象サーバのソフトクロックの障害/遅延に影響されず、周期的な動作監視ができる。
(4)監視元サーバにて、被監視サーバより周期的にソフト時計時刻を受信し時間差分を比較することで、クロック障害やソフトのスローダウン要因によるサービス異常状態を検出することができる。
(5)各サーバにサービス正常動作監視プログラムを登録/削除(監視開始/監視停止)するインタフェースを設けることで、サーバ再起動等を経由させること無しにダイナミックにサービス正常動作の監視契機が変更でき、ハード・ソフトのオンライン増減設や、障害への対応が可能となる。
(6)被監視サーバ内にアプリケーションのサービス正常動作確認を行うプログラムを用意し、そのプログラムに対して確認するサービスを登録するインタフェースを設けることで、監視するサービスの内容をダイナミックに変更できる。
(7)サーバ増設/減設時にサーバ切離し/組込みを契機に周期的に、監視情報を交換することで、サーバ構成(1重化/2重化など)に対応してダイナミックに監視方法を変更できる。
(1)サービス正常動作の監視を、監視専用サーバを必要とせずにサービスシステム内のサーバ間で実現することで、設備投資コストを最小限に抑えることができる。
(2)サーバに設定されている複数の通信ルートを全て利用してサービス正常動作をチェックすることで、サービス障害か、ハード障害かの切り分け精度を向上させることができる。
(3)サービス正常動作監視契機を監視対象以外の外部サーバより得ることで、監視対象サーバのソフトクロックの障害/遅延に影響されず、周期的な動作監視ができる。
(4)監視元サーバにて、被監視サーバより周期的にソフト時計時刻を受信し時間差分を比較することで、クロック障害やソフトのスローダウン要因によるサービス異常状態を検出することができる。
(5)各サーバにサービス正常動作監視プログラムを登録/削除(監視開始/監視停止)するインタフェースを設けることで、サーバ再起動等を経由させること無しにダイナミックにサービス正常動作の監視契機が変更でき、ハード・ソフトのオンライン増減設や、障害への対応が可能となる。
(6)被監視サーバ内にアプリケーションのサービス正常動作確認を行うプログラムを用意し、そのプログラムに対して確認するサービスを登録するインタフェースを設けることで、監視するサービスの内容をダイナミックに変更できる。
(7)サーバ増設/減設時にサーバ切離し/組込みを契機に周期的に、監視情報を交換することで、サーバ構成(1重化/2重化など)に対応してダイナミックに監視方法を変更できる。
以下、本発明の実施の形態について、図を参照しながら説明する。なお、全図を通じて理解を容易にするために同様箇所には、同一符号を付して示すものとする。
図1は、本発明の一実施形態における複数サーバ間でのサービス正常動作監視システムの構成図である。同図において、1および2はそれぞれAAAネットワーク及びBBBネットワークであり、複数のハブの接続されたLANを構成する。10は任意のサービスを提供する被監視サーバであり、11は任意のサービスを提供する監視元サーバである。20はサービス正常動作確認の制御をするプログラムであり、アプリケーション30やオペレーションシステム40に対する動作確認開始や動作確認終了の登録機構を持つ。また、プログラム21からの監視通知を受付け先に動作確認登録された内容に従ってサービス正常動作の確認を行い、プログラム21へ結果を応答する。さらに必要であれば、異常と判断したシステムの復旧を図る。21はサービス正常動作監視の制御をするプログラムであり、サーバ10上のプログラム20に対する監視開始や監視終了の登録及び、監視の実施やその監視結果によるリアクションを行う。30は任意のサービスを提供しているアプリケーションであり、プログラム20に対して、自サービスの正常動作確認開始、終了の登録を行い、定期的にサービスが正常に動作しているかチェックされる。40はオペレーションシステムであり、任意のサービスを提供しているアプリケーションなどが動作するプラットフォームである。プログラム20への登録内容により、正常に動作しているかチェックされる場合がある。50、51はAAAネットワークに属するハブ(HUB)である。52、53はBBBネットワークに属するハブ(HUB)である。60はプログラム20やアプリケーション30などがデータの読み書きに使用する磁気ディスク装置である。ここではサービス正常性動作確認内容が登録されているconfigファイルなどが格納されている。61はプログラム21やアプリケーション31などがデータの読み書きに使用する磁気ディスク装置である。ここではプログラム20のサービス動作異常を検出したサービス21がsyslog<シスログ>を書き込むファイルなどが格納されている。syslog<シスログ>とは、各種のUNIX(登録商標)が備えるシステム・ログ出力機能である。70、71はシステム監視機構(SCF:System Control Facility )であり、72はSCF間接続インタフェース(RCI:Remote Cabinet interface)である。
図2は、本発明の一実施形態におけるサービス正常動作時の説明図(その1)であり、図3は、本発明の一実施形態におけるサービス正常動作時の説明図(その2)である。
図4は、本発明の一実施形態におけるサービス正常動作時のタイムチャートであり、図1のサービス正常動作監視システム中の二重化サーバ構成にて、サーバ11からのサービス正常動作監視契機の場合を示す。以下に、図2と図3を参照しつつ、図4の動作を説明する。
動作(1)
先ず、被監視対象サーバであるサーバ10のアプリケーション30よりサービス正常動作確認を制御するプログラム20に監視通知の登録を行う。登録契機は、初期設定中、運用中を問わず受付けるものとし、登録方法は、アプリケーションインタフェース関数コール(API:application programming interface)/コマンド起動によるコンフィグ設定値読出しのいずれの方法でも良い。登録する内容は、API通知時に使用するプロトコル(UDP/TCP/msg通信)/そのプロトコルを使用するにあたり必要な情報(port番号やmessageキューIDなど) /通知タイミング( 周期) /通知する内容/正常時の応答内容/異常時のリアクション( プロセス再起動やサーバ再起動等) などである。またOSに対してコマンド発行/プロセスの実行などを実施するよう登録する事も可能とする。プログラム20では登録内容をメモリ上に保持する事とし、以降プログラム21からの通信を待つ。
先ず、被監視対象サーバであるサーバ10のアプリケーション30よりサービス正常動作確認を制御するプログラム20に監視通知の登録を行う。登録契機は、初期設定中、運用中を問わず受付けるものとし、登録方法は、アプリケーションインタフェース関数コール(API:application programming interface)/コマンド起動によるコンフィグ設定値読出しのいずれの方法でも良い。登録する内容は、API通知時に使用するプロトコル(UDP/TCP/msg通信)/そのプロトコルを使用するにあたり必要な情報(port番号やmessageキューIDなど) /通知タイミング( 周期) /通知する内容/正常時の応答内容/異常時のリアクション( プロセス再起動やサーバ再起動等) などである。またOSに対してコマンド発行/プロセスの実行などを実施するよう登録する事も可能とする。プログラム20では登録内容をメモリ上に保持する事とし、以降プログラム21からの通信を待つ。
動作(2)
監視元サーバであるサーバ11のサービス正常動作監視を行うプログラム21にて監視開始の登録があると、AAAネットワークの通信ルートを使用してIPの上位プロトコルであるUDP(user datagram protocol)或いはTCP(transmission control protocol )により定期的にサーバ10のプログラム20に通信を行う。監視停止の登録があるとプログラム20に対する通信を切断する。プログラム21への監視開始/停止登録契機は、初期設定中、運用中を問わず受付けるが、監視開始登録後プログラム21の通信開始(監視有効)契機はサーバ11が運用状態となってからとする。その理由は、サーバ10異常検出時のサーバ系切替えによる運用サーバ化に備える為である。また、登録方法は、アプリケーションインタフェース関数コール(API)/コマンド起動のいずれの方法でも良い。
監視元サーバであるサーバ11のサービス正常動作監視を行うプログラム21にて監視開始の登録があると、AAAネットワークの通信ルートを使用してIPの上位プロトコルであるUDP(user datagram protocol)或いはTCP(transmission control protocol )により定期的にサーバ10のプログラム20に通信を行う。監視停止の登録があるとプログラム20に対する通信を切断する。プログラム21への監視開始/停止登録契機は、初期設定中、運用中を問わず受付けるが、監視開始登録後プログラム21の通信開始(監視有効)契機はサーバ11が運用状態となってからとする。その理由は、サーバ10異常検出時のサーバ系切替えによる運用サーバ化に備える為である。また、登録方法は、アプリケーションインタフェース関数コール(API)/コマンド起動のいずれの方法でも良い。
動作(3)
プログラム21からの通信を受付けたプログラム20では、それまでに登録された監視内容通りにアプリケーション30に対して通知を行い、アプリケーション30からの応答内容からサービスの正常動作状態をチェックする。登録時にオペレーションシステム40へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム20では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム21へ応答を返す。
プログラム21からの通信を受付けたプログラム20では、それまでに登録された監視内容通りにアプリケーション30に対して通知を行い、アプリケーション30からの応答内容からサービスの正常動作状態をチェックする。登録時にオペレーションシステム40へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム20では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム21へ応答を返す。
動作(4)
プログラム21では、チェック結果正常を確認すると、プログラム20にて収集したサーバ10のソフト時計時刻を退避しておき、再度プログラム20に対して通信を行い、ソフト時計時刻を再収集させる。先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、しきい値以上時間経過していないかをチェックし、問題なければサービスが正常に動作していると見なし、監視周期時間経過後に再び定期的に通信(監視)を行う。
プログラム21では、チェック結果正常を確認すると、プログラム20にて収集したサーバ10のソフト時計時刻を退避しておき、再度プログラム20に対して通信を行い、ソフト時計時刻を再収集させる。先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、しきい値以上時間経過していないかをチェックし、問題なければサービスが正常に動作していると見なし、監視周期時間経過後に再び定期的に通信(監視)を行う。
図5は、本発明の一実施形態におけるサービス異常動作時の説明図であり、アプリケーション30の異常、オペレーションシステム40の異常、スローダウン検出および通信タイムアウトにおける動作の流れを示す。
図6は、本発明の一実施形態におけるサービス異常動作時のタイムチャート(その1)であり、アプリケーション30の異常の場合を示す。以下に、図5を参照しつつ、図6の動作を説明する。
動作(5)
アプリケーション30からのチェック結果応答にて異常(NG応答)又は無応答であった場合には、プログラム20は指定されたリアクションによりアプリケーション30に対して、サービスの復旧を試みる。その際、保守者へSNMPトラップ又はシスログにより異常を通知するが、プログラム21への応答は返さない。登録時にオペレーションシステム40へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム20では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム21へ応答を返す。
アプリケーション30からのチェック結果応答にて異常(NG応答)又は無応答であった場合には、プログラム20は指定されたリアクションによりアプリケーション30に対して、サービスの復旧を試みる。その際、保守者へSNMPトラップ又はシスログにより異常を通知するが、プログラム21への応答は返さない。登録時にオペレーションシステム40へのインタフェース確認登録があった場合には、指定されたコマンドやプログラムを実行し、実行から正常終了までを確認する。チェック結果が正常であれば、プログラム20では自サーバのソフト時計時刻を収集し、サービス正常動作状態チェック結果と共にプログラム21へ応答を返す。
図7は、本発明の一実施形態におけるサービス異常動作時のタイムチャート(その2)であり、オペレーションシステム40の異常の場合を示す。以下に、図5を参照しつつ、図7の動作を説明する。
動作(5’)
オペレーションシステム40からのコマンド/プログラムの実行結果にて異常(NG応答)又は無応答であった場合には、プログラム20は指定されたリアクションによりオペレーションシステム40に対して、サービスの復旧を試みる。その際、保守者へSNMPトラップ又はシスログにより異常を通知するが、プログラム21への応答は返さない。
オペレーションシステム40からのコマンド/プログラムの実行結果にて異常(NG応答)又は無応答であった場合には、プログラム20は指定されたリアクションによりオペレーションシステム40に対して、サービスの復旧を試みる。その際、保守者へSNMPトラップ又はシスログにより異常を通知するが、プログラム21への応答は返さない。
図8は、本発明の一実施形態におけるサービス異常動作時のタイムチャート(その3)であり、スローダウン検出の場合を示す。以下に、図5を参照しつつ、図8の動作を説明する。
動作(6)
プログラム21では、先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、一定以上の差分があった場合には、プログラム20のスローダウンによる異常と判断し、保守者へSNMPトラップ又はシスログにより異常を通知する。また、ハードウェアによる電源制御装置( 例ではSCF70、71及びRCI 72)があれば、異常となったサーバを停止させ、サーバ系切替えにより自サーバを運用サーバ化することでサービスを自動復旧させる。
プログラム21では、先に応答されたソフト時計時刻と再通信時に収集した時刻とを比較し、一定以上の差分があった場合には、プログラム20のスローダウンによる異常と判断し、保守者へSNMPトラップ又はシスログにより異常を通知する。また、ハードウェアによる電源制御装置( 例ではSCF70、71及びRCI 72)があれば、異常となったサーバを停止させ、サーバ系切替えにより自サーバを運用サーバ化することでサービスを自動復旧させる。
図9は、本発明の一実施形態におけるサービス異常動作時のタイムチャート(その4)であり、通信タイムアウトの場合を示す。以下に、図5を参照しつつ、図9の動作を説明する。
動作(7)
プログラム21では、通信応答がプログラム20から返って来ずに、AAAネットワークからの応答タイムアウト時には、サーバ11に設定されている他の通信ルートであるBBBネットワークを使用してサーバ10のプログラム20と再度通信(監視)を試みる。即ち、BBBネットワークを使用して前述の動作(4)、動作(5)及び動作(6)を行う。その結果、両ネットワーク共にNG(応答タイムアウト)の場合には、サーバ10は異常であると判断する。
プログラム21では、通信応答がプログラム20から返って来ずに、AAAネットワークからの応答タイムアウト時には、サーバ11に設定されている他の通信ルートであるBBBネットワークを使用してサーバ10のプログラム20と再度通信(監視)を試みる。即ち、BBBネットワークを使用して前述の動作(4)、動作(5)及び動作(6)を行う。その結果、両ネットワーク共にNG(応答タイムアウト)の場合には、サーバ10は異常であると判断する。
図10は、本発明の一実施形態における監視通知登録内容を示すデータ構成図であり、(a)はアプリケーション監視通知登録内容のデータ構成図を、(b)はオペレーションシステム監視通知登録内容のデータ構成図である。
同図にて、APL/OS監視種別(選択)は、Application 通信(アプリケーション通信)又は、Operation システム(オペレーションシステム)の監視種別を示し、APL通信とは、正常性動作監視プログラムとアプリケーションとの間の通信のことであり、指定(msg/UDP/TCP等)された方式で通信を行う。msg通信は、message 通信(メッセージ通信)であり、Solaris / LinuxなどのOSに実装されているメッセージキューを介した通信方式である。msgキューIDは、メッセージ通信する上で、通信ユーザ間で認識する共通のID番号である。通信ユーザ側がこのID番号を指定してメッセージキューに情報を詰めて、受信ユーザ側でこのID番号を指定してメッセージキューから情報を取り出すことで、ユーザ間でお互いの通信が実現できる。通知応答タイムアウト時間のms単位とは、1000分の1秒単位を示す。
図11は、本発明の一実施形態におけるソフトウェア構成図(正常動作被監視サーバ側)である。同図において、正常動作被監視サーバ側とは、二重化サーバ構成にて、サーバ10のことである。即ち、この場合には、サーバ11からのサービス正常動作監視契機となっているが、サーバ10からの監視契機でも良い。。
アプリケーションプロセス101及びライブラリ部103は、アプリケーション30内に存在し、監視通知の登録方法は、監視通知登録(ユーザ)102と監視開始登録受付け部(API)104によるアプリケーションインタフェース関数コール、又は、監視通知登録部(コマンド)111によるコマンド起動に基づくコンフィグ設定値読出しのいずれかにより行われる。正常性動作監視プログラムプロセス105は、プログラム20内に存在し、サービス正常動作チェック実行部(正常異常判定)107にて、サービス正常性動作のチェックを行い、判定結果他が登録内容(メモリ)114に登録される。また、異常検出時リアクション部113の履歴も登録内容(メモリ)114に登録される。なお、106はサービス正常動作結果受信部、108はOSコマンド実行部、109はアプリケーション通信部、110は監視通知登録部、112はサービス正常動作チェック通知受付け、応答部をそれぞれ示す。
図12は、本発明の一実施形態におけるソフトウェア構成図(正常動作監視サーバ側)である。同図において、正常動作監視サーバ側とは、二重化サーバ構成にて、サーバ11のことである。即ち、この場合には、サーバ11からのサービス正常動作監視契機となっているが、前述したようにサーバ10からの監視契機であっても良い。
アプリケーションプロセス101’及びライブラリ部103’は、アプリケーション31内に存在し、監視開始の登録方法は、監視開始登録(ユーザ)115と監視開始登録受付け部(API)116によるアプリケーションインタフェース関数コール、又は、監視開始登録部(コマンド)118によるコマンド起動のいずれかにより行われる。サービス正常動作監視部(周期通信、ネットワーク選択)119は、プログラム21内に存在し、サービス正常動作結果判定部120による判定結果他が登録内容(メモリ)114’に登録される。また、異常検出時リアクション部121の履歴も登録内容(メモリ)114’に登録される。なお、117は監視開始登録部を示す。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1) 複数のサーバで構築されたサービスを提供するサーバシステムにおいて、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視手段とを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記2) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせることを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記3) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行うことを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記4) 複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップとを含むことを特徴とする複数サーバ間でのサービス正常動作監視方法。
(付記5) コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップとを実行させるためのプログラム。
(付記6) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、監視元サーバにて被監視サーバより周期的にソフト時計時刻を収集する収集手段と、前記収集手段により時間差分を比較して障害を検出する検出手段を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記7) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、各サーバにサービス正常動作監視プログラムを登録又は削除するインタフェースを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記8) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、更に、被監視サーバ内にアプリケーションのサービス正常動作確認を行うサービス内容を登録するインタフェースを備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
(付記9) 付記1記載の複数サーバ間でのサービス正常動作監視システムにおいて、冗長構成をとる予備系サーバの組込み後、周期的に監視情報を交換する手段を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。
本発明は、複数のサーバで構築されたサービスを提供するサーバシステムにおいて、サービスの正常動作監視を行うことに利用できる。
1 AAAネットワーク
2 BBBネットワーク
10、11 サーバ
20、21 プログラム
30、31 アプリケーション
40 オペレーションシステム
51、52、53、54 ハブ
60、61 磁気ディスク装置
70、71 SCF(System Control Facility)
72 RCI(Remote Cabinet Interface)
101 アプリケーションプロセス
102 監視通知登録(ユーザ)
103 ライブラリ部
104 監視通知登録受付け部(API)
105 正常性動作監視プログラムプロセス
106 サービス正常動作結果受信部
107 サービス正常動作チェック実行部(正常異常判定)
108 OSコマンド実行部
109 アプリケーション通信部
110 監視通知登録部
111 監視通知登録部(コマンド)
112 サービス正常動作チェック通知受付け、応答部
113 異常検出時リアクション部
114 登録内容(メモリ)
115 監視開始登録(ユーザ)
116 監視開始登録受付け部(API)
117 監視開始登録部
118 監視開始登録部(コマンド)
119 サービス正常動作監視部(周期通信、ネットワーク選択)
120 サービス正常動作結果判定部
121 異常検出時リアクション部
2 BBBネットワーク
10、11 サーバ
20、21 プログラム
30、31 アプリケーション
40 オペレーションシステム
51、52、53、54 ハブ
60、61 磁気ディスク装置
70、71 SCF(System Control Facility)
72 RCI(Remote Cabinet Interface)
101 アプリケーションプロセス
102 監視通知登録(ユーザ)
103 ライブラリ部
104 監視通知登録受付け部(API)
105 正常性動作監視プログラムプロセス
106 サービス正常動作結果受信部
107 サービス正常動作チェック実行部(正常異常判定)
108 OSコマンド実行部
109 アプリケーション通信部
110 監視通知登録部
111 監視通知登録部(コマンド)
112 サービス正常動作チェック通知受付け、応答部
113 異常検出時リアクション部
114 登録内容(メモリ)
115 監視開始登録(ユーザ)
116 監視開始登録受付け部(API)
117 監視開始登録部
118 監視開始登録部(コマンド)
119 サービス正常動作監視部(周期通信、ネットワーク選択)
120 サービス正常動作結果判定部
121 異常検出時リアクション部
Claims (5)
- 複数のサーバで構築されたサービスを提供するサーバシステムにおいて、
正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行う通信手段と、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするチェック手段と、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視手段と、
を備えることを特徴とする複数サーバ間でのサービス正常動作監視システム。 - 請求項1記載の複数サーバ間でのサービス正常動作監視システムにおいて、
前記通信手段、前記チェック手段および前記サービス正常動作監視手段を各サーバに持たせることを特徴とする複数サーバ間でのサービス正常動作監視システム。 - 請求項1記載の複数サーバ間でのサービス正常動作監視システムにおいて、
前記通信手段は各サーバに設定されている複数の通信ルートを設定して通信を行うことを特徴とする複数サーバ間でのサービス正常動作監視システム。 - 複数のサーバで構築されたサービスを提供するサーバシステムのサービス正常性動作監視方法において、
正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップと、
を含むことを特徴とする複数サーバ間でのサービス正常動作監視方法。 - コンピュータに正常動作監視サーバ側から対向するサーバに対して、定期的にインターネットプロトコルの上位プロトコルで通信を行うステップと、
前記通信を受付けた対向する正常性動作被監視サーバにて、予め登録された監視内容に基づくサービス正常性動作状態をチェックするステップと、そのチェック結果に応じてサービス運用状態の正常/異常判断を行うサービス正常動作監視ステップと、
を実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006086559A JP2007266776A (ja) | 2006-03-27 | 2006-03-27 | 複数サーバ間でのサービス正常動作監視システムおよびその方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006086559A JP2007266776A (ja) | 2006-03-27 | 2006-03-27 | 複数サーバ間でのサービス正常動作監視システムおよびその方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007266776A true JP2007266776A (ja) | 2007-10-11 |
Family
ID=38639362
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006086559A Pending JP2007266776A (ja) | 2006-03-27 | 2006-03-27 | 複数サーバ間でのサービス正常動作監視システムおよびその方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007266776A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020217403A1 (ja) * | 2019-04-25 | 2020-10-29 | 日本電信電話株式会社 | 通信装置、通信方法及び通信プログラム |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5676833A (en) * | 1979-11-26 | 1981-06-24 | Hitachi Ltd | Connection system for electronic computer network |
| JPH06252915A (ja) * | 1993-03-01 | 1994-09-09 | Nippon Telegr & Teleph Corp <Ntt> | サービス監視装置 |
| JPH11110325A (ja) * | 1997-09-30 | 1999-04-23 | Toshiba Tec Corp | 情報処理システム |
| JP2004021873A (ja) * | 2002-06-20 | 2004-01-22 | Hitachi Ltd | インターネットシステム監視装置 |
-
2006
- 2006-03-27 JP JP2006086559A patent/JP2007266776A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5676833A (en) * | 1979-11-26 | 1981-06-24 | Hitachi Ltd | Connection system for electronic computer network |
| JPH06252915A (ja) * | 1993-03-01 | 1994-09-09 | Nippon Telegr & Teleph Corp <Ntt> | サービス監視装置 |
| JPH11110325A (ja) * | 1997-09-30 | 1999-04-23 | Toshiba Tec Corp | 情報処理システム |
| JP2004021873A (ja) * | 2002-06-20 | 2004-01-22 | Hitachi Ltd | インターネットシステム監視装置 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020217403A1 (ja) * | 2019-04-25 | 2020-10-29 | 日本電信電話株式会社 | 通信装置、通信方法及び通信プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6934880B2 (en) | Functional fail-over apparatus and method of operation thereof | |
| EP1697843B1 (en) | System and method for managing protocol network failures in a cluster system | |
| US8112518B2 (en) | Redundant systems management frameworks for network environments | |
| US11848889B2 (en) | Systems and methods for improved uptime for network devices | |
| EP2637102B1 (en) | Cluster system with network node failover | |
| CN102970167B (zh) | 集群系统中网络节点的故障检测方法、网络节点和系统 | |
| EP3724761B1 (en) | Failure handling in a cloud environment | |
| CN118245269B (zh) | Pci设备的故障处理方法及装置、故障处理系统 | |
| CN118677767B (zh) | 一种跨设备链路聚合组注册方法、装置、设备及介质 | |
| JP2004171370A (ja) | 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法 | |
| CN101442437A (zh) | 一种实现高可用性的方法、系统及设备 | |
| US20210247996A1 (en) | Service continuation system and service continuation method | |
| CN100373341C (zh) | 一种业务进程的分布式分优先级监控方法 | |
| JP2011203941A (ja) | 情報処理装置、監視方法、および監視プログラム | |
| JP2000324121A (ja) | ネットワーク管理システムにおける系切り替え装置および方法 | |
| JP2007266776A (ja) | 複数サーバ間でのサービス正常動作監視システムおよびその方法 | |
| CN102932196B (zh) | 一种主机系统状态的检测方法和装置 | |
| JP5605279B2 (ja) | プロセス間同期方法 | |
| KR100622620B1 (ko) | 운영-대기(Active-Standby) 모드로이중화된 IP 통신 시스템에서 발생하는 장애 상황을감지하기 위한 시스템 및 그 방법 | |
| CN100576185C (zh) | 信息处理装置和信息处理方法 | |
| CN113794595A (zh) | 一种基于工业互联网的IoT设备高可用方法 | |
| CN113472836A (zh) | 通信处理装置、存储介质和通信处理方法 | |
| KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
| US12567994B2 (en) | CAN-FD redundancy for high availability industrial I/O subsystems | |
| WO2014010021A1 (ja) | 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081117 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100820 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |