JPH08190528A - システム管理装置 - Google Patents

システム管理装置

Info

Publication number
JPH08190528A
JPH08190528A JP7001065A JP106595A JPH08190528A JP H08190528 A JPH08190528 A JP H08190528A JP 7001065 A JP7001065 A JP 7001065A JP 106595 A JP106595 A JP 106595A JP H08190528 A JPH08190528 A JP H08190528A
Authority
JP
Japan
Prior art keywords
agent
manager
application
management
communication processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7001065A
Other languages
English (en)
Inventor
Masahiko Aizawa
雅彦 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP7001065A priority Critical patent/JPH08190528A/ja
Publication of JPH08190528A publication Critical patent/JPH08190528A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【目的】 障害発生時に障害が広がることを防ぎ、また
障害発生時に他のエージェント上でアプリケーションを
代替して起動できる、また、上位管理者不在時も他の管
理者がエージェントを管理できるシステム管理装置を得
る。 【構成】 エージェントとの通信を行う通信処理手段
と、このエージェントが利用するアプリケーションと資
源の利用関係を記憶する管理データ記憶手段と、この記
憶したアプリケーションと資源の利用関係を検索する資
源利用関係検索手段と、エージェントからの情報による
上記検索に基づいて上記エージェントに動作指示を送る
エージェント動作手段とを備え、エージェントから障害
報告または障害回復報告を受け取ると資源利用関係検索
手段で利用しているエージェントを検索し、該エージェ
ントにアプリケーションの中止または再起動を行うよう
にした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は, 複数の計算機によっ
て分散処理システムを管理する、システム管理方式に関
するものである。
【0002】
【従来の技術】請求項に対する従来例の構成を説明す
る。図19は、ISO/IEC 10040 ”Information technolo
gy−Open Systems Interconnection−Systems manageme
nt overview”に開示されている従来のシステム管理方
式である。図19は、システム管理方式の全体図で、図
において、1はマネージャであり、その内部の3は管理
する手段を持つ管理アプリケーション、5は通信する手
段をもつ通信処理部、6は管理データを記憶している管
理データ記憶部である。なお管理アプリケーション3は
管理手段としてエージェントから管理情報を収集し管理
データ記憶部6を更新する管理情報収集手段11とエー
ジェントに動作を指示するエージェント動作手段12を
もつ。従来の管理データとしては管理されるエージェン
トの計算機名、エージェントの責任者の識別情報、エー
ジェントの計算機の設置場所情報、エージェントのIP
アドレス情報等がある。
【0003】2はエージェントである。その内部の4は
管理アプリケーション3の要求を実行する被管理アプリ
ケーション、5は通信する手段をもつ通信処理部、10
は管理オブジェクトである。管理オブジェクト10の例
としてはアプリケーション、記憶装置等があげられる。
【0004】次に、従来の管理装置の動作について説明
する。マネージャ1の管理アプリケーション3は、通信
処理部5を用いてエージェント2に要求を行なう。エー
ジェントの通信処理部5はその要求を受信したら、被管
理アプリケーション4はその要求を実行するため管理オ
ブジェクト10(アプリケーション・記憶装置など)か
ら属性を得たり、管理オブジェクト10に動作を起こさ
せる。被管理アプリケーション4は、エージェント2の
通信処理部を用い、得た属性や動作結果をマネージャ1
に送信する。マネージャ1の管理アプリケーション3は
エージェント2から送信されたデータのうち必要なもの
を管理データ記憶部6に格納する。
【0005】この管理装置において管理オブジェクトで
障害が発生すると、エージェントはマネージャに通知を
行ない、マネージャは障害対策のための動作をエージェ
ントに送信し、エージェントは管理オブジェクトにその
障害対策のための動作を行なっていた。このとき管理装
置は、障害の発生した管理オブジェクトの障害対策を行
なうが障害の発生した管理オブジェクトを利用している
管理オブジェクトには処理を行なわない。また、障害が
起こったエージェントのアプリケーション(アプリケー
ションは管理オブジェクトの例の一つである)を他のエ
ージェントに再配置する場合、従来はマネージャがエー
ジェントから負荷情報を収集して負荷の低いエージェン
トに再配置を行なっていた。また、分散システムにおい
て、上位・下位の階層によるアプリケーションの概念が
なく、管理するマネージャのオーバロードにつながる恐
れがあった。
【0006】
【発明が解決しようとする課題】従来の管理装置は以上
のように構成されているので、管理オブジェクトで障害
が発生すると、その管理オブジェクトを利用している他
の管理オブジェクトが、障害が発生している管理オブジ
ェクトに更に要求を出して障害を拡大するという課題が
あった。また、障害が発生した管理オブジェクトを直接
利用している管理オブジェクトが、更に別の管理オブジ
ェクトに利用されている場合、障害が発生した管理オブ
ジェクトを直接利用している管理オブジェクト自体は正
常に動作しているように別の管理オブジェクトには見え
るため、処理不可能な無駄な要求が障害が発生した管理
オブジェクトを利用している管理オブジェクトに到着し
てしまうという課題もあった。
【0007】また、従来の管理装置は以上のように構成
されており、マネージャがエージェントから負荷情報を
収集して負荷の低いエージェントに再配置を行なってい
たので、その後に運用スケジュールによりアプリケーシ
ョンが起動されると、負荷がアンバランスになるという
課題があった。また、一つのマネージャが大規模なシス
テムを管理すると障害対応や情報収集の負荷がマネージ
ャの処理性能を上回ってしまうという課題があった。こ
のような場合、複数のマネージャで分担する方法が考え
られるが、管理者がマネージャを操作しなくてはなら
ず、管理者が欠勤などでマネージャを操作できない場合
は、エージェントを管理できなくなるという課題があっ
た。
【0008】本発明は上記のような課題を解消するため
になされてもので、ある管理オブジェクトの障害発生時
に、その管理オブジェクトを利用している他の管理オブ
ジェクトが、障害が発生している管理オブジェクトに更
に要求を出して障害を拡大することを防ぐことを目的と
する。また更に、障害が起こったエージェントのアプリ
ケーションを他のエージェントに再配置させた後に、運
用スケジュールによりアプリケーションが起動され、負
荷がアンバランスになるのを防ぐことを目的とする。ま
た更に、大規模なシステムを管理する場合、障害対応や
情報収集の負荷がマネージャの処理性能を上回ってしま
うのを防ぐとともに、管理者が欠勤などでマネージャを
操作できない時、他のマネージャで他の管理者がエージ
ェントを管理することを目的とする。
【0009】
【課題を解決するための手段】この発明に係るシステム
管理装置は、エージェントとの通信を行う通信処理手段
と、このエージェントが利用するアプリケーションと資
源の利用関係を記憶する管理データ記憶手段と、この記
憶したアプリケーションと資源の利用関係を検索する資
源利用関係検索手段と、エージェントからの情報による
上記検索に基づいて上記エージェントに動作指示を送る
エージェント動作手段とを備え、エージェントから障害
報告または障害回復報告を受け取ると資源利用関係検索
手段で利用しているエージェントを検索し、該エージェ
ントにアプリケーションの中止または再起動を行うよう
にした。
【0010】また、エージェントとの通信を行う通信処
理手段と、エージェントが利用するアプリケーションと
そのスケジュールの関係を記憶する管理データ記憶手段
と、この記憶したアプリケーションと利用時間の関係を
検索するスケジュールデータ検索手段と、エージェント
からの情報による上記検索に基づいてエージェントに動
作指示を送るエージェント動作手段とを備え、エージェ
ントから障害報告または障害回復報告を受け取るとスケ
ジューリデータ検索手段で利用しているエージェントを
検索し、エージェントの負荷量を計算し、該エージェン
トにアプリケーションの起動、中止または再起動を行わ
せるようにした。
【0011】また、エージェント及び他のマネージャと
の通信を行う通信処理手段と、エージェントと該エージ
ェントを管理する下位マネージャと該下位マネージャを
管理する上位マネージャの各名称と、その接続と管理の
関係を位置情報として記憶する管理データ記憶手段とを
備え、マネージャからの要求により管理データ記憶手段
が記憶する管理データを更新し、エージェントの位置情
報を送信または受信して下位と上位のマネージャの管理
の移動を行うようにした。
【0012】また、マネージャと、このマネージャとの
通信を行う通信処理手段と、自分が属するマネージャの
名称とその接続と管理の関係を位置情報として記憶する
管理データ記憶手段とを備え、マネージャからの要求に
より管理データ記憶手段が記憶する管理データを更新
し、マネージャの位置情報を送信または受信してデータ
送付先を更新するエージェントとで構成した。
【0013】
【作用】この発明によるシステム管理装置は、エージェ
ントなどで障害が発生すると、管理をしているマネージ
ャがアプリケーションと利用している資源の関係を検索
し、回復までの間は障害資源を利用するアプリケーショ
ンの該当エージェントにアプリケーションの中止を通信
する。
【0014】また、エージェントなどで障害が発生する
と、管理をしているマネージャが各エージェントが使用
するアプリケーションとそのスケジュールの関係を検索
し、また負荷を計算し、障害回復までの間は負荷が低い
と予想するエージェントにアプリケーションの代行を依
頼する。
【0015】また、下位と上位のマネージャ間で管理の
移動があると、管理をしているマネージャは管理データ
を更新し、また管理している位置情報を送信または受信
して各エージェントの管理を移す。
【0016】また、下位と上位のマネージャ間で管理の
移動があると、エージェントは自分が属するマネージャ
の管理データを更新し、また管理データを新しいマネー
ジャに送付する。
【0017】
【実施例】
実施例1.図1は本発明の一実施例であるシステム管理
装置の構成図である。図において、1aはマネージャで
あり、その内部の5は通信する手段をもつ通信処理部、
6は通常の管理データとともにアプリケーションと資源
(記憶装置・依存するアプリケーション)利用関係を記
憶する手段をもつ管理データ記憶部、3は管理アプリケ
ーションであり、管理情報収集手段11、エージェント
動作手段12と、アプリケーションと資源(記憶装置・
依存するアプリケーション)の利用関係を検索する資源
利用関係検索手段1105をもつ。
【0018】2a、2bはエージェント2である。2a
は、通信する手段をもつ通信処理部5、記憶装置やアプ
リケーション等の資源を監視または操作する手段をもつ
被管理アプリケーション4、アプリケーションA110
2が利用する記憶装置A1101、記憶装置A1101
を利用する手段を持つアプリケーションA1102から
構成される。
【0019】2bは、通信する手段をもつ通信処理部
5、記憶装置やアプリケーション等の資源を監視または
操作する手段をもつ被管理アプリケーション4、アプリ
ケーションB1104が利用する記憶装置B1103、
記憶装置B1103とアプリケーションA1102を利
用する手段を持つアプリケーションB1104から構成
される。また、7は伝送路である。
【0020】次に本実施例のシステム管理装置の動作を
図2、図3、図4、図5を参照しながら説明する。図2
はマネージャ1aの動作を示すフローチャートであり、
図3はエージェント2a、2bの動作を示すフローチャ
ートである。図4は管理データ記憶部6に記憶されてい
る記憶装置とアプリケーションの利用関係の例を示した
図である。また図5はマネージャ1とエージェント2
a、2bの間の通信状況を示した図である。マネージャ
1の動作、エージェント2a、2bの動作の順に説明す
る。
【0021】マネージャ1aの動作について説明する。
まず図のステップ1201で、マネージャ1の管理情報
収集手段3が通信処理部5経由でエージェント2から障
害の通知を受信したら、ステップ1202で管理アプリ
ケーション3は資源利用関係検索手段1105で障害箇
所を利用するアプリケーションを検索する。マネージャ
1aの管理アプリケーション3は、エージェント動作手
段2とマネージャ1の通信処理部5により検索したアプ
リケーションがインストールされているエージェント2
に、検索したアプリケーションの動作を停止するように
要求する。ステップ1204でマネージャ1aの管理情
報収集手段3が通信処理部5経由でエージェント2から
エージェントの障害回復の通知を受信したら、ステップ
1205で管理アプリケーション3は、エージェント動
作手段2によりマネージャ1の通信処理部5経由で先に
停止を要求したエージェント2に該当するアプリケーシ
ョンを再起動するように要求する。
【0022】次にエージェント2の動作について説明す
る。ステップ1301で、エージェント2aまたは2b
の被管理アプリケーション4は、障害が発生したら、ス
テップ1302で、エージェント2の通信処理部5によ
り、マネージャ1aに障害を通知する。ステップ130
3で、エージェント2aまたは2bの被管理アプリケー
ション4は、障害が発生した後にその障害が回復した
ら、ステップ1304で、エージェント2aまたは2b
の通信処理部5によりマネージャ1に通知する。ステッ
プ1305で、エージェント2aまたは2bの通信処理
部5が、マネージャ1からアプリケーションの停止の命
令を受信したら、ステップ1306で、エージェント2
aまたは2bの被管理アプリケーション4は該当するア
プリケーションを停止する。ステップ1305で、エー
ジェント2aまたは2bの通信処理部5が、マネージャ
1からアプリケーションを再起動する要求を受信した
ら、ステップ1307で、エージェント2の被管理アプ
リケーション4は該当するアプリケーションを再起動す
る。
【0023】ここで図4、図5を見ながら、記憶装置A
1101に障害が発生した時を例にとりマネージャ1a
とエージェント2aまたは2bの動作と通信シーケンス
を説明する。ステップ1301で、エージェント2aの
被管理アプリケーション4は、記憶装置A1101で障
害が発生したら、ステップ1302で、エージェント2
aの通信処理部5によりマネージャ1に障害を通知す
る。ステップ1201でマネージャ1aの通信処理部5
がエージェント2aから通知をうけとると、管理アプリ
ケーション3は、図4で示す記憶装置とアプリケーショ
ン利用関係を用いて検索する。すると記憶装置A110
1はアプリケーションA1102に利用されていること
がわかる。更にステップ1202で、アプリケーション
A1102はアプリケーションB1104に利用されて
いることがわかる。そこで、マネージャ1の管理アプリ
ケーション3は、ステップ1203で、マネージャ1a
の通信処理部5により、記憶装置A1101を利用して
いるアプリケーションA1102、アプリケーションB
1104を停止するようにエージェント2a、2bに要
求を出す。ステップ1205で、エージェント2a、2
bの通信処理部5がその要求を受信したら、ステップ1
306で、エージェント2a、2bの被管理アプリケー
ション4は該当するアプリケーションA1102、B1
104を停止する。
【0024】後ほどステップ1303で、障害が回復す
ると、障害が回復したエージェント2aは、ステップ1
304で、通信処理部5によりマネージャ1aに障害回
復の通知を行なう。ステップ1204で、マネージャ1
aの通信処理部5がエージェント2aから障害が回復し
たという通知を受信したら、管理アプリケーション3
は、ステップ1205で、マネージャの通信処理部5に
より、エージェント2a、2bに、停止していたアプリ
ケーションA1102、アプリケーションB1104を
再起動させるように要求を出す。ステップ1305で、
エージェント2a、2bの通信処理部5がその要求を受
信したら、ステップ1307で、エージェント2a、2
bの被管理アプリケーション4は該当するアプリケーシ
ョンA1102、B1104を再起動する。
【0025】この発明により、マネージャが資源利用関
係を検索し、必要なエージェントに通知するので、ある
記憶装置の障害発生時に、その記憶装置を利用している
アプリケーションが、障害の発生している記憶装置に更
に要求を出して障害を拡大することを防ぐことができ
る。また、障害が発生した記憶装置を直接利用している
アプリケーションが、更に別のアプリケーションに利用
されている場合、別のアプリケーションには、障害が発
生した記憶装置を直接利用しているアプリケーション自
体は正常に動作しているように見えるため、処理不可能
な無駄な要求が、障害が発生した記憶装置を利用してい
るアプリケーションに到着してしまうことも防ぐことが
できる。
【0026】実施例2.また上記実施例では、記憶装置
の障害を扱ったがプロセスの障害、エージェントの障害
等にも利用できることはいうまでもない。
【0027】実施例3.図6は本発明の他の実施例であ
るシステム管理装置の構成図である。図において、1b
はマネージャであり、その内部の5は通信する手段をも
つ通信処理部、6はエージェント2の運用スケジュール
データとアプリケーションのインストールしているエー
ジェント名を記憶する手段をもつ管理データ記憶部、3
は管理アプリケーションであり、管理情報収集手段1
1、エージェント動作手段12、エージェント2のその
運用スケジュールデータとアプリケーションのインスト
ールしているエージェント名を検索するスケジュールデ
ータ検索手段2110をもつ。
【0028】2a、2b、2cはエージェント2であ
る。それぞれ内部に通信手段をもつ通信処理部5、記憶
装置やアプリケーション等の資源を監視または操作する
手段をもつ被管理アプリケーション4を持ち、更にそれ
ぞれ業務A,B,Cを行なう業務Aアプリケーション2
101、業務Bアプリケーション2103、業務Cアプ
リケーション2105を持つ。2102、2104、2
106はそれぞれエージェント2a、2b、2cに接続
されている記憶装置A、記憶装置B、記憶装置Cであ
る。記憶装置A2102には業務A、業務Bのアプリケ
ーションが、記憶装置B2104には業務A、業務B、
業務Cのアプリケーションが、記憶装置C2106には
業務A、業務Cのアプリケーションがインストールされ
ている。ここでは上記のようにインストールされている
が、各業務アプリケーションが複数のエージェントの記
憶装置にインストールされていれば、本発明が適用でき
る。
【0029】2dはエージェント兼データベースサーバ
である。このデータべースサーバは、通信手段をもつ通
信処理部5、記憶装置やアプリケーション等の資源を監
視または操作する手段をもつ被管理アプリケーション4
と、データベースにアクセスする手段を持つデータベー
スアクセス処理部2107から構成される。2108は
エージェント兼データベースサーバ2dに接続されてい
るデータベースであり、アプリケーションA2101ま
たはアプリケーションB2103またはアプリケーショ
ンC2105が使用するデータが格納されている。ここ
ではエージェント2a、2b、2cの三個であるが複数
あればよい。
【0030】バッチシステムではこうしたことは必要な
かったが、分散システムでは資源を共通利用したり、ア
プリケーションを他のエージェントの資源を使うシステ
ムがある。こうした場合の障害発生時の負荷分散を効率
化するものである。次に本実施例のシステム管理装置の
動作を図7、8、9、10、11を参照しながら説明す
る。図7はマネージャ1bの動作を示すフローチャート
であり、図8はエージェント2a、2b、2cの動作を
示すフローチャートである。図9はエージェント2a、
2b、2cで実行されているアプリケーションの運用ス
ケジュールが記述されているマネージャ1bの管理デー
タ記憶部6の中にある管理データの例を示した図であ
る。これはエージェントに対して運用されるアプリケー
ション名、そのアプリケーションのスケジュール、その
アプリケーションの負荷レベルが記述されている。図1
0はアプリケーションのインストールされているエージ
ェント2のリストでマネージャ1bの管理データ記憶部
6の中にある管理データの例を示した図である。図11
はマネージャとエージェントの通信シーケンス図であ
る。
【0031】システムの動作、マネージャの動作、エー
ジェントの動作の順に説明する。このシステムの通常の
動作について説明する。マネージャ1bは、その運用ス
ケジュールに基づいてエージェント2a、2b、2cを
運用する。エージェント2a、2b、2cはオンライン
トランザクション処理をおこなうためエージェント兼デ
ータベースサーバ2dのデータベース2108を利用す
る。このような処理を行なっている時に、エージェント
(2aあるいは2bあるいは2c)に障害が発生した時
に図9に示すような運用スケジュールに基づいて処理を
他のエージェントに切替えることがこの発明である。
【0032】次に図7を見ながらマネージャ1bの動作
について説明する。ステップ2201で、マネージャ1
bの管理情報収集手段3が通信処理部5経由でエージェ
ント(2aあるいは2bあるいは2c)から障害の通知
を受信したら、ステップ2202で、マネージャ1bの
管理アプリケーション3は、スケジュールデータ検索手
段2110で、障害が発生しているエージェント上で動
作していたアプリケーションを図9に示す管理データ記
憶部6にある運用スケジュールを使用して検索する。更
に、ステップ2203で、管理アプリケーション3は検
索したアプリケーションがインストールされているエー
ジェントを図10に示す管理データ記憶部6にあるアプ
リケーションのインストール先データを使用して検索す
る。ステップ2204で、管理アプリケーション3は検
索したエージェントの今後の負荷を運用スケジュールに
関する管理データより計算する。計算方法としては例え
ば次のようなものがある。 P=ΣLk ×Tk P:エージェントの負荷 Lk :アプリケーションKの
負荷レベル、Tk :障害発生時からマシンの平均修復時
間内にアプリケーションkが運用される時間。 ステップ2205で、管理アプリケーション3は、エー
ジェント動作手段12によりマネージャ1bの通信処理
部5経由で、今後負荷が低いと予想されるエージェント
2にアプリケーションの起動を要求する。ステップ22
06で、マネージャ1bの通信処理部5がエージェント
2から障害の復旧の通知を受信したら、ステップ220
7で、管理アプリケーション3は、エージェント動作手
段12によりマネージャ1bの通信処理部5経由で、エ
ージェント2に障害時に起動したアプリケーションを停
止するように要求する。
【0033】次に図8を見ながらエージェント2の動作
について説明する。ステップ2301で、エージェント
2の被管理アプリケーション4は、障害が発生したらエ
ージェント2の通信処理部5を用いてマネージャ1に通
知を行なう。ステップ2303で、また、被管理アプリ
ケーション4は、障害が復旧したらエージェント2の通
信処理部5によりマネージャ1に通知を行なう。一方、
ステップ2305で、エージェント2の通信処理部5が
マネージャ1bからアプリケーションの起動要求を受信
したら、被管理アプリケーション4はステップ2306
で、アプリケーションを起動する。また、ステップ23
05でエージェント2の通信処理部5がマネージャ1b
からアプリケーションの停止要求を受信したら、ステッ
プ2307で、被管理アプリケーション4はアプリケー
ションを停止する。
【0034】次に図10、11を見ながら、エージェン
ト2aがダウンした時を例にとりエージェントとマネー
ジャの動作と通信シーケンスにについて説明する。ステ
ップ2301で、エージェント2aの業務Aアプリケー
ション2101に障害が発生すると、エージェント2a
の被管理アプリケーション4はステップ2302で通信
処理部5を用い障害をマネージャ1bに通知する。マネ
ージャ1bの通信処理部5は、ステップ2201でエー
ジェント2aから障害の通知を受信したら、マネージャ
1bの管理アプリケーション3は、障害が発生している
エージェント2101のアプリケーションを運用スケジ
ュールに関する図9の管理データを使用して検索する。
その結果、ステップ2202で業務Aアプリケーション
2102であったとすると、インストール先を示す図1
0の管理データを使用して、ステップ2203で検索し
た業務Aアプリケーション2101がインストールされ
ているのはエージェント2b、2cであることがわか
る。ステップ2204で、管理アプリケーション3は検
索したエージェント2b、2cの今後のスケジュールか
ら負荷を計算する。マネージャ1bの管理アプリケーシ
ョン3は、マネージャ1bの通信処理部5により、ステ
ップ2205で、負荷が低いと考えられるエージェント
2(ここでは仮にエージェント2bとする)に業務Aア
プリケーション2101の起動を要求する。
【0035】ステップ2305で、エージェント2bの
通信処理部5がその起動要求を受信すると、ステップ2
306で、エージェント2bの被管理アプリケーション
4が業務Aアプリケーション2101を起動する。ステ
ップ2303で、エージェント2aが障害の回復を確認
すると、ステップ2304で、エージェント2aの被管
理アプリケーション4はエージェント2aの通信処理部
5によりマネージャ1bに回復を通知する。ステップ2
206で、マネージャ1bの通信処理部5がエージェン
ト2aから障害の復旧の通知を受信したら、管理アプリ
ケーション3はステップ2207で、マネージャ1bの
通信処理部5によりエージェント2bに業務Aアプリケ
ーション2101を停止するように要求を送信する。ス
テップ2305で、エージェント2bの通信処理部5が
その要求を受信すると、ステップ2307で、エージェ
ント2bの被管理アプリケーション4は業務Aアプリケ
ーション2101を停止する。
【0036】従来は障害の発生時に、エージェントの現
在の負荷を収集し、それをもとに負荷の低いエージェン
トに業務を代行させるものであったので、代行した後、
他の運用スケジュールが入り負荷が重くなる可能性があ
った。しかし、本発明では運用スケジュールを記憶し、
スケジュールデータ検索できるようにしたので、将来の
負荷を予測して障害発生時から一定の時間内に負荷が低
いと予測されるエージェントにオペレータの介入なし
に、業務を代行させることができる。
【0037】実施例4.図12は本発明の他の一実施例
であるシステム管理装置の構成図である。図において、
1cはマネージャであるが説明の便宜上、上位マネージ
ャとする。その内部は通信手段をもつ通信処理部5、エ
ージェント2や他のマネージャ1dのネットワーク上の
位置情報を検索することを特徴とする管理手段をもつ管
理アプリケーション3、従来の管理データのほかに他の
マネージャ1dやマネージャ1cが管理しているエージ
ェント2のネットワーク上の位置情報を格納している管
理データ記憶部6から構成される。1dはマネージャで
あるが説明の便宜上、下位マネージャとする。その内部
は通信手段をもつ通信処理部5、エージェント2や他の
マネージャ1cのネットワーク上の位置情報を検索する
ことを特徴とする管理手段をもつ管理アプリケーション
3、従来の管理データのほかに、上位マネージャ1cと
管理マネージャ1dが管理しているエージェント2のネ
ットワーク上の位置情報を格納している管理データ記憶
部6から構成される。
【0038】2はエージェントである。その内部は通信
手段をもつ通信処理部5、記憶装置やアプリケーション
等の資源を監視または操作する手段をもつ被管理アプリ
ケーション4、従来の管理データのほかに、そのエージ
ェント2を管理している上位マネージャ1cまたは下位
マネージャ1dのネットワーク上の位置情報を格納して
いる管理データ記憶部6から構成される。7は伝送路で
ある。ところで下位マネージャ1b、エージェント2複
数存在することが可能である。また、各マネージャはそ
れぞれ管理者がおりその管理者がマネージャを操作して
いる。
【0039】従来はこうした分散システムで単に故障時
のバックアップで全面代替する例はあっても、上位・下
位の関係を導入して一部機能を下位マネージャが管理す
ることは考えられなかった。次に本実施例のシステム管
理装置の動作を図13、14、15、16を参照しなが
ら説明する。図13は上位マネージャ1cの動作を示す
フローチャート、図14は下位マネージャ1dの動作を
示すフローチャート、図15はエージェント2の動作を
示すフローチャートである。図16は上位マネージャ1
aと1bとエージェント2の間の通信のシーケンスを示
す図である。この図の番号はフローチャートの番号と同
じである。また図17と図18は上位、下位マネージャ
とエージェント間の接続と管理関係を示す図であり、ま
た各管理データ記憶部に記憶されている位置情報を示す
図である。
【0040】具体的な例としては、下位マネージャの管
理者が出勤した時に下位マネージャを起動し、上位マネ
ージャから管理権を獲得する。昼間のような業務が込ん
でいて管理する計算機が大量にある時は、複数の下位マ
ネージャが管理を行なう。下位マネージャの管理者が帰
宅する時は、ほぼ業務が終っていて昼間より少ない台数
で計算機の夜間運転がされる。この時には下位マネージ
ャの管理者は下位マネージャの管理権を上位マネージャ
に返却し、上位マネージャが集中管理する。このよう
に、下位マネージャの管理者が下位マネージャに委任す
るかしないかを決定する。一つの計算機で集中処理され
る場合は、管理を分散して行なう必要がなく、管理され
ているマネージャの位置情報や管理しているエージェン
トの位置情報の管理データを更新する必要はない。つま
り位置情報の管理データは固定的なのでマネージャとエ
ージェントの管理・被管理の関係が固定的である。しか
し、本発明ではエージェントが持っているマネージャの
位置情報を更新し、マネージャの管理・被管理の関係を
変更でき、下位マネージャに管理をまかせることができ
る。
【0041】まず、上位マネージャ1cの動作、下位マ
ネージャ1dの動作、エージェント2の動作の順に説明
する。図13を見ながら、上位マネージャ1cの動作に
ついて説明する。例えば夜間運転の開始時に、ステップ
3401で、上位マネージャ1cの管理アプリケーショ
ン3が、管理しようとするエージェント2から管理デー
タを収集するために、ステップ3402で、上位マネー
ジャ1cの管理アプリケーション3が上位マネージャ1
cの通信処理部5経由で、エージェント2に管理データ
を送信するように要求する。ステップ3403で、上位
マネージャ1cの通信処理部5がエージェント2から管
理データを受信すると、ステップ3404で上位マネー
ジャ1cの管理アプリケーション3はその管理データに
より上位マネージャ1cの管理データ記憶部6を更新す
る。この時点での上位マネージャ1cと下位マネージャ
1dの管理データ記憶部6にある位置情報は、図17
(b)の状態になる。
【0042】昼間になり、業務が混んできて、下位マネ
ージャが管理権の移動を起動する。ステップ3405、
3406で、上位マネージャ1cの通信処理部5が下位
マネージャ1dから受信し、その内容が下位マネージャ
1dが管理権を取得する要求だとすると、上位マネージ
ャ1cの管理アプリケーション3はステップ3407
で、上位マネージャ1aの通信処理部5により、下位マ
ネージャ1dに管理をまかせるエージェント2のネット
ワーク上の位置情報を送信する。そしてまた、上位マネ
ージャ1cの管理データ記憶部6の管理を委任した下位
マネージャ1dの位置情報と管理しているエージェント
2の位置情報を更新する。この時点での上位マネージャ
1cと下位マネージャ1dの管理データ記憶部6にある
位置情報は、図18(b)の状態になる。
【0043】ステップ3408で、下位マネージャ1d
が管理権を上位マネージャ1cに移動する要求を上位マ
ネージャ1cの通信処理部5が受信したら、上位マネー
ジャ1cの管理アプリケーション3は、ステップ340
9で上位マネージャ1cの通信処理部5により、下位マ
ネージャ1dが管理していたエージェント2に対し、マ
ネージャ位置情報変更要求とともに上位マネージャ1c
のネットワーク上の位置情報を送信する。
【0044】つぎに図14を見ながら、下位マネージャ
1dの動作について説明する。下位マネージャ1dの管
理者がエージェント2を管理すると下位マネージャ1d
に命令を出す。すると下位マネージャ1dの管理アプリ
ケーション4は、ステップ3501で下位マネージャ4
の通信処理部5により、管理をするために上位マネージ
ャ1cに管理権を移動する要求を送信する。下位マネー
ジャ1dの通信処理部5は、ステップ3502で上位マ
ネージャ1cから下位マネージャ1dに管理をまかされ
たエージェント2の位置情報を上位マネージャ1cから
受信し、下位マネージャ1dの管理データ記憶部6の管
理を委任された上位マネージャ1cの位置情報と管理し
ているエージェント2の位置情報を更新する。下位マネ
ージャの管理アプリケーション3はステップ3503
で、管理をまかされたエージェント2にマネージャ位置
情報変更要求とともに下位マネージャ1dのネットワー
ク上の位置情報を下位マネージャ2dの通信処理部5を
用いて送信する。
【0045】ステップ3504で、下位マネージャ1d
がエージェント2から管理データを収集しようとする
と、ステップ3505で、エージェント2に管理データ
を送信するように要求する。ステップ3506で、下位
マネージャ1dの通信処理部5がエージェント2から管
理データを受信する。するとステップ3507で、下位
マネージャ2bの管理アプリケーション3は受信した管
理データにより管理データ記憶部6を更新する。
【0046】ステップ3508、3509で、上位マネ
ージャに管理を移すため下位マネージャ1dの管理者が
エージェント2の管理を中止すると、下位マネージャ1
dに命令を出す。すると下位マネージャ1dの管理アプ
リケーション3は、上位マネージャ1cに管理権を移動
するため、上位マネージャ1cに管理権を移動する要求
を送信する。
【0047】つぎに図15を見ながらエージェント2の
動作について説明する。ステップ3601で、エージェ
ント2の通信処理部5がマネージャ1(上位マネージャ
1cまたは下位マネージャ1d)から通信文を受信し、
ステップ3602でその内容が管理データ収集要求なら
ば、ステップ3603で、エージェント2の被管理アプ
リケーション4は、管理データを受信相手のマネージャ
1に、エージェント2の通信処理部5により、送信す
る。またステップ3605で、受信内容がそのエージェ
ント2を管理しているマネージャ1のネットワーク上の
位置情報の変更要求ならば、被管理アプリケーション4
はステップ3604で、管理データ記憶部6にあるその
エージェント2を管理しているマネージャ1についての
ネットワーク上の位置情報を変更する。
【0048】次に図16を見ながら上位マネージャ、下
位マネージャとエージェントの動作とそれらの間の通信
例を説明する。下位マネージャ1dの管理者がエージェ
ント2を管理すると、下位マネージャ1dに命令を出
す。すると下位マネージャ1dの管理アプリケーション
4は、ステップ3501で管理をするために下位マネー
ジャ1dの通信処理部5により、上位マネージャ1cに
管理権を移動する要求を送信する。ステップ3405、
3406で、その要求を上位マネージャ1cの通信処理
部5が受信したら、上位マネージャ1cの管理アプリケ
ーション3は、上位マネージャ1cの通信処理部5によ
り、ステップ3407で下位マネージャ1dに管理をま
かせるエージェント2のネットワーク上の位置情報を送
信する。ステップ3502で、下位マネージャ1dの通
信処理部5は、その位置情報を受信したら、下位マネー
ジャ1dの管理アプリケーション3は、ステップ350
3で、下位マネージャ2dの通信処理部5により、管理
をまかされたエージェント2に下位マネージャ1dのネ
ットワーク上の位置情報を送信する。ステップ3604
で、それをエージェント2の通信処理部5が受信した
ら、被管理アプリケーション4はステップ3605で、
管理データ記憶部6にあるそのエージェント2を管理し
ているマネージャ1についてのネットワーク上の位置情
報を変更する。
【0049】ところで、ステップ3504で下位マネー
ジャ1dがエージェント2から管理データを収集しよう
とすると、ステップ3505で、エージェント2に管理
データを送信するように要求する。ステップ3602
で、エージェント2の通信処理部5がそれを受信した
ら、ステップ3603で、エージェント2の被管理アプ
リケーション4は、エージェント2の通信処理部5によ
り管理データを受信相手のマネージャ1bに送信する。
ステップ3506で、下位マネージャ1dの通信処理部
5がエージェント2からその管理データを受信する。す
るとステップ3507で、下位マネージャ1dの管理ア
プリケーション3は受信した管理データにより管理デー
タ記憶部6を更新する。ところで下位マネージャ1dの
管理者がエージェント2の管理を中止すると、下位マネ
ージャ1dに命令を出す。するとステップ3508、3
509で下位マネージャ1dの管理アプリケーション3
は上位マネージャ1cに管理権を移動するため、上位マ
ネージャ1cに管理権を移動する要求を送信する。ステ
ップ3408でマネージャ1cの通信処理部5がその要
求を受信したら、上位マネージャ1cの管理アプリケー
ション3はステップ3409で、上位マネージャ1cの
通信処理部5により、下位マネージャ1dが管理してい
たエージェント2にマネージャ位置情報変更要求ととも
に上位マネージャ1cのネットワーク上の位置情報を送
信する。ステップ3604で、エージェント2の通信処
理部5がそれを受信すると、ステップ3605で、被管
理アプリケーション4は、管理データ記憶部6にあるそ
のエージェント2を管理しているマネージャ1について
のネットワーク上の位置情報を変更する。
【0050】図17、図18はマネージャ1がどのエー
ジェント2を管理しているかを示す図である。ここで下
位マネージャA3201、下位マネージャB3202
は、図12の下位マネージャ1bに相当する。エージェ
ントA3203、エージェントB3204、エージェン
トC3205、エージェントD3206はエージェント
2に相当する。
【0051】図17は例えば昼間運転に移る前の夜間運
転の状態で、下位マネージャB3202が管理権を上位
マネージャ1cから取得する前の図である。上位マネー
ジャ1aはエージェントC3205、エージェントD3
206を管理し、下位マネージャA3201はエージェ
ントA3203、エージェントB3204を管理し、下
位マネージャB3202は管理しない。また図17
(b)は、上位マネージャ、下位マネージャ、エージェ
ントC、Dがそれぞれ下位マネージャが管理権を要求す
る前に持っている位置情報の例である。図18は例えば
昼間運転の状態で、下位マネージャB3202が管理権
を上位マネージャ1aから取得後の図である。図におい
て上位マネージャ1aは下位マネージャA3201、下
位マネージャB3202を管理している。下位マネージ
ャA3201はエージェントA3203、エージェント
B3204を管理し、下位マネージャB3202はエー
ジェントC3205、エージェントD3206を管理し
ている。また図18(b)は、上位マネージャ、下位マ
ネージャ、エージェントC、Dが、それぞれ下位マネー
ジャが管理権を獲得した後に持っている位置情報の例で
ある。
【0052】この発明により、大規模なシステムを管理
する場合、障害対応や情報収集の負荷がマネージャの処
理性能を上回ってしまうという重大な問題点の発生を防
ぐことができる。一般にシステム管理者はマネージャを
使用し多くの計算機を管理している。しかし大量の計算
機を管理するには一人の管理者では不十分である。本発
明は複数の管理者がいる時にその管理の分担を行ない、
管理者が不在時には上位マネージャの管理者に管理にま
かせることができる。たとえば、夜間や休日などの動作
しているエージェントが少ない時は上位マネージャの管
理者が集中して管理し、業務を行なっていてエージェン
トが多い時は複数の管理者により管理を分担することが
できる。
【0053】なお上記実施例では3層(上位マネージャ
・下位マネージャ・エージェント)による管理であった
がさらにマネージャの階層を増やし多層化できるのはい
うまでもない。
【0054】
【発明の効果】以上のように、この発明によるシステム
管理装置は、マネージャに管理データ記憶手段と、資源
利用関係検索手段と、エージェント動作手段を設けたの
で、エージェントで障害が発生または修復した場合、障
害が発生した資源を利用するアプリケーションを停止ま
たは再開することができる効果がある。
【0055】また、マネージャにエージェントが利用す
るアプリケーションのスケジュールデータを記憶する管
理データ記憶手段と、スケジュールデータ検索手段を設
けたので、エージェントで障害が発生した場合、マネー
ジャは今後の負荷状況を予測し、適切なエージェントに
代替のアプリケーションを起動することができ、負荷の
平準化が測れる効果がある。
【0056】また、マネージャに他のマネージャやエー
ジェントの位置情報を格納する管理データ記憶部と、そ
の位置情報を検索して位置情報の移動と管理の移動を行
なう管理手段(アプリケーション)を設けたので、マネ
ージャの負荷に応じて一つのマネージャが管理するエー
ジェントを動的に変更でき、状況に応じて上位マネージ
ャの負荷集中を減らせる効果がある。
【0057】また、エージェントに位置情報を記憶する
管理データ記憶部と、要求に従って管理データ送付先を
変更する被管理アプリケーションを設けたので、システ
ムの負荷を減らすことができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施例1のシステム管理装置の全
体構成図である。
【図2】 実施例1のシステム管理装置であるマネージ
ャの動作を示すフローチャート図である。
【図3】 実施例1のエージェントの動作を示すフロー
チャート図である。
【図4】 実施例1のシステム管理装置でアプリケーシ
ョンが利用している記憶装置とアプリケーションの利用
関係を示す図である。
【図5】 実施例1のマネージャとエージェント間の通
信のシーケンス図である。
【図6】 この発明の実施例3のシステム管理装置の全
体構成図である。
【図7】 実施例3のシステム管理装置であるマネージ
ャの動作を示すフローチャート図である。
【図8】 実施例3のエージェントの動作を示すフロー
チャート図である。
【図9】 実施例3のシステム管理装置での管理データ
である運用スケジュールデータの例を示す図である。
【図10】 実施例3のシステム管理装置での管理デー
タであるアプリケーションのインストール先データの例
を示す図である。
【図11】 実施例3のマネージャとエージェント間の
通信のシーケンス図である。
【図12】 この発明の実施例4のシステム管理装置の
全体構成図である。
【図13】 実施例4のシステム管理装置である上位マ
ネージャの動作を示すフローチャート図である。
【図14】 実施例4のシステム管理装置である下位マ
ネージャの動作を示すフローチャート図である。
【図15】 実施例4のエージェントの動作を示すフロ
ーチャート図である。
【図16】 この発明による上位マネージャと下位マネ
ージャとエージェントの通信のシーケンス図である。
【図17】 実施例4の上位マネージャと下位マネージ
ャとエージェント間の管理・被管理の関係図と位置情報
の例を示す図である。
【図18】 実施例4の上位マネージャと下位マネージ
ャとエージェント間の管理・被管理の関係図と位置情報
の例を示す図である。
【図19】 従来のシステム管理装置の構成図である。
【符号の説明】
1,1a,1b,1c,1d マネージャ、2,2a,
2b,2c エージェント、3 管理アプリケーショ
ン、4 被管理アプリケーション、5 通信処理部、6
管理データ記憶部、7 伝送路、10 管理オブジェ
クト、12 エージェント動作手段、1105 資源利
用関係検索手段、2110 スケジュールデータ検索手
段。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 エージェントとの通信を行う通信処理手
    段と、 上記エージェントが利用するアプリケーションと資源の
    利用関係を記憶する管理データ記憶手段と、 上記記憶したアプリケーションと資源の利用関係を検索
    する資源利用関係検索手段と、 上記エージェントからの情報による上記検索に基づいて
    上記エージェントに動作指示を送るエージェント動作手
    段とを備え、 エージェントから障害報告または障害回復報告を受け取
    ると上記資源利用関係検索手段で利用しているエージェ
    ントを検索し、該エージェントにアプリケーションの中
    止または再起動を行わせるシステム管理装置。
  2. 【請求項2】 エージェントとの通信を行う通信処理手
    段と、 上記エージェントが利用するアプリケーションとそのス
    ケジュールの関係を記憶する管理データ記憶手段と、 上記記憶したアプリケーションと利用時間の関係を検索
    するスケジュールデータ検索手段と、 上記エージェントからの情報による上記検索に基づいて
    上記エージェントに動作指示を送るエージェント動作手
    段とを備え、 エージェントから障害報告または障害回復報告を受け取
    ると上記スケジューリデータ検索手段で利用しているエ
    ージェントを検索し、エージェントの負荷量を計算し、
    該エージェントにアプリケーションの起動、中止または
    再起動を行わせるシステム管理装置。
  3. 【請求項3】 エージェント及び他のマネージャとの通
    信を行う通信処理手段と、 上記エージェントと該エージェントを管理する下位マネ
    ージャと該下位マネージャを管理する上位マネージャの
    各名称と、その接続と管理の関係を位置情報として記憶
    する管理データ記憶手段とを備え、 上記マネージャからの要求により管理データ記憶手段が
    記憶する管理データを更新し、エージェントの位置情報
    を送信または受信して下位と上位のマネージャの管理の
    移動を行うシステム管理装置。
  4. 【請求項4】 エージェントを管理するマネージャと、 上記マネージャとの通信を行う通信処理手段と、 自分が属するマネージャの名称と、その接続と管理の関
    係を位置情報として記憶する管理データ記憶手段とを備
    え、 上記マネージャからの要求により管理データ記憶手段が
    記憶する管理データを更新し、マネージャの位置情報を
    送信または受信してデータ送付先を更新するエージェン
    トとで構成されるシステム管理装置。
JP7001065A 1995-01-09 1995-01-09 システム管理装置 Pending JPH08190528A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7001065A JPH08190528A (ja) 1995-01-09 1995-01-09 システム管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7001065A JPH08190528A (ja) 1995-01-09 1995-01-09 システム管理装置

Publications (1)

Publication Number Publication Date
JPH08190528A true JPH08190528A (ja) 1996-07-23

Family

ID=11491141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7001065A Pending JPH08190528A (ja) 1995-01-09 1995-01-09 システム管理装置

Country Status (1)

Country Link
JP (1) JPH08190528A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078879A (ja) * 1996-09-03 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> エージェント監視制御方式
JPH113306A (ja) * 1997-06-12 1999-01-06 Mitsubishi Electric Corp エージェント方式
JP2002525896A (ja) * 1998-09-15 2002-08-13 インテル コーポレイション ビデオストリームへのアクセス方法
JP2020154553A (ja) * 2019-03-19 2020-09-24 日本電気株式会社 ソフトウェアロボット管理方法、ソフトウェアロボット管理装置、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078879A (ja) * 1996-09-03 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> エージェント監視制御方式
JPH113306A (ja) * 1997-06-12 1999-01-06 Mitsubishi Electric Corp エージェント方式
JP2002525896A (ja) * 1998-09-15 2002-08-13 インテル コーポレイション ビデオストリームへのアクセス方法
US7308699B1 (en) 1998-09-15 2007-12-11 Intel Corporation Maintaining access to a video stack after an application crash
JP2020154553A (ja) * 2019-03-19 2020-09-24 日本電気株式会社 ソフトウェアロボット管理方法、ソフトウェアロボット管理装置、プログラム

Similar Documents

Publication Publication Date Title
US5526492A (en) System having arbitrary master computer for selecting server and switching server to another server when selected processor malfunctions based upon priority order in connection request
CA2467813C (en) Real composite objects for providing high availability of resources on networked systems
US6314114B1 (en) Distributed resource management
US20040049553A1 (en) Information processing system having data migration device
US5872929A (en) Method and system for managing terminals in a network computing system using terminal information including session status
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
KR100489690B1 (ko) 실시간 장애 제어를 위한 데이터베이스 테이블 모델링 및이벤트 처리 방법
JPH10187638A (ja) クラスタ制御システム
CN101207517B (zh) 一种分布式企业服务总线节点可靠性维护方法
JPH08212095A (ja) クライアントサーバ制御システム
CN112214377B (zh) 一种设备管理方法及系统
JPH09293059A (ja) 分散システム及びその運用管理方法
JP2002009791A (ja) Ipアドレスを動的に割り当てるdhcpサーバシステム及びipアドレスを動的に割り当てるdhcpサーバ
JPH08190528A (ja) システム管理装置
US6532478B1 (en) File loader in information processing system of multiprocessor configuration
US5894547A (en) Virtual route synchronization
JP3515839B2 (ja) コンピュータシステム間通信システム
CN119512776A (zh) 保障综采生产安全的分布式多进程集成控制系统
JP2002366381A (ja) オブジェクトの動的入替え処理方法
JP2003256390A (ja) 分散オブジェクトシステム
JPH11345215A (ja) 移動型エージェントの状態管理方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JPH06274432A (ja) 分散計算機システム管理方式およびその管理方法
JP4910274B2 (ja) プログラム及びサーバ装置
EP1265140A2 (en) Switching between a base-host and a back-up host in a distributed database management system
US20030005358A1 (en) Decentralized, self-regulating system for automatically discovering optimal configurations in a failure-rich environment