JPH03150643A - 情報処理システムの障害監視装置と制御方法 - Google Patents

情報処理システムの障害監視装置と制御方法

Info

Publication number
JPH03150643A
JPH03150643A JP1288917A JP28891789A JPH03150643A JP H03150643 A JPH03150643 A JP H03150643A JP 1288917 A JP1288917 A JP 1288917A JP 28891789 A JP28891789 A JP 28891789A JP H03150643 A JPH03150643 A JP H03150643A
Authority
JP
Japan
Prior art keywords
information processing
processing system
failure
information
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1288917A
Other languages
English (en)
Other versions
JP2804125B2 (ja
Inventor
Toshio Hirozawa
廣澤 敏夫
Junichi Kurihara
潤一 栗原
Ikuo Kimura
木村 伊九夫
Hideki Nanba
難波 秀企
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Electronics Services Co Ltd filed Critical Hitachi Ltd
Priority to JP1288917A priority Critical patent/JP2804125B2/ja
Priority to US07/613,384 priority patent/US5237677A/en
Publication of JPH03150643A publication Critical patent/JPH03150643A/ja
Application granted granted Critical
Publication of JP2804125B2 publication Critical patent/JP2804125B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operations
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理システムの障害監視装置とその制御
方法に係り、特に、遠隔地から障害発生時の該情報処理
システムの初期診断を行なうときに、好適な制御方式に
関する。
〔従来の技術〕
情報処理システム、すなわち電子計算機システムの応用
範囲の拡大にともない、システムの構成も大規模、複雑
化の一途をたどりつつある。これに伴い、情報処理シス
テムの信頼性向上、耐障害性の向上、さらに障害発生後
の早期の復旧、等がより重要になりつつある。
近年の情報処理システムにおいては、情報処理システム
本体に保守制御用の制御装置を付加し。
情報処理システムの保守1診断を司る構成が一般的にな
りつつある。この種の制御装置は、サービス0プロセツ
サ(Service Processor : S V
 P )と呼ばれており、米国特許第4,204,24
9号公報に開示されている。また、特開昭58−561
58号公報では、遠隔地の保守センタの計算機システム
から複数のユーザ計算機システムを保守・診断する制御
方式を開示している。さらに、特開昭61−14854
2号公報では、SvPの画面を遠隔地からも操作出来る
ための制御方式が開示されている。
米国特許第4,204,249号公報に開示された技術
は、複数の処理装置群に対して、電源のオン/オフの制
御やマイクロ・プログラムのローディング制御をSvP
が担当することにより、集中管理を可能としている。特
に、該制御装置から各処理装置群へ専用の信号線を直接
に布線することにより、従来の並列布線方式に比べて再
布線を必要としない。
特開昭58−56158号公報で開示された技術は、保
守センタの計算機システムが常時、複数のユーザ計算機
システムを順に診断し、事前に障害の発生を検知しよう
とするものである。また、特開昭61−148542号
公報では、svpの画面を遠隔地がらも操作出来るよう
にするときに、SvP側の画面制御プログラムと遠隔地
の保守側の画面制御プログラムの構造、および処理手順
を同じようにすることを目的として、SvP側にデータ
・バッファを設け、このデータ・バッファの内容を転送
する方式を開示している。
〔発明が解決しようとする課題〕
ところで、情報処理システムの24時間運転サービスや
応用範囲の拡大に伴い、情報処理システムの信頼性の向
上や耐障害性の向上のための各種技術開発とともに、障
害発生後の早期復旧のための制御手段も重要になる。早
期復旧のためには、システムの保守員がユーザ計算機シ
ステムのサイトに常駐すれば良い訳であるが、24時間
運転サービスの普及とともに、無人運転が一般的になり
つつあり、システムの保守員も保守センタに待機し、複
数のユーザ計算機システムの障害監視と保守を行なえる
ことが必要である。その時の課題は。
遠隔地からユーザ計算機システムの障害発生を検知出来
る機能を充実することであり、かつ早期復旧の制御手段
を提供することである。
この観点でみると、従来技術に関して、米国特許第4,
204,249号公報記載の技術は、計算機システムの
構成が複雑になるにともない、電力供給装置の任意の変
更や布線の変更を容易にするものであり、具体的には、
SvPにて電源のオン/オフ。
および電圧調整を可能としている。しかし、遠隔地から
の障害監視や保守方法については開示していない。また
、情報処理システムの処理装置群に対しては、現地のS
vPにて操作するという制約がある。
特開昭58−56158号公報記載の技術は、保守セン
タの計算機システムから現地のユーザ計算機システム(
被診断処理装置)のSvPと交信させ、ユーザ計算機シ
ステムの状態を巡回して監視しようとするものである。
したがって、巡回してユーザ計算機システムの状態を監
視することにより、保守センタの計算機システムの稼働
状況を向上させること、および監視手順のカタログ化に
より、診断の自動化が行なえる効果を狙っている。しか
し、障害検出の手段、ロギング情報の具体的項目、さら
に、障害判定の基準、などが具体的に開示されていない
一方、特開昭61−148542号公報記載の技術は、
現地の計算機システムの872画面と同じ画面を遠隔地
の表示装置に表示するために、現地の計算機システムの
SvP内にデータ・バッファを設け。
このデータ・バッファの内容が現地の計算機システムの
872画面や遠隔地の表示装置に表示させるようにして
処理プログラムの論理構造を簡略化している。これによ
り、遠隔地の保守センタの表示装置からも現地の計算機
システムのSvPを操作できるようにしている。ところ
で、svpは保守操作を支援するものであり、ハードウ
ェア障害の検知は可能であるが、ソフトウェア、すなわ
ちオペレーティング・システム(Operating 
5ysteCoS)の誤動作等の検知は一般的に無理が
ある。
また1通常、O8の動作中はO8用のコンソール・メツ
セージ等の監視が障害検出手段の主力をなすものである
。この観点でみると、上記の特開昭61−148542
号公報記載の技術では、遠隔地と現地の872画面の切
り換えの契機、さらに、コンソール・メツセージの検出
手段、障害発生時の通報の方法や872画面からの障害
情報の収集項目、収集方法については言及されていない
ユーザ計算機システムの障害の検出、および障害発生後
の早期復旧を遠隔地の保守センタ等で実現するためには
、O8の振舞いの経過を遠隔地にて即時に収集出来る機
構の実現方法が課題として残されている6通常、O8の
振舞いの経過は、OSコンソール上に出力されたメツセ
ージを追跡すれば可能であるが、コンソール・メツセー
ジを出力するハードコピー装置は現地のユーザ計算機シ
ステムの近くに存在するか、あるいは近くに存在してい
ても無人運転を行なっているために該ハードコピー装置
の電源をオフ状態としている場合が多い、これは用紙切
れの状態や用紙の巻き込み状態の発生を回避するためで
ある。
また、障害発生時に、遠隔地より、主記憶装置内の特定
の領域をも参照できなければならない。
これらはO8の管理情報が格納されている領域やハード
ウェアの使用している領域が対象となる。
当然のことながら、無人運転を行なっている場合には、
ユーザ計算機システム側には、運転オペレータや保守要
員は存在しない。したがって、障害発生を検知する制御
手段の提供が望まれる。また、遠隔地にて、障害の発生
を認識したならば。
保守要員が現地に到着するまでに障害発生要因の初期解
析がなされなければならない。これらの制御手段を提供
することが、計算機システムの障害発生後の早期回復に
寄与するものである。
したがって1本発明の目的は、情報処理システム、すな
わち計算機システムの障害監視と回復を遠隔地から可能
とする制御装置と制御手段を提供することにある。
本発明の他の目的は、遠隔地にて情報処理システムの障
害発生の通報を受けたならば、遠隔地から情報処理シス
テムの障害情報、具体的には、障害発生時点の該システ
ムの状況と障害に至る過程での動作履歴情報を収集でき
る制御装置と制御手段を提供することにある。
本発明の他の目的は、収集した障害情報を解析し、保守
員が現地に到着したときに適切な回復手順を指示出来る
制御手段を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明の情報処理システム
の障害監視装置と制御方法では、該障害監視装置を監視
および制御対象の情報処理システム(計算機システムと
も云う)のマスク・コンソール装置の間に介在させ、情
報処理システムとの間のデータの送受信信号線上のデー
タ・ストリームを監視している。さらに、中央処理装置
との間で専用の接続インタフェース線を配し、中央処理
装置からのハードウェア障害の報告を受信したり、中央
処理装置内の特定のハードウェア情報を取り込むことが
出来る機構を具備している。なお、従来のマスク・コン
ソールの代わりに本発明の制御装置にキーボードと表示
装置を付加しても効果は同じである0本発明の一実施例
においては、従来のマスタ・コンソールの代わりに本発
明の制御装置にキーボードと表示装置を付加した構成に
て説明することにする。
また、遠隔地には上記の情報処理システム群を監視制御
する第2の情報処理システムが存在する。
この第2の情報処理システムは先の制御装置から障害発
生の通報を受けると、該障害情報をもとに過去の判例情
報を検索、照合し、該障害の回復手順を自動的に生成し
た後、障害を起した情報処理システムのサイトへその回
復手順を転送する役割を分担している。
本発明の情報処理システムの障害監視装置とその制御方
法を実現する監視制御装置は、監視・制御対象の情報処
理システムから送出されるメッセージ・データを受信す
るとデータ・バッファに格納後1表示装置に表示する8
このとき、同時に。
あらかじめ登録されている障害メツセージと比較し、障
害発生を認識する。情報処理システム(以降、計算機シ
ステムと云う場合もある)のハードウェア障害の場合に
は、専用のインタフェース線を介してその旨が知らされ
る。ハードウェア障害としてはマシン・チエツク発生、
メモリ・エラー処理ユニット障害などである6監視制御
装置は。
前者のソフトウェア障害、あるいはハードウェア障害の
場合のいずれにおいても、専用のインタフェース線を介
して中央処理装置内の特定の処理ユニットの情報を読み
出して記憶域に一時的に格納する。
以上で述べた障害状態を検出すると1本発明の監視制御
装置は遠隔地の第2の情報処理システムへ障害発生の旨
を報告する。このとき、データ・バッファに格納された
複数のメッセージ・データ、すなわち障害の発生した時
点からさかのぼって過去の複数のメッセージ・データと
障害が発生した時点でのハードウェア障害情報を転送す
る。これによって、遠隔地の監視・保守用の第2の情報
処理システム(以降、監視・保守用計算機システムと云
う)が監視、および制御対象の計算機システムでの障害
の発生を認識する。
監視・保守用計算機システムは上記の通報、および障害
情報を受信すると、該障害情報とあらがじめ記憶してい
る判例情報とを照合比較し、最適な回復手順を生成する
。その結果は、障害の発生した計算機システムの監視制
御装置へ転送される6したがって、保守員が障害の発生
した計算機システムのサイトに到着したときに、コンソ
ール装置から″回復指示″の旨のコマンドを投入するこ
とにより、一連の回復手順がコンソール装置の表示画面
やハードコピー装置に出力される。
これにより、計算機システムの障害発生から回復までの
時間を短縮出来ることになり、計算機システムの運転サ
ービスの向上が図れることになる。
〔作用〕 本発明の情報処理システムの障害監視装置と制御方法は
、監視対象となる情報処理システムが従来のマスタ・、
コンソールにメッセージ・データを送出するデータ線を
中継しており、それらのメッセージ・データを監視して
いる。また、ハードウェア障害の検知方法に関しても中
央処理装置との間で専用のインタフェース線を設けて、
障害の発生を検知したり、障害情報を収集したりしてい
る。
したがって、従来のオペレーティング・システムを改造
する必要がなく、誤動作することもない。
〔実施例〕
以下、本発明の一実施例を第1図〜第22図により説明
する。第1図は本発明の情報処理システムの障害監視装
置と制御方法の構成の概略幅飛した図である。図中の符
号200は監視対象となる計算機システムであり、その
もとでオペレーティング・システム(Operatin
g System :OS )208a。
ユーザ・プログラム(User Program: U
 P ) 208 bが動作している。計算機システム
2oOを構成する代表的なハードウェア処理部は、命令
制御ユニット(Instruction Unit: 
I U)201 、実行ユニット(Execution
 Unit: E U) 202 、入出力処理ユニッ
ト(1/Q ProcessinlHtlnit: I
 OP ) 203 。
メモリ制御ユニット(Memory Control 
Unit:MCυ)204、主記憶装置(Main S
torage: M S ) 206 。
およびサービス・プロセッサ(S6ryiC6Proc
essor:5VP)207である。また、計算機シス
テム200には、ファイル装置209などの入出力装置
が接続されている。
符号100は本発明の1つの構成要素をなす監視制御装
置であり、計算機システム200から本発明の監視制御
袋e100にシステム・コンソール用の信号線Ll a
、5VP207の表示用信号線Llbが接続されている
。なお、システム・コンソール用の信号線Llaと5V
P207の表示用信号線Llbとは同一の信号線であっ
ても構わない、この場合には、信号線Llaは工○P2
O3から5VP207を経て出力される。
さらに1本発明の監視制御装置100と計算機システム
200との間は各処理ユニットからの要求信号L2.ア
ドレス・バスとデータ・バスを含む信号線L3で接続さ
れている。ここで、アドレス・バスとデータ・バスとを
信号線L3にて同一に示しであるが、これは表現上のた
めであり、当然のことながら、別の信号線で接続されて
いる。
監視制御装置100はマイクロ・プロセッサ等と同様な
処理能力を具備した演算器、主メモリ、および処理プロ
グラム群で構成されている。監視制御袋[100内の符
号1はエンコーダ、2はアドレス・レジスタAD、3は
データ・レジスタDTである。符号4はCPUインタフ
ェース処理部(CPU Interface)、符号5
は比較処理部CMP。
符号6はデータ・バッファ、符号7は比較テーブル、符
号8は診断処理部、符号9は画面バッファ。
符号10は障害判定処理部、符号11は分配器。
符号12は転送処理部、符号13はコマンド解釈処理部
、符号14は送受信処理部、である。なお。
監視制御装置100には、キーボード付の表示装置10
2、−時記憶ファイル104が接続され°Cいる。
監視制御装置100と遠隔地の監視・保守用計算機シス
テム250とは線L4で接続されている。
なお、監視制御装置1oOと遠隔地の監視・保守用計算
機システム250との間に公衆回線網が介在しても構わ
ない。監視・保守用計算機システム250には、該計算
機システム250の制御用のコンソール装置252、判
例情報を記憶するファイル装置254、障害情報格納フ
ァイル256が接続されている。なお、第1図には示し
てないが当然のことながら計算機システムに接続可能な
入出力装置群、例えばライン・プリンタ装置などの装置
群も接続可能である。
監視・保守用計算機システム250内では、障害要因の
解析プログラム群が動作しており、それらは符号21の
通信処理部、符号22の解釈・指令処理部、符号23の
収集・解析処理部、符号25の照合処理部、符号26の
判例検索・登録処理部、である、また、符号24は作業
用のバッファ(Work Buffer: B U F
 )である。
監視・保守用計算機システム250は複数の監視制御対
象の計算機システムを管理出来る。符号100a、10
0bは符号100と同様の他の監視制御装置、符号20
0a、200bは監視対象となる計算機システムである
では、第1図を用いて本発明の情報処理システムの障害
監視装置と制御方法の動作の概要を説明した後に、第2
図以降の説明図を用いて各処理部の詳細を説明すること
にする。
第1図を参照するに、監視・制御対象の計算機システム
200からは線Llaを介してOS 208aのメッセ
ージ・データが順次に送出されている。
これらのメッセージ・データはデータ・バッファ6内に
順に格納されて行く。データ・バッファ6が満杯になる
と、再び先頭から格納される。メッセージ・データがデ
ータ・バッファ6内に格納される前に、比較処理部CM
P5にて該メッセージ・データが比較テーブル7内にあ
らかじめ登録されている障害判定用のメッセージ・デー
タと等しいか否かを検査する。比較検査の結果、一致し
たならば障害判定処理部10に制御が移る。
障害判定処理部10はソフトウェアの障害であるならば
、ハードウェアの付加情報を得るために診断処理部8を
起動して中央処理装置200内の各処理ユニットの状態
情報を収集する。状態情報の収集に際しては、アドレス
・レジスタAD2に処理ユニットのアドレス値、データ
・レジスタDT3に収集項目番号を設定して、中央処理
装置200内の各処理ユニットへ送出する。各処理ユニ
ットは収集項目番号に対応した情報をデータ・バスL3
に返す。収集した状態情報は、−旦。
時記憶ファイル104に格納される。ここで、ハードウ
ェアの状態情報としては、主記憶装置206内のハード
ウェア使用領域206bの格納内容。
各処理ユニット内の状態保持情報1例えば割込み保持レ
ジスタやプログラム状態語などがある。
一方、ハードウェアの障害の場合には、一般にサービス
・プロセッサ5VP207が検出し、線L2を介してエ
ンコーダ1に報告される。また。
サービス・プロセッサ5VP207が検出できない障害
、例えばラッチ回路のパリティ・エラーなどは、各処理
ユニットから直接に線L2を介してエンコーダ1に報告
される。ハードウェア障害の報告を受けるとCPUイン
タフェース処理部4は、診断処理部8を起動して中央処
理装置200内の各処理ユニットの状態情報を収集した
後、障害判定処理部10に制御を渡す、なお、ハードウ
ェア障害の場合には、oSから発行されているメッセー
ジ・データの履歴は既にデータ・バッファ6に格納され
ているので、特に、別の処理を行なわない。
以上の処理が完了すると、障害判定処理部1゜は送受信
処理部14を経由し、かっ線L4を介して監視・保守用
計算機システム250へ障害の発生の旨を通報する。な
お、この通報処理は、先に述べた障害情報の収集の前に
行なっても構わない。
監視・保守用計算機システム250は障害発生の通報を
受けると、まず、障害の概要を調べた後。
監視制御装置100に対して詳細な障害情報を要求する
。これは、線L4を介して指令(コマンド: Comm
and)のデータ列が監視制御装置100へ送られる。
この指令は解釈・指令処理部22が行なう。
監視制御装置100では、この指令をコマンド解釈処理
部13が解釈し、転送処理部12を起動する。転送処理
部12はデータ・バッファ6の内容、および−時記憶フ
ァイル104に格納された障害情報を転送することにな
る。このときに、転送処理部12は要求された情報のみ
を転送する訳であるが、特に、ハードウェア使用領域2
06bのデータについては、編集処理を施し、転送する
データ量の削減を図っている0編集処理の一例としては
、同一のデータが続いた場合、その旨の印に置き換える
などである。
解釈・指令処理部22は監視制御装置100から障害発
生の通報を受けたときに、自動的に上記の指令すなわち
、障害情報の転送指令を発行するが、コンソール装置2
52から手動で該当するコマンドを投入することも可能
である。その場合には、投入されたコマンドが解釈・指
令処理部22にて解釈され、通信処理部21を経由して
監視制御装置100内のコマンド解釈処理部13に渡さ
れる。監視・保守用計算機システム250側においては
、転送されて来る詳細な障害情報をBUF24を介して
、障害情報格納ファイル256に、−旦、格納する。こ
れら一連の処理は収集・解析処理部23が行なう。
収集・解析処理部23は、次に1判例検索・登録処理部
26を起動し、該障害に類似した過去の障害例を判例記
憶ファイル254の中から検索する。その後、照合処理
部25にて、先に検索した候補群の中から該障害に合致
した判例を照合する。
照合の結果、該障害に合致した判例が存在したならば1
回復指示生成処理部27にて1合致した判例の中に記憶
されている回復手順を得る。その回復手順は通信処理部
21を経由して監視制御装置100へ転送され、−時記
憶ファイル104に格納される。
保守員が障害の発生した計算機システム200のサイト
に到着し、コンソール装置102より、′″回復指示”
の旨のコマンドを投入すると1回復手順がコンソール装
置102の表示画面、あるいはハードコピー族W(図示
せず)に出力される。
これにより、障害の発生から保守員が現地に到着するま
での間に、並行して障害の要因分析と回復手順の生成を
行なうので1回復時間の短縮が図られる。
なお、照合の結果、該障害に合致した判例が存在しない
ならば、その旨の情報が監視制御装置100に転送され
ているので、保守員が′″回復指示″のコマンドを投入
すると、自刃で回復のための解析を行なう必要があるこ
とが分かる。その場合には、データ・バッファ6や一時
記憶フアイル104の内容をコンソール装置102、あ
るいはハードコピー装置に出力すれば良い。また、コン
ソール装置102にはサービス・プロセッサ5vP20
7のコンソール機能も有している。その後。
該計算機システムを回復させたならば、その手順を監視
・保守計算機システム250へ転送する。
監視・保守計算機システム250側では、先の障害内容
とこの回復手順を対にして1判例記憶ファイル254に
格納する。これによって、後に、他のサイト、あるいは
自サイトにて、再び同様な障害が発生したときに役立つ
ことになる。
では、第2図以降の図を用いて、本発明の情報処理シス
テムの障害監視装置とその制御方法の詳細を説明する。
第2図は第1図で示したデータ・バッファ6の構成を示
した図、第3図は比較テーブル7の構成を示した図、第
4図は診断処理部8で使用する診断番号とアドレス・レ
ジスタAD2゜データ・レジスタDT3への値の対応を
示した図、第5図は一時記憶フアイル104に障害情報
を格納するとき、および監視・保守用計算機システム2
50へ障害情報を転送するときのデータの形式を示した
図、第6図は監視制御装置100から監視・保守用計算
機システム250へ障害発生の概略情報を転送するとき
のデータの形式を示した図。
第7図は監視・保守用計算機システム250から監視制
御装置100へ回復手順を転送するとき、あるいは保守
員が現地にて回復作業の後、監視制御袋W100から監
視・保守用計算機システム250へ回復手順を転送する
ときのデータの形式を示した図、第8図はコンソール装
置102.252からのコマンドの形式、または監視・
保守用計算機システム250から監視制御装置glo。
へのコマンドの形式を示した図、第9図は監視制御袋[
100から監視・保守用計算機システム250へ障害情
報を転送する時に、転送するデータ量の削減処理を施す
1つの例を示した図、第10図は判例記憶ファイル25
4の植成を示した図、である。
また、第11図〜第20図までは各処理部の処理フロー
を示した図である。さらに、第21図、第22図は保守
員の介入を必要としないときの自動回復動作を説明した
図である。第11図は第1図の比較処理部CMP5の処
理フロー図、第12図は障害判定処理部10の処理フロ
ー図、第13図はCPUインタフェース処理部CPUI
4の処理フロー図、第14図(a)、(b)は診断処理
部8の処理フロー図、第15図(a)、(b)は監視処
理袋[100内のコマンド解釈処理部13の処理フロー
図、第16図(a)、(b)は監視・保守用計算機シス
テム250内の収集・解析処理部23の処理フロー図、
第17図は判例検索・登録処理部26の検索処理の処理
フロー図、第18図は判例検索・登録処理部26の登録
処理の処理フロー図、第19図(a)、(b)は照合処
理部25の処理フロー図、第20図は回復指示生成処理
部27の処理フロー図、第21図は第7図で示した障害
回復情報19の回復手順19cに保守員が介入しなくて
も良い指令列が並んだ例を示した図、第22図はそのと
きの処理フローを示した図、である。
第2図を参照するに、データ・バッファ6はメツセージ
/コマンド格納領域TRACE6 aと管理テーブル6
bとで成っている。メツセージ/コマンド格納領域TR
ACE6aはメッセージ・データやコマンド・データの
発生した時刻を格納するフィールド6c、該メッセージ
・データの識別子フィールド6d、該メッセージ・デー
タの番号フィールド6f、および詳細情報フィールド6
gで構成される。また、管理テーブル6bはメツセージ
/コマンド格納領域TRACE6aの先頭領域ポインタ
(FIR5T、E)6h、最終領域ポインタ(LAST
、E)6i、現在の格納領域ポインタ(CUR,E)6
j、および次の格納領域ポインタ(NEXT、E)6に
で成っている。
第3図は比較テーブル7の構成を示しており、この比較
テーブル内には登録数(N)7a、検出対象のメツセー
ジ識別Tフィールド7b、メツセージ番号フィールド7
c、処置フラグ・フィールド7dで成っている。比較処
理部(CMP)5の処理フローは第11図に示してあり
、監視・制御対象の計算機システム200からの出力メ
ッセージ・データ(以降、単にメツセージと略す場合も
ある)は、この比較処理部(CMP)5で処理される。
なお、コンソール装[102から投入されたコマンド・
データは計算機システム200へ、−旦、渡された後、
再びメッセージ・データとして計算機システム200か
ら送出される。
第1図、第2図、第3図、および第11図を参照するに
、1Llaを介して、計算機システム200からのメツ
セージ、すなわち05208aのメツセージが順次に送
出されて来ると、第11図の処理ステップ31aにて該
メッセージ・データをデータ・バッファ6に格納する。
これは第2図で示した次の格納領域ポインタ(NEXT
、E)6にの示すエントリに格納する。格納に際しては
該メツセージが発生した時刻を時刻フィールド6cに設
定した後、続いて該メッセージ・データをメツセージ識
別子フィールド6h、メツセージ番号フィールド6f、
および詳細情報フィールド6gに格納する。格納された
メッセージ・データは分配!a11を経由して画面バッ
ファ9に格納され、結果として、コンソール装置102
の表示画面に表示される。
処理ステップ31bでは1次の格納領域ポインタ(NE
XT、E)6にと現在の格納領域ポインタ(CUR,E
)6jの値をそれぞれ+1とする。
処理ステップ31cから処理ステップ31fまでは、上
記のポインタの値が最終領域ポインタ(LAST、E)
6iの値を超えていないかを検査する。もしも超えてい
たならば、それぞれ先頭領域ポインタ(FIR5T、E
)6hの値に置き換える。したがって、データ・バッフ
ァ6のメツセージ/コマンド格納領域TRACE6aは
n個分のメッセージ・データを格納することが可能であ
り、現在の格納領域ポインタ(CUR,E)6jの1つ
前のエントリから後に向がって、次の格納領域ポインタ
(NEXT、E)6kまでのエントリが過去のメッセー
ジ・データの履歴となる。
すなわち、第2図の場合(2)、(1)、(n)。
(n−1)・・・(5)、(4)が過去のメッセージ・
データの履歴となる。
処理ステップ31gでは、先にデータ・バッファ6に格
納したメッセージ・データ、すなわち現在の格納領域ポ
インタ(CUR,E)6jの指すエントリのメッセージ
・データのメツセージ識別子6c、メツセージ番号6f
と第3図で示した比較テーブル7内のメツセージ識別子
7b、番号7cとを比較する。比較回数は登録数(N)
7aの回数である。比較の結果、現在の格納領域ポイン
タ(CUR,E)6jの指すエントリのメッセージ・デ
ータと等しいメツセージが比較テーブル7に登録されて
いたならば、判定処理ステップ31hにて、その旨が判
断され、該メッセージ・データと処置フラグ・フィール
ド7dの値を判定処理部10へ渡す(処理ステップ31
1.処理ステップ31k)、比較の結果、比較テーブル
7内に一致するメッセージ・データが存在しないならば
、次のメッセージ・データを受信する処理ステップ31
aへ戻る。
第12図は第1図の障害判定処理部10におけるソフト
ウェア障害発生時の処理フローであり、第13図はハー
ドウェア障害発生時におけるCPuインタフェース処理
部(CPUI)4の処理フローである。第12図を参照
するに、比較処理部(CMP)5より制御が移ると判定
処理ステップ32aにてパラメータとして渡された処置
フラグ7eのビット7を調べて、該計算機システムを停
止させるか否かを判定する。これはビット7の値が1な
らば計算機システムの停止を意味する。計算機システム
を停止させるときには、処理ステップ32bにてサービ
スプロセッサ5VP207に計算機200の停止指令の
信号を1iL1bに送出すれば良い。
次に、処理ステップ32cにて第6図で示した障害要約
情報16を作成する。障害要約情報16はサイト識別子
フィールド16a、障害発生日時フィールド16b、障
害種別フィールド16C1および概略情報フィールド1
6dで成っている。
ソフトウェア障害の場合には、障害種別フィールド16
cの値は′S′となり、さらに、概略情報フィールド1
6dには、該障害メッセージ・データが格納される。処
理ステップ32dでは、診断処理部8へのパラメータと
して第3図に示した処置フラグ7dを準備し、次に診断
処理部8(第12図のフローチャートではDiAGと表
記)へ制御を渡す、なお、このときソフトウェアの障害
の旨を’ 5OFT’ として表しである。
診断処理部8から制御が戻ると、処理ステップ32fに
て送受信処理部14を経由して監視・保守用計算機シス
テム250へ障害の発生の旨を通報する。このとき、第
6図の障害要約情報16が監視・保守用計算機システム
250へ転送される。
では次に、ハードウェア障害発生時の障害情報の収集ま
での動作を説明する。第13図はCPUインタフェース
処理部(CPUI)4の処理フローである。ハードウェ
ア障害が発生すると、信号線L2、エンコーダ1を経由
して、その旨がCPUインタフェース処理部(CPUI
)4に報告される。このとき、データ・レジスタDT3
には、障害発生の理由コードが保持されている。処理ス
テップ33aでは、ソフトウェア障害のときと同様に、
第6図の障害要約情報を作成する。このとき、障害種別
フィールド16cの値は、八−ドウエア障害であるので
IH′ となる。また、概略情報フィールド16dには
障害発生時のメッセージ・データに加えてDT3に保持
されている理由コードを理由コード・フィールド16g
に格納する。
処理ステップ33bにて、該理由コード16eを診断処
理部8へのパラメータとして、次の診断処理部8(第1
3図のフローチャートではDIAGと表記)へ制御を渡
す、なお、このときハードウェア障害の旨をH′として
表しである0診断処理部8から制御が戻ると、処理ステ
ップ33cにて、第12図の処理ステップ32fへ制御
を移す。その処理ステップ32fでの処理は、先のソフ
トウェア障害の処理で説明したように、送受信処理部1
4を経由して監視・保守用計算機システム25〇八障害
の発生の旨を通報する。当然のことながらこのとき第6
図の障害要約情報16が監視・保守用計算機システム2
50へ転送される。
ここで、第1図の診断処理部8の動作を説明する0診断
処理部8はソフトウェア障害のときには障害判定処理部
10.ハードウェア障害のときにはCPUインタフェー
ス処理部(CPUI)4から制御が渡る。また、コンソ
ール族[102や監視・保守用の計算機システム250
からの動作指令によっても動作する。第14図(a)、
第14図(b)は障害の発生を監視制御装置100自身
で検知したときの処理フローを示している。
ソフトウェア障害、またはハードウェア障害の発生によ
って、障害判定処理部10、またはCPUインタフェー
ス処理部(CPtJI)4から制御が移ると、処理ステ
ップ34aでは、1視対象の計算機システム200内の
各処理ユニットで保持しているログアウト情報を得る準
備処理を行なう。
ここで、診断処理部8が各処理ユニット(IU201゜
Eu2O3など)のログアウト情報等のハードウェア情
報を得るときには、第1図のアドレス・レジスタAD2
.データ・レジスタDT3に対応する値を設定する。第
4図は第3図の処置フラグ7eのビット位置番号(0=
nビツトのビット位置番号)に対応するアドレス・レジ
スタAD2゜データ・レジスタDT3の値を示している
。なお、アドレス・レジスタAD2の値は各処理ユニッ
トの番号に対応しており。
1)命令制御!ニット(IU)201.、.12)実行
ユニット(EU)202  、、.23)入出力処理ユ
ニット(IOP)  、、、34)メモリ制御ユニット
(MCU)  、、、45)主記憶装置(MS)   
    、、、56)サービス・プロセッサ(SVP)
、、、6のように、アドレス付けしである。したがって
、ログアウト情報はハードウェア使用領域206bに存
在するためAD2の値はMS206対応の5′が設定さ
れ、DT3には先頭アドレスが設定される。
処理ステップ34bでは、収集したログアウト情報を第
5図の障害情報エリアL8cに格納し、ダンプ識別子1
8aにはログアウト情報の旨の識別を設定する。また、
レコード長18bには収集したデータの長さをバイト数
で設定する。次の判定処理ステップ34cではソフトウ
ェア障害であるか否かを判定する。これは診断処理部8
に引き渡されたパラメータで判定する0判定処理の結果
、ソフトウェア障害でない場合、すなわちハードウェア
障害の場合には第14図(b)の処理ステップ34に〜
処理ステップ34mを実行する。
一方、ソフトウェア障害、すなわちオペレーティング・
システム等の障害のときには処理ステップ34d〜処理
ステツプ34iを実行する。先ず。
処理ステップ34dでは、処置フラグ7eのビット数を
繰返し回数(ループ回数)LOOPとする。
また、カウンタiの値を0にして初期化する。ここで、
LOOP、およびiは作業変数であり、ハードウェア、
あるいは処理プログラム内の作業領域に確保しても揚わ
ない。
カウンタiの値がループ回数LOOPの値になるまで処
理ステップ34a〜処理ステツプ34iを繰り返す。こ
の処理は処置フラグ・ピント7eの各ビットを調べて、
該ビットの値が′ 1′ならば、そのビット位置番号に
対応するハードウェア情報を収集する0判定処理ステッ
プ34aでは。
カウンタiの値に対応する処置フラグ・ビット7eのビ
ット位置の値を調べる。その結果、指定なし、すなわち
値が′0′であるならば、処理ステップ34iへ進む。
一方、t!定がなされていると、処理ステップ34fに
てアドレス・レジスタAD2.データ・レジスタDT3
に値を設定し、当該の処理ユニットのログアウト動作を
起動する。この処理は第4図に示したように、カウンタ
iの値が診断番号に対応し、それに基づいてアドレス・
レジスタAD2゜データ・レジスタDT3の設定値が一
意的に決まる。次に、処理ステップ34gでは、読み出
したハードウェア情報に第5図で示したダンプ識別子1
8aを付加し、−時記憶ファイル104に格納する、ダ
ンプ識別子18aは診断番号1のO8制御テーブルなら
ば、′O8制御テーブル′の識別、実行ユニット(EU
)202のハードウェア情報ならば、’EU’の識別が
設定される。
次に、処理ステップ34hにて、カウンタiの値を+1
した後、処理ステップ34iにてカウンタiの値がルー
プ回数LOOPの値に達したか否かを検査する。達して
いなければ、処理ステップ34eへ戻る。カウンタiの
値がループ回数LOOPの値に達したならば、この診断
処理部8の動作は終了する。
第14図(b)はハードウェア障害発生時の診断処理部
8の処理フローである。これら一連の処理は第14図(
a)の判定処理ステップ34cから移される。先ず、処
理ステップ34kにて、計算機システムCPU200内
の各処理ユニットからハードウェア情報を読み出す。こ
の処理は、先に説明したように、アドレス・レジスタA
D2゜データ・レジスタDT3に値を設定して各処理ユ
ニットを起動することになるが、ここでは第4図に示す
全ての診断番号17aの情報を収集する。
次の処理ステップ34mでは、読み出したハードウェア
情報に第5図のダンプ識別子18aを個々の情報に付加
して、−時記憶ファイル104に格納する。
以上によって、監視・制御対象の計算機システム200
での障害発生時の動作、すなわち監視・保守用計算機シ
ステム250への通報、ならびに障害情報の収集動作が
完了し、監視・保守用計算機システム250側では、保
守員の現地派遣指示。
障害要因の分析1回復手段の自動生成等の動作に入る。
これらの動作を説明する前に、監視・制御装置i!10
0でのコマンド解釈処理部13.転送処理部12の動作
を説明する。
第8図はコンソール装置102.252からコマンドが
入力されるときの形式、ならびに監視・保守用の計算機
システム250から指令されたときのコマンドの形式を
表している。監視・制御装置100内のコマンド解釈処
理部13はコンソール装置I O2,監視・保守用の計
算機システム250のコンソール装置252から手動に
よるコマンド投入によっても動作可能であり、かつ監視
・保守用の計算機システム250内の収集・解析処理部
23からコマンドのデータ・ストリームを自動的に生成
して送出されたことによる動作も可能である。第8図に
示したコマンドの一覧は本発明の一実施例であり、追加
可能である。
第15図(a)、第15図(b)は第8図のコマンド対
応の処理フローを示している。処理ステップ35aにて
コマンドのデータ・ストリームを得た後、処理ステップ
35bにて各コマンド対応の処理に分岐する。
(1)GETMSG このコマンドはデータ・バッファ6(第2図の符号6a
)の内容をポインタNEXT、E6にの指す領域からポ
インタCUR,Eejの指す領域の1つ前までを一時記
憶フアイル104に格納する(処理ステップ35c)。
(2)GETHARD このコマンドは計算機システム200内の各処理ユニッ
トのハードウェア情報を得るためのコマンドであり、先
に説明した診断処理部8を起動して処理を遂行させるも
のであり、処理ステップ35d〜処理ステツプ35fが
実行される。
(3)GETLOG このコマンドも計算機システム200内の各処理ユニッ
トのハードウェア情報を得るためのコマンドであるが、
特に、各処理ユニットのハードウェア保持情報(第4図
の診断番号3〜6)を収集する。このために、処理ステ
ップ35gが動作するが、(2)と同様に5診断処理部
8を起動して処理を遂行させる。
(4)ACTION このコマンドは監視・保守用計算機システム250から
送出されてくる障害回復手順のデータ列をコンソール装
置102の表示装置やハードコピー装置等の出力装置に
出力する(処理ステップ35h)。第7図は障害回復手
順のデータ列19の形式を示しており、回復手順フィー
ルド19cに一連の回復手順が格納されている。
(5)RECOVER このコマンドは監視・保守用計算機システム250側に
て回復手順を生成出来ず、保守員が現地にて試行錯誤を
繰り返しながら障害の発生した計算機システムを回復さ
せたときに、その回復手順を監視・保守用計算機システ
ム250へ転送する時に用いられる。この処理は処理ス
テップ35iにて、コンソール装置102から入力され
た回復手順を順次に第7図の回復手順フィールド19c
に格納し、他のフィールド19a〜19dを完成させた
後、転送処理部12を経由して監視・保守用計算機シス
テム250へ転送する。
(6)SUMMARY このコマンドは第6図の障害発生の要約情報を表示する
ためのものである。障害を起した計算機システム用の監
視制御装置のコンソール装!102から指令された場合
には、処理ステップ35jによって、第6図の障害要約
情報16をコンソール装置102の表示画面に表示する
。一方、監視・保守用計算機システム250のコンソー
ル装置252、あるいは収集・解析処理部23から指令
されたときには、処理ステップ35kによって、第6図
の障害要約情報16を転送処理部12を経由して、計算
機システム250へ転送する6(7)TRANSFER このコマンドは一時記憶フアイル104に格納されてい
る障害情報を、処理ステップ35mによって計算機シス
テム250へ転送する。なお、このとき、転送処理部1
2では、第9図に示すように転送データ量の削減処理1
2aを行なう。すなわち、障害情報28aに対して同一
のデータ列が続くと記1号28cを挿入し、新たなデー
タ列28bを転送する。これによって、第1図の回線L
4を通るデータ量が削減される効果が生じる。
(8)DISPLAY このコマンドは現地の保守員がコンソール装置102を
用いて一時記憶フアイル104に格納されている障害情
報を表示させたり、あるいは監視・保守用の計算機シス
テム250のコンソール装置252に表示させたいとき
に用いられる。具体的な処理は、処理ステップ35nに
て、−時記憶ファイル104、データ・バッファ6の内
容を当該のコンソール装置に表示する。
以上がコマンド解釈処理部13の動作である2なお、上
記で述べたコマンド処理の中で、(4)のACTION
コマンドの処理においては、処理ステップ35hにて保
守員に回復手順を表示する一実施例を開示しているが、
ハードウェア部品の交換を伴わない回復に関しては、保
守員の操作を必要とせずに回復出来る場合もある。その
実施例については、後に第21図以降の図を用いて説明
する。
では次に、監視・保守用計算機システム250が監視制
御装置から障害発生の通報を受けたときの動作を説明す
る。障害発生の通報は、第6図で示した障害要約情報1
6が回線L4を介して1通信処理部21が受信し、制御
を収集・解析処理部23に渡す。
第16図(a)は収集・解析処理部23における障害通
報を受信したときの処理フローを示している6まず、処
理ステップ36aでは、受信した障害要約情報16をB
UF24.および障害情報ファイル256に格納する。
この時点で保守要員を現地に派遣しても良いし、あるい
は後の処理ステップ36dにて回復手順が判明した時点
で派遣しても構わない。次に、処理ステップ36bでは
、第8図で説明したTRANSFERコマンドを監視制
御装置100に発行し、詳細な障害情報を収集する。収
集した障害情報は処理ステップ36cにて障害情報ファ
イル256に、−旦格納される。
次に、障害要約情報16を判例検索・登録処理部26に
渡し、制御も移す。第16図(a)では。
STGと表記しである。なお、このときは′検索′要求
となる。判例検索・登録処理部26では、障害要約情報
16に類似した過去の障害例を判例記憶ファイル254
から取り出して、BUF24に格納する。この処理は、
後に第17図を用いて説明する。過去の障害例がBUF
24に格納されると1次に照合処理部(EXTR)25
を起動する。
この照合処理部(EXTR)25では、候補群の中から
詳細な障害情報まで比較し、一致したならば、その判例
とともに制御を戻し、一致した障害例が存在しなかった
ならば、′不一致′の旨で制御を戻す。
過去の障害例と一致したならば、回復手順を生成するた
めに、回復指示生成処理部27を起動する。第16図(
a)では、回復指示生成処理部27をGENで表記しで
ある。回復指示生成処理部27は第7図に示した回復情
報19を作成する。
そこで、収集・解析処理部23は処理ステップ36dに
て回復情報19を監視装置100へ転送する。
一方、過去の障害例と一致しなかったならば。
現在、発生した障害を新たに判例記憶ファイル254に
登録するために、判例検索・登録処理部(STG)26
を起動する。この場合には、′登録″の旨を表記する。
この登録処理に際しては、回復手順が明記されずに格納
されるが、後に1回復手順が判明したとき、あるいは現
地にて回復させた熾、第8図のRECOVERコマンド
を保守員が入力することにより1回復手順が完成する。
判例検索・登録処理部(STG)26にて該障害例の登
録が完了すると、再び、制御が収集・解析処理部23に
戻る。
収集・解析処理部23では、処理ステップ36fにて1
回復手順を生成出来なかった旨の印を第7図の回復手順
フィールド19cに格納し、該データ列19を監視制御
装置i!100へ転送する。その後、処理ステップ36
gにて、監視・保守用計算機システム250のコンソー
ル装置252にも回復手順を生成出来なかった旨を表示
して、経験者の知恵を借りることになる。そこで、処理
ステップ36hでは、専門家がコンソール装置25より
第8図で示したコマンドを投入しながら障害の分析を行
ない、回復手順を探ることになる。このときには、現地
の保守員も回復手順を探っており。
結果として、並行して検討することになる。もしも、監
視・保守用計算機システム250側が早く回復手順を得
たならば、第7図の回復情報19を監視制御装置100
へ転送する。
第16図(b)は収集・解析処理部23における回復手
順の登録処理を示している。回復手順は監視制御装置1
00側のコンソール装ff1102から第8図のREC
:0VERコマンドを投入しても良いし、監視・保守用
計算機システム250のコンソール装置252から投入
しても良い。なお。
監視・保守用計算機システム250の解釈指令処理部2
2の動作は、監視制御装置100側のコマンド解釈処理
部13と基本的に同一と考えて良い。
処理ステップ36iでは、第7図の回復情報19を得る
0次に1判例検索・登録処理部(STG)26を起動し
て、先に回復手順が未完成の該障害判例を完成させる。
では次に、第10図、および第17図〜第20図を用い
て1判例検索・登録処理部26.照合処理部251回復
指示生成処理部27の動作を説明する。第10図は判例
記憶ファイル254の構成を示している0判例記憶ファ
イル254内ではハードウェア障害とソフトウェア障害
を分離して記憶させている。これは検索速度を速めるた
めであす、別のファイルに記憶させることを意識してい
る訳ではない。第10図を参照するに1判例記憶ファイ
ル254内ではハードウェア障害とソフトウェア障害毎
に管理テーブル30によって管理されており、ハードウ
ェア障害判例に関しては、ハードウェア障害登録数(K
)30a、格納エリア・ポインタ(H)30bが記憶さ
れている。また、判例の実体は格納エリア・ポインタ(
H)30bにより指されている。1つの判例情報29は
、理由コード29a、障害メツセージ29b、関連メツ
セージ29c、Ji囚ラフイールド29d障害情報29
f、回復手順29g、統計情報29hで成っている。こ
こで、理由コード29aは第6図の障害要約情報16内
の理由コード16eが格納され、障害メツセージ29b
も障害メツセージ・フィールド16dが格納される。関
連メツセージ29cは障害メツセージ29に関連したメ
ツセージ、あるいは該障害メツセージ29を引き起こし
た要因メツセージを第6図のデータ・バッファ6のCU
R,E (6j)の指すメツセージから前に戻って検索
し、相当するメツセージを該領域29cに格納する。ま
た、障害情報29fには、先に説明した障害発生時に収
集した情報が格納される。
回復手順29gには、当該障害に対して施した回復手順
、例えば第7図の回復手順フィールド19cのような回
復手順が格納される。統計情報29hには、該障害の発
生回数等の統計情報が格納される。
他方、ソフトウェア障害情報に関しても、管理テーブル
30内にソフトウェア障害登録数(L)30C,格納エ
リア・ポインタ(S)30dによって、実体が管理され
ており、実体内の1つの判例情報41は、理由コードが
存在しないことを除いて、ハードウェア障害情報と同じ
である。
第17図は判例検索・登録処理部(STG)26の検索
処理の処理フローである。第7図を参照するに、先ず、
処理ステップ37a、37bにて第10図の障害要約情
報16の概略情報16dと判例記憶ファイル254内の
各エントリ29゜41と比較する。ここで、ハードウェ
ア障害の場合には理由コード29a、ソフトウェア障害
の場合には障害メツセージ41bと比較する。比較の結
果、障害要約情報16と等しいエントリが存在したなら
ば、処理ステップ37cにて、該エントリを候補の1つ
としてBUF24に格納する。判定処理−ステップ37
dでは、全てのエントリを検索するまで処理ステップ3
7a〜処理ステツプ37cを繰り返す。以上によって、
障害要約情報16に対応する候補がBUF24に格納さ
れる。
この後、照合処理部25によって、発生した障害に一致
した判例が抽出される。
第18図は判例検索・登録処理部(STG)26の登録
処理の処理フローである。まず、判定処理ステップ38
aでは、障害情報の登録か、あるいは回復情報の登録か
を判定する。障害情報の登録ならば、処理ステップ38
bを実行し、回復情報の登録の登録ならば、処理ステッ
プ38C2処理ステツプ38dを実行する。障害情報の
登録のとき、処理ステップ38bにて第6図の障害要約
情報16と詳細情報をハードウェア障害/ソフトウェア
障害に分けて情報領域29、または情報領域41に格納
する。一方、回復情報の登録ならば、第7図の回復情報
19に対応する判例情報29、または判例情報41を検
索する。次に、検索した判例情報291判例情報41の
回復手順29g、または回復手順41gに第7図の回復
手順19cを格納する。
第19図(a)、第19図(b)は第1図の照合処理部
25の処理フロー図である。処理ステップ39aにてハ
ードウェア障害の照合であるか、あるいはソフトウェア
の障害かを判定する。ハードウェア障害の照合ならば、
第19図(b)の処理ステップ39i〜処理ステツプ3
9pを実行する。ソフトウェアの障害判例の照合ならば
、処理ステップ39b〜処理ステツプ39hを実行する
先ず、処理ステップ39bにて、作業変数Countに
BUF24内に格納されている判例の候補数を設定する
0次に、カウンタiを0に初期化する。
ここで、作業変数Countおよびカウンタは、第14
図(a)と同様に、ハードウェア、あるいは作業領域に
確保しても構わない。
処理ステップ39cにてカウンタiを+1した後、処理
ステップ39dにてカウンタiの値が作業変数Coun
tの値を超えたか否かを判定する。
カウンタiの値が作業変数Co u n tの値を超え
ていたならば、該障害と一致した判例がなかったことに
なり、不一致の終了となる。カウンタiの値が作業変数
Countの値を超えていなければ、判定処理ステップ
39eにて障害メツセージ41bが等しいか否かを判定
する。一致しなければ処理ステップ39cへ戻る。次に
、判定処理ステップ39fにて関連メツセージ41cが
等しいか否かを判定する。ここでも一致しなければ処理
ステップ39cへ戻る。障害メツセージ41b、関連メ
ツセージ41cも一致したならば、判定処理ステップ3
9gにて障害情報41fが一致しているか否かを調べる
。その結果、一致しなければ処理ステップ39cへ戻る
。一方、一致したならば、処理ステップ39hにて、カ
ウンタiの示すエントリの回復手順41gを本照合処理
部25を呼び出した処理部、すなわち収集・解析処理部
23へ渡し、一致終了となる。なお、このとき、統計情
報41hの障害発生回数を+1する。
第19図(b)はハードウェア障害の判例の照合処理で
ある。まず、処理ステップ39jにて、作業変数Cou
ntにBUF24内に格納されている判例の候補数を設
定する。次に、カウンタiを0に初期化する1次に、処
理ステップ39kにて、カウンタiを+1した後、処理
ステップ39mにてカウンタiの値が作業変数Coun
tの値を超えたか否かを判定する。カウンタiの値が作
業変数Countの値を超えていたならば、該障害と一
致した判例がなかったことになり、不一致の終了となる
。カウンタiの値が作業変数Countの値を超えてい
なければ、判定処理ステップ39nにて理由コード29
aが等しいかを判定する。−致しなければ処理ステップ
39にへ戻る。次に、判定処理ステップ390にて障害
情報29fが一致しているか否かを調べる。その結果、
一致しなければ処理ステップ39にへ戻る。一方、一致
したならば、処理ステップ39pにて、カウンタiの示
すエントリの回復手順29gを本照合処理部25を呼び
出した処理部、すなわち収集・解析処理部23へ渡し、
一致終了となる。なお、このとき、統計情報29hの障
害発生回数を+1する。
以上が第1図の照合処理部25の動作である。
では次に、回復指示生成処理部27の動作を説明する。
第20図は回復指示生成処理部27の処理フロー図であ
る。まず、処理ステップ40aにおいて、BUF24内
で照合、選択された判例情報29、または判例情報41
の回復手順29g、または41gを得る。次の処理ステ
ップ40bにて第7図の障害回復情報16を作成する。
すなわち。
処理ステップ40aで得た回復手順29g、または回復
手順41gをフィールドL9cに格納する。
なお、第7図のフィールド19a〜フイールド19bは
第6図のフィールド19a〜フイールド16bを複写す
ることによって得られる。また、回復日時フィールド1
9dには、この処理ステップにて回復手順を生成下時点
の日時を設定する。
では次に、監視制御装置100側にて保守員の介入1例
えばハードウェア・パッケージの交換作業を必要としな
いときの自動回復動作について説明する。第21図は第
7図で示した回復情報19の回復手順フィールド19c
内に、計算機システムの標準再起動の時に行なうコンソ
ール装置の操作のデータ列45bが格納されている例を
示している。第22図は、このときのコマンド解釈処理
部13の処理フローを示している。コマンド解釈処理部
13は第8図で示したコマンドの一覧の他に監視・保守
用計算機システム250から送られてくる回復情報19
の内容を調べて動作すれば良い、まず、処理ステップ4
3aにて第21図の指令列44に対応して制御対象の計
算機システム200を停止させ、かつシステム・リセッ
トの指令を発行する。これはデータ・バッファ6に上記
の動作のための指令データを格納することにより。
線Llbを経てサービス・プロセッサS V P 20
7に送られる0次の判定処理ステップ43bではデータ
45aを調べて、標準再起動か否かを検査する、標準再
起動でないならば、先にA CT I ONコマンドで
説明したように、それ以降のデータ列45bをコンソー
ル装置102やハードコピー装置等に出力する。
標準再起動が指定されているならば、処理ステップ43
cにて回復手順のデータ列45bをデータ・バッファ6
、画面バッファ9に格納する。これにより、該データ列
45bはコンソール装置102にも表示されることにな
り、かつ、線Lla。
Llbを経て計算機システム200のサービス・プロセ
ッサ5VP207やオペレーティング・システム○52
08aに渡すことが出来る。
〔発明の効果〕
本発明によれば、計算機システムの障害監視と回復のた
めに、制御対象の計算機システム側に監視制御装置が存
在し、常時、計算機システムの振舞を監視するとともに
、障害発生時には、該計算機システムの障害情報を自動
的に収集し、遠隔地の監視保守用計算機システムへ障害
情報を転送する。障害の通報を受けた監視保守用計算機
システムでは、直ちに保守員を派遣するとともに、該障
害情報を過去の障害判例と照合することにより、適切な
回復手段を生成し、現地に到着した保守員に自動的に指
示を与えるので、計算機システl−の障害発生から回復
までの時間が大幅に短縮できる効果がある。
さらに、保守員の介入を必要としない障害に対しては、
該計算機システムの再起動を自動的に行なうので、無人
運転サービスの実現に一歩近づく効果がある。
さらに、遠隔地の監視保守用計算機システムは複数の計
算機システムの障害発生を監視しているので、小人数で
多くの計算機システムを運営できる効果がある。
さらに、遠隔地の監視保守用計算機システムは複数の計
算機システムの障害発生時の障害情報。
および回復手段を一括して記憶しているので、障害管理
情報の蓄積が可能となる効果がある。
【図面の簡単な説明】
第1図は本発明の情報処理システムの障害監視装置と制
御方法の特徴的な構成を示した図、第2図は第1図のバ
ッファ6の構成を示した図、第3図は比較テーブル7の
構成を示した図、第4図は診断処理部8で使用する診断
番号とアドレス・レジスタ(AD)2.データ・レジス
タ(DT)3への値の対応を示した図、第5図は一時記
憶フアイル104に障害情報を格納するとき、および監
視・保守用計算機システム250へ障害情報を転送する
ときのデータの形式を示した図、第6図は監視制御装置
100から監視・保守用計算機システム250へ障害発
生時の障害概略情報を転送するときのデータの形式を示
した図、第7図は監視・保守用計算機システム250か
ら監視制御装置100へ回復手順を転送するとき、ある
いは保守員が現地にて回復作業の後、監視制御装置10
0から監視・保守用計算機システム250へ回復手順を
転送するときのデータの形式を示した図、第8図はコン
ソール装置102,252からのコマンドの形式、また
は監視・保守用計算機システム250から監視制御装置
100へのコマンドの形式を示した図、第9図は監視制
御装置glooから監視・保守用計算機システム250
へ障害情報を転送するときに、転送するデータ量の削減
処理を施す1つの例を示した図、第10図は判例記憶フ
ァイル254の構成を示した図、第11図は第1図の比
較処理部(CMP)5の処理フロー図、第12図は障害
判定処理部10の処理フロー図、第13図はCPUイン
タフェース処理部(CPUI)4の処理フロー図、第1
4図(a)、(b)は診断処理部8の処理フロー図、第
15図(a)。 (b)は監視制御装w100内のコマンド解釈処理部1
3の処理70−図、第16図(a)、(b)は監視・保
守用計算機システム250内の収集・解析処理部23の
処理フロー図、第17図は判例検索・登録処理部26の
検索処理の処理フロー図、第18図は判例検索・登録処
理部26の登録処理の処理フロー図、第19図(a)、
(b)は照合処理部25の処理フロー図、第20図は回
復指示生成処理部27の処理フロー図、第21図は第7
1で示した回復情報19の回復手順フィールド19c内
に、計算機システムの標準再起動の時に行なうコンソー
ル装置の操作のデータ列が格納されている例を示した図
、第22図は、このときのコマンド解釈処理部13での
処理フローを示した図、である。 1・・・エンコーダ、2・・・アドレス・レジスタ(A
 D)。 3・・・データ・レジスタ(DT)、4・・・CPUイ
ンタフェース処理部、5・・・比較処理部(CMP)、
6・・・データ・バッファ、7・・・比較テーブル、8
・・・診断処理部、9・・・画面バッファ、1o・・・
障害判定処理部、11・・・分配器、12・・・転送処
理部、13・・・コマンド解釈処理部、14・・・送受
信処理部。 21・・・通信処理部、22・・・解釈指令処理部、2
3・・・収集・解析処理部、24・・・作業用バッファ
BUF。 25・・・照合処理部、26・・・判例検索・登録処理
部、27・・・回復指示生成処理部、100・・・監視
制御装置、102・・・コンソール装置、104・・・
−時記憶ファイル、200・・・監視制御対象の情報処
理システム(計算機システム)、250・・・監視・保
守用計算機システム、252・・・コンソール装置、2
54・・・判例記憶ファイル。 256・・・障害情報格納ファ イル。 図 第 回 罵 図 冨 4 図 ■ 図 葛 ■ ■ 第 図 第 図 χ lθ 図 不 1 国 冨 2 図 1ρ 第 3 図 葛 /4 図 (とり 葛 5 図 (tl) !ネ ■ 5 固 Cb) 竿 16 凹 (dン 第 6 図(b) 第 ?’ff 図 不 9 図(a、) 5 葛 Z/ 図 7

Claims (1)

  1. 【特許請求の範囲】 1、主記憶装置を有した少なくとも1つ以上の中央処理
    装置と入出力装置群と、中央処理装置の保守操作用の操
    作卓の機能と中央処理装置のもとで動作するオペレーテ
    ィング・システムのメッセージ表示やコマンドの投入を
    可能とする操作卓の機能を具備した第1の情報処理シス
    テムと遠隔地から該第1の情報処理システムの動作を監
    視制御する第2の情報処理システムの構成において、該
    第1の情報処理システムのオペレーティング・システム
    のメッセージ・データまたはコンソール・ディスプレイ
    装置から入力されたコマンド・データを一定個数分記憶
    する第1の記憶手段と異常状態の検出のためのメッセー
    ジ・データを記憶する第2の記憶手段とオペレーティン
    グ・システムのメッセージ・データと第2の記憶手段の
    内容と比較する第1の比較手段と、比較の結果第2の記
    憶手段の内容のいずれかと一致したならば障害発生の旨
    を遠隔地の第2の情報処理システムに通報する制御手段
    と遠隔地の第2の情報処理システムからの指令に基づい
    て第1の記憶手段の内容を該第2の情報処理システムへ
    送出する制御手段を具備したことを特徴とする情報処理
    システムの障害監視装置と制御方法。 2、主記憶装置を有した少なくとも1つ以上の中央処理
    装置と入出力装置群と、中央処理装置の保守操作用の操
    作卓の機能と中央処理装置のもとで動作するオペレーテ
    ィング・システムのメッセージ表示やコマンドの投入を
    可能とする操作卓の機能を具備した第1の情報処理シス
    テムと遠隔地から該第1の情報処理システムの動作を監
    視制御する第2の情報処理システムの構成において、該
    第1の情報処理システムの中央処理装置のハードウェア
    の障害発生の旨の信号を受信する制御手段と障害発生の
    旨を遠隔地の第2の情報処理システムに通報する制御手
    段と遠隔地の第2の情報処理システムからの指令に基づ
    いて第1の情報処理システム内の中央処理装置のハード
    ウェアの状態を読み出す制御手段と該読み出した情報を
    第2の情報処理システムへ送出する制御手段を具備した
    ことを特徴とする情報処理システムの障害監視装置と制
    御方法。 3、主記憶装置を有した少なくとも1つ以上の中央処理
    装置と入出力装置群と、中央処理装置の保守操作用の操
    作卓の機能と中央処理装置のもとで動作するオペレーテ
    ィング・システムのメッセージ表示やコマンドの投入を
    可能とする操作卓の機能を具備した第1の情報処理シス
    テムと遠隔地から該第1の情報処理システムの動作を監
    視制御する第2の情報処理システムの構成において、第
    2の情報処理システムが第1の情報処理システムで障害
    の発生の旨の報告を受けたときに、第1の記憶手段の内
    容、または第1の情報処理システム内の中央処理装置の
    ハードウェアの状態を得るための制御手段を第2の情報
    処理システム内に具備したことを特徴とする情報処理シ
    ステムの障害監視装置と制御方法。 4、主記憶装置を有した少なくとも1つ以上の中央処理
    装置と入出力装置群と、中央処理装置の保守操作用の操
    作卓の機能と中央処理装置のもとで動作するオペレーテ
    ィング・システムのメッセージ表示やコマンドの投入を
    可能とする操作卓の機能を具備した第1の情報処理シス
    テムと遠隔地から該第1の情報処理システムの動作を監
    視制御する第2の情報処理システムの構成において、該
    第1の情報処理システムにて障害が発生し、第2の情報
    処理システムが第1の情報処理システムの障害情報を得
    たときに、第2の情報処理システム内に障害判例を記憶
    する第3の記憶手段と第1の情報処理システムの障害情
    報を第3の記憶手段内の判例と照合する制御手段と照合
    の結果、一致した障害判例が存在したならば、該第1の
    情報処理システムの障害を回復するための処理手順を生
    成する制御手段を具備したことを特徴とする情報処理シ
    ステムの障害監視装置と制御方法。 5、特許請求の範囲第4項記載の第1の情報処理システ
    ムの障害を回復するための処理手順を生成する制御手段
    にて得られた回復の処理手順は、保守員が第1の情報処
    理システムのコンソール・ディスプレイ装置から、回復
    の処理手順参照の旨の指令コマンドを投入することによ
    り、第2の情報処理システムから該回復の処理手順を送
    出する制御手段と、受け取つた回復の処理手順を第1の
    情報処理システムのコンソール・ディスプレイ装置に表
    示する制御手段を具備したことを特徴とする特許請求の
    範囲第4項記載の情報処理システムの障害監視装置と制
    御方法。 6、特許請求の範囲第1項記載の第2の記憶手段の内容
    を、第1の情報処理システムに接続されたコンソール・
    ディスプレイ装置からの指示で変更できる制御手段、ま
    たは第2の情報処理システムからの指示で変更できる制
    御手段を具備したことを特徴とする特許請求の範囲第1
    項記載の情報処理システムの障害監視装置と制御方法。 7、特許請求の範囲第2項記載の障害発生の旨の信号は
    、該第1の情報処理システムのもとで動作している特定
    の監視プログラムがハードウェアの状態を常時検査し、
    その結果、異常を検出したときに該障害発生の旨の信号
    を発生させる命令を実行する制御手段を具備したことを
    特徴とする特許請求の範囲第2項記載の情報処理システ
    ムの障害監視装置と制御方法。 8、特許請求の範囲第2項記載の障害発生の旨の信号は
    、該第1の情報処理システムのもとで動作しているハー
    ドウェアの監視機構がハードウェアの動作状態の異常を
    検出したときに該障害発生の旨の信号を発生させる命令
    を実行する制御手段を具備したことを特徴とする特許請
    求の範囲第2項記載の情報処理システムの障害監視装置
    と制御方法。 9、特許請求の範囲第2項記載のハードウェアの状態を
    読みだす制御手段は、中央処理装置の各処理ユニットに
    対してアドレス付けする制御手段とアドレス付けされた
    各処理ユニットが保持しているハードウェアの状態を専
    用のデータ線を介して受け取る制御手段で成ることを特
    徴とする特許請求の範囲第2項記載の情報処理システム
    の障害監視装置と制御方法。 10、特許請求の範囲第2項記載のハードウェアの状態
    を読みだす制御手段において、主記憶装置に対しては、
    オペレーティング・システムがアクセス出来ない特殊な
    領域のデータも読みだす手段を具備したことを特徴とす
    る特許請求の範囲第2項記載の情報処理システムの障害
    監視装置と制御方法。 11、特許請求の範囲第2項、または第10項記載のハ
    ードウェアの状態を読みだす制御手段において、主記憶
    装置に対しては該主記憶装置内の記憶領域アドレスを送
    出し、対応するデータを得る制御手段で成ることを特徴
    とする特許請求の範囲第2項、または第10項記載の情
    報処理システムの障害監視装置と制御方法。 12、特許請求の範囲第2項、または第10項、または
    第11項記載のハードウェアの状態を読みだす制御手段
    にて読み出されたハードウェアの状態情報を第4の記憶
    手段内に格納する制御手段を具備したことを特徴とする
    特許請求の範囲第2項、または第10項、または第11
    項記載の情報処理システムの障害監視装置と制御方法。 13、特許請求の範囲第1項、または第2項記載の障害
    情報を第2の情報処理システムへ送出するときに、該障
    害情報を編集して送出する制御手段を具備したことを特
    徴とする特許請求の範囲第1項、または第2項記載の情
    報処理システムの障害監視装置と制御方法。14、前項
    記載の編集手段において、第1の記憶手段の内容を編集
    するときには、オペレーティング・システムからのメッ
    セージ・データとコンソール・ディスプレイ装置からの
    コマンド・データのみを抽出する処理ステップでなるこ
    とを特徴とする特許請求の範囲第13項記載の情報処理
    システムの障害監視装置と制御方法。 15、特許請求の範囲第13項記載の編集手段において
    、ハードウェア情報を編集するときには、第4の記憶手
    段の内容を編集する制御手段と主記憶装置の内容を編集
    するときには同一のデータが連続するとその旨を印すデ
    ータに置換する処理ステップでなることを特徴とする特
    許請求の範囲第13項記載の情報処理システムの障害監
    視装置と制御方法。 16、特許請求の範囲第4項記載の第3の記憶手段には
    、障害発生の現象と原因、回復履歴を記憶していること
    を特徴とする特許請求の範囲第4項記載の情報処理シス
    テムの障害監視装置と制御方法。 17、特許請求の範囲第4項記載の第3の記憶手段と照
    合した結果、一致した判例が見当らないときには、新た
    な障害判例として該障害発生の現象を第3の記憶手段内
    に追加して記憶させる制御手段を具備したことを特徴と
    する特許請求の範囲第4項記載の情報処理システムの障
    害監視装置と制御方法。 18、特許請求の範囲第4項記載の第3の記憶手段と照
    合した結果、一致した判例が見当らないときには、後に
    、保守員が第1の情報処理システムのコンソール・ディ
    スプレイ装置から回復の処理手順参照の旨の指令コマン
    ドを投入したときに、判例が見当らない旨を表示する制
    御手段と該第1の記憶手段と第4の記憶手段の内容をコ
    ンソール・ディスプレイ装置に表示する処理手段を具備
    したことを特徴とする特許請求の範囲第5項記載の情報
    処理システムの障害監視装置と制御方法。 19、特許請求の範囲第17項記載の第3の記憶手段と
    照合した結果、一致した判例が見当らなく、かつ、後に
    該障害の原因と回復手順が判明したときには、該障害の
    原因と回復手順を障害の現象に対応させて第3の記憶手
    段内で修正して記憶させる制御手段を具備したことを特
    徴とする特許請求の範囲第17項記載の情報処理システ
    ムの障害監視装置と制御方法。 20、特許請求の範囲第4項記載の第3の記憶手段と照
    合した結果、一致した判例が見当らないときには、第2
    の情報処理システムの表示出力装置に、第1の記憶手段
    と第4の記憶手段から得た障害情報を表示出力する処理
    手段を具備したことを特徴とする特許請求の範囲第5項
    記載の情報処理システムの障害監視装置と制御方法。 21、主記憶装置を有した少なくとも1つ以上の中央処
    理装置と入出力装置群と、中央処理装置の保守操作用の
    操作卓の機能と中央処理装置のもとで動作するオペレー
    ティング・システムのメッセージ表示やコマンドの投入
    を可能とする操作卓の機能を具備した第1の情報処理シ
    ステムと遠隔地から該第1の情報処理システムの動作を
    監視制御する第2の情報処理システムの構成において、
    該第1の情報処理システムにて障害が発生し、第2の情
    報処理システムが第1の情報処理システムの障害情報を
    得たときに、第2の情報処理システム内に障害判例を記
    憶する第3の記憶手段と第1の情報処理システムの障害
    情報を第3の記憶手段内の判例と照合する制御手段と照
    合の結果、一致した障害判例が存在したならば、該第1
    の情報処理システムの障害を回復するための処理手順を
    生成する制御手段と該障害を回復するための手順を第1
    の情報処理システムを監視している制御装置へ転送する
    制御手段と第1の情報処理システムを監視している制御
    装置は該回復するための処理手順にもとづいて第1の情
    報処理システムを再起動する制御手順を具備したことを
    特徴とする情報処理システムの障害監視装置と制御方法
    。 22、主記憶装置を有した少なくとも1つ以上の中央処
    理装置と入出力装置群と、中央処理装置の保守操作用の
    操作卓の機能と中央処理装置のもとで動作するオペレー
    ティング・システムのメッセージ表示やコマンドの投入
    を可能とする操作卓の機能を具備した第1の情報処理シ
    ステムと遠隔地から該第1の情報処理システムの動作を
    監視制御する第2の情報処理システムの構成において、
    第2の情報処理システムは複数の第1の情報処理システ
    ムの動作を監視制御できる制御手段を具備したことを特
    徴とする特許請求の範囲第1項、または第2項、または
    第3項、または第4項、または第21項記載の情報処理
    システムの障害監視装置と制御方法。
JP1288917A 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法 Expired - Lifetime JP2804125B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1288917A JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法
US07/613,384 US5237677A (en) 1989-11-08 1990-11-06 Monitoring and controlling system and method for data processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1288917A JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法

Publications (2)

Publication Number Publication Date
JPH03150643A true JPH03150643A (ja) 1991-06-27
JP2804125B2 JP2804125B2 (ja) 1998-09-24

Family

ID=17736470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1288917A Expired - Lifetime JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法

Country Status (2)

Country Link
US (1) US5237677A (ja)
JP (1) JP2804125B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0528010A (ja) * 1991-07-19 1993-02-05 Hitachi Ltd ソフトウエアバグ原因推論方法及びエキスパートシス テム
JPH0561723A (ja) * 1991-08-30 1993-03-12 Nec Corp 遠隔保守システム
US5479599A (en) * 1993-04-26 1995-12-26 International Business Machines Corporation Computer console with group ICON control
EP0563612A3 (en) * 1992-03-30 1996-03-13 Siemens Ag Method for localization of faults in electronic control units
JPH09106360A (ja) * 1995-10-11 1997-04-22 Nec Corp 警報通知装置
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
JP2006085644A (ja) * 2004-09-17 2006-03-30 Nomura Research Institute Ltd コンピュータ稼働状況取得システム、方法及びプログラム
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
EP2015183A2 (en) 2007-06-08 2009-01-14 Canon Kabushiki Kaisha Image-forming apparatus and information-processing method
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2010087906A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd 通信装置

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475625A (en) * 1991-01-16 1995-12-12 Siemens Nixdorf Informationssysteme Aktiengesellschaft Method and arrangement for monitoring computer manipulations
US5687313A (en) * 1991-03-14 1997-11-11 Hitachi, Ltd. Console apparatus for information processing system
JPH0536259A (ja) * 1991-07-27 1993-02-12 Sony Corp 電子機器
JPH0815277B2 (ja) * 1991-08-09 1996-02-14 インターナショナル・ビジネス・マシーンズ・コーポレイション パフォーマンス測定値を得るためのシステムおよび方法
US5548720A (en) * 1992-05-19 1996-08-20 Fujitsu Limited Fault supervision method for transmission apparatus
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法
US5732212A (en) * 1992-10-23 1998-03-24 Fox Network Systems, Inc. System and method for remote monitoring and operation of personal computers
US20020091850A1 (en) 1992-10-23 2002-07-11 Cybex Corporation System and method for remote monitoring and operation of personal computers
US5544077A (en) * 1994-01-19 1996-08-06 International Business Machines Corporation High availability data processing system and method using finite state machines
JPH07222269A (ja) * 1994-01-31 1995-08-18 Fujitsu Ltd 通報装置
FR2715747B1 (fr) * 1994-02-01 1996-03-01 Aerospatiale Procédé et dispositif pour rechercher des messages de maintenance intempestifs.
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
US5673386A (en) * 1994-06-29 1997-09-30 U S West Technologies, Inc. Method and system for identification of software application faults
US5513351A (en) * 1994-07-28 1996-04-30 International Business Machines Corporation Protecting a system during system maintenance by usage of temporary filenames in an alias table
JPH08286989A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd ネットワーク管理システム
JPH08286984A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd 障害情報通知システム
TW292365B (en) * 1995-05-31 1996-12-01 Hitachi Ltd Computer management system
US5819024A (en) * 1995-07-11 1998-10-06 Hitachi, Ltd. Fault analysis system
JPH09102970A (ja) * 1995-10-05 1997-04-15 Sony Corp 映像音声機器エラー監視システム
US5812758A (en) * 1995-11-09 1998-09-22 The United States Of America As Represented By The Secretary Of The Navy System level aid for troubleshooting (SLAT)
JP3555047B2 (ja) * 1995-12-20 2004-08-18 株式会社日立製作所 複合コンピュータシステム
JP2959474B2 (ja) * 1996-06-28 1999-10-06 日本電気株式会社 物理実装位置情報処理方式
US5928369A (en) * 1996-06-28 1999-07-27 Synopsys, Inc. Automatic support system and method based on user submitted stack trace
US5790780A (en) * 1996-07-16 1998-08-04 Electronic Data Systems Corporation Analysis of failures in a computing environment
US6108637A (en) 1996-09-03 2000-08-22 Nielsen Media Research, Inc. Content display monitor
US5835698A (en) * 1996-09-20 1998-11-10 Novell, Inc. Unilaterally-controlled, time-insensitive, data-link recovery apparatus and method
US5892898A (en) * 1996-10-04 1999-04-06 Honeywell, Inc. Error management system for supporting the identification and logging of error messages
US6000040A (en) * 1996-10-29 1999-12-07 Compaq Computer Corporation Method and apparatus for diagnosing fault states in a computer system
US6499108B1 (en) 1996-11-19 2002-12-24 R. Brent Johnson Secure electronic mail system
US6578146B2 (en) 1996-11-19 2003-06-10 R. Brent Johnson System, method and article of manufacture to remotely configure and utilize an emulated device controller via an encrypted validation communication protocol
US5970149A (en) * 1996-11-19 1999-10-19 Johnson; R. Brent Combined remote access and security system
US5796952A (en) * 1997-03-21 1998-08-18 Dot Com Development, Inc. Method and apparatus for tracking client interaction with a network resource and creating client profiles and resource database
US6643696B2 (en) 1997-03-21 2003-11-04 Owen Davis Method and apparatus for tracking client interaction with a network resource and creating client profiles and resource database
DE19827431C2 (de) * 1997-07-22 2000-12-07 Siemens Ag Verfahren zur Fehlererkennung in einem Prozessorsystem
US6178528B1 (en) * 1997-09-18 2001-01-23 Intel Corporation Method and apparatus for reporting malfunctioning computer system
US6275855B1 (en) 1997-11-02 2001-08-14 R. Brent Johnson System, method and article of manufacture to enhance computerized alert system information awareness and facilitate real-time intervention services
JP3782568B2 (ja) * 1997-12-25 2006-06-07 富士通株式会社 メッセージ対処装置
US6088804A (en) * 1998-01-12 2000-07-11 Motorola, Inc. Adaptive system and method for responding to computer network security attacks
US6549932B1 (en) 1998-06-03 2003-04-15 International Business Machines Corporation System, method and computer program product for discovery in a distributed computing environment
CA2345084C (en) 1998-09-22 2004-11-02 Cybex Computer Products Corporation System for accessing personal computers remotely
AUPQ206399A0 (en) 1999-08-06 1999-08-26 Imr Worldwide Pty Ltd. Network user measurement system and method
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
WO2001052462A2 (en) 2000-01-12 2001-07-19 Jupiter Media Metrix, Inc. System and method for estimating prevalence of digital content on the world-wide-web
US6785848B1 (en) * 2000-05-15 2004-08-31 Microsoft Corporation Method and system for categorizing failures of a program module
US6665824B1 (en) * 2000-05-15 2003-12-16 Microsoft Corporation System and method for handling a failure reporting conversation
US7318147B2 (en) * 2000-12-07 2008-01-08 International Business Machines Corporation Method for delaying and executing system administration operations in unattended mode
US7389341B2 (en) * 2001-01-31 2008-06-17 Accenture Llp Remotely monitoring a data processing system via a communications network
US8176137B2 (en) * 2001-01-31 2012-05-08 Accenture Global Services Limited Remotely managing a data processing system via a communications network
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
JP2003030141A (ja) * 2001-07-13 2003-01-31 Hitachi Ltd 協調型アウトソーシング・サービス・システム
US7293179B2 (en) * 2001-08-01 2007-11-06 Johnson R Brent System and method for virtual tape management with remote archival and retrieval via an encrypted validation communication protocol
EP1286265A3 (en) * 2001-08-10 2008-05-28 Sun Microsystems, Inc. Console connection
US20030093516A1 (en) * 2001-10-31 2003-05-15 Parsons Anthony G.J. Enterprise management event message format
US7159146B2 (en) * 2002-05-14 2007-01-02 Sun Microsystems, Inc. Analyzing system error messages
US8271778B1 (en) 2002-07-24 2012-09-18 The Nielsen Company (Us), Llc System and method for monitoring secure data on a network
US9237514B2 (en) * 2003-02-28 2016-01-12 Apple Inc. System and method for filtering access points presented to a user and locking onto an access point
US9197668B2 (en) * 2003-02-28 2015-11-24 Novell, Inc. Access control to files based on source information
US8020192B2 (en) * 2003-02-28 2011-09-13 Michael Wright Administration of protection of data accessible by a mobile device
US20080109679A1 (en) * 2003-02-28 2008-05-08 Michael Wright Administration of protection of data accessible by a mobile device
US20040215742A1 (en) * 2003-03-04 2004-10-28 Soronti, Inc. Image perfection for virtual presence architecture (VPA)
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
KR100862407B1 (ko) * 2004-07-06 2008-10-08 인텔 코오퍼레이션 에러를 검출하고 잠재적 고장을 예상하는 시스템 및 방법
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
US8499337B1 (en) 2004-10-06 2013-07-30 Mcafee, Inc. Systems and methods for delegation and notification of administration of internet access
US7624305B2 (en) * 2004-11-18 2009-11-24 International Business Machines Corporation Failure isolation in a communication system
JP4357433B2 (ja) * 2005-02-15 2009-11-04 株式会社日立製作所 ストレージシステム
DE102005040822A1 (de) 2005-08-24 2007-03-15 Siemens Ag Verfahren zur Systemdiagnose in technischen Systemen
US7996255B1 (en) * 2005-09-29 2011-08-09 The Mathworks, Inc. System and method for providing sales leads based on-demand software trial usage
US7752468B2 (en) * 2006-06-06 2010-07-06 Intel Corporation Predict computing platform memory power utilization
US7617423B2 (en) * 2006-08-14 2009-11-10 Kyocera Corporation System and method for detecting, reporting, and repairing of software defects for a wireless device
US7934993B2 (en) * 2006-10-16 2011-05-03 Igt Secure progressive controller
US7676695B2 (en) * 2007-06-05 2010-03-09 Compuware Corporation Resolution of computer operations problems using fault trend analysis
US8306200B2 (en) 2008-07-17 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for processing of a toll free call service alarm
US8363790B2 (en) * 2008-07-17 2013-01-29 At&T Intellectual Property I, L.P. Method and apparatus for providing automated processing of a switched voice service alarm
JP2011258055A (ja) * 2010-06-10 2011-12-22 Fujitsu Ltd 情報処理システム及び情報処理システムの障害処理方法
US9143517B2 (en) * 2013-01-31 2015-09-22 Hewlett-Packard Development Company, L.P. Threat exchange information protection
US20140379421A1 (en) 2013-06-25 2014-12-25 The Nielsen Company (Us), Llc Methods and apparatus to characterize households with media meter data
US9277265B2 (en) 2014-02-11 2016-03-01 The Nielsen Company (Us), Llc Methods and apparatus to calculate video-on-demand and dynamically inserted advertisement viewing probability
US10219039B2 (en) 2015-03-09 2019-02-26 The Nielsen Company (Us), Llc Methods and apparatus to assign viewers to media meter data
US9848224B2 (en) 2015-08-27 2017-12-19 The Nielsen Company(Us), Llc Methods and apparatus to estimate demographics of a household
US10791355B2 (en) 2016-12-20 2020-09-29 The Nielsen Company (Us), Llc Methods and apparatus to determine probabilistic media viewing metrics
US11449407B2 (en) 2020-05-28 2022-09-20 Bank Of America Corporation System and method for monitoring computing platform parameters and dynamically generating and deploying monitoring packages
CN118894336B (zh) * 2024-07-30 2025-10-10 福建龙净环保股份有限公司 一种输送机故障回溯系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56149655A (en) * 1980-04-21 1981-11-19 Mitsubishi Paper Mills Ltd Detecting method of desired phenomenon in electronic computer system
JPS614345A (ja) * 1984-06-18 1986-01-10 Konishiroku Photo Ind Co Ltd デ−タの圧縮伝送方法
JPS61175835A (ja) * 1985-01-31 1986-08-07 Toshiba Corp 情報処理システム
JPS6312037A (ja) * 1986-07-02 1988-01-19 Nec Corp 診断装置付電子計算機システム
JPS6358551A (ja) * 1986-08-29 1988-03-14 Hitachi Ltd 遠隔保守方式
JPS63250746A (ja) * 1987-04-07 1988-10-18 Nec Corp 障害自動通報方式
JPS63292249A (ja) * 1987-05-25 1988-11-29 Fujitsu Ltd ダンプ処理方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1536046A (en) * 1976-06-30 1978-12-20 Ibm Data processing system power control
JPS5856158A (ja) * 1981-09-30 1983-04-02 Fujitsu Ltd 遠隔保守方式
JPS61148542A (ja) * 1984-12-24 1986-07-07 Nec Corp デ−タ処理装置の保守方式
JPH01180645A (ja) * 1988-01-13 1989-07-18 Hitachi Ltd 保守診断機構の自動検証方式
US5119377A (en) * 1989-06-16 1992-06-02 International Business Machines Corporation System and method for software error early detection and data capture
US5067129A (en) * 1989-08-16 1991-11-19 International Business Machines Corp. Service processor tester

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56149655A (en) * 1980-04-21 1981-11-19 Mitsubishi Paper Mills Ltd Detecting method of desired phenomenon in electronic computer system
JPS614345A (ja) * 1984-06-18 1986-01-10 Konishiroku Photo Ind Co Ltd デ−タの圧縮伝送方法
JPS61175835A (ja) * 1985-01-31 1986-08-07 Toshiba Corp 情報処理システム
JPS6312037A (ja) * 1986-07-02 1988-01-19 Nec Corp 診断装置付電子計算機システム
JPS6358551A (ja) * 1986-08-29 1988-03-14 Hitachi Ltd 遠隔保守方式
JPS63250746A (ja) * 1987-04-07 1988-10-18 Nec Corp 障害自動通報方式
JPS63292249A (ja) * 1987-05-25 1988-11-29 Fujitsu Ltd ダンプ処理方式

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0528010A (ja) * 1991-07-19 1993-02-05 Hitachi Ltd ソフトウエアバグ原因推論方法及びエキスパートシス テム
JPH0561723A (ja) * 1991-08-30 1993-03-12 Nec Corp 遠隔保守システム
EP0563612A3 (en) * 1992-03-30 1996-03-13 Siemens Ag Method for localization of faults in electronic control units
US5479599A (en) * 1993-04-26 1995-12-26 International Business Machines Corporation Computer console with group ICON control
JPH09106360A (ja) * 1995-10-11 1997-04-22 Nec Corp 警報通知装置
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2006085644A (ja) * 2004-09-17 2006-03-30 Nomura Research Institute Ltd コンピュータ稼働状況取得システム、方法及びプログラム
EP2015183A2 (en) 2007-06-08 2009-01-14 Canon Kabushiki Kaisha Image-forming apparatus and information-processing method
US8051379B2 (en) 2007-06-08 2011-11-01 Canon Kabushiki Kaisha System, apparatus, method and computer readable storage medium for displaying information related to an image-forming apparatus connected to a network
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2010087906A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd 通信装置

Also Published As

Publication number Publication date
US5237677A (en) 1993-08-17
JP2804125B2 (ja) 1998-09-24

Similar Documents

Publication Publication Date Title
JPH03150643A (ja) 情報処理システムの障害監視装置と制御方法
US6012148A (en) Programmable error detect/mask utilizing bus history stack
EP0767591A2 (en) Error monitoring of video/audio devices
CN119718760A (zh) 缓存数据清理的方法及装置、电子设备和存储介质
JPH08221295A (ja) 障害支援装置
US20080005397A1 (en) Path maintenance mechanism
JPH02266429A (ja) コンソール装置の監視方法及び情報処理システムのコンソール制御方法
EP0632381B1 (en) Fault-tolerant computer systems
JPH10312321A (ja) オンラインシステム障害解析方法
CN118981182B (zh) 一种plc控制器功能模块数据处理方法及系统
EP0320876B1 (en) Fault information collection processing system
US6748430B1 (en) System, method and article of manufacture for observing and evaluating current and past computer platform performance information
JP2012027839A (ja) コマンド実行結果の異常検知システム及び方法
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
JPH04257035A (ja) 仮想計算機システム配下における障害情報処理方式
JP3480886B2 (ja) コントローラの故障解析装置
JPH11188584A (ja) 稼動管理装置および稼動管理方法、記憶媒体
JP2000261868A (ja) 設備機器管理装置
CN1801015B (zh) 生产线数据自动采集及对应系统和方法
JP2001337189A (ja) プラント制御装置およびその試験システム
JP2559771B2 (ja) 回線ロギング自動停止制御方式
JP3533191B2 (ja) 店舗pos端末装置の保守システム
TWM676066U (zh) 機台運行狀態智慧監控平台
JPH06125389A (ja) リモート保守装置
JPS59226998A (ja) デ−タ伝送装置