JPH0433035A - エラー監視方式 - Google Patents
エラー監視方式Info
- Publication number
- JPH0433035A JPH0433035A JP2134418A JP13441890A JPH0433035A JP H0433035 A JPH0433035 A JP H0433035A JP 2134418 A JP2134418 A JP 2134418A JP 13441890 A JP13441890 A JP 13441890A JP H0433035 A JPH0433035 A JP H0433035A
- Authority
- JP
- Japan
- Prior art keywords
- error
- erp
- recovery procedure
- code
- statistical information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概要〕
入出力動作時に発生した装置の誤りに対して、その解析
と回復を試みるエラー回復手順(ERP)機構を備えた
計算機システムで発生したエラーを監視する方式に関し
、 人手を介することなく、容易に障害箇所を切り分けるこ
とができ、且つ、計算機システムの故障。
と回復を試みるエラー回復手順(ERP)機構を備えた
計算機システムで発生したエラーを監視する方式に関し
、 人手を介することなく、容易に障害箇所を切り分けるこ
とができ、且つ、計算機システムの故障。
障害を的確に修復することができるエラー監視方式を提
供することを目的とし、 システム構成定義テーブルと、該計算機システムのハー
ドウェアが作成するエラー回復手順コード(ERPコー
ド)ごとに、被疑箇所の重み付けを行い、重み付けの大
きい方を上位の次元とし、該重み付けの小さい方を下位
の次元として管理すると共に、該重み付けされた被疑箇
所に対応して、エラー監視時間を複数設定し、該設定し
た複数個のエラー監視時間に対応して、閾値制御を行う
為のエラー発生回数を設定した閾値制御テーブルと、上
記重み付けされた被疑箇所の個数分のエラー発生の回数
を、重み付け別に記憶する統計情報テーブルとを設けて
、入出力動作時にエラーが発生したとき、上記エラー回
復手順(ERP)機構が生成。
供することを目的とし、 システム構成定義テーブルと、該計算機システムのハー
ドウェアが作成するエラー回復手順コード(ERPコー
ド)ごとに、被疑箇所の重み付けを行い、重み付けの大
きい方を上位の次元とし、該重み付けの小さい方を下位
の次元として管理すると共に、該重み付けされた被疑箇
所に対応して、エラー監視時間を複数設定し、該設定し
た複数個のエラー監視時間に対応して、閾値制御を行う
為のエラー発生回数を設定した閾値制御テーブルと、上
記重み付けされた被疑箇所の個数分のエラー発生の回数
を、重み付け別に記憶する統計情報テーブルとを設けて
、入出力動作時にエラーが発生したとき、上記エラー回
復手順(ERP)機構が生成。
出力したエラー回復手順(ERP)コードと、エラー発
生装置アドレスと、上記システム構成定義テーブルとに
基づいてエラー発生装置を識別し、上記エラー回復手順
(ERP)機構が生成、出力したエラー回復手順(ER
P)コードと、エラー発生装置アドレスとをキーとして
、上記閾値制御テーブルと。
生装置アドレスと、上記システム構成定義テーブルとに
基づいてエラー発生装置を識別し、上記エラー回復手順
(ERP)機構が生成、出力したエラー回復手順(ER
P)コードと、エラー発生装置アドレスとをキーとして
、上記閾値制御テーブルと。
統計情報テーブルとを参照して、上記統計情報テーブル
の対応する箇所のエラー回数を更新し、該更新されたエ
ラー回数が、上記閾値制御テーブルに設定されている閾
値を越えている場合には、エラー通知を行うように構成
する。
の対応する箇所のエラー回数を更新し、該更新されたエ
ラー回数が、上記閾値制御テーブルに設定されている閾
値を越えている場合には、エラー通知を行うように構成
する。
本発明は、入出力動作時に発生した装置の誤りに対して
、その解析と回復を試みるエラー回復手順(ERP)機
構を備えた計算機システムで発生したエラーを監視する
方式に関する。
、その解析と回復を試みるエラー回復手順(ERP)機
構を備えた計算機システムで発生したエラーを監視する
方式に関する。
信転性の高い計算機システムのニーズが高まっている近
年では、システムの故障・障害を未然に防ぐこと、即ち
、間欠障害の発生回数がトータルして規定回数以上発生
する場合、回復が可能であっても、致命的な故障に至る
前に保守を行うことが重要になってきている。
年では、システムの故障・障害を未然に防ぐこと、即ち
、間欠障害の発生回数がトータルして規定回数以上発生
する場合、回復が可能であっても、致命的な故障に至る
前に保守を行うことが重要になってきている。
又、発生したエラー事象から、保守員に対して被疑部品
(ユニット、装置等)の通知を行うことで障害の修復時
間を短縮することができる。
(ユニット、装置等)の通知を行うことで障害の修復時
間を短縮することができる。
このようなことから、入出力動作に関連したエラーの発
生に対して、効果的に、保守員に対して被疑部品の通知
を行うことができるエラー監視方式が必要とされる。
生に対して、効果的に、保守員に対して被疑部品の通知
を行うことができるエラー監視方式が必要とされる。
〔従来の技術と発明が解決しようとする課題〕第3図は
従来のエラー監視方式を説明する図である。
従来のエラー監視方式を説明する図である。
従来、O3(オペレーティング・システム)稼働中に、
入出力動作に関連するハードウェアエラーが発生すると
、保守員がテストプログラムを起動してエラーリストを
解析したり、出力されたログ編集リストを目で見て障害
箇所の切り分けを行い部品交換の判断を行っていた。
入出力動作に関連するハードウェアエラーが発生すると
、保守員がテストプログラムを起動してエラーリストを
解析したり、出力されたログ編集リストを目で見て障害
箇所の切り分けを行い部品交換の判断を行っていた。
このため、エラー発生要因と被疑箇所が1対n。
すなわち一つのエラー発生要因に対して複数の被疑箇所
が考えられる場合、被疑箇所を特定することは困難であ
った。
が考えられる場合、被疑箇所を特定することは困難であ
った。
又、ソフトウェアの回復処理によって訂正が可能であり
、その発生回数を監視する必要のあるエラーの発生頻度
は、短時間で多数発生する場合や一定間隔を置いて発生
する場合など様々であり、特定の一定間隔(例えば、3
0分)に、閾値として定められている閾値を越えるエラ
ー発生回数を検出して、被疑箇所を特定するという、所
謂、しきい値制御をすることが困難であった。
、その発生回数を監視する必要のあるエラーの発生頻度
は、短時間で多数発生する場合や一定間隔を置いて発生
する場合など様々であり、特定の一定間隔(例えば、3
0分)に、閾値として定められている閾値を越えるエラ
ー発生回数を検出して、被疑箇所を特定するという、所
謂、しきい値制御をすることが困難であった。
本発明は上記従来の欠点に鑑み、入出力動作時に発生し
た装置の誤りに対して、その解析と回復を試みるエラー
回復手順(ERP)機構を備えた計算機システムで発生
したエラーに対して、人手を介することなく、容易に障
害箇所を切り分けることができ、且つ、計算機システム
の故障、障害を的確に修復することができるエラー監視
方式を提供することを目的とするものである。
た装置の誤りに対して、その解析と回復を試みるエラー
回復手順(ERP)機構を備えた計算機システムで発生
したエラーに対して、人手を介することなく、容易に障
害箇所を切り分けることができ、且つ、計算機システム
の故障、障害を的確に修復することができるエラー監視
方式を提供することを目的とするものである。
第1図は本発明の原理説明図であって、(a)は原理構
成図を示し、(b)はエラー監視処理フローの概要を示
している。
成図を示し、(b)はエラー監視処理フローの概要を示
している。
上記の問題点は下記の如くに構成したエラー監視方式に
よって解決される。
よって解決される。
入出力動作時に発生した装置のエラーに対して、その解
析と回復を試みるエラー回復手順(ERP)機構を備え
た計算機システムで発生したエラーを監視する方式であ
って、 システム構成定義テーブルlと。
析と回復を試みるエラー回復手順(ERP)機構を備え
た計算機システムで発生したエラーを監視する方式であ
って、 システム構成定義テーブルlと。
該計算機システムのハードウェアが作成するエラー回復
手順コード(ERPコード)ごとに、被疑箇所の重み付
けを行い、重み付けの大きい方を上位の次元とし、該重
み付けの小さい方を下位の次元として管理すると共に、
該重み付けされた被疑箇所に対応して、エラー監視時間
を複数設定し、該設定した複数個のエラー監視時間に対
応して、閾値制御を行う為のエラー発生回数を設定した
閾値制御テーブル2と。
手順コード(ERPコード)ごとに、被疑箇所の重み付
けを行い、重み付けの大きい方を上位の次元とし、該重
み付けの小さい方を下位の次元として管理すると共に、
該重み付けされた被疑箇所に対応して、エラー監視時間
を複数設定し、該設定した複数個のエラー監視時間に対
応して、閾値制御を行う為のエラー発生回数を設定した
閾値制御テーブル2と。
上記重み付けされた被疑箇所の個数分のエラー発生の回
数を、重み付け別に記憶する統計情報テーブル3,3a
+3bとを設けて、 入出力動作時にエラーが発生したとき、上記エラー回復
手順(ERP)機構が生成、出力したエラー回復手順(
ERP)コードと、エラー発生装置アドレスと、上記シ
ステム構成定義テーブル1とに基づいてエラー発生装置
を識別し、 上記エラー回復手順(ERP)機構が生成、出力したエ
ラー回復手順(ERP)コードと、エラー発生装置アド
レスとをキーとして、上記HM制御テーブル2と、統計
情報テーブル3.3a、3bとを参照して、上記統計情
報テーブル3,3a、3bの対応する箇所のエラー回数
を更新し、 該更新されたエラー回数が、上記閾値制御テーブル2に
設定されている閾値を越えている場合には、エラー通知
を行うように構成する。
数を、重み付け別に記憶する統計情報テーブル3,3a
+3bとを設けて、 入出力動作時にエラーが発生したとき、上記エラー回復
手順(ERP)機構が生成、出力したエラー回復手順(
ERP)コードと、エラー発生装置アドレスと、上記シ
ステム構成定義テーブル1とに基づいてエラー発生装置
を識別し、 上記エラー回復手順(ERP)機構が生成、出力したエ
ラー回復手順(ERP)コードと、エラー発生装置アド
レスとをキーとして、上記HM制御テーブル2と、統計
情報テーブル3.3a、3bとを参照して、上記統計情
報テーブル3,3a、3bの対応する箇所のエラー回数
を更新し、 該更新されたエラー回数が、上記閾値制御テーブル2に
設定されている閾値を越えている場合には、エラー通知
を行うように構成する。
〔作用]
即ち、本発明によれば、第1図(a)に示したように、
入出力動作時に発生した装置の誤りに対して、その解析
と回復を試みるエラー回復手順(ERP) m構を備え
た計算機システムで発生したエラーを監視するのに、シ
ステム構成定義テーブルと。
入出力動作時に発生した装置の誤りに対して、その解析
と回復を試みるエラー回復手順(ERP) m構を備え
た計算機システムで発生したエラーを監視するのに、シ
ステム構成定義テーブルと。
エラー回復手順(ERP)コード(以下、ERPコード
という)と9例えば、上位装置か/下位装置かに対応し
て重み付けが施された被疑箇所と複数監視時間単位の閾
値が定義されているサブシステム単位の閾値制御テーブ
ルを基に、エラー発生装置がどのサブシステムに属する
かを判別する手段と。
という)と9例えば、上位装置か/下位装置かに対応し
て重み付けが施された被疑箇所と複数監視時間単位の閾
値が定義されているサブシステム単位の閾値制御テーブ
ルを基に、エラー発生装置がどのサブシステムに属する
かを判別する手段と。
上記重み(次元)の個数分の統計情報テーブルを作成し
、各被疑箇所単位に障害発生回数等を管理する手段と、
該指定監視時間内のエラー発生頻度をチエツクする手段
とを設けて、以下のようにエラー監視を行う。
、各被疑箇所単位に障害発生回数等を管理する手段と、
該指定監視時間内のエラー発生頻度をチエツクする手段
とを設けて、以下のようにエラー監視を行う。
即ち、(b)図に示したように、先ず、O3稼働中にハ
ードウェア障害が発生すると、O3はエラーログ情報を
組み立て、これをエラーロギングファイルに記録する。
ードウェア障害が発生すると、O3はエラーログ情報を
組み立て、これをエラーロギングファイルに記録する。
この事象を契機に制御部はERPコードとエラー発生装
置アドレスを引数としてログ解析部を呼び出す。
置アドレスを引数としてログ解析部を呼び出す。
ログ解析部は、システム構成定義テーブルを基に、この
装置がどのサブシステムに属するかを判別し、統計ファ
イルから統計情報(多重次元)をメモリ上に読み込む。
装置がどのサブシステムに属するかを判別し、統計ファ
イルから統計情報(多重次元)をメモリ上に読み込む。
そして、制御部から引き渡されたERPコードとエラー
発生装置アドレスをキーとして、当該サブシステムの閾
値制御テーブルと、統計情報テーブル(多重次元)のデ
ータを基に時間監視制御および被疑箇所の重み付けを特
徴とした閾値制御を行い、統計情報テーブルを更新し、
これを統計ファイルに書き込む。
発生装置アドレスをキーとして、当該サブシステムの閾
値制御テーブルと、統計情報テーブル(多重次元)のデ
ータを基に時間監視制御および被疑箇所の重み付けを特
徴とした閾値制御を行い、統計情報テーブルを更新し、
これを統計ファイルに書き込む。
装置で発生したERPコード別のエラー発生回数が、上
記閾値制御テーブルに定義されている閾値を超えた場合
はメツセージを出力し、オペレータに被疑箇所(装置)
の交換を依願する。又、該閾値制御を必要としない「無
条件交換」のエラーに対しても、同様に、被疑装置のメ
ツセージを出力し、該閾値制御テーブルが、複数個の被
疑箇所を指示している場合には、ハードウェアの生成す
る装置アドレスに応じて、次に重みの大きい(即ち。
記閾値制御テーブルに定義されている閾値を超えた場合
はメツセージを出力し、オペレータに被疑箇所(装置)
の交換を依願する。又、該閾値制御を必要としない「無
条件交換」のエラーに対しても、同様に、被疑装置のメ
ツセージを出力し、該閾値制御テーブルが、複数個の被
疑箇所を指示している場合には、ハードウェアの生成す
る装置アドレスに応じて、次に重みの大きい(即ち。
二次の)被疑箇所を求めるように動作する。
即ち、本発明においては、入出力動作中にエラーが発生
したとき、ハードウェアが生成して出力するERPコー
ド毎に、該装置が上位にあるか、下位にあるかに応じて
重み付けされた被疑箇所と、該被疑箇所を交換した方が
よいことを指示する閾値(監視時間対応)とがテーブル
の形で用意されており、且つ、該被疑箇所毎のエラー発
生回数(上記監視時間対応)を計数して、統計情報テー
ブルとして管理されているので、エラーが発生したとき
、該出力されたERPコードと、エラー発生装置アドレ
スを基に、被疑装置を特定でき、且つ、該被疑装置の今
迄のエラー発生回数が閾値を越えていると認識されたと
き、該被疑装置の交換が適当と判断して、自動的に、該
被疑装置の交換を保守者に指示することができ、システ
ムの故障・障害を、予防保全の形で的確に修復すること
ができるという効果がある。
したとき、ハードウェアが生成して出力するERPコー
ド毎に、該装置が上位にあるか、下位にあるかに応じて
重み付けされた被疑箇所と、該被疑箇所を交換した方が
よいことを指示する閾値(監視時間対応)とがテーブル
の形で用意されており、且つ、該被疑箇所毎のエラー発
生回数(上記監視時間対応)を計数して、統計情報テー
ブルとして管理されているので、エラーが発生したとき
、該出力されたERPコードと、エラー発生装置アドレ
スを基に、被疑装置を特定でき、且つ、該被疑装置の今
迄のエラー発生回数が閾値を越えていると認識されたと
き、該被疑装置の交換が適当と判断して、自動的に、該
被疑装置の交換を保守者に指示することができ、システ
ムの故障・障害を、予防保全の形で的確に修復すること
ができるという効果がある。
以下本発明の実施例を図面によって詳述する。
前述の第1図は本発明の詳細な説明する図であり、第2
図は本発明の一実施例を示した図であって、(a)は閾
値制御テーブルの構成例を示し、(bl)〜(b3)は
統計情報テーブルの構成例を示し、(C1) 、 (C
2)は磁気テープ(MT)サブシステムにおける閾値制
御の詳細処理フローを示している。
図は本発明の一実施例を示した図であって、(a)は閾
値制御テーブルの構成例を示し、(bl)〜(b3)は
統計情報テーブルの構成例を示し、(C1) 、 (C
2)は磁気テープ(MT)サブシステムにおける閾値制
御の詳細処理フローを示している。
本発明においては、システム構成定義テーブル1と、
ERPコード毎に閾値条件と、上位装置、下位装置に応
じて重み付けされた被疑箇所を指示する閾値制御テーブ
ル2と、 ERPコード毎に、且つ、上記閾値条件毎に
、被疑箇所に発生したエラーの回数を記録する統計情報
テーブル3,3a、3bとを設けて、入出力動作中にエ
ラーが発生したとき、上記システム構成定義テーブル1
を参照して、被疑箇所(サブシステム)を特定し、更に
、閾値制御テーブル2と、統計情報テーブル3,3a、
3bを参照し、統計情報テーブル3.3a、3b上に記
録されているエラー発生の回数が、上記閾値制御テーブ
ル2が指示している閾値を越えている被疑箇所、或いは
、無条件交換の被疑箇所に対して交換を指示する手段が
本発明を実施するのに必要な手段である。尚、全図を通
して同じ符号は同じ対象物を示している。
ERPコード毎に閾値条件と、上位装置、下位装置に応
じて重み付けされた被疑箇所を指示する閾値制御テーブ
ル2と、 ERPコード毎に、且つ、上記閾値条件毎に
、被疑箇所に発生したエラーの回数を記録する統計情報
テーブル3,3a、3bとを設けて、入出力動作中にエ
ラーが発生したとき、上記システム構成定義テーブル1
を参照して、被疑箇所(サブシステム)を特定し、更に
、閾値制御テーブル2と、統計情報テーブル3,3a、
3bを参照し、統計情報テーブル3.3a、3b上に記
録されているエラー発生の回数が、上記閾値制御テーブ
ル2が指示している閾値を越えている被疑箇所、或いは
、無条件交換の被疑箇所に対して交換を指示する手段が
本発明を実施するのに必要な手段である。尚、全図を通
して同じ符号は同じ対象物を示している。
以下、第1図を参照しながら、第2図によって、本発明
のエラー監視方式を説明する。
のエラー監視方式を説明する。
本実施例においては、磁気テープ(MT)サブシステム
を例にしているが、これに限定されるものでないことは
いう迄もないことである。
を例にしているが、これに限定されるものでないことは
いう迄もないことである。
先ず、(a)図に示した閾値制御テーブル2は、ERP
コード毎に、閾値条件と1図示されているように、上位
装置(MTU) =>下位装置(TAPE)に対応して
重み付けされた被疑箇所がテーブルの形で示されている
。
コード毎に、閾値条件と1図示されているように、上位
装置(MTU) =>下位装置(TAPE)に対応して
重み付けされた被疑箇所がテーブルの形で示されている
。
該閾値条件としては、無条件交換の場合と、監視期間を
定めて、例えば、30分間隔、或いは、1ケ月間隔で計
数したエラー回数の閾値を定義し、二の閾値を越えるエ
ラーがあると、該被疑箇所は、交換した方がよいとする
ものである。
定めて、例えば、30分間隔、或いは、1ケ月間隔で計
数したエラー回数の閾値を定義し、二の閾値を越えるエ
ラーがあると、該被疑箇所は、交換した方がよいとする
ものである。
(bl)〜(b3)図に示した統計情報テーブル3,3
a。
a。
3bは、上記閾値制御テーブル2で重み付けされた被疑
箇所に対応して、後述する閾値制御で、現在のエラーを
加算するように構成されている。
箇所に対応して、後述する閾値制御で、現在のエラーを
加算するように構成されている。
先ず、第1図(b)の概略動作フローに示されているよ
うに、O3稼働中にハードウェア障害が発生すると、O
8はエラーログ情報を組み立て、これをエラーロギング
ファイルに記録する。この事象を契機に制御部はERP
コードとエラー発生装置アドレスを引数としてログ解析
部を呼び出す。
うに、O3稼働中にハードウェア障害が発生すると、O
8はエラーログ情報を組み立て、これをエラーロギング
ファイルに記録する。この事象を契機に制御部はERP
コードとエラー発生装置アドレスを引数としてログ解析
部を呼び出す。
ログ解析部は、システム構成定義テーブル1を基に、こ
の装置がどのサブシステムに属するかを判別し、統計フ
ァイルから統計情報(多重次元)テーブル3.3a、3
bの内容を、図示されていないメモリ上に読み込む。
の装置がどのサブシステムに属するかを判別し、統計フ
ァイルから統計情報(多重次元)テーブル3.3a、3
bの内容を、図示されていないメモリ上に読み込む。
そして、制御部から引き渡されたERPコードと、エラ
ー発生装置アドレスをキーとして、当該サブシステム(
本実施例では、MTサブシステム)の閾値制御、テーブ
ル2と、統計情報テーブル(多重次元) 3.3a、3
bのデータを基に、時間監視制御。
ー発生装置アドレスをキーとして、当該サブシステム(
本実施例では、MTサブシステム)の閾値制御、テーブ
ル2と、統計情報テーブル(多重次元) 3.3a、3
bのデータを基に、時間監視制御。
および、被疑箇所の重み付けを特徴とした閾値制御を行
い、該統計情報テーブル3.3a、 3bのエラー回数
を更新し、これを統計ファイルに書き込む。
い、該統計情報テーブル3.3a、 3bのエラー回数
を更新し、これを統計ファイルに書き込む。
該統計情報テーブル3,3a、3bに記録されているエ
ラー発生回数が、上記閾値制御テーブル2に定められて
いる閾値を超えた場合はメツセージを出力し、オペレー
タに装置の交換を依願する。
ラー発生回数が、上記閾値制御テーブル2に定められて
いる閾値を超えた場合はメツセージを出力し、オペレー
タに装置の交換を依願する。
以下、第2図(cl) 、 (C2) 、 (C3)に
示した動作フローにより上記閾値制御の詳細動作を説明
する。
示した動作フローにより上記閾値制御の詳細動作を説明
する。
制御部から出力されたERPコード、エラー発生装置ア
ドレスをキーとして、先ず、−次元の統計情報テーブル
3を参照したとき、該統計情報テーブル3に、該当のE
RPコードと9重み付けが施された後のアドレスが一致
する項目があるかどうかが調べられ、なければ、該当項
目を新設するが、あれば、該当項目について、閾値制御
テーブル2を参照し、閾値制御の為のパラメータ (閾
値)■の有無を見て、無ければ、即ち、「無条件交換」
が指示されている場合には、該閾値制御テーブル2が指
示している被疑箇所■を保守者(オペレータ)に通知す
る。(第2図(cl)のステップ1O111,12,2
0参照) 若し、上記閾値パラメータ■が指示されている場合には
、該エラーの発生した時刻について、監視開始時刻(前
に設定された監視開始時刻に、チエツク範囲時間(例え
ば、30分とか、1月等)を、定期的に加算した時刻)
■に、チエツク範囲時間を足した時刻を経過しているか
どうかが調べられる。
ドレスをキーとして、先ず、−次元の統計情報テーブル
3を参照したとき、該統計情報テーブル3に、該当のE
RPコードと9重み付けが施された後のアドレスが一致
する項目があるかどうかが調べられ、なければ、該当項
目を新設するが、あれば、該当項目について、閾値制御
テーブル2を参照し、閾値制御の為のパラメータ (閾
値)■の有無を見て、無ければ、即ち、「無条件交換」
が指示されている場合には、該閾値制御テーブル2が指
示している被疑箇所■を保守者(オペレータ)に通知す
る。(第2図(cl)のステップ1O111,12,2
0参照) 若し、上記閾値パラメータ■が指示されている場合には
、該エラーの発生した時刻について、監視開始時刻(前
に設定された監視開始時刻に、チエツク範囲時間(例え
ば、30分とか、1月等)を、定期的に加算した時刻)
■に、チエツク範囲時間を足した時刻を経過しているか
どうかが調べられる。
ここで、該エラー発生時刻がチエツク範囲時間を足した
時刻を越えていなければ、該エラーは定期的なエラーと
認識され、該統計情報テーブル3の現在のエラー回数に
+1″されるが、該チエツク範囲時間を足した時刻を越
えていると、上記のエラーは一時的なエラーとして、そ
れまでに計数されていた、該当チエツク範囲時間に対応
したエラー回数はクリアされ、且つ、その時刻を上記監
視開始時刻■に設定して、その時刻を監視開始時刻■と
して、新たに、定期的なエラーの監視を行うようにする
。(第2図(C1)のステップ13.14゜15参照) このようにして、該統計情報テーブル3の更新されたエ
ラー回数を、上記閾値制御テーブル2に指示されている
閾値と比較し、該閾値を越えている場合には、該被疑箇
所は、エラーが定期的に起こっており、いずれダウンす
る可能性がある箇所と判断され、保守者(オペレータ)
に、該被疑箇所を交換するように通知する。(第2図(
cl)のステップ16.21参照) 上記−次元の統計情報テーブル3に、二次元テーブル3
aがあることが指示されている場合には、上記と同じ手
順によって、該二次元テーブル3aに対して、上記−次
元テーブル3と同じ処理を実行する。
時刻を越えていなければ、該エラーは定期的なエラーと
認識され、該統計情報テーブル3の現在のエラー回数に
+1″されるが、該チエツク範囲時間を足した時刻を越
えていると、上記のエラーは一時的なエラーとして、そ
れまでに計数されていた、該当チエツク範囲時間に対応
したエラー回数はクリアされ、且つ、その時刻を上記監
視開始時刻■に設定して、その時刻を監視開始時刻■と
して、新たに、定期的なエラーの監視を行うようにする
。(第2図(C1)のステップ13.14゜15参照) このようにして、該統計情報テーブル3の更新されたエ
ラー回数を、上記閾値制御テーブル2に指示されている
閾値と比較し、該閾値を越えている場合には、該被疑箇
所は、エラーが定期的に起こっており、いずれダウンす
る可能性がある箇所と判断され、保守者(オペレータ)
に、該被疑箇所を交換するように通知する。(第2図(
cl)のステップ16.21参照) 上記−次元の統計情報テーブル3に、二次元テーブル3
aがあることが指示されている場合には、上記と同じ手
順によって、該二次元テーブル3aに対して、上記−次
元テーブル3と同じ処理を実行する。
同様にして、該二次元テーブル3aに、三次元テーブル
3bがあることが指示されている場合には、上記と同じ
手順によって、該三次元テーブル3bに対して、上記−
次元テーブル3と同じ処理を実行する。(第2図(C2
) 、 (C3)参照)このように、本発明は、システ
ム構成定義テーブル1と、 ERPコード毎に閾値条件
と、上位装置→下位装置に対応して重み付けされた被疑
箇所を指示する閾値制御テーブル2と、 ERPコード
毎に、且つ、上記閾値条件毎に、被疑箇所に発生したエ
ラーの回数を記録する多重次元の統計情報テーブル3.
3a、3bとを設けて、入出力動作中にエラーが発生し
たとき、上記システム構成定義テーブル1を参照して、
被疑箇所を特定し、更に、閾値制御テーブル2と、統計
情報テーブル3.3a、3bを参照し、統計情報テーブ
ル3,3a、3b上に記録されているエラー回数を更新
し、該更新後のエラー発生の回数が、上記閾値制御テー
ブル2が指示している閾値を越えている被疑箇所等に対
して交換をオペレータに指示するようにした所に特徴が
ある。
3bがあることが指示されている場合には、上記と同じ
手順によって、該三次元テーブル3bに対して、上記−
次元テーブル3と同じ処理を実行する。(第2図(C2
) 、 (C3)参照)このように、本発明は、システ
ム構成定義テーブル1と、 ERPコード毎に閾値条件
と、上位装置→下位装置に対応して重み付けされた被疑
箇所を指示する閾値制御テーブル2と、 ERPコード
毎に、且つ、上記閾値条件毎に、被疑箇所に発生したエ
ラーの回数を記録する多重次元の統計情報テーブル3.
3a、3bとを設けて、入出力動作中にエラーが発生し
たとき、上記システム構成定義テーブル1を参照して、
被疑箇所を特定し、更に、閾値制御テーブル2と、統計
情報テーブル3.3a、3bを参照し、統計情報テーブ
ル3,3a、3b上に記録されているエラー回数を更新
し、該更新後のエラー発生の回数が、上記閾値制御テー
ブル2が指示している閾値を越えている被疑箇所等に対
して交換をオペレータに指示するようにした所に特徴が
ある。
以上、詳細に説明したように、本発明のエラー監視方式
は、入出力動作時に発生した装置の誤りに対して、その
解析と回復を試みるエラー回復手順(ERP)機構を備
えた計算機システムにおいて、システム構成定義テーブ
ルと、該計算機システムのハードウェアが作成するエラ
ー回復手順コード(1!RPコード)ごとに、被疑箇所
の重み付けを行い、重み付けの大きい方を上位の次元と
し、該重み付けの小さい方を下位の次元として管理する
すると共に、該重み付けされた被疑箇所に対応して、エ
ラー監視時間を複数設定し、該設定した複数個のエラー
監視時間に対応して、閾値制御を行う為のエラー発生回
数を設定した閾値@御テーブルと、上記重み付けされた
被疑箇所の個数分のエラー発生の回数を、重み付け別に
記憶する統計情報テーブルとを設けて、入出力動作時に
エラー発生したとき、上記エラー回復手順(ERP)機
構が生成、出力したエラー回復手順(ERP)コードと
、エラー発生装置アドレスと、上記システム構成定義テ
ーブルとに基づいてエラー発生装置を識別し、上記エラ
ー回復手順(ERP)機構が生成、出力したエラー回復
手順(ERP)コードと、エラー発生装置アドレスとを
キーとして、上記閾値制御テーブルと、多重構成の統計
情報テーブルとを参照して、上記統計情報テーブルの対
応する箇所のエラー回数を更新し、該更新されたエラー
回数が、上記閾値制御テーブルに設定されている閾値を
越えている場合には、エラー通知を行うようにしたもの
であるので、一つのエラー発生要因に対して複数の被疑
箇所が考えられる場合でも、人手を介入することなく容
易に障害箇所の切り分けができ、又、システムの故障・
障害を、予防保全の形で的確に修復できるという効果が
ある。
は、入出力動作時に発生した装置の誤りに対して、その
解析と回復を試みるエラー回復手順(ERP)機構を備
えた計算機システムにおいて、システム構成定義テーブ
ルと、該計算機システムのハードウェアが作成するエラ
ー回復手順コード(1!RPコード)ごとに、被疑箇所
の重み付けを行い、重み付けの大きい方を上位の次元と
し、該重み付けの小さい方を下位の次元として管理する
すると共に、該重み付けされた被疑箇所に対応して、エ
ラー監視時間を複数設定し、該設定した複数個のエラー
監視時間に対応して、閾値制御を行う為のエラー発生回
数を設定した閾値@御テーブルと、上記重み付けされた
被疑箇所の個数分のエラー発生の回数を、重み付け別に
記憶する統計情報テーブルとを設けて、入出力動作時に
エラー発生したとき、上記エラー回復手順(ERP)機
構が生成、出力したエラー回復手順(ERP)コードと
、エラー発生装置アドレスと、上記システム構成定義テ
ーブルとに基づいてエラー発生装置を識別し、上記エラ
ー回復手順(ERP)機構が生成、出力したエラー回復
手順(ERP)コードと、エラー発生装置アドレスとを
キーとして、上記閾値制御テーブルと、多重構成の統計
情報テーブルとを参照して、上記統計情報テーブルの対
応する箇所のエラー回数を更新し、該更新されたエラー
回数が、上記閾値制御テーブルに設定されている閾値を
越えている場合には、エラー通知を行うようにしたもの
であるので、一つのエラー発生要因に対して複数の被疑
箇所が考えられる場合でも、人手を介入することなく容
易に障害箇所の切り分けができ、又、システムの故障・
障害を、予防保全の形で的確に修復できるという効果が
ある。
第1図は本発明の原理説明図。
第2図は本発明の一実施例を示した図。
第3図は従来のエラー監視方式を説明する図。
である。
図面において、
1はシステム構成定義テーブル。
2は閾値制御テーブル。
3.3a、3bは統計情報テーブル。
10〜17.20.21は処理ステップ。
をそれぞれ示す。
第1圓(その2)
(b2)
(b3)
本発明の=一実施例を示した図
第
図
(その2)
(bl)
本発明の一実施例を示した図
第
図
(そのl)
第
図
(その3)
第
図
(その4)
第
図
(その5)
Claims (1)
- 【特許請求の範囲】 入出力動作時に発生した装置のエラーに対して、その解
析と回復を試みるエラー回復手順(ERP)機構を備え
た計算機システムで発生したエラーを監視する方式であ
って、 システム構成定義テーブル(1)と、 該計算機システムのハードウェアが作成するエラー回復
手順コード(ERPコード)ごとに、被疑箇所の重み付
けを行い、重み付けの大きい方を上位の次元とし、該重
み付けの小さい方を下位の次元として管理すると共に、
該重み付けされた被疑箇所に対応して、エラー監視時間
を複数設定し、該設定した複数個のエラー監視時間に対
応して、閾値制御を行う為のエラー発生回数を設定した
閾値制御テーブル(2)と、 上記重み付けされた被疑箇所の個数分のエラー発生の回
数を、重み付け別に記憶する統計情報テーブル(3、3
a、3b)とを設けて、 入出力動作時にエラーが発生したとき、上記エラー回復
手順(ERP)機構が生成、出力したエラー回復手順(
ERP)コードと、エラー発生装置アドレスと、上記シ
ステム構成定義テーブル(1)とに基づいてエラー発生
装置を識別し、 上記エラー回復手順(ERP)機構が生成、出力したエ
ラー回復手順(ERP)コードと、エラー発生装置アド
レスとをキーとして、上記閾値制御テーブル(2)と、
統計情報テーブル(3、3a、3b)とを参照して、上
記統計情報テーブル(3、3a、3b)の対応する箇所
のエラー回数を更新し、 該更新されたエラー回数が、上記閾値制御テーブル(2
)に設定されている閾値を越えている場合には、エラー
通知を行うことを特徴するエラー監視方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2134418A JPH0433035A (ja) | 1990-05-24 | 1990-05-24 | エラー監視方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2134418A JPH0433035A (ja) | 1990-05-24 | 1990-05-24 | エラー監視方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0433035A true JPH0433035A (ja) | 1992-02-04 |
Family
ID=15127926
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2134418A Pending JPH0433035A (ja) | 1990-05-24 | 1990-05-24 | エラー監視方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0433035A (ja) |
-
1990
- 1990-05-24 JP JP2134418A patent/JPH0433035A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101856543B1 (ko) | 인공지능 기반의 장애 예측 시스템 | |
| JPH02105947A (ja) | コンピユータ周辺サブシステム及びその例外事象自動検出分析方法 | |
| CN101201786B (zh) | 一种故障日志监控方法及装置 | |
| US6598179B1 (en) | Table-based error log analysis | |
| US7401263B2 (en) | System and method for early detection of system component failure | |
| KR100579956B1 (ko) | 컴퓨터 시스템의 변화 감시 시스템 | |
| JP4318643B2 (ja) | 運用管理方法、運用管理装置および運用管理プログラム | |
| Murphy et al. | Measuring system and software reliability using an automated data collection process | |
| CN102110485B (zh) | 数码发电站保护系统的健全性测试的自动化方法及装置 | |
| WO1992014206A1 (en) | Knowledge based machine initiated maintenance system | |
| CN109062723A (zh) | 服务器故障的处理方法和装置 | |
| CN115794588A (zh) | 内存故障预测方法、装置、系统及监测服务器 | |
| CN115098306A (zh) | 应用于电力工控终端的嵌入式容错自愈结构、方法及系统 | |
| AU674231B2 (en) | Fault-tolerant computer systems | |
| CN121166472A (zh) | 一种服务器智能运维方法及系统 | |
| JPH0433035A (ja) | エラー監視方式 | |
| JP2008198123A (ja) | 障害検知システム及び障害検知プログラム | |
| CN119065228A (zh) | 一种安全冗余的plc通信控制系统 | |
| CN118735251A (zh) | 一种基于异常反馈数据的自动化巡检规划方法 | |
| JP7534700B2 (ja) | 正解データ生成装置、正解データ生成方法および正解データ生成プログラム | |
| JPH04257035A (ja) | 仮想計算機システム配下における障害情報処理方式 | |
| CN114492068A (zh) | 故障处理测试方法、系统、设备及介质、程序产品 | |
| JP2008181432A (ja) | ヘルスチェック装置及びヘルスチェック方法及びプログラム | |
| JPH04127247A (ja) | 予防保守支援システム | |
| CN117670261B (zh) | 一种安全运维审计操作一体化终端 |