JPH0433035A

JPH0433035A - エラー監視方式

Info

Publication number: JPH0433035A
Application number: JP2134418A
Authority: JP
Inventors: Kaori Takahashi; かおり高橋; Kunio Yajima; 矢島　邦夫
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-05-24
Filing date: 1990-05-24
Publication date: 1992-02-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕入出力動作時に発生した装置の誤りに対して、その解析
と回復を試みるエラー回復手順（ＥＲＰ）機構を備えた
計算機システムで発生したエラーを監視する方式に関し
、人手を介することなく、容易に障害箇所を切り分けるこ
とができ、且つ、計算機システムの故障。

障害を的確に修復することができるエラー監視方式を提
供することを目的とし、システム構成定義テーブルと、該計算機システムのハー
ドウェアが作成するエラー回復手順コード（ＥＲＰコー
ド）ごとに、被疑箇所の重み付けを行い、重み付けの大
きい方を上位の次元とし、該重み付けの小さい方を下位
の次元として管理すると共に、該重み付けされた被疑箇
所に対応して、エラー監視時間を複数設定し、該設定し
た複数個のエラー監視時間に対応して、閾値制御を行う
為のエラー発生回数を設定した閾値制御テーブルと、上
記重み付けされた被疑箇所の個数分のエラー発生の回数
を、重み付け別に記憶する統計情報テーブルとを設けて
、入出力動作時にエラーが発生したとき、上記エラー回
復手順（ＥＲＰ）機構が生成。

出力したエラー回復手順（ＥＲＰ）コードと、エラー発
生装置アドレスと、上記システム構成定義テーブルとに
基づいてエラー発生装置を識別し、上記エラー回復手順
（ＥＲＰ）機構が生成、出力したエラー回復手順（ＥＲ
Ｐ）コードと、エラー発生装置アドレスとをキーとして
、上記閾値制御テーブルと。

統計情報テーブルとを参照して、上記統計情報テーブル
の対応する箇所のエラー回数を更新し、該更新されたエ
ラー回数が、上記閾値制御テーブルに設定されている閾
値を越えている場合には、エラー通知を行うように構成
する。

〔産業上の利用分野〕

本発明は、入出力動作時に発生した装置の誤りに対して
、その解析と回復を試みるエラー回復手順（ＥＲＰ）機
構を備えた計算機システムで発生したエラーを監視する
方式に関する。

信転性の高い計算機システムのニーズが高まっている近
年では、システムの故障・障害を未然に防ぐこと、即ち
、間欠障害の発生回数がトータルして規定回数以上発生
する場合、回復が可能であっても、致命的な故障に至る
前に保守を行うことが重要になってきている。

又、発生したエラー事象から、保守員に対して被疑部品
（ユニット、装置等）の通知を行うことで障害の修復時
間を短縮することができる。

このようなことから、入出力動作に関連したエラーの発
生に対して、効果的に、保守員に対して被疑部品の通知
を行うことができるエラー監視方式が必要とされる。

〔従来の技術と発明が解決しようとする課題〕第３図は
従来のエラー監視方式を説明する図である。

従来、Ｏ３（オペレーティング・システム）稼働中に、
入出力動作に関連するハードウェアエラーが発生すると
、保守員がテストプログラムを起動してエラーリストを
解析したり、出力されたログ編集リストを目で見て障害
箇所の切り分けを行い部品交換の判断を行っていた。

このため、エラー発生要因と被疑箇所が１対ｎ。

すなわち一つのエラー発生要因に対して複数の被疑箇所
が考えられる場合、被疑箇所を特定することは困難であ
った。

又、ソフトウェアの回復処理によって訂正が可能であり
、その発生回数を監視する必要のあるエラーの発生頻度
は、短時間で多数発生する場合や一定間隔を置いて発生
する場合など様々であり、特定の一定間隔（例えば、３
０分）に、閾値として定められている閾値を越えるエラ
ー発生回数を検出して、被疑箇所を特定するという、所
謂、しきい値制御をすることが困難であった。

本発明は上記従来の欠点に鑑み、入出力動作時に発生し
た装置の誤りに対して、その解析と回復を試みるエラー
回復手順（ＥＲＰ）機構を備えた計算機システムで発生
したエラーに対して、人手を介することなく、容易に障
害箇所を切り分けることができ、且つ、計算機システム
の故障、障害を的確に修復することができるエラー監視
方式を提供することを目的とするものである。

〔課題を解決するための手段〕

第１図は本発明の原理説明図であって、（ａ）は原理構
成図を示し、（ｂ）はエラー監視処理フローの概要を示
している。

上記の問題点は下記の如くに構成したエラー監視方式に
よって解決される。

入出力動作時に発生した装置のエラーに対して、その解
析と回復を試みるエラー回復手順（ＥＲＰ）機構を備え
た計算機システムで発生したエラーを監視する方式であ
って、システム構成定義テーブルｌと。

該計算機システムのハードウェアが作成するエラー回復
手順コード（ＥＲＰコード）ごとに、被疑箇所の重み付
けを行い、重み付けの大きい方を上位の次元とし、該重
み付けの小さい方を下位の次元として管理すると共に、
該重み付けされた被疑箇所に対応して、エラー監視時間
を複数設定し、該設定した複数個のエラー監視時間に対
応して、閾値制御を行う為のエラー発生回数を設定した
閾値制御テーブル２と。

上記重み付けされた被疑箇所の個数分のエラー発生の回
数を、重み付け別に記憶する統計情報テーブル３，３ａ
＋３ｂとを設けて、入出力動作時にエラーが発生したとき、上記エラー回復
手順（ＥＲＰ）機構が生成、出力したエラー回復手順（
ＥＲＰ）コードと、エラー発生装置アドレスと、上記シ
ステム構成定義テーブル１とに基づいてエラー発生装置
を識別し、上記エラー回復手順（ＥＲＰ）機構が生成、出力したエ
ラー回復手順（ＥＲＰ）コードと、エラー発生装置アド
レスとをキーとして、上記ＨＭ制御テーブル２と、統計
情報テーブル３．３ａ、３ｂとを参照して、上記統計情
報テーブル３，３ａ、３ｂの対応する箇所のエラー回数
を更新し、該更新されたエラー回数が、上記閾値制御テーブル２に
設定されている閾値を越えている場合には、エラー通知
を行うように構成する。

〔作用］即ち、本発明によれば、第１図（ａ）に示したように、
入出力動作時に発生した装置の誤りに対して、その解析
と回復を試みるエラー回復手順（ＥＲＰ）　ｍ構を備え
た計算機システムで発生したエラーを監視するのに、シ
ステム構成定義テーブルと。

エラー回復手順（ＥＲＰ）コード（以下、ＥＲＰコード
という）と９例えば、上位装置か／下位装置かに対応し
て重み付けが施された被疑箇所と複数監視時間単位の閾
値が定義されているサブシステム単位の閾値制御テーブ
ルを基に、エラー発生装置がどのサブシステムに属する
かを判別する手段と。

上記重み（次元）の個数分の統計情報テーブルを作成し
、各被疑箇所単位に障害発生回数等を管理する手段と、
該指定監視時間内のエラー発生頻度をチエツクする手段
とを設けて、以下のようにエラー監視を行う。

即ち、（ｂ）図に示したように、先ず、Ｏ３稼働中にハ
ードウェア障害が発生すると、Ｏ３はエラーログ情報を
組み立て、これをエラーロギングファイルに記録する。

この事象を契機に制御部はＥＲＰコードとエラー発生装
置アドレスを引数としてログ解析部を呼び出す。

ログ解析部は、システム構成定義テーブルを基に、この
装置がどのサブシステムに属するかを判別し、統計ファ
イルから統計情報（多重次元）をメモリ上に読み込む。

そして、制御部から引き渡されたＥＲＰコードとエラー
発生装置アドレスをキーとして、当該サブシステムの閾
値制御テーブルと、統計情報テーブル（多重次元）のデ
ータを基に時間監視制御および被疑箇所の重み付けを特
徴とした閾値制御を行い、統計情報テーブルを更新し、
これを統計ファイルに書き込む。

装置で発生したＥＲＰコード別のエラー発生回数が、上
記閾値制御テーブルに定義されている閾値を超えた場合
はメツセージを出力し、オペレータに被疑箇所（装置）
の交換を依願する。又、該閾値制御を必要としない「無
条件交換」のエラーに対しても、同様に、被疑装置のメ
ツセージを出力し、該閾値制御テーブルが、複数個の被
疑箇所を指示している場合には、ハードウェアの生成す
る装置アドレスに応じて、次に重みの大きい（即ち。

二次の）被疑箇所を求めるように動作する。

即ち、本発明においては、入出力動作中にエラーが発生
したとき、ハードウェアが生成して出力するＥＲＰコー
ド毎に、該装置が上位にあるか、下位にあるかに応じて
重み付けされた被疑箇所と、該被疑箇所を交換した方が
よいことを指示する閾値（監視時間対応）とがテーブル
の形で用意されており、且つ、該被疑箇所毎のエラー発
生回数（上記監視時間対応）を計数して、統計情報テー
ブルとして管理されているので、エラーが発生したとき
、該出力されたＥＲＰコードと、エラー発生装置アドレ
スを基に、被疑装置を特定でき、且つ、該被疑装置の今
迄のエラー発生回数が閾値を越えていると認識されたと
き、該被疑装置の交換が適当と判断して、自動的に、該
被疑装置の交換を保守者に指示することができ、システ
ムの故障・障害を、予防保全の形で的確に修復すること
ができるという効果がある。

〔実施例〕

以下本発明の実施例を図面によって詳述する。

前述の第１図は本発明の詳細な説明する図であり、第２
図は本発明の一実施例を示した図であって、（ａ）は閾
値制御テーブルの構成例を示し、（ｂｌ）〜（ｂ３）は
統計情報テーブルの構成例を示し、（Ｃ１）　、　（Ｃ
２）は磁気テープ（ＭＴ）サブシステムにおける閾値制
御の詳細処理フローを示している。

本発明においては、システム構成定義テーブル１と、　
ＥＲＰコード毎に閾値条件と、上位装置、下位装置に応
じて重み付けされた被疑箇所を指示する閾値制御テーブ
ル２と、　ＥＲＰコード毎に、且つ、上記閾値条件毎に
、被疑箇所に発生したエラーの回数を記録する統計情報
テーブル３，３ａ、３ｂとを設けて、入出力動作中にエ
ラーが発生したとき、上記システム構成定義テーブル１
を参照して、被疑箇所（サブシステム）を特定し、更に
、閾値制御テーブル２と、統計情報テーブル３，３ａ、
３ｂを参照し、統計情報テーブル３．３ａ、３ｂ上に記
録されているエラー発生の回数が、上記閾値制御テーブ
ル２が指示している閾値を越えている被疑箇所、或いは
、無条件交換の被疑箇所に対して交換を指示する手段が
本発明を実施するのに必要な手段である。尚、全図を通
して同じ符号は同じ対象物を示している。

以下、第１図を参照しながら、第２図によって、本発明
のエラー監視方式を説明する。

本実施例においては、磁気テープ（ＭＴ）サブシステム
を例にしているが、これに限定されるものでないことは
いう迄もないことである。

先ず、（ａ）図に示した閾値制御テーブル２は、ＥＲＰ
コード毎に、閾値条件と１図示されているように、上位
装置（ＭＴＵ）　＝＞下位装置（ＴＡＰＥ）に対応して
重み付けされた被疑箇所がテーブルの形で示されている
。

該閾値条件としては、無条件交換の場合と、監視期間を
定めて、例えば、３０分間隔、或いは、１ケ月間隔で計
数したエラー回数の閾値を定義し、二の閾値を越えるエ
ラーがあると、該被疑箇所は、交換した方がよいとする
ものである。

（ｂｌ）〜（ｂ３）図に示した統計情報テーブル３，３
ａ。

３ｂは、上記閾値制御テーブル２で重み付けされた被疑
箇所に対応して、後述する閾値制御で、現在のエラーを
加算するように構成されている。

先ず、第１図（ｂ）の概略動作フローに示されているよ
うに、Ｏ３稼働中にハードウェア障害が発生すると、Ｏ
８はエラーログ情報を組み立て、これをエラーロギング
ファイルに記録する。この事象を契機に制御部はＥＲＰ
コードとエラー発生装置アドレスを引数としてログ解析
部を呼び出す。

ログ解析部は、システム構成定義テーブル１を基に、こ
の装置がどのサブシステムに属するかを判別し、統計フ
ァイルから統計情報（多重次元）テーブル３．３ａ、３
ｂの内容を、図示されていないメモリ上に読み込む。

そして、制御部から引き渡されたＥＲＰコードと、エラ
ー発生装置アドレスをキーとして、当該サブシステム（
本実施例では、ＭＴサブシステム）の閾値制御、テーブ
ル２と、統計情報テーブル（多重次元）　３．３ａ、３
ｂのデータを基に、時間監視制御。

および、被疑箇所の重み付けを特徴とした閾値制御を行
い、該統計情報テーブル３．３ａ、　３ｂのエラー回数
を更新し、これを統計ファイルに書き込む。

該統計情報テーブル３，３ａ、３ｂに記録されているエ
ラー発生回数が、上記閾値制御テーブル２に定められて
いる閾値を超えた場合はメツセージを出力し、オペレー
タに装置の交換を依願する。

以下、第２図（ｃｌ）　、　（Ｃ２）　、　（Ｃ３）に
示した動作フローにより上記閾値制御の詳細動作を説明
する。

制御部から出力されたＥＲＰコード、エラー発生装置ア
ドレスをキーとして、先ず、−次元の統計情報テーブル
３を参照したとき、該統計情報テーブル３に、該当のＥ
ＲＰコードと９重み付けが施された後のアドレスが一致
する項目があるかどうかが調べられ、なければ、該当項
目を新設するが、あれば、該当項目について、閾値制御
テーブル２を参照し、閾値制御の為のパラメータ　（閾
値）■の有無を見て、無ければ、即ち、「無条件交換」
が指示されている場合には、該閾値制御テーブル２が指
示している被疑箇所■を保守者（オペレータ）に通知す
る。（第２図（ｃｌ）のステップ１Ｏ１１１，１２，２
０参照）若し、上記閾値パラメータ■が指示されている場合には
、該エラーの発生した時刻について、監視開始時刻（前
に設定された監視開始時刻に、チエツク範囲時間（例え
ば、３０分とか、１月等）を、定期的に加算した時刻）
■に、チエツク範囲時間を足した時刻を経過しているか
どうかが調べられる。

ここで、該エラー発生時刻がチエツク範囲時間を足した
時刻を越えていなければ、該エラーは定期的なエラーと
認識され、該統計情報テーブル３の現在のエラー回数に
＋１″されるが、該チエツク範囲時間を足した時刻を越
えていると、上記のエラーは一時的なエラーとして、そ
れまでに計数されていた、該当チエツク範囲時間に対応
したエラー回数はクリアされ、且つ、その時刻を上記監
視開始時刻■に設定して、その時刻を監視開始時刻■と
して、新たに、定期的なエラーの監視を行うようにする
。（第２図（Ｃ１）のステップ１３．１４゜１５参照）このようにして、該統計情報テーブル３の更新されたエ
ラー回数を、上記閾値制御テーブル２に指示されている
閾値と比較し、該閾値を越えている場合には、該被疑箇
所は、エラーが定期的に起こっており、いずれダウンす
る可能性がある箇所と判断され、保守者（オペレータ）
に、該被疑箇所を交換するように通知する。（第２図（
ｃｌ）のステップ１６．２１参照）上記−次元の統計情報テーブル３に、二次元テーブル３
ａがあることが指示されている場合には、上記と同じ手
順によって、該二次元テーブル３ａに対して、上記−次
元テーブル３と同じ処理を実行する。

同様にして、該二次元テーブル３ａに、三次元テーブル
３ｂがあることが指示されている場合には、上記と同じ
手順によって、該三次元テーブル３ｂに対して、上記−
次元テーブル３と同じ処理を実行する。（第２図（Ｃ２
）　、　（Ｃ３）参照）このように、本発明は、システ
ム構成定義テーブル１と、　ＥＲＰコード毎に閾値条件
と、上位装置→下位装置に対応して重み付けされた被疑
箇所を指示する閾値制御テーブル２と、　ＥＲＰコード
毎に、且つ、上記閾値条件毎に、被疑箇所に発生したエ
ラーの回数を記録する多重次元の統計情報テーブル３．
３ａ、３ｂとを設けて、入出力動作中にエラーが発生し
たとき、上記システム構成定義テーブル１を参照して、
被疑箇所を特定し、更に、閾値制御テーブル２と、統計
情報テーブル３．３ａ、３ｂを参照し、統計情報テーブ
ル３，３ａ、３ｂ上に記録されているエラー回数を更新
し、該更新後のエラー発生の回数が、上記閾値制御テー
ブル２が指示している閾値を越えている被疑箇所等に対
して交換をオペレータに指示するようにした所に特徴が
ある。

〔発明の効果〕

以上、詳細に説明したように、本発明のエラー監視方式
は、入出力動作時に発生した装置の誤りに対して、その
解析と回復を試みるエラー回復手順（ＥＲＰ）機構を備
えた計算機システムにおいて、システム構成定義テーブ
ルと、該計算機システムのハードウェアが作成するエラ
ー回復手順コード（１！ＲＰコード）ごとに、被疑箇所
の重み付けを行い、重み付けの大きい方を上位の次元と
し、該重み付けの小さい方を下位の次元として管理する
すると共に、該重み付けされた被疑箇所に対応して、エ
ラー監視時間を複数設定し、該設定した複数個のエラー
監視時間に対応して、閾値制御を行う為のエラー発生回
数を設定した閾値＠御テーブルと、上記重み付けされた
被疑箇所の個数分のエラー発生の回数を、重み付け別に
記憶する統計情報テーブルとを設けて、入出力動作時に
エラー発生したとき、上記エラー回復手順（ＥＲＰ）機
構が生成、出力したエラー回復手順（ＥＲＰ）コードと
、エラー発生装置アドレスと、上記システム構成定義テ
ーブルとに基づいてエラー発生装置を識別し、上記エラ
ー回復手順（ＥＲＰ）機構が生成、出力したエラー回復
手順（ＥＲＰ）コードと、エラー発生装置アドレスとを
キーとして、上記閾値制御テーブルと、多重構成の統計
情報テーブルとを参照して、上記統計情報テーブルの対
応する箇所のエラー回数を更新し、該更新されたエラー
回数が、上記閾値制御テーブルに設定されている閾値を
越えている場合には、エラー通知を行うようにしたもの
であるので、一つのエラー発生要因に対して複数の被疑
箇所が考えられる場合でも、人手を介入することなく容
易に障害箇所の切り分けができ、又、システムの故障・
障害を、予防保全の形で的確に修復できるという効果が
ある。

【図面の簡単な説明】

第１図は本発明の原理説明図。第２図は本発明の一実施例を示した図。第３図は従来のエラー監視方式を説明する図。である。図面において、１はシステム構成定義テーブル。２は閾値制御テーブル。３．３ａ、３ｂは統計情報テーブル。１０〜１７．２０．２１は処理ステップ。をそれぞれ示す。第１圓（その２）（ｂ２）（ｂ３）本発明の＝一実施例を示した図第図（その２）（ｂｌ）本発明の一実施例を示した図第図（そのｌ）第図（その３）第図（その４）第図（その５）

Claims

【特許請求の範囲】入出力動作時に発生した装置のエラーに対して、その解
析と回復を試みるエラー回復手順（ＥＲＰ）機構を備え
た計算機システムで発生したエラーを監視する方式であ
って、システム構成定義テーブル（１）と、該計算機システムのハードウェアが作成するエラー回復
手順コード（ＥＲＰコード）ごとに、被疑箇所の重み付
けを行い、重み付けの大きい方を上位の次元とし、該重
み付けの小さい方を下位の次元として管理すると共に、
該重み付けされた被疑箇所に対応して、エラー監視時間
を複数設定し、該設定した複数個のエラー監視時間に対
応して、閾値制御を行う為のエラー発生回数を設定した
閾値制御テーブル（２）と、上記重み付けされた被疑箇所の個数分のエラー発生の回
数を、重み付け別に記憶する統計情報テーブル（３、３
ａ、３ｂ）とを設けて、入出力動作時にエラーが発生したとき、上記エラー回復
手順（ＥＲＰ）機構が生成、出力したエラー回復手順（
ＥＲＰ）コードと、エラー発生装置アドレスと、上記シ
ステム構成定義テーブル（１）とに基づいてエラー発生
装置を識別し、上記エラー回復手順（ＥＲＰ）機構が生成、出力したエ
ラー回復手順（ＥＲＰ）コードと、エラー発生装置アド
レスとをキーとして、上記閾値制御テーブル（２）と、
統計情報テーブル（３、３ａ、３ｂ）とを参照して、上
記統計情報テーブル（３、３ａ、３ｂ）の対応する箇所
のエラー回数を更新し、該更新されたエラー回数が、上記閾値制御テーブル（２
）に設定されている閾値を越えている場合には、エラー
通知を行うことを特徴するエラー監視方式。