JPH0895933A - コンピュータシステム - Google Patents

コンピュータシステム

Info

Publication number
JPH0895933A
JPH0895933A JP6226155A JP22615594A JPH0895933A JP H0895933 A JPH0895933 A JP H0895933A JP 6226155 A JP6226155 A JP 6226155A JP 22615594 A JP22615594 A JP 22615594A JP H0895933 A JPH0895933 A JP H0895933A
Authority
JP
Japan
Prior art keywords
error information
shared device
error
computer system
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6226155A
Other languages
English (en)
Inventor
Yukio Nagai
幸男 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6226155A priority Critical patent/JPH0895933A/ja
Publication of JPH0895933A publication Critical patent/JPH0895933A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 複数の処理装置と、これらの複数の処理装置
が共通に使用する共用装置とから成り、これらの複数の
処理装置のうちの1つが、共用装置の詳細なエラー情報
を収集するコンピュータシステムに関し、障害を正確に
表すエラー情報を選択して保守担当部署へ出力できるよ
うにすることを目的とする。 【構成】 エラー情報制御手段5が、複数の処理装置1
〜3からの共用装置4に関わるエラー情報のうち、共用
装置4の詳細なエラー情報を収集する処理装置からのエ
ラー情報以外のエラー情報の出力を抑制する。したがっ
て、共用装置4に関する真の詳細なエラー情報だけが保
守担当部署に知らせることが可能となり、保守担当部署
はニセのエラー情報に惑わされることなく、短時間の内
に正確に障害箇所を認識でき、迅速な障害復旧が可能と
なる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の処理装置と、こ
れらの複数の処理装置が共通に使用する共用装置とから
成り、これらの複数の処理装置のうちの1つが、共用装
置の詳細なエラー情報を収集するコンピュータシステム
に関する。
【0002】こうした複数の処理装置にはサービスプロ
セッサがそれぞれ付属し、サービスプロセッサが対応の
処理装置の動作を常時監視し、いずれかの処理装置に障
害があると、それを知らせるエラー情報がサービスプロ
セッサから監視センタに送られる。監視センタは、これ
を保守担当部署に自動的に通知し、障害復旧を促すよう
にする。
【0003】また近年、複数の処理装置が共通して使用
できる、高速の外部記憶装置が、複数の処理装置に使用
されるようになっている。
【0004】
【従来の技術】図6に、複数のコンピュータと共通記憶
装置とからなる従来のコンピュータシステムおよびその
監視システムを示す。図中、コンピュータシステムは、
それぞれメインフレームから成る3台のクラスタ101
〜103から構成され、クラスタ101〜103にはS
SU(System Storage Unit)装置104が接続される。
SSU装置104は、高速の外部記憶装置であり、クラ
スタ101〜103によって互いの共有メモリとして使
用されるものである。そして、クラスタ101だけがS
SU装置104の制御権を有し、SSU装置104のエ
ラー情報を把握できるようになっている。こうしたクラ
スタ101〜103およびSSU装置104の構成をS
CMP(System Storage Coupled Multiprocessing Sys
tem)構成と呼ぶ。
【0005】クラスタ101〜103にはサービスプロ
セッサ(SVP)105〜107がそれぞれ接続され
る。サービスプロセッサ105〜107は対応のクラス
タを監視し、エラー情報を得て監視センタ108へ送
る。サービスプロセッサ105は、SSU装置104の
制御権を有しているので、クラスタ101内部のエラー
情報の他に、SSU装置104のエラー情報も把握し、
監視センタ108へ送る。監視センタ108には保守担
当部署109が接続されている。
【0006】
【発明が解決しようとする課題】こうした構成のシステ
ムにおいて、SSU装置104に障害が発生した場合、
制御権のあるサービスプロセッサ105が、SSU装置
104内のエラー情報を得て、監視センタ108へ送
る。しかし、SSU装置104の障害は、このSSU装
置104を共有メモリとして使用しているクラスタ10
2,103にも影響を与え、クラスタ102,103を
それぞれ監視しているサービスプロセッサ106,10
7にもエラー情報がそれぞれ出力され、これらが監視セ
ンタ108へ送られる。
【0007】ところが、クラスタ102,103はSS
U装置104の制御権を有していないために、サービス
プロセッサ106,107に出力されるエラー情報は、
SSU装置104内の障害としての形態をとらず、あた
かもクラスタ102,103内にそれぞれ障害が発生し
たかのようなエラー情報となっている。
【0008】サービスプロセッサ105〜107からエ
ラー情報をそれぞれ受けた監視センタ108は、実際に
はSSU装置104にだけ障害が発生して、その障害に
伴う複数のエラー情報が入力されているにも拘らず、個
別の障害が発生していると認識して、保守担当部署10
9へそれらのエラー情報をすべて自動通知する。通知を
受けた保守担当部署109は、エラー情報の氾濫により
錯誤し、障害箇所の特定に長時間を要するという問題点
があった。
【0009】本発明はこのような点に鑑みてなされたも
のであり、複数の処理装置と、これらの処理装置が共通
して使用できる共用装置とから構成されるコンピュータ
システムにおいて発生した障害を正確に表すエラー情報
を選択して保守担当部署へ出力することを図ったコンピ
ュータシステムを提供することを目的とする。
【0010】
【課題を解決するための手段】本発明では上記目的を達
成するために、図1に示すように、複数の処理装置1〜
3と、これらの複数の処理装置1〜3が共通に使用する
共用装置4とから成り、複数の処理装置1〜3のうちの
1つが、共用装置4の詳細なエラー情報を収集するコン
ピュータシステムにおいて、複数の処理装置1〜3から
の共用装置4に関わるエラー情報のうち、共用装置4の
詳細なエラー情報を収集する処理装置からのエラー情報
以外のエラー情報の出力を抑制するエラー情報制御手段
5を有することを特徴とするコンピュータシステムが提
供される。
【0011】
【作用】以上のような構成において、エラー情報制御手
段5が、複数の処理装置1〜3からの共用装置4に関わ
るエラー情報のうち、共用装置4の詳細なエラー情報を
収集する処理装置からのエラー情報以外のエラー情報の
出力を抑制する。したがって、共用装置4に関する真の
詳細なエラー情報だけを保守担当部署に知らせることが
可能となり、保守担当部署はニセのエラー情報に惑わさ
れることなく、短時間の内に正確に障害箇所を認識で
き、迅速な障害復旧が可能となる。
【0012】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2は、本発明コンピュータシステムの全体構成
図である。図中、コンピュータシステムは、それぞれメ
インフレームから成る3台のクラスタ11〜13から構
成され、クラスタ11〜13にはSSU装置14が接続
される。クラスタ11は、CPU(Central Processing
Unit) 11a,11bのマルチプロセッサ構成となって
おり、CPU11a,CPU11bは、MCU(Memory
Control Unit)11cを介してSSU装置14に接続さ
れる。MCU11cには他に、MSU(Main Storage Un
it) 11d,11eが接続されるとともに、CHP(Cha
nnel Processor) 11fを介して入出力装置が接続され
る。そして、こうしたCPU11a,CPU11b,M
CU11c,MSU11d,MSU11e,CHP11
fにサービスプロセッサ(SVP)11gが接続され、
サービスプロセッサ11gは、CPU11a,CPU1
1b,MCU11c,MSU11d,MSU11e,C
HP11fの監視を行い、エラー情報を収集する。クラ
スタ12,13の内部構成もクラスタ11と同じように
なっている。
【0013】SSU装置14は、高速の外部記憶装置で
あり、クラスタ11〜13によって互いの共有メモリと
して使用されるものである。そして、クラスタ11だけ
がSSU装置14の制御権を有し、SSU装置14のエ
ラー情報を把握できるようになっている。こうしたクラ
スタ11〜13およびSSU装置14の構成をSCMP
構成と呼ぶ。
【0014】サービスプロセッサ11g,12g,13
gは、前述のように、対応のクラスタ内を監視し、エラ
ー情報を得て監視センタ15へ自動的に送る。サービス
プロセッサ11gは、SSU装置14の制御権を有して
いるので、クラスタ11内部のエラー情報の他に、SS
U装置14のエラー情報も把握し、監視センタ15へ送
る。サービスプロセッサ12g,13gは、クラスタ1
2,13内部のエラー情報をそれぞれ把握し、監視セン
タ15へ送る。監視センタ15はプロセッサ構成となっ
ており、監視センタ15には保守担当部署16が接続さ
れる。
【0015】図3に、エラー情報を得たときにサービス
プロセッサ11g,12g,13gから監視センタ15
へ通知される情報の内容を示す。この通知情報の構成
は、エラーコード欄21、SCMPフラグ欄22、SS
U制御権フラグ欄23、発生日時分秒欄24、ユーザコ
ード欄25、詳細情報欄26からなっており、エラーコ
ード欄21には、障害発生箇所を含めたエラー内容をコ
ード化したものが記載され、またSCMPフラグ欄22
には、監視対象のクラスタがSCMP構成となっている
か否かを示すSCMPフラグが記載される。すなわち、
図2に示した例ではクラスタ11〜13のすべてがSS
U装置14を使用する構成になっているが、SSU装置
14を使用しないクラスタが存在する場合もあり得るの
で、こうした場合を考慮してSCMPフラグを設定し、
「1」がSCMP構成となっているクラスタを示し、
「0」がSCMP構成となっていないクラスタを示す。
SSU制御権フラグ欄23には、監視対象のクラスタが
SSU装置14の制御権を有しているか否かを示すSS
U制御権フラグを記載する。「1」が制御権を有してい
るクラスタを示し、「0」が制御権を有していないクラ
スタを示す。発生日時分秒欄24には、エラー情報が得
られた日時分秒が記載され、またユーザコード欄25に
は、SCMP構成となっているグループの識別番号が記
載される。すなわち、図2に示した例ではSSU装置が
1台しか存在しない構成になっているが、SSU装置が
複数台備えられ、SSU装置毎にSCMP構成のグルー
プが形成される場合があり得、こうした場合を考慮して
SCMP構成毎のグループの識別番号(ユーザコード)
が記載される。詳細情報欄26にはその他の情報を記載
可能となっている。
【0016】図3の(A),(B),(C)は、エラー
情報が得られた日時分秒の順に示した通知情報である。
(A)がサービスプロセッサ12gから出力された通知
情報、(B)がサービスプロセッサ11gから出力され
た通知情報、(C)がサービスプロセッサ13gから出
力された通知情報である。
【0017】図4は、監視センタ15に備えられるデー
タベースを示す。すなわち、制御権のあるクラスタ11
に発生し、SSU装置に発生した障害を表すエラーコー
ド(基本エラーコード)と、制御権のない各クラスタ
に、その障害が波及して発生する各種エラーコード(関
連エラーコード)との相関関係を予め調べ、その相関関
係をデータベースとして監視センタ15に記憶してお
く。このデータベースは、例えば、SSU装置14にエ
ラーコード「832213・・」という障害が発生した
場合には、制御権のないクラスタには「331123・
・」や「331567・・」というエラーコードが現れ
るということを示している。
【0018】監視センタ15は、サービスプロセッサ1
1g〜13gから図3の(A),(B),(C)に示す
通知情報を受け取って、図4に示すデータベースを参照
して、真のエラー情報を選択する。この監視センタ15
での処理手順を図5を参照して説明する。
【0019】図5は、監視センタ15で実行される、真
のエラー情報を選択するための処理の手順を示すフロー
チャートである。この処理は、通知情報が着信する度に
起動される。以下、図に示すステップに沿って説明す
る。
【0020】〔S1〕いずれかのサービスプロセッサか
ら通知情報を受信する。 〔S2〕その通知情報のSCMPフラグ欄に「1」が記
載されているか否かを判別する。記載されていなけれ
ば、つまり「0」が記載されていれば、ステップS3へ
進み、記載されていれば、ステップS4へ進む。
【0021】〔S3〕受信した通知情報がSCMP構成
のクラスタからの通知情報ではない場合、ニセのエラー
コードが送られている可能性はないので、その通知情報
内のエラーコードを保守担当部署16へ通知する。
【0022】〔S4〕監視センタ15に、SCMP構成
監視対象ユーザの設定がされているか否かを判別する。
SCMP構成監視対象ユーザの設定がされていないなら
ば、ステップS5へ進み、設定がされていれば、ステッ
プS8へ進む。
【0023】〔S5〕通知情報のユーザコード欄に記載
されているユーザコードをSCMP構成監視対象ユーザ
として設定する。この設定は複数のユーザコードに対し
て行われ得る。
【0024】〔S6〕時間の計測を開始するとともに、
通知情報のエラーコード欄に記載されたエラーコードを
蓄積する。これらはユーザコード毎に行われる。 〔S7〕ステップS6で開始された計測による計測時間
が所定時間に達したか否かをユーザコード毎に判別す
る。この所定時間は、SSU装置の障害に伴って各関連
クラスタで発生したエラー情報が対応のサービスプロセ
ッサによってそれぞれ収集されて監視センタ15に届く
のに要する時間に設定される。具体的には数分に設定さ
れる。同一ユーザコードにおいて所定時間に達していれ
ばステップS10へ進み、達していなければ本処理を終
了して、つぎの通知情報の着信を待つ。
【0025】〔S8〕通知情報のユーザコード欄に記載
されているコードが、SCMP構成監視対象ユーザとし
て設定されているコードのいずれかと同じであるか否か
を判別する。すなわち、SSU装置が複数台備えられ、
SSU装置毎にSCMP構成のグループが形成される場
合に、他のグループのSSU装置で発生した障害を自分
のグループのSSU装置で発生した障害に混同すること
を避けるために設けられた判別である。いずれとも同じ
でなく、要するに、そのSCMP構成のグループから初
めて発生された通知情報であるならば、ステップS5へ
進み、いずれかと同じであるならば、ステップS9へ進
む。
【0026】〔S9〕ユーザコード毎に、通知情報のエ
ラーコード欄に記載されたエラーコードを蓄積する。 〔S10〕計測時間が所定時間に達したユーザコード
を、SCMP構成監視対象ユーザとしての設定から解除
する。
【0027】〔S11〕計測時間が所定時間に達したユ
ーザコードに対応して蓄積されたエラーコードを、図4
に示したデータベースと参照し、真のエラーコード(基
本エラーコード)を検出する。すなわち、例えば図3の
(A),(B),(C)に示すエラーコードを蓄積エラ
ーコードとして受け取った場合、データベースを参照し
てエラーコード「832213・・」を真のエラーコー
ドとして検出する。
【0028】〔S12〕ステップS11で検出されたエ
ラーコードを保守担当部署16へ送る。保守担当部署1
6は、そのエラーコードを基に障害箇所を認識し、修理
を行う。
【0029】上記実施例では、1つのSSU装置に3つ
のクラスタが接続される構成となっているが、SSU装
置に接続されるクラスタの数は2つ以上の任意の数であ
ってよく、また、SSU装置に接続されないクラスタが
存在してもよい。また、1つのSSU装置に多数のクラ
スタが接続されたSCMP構成のグループが多数あって
もよい。こうした場合でも、全部のクラスタにそれぞれ
サービスプロセッサが接続され、それらの各サービスプ
ロセッサは監視センタに接続される構成となる必要があ
る。
【0030】
【発明の効果】以上説明したように本発明では、複数の
コンピュータにおいて、エラー情報をそれぞれ収集する
とともに、共通記憶装置を使用するコンピュータである
ことを示す使用フラグを、このエラー情報に添えて監視
センタへそれぞれ送る。監視センタでは、エラー情報に
使用フラグが添えられていたときに、この使用フラグが
添えられた他のエラー情報を収集する。そして共通記憶
装置に発生した障害に係わる特定コンピュータで検出さ
れるエラー情報と、共通記憶装置に発生した障害が元
で、残りのコンピュータに発生する各種エラー情報との
相関関係を予めデータベースとして記憶しておき、先に
収集したエラー情報を、データベースに記憶された相関
関係と照合して、真のエラー情報を検出する。
【0031】この真のエラー情報を通知された保守担当
部署はニセのエラー情報に惑わされることなく、短時間
の内に正確に障害箇所を認識でき、迅速な障害復旧が可
能となる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】障害検出装置を含むコンピュータシステムの全
体構成図である。
【図3】エラー情報を得たときにサービスプロセッサか
ら監視センタへ通知される情報の内容を示す図である。
【図4】監視センタに備えられるデータベースを示す図
である。
【図5】監視センタで実行される、真のエラー情報を選
択するための処理の手順を示すフローチャートである。
【図6】複数のコンピュータと共通記憶装置とからなる
従来のコンピュータシステムおよびその監視システムを
示すブロック図である。
【符号の説明】
1 処理装置 2 処理装置 3 処理装置 4 共用装置 5 エラー情報制御手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の処理装置と、これらの複数の処理
    装置が共通に使用する共用装置とから成り、前記複数の
    処理装置のうちの1つが、前記共用装置の詳細なエラー
    情報を収集するコンピュータシステムにおいて、 前記複数の処理装置からの前記共用装置に関わるエラー
    情報のうち、前記共用装置の詳細なエラー情報を収集す
    る処理装置からのエラー情報以外のエラー情報の出力を
    抑制するエラー情報制御手段、 を有することを特徴とするコンピュータシステム。
  2. 【請求項2】 前記共用装置に発生したエラーに関わる
    詳細なエラー情報と、前記エラーが原因で、前記共用装
    置の詳細なエラー情報を収集する処理装置以外の処理装
    置で収集される前記共用装置に関わるエラー情報との関
    係を記憶したデータベースを更に有し、前記エラー情報
    制御手段は、前記データベースに基づいて、前記共用装
    置の詳細なエラー情報以外のエラー情報の出力を抑制す
    ることを特徴とする請求項1記載のコンピュータシステ
    ム。
  3. 【請求項3】 前記各処理装置が収集するエラー情報に
    は、前記共用装置に関わるエラー情報であることを示す
    識別子が付加され、前記エラー情報制御手段は、前記識
    別子の付加されているエラー情報のみを制御の対象とす
    ることを特徴とする請求項1,2のいずれかに記載のコ
    ンピュータシステム。
  4. 【請求項4】 複数の共用装置を更に有し、前記各共用
    装置を示す識別子がエラー情報に付加され、前記エラー
    情報制御手段は、同一の識別子の付加されているエラー
    情報を同じ制御対象のグループとすることを特徴とする
    請求項1,2,3のいずれかに記載のコンピュータシス
    テム。
JP6226155A 1994-09-21 1994-09-21 コンピュータシステム Withdrawn JPH0895933A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6226155A JPH0895933A (ja) 1994-09-21 1994-09-21 コンピュータシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6226155A JPH0895933A (ja) 1994-09-21 1994-09-21 コンピュータシステム

Publications (1)

Publication Number Publication Date
JPH0895933A true JPH0895933A (ja) 1996-04-12

Family

ID=16840729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6226155A Withdrawn JPH0895933A (ja) 1994-09-21 1994-09-21 コンピュータシステム

Country Status (1)

Country Link
JP (1) JPH0895933A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305918A (ja) * 1999-04-20 2000-11-02 Nec Saitama Ltd マルチプロセッサ監視制御システムおよびマルチプロセッサ監視制御方法
JP2012014673A (ja) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> クラスタシステム復旧方法及びサーバ及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305918A (ja) * 1999-04-20 2000-11-02 Nec Saitama Ltd マルチプロセッサ監視制御システムおよびマルチプロセッサ監視制御方法
JP2012014673A (ja) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> クラスタシステム復旧方法及びサーバ及びプログラム

Similar Documents

Publication Publication Date Title
US5815651A (en) Method and apparatus for CPU failure recovery in symmetric multi-processing systems
US6119246A (en) Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
JPH0895933A (ja) コンピュータシステム
US5524206A (en) Sub-CPU monitoring system including dual port memory
JPS5856158A (ja) 遠隔保守方式
JP2001195377A (ja) 孤立判定システムとその管理方法及び記録媒体
WO2023084670A1 (ja) 監視装置、監視方法、及びコンピュータ読み取り可能な記憶媒体
JP2000311099A (ja) プロセス監視システムおよびプロセス監視方法
TW200307200A (en) Multiple fault location in a series of devices
JP2002351855A (ja) 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム
CN108804288B (zh) 一种信息处理装置、方法及电子设备
JPH03123230A (ja) ネットワーク監視システムの関連アラーム早期検出装置
JPH05224964A (ja) バス異常通知方式
JP2539390B2 (ja) マルチプロセツサシステム
JPS5914197A (ja) マルチプロセツサシステム
JP2688368B2 (ja) エラーアドレス収集方式
JPH05342025A (ja) 仮想計算機システムの障害処理方式
JP3487440B2 (ja) 共有メモリアクセス方式
CN119883786A (zh) 嵌入式设备的运行状态分析方法和装置
JP2012053760A (ja) 障害特定装置、障害特定方法及び障害特定プログラム
JP3099355B2 (ja) 入出力処理装置
JPH0476633A (ja) エラー情報処理装置
JPH0362235A (ja) 複合システムにおけるダウン監視処理方式
JP2000099483A (ja) 分散処理システム及び分散処理方法及び記録媒体
JPS60189542A (ja) プロセツサ暴走検出方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020115