JPH07311697A - 計算機システムの故障表示方式 - Google Patents

計算機システムの故障表示方式

Info

Publication number
JPH07311697A
JPH07311697A JP6105646A JP10564694A JPH07311697A JP H07311697 A JPH07311697 A JP H07311697A JP 6105646 A JP6105646 A JP 6105646A JP 10564694 A JP10564694 A JP 10564694A JP H07311697 A JPH07311697 A JP H07311697A
Authority
JP
Japan
Prior art keywords
failure
turned
hardware
module
light emitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6105646A
Other languages
English (en)
Inventor
Satoshi Mizuno
聡 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6105646A priority Critical patent/JPH07311697A/ja
Publication of JPH07311697A publication Critical patent/JPH07311697A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【目的】主要ファンクションモジュールレベルで故障箇
所を容易に判断できるようにする。 【構成】複数のファンクションモジュール102〜11
1が設けられた複数のハードウェアモジュール101を
有し、ファンクションモジュールレベルで故障発生箇所
を検出する検出手段を有する計算機システムにおいて、
各ファンクションモジュール102〜111にそれぞれ
対応する不揮発性レジスタと、各ハードウェアモジュー
ルの各ファンクションモジュール102〜111のそれ
ぞれの近傍に設けられ、不揮発性レジスタに所定の値を
設定することにより点灯するLED112〜121とを
具備し、検出手段により検出された故障が発生したファ
ンクションモジュールに対応する不揮発性レジスタへ所
定の値を設定し、故障が発生したファンクションモジュ
ールに対応するLEDを点灯させて故障発生を通知す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、故障の発生を表示する
計算機システムに関する。
【0002】
【従来の技術】従来、計算機システムに故障が発生した
ことを通知するために、計算機の操作パネルに異常警告
灯を設け、あるいは計算機を構成する複数のハードウェ
アモジュールのそれぞれに異常警告灯を設けて、異常検
出時に点灯するといったことが行なわれてきた。これら
警告灯が点灯されることにより、ユーザは計算機システ
ムの異常を知り、また異常が発生したハードウェアモジ
ュールを確認することができる。
【0003】なお、ここでハードウェアモジュールと
は、システムバスに接続される各種ボード、バス等を示
しており、各種ボードには、プロセッサ、各種コントロ
ーラ等の、さらに小さな複数のファンクションモジュー
ルが設けられているものとする。
【0004】前述した警告灯は、一般的にソフトウェア
操作、あるいはハードウェア機構により点灯され、かつ
異常が検出された時点で点灯するようになっている。す
なわち、一旦電源がOFFになると警告灯は消され、再
度電源をONしても、再び異常を検出する時点まで警告
灯は点灯しない。
【0005】従って、システム電源を落した後に改めて
原因を調査する場合には、警告灯を当てにすることがで
きず、計算機内部に残された稼働状態の記録(システム
ログ)や、異常検出時のコンソール画面に出力された警
告メッセージのハードコピーの情報、あるいは診断プロ
グラムを実行した結果を基に調査する必要があり、故障
箇所を交換可能な最小単位(ファンクションモジュー
ル)で特定することに時間と手間がかかっていた。
【0006】すなわち、従来の計算機システムでは、故
障発生時の警告灯による故障表示がハードウェアモジュ
ールの単位、あるいは計算機システム単位のみであり、
しかも電源が一度OFFになると警告灯が再び点灯され
る保証がなかった。
【0007】近年、耐故障性に優れた計算機が開発され
ている。このような計算機はフォールトトレラント計算
機と呼ばれている。フォールトトレラント計算機はハー
ドウェア故障発生時に、その故障を検出し、故障要因を
システムから切り離して、残されたハードウェアで処理
を続けられるようなハードウェア/ソフトウェア構成に
なっている。一部のフォールトトレラント計算機は、主
要ハードウェアモジュールを構成する個々の主要ファン
クションモジュールに対する故障検出機能を備えてい
る。
【0008】フォールトトレラント計算機は、一般的に
ハードウェアに冗長性があり、一部のハードウェアモジ
ュールに故障が発生した場合に、冗長ハードウェアモジ
ュールが故障を起こしたモジュールの処理を引き継ぐ。
【0009】このため、故障発生後にそのモジュールに
関する冗長性が損なわれる場合があり、故障後なるべく
早い時点で故障したモジュールを正常なものと交換する
必要がある。
【0010】従って、交換すべき構成要素を正確かつな
るべく小さな交換単位で識別する必要がある。さらに、
故障したモジュールが全てシステムから取り除かれたこ
とを容易に確認できる必要がある。また、故障したハー
ドウェアモジュールを持ち帰って調査する際にも、故障
したファンクションモジュールが容易に識別できること
が大切である。
【0011】しかしながら従来の計算機システムでは、
システムログや異常検出時のコンソール画面の出力メッ
セージのハードコピーの情報、及び異常検出時のみ点灯
するハードウェアモジュール単位の異常警告灯しかな
く、一度電源をOFFにすると、再び故障が発生するま
で異常警告灯は点灯しないため、結局システムログやコ
ンソール画面の出力メッセージで異常を確認して交換す
べき構成要素を判断していた。
【0012】このため、故障したモジュールの発見に時
間と手間がかかり、かつ複数の故障モジュールがある場
合には交換し忘れが生じる可能性があった。また、故障
したハードウェアモジュールの持ち帰り後の単体検査に
おいて、故障が再現しにくい場合には、故障箇所を交換
可能な最小単位であるファンクションモジュールレベル
での故障の原因追求が困難である場合があった。
【0013】
【発明が解決しようとする課題】このように従来の計算
機システムでは、計算機システムあるいはハードウェア
モジュールに対して異常警告灯が設けられているもの
の、故障発生時に警告灯による故障表示がされても、電
源が一度OFFにされると警告灯が再び点灯される保証
がなく、また故障箇所を交換可能な最小単位であるファ
ンクションモジュールレベルでの原因追求が困難であっ
た。
【0014】本発明は前記のような事情を考慮してなさ
れたもので、主要ファンクションモジュールレベルで故
障箇所を容易に判断できる計算機システムを提供するこ
とを目的とする。
【0015】
【課題を解決するための手段】上記目的を達成するため
に本発明は、複数のファンクションモジュールが設けら
れた複数のハードウェアモジュールを有し、システムに
故障が発生した際に前記ファンクションモジュールレベ
ルで故障発生箇所を検出する検出手段を有する計算機シ
ステムにおいて、前記各ハードウェアモジュールの前記
各ファンクションモジュールにそれぞれ対応する不揮発
性レジスタと、前記各ハードウェアモジュールの前記各
ファンクションモジュールのそれぞれの近傍に設けら
れ、前記不揮発性レジスタに所定の値を設定することに
より点灯する第1の発光デバイスと、前記検出手段によ
り検出された故障が発生したファンクションモジュール
に対応する不揮発性レジスタへ所定の値を設定し、故障
が発生したファンクションモジュールに対応する前記第
1の発光デバイスを点灯させる制御手段とを具備したこ
とを特徴とする。
【0016】また、前記ハードウェアモジュール毎に対
応する第2の発光デバイスを各ハードウェアモジュール
毎に設け、ハードウェアモジュールを構成するファンク
ションモジュールに対応する前記第1の発光デバイスが
1つでも点灯していれば、そのハードウェアモジュール
に対応する前記第2の発光デバイスを点灯させることを
特徴とする。
【0017】また、システム全体に対応する第3の発光
デバイスを設け、前記ハードウェアモジュールに対応す
る前記第2の発光デバイスが1つでも点灯していれば、
前記第3の発光デバイスを点灯させることを特徴とす
る。
【0018】
【作用】このような構成によれば、故障が発生するとシ
ステムにより故障診断が行なわれて、故障原因のデバイ
スに対応する不揮発性レジスタをセットして、対応する
発光デバイスを点灯する。
【0019】この結果、一目見るだけで容易に主要ファ
ンクションモジュールレベルで故障発生箇所が判断で
き、かつ一度電源をOFFにした後に、再び電源投入し
ても故障を示す発光デバイスが点灯するので、電源再投
入ですぐに故障が再発しなくとも故障原因となったハー
ドウェアモジュール/ファンクションモジュールの確認
を容易に行なうことができる。
【0020】さらに、故障が発生したハードウェアモジ
ュールを計算機システムから外して故障原因を特定する
持ち帰りテスト時など、ハードウェアモジュール単位で
電源投入しても同様に発光デバイスが点灯するので、故
障箇所が判断でき、故障したチップモジュール(ファン
クションモジュール)の判定が容易である。
【0021】また、ハードウェアモジュールに対応する
発光デバイスは、そのハードウェアモジュール中に故障
原因のファンクションモジュールが存在する限り(例え
ば故障が再発しなくとも)点灯し、かつ計算機システム
に発光デバイスが点灯しているハードウェアモジュール
が1つでも存在する限りシステム全体に対応する発光デ
バイスが点灯する。
【0022】このため、故障したハードウェアモジュー
ルを全て交換しなければシステムに対応する発光デバイ
スは消灯しない。すなわち、計算機システム全体に対応
する発光デバイスにより全ての故障ハードウェアモジュ
ールを交換し終ったことを確認できる。
【0023】
【実施例】以下、図面を参照して本発明の一実施例を説
明する。図1は本実施例に係わる計算機システムを構成
するボード(ハードウェアモジュール)101の1つを
示している。計算機システムは、図1に示すボード10
1が、計算機本体に複数収納されて構成される(後述す
る図2参照)。
【0024】計算機システムは、故障が発生した際、図
1に示したボード単位でハードウェアモジュールを交換
するものとする。また、計算機システムは、故障検出/
故障箇所発見のための手段を有しており、各ボードの主
要ファンクションモジュールの単位で故障箇所を探し出
すことができるものとする。ここでは、故障検出のため
の手段はハードウェアで構成され、故障箇所を発見する
ための手段はソフトウェアによって構成されているもの
として説明する。
【0025】図1に示すように、ボード101には、複
数のファンクションモジュール102〜111が実装さ
れている。ファンクションモジュール102〜111
は、故障発生時には、故障検出/故障箇所発見の手段に
より、何れのファンクションモジュールに問題が発生し
たか判定することが可能である。
【0026】また、各ファンクションモジュール102
〜111の近傍には、発光デバイスとして、LED11
2〜121が備え付けられている。図1中には図示され
ていないが、LED112〜121のそれぞれに対応す
る不揮発性の故障履歴レジスタが、ボード101上にフ
ァンクションモジュール102〜111の個数分(=L
ED112〜121の個数分)用意されている。なお、
ここで「不揮発性なレジスタ」とは、電源供給の断絶を
経ても(電源がOFFとなっても)レジスタ内のデータ
が保存されることを意味する。
【0027】また、ボード101の前面には、ボード故
障履歴警告灯122が実装されている。ボード故障履歴
警告灯122は、ファンクションモジュール102〜1
11に設けられたLED112〜121が、何れか1つ
でも点灯している時に点灯されるようになっている。
【0028】また、ボード101の後面には、ボード1
01を計算機本体のシステムバスに接続するためのバス
コネクタ123〜125が設けられている。次に、ソフ
トウェア(故障箇所発見の手段)から見た故障履歴レジ
スタのアドレスを図2に示している。各ファンクション
モジュールに対応するレジスタの大きさには4バイトで
あり、最上位ビット(MSB)に“1”をセットするこ
とにより、その故障履歴レジスタに対応する(ファンク
ションモジュールの)LEDが点灯する様になってい
る。
【0029】ここでは、16進数の1000番地(シス
テム全体のアドレス)から、ボード101の故障履歴レ
ジスタのアドレスが始まっているものとしている。図2
に示すように、ファンクションモジュール102(LE
D112)から順に、アドレス“1000”から並んで
いる各故障履歴レジスタに対応している。各故障履歴レ
ジスタは、プロセッサから、それぞれのアドレスでアク
セスすることができる。
【0030】図3は計算機システム本体201の外観図
(正面からみた図)を示している。図3に示す計算機本
体201は、6枚のボード202〜207から構成され
ている。各ボード202〜207は、図1に示すボード
101と同様の構成となっているものとする。
【0031】各ボード202〜207の前面には、図1
で説明したように、ボード故障履歴警告灯208〜21
3が設けられている。計算機本体201のコントロール
パネル214には、システム故障履歴警告灯215が設
けられている。
【0032】システム故障履歴警告灯215は、各ボー
ド202〜207の何れか1つのボード故障履歴警告灯
208〜213が点灯している時に点灯するようになっ
ている。
【0033】次に、本実施例の動作について、図4に示
すフローチャートを参照しながら説明する。図4に計算
機システムにおいて故障が発生した際の、故障表示のた
めの処理の手順を示している。本実施例の計算機システ
ムでは、ハードウェアが故障検出を行ない、ソフトウェ
アによって故障箇所を発見するものとして説明する。
【0034】まず、計算機システムのプロセッサは、ハ
ードウェア(故障検出の手段)から故障発生を通知され
ると(ステップS301)、診断プログラム(故障箇所
発見の手段)を実行してシステム全体の診断を始める
(ステップS302)。
【0035】その結果、ファンクションモジュールレベ
ルで故障箇所(複数箇所の場合もあある)を判定するこ
とができる(ステップS303)。プロセッサは、故障
と判定されたファンクションモジュールに対応する故障
履歴レジスタの最上位ビット(MSB)を“1”にする
(ステップS304)。
【0036】その後、故障したファンクションモジュー
ルを含むボードをシステムからソフトウェア的に切り離
して(ステップS305)、残されたボードで通常処理
を再開し(ステップS306)、故障発生時の処理を終
了する(ステップS307)。
【0037】こうして本実施例の計算機システムでは、
実際に故障が発生すると、故障と判定したファンクショ
ンモジュールに対応する故障履歴レジスタの最上位ビッ
トがセットされる。
【0038】この結果、故障したファンクションモジュ
ールの近傍のLEDが点灯すると共に、故障したファン
クションモジュールを含むボードのボード故障履歴警告
灯が点灯し、かつシステム故障履歴警告灯215も点灯
する。
【0039】従来と同様に、システム故障履歴警告灯2
15を参照することにより、ユーザは故障発生を知り、
故障が発生した問題のボードを識別することができる。
さらに、本発明では故障したボード上の故障したファン
クションモジュールを識別することも可能である。
【0040】故障が発生したボードを交換する際には、
問題のボードを全て交換して始めてシステム故障履歴警
告灯215が消えるので、確実に故障したボードを全て
交換したことが確認できる。
【0041】また、一時的な故障であっても、故障履歴
レジスタに故障が発生したことを示す値が残っているの
で、電源を再投入すれば、例えすぐに故障が再発しなく
とも、故障を起こしたボード及びファンクションモジュ
ールを判定することができる。
【0042】このため、故障したボード単体でも故障し
たファンクションモジュールを判定することが可能であ
り、メンテナンス作業時の効率が改善される。なお、本
実施例において図4のステップS302〜S304はソ
フトウェアで処理を行なうものとして説明したが、ハー
ドウェアでこれらの処理を行なっても何ら問題ない。
【0043】このようにして、各ボード202〜207
の各ファンクションモジュール毎に対応する不揮発性レ
ジスタを設け、故障が発生した場合に、故障ファンクシ
ョンモジュールに対応する不揮発性レジスタに値を設定
することにより、各ファンクションモジュールの近傍に
設けられた発光デバイスを点灯させることができる。
【0044】これにより、一目見るだけでファンクショ
ンモジュール単位で故障発生箇所が容易に判断できる。
また、不揮発性レジスタに値がセットされているので、
一度電源OFFにした後に、再び電源投入しても故障を
示す発光デバイスが点灯し、電源再投入後すぐに故障が
再発しなくとも故障原因となったハードウェアモジュー
ル/ファンクションモジュールの確認が容易となる。
【0045】さらに、持ち帰りテスト時など、ハードウ
ェアモジュール単位で電源投入しても同様に発光デバイ
スが点灯するので、モジュール単体の試験でもモジュー
ルの故障箇所が判断でき、故障したファンクションモジ
ュールの判定が容易となるものである。
【0046】
【発明の効果】以上詳述したように本発明によれば、主
要ファンクションモジュールレベルで故障箇所を容易に
判断できるようになるものである。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる計算機システムを構
成するボード(ハードウェアモジュール)の外観構成を
示す図。
【図2】本実施例における故障履歴レジスタのアドレス
マップを示す図。
【図3】本発明による計算機本体の外観構成(正面)を
示す図。
【図4】本実施例における故障発生時の処理手順を示す
フローチャート。
【符号の説明】
101,202〜207…ボード、102〜111…フ
ァンクションモジュール、112〜121…LED、2
01…計算機本体、122,208〜213…ボード故
障履歴警告灯、214…コントロールパネル、215…
システム故障履歴警告灯。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数のファンクションモジュールが設け
    られた複数のハードウェアモジュールを有し、システム
    に故障が発生した際に前記ファンクションモジュールレ
    ベルで故障発生箇所を検出する検出手段を有する計算機
    システムにおいて、 前記各ハードウェアモジュールの前記各ファンクション
    モジュールにそれぞれ対応する不揮発性レジスタと、 前記各ハードウェアモジュールの前記各ファンクション
    モジュールのそれぞれの近傍に設けられ、前記不揮発性
    レジスタに所定の値を設定することにより点灯する第1
    の発光デバイスと、 前記検出手段により検出された故障が発生したファンク
    ションモジュールに対応する不揮発性レジスタへ所定の
    値を設定し、故障が発生したファンクションモジュール
    に対応する前記第1の発光デバイスを点灯させる制御手
    段と、 を具備したことを特徴とする計算機システムの故障表示
    方式。
  2. 【請求項2】 前記ハードウェアモジュール毎に対応す
    る第2の発光デバイスを各ハードウェアモジュール毎に
    設け、ハードウェアモジュールを構成するファンクショ
    ンモジュールに対応する前記第1の発光デバイスが1つ
    でも点灯していれば、そのハードウェアモジュールに対
    応する前記第2の発光デバイスを点灯させることを特徴
    とする請求項1記載の計算機システムの故障表示方式。
  3. 【請求項3】 システム全体に対応する第3の発光デバ
    イスを設け、前記ハードウェアモジュールに対応する前
    記第2の発光デバイスが1つでも点灯していれば、前記
    第3の発光デバイスを点灯させることを特徴とする請求
    項2記載の計算機システムの故障表示方式。
JP6105646A 1994-05-19 1994-05-19 計算機システムの故障表示方式 Pending JPH07311697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6105646A JPH07311697A (ja) 1994-05-19 1994-05-19 計算機システムの故障表示方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6105646A JPH07311697A (ja) 1994-05-19 1994-05-19 計算機システムの故障表示方式

Publications (1)

Publication Number Publication Date
JPH07311697A true JPH07311697A (ja) 1995-11-28

Family

ID=14413225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6105646A Pending JPH07311697A (ja) 1994-05-19 1994-05-19 計算機システムの故障表示方式

Country Status (1)

Country Link
JP (1) JPH07311697A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519997A (ja) * 2003-12-31 2007-07-19 インテル・コーポレーション Pci/pci−x標準ホットプラグコントローラ(shpc)コマンドステイタスの信号伝達の方法
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2008299599A (ja) * 2007-05-31 2008-12-11 Fujitsu Ltd 情報処理装置,障害通知回路,障害通知方法,障害通知プログラムおよび該プログラムを記録したコンピュータ読取可能な記録媒体
JPWO2008120337A1 (ja) * 2007-03-28 2010-07-15 富士通株式会社 ホストバスアダプタ管理プログラム、ホストバスアダプタ管理方法、ホストバスアダプタ管理装置および発光部品管理プログラム
JP2011034599A (ja) * 2010-11-18 2011-02-17 Fujitsu Ltd 情報処理装置及び障害通知方法
CN104199755A (zh) * 2014-08-25 2014-12-10 广东欧珀移动通信有限公司 一种基于指示灯诊断硬件模块故障的方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519997A (ja) * 2003-12-31 2007-07-19 インテル・コーポレーション Pci/pci−x標準ホットプラグコントローラ(shpc)コマンドステイタスの信号伝達の方法
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JPWO2008120337A1 (ja) * 2007-03-28 2010-07-15 富士通株式会社 ホストバスアダプタ管理プログラム、ホストバスアダプタ管理方法、ホストバスアダプタ管理装置および発光部品管理プログラム
US8069278B2 (en) 2007-03-28 2011-11-29 Fujitsu Limited Detecting abnormal host adapter operations via light emissions
JP2008299599A (ja) * 2007-05-31 2008-12-11 Fujitsu Ltd 情報処理装置,障害通知回路,障害通知方法,障害通知プログラムおよび該プログラムを記録したコンピュータ読取可能な記録媒体
JP2011034599A (ja) * 2010-11-18 2011-02-17 Fujitsu Ltd 情報処理装置及び障害通知方法
CN104199755A (zh) * 2014-08-25 2014-12-10 广东欧珀移动通信有限公司 一种基于指示灯诊断硬件模块故障的方法及系统
CN104199755B (zh) * 2014-08-25 2017-08-08 广东欧珀移动通信有限公司 一种基于指示灯诊断硬件模块故障的方法及系统

Similar Documents

Publication Publication Date Title
US5519832A (en) Method and apparatus for displaying module diagnostic results
US5327435A (en) Method for testing a processor module in a computer system
US7313717B2 (en) Error management
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
US6976197B2 (en) Apparatus and method for error logging on a memory module
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN109933182A (zh) 一种服务器掉电诊断方法、装置和系统
JPH06342381A (ja) 多数決回路及び制御ユニット及び多数決用半導体集積回路
JPH07311697A (ja) 計算機システムの故障表示方式
US7266628B2 (en) System and method of retiring events upon device replacement
JP4523659B2 (ja) 故障解析装置
JP3986898B2 (ja) メモリ擬似故障注入装置
US11726853B2 (en) Electronic control device
CN115543711A (zh) 一种i2c接线诊断方法、装置、设备和存储介质
JP3664466B2 (ja) メモリ・チェック・テスト実行方法及び記憶媒体
JP3342039B2 (ja) ファイルを管理する処理装置
JP2000181806A (ja) 半導体装置およびその故障救済方法
JP2000065692A (ja) メモリの故障診断装置
JP3326546B2 (ja) コンピュータシステムの故障検知方法
KR950012495B1 (ko) 메모리 진단장치 및 방법
JPH0254342A (ja) 論理装置の診断方式
US7069471B2 (en) System PROM integrity checker
JPH03273344A (ja) フォールトトレラントシステム
JP2008084080A (ja) 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JPH0793225A (ja) メモリチェック方式