JPH0227450A - 機械チェック割込み要求の収集分析方法及び収集分析システム - Google Patents

機械チェック割込み要求の収集分析方法及び収集分析システム

Info

Publication number
JPH0227450A
JPH0227450A JP1099052A JP9905289A JPH0227450A JP H0227450 A JPH0227450 A JP H0227450A JP 1099052 A JP1099052 A JP 1099052A JP 9905289 A JP9905289 A JP 9905289A JP H0227450 A JPH0227450 A JP H0227450A
Authority
JP
Japan
Prior art keywords
interrupt
data
interface
processor
machine check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1099052A
Other languages
English (en)
Other versions
JPH0465411B2 (ja
Inventor
Kevin C Huang
ケビン・チヤング‐チ・ハング
John G Santoni
ジヨン・ジエラード・サントニ
Gregory S Still
グレゴリイ・スコツト・ステイル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0227450A publication Critical patent/JPH0227450A/ja
Publication of JPH0465411B2 publication Critical patent/JPH0465411B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、コンピュータ・システムに関し、具体的には
、エラーすなわち誤りの割込み信号及びそのデータを支
援プロセッサに同時に提示するコンピュータ・システム
の装置に関する。
B、従来技術及びその問題点 コンピュータ・システムは、主プロセツサと、主プロセ
ツサに接続された支援プロセッサを含む場合が非常に多
い。機械チエツクがプロセッサで検出されると、サービ
スが必要なことを示す割込み信号が支援プロセッサ(S
P)に提示される。
SPが走査を開始する前に、影響を受けるプロセッサ(
または緊密に結合されたシステム中のすべてのプロセッ
サ)へのシステム・クロックが、停止されなければなら
ない。走査により、SPは機械チエツクの発生源とチエ
ツクによって生じる損害の規模を決定するのに必要なデ
ータを集めることができる。システムの各走査リングが
、SPによって中央プロセッサ複合体(CPC)から走
査される。走査されたデータ・ビットは、システム中で
活動状態になっている機械チエツクを決定するため、S
Pマイクロコードが容易にアクセスできる構造化形式に
変換される。機械チエツク状況が決定されると、再試行
手順を開始することができる。
機械チエツクの発生源を決定するためにデータ・ビット
を走査し変換する処理はいくつかの欠点を伴っている。
第1に、機械チエツクの発生源が、割込み信号をSPが
受け取った時点でわかっていないので、その割込み信号
で表わされるあらゆるプロセッサが、走査を準備するた
めに停止されなければならない。その結果、システムに
損害を与えシステム全体の可用性が低下する。というの
は機能プロセッサはそれが停止したときに再試行不能状
態で走行していることがあるからである。そうなった場
合、システムを再起動させるのに初期マイクロコード・
ロード(IML)が必要となる。
第2に、走査は、各チップ上の各走査リングを通常はC
PCの動作速度よりもかなり遅い速度で順次アドレス指
定することを必要とする逐次動作なので、非常に時間が
かかる。SPが機械チエツク発生源及び関連する誤り情
報を決定するために走査データ・ビットの変換を実行す
るとき、大きな追加遅延が発生する。これらの遅延の結
果、ダウン時間が延引し、入出力装置が切断されること
もある。最後に、多数の機械チエツクが活動状態の場合
、どの機械チエツクが最初に起こったかを必ずしも判定
できない。この誤り分離の不十分さのため、余分の機械
部品を交換しなければならなくなることもある。初期機
械チエツク割込み信号と同時に機械チエツクの発生源と
損害の程度をSPが入手できるなら、SPがもはやこの
情報を判定する必要はないので、割込み信号に対処する
のに必要な時間がかなり減少する。多重プロセッサ環境
では、問題の発生源がSPにとって分離され、SPは損
害を受けた領域だけを修復し、他の独立なプロセッサは
走行を継続するので、システムの可用性が増大するとい
う追加の利益が得られる。
C0問題点を解決するための手段 したがって、本発明の目的は、初期機械チエツク割込み
信号、機械チエツクの発生源及び損害の程度を同時にコ
ンピュータ・システムの支援プロセッサに提示すること
にある。
本発明の目的には、サービス・プロセッサと主プロセツ
サの間にシステム支援アダプタ(SSA)を配設するこ
とも含まれる。SSAがまず初期機械チエツク割込み信
号を受け取り、機械チエツク割込み信号、機械チエツク
の発生源、及び機械チエツクによって生じる損害の程度
に関する情報を主プロセツサから収集して、それらの情
報を同時にSPに提示するとき、機械チエツクの発生源
と、機械チエツクによって主プロセツサ中に生じる損害
の程度を主、プロセッサに照会する機能をシステム支援
アダプタはもつ。
本発明の上記及びその他の目的は、支援プロセッサ(S
P)と主プロセツサの中央プロセッサ複合体(CPC)
の間にシステム支援アダプタ(SSA)を配設すること
によって達成される。SSAは、CPCからSPに向か
う途中の機械チエツク信号を傍受し、機械チエツク及び
その結果発生する損害を分離するのに不可欠な誤りデー
タをすべて収集してから、SPに機械チエツク信号と誤
りデータを同時に提示する。機械チエツク・データ収集
機構が主プロセツサのCPC上にあり、CPCのあらゆ
る論理カード上の事前定義されたレジスタ位置に入る、
マイクロコードで駆動される一連の迅速保守アクセス経
路(HMAP)コマンドを起動する。RMAPコマンド
は独立した固有の保守クロックだけに基づいて実行され
るので、システム・クロックは、データ収集中にどの論
理カード上でも停止される必要はない。保守クロックは
CPCクロック速度で動作する。収集された誤りデータ
は、機械チエツクの発生源、(チエツクの広がりを示す
)機械チエツクのレベル、及び機械チエツクの形式(た
とえば、システム機械チエツクか保守形式の機械チエツ
クか)を記述する。誤りデータがSSAによって収集さ
れSSAのメモリ・バッフ1記憶域に記憶された後、S
SAにより機械チエツク割込み信号が重要な誤り情報と
同時にSPに提示される。SPは、システム内での割込
みの量を制限しながらより好都合な形で必要なサービス
を行なうので、ダウン時間が最小となり、システム全体
の可用性が増大する。
本発明のより広い適用範囲は、以下に示す詳細な説明か
ら明らかになるはずである。ただし、詳細な記載と特定
の例は、本発明の好ましい実施例を表わしているが、例
示として示したものに過ぎず、当業者なら、以下に示す
詳細な説明を読めば、本発明の範囲内で様々な変更及び
修正が、明らかになるはずである。
D、実施例 第2図に、従来技術の誤り割込み・誤りデータ収集シス
テムの概略図を示す。第2図で、支援プロセッサ(SP
)10は、バスQBUSを介して中央プロセッサ複合体
(CPC)20に直接接続されている。動作に当っては
、CPC20中で機械チエツクが生じると、CPC20
はCPCに誤りが発生したことを示す割込み信号を5P
IOに送る。5pioはその動作が中断される。5PI
OはCPC20に照会して、割込みの原因を読み取り、
CPC20から誤りデータを読み取る。次いで、5P1
0はこの割込み信号及び誤りデータを使って誤りを訂正
する。5PIOが割込み信号を受け取ったとき、割込み
の原因を読み取り、CPC20から誤りデータを読み取
るのに時間がかかった。
第1図に、本発明の誤り割込み・誤りデータ収集システ
ムの概略図を示す。第1図では、5P10はシステム支
援アダプタ(SSA)15を介してCPC20に接続さ
れている。動作に当っては、主プロセツサまたはCPC
20に誤り杖態が発生したことを示すCPC機械チエツ
クが生じる。5SA15は中断される。5SA15は、
CPC20から割込みの原因と割込みに関連するデータ
(誤りデータ)を読み取る。5SA15は、初期割込み
信号、割込みの原因及び誤りデータを同時に5ptoに
送る。5ptoは直ちに誤り訂正を開始することができ
る。5PIOは誤りデータを読み取る際に時間がかから
ない。
第3図は、第1図のSSAカード15を介して主プロセ
ツサのCPC20に接続された支援プロセッサ(SP)
10の3次元図である。spt。
はパーソナル・コンピュータである。5SA15は、主
プロセツサのラックに収容されたカードである。CPC
20は、主プロセツサのラックに収容された他のカード
から構成される。
第4図は、5ptoとCPC20の間に接続されたSS
Aカード15のより詳細な構成を示す。
SSAカード15は、遠隔PC支援プロセッサ10を主
プロセツサのCPC20に接続するための手段をもたら
し、プロセッサ複合体内の複数バス・アーキテクチャに
データを知能的に分配する。5SA15は、動的にプロ
グラミング可能な独立型装置であり、ローカル・エリア
・ネットワーク(LAN)インターフェースを介して外
部接続された5pioから初期プログラム・ロードを要
求するための手段であるブートストラップ読取り専用記
憶装置(RO8)を含む。5SA15は次の3つの論理
要素から構成される。(1)LANインターフェース1
5a1 (2)パリティ・誤り訂正(ECC)を含む5
12にランダム・アクセス・メモリを備えた5OLOマ
イクロプロセツサ15b1及び(3)迅速保守アクセス
(RMA)アダプタ論理モジュール15c0 LANインターフェース15aは、オンカードRO8に
よって制御される。このオンカードRO8は、トークン
・リングLANアーキテクチャに電気的に応答するよう
にLAN論理モジュールを制御する。LANインターフ
ェース15aモジユールは、各SSAカードに独自なL
ANアドレスに応答する機能ももつ。この機能により、
最高256枚までの任意の数のSSAカードが単一り、
ANネットに結合できる。この機能により、複数のプロ
セッサ群が、その群に対する支援プロセッサとして動作
するようにプログラミングされた単一5PIOによって
サービスされる。さらに、単一のPCが故障した場合、
バックアップ・パーソナル・コンピュータをLANネッ
トに接続して、高度の可用性をもたらすことができる。
5OLOマイクロプロセツサ15bは、このSSAカー
ド15用のマイクロプロセッサ・コントローラである。
このマイクロプロセッサは、512にのRAMをもち、
外部5P10を介してそれに制御プログラムを動的にロ
ードできる。この動的ロードにより、カードの機能を上
位プロセッサまたは主プロセツサの必要に応じて調整ま
たは修正することができる。この5OLOプロセツサ1
5bの主な機能は、LANインターフェース15aとの
間でデータを送受し、HMAモジュール15cとの間で
データを送受することである。さらに、5OLO15b
は、その制御プログラムを用いて独立した決定を下し、
任意の望ましい方式でこのデータを操作することができ
る。
迅速保守アダプタ(RMA)モジュール15cは、5S
A15と上位プロセッサまたは主プロセツサのCPC2
Qとの間の1次インターフェースである。このアダプタ
15cは、SSAカード15と上位プロセッサ内の3本
の独自な保守バスのうちのいずれかとの間でのデータの
移動を制御する論理手段となる。この3本の保守バスは
、R−MAPインターフェース・バス、走査インターフ
ェース・バス及び特殊電力制御バスである。HMAモジ
ュール15cは、上位プロセッサまたは主プロセツサ内
のこれら3本の保守バスすべてと5QLOマイクロプロ
セツサ15bのRAMとのインターフェースをとる手段
である。
第4図で、CPC20は複数のカードを含み、各カード
上に複数のモジュール(M)が配置されていることに留
意されたい。
第5図は、本発明による保守支援サブシステム(MSS
)の図である。
第5図で、MSSは、支援プロセッサ(SP)10とC
PC20の間に相互接続された第4図の5SA15を含
む。5PIOはパーソナル・コンピュータであり、ロー
カル・エリア・ネットワーク(LAN)接続を介して主
プロセツサに接続されている。LANは、ネットワーク
上の各ステーションに通信プロトコルを解釈するための
処理形式を必要とする。これは、5SA15カードに収
納された5OLOマイクロプロセツサ15bによってリ
ンクのラック側で処理される。5OLOは、LAN接続
を受け入れて要求された動作を、RMAモジュール(R
−MAPアダプタ)15cに含まれる1連のメモリ・マ
ツプ式バッファに転送する働きをする。RMA15cに
より、CPC20は拡張並列保守インターフェース(E
PMI)と呼ばれるインターフェースを介してRMA 
15 c内のこれらのバッファにアクセスでき、必要な
機能が物理的に実現される。CPC20は1次保守(P
RI MA I NT)インターフェース20aと2次
保守(SECMAINT)インターフェース20bを含
む。1次保守インターフェース20aは論理的に2つの
部分、すなわち、1次ユニットと2次マスク・イメージ
・ユニット(図示せず)に分かれる。1次ユニットは、
RMA15cと2次保守インターフェース20bの間で
データをバスする移動インターフェースとして働く。2
次マスク・イメージ・ユニットは、1次ユニットがある
クロック保守カード上の論理機能を操作し、かつ2次保
守インターフェース2Ob上の他のすべての2次ユニッ
トを比較して動作が適切に行なわれることを確認する際
の基準となる2次ユニットとしても機能する。2次保守
インターフェース20bは、5P10から要求される動
作を実際に実行する。2次保守インターフェース20b
チツプは、通常、CPC20のあらゆるカード上にあり
、CPC20の各論理チップとのインターフェースを取
る。このため、論理チップの走査を行なうことができる
。第5図では、1次保守インターフェース20aは、拡
張並列保守インターフェース(EPMI)を介して5S
A15のRMA 15 cに接続されている。1次保守
インターフェース20aは、(第4図に示すように)C
PC20の各カードの2次保守インターフェース20b
に接続され、2次保守インターフェース20bはCPC
20の各カード上の各論理チップとのインターフェース
を取る。
第6図に、第5図の1次保守インターフェース20aの
より詳しい構成を示す。
第6図で、1次保守インターフェース20aは、第1の
論理部分20alと第2の論理部分20a2を含む。第
1論理部分20a1は、2次保守インターフェース20
bから1次保守インターフェース(PM、I)システム
割込み線を受け、システム割込みレジスタ20al(b
)に接続される方向制御論理機能20al(a)を含む
。システム割込みレジスタ20al(b)には、5SA
15の5OLOマイクロプロセツサ15b内で実行され
るR−MAP  DE (0: 15)コマンドが入る
システム割込みレジスタ20al (b)は、第2論理
部分20a2のORゲート20a2 (a)に接続され
ている。第2論理部分20a2は、第2論理部分20a
2の割込み状況レジスタ20a2(b)のある位置に接
続されたORゲート20a2(a)を含み、状況レジス
タ20a2 (b)には、5SA15の5OLOマイク
ロプロセツサ15b内で実行されるR−MAP  FO
(0: 4)コマンドが入る。状況レジスタ20a2 
(b)は第2論理部分20a2のORアゲ−20a2 
(c)に接続され、このORゲートは、5SA15のR
MA15cを付勢するシステム割込み信号を生成する。
割込み状況レジスタ20a2 (b)は、5ビツトを保
持でき、各ビットが、特定の割込み状況形式を表わす。
これらの各形式を、第6図で、割込み状況レジスタ20
a2 (b)の隣にリストする。
第7図に、第5図の2次保守インターフェース20bの
より詳しい構成を示す。
2次保守インターフェース20bは、割込み形式レジス
タ20blを含む。レジスタ20blは、CPC20の
各カード上の論理チップからの割込み線を受ける。割込
み形式レジスタ20b1には、5SA15の5OLOマ
イクロプロセツサ15b内で実行されるR−MAP  
DO(1: 8)コマンドが入る。割込み形式レジスタ
20b1はORゲート20b2に接続され、ORアゲ−
20b2は、1次保守インターフェース20aを付勢す
るシステム割込み信号を生成する。割込み形式レジスタ
20b1は、8ビツトを保持でき、各ビットが特定の割
込み形式を表わす。割込み形式を、第7図で割込みレジ
スタ20blの隣にリストする。
以下では、第5図ないし第7図を主に参照し、第1図な
いし第4図を補助的に参照して、本発明の保守支援サブ
システム(MSS)の機能の説明を行なう。
システム支援アダプタ(SSA)15は、支援プロセッ
サ(SP)10と主プロセツサの中央プロセッサ複合体
(CPC)20の間に配設されている。5SA15は、
CPC20から5PIOに向かう途中の機械チエツク信
号を傍受する。この信号を受けると、5SA15はCP
C20に照会して、機械チエツク及びその結果発生する
損害を分離するのに不可欠な誤りデータをすべて収集し
てから、5P10に機械チエツク信号と誤りデータを同
時に提示する。機械チエツク誤りデータ収集機構(第5
図参照)は主プロセツサのCPC20上にあり、CPC
のあらゆる論理カード上の事前定義されたレジスタ位置
に入る1マイクロコードで駆動される一連の迅速保守ア
クセス経路(RMAP)コマンドを起動する。これらの
レジスタの内容が、5SA15に送られる。RMAPコ
マンドは独立した固有の保守クロックだけに基づいて実
行されるので、システム・クロックは、データの収集中
にどの論理カード上でも停止する必要はない。保守クロ
ックはCPCクロック速度で動作する。事前定義された
レジスタ位置から収集された誤りデータは、機械チエツ
クの発生源、(チエツクの広がりを示す)機械チエツク
のレベル、及び機械チエツクの形式(たとえば、システ
ム機械チエツクか保守形式の機械チエツクか)を記述す
る。誤りデータが5SA15によって収集され5SA1
5のメモリ・バッファ記憶域に記憶された後、5SA1
5により機械チエツク割込み信号が重要な誤り情報と同
時に5P10に提示される。5ptoは、システム内で
の割込みの量を制限しながらより好都合な形で必要なサ
ービスを行なうので、ダウン時間が最小となり、システ
ム全体の可用性が増大する。
第5図で、各2次保守インターフェース20bはそれぞ
れCPC20のカード上に常駐する。特定の2次保守イ
ンターフェース20bがその関連するカードから機械チ
エツク割込み信号を傍受すると、その2次保守インター
フェースは、PMIシステム割込み線を活動状態の1次
保守インターフェース20aにセットする。すなわち、
第6図の方向制御論理機能20a1(a)に入力される
PMIシステム割込み線は活動状態にある。その結果、
第6図の1次保守インターフェース20aのシステム割
込みレジスタ20al (b)がセットされ、第6図の
1次保守インターフェース20aのシステム割込み状況
ラッチ20a2 (b)がセットされる。したがって、
第6図の1次保守インターフェース20aのORゲート
20a2 (c)から5SA15のRMA 15 cに
出るシステム割込み線が活動状態になる。それを受けて
、第5図において、RMA15cが5OLOマイクロプ
ロセツサ15bを解釈し、その結果、SSAメモリ・ラ
ンダム・アクセス・メモリ(RAM)に常駐する割込み
処理コードが壊れる。割込み処理コードは一連のRMA
P読取りコマンドを含む。これらのコマンドは主プロセ
ツサのCPC20の各カードに常駐する2次保守インタ
ーフェースから誤り/機械データを収集するように、設
計されている。
5OLOマイクロプロセツサ15bは、割込み処理コー
ドに関連するHMAP読取りコマンドを実行して、2次
保守インターフェースから誤り/機械データを収集する
。誤り/機械データは、機械チエツクを示したCPC2
0の各カード上の各2次保守インターフェースから5S
A15によって以下の方法で収集される。
(1)第6図で、5SA15の5OLOマイクロプロセ
ツサ15bによって実行される読取りコマンドFO(0
:4)は、第6図の1次保守インターフェース20aの
割込み状況レジスタ20a2(b)の内容を提供する。
このコマンドはCPC20内で発生する割込みの形式を
捕捉する。
(2)第6図で、5OLOマイクロプロセツサ15bに
よって実行される読取りコマンドDE(0:15)は、
第6図の1次保守インターフェース20aのシステム割
込みレジスタ20al (b)に入る。このコマンドは
2次保守インターフェースから傍受された割込み信号の
発生源を捕捉する。
(3)第7図で、5OLOマイクロプロセツサ15bに
よって実行される読取りコマンドDE3(1:8)は、
CPC20の各論理カード上のシステム割込みレジスタ
20a (1)bによって指示される、第7図の各2次
保守インターフェース20bの割込み形式レジスタ20
b1に入り、機械チエツク割込みのレベルを捕捉する。
このレベルは、事前定義された現場交換可能ユニッ) 
(FRU)の境界内で行なわれるクロック動作を示し、
このクロック動作は再試行概念の一環として設計されて
いる。
(4)SSA15の5OLOマイクロプロセツサ15b
によって実行される読取りコマンドO〇−0F(図示せ
ず)は、いくつかの捕捉及びロックアウト・レジスタ、
ならびに各論理カードの2次保守インターフェースの機
械チエツク・ラッチに入り、論理カードで生じたすべて
の機械チエツクを捕捉し、(欠陥分離のため)最初の機
械チエツクの発生を決定する。これは、機械チエツクが
生じたことを示した各2次保守インターフェースについ
て行なわれる。
(5)第7図で、5OLOマイクロプロセツサが、機械
チエツクが存在していることを示した各1次保守インタ
ーフェース20aごとに読取りコマンド0A−OFを実
行することが可能である。この読取りコマンドの実行の
結果は、どの2次保守インターフェースが機械チエツク
を捕捉したかを示すと共に(追加的欠陥分離のために)
機械チエツクを示す第1の2次保守インターフェースを
示す。
割込み形式1の機械チエツクでは(割込み形式1の機械
チエツクがレベル1/2機械チエツクであることを示す
第7図を参照)、機械チエツクを示したCPC20の各
カード上の各2次保守インターフェースを完全に走査し
て、その機械チエツクに関する詳細な情報を得ることも
可能である。
初期機械チエツク割込み信号を5SA15の5OLOマ
イクロプロセツサ15bが受け取り、全ての誤り/機械
データを5OLO15bが上記の手順に従って収集した
後、5OLO15bによって収集された初期機械チエツ
ク割込み信号とすべての誤り/機械データが、分析、回
復及び記録のため同時に5SA15から支援プロセッサ
に送られる。再試行マイクロコードがSPによって呼び
出されると、機械チエツクが発生したことが明らかなだ
けでなく、初期分析及び回復手順を実行するのに十分な
量の機械チエツクについての情報もあることが明らかで
ある。場合によっては、CPC20に追加データを供給
する必要なくチエツクを完全に分析するのに十分な情報
が利用できることがある。これは、機械チエツク発生1
回当りのサービス・タイムを減少させるには非常に重要
なことである。関連する機械チエツク・データと機械チ
エツク割込み信号をSPへ同時に送ることにより、処理
や機械チエツクからの回復に必要な時間が減る。従来技
術では、機械チエツク情報は、プロセッサのダウン時間
を犠牲にして、SPのラッチ値を走査し比較する長い処
理によってしか決定できなかった。機械チエツク割込み
信号と一緒にSPに送られるデータは、機械チエツクの
数、位置、レベル(形式)及び順序を示す。SP中の再
試行マイクロコードは、この情報から機械チエツクを分
析し、もっとデータを得るために走査が必要かつ可能で
あるかどうか判定することができる。
割込み形式1の機械チエツク(第7図番M)では、2次
保守インターフェースについての走査データも機械チエ
ツク割込み信号と一緒に送られる場合、再試行マイクロ
コードはそれ以上の走査を必要としない。再試行マイク
ロコードは、データを分析した後、機械チエツクから回
復するためにCPCに送る必要のあるリセットまたは再
構成あるいはその両方を決定する。次いで再試行マイク
ロコードは可能ならプロセッサを再起動する。最後に、
機械チエツク・データが将来の参照及び分析のため記録
される。SPに初期割込み信号と誤り/機械データの両
方が同時に提示されるため、問題の領域を分離してアド
レスできるので、SPはシステム・レベルの干渉の量を
制限することができる。
マルチプロセッサ構成では、この結果、システムの可用
性が増大する。
第8図に、1次保守インターフェース20aの保守割込
み収集機能を示す。
第8図で、保守割込み収集機能は、第6図に示したもの
と同じ第2の論理部分20a2を含むが、それは第3の
論理部分20a3に接続されている。
第3論理部分20a3は、ロックアウト論理機能20a
3 (a)を含み、論理機能20a3 (a)は、CP
C20の各カード上にある2次保守インターフェース2
0bからのPMI保守割込み(1次保守割込み)線に接
続されている。ロックアウト論理機能20a3 (a)
は、MNT割込みレジスタ20a3 (b)に接続され
、MNT割込みレジスタ20a3 (b)には、5OL
Oマイクロプロセツサ15bで実行中のRAMP  F
E (0:15)読取りコマンドが入る。MNT割込み
レジスタ20a3 (b)の各ビットは、ANDゲート
20a3 (d)中のMNT割込みマスク・レジスタ2
0a3 (c)の同様のビットに接続され、ANDゲー
ト20a3 (d)の出力は、第2論理部分20a2の
ORゲート20a2 (a)の入力に接続されている。
第3論理部分20a3は、ORゲー1−20a2 (a
)に接続されたMNT割込みマスク・レジスタ20a3
 (c)を含む。通常通り、第6図及び第8図に示した
第2論理部分のORゲート20a2 (c)は、5SA
15のRMA15cに通じるシステム割込み線をもつ。
次に、第8図の保守割込み収集機能の動作について詳し
い機能の説明を行なう。
5SA15のRMA 15 cに伝えられる割込みの形
式は5種ある。(1)2次保守割込み、(2)検査バイ
ト不一致割込み、(3)2次システム割込み、(4)無
効コマンド割込み、及び(5)無効2次割込み。上記の
いずれかの割込みと関連する初期システム割込み信号は
、第8図に示すように、読取りコマンドR−MAP  
FO(0: 4)を用いて1次保守インターフェース2
0aの第2論理部分20a2の割込み状況レジスタ20
a2(b)の内容を読み取ることにより、1次保守イン
ターフェース20aレベルで検出される。以下で、これ
らの割込み、それに関連するハードウェア及びそれにサ
ービスするのに必要なステップについて説明する。
1次保守インターフェース20aと2次保守インターフ
ェース20bの間の通信信号に問題が発生したり、特定
の2次保守インターフェース20bによって監視される
チップ上にデータ・パリティが存在すると、その特定の
2次保守インターフェース20bは、関連する1次保守
インターフェース20aに通じるそのPMI保守割込み
線を、割込みの発生を示すようにセットする。そうする
と、第8図に示すように、関連する1次保守インターフ
ェース2Oa中で、MNT割込みレジスタ20a3 (
b)の保守割込みレジスタ・ビットがセットされ、MN
T割込み状況ラッチ20a2 (b)がセットされる。
このため、第8図の1次保守インターフェース20aは
、5SA15のRMA 15Cに通じるシステム割込み
線をセットする。RMA 15 cに通じるシステム割
込み線がセットされると、第2論理部分20a2の割込
み状況ラッチ20a2 (b)(7)内容が、5OLO
?イクロプロセツサ15bで実行中の読取りコマンド、
R−MAP  FO(0: 4)に応じてRMA 15
 cを介して5OLOマイクロプロセツサ15bに読み
取られ1発生した割込みの形式が判定される。RMA 
15 cに伝えられた割込みが、「2次保守割込み」と
呼ばれる形式である場合、保守割込みビット、すなわち
割込み状況ラッチ20a2 (b)のビット・ゼロがセ
ットされる。特定の障害のある2次保守インターフェー
ス20b(複数個あることがある)の識別は、5SA1
5の5OLOマイクロプロセツサで実行中の読取りコマ
ンドR−MAP  FE (0:15)を用いてMNT
割込みレジスタ20a3 (b)を読み取ることによっ
て決定できる。MNT割込みレジスタ20a3 (b)
のいずれかのビット位置が「1」になると、その「1」
が入っているレジスタ20a3 (b)のビット位置で
識別される特定の2次保守インターフェース20bに誤
りがあったことを示す。誤りのある2次保守インターフ
ェースが複数個あることもある。したがって、MNT割
込みレジスタ20a3(b)の様々なビット位置に複数
の「1」ビットが記憶されていることもある。複数の2
次保守インターフェース20bに誤りがある場合、各2
次保守インターフェースに別々にサービスしなければな
らない。次に、2次保守インターフェースからの割込み
を禁止して、1次保守インターフェース20aと5SA
15のRMA 15 cの間で、拡張並列保守インター
フェース(E PM I )システム割込み線を低レベ
ルにして、他のシステム割込みが検出できるようにしな
ければならない。2次保守インターフェースからの割込
みを禁止するため、第8図のMNT割込みマスク20a
3 (c)の内容を、5OLOマイクロプロセツサ15
bで実行中の書込みコマンドR−MAP  FE (0
:15)に応じて5OLOマイクロプロセッサ15bが
書き込む。「保守割込み禁止」コマンド(1MM  F
E)がマイクロプロセッサ15bによって発行される。
その結果、割込みレジスタ20a3(d)内の(MNT
マスク・レジスタ20a3(C)の「1」ビットによっ
て指示される)割込みを禁止しなければならない2次保
守インターフェースに対応するビット位置に「1」が重
ね書きされる(他のビット位置は「0」である)。2次
保守インターフェース20bからの割込みを禁止すると
、マイクロプロセッサ15bは2次保守インターフェー
スを走査することにより2次保守インターフェースに照
会することができる。受け取った誤りデータはマイクロ
プロセッサ15bによって処理される。問題の判定後に
、その2次保守インターフェース及びそれに関連する割
込み経路をリセットしなければならない。そうするには
、5pioに記憶された所定のテーブルから5PIO中
の関連する初期マイクロコード・ロード(■ML)デー
タを走査する。1次保守インターフェース20aのMN
T割込みレジスタ20a3 (b)をリセットしなけれ
ばならない。このレジスタをリセットするには、対応す
るMNT割込みマスク20a3 (c)を、リセットが
必要なビット位置に「1」を入れて(他のビット位置は
「0」)重ね古きしなければならない。5OLOマイク
ロプロセツサ15bによって実行されるrMNT割込み
リセットJ  (IMM  F2)コマンドが、割込み
20a3 (c)にこの「1」を重ね書きする。
最後に、MNT割込みを可能にしなければならない。
第9図に、1次保守インターフェース20a検査バイト
不一致割込み収集機能を示す。
第9図で、検査バイト不一致割込み収集機能は、第6図
に示したものと同じ第2の論理部分20a2を含むが、
それは第4の論理部分20a4に接続されている。第4
論理部分20a4は、CPC20の各カード上にある2
次保守インターフェース20bからのPMII次保守割
込みシステム割込み線に接続された方向制御論理機能2
0a4(a)を含む。方向制御論理機能20a4 (a
)は、CBM(検査バイト不一致)割込みレジスタ20
a4 (b)に接続され、割込みレジスタ20a4 (
b)には5OLOマイクロプロセツサ15bで実行中の
HMAP  FC(0: 15)読取りコマンドが入る
。08M割込みレジスタ20a4(b)は、割込みマス
ク20a4 (b)の関連ビ。
トをもつANDゲート20a4 (d)を介して第2論
理部分20a2のORアゲ−20a2 (a)の入力に
接続されている。第3論理部分20a3も、ORゲート
20a2 (a)に接続された08M割込みマスク・レ
ジスタ20a4 (c)を含む。
通常通り、第6図及び第9図に示すように第2論理部分
のORアゲ−20a2 (c)は5SA15のRMA 
15 cへのシステム割込み線をもつ。
次に、第9図の検査バイト不一致割込み収集機能の動作
について機能の説明を行なう。
CPC20の論理チップはそれぞれ走査、リングと呼ば
れるものを含む。誤りデータの有無について2次保守イ
ンターフェース20b論理チツプが走査された後、2次
保守インターフェース20bは、走査リング中に走査さ
れた最初の検査バイトと走査リングから走査された最後
のバイトの比較を行なう。不一致が検出されると、2次
保守インターフェース20bは、所定の1サイクル・ウ
ィンドウの間に線上に誤り信号を載せることにより、P
MIシステム割込み線を使って誤り信号を1次保守イン
ターフェース20aに提示する(他の場合には、この線
は通常のシステム割込み信号を提示する)。1次保守イ
ンターフェースは、この誤りを検出すると、検査バイト
不一致(CBM)レジスタ、08M割込みレジスタ20
a4 (b)の1ピツトをセットする。したがって、0
8M割込み杖況ラッチ20a2 (b)がセットされ、
そのために1次保守インターフェースが、5SA15の
RMA 15 cに通じる「システム割込み」線をセッ
トする。RMA15c(rシステム割込み」線)に通じ
る検査バイト不一致割込み線がセットされると、5SA
15の5OLOマイクロプロセツサ15cで実行中の読
取りコマンドR−MAPF (0: 4)に応じて、割
込み状況レジスタ20a2 (b)が読み取られ、発生
した割込みの形式が決定される。検査バイト不一致割込
みが発生すると、08M割込みレジスタ20a4 (b
)のビットが、関連する2次保守インターフェース20
bからのPMIシステム割込み線によってセットされる
。したがって、2次保守インターフェース20bは、0
8M割込みレジスタ20a4 (b)を読み取ることに
よって識別できる。08M割込みレジスタ20a4 (
b)には、5SA15のS。
LOマイクロプロセッサ15bで実行中の読取りコマン
ドR−MAP  FC(0:15)が入る。
レジスタ20a4 (b)の任意のビット位置が「1」
になると、レジスタ20a4(b)のビット位置で示さ
れる、対応する2次保守インターフェース20bに誤り
があることを示す。複数の2次保守インターフェースに
誤りがある場合、レジスタ20a4 (b)中に複数の
対応する「1」ビットが現われ、それぞれ個別にサービ
スしなければならない。次に、2次保守インターフェー
スからの割込みを禁止しなければならない。そうすると
、1次保守インターフェース・システム割込み線が低レ
ベルになり(EPMI線)、他の割込みが検出できる。
障害のある2次保守インターフェースからの割込みを禁
止するには、rCBM割込み禁止」コマンド(IMM 
 FC)を、5OLOマイクロプロセツサ15bが出さ
なければならない。このコマンドは、08M割込みマス
ク・レジスタ20a4 (c)の割込み禁止が必要なビ
ット位置、すなわち、障害のある2次保守インターフェ
ースに対応するビット位置に「1」を重ね書きする(他
のビット位置は「0」のままである)。
次に、5OLOマイクロプロセツサ15bは、診断コマ
ンドを用いて2次保守インターフェース20bに照会し
、受け取った誤りデータをそれに応じて処理することが
できる。誤りデータを受け取って処理した後、2次保守
インターフェース及び関連する割込み経路をリセットし
なければならない。
2次保守インターフェースはrCBMリセットコマンド
」によって2次レベルでリセットされる。
次いで、1次保守インターフェースの08M割込みレジ
スタ20a4 (b)を、リセットしなければならない
。このレジスタをリセットするには、5OLOマイクロ
プロセツサ15bが、rCBM割込み」コマンドを実行
する。このコマンドは、08M割込みマスク20a4 
(c)のリセットが必要な位置に「1」を書き込む。こ
れによって、08M割込みレジスタ20a4(b)がリ
セットされる。
以上、本発明について説明したが、様々な変形が可能な
ことは明らかである。こうした変形は本発明の精神及び
範囲からの逸脱とみなされず、当業者にとって自明な修
正は、すべて頭足の特許請求の範囲に含まれるものと意
図される。
E1発明の効果 本発明により、初期機械チエツク割込み信号、機械チエ
ツクの発生源、及び損害の程度を同時にコンピュータ・
システムの支援プロセッサにm示することかできる。
【図面の簡単な説明】
第1図は、本発明の誤り割込み・誤りデータ収集システ
ムの概略説明図である。 第2図は、従来技術の誤り割込み・誤りデータ収集シス
テムの概略説明図である。 第3図は、第1図の誤り割込み・誤りデータ収集システ
ムの3次元概略説明図である。 第4図は、第3図の支援プロセッサ(SP)と中央プロ
セッサ複合体(CPC)に接続された第3図のSSAカ
ードのより詳細な説明図である。 第5図は、第4図のSSAカードに接続された第1図、
第3図及び第4図のCPCのより詳細な説明図を含む、
本発明による、保守支援サブシステム(MSS)の説明
図である。 第6図は、第5図の1次保守(PRIMAINT)イン
ターフェースのうち、1次システム割込み収集機能を表
わす部分の実施例を示す説明図である。 第7図は、第5図の2次保守(SECMAINT)イン
ターフェースのうち、2次システム割込み収集機能を表
わす部分の実施例を示す説明図である。 第8図は、第5図の1次保守インターフェースのうち、
1次保守割込み収集機能を表わす別の部分の実施例を示
す説明−である。 第9図は、第5図の1次保守インターフェースのうち、
1次チェックバイト不一致割込み収集機能を表わすさら
に別の部分の実施例を示す説明図である。 10・・・・支援プロセッサ(SP)、15・・・・シ
ステム支援アダプタ(SSA)、15a・・・・LAN
インターフェース、15b・・・・5OLOマイクロプ
ロセツサ、15c・・・・迅速保守アクセス(RMA)
アダプタ、20・・・・中央プロセッサ複合体(CPC
)、20a・・・・1次保守インターフェース、20b
・・・・2次保守インターフェース。 出願人  インターナショナル・ビジネス・マシーンズ
彎コーポレーシ騨ン 代理人  弁理士  頓  宮  孝  −(外1名) 第5回 第2国 第3」 i7− D e 9ア 2次イ$イ4シターフ丁−人n′うつ

Claims (2)

    【特許請求の範囲】
  1. (1)誤りデータの存在を検出するための信号を中央プ
    ロセッサにおける各論理カードについて発生して、前記
    信号に応答して割込みを発生し、1次保守インターフェ
    ースで前記論理カードから発生したすべての割込みを収
    集して、システム割込み状況レジスタに受け取った各割
    込みの形式の指示データを記憶するとともに、システム
    割込みレジスタに発生した割込み信号の発生源データを
    記憶し、 前記1次保守インターフェースでの前記割込みの受取り
    に応答してシステム割込みを発生して、前記システム割
    込みをシステム支援アダプタに伝送し、 発生された割込みの形式及び当該割込みを生成した論理
    カードを決めるために前記システム割込みレジスタの内
    容を読み取る読取りコマンドを、前記システム支援アダ
    プタ中のプロセッサから前記1次保守インターフェース
    に発生し、 前記システム支援アダプタにより読み取られたすべての
    前記割込みデータを支援プロセッサへ提示する、 ことを含む誤り割込みデータの収集方法。
  2. (2)中央プロセッサの複数の論理カードの各々に関係
    付けられ、各論理カードの動作を検査するために各論理
    カードにおいて複数の保守動作を実行し、前記保守動作
    より生成された誤りデータを記憶し、データの誤りが発
    生したときには割込みを発生する2次保守インターフェ
    ースと、 前記2次保守インターフェースにより発生された割込み
    を収集する1次インターフェースと、前記2次保守イン
    ターフェースからデータを読み取り、前記1次インター
    フェースが割込みを受け取るときを監視しかつ前記読み
    取ったデータをローカル・エリア・ネットワークを通し
    て転送するプロセッサを含むシステム支援アダプタと、
    前記ローカル・エリア・ネットワークを介して前記シス
    テム支援アダプタに接続され、前記データを受け取って
    ログを行う支援プロセッサと、を備えた誤り割込みデー
    タの収集システム。
JP1099052A 1988-06-30 1989-04-20 機械チェック割込み要求の収集分析方法及び収集分析システム Granted JPH0227450A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US213560 1988-06-30
US07/213,560 US5267246A (en) 1988-06-30 1988-06-30 Apparatus and method for simultaneously presenting error interrupt and error data to a support processor

Publications (2)

Publication Number Publication Date
JPH0227450A true JPH0227450A (ja) 1990-01-30
JPH0465411B2 JPH0465411B2 (ja) 1992-10-20

Family

ID=22795576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1099052A Granted JPH0227450A (ja) 1988-06-30 1989-04-20 機械チェック割込み要求の収集分析方法及び収集分析システム

Country Status (4)

Country Link
US (1) US5267246A (ja)
EP (1) EP0348704B1 (ja)
JP (1) JPH0227450A (ja)
DE (1) DE68922440T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2268292A (en) * 1992-06-16 1994-01-05 Ibm Error handling in a state-free system
US5515501A (en) * 1994-01-21 1996-05-07 Unisys Corporation Redundant maintenance architecture
US5864659A (en) * 1995-03-07 1999-01-26 Intel Corporation Computer server with improved reliability, availability and serviceability
US5675768A (en) * 1996-02-01 1997-10-07 Unisys Corporation Store software instrumentation package instruction
US6000040A (en) * 1996-10-29 1999-12-07 Compaq Computer Corporation Method and apparatus for diagnosing fault states in a computer system
US6557121B1 (en) 1997-03-31 2003-04-29 International Business Machines Corporation Method and system for fault isolation for PCI bus errors
US6119246A (en) * 1997-03-31 2000-09-12 International Business Machines Corporation Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
US6065139A (en) * 1997-03-31 2000-05-16 International Business Machines Corporation Method and system for surveillance of computer system operations
US5951686A (en) * 1997-03-31 1999-09-14 International Business Machines Corporation Method and system for reboot recovery
US6502208B1 (en) 1997-03-31 2002-12-31 International Business Machines Corporation Method and system for check stop error handling
US5872956A (en) * 1997-04-24 1999-02-16 International Business Machines Corporation Design methodology for device drivers supporting various operating systems network protocols and adapter hardware
US6634505B1 (en) * 1999-04-26 2003-10-21 Durex Products, Inc. Sieve bed for a sifting machine
US6957741B2 (en) * 2001-08-07 2005-10-25 Manfred Franz Axel Freissle Screening arrangement
US7533299B2 (en) * 2002-10-29 2009-05-12 Stmicroelectronics S.A. Temporal correlation of messages transmitted by a microprocessor monitoring circuit
US7339885B2 (en) * 2003-06-05 2008-03-04 International Business Machines Corporation Method and apparatus for customizable surveillance of network interfaces
US7367016B2 (en) * 2003-07-14 2008-04-29 Sun Microsystems, Inc. Method and system for expressing the algorithms for the manipulation of hardware state using an abstract language
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US8122291B2 (en) * 2010-01-21 2012-02-21 Hewlett-Packard Development Company, L.P. Method and system of error logging
JP2016186719A (ja) * 2015-03-27 2016-10-27 富士通株式会社 入出力制御装置、情報処理装置及び入出力制御装置の制御方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56118128A (en) * 1980-02-22 1981-09-17 Matsushita Electric Ind Co Ltd Interruption controlling system for peripheral control chip of microcomputer

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3930146A (en) * 1974-01-18 1975-12-30 Gte Automatic Electric Lab Inc Input/output controller maintenance arrangement for a communication switching system
DE3237716C2 (de) * 1982-10-12 1984-09-06 Aeg-Elotherm Gmbh, 5630 Remscheid Wechselrichter für einen Parallel-Schwingkreis-Umrichter
JPS59100959A (ja) * 1982-12-02 1984-06-11 Hitachi Ltd 複合プロセツサシステム
NO843375L (no) * 1983-10-06 1985-04-09 Honeywell Inf Systems Databehandlingssystem og fremgangsmaate til vedlikehold samt anrodning
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US4701845A (en) * 1984-10-25 1987-10-20 Unisys Corporation User interface processor for computer network with maintenance and programmable interrupt capability
US4868818A (en) * 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56118128A (en) * 1980-02-22 1981-09-17 Matsushita Electric Ind Co Ltd Interruption controlling system for peripheral control chip of microcomputer

Also Published As

Publication number Publication date
DE68922440D1 (de) 1995-06-08
US5267246A (en) 1993-11-30
EP0348704B1 (en) 1995-05-03
EP0348704A3 (en) 1991-08-07
EP0348704A2 (en) 1990-01-03
JPH0465411B2 (ja) 1992-10-20
DE68922440T2 (de) 1996-01-25

Similar Documents

Publication Publication Date Title
JPH0227450A (ja) 機械チェック割込み要求の収集分析方法及び収集分析システム
JPH01154240A (ja) 単一レールインターフェイスにエラーチェック機能を有する二重レールプロセッサ
JPH02202638A (ja) 多重プロセッサを備えたフォールトトレラントなコンピュータシステム
JPH01154241A (ja) 同期二重コンピュータシステム
JPH03184130A (ja) ソフトウェアの誤り処理方法
JP2996440B2 (ja) データ処理システムの診断方式
JPH0934809A (ja) 高信頼化コンピュータシステム
EP1380950B1 (en) Fault tolerant information processing apparatus
US5742851A (en) Information processing system having function to detect fault in external bus
JP2001356968A (ja) 故障許容データ格納システムおよび故障許容データ格納システムの動作方法
US5140593A (en) Method of checking test program in duplex processing apparatus
JP3127941B2 (ja) 二重化装置
JPS6112580B2 (ja)
JP2645021B2 (ja) バス異常検査システム
JP3340284B2 (ja) 冗長システム
JPS61195444A (ja) コンピユ−タシステム
JPH079636B2 (ja) バス診断装置
JP3019409B2 (ja) マルチプロセッサシステムのマシンチェックテスト方法
JPS6119060B2 (ja)
JPH0474241A (ja) 障害処理方式
JP3015537B2 (ja) 電子計算機の二重化方式
CA1269141A (en) Task synchronization arrangement and method for remote duplex processors
JPH02133848A (ja) データバスのチェック方法
JPH06161797A (ja) データ処理装置
JPH103435A (ja) チャネル装置の障害検出方法及びこれを用いた入出力制御装置