JPH11296311A - 記憶装置の耐故障制御方式 - Google Patents

記憶装置の耐故障制御方式

Info

Publication number
JPH11296311A
JPH11296311A JP10095689A JP9568998A JPH11296311A JP H11296311 A JPH11296311 A JP H11296311A JP 10095689 A JP10095689 A JP 10095689A JP 9568998 A JP9568998 A JP 9568998A JP H11296311 A JPH11296311 A JP H11296311A
Authority
JP
Japan
Prior art keywords
fault
failure
bus
counter
data transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10095689A
Other languages
English (en)
Inventor
Takeo Fujimoto
健雄 藤本
Hisao Honma
久雄 本間
Osamu Sakaguchi
治 阪口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP10095689A priority Critical patent/JPH11296311A/ja
Publication of JPH11296311A publication Critical patent/JPH11296311A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】記憶装置における耐障害制御方式の一手法を提
案し、複数の論理パスがあり、共通部位を含む記憶装置
における障害発生に対し、正しい故障部位の特定、切り
離しをオンライン動作中に自動的に行う。それにより、
障害の続発を抑止し、システムの信頼性を向上させる。 【解決手段】システムを構成し、切り離し可能な各部位
毎に障害検出回数を記憶するカウンタを設け、またその
カウンタ値を総合的に判定する論理を具備する。本発明
方式は部位毎の障害発生回数の統計より、故障部位の高
精度の特定を目的とし、それにより故障部位をシステム
より排除し、正常部位を用いたシステム動作を継続可能
とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】その一方、コンピュータシス
テムの構成において、複数論理アクセス経路(以下では
論理パス)を有しながらも物理的に共通部位を持つこと
が多くなっている。例えば、構成各コンポーネントを共
通バスに接続するバス結合方式は、システムの構成変
更、拡張が容易のため広く用いられている。しかし共通
部位を持つことにより、個別の障害が全体に影響を及ぼ
したり、1つの障害発生が他の障害を併発させたりする
など、障害部位の特定も難しくなっている。
【0002】本発明はこのような障害部位特定の問題に
対し、1つの解決方法を提案している。障害部位特定の
精度を向上させることにより、故障部位の切り離しが正
確に行え、結果的にシステム全体の信頼性をも向上可能
となる。
【0003】
【従来の技術】近年、記憶装置に対する信頼性の要求が
高まっている。特に無停止システムの構築に際し、高信
頼性を持つ記憶装置は欠かせないものとなった。そのた
め制御部を含むシステムの各構成要素はすべて冗長性を
持たせ、故障部位さえ特定し、切り離せれば、代替コン
ポーネントによるシステム動作が継続可能となる。
【0004】検出した障害内容により、1回の障害検出
ですぐ故障部位を特定し、当該部位を閉塞する方式が多
く用いられている。しかし、そのためには複雑で高度な
障害検出構成が必要となり、また恒久的に発生しない一
時的なノイズにもすぐに閉塞を行い、システムの冗長度
を下げかねない。
【0005】それに対し、ハード的な部位ごとに障害検
出回数を累計し、あらかじめ設定された固定しきい値を
越えれば、当該部位を故障発生部位と判定してシステム
より切り離す方式もあった。しきい値を越えない回数
の、一時的なノイズでは閉塞に結びつかないので過閉塞
をある程度回避可能である。但し、システム共通部位を
有し、各部位が複雑に絡み合うシステムにおいては、1
ヵ所の障害で複数の論理パスに影響を来たすことがあ
り、複数の部位で障害回数が加算されることも考えられ
る。その場合、単純なしきい値チェックのみで故障部位
を正確に特定することは難しい。
【0006】
【発明が解決しようとする課題】記憶装置における障害
リカバリ処理で特に重要なのは、システム動作しながら
故障部位を抽出、切り離すことである。しかし、システ
ムを構成する各コンポーネントを共通バスに接続するバ
ス結合方式など、共通部分を持つシステムにおいては、
単体の故障によってシステム全体に障害が波及すること
があり、故障していない部位も一時的に正常動作できな
い恐れがある。その場合においても、障害元となる故障
部位をいかに正しく判定し、障害の再発を断ち切るか
が、システム信頼性確保における重要な課題である。
【0007】複数論理パスがあるシステムにおける単体
故障発生時、本発明方式の適用により、故障部位を高い
確率で指摘可能となり、当該故障部位をシステムから切
り離すことで、システムの継続動作を保証する。また、
共通バスなど特に各論理パスとも複雑に絡み合う部位に
ついては、故障部位の閉塞後にも引き続きに障害発生状
況を監視でき、障害が収束しない時には一旦閉塞したバ
スを回復するなどリカバリを行う。
【0008】
【課題を解決するための手段】上記課題の達成を目的と
し、本発明ではシステムを切り離し可能な複数部位に分
け、それぞれの障害発生回数を計数し、障害回数の総合
的な判断から故障部位の特定を行う。ここで総合的な判
断というのは、1つの部位の故障判定についてはその部
位の障害発生回数のみならず、他の部位およびシステム
全体の障害発生回数とも比較、判定するため、バスなど
共通部位が故障した場合は、それを使用する各論理パス
で障害が検出されることが予想され、単一部位の障害検
出回数が先にしきい値を越えても他の部位と比べて回数
が突出して大きくなれば、共通部位故障の疑いがあり、
簡単に当該単一部位を閉塞しないような論理とする。
【0009】具体的には、例えばある共通部位を共用す
る複数パスがあり、それぞれの使用頻度がほぼ同一レベ
ルであるとする。共通部位の故障時、各パスにおける障
害発生回数は全体の算数平均に近いはず、1つのパスに
のみ影響する単一部位の障害時、当該パスの障害発生回
数だけが多く、他のパスの障害回数がほとんどないは
ず。実際各パスに計数された障害回数を、前記期待結果
との相似を計算すれば、共通部位の障害が、当該単一部
位の故障かを判定可能である。
【0010】複数論理パスを備える記憶制御装置にお
き、本発明方式を用いることにより、複数パス共通部位
の故障か、単一パスのみに影響する個別部位の故障かを
区別することが可能。個別部位の故障であれば、当該論
理パスを閉塞してシステムから切り離すなどを行い、シ
ステム全体への影響を抑止する。共通部位の故障と判定
したとき、冗長度を具備したシステムであれば、その共
通部位の部分縮退を施すことにより、不要なパス閉塞を
行うことなくシステム動作を続行できると考えられる。
【0011】また本発明方式により、共通部位の部分縮
退を実行した後にも障害発生回数を統計し、障害の発生
が収束しない場合には縮退した共通部位を回復し、共通
部位の他の部分または個別部位の閉塞を行うことが可
能。常に同時に使用され、障害発生回数より切り分けで
きない複数共通部位が存在する場合でも、先ず1つの部
位を閉塞させてから、その後の障害発生を監視すれば、
正しく障害部位を排除できたかどうかを検証可能であ
る。
【0012】
【発明の実施の形態】本発明方式の実施例について、図
面を用いて詳細に説明する。
【0013】図1は、本発明方式を適応した記憶制御装
置のブロック図である。ホストコンピュータに接続する
チャネル接続系1、入出力データを一時的に格納するキ
ャッシュメモリ2、チャネル接続系1とキャッシュメモ
リ2間のデータ転送を制御するチャネルアダプタ(以下
ではCHA)3、データを蓄積する記憶媒体であるディ
スクアレイ4、キャッシュメモリ2とディスクアレイ4
間のデータ転送を制御するディスクアダプタ(以下では
DKA)5、システム管理情報および通信情報などを格
納する共用メモリ6、各CHA3、DKA5からキャッ
シュメモリ2または共用メモリ6へ接続する共通バス7
によって構成される。
【0014】単一部位の故障によるシステム動作停止を
防ぐため、各構成要素は冗長性を持たせている。すなわ
ち、CHA3とDKA5はシステム内にそれぞれ複数存
在する。
【0015】キャッシュメモリ2と共用メモリ6はそれ
ぞれ切り離し可能な2面化構成となっている。ここでは
キャッシュメモリA面21、キャッシュメモリB面2
2、共用メモリA面61、共用メモリB面62と呼び、
どの片面故障時にも正常の1面のみで動作可能である。
【0016】ディスクアレイ4はパリティディスクを含
み、任意の1つのディスクを閉塞させて継続運転でき
る。
【0017】共通バス7はHバス71、Lバス72、M
バス73の3本のバスから構成される。Hバス71はキ
ャッシュメモリ2アクセスに用いられ、Mバス73は共
用メモリ6アクセス用に用いられる。通常、Lバス72
は予め設定されているシステムオプション情報の指定に
より、Hバス71と協調してキャッシュメモリ2の高速
アクセス(同時使用によって2倍のバス幅を実現)に、
または独立して共用メモリ6アクセスに使用可能であ
る。Hバス71が故障時、Lバス72をキャッシュメモ
リ2アクセスに用い、Mバス73が故障時共用メモリ6
アクセスに用いることで、1本のバスが故障してもシス
テムが継続動作できる。
【0018】本実施例システム稼動時には、複数のアク
セス論理経路(以下では論理パス)を用いた多くのアク
セスが同時に動作する。例えば、チャネル接続系1より
データをあるCHA3を経由してキャッシュメモリA面
21へ転送する論理パス、他のCHA3から共用メモリ
B面62へ転送する論理パス、またはキャッシュメモリ
B面22からあるDKA5を経由してディスクアレイ4
へ転送するパスなど、様々なパスを用いたアクセスが同
時に動作する。
【0019】システム動作中、ある特定ハード部位に故
障が発生し、当該部位を用いた論理パスが恒久的にアク
セス不可となれば、障害切り分けテストによって、故障
部位を特定してシステムから切り離すことができる。こ
こでいう障害切り分けテストとは、例えば障害検出パス
上の1つの部位だけを他のものに切り替えてアクセス試
行し、その結果から当該部位の故障かどうかを判定する
論理である。一例として、あるCHA3からHバス71
とLバス72を同時に用いるバスモードでキャッシュメ
モリ2へデータ転送を行う際に、データパリティエラー
の障害を検出すると、障害切り分け処理において、当該
CHAからHバス71とLバス72を経由し、それぞれ
キャッシュA面21とキャッシュB面22へアクセステ
ストを行う。例えば、Hバス71を用いた2面のアクセ
スに障害がともに検出され、Lバス72を用いた2面の
アクセスに障害が検出されなければ、Hバス71の故障
と判定できる。その場合、Hバス71を閉塞し、Lバス
72のみをデータ転送用に切り替えて、システムは継続
動作可能となる。
【0020】但し、実際のハード故障は必ずしも恒久的
なものではなく、一時障害が多発することがある。また
特定タイミング、特定アクセスパターンのみ障害が発生
することも考えられる。その際、前記障害切り分けテス
トで故障部位を使用したアクセステストにおいても正常
終了し、故障部位を特定できない場合が多い。
【0021】ここで、障害切り分けテストより部位特定
が可能なもの以外、一時障害などのケースに対して、障
害発生回数をカウントし、総合的なしきい値判定を用い
て故障部位の特定を行う。
【0022】以下はまず障害発生回数の計数方式を述
べ、次に総合しきい値判定の論理を説明する。
【0023】説明の便宜上、本実施例記憶制御装置にお
ける障害を、データ転送系障害と共用メモリ情報アクセ
ス障害の2種類に限定する。各部位における障害発生回
数を計数するため、各障害種別につき、システムを構成
する部位種別毎に1種類のカウンタを割り当て、また各
種別内に存在する要素数毎に障害回数を別々に累積す
る。例えば、あるCHA3における共用メモリ情報アク
セス障害の発生回数、キャッシュメモリA面21におけ
るデータ転送系障害の発生回数、Lバス72におけるデ
ータ転送障害の発生回数など、それぞれカウントする。
本方式の特徴として、単にシステム全体の障害回数を累
積するだけでなく、障害検出時に使われている論理パス
を解析し、当該経路上に存在する各部位のカウントアッ
プを行う。
【0024】いま、例えばある特定CHA3のデータ転
送系機能が故障し、一時障害が多発するケースを考え
る。そのとき、当該CHA3のデータ転送障害カウンタ
のみが高い値を示し、他のCHA3またはDKA5のカ
ウンタはカウントアップされない。なお、キャッシュメ
モリ2の両面は通常ほぼ均等な確率にアクセスされるた
め、故障CHA3からのデータ転送が両面に分散され、
キャッシュメモリA面21とキャッシュメモリB面22
における障害発生カウンタはほぼ同じ値を取るものと考
えられる。
【0025】また、例えばHバス71とLバス72をデ
ータ転送に用い、Mバス73を共用メモリ情報アクセス
に規定するシステムに、Mバスに故障が生じたケースを
考える。この場合、Mバス73は完全なシステム共通部
位であり、動作中の全CHA3およびDKA5はMバス
73を経由して共用メモリ6へのアクセスを行うため、
各CHA3、DKA5で障害が均等に検出され、共用メ
モリA面61と共用メモリB面62における障害回数も
ほぼ同じ値になる。
【0026】障害回数カウンタは上記2種類の傾向があ
ることを踏まえ、システム内各カウンタ値を用い、故障
部位を特定する判定論理を説明する。
【0027】まず、各部位の障害回数についてベースと
なるしきい値を設ける。当該障害回数カウント値がその
しきい値に達しない場合は、正常システムにおいても発
生し得るノイズの可能性もあるとし、ある部位の障害カ
ウンタがベースしきい値を越えた時点で総合判定を行
う。
【0028】判定に際しては、ベースしきい値を越えた
カウンタと同一種別のカウンタをすべて抽出して、判定
の材料に用いる。ここで同一種別のカウンタは同等機能
を持つ、独立に動作するその他の部位のカウンタを指
す。例えば、あるCHA3のデータ転送障害回数がベー
スしきい値を超過した場合、他の動作中のCHA3のデ
ータ転送障害カウンタ値をも取り出す。それらを元に最
初に障害検出した部位のカウント値が他のカウント値に
比べて飛び抜けて大きくなっているか、それとも各カウ
ンタの値が近い値を示しているかを判定する。
【0029】その判定方法の一例として、現実の障害回
数分布が上記2ケースの理想回数分布にどれだけ近いか
を、相似度の計算で比較する方法がある。個別部位故障
のケースでは、理想的には当該部位の障害検出回数のみ
が抽出したカウンタの合計値に達し、他のカウンタ値が
0となる。ここで、実際の各部位のカウント値と上記理
想値の距離(差値の2乗)の合計を求め、この計算値が
小さいほど個別部位故障の理想分布に近い。あらかじめ
設けられる基準値以上に、上記理想分布に近ければ、当
該部位の故障と判定する。同様に、共通部位故障のケー
スでは、理想的には全カウント値が各部位の平均回数に
等しい。同じように実際のカウント値から上記理想値の
距離(差値の2乗)の合計を求めれば、共通部位故障の
理想分布との相似度が得られる。基準値以上に近けれ
ば、共通部位の故障と判定する。
【0030】ここで本実施例では、上記2種類の理想分
布との比較を行っているが、他の障害分布を持つハード
構成も考えられる。例えば共通部位の故障において、特
定ある部位は他部位の2倍の確率に障害が検出される場
合なども、対応した理想分布を用意すれば、同様な相似
度計算が可能となる。さらに、実際各部位へのアクセス
数を計数し、そのアクセス回数に応じた障害予想回数を
動的に、前記理想分布に反映する方式も容易に考えられ
る。
【0031】以上の判定を経て、個別部位の故障と判定
すれば、当該部位をシステムから切り離す。例えばキャ
ッシュメモリA面21の故障と特定したら、キャッシュ
メモリA面21を使用しないようにシステム管理情報を
更新し、正常なキャッシュメモリB面22のみによるシ
ステム動作を行う。
【0032】共通部位故障と判定したときにも、可能な
限りその共通部位を縮退して全体に影響を与えないとう
にシステム動作を継続する。例えば、共用メモリ情報ア
クセス障害からMバス73の故障と判定したとき、Lバ
ス72を共用メモリアクセス用に切り替え、Mバス73
を介したアクセスを停止する。
【0033】故障部位を判定し、障害閉塞を行った後に
は障害発生回数のカウント値をクリアする。
【0034】なお、共通部位が同時に使われ、故障部位
が一意的に決定できないケースも考えられる。例えば、
本実施例システムは冒頭に言及したように、Hバス71
とLバス72を合わせた高速転送バスモードが指定可能
である。そうしたシステムオプションが指定されたとき
に、Hバス71もしくはLバス72の単体の故障でも、
2バスを同時に使うために2バスに同じ障害回数が計数
されていて、どのバスの故障かを切り分けることができ
ない。このケースを考慮し、Hバス71を先ず閉塞させ
る論理を盛り込む。そして当該閉塞実行後の障害発生状
況を引き続きに監視し、もう一度ベースしきい値を越え
て同じように共通部故障と判定したときに、前回の判定
結果を引き継ぎ、Hバス71を回復して、Lバス72を
閉塞するように制御する。
【0035】このような、閉塞後の障害発生状況を監視
し、一旦閉塞された部位を再び回復する論理は、前記同
時使用された複数部位の切り分けに必要のみではなく、
何らかの要因によって誤った故障部位指摘後の訂正にも
有効なのは明らかである。
【0036】
【発明の効果】本発明方式を適用した記憶制御装置は、
システムで発生する障害を各部位毎に回数の統計を行
い、それを用いて故障部位の特定を含む一連の動作を、
システム稼動中に自動的に行うことが可能である。これ
により、共通バス接続など共通部位を持ち、故障箇所の
特定が困難なシステムにおいても、故障部位を高精度で
判定でき、その結果故障部位をシステムから切り離し、
障害の続発は抑止可能となる。
【図面の簡単な説明】
【図1】実施例記憶制御装置のブロック図。
【符号の説明】
1…チャネル接続系、 2…キャッシュメ
モリ、3…CHA(チャネルアダプタ)、 4…ディス
クアレイ、5…DKA(ディスクアダプタ)、 6…共
用メモリ、7…共通バス、 21…キ
ャッシュメモリA面、22…キャッシュメモリB面、
61…共用メモリA面、62…共用メモリB面、
71…Hバス(データ転送専用バス)、72
…Lバス(データ転送、共用メモリアクセス用切り替え
可能バス)、73…Mバス(共用メモリアクセス専用バ
ス)。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 本間 久雄 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 阪口 治 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】バス結合により、複数コンポーネントから
    なる記憶装置制御部において、障害発生回数を切り離し
    可能な部位毎に計数し、またその計数結果を用いた統計
    的分析により、故障発生部位の判定およびシステムから
    の切り離しを自動的に行う耐故障制御方式。
  2. 【請求項2】上記請求項1の故障部位判定方式におい
    て、障害部位切り離し後の障害発生状況を引き続き監視
    し、故障部位判定結果が不適切と認識した場合には、不
    当に切り離した部位の自動回復を行うなど、継続的なフ
    ィードバックを可能とする耐故障制御方式。
  3. 【請求項3】1回の障害検出のみによる故障部位特定が
    困難な場合において、上記請求項1、請求項2の制御方
    式を用い、故障部位の誤判定を防ぎ、システムダウンを
    回避可能なことを目的とする記憶装置。
JP10095689A 1998-04-08 1998-04-08 記憶装置の耐故障制御方式 Pending JPH11296311A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10095689A JPH11296311A (ja) 1998-04-08 1998-04-08 記憶装置の耐故障制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10095689A JPH11296311A (ja) 1998-04-08 1998-04-08 記憶装置の耐故障制御方式

Publications (1)

Publication Number Publication Date
JPH11296311A true JPH11296311A (ja) 1999-10-29

Family

ID=14144471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10095689A Pending JPH11296311A (ja) 1998-04-08 1998-04-08 記憶装置の耐故障制御方式

Country Status (1)

Country Link
JP (1) JPH11296311A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7093155B2 (en) 2003-11-18 2006-08-15 Hitachi, Ltd. Information processing system and method for path failover
JP2009009200A (ja) * 2007-06-26 2009-01-15 Hitachi Ltd ストレージシステム及びストレージシステムの制御方法
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2011086244A (ja) * 2009-10-19 2011-04-28 Fujitsu Ltd ストレージシステム,制御装置および診断方法
JP2011108006A (ja) * 2009-11-18 2011-06-02 Nec Corp ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
JP2011524563A (ja) * 2008-06-03 2011-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション ノード間でのデバイス・エラー情報の同期化
JP2012208625A (ja) * 2011-03-29 2012-10-25 Fujitsu Ltd ストレージシステムおよび異常発生箇所判定方法
JP2014225133A (ja) * 2013-05-16 2014-12-04 富士通株式会社 情報処理装置、制御装置及び制御プログラム
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7093155B2 (en) 2003-11-18 2006-08-15 Hitachi, Ltd. Information processing system and method for path failover
JP2009009200A (ja) * 2007-06-26 2009-01-15 Hitachi Ltd ストレージシステム及びストレージシステムの制御方法
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
US7900083B2 (en) 2008-02-27 2011-03-01 Fujitsu Limited Disk array apparatus, disk array control method and disk array controller
JP2011524563A (ja) * 2008-06-03 2011-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション ノード間でのデバイス・エラー情報の同期化
JP2011086244A (ja) * 2009-10-19 2011-04-28 Fujitsu Ltd ストレージシステム,制御装置および診断方法
JP2011108006A (ja) * 2009-11-18 2011-06-02 Nec Corp ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
JP2012208625A (ja) * 2011-03-29 2012-10-25 Fujitsu Ltd ストレージシステムおよび異常発生箇所判定方法
JP2014225133A (ja) * 2013-05-16 2014-12-04 富士通株式会社 情報処理装置、制御装置及び制御プログラム
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法
US10055272B2 (en) 2013-10-24 2018-08-21 Hitachi, Ltd. Storage system and method for controlling same

Similar Documents

Publication Publication Date Title
US6802023B2 (en) Redundant controller data storage system having hot insertion system and method
US6708285B2 (en) Redundant controller data storage system having system and method for handling controller resets
US20160020965A1 (en) Method and apparatus for dynamic monitoring condition control
US7007191B2 (en) Method and apparatus for identifying one or more devices having faults in a communication loop
US7900083B2 (en) Disk array apparatus, disk array control method and disk array controller
US7779306B1 (en) Method for automatically diagnosing hardware faults in a data storage system
JPH09506452A (ja) フォールト・トレラント・キュー・システム
US7236454B2 (en) Loop diagnosis system and method for disk array apparatuses
US7519854B2 (en) Internal failover path for SAS disk drive enclosure
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
US6839866B2 (en) System and method for the use of reset logic in high availability systems
JPH11296311A (ja) 記憶装置の耐故障制御方式
CN106375114B (zh) 一种热插拔故障恢复方法及分布式设备
US8751873B2 (en) Proactively removing channel paths in error from a variable scope of I/O devices
US20070226537A1 (en) Isolating a drive from disk array for diagnostic operations
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
CN116909494B (zh) 服务器的存储切换方法和装置,以及服务器系统
US20070234107A1 (en) Dynamic storage data protection
JPH0354652A (ja) 入出力ポートの障害きりわけ方法
JP2560875B2 (ja) 情報処理系の障害通知方式
JPH0320774B2 (ja)
JP2005293325A (ja) データベースの即時レプリケーション性能監視システム
JPH0467476A (ja) アレイディスク制御装置
JP7585659B2 (ja) 監視システム、監視方法、プログラム、フォールトトレラントサーバ
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법