JPH11296311A

JPH11296311A - 記憶装置の耐故障制御方式

Info

Publication number: JPH11296311A
Application number: JP10095689A
Authority: JP
Inventors: Takeo Fujimoto; 健雄藤本; Hisao Honma; 久雄本間; Osamu Sakaguchi; 治阪口
Original assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Current assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Priority date: 1998-04-08
Filing date: 1998-04-08
Publication date: 1999-10-29

Abstract

(57)【要約】【課題】記憶装置における耐障害制御方式の一手法を提
案し、複数の論理パスがあり、共通部位を含む記憶装置
における障害発生に対し、正しい故障部位の特定、切り
離しをオンライン動作中に自動的に行う。それにより、
障害の続発を抑止し、システムの信頼性を向上させる。【解決手段】システムを構成し、切り離し可能な各部位
毎に障害検出回数を記憶するカウンタを設け、またその
カウンタ値を総合的に判定する論理を具備する。本発明
方式は部位毎の障害発生回数の統計より、故障部位の高
精度の特定を目的とし、それにより故障部位をシステム
より排除し、正常部位を用いたシステム動作を継続可能
とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】その一方、コンピュータシス
テムの構成において、複数論理アクセス経路（以下では
論理パス）を有しながらも物理的に共通部位を持つこと
が多くなっている。例えば、構成各コンポーネントを共
通バスに接続するバス結合方式は、システムの構成変
更、拡張が容易のため広く用いられている。しかし共通
部位を持つことにより、個別の障害が全体に影響を及ぼ
したり、１つの障害発生が他の障害を併発させたりする
など、障害部位の特定も難しくなっている。

【０００２】本発明はこのような障害部位特定の問題に
対し、１つの解決方法を提案している。障害部位特定の
精度を向上させることにより、故障部位の切り離しが正
確に行え、結果的にシステム全体の信頼性をも向上可能
となる。

【０００３】

【従来の技術】近年、記憶装置に対する信頼性の要求が
高まっている。特に無停止システムの構築に際し、高信
頼性を持つ記憶装置は欠かせないものとなった。そのた
め制御部を含むシステムの各構成要素はすべて冗長性を
持たせ、故障部位さえ特定し、切り離せれば、代替コン
ポーネントによるシステム動作が継続可能となる。

【０００４】検出した障害内容により、１回の障害検出
ですぐ故障部位を特定し、当該部位を閉塞する方式が多
く用いられている。しかし、そのためには複雑で高度な
障害検出構成が必要となり、また恒久的に発生しない一
時的なノイズにもすぐに閉塞を行い、システムの冗長度
を下げかねない。

【０００５】それに対し、ハード的な部位ごとに障害検
出回数を累計し、あらかじめ設定された固定しきい値を
越えれば、当該部位を故障発生部位と判定してシステム
より切り離す方式もあった。しきい値を越えない回数
の、一時的なノイズでは閉塞に結びつかないので過閉塞
をある程度回避可能である。但し、システム共通部位を
有し、各部位が複雑に絡み合うシステムにおいては、１
ヵ所の障害で複数の論理パスに影響を来たすことがあ
り、複数の部位で障害回数が加算されることも考えられ
る。その場合、単純なしきい値チェックのみで故障部位
を正確に特定することは難しい。

【０００６】

【発明が解決しようとする課題】記憶装置における障害
リカバリ処理で特に重要なのは、システム動作しながら
故障部位を抽出、切り離すことである。しかし、システ
ムを構成する各コンポーネントを共通バスに接続するバ
ス結合方式など、共通部分を持つシステムにおいては、
単体の故障によってシステム全体に障害が波及すること
があり、故障していない部位も一時的に正常動作できな
い恐れがある。その場合においても、障害元となる故障
部位をいかに正しく判定し、障害の再発を断ち切るか
が、システム信頼性確保における重要な課題である。

【０００７】複数論理パスがあるシステムにおける単体
故障発生時、本発明方式の適用により、故障部位を高い
確率で指摘可能となり、当該故障部位をシステムから切
り離すことで、システムの継続動作を保証する。また、
共通バスなど特に各論理パスとも複雑に絡み合う部位に
ついては、故障部位の閉塞後にも引き続きに障害発生状
況を監視でき、障害が収束しない時には一旦閉塞したバ
スを回復するなどリカバリを行う。

【０００８】

【課題を解決するための手段】上記課題の達成を目的と
し、本発明ではシステムを切り離し可能な複数部位に分
け、それぞれの障害発生回数を計数し、障害回数の総合
的な判断から故障部位の特定を行う。ここで総合的な判
断というのは、１つの部位の故障判定についてはその部
位の障害発生回数のみならず、他の部位およびシステム
全体の障害発生回数とも比較、判定するため、バスなど
共通部位が故障した場合は、それを使用する各論理パス
で障害が検出されることが予想され、単一部位の障害検
出回数が先にしきい値を越えても他の部位と比べて回数
が突出して大きくなれば、共通部位故障の疑いがあり、
簡単に当該単一部位を閉塞しないような論理とする。

【０００９】具体的には、例えばある共通部位を共用す
る複数パスがあり、それぞれの使用頻度がほぼ同一レベ
ルであるとする。共通部位の故障時、各パスにおける障
害発生回数は全体の算数平均に近いはず、１つのパスに
のみ影響する単一部位の障害時、当該パスの障害発生回
数だけが多く、他のパスの障害回数がほとんどないは
ず。実際各パスに計数された障害回数を、前記期待結果
との相似を計算すれば、共通部位の障害が、当該単一部
位の故障かを判定可能である。

【００１０】複数論理パスを備える記憶制御装置にお
き、本発明方式を用いることにより、複数パス共通部位
の故障か、単一パスのみに影響する個別部位の故障かを
区別することが可能。個別部位の故障であれば、当該論
理パスを閉塞してシステムから切り離すなどを行い、シ
ステム全体への影響を抑止する。共通部位の故障と判定
したとき、冗長度を具備したシステムであれば、その共
通部位の部分縮退を施すことにより、不要なパス閉塞を
行うことなくシステム動作を続行できると考えられる。

【００１１】また本発明方式により、共通部位の部分縮
退を実行した後にも障害発生回数を統計し、障害の発生
が収束しない場合には縮退した共通部位を回復し、共通
部位の他の部分または個別部位の閉塞を行うことが可
能。常に同時に使用され、障害発生回数より切り分けで
きない複数共通部位が存在する場合でも、先ず１つの部
位を閉塞させてから、その後の障害発生を監視すれば、
正しく障害部位を排除できたかどうかを検証可能であ
る。

【００１２】

【発明の実施の形態】本発明方式の実施例について、図
面を用いて詳細に説明する。

【００１３】図１は、本発明方式を適応した記憶制御装
置のブロック図である。ホストコンピュータに接続する
チャネル接続系１、入出力データを一時的に格納するキ
ャッシュメモリ２、チャネル接続系１とキャッシュメモ
リ２間のデータ転送を制御するチャネルアダプタ（以下
ではＣＨＡ）３、データを蓄積する記憶媒体であるディ
スクアレイ４、キャッシュメモリ２とディスクアレイ４
間のデータ転送を制御するディスクアダプタ（以下では
ＤＫＡ）５、システム管理情報および通信情報などを格
納する共用メモリ６、各ＣＨＡ３、ＤＫＡ５からキャッ
シュメモリ２または共用メモリ６へ接続する共通バス７
によって構成される。

【００１４】単一部位の故障によるシステム動作停止を
防ぐため、各構成要素は冗長性を持たせている。すなわ
ち、ＣＨＡ３とＤＫＡ５はシステム内にそれぞれ複数存
在する。

【００１５】キャッシュメモリ２と共用メモリ６はそれ
ぞれ切り離し可能な２面化構成となっている。ここでは
キャッシュメモリＡ面２１、キャッシュメモリＢ面２
２、共用メモリＡ面６１、共用メモリＢ面６２と呼び、
どの片面故障時にも正常の１面のみで動作可能である。

【００１６】ディスクアレイ４はパリティディスクを含
み、任意の１つのディスクを閉塞させて継続運転でき
る。

【００１７】共通バス７はＨバス７１、Ｌバス７２、Ｍ
バス７３の３本のバスから構成される。Ｈバス７１はキ
ャッシュメモリ２アクセスに用いられ、Ｍバス７３は共
用メモリ６アクセス用に用いられる。通常、Ｌバス７２
は予め設定されているシステムオプション情報の指定に
より、Ｈバス７１と協調してキャッシュメモリ２の高速
アクセス（同時使用によって２倍のバス幅を実現）に、
または独立して共用メモリ６アクセスに使用可能であ
る。Ｈバス７１が故障時、Ｌバス７２をキャッシュメモ
リ２アクセスに用い、Ｍバス７３が故障時共用メモリ６
アクセスに用いることで、１本のバスが故障してもシス
テムが継続動作できる。

【００１８】本実施例システム稼動時には、複数のアク
セス論理経路（以下では論理パス）を用いた多くのアク
セスが同時に動作する。例えば、チャネル接続系１より
データをあるＣＨＡ３を経由してキャッシュメモリＡ面
２１へ転送する論理パス、他のＣＨＡ３から共用メモリ
Ｂ面６２へ転送する論理パス、またはキャッシュメモリ
Ｂ面２２からあるＤＫＡ５を経由してディスクアレイ４
へ転送するパスなど、様々なパスを用いたアクセスが同
時に動作する。

【００１９】システム動作中、ある特定ハード部位に故
障が発生し、当該部位を用いた論理パスが恒久的にアク
セス不可となれば、障害切り分けテストによって、故障
部位を特定してシステムから切り離すことができる。こ
こでいう障害切り分けテストとは、例えば障害検出パス
上の１つの部位だけを他のものに切り替えてアクセス試
行し、その結果から当該部位の故障かどうかを判定する
論理である。一例として、あるＣＨＡ３からＨバス７１
とＬバス７２を同時に用いるバスモードでキャッシュメ
モリ２へデータ転送を行う際に、データパリティエラー
の障害を検出すると、障害切り分け処理において、当該
ＣＨＡからＨバス７１とＬバス７２を経由し、それぞれ
キャッシュＡ面２１とキャッシュＢ面２２へアクセステ
ストを行う。例えば、Ｈバス７１を用いた２面のアクセ
スに障害がともに検出され、Ｌバス７２を用いた２面の
アクセスに障害が検出されなければ、Ｈバス７１の故障
と判定できる。その場合、Ｈバス７１を閉塞し、Ｌバス
７２のみをデータ転送用に切り替えて、システムは継続
動作可能となる。

【００２０】但し、実際のハード故障は必ずしも恒久的
なものではなく、一時障害が多発することがある。また
特定タイミング、特定アクセスパターンのみ障害が発生
することも考えられる。その際、前記障害切り分けテス
トで故障部位を使用したアクセステストにおいても正常
終了し、故障部位を特定できない場合が多い。

【００２１】ここで、障害切り分けテストより部位特定
が可能なもの以外、一時障害などのケースに対して、障
害発生回数をカウントし、総合的なしきい値判定を用い
て故障部位の特定を行う。

【００２２】以下はまず障害発生回数の計数方式を述
べ、次に総合しきい値判定の論理を説明する。

【００２３】説明の便宜上、本実施例記憶制御装置にお
ける障害を、データ転送系障害と共用メモリ情報アクセ
ス障害の２種類に限定する。各部位における障害発生回
数を計数するため、各障害種別につき、システムを構成
する部位種別毎に１種類のカウンタを割り当て、また各
種別内に存在する要素数毎に障害回数を別々に累積す
る。例えば、あるＣＨＡ３における共用メモリ情報アク
セス障害の発生回数、キャッシュメモリＡ面２１におけ
るデータ転送系障害の発生回数、Ｌバス７２におけるデ
ータ転送障害の発生回数など、それぞれカウントする。
本方式の特徴として、単にシステム全体の障害回数を累
積するだけでなく、障害検出時に使われている論理パス
を解析し、当該経路上に存在する各部位のカウントアッ
プを行う。

【００２４】いま、例えばある特定ＣＨＡ３のデータ転
送系機能が故障し、一時障害が多発するケースを考え
る。そのとき、当該ＣＨＡ３のデータ転送障害カウンタ
のみが高い値を示し、他のＣＨＡ３またはＤＫＡ５のカ
ウンタはカウントアップされない。なお、キャッシュメ
モリ２の両面は通常ほぼ均等な確率にアクセスされるた
め、故障ＣＨＡ３からのデータ転送が両面に分散され、
キャッシュメモリＡ面２１とキャッシュメモリＢ面２２
における障害発生カウンタはほぼ同じ値を取るものと考
えられる。

【００２５】また、例えばＨバス７１とＬバス７２をデ
ータ転送に用い、Ｍバス７３を共用メモリ情報アクセス
に規定するシステムに、Ｍバスに故障が生じたケースを
考える。この場合、Ｍバス７３は完全なシステム共通部
位であり、動作中の全ＣＨＡ３およびＤＫＡ５はＭバス
７３を経由して共用メモリ６へのアクセスを行うため、
各ＣＨＡ３、ＤＫＡ５で障害が均等に検出され、共用メ
モリＡ面６１と共用メモリＢ面６２における障害回数も
ほぼ同じ値になる。

【００２６】障害回数カウンタは上記２種類の傾向があ
ることを踏まえ、システム内各カウンタ値を用い、故障
部位を特定する判定論理を説明する。

【００２７】まず、各部位の障害回数についてベースと
なるしきい値を設ける。当該障害回数カウント値がその
しきい値に達しない場合は、正常システムにおいても発
生し得るノイズの可能性もあるとし、ある部位の障害カ
ウンタがベースしきい値を越えた時点で総合判定を行
う。

【００２８】判定に際しては、ベースしきい値を越えた
カウンタと同一種別のカウンタをすべて抽出して、判定
の材料に用いる。ここで同一種別のカウンタは同等機能
を持つ、独立に動作するその他の部位のカウンタを指
す。例えば、あるＣＨＡ３のデータ転送障害回数がベー
スしきい値を超過した場合、他の動作中のＣＨＡ３のデ
ータ転送障害カウンタ値をも取り出す。それらを元に最
初に障害検出した部位のカウント値が他のカウント値に
比べて飛び抜けて大きくなっているか、それとも各カウ
ンタの値が近い値を示しているかを判定する。

【００２９】その判定方法の一例として、現実の障害回
数分布が上記２ケースの理想回数分布にどれだけ近いか
を、相似度の計算で比較する方法がある。個別部位故障
のケースでは、理想的には当該部位の障害検出回数のみ
が抽出したカウンタの合計値に達し、他のカウンタ値が
０となる。ここで、実際の各部位のカウント値と上記理
想値の距離（差値の２乗）の合計を求め、この計算値が
小さいほど個別部位故障の理想分布に近い。あらかじめ
設けられる基準値以上に、上記理想分布に近ければ、当
該部位の故障と判定する。同様に、共通部位故障のケー
スでは、理想的には全カウント値が各部位の平均回数に
等しい。同じように実際のカウント値から上記理想値の
距離（差値の２乗）の合計を求めれば、共通部位故障の
理想分布との相似度が得られる。基準値以上に近けれ
ば、共通部位の故障と判定する。

【００３０】ここで本実施例では、上記２種類の理想分
布との比較を行っているが、他の障害分布を持つハード
構成も考えられる。例えば共通部位の故障において、特
定ある部位は他部位の２倍の確率に障害が検出される場
合なども、対応した理想分布を用意すれば、同様な相似
度計算が可能となる。さらに、実際各部位へのアクセス
数を計数し、そのアクセス回数に応じた障害予想回数を
動的に、前記理想分布に反映する方式も容易に考えられ
る。

【００３１】以上の判定を経て、個別部位の故障と判定
すれば、当該部位をシステムから切り離す。例えばキャ
ッシュメモリＡ面２１の故障と特定したら、キャッシュ
メモリＡ面２１を使用しないようにシステム管理情報を
更新し、正常なキャッシュメモリＢ面２２のみによるシ
ステム動作を行う。

【００３２】共通部位故障と判定したときにも、可能な
限りその共通部位を縮退して全体に影響を与えないとう
にシステム動作を継続する。例えば、共用メモリ情報ア
クセス障害からＭバス７３の故障と判定したとき、Ｌバ
ス７２を共用メモリアクセス用に切り替え、Ｍバス７３
を介したアクセスを停止する。

【００３３】故障部位を判定し、障害閉塞を行った後に
は障害発生回数のカウント値をクリアする。

【００３４】なお、共通部位が同時に使われ、故障部位
が一意的に決定できないケースも考えられる。例えば、
本実施例システムは冒頭に言及したように、Ｈバス７１
とＬバス７２を合わせた高速転送バスモードが指定可能
である。そうしたシステムオプションが指定されたとき
に、Ｈバス７１もしくはＬバス７２の単体の故障でも、
２バスを同時に使うために２バスに同じ障害回数が計数
されていて、どのバスの故障かを切り分けることができ
ない。このケースを考慮し、Ｈバス７１を先ず閉塞させ
る論理を盛り込む。そして当該閉塞実行後の障害発生状
況を引き続きに監視し、もう一度ベースしきい値を越え
て同じように共通部故障と判定したときに、前回の判定
結果を引き継ぎ、Ｈバス７１を回復して、Ｌバス７２を
閉塞するように制御する。

【００３５】このような、閉塞後の障害発生状況を監視
し、一旦閉塞された部位を再び回復する論理は、前記同
時使用された複数部位の切り分けに必要のみではなく、
何らかの要因によって誤った故障部位指摘後の訂正にも
有効なのは明らかである。

【００３６】

【発明の効果】本発明方式を適用した記憶制御装置は、
システムで発生する障害を各部位毎に回数の統計を行
い、それを用いて故障部位の特定を含む一連の動作を、
システム稼動中に自動的に行うことが可能である。これ
により、共通バス接続など共通部位を持ち、故障箇所の
特定が困難なシステムにおいても、故障部位を高精度で
判定でき、その結果故障部位をシステムから切り離し、
障害の続発は抑止可能となる。

【図面の簡単な説明】

【図１】実施例記憶制御装置のブロック図。

【符号の説明】

１…チャネル接続系、２…キャッシュメ
モリ、３…ＣＨＡ（チャネルアダプタ）、４…ディス
クアレイ、５…ＤＫＡ（ディスクアダプタ）、６…共
用メモリ、７…共通バス、２１…キ
ャッシュメモリＡ面、２２…キャッシュメモリＢ面、
６１…共用メモリＡ面、６２…共用メモリＢ面、
７１…Ｈバス（データ転送専用バス）、７２
…Ｌバス（データ転送、共用メモリアクセス用切り替え
可能バス）、７３…Ｍバス（共用メモリアクセス専用バ
ス）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者本間久雄神奈川県小田原市国府津2880番地株式会社日立製作所ストレージシステム事業部内 (72)発明者阪口治神奈川県横浜市中区尾上町６丁目81番地日立ソフトウェアエンジニアリング株式会社

Claims

【特許請求の範囲】

【請求項１】バス結合により、複数コンポーネントから
なる記憶装置制御部において、障害発生回数を切り離し
可能な部位毎に計数し、またその計数結果を用いた統計
的分析により、故障発生部位の判定およびシステムから
の切り離しを自動的に行う耐故障制御方式。
【請求項２】上記請求項１の故障部位判定方式におい
て、障害部位切り離し後の障害発生状況を引き続き監視
し、故障部位判定結果が不適切と認識した場合には、不
当に切り離した部位の自動回復を行うなど、継続的なフ
ィードバックを可能とする耐故障制御方式。
【請求項３】１回の障害検出のみによる故障部位特定が
困難な場合において、上記請求項１、請求項２の制御方
式を用い、故障部位の誤判定を防ぎ、システムダウンを
回避可能なことを目的とする記憶装置。