JPH08249130A

JPH08249130A - 障害検出システム

Info

Publication number: JPH08249130A
Application number: JP7347785A
Authority: JP
Inventors: Mark D Petersen; マーク・ディー・ピーターソン; Barry J Oldfield; バリー・ジェイ・オールドフィールド
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1994-12-15
Filing date: 1995-12-15
Publication date: 1996-09-27
Anticipated expiration: 2015-12-15
Also published as: DE69523124T2; JP3655683B2; US5699510A; EP0717358B1; DE69523124D1; EP0717358A1

Abstract

(57)【要約】【課題】夫々がキャッシング処理を行うためのメモリを
含むディスク・コントローラを複数有し、これらメモリ
の間で常に内容を一致させるミラーリングを行うシステ
ムで、何れかのコントローラに障害が発生したことを検
出して、コントローラの切り離し・代替処理ができるよ
うにする。【解決手段】第１のコントローラ２０がメモリ・アクセ
スを行うときは自分のメモリ３０へのアクセスを行うと
ともに、第２のコントローラ２５中のメモリ３５へのア
クセスも要求する。第２のコントローラはこの要求を受
け取ると、アービトレーション論理４５によってメモリ
・アクセス要求のアービトレーションを行うとともに、
要求許可を第１のコントローラに伝える。この許可が予
め設定した時間内に来なかったら、第１のコントローラ
は第２のコントローラに障害が発生したとみなす。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は広義にはコンピュータ・
ディスク・ストレージ・コントローラに関し、より詳細
にはミラーリングされたメモリを使用する複数のコント
ローラを有するディスク・ストレージ・システムにおけ
るコントローラの障害を検出するシステムと方法に関す
る。

【０００２】

【従来技術及びその問題点】高信頼性コンピュータ・デ
ィスク・ストレージ・システムの分野において、サブシ
ステムを構成する物理的部品のすべてに冗長性を持たせ
て部品の障害の際のデータの損失やダウンタイムを低減
することが望ましい。夫々がメモリを有するデュアル・
ディスク・ストレージ・コントローラを用いると、いく
つかの大きな利点がディスク・ストレージ・システムに
もたらされる。例えば、（１）記憶情報の冗長性を維持
することで、あるコントローラあるいはそのメモリの障
害あるいは損失が起こった場合の復旧が可能である；
（２）副コントローラの障害時代替(failover)機能によ
って、動作しなくなったコントローラからの回復が可能
になる；（３）副コントローラが使用できることによっ
て、システム稼動時間を長くすることができる。

【０００３】このような冗長サブシステムの性能を向上
させるために、キャッシングを行うこと及びメモリを一
時記憶として使用することが一般的になっている。これ
らの二重になった物理的メモリを同期させることは困難
な場合がある。ディスク・システムのなかには潜在化(l
atent)（延期されたあるいは大量の更新）処理を用いて
この複製を作成するものがあるが、この方法では性能が
低下しがちであり、また複雑で管理が困難である。他の
方法（本発明で用いるもの）はリアルタイムにミラーリ
ング・メモリ処理を行なってこの複製データを作成し、
正確に維持する方法である。二重化されたコントローラ
にリアルタイムで同期した冗長メモリ（ミラーリングさ
れたメモリ）を用いると、あるコントローラから他方の
コントローラへの障害時代替の際の速度と精度を向上さ
せることができる。

【０００４】しかし、冗長メモリを使用すると、複数の
ディスク・ストレージ・コントローラを使うという構成
を提供するのが非常に困難になるという問題点がある。
重大な問題としては、例えば、以下の事項をどのように
して効率的かつ高い信頼度で達成するかということがあ
る：（１）ミラーリングされたメモリ処理の過程でのコント
ローラの障害を早期に検出して、障害の発見が遅れた場
合に発生する潜在的な問題を低減すること；（２）甚だしいハードウエア及び／またはソフトウエア
・オーバヘッドを必要としないで、コントローラの障害
を検出すること；（３）処理動作と処理能力を失うことなく、コントロー
ラの障害を検出してコントローラを切り離し、それらの
メモリのミラーリングを中止させること。

【０００５】

【目的】複数のコントローラを持つディスク・ストレー
ジ・システムにおけるコントローラ障害の検出にかかわ
る上に述べた問題点と、ここには挙げなかった他の問題
点のために、従来技術においては、複数コントローラ・
システムでのコントローラ間のミラーリングは通常は教
示されてきてはいなかった。従って、本発明の目的は二
重化されたコントローラを持つディスク・ストレージ・
システムのリアルタイム同期を行うミラーリングされた
メモリ・コントローラのための有効で信頼性の高いコン
トローラ障害検出システムを提供することである。

【０００６】

【概要】本発明の一実施例における本発明の原理によれ
ば、二重化されたコントローラとミラーリングされたメ
モリを有するディスク・ストレージ・システムにおい
て、夫々のコントローラに関係付けられたアービトレー
ション論理が状態遷移信号を生成して、その信号の発生
しているコントローラのミラーリングされたメモリのア
クセス状態の識別を行う。夫々のアービトレーション論
理はまた他方のアービトレーション論理の状態遷移信号
をモニタする。ミラーリングされたメモリ・システムに
おける二重化されたコントローラ間の障害は、一方のコ
ントローラが他方のコントローラから伝達された異常な
状態遷移信号を検出することによって検出される。ま
た、障害は一方のコントローラがある指定タイムアウト
期間内に他方のコントローラからの状態遷移信号を検出
しなかった場合にも検出される。

【０００７】本発明の他の原理によれば、メモリ・リフ
レッシュ・サイクルを傍受してアービトレーション論理
に状態遷移信号を反復出力させ、それによって各コント
ローラにミラーリングされたメモリ・アクセスを通常通
りに行なわせ、メモリ・システムの障害を検出できるよ
うにする。従って、マスタ／スレーブ動作をしているス
レーブ・コントローラのようにコントローラのメモリ・
アクセスが頻繁には行なわれない場合、リフレッシュ時
にコントローラ間でのメモリ・アクセスのアービトレー
ションが一定して行なわれるため、メモリ・システムの
障害を比較的早期に検出することができる。

【０００８】本発明の障害検出システムとその方法によ
れば、コントローラとミラーリングされたメモリの信頼
性を高めることができる。本発明の他の目的、利点、及
び能力については以下の説明から明らかになるであろ
う。

【０００９】

【実施例】図１は二重化されたコントローラを有するデ
ィスク・ストレージ・システム10におけるミラーリング
されたメモリのシステム・コントローラ障害を検出する
ための本発明のシステムの概観を示すブロック図であ
る。ディスク・ストレージ制御システム10は、ディスク
・ストレージ装置12を有するディスク・ストレージ・サ
ブシステム15と二重化されたディスク・ストレージ・コ
ントローラ20、25を含んでいる。コントローラ20及び25
は夫々のメモリ30、35を有する。

【００１０】メモリ30、35としてはほとんど全てのタイ
プのランダム・アクセス・メモリ（RAM）を使用するこ
とができるが、本実施例では停電時のデータの保持を可
能にするために不揮発性RAM（あるいは電源バックアッ
プを用いて不揮発性にした揮発性RAM）を用いる。さら
に、ここでは二重化されたコントローラ20、25のみを図
示及び説明するが、ここに説明する原理は他の複数のコ
ントローラ環境すなわち３つ以上のコントローラがある
場合にも適用できることは明らかであろう。

【００１１】メモリ30、35は夫々ミラーリングされたメ
モリである。当該技術分野にで周知の通り、ミラーリン
グされたメモリとは簡単にいえば１つのメモリのデータ
が他方のメモリ内に複製すなわち“反映”されることを
意味する。本実施例では、ミラーリングされたメモリと
は、一方のコントローラのメモリ内のデータが他方のコ
ントローラのメモリ内に複製すなわち“反映”されるこ
とを意味する。

【００１２】二重化されたコントローラが用いられ、ま
たその夫々がミラーリングされたメモリを有することに
よって、ディスク・ストレージ・システム10に障害に強
い環境を提供することができる。すなわち、一方のコン
トローラが障害を起こした場合、あるいはコントローラ
・メモリ・システムの一方が障害を起こした場合、他方
のコントローラとそのミラーリングされたメモリがある
ことによって、切れ目のない障害時代替による連続処理
が可能になる。コントローラ20とコントローラ25の間の
通信によって低コストなリアルタイム・リンクが提供さ
れ、夫々のコントローラは他方のコントローラの状態を
モニタし、協調動作行うことができる。

【００１３】本実施例では、ミラーリングされたメモリ
はリアルタイム・ミラーリングされたメモリである。す
なわち、単一のマイクロプロセッサあるいはダイレクト
・メモリ・アクセス機構によって、メモリ30及び35のデ
ータの更新や読出しが実質的に同時に行なわれる。アー
ビトレーション論理40及び45が、夫々のコントローラが
データの更新あるいは読出しを行うためのミラーリング
されたメモリへのアクセスをいつ許可するかを制御す
る。アービトレーション論理40、45は互いに通信するこ
とによって、どのコントローラがメモリに対する現在の
アクセスを行っているのかを各アービトレーション論理
が知ることができる。夫々のアービトレーション論理は
状態遷移信号を生成して、その信号を生成するコントロ
ーラのミラーリングされたメモリ・アクセス状態を識別
する。また、夫々のアービトレーション論理は他方のア
ービトレーション論理の状態遷移信号をモニタする。従
って、ミラーリングされたメモリ・システムにおける二
重化されたコントローラ間の障害は、一方のコントロー
ラが他方のコントローラからの異常な状態遷移信号を検
出するか、あるいは一方のコントローラが指定されたタ
イムアウト期間内に他方のコントローラからの状態遷移
信号を検出しなかった場合に検出される。

【００１４】本実施例では、アービトレーション論理4
0、45はまた一度に１つのコントローラにのみメモリへ
のアクセスを許可する。例えば、コントローラ20がメモ
リ30へのアクセスを許可されたとき、コントローラ20は
同様にメモリ35へのアクセスも許され、コントローラ25
はいずれのメモリへのアクセスも許されない。アービト
レーション論理40、45は互いに通信して夫々のコントロ
ーラ内の適当な信号線をイネーブル及び／またはディス
エーブルすることによって同時アクセスを制御する。

【００１５】二重化されたコントローラ構成の主要な目
的の１つが、一方のコントローラが障害を起こした際に
一方のコントローラから他方のコントローラにただちに
障害時代替を行なえるようにすることであるとすれば、
動作の中断が起こらないように、コントローラの障害時
代替が発生する前の夫々のコントローラのメモリ内容が
同一であってことが必須である。同様に、コントローラ
の障害が処理過程の早い段階で検出されて、システ無道
さが継続できるようにするため、以降のメモリの複製を
防止しまた少なくとも障害の起こっていないコントロー
ラのメモリのデータの完全性が維持できるようにするこ
とが不可欠である。従って、本発明はコントローラ20と
コントローラ25の間で通信を行ないミラーリングされた
メモリ・アクセス状態を制御するためにアービトレーシ
ョン論理40、45を鍵となる構成要素として用いてことに
よって、複数コントローラ構成におけるコントローラの
障害を早期に検出することに焦点を当てている。

【００１６】図２は本発明の一実施例のシステムの、よ
り詳細なブロック図である。各図面間で同一である構成
要素は同一の参照符号を用いて示す。従って、図２で
は、コントローラ20、25は全体的なものとして参照さ
れ、ミラーリングされたメモリ30、35は夫々好適な実施
例で使用される不揮発性DRAM（NVDRAM)として参照さ
れ、アービトレーション論理40、45は図１に示すものと
同様に参照される。NVDRAMコントローラ50、55をここで
は簡単にDRAMコントローラと呼ぶ。矢印はすべて通信及
び／またはデータ転送の径路を指す。

【００１７】DRAMコントローラ50、55は自分の持ってい
る回路を制御するためであり、また例えばメモリ・リフ
レッシュ要求の開始といった目的のための内部クロック
（図示せず）を有する。同様に、アービトレーション論
理40、45は夫々自分自信の内部クロックを有し、これに
より一方のアービトレーション論理から他方のアービト
レーション論理に状態遷移信号が送られる際の応答タイ
ムアウトを検出できるようになっている。図１を参照し
て前述したように、アービトレーション論理40、45はメ
モリ30及び35へのアクセスをどのコントローラに許すか
を制御し、またどのコントローラに対してこのようなア
クセスをできないようにするかを制御する。従って、ア
ービトレーション論理40、45は状態遷移信号を介して相
互に通信し、更には、各アービトレーション論理はDRAM
コントローラ50、55、バッファ60、65、制御トランシー
バ70、75及びデータ・トランシーバ80、85を含むあるロ
ーカル・メモリ・システム制御手段と通信する。

【００１８】当該技術分野で通常行なわれるように、DR
AMコントローラ50、55は、DRAM30、35内の適当なアドレ
スにアクセスするための行アドレス・ストローブ（RA
S）、列アドレス・ストローブ（CAS）、書込みイネーブ
ル（WE）、出力イネーブル（OE）その他のタイミング信
号及び制御論理信号を管理・生成する。バッファ60、65
は、夫々DRAM30、35へのアクセスに関してDRAMコントロ
ーラ50、55をイネーブル及び／またはディスエーブルす
るためのDRAMコントローラ・バッファである。

【００１９】制御トランシーバ70、75はローカル・コン
トローラ（すなわちそのトランシーバが設けられたコン
トローラ）のための双方向トランシーバ・バッファであ
る。その機能は：（１）他方の（遠隔の）コントローラのメモリにアクセ
スするためにコンピュータ・システムのバックプレーン
78にアドレス信号を送る；あるいは（２）ローカル・コントローラのメモリにアクセスする
ためにバックプレーンを介してこの遠隔のコントローラ
からのアドレス信号を受信する；ことである。同様に、データ・トランシーバ80、85はロ
ーカル・コントローラのための双方向トランシーバであ
り、その機能は（１）データ信号を遠隔のコントローラ
に送るためにバックプレーン78に送る；あるいは（２）
バックプレーンを介して遠隔のコントローラからのデー
タ信号を受信する；ことである。

【００２０】DRAMコントローラ50、55は夫々各DRAM自身
の持つ独立して動作するクロック・タイマによって決め
られるリフレッシュ間隔でメモリ（DRAM30、35）をリフ
レッシュするように構成されている。このようなメモリ
・リフレッシュ・サイクルは、夫々のアービトレーショ
ン論理に状態遷移信号を反復させて夫々のコントローラ
にミラーリングされたメモリ・アクセス、すなわちロー
カル・コントローラ及び遠隔コントローラ中にあるメモ
リへのアクセスを確実に一貫した態様で行わせ、これに
よりメモリ・システムの障害を検出できるようにする手
段として用いられる。このシステムと方法によって、マ
スタ／マスタ（対等な関係）あるいはマスタ／スレーブ
といった、二重化されたコントローラ同士の関係がどの
ようなものであっても、高信頼度が得られる。特に、マ
スタ／スレーブ・コントローラ関係においてはこれは特
に有益である。それは、スレーブ・コントローラはミラ
ーリングされたメモリにアクセスする頻度が低く、従っ
て損害の発生する可能性のある後の時点までスレーブ・
コントローラが遠隔コントローラの障害を検出できない
かもしれないからである。

【００２１】DRAMコントローラ50あるいは55からメモリ
・アクセス・サイクル（読出し、書込みあるいはリフレ
ッシュ）発生の信号が出されると、この信号はそのロー
カルなアービトレーション論理40あるいは45に送られ
る。このローカル・コントローラが現在ミラーリングさ
れたメモリ・アクセスを行っていない場合、ローカル・
アービトレーション論理は他方の（遠隔の）コントロー
ラにミラーリングされたメモリ・アクセスを要求する状
態遷移信号を送る。この状態遷移信号はこの信号を送っ
ている（ローカルな）コントローラのミラーリングされ
たメモリ・アクセス状態を識別する。例えば、この例で
いえば、メモリ・アクセスを要求する状態遷移信号が遠
隔のアービトレーション論理に送られる。これに応答し
て、現在ミラーリングされたメモリ・アクセスを行う遠
隔コントローラは、それを要求する状態遷移信号を検出
し、この要求を出したコントローラに対してミラーリン
グされたメモリへのアクセスを許可する応答状態遷移信
号を返す。この応答状態遷移信号は、遠隔コントローラ
がその要求を受けたときそれ自体のミラーリングされた
メモリ・アクセスを行なっていた場合には、このアクセ
スを完了した後に発生する。

【００２２】ローカル・アービトレーション論理はメモ
リ要求を送った後、ただちにそのタイマを起動してタイ
ムアウト期間を計時する。遠隔コントローラが予め定め
られた期間、すなわちタイムアウト期間、のうちに応答
しない場合、ローカル・コントローラは遠隔コントロー
ラのメモリ・システムに障害が発生したものと認識す
る。

【００２３】遠隔コントローラメモリ・システムの障害
はまた、ローカル・コントローラが遠隔コントローラか
ら送られた状態遷移信号に異常を検出したときにも検出
される。例えば、ローカル・コントローラがミラーリン
グされたメモリへのアクセスを許可する状態遷移信号を
受け取るものと予期していたときに、遠隔コントローラ
から他方のなんらかの状態遷移信号を受け取ると、ロー
カル・コントローラは遠隔コントローラのメモリ・シス
テムに障害が発生したものと認識する。

【００２４】これらの状態遷移信号とタイムアウト期間
を用いて、夫々のコントローラは以下のことを行う：（１）自己のミラーリングされたメモリ・アクセス状態
の送出；（２）他方のコントローラの状態の検出；及び／または（３）適当な状態信号が送られてきたか否かの検出。さらに、メモリ・リフレッシュ・サイクルを傍受して、
状態遷移信号を任意に反復させてミラーリングされたメ
モリが周期的にアクセスされるようにし、それによって
メモリ・システム内の障害検出のための一貫しておりか
つ信頼度の高い手段が与えられる。

【００２５】図２の動作は図３に示す例によって最もわ
かりやすく説明することができる。図３は図２と同じで
あるが、図２の双方向の矢印が図３ではコントローラ20
によるミラーリングされたメモリのリフレッシュ中の実
際の通信パスを示す一方向の矢印に置き換えられている
点だけが違う。このような図面及び説明はメモリ・リフ
レッシュ・サイクル中にアービトレーション論理によっ
て生成される状態遷移信号の例として挙げたのだが、こ
のような状態遷移信号は読出しや書込みといった他のメ
モリ・アクセス・トランザクション中にも発生するとい
うことが理解できるだろう。

【００２６】コントローラ20がメモリ・リフレッシュ要
求を開始する際には、DRAMコントローラ50は自己のアー
ビトレーション論理40に対して要求信号を発する。コン
トローラ20がすでにミラーリングされたメモリへのアク
セスを行っていなければ、アービトレーション論理40は
『要求』状態に入り、このような状態遷移信号をコント
ローラ25のアービトレーション論理45に送る。『要求』
状態とは、（この例では）遠隔のアービトレーション論
理45がコントローラ20に遠隔のDRAM35へのアクセスを許
可するのをローカル・アービトレーション論理40が待っ
ている状態を指す。

【００２７】アービトレーション論理45がアービトレー
ション論理40から送られた『要求』状態遷移信号を検出
した際にDRAMコントローラ55がミラーリングされたメモ
リにアクセス中であった場合、DRAMコントローラ55はそ
のメモリを使用する（読出し、書込みあるいはリフレッ
シュ）サイクルを完了し、アービトレーション論理45に
対する自己の『要求』を解除する。すると、アービトレ
ーション論理45はアービトレーション論理40に対するメ
モリ・アクセスを許可する状態遷移信号を送り、それに
続いて『スレーブ』状態に入る。『スレーブ』状態に入
ると、アービトレーション論理45は（バッファ65から出
る矢印がないことでわかるように）DRAMコントローラ・
バッファ65をディスエーブルする。アービトレーション
論理45はまた、（矢印73、77で示すように）バックプレ
ーン78からのアドレス信号をDRAM35に送るように制御ト
ランシーバ75を設定する。

【００２８】アービトレーション論理40は『マスタ』状
態に入ることによってこれを認識する。この『マスタ』
状態ではコントローラ20はメモリ30及び35の両方にアク
セスすることができる。アービトレーション論理40は
（矢印62で示すように）そのローカルDRAMコントローラ
・バッファ60をイネーブルし、制御トランシーバ70を
（矢印73に示すように）コントローラ20からバックプレ
ーン78を駆動するように設定する。

【００２９】次に、DRAMコントローラ50はCAS及びRASを
発して（矢印64で示すように）自己のDRAM30にアクセス
するとともに制御トランシーバ70、75を介してCAS及びR
ASを発して（矢印66、73及び77に示すように）コントロ
ーラ20のDRAM35にアクセスすることによって、DRAMリフ
レッシュ・サイクルを実行する。従って、DRAM30及び35
は実質的に同時にリフレッシュされる。

【００３０】図４にはマスタ／スレーブ関係にある夫々
のコントローラのメモリ・アクセス状態を反映したアー
ビトレーション論理状態遷移図を示す。前述したよう
に、アービトレーション論理40及び45（図１ないし図
３）は状態遷移信号の送出と検出によってメモリ30及び
35のミラーリング動作を制御する。また、アービトレー
ション論理はメモリ・システムに接続されたすべてのバ
ッファ及びトランシーバの出力のイネーブルと方向の選
択を制御する。従って、一度に１つのコントローラだけ
が、DRAMのローカルバンクと遠隔バンクの両方にアクセ
スすることを許可される。アービトレーション論理がメ
モリ・リフレッシュ・サイクルあるいは他の何らかの読
出し／書込み動作中等の際の適切な一連の遷移状態を一
回りするまで、他方のコントローラはいずれのメモリに
もアクセスすることができない。アービトレーション論
理がそのさまざまな状態を経ていくに当たって、このア
ービトレーション論理は現在の状態を遠隔コントローラ
に送り、同様に遠隔のアービトレーション論理の状態遷
移信号をモニタする。これによって何れのアービトレー
ション論理も他方の障害を検出することができる。

【００３１】さまざまな遷移状態が存在でき、また図４
中にその全てを示すものではない、ということがわかる
だろう。しかし、本実施例に用いられ図４に示したさま
ざまな状態のいくつかを次に示す。

【００３２】『リセット』：コントローラ基板上のリセ
ット・ラインに信号が出ているとき、アービトレーショ
ン論理は『リセット』状態90にある。この状態では、ロ
ーカル・制御トランシーバ及びデータ・バックプレーン
・トランシーバ（図２の70、75、80及び85）はローカル
DRAMコントローラと同様にディスエーブルされる。リセ
ットが解除されると、アービトレーション論理はスレー
ブ状態に入る。

【００３３】『スレーブ』：『スレーブ』状態95では、
ローカル制御バックプレーン・トランシーバはローカル
DRAMを志向し、ローカルDRAMコントローラ・バッファ
（60あるいは65）がディスエーブルされる。実行されて
いる動作（読出しあるいは書込み）に応じてローカル・
データ・バックプレーン・トランシーバが設定される。
ローカルDRAMコントローラからのメモリ・アクセス要求
はローカル・アービトレーション論理が受け取り、この
ローカル・アービトレーション論理は『要求』状態に入
って、メモリへのアクセスができるようになる。

【００３４】『要求』：ローカル・アービトレーション
論理タイマは、『要求』状態100になったそのはじめに
起動される。この状態では、『要求』状態遷移信号が遠
隔アービトレーション論理に送られ、ローカル・アービ
トレーション論理は遠隔アービトレーション論理がロー
カル・コントローラに対して遠隔DRAMへのアクセスを許
可するまで待つ。ローカル・バックプレーン・トランシ
ーバ及びDRAMコントローラは『スレーブ』状態の場合と
同じに設定される。遠隔アービトレーション論理によっ
て遠隔DRAMへのアクセスが許可される前にタイマからタ
イムアウト期間を示す信号が発せられると、ローカル・
アービトレーション論理は『障害』状態に入る。アクセ
スが認められると、ローカル・アービトレーション論理
は『マスタ』状態に入る。

【００３５】『マスタ』：『マスタ』状態105では、DRA
M30、35の両方のバンクへのアクセスが許可される。ロ
ーカル制御バックプレーン・トランシーバは遠隔基板を
志向し、ローカルDRAMコントローラ・バッファ（60ある
いは65）がイネーブルされる。データ・バックプレーン
・トランシーバは実行されている動作（読出しあるいは
書込み）に応じて設定される。アービトレーション論理
は、遠隔基板からの『要求』が検出され、かつローカル
DRAMコントローラからの要求線上の信号が落とされるま
でこの状態にとどまる。遠隔コントローラがスレーブ状
態になった後にこの『マスタ』状態に入る。

【００３６】『許可』：ローカル・アービトレーション
論理は、遠隔コントローラがミラー・インターフェース
を要求していることをこのローカル・アービトレーショ
ン論理が検出したとき『許可』状態110になる。ローカ
ル・アービトレーション論理は、ローカルDRAMコントロ
ーラがその現在のメモリ・アクセスを完了してその要求
線上の信号を落とすまで、この状態で待機する。

【００３７】『障害』：以下に示す場合に障害状態115
に入る：（１）バスを使用することが、ローカル・アービトレー
ション論理のクロックによってモニタされるタイムアウ
ト期間内に許可されないとき；あるいは（２）遠隔コントローラ上で異常な遷移状態が検出され
たとき。アービトレーション論理は、ローカル・コントローラが
リセットされるまでこの状態にとどまってその後『リセ
ット』状態に入るか、あるいは遠隔アービトレーション
論理が『リセット』状態に入りるまでこの状態に留ま
り、その後『再同期』状態に入る。この『障害』状態で
は、両方のバックプレーン・トランシーバがディスエー
ブルされ、DRAMコントローラ・バッファがイネーブルさ
れる。

【００３８】『再同期』：遠隔アービトレーション論理
がリセット状態に入ったことをローカル・アービトレー
ション論理が検出したとき、『再同期』状態120に入
る。この状態に入った際には必ずタイマが起動される。
アービトレーション論理は、遠隔アービトレーション論
理がリセット状態から脱するか、あるいはタイムアウト
期間が終了するまで、この状態にとどまる。タイムアウ
ト期間の終了の場合は、『障害』状態になる。タイムア
ウト期間が終了する前に遠隔コントローラがリセット状
態を脱すると、『スレーブ』状態になる。この状態で
は、両方のバックプレーン・トランシーバがディスエー
ブルされ、DRAMコントローラ・バッファがイネーブルさ
れる。

【００３９】『単一』：第２のコントローラの存在が検
出されない、あるいはコントローラが“分離モード”す
なわち非メモリ・ミラーリング状態にあるとき、『単
一』状態125になる。アービトレーション論理は、これ
ら２つの条件の一方が成立するかあるいはコントローラ
・リセットが検出されるまでこの状態にとどまる。いず
れの場合にも、次の状態は『リセット』状態である。こ
の状態では、両方のバックプレーン・トランシーバがデ
ィスエーブルされ、DRAMコントローラ・バッファがイネ
ーブルされる。

【００４０】その間でミラーリングされているメモリを
有する二重化されたコントローラ・データ記憶システム
におけるコントローラ障害を検出するためのシステムと
方法の実施例を説明した。本発明はコントローラ間の低
コストのリアルタイム・リンクを提供する強力なツール
を提示し、夫々のコントローラが他方のコントローラを
モニタできるようにし、障害を検出すべく夫々のコント
ローラの動作を協調させることができるようにする、と
いうことは明らかである。さらに、当業者には、本発明
は本技術分野の既存のさまざまなハードウエア及びソフ
トウエア・ツールの任意のものを用いて簡単に実施する
ことができることは明らかであろう。本発明を具体的な
実施例を用いて説明したが、本発明の精神と範囲から逸
脱することなく、別の実施態様や実施あるいは変形の手
法を用いることができることは明らかであろう。

【００４１】以下に本発明の実施の態様の例を列挙す
る。

【００４２】［実施態様１］以下の(a)ないし(c)を設
け、夫々が他の各々のコントローラについて実質的にミ
ラーリングしたメモリを有する複数のコントローラを有
するコンピュータ・ディスク・ストレージ制御システム
のための障害検出システム：（a）前記複数のコントローラのうちの第１のコントロ
ーラによる第１の状態遷移信号を、前記複数のコントロ
ーラのうちの第２のコントローラに送出する手段：前記
第１の状態遷移信号は前記第１のコントローラのミラー
リングされたメモリ・アクセス状態を識別する；（b）前記第１の状態遷移信号の送出と実質的に同時に
始まる予め定められた期間を計時する手段；（c）以下の(i)と(ii)の何れかを検出する手段：（i）前記第２のコントローラから送られる第２の状態
遷移信号：前記第２の状態遷移信号は、前記第２のコン
トローラのミラーリングされたメモリのアクセス状態を
識別する；（ii）前記期間の終了：前記期間の終了は前記第２のコ
ントローラの障害を表す。

【００４３】［実施態様２］前記第１の状態遷移信号
は、夫々のコントローラのミラーリングされたメモリへ
のアクセスの要求を表わす信号であることを特徴とする
実施態様１記載の障害検出システム。

【００４４】［実施態様３］メモリ・アクセス・サイク
ルが起こったときに前記第１の状態遷移信号を送出する
手段を有することを特徴とする実施態様１記載の障害検
出システム。

【００４５】［実施態様４］前記第２の状態遷移信号は
ミラーリングされたメモリへのアクセスを前記第１のコ
ントローラに許可することを表わす信号であり、これに
よって前記第２のコントローラは前記ミラーリングされ
たメモリへのアクセスを拒絶されることを特徴とする実
施態様１記載の障害検出システム。

【００４６】［実施態様５］前記第２の状態遷移信号は
不当な状態遷移信号であり、前記不当な状態遷移信号に
よって、前記第１のコントローラが前記第２のコントロ
ーラの障害を検出することを特徴とする実施態様１記載
の障害検出システム。

【００４７】［実施態様６］以下の(a)ないし(c)のステ
ップを設け、第１及び第２のディスク・コントローラ及
び前記第１と第２のディスク・コントローラ間でミラー
リングされたメモリを有するコンピュータ・ディスク・
ストレージ制御システムにおけるメモリ・システム障害
を検出する方法：（a）前記第１のコントローラから前記第２のコントロ
ーラに第１の状態遷移信号を送るステップ：前記第１の
状態遷移信号は、前記第１のコントローラのミラーリン
グされたメモリへのアクセス状態を識別する；（b）前記第１のコントローラが前記第１の状態遷移信
号の送出と実質的に同時にタイマを起動して予め定めら
れた期間を計時するステップ；（c）前記第１のコントローラが以下の(i)と(ii)の何れ
かを検出するステップ：（i）前記第２のコントローラから送られる第２の状態
遷移信号：前記第２の状態遷移信号は、前記第２のコン
トローラのミラーリングされたメモリへのアクセス状態
を識別する；（ii）前記期間の終了：前記期間の終了は前記第２のコ
ントローラのメモリ・システムの障害を表わす。

【００４８】［実施態様７］前記第１の状態遷移信号は
前記ミラーリングされたメモリへのアクセスの要求を表
わすことを特徴とする実施態様６記載の方法。

【００４９】［実施態様８］前記第１の状態遷移信号は
メモリ・アクセス・サイクルが起こった際に送出される
ことを特徴とする実施態様６記載の方法。

【００５０】［実施態様９］前記第２の状態遷移信号は
前記ミラーリングされたメモリへのアクセスを前記第１
のコントローラに許可し、これによって前記第２のコン
トローラは前記ミラーリングされたメモリへのアクセス
を拒絶されることを特徴とする実施態様６記載の方法。

【００５１】［実施態様１０］前記第２の状態遷移信号
は不当な状態遷移信号であり、前記不当な状態遷移信号
によって、前記第１のコントローラが前記第２のコント
ローラのメモリ・システムの障害を検出することを特徴
とする実施態様６記載の方法。

【００５２】

【効果】以上詳細に説明したように、本発明によれば、
複数のディスク・コントローラを有し、またキャッシン
グ等に使用するメモリを各コントローラが持つととも
に、これらのメモリの内容を互いに一致させておく（ミ
ラーリング）ディスク・ストレージ・システムにおい
て、コントローラ同士が監視し合うことによって、コン
トローラの障害をハードウエア／ソフトウエア上の負担
をほとんど増大させることなく早期に検出できる。これ
により、障害の発生時には不良コントローラの切離し、
代替処理がすばやくできるので、データ破壊の防止やシ
ステムの可用性の増大を図ることができる。

【図面の簡単な説明】

【図１】本発明の一実施例の概略ブロック図。

【図２】本発明の一実施例のより詳しいブロック図。

【図３】本発明の一実施例中のデータの流れを示すブロ
ック図。

【図４】本発明の一実施例における状態遷移図。

【符号の説明】

10：ディスク・ストレージ・システム 12：ディスク・ストレージ装置 15：ディスク・ストレージ・サブシステム 20, 25：ディスク・ストレージ・コントローラ 30, 35：メモリ 40, 45：アービトレーション論理 50, 55：DRAMコントローラ 60, 65：バッファ 70, 75：制御トランシーバ 78：バックプレーン 80, 85：データ・トランシーバ 90：『リセット』状態 95：『スレーブ』状態 100：『要求』状態 105：『マスタ』状態 110：『許可』状態 115：『障害』状態 120：『再同期』状態 125：『単一』状態

Claims

【特許請求の範囲】

【請求項１】以下の(a)ないし(c)を設け、夫々が他の各
々のコントローラについて実質的にミラーリングされた
メモリを有する複数のコントローラを有するコンピュー
タ・ディスク・ストレージ制御システムのための障害検
出システム：（a）前記複数のコントローラのうちの第１のコントロ
ーラによる第１の状態遷移信号を、前記複数のコントロ
ーラのうちの第２のコントローラに送出する手段：前記
第１の状態遷移信号は前記第１のコントローラのミラー
リングされたメモリ・アクセス状態を識別する；（b）前記第１の状態遷移信号の送出と実質的に同時に
始まる予め定められた期間を計時する手段；（c）以下の(i)と(ii)の何れかの生起を検出する手段：（i）前記第２のコントローラから送られる第２の状態
遷移信号：前記第２の状態遷移信号は、前記第２のコン
トローラのミラーリングされたメモリのアクセス状態を
識別する；（ii）前記期間の終了：前記期間の終了は前記第２のコ
ントローラの障害を表す。