JPH02228744A

JPH02228744A - データ処理システム

Info

Publication number: JPH02228744A
Application number: JP2007274A
Authority: JP
Inventors: Marion L Blount; マリオン・リイ・ブラント; Stephen P Morgan; ステフアン・ポール・モーガン; Katalin A V Rader; カタリン・アナ・ベロニカ・ラダー; Robert K Rader; ロバート・ケント・ラダー; Amal A Shaheen-Gouda; アモール・アーメツド・シヤーン‐ゴーダ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-01-18
Filing date: 1990-01-18
Publication date: 1990-09-11
Also published as: US5222217A; JPH0557619B2; EP0381644A3; EP0381644A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、一般に同じ仮想記憶アドレス指定空間を共有
する相互接続された複数の同様なデータ処理装置を含む
仮想記憶データ処理システムに関する。具体的には、本
発明は、メッセージ・キューや、緊密結合されたマルチ
プロセッサ「回復可能共有仮想記憶」データ処理システ
ムにおけるシステム機能などの信頼できる共有データ構
造を実施するシステム及び方法に関する。

Ｂ、従来の技術従来技術は、単一スタンドアロン中央演算処理装置（Ｃ
ＰＵ）を使用したいくつかの仮想記憶データ処理システ
ムを開示している。こうしたシステムは、一般にそれぞ
れＪ、バイトのデータを記憶する複数の個別にアドレス
可能な記憶位置をもつ主記憶装置、及びそれぞれ１ブロ
ツクのデータを記憶する複数のブロック・アドレス可能
記憶位置を含むディスク・ファイルなどの２次記憶装置
を使用する。仮想記憶の概念は、ときには１段記憶と呼
ばれるものに関係している。１段記憶では、システムの
最大アドレス範囲が、一般に主記憶装置の実容量よりも
はるかに大きい。主記憶装置は、主記憶装置内のアプリ
ケーション・プログラムが必要とするデータを協働して
保持するベージング機構及び２次記憶装置の使用によっ
て、はるかに大きく見えるようになる。ベージング機構
の機能は、アプリケーション・プログラムによってアド
レスされたページが主記憶装置にないとき、２次記憶装
置から主記憶装置にデータのページを転送することであ
る。これはページ・フォールトと呼ばれる。２次記憶装
置から主記憶装置にデータのページを転送することは、
ページ・フォールト処理と呼ばれる。

従来技術はまた、データ処理能力を増大させるために時
々使用されるいくつかの異なるマルチプロセッサ・シス
テム構成を開示している。マルチプロセッサ・システム
構成は、論理通信チャネルを共有する複数の処理装置と
考えられる。論理通信チャネルは、ある処理装置から別
の処理装置へのメツセージが置かれる、処理装置間で共
有される記憶域の形を取ることがある。さらに、論理通
信チャネルは、メツセージをある処理装置から別の処理
装置に移すための通信ネットワーク（共存バスを含む）
の形を取ることもある。

緊密結合マルチプロセッサ・システム構成と呼ばれる従
来技術のあるマルチプロセッサ・システム構成では、構
成内の処理装置は、ある量の記憶域を共有し、構成内の
どの処理装置もそれにアクセスできる。ただし、各処理
装置は、その処理装置だけがアクセスできるある量の専
用記憶域をもつこともある。

緊密結合マルチプロセッサ構成で配置されたコンピュー
タ・システムは、共有記憶域を介して高速通信ができる
という利点を有し、また共有記憶域をディスク・キャッ
シュとしても利用することができる。ページ・フォール
トが発生するのは、緊密結合マルチプロセッサ構成の処
理装置の１つで実行中のアプリケージ式ン・プログラム
が、主記憶装置にないデータ・ページをアドレスすると
きである。ページ・フォールト処理中に、その構成に接
続された適切な２次記憶装置が、適切なデータ・ページ
を共存記憶域に入れるように指令される。そのデータ・
ページが共有記憶域に入れられると、構成内のどの処理
装置もそれにアドレスできる。

しかし、構成内の処理装置間での共有記憶域に対するア
クセスの競合が、ディスク・キャッシュとして使用する
際に共有記憶域がもたらす利点を上回るとき、緊密結合
マルチプロセッサ構成の実際上の限界に達する。たとえ
ば、構成内のある処理装置が、同じデータ・ページの内
容の検査を試みている間に、他の処理装置がデータ・ペ
ージの内容を変更しようと試みることがある。通常は、
この構成に、２つの処理装置にデータが一貫したビュー
で見えるように、一方の処理装置のために他方の処理装
置を締め出す何らかの機構を設けなければならない。緊
密結合マルチプロセッサ構成内の処理装置に一貫したデ
ータのビューを押しつける様々な方法が従来技術には存
在する。

こうした従来技術の方法は、他方の処理装置が共有記憶
域へのアクセスを完了するまで、構成内の一方の処理装
置を遊ばせるものである。遊んでない処理装置は遊休状
態であり得す、育苗な作業を実行する。したがって、共
有記憶域に対するアクセスの競合の結果、構成を全体と
して考えるとき、不可避的に構成の処理能力が若干失わ
れる。

これらの理由から単一の緊密結合マルチプロセッサ構成
内の処理装置の数が６台を超えることは稀である。

緊密結合または「クラスタ式」マルチプロセッサ構成と
呼ばれる従来技術のあるマルチプロセッサ・システム構
成では、複数の処理装置が通信ネットワークを介して接
続され、各処理装置は直接それ自体の記憶装置にアクセ
スし、他のどの処理装置もその記憶装置にアクセスでき
ない。緊密結合マルチプロセッサ構成内の処理装置は、
通信ネットワークを介して構成内の他の処理装置にメツ
セージを送ることにより、データを共有できる。

緊密結合マルチプロセッサ構成のある変形では、構成内
の処理装置の１つが共存記憶処理装置として動作する。

共有記憶処理装置に接続された主記憶装置は、共有記憶
処理装置によって管理されるディスク・キャッシュとし
て使用される。共有記憶処理装置には、他の処理装置の
どれが、どの時点でどんな条件下で共存記憶域のどの区
域にアクセスできるかを制御する機能も指定されている
。

最近では、従来技術は、スタンドアロンのパーソナル・
コンピュータまたはスタンドアロンのエンジニアリング
・ワーク・ステージ１ンをローカル・エリア・ネットワ
ークに構成し始めた。こうした構成、いわゆる柔軟結合
マルチプロセッサ構成または分散システム構成では、ど
のワーク・ステーシロンも標準の通信プロトコルを用い
て他のワーク・ステーションと通信できる。こうした柔
軟結合構成を確立するための動機は、必ずしもより高い
データ処理能力ではなく、非電子にではなく電子的に情
報を交換する便宜のためにすぎない。

しかし、多くの状況では、個々のワーク・ステーション
が同じオペレーテング・システムを走行させることが見
られる。

１９８６年の第５回分散コンピユーテイング原理に関す
る計算機シンポジウム年金（５ｔｈ　ＡｎｎｕａｌＡｓ
ｓｏｃｆａｔｆｏｎ　ｆｏｒ　Ｃｏｍｐｕｔｉｎｇ　Ｍ
ａｃｈｉｎｅｒｙ　Ｓｙｍｐｏｓｉｕｍｏｎ　　Ｐｒ１
ｎｃｉｐｌｅｓ　　ｏｆ　　Ｄｉｓｔｒｉｂｕｔｉｎｇ
　　Ｃｏｍｐｕｔｉｎｇ）　　で提出された、カイ・’
Ｊ　−（Ｋａｉ　Ｌｉ）及びボール・フダク（Ｐａｕｌ
　Ｈｕｄａｋ）の論文「共有仮想記憶システムにおける
メモリの整合性（Ｍｅｍｏｒｙ　Ｃｏｈｅｒｅｎｃｅｉ
ｎ　５ｈａｒｅｄ　Ｖｉｒｔｕａｌ　Ｓｔｏｒａｇｅ　
Ｓｙｓｔｅｍｓ）　Ｊは１クラスタ式構成で相互接続さ
れた複数の仮想メモリ・データ処理装置を開示している
。この構成では、すべての装置が同じオペレーティング
・システムを有し、同じ仮想アドレス空間をアドレスす
る。

各装置は、異なる１組のファイルを所有し、それらのフ
ァイルはその所有装置の記憶システムに記憶される。ア
プリケージ１ン・プログラムを走行させる非所有装置は
、適切な通信リンクを介して他の装置の記憶システムへ
のアクセスを獲得して、ファイル所存装置に仮想データ
・ページを要求し、それが要求側に戻される。したがっ
て、クラスタ式構成内の各処理装置は、その仮想記憶シ
ステム中の１組のファイルを構成内の他の装置と共有す
る。

ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｃｏｍｐｕ
ｔｉｎｇ　Ｓｙｓｔｅｍｓ　　４（２）、１９８８年５
月刊に発表されたＲ、フィツジェラルド（Ｆｉｔｚｇｅ
ｒａｌｄ）及びＲ，Ｆ、ラシード（Ｒａｓｈｉｄ）　　
の論文「アクセントにおける仮想メモリ管理の統合及び
処理量通信（Ｔｈｅ　Ｉｎｔｅｇｒａｔｉｏｎｏｆ　Ｖ
ｉｒｔｕａｌ　Ｍｅｍｏｒｙ　Ｍａｎａｇｅｍｅｎｔ　
ａｎｄ　ＩｎｔｅｒｐｒｏｃｅｓｓＣｏｍｎ＋ｕｎｉｃ
ａｔｉｏｎ　ｉｎ　Ａｃｃｅｎｔ）　Ｊは１カーネギ−
１メロン大学で開発されたアクセント・オペレーティン
グ・システムを記載している。アクセント・オペレーテ
ィング・システムは、カーネル働サービスを実施するた
め、大容量データ転送でデータ・コピーではなく記憶マ
ツピング技術を使用するように、仮想記憶管理とカーネ
ル内の処理量通信を統合する。

共有仮想記憶域を使用するマルチプロセッサ・システム
では、２つの広く見られる問題がある。

１つは、部分的障害の発生、及びその結果生じるシステ
ムによる信頼性のレベルである。もう１つの問題は、そ
のサービスを分散するためにカーネル内で必要な専用コ
ードがより複雑になり、その量が増えることである。

単一プロセッサ・システムが「崩壊」シ、または障害を
起こすと、システムによって供給されるサービスとサー
ビスのユーザが共に崩壊して、全体的障害が起こる。分
散構成では、１つのプロセッサが崩壊しても、他のプロ
セッサはそのままであり、崩壊したプロセッサによって
提供されるサービスが障害を生じたことをそれらのユー
ザが知って、部分的障害が発生する。有益な作業を再開
するには、システムはまずそれ自体を一貫した状態にし
なければならないが、これは困難な課題である。その結
果、大半のマルチプロセッサ・オペレーティング・シス
テムは、１９８１年１２月の第８回オペレーティング・
システムの原理に関するシンポジウムの報告集（Ｐｒｏ
ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＥｉｇｈｔｈＳｙ＋
＋ｐｏｓｉｕｍ　Ｏｎ　Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔ
ｅｍ　Ｐｒ１ｎｃｉｐｌｔｓ）で発表されたＪ、Ｆ、パ
ートレット（Ｂａｒｔ　１ｅｔｔ　）の論文「非停止カ
ーネル（Ｗｏｎ−Ｓｔｏｐ　Ｋｅｒｎｅｌ）　Ｊで論じ
られているように、最初から（または検査点から）影響
を受けたアプリケーションを「殺し」で再開するか、あ
るいはアプリケーションまたはサブシステムあるいはそ
の両方がそれら自体の部分的障害を処理しようとしてい
ると仮定し、したがって、はとんどまたはまったく援助
を行なわないかのどちらかである。クラスタ式システム
の１つの目標は、透過性である。すなわち、ユーザ及び
アプリケ−シロン・プログラムが、複数のプロセッサ・
ユニットが存在することを知る必要がないようにするこ
とである。したがって、クラスタ式システムにおける部
分的障害の効果を排除または最小にするための処置を講
じなければならない。

独立したプロセッサからなるクラスタ式システムでは、
通信が必ず必要であり、したがってプロトコルが必要に
なり、特殊な処理及び他の関連機能が設けられることも
ある。特殊機能の必要性をなりシ、あるいは減少させる
単一の機構が見つかったなら、現在は分散されているシ
ステム・サービスの実施が単純になり、各特殊機能に努
力を注ぐのではなく、基礎となる機構を最適化すること
が可能になる。

従来技術の分散データ処理システムでは、特定の機能を
必要とするシステム内の１つのｌ　ｉ　カ、分散システ
ム内の他の処理装置に自分のために仕事を実行するよう
要求することは普通であった。

実際には、１つのプロセッサが、その特定の作業機能を
指定されたシステム内の異なるプロセッサ・ユニットに
サービス要求を発送し、したがって、その仕事を実行す
るのに利用できる必要なデータ構造を持っていた。こう
した「機能発送」実施態様は、複雑なコード構造の使用
を必要とし、したがって部分的障害からの回復が困難で
あった。

さらに、従来技術で開示された柔軟結合マイクロプロセ
ッサ構成は、従来、個々のプロセッサ・ユニット上で走
行する個々のカーネルが、サービス要求を含むメツセー
ジを、構成全体の共存資源を管理する構成内の他のプロ
セッサ・ユニットに送るという、メツセージ・バス通信
モデルの周囲で設計されていた。こうしたメツセージ・
バス・モデルに頼るのは、疑いもなく、メツセージ・バ
スが、当然のことながら処理装置間の基礎的通信接続に
対応するからである。

メツセージ・バス実施態様で複雑なデータ構造を共有す
るのが難しいことは周知であり、ＡＣＭＴｒａｎｓａｃ
ｔｉｏｎｓ　ｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｌａｎｇ
ｕａｇｅ　ＳｙｓｔｅｍｓＶｏｌ、４、Ｎｏ、４　（１
９８２年１０月）に発表されたＭ、ヘルリヒ（Ｈｅｒｌ
ｉｈｙ）及びＢ、リスコツ（Ｌｆｓｋｏｖ　）の論文「
抽象データ形式用の値伝送方法（Ａ　Ｖａｌｕｅ　Ｔｒ
ａｎｓｍｉｓｓｉｏｎ　Ｍｅｔｈｏｄ　ｆｏｒＡｂｓｔ
ｒａｃｔ　Ｄａｔａ　Ｔｙｐｅｓ）　Ｊに記載されてい
る。上記論文を引用により°本明細書に合体する。メツ
セージ・バス・モデルの難点は、１９８１年５月にカー
ネギ−・メロン大学から出版されたＢ、ネルソン（Ｈｅ
ｌｓｏｎ）の博士論文「遠隔プロシージャ呼出しくＲｅ
ｍｏｔｅ　Ｐｒｏｃｅｄｕｒｅ　Ｃａ１ｌ）　Ｊに論じ
られている＠上記論文も引用により本明細書に合体する
。

それとは対照的に、緊密結合マイクロプロセッサ構成用
の従来技術のオペレーティング・システムは、従来より
メツセージ・バス・モデルの周りで実施されていなかっ
た。そうではなくて、構成内の処理装置が、ある量の主
記憶域を共有し、カーネルが主記憶装置内の複雑なデー
タ構造を共有し、こうした構造を指すポインタだけをカ
ーネル間でバスする。元々単一プロセッサ用に開発され
たオペレーティング・システムを、書き直すのではなく
、直列化領域とキャッシュの整合性に若干の修正を加え
て修正する七、それがこうした緊密結合マルチプロセッ
サ構成で効率的に実行されることは自明である。メツセ
ージ−バス・モデルの周りに構成されたオペレーティン
グ・システムを、こうした緊密結合マルチプロセッサ構
成で実行されるように修正するのは、異常かつ困難であ
る。

関連の米国特許出願第０７／１２６８２０号には、共有
仮想記憶緊密結合マルチプロセッサ・データ処理システ
ムにおける「回復可能共を仮想記憶（Ｒ８ＶＳ）Ｊまた
は「クラスタ式」記憶の新規なシステム及び方法が開示
されている。こうしたシステムは、トランザクションの
打切りによるデータの損失を最小にする新規な方法を利
用することによって、水平成長も可能な「高可用性」デ
ータ処理システムを提供するという目標を達成する。

水平成長とは、プロセッサ・ユニットをクラスタ式シス
テムに追加して、１組のプログラムを処理する時間が短
縮される、あるいはシステムの応答時間を大幅に拡張す
ることなく、より多くのプログラムが同時に処理可能に
なるという意味で、高性能を実現することであると定義
できる。

「トランザクション」とは、クラスタ式構成内の処理装
置間で共有される仮想記憶域に記憶されたデータを更新
するアプリケ−シロン・プログラムによって実行される
、作業単位である。トランザクションは、クラスタ式構
成内の単一処理装置上で唯一プログラムを走行させる単
一処理の実行のスレッドの下で走行する。上記の関連特
許出願で開示された新規なシステムは、１つのプロセッ
サによって実行される識別されたトランザクションの影
響を受けるデータ構造のコピーを維持し、トランザクシ
ョンがコミットされたとき、異なるプロセッサ上にある
コピーの更新だけを行なう。

したがって、トランザクションの開始時に存、在した通
りの情報が他のプロセッサに記憶されたコピー中で利用
可能なので、何らかの理由で打ち切らなければならなか
ったトランザクシリンが再試行できる。

上記の関連特許出願は、ある形の共有仮想記憶域を使用
し、原子的直列化更新意味論を実現し、読み書き直列化
可能性とも呼ばれる第３度の整合性をもたらす、ＩＢＭ
　　ＡＩＸオペレーティング・システム（ＡＩＸはＩＢ
Ｍコーポレーションの登録商標）に基づく本発明の実施
態様を開示している。トランザクションは、所与のトラ
ンザクションによる変更がすべて見えるようになるか、
またはまったく見えないようになり、トランザクション
がコミットされるまでいつでもすべての変更をアントウ
ーすることが可能であるという点で原子的である。トラ
ンザクションは、上記の関連特許出願に記載されたハー
ドウェア・ロッキング・サポートにより、複数のトラン
ザクションが「同時に」実行されることがあっても、そ
の結果は、トランザクションがある順序で順次実行され
た場合と同じになるという点で、直列化可能である。

Ａ　ＣＭ　　Ｔｒａｎｓａｃｔｉｏｎ　ｏｎ　Ｃｏｍｐ
ｕｔｉｎｇ　Ｓｙｓｔｅｍｓ）１９８８年２月号に発表
されたＡ、チャン（Ｃｈａｎｇ）及びＭ６メルゲン（Ｍ
ｅｒｇｅｎ）　　の論文「８０１記憶装置：アーキテク
チャ及びプログラミング（８０１Ｓｔｏｒａｇｅ　：　
Ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄＰｒｏｇｒａｍｍｉ
ｎｇ）　Ｊは、「データベース記憶域」という概念を記
載している。Ｒ８ＶＳまたはクラスタ式記憶装置につい
て理解するには、データベース記憶域について若干理解
するのが有用である。

ファイルやデータ構造などのオブジェクトは、仮想記憶
セグメントにマツプされる。オブジェクトのすべてのユ
ーザは、当然のことながら共有可能な、同じ仮想アドレ
スでそれにアクセスする。

１つまたは複数のこうしたオブジェクトに対する動作が
、トランザクションとして行なわれる。トランザクショ
ンは、データベース記憶域にアクセスするとき、必要に
応じて記憶域に対する読取りロックまたは書込みロック
を暗示的に獲得する。

そのロックが他のトランザクションの保持するロックと
衝突する場合、そのトランザクションは待たされる。最
終的に、そのトランザクションは終了し、コミットまた
はアントウーを呼び出すことによって完了する。前者の
場合は、トランザクションの更新が２次記憶装置への書
込みによって永続的になるが、後者の場合は、その更新
は廃棄される。どちらの場合も、ロックは解除され、そ
れを待っていた処理があれば続行できるようになる。

しかし、データベース記憶域とは違って、回復可能共有
仮想記憶域（Ｒ８ＶＳ）は、計算データを記憶するよう
に設計されている。このデータは、クラスタ全体が崩壊
する場合には必要でなく、システムが動作を開始し継続
するときに構成される。

回復共有仮想記憶域（Ｒ８ＶＳ）は、クラスタ全体が崩
壊する場合には必要とされない計算データを記憶するよ
うに設計される。すなわち、変更が見えるようになると
き、それらは、データベース記憶域に対する変更のよう
に２次記憶装置に書き込まれることはない。少なくとも
２つのページ・コピーがクラスタ中の様々なプロセラ・
す内に存在している限り、そのデータ・ページは回復可
能である。

上記の関連特許出願はまた、ファイル構造、すなわち、
トランザクションがコミットされるときに２次記憶装置
に書き込まれる構造に基づ〈実施態様も開示している。

上記特許出願は、部分的障害の場合、または２次記憶装
置に書き込まれていないデータ構造に対して、回復可能
共有仮想記憶域（Ｒ８ＶＳ）を適用して「共有データ構
造」の回復可能性を確保する方法は扱っていない。

共有データ構造には、メッセージ・キュー、セマフォア
、共有メモリ・セグメントなどの処理量通信（ＩＰＳ）
機構用のデータ構造、並びにコア内ｉノード表、オーブ
ン・ファイル表、（局所ディレクトリ用及び遠隔ディレ
クトリ用の）ディレクトリ・キャッシュなどのファイル
・システム・データ構造、及びＳＮＡ接続表などのサブ
システム大域データが含まれる。

メッセージ・キューは、ＵＮＩＸ　（ＡＴ＆Ｔベル研究
所の登録商標）オペレーティング・システムに基づくオ
ペレーティング・システム、またはそれから誘導された
オペレーティング・システムでの処理量通信に有用な機
構をもたらす。処理は、まずメッセージ・キューを作成
し、そのキューを用いてメツセージを交換することによ
り通信できる。この機構を使用するため、１組のシステ
ム・コールが設けられている。

メツセージ・キュ一実施態様に関連する最近の従来技術
の開発は、異なる手法を取っている。ＵＮＩＸの開発は
主に、ＡＴ＆Ｔによる「システムＶ」と呼ばれる仕事及
び、カリフォルニア大学バークレー校による「バークレ
ー」と呼ばれる仕事が中心であった。どちらのバージロ
ンも、ある形の処理量通信が組み込まれている。バーク
レーは「データ・ダラム」及び「仮想クラスタ」と呼ば
れるＩＰＣの２つのバージロンを提供しており、そのど
ちらも「ソケット」という概念に基づいている。１９８
６年２月にＣｏｍｍｕｎｉｃａｔｉｏｎｓ　ｏｆ　ｔｈ
ｅＡＣＭに発表されたＢ、Ｄ、フライシｓ　（Ｆｌｅｉ
ｓｃｈ）の論文ｒＬＯｃＵｓにおける分散システムＶＩ
ＰＣ：設計と実施の回想（Ｄｉｓｔｒｉｂｕｔｅｄ　Ｓ
ｙｓｔｅｍ　ＶＩＰＣｉｎ　ＬＯＣＬＩＳ：　Ａ　Ｄｅ
ｓｉｇｎ　ａｎｄ　ＩｍｐｌｅｍｅｎｔａｔｉｏｎＲｅ
ｔｒｏｓｐｅｃｔｉｖｅ）　Ｊによると、「バークレー
ＩＰＣは「長距離」環境に最適である」。他方、［シス
テムＶＪＩＰＣは、計算の単一システム・イメージが得
られるように作成されている。具体的には、上記の論文
は、システムＶ　　ＩＰＣの分散を記載している。ＬＯ
ＧＵＳシステムでは、たとえば、異なるプロセッサ上で
走行する処理間でメッセージ・キューを共有することが
可能である。しかし、プロセッサの１つが崩壊した場合
、そのプロセッサ上のキュー中のメツセージが失われる
。ただし、そのキューの識別は失われない。すなわち、
部分的障害の場合には、分散システムの存在が、生き残
った処理に見えるようになる。障害に出会ったときメッ
セージ・キューを回復可能にするため、ＬＯＣＵＳシス
テムでは特別の処置を講じている。

キューは、一義的「ハンドル」によって参照される。ハ
ンドルの値には、識別子及び「ブート・カウント」すな
わちシステムが起動した回数が含まれ、それらは、ハン
ドルが使用されるときに検査される。ハンドルを割当て
て指定する「ネーム・サーバ」が常に利用可能でなけれ
ばならないので、最初のハンドルが障害を起こした場合
に第２のハンドルを起動させる機構が、オペレーティン
グ・システムのカーネル内に存在する。

ネーム・サーバとカーネルは通信しなければならず、そ
れは区別されたキューを介して行なわれる。メツセージ
は、通常の機構を用いてカーネルからネーム・サーバに
送られる。ネーム・サーバからの返答は、カーネルによ
って傍受される。カーネルは、区別されたキューのハン
ドルを認識し、ネーム・サーバのマシンからの返答をそ
のタライアンドが存在するマシンに経路設定する。ネー
ム・サーバを含むプロセッサ・ユニットが崩壊すると、
新しいネーム会サーバ・プロセッサ中ユニットが選ばれ
る。ネーム・サーバのデータベースの複数の部分が、ク
ラスタ内の各プロセッサ・ユニットで複製されており、
新しいネーム・サーバはデータベース全体を再構築し、
生き残ったプロセッサ・ユニットにボーりングすること
により、障害を起こしたプロセッサ・ユニットにあった
ものを再構築する。これは、かなり複雑で長ったらしい
手順である。また、障害を起こしたプロセッサ・ユニッ
トに存在したキューだけが失われることに留意されたい
。

Ｃ０発明が解決しようとする課題上記の機構は、あるレベルの信頼性を提供するのには有
効であるが、ずっと高い信頼性をもつシステムが望まれ
ている。特に、より高い信頼性を提供するために複雑な
１組の専用機構゛を必要としないシステムが望まれてい
る。したがって、プロセッサ障害の場合にデータ構造の
存在を保持するだけでなく、障害時にデータ構造内で任
意のデータをもセーブする、メッセージ・キューなどの
共有データ構造を実施するための機構を開発することが
望ましい。具体的には、回復可能仮想記憶域（Ｒ８ＶＳ
）の概念をメッセージ・キュー及びその他の共有データ
構造の実施態様に適合させることにより、極めて信頼・
性の高いある形のデータ構造を実施することが望ましい
。そうすると、より高い信頼性を達成するために、個々
のデータ構造用の特殊な機構を実施する必要はなくなる
。

００課題を解決するための手段本発明は、緊密結合マルチプロセッサ回復可能共存仮想
記憶（Ｒ８ＶＳ）データ処理システムにおいて、メッセ
ージ・キューなどシステム全体にわたる共有データ構造
の信頼性を確保するためのシステムと方法を提供するも
のである。上記のデータ処理システムでは、複数のプロ
セッサはそれぞれ仮想機構域を共存し、同じ仮想記憶ア
ドレスにより複数の記憶セグメントのそれぞれにアクセ
スできる。このシステムは、様々なプロセッサ上で各ペ
ージのコピーを少なくとも２つ保持し、これらのコピー
は、こうしたページを修正するトランザクションの完了
後に初めて更新される。これらのコピーは、実際には、
こうしたシステム内で同時に更新され、一方のプロセッ
サは、所与のデータ構造に対するリード・プロセッサと
呼ばれ、他方のプロセッサはこうしたデータ構造用のバ
ックアップ・プロセッサと呼ばれる。

このシステムは、リード・プロセッサが所有する仮想記
憶セグメントに記憶された識別表を含む。

この表は、オペレーティング・システムの回復可能共有
仮想記憶層が他のプロセッサをリードプロセッサのバッ
クアップ・プロセッサに指定するという、メッセージ・
キューなど、複数の共有データ構造のいずれか１つを見
つけるための情報を含む。修正された共有データ構造表
の一貫したコピーがバックアップ・プロセッサに記憶さ
れて、トランザクションの完了時、すなわち、トランザ
クションがコミットされた時に自動的に更新される。

システム内の複数のプロセッサのいずれが１っでの処理
によって開始されるシステム・コールに応えて、そのプ
ロセッサのオペレーティング・システムは、メッセージ
・キューなどの共有データ構造上でトランザクションを
開始する。それには、要求側プロセッサが所有する新し
いメッセージ・キューを作成すること、処理から、同じ
または別のプロセッサが所有する仮想記憶セグメント内
の１つのメッセージ・キューにメツセージを送ること、
同じまたは別のプロセッサが所有する仮想記憶セグメン
ト内のメッセージ・キューからメツセージを受信するこ
と、または既存のメッセージ・キューを除去することが
含まれる。トランザクションが完了すると、システム・
コールを発行スルプロセッサがＣＯＭＭＩＴを呼び出し
て、データ構造の修正がコミットされ、こうしたデータ
構造のコピーが、そのデータ構造を所有するプロセッサ
及びそのバックアップ・プロセッサに記憶される。

コミットされると、オペレーティング・システムのＲ８
ＶＳ層はまた、リード・プロセッサが所有する仮想記憶
セグメントに記憶された表中の識別情報を更新し、こう
したコピーがリード・プロセッサに対するバックアップ
・プロセッサに記憶される。

Ｅ６実施例第１図は、本発明の方法が有利に適用できる、クラスタ
に構成されたマルチプロセッサ・データ処理システムの
構成図である。第１図に示すように、このデータ処理シ
ステムは、複数のプロセッサ・ユニット１０、交換機１
１及び複数の通信リンク１２を含み、各リンク１２はそ
れぞれ１つのプロセッサ・ユニット１０を交換機１１に
接続する。交換機１１０機能は、任意のプロセッサ・ユ
ニット１０が他の任意のプロセッサ・ユニットと通信で
きるようにすることである。交換機と通信リンクの特定
の詳細は、本発明を理解するのに重要であるとは考えら
れないので、詳細な説明は行なわれない。利用できる交
換機構成の例は、米国特許第４８３５２５０号及び第４
８０５９２８号明細書に出ている。

第２図は、第１図に示したプロセッサ・ユニツトの１つ
を詳細に示す。プロセッサ・ユニット１０は、高機能パ
ーソナル・コンピュータや８０１アーキテクチヤをもち
ＩＢＭ　　ＲＴシステムなどＩＢＭ　　ＡＩＸオペレー
ティング・システムを走行させるエンジニアリング・ワ
ーク・ステージ日ンでもよい。ただし、他のアーキテク
チャ及びオペレーティング・システムも本発明を実施す
る際に使用できることに留意されたい。

第２図に示すように、プロセッサ・ユニット１０は、プ
ロセッサ１６、主記憶装置１７、プロセッサ１６と主記
憶装置１７の間でのデータ転送を制御する記憶制御装置
１８、及び複数の入出力アダプタまたはポート２ＯＡ−
２０Ｅを含む。ボート２ＯＡと２０Ｂは、表示装置型端
末２１と２２をシステムに接続する。ポート２０Ｃはプ
リンタ２３をシステムに接続し、ボート２０Ｄはディス
ク・ドライブ２４をシステムに接続する。通信ボート２
０Ｅはプロセッサ・ユニット１０を通信リンクに接続す
るのに使用される。

この説明では、プロセッサ・ユニット１０は、一般に、
相互参照する米国特許出願箱Ｏ６／８１９４５８号明細
書に詳細に記載されている仮想記憶データ処理システム
に対応する。上記出願を引用により本明細書に合体する
。上記出願に記載されているように、プロセッサは、３
２ビツトの有効アドレスをもち、このアドレスは、高位
４ピッ１−　（３１−２８）を用いて、それぞれが４０
９６個の固有の仮想記憶セグメントのうちの１つを定義
する１２ビツト仮想記憶セグメント・アドレスを記憶す
る、１６個のセグメント・レジスタのうちの１つを選択
することにより、４０ビツト仮想アドレスに変換される
。各仮想記憶セグメントは、２５６メガバイトの仮想記
憶域（２”２８）を含む。１ページが２にのデータを含
む場合、仮想記憶セグメントは１２８にページを含む。

１ページが４にバイトのデータを含む場合は、仮想記憶
セグメントは６４にページをもつ。正確に言うと、その
仮想記憶セグメントに現在割り当てられているデータ・
ページを識別するのに使用される６４にの仮想ページ・
アドレスをもつ。

相互参照された上記の特許出願に記載されているように
、このプロセッサ・ユニットでは、アプリケ−シロン・
プログラム及びそれらのプログラムが使用するデータが
ＡＩＸファイル・システム型構成に従って構成されるよ
うに、ＩＢＭＡＩＸオペレーテオペレーティングが使用
される。

以下の説明では、１データ・ページが２１１２すなわち
４にパイ）　（４０９Ｅｔ）を含み、仮想記憶セグメン
トが２１１６すなわち８４にページから成ると仮定する
。

ブラウンド（Ｂｌｏｕｎｔ）他の名義で同時に出願され
た関連米国特許出願（Ａｒ１−８７−０５１）に記載さ
れたｌＭＣ５プロトコルなどの特殊通信プロトコルが、
マシン間通信の効率を高めるために開発されており、ク
ラスタ内の仮想記憶域の整合性を確保するページャ・プ
ロトコルがある。

８０１記憶制御装置（ＳＣＵ）１８は、物理的ロッキン
グに対するある形のハードウェア支援を行なうことが好
ましい。各４にバイト・ページは１行１２８バイトの３
２行に分割される。ある処理が最初にある行を参照しよ
うと試みたとき、５ＣＵ１８がプロセッサ１６に割り込
む。この割り込みは「ロック・フォールト」と呼ばれ、
ＡＩＸオペレーティング・システムが、その処理の一部
に対する明示的相互作用なしにロッキング機能及びジ日
−ナリング機能を呼び出すのに使用する。

ロック・フォールトは行ごとに発生するが、プロセッサ
１６は、ページ全体の読取りロックまたは書込みロック
を許可す、る権利を獲得する。プロセッサ１６がこの権
利を獲得すると、そのプロセッサ１６で実行中の個々の
処理は、そのプロセッサにあるロック・マネージャから
行レベルのロックを獲得する。トランザクションがその
更新をコミットすると、影響を受けるすべてのページの
以前のコピーが、他のすべてのプロセッサ１６中で無効
になる。その後のページ・フォールトが、更新済みコピ
ーを他のプロセッサの記憶装置に入れることができる。

前述の回復可能性はすべてのクラスタ記憶セグメントに
とって望ましいが、それらのすべてがデータベース意味
論を、したがってロッキングを必要とするわけではない
。たとえば、所与のメッセージ・キューを記述する制御
構造へのアクセスは、ロッキング及びロギングを使用す
るトランザクションを用いてそのアクセスを行なうこと
により同期されるが、データが回復可能である必要はな
いものの、メツセージ自体はロッキング制御を必要とし
ない。

Ｒ８ＶＳまたはクラスタ記憶装置の実施は、８０１以外
のアーキテクチャでも行なえることに留意されたい。実
際に、どんな汎用コンピュータ・ハードウェアでも使用
できる。整合性を確保するためには、何らかの形のロッ
キング（ハードウェアまたはソフトウェア）が、必ずし
も不可欠ではないが、有用である。たとえば、クラスタ
記憶装置は、Ｈ，Ｔ、クング（Ｋｕｎｇ）及びＪ、Ｔ、
ロビンソン（Ｒｏｂｉｎｓｏｎ　）の論文「並列制御の
楽観的方法Ｊ　；　Ａ　ＣＭ　Ｔｒａｎｓａｃｔｉｏｎ
ｓ　ｏｎ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ６（２）
（１９８１年６月）に記載されているような楽観的並列
制御機構で実施できる。いつ更新が行なわれたかを検出
する何らかの方法も有用である。こうした検出システム
は、ハードウェア支援記憶保護機構に基づいて実施でき
、またはおそらく、ロード命令及び記憶命令ではなく特
殊サブ。

ルーチンを用いてすべての更新を収集（ｆｕｎｎｅｌ）
し、どの更新がどのプロセッサによっていつ行なわれた
かを記録することによって実施される。８０１アーキテ
クチヤは、システム全体のロッキング機能及びロギング
機能を実施するのに適したハードウェア支援記憶保護機
構をもたらす。

回復可能共有仮想記憶装置（Ｒ８ＶＳ）をどのように使
えばマルチプロセッサ・クラスタ型処理システム内で共
存データ構造の可用性を維持することができるかを説明
するために、ある形の共有クラスタ・データ構造、メッ
セージ・キューの実施態様を説明するのが有益である。

ＡＩＸオペレーティング・システムでは、４つの基本シ
ステム・コールを使って、メッセージ・キューＭＳＧＧ
ＥＴ１ＭＳＧＣＴＬ、ＭＳＧＳＮＤｌＭＳＧＲＣＶを作
成し使用する。それらのコールは、以下のトランザクシ
ョンを実施するのに使用される。

ＭＳＧＧＥＴ　　−キューを作成する。

既存のキューに対するメツセージ・キューＩＤを戻す。

ＭＳＧＣＴＬ　　−キューの状況を問い合わせる。

キューの許可を変更する。

キューを削除する。

ＭＳＧＳＮＤ　　−メツセージをキューに入れる。

ＭＳＧＲＣ■　−キューからメツセージを除去する。

Ｒ８ＶＳでメッセージ・キューを実施する際には、関連
米国特許出願第０７／１２Ｅ３８２０号に記載されてい
るＲ８ＶＳ特性を利用する。上記出願を引用により本明
細書に合体する。具体的に言うと、Ｒ８ＶＳセグメント
の内容が、単一プロセッサの障害など致命的でないクラ
スタ障害の後も存続するものと仮定する。また、それを
行なう適切な許可をもつクラスタ内のどの処理も、所与
のＲ８ＶＳセグメントに接続できるものと仮定する。

アクセスされたデータが、その処理が実行中であるプロ
セッサの記憶装置にない場合は、必要なページをそのプ
ロセッサのメモリに転送するためにカーネル間で交換さ
れるすべてのメツセージは、カーネルのＲＳＶＳ層で実
施される。また、トランザクションが完了したとき、オ
ペレーティング・システムのＲＳＶＳ層が、そのトラン
ザクション中に修正されたすべてのページのバックアッ
プ・コピーを更新するものと仮定する。

第５図は、第３Ａ図に示すメッセージ・キュー情報表（
ＭＳＧＱＩＴ）がシステム起動時にどのように作成され
るかを示す流れ図である。ＭＳＧＱＵＩＴには、ＭＡＳ
ＧＱＵＩＴへのアクセスを制御する制御情報と、各メッ
セージ・キューのＭＳＧＱＵＩＴ項目が含まれる。第３
Ｂ図に示した制御情報の書式には、「ロック・ワード」
、及びＭＳＧＱＵＩＴで識別される記憶メッセージ・キ
ューの数が含まれる。ＭＳＧＱＵ　Ｉ　Ｔの各項目の書
式を、第３Ｃ図に示す。

ステップ２６（第５図）で、クラスタ起動時、すなわち
初期プログラム・ローディング（ＩＰＬ）中に、起動さ
れるシステムの最初のプロセッサが、データを見つける
ための共有データ構造の識別子を記憶するＲ８ＶＳセグ
メントを作成する。

ステップ２８で、リード・プロセッサ、たとえばユニッ
トＩＯＡのオペレーティング・システムが、ＭＳＧＱＵ
ＩＴのＲ８ｖＳセグメントよりを指定する。ＭＳＧＱＵ
ＩＴ表のＲ８ＶＳセグメン）ＩＤは、事前定義でき、ま
たはファイル・システムのファイルから検索できる。１
つのファイルにいくつかのこうした大域システムＩＤが
保持できる。Ｒ８ＶＳセグメントの所有装置はクラスタ
・リーダであり、バックアップ・プロセッサ、たとえば
ユニット１０Ｂがこのリード・プロセッサ１０Ａに割り
当てられる。

ステップ３０で、ＭＳＧＱＵＩＴセグメントをロックし
た後、ＭＳＧＱＵＩＴがすべて空の項目を含むように書
式化される。ＭＳＧＱＵＩＴの項目の書式を、第３Ｃ図
に示す。各項目のＵＳＥＣＯＵＮＴカウント・フィール
ドはＯｎに設定される。キューの最大数が記入される。

これは、システム管理担当者が指定するシステム・パラ
メータである。

ステップ３２で、１０Ａ中のオペレーティング・システ
ムが００ＭＭＩＴ″を発行する。Ｒ３ＶＳ層は、ステッ
プ３０で変更されたバックアップ・プロセッサ１０Ｂ内
のすべてのページのコピーをとり、獲得されたすべての
ロックを解放する。メッセージ・キュー・システムはこ
れで動作可能である。

ＡＩＸオペレーティング・システムの以前のバージロン
と同様に、４つの基本システム・コールによって、回復
可能共有仮想メモリ・システム中のメッセージ・キュー
ＭＳＧＧＥＴ１ＭＳＧＣＴＬ１ＭＳＧＳＮＤ１ＭＳＧＲ
ＣＶ（７）作成及び使用が可能になる。メッセージ・キ
ュー自体は、ＭＳＧＱＵＩＴを含むセグメントとは異な
る他のＲ８ＶＳセグメントに置くことが好ましい。

新しいメッセージ・キューが作成されると、そのヘッダ
が、そのキューを作成した処理がある、プロセッサのカ
ーネルによって作成されたセグメントに置かれる。これ
は、第３Ｄ図に示すＭＳＧＱヘッダすなわちＭＳＧＱＨ
ＤＲセグメントである。ＭＳＧＱＨＤＲセグメントの項
目を、第３Ｅ図に示す。さらに、メッセージ・キューに
記憶された各メツセージのテキストが、第３Ｆ図に示す
ＭＳＧＴＸＴセグメントと呼ばれる別のセグメントに置
かれる。

第６Ａ図と第６Ｂ図は、ＭＳＧＧＥＴシステム・コール
を実行する際にオペレーティング・システムが実行する
ステップを示す流れ図である。

ＭＳＧＧＥＴシステム・コールは、既存のキューのメッ
セージ・キュー識別子（ＭＳＧＱＵＩＤ）を検索し、ま
たは新しいキューを作成するのに使用される。このコー
ルは、以下の構造をもつ。

ＭＳＧＱＵＩＤ　＝ＭＳＧＧＥＴ（ＫＥＹ、ＭＳＧＦＬ
ＡＧ）第６Ａ図のステップ４２で、本発明のＭＳＧＧＥ
Ｔシステム・コールのＲ８ＶＳ実施態様のステップをよ
り詳細に考察すると、たとえばプロセッサ・ユニット１
０Ｂで実行中の処理が、ＭＳＧＧＥＴシステム・コール
を発行する。

ステップ４３で、プロセッサ・ユニットＩＯＢノオペレ
ーティング・システムが、第３Ｂ図に示したＭＳＧＱＵ
ＩＴセグメントの制御情報行の「ロック・ワード」に書
き込むことにより、ＭＳＧＱＵＩＴをロックする。クラ
スタ内のどこかで別の処理がすでにそのロックを有する
場合、この処理は待機し、後でＲ８ＶＳによって開始さ
れる。

ＭＳＧＱＩＴ全体に対する「大域ロック」は、クラスタ
記憶装置へのアクセス中に通常獲得される行ロックに追
加して行なわれる。この大域ロックの目的は、異なるプ
ロセッサ内の２つ・の処理がそれぞれＭＳＧＱＵＩＴの
未使用のすなわち「空いた」項目に書き込もうと試みる
場合に、大域ロックがなければ発生する恐れのあるデッ
ドロックを回避することである。

ステップ４４で、プロセッサ・ユニットＩＯＢのオペレ
ーティング・システムがＭＳＧＱＵＩＴを走査する。Ｍ
ＳＧＱＵＩＴが走査されるとき、そのユニットのオペレ
ーティング・システムのカーネルのＲ８７８層は、ＭＳ
ＧＱＵ工Ｔセグメントの参照されたページの読取りロッ
クを獲得する。

ステップ４６で、ユニット１０Ｂのオペレーティング・
システムが、キーがＭＳＧＱＵＩＴで見つかったかどう
か判定する。キーが見つかった場合、プロセッサＩＯＢ
はステップ５０を実行する。ステップ５０で、ユニット
ＩＯＢのオペレーティング・システムが、ＭＳＧＦＬＡ
ＧのＰＲＩ　ＶＡＴＥビットがセットされているかどう
か判定する。

セットされている場合、ステップ５２で、ユニツ）１０
Ｂのオペレーティング・システムが、′ｆＣＯＭＭＩＴ
”を呼び出してロックを解放し、ＰＥＲＭＩＳＳＩＯＮ
　　ＤＥＮＩＥＤエラー標識を処理に戻す。ＭＳＧＦＬ
ＡＧのＰＲＩＶＡＴＥビットがセットされていない場合
は、トランザクションが続行する。ＭＳＧＱＵＩＤは、
ＭＳＧＱＵＩＴアレイ中のメッセージ・キューのＭＳＧ
ＵＩＴ項目のオフセットと、ステップ５３の項目のＵＳ
ＥＣＯＵＮＴを組み合わせることによって作成される。

ＭＳＧＱＵＩＤの書式を第４図に示す。

ステップ５４で、プロセッサ１０Ｂのオペレーティング
・システムが、“ＣＯＭＭＩＴ″を呼び出してロック・
ワードに対して獲得されたロックと、読み込まれたＭＳ
ＧＱＵＩＴ項目を解放する。

ステップ５４で、ＭＳＧＱＵＩＤがＭＳＧＧＥＴの呼出
し側に戻される。

ステップ５８で、一致するキー項目が見つからない場合
、ユニット１０Ｂのオペレーティング・システムが、Ｍ
ＳＧＦＬＡＧのＣＲＥＡＴＥビットがセットされている
かどうか判定する。

ステップ５７で、ＣＲＥＡＴＥビットがセットされてい
ない場合、ユニット１０Ｂのオペレーティング・システ
ムがＣＯＭＭＩＴを呼び出してロックを解放し、エラー
標識を処理に戻す。ＣＲＥＡＴＥビットがセットされて
いる場合は、新しいメッセージ・キューが、ユニットＩ
ＯＢのオペレーティング・システムによって作成される
。新しいキューは、そのシステム・コールを実行したプ
ロセッサであるユニットＩＯＢが所有する。これは、そ
のヘッダとデータが、１０Ｂが所存するセグメントに置
かれることを意味する。

第３Ｃ図は、ＭＳＧＱＵＩＴアレイ中の項目のレイアウ
トを示す。ステップ５８で、空き／未使用フラグが「空
き」に設定された未使用項目が１つ見つかり、そのフラ
グが「使用済み」に設定される。ＵＮＳＥＣＯＵＮＴフ
ィールドが１だけ増分される。これは、その項目の以前
のユーザが、キューにアクセスするのを防止するためで
ある。

「キー」の値がその項目に置かれている。

ステップ５９で、ユニット１０Ｂのオペレーティング・
システムが、作成されたキューがユニット１０Ｂが所有
する最初のキューであるかどうかを判定する。ユニット
１０Ｂが所有するキューが他にはない場合、または同じ
メモリ・セグメントに存在し得るキューの最大数（２５
８）にすでに達している場合、ステップ６０で、ユニー
／）ＩＯＢのオペレーティング・システムが２つの新し
いＲ８ＶＳセグメントを作成する。１つ・はキュー・ヘ
ッダ（ＭＳＧＱＨＤＲセグメント）を保持し、他の１つ
はメツセージ・テキスト（ＭＳＧＴＸＴセグメント）を
保持するためのものである。こうしたセグメント内の２
５８個の項目の割振り表が、プロセッサ１０Ｂのメモリ
内に構築される。プロセッサＩＯＢが崩壊した場合は、
この割振り情報がＭＳＧＱＵＩＴ項目のデータから再構
築できる。１０Ｂが新しいセグメントの所有位置である
。バックアップ位置、たとえばユニットＩＯＡが選択さ
れる。

ステップ６２で、ユニットＩＯＨのオペレーティング・
システムが、新しいＭＳＧＱＨＤＲセグメントまたは既
存のＭＳＧＱＨＤＲセグメント中にキュー・ヘッダを割
り振りまたは作成し、ＭＳＧＴＸＴセグメントの対応す
るテキスト領域を初期設定する。現在の処理が、クラス
タ内でこれらの動作を実行している唯一の処理である。

というのは、その処理がＭＳＧＱＵＩＴセグメントに対
する大域書込みロックを依然として保持しているからで
ある。

ＭＳＧＴＸＴセグメントは、キュー当りＩＭノ（イトの
領域に分割され、２５６個のキューがこのセグメントを
共有する。テキスト領域の空間がどのようにメツセージ
に割り振られ管理されるかの詳細は当業者に周知である
。後でわかるように、各テキスト領域は、同時に１つの
プロセッサによってだけアクセスされるので、それ以上
のロッキング機構の必要はない。

ステップ６８で、ユニットＩＯＢのカーネルがＭＳＧＱ
ＵＩＴを更新する。カーネルは、ＭＡＧＱＨＤＲ及びＭ
ＳＧＴＸＴセグメントのＩＤと、キュー・ヘッダに接続
されたページ番号を記入する。ステップ７０で、ユニッ
ト１０Ｂのオペレーティング・システムが、″ＣＯＭＭ
ＩＴ″コールを発行して、Ｒ８ｖＳセグメント内の変更
されたページの両方のコピーを更新する。ＣＯＭＭＩＴ
コールにより、その処理によって保持される、メッセー
ジ・キュー・データ構造に対するすべてのロックが解除
される。ステップ７２で、ステップ５３に記載したよう
にＭＳＧＱＵＩＤが構築され、それを要求した処理に戻
される。

要約すると、ユーザがキーを指定して、関心のあるメッ
セージ・キューを識別する。システムがＭＳＧＱＵＩＴ
セグメント内の表を走査する。キーに関連する既存のキ
ューがある場合、そのＭＳＧＱＵＩＤが戻される。そう
でない場合は、ＦＬＡＧのＣＲＥＡＴＥビットがセット
されていれば、新しいキューが作成され、そのＭＳＧＱ
ＵＩＤが呼出し画処理に戻される。新しいメッセージ・
キューが作成されると、それに関する情報が、そこでＭ
ＳＧＧＥＴが呼び出される処理装置のカーネルが所有す
るＲ８ＶＳセグメント、すなわちＭＳＧＱＨＤＲに置か
れる。

プロセッサＩＯＢがＭＳＧＧＥＴコールの実行中に崩壊
する場合、そのプロセッサが３つのＲ８ＶＳセグメント
に対して加えたすべての変更が失われる。これは望まし
いことである。というのは、ＭＳＧＧＥＴコールは完了
しなかったからである。

Ｒ８ＶＳ層は、ＭＳＧＧＥＴ）−ルがプロセッサ１０Ｂ
で変更したページの未変更バージョンのバックアップ・
コピーをもち、プロセッサｔＯＢが保持するロックを解
放する。その後、生き残ったプロセッサ内の他のＭＳＧ
ＥＴコールが走行でき、整合性のないデータは生じない
。

プロセッサＩＯＢがＭＳＧＧＥＴコールの実行後に崩壊
する場合、生き残ったプロセッサ内にすべての更新済み
データ構造のコピーがあるので、新しく作成されたメッ
セージ・キューは失われない。

メッセージ・キューは、ヘッダ領域とメツセージ領域か
ら構成される。ヘッダ領域には、次のようなキュー状況
情報が含まれる。所有者、グループ及び他のすべてのそ
れを含めて、キュー作成者、キュー所有者、そのキュー
にアクセスした最後の処理、そのキューに対する最後の
更新の時間スタンプ、及びそのキューに対するアクセス
許可の処理ｒＤである。ヘッダには、いつでもキュー中
で許されるバイトの最大数を示す数と、キュー中に現在
ある最初と最後のメツセージを指すポインタも含まれる
。

新しいメッセージ・キューが作成されるとき、そのヘッ
ダはページ境界から始まる。そのため、同じセグメント
内で表される異なるキューが、異なるプロセッサで実行
中の処理によって同時にアクセスされるとき、性能が改
良される。というのは、Ｒ８ＶＳはいつでも唯一の処理
にページに書き込ませ、またメッセージ・キューへのア
クセスの結果、キュー・ヘッダ中の状況情報が更新され
るからである。

メツセージ自体は、メツセージ・テキスト・セグメント
と呼ばれる第３のＲＳＶＳセグメントに置かれる。メツ
セージは、＜ｍｅｓｓａｇｅ　ｈｅａｄｅｒ、ｔｅｘｔ＞対として
書式化される。メツセージ・ヘッダは、メツセージ・タ
イプ、メツセージ中のバイト数、及びキュー内の次のメ
ツセージ・ヘッダ（がある場合、それ）を指すポインタ
の各フィールドを含む、固定長データ構造である。タイ
プ接頭辞は、処理が特定のタイプのメツセージを選択で
きるようにする。そうすると、処理は、メツセージがキ
ューに到着した順序以外の順序でキューからメツセージ
を抽出できる。

ＭＳＧＣＴＬシステム・コールは、メッセージ・キュー
に対する様々な制御動作を実行するのに使用される。制
御動作には、キュー上の状況情報を照会し、キューへの
アクセス許可を変更し、システムからメッセージ・キュ
ーを除去することが含まれる。ＭＳＧＣＴＬは以下の形
を取る。

ＭＳＧＣＴＬ（ＭＳＧＱＵＩＤ、Ｃ１４Ｄ、ＢＵＦ）た
だし、ＣＭＤはＭＳＧＣＴＬによって実行される動作を
示す。

第７Ａ図と第７Ｂ図は、両者あいまって、ＭＳＣＧＴＬ
システム・コールを実行する際にオペレーティング・シ
ステムが実行するステップを示す流れ図を構成する。ス
テップ７４（第７Ａ図）で、プロセッサ・ユニット、た
とえばプロセッサ１０Ｃの処理が、プロセッサＩＯＢが
所有するキュー向けにＭＳＧＣＴＬシステム・コールを
発行する。

ステップ７５で、プロセッサＩＯＣのオペレーティング
・システムが、ＭＳＣＱＵＩＤの０ＦＦＳＥＴフイール
ドで指定されたＭＳＣＱＵＩＴ項目を読み取り、ＭＳＧ
ＱＵＩＴ項目とＭＳＧＩＤのＵＳＥＣＯＵＮＴフィール
ドが一致するかどうかを確認する。一致しない場合、Ｍ
ＳＧＱＵＩＤで識別されるキューはもはや存在しない。

ＣＯＭＭＩＴが呼び出されて、ＭＡＳＧＱＵＩＴ項目に
対する獲得されたロックを解放し、エラー標識が呼出し
側に戻される。

ステップ７６で、プロセッサＩＯＣのオペレーティング
・システムがＣＭＤを読み取り、ＭＳＧＣＴＬによって
実行される動作を決定する。

ステップ７７で、ＣＭＤ＝状況コマンドのグループ５Ｔ
ＡＲＴ、５ＴＡＴ２またはＭＴＡである場合、プロセッ
サ１０Ｃのオペレーティング・システムは、ＭＳＧＱＨ
ＤＲセグメントＩＤを使って見つかったキュー・ヘッダ
とＭＳＧＱＵＩＴ項目中のページ番号を読み取る。他の
処理がこのヘッダを変更している場合、呼出し側処理は
、読取りロックを得るために待機しなければならない。

その処理が読取りロックを得ると、ヘッダの一貫したビ
ューが見える。すなわち、その中の情報が変更されてい
ない。ＩＯＣのオペレーティング・システムは、要求さ
れた情報をヘッダからＢＵＦにコピーする。

ステップ７８で、ユニットＩＯＣのオペレーティング・
システムは、”ＣＯＭＭＩＴ’“を呼び出し、ステップ
７５及び７７でユニット１０Ｃが獲得した読取りロック
が解除される。ステップ７９で、ユニット１０Ｃのオペ
レーティング・システムが復帰する。

ステップ８０で、ＣＭＤがキューを破壊するコマンドで
あるＩＰＣＲＭＩＤに等しい場合、プロセッサ１０Ｃの
オペレーティング・システムは、ステップ７５で、その
ロック・ワードに書き込むことにより、見つかったキュ
ー・ヘッダに対する書込みロックを獲得する。そのオペ
レーティング・システムは、呼出し側処理がキューを削
除する許可をもち、キュー・ヘッダを未使用とマークす
ることを確認する。時々、プロセッサＩＯＢの処理は、
そのＭＳＧＨＤＲセグメント中のすべてのキュー・ヘッ
ダを読取り、他のプロセッサ内で解放されたヘッダの割
当て表を更新する。ステップ８２ではユニットＩＯＣの
オペレーティング・システムは、ステップ７５で見つか
ったＭＳＧＱＵＩＴ項目のフラグを「空き」に設定する
ことにより、キューを削除する。この動作はＭＳＧＱＵ
ＩＴセグメントに対する口・ツクを必要としないことに
留意されたい。ステップ８４でＣＯＭＭＩＴを呼び出す
と、ステップ７８及び８０でユニット１０Ｃが獲得した
書込みロックが解除される。

第７Ａ図に示したＭＳＧＣＴＬ　）ランザクシロンのス
テップ７６に戻ると、コマンドが、あるキューに対する
１組のアクセス許可を更新する工ＰＣＳＥＴである場合
、ステップ８６で、プロセッサ１０Ｃのオペレーティン
グ・システムが、ステップ７８と同様にプロセッサＩＯ
Ｂが所有するＭＳＱＧＨＤＲセグメント中で更新される
キュー・ヘッダに対する書込みロックを獲得する。

ステップ８８で、プロセッサ１０Ｃのオペレーティング
・システムが、メッセージ・キュー・ヘツダ中のアクセ
ス許可情報を更新する。

ステップ９０で、ユニット１０Ｃのオペレーティング・
システムが”ＣＯＭＭＩＴ’を呼び出す。

上記と同様に、ＣＯＭＭＩＴ動作は、キュー・ヘッダを
含むページの両方の実コピーを自動的に更新し、ステッ
プ７５及び８６で獲得されたロックを解放する。

ＭＳＧＳＮＤとＭＳＣＲＣＶは、メッセージ・キューを
用いてメツセージを交換するために使用される。ＭＳＧ
ＳＮＤシステム・コールは、メツセージを送るために、
すなわち、メツセージをメッセージ・キュー１４ｓＧｓＮＤ（ＭＳＧＱＩＤ、にＳＧＰ、５ＩＺＥ、
ＭＳＧＦＬＡＧ）に入れるために使用される。

ＭＳＧＲＣＶシステム・コールは、メツセージを受は取
る、すなわち、次のキューからメツセージを取り出す。

ＩＪｓ（１：ＲＣＶ　（ＭＳＧＱＩＩＩＤ、）（ＳＧＰ
、５ＩＺＥ、ＴＹＰＥ、ＭＳＧＦＬＡＧ）ただし、ＭＳ
ＧＱＵＩＤはメッセージ・キュー識別子である。ＭＳＧ
Ｐは、ＭＳＧＳＮＤの場合にメツセージ・テキストを含
むデータ構造を指す、またはＭＳＧＲＣＶに対してテキ
ストが記憶される場所を示すポインタである。５ＩＺＥ
はメツセージのサイズである。ＭＳＧＦＬＡＧは、シス
テム・コールが完了できない場合に取られる処置を定義
するフラグである。

ステップ９２（第８Ａ図）で、処理装置、たとエバユニ
ット１０Ｇのオペレーティング・システムがＭＳＧＳＮ
Ｄシステム・コールを発行して、同じまたは異なるプロ
セッサ、たとえばユニット１０Ｂが所存するメッセージ
・キューにメツセージを送るとき、Ｒ８ｖＳトランザク
ションが開始される。ステップ９４で、ユニット１０Ｃ
のオペレーティング・システムが、ステップ７５及び７
８に記載したように、キュー・ヘッダを見つけてロック
する。

ステップ９６で、ユニットＩＯＣのオペレーティング・
システムが、メッセージ・キューが満杯かどうか判定す
る。満杯でない場合、ステップ９８で、ユニット１０Ｃ
のオペレーティング・システムが、メツセージ・テキス
トをＭＳＧＴＣＴセグメントにコピーし、テキスト・セ
グメントのヘッダを更新し、ＭＳＧＱＨＤＲセグメント
中のキュー・ヘッダを更新する。

ステップ１００で、ユニット１０Ｇのオペレーティング
・システムが、ｒｃＯＭＭＩＴＪを呼び出す。これは、
ＭＳＱＧＨＤＲ及びＭＳＧＴＸＴセグメントに対して加
えられた変更をバックアップし、ステップ９４で獲得さ
れたロックを解放する。ステップ９８ではＭＳＧＴＸＴ
セグメントのロックは獲得されないことに留意されたい
。というのは、同期は、キュー・ヘッダ中のロック・ワ
ードを用いて行なわれるからである。しかし、ロギング
は、変更がバックアップされるようにＭＳＧＴＸＴセグ
メントに対して行なわれる。

ステップ９６でプロセッサ１０Ｃのオペレーティング・
システムが、メッセージ・キューが満杯であると判定し
た場合、ステップ１０１（第８Ｂ図）で、ユニット１０
Ｃのオペレーティング・システムは、ＭＳＧＦＬＡＧの
ＩＰＣＮ０ＷＡＩＴビツトが設定されているかどうか判
定する。ＩＰＣＮＯＷＡＩＴに設定されている場合、ス
テップ１０２で、ユニット１０Ｇのオペレーティング・
システムがＣＯＭＭＩＴを呼び出して、エラー・メツセ
ージを処理に戻す。ＩＰＣＮ０ＷＡＩＴビツトが設定さ
れていない場合、トランザクシｅンを続行する。

ステップ１０３で、オペレーティング・システムが「打
切り」を呼び出して、ＭＳＧＱＵＩＴ項目に対して獲得
されたロックとキュー・ヘッダを解放する。それが行な
われなかった場合、たとえばキューからメツセージを取
り出してそれを満杯にしない処理を含めて、他の処理は
キューにアクセスできない。

ステップ１０４で、ユニットＩＯＣのオペレーティング
・システムが、ＭＳＧＳＮＤシステム・コールを発行す
るユニットＩＯＣの処理を、所定の時間「休眠させる」
。“好ましい実施例では、ユニット１０Ｃのオペレーテ
ィング・システムが、ステップ１０６で、定期的に「覚
醒してＪ最初がらＭＳＧＳＮＤシステム・コールを再試
行するようにプログラミングされる。この休眠及び覚醒
処理は、そのキューがもはや満杯でなくなるまで連続し
て行なわれる。

定期的に覚醒して再試行する単純な方法の他に、クラス
タ間覚醒を実行するためのいくつかの代替方法が可能で
ある。たとえば、メッセージ・キューからメツセージを
除去するプロセッサ・ユニットが、メッセージ・キュー
からメツセージが除去されたことをクラスタ内の他のす
べてのプロセッサに知らせる信号を送る。こうした信号
を受信すると、プロセッサは、休眠中のその処理をすべ
て覚醒させる。というのは、メッセージ・キューが満杯
であり、これらの処理はメツセージをキューに入れるも
のだからである。理論的には、この種の１機構は、ポー
リングよりずっと効率がよい。しかし、部分的障害から
回復できるこの種の効率のよい機構を実施するのはずっ
と困難である。

定期的覚醒手法は、「非ブロツク化事象」、すなわちキ
ューからのメツセージ除去が、覚醒信号を送出する前に
崩壊するプロセッサ中で発生する場合、最終的にすべて
の休眠処理がそのことを知るという意味で、「障害耐性
」があるという利点がある。

処理が非ブロツク化事象の発生を待って休眠している間
にメッセージ・キューがシステムから除去される場合、
その中で処理が休眠しているコールは、ステップ７５で
処理が覚醒したとき失敗する。ＭＳＧＱＵＩＤが使用カ
ウントを含むので、同じＭＳＧＱＵＩＤをもつ他のキュ
ーはその間に作成できない。

ＭＳＧＲＣＶ動作は、ＭＳＧＳＮＤ動作とほとんどの点
で同様である。ＭＳＧＳＮＤの場合と同様に、キュー・
ヘッダとメツセージ・テキストが見つけられる。キュー
がメツセージまたは正しいタイプのメツセージを持たな
い場合、コールが打ち切られ、待たされることがある。

テキストがＭＳＧＴＸＴセグメントからユーザのバッフ
ァにコピーされ、メツセージ・ヘッダ及びキュー・ヘッ
ダが更新される。次いでＣＯＭＭＩＴが呼び出される。

要約すると、メツセージに対しである動作を実行する、
たとえばメツセージをキューに入れる処理は、メッセー
ジ・キューを含む回復可能共有仮想記憶セグメントに対
して単純なトランザクションを実行する。こうしたメッ
セージ・キューに関連する情報が、クラスタ全体にわた
る３つのＲ８ＶＳセグメントですべて表される。トラン
ザクションは、その動作の実行を希望する処理があるプ
ロセッサ・ユニットで実行され、したがってトランザク
ションがクラスタ内で走行しているという事実を隠す。

トランザクションが完了して始めて、メッセージ・キュ
ー・システムの新しい状態が、プロセッサが所有する仮
想記憶セグメント及びそのバックアップ・プロセッサ内
の仮想記憶セグメントのコピーに記憶されることがコミ
ットされる。

メッセージ・キューを用いて通信する２つの処理が異な
るプロセッサ、たとえば１０Ａと１００にある場合、そ
れらの処理はそのことを知らない。

それらｔ；Ｉ）　Ｍ　Ｓ　Ｇ　Ｓ　Ｎ　Ｄ　＝７−　ル
トＭ　Ｓ　Ｇ　ＲＣＶ　＝ｌ　−ルは局所で動作し、Ｒ
８７８層は必要なカーネル・レベルの通信の手配をする
。他の場合で２つの処理が１つのプロセッサ、たとえば
ユニットＩＯＢで実行される場合、それらの処理は、い
かなる形でも変更される必要はなく、以前のように実行
されることになる。

さらに、２つのプロセッサ・ユニットＩＯＡ及び１０Ｃ
内で走行中に、プロセッサの１つ、たとえばユニットＩ
ＯＡが崩壊した場合、ユニット１０Ｃ中の生き残った処
理は、崩壊前にユニット１０Ａ中の処理から送られたす
べてのメツセージを受信でき、崩壊時にユニットＩＯＡ
から送信中の部分メツセージは受信しないことになる。

この実施態様は、行及びページ境界上の異なるキューに
対するデータ構造のレイアウトを提案するものである。

これは、異なるキューに対するコール間の干渉を防止す
るためであり、この技術によって、Ｒ８７８層のベージ
ング及びロッキング・トラフィックの量が減少する。こ
れは、よりコンパクトな構成よりも多くの仮想記憶域を
使用するが、妥当なトレードオフと思われる。

回復可能共有仮想域（Ｒ３ＶＳ）に基づく共存データ構
造の１つの形であるメッセージ・キューに対する実施態
様についての上記の説明は、通信する処理間での明示的
なメツセージのバスに依存する実施態様に比べて、トラ
ンザクシＶンが呼出し側プロセッサによって実行されず
、メッセージ・キューを含むプロセッサに送られ、次い
でそこで実行されて、その結果が発信側プロセッサに戻
されるという、大きな利点をもたらす。メッセージ・キ
ューの回復可能共存仮想域（Ｒ８ＶＳ）による実施態様
は、関連特許出願（ＡＴ９−８７−０５１）に記載され
たマシン間通信システムを使うと機能拡張される。その
結果、すべてのメツセージ・バス力、°オペレーティン
グ・システムの非常に小さい部分に含まれるようになる
。すなわち、オペレーティング・システムの残りの部分
が、単一プロセッサ用のオペレーティング・システムと
同じくらい単純に実施できる。

本発明では、メッセージ・キューに対する動作を実施し
、他のシステム・サービスを実施する「２段階コミット
」も不要となる。すなわち、システム・サービスが、明
示的「メツセージ・バス」によって実施される場合より
も、少しの作業で実施でき、効率的に実行でき、低いコ
ストで修正及び維持できる。さらに、このようにしてシ
ステム・サービスを実施すると、システム拳サービスの
実施が極めて簡単になる。機能を維持し、オペレーティ
ング・システムに機能を追加することも簡単になる。

以上の説明では、回復可能共有仮想記憶域をどのように
使用すれば、マルチプロセッサのクラスタ内でＡＩＸメ
ッセージ・キューを信頼できるものにすることができる
か、すなわちクラスタ内の１つの単一プロセッサが故障
した場合でさえ、キュー及びそれに含まれたメツセージ
が存続できるかを示したが、当業者には明らかなように
、他のシステム機能及び共存データ構造も信頼できるも
のにすることができ、また本発明の精神と特許請求の範
囲を逸脱せずに、本発明に他の様々な修正を加えること
ができる。

【図面の簡単な説明】

第１図は、本発明の方法が有利に適用できるクラスタ構
成で相互接続された複数のプロセッサ・ユニットの機能
構成図である。第２図は、ユニットの１つに組み込まれている様々な機
能を示す、第１図に示すプロセッサ・ユニットの１つの
構成図である。。第３Ａ図は、メッセージ・キュー情報表（ＭＳＧＱＵＩ
Ｔ）の書式を示す図である。第３Ｂ図は、ＭＳＧＱＵＩＴへのアクセスを制御する制
御情報の書式を示す図である。第３Ｃ図は、メッセージ・キュー情報表（ＭＳＧＱＵＩ
Ｔ）の項目の書式を示す図である。第３Ｄ図は、メッセージ・キュー・ヘッダヲ含むＭＳＧ
ＱＨＤＲセグメントを示す図である。第３Ｅ図は、メッセージ・キュー・ヘッダ項目の書式を
示す図である。第３Ｆ図は、メツセージ・テキストを含むＭＳＧＴＸＴ
セグメントを示す図である。ＭＳＧＱＨＤＲセグメント
とそのＭＳＧＴＸＴセグメントの間、及びそれぞれの項
目間には１対１の対応がある。第４図は、メッセージ・キュー識別子（ＭＳＧＱＵ　Ｉ
　Ｄ）の書式を示す図である。第５図は、メッセージ・キュー情報表を作成するために
オペレーティング・システムが実行するステップを記述
する流れ図である。第８Ａ、図及び第６Ｂ図は、ｒＭＳＧＧＥＴＪシステム
・コールが発行されるとき、所与の処理装置で実行中の
回復可能共有仮想システムが実行するステ、プを記述す
る流れ図である。ＭＳＧＧＥＴシステム・コールは、メ
ッセージ・キューを作成し、またはそれにアクセスする
ために使用される。第７Ａ図及び第７Ｂ図は、「ＭＳＧＴＬ」システム・コ
ールが発行されるとき、所与の処理装置で実行中の回復
可能共有仮想メモリ・システムが実行するステップを記
述する流れ図である。ＭＳＣＧＴＬシステム・コールは
、メッセージ・キューの状況を照会し、そのアクセス許
可を変更し、またはそれを破壊するのに使用される。第８Ａ図と第８Ｂ図は、ｒＭｓＧｓＮＤＪシステム・コ
ールが発行されるとき、所与の処理装置で実行中の回復
可能共有仮想メモリ・システムが実行するステップを記
述する流れ図である。ＭＳＧＳＮＤシステム・コールは
、メツセージをメッセージ・キューに入れるのに使用さ
れる。１０・・・・フロセッサ・ユニット、１６・・・・プロ
セッサ、１７・・・・主記憶装置、１８・・・・記憶制
御装置（ＳＣＵ）、２０・・・・ポート、２１．２２・
・・・端末、２３・・・・プリンタ、２４・・・・ディ
スク・ドライブ。出願人　　インターナシ１ナル・ビジネス・マシーンズ
番コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名）３】第Ｂ図第Ｃ図第Ｂ図第Ｂ図第図第８Ａ図第Ｂ図

Claims

【特許請求の範囲】

（１）通信リンクにより相互接続された複数の処理装置
を有するデータ処理システムであって、上記複数の処理
装置の各々により共有可能であり、複数の仮想記憶セグ
メントを有し、該セグメントの各々が上記処理装置の任
意のものから同じ仮想アドレスによりアクセス可能な仮
想記憶装置と、仮想ページの少なくとも２つのコピーを、各々異なった
処理装置上に保持する手段と、変更された上記ページの各々に関する上記コピーの各々
を自動的に更新する手段と、システム中の複数のメッセージ・キューに関する情報を
有する、仮想記憶セグメント中に記憶されたメッセージ
・キュー・テーブルと、第１の処理装置中のプロセスによって形成されたメッセ
ージ・キューを、上記第１の処理装置によって形成され
た仮想記憶セグメント中に置く手段とを含むデータ処理
システム。
（２）通信リンクにより相互接続された複数の処理装置
を有するデータ処理システムにおいて、システム全体に
わたるデータ構造の信頼性を保証するためのシステムで
あつて、複数の処理装置の間で仮想記憶を共有する手段と、上記処理装置の各々から同じアドレスによって上記仮想
記憶の複数の仮想記憶セグメントの各々にアクセスする
手段と、要求元プロセスによって仮想記憶セグメント中にメッセ
ージを置く手段と、上記置かれたメッセージに関する受信側処理装置により
周期的に上記仮想記憶セグメントを調査する手段とを有
するシステム。
（３）通信リンクにより相互接続された複数の処理装置
を有し、上記各処理装置が仮想記憶セグメントを共有し
、上記各セグメントが上記処理装置の任意のものから同
じ仮想アドレスによりアクセス可能なデータ処理システ
ムにおいて、システム全体にわたるデータ構造の信頼性
を保証するためのシステムであつて、複数のシステム全体にわたるデータ構造に関する識別情
報を有し、システムの起動時に処理装置の１つによって
形成される、仮想記憶セグメント中に記憶されたテーブ
ルと、上記テーブルを含む仮想記憶セグメントを所有する処理
装置に関してバックアップ処理装置を割当て、上記テー
ブルのコピーを上記バック・アップ処理装置中に記憶す
る手段と、上記識別情報を使用する処理装置による最初のシステム
・コールの発行時に、上記テーブルを含む仮想記憶セグ
メントを上記処理装置に取り付ける手段と、システム・コールの成功終了時に、仮想セグメント中に
記憶された上記テーブルの全てのコピーを更新する手段
とを有するシステム。
（４）通信リンクにより相互接続された複数の処理装置
を有するデータ処理システムにおいて、システム全体に
わたるデータ構造の信頼性を保証するためのシステムで
あって、複数の処理装置の各々により仮想記憶を共有する手段と
、上記処理装置の任意のものから仮想アドレスによって上
記仮想記憶の複数の仮想記憶セグメントの各々にアクセ
スする手段と、複数のデータ構造に関する識別情報を第１の仮想記憶セ
グメント中に記憶するための第１の処理装置により形成
されたテーブルと、上記第１の処理装置に少なくとも１つのバック・アップ
処理装置を割当てる手段と、上記バック・アップ処理装置に第１の処理装置中の上記
テーブルをコピーする手段と、上記複数の処理装置の任意のものの中のプロセスから、
処理装置により所有されているデータ構造に対して原子
的なトランザクションを実行するシステム・コールを発
行する手段と、上記データ構造を所有している上記処理装置に対してバ
ック・アップ処理装置を割当てる手段と、トランザクシ
ョンの成功終了時にデータ構造の全てのコピーを更新す
る手段とを有するシステム。