JPH11282820A

JPH11282820A - スイッチをベースとするマルチプロセッサシステムに使用するための順序サポート機構

Info

Publication number: JPH11282820A
Application number: JP10340924A
Authority: JP
Inventors: Stephen R Vandoren; アールヴァンドーレンスティーヴン; Simon C Steely; シーステイーリイシモン; Madhumitra Sharma; シャルママドハミトラ; David M Fenwick; エムフェンウィックディヴィッド
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1997-10-24
Filing date: 1998-10-26
Publication date: 1999-10-15
Anticipated expiration: 2018-10-26
Also published as: US6122714A; DE69832943T2; EP0911731A2; JP4700773B2; EP0911731B1; DE69832943D1; EP0911731A3

Abstract

(57)【要約】（修正有）【課題】共用メモリを含む多数のマルチプロセッサノ
ードがスイッチを経て互いに接続された対称的マルチプ
ロセッサシステム（ＳＭＰ）。【解決手段】大型ＳＭＰに使用するアーキテクチャ及
びコヒレンスプロトコルは、多数のマルチプロセッサノ
ードをスイッチに接続して最適な性能で動作できるよう
にするハイアラーキースイッチ構造体を備えている。各
ノードにはバッファシステムが設けられ、ノードのすべ
てのプロセッサが最適な性能で動作でき、またメモリコ
ヒレンス性を維持する多数の要素、即ちビクティムキャ
ッシュ、ディレクトリ及びトランザクション追跡テーブ
ルを含む。ディレクトリの出力に接続された裁定バス
は、ＳＭＰを経て送られる全てのメッセージの中央順序
付けポイントを与える。仮想チャンネルの使用は、シス
テム順序を維持する簡単な方法によってデータコヒレン
ス性を維持する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、コンピュ
ータアーキテクチャーの分野に係り、より詳細には、分
散型共用メモリマルチプロセッサシステムに係る。

【０００２】

【従来の技術】この分野で良く知られているように、対
称型のマルチプロセッサコンピュータは、高性能のアプ
リケーション処理を行うことができる。通常の対称型マ
ルチプロセッサコンピュータシステムは、バスによって
互いに接続された多数のプロセッサを備えている。対称
型マルチプロセッサシステムの１つの特徴は、メモリ空
間が全てのプロセッサ間で共用されることである。１つ
以上のオペレーティングシステムがメモリに記憶され、
種々のプロセッサ間でのプロセッサ又はスレッドの分散
を制御する。異なるプロセッサ又はスレッドが多数の異
なるプロセスを同時に実行できるようにすることによ
り、所与のアプリケーションの実行速度を著しく高める
ことができる。理論的に、システムの性能は、マルチプ
ロセッサシステムにおけるプロセッサの台数を増加する
だけで改善することができる。実際には、ある飽和点を
越えてプロセッサを追加し続けると、単に通信ボトルネ
ックが増えるだけとなり、従って、全システム性能を制
限することになる。

【０００３】例えば、図１Ａには、共通の相互接続バス
を経て互いに接続された８個のプロセッサを含む典型的
な公知のマルチプロセッサシステム２が示されている。
動作中に、各プロセッサ３ａ−３ｈは、共用相互接続バ
ス５を経て互いに他のプロセッサ及び共用メモリ４と通
信する。図1Aの対称型マルチプロセッサ構成は、今日ま
でに構築されたマルチプロセッサについて充分である。
しかしながら、より高速のマイクロプロセッサの出現に
伴い、通常の共用相互接続バスは、接続されたマイクロ
プロセッサの潜在的な全性能を充分に働かせることがで
きない。プロセッサとメモリとの間の唯一の通信リンク
は、共用バスであるから、バスはプロセッサからの要求
で急速に飽和状態となり、各プロセッサがシステムバス
へのアクセスを得るよう試みるときに遅延が増大する。
それ故、プロセッサは、高い速度で動作することができ
るが、性能に関する制限ファクタは、システムバスの使
用可能な帯域である。

【０００４】通信帯域巾は、ＳＭＰシステムの性能にお
いて重要なファクタである。帯域巾は、ＳＭＰシステム
におけるノードの対又はサブセットの間で均一ではない
から、業界では、ＳＭＰシステムの通信帯域巾を決定す
るために「二等分帯域巾」測定を使用している。二等分
帯域巾は、次のように決定される。システムを等しい計
算能力（等しいプロセッサ数）の２つの部分に区分化す
る全ての考えられる方法が確かめられている。各区分に
対し、２つの区分間に維持し得る帯域巾が決定される。
全ての維持し得る帯域巾の最小値は、相互接続の二等分
帯域巾である。２つの区分間の最小帯域巾は、最悪の通
信パターンが存在するときにマルチプロセッサシステム
により維持できる通信帯域巾を指示する。従って、大き
な二等分帯域巾が望まれる。

【０００５】公知技術では、バス飽和の問題を克服する
ために、多数の相互接続アーキテクチャー即ち「トポロ
ジー」が使用されている。これらのトポロジーは、メッ
シュ、トーラス（円環体）、ハイパーキューブ（超立
体）及び拡張ハイパーキューブを含む。

【０００６】

【発明が解決しようとする課題】例えば、メッシュ相互
接続は、図１Ｂにシステム７として示されている。メッ
シュネットワークの主な利点は、簡単で且つ配線が容易
なことである。各ノードは、少数の他の隣接ノードに接
続される。しかしながら、メッシュ相互接続は、３つの
重大な欠点を有する。第１に、メッセージは、それらの
行先に到達するために平均的に多数のノードを横断しな
ければならず、その結果、通信の待ち時間が長くなる。
第２に、二等分帯域巾は、他のトポロジーに対するもの
であるから、メッシュトポロジーの場合に充分に計測し
ない。最後に、各メッセージはメッシュ内の異なる経路
を進行するので、ＳＭＰシステム内には自然の順序付け
ポイントが存在せず、それ故、メッシュトポロジーの実
施を必要とするキャッシュコヒレンスプロトコルがしば
しば非常に複雑なものとなる。

【０００７】トーラス、ハイパーキューブ及び拡張ハイ
パーキューブトポロジーは、全て、ノードが種々の複雑
な構成、例えば円環体構成又は立体構成で相互接続され
たトポロジーである。トーラス、ハイパーキューブ及び
拡張ハイパーキューブの相互接続は、メッシュ相互接続
よりも複雑であるが、その待ち時間及び帯域巾は、メッ
シュ相互接続よりも優れている。しかしながら、メッシ
ュ相互接続と同様に、トーラス、ハイパーキューブ及び
拡張ハイパーキューブトポロジーは、自然の順序付けポ
イントを与えず、従って、これらのシステムの各々に対
して複雑なキャッシュコヒレンスプロトコルを実施しな
ければならない。共用メモリのマルチプロセッサシステ
ムでは、プロセッサは、通常、将来アクセスされる見込
みが高いと決定されたデータを記憶するために専用キャ
ッシュを使用している。プロセッサは、それらの専用キ
ャッシュからデータを読み取りそしてメモリへ書き戻す
ことなく専用キャッシュにおいてデータを更新するの
で、各プロセッサの専用キャッシュが一貫して即ちコヒ
レントに保持されるよう確保するための機構が必要とな
る。ＳＭＰシステムのデータのコヒレンス性を確保する
のに使用される機構は、キャッシュコヒレンスプロトコ
ルと称される。

【０００８】物理的な相互接続部のトポロジー、帯域巾
及び待ち時間に加えて、キャッシュコヒレンスプロトコ
ルの効率も、システム性能の重要なファクタである。キ
ャッシュコヒレンスプロトコルは、待ち時間、ボトルネ
ック、非効率性又は複雑さを多数の仕方で導入する。ロ
ード及び記憶動作の待ち時間は、設計のプロトコルによ
って直接影響されることがしばしばある。例えば、ある
プロトコルでは、全ての無効化メッセージがそれらのタ
ーゲットプロセッサへ送られそして確認メッセージがそ
の元のプロセッサへ完全に返送されるまで記憶動作が完
了したとみなされない。従って、記憶の待ち時間は、無
効化がその行先へ送られるのを元のプロセッサが待機し
なくてよいプロトコルよりも相当に長いものとなる。更
に、確認は、システム帯域巾の相当の部分を消費する。

【０００９】ボトルネックは、コントローラの高い占有
度によりしばしば生じる。「占有度」とは、コントロー
ラが要求を受け取った後に使用できなくなる時間の長さ
を示す用語である。あるプロトコルでは、直接的なコン
トローラは、メモリ位置に対応する要求を受け取ると、
その前のコマンドに対応するある確認がディレクトリに
到着するまで同じメモリ位置への他の要求に対して使用
できなくなる。コントローラは、平均より高いレートで
競合する要求を受け取る場合に、ボトルネックとなる。
又、キャッシュコヒレンスプロトコルの設計は、ハード
ウェアの複雑さにも影響する。例えば、あるプロトコル
は、停滞及び公正さの問題を招き、これらは、付加的な
機構で対処される。その結果、ハードウェアの複雑さが
増大する。

【００１０】そこで、オペレーションの待ち時間を最小
にし、広い通信帯域巾を与え、コントローラの占有度を
低くし、そして多数のプロセッサへと拡張することので
きる対称的なマルチプロセッサシステムを提供すること
が要望される。

【００１１】

【課題を解決するための手段】本発明は、少なくとも１
つのプロセッサ及び共用メモリの一部分を含む多数のマ
ルチプロセッサノードがスイッチを経て互いに接続され
た対称的なマルチプロセッサシステムに効果的に使用さ
れる。マルチプロセッサノードの各々にはトランザクシ
ョン追跡（トラッキング）テーブル（ＴＴＴ）が維持さ
れる。ＴＴＴは、ノードをスイッチに接続するノードの
グローバルポートに存在してもよいし、或いはマルチプ
ロセッサノードの少なくとも１つのプロセッサの各々に
存在してもよい。ＴＴＴは、マルチプロセッサノードか
ら発生され及びそれにより受け取られる要求の順序を決
定しそしてそれを強制するのに使用される。本発明の１
つの特徴によれば、ＴＴＴは、マルチプロセッサノード
へ返送される要求の順序を次のように決定するのに使用
される。各要求は、多数のトランザクションに細分化さ
れ、各トランザクションは、異なる仮想チャンネルを経
て搬送される。少なくとも１つのチャンネルが順序付け
されるが、他のチャンネルの返送データは、ばらばらの
順序で受け取ることができる。コヒレンス性を維持する
ために、共通のアドレスへ発生されるトランザクション
が順序正しく取り扱われるのが望ましい。本発明の１つ
の特徴によれば、マーカーパケットが、順序付けされた
チャンネルを経てＴＴＴへ発生され、アドレスに関連し
たデータが依然処理されていることを指示する。このよ
うな構成では、ＴＴＴは、マーカーパケットに続いて受
け取られた上記順序付けされたチャンネルの他の要求を
無視するか、又はデータが受け取られるまで遅延するよ
うに確保する。

【００１２】従って、本発明の１つの特徴によれば、各
々少なくとも１つのプロセッサ及び共用メモリの一部分
を含む複数の接続されたマルチプロセッサノードを有す
るコンピュータシステムは、上記複数のマルチプロセッ
サノードの各々における複数のプロセッサに関連した追
跡機構であって、上記複数のマルチプロセッサノードの
１つにおける少なくとも１つのプロセッサの１つにより
発生された共用メモリのリモート部分のアドレスへの要
求の位置を、上記複数の接続されたマルチプロセッサノ
ードにおける少なくとも１つのプロセッサにより上記ア
ドレスへ発生された複数の他の要求に対して識別するた
めの追跡機構を備えている。本発明の更に別の特徴によ
れば、マルチプロセッサコンピュータシステムの共通の
アドレスへ発生される複数の要求間の順序を維持するた
めの方法が提供される。マルチプロセッサコンピュータ
システムは、スイッチを経て接続された複数のマルチプ
ロセッサノードを備え、各マルチプロセッサノードは、
少なくとも１つのプロセッサ及び共用メモリの一部分を
含む。上記方法は、マルチプロセッサノードの各々から
スイッチへ送られる要求のアドレスリストを維持して、
リモートマルチプロセッサノードの共用メモリの一部分
における各アドレスに対して要求の相対的な順序を識別
し、アドレスに関連した要求が満足されるまでアドレス
をリストに維持するという段階を含む。

【００１３】

【発明の実施の形態】本発明の上記及び他の特徴は、添
付図面を参照した以下の詳細な説明から明らかとなろ
う。本発明の１つの実施形態によれば、ハイアラーキー
式の対称的マルチプロセッサ（ＳＭＰ）システムは、高
性能スイッチを経て互いに接続された多数のＳＭＰノー
ドを備えている。従って、ＳＭＰノードの各々は、ＳＭ
Ｐシステムにおいてビルディングブロックとして働く。
以下、１つのＳＭＰノードビルディングブロックの要素
及び動作を最初に説明し、その後に、ＳＭＰシステムの
動作を説明し、それに続いて、大規模のＳＭＰシステム
においてメモリのコヒレンス性を維持するために使用さ
れるキャッシュコヒレンスプロトコルを説明する。

【００１４】ＳＭＰノードビルディングブロック図２を参照すれば、マルチプロセッサノード１０は、４
つのプロセッサモジュール１２ａ、１２ｂ、１２ｃ及び
１２ｄを備えている。各プロセッサモジュールは、中央
処理ユニット（ＣＰＵ）を備えている。好ましい実施形
態では、デジタル・イクイップメント社で製造されたＡ
ｌｐｈａ（登録商標）２１２６４プロセッサチップが使
用されるが、以下に述べるコヒレンスプロトコルをサポ
ートすることのできるものであれば、他の形式のプロセ
ッサチップも使用できる。マルチプロセッサノード１０
は、多数のメモリモジュール１３ａ−１３ｄを含むメモ
リ１３を備えている。このメモリは、３２ギガバイトの
記憶容量を備え、４つのメモリモジュールの各々が８ギ
ガバイトを記憶する。各メモリモジュールは、多数のメ
モリブロックに分割され、各ブロックは、例えば、６４
バイトのデータを含む。データは、一般に、メモリから
ブロックで検索される。

【００１５】更に、マルチプロセッサノード１０は、接
続されたＩ／Ｏバス１４ａを経て外部装置（図示せず）
とマルチプロセッサノード１０との間で行われるデータ
転送を制御するためのＩ／Ｏプロセッサ（ＩＯＰ）モジ
ュール１４を備えている。本発明の１つの実施形態で
は、Ｉ／Ｏバスは、周辺コンピュータ相互接続（ＰＣ
Ｉ）プロトコルに基づいて動作する。ＩＯＰ１４は、Ｉ
ＯＰキャッシュ１４ｃ及びＩＯＰタグ記憶装置１４ｂを
含む。ＩＯＰキャッシュ１４ｃは、ＰＣＩバス１４ａを
経て外部装置へ転送されるメモリ１３からのデータのた
めの一時的な記憶装置である。ＩＯＰタグ記憶装置１４
ｂは、外部装置とプロセッサとメモリとの間に移動され
るデータに対するコヒレンス情報を記憶するための６４
エントリのタグ記憶装置である。

【００１６】マルチプロセッサノードのメモリ１３に記
憶されたデータのコヒレンス性は、デュープリケートタ
グ記憶装置（ＤＲＡＧ）２０によって維持される。ＤＴ
ＡＧ２０は、全てのプロセッサ１２ａ−１２ｄにより共
用され、そして４つのバンクに分割される。各バンク
は、関連するプロセッサにより使用されるデータに対応
する状態情報を専用に記憶する。ＤＴＡＧ、メモリ及び
ＩＯＰは、ＡＲＢバス１７と称する論理バスに接続され
る。プロセッサにより発生されるメモリブロック要求
は、ローカルスイッチ１５を経てＡＲＢバス１７にルー
ト指定される。ＤＴＡＧ２０及びＩＯＰ１４は、プロセ
ッサ及びＩＯＰのキャッシュにおけるブロックの状態を
ルックアップし、そしてメモリブロックに対しそれらの
状態を原子的に更新する。ＡＲＢバス１７は、全てのメ
モリ参照に対してシリアル化ポイントとして働く。メモ
リ要求がＡＲＢバスに現れる順序は、プロセッサが要求
の結果を認知する順序である。

【００１７】プロセッサモジュール１２ａ−１２ｄ、メ
モリモジュール１３ａ−１３ｄ及びＩＯＰモジュール１
４は、ローカルの９ポートスイッチ１５を経て互いに接
続される。インターフェイスモジュール１２ａ−１２
ｄ、１３ａ−１３ｄ及び１４の各々は、同数の両方向性
クロック送信データリンク１６ａ−１６ｉによりローカ
ルスイッチに接続される。１つの実施形態では、データ
リンクの各々は、１５０ＭＨｚのレートで動作するシス
テムクロックの各縁で６４ビットのデータ及び８ビット
のエラー修正コード（ＥＣＣ）を送信する。従って、デ
ータリンク１６ａ−１６ｉの各々のデータ帯域巾は、
２．４ギガバイト／ｓである。ローカルスイッチ１５
は、クオドスイッチアドレス制御チップ（ＱＳＡチッ
プ）１８及びクオドスイッチデータスライスチップ（Ｑ
ＳＤチップ）１９を備えている。ＱＳＡチップ１８は、
プロセッサモジュールＩＯＰとメモリとの間のアドレス
経路を制御するためのアービター（ＱＳＡＲＢ）１１
を備えている。更に、ＱＳＡチップ１８は、以下に述べ
るようにローカルスイッチ１５を通るデータの流れを制
御するためにＱＳＤチップ１９を制御する。ＱＳＤチ
ップ１９は、プロセッサモジュールと、メモリモジュー
ルと、ＩＯＰとの間の全てのデータ経路に対するスイッ
チ相互接続を与える。図２には示されていないが、以下
に述べるように、マルチプロセッサノード１０がグロー
バルポートを経て他のマルチプロセッサノードに接続さ
れた場合には、ＱＳＤ及びＯＳＡがグローバルポートに
対するスイッチ相互接続部を付加的に形成する。各プロ
セッサは、メモリデバイス１３ａ−１４ｄ、他のプロセ
ッサ１２ａ−１２ｄ、ＩＯＰ１４のような使用可能なリ
ソースの１つからデータを要求することもできるし、或
いは他のマルチプロセッサノードのリソースからグロー
バルポートを経てデータを要求することもできる。従っ
て、ローカルスイッチ１５は、２．４ギガバイトの広い
バス帯域巾を維持しながら、種々のリソースから同時入
力を受け入れることができねばならない。

【００１８】ローカルスイッチは、多数の同時トランザ
クションを取り扱うことができる。各トランザクション
は、通常、多数のリソース（メモリバンクや、データ経
路や、待ち行列のような）を使用するので、ローカルス
イッチの制御機能は非常に複雑になる。例えば、あるト
ランザクションは、そのトランザクションの段階０でメ
モリバンクを使用でき、段階１でメモリバンクからプロ
セッサポートへのデータ経路を使用でき、そして段階２
でプロセッサポートからプロセッサへのデータ経路を使
用できることを必要とする。ローカルスイッチアービタ
ー（ＱＳＡ１８のＱＳＡＡＲＢ１１）は、あるトラン
ザクションが開始されると、各段階でトランザクション
により必要とされるリソースが必要に応じて使用できる
ように要求を裁定する。

【００１９】より重要なことに、アービターは、特定の
要求が、他の要求の進行中に長時間にわたり（潜在的に
不定に）裁定に負けることのないよう確保することによ
り、全ての要求及びプロセッサがリソースに対して公平
なアクセスを得るように保証する。例えば、３つのリソ
ースＡ、Ｂ及びＣを要求するトランザクションＴについ
て考える。このトランザクションＴは、トランザクショ
ンの適当な段階に３つのリソース全部が使用できるよう
保証されるまで裁定に勝てない。リソースが使用可能で
あることのみに基づいてアービターがその判断を行う場
合には、トランザクションＴは、Ａ、Ｂ又はＣの１つを
使用する（他のリソースＤ、Ｅ等と共に）他のトランザ
クションが裁定に勝ち続ける間は、長時間にわたって成
功しないことが考えられる。

【００２０】各々が多数のリソースを使用して完了する
ような非常に多数の同時要求を伴うスイッチにおいて公
平な裁定を保証するのは、計算上複雑である上に、高速
データ経路において遅延を増加し勝ちである。ここに示
す装置においては、ＱＳＡＡＲＢ１１が、特定のトラン
ザクションをスケジュールする前に、１つのリソース
（メモリバンク）のみについて裁定を行う。プロセッサ
に通じる待ち行列である第２のリソースは、ＱＳＡＡ
ＲＢ１１により第１のリソースについて裁定を行うとき
に、それが使用可能であるかどうかについてチェックす
る必要がない。というのは、ＱＳＤのアーキテクチャー
がそのデータ経路を保証しそして待ち行列に通じる待ち
行列スロットが常に使用できるからである。リソースに
対する公平な裁定は、ＱＳＡＡＲＢ１１に著しい複雑さ
を伴うことなく与えられる。

【００２１】本発明の１つの実施形態によれば、ＱＳＤ
は、対応する行先に通じるバッファに対してアップフロ
ント裁定を必要とせずに全てのリソース（プロセッサ、
メモリ、ＩＯＰ及びグローバルポート）からの入力を同
時に受け取ることができる。次いで、全てのデータリソ
ースは、データ経路又はスイッチにおける待ち行列スロ
ットへのアクセスを裁定する必要なく、スイッチへデー
タを独立して送信することができる。というのは、ＱＳ
Ｄは、全てのリソースからのデータを実質的に同時に受
信することのできる多数の同時挿入バッファを備えてい
るからである。同時挿入バッファの２つの実施形態を以
下に説明する。

【００２２】同時挿入バッファスイッチ上記のように、マルチプロセッサノードにおけるプロセ
ッサ１２ａ−１２ｄ、ＩＯＰ１４及びメモリデバイス１
３ａ−１３ｄの各々は、マルチプロセッサノードのプロ
セッサ及びＩＯＰからの要求を取り扱うためのリソース
として働く。データは、各リソース要素と、要求を発す
る要素との間でパケットの形態で転送される。各パケッ
トは、５１２ビットのデータと、６４ビットのＥＣＣと
を含む。上記したように、各データリンクは、６４ビッ
トのデータ及び８ビットのＥＣＣを１５０ＭＨｚクロッ
クの各縁において搬送する。従って、ＱＳＤの外部に
は、パケット当たり８個のデータ転送サイクルがある。
しかしながら、ＱＳＤの内部では、クロックの１つの縁
においてのみデータが収集される。従って、ＱＳＤの内
部のロジックの各クロックサイクルに対し、潜在的に１
２８ビットのデータがデータリンクから受け取られる。
各パケットは、５１２ビットのデータ及び６４ビットの
ＥＣＣを含むので、ＱＳＤの内部では、各パケットごと
に４つのデータ転送サイクルがあり、各ＱＳＤクロック
サイクルに、１２８ビットのデータ及び１６ビットのＥ
ＣＣがプロセッサ、ＩＯＰ又はメモリデバイスからＱＳ
Ｄへ転送される。

【００２３】図３を参照すれば、ＱＳＤ１９は、５つの
同時挿入バッファ（ＳＩＢ）２５ａ−２５ｅを含むよう
に詳細に示されている。各ＳＩＢは、要求側要素、即ち
プロセッサ１２ａ−１２ｄ又はＩＯＰの１つに専用であ
る。各ＳＩＢは、それに関連した要求側要素と、ノード
内の他のリソース要素、即ちプロセッサ１２ａ−１２
ｄ、メモリ１３ａ−１３ｄ、ＩＯＰ１４及び好ましくは
グローバルポートとの間でパケットを転送するためのデ
ータ経路を制御する。グローバルポートは、他のマルチ
プロセッサノードへの相互接続部として働き、以下に詳
細に説明する。ＳＩＢは、スイッチへのアクセスに対し
要求側要素間の裁定を必要とせずに、スイッチに接続さ
れたいずれのリソースからでも要求側要素によりパケッ
トを同時に受信できるようにする。

【００２４】既に述べたように、ＱＳＡＡＲＢ１１
は、スイッチ１９への制御を与えるように接続される。
ＱＳＡＡＲＢ１１には、メインアービター２７が含ま
れる。このメインアービター２７は、リソース（ＩＯ
Ｐ、プロセッサ１２ａ−１２ｄ及びメモリ１３ａ−１３
ｄ）とスイッチ１９との間のデータの移動を管理する。
プロセッサ１２ａ−１２ｄ及びＩＯＰ１４の各々は、ラ
イン２８ａ−２８ｅ上のリソースの１つへアクセスする
ための要求を発生し、これらは、メインアービター２７
に送られる。次いで、メインアービターは、各リソース
が要求を受信できるときにこれらの要求をその関連リソ
ースへ送る。リソースが要求を受け取るときに、スイッ
チ１９の裁定は必要とされない。というのは、ＳＩＢの
各々は、全ての入力からの入力を実質的に同時に即ち同
じデータサイクル内に受け取ることができるからであ
る。又、ＱＳＡＡＥＢ１１には、多数の個々のアー
ビター２３ａ−２３ｄも含まれる。これらアービター２
３ａ−２３ｄの各々は、プロセッサ１２ａ−１２ｄの関
連する１つと、それに対応するＳＩＢ２５ｂ−２５ｅと
の間のデータ路を管理するのに使用される。ＩＯＰ１４
とＳＩＢ２５ａとの間のデータ路を管理するために、Ｉ
ＯＰ１４には同様のアービター（図示せず）が含まれ
る。各プロセッサは、その関連ＳＩＢからデータを受け
取ることができるので、その関連アービターは、接続さ
れたデータ路にデータを送信する。

【００２５】従って、スイッチ１９内の同時挿入バッフ
ァの使用により、要求側要素とリソースとの間の裁定経
路は、２つの別々の区分に分割される。即ち、接続され
たりソースからデータを受け取るために要求を発してい
るプロセッサが使用できるかどうかに拘わりなくプロセ
ッサからの要求に応答してメインアービター２７がリソ
ースを裁定するところの第１裁定区分と、プロセッサに
関連したアービターがスイッチからのデータを送信する
ためにプロセッサへのアクセスを裁定するところの第２
裁定区分である。このような構成では、裁定が分離され
るために、接続されたりソース各々への公平なアクセス
が与えられるように保証することができる。図４Ａを参
照すれば、ＳＩＢ２５ａの１つの実施形態が詳細に示さ
れており、これは、ライン３６ａを経て８個の接続され
たマルチプレクサ３４ａ−３４ｈにＭＵＸ選択信号＜３
１：０＞を与えるように接続された入力アービター３６
を備え、ＭＵＸ選択信号の４つが８個のマルチプレクサ
の各々に送られて、各マルチプレクサの９個の入力の１
つが選択される。ＳＩＢ２５ａ−２５ｄは全て同様の構
造にされ、従って、その１つについてのみ詳細に説明す
る。上記したように、潜在的に１０個のリソースがＳＩ
Ｂに接続される。１０個のリソースの１つは、ＳＩＢか
ら出力を受信する要求側デバイスであり、一方、他の９
個のリソースは、ＳＩＢに入力を与える。それ故、マル
チプレクサ３４ａ−３４ｈの各々は、ＳＩＢに接続され
た９個のリソースから入力を受け取る。接続されたプロ
セッサの３つからの入力は、ラインＰｘ、Ｐｙ及びＰｚ
を経て受け取られる。第４のプロセッサ（ＳＩＢがＩＯ
Ｐデバイスに関連するとき）又はＩＯＰデバイス（ＳＩ
Ｂが１つのプロセッサに関連するとき）からの別の入力
はラインＰＷ／ＩＯＰを経て受け取られる。メモリバン
ク１３ａ−１３ｄからの入力は、各々、ラインｍｅｍ
０、ｍｅｍ１、ｍｅｍ２及びｍｅｍ３を経て受け取ら
れ、そしてグローバルポートからの入力は、グローバル
ポートラインを経て受け取られる。

【００２６】マルチプレクサ３４ａ−３４ｈの各々から
の各出力は、バッファ３２の８個のバンクの１つに接続
される。各バンクは８個のエントリを有し、各エントリ
は、１２８ビットのデータ及び１６ビットのＥＣＣを記
憶する。従って、ＳＩＢにより受信されるデータの各パ
ケットは、バッファ３２の同じ行において４つの異なる
バンクに書き込まれる。以下に述べるように、入力アー
ビター３６は、データを記憶するのに使用できるバッフ
ァのバンクを指示するための状態ビットを維持する。従
って、１つ以上のリソースから１２８ビットのパケット
データが受け取られる各サイクルごとに、入力アービタ
ー３６は、バンクの使用状態に基づいて関連バンク３２
ａ−３２ｈへパケットデータのサイクルを送信するため
に、各マルチプレクサ３４ａ−３４ｈにおける考えられ
る９個のリソース入力の１つを選択する。又、入力アー
ビターは、ライン３６ｂを経てマルチプレクサ３０へバ
イパスデータも与える。入力アービターの状態ビット
が、全てのバンク３２ａ−３２ｈが空であることを指示
するときには、９個のリソース入力の１つが入力アービ
ター３６を経て関連する要求側要素へ直接バイパスされ
る。

【００２７】バンク３２ａ−３２ｈの各々は、マルチプ
レクサ３０に接続される。マルチプレクサ３０は、出力
アービター３８により制御される。ＳＩＢ２５ａに関連
する要求側要素がＳＩＢからデータを受け取る準備がで
き、そしてパケットの一部分がＳＩＢのエントリに書き
込まれると、出力アービターは、バンク３２ａ−３２ｈ
から要求側要素に８個のエントリーの１つを供給する。
或いは又、出力アービターは、いずれのバンクも転送保
留データをもたずそして入力アービターからライン３６
ｂを経てデータが得られる場合には、ライン３６ｂを経
て要求側要素にバイパスデータを供給する。動作中に、
パケットデータの第１の１２８ビットがＳＩＢに受け取
られたときに、８個のバンクの１つが、パケットデータ
の第１の１２８ビットを記憶するために選択される。本
発明の１つの実施形態によれば、パケットデータの１２
８ビットが受け取られる次の３サイクルの各々の間に、
手前の書き込みを実行するのに使用したバンクに隣接す
るバンクが、パケットデータの次の１２８ビットを書き
込むのに選択される。例えば、バンク３２ａが、ソース
ｍｅｍ０からパケットデータの第１サイクルを書き込む
のに使用できるバンクとして選択された場合には、パケ
ットデータの第２サイクルはバンク３２ｂに書き込ま
れ、第３サイクルはバンク３２ｃに書き込まれ、そして
第４サイクルはバンク３２ｄに書き込まれる。従って、
パケットデータのその後のサイクルを書き込むためにど
のバンクを使用すべきかの選択は、入力アービターによ
り選択されたバンクでスタートしそして各次々のパケッ
ト書き込みに対して隣接バンクに続くようにして回転ベ
ースで実行される。その結果、受け取られたパケットが
バッファ３２の共通の行における４つのバンクにわたっ
て分散される。

【００２８】８個のバンクが設けられ、そして本発明の
１つの実施形態では、いずれの要求側要素においても保
留となり得るリソース読み取りの最大数は８であるか
ら、各書き込みサイクルの間に各リソースに対して少な
くとも１つのバンクを使用できることが確保される。そ
れ故、所与の瞬間に、全部で８個の保留の読み取り応答
がスイッチによって受け取られた場合に、バンク３２ａ
−３２ｈの各々を使用して、第１のパケットデータ書き
込みサイクルを受け入れることができ、バンクの選択
は、次の３つの書き込みサイクルについて回転される。
本発明の１つの実施形態では、ＳＩＢの各バッファは、
先入れ先出し（ＦＩＦＯ）プロトコルのもとで動作す
る。パケットの２つの部分が同時に受け取られるので、
それらに対しスイッチへ「読み込まれる」順序が選択さ
れる。リソースに対して裁定を行う要求側要素のロジッ
クは、ＳＩＢと通信せず、そしてリソースに対して裁定
するための他の要求側要素とも通信しないので、標準的
なルールに従ってデータの完全性を確保する。例えば、
リソースに固定の優先順位番号が指定される場合には、
「低い番号の入力リソースからのデータが、常に、高い
番号の入力リソースからのデータの前にスイッチに書き
込まれる」というようなルールに従う。

【００２９】上記のように、図４Ａに示すＳＩＢの実施
形態では、８個のバンクの使用について説明した。とい
うのは、要求側要素が所与の瞬間にもつことのできる保
留メモリ要求の数が８に対応するからである。しかしな
がら、設計上の制約により、それより少数のバンクを設
けることが必要な場合には、インターリーブ又は同様の
技術を使用して多数のデータチャンクを共通のバンクの
異なる位置に同時に書き込みできるように当業者によっ
て容易に設計を変更することができよう。それ故、本発
明は、図４Ａに示す特定の実施形態に限定されるもので
はない。上記のように、動作中に、入力アービターは、
リソースからデータを書き込むための適当なバンクを選
択するためにバンクにおける入力の利用性に関する状態
情報を維持する。ＳＩＢへの入力を制御するための入力
アービター３６の実施形態が図４Ｂに示されている。上
記では９個の入力リソースについて述べたが、図４Ｂに
は、明瞭化のために、２つのリソース入力のみの書き込
みを制御するロジックが示されている。入力パケットデ
ータがライン３５を経て受け取られるときに、「入力
１」のような指示信号がラッチチェーン４０に送られ、
このラッチチェーンは、４個のラッチ、フリップ−フロ
ップ又は同様の状態装置を含む。ラッチチェーン４０
は、カウンタ機構として使用される。この例の目的とし
て、４つの次々のデータ転送サイクルにパケットデータ
が受け取られると仮定する。４つのデータ転送サイクル
の間に、入力信号はラッチチェーンを経て伝播する。ラ
ッチチェーンには、オアゲート４６が接続される。入力
値がラッチチェーン４０を経て伝播するときに、オアゲ
ート４６の出力がアサートされる。

【００３０】オアゲート４６の出力は、シフトレジスタ
４８へのシフト信号を与える。シフトレジスタは、ＳＩ
Ｂの各バンクについて１つづつ、８個のビット位置を含
む。シフトレジスタ４８は、入力信号サンプルを最初に
受信する際に、バンク選択ロジック４４からのビットベ
クトルがロードされる。バンク選択ロジック４４から受
け取られたビットベクトルは、１ビットがセットされる
だけであり、ベクトル内のビットの相対的な位置が、パ
ケットデータの書き込みを開始すべきバンクを指示す
る。従って、バンク選択ロジック４４は、パケットデー
タの第１サイクルの書き込み行先を制御する。バンク選
択ロジック４４は、利用性ベクトル４２を入力として受
け取り、利用性ベクトルにおけるビットの相対的な位置
が、書き込みデータを受け取ることのできない関連バッ
ファを指示する。

【００３１】バンク選択ロジックがシフトレジスタ４８
へビットを与えるときに、シフトレジスタ４８の値がデ
マルチプレクサ４９に送られる。又、デマルチプレクサ
４９は、入力１ソースが接続されるところのマルチプレ
クサ３４ａ−３４ｈの入力の数値表示も入力として受け
取る。例えば、デマルチプレクサ４９は、「１」のマル
チプレクサ選択値を用いてマルチプレクサ３４ａを経て
入力１リソースデータが送られることを指示する「１」
入力値を受け取る。選択されたバンクを指示するシフト
レジスタ内のビットの位置に基づいて、値「１」がＭＵ
Ｘ選択＜３１：０＞信号３６ａの適当な位置へ伝播され
る。各入力ソースに対する各デマルチプレクサは、全て
のＭＵＸ選択信号を駆動し、それらの出力は、これらの
信号がマルチプレクサ３４ａ−３４ｈを駆動する前にオ
アされる。

【００３２】バンクエントリの書き込みの後に、シフト
レジスタの内容がオアゲート５０によりオアされ、利用
性バンクベクトル４２として記憶される。これは、次の
サイクルの間に、どのバンクが到来する書き込みに対し
て使用できるかをバンク選択ロジック４４により決定す
るために使用される。ライン４６ａのシフト信号がアサ
ートされる各サイクルに、シフトレジスタ４８のビット
が右へシフトされる。ビットが右へシフトするときに
は、ＭＵＸ選択信号＜３１：０＞の選択値も右へシフト
され、次の書き込み動作中に入力ソースを次の隣接バン
クへ供給するようにさせる。従って、ローカルＱＳＤス
イッチ内のＳＩＢを使用することにより、多数の同時に
受け取られた入力がそれらの行先である要求側要素へ到
達するように確保できる簡単且つ効率的なスイッチング
機構が設けられる。このような構成では、リソースへの
アクセスに対してソースがいったん裁定されると、ソー
スにより実行されねばならない全ての裁定が完了する。
ソースは、リソースが常にスイッチバッファ３２へのア
クセスを得ることができるという事実に依存する。ソー
スアービターが互いに独立して動作してリソースを管理
できることにより、最小限の複雑さで公平な裁定を確保
する機構が設けられる。更に、ＳＩＢは、要求側要素の
最大数の保留中読み取りに対してデータを記憶できるの
で、たとえ全てのリソースからデータが同時に受け取ら
れても、バッファ３２に対するリソースを裁定する必要
はなく、リソースロジックの全体的な複雑さが低減され
る。

【００３３】図５には、図３に示すようにプロセッサ又
はＩＯＰデバイス（キャッシュを含む任意の要求側デバ
イス）へ接続することのできる同時挿入バッファ（ＳＩ
Ｂ）６１の第２の実施形態が示されている。ＳＩＢ６１
は、９個のマルチプレクサ６０ａ−６０ｉを含み、その
うちの８個は、８個のバッファ６２ａ−６２ｈの各々に
接続される。第９マルチプレクサ６０ｉは、以下に述べ
るようにバイパス経路を与えるのに使用される。マルチ
プレクサ６０ａ−６０ｉの各々は、接続されたメモリデ
バイスｍｅｍ０−ｍｅｍ３からの４つの入力、グローバ
ルポートからの１つの入力、接続されたプロセッサから
ラインＰｘ、Ｐｙ及びＰｚを経て送られる３つの入力、
そしてＩＯＰ（ＳＩＢに関連したデバイスがプロセッサ
の場合）又は別のプロセッサ（ＳＩＢに関連したデバイ
スがＩＯＰの場合）からラインＰＷ／ＩＯＰを経て送ら
れる１つの入力を含む９つの入力を受け取る。

【００３４】バッファ６２ａ−６２ｈの各々は、４つの
１２８ビットエントリを含む。従って、各入力バッファ
は、ＳＩＢにおいて次々のサイクル中に４つの１２８ビ
ット部分で受け取られた１つの５１２ビット情報パケッ
トを記憶する。各バッファには、４対１のマルチプレク
サ６４ａ−６４ｈが各々接続される。これらのマルチプ
レクサ６４ａ−６４ｈは、関連バッファの４つの入力の
うちの１つを選択して、マルチプレクサ６６を経てＳＩ
Ｂの出力へ供給するのに使用される。図４Ａについて上
述したように、本発明の１つの実施形態では、各要求側
要素がいかなる所与の瞬間にも異なるリソースに対して
せいぜい８個の保留中読み取り参照を有するだけである
から、８個のバッファが含まれる。従って、図５には８
個のバッファが示されているが、本発明はこれに限定さ
れるものではない。むしろ、選択されるバッファの数
は、関連するプロセッサ又はＩＯＰデバイスのバッファ
特性に依存する。

【００３５】動作中に、接続されたりソースの各々から
入力が受け取られるときに、入力アービター６７は、各
マルチプレクサにおける入力ラインの１つを選択し、デ
ータのパケットを空きバッファへ供給する。所与のリソ
ースからのパケット書き込みの時間中に同じバッファが
選択され、パケットの全ての部分が単一のバッファに維
持される。パケットの少なくとも１つの部分がバッファ
に書き込まれると、それがマルチプレクサ６６に送ら
れ、関連する要求側要素の準備ができたときにその要求
側要素へ供給される。或いは又、いずれのバッファにも
パケットデータが存在しない場合には、マルチプレクサ
６０ｉを経、マルチプレクサ６６を経てパケットデータ
を出力へ直接的に供給することによりバイパス経路を選
択することができる。

【００３６】８個のバッファが設けられるので、ＳＩＢ
デバイス６１は、接続されたりソースの各々から実質的
に同時に（即ち、同じデータサイクルに）データを受け
取ることができる。ＱＳＤにＳＩＢを使用することによ
り、前記の実施形態の場合のように、ＳＩＢへのアクセ
スに対し要求側要素の間に裁定は必要とされない。その
結果、リソースがローカルスイッチを使用する準備がで
きたときにローカルスイッチの利用性が保証される。更
に、本来的に公平な裁定機構が設けられる。というの
は、スイッチに対する裁定の結果としてリソースへの要
求が他のリソースへの他の要求により阻止されないから
である。従って、裁定の複雑さを最小限に抑えながら最
大のバス帯域巾を維持することのできる公平で且つ比較
的簡単な構造体が与えられる。

【００３７】従って、同時挿入バッファを使用して広い
バス帯域巾をサポートするローカルスイッチを実施する
ことにより処理リソースを最適に使用するマルチプロセ
ッサノード１０が提供される。更に、ＡＲＢバス１３に
おいて参照の順序がシリアル化されるので、マルチプロ
セッサ１０のメモリのコヒレンス性を容易に維持する中
央順序付けポイントが設けられる。ローカルスイッチに
接続されるプロセッサモジュールの数を増加することに
より処理能力を高める可能性が存在するので、図２の４
プロセッサ／ローカルスイッチ構成体は、待ち時間の短
いそしてコストの安い高性能のシステムを提供する。

【００３８】大型の対称的マルチプロセッサシステムモノリシックマルチプロセッサノードに含むことのでき
るプロセッサの数は、２つのファクタにより制限され
る。第１に、ローカルスイッチを経て互いに接続できる
プロセッサの数は、ローカルスイッチを構成するチップ
において使用できるピンの数により制限される。第２
に、単一のモノリシックスイッチによりサポートされる
データ帯域巾が制限される。従って、接続されるプロセ
ッサの数をある点を越えて増加すると、何ら性能利得が
得られないことになる。本発明の１つの実施形態によれ
ば、ハイアラーキースイッチを経て複数のマルチプロセ
ッサノードを相互接続することにより大型の対称的なマ
ルチプロセッサシステムを形成することができる。例え
ば、ハイアラーキースイッチを経て８個のマルチプロセ
ッサノードを接続して、３２個のプロセッサモジュー
ル、８個のＩＯＰデバイス及び２５６ギガバイトのメモ
リを含む対称的なマルチプロセッサ（ＳＭＰ）システム
が形成される。説明上、ここでは、少なくとも２つのマ
ルチプロセッサノードを含むＳＭＰを大型ＳＭＰと称す
る。以下に詳細に述べるように、ＳＭＰノードにローカ
ルスイッチを用いて少数のプロセッサを接続し、そして
ハイアラーキースイッチを用いて多数のノードを大型の
ＳＭＰへと接続することにより、拡張可能な高性能シス
テムを実現することができる。

【００３９】マルチプロセッサノードをハイアラーキー
スイッチ式ノードへと接続するために、マルチプロセッ
サは、グローバルなポートインターフェイスを含むよう
に拡張される。例えば、図６には、変更されたマルチプ
ロセッサノード１００が示されている。図２のマルチプ
ロセッサノードと同様に、ローカルスイッチ１１０は、
４つのプロセッサモジュール、４つのメモリモジュール
及びＩＯＰモジュールを接続する。図２及び６の同様の
要素は、同じ参照番号を有する。マルチプロセッサノー
ド１００のローカルスイッチ１１０は、図２のポート１
６ａ−１６ｉと同様に構成された９個のポート１１６ａ
−１１６ｉを含む１０ポートスイッチである。付加的な
ポート１１６ｊは、グローバルリンク１３２を経てグロ
ーバルポート１２０へ至る全二重のクロック供給データ
リンクを形成する。

【００４０】グローバルポートは、マルチプロセッサノ
ードをハイアラーキースイッチに接続し、大型のＳＭＰ
を実現する。例えば、図７Ａを参照すれば、本発明の１
つの実施形態において、８ｘ８のハイアラーキースイッ
チ１５５を経て互いに接続された８個のノード１００ａ
−１００ｈを含む大型のＳＭＰシステム１５０が示され
ている。これらノード１００ａ−１００ｈの各々は、図
６に示すノード１００と実質的に同一である。ノード１
００ａ−１００ｈの各々は、全二重クロック供給データ
リンク１７０ａ−１７０ｈの各々によりハイアラーキー
スイッチ１５５に接続される。１つの実施形態におい
て、データリンク１７０ａ−１７０ｈは、１５０ＭＨｚ
のクロック速度で動作され、従って、スイッチ１５５と
の間でデータをやり取りするための２．４ギガバイト／
秒のデータ帯域巾をサポートする。これは、最大３８．
４ギガバイト／秒の生の相互接続データ帯域巾、及び１
９．２ギガバイト／秒の二等分データ帯域巾をスイッチ
に与える。

【００４１】大型のＳＭＰシステムは、マルチプロセッ
サノード１００ａ−１００ｈの各々が全システムメモリ
のアドレス可能な部分を含むか又は物理的メモリの分割
部分を含むような分散型共用メモリシステムである。本
発明の１つの実施形態では、全システムメモリに２⁴³個
の物理的アドレス位置が存在する。ＳＭＰマルチプロセ
ッサシステム１００の１つの実施形態は、「大フォーマ
ット」及び「小フォーマット」と称する２つのアドレス
フォーマットをサポートする。大フォーマットは、各ノ
ードのプロセッサが動作するところの４３ビットの物理
的アドレスを、マルチプロセッサシステムに使用するた
めの４３ビットの物理的アドレスに直接マップする。大
フォーマットアドレスを使用すると、物理的メモリアド
レスのビット＜３８：３６＞をノード識別番号として使
用することができる。アドレスビット３８：３６は、メ
モリスペースアドレスのホームノードを直接デコード
し、一方、アドレスビット３８：３６の逆数は、Ｉ／Ｏ
スペースアドレスのホームノードをデコードし、ここで
「ホーム」とは、メモリスペース又はＩ／Ｏスペースに
関連したメモリ及びＩ／Ｏデバイスが存在するところの
物理的マルチプロセッサノードを指す。

【００４２】小フォーマットのアドレスモードは、マル
チプロセッサシステムに４つ以下のノードが存在するこ
とを仮定するものである。小フォーマットは、各ノード
のプロセッサが３６ビットの物理的にアドレスされたシ
ステムで動作できるようにする。小フォーマットにおい
て、物理的アドレスのビット３４：３３は、データ又は
Ｉ／Ｏデバイスのホームノード番号を識別する。しかし
ながら、たとえＣＰＵが３６ビットの物理的アドレスを
用いて動作しても、マルチプロセッサシステムは、デー
タ位置を特定するのに４３ビットの物理的アドレスを一
貫して使用し、物理的アドレスのビット３７：３６がデ
ータ又はＩ／Ｏデバイスのホームノード番号を識別す
る。従って、ＣＰＵにより発生された小フォーマットア
ドレスと、データライン１３ａ−１３ｈを経てハイアラ
ーキースイッチ１５５へ送信されるものとの間で何らの
変換が実行される。

【００４３】マルチプロセッサシステム１５０のここに
示す構成は、３２個のプロセッサ間に広帯域巾のキャッ
シュコヒレントな共用メモリを与えることができる。本
発明の１つの実施形態による大型ＳＭＰの別の実施形態
が図７Ｂに示されており、ここでは、２つのマルチプロ
セッサノード１００ａ及び１００ｂがハイアラーキース
イッチを使用せずに互いに接続される。むしろ、２つの
マルチプロセッサノードは、それらのグローバルポート
出力を互いに接続することにより直接接続される。図７
Ｂの２ノード実施形態が使用されるか、図７Ａのマルチ
ノード実施形態が使用されるかに拘わりなく、大きなア
ドレススペース及び処理能力をもつマルチプロセッサシ
ステムが得られる。

【００４４】両実施形態において、システムメモリアド
レススペース及びＩ／Ｏアドレススペースは、全てのノ
ード１００ａ−１００ｈ間にセグメントで物理的に分配
される。システムの各ノードは、メモリスペースの物理
的アドレスの上位３ビットを使用してアクセスされるメ
インメモリの一部分を含む。従って、各メモリ又はＩ／
Ｏアドレスは、１つのノードのみにおける１つの唯一の
メモリ位置又はＩ／Ｏデバイスへとマップされる。従っ
て、上位３つのアドレスビットは、メモリ又はＩ／Ｏア
ドレスがマップされるノードである「ホーム」ノードを
識別するためのノード番号を与える。各マルチプロセッ
サノードは、それらのホームノード又は他のマルチ処理
ノードに記憶された共用メモリの部分をアクセスするこ
とができる。ホームノードがプロセッサ自身のノードで
あるところの共用メモリブロックにプロセッサがアクセ
ス（ロード又は記憶）するときには、参照は、「ローカ
ル」メモリ参照と称される。ホームノードがプロセッサ
自身のノード以外のノードであるようなブロックを参照
する場合には、参照は、「リモート」又は「グローバ
ル」メモリ参照と称する。ローカルメモリアクセスの待
ち時間は、リモートメモリアクセスの待ち時間と異なる
ので、ＳＭＰシステムは、非均一メモリアクセス（ＮＵ
ＭＡ）アーキテクチャを有すると言える。更に、システ
ムはコヒレントなキャッシュを備えているので、システ
ムは、キャッシュコヒレントなＮＵＭＡアーキテクチャ
ーと呼ばれる。

【００４５】ここに示すキャッシュコヒレントなＮＵＭ
Ａアーキテクチャは、高い性能と低い複雑さに寄与する
多数の特徴を含む。設計上の１つの特徴は、メッセージ
間の順序の固執及び利用である。メッセージがある順序
特性に基づいてシステムに流れるよう保証することによ
り、オペレーションの待ち時間を著しく短縮することが
できる。例えば、記憶オペレーションは、記憶が完了し
たとみなされる前に無効メッセージがそれらの最終的な
行先プロセッサに供給されることを必要とせず、むし
ろ、無効メッセージが行先プロセッサへと通じるある順
序付けされた待ち行列に入れられるや否や記憶が完了し
たとみなされる。更に、ある順序が維持されるよう保証
することにより、設計上、確認又は完了メッセージの必
要性が排除される。メッセージは、それらがある待ち行
列に入れられた順序でそれらの行先に到達するように保
証される。従って、メッセージがその行先に到達したと
きに確認を返送する必要性が排除される。これは、シス
テムの帯域巾を改善する。

【００４６】更に、事象順序及びメッセージ順序は、
「ホットポテト」オペレーションを行うのに使用され
る。ある待ち行列に順序を利用することにより、ディレ
クトリ又はＤＴＡＧコントローラのようなコントローラ
は、単一ビジットにおいて要求をリタイアすることがで
きる。他の要求との競合により要求を否定的に確認しそ
して再トライする必要はない。「ホットポテト」オペレ
ーションの結果として、公平さ及び欠乏の問題が解消さ
れる。設計に使用される第２の特徴は、仮想チャンネル
である。仮想チャンネルとは、メッセージを「チャンネ
ル」へと分類する構成であって、チャンネルは物理的な
リソースを共用する（従って、「仮想」である）が、各
チャンネルは、他のものとは独立して流れ制御される。
仮想チャンネルは、システムのメッセージ間で流れに依
存しそしてリソースに依存するサイクルを排除すること
により、キャッシュコヒレンスプロトコルにおける停滞
を排除するのに使用される。これは、選択されたメッセ
ージを否定的に確認しそしてそれに対応するコマンドを
再トライすることにより停滞を検出しそして停滞状態を
解消する機構を用いた公知のＮＵＭＡマルチプロセッサ
におけるキャッシュコヒレンスプロトコルとは対照的で
ある。

【００４７】チャンネルの使用について以下に簡単に説
明するが、詳細な説明は後で行う。上述したように、メ
ッセージは、「チャンネル」と称する論理的なデータ路
を用いて大型ＳＭＰ内をルート指定される。本発明の１
つの実施形態には、以下のチャンネルが含まれる。即
ち、要求側プロセッサから、トランザクションのアドレ
スに対応するホームノードのＡＲＢバスへトランザクシ
ョンを搬送するためのＱ０チャンネルと、ホームＡＲＢ
バスから１つ以上のプロセッサ及びＩＯＰへトランザク
ションを搬送するためのＱ１チャンネルと、所有者プロ
セッサから要求側プロセッサへデータ記入トランザクシ
ョンを搬送するためのＱ２チャンネルとである。変更さ
れたデータを書き込むためにプロセッサからメモリへビ
クティム（Victim）トランザクションを搬送するために
Ｑ０Ｖｉｃチャンネルを設けることもできる。更に、Ｑ
０Ｖｉｃチャンネルは、ビクティムトランザクションの
背後に保持しなければならないＱ０トランザクションを
搬送するのに使用できる。最後に、プロセッサからＩＯ
ＰへＩＯスペーストランザクションを搬送するためにＱ
ＩＯチャンネルが設けられる。

【００４８】チャンネルは、以下に示すようなハイアラ
ーキーを構成する。（最低）ＱＩＯ＞Ｑ０Ｖｉｃ＞Ｑ０＞Ｑ１＞Ｑ２（最
高）以下に述べるように、停滞を回避するために、いずれの
チャンネルのメッセージも、下位チャンネルのメッセー
ジによって決して阻止されてはならない。順序付け特性
及び仮想チャンネルを形成しそして使用する機構の設計
及び実施に関する詳細は、後で述べる。従って、図７Ａ
及び７Ｂに示すように、大型ＳＭＰは、図２のＳＭＰノ
ードを任意の数だけ互いに接続することにより形成する
ことができる。図７Ａ及び７Ｂに示すような大型ＳＭＰ
システムのオペレーションは、以下に３つの部分につい
て説明する。第１に、大型ＳＭＰに含まれるハードウェ
ア要素について説明する。次いで、ＳＭＰのプロセッサ
間にコヒレントなデータ共用を与えるキャッシュコヒレ
ンスプロトコルについて説明する。更に、ハイアラーキ
ースイッチの仮想チャンネルのために設けられたサポー
ト機構を含む仮想チャンネルの実施及び使用について説
明する。

【００４９】大型ＳＭＰのハードウェア要素マルチプロセッサノードの各々には、チャンネルを用い
てコヒレントなデータ共用を実施するための多数の要素
が設けられる。図６に戻ると、これらの要素は、ディレ
クトリ１４０と、ＤＴＡＧ２０と、ＩＯＰタグ１４ｂ
と、グローバルポート１２０と、ディレクトリ１４０と
を備えている。更に、シリアル化ポイントのハイアラー
キーは、キャッシュコヒレンスプロトコルを容易にする
ために参照の順序を維持できるようにする。これら要素
の各々について、以下に詳細に述べる。グローバルポートグローバルポート１２０は、マルチプロセッサノード１
００を、ハイアラーキースイッチリンク１７０を経て１
つ以上の同様に構成されたマルチプロセッサノードに直
接接続できるようにする。各ノード１００は対称的なマ
ルチプロセッサシステムとして動作するので、システム
により多くのノードが追加されるにつれて、使用可能な
アドレススペース及び処理能力が増加される。

【００５０】図８は、グローバルポート１２０の拡張ブ
ロック図である。グローバルポートは、トランザクショ
ン追跡テーブル（ＴＴＴ）１２２と、ビクティムキャッ
シュ１２４と、マルチプロセッサノードからハイアラー
キースイッチへ送られるパケットを記憶するためのパケ
ット待ち行列１２７、１２２、１２３及び１２５と、ハ
イアラーキースイッチから受け取られるパケットを記憶
するためのパケット待ち行列１２１とを備えている。グ
ローバルポート１２０は、ＡＲＢバス１３０と、ローカ
ルスイッチの２つの専用ポート即ちＧＰリンク入力１３
２ｂ及びＧＰリンク出力１３２ａとを経てノードの他の
ロジック（特にＱＳＡチップ）と通信する。ＴＴＴは、
マルチプロセッサノードにおいて保留中のトランザクシ
ョン、即ちノードからグローバルポートを経て発生され
て、他のマルチプロセッサノード又はハイアラーキース
イッチからの応答を待機しているトランザクションを追
跡する。グローバルポートにコマンドが送られるたび
に、ＴＴＴにエントリが形成される。対応する応答がノ
ードに受け取られたときに、ＴＴＴエントリがクリアさ
れる。ＴＴＴは、２つの部分、即ちＱ０ＴＴＴ及びＱ１
ＴＴＴで構成され、Ｑ０及びＱ１は、上記のようにＱ０
及びＱ１チャンネルを進むパケットを指す。エントリー
がＴＴＴにいかに割り当てられるか及びそれがいつリタ
イアされるかについては、以下に詳細に述べる。

【００５１】又、グローバルポート１２０は、ビクティ
ムキャッシュ１２４を含む。ビクティムキャッシュ１２
４は、マルチプロセッサノードの各プロセッサから受け
取られて別のマルチプロセッサノードのメモリに向けら
れるビクティム化データを記憶する。ビクティム化デー
タとは、プロセッサのキャッシュ位置に記憶されてその
プロセッサにより変更されたデータである。変更データ
を記憶するキャッシュ位置に記憶する必要のある新たな
データがプロセッサに受け取られると、変更データは、
ビクティム化されると言われ、ビクティムデータと称さ
れる。ビクティムキャッシュ１２４は、プロセッサから
リモートマルチプロセッサノードのメモリへ向けられた
ビクティムデータからのビクティムデータの一時的な記
憶装置である。グローバルポートを経て別のノードへビ
クティムデータを送信するための機会があるときには、
マルチプレクサ１６７は、ビクティムキャッシュ１２４
からバス１７０の出力部分にデータを供給するように切
り換えられる。グローバルポートにビクティムキャッシ
ュを設けることにより、個々のプロセッサがグローバル
システムのメモリ書き込み待ち時間を待機せずに、プロ
セッサが各々のビクティムデータバッファを空にするこ
とができる。むしろ、ビクティム書き込みは、使用でき
るデータサイクルがあるときに書き込みが実行されるよ
うにグローバルポートにより制御される。ビクティムキ
ャッシュからデータを解放する適切さに関連した幾つか
の制御の問題があるが、これらは以下に説明する。

【００５２】ＤＴＡＧ及びＩＯＰタグＤＴＡＧ及びＩＯＰタグは、小型のＳＭＰシステムにも
含まれるが、これについては以下に詳細に述べる。ＤＴ
ＡＧ２０は、マルチプロセッサノードのプロセッサのキ
ャッシュに記憶されたデータブロック各々に対する状態
情報を記憶する。同様に、ＩＯタグ１４ａは、ＩＯＰに
記憶された各データブロックに対する状態情報を記憶す
る。ディレクトリは、どのマルチプロセッサノードがデ
ータのコピーを記憶するかを識別するおおよその情報を
与えるが、ＤＴＡＧ及びＩＯタグは、マルチプロセッサ
ノード内のどのプロセッサがデータのコピーを記憶する
かに関する正確な指示を与えるのに使用される。それ
故、ＤＴＡＧ及びＩＯタグは、参照情報がマルチプロセ
ッサノードに到達したときに、そのノードのどのプロセ
ッサがターゲットとなるべきかを決定するのに使用され
る。

【００５３】図６に示すように、ＤＴＡＧ２０及びＩＯ
Ｐタグ１４ｂは、ＱＳＡチップ１８に接続されたメモリ
領域を参照するアドレスを監視するためにＡＲＢバス１
３０に接続される。ＤＴＡＧは、４つのプロセッサ１２
ａ−１２ｄに対応する４つのセグメントに分割される。
各プロセッサは、メモリ１３からのデータのサブセット
を一時的に記憶するためのキャッシュ（図示せず）を備
えている。各プロセッサのキャッシュに記憶されたメモ
リのブロックの上位アドレスビット（タグ）を記憶する
ためのタグ記憶装置が各キャッシュに関連される。ＤＴ
ＡＧ２０の各セグメントは、関連プロセッサのキャッシ
ュタグの状態を指示するデータを維持する。処理ユニッ
トの外部のＤＴＡＧ２０にタグのコピーを記憶すること
により、システムは、ＡＲＢバスを経て受け取ったコマ
ンドをフィルタし、そしてプロセッサのキャッシュのデ
ータに関連した調査（読み取り）及び無効化コマンドの
みを各プロセッサに供給することができる。ＩＯＰタグ
１４ａは、ＩＯＰキャッシュ１４ｃに記憶されたデータ
ブロック各々の上位アドレスビットを記憶する。ＩＯＰ
タグ記憶装置は、プロセッサ１２ａ−１２ｄの各々に維
持されたタグ記憶装置と同様である。

【００５４】ＤＴＡＧ２０及びＩＯＰタグ１４ａの各エ
ントリは、多数の状態ビットを含む。ＤＴＡＧ状態ビッ
トは、次の４つの状態、即ちＩｎｖａｌｉｄ（無効）、
Ｃｌｅａｎ（クリーン）、ＤｉｒｔｙＮｏｔＰｒｏ
ｂｅｄ、及びＤｉｒｔｙＰｒｏｂｅｄのうちの１つを
指示する。ＩＯＰタグのエントリの状態ビットは、次の
２つの状態、即ちＶａｌｉｄ（有効）及びＤｉｒｔｙ
（ダーティ）のうちの１つを指示する。「有効」ビット
は、関連キャッシュの対応エントリに記憶されたデータ
が、メモリに記憶されたデータと一致することを指示す
る。「ダーティ」ビットは、関連キャッシュの対応エン
トリに記憶されたデータが関連プロセッサによって変更
されそしてメモリに記憶されたデータに一致しないこと
を指示する。

【００５５】ＤＴＡＧ２０及びＩＯＰタグ１４ｂは、マ
イクロプロセッサノード１００のＡＲＢバスにコマンド
が現れるたびにアクセスされる。「無効」の状態がプロ
セッサ１のＤＴＡＧアクセスに応答して返送される場合
には、ノードのプロセッサ１は、メモリアドレスに関連
したデータの有効コピーを記憶しない。「有効」の状態
がＩＯＰタグ１４ａへのアクセスから返送される場合に
は、ＩＯＰキャッシュ１４ｃがデータの有効コピーを記
憶する。「クリーン」状態がプロセッサ１に対するＤＴ
ＡＧアクセスに応答して返送される場合には、これは、
プロセッサ１がメモリアドレスに対応するデータの無変
更コピーを有するが、そのデータを読み取るための他の
プロセッサによる試みがなされていないことを指示す
る。ＤｉｒｔｙＮｏｔＰｒｏｂｅｄの状態がＤＴＡ
Ｇに応答して返送される場合には、これは、プロセッサ
１がメモリアドレスに対応するデータの変更コピーを有
し、そしてプロセッサが最後にデータを変更して以来、
少なくとも１つのプロセッサがデータを読み取る試みを
していることを指示する。

【００５６】ディレクトリオペレーション一般に、ディレクトリは、関連マルチプロセッサノード
（ホームノード）におけるメモリの各ブロックの所有権
情報を与えるのに使用され、メモリのブロックは、一般
に、メモリとＳＭＰシステムのプロセッサとの間に転送
される最小量のデータである。例えば、本発明の１つの
実施形態において、ブロックは、パケットのサイズと同
様であり、即ち５１２ビット（６４バイト）のデータで
ある。更に、ディレクトリは、どのマルチプロセッサノ
ードがメモリデータのブロックのコピーを記憶するかを
指示する。従って、読み取り型のコマンドの場合に、デ
ィレクトリは、データの最新バージョンの位置を識別す
る。ビクティム型のコマンドの場合には、データの変更
ブロックがメモリに書き戻される場合に、ディレクトリ
は、データの変更ブロックが現在のものであってメモリ
に書き込まねばならないかどうか決定するために検討さ
れる。それ故、ディレクトリは、参照情報がリモートマ
ルチプロセッサノードのプロセッサにより発生されたも
のであるかローカルマルチプロセッサノードのプロセッ
サにより発生されたものであるかに拘わりなく、関連す
るマルチプロセッサノードのメモリブロックへの参照に
対する第１アクセスポイントである。

【００５７】ディレクトリは、対応するノード１００に
おいてメモリ１３の各６４バイトのデータブロック（以
下、キャッシュラインとも称する）に対して１つの１４
ビットエントリを記憶する。メモリ１３と同様に、ディ
レクトリは、メモリアドレスがノードＮに存在する場合
に、対応するディレクトリエントリもノードＮに存在す
るように、システムのノードにわたって物理的に分配さ
れる。図９を参照すれば、ディレクトリエントリ１４０
ａの１つの実施形態は、所有者ＩＤフィールド１４２及
びノード存在フィールド１４４を含むように示されてい
る。所有者ＩＤフィールドは、各６４バイトブロックに
対する６ビットの所有者情報を含む。所有者ＩＤは、ブ
ロックの現在所有者を特定し、現在所有者は、システム
における３２個のプロセッサの１つ、又はシステムにお
ける８個のＩ／Ｏプロセッサの１つ、又はメモリのいず
れかである。８ビットのノード存在情報は、システムの
８個のノードのどれがキャッシュラインの現在バージョ
ンを獲得したか指示する。ノード存在ビットは、同じノ
ードにおける４つのプロセッサの累積状態を１ビットで
表わすおおよそのベクトルである。共用データの場合に
は、２つ以上のノードが、情報を記憶する少なくとも１
つのプロセッサを有する場合に、２つ以上のノード存在
ビットがセットされる。

【００５８】時々、状態情報のある断片がＤＴＡＧ又は
ディレクトリから得られる。このような場合、ＤＴＡＧ
からの状態情報を使用するのが好ましい。というのは、
これは非常に高速で検索されるからである。例えば、メ
モリアドレスの所有者プロセッサがそのアドレスに対し
ホームノードに配置される場合には、所有者ＩＤを供給
するのにＤＴＡＧが使用される。性能上の理由でＤＴＡ
Ｇによりサービスされない情報又は参照については、デ
ィレクトリ１４０は、全てのコヒレンス性判断の焦点で
あり、従って、多数の機能を実行する。ディレクトリ
は、メモリデータブロックの所有者を識別する。所有者
は、プロセッサ又はメモリのいずれかである。ディレク
トリからの所有者情報は、データブロックの最新バージ
ョンのソースを決定するために読み取り型コマンド（例
えば、読み取り、読み取り−変更）により使用される。
又、所有者情報は、以下に詳細に述べるようにビクティ
ム化データをメモリに書き戻さねばならないかどうか決
定するのにも使用される。

【００５９】全ての読み取り型コマンドに対して、デー
タの所有者を識別するのに加えて、ディレクトリは、プ
ロセッサからの「クリーン−ダーティ(Clean-to-Dirt
y)」及び「シェアド−ダーティ(Shared-to-Dirty）」コ
マンドを分析するのにも使用される。「クリーン−ダー
ティ」コマンドは、プロセッサがそのキャッシュにおい
て現在「クリーン」状態にあるキャッシュラインを変更
するよう希望するときにプロセッサにより発生される。
「シェアド−ダーティ」コマンドは、「ダーティ−シェ
アド」状態にあるキャッシュラインを変更するよう希望
するときに発生される。これらのコマンドは、ホームＡ
ＲＢバスに送られ、そこで、ディレクトリは、プロセッ
サがキャッシュラインの最新バージョンを有するかどう
か決定する。もしそうであれば、コマンドは成功とな
り、プロセッサは、キャッシュラインを変更することが
許される。さもなくば、コマンドは失敗となり、プロセ
ッサは、最初に、キャッシュラインの最新バージョンを
獲得しなければならない。これらの記憶型オペレーショ
ンは、ディレクトリのノード存在情報を使用して、成功
又は失敗を決定する。

【００６０】上記のように、ディレクトリの存在ビット
は、記憶型コマンドが発生されたときに各データブロッ
クのコピーでマルチプロセッサノードを識別する。記憶
コマンドは、キャッシュラインの内容が更新されようと
していることを指示する。関連するディレクトリエント
リの存在ビット１４４を検討することにより、記憶コマ
ンドがディレクトリ１４０に受け取られたときに、存在
ビットを有するノードを用いて、これらのマルチプロセ
ッサノードをそのノードにおけるキャッシュラインのコ
ピーで識別し、従って、各ノードにおけるキャッシュラ
インを無効化できるようにする。従って、ディレクトリ
及びＤＴＡＧは、ローカルマルチプロセッサのメモリに
おける各データブロック及びローカルプロセッサのキャ
ッシュに記憶された各データブロックに対する状態情報
を与えるように協働する。ホームノードのディレクトリ
は、キャッシュブロックのコピーの状態に関するおおよ
その情報を供給する。次いで、無効化コマンドがディレ
クトリにより識別されたノードへと進み、そこで、ＤＴ
ＡＧがアクセスされて、コピー情報を更に改善する。従
って、これらノードにおけるＤＴＡＧは、各ノードのど
のプロセッサがそれらのキャッシュにラインのコピーを
記憶するか指示する。

【００６１】ＴＴＴ：ＴＴＴは、マルチプロセッサノー
ドからの保留中のトランザクション、即ち別のマルチプ
ロセッサノード又はハイアラーキースイッチからの応答
を待機している参照を追跡するのに使用される。保留中
トランザクションに関する情報は、関連メモリアドレス
へのその後のコマンドを処理する際にキャッシュコヒレ
ンスプロトコルにより使用される。図１０を参照すれ
ば、ＴＴＴ１２２の１つの実施形態は、アドレスフィー
ルド１５２と、コマンドフィールド１５４と、コマンダ
ＩＤフィールド１５６と、ビット１５８ａ−１５８ｃを
含む多数の状態ビット１５８とを含むように示されてい
る。アドレスフィールド１５２は、現在進行中であるト
ランザクションに対するキャッシュラインのアドレスを
記憶し、一方、コマンドフィールドは、現在進行中であ
るトランザクションに対するキャッシュラインに関連し
たコマンドを記憶する。コマンダＩＤフィールド１５６
は、コマンドフィールドに記憶されたコマンドを開始し
たプロセッサのプロセッサ番号を記憶する。状態ビット
１５８は、コマンドが進行中であるときにコマンドの状
態を表わす。或いは又、状態ビット１５８は、進行中で
あるコマンドの種々の特性をあらわすように使用されて
もよい。

【００６２】例えば、「記入」状態ビット１５８ａは、
読み取り型コマンドに応答して「記入」データ応答が受
け取られたときに更新される。「シャドー」状態ビット
１５８ｂは、グローバルポートを経て発生されたコマン
ドが「シャドー」型コマンド（以下に詳細に述べる）で
ある場合にセットされる。ＡＣＫ状態ビット１５８ｃ
は、確認型応答を期待しているメッセージが応答を受信
した場合にセットされる。応答が到着した場合に、この
ビットはクリアされる。ＴＴＴに含むことのできる全て
の状態ビットが示されているのではないことに注意され
たい。むしろ、以下の説明に関連のある状態ビットが含
まれている。更に、メモリのコヒレンス性を維持するた
めに必要と考えられれば、他の状態ビットを設けてもよ
く、従って、本発明は、ＴＴＴにおける特定のビット指
定に限定されるものではないことが明らかであろう。

【００６３】従って、ディレクトリ、ＤＴＡＧ、ＩＯＰ
タグ及びＴＴＴの各々は、ＳＭＰシステムにおけるキャ
ッシュラインのコヒレンス性（以下、キャッシュコヒレ
ンス性と称する）を維持するのに使用される。これら要
素の各々は、ハイアラーキースイッチ１５５に接続され
たマルチプロセッサノード間にコヒレント通信を与える
ためにグローバルポートとインターフェイスする。

【００６４】シリアル化ポイント：上記要素に加えて、
各マルチプロセッサノードにシリアル化ポイントを設け
ることによりデータ共用コヒレンス性が維持される。本
発明の１つの実施形態において、各マルチプロセッサノ
ードにおけるシリアル化ポイントは、ＡＲＢバス１３０
である。全てのＱ０参照は、ローカルプロセッサにより
発生されたものであるかリモートプロセッサにより発生
されたものであるかに拘わりなく、ＱＳＡによりＡＲＢ
バス１３０を経てディレクトリ１４０及びＤＴＡＧ２０
へ供給される。参照がディレクトリ及び／又はＤＴＡＧ
をアクセスすると、それにより得られるＱ１チャンネル
コマンドが厳密な順序でＡＲＢバスに出力され、ここ
で、順序は参照のシリアル化順序である。マルチプロセ
ッサノードの各々にシリアル化ポイントを設けることに
より、ＳＭＰにおいて実施されるデータ共用コヒレンス
プロトコルが相当に簡単化される。

【００６５】マルチプロセッサノードの各々にシリアル
化ポイントを設けるのに加えて、ハイアラーキースイッ
チ１５５は、ＳＭＰシステムに第２のシリアル化ポイン
トを与える。以下に詳細に述べるように、ハイアラーキ
ースイッチは、第１のシリアル化ポイントに導入された
コヒレンス性が大型のＳＭＰシステムに維持されるよう
確保するある順序付けルールに適合する。グローバルポート／ハイアラーキースイッチインター
フェイス：図１１は、８個の入力ポート１５５ｉ０−１
５５ｉ７及び８個の出力ポート１５５ｏ０−１５５ｏ７
を含むハイアラーキースイッチ１５５のブロック図であ
る。ハイアラーキースイッチ１５５の入力ポート１５５
ｉ０−１５５ｉ７は、接続されたマルチプロセッサノー
ド各々のグローバルポートからパケットを受け取る。ハ
イアラーキースイッチの出力ポート１５５ｏ０−１５５
ｏ７は、接続されたマルチプロセッサノード各々のグロ
ーバルポートへパケットを供給する。

【００６６】本発明の１つの実施形態において、受信し
たパケットをバッファするためのバッファ１６０ａ−１
６０ｈが各入力ポートに関連される。図１１の実施形態
は、各入力に１つのバッファを示しているが、いかなる
数の入力ポート間にバッファが共用されてもよい。各パ
ケットは、５つのチャンネルのいずれか１つと関連され
る。本発明の１つの実施形態では、以下に述べるよう
に、各入力バッファ１６０ａ−１６０ｈの部分が、ある
チャンネルのパケットを専用に記憶するようにされる。
従って、グローバルポートからハイアラーキースイッチ
１５５への流れ制御は、チャンネルベースで実行され
る。チャンネルベースでスイッチへのデータの流れを制
御しそして入力バッファの部分を選択されたチャンネル
に専用とすることにより、スイッチは、ＳＭＰシステム
におけるマルチプロセッサノード間で停滞のない通信を
行う。

【００６７】停滞のない通信を与えるのに加えて、ハイ
アラーキースイッチ１５５は、更に、メモリのコヒレン
ス性を確保するためにＳＭＰシステムの順序付け制約を
サポートするように設計される。順序付け制約は、スイ
ッチ１５５から関連マルチプロセッサノードのグローバ
ルポートへ送出されるパケットの順序を制御することに
より課せられる。いずれかの入力バッファ１６０ａ−１
６０ｈからのパケットは、マルチプレクサ１８２ａ−１
８２ｈを経ていずれかの出力ポートへ送られる。更に、
以下に述べるように、スイッチ１５５は、パケットをマ
ルチキャスティングすることができる。従って、１つの
入力バッファからのパケットは、いかなる数の出力ポー
トに送ることもできる。グローバル出力ポートに順序を
強制することにより、マルチプロセッサノード各々に得
られるシリアル化順序を維持して、完全にコヒレントな
データ共用機構をＳＭＰシステムに形成することができ
る。

【００６８】ハイアラーキースイッチにおける停滞の回
避上述したように、図７Ａの８個のノードの各々は、ハイ
アラーキースイッチにデータを供給し、全てのノードが
データを同時に供給することもある。パケットは、異な
る仮想チャンネルに供給される多数の異なるチャンネル
形式（Ｑ０、Ｑ０Ｖｉｃ、Ｑ１、Ｑ２及びＱＩＯ）に分
割され、ここで、仮想チャンネルとは、本質的に、他の
チャンネルとの共通の相互接続部を共用するがその相互
接続部のいずれかの端において独立してバッファされる
特定形式のパケットに専用のデータ経路である。各ノー
ドのグローバルポートとハイアラーキースイッチとの間
には１つのデータ経路しかないので、異なる仮想チャン
ネルからの全てのパケットは、１つのデータ経路を使用
してハイアラーキースイッチに書き込まれる。

【００６９】８個のノード１００ａ−１００ｈの各々
は、ハイアラーキースイッチへデータを送信することが
できるので、全てのメッセージがスイッチにより受信さ
れて、スイッチから適当な順序で供給されるよう適切に
確保するために、ある形式の制御が必要となる。更に、
本発明の１つの目的は、対称的なマルチプロセッサシス
テムに停滞（デッドロック）が生じないよう保証するた
めに上位順序のパケット形式が下位順序のパケット形式
により阻止されないよう確保することである。本発明の
１つの実施形態では、最高順序から最低順序までのパケ
ットの順序は、Ｑ２、Ｑ１、Ｑ０、Ｑ０Ｖｉｃ及びＱＩ
Ｏである。本発明の１つの特徴によれば、スイッチの入
力ポートに到着するパケットの流れ制御を行うための機
構であって、上記の停滞回避ルールが常に満足されるよ
う確保する機構が提供される。更に、スイッチにおいて
使用できるバッファは最適に利用されねばならず、そし
て最大の帯域巾が維持されねばならない。

【００７０】本発明の１つの実施形態によれば、ハイア
ラーキースイッチへのデータの書き込みを制御するため
の制御装置は、パケットの各形式に対し、ハイアラーキ
ースイッチのバッファに専用スロットを設けることによ
り実施される。又、バッファは、任意の形式のパケット
を記憶するのに使用できる多数の一般的なスロットも含
んでいる。ハイアラーキースイッチに専用のバッファス
ロットを設けることにより、上位順序のパケット形式が
常にスイッチを通る経路を使用できるよう保証すること
によって停滞を回避することができる。更に、使用でき
る一般的スロット及び専用スロットの数を監視し、そし
てバッファに記憶されるパケットの異なる形式の数を監
視することにより、ハイアラーキースイッチのバッファ
が容量に達したときにノードがバッファに書き込みする
のを防止するような簡単な流れ制御機構を実施すること
ができる。

【００７１】図１２Ａには、多数のソースノードによる
共通の行先バッファへの書き込みを制御するのに使用す
るための制御ロジックの一例が示されている。図１２Ａ
のブロック図には、２つの異なるノードのグローバルポ
ート１２０ａ及び１２０ｂが一例として示されている。
図１２Ａにおいて、ノード１００ａ及び１００ｂのグロ
ーバルポート各々１２０ａ及び１２０ｂの部分は、ハイ
アラーキースイッチ１５５へ転送するためにＱ０／Ｑ０
Ｖｉｃ、Ｑ１、Ｑ２及び一般形式のパケット（Ｑ０、Ｑ
０Ｖｉｃ、Ｑ１、Ｑ２又はＱＩＯパケットのいずれか）
を各々記憶するためのエントリ１３５ａ−１３５ｂを含
むバッファ１３５を備えて詳細に示されている。バッフ
ァ１３５にはマルチプレクサ１６７ａが接続され、ＧＰ
アービター１３４からの選択信号を使用してリンクを経
てハイアラーキースイッチへ送るためにパケット形式の
１つを選択する。

【００７２】更に、各グローバルポートは、専用のカウ
ントレジスタ１３６を備えている。この専用のカウント
レジスタは、パケットの各Ｑ０／Ｑ０Ｖｉｃ、Ｑ１及び
Ｑ２チャンネル形式に対して、ハイアラーキースイッチ
１５５において現在保留となっているチャンネル形式の
パケットの数のカウントを記憶する。このカウントは、
各チャンネル形式のパケットがハイアラーキースイッチ
へ転送されるときに増加され、そしてパケットがハイア
ラーキースイッチから転送されるときに減少される。本
発明の１つの実施形態において、ハイアラーキースイッ
チ１５５は、８個の入力ソースの各々に１つのバッファ
を備えている。図１２Ａには、２つのグローバルポート
１２０ａ及び１２０ｂに対応する２つのバッファ１６０
ａ及び１６０ｂのみが示されている。本発明の１つの実
施形態では、バッファ１６０ａ及び１６０ｂの各々に少
なくとも（ｍ−１）ｘｎ個の専用スロットがあり、但
し、ｍは、バッファに専用エントリを有する仮想チャン
ネル形式の数に対応し、そしてｎは、バッファを共用す
るノードの数に対応する。図１２Ａの実施形態におい
て、各バッファは、８個のエントリを有する。エントリ
のうちの５つは、一般的エントリであり、グローバルポ
ート１３５から送られたパケットの形式を記憶すること
ができる。残りの３つのエントリの各々は、特定形式の
パケットを専用に記憶し、即ち１つのエントリは、Ｑ０
／Ｑ０Ｖｉｃパケットを専用に記憶し、１つのエントリ
は、Ｑ１形式パケットを専用に記憶し、そして１つのエ
ントリは、Ｑ２形式パケットを専用に記憶する。

【００７３】専用エントリがバッファ１６０ａ及び１６
０ｂの固定位置に存在するものとして示されているが、
実際には、バッファのいずれの位置も専用のバッファ位
置であり、即ちエントリの位置に拘わりなく、パケット
の各特定形式ごとにバッファには常に１つの専用エント
リがある。ハイアラーキースイッチは、更に、各バッフ
ァ１６０ａ及び１６０ｂに対し、専用カウンタ１６２ａ
及び１６２ｂと、フラグレジスタ１６３ａ及び１６３ｂ
とを含む。図１２Ａの実施形態において、専用カウンタ
１６２ａは、４つのエントリを有し、その３つは、バッ
ファ１６０ａに現在記憶されているＱ０／Ｑ０Ｖｉｃ、
Ｑ１及びＱ２パケットの数を記憶するためのもので、そ
して１つは、バッファに使用される一般的エントリの数
のカウントを記憶するためのものである。フラグレジス
タは、３つのビットを含み、各ビットは、パケットのＱ
０／Ｑ０Ｖｉｃ、Ｑ１及びＱ２形式の１つに対応し、そ
して関連する専用カウントがゼロであるかどうか（即
ち、その形式のパケットの専用エントリが使用されたか
どうか）を指示する。従って、フラグレジスタの値は、
その形式の少なくとも１つのパケットがバッファに記憶
されたことを指示する１であるか、又はその形式のパケ
ットがバッファに記憶されないことを指示する０であ
る。

【００７４】更に、ハイアラーキースイッチ１５５は、
各バッファ１６０ａ及び１６０ｂに対し、トランシット
カウント１６４ａ及び１６４ｂを各々含む。トランシッ
トカウントは、各ソースに対して、所与のデータサイク
ル中にトランシット状態であるいずれかの形式の保留中
パケットの数を維持する。所与のデータサイクル中にト
ランシット状態にあるパケットの数は、ハイアラーキー
スイッチとグローバルポートとの間の流れ制御待ち時間
に直接関係している。流れ制御信号は、ハイアラーキー
スイッチからグローバルポートへ送られて、ハイアラー
キースイッチへのデータの送信を停止するようにグロー
バルポートに通知する。流れ制御待ち時間（Ｌ）は、ハ
イアラーキースイッチによる流れ制御信号のアサート
と、グローバルポートによるデータ送信の停止との間に
生じるデータ転送サイクルの数として測定される。

【００７５】又、ハイアラーキースイッチは、各バッフ
ァ１６８ａ及び１６８ｂの書き込みを制御するための書
き込み制御ロジック１６６ａ及び１６６ｂも備えてい
る。この書き込み制御ロジックは、ライン１６８ａに
「流れ制御」信号をそしてライン１６８ｂに「確認（Ａ
ＣＫ）」信号＜３：０＞をアサートすることにより関連
バッファへのデータの流れを制御する。「流れ制御」及
びＡＣＫ信号は、各データ転送サイクルに送信される。
上記のように、「流れ制御」信号は、接続されたグロー
バルポートによるパケットデータの送信を停止するのに
使用される。ライン１６８ｂのＡＣＫ信号＜３：０＞
は、パケットの専用形式の各々に対して１ビットを含
み、そして接続されたグローバルポートに、その形式の
パケットが関連バッファから解放されたことを通知する
のに使用される。従って、ＡＣＫ信号は、グローバルカ
ウントにより、専用カウンタ１３６の値を増加するのに
使用される。

【００７６】書き込み制御ロジックは、バッファの使用
可能な全ての一般的エントリが、ハイアラーキースイッ
チへのトランシット状態にある考えられる全てのパケッ
トを受け入れるのに充分でないと決定されたときに、流
れ制御をアサートする。使用可能な一般的スロットの数
は、次の式Ｉにより決定することができる。式Ｉ： Generic count＝（バッファサイズ）−（バッファに使
用される一般的エントリの数）−（非アサートフラグの
数）使用可能な一般的エントリの数が決定されると、式ＩＩ
が真である場合に、流れ制御信号がアサートされる。式ＩＩ： Generic Count＝（トランシットカウント）＊（バッフ
ァを使用するノードの数）従って、書き込み制御ロジック１６６は、使用中の一般
的及び専用のスロットの数、トランシットカウント及び
全バッファサイズを監視し、「流れ制御」信号をいつア
サートすべきかを決定する。

【００７７】「流れ制御」信号をアサートしても、ソー
スノードのグローバルポートによる全ての送信は停止さ
れない。グローバルポートは、専用パケット形式に対応
する専用スロットがハイアラーキースイッチのバッファ
に使用できる場合に、専用パケットデータをハイアラー
キースイッチに常に転送する。従って、専用カウンタに
おけるいずれかの専用カウントの値がゼロに等しい場合
には、グローバルポートは、常に、対応する専用パケッ
ト形式のパケットデータを転送することができる。従っ
て、バッファに専用エントリを設けることにより、ハイ
アラーキースイッチを通る１つの形式のパケットの進行
が、そのスイッチを通る他のパケットの進行によって左
右されないように効果的に保証される。バッファ１６０
ａ及び１６０ｂに専用及び一般的なスロットを使用する
ことにより、各パケット形式ごとに最小数のスロットを
指定するだけでよい。トランシット状態のパケットの数
を追跡することにより、流れ制御を微細な粒度で行うこ
とができる。バッファの利用性及びバスの帯域巾の両方
が最大にされる。例えば、Ｘの一般的スロットしか使用
できないときには、流れ制御が１サイクル放棄され、そ
して次のサイクルに再アサートされる。その結果、Ｘま
でのメッセージを時間周期内に受け取ることができる。

【００７８】図１２Ｂは、ハイアラーキースイッチへデ
ータを供給するためにグローバルポートにより使用され
る方法を示すフローチャートである。このプロセスは、
１つの形式のパケットについて説明するが、他の形式の
パケットにも容易に拡張できる。ステップ１６９では、
ハイアラーキースイッチ１５５へ供給すべきパケットが
バッファ１３５ａ−１３５ｄの１つに存在するかどうか
ＧＳアービター１３４において決定される。パケットが
ある場合には、ステップ１７１において、「流れ制御」
信号の状態がアービター１３４により評価される。「流
れ制御」信号がアサートされる場合には、ステップ１７
２において、ハイアラーキースイッチにより送られるべ
きパケットの特定形式に対する専用カウントを検査し
て、それがゼロに等しいかどうか決定される。専用カウ
ントがゼロに等しくない場合には、その形式のパケット
に対するバッファ内の専用エントリが既に使用中であ
り、プロセスはステップ１７０へ戻り、そのパケット形
式の専用カウントがゼロに等しくなるまで又は流れ制御
信号がデアサートされるまで、ステップ１６９、１７１
及び１７２間をループする。ステップ１７２において専
用カウントがゼロに等しいと決定された場合には、ステ
ップ１７３において、ＧＰアービター１３４は、適当な
選択信号をマルチプレクサ１６７へアサートし、所望の
パケットをハイアラーキースイッチ１５５へ送信する。
ステップ１７４において、パケットの選択された形式に
対応する専用カウントがグローバルポートの専用カウン
トレジスタ１３４及びハイアラーキースイッチ１５５の
専用カウントレジスタ１６２ａにおいて増加され、そし
てフラグレジスタ１６３ａの関連フラグがアサートされ
る。

【００７９】上記のように、フラグレジスタ１６３ａ
は、一般的カウント及びトランシットカウントと共に使
用されて、次のデータサイクルに対する「流れ制御」信
号の状態を決定する。図１３には、ハイアラーキースイ
ッチによる「流れ制御」信号のアサートを制御するため
のプロセスの一実施形態が示されている。ステップ１７
５において、フラグレジスタ１６３ａが検査されて、ゼ
ロに等しい専用カウントエントリの数が計数される。上
記のように、ゼロの数は、「流れ制御」がアサートされ
た後であってもバッファに接続された各ノードにより送
られる潜在的な専用パケットの数を指示する。従って、
図１１の例においていずれのノードについても専用スロ
ットが全く使用されない場合には、フラグレジスタの全
てのエントリがゼロに等しくなり、従って、専用パケッ
トのために指定されねばならないバッファ位置が３つあ
ることを指示する。

【００８０】フラグレジスタ１６３ａの値が検査された
後、ステップ１７６において、使用可能な全一般的スロ
ットが上記式Ｉを用いて決定される。次いで、ステップ
１７７において、各ノードのトランシットカウントが決
定される。上述したように、トランシットカウントは、
所与のデータサイクル中にグローバルポートとハイアラ
ーキースイッチとの間でトランシット状態にあるメッセ
ージの数を示す。最悪の場合のトランシットカウント
は、流れ制御の待ち時間ＬにバッファＮを使用するノー
ドの数を乗じたものに等しい。しかしながら、本発明の
１つの実施形態によれば、トランシットカウントの決定
には、「流れ制御」信号が手前のサイクル中にアサート
されたかどうかが考慮される。上記のように、「流れ制
御」信号が手前のサイクルにアサートされた場合には、
グローバルポートとハイアラーキースイッチとの間でト
ランシット状態となるパケットはない。例えば、手前の
Ｊ個の周期中に「流れ制御」がゼロであった場合には、
ＪｘＮ個までのメッセージがトランシット状態となる。
しかしながら、Ｊ−１個の手前のデータサイクル中に
「流れ制御」信号がゼロであった場合には、（Ｊ−１）
ｘＮ個のメッセージのみがトランシット状態となる。

【００８１】従って、本発明の１つの実施形態では、ソ
ース（グローバルポート）と行先（ハイアラーキースイ
ッチ）との間の全待ち時間を検査すると共に、手前のデ
ータサイクルにおけるソースと行先との間の相互作用を
検査することにより、トランシット状態のパケットの数
がインテリジェントに決定される。各ノードに対するト
ランシットカウントが決定された後に、ステップ１７８
において、上記の式ＩＩを用いて保留中の専用パケット
及びトランシット状態のパケットを受け入れるに充分な
使用可能な一般的エントリがバッファにあるかどうかの
判断がなされる。使用可能な一般的パケットの全数が、
トランシット状態にあるパケットの数にバッファを共用
するノードの数を乗じた値より少ない場合には、ステッ
プ１７８において、「流れ制御」信号がグローバルポー
ト１２０ａにアサートされ、ハイアラーキースイッチ１
５５へのデータの供給が阻止される。しかしながら、全
カウントが、潜在的に受け取られるパケットの数をバッ
ファ１６０ａで受け入れできることを指示する場合に
は、「流れ制御」信号がアサートされず、プロセスは、
次のデータサイクルのためにステップ１７５へ復帰す
る。

【００８２】従って、トランシット状態にあるメッセー
ジの数と、流れ制御信号がアサートされた手前のサイク
ルの数とを追跡することにより、流れ制御は、グローバ
ルポートをハイアラーキースイッチに接続するデータリ
ンクの利用性が最大となるよう確保するように微同調さ
れる。図１１ないし１３に示すバッファ書き込み制御
ロジック及び方法は、ノードからハイアラーキースイッ
チへのデータの送信に関して説明したが、本発明は、こ
のような構成に限定されるものではないことに注意され
たい。むしろ、本発明の１つの実施形態は、共通の受信
器に信号供給する多数のソースがありそして停滞を回避
する必要があるいかなる環境にも使用できる。

【００８３】チャンネル順序付け制約をサポートするハ
イアラーキースイッチの機構：ハイアラーキースイッチ
からのデータの読み取りは、本質的に、パケットの順序
と、パケット間のデータ依存性との両方が維持されるよ
うに入力バッファから多数の出力ソースへデータを供給
することを含む。上述したように、パケットは種々のチ
ャンネルに供給される。異なるチャンネルにおいてパケ
ットに関連するのは、ある順序付け制約即ち依存性であ
る。本発明の１つの実施形態では、１つの順序付け制約
は、Ｑ１チャンネルの全てのパケットが順序正しく維持
されることである。別のパケット順序付け依存性は、優
先順位の高いチャンネルを進行するパケットが、優先順
位の低いチャンネルを進行するパケットによって阻止さ
れてはならないことであり、チャンネルの優先順位は、
最も高いものから最も低いものへ、Ｑ２、Ｑ１、Ｑ０、
Ｑ０Ｖｉｃ及びＱＩＯである。順序の維持は、以下に述
べる種々の技術を用いてＳＭＰ全体にわたり達成され
る。ハイアラーキースイッチにおいては、データ依存性
及びＱ１チャンネル順序付けを満足するよう確保するた
めに３つの基本的なガイドラインに従う。これらのガイ
ドラインは、次の通りである。

【００８４】ガイドライン１：所与のハイアラーキース
イッチ入力ポートに受け取られた多数のＱ１パケットが
共通の出力ポートをターゲットとする場合には、Ｑ１パ
ケットは、それらが入力ポートに現れたのと同じ順序で
出力ポートに現れる。ガイドライン２：ハイアラーキースイッチにおいて多数
の入力ポートからのＱ１パケットが共通の出力ポートへ
マルチキャスティングされるときには、Ｑ１パケット
は、それらがターゲットとする全ての出力ポートに同じ
順序で現れる。ガイドライン３：ハイアラーキースイッチの多数の入力
ポートからのＱ１パケットの順序付けリストが多数の出
力ポートをターゲットとするときには、Ｑ１パケット
は、全ての到来するＱ１パケットの単一の共通の順序付
けに合致するように出力ポートに現れる。各出力ポート
は、共通の順序付けリストにおける幾つかの又は全ての
パケットを送信することができる。

【００８５】コヒレンス性の目的で全体的なシステム順
序を維持するのに加えて、スイッチから出力されるパケ
ットを、アドレス及びデータバスの性能が完全に実現さ
れるように順序付けすることも望まれる。例えば、図１
４は、ＨＳリンク１７０のアドレス及びデータバス構造
の利用を示すタイミング図である。ＨＳリンク１７０
は、２対の単一方向性アドレス及びデータバスによりマ
ルチプロセッサノード１００の各々に接続される。デー
タバスは、５１２ビットのデータパケットを搬送し、そ
してアドレスバスは、８０ビットのアドレスパケットを
搬送する。データパケットの送信は、アドレスパケット
の送信の２倍のサイクル数を必要とする。書き込みコマ
ンドのようなあるコマンドは、アドレス及びデータパケ
ットの両方を含む。例えば、図１４において、アドレス
パケット１７９ａは、データパケット１７９ｄに対応す
る。各コマンドがアドレス及びデータパケットの両方を
含む場合には、アドレスバスの１つおきのアドレススロ
ットがアイドル状態となる。しかしながら、読み取りコ
マンドのような多数のコマンドは、アドレスパケットし
か含まず、データパケットを転送するためのデータバス
のスロットを必要としない。従って、全体的なシステム
性能を向上するためには、データ部分及びアドレス部分
の両方が「パック」され、即ちＨＳリンクのアドレス及
びデータ部分の各考えられるタイムスロットにアドレス
及びデータが存在するような順序でバスから送出すべき
パケットを選択するスイッチを有するのが好ましい。ア
ドレス及びデータがＨＳリンクにおいて「パック」され
るときには、ＨＳリンクが最適に利用される。

【００８６】多数の入力ポートを経て多数のソースから
データを同時に受け取りそして多数の出力ポートを経て
多数の行先へデータを供給できる一方、データ依存性を
満足し、システム順序を維持し、そしてデータ転送レー
トを最大にすることのできるハイアラーキースイッチを
実施するための種々の実施形態が提供される。これらの
種々の実施形態を、図１５ないし１８を参照して説明す
る。図１５には、上記順序付け制約を実施することので
きるスイッチ１８１の１つの実施形態が示されている。
図１１について述べたように、スイッチ１５５は、複数
のバッファ１６０ａ−１６０ｈを含む。入力バッファの
各々は、１書き込みポート／８読み取りポートバッファ
であり、８個の各入力の１つからパケットを受け取るよ
うに接続される。又、スイッチは、８個の出力ポートも
含むが、１つの出力ポート、即ち出力ポート＜０＞のみ
に対するロジックが示されている。残りの出力ポートに
対するロジックも同様であり、明瞭化のために、ここで
は詳細に述べない。

【００８７】本発明の１つの実施形態では、各バッファ
の各エントリは、バッファのエントリに記憶されるパケ
ットのチャンネルを識別するチャンネルフィールド１８
５を含む。更に、各エントリは、一連のリンクインデッ
クス１８６を含む。各リンクインデックスは、入力バッ
ファ１６０ａ−１６０ｈのエントリの１つに対するイン
デックスである。これらのリンクインデックスは、パケ
ット順序付け制約に基づきバッファ１６０ａから同じチ
ャンネルを経て次々のパケットをアクセスするためのリ
ンクリストアドレス構造体を形成するのに使用される。
３つのリンクインデックスＬ１、Ｌ２及びＬ３が各エン
トリと共に含まれ、各リンクインデックスは、３つまで
の順序付けリストの１つにおけるエントリの位置を識別
する。又、各エントリは、依存性フラグ１８９も含む。
依存性フラグは、チャンネル間の依存性をマークするの
に使用される。依存性フラグＦ１は、対応するエントリ
のパケットがＱ１、ＱＩＯ又はＱ０Ｖｉｃチャンネルを
進行するパケットである場合にセットされる。依存性フ
ラグＦ２は、対応するエントリのパケットがＱ０又はＱ
０Ｖｉｃチャンネルを進行するパケットである場合にセ
ットされる。依存性フラグは、パケットの処理順序を次
のように維持する上で助けとなる。

【００８８】概念的に、受け取ったパケットは、Ｑ２チ
ャンネル待ち行列、合成Ｑ１／ＱＩＯ／Ｑ０Ｖｉｃチャ
ンネル待ち行列、合成Ｑ０／Ｑ０Ｖｉｃチャンネル待ち
行列、Ｑ０Ｖｉｃチャンネル待ち行列及びＱＩＯ待ち行
列を含む５つの順序付けされた待ち行列に分割される。
従って、パケットは、２つ以上の待ち行列に含まれる。
ヘッドポインタは、各待ち行列ごとに１つのポインタ１
８７ａ−１８７ｅを含む。ヘッドポインタは、その待ち
行列に対応するバッファにおける次のパケットを識別す
るバッファ１６０ａ−１６０ｈのインデックスを与える
のに使用される。従って、ヘッドポインタ１８７は、Ｑ
２ヘッドポインタ１８７ａ、Ｑ１／ＱＩＯ／Ｑ０Ｖｉｃ
ヘッドポインタ１８７ｂ、Ｑ０／Ｑ０Ｖｉｃヘッドポイ
ンタ１８７ｃ、Ｑ０Ｖｉｃヘッドポインタ１８７ｄ及び
ＱＩＯヘッドポインタ１８７ｅを含む。パケットが入力
バッファに最初に書き込まれるときには、それが１つ以
上の順序付けされた待ち行列に入れられる。１つ以上の
順序付けされた待ち行列に入れられるときには、１つ以
上の依存性フラグ１８９がアサートされる。チャンネル
の形式及び依存性フラグが検査されて、チャンネル依存
性を満足するように出力すべきバッファの適当なエント
リが選択される。

【００８９】８個の入力バッファ１６０ａ−１６０ｈ各
々の各エントリは、マルチプレクサ１８２へ送られる。
マルチプレクサ１８２は、マネージャー１８０からの選
択信号に応答して入力バッファの１つからパケットの１
つを選択する。マネージャー１８０は、入力バッファ１
６０ａ−１６０ｈの６４個の考えられる読み取りポート
からのエントリを関連出力ポートの出力として選択す
る。マネージャー１８０は、全体的なシステム順序及び
チャンネル依存性が満足されるようにパケットを選択す
る。入力バッファ１６０ａ−１６０ｈの１つにパケット
が受け取られるときには、エントリのチャンネルフィー
ルドにチャンネル形式が書き込まれ、そしてそのエント
リの関連フラグがフラグフィールド１８９においてアサ
ートされる。上述したように、入力バッファの各エント
リごとに、３つのリンクインデックスがあり、その各々
は、３つの順序付けされた待ち行列の１つに対応する。
本発明の１つの実施形態では、パケットを３つの異なる
出力ポートにマルチキャスティングするために多数のリ
ンクインデックスが使用される。マルチキャスティング
されるべきパケットが入力バッファに記憶されるときに
は、それが２つ以上のリンクされたリストに入れられ、
リンクされたリストの各々は、異なる出力ポートに対応
する。その結果、異なる出力ポートに関連する出力マネ
ージャーは、各々、異なるリンクリストインデックスを
用いて同じ入力バッファエントリにアクセスすることが
できる。

【００９０】上述したように、リンクインデックス値
は、バッファ１６０ａ−１６０ｈにおいて対応する形式
の次のパケットをアドレスするためのバッファインデッ
クス値である。従って、リンクインデックス値は、対応
する形式のその後のパケットがバッファに書き込まれる
まで書き込まれない。その後のパケットがバッファに書
き込まれるときには、その後のパケットのアドレスが手
前のパケットのリンクインデックスに書き込まれ、これ
により、そのチャンネル形式の次のパケットのインデッ
クスを与える。各エントリは、３つの考えられるリンク
インデックスフィールドを含むので、手前のエントリに
アドレスを書き込むのに加えて、２ビットフィールド
（図示せず）がアドレスと共に記憶され、順序付けリス
トを構成するために３つのリンクインデックスの適当な
１つをエントリで識別できるようにする。

【００９１】マネージャー１８０は、出力ポートへ供給
するためにバッファ１６０ａ−１６０ｈのパケットの１
つを次のように選択する。上述したように、ヘッドポイ
ンタ１８７ａ−１８７ｅは、各待ち行列の最上部に対応
するバッファインデックスを記憶する。所与のチャンネ
ルに対するパケットを処理するときに、マネージャー
は、対応するヘッドポインタにより指示されたエントリ
を選択する。１つ以上のフラグ１８９がセットされ、そ
して高い優先順位のチャンネルに関連した待ち行列のパ
ケットが処理されていない場合には、パケットは、その
待ち行列内のより優先順位の高い全ての手前のパケット
が処理されるまで処理されない。例えば、出力マネージ
ャーがＱ０形式のパケットを処理する場合に、Ｑ１／Ｑ
ＩＯ／Ｑ０Ｖｉｃ及びＱ０／Ｑ０Ｖｉｃヘッドポインタ
で指示されたエントリを検査する。パケットがＱ０チャ
ンネルパケットであるが、Ｑ１パケットの処理がまだ完
了していない場合には、エントリは処理されない。パケ
ットの処理は、チャンネルＱ１又はＱ０パケットが既に
処理されたことを指示する処理フラグ（図示せず）を各
フラグＦ１及びＦ２と共に与えることにより指示され
る。高い優先順位のチャンネルを有する待ち行列におけ
る全てのパケットの処理が行われると（処理フラグによ
り指示される）、そのエントリに関連したパケットは自
由に処理される。

【００９２】あるエントリが処理のために選択される
と、マネージャーは、そのエントリが存在する待ち行列
に関連したヘッドポインタをバッファインデックスとし
て選択する。バッファインデックスはマルチプレクサ１
８２へ送られ、そしてバッファエントリが出力ポートへ
送られる。リンクインデックスはヘッドポインタへ返送
され、そしてヘッドリストポインタがその待ち行列の次
のパケットのバッファインデックスで更新される。従っ
て、図１５のスイッチ実施形態は、リンクリストデータ
構造体、順序付けされた待ち行列及びフラグを用いて、
出力ポートへパケットを与え、全体的なシステム順序が
維持されるようにする。更に、多数のリンクインデック
スを含むリンクリストデータ構造体は、マルチキャすと
パケット順序付けルールに固執しながらパケットをマル
チキャスティングするための簡単な機構を形成する。

【００９３】従って、図１５の実施形態は、フラグ及び
順序付けされた待ち行列を使用して、チャンネルの順序
が維持されるようにする。図１６には、所定の順序依存
性に基づいて出力データを与えることのできるスイッチ
の第２の実施形態が示されている。図１６の実施形態で
は、スイッチの各出力ポートに対してバッファ２００が
設けられる。バッファ２００は、入力パケット受信経路
２０１を経てバッファ１６０ａ−１６０ｈ（図１１）の
各々から入力を受け取るように接続され、入力バッファ
からのパケットは、パケットの行先に基づいて出力ポー
トの適当なバッファへ送られる。本発明の１つの実施形
態では、バッファは、コラップス(collapsing)ＦＩＦＯ
として実施されるが、当業者に知られた他のバッファア
ーキテクチャｘを使用することもできる。

【００９４】バッファ２００は、スイッチから送出され
るべき種々のパケットを記憶するように示されている。
バッファ２００は、ここでは、５つの異なるチャンネル
Ｑ０、Ｑ１、Ｑ２、Ｑ３及びＱ４を経て送信されるパケ
ットを記憶する。チャンネルＱ０−Ｑ４は、上記のチャ
ンネルＱ０、Ｑ１、Ｑ２、Ｑ０Ｖｉｃ及びＱＩＯと同様
ではない。むしろ、これらは、単にスイッチの出力動作
を示すためにのみ使用される。従って、パケットＱ０−
Ｑ４は、異なるチャンネルにおける一般的パケットを表
わし、チャンネルの依存性は、図１６Ａの流れ図におい
て矢印に基づいて定められる。図１６Ａにおいて、ある
チャンネルから別のチャンネルへ向けられた矢印は、第
１チャンネルのパケットが出力ポートへ送られず、一
方、第１チャンネルのパケットの前に受け取られた第２
チャンネルのパケットは、スイッチによる処理が保留中
であることを指示する。例えば、図１６Ａにおいて、チ
ャンネルＱ０のパケットは、チャンネルＱ３のパケット
の処理に依存するように示されており、従って、チャン
ネルＱ０のパケットは、チャンネルＱ３のパケットを
「プッシュ」したと言える。図１６Ａの流れ図に示され
た付加的な依存性は、チャンネルＱ１のパケットがチャ
ンネルＱ２及びＱ３のパケットをプッシュしたことを指
示する。この場合も、図１６Ａの流れ図で表わされた依
存性は、既に述べたＱ０、Ｑ１、Ｑ２、Ｑ０Ｖｉｃ及び
ＱＩＯチャンネルの依存性を表わすものではないことに
注意されたい。以下に述べるように、Ｑ０、Ｑ１、Ｑ
２、Ｑ０Ｖｉｃ及びＱＩＯチャンネルにおけるパケット
の依存性は複雑であり、従って、バッファ２００の動作
を容易に説明するために、一般的パケット及び依存性が
与えられる。

【００９５】上述したように、入力パケットは、スイッ
チの入力バッファ１６０ａ−１６０ｈの各々に正しい順
序で受け取られ、そしてそのパケットにより指示された
行先に基づいて、バッファ２００のような出力バッファ
に正しい順序で供給される。各出力バッファの各パケッ
トエントリ、例えば、エントリ２００ａは、パケットの
送信及び受信ノードを指示するソース及び行先フィール
ドと、パケットが送信されるチャンネルを指示するチャ
ンネルフィールドと、一連のビット２０６ａ−２０６ｅ
とを備えている。一連のビット２０６ａ−２０６ｅは、
ハイアラーキースイッチを経てパケットを供給する各チ
ャンネルごとに１ビットを含む。例えば、図１６の実施
形態では、一連のビットは、チャンネルＱ０、Ｑ１、Ｑ
２、Ｑ３及びＱ４の各々について１ビットを含む。

【００９６】出力ポートに対して入力パケット受信経路
に接続された書き込み制御ロジック２０５は、受信パケ
ットのチャンネルに基づくと共に、図１６Ａの流れ依存
性図に示されたチャンネル間の依存性に基づいて一連の
ビットの各々の設定を制御する。又、以下に詳細に述べ
るように、書き込み制御ロジックは、静的又は動的に依
存性を確認することによりビットを更新することができ
る。依存性を静的に確認するときには、チャンネルに対
して定められた依存性が、バッファ内の他のパケットに
拘わりなく適用される。依存性を動的に確認するときに
は、チャンネルの依存性が、バッファ２００内の他のパ
ケットのチャンネル及びアドレス行先を考慮して適用さ
れる。一連のビットの各々には、対応するサーチエンジ
ン２０８ａ−２０８ｅが接続される。各サーチエンジン
は、ビットの関連列をサーチして、列セットの対応ビッ
トを有するバッファ２００のエントリを選択する。選択
されたエントリは、各列（又はチャンネル）ごとに、一
連の信号Ｓ４−Ｓ０により出力バッファマネージャー２
０２へ指示される。チャンネル間の既知のデータ依存性
に関連してサーチエンジンの各々により受信された選択
信号を用いて、出力バッファマネージャーは、グローバ
ルポート出力に供給するために出力バッファ２００から
のパケットの１つを選択する。

【００９７】動作中に、入力パケット受信経路２０１を
経てパケットが受信されるときに、パケットのチャンネ
ルは、書き込み制御ロジック２０５により評価され、そ
して一連のビット２０６ａ−２０６ｅのうちの、そのチ
ャンネルに対応するビットがアサートされる。図１６に
おいて、パケットの形式を指示するためにセットされた
ビットは、「丸内のＸ印」で示され、そしてこれはチャ
ンネル識別子フラグと称する。従って、図１６では、パ
ケット１がＱ３形式のパケットである。図１５の実施形
態によれば、エントリのチャンネルを指示するビットを
アサートするのに加えて、そのチャンネルのパケットが
プッシュするところの各チャンネルに対してビットが付
加的にアサートされる。これらビットの各々は、依存性
フラグと称され、図１６に「Ｘ」で示されている。それ
故、Ｑ０チャンネルパケットであるパケット２の場合
に、Ｑ３チャンネルパケットに関連したビットが付加的
にアサートされる。というのは、図１６Ａの流れ図に示
されるように、Ｑ０パケットがＱ３パケットをプッシュ
するからである。

【００９８】パケットがバッファ２００に記憶され、そ
してそれらの関連する一連のビット２０６ａ−２０６ｅ
がアサートされるときには、ビットの各列に関連したサ
ーチエンジン２０８ａ−２０８ｅの各々が、ビットセッ
トを有するバッファ内の第１エントリを選択する。それ
故、サーチエンジン２０８ａの選択値は、パケット２を
指し、サーチエンジン２０８ｂの選択値は、パケット３
を指し、等々となる。Ｓ０−Ｓ４信号は、マネージャー
２０２に送られる。マネージャー２０２は、サーチエン
ジンによる選択信号のアサートに応答するのに加えて、
システムに存在する依存性に応答して、パケットの１つ
を選択する。例えば、本発明の１つの実施形態によれ
ば、チャンネルＱ０にあるパケット２のようなパケット
は、チャンネルＱ０のサーチエンジン（２０８ａ）及び
チャンネルＱ３のサーチエンジン（２０８ｄ）の両方が
同じパケットを選択しない限り、スイッチから送出され
ない。従って、多数のフラグが所与のパケットに対して
セットされたときに、マネージャー２０２は、セットさ
れたフラグに対応するサーチエンジンの両方がその所与
のパケットを選択しない限り、出力に対してそのパケッ
トを選択しない。

【００９９】本発明の別の実施形態によれば、サーチエ
ンジンが、その依存性フラグがセットされたためにエン
トリを選択した場合に、サーチエンジンは、依存性フラ
グをクリアしそしてバッファを下方に進んで、依存性フ
ラグ又は認識フラグがセットされた次のエントリを選択
することができる。このような構成では、サーチエンジ
ンが他のチャンネルによりストールされて処理を保留に
することがないので、パケットの処理が改善される。依
存性を識別するために多数のフラグをアサートする作用
は、パケットがスイッチを経て伝播するときにパケット
の全体的なシステム順序を維持する上で助けとなる。例
えば、図１６において、Ｑ０パケットとＱ３パケットと
の間の関係は、Ｑ０チャンネルパケットが実行の前に各
手前のＱ３チャンネルパケットをプッシュすることであ
る。従って、Ｑ３チャンネルパケットの後に受け取られ
たＱ０チャンネルパケットは、Ｑ３パケットの前に実行
されてはならない。パケット１は、パケット２のＱ０チ
ャンネルパケットの前に受け取られるＱ３チャンネルパ
ケットである。パケット２に対してビット２０６ｄをセ
ットすることにより、パケット２のＱ０パケットがパケ
ット１のＱ３パケットの前に出力ポートに発生されない
よう確保することができる。というのは、マネージャー
２０８は、Ｓ３及びＳ０の両方がパケット２への信号を
選択するまでＱ０パケットを選択しないからである。Ｓ
３値は、パケット１が処理されるまでパケット２を指さ
ない。その結果、所与のチャンネルのパケットによりプ
ッシュされた各パケットごとにビットをアサートするこ
とにより、所与のチャンネルによりプッシュされたパケ
ットが処理されるまでチャンネルが効果的に阻止され
る。その結果、全体的なシステム順序が維持される。

【０１００】上記のように、図１６のバッファ制御ロジ
ックは、静的又は動的な依存性を確認するように動作さ
れる。静的な依存性とは、図１６Ａの流れ図で示された
ような依存性である。動的な依存性は、バッファ内の２
つのパケット間に静的な依存性が実際に存在するかどう
かを決定するためにバッファの内容を評価することによ
り確認される。静的な依存性は、メモリデータがＳＭＰ
においてコヒレンス性を失わないよう確保する順序付け
ルールを形成するのに使用される。しかしながら、デー
タのコヒレンス性は、パケットがメモリデータの同じブ
ロックをアクセスする場合にしか影響されない。それ
故、動的な依存性は、バッファに既にあるパケットの行
先アドレスを検査することによってバッファの内容を微
細な粒度で検査して、異なるチャンネルの２つのパケッ
ト間に依存性が実際に存在するかどうか決定する。

【０１０１】バッファ２００内のパケット間の依存性を
動的に確認する１つの効果は、バッファ内のパケットを
処理するのに必要な時間を短縮することである。例え
ば、上記のパケット１及びパケット２の動作を使用する
と、Ｑ０パケット２及びＱ３パケット１が同じアドレス
にマップしない場合には、何ら問題なく、Ｑ０パケット
をＱ３パケットの前に処理することができる。手前のＱ
３パケットの処理を待機する際に受ける遅延時間が排除
され、これにより、ＳＭＰシステムの全体的な性能が改
善される。例えば、図１７は、依存性を動的に確認する
ことによるプロセスへのパケットの選択動作を示すフロ
ーチャートである。ステップ２２０において、パケット
がバッファ２００に受け取られる。ステップ２２２にお
いて、パケットのチャンネルに対するビットが書き込み
制御ロジック２０５により一連のビット２０６において
セットされる。ステップ２２４において、バッファ２０
０に記憶された手前のパケットが検査されて、パケット
がプッシュするところのチャンネルのパケットがメモリ
の同じブロックにあるかどうか決定される。それらがメ
モリの同じブロックにある場合には、ステップ２２６に
おいて、パケットがプッシュするところのチャンネルに
あり且つ同じメモリブロックに存在するパケットに対応
するビットがアサートされる。従って、パケット２に対
して図１６の例を使用すると、パケット形式Ｑ３に対す
るビットは、パケット１がパケット２と同じメモリブロ
ックをアクセスする場合だけアサートされる。従って、
依存性を動的に確認することにより、全体的なシステム
性能を向上しながらメモリコヒレンス性を維持すること
ができる。

【０１０２】図１８には、全体的なシステム順序を維持
しながら、多数の入力ソースから受け取ったデータを多
数の出力ソースへ出力する方法の別の実施形態が示され
ている。図１８の実施形態は、図１６の場合と同様の要
素を含むように示されている。しかしながら、図１８の
書き込み制御ロジック２０９は、パケットの依存性を異
なるやり方で分析することにより一連のビット２０６ａ
−２０６ｅの各々を更新する。図１６の場合のように、
パケットが関連チャンネルのものであることを指示する
ために、一連のビットの１つが各パケットごとにセット
される。しかしながら、チャンネルがプッシュするとこ
ろのチャンネルの全てのパケットに対して付加的なビッ
トをセットするのではなく、そのチャンネルのパケット
をプッシュするところのチャンネルのパケットに対して
ビットがセットされる。

【０１０３】従って、図１８の実施形態は、チャンネル
識別フラグをセットするのに加えて、そのパケットによ
りマスク又は阻止された全てのチャンネルに対して付加
的なビットがセットされる。例えば、図１８の例におい
て、パケット１は、Ｑ３チャンネルパケットである。Ｑ
３チャンネルのパケットは、図１８Ａの依存性流れ図に
示すようにＱ３パケットが実行されるまで、Ｑ１及びＱ
０パケットの実行を阻止する。従って、ビット２０６
ｄ、２０６ｂ及び２０６ａがパケット１に対してセット
される。しかしながら、パケット２は、他のパケットの
実行を阻止しないＱ０パケットである。その結果、ビッ
ト２０６ｂのみがパケット２に対してセットされる。従
って、図１８のスイッチ実施形態は、依存性を静的に確
認することによりシステム順序を維持しながら出力ポー
トへデータを供給する別の方法を提供する。図１８のバ
ッファ実施形態は、依存性を動的に確認するようには使
用できないことに注意されたい。というのは、そのよう
にするには、データがバッファ２００に書き込まれる前
にデータのアドレスを知る必要があるからである。しか
しながら、ここに述べる静的及び動的な方法は、全て、
パケット間の依存性を満足するよう確保するために使用
できる。

【０１０４】従って、多数の入力ポートを経て多数のソ
ースからデータを同時に受け取りそして多数の出力ポー
トを経て多数の行先へデータを供給できる一方、データ
依存性を満足し、システム順序を維持し、そしてデータ
転送レートを最大にすることのできるスイッチの３つの
実施形態が説明された。１つの実施形態では、フラグを
記憶する多数の待ち行列の使用により順序付け依存性が
達成されそして依存性を識別するように待ち行列が選択
されるリンクリストバッファ機構が説明された。第２お
よび第３の実施形態では、スイッチの入力バッファから
データを正しい順序で受け取る出力バッファが、ある形
式のパケットを阻止するのに使用される一連のビットを
備えていて、データ依存性及びコヒレンス性制約を満足
するように確保する。全ての実施形態において、潜在的
な依存性の競合をマークするためにセットされるフラグ
を含む順序付け待ち行列の使用により、順序付け依存性
が追跡される。フラグの順序付けリストを用いて依存性
を識別することにより、バスの利用性を最大にしながら
順序を維持し且つコヒレンス性を確保するためにマネー
ジャーにより実行されるオペレーションの複雑さが簡単
化される。

【０１０５】キャッシュコヒレンスプロトコル本発明の１つの実施形態におけるキャッシュコヒレンス
プロトコルは、書き込み無効化所有権をベースとするプ
ロトコルである。「書き込み無効化」とは、プロセッサ
がキャッシュラインを変更するときに、他のプロセッサ
キャッシュにおける効力のないコピーを無効化すること
を意味し、新たな値でそれらを更新するのではない。こ
のプロトコルは、システム内のメモリであるかプロセッ
サ又はＩＯＰの１つであるかに拘わりなくキャッシュラ
インに対する識別可能な所有者が常に存在するので、
「所有権プロトコル」と称される。キャッシュラインの
所有者は、必要なときにキャッシュラインの最新の値を
供給する責任がある。プロセッサ／ＩＯＰは、キャッシ
ュラインを「独占的に」又は「共用して」所有すること
ができる。プロセッサがキャッシュラインの独占的所有
権を有する場合には、システムに通知せずにそれを更新
することができる。さもなくば、システムに通知し、そ
して他のプロセッサ／ＩＯＰキャッシュのコピーを潜在
的に無効化しなければならない。

【０１０６】キャッシュコヒレンスプロトコルの詳細な
説明に入る前に、ハイアラーキーネットワークに使用さ
れる全通信手順について最初に説明する。図７Ａについ
て述べたように、大型のＳＭＰシステム１５０は、スイ
ッチ１５５を経て互いに接続された多数のノードを含
む。各ノードにおける各プロセッサは、メモリのデータ
にアクセスするコマンドを発生する。これらのコマンド
は、ソースノード内で完全に処理することもできるし、
又はアドレス及び要求の形式に基づいてシステムの他の
ノードへ送信することもできる。アドレススペースは、
メモリスペース及びＩＯスペースに分けられる。プロセ
ッサ及びＩＯＰは、専用キャッシュを使用して、メモリ
スペースアドレスのみに対するデータを記憶し、そして
ＩＯスペースデータは、専用キャッシュには記憶されな
い。従って、キャッシュコヒレンスプロトコルは、メモ
リスペースコマンドのみに関連している。

【０１０７】キャッシュコヒレンスプロトコルの重要な
要素は、ロード及び記憶動作をシリアル化する解決策で
ある。キャッシュコヒレンスプロトコルは、各メモリア
ドレスＸへの全てのロード及び記憶に順序を課さねばな
らない。この順序は、Ｘへの全ての「記憶」が順序付け
されるものであり、即ち、第１記憶、第２記憶、第３記
憶、等々とならねばならない。第ｉ番目の記憶は、（Ｉ
−１）番目の記憶により決定されたようにキャッシュラ
インを更新する。更に、各ロードには最新の記憶が関連
され、そこからロードはキャッシュラインの値を得る。
この順序をここでは「ロード−記憶シリアル化順序」と
称する。ここに述べるプロトコルの特性は、アドレスＸ
に対するホームＡＲＢバスが、Ｘへの全てのロード及び
記憶に対する「シリアル化ポイント」であることであ
る。即ち、Ｘへの要求がＸのホームＡＲＢバスに到着す
る順序は、対応するロード及び記憶がシリアル化される
順序である。大型のＳＭＰシステムに対するほとんどの
公知のプロトコルは、この特性を有しておらず、従っ
て、効率が悪く、複雑である。

【０１０８】図２に示す小型のＳＭＰノードシステムに
は、１つのＡＲＢバスがある。このバスは、小型ＳＭＰ
における全てのメモリロード及び記憶に対するシリアル
化ポイントである。ＡＲＢバスに接続されたＤＴＡＧ
は、小型ＳＭＰのプロトコルに必要とされる全ての状態
を捕獲する。大型のＳＭＰシステムでは、ホームＡＲＢ
バスのＤＩＲがプロトコルに対するおおよその状態を捕
獲し、ＴＴＴ及びＤＴＡＧは、より微細なレベルにおけ
る状態情報を捕獲する。要求ＲがホームＡＲＢバスに
到着すると、ＤＩＲ、ＤＴＡＧ及びＴＴＴ状態が検査さ
れ、他のプロセッサへの調査コマンド及び／又はソース
プロセッサへの応答コマンドを発生することができる。
更に、ＤＩＲ、ＤＴＡＧ及びＴＴＴの状態が要求Ｒの
「シリアル化」を反映するように自動的に更新される。
従って、要求アドレスがＲのアドレスに等しく且つ要求
Ｒの後にホームＡＲＢに到着する要求Ｑは、ロード−記
憶シリアル化順序においてＲの後に現れる。

【０１０９】その結果、ホームＡＲＢバスは、メモリア
ドレスへの全ての要求に対し「シリアル化ポイント」と
定義される。各メモリアドレスＸに対し、対応する要求
（ＲｄＭｏｄ又はＣＴＤ）がホームＡＲＢバスに到着す
る順序で記憶が見掛け上実行される。アドレスＸへのロ
ードは、ホームＡＲＢにおいて最後にシリアル化された
記憶Ｘに対応するＸのバージョンを得る。以下に述べ
るキャッシュコヒレンスプロトコルの前書きにおいて、
「システム」という用語は、プロセッサ及びＩＯＰを除
く大型ＳＭＰの全ての要素を指す。プロセッサ及びシス
テムは、「コマンドパケット」又は単に「コマンド」を
送信することにより互いに対話する。コマンドは、要
求、調査及び応答の３つの形式に分類される。プロセッ
サによりシステムに発生されるコマンド及びシステムに
よりプロセッサに発生されるコマンドは、所与のプロセ
ッサのメモリシステムインターフェイスに基づく。ＳＭ
Ｐの動作を説明する目的上、デジタル・イクイップメン
ト・コーポレーションからのＡｌｐｈａ（登録商標）シ
ステムインターフェイスの定義に基づいて発生される要
求及びコマンドについて説明するが、他の形式のプロセ
ッサも使用できることを理解されたい。

【０１１０】要求は、ロード又は記憶動作を実行する結
果として、データのコピーを得なければならないときに
プロセッサにより発生されるコマンドである。又、要求
は、システムからのデータの断片に対して独占的な所有
権を得るのにも使用される。要求は、読み取りコマン
ド、読み取り／変更（ＲｄＭｏｄ）コマンド、ダーティ
への変更コマンド、ビクティムコマンド、及びエビクト
(Evict）コマンド（データのキャッシュラインが各キャ
ッシュから除去される場合）を含む。調査(Probe）コマ
ンドは、データ及び／又はキャッシュタグ状態更新を要
求する１つ以上のプロセッサへシステムにより発生され
るコマンドである。調査コマンドは、送信読み取り(For
warded Read)（ＦＲｄ）コマンド、送信読み取り変更(F
orwarded Read Modify）（ＦＲｄＭｏｄ）コマンド、及
び無効化コマンドを含む。プロセッサＰがシステムへの
要求を発生するときには、システムは、１つ以上の調査
コマンドを他のプロセッサへ発生しなければならない。
Ｐがキャッシュラインのコピーを要求する（読み取り要
求で）場合には、システムは、所有者プロセッサ（もし
あれば）へ調査コマンドを送信する。Ｐがキャッシュラ
インの独占的所有権を要求する（ＣＴＤ要求で）場合に
は、システムは、キャッシュラインのコピーをもつ１つ
以上のプロセッサへ無効化調査コマンドを送信する。Ｐ
がキャッシュラインのコピー及びキャッシュラインの独
占的所有権の両方を要求する（ＲｄＭｏｄ要求で）場合
には、システムは、データのキャッシュラインのダーテ
ィコピーを現在記憶しているプロセッサにＦＲｄコマン
ドを送信する。ＦＲｄコマンドに応答して、キャッシュ
ラインのダーティコピーがシステムに返送される。又、
送信読み取り変更（ＦＲｄＭｏｄ）コマンドも、キャッ
シュラインのダーティコピーを記憶しているプロセッサ
にシステムにより発生される。ＦＲｄＭｏｄに応答し
て、ダーティキャッシュラインがシステムに返送され、
そしてキャッシュに記憶されたダーティコピーが無効化
される。キャッシュラインを別のプロセッサにより更新
すべきときには、キャッシュラインのコピーをキャッシ
ュに記憶しているプロセッサに、システムにより無効化
コマンドが発生される。

【０１１１】応答は、プロセッサにより要求されたデー
タ又は要求に対応する確認を搬送するシステムからプロ
セッサ／ＩＯＰへのコマンドである。読み取り及びＲｄ
Ｍｏｄコマンドの場合に、応答は、各々要求されたデー
タを搬送するＦｉｌｌ又はＦｉｌｌＭｏｄコマンドであ
る。ＣＴＤコマンドの場合に、応答は、ＣＴＤの成功又
は失敗を指示するＣＴＤ成功又はＣＴＤ失敗コマンドで
ある。ビクティムコマンドの場合には、応答がビクティ
ム−リリースコマンドである。図１９には、要求と要求
との間の関係、及び個々のプロセッサにおける対応キャ
ッシュラインの状態を説明するためのテーブルが示され
ている。又、図１９は、キャッシュラインの要求及び状
態の各々に対して得られる調査形式のコマンドも示して
いる。カラム３００及び３００ａは、プロセッサにより
発生される要求を示し、カラム３０５及び３０５ａは、
システムの他のプロセッサにおけるキャッシュの状態を
示し、そしてカラム３２０及び３２０ａは、システムに
より発生される調査コマンドを示す。

【０１１２】図１９のテーブルは、プロセッサＡと称す
るプロセッサがシステムに要求を発生することを仮定し
ている。プロセッサＡのコマンドは、次いで、プロセッ
サＢと称する１つ以上の他のプロセッサと相互作用す
る。プロセッサＡによりアドレスされるキャッシュライ
ンが、ＤＴＡＧ及び／又はディレクトリ情報を用いて決
定されたプロセッサＢのキャッシュに記憶される場合に
は、プロセッサＢのキャッシュ状態が、プロセッサＢへ
調査コマンドを発生する必要があるかどうか及びどんな
形式の調査コマンドを発生すべきかを決定する。以下、
コヒレンスプロトコル及び機構について詳細に述べる。
コマンドパケットがとる経路、各コマンド形式に対する
状態情報のソース、及びそれにより生じるアクションが
含まれる。全てのコマンドは、プロセッサ又はＩＯＰか
ら発生され、ＩＯＰの発生プロセッサは「ソースプロセ
ッサ」と称する。要求に含まれるアドレスは、「要求ア
ドレス」と称する。アドレスの「ホームノード」は、そ
のアドレススペースが要求アドレスをマップするところ
のノードである。要求は、ソースプロセッサが要求アド
レスのホームノードである場合は「ローカル」と称し、
さもなくば、「グローバル」要求と称する。ホームノー
ドのＡＲＢバスは、「ホームＡＲＢバス」と称する。
「ホームディレクトリ」は、要求アドレスに対応するデ
ィレクトリである。従って、ホームディレクトリ及びメ
モリは、要求アドレスに対するホームＡＲＢバスに接続
される。

【０１１３】プロセッサ又はＩＯＰから発せられるメモ
リ要求は、先ず、ホームＡＲＢバスにルート指定され
る。この要求は、それがローカルである場合にはローカ
ルスイッチを経てルート指定され、それがグローバルで
ある場合にはハイアラーキースイッチを経て送られる。
後者の場合には、ローカルスイッチ及びＧＰリンクを横
断してＧＰに達し、次いで、ＨＳリンクを経てハイアラ
ーキースイッチへ至り、次いで、ＧＰ及びホームノード
のローカルスイッチを経てホームＡＲＢバスへ至る。グ
ローバル要求は、ソースノードのＡＲＢバスに最初に現
れず、むしろ、ＧＰリンクを経てＨＳに直接ルート指定
されることに注意されたい。公知のプロトコルでは、グ
ローバル要求は、それが別のノードへ送出される前にソ
ースノードの状態をアクセスする。本発明は、グローバ
ル要求をＨＳへ直接発生することによりグローバル要求
の平均待ち時間を短縮する。

【０１１４】図２０Ａ−２０Ｊは、多数の基本的なメモ
リトランザクションを例示するフローチャートである。ローカル読み取り：図２０Ａにおいて、ソースプロセッ
サ３２０からホームＡＲＢバスへ要求が送られる。ディ
レクトリ３２２は、どのプロセッサがメモリブロックを
所有するか決定する。ローカルメモリ３２３が所有者で
ある場合には、「短い記入」コマンドがホームＡＲＢバ
スからソースプロセッサ３２０へ発生される。

【０１１５】グローバル読み取り：図２０Ｂにおいて、
ノード３２５のプロセッサ３２０が、「ホーム」がノー
ド３２６にあるメモリのキャッシュラインへ読み取りを
発生すると仮定する。（グローバル）読み取りコマンド
は、ライン３２７で示された経路を経てスイッチ３２４
を通り「ホーム」ＡＲＢバス及びディレクトリ３２１へ
ルート指定される。ノード３２６のメモリ３３０がキャ
ッシュラインの所有者である場合には、「短い記入応
答」を発生するノード３２６によりノード３２６からノ
ード３２５へデータが返送される。キャッシュラインが
別のプロセッサ／ＩＯＰにより現在所有されている場合
には、要求されたキャッシュラインを得るために異なる
ステップが取られる。図２０Ｃを参照すれば、プロセッ
サ３２０が、「ホーム」がノード３２６にあるメモリの
キャッシュラインへ読み取りを発生する場合には、読み
取りは、再び、経路３２７を経てホームＡＲＢバス及び
ディレクトリ３２１へルート指定される。ディレクトリ
３２１のエントリは、上述したように、メモリの各キャ
ッシュラインに対し、所有者情報を含む１４ビットの状
態情報を備えている。所有者情報は、この場合に、所有
者をノード３２８におけるプロセッサ３４２として識別
する。ノード３２８が要求されたキャッシュラインを所
有するというディレクトリの指示に応答して、２つの事
象が生じる。第１に、「ホーム」ノードであるノード３
２６は、ライン３２９で示すように、所有者プロセッサ
３４２へ「送信読み取り」調査を発生する。同時に、ホ
ームノード３２６は、ライン３３１で示すように、プロ
セッサ３２０へ「記入マーカー」応答を送信する。「記
入マーカー」応答の役割は、以下で説明する。

【０１１６】「送信読み取り」に応答して、プロセッサ
３４２は、「記入」コマンドをプロセッサ３２０へ発生
し、「記入」コマンドは、当該キャッシュラインを含
む。「読み取り」要求に対するこの形式の応答は、デー
タ返送に対して一連の３つのコマンドを必要とするの
で、「長い記入」と称される。従って、「読み取り」ト
ランザクションは、メモリからの応答である「短い記
入」と、所有者プロセッサからの応答である「長い記
入」の２つの形式に分割することができる。ローカルＲｄＭｏｄ：図２０Ｄを参照すれば、ローカル
読み取り変更トランザクションは、（１）キャッシュラ
インの現在バージョンのコピーを得ている全てのプロセ
ッサに無効化調査が送られ、そして（２）ＦＲＭｏｄ及
びＦｉｌｌＭｏｄｓが、Ｆｒｄｓ及びＦｉｌｌｓに代わ
って所有者に送られる点を除くと、ローカル読み取りト
ランザクションと同様に働くことが明らかである。図
２０Ｄ図において、ホームノードのディレクトリは、ロ
ーカルプロセッサ又はメモリがブロックを所有すること
を示す。ホームＡＲＢバスにおいて、ディレクトリ３２
２は、ブロックの現在バージョンを得ている全ての外部
ノードを識別する。無効化コマンドは、ＨＳ３２４へ送
られ、全ての当該ノードはマルチキャストベクトルで識
別される。ＨＳは、ベクトルで識別された全てのノード
へ無効化メッセージをマルチキャストする。無効化メッ
セージは、各ノードにおいてＡＲＢバスへ進み、そこ
で、ＤＴＡＧは、それらを更にフィルタし、キャッシュ
ラインの現在バージョンを有すると識別されたプロセッ
サ又はＩＯＰのみへ無効化調査を送信する。

【０１１７】グローバルＲｄＭｏｄ：図２０Ｅを参照す
れば、読み取り変更トランザクションは、図２０Ａ及び
２０Ｂについて述べた読み取りトランザクションと同様
に作用することが明らかである。読み取り変更（ＲｄＭ
ｏｄ）コマンドは、先ず、プロセッサ３２０からキャッ
シュラインのホームＡＲＢ及びホームディレクトリ３２
１へルート指定される。ホームノードであるノード３２
６のメモリがキャッシュラインを記憶する場合には、要
求されたデータを含む「短い記入変更」コマンドがノー
ド３２６からプロセッサ３２０へ送られる。ディレクト
リ３２１は、このトランザクションの結果として更新さ
れる。「読み取り変更」コマンドは、プロセッサ３２０
が、キャッシュラインの内容を変更できるようにキャッ
シュラインの独占的所有権を要求することを指示する。
それ故、「短い記入変更」コマンドに加えて、ノード３
２６は、キャッシュラインの現在バージョンのコピーを
得ている他の全てのプロセッサに「無効化」コマンドを
発生する。ＤＩＲは、１つ以上のプロセッサがキャッシ
ュラインの現在バージョンのコピーを得ているノードを
識別する。ＤＩＲの存在ビットは、この情報を含む。Ｄ
ＴＡＧは、キャッシュラインのコピーを得ている全ての
ホームノードプロセッサを識別する。各々のＤＩＲ存在
ビットがセットされた全てのノードに「無効化」が送信
される。「無効化」を受信する各ノードにおいて、ＤＴ
ＡＧをアクセスして、どのプロセッサがキャッシュライ
ンのコピーを現在記憶するかを決定する。「無効化」
は、これらのプロセッサのみに送られる。ＩＯＰタグ
は、ＩＯＰがコピーを有するかどうか決定するのに使用
され、もしそうであれば、ＩＯＰは「無効化」調査も受
け取る。

【０１１８】要求を発しているプロセッサ以外のプロセ
ッサが所有者である場合には、ホームノードは、「記入
変更マーカー」、「送信読み取り変更」及びゼロ以上の
「無効化」を１つのコマンドとして発生する。スイッチ
において、コマンドは、全ての行先ノードにマルチキャ
ストされる。各行先ノードにおいて、コマンドは、その
要素に分離され、各ノードのグローバルポートは、各ノ
ードにおいてどんなアクションをとるべきかを決定す
る。上記の例では、「送信読み取り変更」がプロセッサ
３４２により処理され、そして「記入変更マーカー」が
プロセッサ３２０により処理される。更に、ＤＴＡＧエ
ントリに基づき、ホームノード、「記入変更マーカー」
を受け取るノード、及び「送信変更」を受け取るノード
において「無効化」が実行される。「送信読み取り変
更」に応答して、ダーティデータが「長い記入変更」コ
マンドを経てプロセッサ３４２からプロセッサ３２０へ
送られる。

【０１１９】従って、「読み取り変更」コマンドは、２
つ又は３つのノード接続即ち「ホップ」を実行すること
ができる。本発明の１つの実施形態では、読み取り型コ
マンド（「読み取り」及び「読み取り変更」）のみが３
つのホップを生じ、但し、第３のホップは「記入」型コ
マンド（「記入」又は「記入変更」）である。しかしな
がら、本発明は、以下に述べる追加コマンドを仮想チャ
ンネル待ち行列に適当に割り当てることにより３つ以上
のホップを必要とする他のトランザクションも含むよう
に容易に変更できる。ＣＴＤ：図２０Ｇ及び２０Ｈには、クリーン−ダーティ
（ＣＴＤ）及び無効化−ダーティ（ＩＴＤ）の基本的な
流れが示されている。図２０Ｇでは、クリーン−ダーテ
ィは、ホームノードにおいてプロセッサ３２０からディ
レクトリ３２１へ発生される。プロセッサ３２０が更新
を希望するところのクリーンキャッシュラインが現在の
ものであるか効力を失ったものであるかに基づいて、
「確認」コマンド（ＡＣＫ）又は「非確認」（ＮＡＣ
Ｋ）コマンドのいずれかがプロセッサ３２０へ返送され
る。対応的に、ＣＴＤは成功又は失敗と言える。更に、
ＣＴＤが成功の場合にデータのキャッシュラインのコピ
ーをもつものとしてディレクトリ３２１の存在ビットに
より指示された全てのノードに「無効化」が送られる。

【０１２０】図２０Ｈに示すように、ＩＴＤコマンド
は、ＣＴＤと実質的に同様に働く。しかしながら、ＩＴ
Ｄは決して失敗とならない。ＡＣＫが常にプロセッサ３
２０に送られ、そしてデータのキャッシュラインのコピ
ーを記憶するシステムの他のノードには「無効化」が送
られる。ローカル及びグローバル書き込みビクティム：上記のよ
うに、書き込みビクティムコマンドは、ダーティデータ
をプロセッサのキャッシュから適当なホームメモリへ返
送する。図２０Ｉ及び２０Ｊを参照すれば、書き込みビ
クティムの流れは、「ホーム」メモリが書き込みビクテ
ィムを発生するプロセッサと同じノードであるかどうか
に基づいて若干異なることが明らかである。図２０Ｉに
示すように、「ホーム」ノードがプロセッサのノードで
ある場合には、プロセッサ３２０が書き込みビクティム
を発生し、そしてデータは、同じノードのメモリへ直接
送られる。

【０１２１】しかしながら、図２０Ｊに示すように、ビ
クティムデータがプロセッサとは異なるホームにある場
合には、データが２つの段階で転送される。第１に、ビ
クティムキャッシュラインがプロセッサ３２０のキャッ
シュ（又はビクティムバッファ）から送出され、そして
プロセッサノードのグローバルポートにおけるビクティ
ムキャッシュ（図６の要素１２４）に記憶される。ビク
ティムキャッシュは、「ビクティムリリース」信号でプ
ロセッサに応答し、プロセッサがそのビクティムバッフ
ァエントリを再使用できることを指示する。次いで、ス
イッチに使用可能な帯域巾が存在するときには、ビクテ
ィムデータは、「書き込みビクティム」コマンドにより
ビクティムキャッシュからホームプロセッサのメモリへ
送られる。

【０１２２】ソースプロセッサＰによりホームメモリに
送られたビクティムデータは、それがメモリに到達する
ときまでに効力を失うことがあることに注意されたい。
このような場合に、ビクティムは、「失敗」と言われ、
ホームメモリは更新されない。このようなケースは、Ｐ
がキャッシュラインの所有権を獲得するときと、Ｐのビ
クティムがホームディレクトリに到着するときとの間の
インターバルに別のプロセッサがキャッシュラインの所
有権を獲得したときに生じる。このような場合には、Ｐ
のビクティムがホームＡＲＢに到達する前に、キャッシ
ュラインに対する「無効化」又は「ＦｒｄＭｏｄ」調査
をプロセッサＰに送信しなければならない。ビクティム
データをメモリに書き込まねばならないかどうか決定す
るために、「書き込みビクティム」コマンドがホームＡ
ＲＢバスに現れるときに、要求されたアドレスに対する
ディレクトリエントリがルックアップされる。ソースプ
ロセッサが依然としてキャッシュラインの所有者である
ことをディレクトリが指示する場合には、ビクティムが
成功となり、メモリを更新する。さもなくば、失敗とな
り、メモリは更新しない。いずれにせよ、ディレクトリ
３２１においてビクティムに対して判断がなされると、
「ビクティムＡＣＫ」コマンドがノード３２５のグロー
バルポートに返送され、ビクティムキャッシュは関連エ
ントリをクリアすることができる。

【０１２３】この設計の１つの実施形態では、ＤＴＡＧ
を使用して、「書き込みビクティム」コマンドがローカ
ルである場合に「書き込みビクティム」コマンドの成功
又は失敗を判断する。この特定の例（ローカル「書き込
みビクティム」要求の例）では、ＤＴＡＧ及びＤＩＲの
両方が「書き込みビクティム」要求の成功又は失敗を決
定するに必要な情報を与えることができる。ＤＴＡＧ
は、単にＤＴＡＧをベースとする機構が小型のＳＭＰノ
ードハードウェアに対して既に設けられているという理
由でＤＩＲに代わって使用される。キャッシュコヒレン
スプロトコルの上記説明では、最も一般的な動作及びコ
マンド形式について述べた。これら機構は、以下に詳細
に説明する。上記のように、本発明の１つの実施形態で
は、２つ以上の関連メッセージパケットを効率化のため
に１つに結合することができる。結合されたパケット
は、次いで、ＨＳ又はノードのＡＲＢバスにおいてその
成分に分割することができる。例えば、ＨＳへのＦｒｄ
Ｍｏｄメッセージは、所有者プロセッサをもつノードへ
のＦｒｄＭｏｄメッセージと、キャッシュラインのコピ
ーをもつノードへの「無効化」メッセージと、ソースノ
ードへのＦｉｌｌＭａｒｋｅｒＭｏｄメッセージとに分
割される。所有者プロセッサノードへのＦｒｄＭｏｄ
は、ノードのＡＲＢバスにおいて、所有者プロセッサへ
のＦｒｄＭｏｄメッセージと、ノードの他のプロセッサ
へのゼロ以上の「無効化」メッセージとに更に分割され
る。

【０１２４】ビクティムコヒレンス性を維持するための
遅延書き込みバッファ動作：図２０Ｉ及び２０Ｊについ
て上述したように、ホームメモリに送られるビクティム
データは、「書き込みビクティム」がホームＡＲＢに到
達する前に受け取られるキャッシュラインに対し「無効
化」又はＦｒｄＭｏｄ調査が介在する結果としてそれが
到着するときまでに効力を失うことがある。ビクティム
データをメモリに書き込まねばならないかどうかを決定
する１つの方法は、各書き込みビクティムコマンドに対
してディレクトリエントリをルックアップすることであ
る。ビクティム書き込みコマンドを発生するプロセッサ
がダーティ所有者であることをディレクトリが指示する
場合には、ビクティムを進めることが許されねばならな
い。さもなくば、失敗となってしまう。この方法が望ま
しい理由は、プロセッサとシリアル化ポイントとの間の
ビクティム書き込みコマンドを、シリアル化ポイントと
プロセッサとの間の調査コマンドと一致させるための複
雑な比較論理構造体の必要性が回避されるからである。

【０１２５】この解決策は、データコヒレンス性の維持
を簡単化するが、メモリ帯域巾が減少するという形態の
性能欠陥を生じさせる。この構成によれば、システムが
ビクティム書き込みコマンドを実行するたびに、先ず、
ディレクトリ状態をアクセスし、次いで、その状態を評
価し、そして最終的に、その状態に基づいて、ビクティ
ムデータのＤＲＡＭ書き込みを実行しなければならな
い。メモリ及びディレクトリは原子的にアクセスされる
ので、公知の設計方法に基づいてシステムがシステムが
設計された場合に、全ビクティム書き込みサイクルは、
ディレクトリルックアップ時間と、状態評価時間と、Ｄ
ＲＡＭ書き込み時間との和に等しくなる。このようなシ
ステムは、全ビクティムサイクルがＤＲＡＭ書き込みの
みで構成されるシステムに対して甚だしい性能上の不利
益をこうむる。

【０１２６】本発明の１つの実施形態は、メモリの各バ
ンクに遅延書き込みバッファを設けることにより、この
メモリバンク利用低下問題を克服する。ビクティム書き
込みがメモリシステムへ発生されるたびに、メモリシス
テムは、次の機能を並列に実行することにより応答す
る。即ち、ビクティム書き込みデータをターゲットメモ
リバンクの遅延書き込みバッファに記憶しそしてそのブ
ロックを「非書き込み可能」又は「無効」と表示し、ビ
クティム書き込みに関連したディレクトリ状態をアクセ
スし、そして現在ビクティム書き込みに代わって、「書
きこみ可能」又は「有効」と表示された既にバッファさ
れたビクティム書き込みのＤＲＡＭ書き込みを実行す
る。ディレクトリアクセスが完了したときに、ビクティ
ム書き込みに関連したディレクトリ状態が、ビクティム
書き込みが成功したことを示す場合には、ビクティムが
存在する遅延書き込みバッファが「書き込み可能」又は
「有効」状態へと移行する。遅延書き込みバッファにお
けるデータブロックの「書き込み可能」又は「有効」状
態は、バッファのデータが、ＤＲＡＭメモリに記憶され
たバージョンよりも最新のキャッシュラインのバージョ
ンであることを指示する。バッファが「書き込み可能」
又は「有効」と表示された場合には、そのデータが、メ
モリシステムへのビクティム書き込みのその後に発生に
よりＤＲＡＭへ書き込まれる。

【０１２７】既に発生されたビクティム書き込みのＤＲ
ＡＭ書き込みと並列にディレクトリルックアップを実行
することにより、この実施形態は、全ビクティムサイク
ル時間を単一のＤＲＡＭ書き込み時間に減少する。この
実施形態は、「書き込み可能」な又は「有効」なデータ
ブロックを多数のサイクルにわたり遅延書き込みバッフ
ァに保持し、そのサイクル中にバッファされたブロック
へのその後の参照をメモリへ発生することができるの
で、遅延書き込みバッファは、連想アドレスレジスタを
備えている。ビクティム書き込みブロックのアドレス
は、その関連データが遅延書き込みバッファに記憶され
るのと同時に連想アドレスレジスタに記憶される。その
後の参照がメモリシステムへ発生されるときには、メモ
リシステムは、アドレスレジスタに対するアドレス一致
により遅延書き込みバッファにおけるアドレスブロック
を識別する。これは、メモリシステムが、ＤＲＡＭメモ
リの効力を失ったデータに代わってバッファからの最新
のデータで遅延書き込みバッファのブロックへの全ての
参照にサービスすることを意味する。

【０１２８】ビクティムデータの遅延書き込みバッファ
動作を与える上記技術は、ＤＴＡＧ状態を直接含まずに
ＤＴＡＧ状態を使用してデータブロックの有効性を決定
するスヌーピーバスをベースとするシステムにも使用で
きる。図２１を参照すれば、遅延書き込み動作を与える
メモリ制御システムの１つの実施形態は、ディレクトリ
１４０からライン１４０ａを経てＯｗｎｅｒＭａｔｃ
ｈ信号を受け取るように接続されたメモリコントローラ
３３２を含むように示されている。更に、メモリコント
ローラ３３２は、ディレクトリに入力されるコマンドを
追跡するためにＱＳＡＲＢ１１（ディレクトリ１４０
にも信号供給する）からも入力を受け取る。メモリコン
トローラ３３２は、遅延書き込みバッファ３３６を含
む。遅延書き込みバッファ３３６の各エントリは、デー
タ部分３３６ａと、フラグ部分３３６ｂと、アドレス部
分３３６ｃとを含む。本発明の１つの実施形態におい
て、設計上の複雑さを最小限にするために、遅延書き込
みバッファは、１つのアドレス、データ及びフラグエン
トリのみを保持するが、本発明は、このような構成に限
定されるものではない。

【０１２９】遅延書き込みバッファは、次のように動作
する。動作中に、コマンド、アドレス及びデータがＡＲ
ＢＢＵＳ１３０を経て受け取られると、それらはディ
レクトリ１４０及びメモリコントローラ３３２へ送られ
る。メモリコントローラ３３２は、コマンド、アドレス
及びデータを書き込みバッファ３３６に１トランザクシ
ョン周期中（ここでは１８クロックサイクル中）記憶す
る。トランザクション周期中に、ディレクトリ１４０が
アクセスされ、そしてアクセスの結果がＯＷＮＥＲＭ
ＡＴＣＨライン１４０ａにアサートされる。ＯＷＮＥＲ
ＭＡＴＣＨラインは、メモリの更新を求めるプロセッ
サのプロセッサＩＤが実際にデータのキャッシュライン
の所有者であることをディレクトリエントリが指示する
場合にアサートされる。ＯＷＮＥＲＭＡＴＣＨ信号
は、遅延書き込みバッファエントリ３３６のフラグ３３
６ｂをセットするのに使用される。次に続くトランザク
ション周期中に、メモリバスが使用できそしてフラグ３
３６ｂがアサートされた場合には、メモリ３３４に記憶
データが書き込まれる。本発明の１つの実施形態では、
書き込み動作のみがバッファされ、到来する読み取り動
作は、遅延なくメモリバスをアクセスすることが許され
る。遅延書きこみバッファに記憶されたビクティムデー
タへのその後の読み取り動作は、遅延書きこみバッファ
からサービスされる。

【０１３０】図２２は、遅延書き込み動作のタイミング
図である。時間Ｔ０に、読み取り０動作がＡＲＢＢＵ
Ｓに受け取られる。この読み取り動作は、ＤＲＡＭ３３
４をアクセスするためにメモリへ直ちに伝播される。時
間Ｔ１に、書き込み１動作がＡＲＢＢＵＳに受け取ら
れる。このＴ１サイクル中に、ディレクトリ１４０がア
クセスされ、そしてＴ１サイクルの終わりに、書き込み
１アドレスの一致を示すＯＷＮＥＲＭＡＴＣＨ信号が
アサートされる。その結果、遅延書き込みバッファエン
トリのフラグ３３６ｂがセットされる。時間Ｔ２に、読
み取り２動作が受け取られ、書き込み１動作の前にメモ
リへ送られる。時間Ｔ３の間に、書き込み１動作に対応
するフラグがアサートされた場合に、次の書き込み３動
作が遅延書き込みバッファに受け取られると、書き込み
１動作がＤＲＡＭ３により処理するためにメモリに送ら
れる。

【０１３１】ローカルメモリの読み取りについては、遅
延書き込みバッファのフラグビットをセットするのにＤ
ＴＡＧも使用できることに注意されたい。ローカルメモ
リからのキャッシュラインの１つをローカルノードにお
けるプロセッサのキャッシュの１つに記憶することがで
きる。プロセッサの１つがキャッシュラインをビクティ
ム化しそしてキャッシュラインが遅延書き込みバッファ
に書き込まれたときに、そのキャッシュラインのＤＴＡ
Ｇエントリを検査して、キャッシュラインがプロセッサ
の１つに常駐したかどうか決定することができる。キャ
ッシュラインがプロセッサの１つに常駐した場合には、
ＤＴＡＧエントリの有効ビットを検査して、プロセッサ
がビクティム化するコピーが有効であることを確保す
る。ＤＴＡＧにヒットがありそしてキャッシュラインが
有効であった場合には、ＤＴＡＧが遅延書き込みバッフ
ァのフラグをセットし、キャッシュラインをローカルメ
モリに書き込みさせる。これは、簡単なスヌーピーバス
をベースとする（即ちディレクトリのない）システムが
この同じ簡単なアルゴリズムを適用できるようにする。

【０１３２】従って、図２１のメモリ制御ロジックは、
読み取り動作を読み取りサイクルにおいて直ちに実行す
ることができそして書き込み動作を各書き込みサイクル
に実行できるようにする（たとえ遅延書き込みであって
も）。その結果、ディレクトリのアクセスにより遅延を
こうむることなくデータの定常流がＤＲＡＭに送られ、
そしてコヒレンス性を維持しながら性能が高められる。
遅延書き込みバッファ技術は、ビクティム書き込み動作
に関連して説明したが、メモリ性能を改善するためにコ
ヒレンス状態が集中され且つ一定保持されるようないか
なるシステムにも使用することができる。

【０１３３】仮想チャンネル：従って、キャッシュコヒ
レンスプロトコルを実施するために、プロセッサと、デ
ィレクトリと、メモリと、ＤＴＡＧとの間に多数のメモ
リ参照が送信されることが明らかである。更に、各メモ
リ参照は、多数のトランザクション即ちホップをノード
間に備え、メモリ参照のためのメッセージは、参照全体
が完了する前に転送される。メッセージ間の依存性が参
照を不定に阻止する場合には、マルチプロセッサシステ
ムが停滞（デッドロック）状態となる。上記で簡単に
述べたように、本発明の１つの実施形態は、仮想チャン
ネル流れ制御を使用することにより、ノード間のトラフ
ィックをマネージしそして停滞を生じることなくデータ
コヒレンス性を維持する。仮想チャンネルは、相互接続
ネットワークに停滞のないルートを形成するために最初
に導入された。本発明の１つの実施形態によれば、仮想
チャンネルは、更に、共用メモリコンピュータシステム
のためのキャッシュコヒレンスプロトコルにおけるリソ
ース停滞を防止するのにも使用できる。

【０１３４】公知の関連するキャッシュコヒレンスプロ
トコルでは、２つの形式の解決策が使用されている。少
数のプロセッサと少数の同時保留中要求とを有するシス
テムの場合には、実行中の任意の点に生じ得る考えられ
る最大数の応答を受け入れるに足る大きさの待ち行列及
びバッファが設けられている。充分な待ち行列及びバッ
ファスペースを設けることにより、メッセージが進行の
ために別のメッセージに決して影響されないよう保証し
ている。多数の保留中要求を伴う大型のシステムでは、
考えられる最大数の応答を受け入れるに足る大きさのバ
ッファ及び待ち行列を設けることは実際的ではない。従
って、停滞検出及び分析機構に接続された２チャンネル
相互接続を使用して問題が解決される。第１に、相互接
続部（プロセッサ及びメモリのようなシステム要素間に
メッセージを移動するのに使用される論理的経路）は、
２つのチャンネル、即ち要求チャンネル（又は下位チャ
ンネル）と、応答チャンネル（又は上位チャンネル）と
を使用する。これらのチャンネルは、一般に、物理的な
ものであり、即ち個別のバッファ及び待ち行列を使用す
る。第２に、潜在的な停滞を検出するために発見的手法
が一般的に実施される。例えば、コントローラは、待ち
行列がいっぱいでありそして待ち行列からある時間中に
メッセージが出力されないときに潜在的な停滞を通知す
る。第３に、選択されたメッセージが否定的に確認され
て、リソースを解放し、他のメッセージを進行できるよ
うにする停滞分析機構が実施される。否定的な確認メッ
セージは、それに対応するコマンドをリタイアさせる。

【０１３５】上記の大型システムの解決策は、公平さ／
欠乏の問題及び性能不利益の問題を含む２つの主たる問
題を有している。あるメッセージが否定的に確認される
ので、あるコマンドが長時間完了しない（潜在的に不定
である）ことが考えられる。コマンドが所与の時間周期
内に完了するよう保証されない場合には、そのコマンド
を発生するリソースは、システムデータへの公平なアク
セスを得ることができない。更に、リソースがシステム
データへの公平なアクセスを得ることができないため
に、データに対して欠乏状態となり、潜在的にシステム
の停滞を生じさせる。更に、あるメッセージが否定的に
確認され、従って、それらの行先に到達しないので、無
効化メッセージのようなプロトコルメッセージは、それ
らが行先に首尾良く到達することを指示するための確認
を発生しなければならない。更に、コントローラは、対
応するコマンドが完了したとみなし得る前に全ての確認
が受け取られるまで待機しなければならない。この非決
定論的結果は、キャッシュコヒレンスプロトコルの全性
能を低減するようなメッセージオーバーヘッド及び余計
な待ち時間を生じさせる。

【０１３６】本発明の１つの実施形態によれば、停滞回
避に対する系統的及び決定論的解決策を採用したキャッ
シュコヒレンスプロトコルが使用される。潜在的な停滞
を検出しそして矯正動作を行うのではなく、停滞が設計
により排除される。従って、停滞検出及び分析機構の必
要性がなくなる。第２に、メッセージは、停滞回避のた
めの否定的確認ではなくなるので、「無効化」のような
プロトコルメッセージに対する確認が不要となり、それ
故、帯域巾及び待ち時間が改善される。仮想チャンネル
の使用を説明する目的で、幾つかの有用な用語について
最初に説明する。依存性：メッセージＭ２が進行しな
い限りメッセージＭ１が進行できない場合に、メッセー
ジＭ１はメッセージＭ２に「依存」すると定義する。更
に、依存性は、移行的であるとも定義する。本発明のキ
ャッシュコヒレンスプロトコルを実施する場合に、リソ
ース依存性及び流れ依存性の少なくとも２種類の依存性
がある。Ｍ２が待ち行列スロットのようなリソースを解
放するまでＭ１が進行できない場合に、Ｍ１はＭ２に
「リソース依存」すると定義する。Ｍ２が進行するまで
Ｍ１が進行しないことをキャッシュコヒレンスプロトコ
ルが必要とする場合には、Ｍ１はＭ２に「流れ依存」す
ると定義する。例えば、キャッシュコヒレンスプロトコ
ルは、ディレクトリがある状態に達するまでＭ１が阻止
状態であり、そしてディレクトリの状態を所望の値にセ
ットするのがＭ２であることを要求する。従って、Ｍ１
からＭ２へのリソース又は流れ依存性のチェーンが存在
する場合に、Ｍ１はＭ２に依存すると定義する。

【０１３７】依存性サイクル：Ｍ１の進行がＭ２の進行
に依存し；Ｍ２の進行がＭ３の進行に依存し；Ｍｋ−１
の進行がＭｋの進行に依存し；そして最終的に、Ｍｋの
進行がＭ１の進行に依存するときに、１組のメッセージ
Ｍ１、ＭＫ（≧２）の間に「依存性サイクル」が存在す
ると定義する。メッセージのあるサブセットが依存性サ
イクルを形成するときにメッセージのシステムは停滞状
態になる。Ｍ１はＭｋに依存し、Ｍｋは次いでＭ１に依
存するので、サイクル内のどのメッセージも進行するこ
とができない。ここに開示する方法及び装置は、仮想チ
ャンネルを使用して、キャッシュコヒレンスプロトコル
における停滞を決定論的に回避する。キャッシュコヒレ
ンスプロトコルの設計において必要とされるハードウェ
ア機構及び従うべき１組のルールについて説明する。

【０１３８】１つの実施形態において、キャッシュコヒ
レンスプロトコルは、全てのメモリ動作がせいぜい３段
階で完了すると定める。各段階において、システムの要
素間に１つ以上のメッセージが転送される。それ故、各
段階は、「ホップ」と称される。ホップは、０、１及び
２と番号付けされる。ホップ０では、プロセッサ又はＩ
Ｏプロセッサからの要求がホームディレクトリへ送られ
る。ホップ１では、ホームディレクトリにより発生され
たメッセージが１つ以上のプロセッサ又はＩＯプロセッ
サへ送られる。ホップ２では、メッセージが所有者プロ
セッサからソースプロセッサへ送られる。これらホップ
は、図２３に示されている。キャッシュコヒレンスプロ
トコルの顕著な特性は、全ての動作が所定数のホップ内
に完了することである。ここに示す実施形態では、所定
数が３であるが、本発明は、選択される数が比較的小さ
く且つ一貫したものである限り、特定のホップ数に限定
されるものではない。この特性は、停滞を検出しそして
停滞を解消するためのメッセージを失敗して再トライす
る機構を伴わずに、全てのメッセージをそれらの行先に
ルート指定できることを保証するための鍵である。

【０１３９】上記のように、ここに示す実施形態では、
最大ホップ数が３である。従って、システムは、各々Ｑ
０、Ｑ１及びＱ２と示された３つのチャンネルを備えて
いる。これらのチャンネルは、システム相互接続部を通
る論理的に独立したデータ経路である。これらのチャン
ネルは、物理的なものでもよいし、仮想のもの（或いは
一部分物理的で且つ一部分仮想）でもよい。物理的なも
のであるときには、各チャンネルは、システム全体にわ
たり個別の待ち行列及びバッファリソースを有する。仮
想のものであるときには、チャンネルは、待ち行列及び
バッファリソースを共用し、以下に述べる制約及びルー
ルを受ける。３つのチャンネルは、ハイアラーキーを構
成し、Ｑ０は最下位であり、Ｑ１はその次であり、そし
てＱ２は最上位のチャンネルである。システムにおける
停滞回避のための重要なルールは、チャンネルＱｉのメ
ッセージが、Ｑｉより下位のチャンネルのメッセージに
決して依存しないことである。

【０１４０】更に、本発明の１つの実施形態において、
ＩＯシステムからの応答メッセージと、ＩＯシステムか
らのメモリスペースコマンドとの間の流れ依存性サイク
ルを排除するためにＱＩＯチャンネルが追加される。最
後に、本発明の１つの実施形態では、ビクティムメッセ
ージと、ビクティムメッセージが発生されるがビクティ
ムメッセージが保留中である間に発生されるその後の依
存性メッセージとに対して、Ｑ０Ｖｉｃチャンネルが使
用される。図２０ａ−２０ｈに関連して上述したよう
に、スイッチへ発生される所与のコマンドメッセージ
は、一連の多数の個別トランザクションを発生する。本
発明の１つの実施形態において、所与のコマンドパケッ
トに対する各個別のトランザクションは、チャンネルに
割り当てられる。チャンネルは、本質的に、所与のコマ
ンドパケットの完了段階及び依存性を定義する順序付け
された構造体を形成する。

【０１４１】例えば、図２３は、図２０Ａ−２０Ｊにつ
いて述べた動作の個別トランザクションにチャンネルを
割り当てるところを示すフローチャートである。個別ト
ランザクションは、次の用語で識別される。即ち、参照
により生じる一連のトランザクションにおける第１トラ
ンザクションは、Ｑ０又はＱ０Ｖｉｃトランザクション
と称し、一連のトランザクションにおける第２トランザ
クションは、Ｑ１トランザクションと称し、そして一連
のトランザクションにおける第３トランザクションは、
Ｑ２トランザクションと称する。Ｑ０又はＱ０Ｖｉｃチ
ャンネルは、まだディレクトリを訪れていないプロセッ
サ及びＩＯＰからの初期コマンドを搬送する。従って、
Ｑ０／Ｑ０Ｖｉｃパケットの行先は、常に、ディレクト
リである。Ｑ０Ｖｉｃチャンネルは、「書き込みビクテ
ィム」コマンドに対して特に指定され、一方、Ｑ０チャ
ンネルは、プロセッサ又はＩＯＰにより開始された他の
全ての形式のコマンドを搬送する。

【０１４２】ステップ３８０で発生されるコマンドは、
データを得るか又は状態を更新しようと求める。状態
は、常に、データのアドレスに対応するホームディレク
トリで得ることができる。ステップ３８２において、ホ
ームディレクトリがアクセスされ、そして使用可能なキ
ャッシュラインがホームメモリにより所有される（ディ
レクトリに対して）か、別のプロセッサにより所有され
るかが決定される。いずれの場合にも、応答はＱ１チャ
ンネルを経て発生される。ステップ３８２において、状
態又はデータが第２ノードに得られると決定された場合
には、ステップ３８４において、Ｑ１チャンネルの応答
が第１ノードへ返送される。Ｑ１形式のトランザクショ
ンは、ＳｈｏｒｔＦｉｌｌ、ＳｈｏｒｔＦｉｌｌＭｏ
ｄ、ＶｉｃＡｃｋ、ＣＴＤ−ＡＣＫ／ＮＡＣＫ当を含
む。

【０１４３】ステップ３８２において、ホームノードが
データを所有せず、データがダーティであって別のプロ
セッサにより所有されると決定された場合には、ステッ
プ３８６において、「送信読み取り」又は「送信読み取
り変更」のＱ１形式のトランザクションがＱ１チャンネ
ルを経てリモートノードへ発生される。ダーティへと状
態変化したデータを他のノードが共用することを指示す
るホームノードの状態チェックに応答するか、又は「読
み取り変更」に応答する場合には、ステップ３８８にお
いて、無効化Ｑ１形式トランザクションがシステムの他
の当該ノードに送られる。従って、Ｑ１チャンネルは、
第２の「ホップ」におけるパケットを搬送するためのも
のであり、第１のホップはディレクトリに対するもので
ある。第２の「ホップ」の行先は、常にプロセッサであ
り、プロセッサは、元のコマンドを開始したノードにあ
るか、又はシステム内の別のリモートノードにある。

【０１４４】Ｑ２チャンネルは、「長い記入」又は「長
い記入変更」トランザクションのいずれかを搬送する。
Ｑ２チャンネルは、第３の「ホップ」による第３ノード
からのデータを、元のコマンドを開始したノードへ返送
する。Ｑ０／Ｑ０Ｖｉｃ、Ｑ１及びＱ２形式のコマンド
へのコマンドの割り当ては、ＳＭＰシステムにおいて停
滞のないメッセージ送信を確保するために次のように使
用できる。図２３のフローチャートは、４つの仮想チャ
ンネル間の対話を示すが、本発明の１つの実施形態で
は、キャッシュコヒレンス性を維持する目的で５つの仮
想チャンネルを使用することができる。その追加チャン
ネルは、ＱＩＯチャンネルである。一般に、ＱＩＯチャ
ンネルは、制御状態レジスタ（ＣＳＲ）アクセスを含む
ＩＯアドレススペースへ全ての読み取り及び書き込みを
搬送する。

【０１４５】以下のテーブルＩＩは、チャンネル経路へ
のコマンドマッピングを例示するリストである。テーブルＩＩ： QIO ＣＰＵへの全ＩＯスペース要求 RdByteIO, RdWordIO, WrByteIO, WrWordIO Q0 ＣＰＵ又はＩＯＰからの全メモリ Rd, RdMod, Fetch, CTD, スペース要求 ITD, Vic, RdVic, RdModVic Q0Vic データを転送するＣＰＵ又はＩＯ WrVic, Full Cache Line Ｐからの全メモリスペース要求 Write, QV Rd, QV RdMod, QV Fetch Q1 全送信コマンド FRd, FrdMod, Ffetch 全シャドーコマンド SFRd, SFRdMod, SFEtch, Sinval, Ssnap 短い記入 SFill, SfillMod マーカー記入の全性質 FM, FMMod, Pseudo-FM, Pseudo-DMMod, FrdMod with FM その他 CTD-ACK, CTD-NACK, ITD-ACK, Vic-ACK, VicRel IOスペース応答 IOFillMarker, IOWriteACK 関連Consig Invi-Ack, LoopComSig Q2 長い記入 Fill, FillMod IOスペース記入 IOFill スイッチをベースとするシステムにおける仮想チャンネ
ルの１つの実施形態は、各チャンネルに対して物理的に
個別の待ち行列、バッファ又は経路を使用することを含
む。或いは又、待ち行列、バッファ又はデータ経路は、
チャンネル間で共用されてもよく、従って、真の「仮
想」であってもよい。本発明の１つの実施形態では、こ
れら技術の組み合わせを使用して、ハードウェアの最適
な使用がなされる。

【０１４６】図２４には、２つ以上の仮想チャンネル間
で単一バッファをいかに共用するかが示されている。バ
ッファ４００は、多数の「スロット」を含むように示さ
れている。各スロットは、１つのチャンネルのみにより
専用に使用される。例えば、スロット４０２は、Ｑ２型
コマンドに専用の多数のバッファエントリを含み、スロ
ット４０４は、Ｑ１型コマンドに専用の多数のバッファ
エントリを含み、等々となる。残りのスロット４１０
は、いずれのチャンネルについても、メッセージにより
使用することができ、それ故、「共用」又は「一般的」
スロットと称される。各チャンネルについてビジー信号
が与えられる。ビジー信号は、バッファがそれ以上のメ
ッセージを記憶できず、それ故、そのバッファに何も送
信してはならないことを指示する。

【０１４７】所与のチャンネルに対する所与のリソース
においてビジー信号がアサートされるときと、そのリソ
ースにコマンドを発生するデバイスがビジー信号に応答
して発生を停止するときとの間には待ち時間周期があ
る。この待ち時間の間に、１つ以上のコマンドパケット
がリソースへ発生されることが考えられ、それ故、リソ
ースは、コマンドが脱落しないように設計されねばなら
ない。それ故、受信器がビジー流れ制御信号をアサート
した後にも、Ｍ個のメッセージを受け入れることができ
ねばならず、但し、Ｍは、次の式III で定められる。式III ：Ｍ＝（フレームクロックでの流れ制御待ち時間）／（フ
レームクロックでのパケット長さ）「Ｍ」の値は、ここでは、チャンネル当たりに得られる
専用スロットの数を定義する。

【０１４８】図２５には、各チャンネルごとに個別のリ
ソースを使用して仮想チャンネルが実施される例が示さ
れている。２つのノード４２０及び４２４の部分は、ハ
イアラーキースイッチ（ＨＳ）４２２を経て互いに接続
されて示されている。グローバルポート４２０は、バス
４２１ａを経てスイッチ４２２から入力データを受け取
り、そしてバス４２１ｂを経てスイッチ４２２にデータ
を送信するように接続される。同様に、グローバルポー
ト４２４は、バス４２３ａを経てスイッチ４２２にデー
タを送信し、そしてバス４２３ｂを経てスイッチ４２２
からデータを受け取るように接続される。データバス４
２１ａ、４２１ｂ、４２３ａ及び４２３ｂの各々は、全
ての形式のチャンネルコマンドを送信又は受信する。待
ち行列機構４２５のような待ち行列機構は、各リソース
の各入力及び出力端子に設けられる。この待ち行列機構
は、多数の個々に制御されるバッファ４２５ａ−４２５
ｅを備え、各バッファは、１つの形式のチャンネルコマ
ンドのみを専用に記憶する。バッファ４２５ａは、Ｑ０
チャンネルコマンドのみを記憶し、バッファ４２５ｂ
は、Ｑ０Ｖｉｃチャンネルコマンドのみを記憶し、等々
となる。

【０１４９】コマンドパケットが各リソースインターフ
ェイスに受け取られるときに、コマンドの形式がパーズ
され、そしてパケットは、適当なバッファへ送られる。
コマンドパケットがノードの適当なプロセッサ又はＩＯ
Ｐへ送られる準備ができると、それらが適当なバッファ
から選択され、そしてＡＲＢバス及びＱＳＡ（図６）を
経て送られる。各チャンネルごとに１つづつ、５つのサ
ーチエンジンがあり、各チャンネルに対して次のメッセ
ージを探索する。上記機構においては、各チャンネルが
独立して流れ制御され、そしてシステム全体にわたりハ
イアラーキーの最下位チャンネル以外の各チャンネルに
スロットが指定される。これは、チャンネルがリソース
依存性により下位チャンネルによって決して阻止されな
いことを保証する。上位チャンネルメッセージの移動
は、下位チャンネルメッセージによるリソースの占有に
より阻止されない。

【０１５０】仮想チャンネル間で物理的バッファを共用
する上記機構は、簡単なものである。より精巧な機構に
ついては、ハイアラーキースイッチに関して最初に述べ
た。仮想チャンネル：裁定及びコヒレンスプロトコル設計の
ルールコヒレンスプロトコルにおいて停滞のないメッセージ送
信を保証するためにはハードウェア機構のみでは不充分
である。というのは、問題のリソース依存性の部分しか
対処しないからである。全てのリソース及び流れ依存性
サイクルを排除するために、多数の付加的な裁定及びコ
ヒレンスプロトコル設計ルールが適用される。第１に、
メッセージの進行は、下位チャンネルメッセージの進行
に依存してはならず、この場合に、Ｑ２は上位チャンネ
ルであり、そしてＱ０は下位チャンネルである。アービ
ターは、各チャンネルの流れ制御を互いに独立して維持
しなければならない。例えば、ビジーの流れ制御信号が
Ｑ１に対してアサートされるが、Ｑ２に対してはアサー
トされない場合には、アービターは、Ｑ２メッセージを
進行させねばならない。保留中のコマンドパケットに対
してリソースをサーチするのに使用される全てのサーチ
エンジンは、同じ特性をサポートしなければならない。

【０１５１】第２に、２つ以上のチャンネル間に共用さ
れるいかなるリソースも、下位のチャンネルが阻止され
た場合に上位のチャンネルが進行できるようにするため
に、上位のチャンネルの各々に対してある専用のスロッ
トを含まねばならない。第３に、全てのチャンネルコマ
ンドは、一貫して作用しなければならない。Ｑ０コマン
ドの終了点は、常に、ディレクトリである。Ｑ１コマン
ド及びＱ２コマンドの終了点は、常に、プロセッサであ
る。終了点において、トランザクションを継続するため
に、それらを上位チャンネルへ移動しなければならな
い。例えば、Ｑ０メッセージがディレクトリに到達した
ときには、Ｑ０メッセージを発生することができず、Ｑ
１又はＱ２メッセージを発生しなければならない。それ
故、メッセージは、下位チャンネルメッセージへと分岐
又は変換することはできない。

【０１５２】他の点において分岐するトランザクション
の場合には、同じか又は上位のチャンネルのメッセージ
しか形成できない。例えば、「送信読み取り変更」（Ｑ
１メッセージ）がハイアラーキースイッチにおいて「送
信読み取り変更」、「無効化」及び「記入変更マーカ
ー」を形成するときには、これら全てのメッセージがＱ
１メッセージとなる。従って、バスをベースとするシス
テム又はスイッチをベースとするシステムのいずれかに
仮想チャンネルを設ける装置及び方法が提供される。仮
想チャンネル及び上記の順序付け制約を使用することに
より、参照は、ディレクトリによっていったんサービス
されると完了することが保証される。その結果、ＮＡＣ
Ｋ（１つのプロセッサが別のプロセッサにプロセスが完
了しないことを指示する）及びリタイアを必要とする公
知の複雑なプロトコルは排除される。

【０１５３】５つまでの独立したチャンネルを伴う実施
形態を示したが、本発明の１つの実施形態は、所与の数
のチャンネルに限定されず又は対称的なマルチプロセッ
サシステムに限定されないことを理解されたい。むし
ろ、選択されるチャンネルの数は、各チャンネルに固有
の制御及びハードウェアオーバーヘッドが与えられる
と、コヒレントな通信をサポートするに必要な数でなけ
ればならない。従って、仮想チャンネル制御方法及び装
置は、マルチプロセッサシステムにおいて高性能の、停
滞のない通信を行えるようにする。コヒレンス性を維持するためのディレクトリの動作：以
上に、基本的な通信構成を説明し、そしてＳＭＰのノー
ド間に通信が自由に流れるようにするための基本的な制
御構造体が提供された。しかしながら、コヒレンス性の
ための鍵は、自由に流れるコマンドがシステム内の各プ
ロセッサにより正しい順序で「取り扱われる」ように確
保することである。ＳＭＰシステム内の全てのコマンド
に対しシリアル化ポイントを与える機構は、各ノードに
おけるディレクトリである。

【０１５４】上述したように、全てのＱ０形式コマンド
は、先ず、関連メモリアドレスのホームディレクトリを
アクセスする。いずれのコマンドに対してもホームディ
レクトリが最初にアクセスされるよう確保することによ
り各コマンドを共通のソースから正しい順序で検討する
ことができる。本発明の１つの実施形態では、シリアル
化順序は、アドレスＸに対するディレクトリからの裁定
に勝った後にＸに対するＱ０コマンドがＡＲＢバスに現
れるという順序である。「ロード」形式のコマンドは、
それに対応する読み取りコマンドがホームディレクトリ
にアクセスしたときに順序付けされる。「記憶」形式の
コマンドは、それに対応する「読み取り変更」コマンド
がディレクトリにアクセスするか又はそれに対応する
「クリーン−ダーティ」コマンドがディレクトリにアク
セスしてＡＲＢバスに現れるときに順序付けされる。

【０１５５】例えば、１０個のコマンドの以下のシーケ
ンスが種々のプロセッサ（Ｐ＃）により共通のホームデ
ィレクトリへ発生されると仮定する。但し、Ｘ_iは、キ
ャッシュラインＸの一部分である。テーブルIV：１Ｐ１：記憶Ｘ₁（１）２Ｐ２：ロードＸ₁ ３Ｐ３：ロードＸ₁ ４Ｐ５：ロードＸ₁ ５Ｐ１：記憶Ｘ₂（２）６Ｐ２：記憶Ｘ₁（３）７Ｐ４：ロードＸ₁ ８Ｐ５：ロードＸ₂ ９Ｐ６：ロードＸ₁ １０Ｐ２：記憶Ｘ₁（４）キャッシュラインのバージョンは、各記憶動作の結果と
して更新される。従って、コマンド１はバージョン１を
形成し、コマンド５はバージョン２を形成し、コマンド
６はバージョン３を形成し、そしてコマンド１０はバー
ジョン４を形成する。

【０１５６】シリアル化順序は、ディレクトリに到達す
る事象の各シーケンスがキャッシュラインＸの正しいバ
ージョンを得るように確保する。例えば、コマンド２な
いし４は、バージョン１を得なければならない。プロセ
ッサＰ１のコマンド５が記憶を行うときには、全てのバ
ージョン１キャッシュライン（プロセッサＰ２、Ｐ３及
びＰ５における）に「無効化」を送信しなければならな
い。同様に、プロセッサＰ２のコマンド６がバージョン
３データでＸを更新するときには、プロセッサＰ１のバ
ージョン２データを無効化しなければならない。プロセ
ッサＰ４、Ｐ６及びＰ７は、バージョン３データを得る
が、これは、プロセッサＰ８のバージョン４データの記
憶により後で無効化される。共通のアドレスキャッシュ
ラインＸに対する多数のロード及び記憶動作は、システ
ムにおいていかなる所与の時間にも進行し得ることを述
べれば充分であろう。システムは、ロード及び記憶がデ
ィレクトリによりシリアル化順序で処理されるようにこ
れらのコマンドを処理する。

【０１５７】システムがシリアル化順序を維持しそして
付随的にデータのコヒレンス性を維持するのを助けるた
めに多数の技術が使用される。これらの技術は、Ｑ１チ
ャンネルコマンドの厳密な順序付け、ＣＴＤ明瞭化、
「シャドーコマンド」、「マーカー記入」及び「遅延ビ
クティム書き込みバッファ動作」を含む。各技術につい
て、以下に詳細に説明する。

【０１５８】Ｑ１チャンネル順序付け：コヒレンス性を
維持するのに使用される第１の方法は、Ｑ１チャンネル
上を進行する全てのメッセージ、即ちディレクトリから
送られる全てのメッセージが、先入れ先出し順序で進む
ように確保することである。即ち、ディレクトリから別
のプロセッサ又はＩＯＰへ送られるＱ１型メッセージ
は、コマンドがディレクトリにおいてシリアル化された
順序に基づいて送られる。例えば、図２６のサブシステ
ムの例では、ノード４３０における第１プロセッサＰ１
（４３１）がキャッシュラインＸをそのキャッシュ「ダ
ーティ」に記憶すると仮定する。ノード４３２における
プロセッサＰ１６（４３３）は、Ｑ０チャンネルに「Ｘ
読み取り(Read X)」を発生し、これは、ノード４３６に
おけるＸのホームディレクトリ４３７へ送られる。又、
ノード４３２におけるプロセッサＰ１７は、Ｑ０チャン
ネルに「無効−ダーティ」コマンドを発生し、これも、
ノード４３６におけるＸのホームディレクトリ４３７へ
送られる。「Ｘ読み取り」の受信に応答して、ディレク
トリエントリに基づき、「送信Ｘ読み取り(ForwardedRe
ad X)」がＱ１チャンネルを経てプロセッサＰ１（４３
１）へ送られる。ＩＴＤの受信に応答して、ディレクト
リエントリの状態に基づき、「無効化」がハイアラーキ
ースイッチ４３５へ送られ、これは、Ｑ１チャンネルを
経てプロセッサＰ１及びプロセッサＰ１６へ「無効化」
を送る。従って、同じ時点で、「Ｘ無効化」及び「Ｘ読
み取り供給」がＱ１チャンネルコマンドとしてＰ１へ送
られる。

【０１５９】Ｑ１チャンネルのコマンドが順序ずれして
実行することが許された場合には、「読み取り」の前に
「無効化」が生じることがある。その結果、「読み取
り」のための記入データがプロセッサＰ１６に送られな
いことになり、それ移行の動作の結果が予想し得ないも
のとなる。しかしながら、チャンネルＱ１のコマンドを
正しい順序で保つことにより「読み取り」は「無効化」
を受け取る前に処理され、コヒレンス性が維持される。

【０１６０】本発明の１つの実施形態では、チャンネル
Ｑ１についてのみＦＩＦＯ順序が維持され、ＦＩＦＯ順
序とは、同じメモリアドレスに対応する全てのメッセー
ジがＦＩＦＯ順序に留まることを意味する。しかしなが
ら、本発明は、Ｑ１チャンネルに対する順序を維持する
ことのみに限定されるものではなく、チャンネルのいか
なる組み合わせに対する順序の維持も含むように拡張す
ることができる。上記の順序付け手順を実施する１つの
方法は、ＱＳＡチップ（図６）のＱＳＡＲＢ１１により
実行される。ＱＳＡＲＢは、全てのＱ０トランザクシ
ョンをノードのホームメモリスペースに対してシリアル
化する。その結果、Ｑ１パケットのシリアル流が発生さ
れて、ノードのローカルプロセッサと、グローバルポー
ト及びハイアラーキースイッチを経てノードから離れた
プロセッサとの両方に向けられる。第１の順序付けルー
ルを次に説明する。所与のＱＳＡＲＢにより発生され
る全てのＱ１パケットは、シリアルな順序で発生され
る。所与のＱＳＡＲＢからの幾つかの又は全てのＱ１
パケットがターゲットとする全てのプロセッサは、これ
らのＱ１パケットを、それらがＱＳＡＲＢにより発生
された順序で見る。

【０１６１】このルールをサポートするために、ＱＳＡ
チップは、ノード内の接続されたプロセッサとやり取り
される全てのＱ１パケットに順序を維持する。グローバ
ルポートのロジックは、ハイアラーキースイッチとＱＳ
Ａチップとの間に転送される全てのパケットにＦＩＦＯ
順序を維持する。更に、ハイアラーキースイッチは、所
与の入力から所与の出力へ送られる全てのＱ１パケット
にも順序を維持する。このルールは、１つのＱＳＡＲ
ＢからのＱ１パケットと、別のノードのＱＳＡＲＢから
のＱ１パケットとの間に特定の順序を命令するものでは
ないことに注意されたい。他のノードから受け取られた
Ｑ１パケットは、ハイアラーキースイッチを経てホーム
ノードにより発生されたＱ１パケットと次のようにシリ
アル化される。リモートノードのプロセッサをターゲッ
トとする全てのＱ１パケットは、リモートノードのＱＳ
ＡＲＢにより処理される。これらのＱ１パケットは、
ハイアラーキースイッチによりリモートノードで発生さ
れたＱ１パケットとシリアル化される。所与のＱＳＡ
ＲＢからのＱ１パケットの全ての受信者は、Ｑ１パケッ
トを、それらがＱＳＡＲＢにおいてシリアル化された
のと同じ順序で見なければならない。

【０１６２】図２７は、多数のＱ０及びＱ１コマンドの
順序付けが上記の順序付けガイドラインに基づいてＳＭ
Ｐを通して処理されるところを示すブロック図である。
ノード４４０のプロセッサＰｘはコマンドＱ０ａを発生
し、プロセッサＰｙはコマンドＱ０ｂを発生し、そして
プロセッサＰｚはコマンドＱ０ｃを発生すると仮定す
る。同じ時間中に、ＱＳＡＲＢ４４１は、プロセッサ
Ｐｒ及びＰｑからのＱ１メッセージをグローバルポート
４４３から受け取る。これらのメッセージは、次のよう
に順序付けされる。ＱＳＡＲＢ４４１は、Ｑ０ａ、Ｑ
０ｂ及びＱ０ｃを処理して、Ｑ１ａ、Ｑ１ｂ及びＱ１ｃ
応答を発生する。これらの発生されたＱ１コマンドは、
到来するＱ１コマンドと合成されて、コマンドの順序付
けされた流れをＦＩＦＯ４４２へ供給し、ローカルプロ
セッサへと送る。ＦＩＦＯコマンドの順序は、ＱＳＡ
ＲＢにより処理されたコマンドの順序を反映する。Ｑ１
ａ、Ｑ１ｂ及びＱ１ｃコマンドは、グローバルポート４
４３へ送られ、リモートノードへ送信される。グローバ
ルポートの出力バッファ４４４は、これらのコマンド
を、それらがＱＳＡＲＢにより処理されたのと同じ順
序で記憶する。この順序は、図１４−１９について上述
した方法を用いてメッセージがリモートＣＰＵ４５４へ
送られるときにハイアラーキースイッチ４４６により維
持される。

【０１６３】図２７Ａは、ハイアラーキースイッチにお
いて従う別の順序付けガイドラインを示す。上述したよ
うに、ハイアラーキースイッチは、ハイアラーキースイ
ッチの所与の入力ポートに現れてハイアラーキースイッ
チの共通の出力ポートをターゲットとする多数のパケッ
トが、それらが入力ポートに現れたのと同じ順序で出力
ポートに現れるよう確保することにより、順序を維持す
る。

【０１６４】図２７Ｂを参照すれば、上述したように、
ハイアラーキースイッチは、入力メッセージをマルチキ
ャスティングする役目も果たし、即ち受け取った１つの
Ｑ１パケットを２つ以上の行先ノードに送信するという
役目も果たす。スイッチによりマルチキャスティングさ
れるパケットの一例は、無効化パケットである。ハイア
ラーキースイッチの異なるポートから入力された多数の
パケットが共通の出力ポートにマルチキャスティングさ
れるときには、Ｑ１パケットは、全ての出力ポートにお
いて同じ順序で現れねばならない。例えば、パケット１
及びパケット２の両方がハイアラーキースイッチ４６０
に受け取られる場合に、２つのメッセージをプロセッサ
４６４及び４６６にマルチキャスティングする１つの許
された方法は、上記のように、メッセージ２がメッセー
ジ１の前に両プロセッサに到着するようにすることであ
る。別の許された方法は、メッセージ１のパケットがメ
ッセージ２のパケットの前に両プロセッサに到着するよ
うにすることである。しかしながら、２つのプロセッサ
は、２つのパケットを異なる順序で受け取ってはならな
い。

【０１６５】ハイアラーキースイッチが従わねばならな
い別の順序付けルールは、多数の入力ポートからのＱ１
パケットの順序付けされたリストが共通の出力ポートを
ターゲットとするときに、Ｑ１パケットが、全ての到来
するＱ１パケットの１つの共通の順序付けに合致する仕
方で出力ポートに現れるように確保することである。例
えば、図２７Ｃにおいて、入力ポート４６１には、パケ
ット２がパケット４の前に受け取られる。同様に、入力
ポート４６２には、パケット１がパケット３の前に受け
取られる。停滞を防止するには、これら命令の全体的な
順序を遵守しなければならない。出力パケットを与える
１つの許された方法は、パケット３を最初にノード４６
４に送信し、そしてパケット１を最初にノード４６６に
送信することである。この送信が図２７Ｃに示されてい
る。別の許された出力は、パケット２及び４を受信者の
プロセッサにより最初に受け取ることである。しかしな
がら、１つのプロセッサがパケット３を最初に受け取り
そして別のプロセッサがパケット４を最初に受け取る場
合には、プロセッサがそれらの元のシーケンスの他のパ
ケットの受信を待機してストールするので停滞が生じ得
る。それ故、Ｑ１チャンネルにおいて順序が維持される
よう確保するルールが設けられる。本発明の１つの実施
形態では、性能の理由で、Ｑ０及びＱ２チャンネルパケ
ットを順序ずれして処理するのが望ましい。データの一
貫性を確保するために、多数のコヒレンス性機構が以下
に述べるように設けられる。

【０１６６】ダーティへの変更の明瞭化上述したように、Ｑ１形式のコマンドのみが、ディレク
トリに定義されたシリアル化順序で維持される。本発明
の１つの実施形態では、Ｑ０及びＱ２コマンドは順序付
けされない。従って、受け取られるＱ０及びＱ２コマン
ドの相対的なタイミングの結果としてディレクトリにコ
ヒレンス性の問題が生じないように予防策がとられる。
発生する１つのコヒレンス性の問題は、ディレクトリエ
ントリの構造によるものである。図９に示すように、各
ディレクトリエントリは、所有権フィールドと、各ノー
ドに対して１つの存在ビットとを含む。存在ビットは、
関連ノードの４つのプロセッサの１つにデータが存在す
ることを示すおおよそのベクトルである。４つのプロセ
ッサのいずれかが動作すると、存在ビットがセットされ
る。従って、ノードのどのプロセッサが存在ビットをセ
ットしたかに関してある種の曖昧さが生じる。この曖昧
さは、ある場合にコヒレンス性の問題を引き起こす。

【０１６７】例えば、図２８Ａ及び２８Ｂは、２つのノ
ード４７０及び４７２のブロック図である。ノード４７
０［グローバルシステムのノードＩＤ３］は、プロセッ
サＰ１２、Ｐ１３、Ｐ１４及びＰ１５を備え、一方、ノ
ード４７２［グローバルシステムのノードＩＤ７］は、
ノードＰ２８、Ｐ２９、Ｐ３０及びＰ３１を含む。

【０１６８】時間Ｔ０−Ｔ３の種々の一連の周期におけ
る所与のキャッシュラインＸのディレクトリエントリの
状態は、図２８Ｂにおいてディレクトリ状態テーブル４
５５に示されている。この例では、キャッシュラインＸ
のホームノードは、ノード４７０又は４７２以外のノー
ドである。時間Ｔ０において、キャッシュラインＸの所
有者は、所有者ＩＤ８０で示すようにメモリである。更
に、時間Ｔ０において、ノードＩＤ７のプロセッサ３０
は、キャッシュラインＸのクリーンなコピーを記憶す
る。時間Ｔ１において、プロセッサ１４は、「記憶」コ
マンドを送信し、これは、「読み取りブロック変更Ｘ」
に変換され、そしてキャッシュラインＸのホームディレ
クトリへ送られる。メモリが所有者であるから、プロセ
ッサＰ１４は、メモリからデータを得ることができ、そ
してキャッシュラインの所有者となる。キャッシュライ
ンＸの古いバージョンを無効化するためにノード７に無
効化が送信され、そしてノード７の存在ビットがクリア
される。更に、プロセッサＰ１４は、そのノード存在ビ
ット４５６（ビット３）をセットする。キャッシュライ
ンＸは、変更及び記憶のためにホームメモリからプロセ
ッサＰ１４へ送られる。

【０１６９】時間Ｔ２に、プロセッサ３１のような別の
プロセッサが、キャッシュラインＸの「読み取り」を発
生する。この「読み取り」は、プロセッサＰ１４から
「記入」を経てデータを得る。従って、時間Ｔ２に、デ
ィレクトリは、ノードＩＤ３（プロセッサＰ１４）及び
ノードＩＤ７（プロセッサＰ３１）の両方が、ノード存
在ビット４５８及び４５６で示すように、キャッシュラ
インＸのコピーを記憶することを指示する。時間Ｔ３
に、プロセッサ３０によりＣＴＤが発生される場合に
は、システムの異なるプロセッサから見たキャッシュラ
インＸの状態は、次の理由でインコヒレントとなる。Ｃ
ＴＤがディレクトリに到達すると、Ｘのディレクトリエ
ントリを読み取り、そしてそのノード、即ちノードＩＤ
７の存在ビット４５８が既にオンであるかどうか決定す
る。その結果、プロセッサ３０は、次いで、ＣＴＤ要求
において成功したと仮定する。プロセッサ３０は、キャ
ッシュラインＸのプロセッサ１４のコピーを無効化し、
そしてディレクトリの所有者フィールドを更新する。こ
の動作は、予想し得ない結果を招くことがある。という
のは、プロセッサＰ１４がプロセッサＰ３０よりも最新
のデータバージョンを記憶するからである。

【０１７０】１つの問題は、プロセッサ３０がプロセッ
サ１４により形成されたキャッシュラインの古いバージ
ョンをまだ記憶しており、そしてプロセッサ１４がデー
タの最新のバージョンを無効化するように通知したこと
である。このような状態は、ＳＭＰシステムで重大なコ
ヒレンスの問題を生じさせる。上記問題を解消するのに
使用できる幾つかの方法がある。その１つの方法は、シ
ステムの各プロセッサごとに１ビットを与えるようにデ
ィレクトリエントリの存在ビット拡張することである。
従って、分解能がノードレベルからプロセッサレベルへ
変更される。しかしながら、この解決策は、不都合なこ
とに、ディレクトリのサイズを増大する。

【０１７１】本発明の１つの実施形態は、同じアドレス
への保留中参照がそのノードに対してトランシット状態
にあるときにＣＴＤコマンドを低速化することにより上
記曖昧さの問題を防止するより簡単な方法を提供する。
同じアドレスに対して保留中の要求がある場合には、そ
の以前の要求がリタイアするまでＣＴＤが保持される。
所与のノードのトランザクション追跡テーブル（ＴＴ
Ｔ）（図１０）を使用して、そのノードに対する保留中
のグローバル参照を監視する。更に、ＣＴＤがＴＴＴに
受け取られた後に受け取った要求は、失敗となる。図１
０を参照して述べたように、ＴＴＴは、完全に連想式の
多機能制御構造体である。ＴＴＴは、２つの一般的なタ
スクを実行する。これは、その関連ノードにより発生さ
れた全てのリモート参照のアドレスを記憶する。従っ
て、ＴＴＴは、そのトランザクションが完了したとみな
されるまで、ノードにより発生された各リモートアクセ
スに対して１つの情報エントリを記憶する。更に、ＴＴ
Ｔは、ローカルアドレスの要求に応答して、過渡的なコ
ヒレンス状態に関してコヒレンス情報を与える。従っ
て、ＴＴＴは、アクセスがトランシット状態にある間に
その状態を追跡するためのテーブルである。他の処理シ
ステムは、いかなる瞬間にも所与のキャッシュラインへ
の１つの参照をトランシット状態にすることができる。
トランシット状態にあるキャッシュラインへのその後の
参照は、トランシット状態の参照が完了するまで阻止さ
れる。

【０１７２】これに対し、ディレクトリにおけるコマン
ドのシリアル化と、チャンネル順序付けルールとによ
り、本発明のＳＭＰは、同じキャッシュラインへの多数
の参照を所与の瞬間に進行させることができる。その結
果、ＳＭＰの全性能が改善される。ＴＴＴ５２２は、Ｑ
ＳＡチップ５３５のロジックにより、グローバルポート
に発生されたトランザクションの状態を決定するのに使
用される。グローバルポートへ応答を発生する前に、Ｑ
ＳＡは、先ず、ＴＴＴにアクセスして、同じキャッシュ
ラインへのどんな参照が保留中であるかを決定する。参
照は、最後に受け取ったトランザクションに応答してＴ
ＴＴからリタイアしていない場合には保留中である。

【０１７３】参照がＴＴＴからいかにリタイアするか
は、コマンドフィールド５８４に示された参照の形式に
依存する。例えば、ＴＴＴに記憶するためにグローバル
ポートへ送られる「Ｘ読み取り」参照は、「ここに記
入」５８８a 及び「マーカーをここに記入」５８８b の
両方の状態ビットを受け取ることを必要とする。（「マ
ーカーの記入」は、いかに詳細に述べる。）ＣＴＤ又は
ＩＴＤのような状態型の参照の場合に、ＴＴＴにおいて
ＡＣＫ／ＮＡＣＫビット５８８c をセットすれば、その
エントリをリタイアするのに充分である。

【０１７４】図２９は、ＴＴＴを使用して曖昧なディレ
クトリエントリを排除するところを示すフローチャート
である。ステップ５００において、キャッシュラインＸ
は、そのホームノードのメモリに記憶され、そしてノー
ド７のプロセッサ３０は、データのコピーを記憶する。
ステップ５０２において、「ＲｅａｄＭｏｄＸ」がプロ
セッサ１４により発生される。その結果、無効化がノー
ド７に送られる。ステップ５０４において、プロセッサ
Ｐ３１は、「ＲｅａｄＸ」を発生し、これは、ノード７
のＴＴＴのエントリを次の状態で形成する。

【０１７５】アドレス｜コマンドＩＤ｜状態 ~ ｜｜Fill ~ Fmark ~ Shadow ~ ACK/NACK Ｘ｜Read 31 ｜ ~ ~ ~ ステップ５０６において、プロセッサＰ３０は、ＣＴＤ
Ｘを発生する。ＱＳＡチップは、ＣＴＤ命令のアドレス
を検査し、それがリモートＣＴＤであることを決定し、
そしてＴＴＴへのＧＰリンクを経てグローバルポートへ
送信する。ＴＴＴの内容は、以下に示す通りである。アドレス｜コマンドＩＤ｜状態 ~ ｜｜Fill ~ Fmark ~ Shadow ~ ACK/NACK Ｘ｜Read 30 ｜ ~ ~ ~ Ｘ｜Read 31 ｜ ~ ~ ~ 図６について述べたように、グローバルポートは、ＴＴ
Ｔからの情報を使用して、どのコマンドをハイアラーキ
ースイッチから送出することが許されたかを決定する。
本発明の１つの実施形態では、保留中の「読み取り」が
トランシット状態にあるとＴＴＴが決定した場合に、グ
ローバルポートは、「読み取り」結果が返送されるまで
ＣＴＤをスイッチへ送ることが防止される。

【０１７６】図２９のフローチャートに示す例では、ア
ドレスＸへの保留中の読み取り要求は、ＴＴＴにより識
別される。その結果、ステップ５０８において、ＣＴＤ
は、「読み取り」がもはや保留中でなくなるまで、オフ
に保たれる。「読み取り」は、「記入」及び「マーカー
記入」の両方がノード７に返送されるまで保留となる。
この時間中に、ステップ５０２においてＲｅａｄＭｏｄ
により発生された無効化がノード７に到達し、各ノード
のＤＴＡＧＳを更新する。Ｘの無効化がＴＴＴに到達す
ると、ＴＴＴは、ＴＴＴに保持されたＣＴＤを失敗と表
示し、これは直ちに解除される。ステップ５１０におい
て、ＣＴＤが依然ＴＴＴにある場合には、グローバルポ
ートを経て送信される。従って、ＴＴＴを使用して、Ｃ
ＴＤコマンドを適当にオフに保持し又は失敗状態とする
ことにより、ディレクトリの存在ビットの曖昧さにより
生じるコヒレンスの問題を排除することができる。

【０１７７】マーカーの記入：プロセッサに対するほと
んどの応答は、Ｑ１チャンネルにおけるものであり、従
って、上記のルールによれば、正しい順序が維持され
る。しかしながら、Ｑ２チャンネルで受け取られたメッ
セージは、この順序制約を受けない。Ｑ２型のメッセー
ジは、「記入」及び「記入変更」を含む。Ｑ２型メッセ
ージの到着は、ディレクトリにおいて明らかなように、
シリアル化順序を表わさないので、返送データに潜在的
な曖昧さが生じる。例えば、「無効化」がＱ１を進行
し、そして「記入変更」がＱ２を進行するので、コヒレ
ンス性を維持するためにどの動作が順序において最初に
生じるべきかを決定する何らかの方法がなければならな
い。

【０１７８】例えば、図３０を参照すれば、２つのノー
ド５２０及び５３２が示されている。説明上必要なノー
ドの部分しか示されていない。プロセッサＰ２（５２
４）及びプロセッサＰ４（５３４）がキャッシュライン
Ｘのコピーを記憶すると仮定する。キャッシュラインＸ
のホームノードは、ノード５３２である。以下の説明に
おいて、次のパケットにより使用されるチャンネルは、
異なる線を用いて指示される。Ｑ０コマンドは、単一線
矢印で指示され、Ｑ１コマンドは、二重線矢印で指示さ
れ、そしてＱ２コマンドは、破線矢印で指示される。プ
ロセッサＰ４がキャッシュラインＸの独占的所有権を得
るためにＣＴＤＸを発生すると仮定する。これに応答
して、ディレクトリ存在ビット及びＤＴＡＧ（図示せ
ず）により、ディレクトリ５４２は、ノード５２０へ無
効化を発生する。この無効化は、Ｑ１チャンネルを経て
ノード５２０のＤＴＡＧＳを更新し、そしてコピーを有
する全てのプロセッサ（ここではプロセッサＰ２）に無
効化調査を送信する。

【０１７９】次いで、プロセッサＰ１は、Ｘのホームデ
ィレクトリ５４２へＲｅａｄＭｏｄＸを発生する。上記
のように、Ｘは、現在プロセッサＰ４により所有され、
それ故、コヒレンスプロコルによれば、Ｆｏｒｗａｒｄ
ｅｄＲｅａｄＭｏｄＸがプロセッサＰ４へ送られる。
プロセッサＰ４は、それに応答して、Ｑ２チャンネルを
経てプロセッサＰ１へＦｉｌｌＭｏｄを発生する。Ｑ２
チャンネルの通信は、Ｑ１の通信とシリアル化されない
ので、ＣＴＤＸからの「無効化」がノード５２０に到
達する前にＱ２のＦｉｌｌＭｏｄがプロセッサＰ１に到
達する可能性が存在する。その結果、Ｐ１のキャッシュ
には有効データが書きこまれるが、そのすぐ後で、ＤＴ
ＡＧＳがノードにおけるＸのコピーを無効化するように
セットされ、そしてＰ２及びＰ１に「無効化」が送られ
る。しかしながら、「無効化」は、Ｐ２のバージョンの
みに対応し、Ｐ１におけるバージョンには対応しない。
ここで、システムは、インコヒレントな状態となる。デ
ィレクトリ５４４は、Ｐ１を所有者として記録するが、
Ｐ１はまだ無効化されている。

【０１８０】本発明の１つの実施形態は、各ノードのグ
ローバルポートに「マーカー記入」及びトランザクショ
ン追跡テーブル（図１０）を使用することによりこの問
題を克服する。「マーカー記入(Fill Marker) 」又は
「マーカー記入変更(Fill Marker Mod)」は、ホームノ
ードのメモリに現在記憶されていないデータに対する
「読み取り」又は「読み取り変更」要求に応答して発生
されるパケットである。即ち、「マーカー記入」又は
「マーカー記入変更」は、「送信読み取り(Forwarded R
ead)」又は「送信読み取り変更(Forwarded Read Mod)」
と同時に発生される。従って、「マーカー記入」及び
「マーカー記入変更」は、Ｑ１チャンネルコマンドであ
る。「送信読み取り」又は「送信読み取り変更」コマン
ドは、キャッシュラインを記憶するプロセッサに送られ
るが、「マーカー記入」又は「マーカー記入変更」の行
先は、元の「読み取り」又は「読み取り変更」を供給し
たプロセッサである。

【０１８１】「マーカー記入」は、発生元プロセッサ
が、ディレクトリに生じるシリアル化順序を決定できる
ようにする。図３１を参照すれば、「マーカー記入」の
適用は、上記問題を次のように矯正する。前記したよう
に、プロセッサ５３ＡがＸのＣＴＤをＸのホームディレ
クトリに発生し、その結果、「無効化」５５０がＱ１チ
ャンネルを経てノード５２０へ送られると仮定する。プ
ロセッサＰ１（５２２）がＲｅａｄＭｏｄＸをリモ
ートディレクトリに発生すると、その要求に対してＴＴ
Ｔエントリが発生される。この要求に対するＴＴＴテー
ブルエントリの例が図３２に示されている。ＴＴＴテー
ブルエントリは、「ここに記入」及び「マーカーをここ
に記入」状態ビットを含むことに注意されたい。これら
ビットの各々は、ノード５２０のグローバルポートに各
パケットが受け取られるのに応答してセットされる。Ｔ
ＴＴエントリは、「記入」及び「マーカー記入」の両方
が返送されるまでクリアされない。

【０１８２】図３１に戻ると、上述したように、プロセ
ッサ５２２からのＲｅａｄＭｏｄＸは、プロセッサ５
３ＡへのＦＲｄＭｏｄＸを生じる。同時に、チャンネル
Ｑ１を経て、ＦｉｌｌＭａｒｋｅｒＭｏｄＸ５５
２がプロセッサＰ１に返送される。「無効化」及びＦｉ
ｌｌＭｏｄＭａｒｋｅｒの両方が同じＱ１チャンネ
ルに送られる。チャンネルＱ２のＦｉｌｌＭｏｄ５５
４は、「無効化」の前にノード５２０に到着すると仮定
する。グローバル参照の「タグ複製」状態は、Ｆｉｌｌ
Ｍｏｄ又はＦｉｌｌＭｏｄＭａｒｋｅｒの返送に
応答して更新される。従って、ＦｉｌｌＭｏｄは、Ｘ
の所有権をプロセッサＰ１として表わすようにＸのＤＴ
ＡＧ状態を更新させる。

【０１８３】「無効化」５５０が、ノード５２０に到達
する次の命令であると仮定する。ＴＴＴは、「送信読み
取り」命令の状態を決定するためにアクセスされる。こ
の点において、ＴＴＴエントリは、「ここに記入」ビッ
トをセットするが、「マーカーをここに記入」ビットは
セットされない。従って、ＴＴＴは、無効化及びリモー
ト読み取り動作の相対的なタイミングに関する指示を与
える。Ｑ１コマンドのシリアル化のために、無効化は、
プロセッサ５２２からのＲｄＭｏｄＸよりも早い時間に
ディレクトリ５４２に発生されたと推測でき、従って、
ＦｉｌｌＭｏｄが新しいバージョンであり、プロセッ
サ５２２のデータコピーには無効化が適用されない。そ
の結果、プロセッサＰ１のＤＴＡＧエントリは、無効化
されない。

【０１８４】上記実施形態は、ＴＴＴをグローバルポー
トに存在するものとして示したが、別の実施形態によれ
ば、各ノードの各プロセッサは、ディレクトリへの要求
を監視することにより共通のアドレスへのリモート要求
の状態を追跡することができる。従って、「マーカー記
入」は、単にＴＴＴへ送られるのではなく、ディレクト
リにより関連プロセッサへ送られる。従って、ＴＴＴ
は、２つの目的を果たすことが明らかである。マルチプ
ロセッサノードから送出されたコマンドの形式を監視す
ることにより、ＴＴＴは、同じアドレスへの他のコマン
ドが完了するまで、あるコマンド（ＣＴＤのような）の
送信を禁止することができる。更に、要求がＱ２チャン
ネル（「マーカー記入」のような）へ移行したときにＴ
ＴＴに指示する表示機構を設けることにより、ＴＴＴを
用いて、異なるチャンネルに返送されるコマンド（即
ち、Ｑ２記入及びＱ１コマンド）間の相対的なタイミン
グ指示を与えることができ、従って、メモリを崩壊する
ことのあるコマンドがプロセッサへ送られるのを防止す
ることができる。

【０１８５】シャドーコマンド上記説明から明らかなように、ローカルアクセスは、通
常、リモートアクセスよりも相当に早い。従って、性能
に関しては、ローカル及びリモートアクセスの両方がＳ
ＭＰシステムにおいて同時に生じることが許される。し
かしながら、ローカルアクセスの発生によりリモートア
クセスに対して停滞の問題を生じさせる幾つかの場合が
ある。例えば、図３３Ａを参照すれば、１つのプロセッ
サ５６２がキャッシュラインＸにＲｄＸを発生すると仮
定する。キャッシュラインＸのホームノードは、ノード
５６０である。ノード５６０のディレクトリは、プロセ
ッサ５８２がキャッシュラインを現在所有することを指
示する。従って、ＦｏｒｗａｒｄｅｄＲｅａｄＸが
５８２に送られる。その後、ノード５６０のプロセッサ
５６４がＣＴＤＸを発生すると仮定する。上記のよう
に、キャッシュラインＸは、ノード５６０に対してロー
カルであり、ＣＴＤが成功すると、「無効化」をプロセ
ッサＰ１に（及び図示のようにプロセッサＰ５にも）送
る。

【０１８６】図３３Ｂを簡単に参照すれば、参考として
ここに取り上げる本発明と同日に出願されたバンドレン
氏等の「分散型データ依存性ストール機構(Distributed
Data Dependency Stall Mechanism) 」と題する特許出
願に開示されたように、プロセッサＰ１のような各プロ
セッサは、同じキャッシュ位置に対する保留中の読み取
りがある場合にキャッシュへの調査をストールするため
のロジックを備えている。上記の例が与えられると、Ｒ
ｅａｄＸの作用は、ミスアドレスファイル（ＭＡＦ）
５７４にアドレスＸを記憶することである。ＭＡＦの内
容は、到来する調査に対して比較され、そして到来する
調査とＭＡＦのアドレス間に一致があるときに、調査待
ち行列がストールされる。

【０１８７】「記入」データがプロセッサ５８２から返
送されるときに調査待ち行列が解除される。しかしなが
ら、同じ形式のトランザクション（即ち、Ｐ５がリモー
トＲｄＹを実行し、次いで、Ｐ６がＣＴＤＹを発生
する）がノード５８０に生じる場合に、プロセッサＰ５
の調査待ち行列がストールされ、ＲｅａｄＹ要求が満
足されるのを保留する。Ｐ２により発生された「無効
化」の後にＰ５からＦｏｒｗａｒｄｅｄＲｅａｄＹ
が送られる状態でＰ１調査待ち行列がストールされるの
と同時に、Ｐ６により発生された「無効化」の後にプロ
セッサＰ１からＦｏｒｗａｒｄｅｄＲｅａｄＸが送
られる状態でＰ５の調査待ち行列がストールされた場合
には、停滞が生じる。

【０１８８】この停滞問題を防止するための多数の解決
策が存在する。第１に、全ての参照をリモートとするこ
とができ、即ち全ての参照を（ホームノードからの参照
も）、それらがホームノードに送られる前にスイッチに
送ることができる。全ての参照がリモートにされた場合
には、上述した中央の順序付けルールに基づき、停滞状
態は生じない。第２の解決策は、キャッシュラインへの
いずれかの参照がリモートから送られたときに所与のキ
ャッシュラインへの全ての参照をストールすることであ
る。しかしながら、この解決策は、これまでのローカル
動作の性能に著しく影響し、それ故、好ましいものでは
ない。

【０１８９】本発明の１つの実施形態は、コマンドシャ
ドー作用の使用によるローカル及びリモート参照の混合
により課せられる潜在的な停滞を克服する。キャッシュ
ラインＸへのローカル参照がリモートプロセッサへ送ら
れると、そのキャッシュラインへのその後の全ての参照
がハイアラーキースイッチへリモートから送られ、キャ
ッシュラインのローカル参照及びその後の全ての参照が
完了するまで、中央で順序付けされる。従って、まだシ
ャドー状態であるキャッシュラインへの以前の参照は、
キャッシュラインへの現在の参照もシャドー状態にす
る。図３４及び３５を参照して、上記例をシャドーコ
マンドの使用と共に説明する。図３５は、ＴＴＴの内容
を例示している。第１プロセッサＰ１は、ＲｄＸをアー
ビターに発生する。上述したように、プロセッサＰ５へ
のＦＲｄＸを生じ、これはＴＴＴに記録される。その
後、プロセッサＰ２は、ＣＴＤＸをＡＲＢに発生す
る。ＡＲＢは、ＴＴＴを検査し、リモートプロセッサへ
送られる保留中のローカル読み取りがあると決定し、そ
してグローバルポートからプロセッサＰ５へＩｎｖａｌ
Ｘを送る。又、この動作を表わすエントリもＴＴＴに形
成され、そのシャドービットがセットされる。

【０１９０】同時に、ノード５８０において、同様の一
連のトランザクションが生じる。プロセッサＰ５は、Ｒ
ｄＹを発生し、これはノード５６０に送られると共
に、Ｐ５アドレスをエントリに含ませることによりＴＴ
Ｔに記録される。プロセッサＰ６は、その後、ＣＴＤ
Ｙを発生する。ノード５８０のアービターは、ＣＴＤア
ドレスをＴＴＴ内の保留中読み取りに対して一致させ、
そしてＣＴＤＹをグローバルポートにわたり「シャド
ー」処理する。そのＣＴＤＹに対してＴＴＴにエント
リが形成され、このエントリは、ＴＴＴにおいてそのシ
ャドービットをセットし、ＣＴＤＹが、Ｙへの要求の
適切な順序付けを確保するためにリモート送信されたロ
ーカル参照であることを指示する。上述したように、両
ノードにおいて調査シーケンスで「無効化」の後にＦＲ
ｄがあるときに問題が生じる。「無効化」は、ここでは
中央で順序付けされるので、両無効化を両方の「送信読
み取り」の前にそれらの調査待ち行列へ送信できないこ
とにはならない。というのは、それらは、共通点即ちハ
イアラーキースイッチにおいてシリアル化されるからで
ある。従って、図３６を参照すれば、コマンドの入力シ
ーケンスは、ハイアラーキースイッチ５６８へ入力され
るように示されている。許容し得る出力シリアル化順序
は、順序ａ−ｆとして識別される。上記のＱ１チャンネ
ル順序付けルールによれば、ハイアラーキースイッチへ
のパケット入力のシリアル化順序がスイッチ出力に維持
されることに注意されたい。それ故、上記の場合には、
ＦＲｄは、行先ノードへ送られるときにその関連する
「無効化」に先行する。

【０１９１】ノードの１つは、調査待ち行列に「無効
化」を受け取り、その後、「送信読み取り」を受け取
る。例えば、シリアル化順序を用いて、プロセッサＰ５
の調査待ち行列は、ＩｎｖａｌＹによりストールさ
れ、そしてＦｒｄＸがストールされて、記入を保留す
る。しかしながら、この例では、ＦｒｄＹは、Ｉｎｖ
ａｌＸの後ではなく、従って、Ｐ５調査待ち行列を阻止
しないように「記入」データを与えることができる。リ
モート参照のためにデータが返送されるときには、その
参照に対応するＴＴＴエントリがドロップされる。元の
参照をシャドー処理した他の参照がＴＴＴに存在するこ
とがある。これらコマンドがハイアラーキースイッチか
ら受け取られるときには、シャドー処理されたコマンド
の各々に対するＴＴＴエントリもドロップされる。最終
的に、リモートアクセス及びシャドーアクセスが全て完
了し、そしてＴＴＴがもはやキャッシュラインへマップ
するエントリを含まなくなると、そのキャッシュライン
へのその後のローカル参照をシャドー処理する必要がな
くなる。

【０１９２】従って、シャドーコマンドの使用により、
ローカル及びリモートコマンドの共存から生じるリソー
ス依存性の停滞を、ハードウェアの複雑さを著しく増加
せずに排除することができる。上記の例は、「送信読み
取り」及びＣＴＤの使用を含むが、シャドーコマンド方
法は、他の形式の命令及びマルチプロセッサにも等しく
適用できることに注意されたい。一般に、ローカルアド
レスＸへの参照が存在し、そしてローカルアドレスＸへ
の以前のメッセージがリモートプロセッサ（ＴＴＴによ
り指示された）へ送られるか、又はＸへの以前の参照が
まだシャドー処理されるときには、Ｘへの現在の参照も
シャドー処理される。更に、この方法は、上記の単なる
マルチプロセッサ／スイッチハイアラーキーよりも多数
のハイアラーキーレベルを含む他の形式のアーキテクチ
ャーにも使用できる。例えば、上記方法は、多数のハイ
アラーキーレベルを含み、コマンドがキャッシュライン
への以前の保留中参照のハイアラーキーレベルに基づい
て適当なハイアラーキーレベルに送られるコンピュータ
システムにも使用できる。

【０１９３】従って、大型のＳＭＰコンピュータシステ
ムに使用するためのアーキテクチャ及びコヒレンスプロ
トコルについて説明した。ＳＭＰシステムのアーキテク
チャは、多数のマルチプロセッサノードをスイッチに接
続して最適な性能で動作することのできるハイアラーキ
ースイッチ構造体を備えている。各マルチプロセッサノ
ード内には、マルチプロセッサノードの全てのプロセッ
サを最高の性能で動作できるようにする同時バッファシ
ステムが設けられる。メモリはノード間で共用され、マ
ルチプロセッサノードの各々にメモリの一部分が常駐す
る。マルチプロセッサノードの各々は、メモリコヒレン
ス性を維持するための多数の要素、即ちビクティムキャ
ッシュ、ディレクトリ及びトランザクション追跡テーブ
ルを含む。ビクティムキャッシュは、リモートのマルチ
プロセッサノードに記憶されたメモリを行先とするビク
ティムデータを選択的に更新することができ、これによ
り、メモリの全性能が改善される。ディレクトリに関連
して使用されて、メモリに書きこまれるべきビクティム
を識別する遅延書き込みバッファを各メモリに含ませる
ことによりメモリ性能が更に改善される。

【０１９４】各ノードのディレクトリの出力に接続され
たＡＲＢバスは、ＳＭＰを経て転送される全てのメッセ
ージに対して中央の順序付けポイントとなる。本発明の
１つの実施形態によれば、メッセージは、多数のトラン
ザクションを含み、各トランザクションは、メッセージ
の処理段階に基づいて多数の異なる仮想チャンネルに指
定される。従って、仮想チャンネルの使用は、システム
順序を維持する簡単な方法を与えることによりデータの
コヒレンス性を維持する上で助けとなる。仮想チャンネ
ル及びディレクトリ構造体を使用すると、従来停滞を生
じるキャッシュコヒレンス性の問題を回避することがで
きる。以上、本発明の好ましい実施形態を説明したが、
その概念を組み込んだ他の実施形態も使用できることが
当業者に明らかであろう。それ故、本発明は、上記の実
施形態に限定されるものではなく、特許請求の範囲のみ
によって限定されるものとする。

【図面の簡単な説明】

【図１Ａ】公知の対称的なマルチプロセッサコンピュー
タシステムのブロック図である。

【図１Ｂ】公知の対称的なマルチプロセッサコンピュー
タシステムのブロック図である。

【図２】スイッチを備えた本発明によるマルチプロセッ
サコンピュータノードの１つの一実施形態を示すブロッ
ク図である。

【図３】多数の同時挿入バッファを備えた図１のスイッ
チのデータ経路を示すブロック図である。

【図４Ａ】図３に示す同時挿入バッファの１つの一実施
形態を示すブロック図である。

【図４Ｂ】図４に示す同時挿入バッファの１つを制御す
るためのロジックの一実施形態を示すブロック図であ
る。

【図５】図３に示す同時挿入バッファの１つの別の実施
形態を示すブロック図である。

【図６】同様のノードの大きなネットワークへ接続する
ように拡張された図２のマルチプロセッサコンピュータ
ノードのブロック図である。

【図７Ａ】図６のマルチプロセッサノードと同様の多数
のノードを使用して実施されたＳＭＰシステムの一実施
形態を示す図である。

【図７Ｂ】図６のマルチプロセッサノードと同様の多数
のノードを使用して実施されたＳＭＰシステムの別の実
施形態を示す図である。

【図８】図６のグローバルポートのブロック図である。

【図９】図６のマルチプロセッサノードのディレクトリ
におけるエントリーを示す図である。

【図１０】図８のグローバルポートに使用するためのト
ランザクション追跡テーブル（ＴＴＴ）を示す図であ
る。

【図１１】図７Ａにおいて多数のノードを接続するため
のハイアラーキー式スイッチを示すブロック図である。

【図１２Ａ】停滞を排除するハイアラーキースイッチ用
の相互接続ロジックの一実施形態を示すブロック図であ
る。

【図１２Ｂ】図１２Ａの相互接続ロジックの動作を示す
フローチャートである。

【図１３】マルチプロセッサノードの１つから送信され
るデータを停止する流れ制御を与えるために図１２Ａの
相互接続ロジックに使用される方法を示すフローチャー
トである。

【図１４】ハイアラーキースイッチに対してバスを経て
行われるアドレス及びデータパケットの転送を示すタイ
ミングである。

【図１５】ハイアラーキースイッチにおいて順序を維持
するためのバッファロジックの一実施形態を示すブロッ
ク図である。

【図１６】ハイアラーキースイッチに対して順序を維持
するためのバッファロジックの別の実施形態を示すブロ
ック図である。

【図１６Ａ】チャンネルの依存性を矢印で示す図であ
る。

【図１７】図１６のバッファロジックを動作する１つの
方法を示すフローチャートである。

【図１８】ハイアラーキースイッチにおいて順序を維持
するためのバッファロジックの別の実施形態を示すブロ
ック図である。

【図１８Ａ】チャンネルの依存性を矢印で示す図であ
る。

【図１９】図７Ａ又は７ＢのＳＭＰに使用するためのプ
ロセッサ命令−ネットワーク命令の変換を示すテーブル
である。

【図２０Ａ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｂ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｃ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｄ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｅ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｆ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｇ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｈ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｉ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｊ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２１】図２又は６のマルチプロセッサシステムに使
用するためのメモリモジュールのレイアウトを示すブロ
ック図である。。

【図２２】遅延書き込み動作のために図２１のメモリモ
ジュールにより使用される制御ロジックを示すタイミン
グ図である。

【図２３】本発明の１つの実施形態においてキャッシュ
コヒレンス性を維持するためにチャンネルに対してマッ
プされる個別のトランザクションの使用を示すフローチ
ャートである。

【図２４】図７Ａ又は７ＢのＳＭＰにおいて仮想チャン
ネルを取り扱うための共用待ち行列構造体の一実施形態
を示すブロック図である。

【図２５】図７Ａ又は７ＢのＳＭＰのノード及びハイア
ラーキーチャンネルにおける個々のチャンネルバッファ
の一実施形態を示すブロック図である。

【図２６】仮想チャンネル間にある程度の順序が維持さ
れない場合に生じる問題を説明するためのブロック図で
ある。

【図２７Ａ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２７Ｂ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２７Ｃ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２８Ａ】図７Ａ及び７ＢのＳＭＰのディレクトリエ
ントリーにおおよそのベクトル存在ビットがあるために
生じる曖昧さの問題を説明するブロック図である。

【図２８Ｂ】図７Ａ及び７ＢのＳＭＰのディレクトリエ
ントリーにおおよそのベクトル存在ビットがあるために
生じる曖昧さの問題を説明するブロック図である。

【図２９】図２８に示す問題の結果として生じるデータ
の曖昧さを防止するために使用される方法を示すブロッ
ク図である。

【図３０】異なるチャンネルのパケットが順序づれして
受け取られるために生じるコヒレンス性の問題を示すブ
ロック図である。

【図３１】図２９に示すコヒレンス性の問題を防止する
ための記入マーカーの使用を示すブロック図である。

【図３２】図３１について述べた流れ間の命令の状態を
表わすＴＴＴのエントリを示す図である。

【図３３Ａ】ＳＭＰシステムにおけるダーティへの変更
コマンドの作用を示すブロック図である。

【図３３Ｂ】ＳＭＰシステムにおけるダーティへの変更
コマンドの作用を示すブロック図である。

【図３４】図３３について述べた問題を矯正するための
シャドーコマンドの使用を示すブロック図である。

【図３５】図３４について述べたフロー間の命令の状態
を反映するＴＴＴのエントリを示す図である。

【図３６】図３５に示す例における許容し得る逐次順序
付けを示すフローチャートである。

【符号の説明】

１０マルチプロセッサノード１１アービター（ＱＳＡＡＲＢ）１２ａ、１２ｂ、１２ｃ、１２ｄプロセッサモジュー
ル１３メモリ１３ａ−１３ｄメモリモジュール１４Ｉ／Ｏプロセッサ（ＩＯＰ）モジュール１４ａＩ／Ｏバス１４ｂＩＯＰタグ記憶装置１４ｃＩＯＰキャッシュ１５ローカルスイッチ１６ａ−１６ｉデータリンク１７ＡＲＢバス１８ＱＳＡチップ１９ＱＳＤチップ２０デュープリケートタグ記憶装置（ＤＴＡＧ）２５ａ−２５ｅ同時挿入バッファ（ＳＩＢ）２７メインアービター３２バッファ３４ａ−３４ｈマルチプレクサ３６入力アービター３８出力アービター１２２トランザクション追跡テーブル１２４ビクティムキャッシュ１４０ディレクトリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/167 Ｇ０６Ｆ 15/167 Ｂ (72)発明者シモンシーステイーリイアメリカ合衆国ニューハンプシャー州 03051 ハドソンアンナルイスドライヴ８ (72)発明者マドハミトラシャルマアメリカ合衆国マサチューセッツ州 01545 シュローズバリーコモンズドライヴ 55−46 (72)発明者ディヴィッドエムフェンウィックアメリカ合衆国マサチューセッツ州 01545 アクトンブラウンベアクロッシング 297

Claims

【特許請求の範囲】

【請求項１】少なくとも１つのプロセッサ及び共用メ
モリの一部分を各々含む複数の接続されたマルチプロセ
ッサノードを備えたコンピュータシステムにおいて、上記複数のマルチプロセッサノードの各々における複数
のプロセッサに関連した追跡機構であって、上記複数の
マルチプロセッサノードの１つにおける少なくとも１つ
のプロセッサの１つにより発生された共用メモリのリモ
ート部分のアドレスへの要求の位置を、上記複数の接続
されたマルチプロセッサノードにおける少なくとも１つ
のプロセッサにより上記アドレスへ発生された複数の他
の要求に対して識別するための追跡機構を備えたことを
特徴とするコンピュータシステム。
【請求項２】上記共用メモリの上記部分への要求の初
期順序をそれに対応するマルチプロセッサノードに与え
るために上記追跡機構に接続されたシリアル化ポイント
を上記複数のマルチプロセッサノードの各々に更に備え
た請求項１に記載のコンピュータシステム。
【請求項３】上記複数のマルチプロセッサノード各々
の少なくとも１つのプロセッサ各々は、各々複数のトラ
ンザクションを含む複数の要求を発生し、これら複数の
要求各々の複数のトランザクション各々には複数のチャ
ンネルの対応する１つが指定され、そして上記チャンネ
ルのうちの第１チャンネルは、上記シリアル化ポイント
へトランザクションを搬送するためのものである請求項
２に記載のコンピュータシステム。
【請求項４】上記チャンネルのうちの第２チャンネル
は、上記シリアル化ポイントから発生されたトランザク
ションを搬送するためのものであり、そして共通のアド
レスへのトランザクションは、上記チャンネルの少なく
とも第２チャンネルにおいて厳密に順序付けされる請求
項３に記載のコンピュータシステム。
【請求項５】上記追跡機構は、少なくとも１つの順序
付けされたチャンネルにおける関連するトランザクショ
ンにより指示されて参照情報の順序を識別し、その順序
は、他のチャンネルにおけるトランザクションに対して
再構成できる請求項４に記載のコンピュータシステム。
【請求項６】第３のトランザクションを含む要求の各
々に対し、その要求に対応するメモリの共用部分に関連
したマルチプロセッサノードの追跡機構に、その要求が
第３のトランザクションを有することを指示するための
手段を更に備えた請求項５に記載のコンピュータシステ
ム。
【請求項７】上記指示手段は、少なくとも１つの順序
付けされたチャンネルを経て追跡機構へ発生されるコマ
ンドを更に含む請求項６に記載のコンピュータシステ
ム。
【請求項８】上記追跡機構は、複数のエントリーを更
に備え、各エントリーは、別のマルチプロセッサノード
のメモリ位置をアドレスする参照情報のアドレスを記憶
するためのものであり、そして各エントリーは、関連す
る要求の状態を指示するための複数の状態ビットを更に
含む請求項７に記載のコンピュータシステム。
【請求項９】上記状態ビットは、要求が第３のトラン
ザクションを有することを指示する上記順序付けされた
チャンネルのコマンドがマルチプロセッサノードに返送
されたかどうかを示すための第１ビットセットを更に含
む請求項８に記載のコンピュータシステム。
【請求項１０】上記状態ビットは、更に、第３のトランザクションがマルチプロセッサノードに返
送されたかどうかを指示するための第２ビットセット
と、状態ビットセットの第１ビット及び第２ビットの両方を
有するトランザクションテーブルからエントリーを除去
する手段と、を含む請求項９に記載のコンピュータシス
テム。
【請求項１１】上記追跡機構に記憶されたアドレスへ
発生される要求であって、上記順序付けされたチャンネ
ルにおけるコマンドの受信を指示するためにそのアドレ
スに対応する追跡機構の第１ビットがセットされる前に
受け取られた要求を無視するための手段を更に備えた請
求項１０に記載のコンピュータシステム。
【請求項１２】上記無視された要求は、無効の要求で
ある請求項１１に記載のコンピュータシステム。
【請求項１３】アドレスへ発生された要求を無視する
上記手段は、その要求を発生したプロセッサが、そのア
ドレスを追跡機構に入力させたプロセッサに対応する場
合だけ要求を無視する請求項１１に記載のコンピュータ
システム。
【請求項１４】上記追跡機構に記憶されたアドレスへ
発生される参照情報を、上記順序付けされたチャンネル
のコマンドが受け取られるまで遅延するための手段を更
に備え、上記参照情報は、そのアドレスに対応する追跡
機構の第１ビットがセットされる前に受け取られる請求
項１０に記載のコンピュータシステム。
【請求項１５】上記参照情報は、上記アドレスに関連
したデータの所望のバージョンがマルチプロセッサノー
ドに返送されるまで更に遅延される請求項１４に記載の
コンピュータシステム。
【請求項１６】上記参照情報は、上記アドレスに関連
したデータの所望のバージョンが、そのアドレスを追跡
機構に入力させた複数のプロセッサの１つに返送される
まで、更に遅延される請求項１３に記載のコンピュータ
システム。
【請求項１７】マルチプロセッサコンピュータシステ
ムの共通のアドレスへ発生される複数の要求間の順序を
維持する方法であって、上記マルチプロセッサコンピュ
ータシステムは、スイッチを経て接続された複数のマル
チプロセッサノードを備え、マルチプロセッサノードの
各々は、少なくとも１つのプロセッサ及び共用メモリの
一部分を含み、上記方法は、上記マルチプロセッサノードの各々から上記スイッチへ
送られる要求のアドレスリストを維持して、リモートマ
ルチプロセッサノードの共用メモリの一部分における各
アドレスに対して要求の相対的な順序を識別し、アドレ
スに関連した要求が満足されるまでアドレスをリストに
維持することを特徴とする方法。
【請求項１８】上記複数のマルチプロセッサノードの
各々は、対応するマルチプロセッサノードにおける共用
メモリの一部分へ要求の初期順序を与えるためのシリア
ル化ポイントを備えた請求項１７に記載の方法。
【請求項１９】上記複数のマルチプロセッサノード各
々の少なくとも１つのプロセッサ各々は、各々複数のト
ランザクションを含む複数の要求を発生し、複数のトラ
ンザクションの各々は、複数のチャンネルの対応する１
つを経て転送され、そして上記複数のチャンネルのうち
の第１チャンネルは、上記シリアル化ポイントへトラン
ザクションを搬送する請求項１８に記載の方法。
【請求項２０】上記複数のチャンネルのうちの第２チ
ャンネルは、上記シリアル化ポイントから発生されるト
ランザクションを搬送し、そして共通のアドレスへのト
ランザクションは、上記複数のチャンネルのうちの第２
チャンネルにおいて厳密に順序付けされる請求項１９に
記載の方法。
【請求項２１】上記要求のアドレスリストは、少なく
とも１つの順序付けされたチャンネルにおける関連する
トランザクションにより指示されて参照情報の順序を識
別し、その順序は、他のチャンネルにおけるトランザク
ションに対して再構成できる請求項２０に記載の方法。
【請求項２２】第３のトランザクションを含む要求の
各々に対し、その要求に対応するメモリの共用部分に関
連したマルチプロセッサノードのアドレスリストに、そ
の要求が第３のトランザクションを有することを指示す
る段階を更に含む請求項２１に記載の方法。
【請求項２３】上記指示段階は、更に、上記少なくと
も１つの順序付けされたチャンネルに発生されたコマン
ドを上記アドレスリストへ発生する段階を含む請求項２
２に記載の方法。
【請求項２４】上記アドレスリストは複数のエントリ
ーを備え、各エントリーは、別のマルチプロセッサノー
ドのメモリ位置をアドレスする参照情報のアドレスを記
憶するためのものであり、そして関連する要求の状態を
指示するための複数の状態ビットを更に含む請求項２３
に記載の方法。
【請求項２５】上記状態ビットは、要求が第３のトラ
ンザクションを有することを指示する上記順序付けされ
たチャンネルのコマンドがマルチプロセッサノードに返
送されたかどうかを示すための第１ビットセットを更に
含む請求項４に記載の方法。
【請求項２６】上記状態ビットは、更に、第３のトラ
ンザクションがマルチプロセッサノードに返送されたか
どうかを指示するための第２ビットセットを含み、そし
て上記方法は、更に、状態ビットセットの第１ビット及
び第２ビットの両方を有するトランザクションテーブル
からエントリーを除去する段階を含む請求項２５に記載
の方法。
【請求項２７】上記アドレスリストに記憶されたアド
レスへ発生される要求であって、上記順序付けされたチ
ャンネルにおけるコマンドの受信を指示するためにその
アドレスに対応するアドレスリストの第１ビットがセッ
トされる前に受け取られた要求を無視する段階を更に含
む請求項２６に記載の方法。
【請求項２８】上記無視される要求は、無効の要求で
ある請求項２７に記載の方法。
【請求項２９】アドレスへ発生された要求を無視する
上記段階は、その要求を発生したプロセッサが、そのア
ドレスをアドレスリストに入力させたプロセッサに対応
する場合だけ要求を無視する請求項２８に記載の方法。
【請求項３０】上記アドレスリストに記憶されたアド
レスへ発生される参照情報を、上記順序付けされたチャ
ンネルのコマンドが受け取られるまで遅延する段階を更
に含み、上記参照情報は、そのアドレスに対応する追跡
機構の第１ビットがセットされる前に受け取られる請求
項２９に記載の方法。
【請求項３１】上記参照情報は、上記アドレスに関連
したデータの所望のバージョンがマルチプロセッサノー
ドに返送されるまで更に遅延される請求項３０に記載の
方法。
【請求項３２】上記参照情報は、上記アドレスに関連
したデータの所望のバージョンが、そのアドレスをアド
レスリストに入力させた複数のプロセッサの１つに返送
されるまで、更に遅延される請求項３１に記載の方法。