JPH11282821A

JPH11282821A - 同時トランザクションを依存性で管理するための低占有度プロトコル

Info

Publication number: JPH11282821A
Application number: JP10340925A
Authority: JP
Inventors: Simon C Steely; シーステイーリイシモン; Madhumitra Sharma; シャルママドハミトラ; Stephen R Vandoren; アールヴァンドーレンスティーヴン
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1997-10-24
Filing date: 1998-10-26
Publication date: 1999-10-15
Also published as: US6154816A; EP0911736A1

Abstract

(57)【要約】（修正有）【課題】共用メモリを含む多数のマルチプロセッサノ
ードがスイッチを経て互いに接続された対称的マルチプ
ロセッサシステム（ＳＭＰ）。【解決手段】大型ＳＭＰに使用するアーキテクチャ及
びコヒレンスプロトコルは、多数のマルチプロセッサノ
ードをスイッチに接続して最適な性能で動作できるよう
にするハイアラーキースイッチ構造体を備えている。各
ノードには、同時バッファシステムが設けられ、ノード
の全てのプロセッサが最大性能で動作でき、またメモリ
コヒレンス性を維持する多数の要素、即ちビクティムキ
ャッシュ、ディレクトリ及びトランザクション追跡テー
ブルを含む。ビクティムキャッシュは、リモートノード
のメモリを行先とするビクティムデータを選択的に更新
し、メモリの全性能を改善する。ディレクトリと共に使
用してメモリに書き込まれるビクティムを識別する遅延
書き込みバッファは、メモリ性能を更に改善する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、コンピュ
ータアーキテクチャーの分野に係り、より詳細には、分
散型共用メモリマルチプロセッサシステムに係る。

【０００２】

【従来の技術】この分野で良く知られているように、対
称型のマルチプロセッサコンピュータは、高性能のアプ
リケーション処理を行うことができる。通常の対称型マ
ルチプロセッサコンピュータシステムは、バスによって
互いに接続された多数のプロセッサを備えている。対称
型マルチプロセッサシステムの１つの特徴は、メモリ空
間が全てのプロセッサ間で共用されることである。１つ
以上のオペレーティングシステムがメモリに記憶され、
種々のプロセッサ間でのプロセッサ又はスレッドの分散
を制御する。異なるプロセッサ又はスレッドが多数の異
なるプロセスを同時に実行できるようにすることによ
り、所与のアプリケーションの実行速度を著しく高める
ことができる。理論的に、システムの性能は、マルチプ
ロセッサシステムにおけるプロセッサの台数を増加する
だけで改善することができる。実際には、ある飽和点を
越えてプロセッサを追加し続けると、単に通信ボトルネ
ックが増えるだけとなり、従って、全システム性能を制
限することになる。

【０００３】例えば、図１Ａには、共通の相互接続バス
を経て互いに接続された８個のプロセッサを含む典型的
な公知のマルチプロセッサシステム２が示されている。
動作中に、各プロセッサ３ａ−３ｈは、共用相互接続バ
ス５を経て互いに他のプロセッサ及び共用メモリ４と通
信する。図1Aの対称型マルチプロセッサ構成は、今日ま
でに構築されたマルチプロセッサについて充分である。
しかしながら、より高速のマイクロプロセッサの出現に
伴い、通常の共用相互接続バスは、接続されたマイクロ
プロセッサの潜在的な全性能を充分に働かせることがで
きない。プロセッサとメモリとの間の唯一の通信リンク
は、共用バスであるから、バスはプロセッサからの要求
で急速に飽和状態となり、各プロセッサがシステムバス
へのアクセスを得るよう試みるときに遅延が増大する。
それ故、プロセッサは、高い速度で動作することができ
るが、性能に関する制限ファクタは、システムバスの使
用可能な帯域である。

【０００４】通信帯域巾は、対称的マルチ処理ＳＭＰシ
ステムの性能において重要なファクタである。帯域巾
は、ＳＭＰシステムにおけるノードの対又はサブセット
の間で均一ではないから、業界では、ＳＭＰシステムの
通信帯域巾を決定するために「二等分帯域巾」測定を使
用している。二等分帯域巾は、次のように決定される。
システムを等しい計算能力（等しいプロセッサ数）の２
つの部分に区分化する全ての考えられる方法が確かめら
れている。各区分に対し、２つの区分間に維持し得る帯
域巾が決定される。全ての維持し得る帯域巾の最小値
は、相互接続の二等分帯域巾である。２つの区分間の最
小帯域巾は、最悪の通信パターンが存在するときにマル
チプロセッサシステムにより維持できる通信帯域巾を指
示する。従って、大きな二等分帯域巾が望まれる。

【０００５】公知技術では、バス飽和の問題を克服する
ために、多数の相互接続アーキテクチャー即ち「トポロ
ジー」が使用されている。これらのトポロジーは、メッ
シュ、トーラス（円環体）、ハイパーキューブ（超立
体）及び拡張ハイパーキューブを含む。

【０００６】

【発明が解決しようとする課題】例えば、メッシュ相互
接続は、図１Ｂにシステム７として示されている。メッ
シュネットワークの主な利点は、簡単で且つ配線が容易
なことである。各ノードは、少数の他の隣接ノードに接
続される。しかしながら、メッシュ相互接続は、３つの
重大な欠点を有する。第１に、メッセージは、それらの
行先に到達するために平均的に多数のノードを横断しな
ければならず、その結果、通信の待ち時間が長くなる。
第２に、二等分帯域巾は、他のトポロジーに対するもの
であるから、メッシュトポロジーの場合に充分に計測し
ない。最後に、各メッセージはメッシュ内の異なる経路
を進行するので、ＳＭＰシステム内には自然の順序付け
ポイントが存在せず、それ故、メッシュトポロジーの実
施を必要とするキャッシュコヒレンスプロトコルがしば
しば非常に複雑なものとなる。

【０００７】トーラス、ハイパーキューブ及び拡張ハイ
パーキューブトポロジーは、全て、ノードが種々の複雑
な構成、例えば円環体構成又は立体構成で相互接続され
たトポロジーである。トーラス、ハイパーキューブ及び
拡張ハイパーキューブの相互接続は、メッシュ相互接続
よりも複雑であるが、その待ち時間及び帯域巾は、メッ
シュ相互接続よりも優れている。しかしながら、メッシ
ュ相互接続と同様に、トーラス、ハイパーキューブ及び
拡張ハイパーキューブトポロジーは、自然の順序付けポ
イントを与えず、従って、これらのシステムの各々に対
して複雑なキャッシュコヒレンスプロトコルを実施しな
ければならない。共用メモリのマルチプロセッサシステ
ムでは、プロセッサは、通常、将来アクセスされる見込
みが高いと決定されたデータを記憶するために専用キャ
ッシュを使用している。プロセッサは、それらの専用キ
ャッシュからデータを読み取りそしてメモリへ書き戻す
ことなく専用キャッシュにおいてデータを更新するの
で、各プロセッサの専用キャッシュが一貫して即ちコヒ
レントに保持されるよう確保するための機構が必要とな
る。ＳＭＰシステムのデータのコヒレンス性を確保する
のに使用される機構は、キャッシュコヒレンスプロトコ
ルと称される。

【０００８】物理的な相互接続部のトポロジー、帯域巾
及び待ち時間に加えて、キャッシュコヒレンスプロトコ
ルの効率も、システム性能の重要なファクタである。キ
ャッシュコヒレンスプロトコルは、待ち時間、ボトルネ
ック、非効率性又は複雑さを多数の仕方で導入する。ロ
ード及び記憶動作の待ち時間は、設計のプロトコルによ
って直接影響されることがしばしばある。例えば、ある
プロトコルでは、全ての無効化メッセージがそれらのタ
ーゲットプロセッサへ送られそして確認メッセージがそ
の元のプロセッサへ完全に返送されるまで記憶動作が完
了したとみなされない。従って、記憶の待ち時間は、無
効化がその行先へ送られるのを元のプロセッサが待機し
なくてよいプロトコルよりも相当に長いものとなる。更
に、確認は、システム帯域巾の相当の部分を消費する。

【０００９】ボトルネックは、コントローラの高い占有
度によりしばしば生じる。「占有度」とは、コントロー
ラが要求を受け取った後に使用できなくなる時間の長さ
を示す用語である。あるプロトコルでは、直接的なコン
トローラは、メモリ位置に対応する要求を受け取ると、
その前のコマンドに対応するある確認がディレクトリに
到着するまで同じメモリ位置への他の要求に対して使用
できなくなる。コントローラは、平均より高いレートで
競合する要求を受け取る場合に、ボトルネックとなる。
又、キャッシュコヒレンスプロトコルの設計は、ハード
ウェアの複雑さにも影響する。例えば、あるプロトコル
は、停滞及び公正さの問題を招き、これらは、付加的な
機構で対処される。その結果、ハードウェアの複雑さが
増大する。

【００１０】そこで、オペレーションの待ち時間を最小
にし、広い通信帯域巾を与え、コントローラの占有度を
低くし、そして多数のプロセッサへと拡張することので
きる対称的なマルチプロセッサシステムを提供すること
が要望される。

【００１１】

【課題を解決するための手段】本発明は、少なくとも１
つのプロセッサ及び共用メモリの一部分を含む多数のマ
ルチプロセッサノードがスイッチを経て互いに接続され
た対称的なマルチプロセッサシステムに効果的に使用さ
れる。本発明は、その広い形態において、請求項１、１
９及び２０に記載するマルチ処理システム及び方法に係
る。以下に述べるように、マルチプロセッサノードの各
々にはディレクトリが維持される。ディレクトリは、マ
ルチプロセッサノードにおいて共用メモリの一部分の各
ブロックごとにエントリを含み、そしてブロックのコピ
ーを記憶する他のマルチプロセッサノードを指示する。
各マルチプロセッサノードは、少なくとも１つのプロセ
ッサと、マルチプロセッサノードにおけるプロセッサの
数に対応する多数のサブセットに配分されたタグ記憶装
置とを備えている。タグ記憶装置は、対応するプロセッ
サに記憶されたメモリの各ブロックごとに状態情報を記
憶する。各マルチプロセッサノードにおいて各ディレク
トリ及びタグ記憶装置に接続されたバスは、ディレクト
リに関連したデータのブロックへの参照の順序を定義す
るシリアル化ポイントを形成する。各参照は、参照の始
めに一度だけディレクトリを訪れ、データブロックのコ
ピーの位置を決定する。各参照は、ディレクトリにおい
て順序を受け取り、そして各参照は、一度だけディレク
トリをアクセスするので、データの共通ブロックへの多
数の参照が所与の時間周期中に実行される一方、データ
コヒレンス性が維持される。更に、参照がディレクトリ
をアクセスしたときに、それが首尾良く完了するよう保
証するための機構が設けられる。これらの機構を設ける
ことにより、命令の再トライ又は命令の首尾良い完了を
指示する確認を必要としない対称的なマルチ処理システ
ムが提供される。この機構は、ビクティムデータがメモ
リに書き戻されるときにそれを一時的に記憶するために
各マルチプロセッサノードに設けられたビクティムキャ
ッシュを含む。マルチ処理システムにビクティムキャッ
シュを設けることにより、メモリへの書き込みを保留す
るより多くのビクティムを記憶することができ、それ
故、メモリのコヒレンス性を維持するために個々のプロ
セッサに遅延を伴う負担をかけない。参照の首尾良い完
了を確保するのに使用される別の機構は、所与のアドレ
スに対する適当なデータバージョンが返送されるまでそ
のアドレスへの読み取りを遅延するデータ依存性ストー
ル機構である。首尾良い完了を確保しそして同じアドレ
スへの多数のトランザクションを同時に実行できるよう
にするために使用される第３の機構は、マーカー記入機
構である。各要求は、多数の段階のトランザクションを
含み、トランザクションの各段階にはそれら自身のチャ
ンネルが割り当てられる。マーカー記入機構は、要求を
発しているマルチプロセッサノード（又はプロセッサ）
に、読み取りデータに関連したディレクトリを要求がア
クセスしたこと、及びそのプロセスの読み取りデータが
その要求を発しているマルチプロセッサノードへ返送さ
れることを指示するために、１つのチャンネルに送られ
るマーカーパケットを与える。

【００１２】以下に述べる好ましい実施形態では、マル
チ処理システムは、スイッチを経て接続された複数のマ
ルチプロセッサノードを含む。複数のマルチプロセッサ
ノードの各々は、少なくとも１つのプロセッサを更に含
む。マルチプロセッサノードは、複数のブロックへと配
分される共用メモリと、この共用メモリの複数のブロッ
クに個数が対応する複数のエントリを含むディレクトリ
とを含む。ディレクトリの各エントリは、複数のマルチ
プロセッサノードのどれがデータブロックのコピーを記
憶するか識別する。ディレクトリに接続されたバスは、
複数のブロックへのアクセスを順序付けするためのシリ
アル化ポイントを形成し、複数のブロックの１つへの多
数の参照をマルチ処理システムにおいて実質的に同時に
実行できるようにする。

【００１３】更に、マルチ処理システムにおいて共用メ
モリの共通ブロックへの多数の参照を同時に実行できる
ようにする方法が提供される。マルチ処理システムは、
スイッチを経て接続された複数のマルチプロセッサノー
ドを備え、複数のマルチプロセッサノードの各々は、少
なくとも１つのプロセッサと、複数のブロックへと配分
された共用メモリの一部分と、シリアル化ユニットとを
含む。シリアル化ユニットは、共用メモリの複数のブロ
ック部分に個数が対応する複数のエントリを含む。上記
方法は、共通ブロックへの全ての参照を、その共通ブロ
ックに関連したマルチプロセッサノードのシリアル化ユ
ニットにそれらが受け取られるときに順序付けする段階
を含み、各参照は実行中に一度だけシリアル化ユニット
を訪れる。更に、上記方法は、行先に記憶された共通ブ
ロックへの参照の完了を、共用メモリのブロックの所望
バージョンが行先に返送されるまで遅延する段階を含
む。

【００１４】

【発明の実施の形態】添付図面を参照した以下の詳細な
説明から明らから本発明が更に良く理解されよう。本発
明の１つの実施形態によれば、ハイアラーキー式の対称
的マルチプロセッサ（ＳＭＰ）システムは、高性能スイ
ッチを経て互いに接続された多数のＳＭＰノードを備え
ている。従って、ＳＭＰノードの各々は、ＳＭＰシステ
ムにおいてビルディングブロックとして働く。以下、１
つのＳＭＰノードビルディングブロックの要素及び動作
を最初に説明し、その後に、ＳＭＰシステムの動作を説
明し、それに続いて、大規模のＳＭＰシステムにおいて
メモリのコヒレンス性を維持するために使用されるキャ
ッシュコヒレンスプロトコルを説明する。

【００１５】ＳＭＰノードビルディングブロック図２を参照すれば、マルチプロセッサノード１０は、４
つのプロセッサモジュール１２ａ、１２ｂ、１２ｃ及び
１２ｄを備えている。各プロセッサモジュールは、中央
処理ユニット（ＣＰＵ）を備えている。好ましい実施形
態では、デジタル・イクイップメント社で製造されたＡ
ｌｐｈａ（登録商標）２１２６４プロセッサチップが使
用されるが、以下に述べるコヒレンスプロトコルをサポ
ートすることのできるものであれば、他の形式のプロセ
ッサチップも使用できる。マルチプロセッサノード１０
は、多数のメモリモジュール１３ａ―１３ｄを含むメモ
リ１３を備えている。このメモリは、３２ギガバイトの
記憶容量を備え、４つのメモリモジュールの各々が８ギ
ガバイトを記憶する。各メモリモジュールは、多数のメ
モリブロックに分割され、各ブロックは、例えば、６４
バイトのデータを含む。データは、一般に、メモリから
ブロックで検索される。

【００１６】更に、マルチプロセッサノード１０は、接
続されたＩ／Ｏバス１４ａを経て外部装置（図示せず）
とマルチプロセッサノード１０との間で行われるデータ
転送を制御するためのＩ／Ｏプロセッサ（ＩＯＰ）モジ
ュール１４を備えている。本発明の１つの実施形態で
は、Ｉ／Ｏバスは、周辺コンピュータ相互接続（ＰＣ
Ｉ）プロトコルに基づいて動作する。ＩＯＰ１４は、Ｉ
ＯＰキャッシュ１４ｃ及びＩＯＰタグ記憶装置１４ｂを
含む。ＩＯＰキャッシュ１４ｃは、ＰＣＩバス１４ａを
経て外部装置へ転送されるメモリ１３からのデータのた
めの一時的な記憶装置である。ＩＯＰタグ記憶装置１４
ｂは、外部装置とプロセッサとメモリとの間に移動され
るデータに対するコヒレンス情報を記憶するための６４
エントリのタグ記憶装置である。

【００１７】マルチプロセッサノードのメモリ１３に記
憶されたデータのコヒレンス性は、デュープリケートタ
グ記憶装置（ＤＲＡＧ）２０によって維持される。ＤＴ
ＡＧ２０は、全てのプロセッサ１２ａ―１２ｄにより共
用され、そして４つのバンクに分割される。各バンク
は、関連するプロセッサにより使用されるデータに対応
する状態情報を専用に記憶する。ＤＴＡＧ、メモリ及び
ＩＯＰは、ＡＲＢバス１７と称する論理バスに接続され
る。プロセッサにより発生されるメモリブロック要求
は、ローカルスイッチ１５を経てＡＲＢバス１７にルー
ト指定される。ＤＴＡＧ２０及びＩＯＰ１４は、プロセ
ッサ及びＩＯＰのキャッシュにおけるブロックの状態を
ルックアップし、そしてメモリブロックに対しそれらの
状態を原子的に更新する。ＡＲＢバス１７は、全てのメ
モリ参照に対してシリアル化ポイントとして働く。メモ
リ要求がＡＲＢバスに現れる順序は、プロセッサが要求
の結果を認知する順序である。

【００１８】プロセッサモジュール１２ａ―１２ｄ、メ
モリモジュール１３ａ―１３ｄ及びＩＯＰモジュール１
４は、ローカルの９ポートスイッチ１５を経て互いに接
続される。インターフェイスモジュール１２ａ―１２
ｄ、１３ａ―１３ｄ及び１４の各々は、同数の両方向性
クロック送信データリンク１６ａ―１６ｉによりローカ
ルスイッチに接続される。１つの実施形態では、データ
リンクの各々は、１５０ＭＨｚのレートで動作するシス
テムクロックの各縁で６４ビットのデータ及び８ビット
のエラー修正コード（ＥＣＣ）を送信する。従って、デ
ータリンク１６ａ―１６ｉの各々のデータ帯域巾は、
２．４ギガバイト／ｓである。ローカルスイッチ１５
は、クオドスイッチアドレス制御チップ（ＱＳＡチッ
プ）１８及びクオドスイッチデータスライスチップ（Ｑ
ＳＤチップ）１９を備えている。ＱＳＡチップ１８は、
プロセッサモジュールＩＯＰとメモリとの間のアドレス
経路を制御するためのアービター（ＱＳＡＲＢ）１１
を備えている。更に、ＱＳＡチップ１８は、以下に述べ
るようにローカルスイッチ１５を通るデータの流れを制
御するためにＱＳＤチップ１９を制御する。ＱＳＤチ
ップ１９は、プロセッサモジュールと、メモリモジュー
ルと、ＩＯＰとの間の全てのデータ経路に対するスイッ
チ相互接続を与える。図２には示されていないが、以下
に述べるように、マルチプロセッサノード１０がグロー
バルポートを経て他のマルチプロセッサノードに接続さ
れた場合には、ＱＳＤ及びＯＳＡがグローバルポートに
対するスイッチ相互接続部を付加的に形成する。各プロ
セッサは、メモリデバイス１３ａ―１４ｄ、他のプロセ
ッサ１２ａ―１２ｄ、ＩＯＰ１４のような使用可能なリ
ソースの１つからデータを要求することもできるし、或
いは他のマルチプロセッサノードのリソースからグロー
バルポートを経てデータを要求することもできる。従っ
て、ローカルスイッチ１５は、２．４ギガバイトの広い
バス帯域巾を維持しながら、種々のリソースから同時入
力を受け入れることができねばならない。

【００１９】ローカルスイッチは、多数の同時トランザ
クションを取り扱うことができる。各トランザクション
は、通常、多数のリソース（メモリバンクや、データ経
路や、待ち行列のような）を使用するので、ローカルス
イッチの制御機能は非常に複雑になる。例えば、あるト
ランザクションは、そのトランザクションの段階０でメ
モリバンクを使用でき、段階１でメモリバンクからプロ
セッサポートへのデータ経路を使用でき、そして段階２
でプロセッサポートからプロセッサへのデータ経路を使
用できることを必要とする。ローカルスイッチアービタ
ー（ＱＳＡ１８のＱＳＡＡＲＢ１１）は、あるトラン
ザクションが開始されると、各段階でトランザクション
により必要とされるリソースが必要に応じて使用できる
ように要求を裁定する。

【００２０】より重要なことに、アービターは、特定の
要求が、他の要求の進行中に長時間にわたり（潜在的に
不定に）裁定に負けることのないよう確保することによ
り、全ての要求及びプロセッサがリソースに対して公平
なアクセスを得るように保証する。例えば、３つのリソ
ースＡ、Ｂ及びＣを要求するトランザクションＴについ
て考える。このトランザクションＴは、トランザクショ
ンの適当な段階に３つのリソース全部が使用できるよう
保証されるまで裁定に勝てない。リソースが使用可能で
あることのみに基づいてアービターがその判断を行う場
合には、トランザクションＴは、Ａ、Ｂ又はＣの１つを
使用する（他のリソースＤ、Ｅ等と共に）他のトランザ
クションが裁定に勝ち続ける間は、長時間にわたって成
功しないことが考えられる。

【００２１】各々が多数のリソースを使用して完了する
ような非常に多数の同時要求を伴うスイッチにおいて公
平な裁定を保証するのは、計算上複雑である上に、高速
データ経路において遅延を増加し勝ちである。ここに示
す装置においては、ＱＳＡＡＲＢ１１が、特定のトラン
ザクションをスケジュールする前に、１つのリソース
（メモリバンク）のみについて裁定を行う。プロセッサ
に通じる待ち行列である第２のリソースは、ＱＳＡＡ
ＲＢ１１により第１のリソースについて裁定を行うとき
に、それが使用可能であるかどうかについてチェックす
る必要がない。というのは、ＱＳＤのアーキテクチャー
がそのデータ経路を保証しそして待ち行列に通じる待ち
行列スロットが常に使用できるからである。リソースに
対する公平な裁定は、ＱＳＡＡＲＢ１１に著しい複雑さ
を伴うことなく与えられる。

【００２２】本発明の１つの実施形態によれば、ＱＳＤ
は、対応する行先に通じるバッファに対してアップフロ
ント裁定を必要とせずに全てのリソース（プロセッサ、
メモリ、ＩＯＰ及びグローバルポート）からの入力を同
時に受け取ることができる。次いで、全てのデータリソ
ースは、データ経路又はスイッチにおける待ち行列スロ
ットへのアクセスを裁定する必要なく、スイッチへデー
タを独立して送信することができる。というのは、ＱＳ
Ｄは、全てのリソースからのデータを実質的に同時に受
信することのできる多数の同時挿入バッファを備えてい
るからである。同時挿入バッファの２つの実施形態を以
下に説明する。

【００２３】同時挿入バッファスイッチ上記のように、マルチプロセッサノードにおけるプロセ
ッサ１２ａ―１２ｄ、ＩＯＰ１４及びメモリデバイス１
３ａ―１３ｄの各々は、マルチプロセッサノードのプロ
セッサ及びＩＯＰからの要求を取り扱うためのリソース
として働く。データは、各リソース要素と、要求を発す
る要素との間でパケットの形態で転送される。各パケッ
トは、５１２ビットのデータと、６４ビットのＥＣＣと
を含む。上記したように、各データリンクは、６４ビッ
トのデータ及び８ビットのＥＣＣを１５０ＭＨｚクロッ
クの各縁において搬送する。従って、ＱＳＤの外部に
は、パケット当たり８個のデータ転送サイクルがある。
しかしながら、ＱＳＤの内部では、クロックの１つの縁
においてのみデータが収集される。従って、ＱＳＤの内
部のロジックの各クロックサイクルに対し、潜在的に１
２８ビットのデータがデータリンクから受け取られる。
各パケットは、５１２ビットのデータ及び６４ビットの
ＥＣＣを含むので、ＱＳＤの内部では、各パケットごと
に４つのデータ転送サイクルがあり、各ＱＳＤクロック
サイクルに、１２８ビットのデータ及び１６ビットのＥ
ＣＣがプロセッサ、ＩＯＰ又はメモリデバイスからＱＳ
Ｄへ転送される。

【００２４】図３を参照すれば、ＱＳＤ１９は、５つの
同時挿入バッファ（ＳＩＢ）２５ａ―２５ｅを含むよう
に詳細に示されている。各ＳＩＢは、要求側要素、即ち
プロセッサ１２ａ―１２ｄ又はＩＯＰの１つに専用であ
る。各ＳＩＢは、それに関連した要求側要素と、ノード
内の他のリソース要素、即ちプロセッサ１２ａ―１２
ｄ、メモリ１３ａ―１３ｄ、ＩＯＰ１４及び好ましくは
グローバルポートとの間でパケットを転送するためのデ
ータ経路を制御する。グローバルポートは、他のマルチ
プロセッサノードへの相互接続部として働き、以下に詳
細に説明する。ＳＩＢは、スイッチへのアクセスに対し
要求側要素間の裁定を必要とせずに、スイッチに接続さ
れたいずれのリソースからでも要求側要素によりパケッ
トを同時に受信できるようにする。

【００２５】既に述べたように、ＱＳＡＡＲＢ１１
は、スイッチ１９への制御を与えるように接続される。
ＱＳＡＡＲＢ１１には、メインアービター２７が含ま
れる。このメインアービター２７は、リソース（ＩＯ
Ｐ、プロセッサ１２ａ―１２ｄ及びメモリ１３ａ―１３
ｄ）とスイッチ１９との間のデータの移動を管理する。
プロセッサ１２ａ―１２ｄ及びＩＯＰ１４の各々は、ラ
イン２８ａ―２８ｅ上のリソースの１つへアクセスする
ための要求を発生し、これらは、メインアービター２７
に送られる。次いで、メインアービターは、各リソース
が要求を受信できるときにこれらの要求をその関連リソ
ースへ送る。リソースが要求を受け取るときに、スイッ
チ１９の裁定は必要とされない。というのは、ＳＩＢの
各々は、全ての入力からの入力を実質的に同時に即ち同
じデータサイクル内に受け取ることができるからであ
る。又、ＱＳＡＡＥＢ１１には、多数の個々のアー
ビター２３ａ―２３ｄも含まれる。これらアービター２
３ａ−２３ｄの各々は、プロセッサ１２ａ―１２ｄの関
連する１つと、それに対応するＳＩＢ２５ｂ―２５ｅと
の間のデータ路を管理するのに使用される。ＩＯＰ１４
とＳＩＢ２５ａとの間のデータ路を管理するために、Ｉ
ＯＰ１４には同様のアービター（図示せず）が含まれ
る。各プロセッサは、その関連ＳＩＢからデータを受け
取ることができるので、その関連アービターは、接続さ
れたデータ路にデータを送信する。

【００２６】従って、スイッチ１９内の同時挿入バッフ
ァの使用により、要求側要素とリソースとの間の裁定経
路は、２つの別々の区分に分割される。即ち、接続され
たりソースからデータを受け取るために要求を発してい
るプロセッサが使用できるかどうかに拘わりなくプロセ
ッサからの要求に応答してメインアービター２７がリソ
ースを裁定するところの第１裁定区分と、プロセッサに
関連したアービターがスイッチからのデータを送信する
ためにプロセッサへのアクセスを裁定するところの第２
裁定区分である。このような構成では、裁定が分離され
るために、接続されたりソース各々への公平なアクセス
が与えられるように保証することができる。図４Ａを参
照すれば、ＳＩＢ２５ａの１つの実施形態が詳細に示さ
れており、これは、ライン３６ａを経て８個の接続され
たマルチプレクサ３４ａ―３４ｈにＭＵＸ選択信号＜３
１：０＞を与えるように接続された入力アービター３６
を備え、ＭＵＸ選択信号の４つが８個のマルチプレクサ
の各々に送られて、各マルチプレクサの９個の入力の１
つが選択される。ＳＩＢ２５ａ―２５ｄは全て同様の構
造にされ、従って、その１つについてのみ詳細に説明す
る。上記したように、潜在的に１０個のリソースがＳＩ
Ｂに接続される。１０個のリソースの１つは、ＳＩＢか
ら出力を受信する要求側デバイスであり、一方、他の９
個のリソースは、ＳＩＢに入力を与える。それ故、マル
チプレクサ３４ａ―３４ｈの各々は、ＳＩＢに接続され
た９個のリソースから入力を受け取る。接続されたプロ
セッサの３つからの入力は、ラインＰｘ、Ｐｙ及びＰｚ
を経て受け取られる。第４のプロセッサ（ＳＩＢがＩＯ
Ｐデバイスに関連するとき）又はＩＯＰデバイス（ＳＩ
Ｂが１つのプロセッサに関連するとき）からの別の入力
はラインＰＷ／ＩＯＰを経て受け取られる。メモリバン
ク１３ａ―１３ｄからの入力は、各々、ラインｍｅｍ
０、ｍｅｍ１、ｍｅｍ２及びｍｅｍ３を経て受け取ら
れ、そしてグローバルポートからの入力は、グローバル
ポートラインを経て受け取られる。マルチプレクサ３４
ａ―３４ｈの各々からの各出力は、バッファ３２の８個
のバンクの１つに接続される。各バンクは８個のエント
リを有し、各エントリは、１２８ビットのデータ及び１
６ビットのＥＣＣを記憶する。従って、ＳＩＢにより受
信されるデータの各パケットは、バッファ３２の同じ行
において４つの異なるバンクに書き込まれる。以下に述
べるように、入力アービター３６は、データを記憶する
のに使用できるバッファのバンクを指示するための状態
ビットを維持する。従って、１つ以上のリソースから１
２８ビットのパケットデータが受け取られる各サイクル
ごとに、入力アービター３６は、バンクの使用状態に基
づいて関連バンク３２ａ―３２ｈへパケットデータのサ
イクルを送信するために、各マルチプレクサ３４ａ―３
４ｈにおける考えられる９個のリソース入力の１つを選
択する。又、入力アービターは、ライン３６ｂを経てマ
ルチプレクサ３０へバイパスデータも与える。入力アー
ビターの状態ビットが、全てのバンク３２ａ―３２ｈが
空であることを指示するときには、９個のリソース入力
の１つが入力アービター３６を経て関連する要求側要素
へ直接バイパスされる。

【００２７】バンク３２ａ―３２ｈの各々は、マルチプ
レクサ３０に接続される。マルチプレクサ３０は、出力
アービター３８により制御される。ＳＩＢ２５ａに関連
する要求側要素がＳＩＢからデータを受け取る準備がで
き、そしてパケットの一部分がＳＩＢのエントリに書き
込まれると、出力アービターは、バンク３２ａ―３２ｈ
から要求側要素に８個のエントリーの１つを供給する。
或いは又、出力アービターは、いずれのバンクも転送保
留データをもたずそして入力アービターからライン３６
ｂを経てデータが得られる場合には、ライン３６ｂを経
て要求側要素にバイパスデータを供給する。動作中に、
パケットデータの第１の１２８ビットがＳＩＢに受け取
られたときに、８個のバンクの１つが、パケットデータ
の第１の１２８ビットを記憶するために選択される。本
発明の１つの実施形態によれば、パケットデータの１２
８ビットが受け取られる次の３サイクルの各々の間に、
手前の書き込みを実行するのに使用したバンクに隣接す
るバンクが、パケットデータの次の１２８ビットを書き
込むのに選択される。例えば、バンク３２ａが、ソース
ｍｅｍ０からパケットデータの第１サイクルを書き込む
のに使用できるバンクとして選択された場合には、パケ
ットデータの第２サイクルはバンク３２ｂに書き込ま
れ、第３サイクルはバンク３２ｃに書き込まれ、そして
第４サイクルはバンク３２ｄに書き込まれる。従って、
パケットデータのその後のサイクルを書き込むためにど
のバンクを使用すべきかの選択は、入力アービターによ
り選択されたバンクでスタートしそして各次々のパケッ
ト書き込みに対して隣接バンクに続くようにして回転ベ
ースで実行される。その結果、受け取られたパケットが
バッファ３２の共通の行における４つのバンクにわたっ
て分散される。

【００２８】８個のバンクが設けられ、そして本発明の
１つの実施形態では、いずれの要求側要素においても保
留となり得るリソース読み取りの最大数は８であるか
ら、各書き込みサイクルの間に各リソースに対して少な
くとも１つのバンクを使用できることが確保される。そ
れ故、所与の瞬間に、全部で８個の保留の読み取り応答
がスイッチによって受け取られた場合に、バンク３２ａ
―３２ｈの各々を使用して、第１のパケットデータ書き
込みサイクルを受け入れることができ、バンクの選択
は、次の３つの書き込みサイクルについて回転される。
本発明の１つの実施形態では、ＳＩＢの各バッファは、
先入れ先出し（ＦＩＦＯ）プロトコルのもとで動作す
る。パケットの２つの部分が同時に受け取られるので、
それらに対しスイッチへ「読み込まれる」順序が選択さ
れる。リソースに対して裁定を行う要求側要素のロジッ
クは、ＳＩＢと通信せず、そしてリソースに対して裁定
するための他の要求側要素とも通信しないので、標準的
なルールに従ってデータの完全性を確保する。例えば、
リソースに固定の優先順位番号が指定される場合には、
「低い番号の入力リソースからのデータが、常に、高い
番号の入力リソースからのデータの前にスイッチに書き
込まれる」というようなルールに従う。

【００２９】上記のように、図４Ａに示すＳＩＢの実施
形態では、８個のバンクの使用について説明した。とい
うのは、要求側要素が所与の瞬間にもつことのできる保
留メモリ要求の数が８に対応するからである。しかしな
がら、設計上の制約により、それより少数のバンクを設
けることが必要な場合には、インターリーブ又は同様の
技術を使用して多数のデータチャンクを共通のバンクの
異なる位置に同時に書き込みできるように当業者によっ
て容易に設計を変更することができよう。それ故、本発
明は、図４Ａに示す特定の実施形態に限定されるもので
はない。上記のように、動作中に、入力アービターは、
リソースからデータを書き込むための適当なバンクを選
択するためにバンクにおける入力の利用性に関する状態
情報を維持する。ＳＩＢへの入力を制御するための入力
アービター３６の実施形態が図４Ｂに示されている。上
記では９個の入力リソースについて述べたが、図４Ｂに
は、明瞭化のために、２つのリソース入力のみの書き込
みを制御するロジックが示されている。入力パケットデ
ータがライン３５を経て受け取られるときに、「入力
１」のような指示信号がラッチチェーン４０に送られ、
このラッチチェーンは、４個のラッチ、フリップ―フロ
ップ又は同様の状態装置を含む。ラッチチェーン４０
は、カウンタ機構として使用される。この例の目的とし
て、４つの次々のデータ転送サイクルにパケットデータ
が受け取られると仮定する。４つのデータ転送サイクル
の間に、入力信号はラッチチェーンを経て伝播する。ラ
ッチチェーンには、オアゲート４６が接続される。入力
値がラッチチェーン４０を経て伝播するときに、オアゲ
ート４６の出力がアサートされる。

【００３０】オアゲート４６の出力は、シフトレジスタ
４８へのシフト信号を与える。シフトレジスタは、ＳＩ
Ｂの各バンクについて１つづつ、８個のビット位置を含
む。シフトレジスタ４８は、入力信号サンプルを最初に
受信する際に、バンク選択ロジック４４からのビットベ
クトルがロードされる。バンク選択ロジック４４から受
け取られたビットベクトルは、１ビットがセットされる
だけであり、ベクトル内のビットの相対的な位置が、パ
ケットデータの書き込みを開始すべきバンクを指示す
る。従って、バンク選択ロジック４４は、パケットデー
タの第１サイクルの書き込み行先を制御する。バンク選
択ロジック４４は、利用性ベクトル４２を入力として受
け取り、利用性ベクトルにおけるビットの相対的な位置
が、書き込みデータを受け取ることのできない関連バッ
ファを指示する。

【００３１】バンク選択ロジックがシフトレジスタ４８
へビットを与えるときに、シフトレジスタ４８の値がデ
マルチプレクサ４９に送られる。又、デマルチプレクサ
４９は、入力１ソースが接続されるところのマルチプレ
クサ３４ａ―３４ｈの入力の数値表示も入力として受け
取る。例えば、デマルチプレクサ４９は、「１」のマル
チプレクサ選択値を用いてマルチプレクサ３４ａを経て
入力１リソースデータが送られることを指示する「１」
入力値を受け取る。選択されたバンクを指示するシフト
レジスタ内のビットの位置に基づいて、値「１」がＭＵ
Ｘ選択＜３１：０＞信号３６ａの適当な位置へ伝播され
る。各入力ソースに対する各デマルチプレクサは、全て
のＭＵＸ選択信号を駆動し、それらの出力は、これらの
信号がマルチプレクサ３４ａ―３４ｈを駆動する前にオ
アされる。

【００３２】バンクエントリの書き込みの後に、シフト
レジスタの内容がオアゲート５０によりオアされ、利用
性バンクベクトル４２として記憶される。これは、次の
サイクルの間に、どのバンクが到来する書き込みに対し
て使用できるかをバンク選択ロジック４４により決定す
るために使用される。ライン４６ａのシフト信号がアサ
ートされる各サイクルに、シフトレジスタ４８のビット
が右へシフトされる。ビットが右へシフトするときに
は、ＭＵＸ選択信号＜３１：０＞の選択値も右へシフト
され、次の書き込み動作中に入力ソースを次の隣接バン
クへ供給するようにさせる。従って、ローカルＱＳＤス
イッチ内のＳＩＢを使用することにより、多数の同時に
受け取られた入力がそれらの行先である要求側要素へ到
達するように確保できる簡単且つ効率的なスイッチング
機構が設けられる。このような構成では、リソースへの
アクセスに対してソースがいったん裁定されると、ソー
スにより実行されねばならない全ての裁定が完了する。
ソースは、リソースが常にスイッチバッファ３２へのア
クセスを得ることができるという事実に依存する。ソー
スアービターが互いに独立して動作してリソースを管理
できることにより、最小限の複雑さで公平な裁定を確保
する機構が設けられる。更に、ＳＩＢは、要求側要素の
最大数の保留中読み取りに対してデータを記憶できるの
で、たとえ全てのリソースからデータが同時に受け取ら
れても、バッファ３２に対するリソースを裁定する必要
はなく、リソースロジックの全体的な複雑さが低減され
る。

【００３３】図５には、図３に示すようにプロセッサ又
はＩＯＰデバイス（キャッシュを含む任意の要求側デバ
イス）へ接続することのできる同時挿入バッファ（ＳＩ
Ｂ）６１の第２の実施形態が示されている。ＳＩＢ６１
は、９個のマルチプレクサ６０ａ―６０ｉを含み、その
うちの８個は、８個のバッファ６２ａ―６２ｈの各々に
接続される。第９マルチプレクサ６０ｉは、以下に述べ
るようにバイパス経路を与えるのに使用される。マルチ
プレクサ６０ａ―６０ｉの各々は、接続されたメモリデ
バイスｍｅｍ０―ｍｅｍ３からの４つの入力、グローバ
ルポートからの１つの入力、接続されたプロセッサから
ラインＰｘ、Ｐｙ及びＰｚを経て送られる３つの入力、
そしてＩＯＰ（ＳＩＢに関連したデバイスがプロセッサ
の場合）又は別のプロセッサ（ＳＩＢに関連したデバイ
スがＩＯＰの場合）からラインＰＷ／ＩＯＰを経て送ら
れる１つの入力を含む９つの入力を受け取る。

【００３４】バッファ６２ａ―６２ｈの各々は、４つの
１２８ビットエントリを含む。従って、各入力バッファ
は、ＳＩＢにおいて次々のサイクル中に４つの１２８ビ
ット部分で受け取られた１つの５１２ビット情報パケッ
トを記憶する。各バッファには、４対１のマルチプレク
サ６４ａ―６４ｈが各々接続される。これらのマルチプ
レクサ６４ａ―６４ｈは、関連バッファの４つの入力の
うちの１つを選択して、マルチプレクサ６６を経てＳＩ
Ｂの出力へ供給するのに使用される。図４Ａについて上
述したように、本発明の１つの実施形態では、各要求側
要素がいかなる所与の瞬間にも異なるリソースに対して
せいぜい８個の保留中読み取り参照を有するだけである
から、８個のバッファが含まれる。従って、図５には８
個のバッファが示されているが、本発明はこれに限定さ
れるものではない。むしろ、選択されるバッファの数
は、関連するプロセッサ又はＩＯＰデバイスのバッファ
特性に依存する。

【００３５】動作中に、接続されたりソースの各々から
入力が受け取られるときに、入力アービター６７は、各
マルチプレクサにおける入力ラインの１つを選択し、デ
ータのパケットを空きバッファへ供給する。所与のリソ
ースからのパケット書き込みの時間中に同じバッファが
選択され、パケットの全ての部分が単一のバッファに維
持される。パケットの少なくとも１つの部分がバッファ
に書き込まれると、それがマルチプレクサ６６に送ら
れ、関連する要求側要素の準備ができたときにその要求
側要素へ供給される。或いは又、いずれのバッファにも
パケットデータが存在しない場合には、マルチプレクサ
６０ｉを経、マルチプレクサ６６を経てパケットデータ
を出力へ直接的に供給することによりバイパス経路を選
択することができる。

【００３６】８個のバッファが設けられるので、ＳＩＢ
デバイス６１は、接続されたりソースの各々から実質的
に同時に（即ち、同じデータサイクルに）データを受け
取ることができる。ＱＳＤにＳＩＢを使用することによ
り、前記の実施形態の場合のように、ＳＩＢへのアクセ
スに対し要求側要素の間に裁定は必要とされない。その
結果、リソースがローカルスイッチを使用する準備がで
きたときにローカルスイッチの利用性が保証される。更
に、本来的に公平な裁定機構が設けられる。というの
は、スイッチに対する裁定の結果としてリソースへの要
求が他のリソースへの他の要求により阻止されないから
である。従って、裁定の複雑さを最小限に抑えながら最
大のバス帯域巾を維持することのできる公平で且つ比較
的簡単な構造体が与えられる。従って、同時挿入バッフ
ァを使用して広いバス帯域巾をサポートするローカルス
イッチを実施することにより処理リソースを最適に使用
するマルチプロセッサノード１０が提供される。更に、
ＡＲＢバス１３において参照の順序がシリアル化される
ので、マルチプロセッサ１０のメモリのコヒレンス性を
容易に維持する中央順序付けポイントが設けられる。ロ
ーカルスイッチに接続されるプロセッサモジュールの数
を増加することにより処理能力を高める可能性が存在す
るので、図２の４プロセッサ／ローカルスイッチ構成体
は、待ち時間の短いそしてコストの安い高性能のシステ
ムを提供する。

【００３７】大型の対称的マルチプロセッサシステムモノリシックマルチプロセッサノードに含むことのでき
るプロセッサの数は、２つのファクタにより制限され
る。第１に、ローカルスイッチを経て互いに接続できる
プロセッサの数は、ローカルスイッチを構成するチップ
において使用できるピンの数により制限される。第２
に、単一のモノリシックスイッチによりサポートされる
データ帯域巾が制限される。従って、接続されるプロセ
ッサの数をある点を越えて増加すると、何ら性能利得が
得られないことになる。

【００３８】本発明の１つの実施形態によれば、ハイア
ラーキースイッチを経て複数のマルチプロセッサノード
を相互接続することにより大型の対称的なマルチプロセ
ッサシステムを形成することができる。例えば、ハイア
ラーキースイッチを経て８個のマルチプロセッサノード
を接続して、３２個のプロセッサモジュール、８個のＩ
ＯＰデバイス及び２５６ギガバイトのメモリを含む対称
的なマルチプロセッサ（ＳＭＰ）システムが形成され
る。説明上、ここでは、少なくとも２つのマルチプロセ
ッサノードを含むＳＭＰを大型ＳＭＰと称する。以下に
詳細に述べるように、ＳＭＰノードにローカルスイッチ
を用いて少数のプロセッサを接続し、そしてハイアラー
キースイッチを用いて多数のノードを大型のＳＭＰへと
接続することにより、拡張可能な高性能システムを実現
することができる。

【００３９】マルチプロセッサノードをハイアラーキー
スイッチ式ノードへと接続するために、マルチプロセッ
サは、グローバルなポートインターフェイスを含むよう
に拡張される。例えば、図６には、変更されたマルチプ
ロセッサノード１００が示されている。図２のマルチプ
ロセッサノードと同様に、ローカルスイッチ１１０は、
４つのプロセッサモジュール、４つのメモリモジュール
及びＩＯＰモジュールを接続する。図２及び６の同様の
要素は、同じ参照番号を有する。マルチプロセッサノー
ド１００のローカルスイッチ１１０は、図２のポート１
６ａ―１６ｉと同様に構成された９個のポート１１６ａ
―１１６ｉを含む１０ポートスイッチである。付加的な
ポート１１６ｊは、グローバルリンク１３２を経てグロ
ーバルポート１２０へ至る全二重のクロック供給データ
リンクを形成する。

【００４０】グローバルポートは、マルチプロセッサノ
ードをハイアラーキースイッチに接続し、大型のＳＭＰ
を実現する。例えば、図７Ａを参照すれば、本発明の１
つの実施形態において、８ｘ８のハイアラーキースイッ
チ１５５を経て互いに接続された８個のノード１００ａ
−１００ｈを含む大型のＳＭＰシステム１５０が示され
ている。これらノード１００ａ―１００ｈの各々は、図
６に示すノード１００と実質的に同一である。ノード１
００ａ―１００ｈの各々は、全二重クロック供給データ
リンク１７０ａ―１７０ｈの各々によりハイアラーキー
スイッチ１５５に接続される。１つの実施形態におい
て、データリンク１７０ａ―１７０ｈは、１５０ＭＨｚ
のクロック速度で動作され、従って、スイッチ１５５と
の間でデータをやり取りするための２．４ギガバイト／
秒のデータ帯域巾をサポートする。これは、最大３８．
４ギガバイト／秒の生の相互接続データ帯域巾、及び１
９．２ギガバイト／秒の二等分データ帯域巾をスイッチ
に与える。

【００４１】大型のＳＭＰシステムは、マルチプロセッ
サノード１００ａ―１００ｈの各々が全システムメモリ
のアドレス可能な部分を含むか又は物理的メモリの分割
部分を含むような分散型共用メモリシステムである。本
発明の１つの実施形態では、全システムメモリに２⁴³個
の物理的アドレス位置が存在する。ＳＭＰマルチプロセ
ッサシステム１００の１つの実施形態は、「大フォーマ
ット」及び「小フォーマット」と称する２つのアドレス
フォーマットをサポートする。大フォーマットは、各ノ
ードのプロセッサが動作するところの４３ビットの物理
的アドレスを、マルチプロセッサシステムに使用するた
めの４３ビットの物理的アドレスに直接マップする。大
フォーマットアドレスを使用すると、物理的メモリアド
レスのビット＜３８：３６＞をノード識別番号として使
用することができる。アドレスビット３８：３６は、メ
モリスペースアドレスのホームノードを直接デコード
し、一方、アドレスビット３８：３６の逆数は、Ｉ／Ｏ
スペースアドレスのホームノードをデコードし、ここで
「ホーム」とは、メモリスペース又はＩ／Ｏスペースに
関連したメモリ及びＩ／Ｏデバイスが存在するところの
物理的マルチプロセッサノードを指す。

【００４２】小フォーマットのアドレスモードは、マル
チプロセッサシステムに４つ以下のノードが存在するこ
とを仮定するものである。小フォーマットは、各ノード
のプロセッサが３６ビットの物理的にアドレスされたシ
ステムで動作できるようにする。小フォーマットにおい
て、物理的アドレスのビット３４：３３は、データ又は
Ｉ／Ｏデバイスのホームノード番号を識別する。しかし
ながら、たとえＣＰＵが３６ビットの物理的アドレスを
用いて動作しても、マルチプロセッサシステムは、デー
タ位置を特定するのに４３ビットの物理的アドレスを一
貫して使用し、物理的アドレスのビット３７：３６がデ
ータ又はＩ／Ｏデバイスのホームノード番号を識別す
る。従って、ＣＰＵにより発生された小フォーマットア
ドレスと、データライン１３ａ―１３ｈを経てハイアラ
ーキースイッチ１５５へ送信されるものとの間で何らの
変換が実行される。

【００４３】マルチプロセッサシステム１５０のここに
示す構成は、３２個のプロセッサ間に広帯域巾のキャッ
シュコヒレントな共用メモリを与えることができる。本
発明の１つの実施形態による大型ＳＭＰの別の実施形態
が図７Ｂに示されており、ここでは、２つのマルチプロ
セッサノード１００ａ及び１００ｂがハイアラーキース
イッチを使用せずに互いに接続される。むしろ、２つの
マルチプロセッサノードは、それらのグローバルポート
出力を互いに接続することにより直接接続される。図７
Ｂの２ノード実施形態が使用されるか、図７Ａのマルチ
ノード実施形態が使用されるかに拘わりなく、大きなア
ドレススペース及び処理能力をもつマルチプロセッサシ
ステムが得られる。

【００４４】両実施形態において、システムメモリアド
レススペース及びＩ／Ｏアドレススペースは、全てのノ
ード１００ａ−１００ｈ間にセグメントで物理的に分配
される。システムの各ノードは、メモリスペースの物理
的アドレスの上位３ビットを使用してアクセスされるメ
インメモリの一部分を含む。従って、各メモリ又はＩ／
Ｏアドレスは、１つのノードのみにおける１つの唯一の
メモリ位置又はＩ／Ｏデバイスへとマップされる。従っ
て、上位３つのアドレスビットは、メモリ又はＩ／Ｏア
ドレスがマップされるノードである「ホーム」ノードを
識別するためのノード番号を与える。各マルチプロセッ
サノードは、それらのホームノード又は他のマルチ処理
ノードに記憶された共用メモリの部分をアクセスするこ
とができる。ホームノードがプロセッサ自身のノードで
あるところの共用メモリブロックにプロセッサがアクセ
ス（ロード又は記憶）するときには、参照は、「ローカ
ル」メモリ参照と称される。ホームノードがプロセッサ
自身のノード以外のノードであるようなブロックを参照
する場合には、参照は、「リモート」又は「グローバ
ル」メモリ参照と称する。ローカルメモリアクセスの待
ち時間は、リモートメモリアクセスの待ち時間と異なる
ので、ＳＭＰシステムは、非均一メモリアクセス（ＮＵ
ＭＡ）アーキテクチャを有すると言える。更に、システ
ムはコヒレントなキャッシュを備えているので、システ
ムは、キャッシュコヒレントなＮＵＭＡアーキテクチャ
ーと呼ばれる。

【００４５】ここに示すキャッシュコヒレントなＮＵＭ
Ａアーキテクチャは、高い性能と低い複雑さに寄与する
多数の特徴を含む。設計上の１つの特徴は、メッセージ
間の順序の固執及び利用である。メッセージがある順序
特性に基づいてシステムに流れるよう保証することによ
り、オペレーションの待ち時間を著しく短縮することが
できる。例えば、記憶オペレーションは、記憶が完了し
たとみなされる前に無効メッセージがそれらの最終的な
行先プロセッサに供給されることを必要とせず、むし
ろ、無効メッセージが行先プロセッサへと通じるある順
序付けされた待ち行列に入れられるや否や記憶が完了し
たとみなされる。更に、ある順序が維持されるよう保証
することにより、設計上、確認又は完了メッセージの必
要性が排除される。メッセージは、それらがある待ち行
列に入れられた順序でそれらの行先に到達するように保
証される。従って、メッセージがその行先に到達したと
きに確認を返送する必要性が排除される。これは、シス
テムの帯域巾を改善する。

【００４６】更に、事象順序及びメッセージ順序は、
「ホットポテト」オペレーションを行うのに使用され
る。ある待ち行列に順序を利用することにより、ディレ
クトリ又はＤＴＡＧコントローラのようなコントローラ
は、単一ビジットにおいて要求をリタイアすることがで
きる。他の要求との競合により要求を否定的に確認しそ
して再トライする必要はない。「ホットポテト」オペレ
ーションの結果として、公平さ及び欠乏の問題が解消さ
れる。設計に使用される第２の特徴は、仮想チャンネル
である。仮想チャンネルとは、メッセージを「チャンネ
ル」へと分類する構成であって、チャンネルは物理的な
リソースを共用する（従って、「仮想」である）が、各
チャンネルは、他のものとは独立して流れ制御される。
仮想チャンネルは、システムのメッセージ間で流れに依
存しそしてリソースに依存するサイクルを排除すること
により、キャッシュコヒレンスプロトコルにおける停滞
を排除するのに使用される。これは、選択されたメッセ
ージを否定的に確認しそしてそれに対応するコマンドを
再トライすることにより停滞を検出しそして停滞状態を
解消する機構を用いた公知のＮＵＭＡマルチプロセッサ
におけるキャッシュコヒレンスプロトコルとは対照的で
ある。

【００４７】チャンネルの使用について以下に簡単に説
明するが、詳細な説明は後で行う。上述したように、メ
ッセージは、「チャンネル」と称する論理的なデータ路
を用いて大型ＳＭＰ内をルート指定される。本発明の１
つの実施形態には、以下のチャンネルが含まれる。即
ち、要求側プロセッサから、トランザクションのアドレ
スに対応するホームノードのＡＲＢバスへトランザクシ
ョンを搬送するためのＱ０チャンネルと、ホームＡＲＢ
バスから１つ以上のプロセッサ及びＩＯＰへトランザク
ションを搬送するためのＱ１チャンネルと、所有者プロ
セッサから要求側プロセッサへデータ記入トランザクシ
ョンを搬送するためのＱ２チャンネルとである。変更さ
れたデータを書き込むためにプロセッサからメモリへビ
クティム（Victim）トランザクションを搬送するために
Ｑ０Ｖｉｃチャンネルを設けることもできる。更に、Ｑ
０Ｖｉｃチャンネルは、ビクティムトランザクションの
背後に保持しなければならないＱ０トランザクションを
搬送するのに使用できる。最後に、プロセッサからＩＯ
ＰへＩＯスペーストランザクションを搬送するためにＱ
ＩＯチャンネルが設けられる。

【００４８】チャンネルは、以下に示すようなハイアラ
ーキーを構成する。（最低）ＱＩＯ＞Ｑ０Ｖｉｃ＞Ｑ０＞Ｑ１＞Ｑ２（最
高）以下に述べるように、停滞を回避するために、いずれの
チャンネルのメッセージも、下位チャンネルのメッセー
ジによって決して阻止されてはならない。順序付け特性
及び仮想チャンネルを形成しそして使用する機構の設計
及び実施に関する詳細は、後で述べる。従って、図７Ａ
及び７Ｂに示すように、大型ＳＭＰは、図２のＳＭＰノ
ードを任意の数だけ互いに接続することにより形成する
ことができる。図７Ａ及び７Ｂに示すような大型ＳＭＰ
システムのオペレーションは、以下に３つの部分につい
て説明する。第１に、大型ＳＭＰに含まれるハードウェ
ア要素について説明する。次いで、ＳＭＰのプロセッサ
間にコヒレントなデータ共用を与えるキャッシュコヒレ
ンスプロトコルについて説明する。更に、ハイアラーキ
ースイッチの仮想チャンネルのために設けられたサポー
ト機構を含む仮想チャンネルの実施及び使用について説
明する。

【００４９】大型ＳＭＰのハードウェア要素マルチプロセッサノードの各々には、チャンネルを用い
てコヒレントなデータ共用を実施するための多数の要素
が設けられる。図６に戻ると、これらの要素は、ディレ
クトリ１４０と、ＤＴＡＧ２０と、ＩＯＰタグ１４ｂ
と、グローバルポート１２０と、ディレクトリ１４０と
を備えている。更に、シリアル化ポイントのハイアラー
キーは、キャッシュコヒレンスプロトコルを容易にする
ために参照の順序を維持できるようにする。これら要素
の各々について、以下に詳細に述べる。

【００５０】グローバルポートグローバルポート１２０は、マルチプロセッサノード１
００を、ハイアラーキースイッチリンク１７０を経て１
つ以上の同様に構成されたマルチプロセッサノードに直
接接続できるようにする。各ノード１００は対称的なマ
ルチプロセッサシステムとして動作するので、システム
により多くのノードが追加されるにつれて、使用可能な
アドレススペース及び処理能力が増加される。図８は、
グローバルポート１２０の拡張ブロック図である。グロ
ーバルポートは、トランザクション追跡テーブル（ＴＴ
Ｔ）１２２と、ビクティムキャッシュ１２４と、マルチ
プロセッサノードからハイアラーキースイッチへ送られ
るパケットを記憶するためのパケット待ち行列１２７、
１２２、１２３及び１２５と、ハイアラーキースイッチ
から受け取られるパケットを記憶するためのパケット待
ち行列１２１とを備えている。グローバルポート１２０
は、ＡＲＢバス１３０と、ローカルスイッチの２つの専
用ポート即ちＧＰリンク入力１３２ｂ及びＧＰリンク出
力１３２ａとを経てノードの他のロジック（特にＱＳＡ
チップ）と通信する。ＴＴＴは、マルチプロセッサノー
ドにおいて保留中のトランザクション、即ちノードから
グローバルポートを経て発生されて、他のマルチプロセ
ッサノード又はハイアラーキースイッチからの応答を待
機しているトランザクションを追跡する。グローバルポ
ートにコマンドが送られるたびに、ＴＴＴにエントリが
形成される。対応する応答がノードに受け取られたとき
に、ＴＴＴエントリがクリアされる。ＴＴＴは、２つの
部分、即ちＱ０ＴＴＴ及びＱ１ＴＴＴで構成され、Ｑ０
及びＱ１は、上記のようにＱ０及びＱ１チャンネルを進
むパケットを指す。エントリーがＴＴＴにいかに割り当
てられるか及びそれがいつリタイアされるかについて
は、以下に詳細に述べる。

【００５１】又、グローバルポート１２０は、ビクティ
ムキャッシュ１２４を含む。ビクティムキャッシュ１２
４は、マルチプロセッサノードの各プロセッサから受け
取られて別のマルチプロセッサノードのメモリに向けら
れるビクティム化データを記憶する。ビクティム化デー
タとは、プロセッサのキャッシュ位置に記憶されてその
プロセッサにより変更されたデータである。変更データ
を記憶するキャッシュ位置に記憶する必要のある新たな
データがプロセッサに受け取られると、変更データは、
ビクティム化されると言われ、ビクティムデータと称さ
れる。ビクティムキャッシュ１２４は、プロセッサから
リモートマルチプロセッサノードのメモリへ向けられた
ビクティムデータからのビクティムデータの一時的な記
憶装置である。グローバルポートを経て別のノードへビ
クティムデータを送信するための機会があるときには、
マルチプレクサ１６７は、ビクティムキャッシュ１２４
からバス１７０の出力部分にデータを供給するように切
り換えられる。グローバルポートにビクティムキャッシ
ュを設けることにより、個々のプロセッサがグローバル
システムのメモリ書き込み待ち時間を待機せずに、プロ
セッサが各々のビクティムデータバッファを空にするこ
とができる。むしろ、ビクティム書き込みは、使用でき
るデータサイクルがあるときに書き込みが実行されるよ
うにグローバルポートにより制御される。ビクティムキ
ャッシュからデータを解放する適切さに関連した幾つか
の制御の問題があるが、これらは以下に説明する。

【００５２】ＤＴＡＧ及びＩＯＰタグＤＴＡＧ及びＩＯＰタグは、小型のＳＭＰシステムにも
含まれるが、これについては以下に詳細に述べる。ＤＴ
ＡＧ２０は、マルチプロセッサノードのプロセッサのキ
ャッシュに記憶されたデータブロック各々に対する状態
情報を記憶する。同様に、ＩＯタグ１４ａは、ＩＯＰに
記憶された各データブロックに対する状態情報を記憶す
る。ディレクトリは、どのマルチプロセッサノードがデ
ータのコピーを記憶するかを識別するおおよその情報を
与えるが、ＤＴＡＧ及びＩＯタグは、マルチプロセッサ
ノード内のどのプロセッサがデータのコピーを記憶する
かに関する正確な指示を与えるのに使用される。それ
故、ＤＴＡＧ及びＩＯタグは、参照情報がマルチプロセ
ッサノードに到達したときに、そのノードのどのプロセ
ッサがターゲットとなるべきかを決定するのに使用され
る。

【００５３】図６に示すように、ＤＴＡＧ２０及びＩＯ
Ｐタグ１４ｂは、ＱＳＡチップ１８に接続されたメモリ
領域を参照するアドレスを監視するためにＡＲＢバス１
３０に接続される。ＤＴＡＧは、４つのプロセッサ１２
ａ―１２ｄに対応する４つのセグメントに分割される。
各プロセッサは、メモリ１３からのデータのサブセット
を一時的に記憶するためのキャッシュ（図示せず）を備
えている。各プロセッサのキャッシュに記憶されたメモ
リのブロックの上位アドレスビット（タグ）を記憶する
ためのタグ記憶装置が各キャッシュに関連される。ＤＴ
ＡＧ２０の各セグメントは、関連プロセッサのキャッシ
ュタグの状態を指示するデータを維持する。処理ユニッ
トの外部のＤＴＡＧ２０にタグのコピーを記憶すること
により、システムは、ＡＲＢバスを経て受け取ったコマ
ンドをフィルタし、そしてプロセッサのキャッシュのデ
ータに関連した調査（読み取り）及び無効化コマンドの
みを各プロセッサに供給することができる。ＩＯＰタグ
１４ａは、ＩＯＰキャッシュ１４ｃに記憶されたデータ
ブロック各々の上位アドレスビットを記憶する。ＩＯＰ
タグ記憶装置は、プロセッサ１２ａ―１２ｄの各々に維
持されたタグ記憶装置と同様である。

【００５４】ＤＴＡＧ２０及びＩＯＰタグ１４ａの各エ
ントリは、多数の状態ビットを含む。ＤＴＡＧ状態ビッ
トは、次の４つの状態、即ちＩｎｖａｌｉｄ（無効）、
Ｃｌｅａｎ（クリーン）、ＤｉｒｔｙＮｏｔＰｒｏ
ｂｅｄ、及びＤｉｒｔｙＰｒｏｂｅｄのうちの１つを
指示する。ＩＯＰタグのエントリの状態ビットは、次の
２つの状態、即ちＶａｌｉｄ（有効）及びＤｉｒｔｙ
（ダーティ）のうちの１つを指示する。「有効」ビット
は、関連キャッシュの対応エントリに記憶されたデータ
が、メモリに記憶されたデータと一致することを指示す
る。「ダーティ」ビットは、関連キャッシュの対応エン
トリに記憶されたデータが関連プロセッサによって変更
されそしてメモリに記憶されたデータに一致しないこと
を指示する。

【００５５】ＤＴＡＧ２０及びＩＯＰタグ１４ｂは、マ
イクロプロセッサノード１００のＡＲＢバスにコマンド
が現れるたびにアクセスされる。「無効」の状態がプロ
セッサ１のＤＴＡＧアクセスに応答して返送される場合
には、ノードのプロセッサ１は、メモリアドレスに関連
したデータの有効コピーを記憶しない。「有効」の状態
がＩＯＰタグ１４ａへのアクセスから返送される場合に
は、ＩＯＰキャッシュ１４ｃがデータの有効コピーを記
憶する。「クリーン」状態がプロセッサ１に対するＤＴ
ＡＧアクセスに応答して返送される場合には、これは、
プロセッサ１がメモリアドレスに対応するデータの無変
更コピーを有するが、そのデータを読み取るための他の
プロセッサによる試みがなされていないことを指示す
る。ＤｉｒｔｙＮｏｔＰｒｏｂｅｄの状態がＤＴＡ
Ｇに応答して返送される場合には、これは、プロセッサ
１がメモリアドレスに対応するデータの変更コピーを有
し、そしてプロセッサが最後にデータを変更して以来、
少なくとも１つのプロセッサがデータを読み取る試みを
していることを指示する。

【００５６】ディレクトリオペレーション一般に、ディレクトリは、関連マルチプロセッサノード
（ホームノード）におけるメモリの各ブロックの所有権
情報を与えるのに使用され、メモリのブロックは、一般
に、メモリとＳＭＰシステムのプロセッサとの間に転送
される最小量のデータである。例えば、本発明の１つの
実施形態において、ブロックは、パケットのサイズと同
様であり、即ち５１２ビット（６４バイト）のデータで
ある。更に、ディレクトリは、どのマルチプロセッサノ
ードがメモリデータのブロックのコピーを記憶するかを
指示する。従って、読み取り型のコマンドの場合に、デ
ィレクトリは、データの最新バージョンの位置を識別す
る。ビクティム型のコマンドの場合には、データの変更
ブロックがメモリに書き戻される場合に、ディレクトリ
は、データの変更ブロックが現在のものであってメモリ
に書き込まねばならないかどうか決定するために検討さ
れる。それ故、ディレクトリは、参照情報がリモートマ
ルチプロセッサノードのプロセッサにより発生されたも
のであるかローカルマルチプロセッサノードのプロセッ
サにより発生されたものであるかに拘わりなく、関連す
るマルチプロセッサノードのメモリブロックへの参照に
対する第１アクセスポイントである。

【００５７】ディレクトリは、対応するノード１００に
おいてメモリ１３の各６４バイトのデータブロック（以
下、キャッシュラインとも称する）に対して１つの１４
ビットエントリを記憶する。メモリ１３と同様に、ディ
レクトリは、メモリアドレスがノードＮに存在する場合
に、対応するディレクトリエントリもノードＮに存在す
るように、システムのノードにわたって物理的に分配さ
れる。図９を参照すれば、ディレクトリエントリ１４０
ａの１つの実施形態は、所有者ＩＤフィールド１４２及
びノード存在フィールド１４４を含むように示されてい
る。所有者ＩＤフィールドは、各６４バイトブロックに
対する６ビットの所有者情報を含む。所有者ＩＤは、ブ
ロックの現在所有者を特定し、現在所有者は、システム
における３２個のプロセッサの１つ、又はシステムにお
ける８個のＩ／Ｏプロセッサの１つ、又はメモリのいず
れかである。８ビットのノード存在情報は、システムの
８個のノードのどれがキャッシュラインの現在バージョ
ンを獲得したか指示する。ノード存在ビットは、同じノ
ードにおける４つのプロセッサの累積状態を１ビットで
表わすおおよそのベクトルである。共用データの場合に
は、２つ以上のノードが、情報を記憶する少なくとも１
つのプロセッサを有する場合に、２つ以上のノード存在
ビットがセットされる。

【００５８】時々、状態情報のある断片がＤＴＡＧ又は
ディレクトリから得られる。このような場合、ＤＴＡＧ
からの状態情報を使用するのが好ましい。というのは、
これは非常に高速で検索されるからである。例えば、メ
モリアドレスの所有者プロセッサがそのアドレスに対し
ホームノードに配置される場合には、所有者ＩＤを供給
するのにＤＴＡＧが使用される。性能上の理由でＤＴＡ
Ｇによりサービスされない情報又は参照については、デ
ィレクトリ１４０は、全てのコヒレンス性判断の焦点で
あり、従って、多数の機能を実行する。ディレクトリ
は、メモリデータブロックの所有者を識別する。所有者
は、プロセッサ又はメモリのいずれかである。ディレク
トリからの所有者情報は、データブロックの最新バージ
ョンのソースを決定するために読み取り型コマンド（例
えば、読み取り、読み取り―変更）により使用される。
又、所有者情報は、以下に詳細に述べるようにビクティ
ム化データをメモリに書き戻さねばならないかどうか決
定するのにも使用される。

【００５９】全ての読み取り型コマンドに対して、デー
タの所有者を識別するのに加えて、ディレクトリは、プ
ロセッサからの「クリーン―ダーティ(Clean-to-Dirt
y)」及び「シェアド―ダーティ(Shared-to-Dirty) 」コ
マンドを分析するのにも使用される。「クリーン―ダー
ティ」コマンドは、プロセッサがそのキャッシュにおい
て現在「クリーン」状態にあるキャッシュラインを変更
するよう希望するときにプロセッサにより発生される。
「シェアド―ダーティ」コマンドは、「ダーティ−シェ
アド」状態にあるキャッシュラインを変更するよう希望
するときに発生される。これらのコマンドは、ホームＡ
ＲＢバスに送られ、そこで、ディレクトリは、プロセッ
サがキャッシュラインの最新バージョンを有するかどう
か決定する。もしそうであれば、コマンドは成功とな
り、プロセッサは、キャッシュラインを変更することが
許される。さもなくば、コマンドは失敗となり、プロセ
ッサは、最初に、キャッシュラインの最新バージョンを
獲得しなければならない。これらの記憶型オペレーショ
ンは、ディレクトリのノード存在情報を使用して、成功
又は失敗を決定する。

【００６０】上記のように、ディレクトリの存在ビット
は、記憶型コマンドが発生されたときに各データブロッ
クのコピーでマルチプロセッサノードを識別する。記憶
コマンドは、キャッシュラインの内容が更新されようと
していることを指示する。関連するディレクトリエント
リの存在ビット１４４を検討することにより、記憶コマ
ンドがディレクトリ１４０に受け取られたときに、存在
ビットを有するノードを用いて、これらのマルチプロセ
ッサノードをそのノードにおけるキャッシュラインのコ
ピーで識別し、従って、各ノードにおけるキャッシュラ
インを無効化できるようにする。従って、ディレクトリ
及びＤＴＡＧは、ローカルマルチプロセッサのメモリに
おける各データブロック及びローカルプロセッサのキャ
ッシュに記憶された各データブロックに対する状態情報
を与えるように協働する。ホームノードのディレクトリ
は、キャッシュブロックのコピーの状態に関するおおよ
その情報を供給する。次いで、無効化コマンドがディレ
クトリにより識別されたノードへと進み、そこで、ＤＴ
ＡＧがアクセスされて、コピー情報を更に改善する。従
って、これらノードにおけるＤＴＡＧは、各ノードのど
のプロセッサがそれらのキャッシュにラインのコピーを
記憶するか指示する。

【００６１】ＴＴＴ：ＴＴＴは、マルチプロセッサノー
ドからの保留中のトランザクション、即ち別のマルチプ
ロセッサノード又はハイアラーキースイッチからの応答
を待機している参照を追跡するのに使用される。保留中
トランザクションに関する情報は、関連メモリアドレス
へのその後のコマンドを処理する際にキャッシュコヒレ
ンスプロトコルにより使用される。図１０を参照すれ
ば、ＴＴＴ１２２の１つの実施形態は、アドレスフィー
ルド１５２と、コマンドフィールド１５４と、コマンダ
ＩＤフィールド１５６と、ビット１５８ａ―１５８ｃを
含む多数の状態ビット１５８とを含むように示されてい
る。アドレスフィールド１５２は、現在進行中であるト
ランザクションに対するキャッシュラインのアドレスを
記憶し、一方、コマンドフィールドは、現在進行中であ
るトランザクションに対するキャッシュラインに関連し
たコマンドを記憶する。コマンダＩＤフィールド１５６
は、コマンドフィールドに記憶されたコマンドを開始し
たプロセッサのプロセッサ番号を記憶する。状態ビット
１５８は、コマンドが進行中であるときにコマンドの状
態を表わす。或いは又、状態ビット１５８は、進行中で
あるコマンドの種々の特性をあらわすように使用されて
もよい。

【００６２】例えば、「記入」状態ビット１５８ａは、
読み取り型コマンドに応答して「記入」データ応答が受
け取られたときに更新される。「シャドー」状態ビット
１５８ｂは、グローバルポートを経て発生されたコマン
ドが「シャドー」型コマンド（以下に詳細に述べる）で
ある場合にセットされる。ＡＣＫ状態ビット１５８ｃ
は、確認型応答を期待しているメッセージが応答を受信
した場合にセットされる。応答が到着した場合に、この
ビットはクリアされる。ＴＴＴに含むことのできる全て
の状態ビットが示されているのではないことに注意され
たい。むしろ、以下の説明に関連のある状態ビットが含
まれている。更に、メモリのコヒレンス性を維持するた
めに必要と考えられれば、他の状態ビットを設けてもよ
く、従って、本発明は、ＴＴＴにおける特定のビット指
定に限定されるものではないことが明らかであろう。

【００６３】従って、ディレクトリ、ＤＴＡＧ、ＩＯＰ
タグ及びＴＴＴの各々は、ＳＭＰシステムにおけるキャ
ッシュラインのコヒレンス性（以下、キャッシュコヒレ
ンス性と称する）を維持するのに使用される。これら要
素の各々は、ハイアラーキースイッチ１５５に接続され
たマルチプロセッサノード間にコヒレント通信を与える
ためにグローバルポートとインターフェイスする。シリアル化ポイント：上記要素に加えて、各マルチプロ
セッサノードにシリアル化ポイントを設けることにより
データ共用コヒレンス性が維持される。本発明の１つの
実施形態において、各マルチプロセッサノードにおける
シリアル化ポイントは、ＡＲＢバス１３０である。全て
のＱ０参照は、ローカルプロセッサにより発生されたも
のであるかリモートプロセッサにより発生されたもので
あるかに拘わりなく、ＱＳＡによりＡＲＢバス１３０を
経てディレクトリ１４０及びＤＴＡＧ２０へ供給され
る。参照がディレクトリ及び／又はＤＴＡＧをアクセス
すると、それにより得られるＱ１チャンネルコマンドが
厳密な順序でＡＲＢバスに出力され、ここで、順序は参
照のシリアル化順序である。マルチプロセッサノードの
各々にシリアル化ポイントを設けることにより、ＳＭＰ
において実施されるデータ共用コヒレンスプロトコルが
相当に簡単化される。

【００６４】マルチプロセッサノードの各々にシリアル
化ポイントを設けるのに加えて、ハイアラーキースイッ
チ１５５は、ＳＭＰシステムに第２のシリアル化ポイン
トを与える。以下に詳細に述べるように、ハイアラーキ
ースイッチは、第１のシリアル化ポイントに導入された
コヒレンス性が大型のＳＭＰシステムに維持されるよう
確保するある順序付けルールに適合する。

【００６５】グローバルポート／ハイアラーキースイッ
チインターフェイス：図１１は、８個の入力ポート１５
５ｉ０―１５５ｉ７及び８個の出力ポート１５５ｏ０−
１５５ｏ７を含むハイアラーキースイッチ１５５のブロ
ック図である。ハイアラーキースイッチ１５５の入力ポ
ート１５５ｉ０―１５５ｉ７は、接続されたマルチプロ
セッサノード各々のグローバルポートからパケットを受
け取る。ハイアラーキースイッチの出力ポート１５５ｏ
０−１５５ｏ７は、接続されたマルチプロセッサノード
各々のグローバルポートへパケットを供給する。本発明
の１つの実施形態において、受信したパケットをバッフ
ァするためのバッファ１６０ａ―１６０ｈが各入力ポー
トに関連される。図１１の実施形態は、各入力に１つの
バッファを示しているが、いかなる数の入力ポート間に
バッファが共用されてもよい。各パケットは、５つのチ
ャンネルのいずれか１つと関連される。本発明の１つの
実施形態では、以下に述べるように、各入力バッファ１
６０ａ―１６０ｈの部分が、あるチャンネルのパケット
を専用に記憶するようにされる。従って、グローバルポ
ートからハイアラーキースイッチ１５５への流れ制御
は、チャンネルベースで実行される。チャンネルベース
でスイッチへのデータの流れを制御しそして入力バッフ
ァの部分を選択されたチャンネルに専用とすることによ
り、スイッチは、ＳＭＰシステムにおけるマルチプロセ
ッサノード間で停滞のない通信を行う。

【００６６】停滞のない通信を与えるのに加えて、ハイ
アラーキースイッチ１５５は、更に、メモリのコヒレン
ス性を確保するためにＳＭＰシステムの順序付け制約を
サポートするように設計される。順序付け制約は、スイ
ッチ１５５から関連マルチプロセッサノードのグローバ
ルポートへ送出されるパケットの順序を制御することに
より課せられる。いずれかの入力バッファ１６０ａ―１
６０ｈからのパケットは、マルチプレクサ１８２ａ―１
８２ｈを経ていずれかの出力ポートへ送られる。更に、
以下に述べるように、スイッチ１５５は、パケットをマ
ルチキャスティングすることができる。従って、１つの
入力バッファからのパケットは、いかなる数の出力ポー
トに送ることもできる。グローバル出力ポートに順序を
強制することにより、マルチプロセッサノード各々に得
られるシリアル化順序を維持して、完全にコヒレントな
データ共用機構をＳＭＰシステムに形成することができ
る。

【００６７】ハイアラーキースイッチにおける停滞の回
避上述したように、図７Ａの８個のノードの各々は、ハイ
アラーキースイッチにデータを供給し、全てのノードが
データを同時に供給することもある。パケットは、異な
る仮想チャンネルに供給される多数の異なるチャンネル
形式（Ｑ０、Ｑ０Ｖｉｃ、Ｑ１、Ｑ２及びＱＩＯ）に分
割され、ここで、仮想チャンネルとは、本質的に、他の
チャンネルとの共通の相互接続部を共用するがその相互
接続部のいずれかの端において独立してバッファされる
特定形式のパケットに専用のデータ経路である。各ノー
ドのグローバルポートとハイアラーキースイッチとの間
には１つのデータ経路しかないので、異なる仮想チャン
ネルからの全てのパケットは、１つのデータ経路を使用
してハイアラーキースイッチに書き込まれる。

【００６８】８個のノード１００ａ―１００ｈの各々
は、ハイアラーキースイッチへデータを送信することが
できるので、全てのメッセージがスイッチにより受信さ
れて、スイッチから適当な順序で供給されるよう適切に
確保するために、ある形式の制御が必要となる。更に、
本発明の１つの目的は、対称的なマルチプロセッサシス
テムに停滞（デッドロック）が生じないよう保証するた
めに上位順序のパケット形式が下位順序のパケット形式
により阻止されないよう確保することである。本発明の
１つの実施形態では、最高順序から最低順序までのパケ
ットの順序は、Ｑ２、Ｑ１、Ｑ０、Ｑ０Ｖｉｃ及びＱＩ
Ｏである。本発明の１つの特徴によれば、スイッチの入
力ポートに到着するパケットの流れ制御を行うための機
構であって、上記の停滞回避ルールが常に満足されるよ
う確保する機構が提供される。更に、スイッチにおいて
使用できるバッファは最適に利用されねばならず、そし
て最大の帯域巾が維持されねばならない。

【００６９】本発明の１つの実施形態によれば、ハイア
ラーキースイッチへのデータの書き込みを制御するため
の制御装置は、パケットの各形式に対し、ハイアラーキ
ースイッチのバッファに専用スロットを設けることによ
り実施される。又、バッファは、任意の形式のパケット
を記憶するのに使用できる多数の一般的なスロットも含
んでいる。ハイアラーキースイッチに専用のバッファス
ロットを設けることにより、上位順序のパケット形式が
常にスイッチを通る経路を使用できるよう保証すること
によって停滞を回避することができる。更に、使用でき
る一般的スロット及び専用スロットの数を監視し、そし
てバッファに記憶されるパケットの異なる形式の数を監
視することにより、ハイアラーキースイッチのバッファ
が容量に達したときにノードがバッファに書き込みする
のを防止するような簡単な流れ制御機構を実施すること
ができる。

【００７０】図１２Ａには、多数のソースノードによる
共通の行先バッファへの書き込みを制御するのに使用す
るための制御ロジックの一例が示されている。図１２Ａ
のブロック図には、２つの異なるノードのグローバルポ
ート１２０ａ及び１２０ｂが一例として示されている。
図１２Ａにおいて、ノード１００ａ及び１００ｂのグロ
ーバルポート各々１２０ａ及び１２０ｂの部分は、ハイ
アラーキースイッチ１５５へ転送するためにＱ０／Ｑ０
Ｖｉｃ、Ｑ１、Ｑ２及び一般形式のパケット（Ｑ０、Ｑ
０Ｖｉｃ、Ｑ１、Ｑ２又はＱＩＯパケットのいずれか）
を各々記憶するためのエントリ１３５ａ―１３５ｂを含
むバッファ１３５を備えて詳細に示されている。バッフ
ァ１３５にはマルチプレクサ１６７ａが接続され、ＧＰ
アービター１３４からの選択信号を使用してリンクを経
てハイアラーキースイッチへ送るためにパケット形式の
１つを選択する。

【００７１】更に、各グローバルポートは、専用のカウ
ントレジスタ１３６を備えている。この専用のカウント
レジスタは、パケットの各Ｑ０／Ｑ０Ｖｉｃ、Ｑ１及び
Ｑ２チャンネル形式に対して、ハイアラーキースイッチ
１５５において現在保留となっているチャンネル形式の
パケットの数のカウントを記憶する。このカウントは、
各チャンネル形式のパケットがハイアラーキースイッチ
へ転送されるときに増加され、そしてパケットがハイア
ラーキースイッチから転送されるときに減少される。本
発明の１つの実施形態において、ハイアラーキースイッ
チ１５５は、８個の入力ソースの各々に１つのバッファ
を備えている。図１２Ａには、２つのグローバルポート
１２０ａ及び１２０ｂに対応する２つのバッファ１６０
ａ及び１６０ｂのみが示されている。本発明の１つの実
施形態では、バッファ１６０ａ及び１６０ｂの各々に少
なくとも（ｍ−１）ｘｎ個の専用スロットがあり、但
し、ｍは、バッファに専用エントリを有する仮想チャン
ネル形式の数に対応し、そしてｎは、バッファを共用す
るノードの数に対応する。図１２Ａの実施形態におい
て、各バッファは、８個のエントリを有する。エントリ
のうちの５つは、一般的エントリであり、グローバルポ
ート１３５から送られたパケットの形式を記憶すること
ができる。残りの３つのエントリの各々は、特定形式の
パケットを専用に記憶し、即ち１つのエントリは、Ｑ０
／Ｑ０Ｖｉｃパケットを専用に記憶し、１つのエントリ
は、Ｑ１形式パケットを専用に記憶し、そして１つのエ
ントリは、Ｑ２形式パケットを専用に記憶する。

【００７２】専用エントリがバッファ１６０ａ及び１６
０ｂの固定位置に存在するものとして示されているが、
実際には、バッファのいずれの位置も専用のバッファ位
置であり、即ちエントリの位置に拘わりなく、パケット
の各特定形式ごとにバッファには常に１つの専用エント
リがある。ハイアラーキースイッチは、更に、各バッフ
ァ１６０ａ及び１６０ｂに対し、専用カウンタ１６２ａ
及び１６２ｂと、フラグレジスタ１６３ａ及び１６３ｂ
とを含む。図１２Ａの実施形態において、専用カウンタ
１６２ａは、４つのエントリを有し、その３つは、バッ
ファ１６０ａに現在記憶されているＱ０／Ｑ０Ｖｉｃ、
Ｑ１及びＱ２パケットの数を記憶するためのもので、そ
して１つは、バッファに使用される一般的エントリの数
のカウントを記憶するためのものである。フラグレジス
タは、３つのビットを含み、各ビットは、パケットのＱ
０／Ｑ０Ｖｉｃ、Ｑ１及びＱ２形式の１つに対応し、そ
して関連する専用カウントがゼロであるかどうか（即
ち、その形式のパケットの専用エントリが使用されたか
どうか）を指示する。従って、フラグレジスタの値は、
その形式の少なくとも１つのパケットがバッファに記憶
されたことを指示する１であるか、又はその形式のパケ
ットがバッファに記憶されないことを指示する０であ
る。

【００７３】更に、ハイアラーキースイッチ１５５は、
各バッファ１６０ａ及び１６０ｂに対し、トランシット
カウント１６４ａ及び１６４ｂを各々含む。トランシッ
トカウントは、各ソースに対して、所与のデータサイク
ル中にトランシット状態であるいずれかの形式の保留中
パケットの数を維持する。所与のデータサイクル中にト
ランシット状態にあるパケットの数は、ハイアラーキー
スイッチとグローバルポートとの間の流れ制御待ち時間
に直接関係している。流れ制御信号は、ハイアラーキー
スイッチからグローバルポートへ送られて、ハイアラー
キースイッチへのデータの送信を停止するようにグロー
バルポートに通知する。流れ制御待ち時間（Ｌ）は、ハ
イアラーキースイッチによる流れ制御信号のアサート
と、グローバルポートによるデータ送信の停止との間に
生じるデータ転送サイクルの数として測定される。

【００７４】又、ハイアラーキースイッチは、各バッフ
ァ１６８ａ及び１６８ｂの書き込みを制御するための書
き込み制御ロジック１６６ａ及び１６６ｂも備えてい
る。この書き込み制御ロジックは、ライン１６８ａに
「流れ制御」信号をそしてライン１６８ｂに「確認（Ａ
ＣＫ）」信号＜３：０＞をアサートすることにより関連
バッファへのデータの流れを制御する。「流れ制御」及
びＡＣＫ信号は、各データ転送サイクルに送信される。
上記のように、「流れ制御」信号は、接続されたグロー
バルポートによるパケットデータの送信を停止するのに
使用される。ライン１６８ｂのＡＣＫ信号＜３：０＞
は、パケットの専用形式の各々に対して１ビットを含
み、そして接続されたグローバルポートに、その形式の
パケットが関連バッファから解放されたことを通知する
のに使用される。従って、ＡＣＫ信号は、グローバルカ
ウントにより、専用カウンタ１３６の値を増加するのに
使用される。

【００７５】書き込み制御ロジックは、バッファの使用
可能な全ての一般的エントリが、ハイアラーキースイッ
チへのトランシット状態にある考えられる全てのパケッ
トを受け入れるのに充分でないと決定されたときに、流
れ制御をアサートする。使用可能な一般的スロットの数
は、次の式Ｉにより決定することができる。式Ｉ： Generic count ＝（バッファサイズ）−（バッファに
使用される一般的エントリの数）−（非アサートフラグ
の数）使用可能な一般的エントリの数が決定されると、式ＩＩ
が真である場合に、流れ制御信号がアサートされる。式ＩＩ： Generic Count ＝（トランシットカウント) ＊（バッ
ファを使用するノードの数）従って、書き込み制御ロジック１６６は、使用中の一般
的及び専用のスロットの数、トランシットカウント及び
全バッファサイズを監視し、「流れ制御」信号をいつア
サートすべきかを決定する。「流れ制御」信号をアサー
トしても、ソースノードのグローバルポートによる全て
の送信は停止されない。グローバルポートは、専用パケ
ット形式に対応する専用スロットがハイアラーキースイ
ッチのバッファに使用できる場合に、専用パケットデー
タをハイアラーキースイッチに常に転送する。従って、
専用カウンタにおけるいずれかの専用カウントの値がゼ
ロに等しい場合には、グローバルポートは、常に、対応
する専用パケット形式のパケットデータを転送すること
ができる。従って、バッファに専用エントリを設けるこ
とにより、ハイアラーキースイッチを通る１つの形式の
パケットの進行が、そのスイッチを通る他のパケットの
進行によって左右されないように効果的に保証される。

【００７６】バッファ１６０ａ及び１６０ｂに専用及び
一般的なスロットを使用することにより、各パケット形
式ごとに最小数のスロットを指定するだけでよい。トラ
ンシット状態のパケットの数を追跡することにより、流
れ制御を微細な粒度で行うことができる。バッファの利
用性及びバスの帯域巾の両方が最大にされる。例えば、
Ｘの一般的スロットしか使用できないときには、流れ制
御が１サイクル放棄され、そして次のサイクルに再アサ
ートされる。その結果、Ｘまでのメッセージを時間周期
内に受け取ることができる。

【００７７】図１２Ｂは、ハイアラーキースイッチへデ
ータを供給するためにグローバルポートにより使用され
る方法を示すフローチャートである。このプロセスは、
１つの形式のパケットについて説明するが、他の形式の
パケットにも容易に拡張できる。ステップ１６９では、
ハイアラーキースイッチ１５５へ供給すべきパケットが
バッファ１３５ａ―１３５ｄの１つに存在するかどうか
ＧＳアービター１３４において決定される。パケットが
ある場合には、ステップ１７１において、「流れ制御」
信号の状態がアービター１３４により評価される。「流
れ制御」信号がアサートされる場合には、ステップ１７
２において、ハイアラーキースイッチにより送られるべ
きパケットの特定形式に対する専用カウントを検査し
て、それがゼロに等しいかどうか決定される。専用カウ
ントがゼロに等しくない場合には、その形式のパケット
に対するバッファ内の専用エントリが既に使用中であ
り、プロセスはステップ１７０へ戻り、そのパケット形
式の専用カウントがゼロに等しくなるまで又は流れ制御
信号がデアサートされるまで、ステップ１６９、１７１
及び１７２間をループする。ステップ１７２において専
用カウントがゼロに等しいと決定された場合には、ステ
ップ１７３において、ＧＰアービター１３４は、適当な
選択信号をマルチプレクサ１６７へアサートし、所望の
パケットをハイアラーキースイッチ１５５へ送信する。
ステップ１７４において、パケットの選択された形式に
対応する専用カウントがグローバルポートの専用カウン
トレジスタ１３４及びハイアラーキースイッチ１５５の
専用カウントレジスタ１６２ａにおいて増加され、そし
てフラグレジスタ１６３ａの関連フラグがアサートされ
る。

【００７８】上記のように、フラグレジスタ１６３ａ
は、一般的カウント及びトランシットカウントと共に使
用されて、次のデータサイクルに対する「流れ制御」信
号の状態を決定する。図１３には、ハイアラーキースイ
ッチによる「流れ制御」信号のアサートを制御するため
のプロセスの一実施形態が示されている。ステップ１７
５において、フラグレジスタ１６３ａが検査されて、ゼ
ロに等しい専用カウントエントリの数が計数される。上
記のように、ゼロの数は、「流れ制御」がアサートされ
た後であってもバッファに接続された各ノードにより送
られる潜在的な専用パケットの数を指示する。従って、
図１１の例においていずれのノードについても専用スロ
ットが全く使用されない場合には、フラグレジスタの全
てのエントリがゼロに等しくなり、従って、専用パケッ
トのために指定されねばならないバッファ位置が３つあ
ることを指示する。

【００７９】フラグレジスタ１６３ａの値が検査された
後、ステップ１７６において、使用可能な全一般的スロ
ットが上記式Ｉを用いて決定される。次いで、ステップ
１７７において、各ノードのトランシットカウントが決
定される。上述したように、トランシットカウントは、
所与のデータサイクル中にグローバルポートとハイアラ
ーキースイッチとの間でトランシット状態にあるメッセ
ージの数を示す。最悪の場合のトランシットカウント
は、流れ制御の待ち時間ＬにバッファＮを使用するノー
ドの数を乗じたものに等しい。しかしながら、本発明の
１つの実施形態によれば、トランシットカウントの決定
には、「流れ制御」信号が手前のサイクル中にアサート
されたかどうかが考慮される。上記のように、「流れ制
御」信号が手前のサイクルにアサートされた場合には、
グローバルポートとハイアラーキースイッチとの間でト
ランシット状態となるパケットはない。例えば、手前の
Ｊ個の周期中に「流れ制御」がゼロであった場合には、
ＪｘＮ個までのメッセージがトランシット状態となる。
しかしながら、Ｊ−１個の手前のデータサイクル中に
「流れ制御」信号がゼロであった場合には、（Ｊ―１）
ｘＮ個のメッセージのみがトランシット状態となる。

【００８０】従って、本発明の１つの実施形態では、ソ
ース（グローバルポート）と行先（ハイアラーキースイ
ッチ）との間の全待ち時間を検査すると共に、手前のデ
ータサイクルにおけるソースと行先との間の相互作用を
検査することにより、トランシット状態のパケットの数
がインテリジェントに決定される。各ノードに対するト
ランシットカウントが決定された後に、ステップ１７８
において、上記の式ＩＩを用いて保留中の専用パケット
及びトランシット状態のパケットを受け入れるに充分な
使用可能な一般的エントリがバッファにあるかどうかの
判断がなされる。使用可能な一般的パケットの全数が、
トランシット状態にあるパケットの数にバッファを共用
するノードの数を乗じた値より少ない場合には、ステッ
プ１７８において、「流れ制御」信号がグローバルポー
ト１２０ａにアサートされ、ハイアラーキースイッチ１
５５へのデータの供給が阻止される。しかしながら、全
カウントが、潜在的に受け取られるパケットの数をバッ
ファ１６０ａで受け入れできることを指示する場合に
は、「流れ制御」信号がアサートされず、プロセスは、
次のデータサイクルのためにステップ１７５へ復帰す
る。

【００８１】従って、トランシット状態にあるメッセー
ジの数と、流れ制御信号がアサートされた手前のサイク
ルの数とを追跡することにより、流れ制御は、グローバ
ルポートをハイアラーキースイッチに接続するデータリ
ンクの利用性が最大となるよう確保するように微同調さ
れる。図１１ないし１３に示すバッファ書き込み制御
ロジック及び方法は、ノードからハイアラーキースイッ
チへのデータの送信に関して説明したが、本発明は、こ
のような構成に限定されるものではないことに注意され
たい。むしろ、本発明の１つの実施形態は、共通の受信
器に信号供給する多数のソースがありそして停滞を回避
する必要があるいかなる環境にも使用できる。

【００８２】チャンネル順序付け制約をサポートするハ
イアラーキースイッチの機構：ハイアラーキースイッチ
からのデータの読み取りは、本質的に、パケットの順序
と、パケット間のデータ依存性との両方が維持されるよ
うに入力バッファから多数の出力ソースへデータを供給
することを含む。上述したように、パケットは種々のチ
ャンネルに供給される。異なるチャンネルにおいてパケ
ットに関連するのは、ある順序付け制約即ち依存性であ
る。本発明の１つの実施形態では、１つの順序付け制約
は、Ｑ１チャンネルの全てのパケットが順序正しく維持
されることである。別のパケット順序付け依存性は、優
先順位の高いチャンネルを進行するパケットが、優先順
位の低いチャンネルを進行するパケットによって阻止さ
れてはならないことであり、チャンネルの優先順位は、
最も高いものから最も低いものへ、Ｑ２、Ｑ１、Ｑ０、
Ｑ０Ｖｉｃ及びＱＩＯである。順序の維持は、以下に述
べる種々の技術を用いてＳＭＰ全体にわたり達成され
る。ハイアラーキースイッチにおいては、データ依存性
及びＱ１チャンネル順序付けを満足するよう確保するた
めに３つの基本的なガイドラインに従う。これらのガイ
ドラインは、次の通りである。

【００８３】ガイドライン１：所与のハイアラーキース
イッチ入力ポートに受け取られた多数のＱ１パケットが
共通の出力ポートをターゲットとする場合には、Ｑ１パ
ケットは、それらが入力ポートに現れたのと同じ順序で
出力ポートに現れる。ガイドライン２：ハイアラーキースイッチにおいて多数
の入力ポートからのＱ１パケットが共通の出力ポートへ
マルチキャスティングされるときには、Ｑ１パケット
は、それらがターゲットとする全ての出力ポートに同じ
順序で現れる。ガイドライン３：ハイアラーキースイッチの多数の入力
ポートからのＱ１パケットの順序付けリストが多数の出
力ポートをターゲットとするときには、Ｑ１パケット
は、全ての到来するＱ１パケットの単一の共通の順序付
けに合致するように出力ポートに現れる。各出力ポート
は、共通の順序付けリストにおける幾つかの又は全ての
パケットを送信することができる。

【００８４】コヒレンス性の目的で全体的なシステム順
序を維持するのに加えて、スイッチから出力されるパケ
ットを、アドレス及びデータバスの性能が完全に実現さ
れるように順序付けすることも望まれる。例えば、図１
４は、ＨＳリンク１７０のアドレス及びデータバス構造
の利用を示すタイミング図である。ＨＳリンク１７０
は、２対の単一方向性アドレス及びデータバスによりマ
ルチプロセッサノード１００の各々に接続される。デー
タバスは、５１２ビットのデータパケットを搬送し、そ
してアドレスバスは、８０ビットのアドレスパケットを
搬送する。データパケットの送信は、アドレスパケット
の送信の２倍のサイクル数を必要とする。書き込みコマ
ンドのようなあるコマンドは、アドレス及びデータパケ
ットの両方を含む。例えば、図１４において、アドレス
パケット１７９ａは、データパケット１７９ｄに対応す
る。各コマンドがアドレス及びデータパケットの両方を
含む場合には、アドレスバスの１つおきのアドレススロ
ットがアイドル状態となる。しかしながら、読み取りコ
マンドのような多数のコマンドは、アドレスパケットし
か含まず、データパケットを転送するためのデータバス
のスロットを必要としない。従って、全体的なシステム
性能を向上するためには、データ部分及びアドレス部分
の両方が「パック」され、即ちＨＳリンクのアドレス及
びデータ部分の各考えられるタイムスロットにアドレス
及びデータが存在するような順序でバスから送出すべき
パケットを選択するスイッチを有するのが好ましい。ア
ドレス及びデータがＨＳリンクにおいて「パック」され
るときには、ＨＳリンクが最適に利用される。

【００８５】多数の入力ポートを経て多数のソースから
データを同時に受け取りそして多数の出力ポートを経て
多数の行先へデータを供給できる一方、データ依存性を
満足し、システム順序を維持し、そしてデータ転送レー
トを最大にすることのできるハイアラーキースイッチを
実施するための種々の実施形態が提供される。これらの
種々の実施形態を、図１５ないし１８を参照して説明す
る。図１５には、上記順序付け制約を実施することので
きるスイッチ１８１の１つの実施形態が示されている。
図１１について述べたように、スイッチ１５５は、複数
のバッファ１６０ａ―１６０ｈを含む。入力バッファの
各々は、１書き込みポート／８読み取りポートバッファ
であり、８個の各入力の１つからパケットを受け取るよ
うに接続される。又、スイッチは、８個の出力ポートも
含むが、１つの出力ポート、即ち出力ポート＜０＞のみ
に対するロジックが示されている。残りの出力ポートに
対するロジックも同様であり、明瞭化のために、ここで
は詳細に述べない。

【００８６】本発明の１つの実施形態では、各バッファ
の各エントリは、バッファのエントリに記憶されるパケ
ットのチャンネルを識別するチャンネルフィールド１８
５を含む。更に、各エントリは、一連のリンクインデッ
クス１８６を含む。各リンクインデックスは、入力バッ
ファ１６０ａ―１６０ｈのエントリの１つに対するイン
デックスである。これらのリンクインデックスは、パケ
ット順序付け制約に基づきバッファ１６０ａから同じチ
ャンネルを経て次々のパケットをアクセスするためのリ
ンクリストアドレス構造体を形成するのに使用される。
３つのリンクインデックスＬ１、Ｌ２及びＬ３が各エン
トリと共に含まれ、各リンクインデックスは、３つまで
の順序付けリストの１つにおけるエントリの位置を識別
する。又、各エントリは、依存性フラグ１８９も含む。
依存性フラグは、チャンネル間の依存性をマークするの
に使用される。依存性フラグＦ１は、対応するエントリ
のパケットがＱ１、ＱＩＯ又はＱ０Ｖｉｃチャンネルを
進行するパケットである場合にセットされる。依存性フ
ラグＦ２は、対応するエントリのパケットがＱ０又はＱ
０Ｖｉｃチャンネルを進行するパケットである場合にセ
ットされる。依存性フラグは、パケットの処理順序を次
のように維持する上で助けとなる。

【００８７】概念的に、受け取ったパケットは、Ｑ２チ
ャンネル待ち行列、合成Ｑ１／ＱＩＯ／Ｑ０Ｖｉｃチャ
ンネル待ち行列、合成Ｑ０／Ｑ０Ｖｉｃチャンネル待ち
行列、Ｑ０Ｖｉｃチャンネル待ち行列及びＱＩＯ待ち行
列を含む５つの順序付けされた待ち行列に分割される。
従って、パケットは、２つ以上の待ち行列に含まれる。
ヘッドポインタは、各待ち行列ごとに１つのポインタ１
８７ａ―１８７ｅを含む。ヘッドポインタは、その待ち
行列に対応するバッファにおける次のパケットを識別す
るバッファ１６０ａ−１６０ｈのインデックスを与える
のに使用される。従って、ヘッドポインタ１８７は、Ｑ
２ヘッドポインタ１８７ａ、Ｑ１／ＱＩＯ／Ｑ０Ｖｉｃ
ヘッドポインタ１８７ｂ、Ｑ０／Ｑ０Ｖｉｃヘッドポイ
ンタ１８７ｃ、Ｑ０Ｖｉｃヘッドポインタ１８７ｄ及び
ＱＩＯヘッドポインタ１８７ｅを含む。パケットが入力
バッファに最初に書き込まれるときには、それが１つ以
上の順序付けされた待ち行列に入れられる。１つ以上の
順序付けされた待ち行列に入れられるときには、１つ以
上の依存性フラグ１８９がアサートされる。チャンネル
の形式及び依存性フラグが検査されて、チャンネル依存
性を満足するように出力すべきバッファの適当なエント
リが選択される。

【００８８】８個の入力バッファ１６０ａ―１６０ｈ各
々の各エントリは、マルチプレクサ１８２へ送られる。
マルチプレクサ１８２は、マネージャー１８０からの選
択信号に応答して入力バッファの１つからパケットの１
つを選択する。マネージャー１８０は、入力バッファ１
６０ａ―１６０ｈの６４個の考えられる読み取りポート
からのエントリを関連出力ポートの出力として選択す
る。マネージャー１８０は、全体的なシステム順序及び
チャンネル依存性が満足されるようにパケットを選択す
る。入力バッファ１６０ａ―１６０ｈの１つにパケット
が受け取られるときには、エントリのチャンネルフィー
ルドにチャンネル形式が書き込まれ、そしてそのエント
リの関連フラグがフラグフィールド１８９においてアサ
ートされる。上述したように、入力バッファの各エント
リごとに、３つのリンクインデックスがあり、その各々
は、３つの順序付けされた待ち行列の１つに対応する。
本発明の１つの実施形態では、パケットを３つの異なる
出力ポートにマルチキャスティングするために多数のリ
ンクインデックスが使用される。マルチキャスティング
されるべきパケットが入力バッファに記憶されるときに
は、それが２つ以上のリンクされたリストに入れられ、
リンクされたリストの各々は、異なる出力ポートに対応
する。その結果、異なる出力ポートに関連する出力マネ
ージャーは、各々、異なるリンクリストインデックスを
用いて同じ入力バッファエントリにアクセスすることが
できる。

【００８９】上述したように、リンクインデックス値
は、バッファ１６０ａ―１６０ｈにおいて対応する形式
の次のパケットをアドレスするためのバッファインデッ
クス値である。従って、リンクインデックス値は、対応
する形式のその後のパケットがバッファに書き込まれる
まで書き込まれない。その後のパケットがバッファに書
き込まれるときには、その後のパケットのアドレスが手
前のパケットのリンクインデックスに書き込まれ、これ
により、そのチャンネル形式の次のパケットのインデッ
クスを与える。各エントリは、３つの考えられるリンク
インデックスフィールドを含むので、手前のエントリに
アドレスを書き込むのに加えて、２ビットフィールド
（図示せず）がアドレスと共に記憶され、順序付けリス
トを構成するために３つのリンクインデックスの適当な
１つをエントリで識別できるようにする。

【００９０】マネージャー１８０は、出力ポートへ供給
するためにバッファ１６０ａ―１６０ｈのパケットの１
つを次のように選択する。上述したように、ヘッドポイ
ンタ１８７ａ―１８７ｅは、各待ち行列の最上部に対応
するバッファインデックスを記憶する。所与のチャンネ
ルに対するパケットを処理するときに、マネージャー
は、対応するヘッドポインタにより指示されたエントリ
を選択する。１つ以上のフラグ１８９がセットされ、そ
して高い優先順位のチャンネルに関連した待ち行列のパ
ケットが処理されていない場合には、パケットは、その
待ち行列内のより優先順位の高い全ての手前のパケット
が処理されるまで処理されない。例えば、出力マネージ
ャーがＱ０形式のパケットを処理する場合に、Ｑ１／Ｑ
ＩＯ／Ｑ０Ｖｉｃ及びＱ０／Ｑ０Ｖｉｃヘッドポインタ
で指示されたエントリを検査する。パケットがＱ０チャ
ンネルパケットであるが、Ｑ１パケットの処理がまだ完
了していない場合には、エントリは処理されない。パケ
ットの処理は、チャンネルＱ１又はＱ０パケットが既に
処理されたことを指示する処理フラグ（図示せず）を各
フラグＦ１及びＦ２と共に与えることにより指示され
る。高い優先順位のチャンネルを有する待ち行列におけ
る全てのパケットの処理が行われると（処理フラグによ
り指示される）、そのエントリに関連したパケットは自
由に処理される。

【００９１】あるエントリが処理のために選択される
と、マネージャーは、そのエントリが存在する待ち行列
に関連したヘッドポインタをバッファインデックスとし
て選択する。バッファインデックスはマルチプレクサ１
８２へ送られ、そしてバッファエントリが出力ポートへ
送られる。リンクインデックスはヘッドポインタへ返送
され、そしてヘッドリストポインタがその待ち行列の次
のパケットのバッファインデックスで更新される。従っ
て、図１５のスイッチ実施形態は、リンクリストデータ
構造体、順序付けされた待ち行列及びフラグを用いて、
出力ポートへパケットを与え、全体的なシステム順序が
維持されるようにする。更に、多数のリンクインデック
スを含むリンクリストデータ構造体は、マルチキャすと
パケット順序付けルールに固執しながらパケットをマル
チキャスティングするための簡単な機構を形成する。

【００９２】従って、図１５の実施形態は、フラグ及び
順序付けされた待ち行列を使用して、チャンネルの順序
が維持されるようにする。図１６には、所定の順序依存
性に基づいて出力データを与えることのできるスイッチ
の第２の実施形態が示されている。図１６の実施形態で
は、スイッチの各出力ポートに対してバッファ２００が
設けられる。バッファ２００は、入力パケット受信経路
２０１を経てバッファ１６０ａ―１６０ｈ（図１１）の
各々から入力を受け取るように接続され、入力バッファ
からのパケットは、パケットの行先に基づいて出力ポー
トの適当なバッファへ送られる。本発明の１つの実施形
態では、バッファは、コラップス(collapsing)ＦＩＦＯ
として実施されるが、当業者に知られた他のバッファア
ーキテクチャｘを使用することもできる。

【００９３】バッファ２００は、スイッチから送出され
るべき種々のパケットを記憶するように示されている。
バッファ２００は、ここでは、５つの異なるチャンネル
Ｑ０、Ｑ１、Ｑ２、Ｑ３及びＱ４を経て送信されるパケ
ットを記憶する。チャンネルＱ０―Ｑ４は、上記のチャ
ンネルＱ０、Ｑ１、Ｑ２、Ｑ０Ｖｉｃ及びＱＩＯと同様
ではない。むしろ、これらは、単にスイッチの出力動作
を示すためにのみ使用される。従って、パケットＱ０―
Ｑ４は、異なるチャンネルにおける一般的パケットを表
わし、チャンネルの依存性は、図１６Ａの流れ図におい
て矢印に基づいて定められる。図１６Ａにおいて、ある
チャンネルから別のチャンネルへ向けられた矢印は、第
１チャンネルのパケットが出力ポートへ送られず、一
方、第１チャンネルのパケットの前に受け取られた第２
チャンネルのパケットは、スイッチによる処理が保留中
であることを指示する。例えば、図１６Ａにおいて、チ
ャンネルＱ０のパケットは、チャンネルＱ３のパケット
の処理に依存するように示されており、従って、チャン
ネルＱ０のパケットは、チャンネルＱ３のパケットを
「プッシュ」したと言える。図１６Ａの流れ図に示され
た付加的な依存性は、チャンネルＱ１のパケットがチャ
ンネルＱ２及びＱ３のパケットをプッシュしたことを指
示する。この場合も、図１６Ａの流れ図で表わされた依
存性は、既に述べたＱ０、Ｑ１、Ｑ２、Ｑ０Ｖｉｃ及び
ＱＩＯチャンネルの依存性を表わすものではないことに
注意されたい。以下に述べるように、Ｑ０、Ｑ１、Ｑ
２、Ｑ０Ｖｉｃ及びＱＩＯチャンネルにおけるパケット
の依存性は複雑であり、従って、バッファ２００の動作
を容易に説明するために、一般的パケット及び依存性が
与えられる。

【００９４】上述したように、入力パケットは、スイッ
チの入力バッファ１６０ａ―１６０ｈの各々に正しい順
序で受け取られ、そしてそのパケットにより指示された
行先に基づいて、バッファ２００のような出力バッファ
に正しい順序で供給される。各出力バッファの各パケッ
トエントリ、例えば、エントリ２００ａは、パケットの
送信及び受信ノードを指示するソース及び行先フィール
ドと、パケットが送信されるチャンネルを指示するチャ
ンネルフィールドと、一連のビット２０６ａ−２０６ｅ
とを備えている。一連のビット２０６ａ―２０６ｅは、
ハイアラーキースイッチを経てパケットを供給する各チ
ャンネルごとに１ビットを含む。例えば、図１６の実施
形態では、一連のビットは、チャンネルＱ０、Ｑ１、Ｑ
２、Ｑ３及びＱ４の各々について１ビットを含む。出力
ポートに対して入力パケット受信経路に接続された書き
込み制御ロジック２０５は、受信パケットのチャンネル
に基づくと共に、図１６Ａの流れ依存性図に示されたチ
ャンネル間の依存性に基づいて一連のビットの各々の設
定を制御する。又、以下に詳細に述べるように、書き込
み制御ロジックは、静的又は動的に依存性を確認するこ
とによりビットを更新することができる。依存性を静的
に確認するときには、チャンネルに対して定められた依
存性が、バッファ内の他のパケットに拘わりなく適用さ
れる。依存性を動的に確認するときには、チャンネルの
依存性が、バッファ２００内の他のパケットのチャンネ
ル及びアドレス行先を考慮して適用される。

【００９５】一連のビットの各々には、対応するサーチ
エンジン２０８ａ―２０８ｅが接続される。各サーチエ
ンジンは、ビットの関連列をサーチして、列セットの対
応ビットを有するバッファ２００のエントリを選択す
る。選択されたエントリは、各列（又はチャンネル）ご
とに、一連の信号Ｓ４―Ｓ０により出力バッファマネー
ジャー２０２へ指示される。チャンネル間の既知のデー
タ依存性に関連してサーチエンジンの各々により受信さ
れた選択信号を用いて、出力バッファマネージャーは、
グローバルポート出力に供給するために出力バッファ２
００からのパケットの１つを選択する。動作中に、入力
パケット受信経路２０１を経てパケットが受信されると
きに、パケットのチャンネルは、書き込み制御ロジック
２０５により評価され、そして一連のビット２０６ａ―
２０６ｅのうちの、そのチャンネルに対応するビットが
アサートされる。図１６において、パケットの形式を指
示するためにセットされたビットは、「丸内のＸ印」で
示され、そしてこれはチャンネル識別子フラグと称す
る。従って、図１６では、パケット１がＱ３形式のパケ
ットである。図１５の実施形態によれば、エントリのチ
ャンネルを指示するビットをアサートするのに加えて、
そのチャンネルのパケットがプッシュするところの各チ
ャンネルに対してビットが付加的にアサートされる。こ
れらビットの各々は、依存性フラグと称され、図１６に
「Ｘ」で示されている。それ故、Ｑ０チャンネルパケッ
トであるパケット２の場合に、Ｑ３チャンネルパケット
に関連したビットが付加的にアサートされる。というの
は、図１６Ａの流れ図に示されるように、Ｑ０パケット
がＱ３パケットをプッシュするからである。

【００９６】パケットがバッファ２００に記憶され、そ
してそれらの関連する一連のビット２０６ａ―２０６ｅ
がアサートされるときには、ビットの各列に関連したサ
ーチエンジン２０８ａ―２０８ｅの各々が、ビットセッ
トを有するバッファ内の第１エントリを選択する。それ
故、サーチエンジン２０８ａの選択値は、パケット２を
指し、サーチエンジン２０８ｂの選択値は、パケット３
を指し、等々となる。Ｓ０―Ｓ４信号は、マネージャー
２０２に送られる。マネージャー２０２は、サーチエン
ジンによる選択信号のアサートに応答するのに加えて、
システムに存在する依存性に応答して、パケットの１つ
を選択する。例えば、本発明の１つの実施形態によれ
ば、チャンネルＱ０にあるパケット２のようなパケット
は、チャンネルＱ０のサーチエンジン（２０８ａ）及び
チャンネルＱ３のサーチエンジン（２０８ｄ）の両方が
同じパケットを選択しない限り、スイッチから送出され
ない。従って、多数のフラグが所与のパケットに対して
セットされたときに、マネージャー２０２は、セットさ
れたフラグに対応するサーチエンジンの両方がその所与
のパケットを選択しない限り、出力に対してそのパケッ
トを選択しない。

【００９７】本発明の別の実施形態によれば、サーチエ
ンジンが、その依存性フラグがセットされたためにエン
トリを選択した場合に、サーチエンジンは、依存性フラ
グをクリアしそしてバッファを下方に進んで、依存性フ
ラグ又は認識フラグがセットされた次のエントリを選択
することができる。このような構成では、サーチエンジ
ンが他のチャンネルによりストールされて処理を保留に
することがないので、パケットの処理が改善される。依
存性を識別するために多数のフラグをアサートする作用
は、パケットがスイッチを経て伝播するときにパケット
の全体的なシステム順序を維持する上で助けとなる。例
えば、図１６において、Ｑ０パケットとＱ３パケットと
の間の関係は、Ｑ０チャンネルパケットが実行の前に各
手前のＱ３チャンネルパケットをプッシュすることであ
る。従って、Ｑ３チャンネルパケットの後に受け取られ
たＱ０チャンネルパケットは、Ｑ３パケットの前に実行
されてはならない。パケット１は、パケット２のＱ０チ
ャンネルパケットの前に受け取られるＱ３チャンネルパ
ケットである。パケット２に対してビット２０６ｄをセ
ットすることにより、パケット２のＱ０パケットがパケ
ット１のＱ３パケットの前に出力ポートに発生されない
よう確保することができる。というのは、マネージャー
２０８は、Ｓ３及びＳ０の両方がパケット２への信号を
選択するまでＱ０パケットを選択しないからである。Ｓ
３値は、パケット１が処理されるまでパケット２を指さ
ない。その結果、所与のチャンネルのパケットによりプ
ッシュされた各パケットごとにビットをアサートするこ
とにより、所与のチャンネルによりプッシュされたパケ
ットが処理されるまでチャンネルが効果的に阻止され
る。その結果、全体的なシステム順序が維持される。

【００９８】上記のように、図１６のバッファ制御ロジ
ックは、静的又は動的な依存性を確認するように動作さ
れる。静的な依存性とは、図１６Ａの流れ図で示された
ような依存性である。動的な依存性は、バッファ内の２
つのパケット間に静的な依存性が実際に存在するかどう
かを決定するためにバッファの内容を評価することによ
り確認される。静的な依存性は、メモリデータがＳＭＰ
においてコヒレンス性を失わないよう確保する順序付け
ルールを形成するのに使用される。しかしながら、デー
タのコヒレンス性は、パケットがメモリデータの同じブ
ロックをアクセスする場合にしか影響されない。それ
故、動的な依存性は、バッファに既にあるパケットの行
先アドレスを検査することによってバッファの内容を微
細な粒度で検査して、異なるチャンネルの２つのパケッ
ト間に依存性が実際に存在するかどうか決定する。

【００９９】バッファ２００内のパケット間の依存性を
動的に確認する１つの効果は、バッファ内のパケットを
処理するのに必要な時間を短縮することである。例え
ば、上記のパケット１及びパケット２の動作を使用する
と、Ｑ０パケット２及びＱ３パケット１が同じアドレス
にマップしない場合には、何ら問題なく、Ｑ０パケット
をＱ３パケットの前に処理することができる。手前のＱ
３パケットの処理を待機する際に受ける遅延時間が排除
され、これにより、ＳＭＰシステムの全体的な性能が改
善される。例えば、図１７は、依存性を動的に確認する
ことによるプロセスへのパケットの選択動作を示すフロ
ーチャートである。ステップ２２０において、パケット
がバッファ２００に受け取られる。ステップ２２２にお
いて、パケットのチャンネルに対するビットが書き込み
制御ロジック２０５により一連のビット２０６において
セットされる。ステップ２２４において、バッファ２０
０に記憶された手前のパケットが検査されて、パケット
がプッシュするところのチャンネルのパケットがメモリ
の同じブロックにあるかどうか決定される。それらがメ
モリの同じブロックにある場合には、ステップ２２６に
おいて、パケットがプッシュするところのチャンネルに
あり且つ同じメモリブロックに存在するパケットに対応
するビットがアサートされる。従って、パケット２に対
して図１６の例を使用すると、パケット形式Ｑ３に対す
るビットは、パケット１がパケット２と同じメモリブロ
ックをアクセスする場合だけアサートされる。従って、
依存性を動的に確認することにより、全体的なシステム
性能を向上しながらメモリコヒレンス性を維持すること
ができる。

【０１００】図１８には、全体的なシステム順序を維持
しながら、多数の入力ソースから受け取ったデータを多
数の出力ソースへ出力する方法の別の実施形態が示され
ている。図１８の実施形態は、図１６の場合と同様の要
素を含むように示されている。しかしながら、図１８の
書き込み制御ロジック２０９は、パケットの依存性を異
なるやり方で分析することにより一連のビット２０６ａ
―２０６ｅの各々を更新する。図１６の場合のように、
パケットが関連チャンネルのものであることを指示する
ために、一連のビットの１つが各パケットごとにセット
される。しかしながら、チャンネルがプッシュするとこ
ろのチャンネルの全てのパケットに対して付加的なビッ
トをセットするのではなく、そのチャンネルのパケット
をプッシュするところのチャンネルのパケットに対して
ビットがセットされる。

【０１０１】従って、図１８の実施形態は、チャンネル
識別フラグをセットするのに加えて、そのパケットによ
りマスク又は阻止された全てのチャンネルに対して付加
的なビットがセットされる。例えば、図１８の例におい
て、パケット１は、Ｑ３チャンネルパケットである。Ｑ
３チャンネルのパケットは、図１８Ａの依存性流れ図に
示すようにＱ３パケットが実行されるまで、Ｑ１及びＱ
０パケットの実行を阻止する。従って、ビット２０６
ｄ、２０６ｂ及び２０６ａがパケット１に対してセット
される。しかしながら、パケット２は、他のパケットの
実行を阻止しないＱ０パケットである。その結果、ビッ
ト２０６ｂのみがパケット２に対してセットされる。従
って、図１８のスイッチ実施形態は、依存性を静的に確
認することによりシステム順序を維持しながら出力ポー
トへデータを供給する別の方法を提供する。図１８のバ
ッファ実施形態は、依存性を動的に確認するようには使
用できないことに注意されたい。というのは、そのよう
にするには、データがバッファ２００に書き込まれる前
にデータのアドレスを知る必要があるからである。しか
しながら、ここに述べる静的及び動的な方法は、全て、
パケット間の依存性を満足するよう確保するために使用
できる。

【０１０２】従って、多数の入力ポートを経て多数のソ
ースからデータを同時に受け取りそして多数の出力ポー
トを経て多数の行先へデータを供給できる一方、データ
依存性を満足し、システム順序を維持し、そしてデータ
転送レートを最大にすることのできるスイッチの３つの
実施形態が説明された。１つの実施形態では、フラグを
記憶する多数の待ち行列の使用により順序付け依存性が
達成されそして依存性を識別するように待ち行列が選択
されるリンクリストバッファ機構が説明された。第２お
よび第３の実施形態では、スイッチの入力バッファから
データを正しい順序で受け取る出力バッファが、ある形
式のパケットを阻止するのに使用される一連のビットを
備えていて、データ依存性及びコヒレンス性制約を満足
するように確保する。全ての実施形態において、潜在的
な依存性の競合をマークするためにセットされるフラグ
を含む順序付け待ち行列の使用により、順序付け依存性
が追跡される。フラグの順序付けリストを用いて依存性
を識別することにより、バスの利用性を最大にしながら
順序を維持し且つコヒレンス性を確保するためにマネー
ジャーにより実行されるオペレーションの複雑さが簡単
化される。

【０１０３】キャッシュコヒレンスプロトコル本発明の１つの実施形態におけるキャッシュコヒレンス
プロトコルは、書き込み無効化所有権をベースとするプ
ロトコルである。「書き込み無効化」とは、プロセッサ
がキャッシュラインを変更するときに、他のプロセッサ
キャッシュにおける効力のないコピーを無効化すること
を意味し、新たな値でそれらを更新するのではない。こ
のプロトコルは、システム内のメモリであるかプロセッ
サ又はＩＯＰの１つであるかに拘わりなくキャッシュラ
インに対する識別可能な所有者が常に存在するので、
「所有権プロトコル」と称される。キャッシュラインの
所有者は、必要なときにキャッシュラインの最新の値を
供給する責任がある。プロセッサ／ＩＯＰは、キャッシ
ュラインを「独占的に」又は「共用して」所有すること
ができる。プロセッサがキャッシュラインの独占的所有
権を有する場合には、システムに通知せずにそれを更新
することができる。さもなくば、システムに通知し、そ
して他のプロセッサ／ＩＯＰキャッシュのコピーを潜在
的に無効化しなければならない。

【０１０４】キャッシュコヒレンスプロトコルの詳細な
説明に入る前に、ハイアラーキーネットワークに使用さ
れる全通信手順について最初に説明する。図７Ａについ
て述べたように、大型のＳＭＰシステム１５０は、スイ
ッチ１５５を経て互いに接続された多数のノードを含
む。各ノードにおける各プロセッサは、メモリのデータ
にアクセスするコマンドを発生する。これらのコマンド
は、ソースノード内で完全に処理することもできるし、
又はアドレス及び要求の形式に基づいてシステムの他の
ノードへ送信することもできる。アドレススペースは、
メモリスペース及びＩＯスペースに分けられる。プロセ
ッサ及びＩＯＰは、専用キャッシュを使用して、メモリ
スペースアドレスのみに対するデータを記憶し、そして
ＩＯスペースデータは、専用キャッシュには記憶されな
い。従って、キャッシュコヒレンスプロトコルは、メモ
リスペースコマンドのみに関連している。

【０１０５】キャッシュコヒレンスプロトコルの重要な
要素は、ロード及び記憶動作をシリアル化する解決策で
ある。キャッシュコヒレンスプロトコルは、各メモリア
ドレスＸへの全てのロード及び記憶に順序を課さねばな
らない。この順序は、Ｘへの全ての「記憶」が順序付け
されるものであり、即ち、第１記憶、第２記憶、第３記
憶、等々とならねばならない。第ｉ番目の記憶は、（Ｉ
―１）番目の記憶により決定されたようにキャッシュラ
インを更新する。更に、各ロードには最新の記憶が関連
され、そこからロードはキャッシュラインの値を得る。
この順序をここでは「ロード―記憶シリアル化順序」と
称する。ここに述べるプロトコルの特性は、アドレスＸ
に対するホームＡＲＢバスが、Ｘへの全てのロード及び
記憶に対する「シリアル化ポイント」であることであ
る。即ち、Ｘへの要求がＸのホームＡＲＢバスに到着す
る順序は、対応するロード及び記憶がシリアル化される
順序である。大型のＳＭＰシステムに対するほとんどの
公知のプロトコルは、この特性を有しておらず、従っ
て、効率が悪く、複雑である。

【０１０６】図２に示す小型のＳＭＰノードシステムに
は、１つのＡＲＢバスがある。このバスは、小型ＳＭＰ
における全てのメモリロード及び記憶に対するシリアル
化ポイントである。ＡＲＢバスに接続されたＤＴＡＧ
は、小型ＳＭＰのプロトコルに必要とされる全ての状態
を捕獲する。大型のＳＭＰシステムでは、ホームＡＲＢ
バスのＤＩＲがプロトコルに対するおおよその状態を捕
獲し、ＴＴＴ及びＤＴＡＧは、より微細なレベルにおけ
る状態情報を捕獲する。要求ＲがホームＡＲＢバスに
到着すると、ＤＩＲ、ＤＴＡＧ及びＴＴＴ状態が検査さ
れ、他のプロセッサへの調査コマンド及び／又はソース
プロセッサへの応答コマンドを発生することができる。
更に、ＤＩＲ、ＤＴＡＧ及びＴＴＴの状態が要求Ｒの
「シリアル化」を反映するように自動的に更新される。
従って、要求アドレスがＲのアドレスに等しく且つ要求
Ｒの後にホームＡＲＢに到着する要求Ｑは、ロード―記
憶シリアル化順序においてＲの後に現れる。

【０１０７】その結果、ホームＡＲＢバスは、メモリア
ドレスへの全ての要求に対し「シリアル化ポイント」と
定義される。各メモリアドレスＸに対し、対応する要求
（ＲｄＭｏｄ又はＣＴＤ）がホームＡＲＢバスに到着す
る順序で記憶が見掛け上実行される。アドレスＸへのロ
ードは、ホームＡＲＢにおいて最後にシリアル化された
記憶Ｘに対応するＸのバージョンを得る。以下に述べ
るキャッシュコヒレンスプロトコルの前書きにおいて、
「システム」という用語は、プロセッサ及びＩＯＰを除
く大型ＳＭＰの全ての要素を指す。プロセッサ及びシス
テムは、「コマンドパケット」又は単に「コマンド」を
送信することにより互いに対話する。コマンドは、要
求、調査及び応答の３つの形式に分類される。プロセッ
サによりシステムに発生されるコマンド及びシステムに
よりプロセッサに発生されるコマンドは、所与のプロセ
ッサのメモリシステムインターフェイスに基づく。ＳＭ
Ｐの動作を説明する目的上、デジタル・イクイップメン
ト・コーポレーションからのＡｌｐｈａ（登録商標）シ
ステムインターフェイスの定義に基づいて発生される要
求及びコマンドについて説明するが、他の形式のプロセ
ッサも使用できることを理解されたい。

【０１０８】要求は、ロード又は記憶動作を実行する結
果として、データのコピーを得なければならないときに
プロセッサにより発生されるコマンドである。又、要求
は、システムからのデータの断片に対して独占的な所有
権を得るのにも使用される。要求は、読み取りコマン
ド、読み取り／変更（ＲｄＭｏｄ）コマンド、ダーティ
への変更コマンド、ビクティムコマンド、及びエビクト
(Evict）コマンド（データのキャッシュラインが各キャ
ッシュから除去される場合）を含む。調査(Probe）コマ
ンドは、データ及び／又はキャッシュタグ状態更新を要
求する１つ以上のプロセッサへシステムにより発生され
るコマンドである。調査コマンドは、送信読み取り(For
warded Read)（ＦＲｄ）コマンド、送信読み取り変更(F
orwarded Read Modify）（ＦＲｄＭｏｄ）コマンド、及
び無効化コマンドを含む。プロセッサＰがシステムへの
要求を発生するときには、システムは、１つ以上の調査
コマンドを他のプロセッサへ発生しなければならない。
Ｐがキャッシュラインのコピーを要求する（読み取り要
求で）場合には、システムは、所有者プロセッサ（もし
あれば）へ調査コマンドを送信する。Ｐがキャッシュラ
インの独占的所有権を要求する（ＣＴＤ要求で）場合に
は、システムは、キャッシュラインのコピーをもつ１つ
以上のプロセッサへ無効化調査コマンドを送信する。Ｐ
がキャッシュラインのコピー及びキャッシュラインの独
占的所有権の両方を要求する（ＲｄＭｏｄ要求で）場合
には、システムは、データのキャッシュラインのダーテ
ィコピーを現在記憶しているプロセッサにＦＲｄコマン
ドを送信する。ＦＲｄコマンドに応答して、キャッシュ
ラインのダーティコピーがシステムに返送される。又、
送信読み取り変更（ＦＲｄＭｏｄ）コマンドも、キャッ
シュラインのダーティコピーを記憶しているプロセッサ
にシステムにより発生される。ＦＲｄＭｏｄに応答し
て、ダーティキャッシュラインがシステムに返送され、
そしてキャッシュに記憶されたダーティコピーが無効化
される。キャッシュラインを別のプロセッサにより更新
すべきときには、キャッシュラインのコピーをキャッシ
ュに記憶しているプロセッサに、システムにより無効化
コマンドが発生される。

【０１０９】応答は、プロセッサにより要求されたデー
タ又は要求に対応する確認を搬送するシステムからプロ
セッサ／ＩＯＰへのコマンドである。読み取り及びＲｄ
Ｍｏｄコマンドの場合に、応答は、各々要求されたデー
タを搬送するＦｉｌｌ又はＦｉｌｌＭｏｄコマンドであ
る。ＣＴＤコマンドの場合に、応答は、ＣＴＤの成功又
は失敗を指示するＣＴＤ成功又はＣＴＤ失敗コマンドで
ある。ビクティムコマンドの場合には、応答がビクティ
ム―リリースコマンドである。図１９には、要求と要求
との間の関係、及び個々のプロセッサにおける対応キャ
ッシュラインの状態を説明するためのテーブルが示され
ている。又、図１９は、キャッシュラインの要求及び状
態の各々に対して得られる調査形式のコマンドも示して
いる。カラム３００及び３００ａは、プロセッサにより
発生される要求を示し、カラム３０５及び３０５ａは、
システムの他のプロセッサにおけるキャッシュの状態を
示し、そしてカラム３２０及び３２０ａは、システムに
より発生される調査コマンドを示す。

【０１１０】図１９のテーブルは、プロセッサＡと称す
るプロセッサがシステムに要求を発生することを仮定し
ている。プロセッサＡのコマンドは、次いで、プロセッ
サＢと称する１つ以上の他のプロセッサと相互作用す
る。プロセッサＡによりアドレスされるキャッシュライ
ンが、ＤＴＡＧ及び／又はディレクトリ情報を用いて決
定されたプロセッサＢのキャッシュに記憶される場合に
は、プロセッサＢのキャッシュ状態が、プロセッサＢへ
調査コマンドを発生する必要があるかどうか及びどんな
形式の調査コマンドを発生すべきかを決定する。以下、
コヒレンスプロトコル及び機構について詳細に述べる。
コマンドパケットがとる経路、各コマンド形式に対する
状態情報のソース、及びそれにより生じるアクションが
含まれる。全てのコマンドは、プロセッサ又はＩＯＰか
ら発生され、ＩＯＰの発生プロセッサは「ソースプロセ
ッサ」と称する。要求に含まれるアドレスは、「要求ア
ドレス」と称する。アドレスの「ホームノード」は、そ
のアドレススペースが要求アドレスをマップするところ
のノードである。要求は、ソースプロセッサが要求アド
レスのホームノードである場合は「ローカル」と称し、
さもなくば、「グローバル」要求と称する。ホームノー
ドのＡＲＢバスは、「ホームＡＲＢバス」と称する。
「ホームディレクトリ」は、要求アドレスに対応するデ
ィレクトリである。従って、ホームディレクトリ及びメ
モリは、要求アドレスに対するホームＡＲＢバスに接続
される。

【０１１１】プロセッサ又はＩＯＰから発せられるメモ
リ要求は、先ず、ホームＡＲＢバスにルート指定され
る。この要求は、それがローカルである場合にはローカ
ルスイッチを経てルート指定され、それがグローバルで
ある場合にはハイアラーキースイッチを経て送られる。
後者の場合には、ローカルスイッチ及びＧＰリンクを横
断してＧＰに達し、次いで、ＨＳリンクを経てハイアラ
ーキースイッチへ至り、次いで、ＧＰ及びホームノード
のローカルスイッチを経てホームＡＲＢバスへ至る。グ
ローバル要求は、ソースノードのＡＲＢバスに最初に現
れず、むしろ、ＧＰリンクを経てＨＳに直接ルート指定
されることに注意されたい。公知のプロトコルでは、グ
ローバル要求は、それが別のノードへ送出される前にソ
ースノードの状態をアクセスする。本発明は、グローバ
ル要求をＨＳへ直接発生することによりグローバル要求
の平均待ち時間を短縮する。図２０Ａ―２０Ｊは、多数
の基本的なメモリトランザクションを例示するフローチ
ャートである。

【０１１２】ローカル読み取り：図２０Ａにおいて、ソ
ースプロセッサ３２０からホームＡＲＢバスへ要求が送
られる。ディレクトリ３２２は、どのプロセッサがメモ
リブロックを所有するか決定する。ローカルメモリ３２
３が所有者である場合には、「短い記入」コマンドがホ
ームＡＲＢバスからソースプロセッサ３２０へ発生され
る。グローバル読み取り：図２０Ｂにおいて、ノード３２５
のプロセッサ３２０が、「ホーム」がノード３２６にあ
るメモリのキャッシュラインへ読み取りを発生すると仮
定する。（グローバル）読み取りコマンドは、ライン３
２７で示された経路を経てスイッチ３２４を通り「ホー
ム」ＡＲＢバス及びディレクトリ３２１へルート指定さ
れる。ノード３２６のメモリ３３０がキャッシュライン
の所有者である場合には、「短い記入応答」を発生する
ノード３２６によりノード３２６からノード３２５へデ
ータが返送される。

【０１１３】キャッシュラインが別のプロセッサ／ＩＯ
Ｐにより現在所有されている場合には、要求されたキャ
ッシュラインを得るために異なるステップが取られる。
図２０Ｃを参照すれば、プロセッサ３２０が、「ホー
ム」がノード３２６にあるメモリのキャッシュラインへ
読み取りを発生する場合には、読み取りは、再び、経路
３２７を経てホームＡＲＢバス及びディレクトリ３２１
へルート指定される。ディレクトリ３２１のエントリ
は、上述したように、メモリの各キャッシュラインに対
し、所有者情報を含む１４ビットの状態情報を備えてい
る。所有者情報は、この場合に、所有者をノード３２８
におけるプロセッサ３４２として識別する。ノード３２
８が要求されたキャッシュラインを所有するというディ
レクトリの指示に応答して、２つの事象が生じる。第１
に、「ホーム」ノードであるノード３２６は、ライン３
２９で示すように、所有者プロセッサ３４２へ「送信読
み取り」調査を発生する。同時に、ホームノード３２６
は、ライン３３１で示すように、プロセッサ３２０へ
「記入マーカー」応答を送信する。「記入マーカー」応
答の役割は、以下で説明する。

【０１１４】「送信読み取り」に応答して、プロセッサ
３４２は、「記入」コマンドをプロセッサ３２０へ発生
し、「記入」コマンドは、当該キャッシュラインを含
む。「読み取り」要求に対するこの形式の応答は、デー
タ返送に対して一連の３つのコマンドを必要とするの
で、「長い記入」と称される。従って、「読み取り」ト
ランザクションは、メモリからの応答である「短い記
入」と、所有者プロセッサからの応答である「長い記
入」の２つの形式に分割することができる。

【０１１５】ローカルＲｄＭｏｄ：図２０Ｄを参照すれ
ば、ローカル読み取り変更トランザクションは、（１）
キャッシュラインの現在バージョンのコピーを得ている
全てのプロセッサに無効化調査が送られ、そして（２）
ＦＲＭｏｄ及びＦｉｌｌＭｏｄｓが、Ｆｒｄｓ及びＦｉ
ｌｌｓに代わって所有者に送られる点を除くと、ローカ
ル読み取りトランザクションと同様に働くことが明らか
である。図２０Ｄ図において、ホームノードのディレ
クトリは、ローカルプロセッサ又はメモリがブロックを
所有することを示す。ホームＡＲＢバスにおいて、ディ
レクトリ３２２は、ブロックの現在バージョンを得てい
る全ての外部ノードを識別する。無効化コマンドは、Ｈ
Ｓ３２４へ送られ、全ての当該ノードはマルチキャスト
ベクトルで識別される。ＨＳは、ベクトルで識別された
全てのノードへ無効化メッセージをマルチキャストす
る。無効化メッセージは、各ノードにおいてＡＲＢバス
へ進み、そこで、ＤＴＡＧは、それらを更にフィルタ
し、キャッシュラインの現在バージョンを有すると識別
されたプロセッサ又はＩＯＰのみへ無効化調査を送信す
る。

【０１１６】グローバルＲｄＭｏｄ：図２０Ｅを参照す
れば、読み取り変更トランザクションは、図２０Ａ及び
２０Ｂについて述べた読み取りトランザクションと同様
に作用することが明らかである。読み取り変更（ＲｄＭ
ｏｄ）コマンドは、先ず、プロセッサ３２０からキャッ
シュラインのホームＡＲＢ及びホームディレクトリ３２
１へルート指定される。ホームノードであるノード３２
６のメモリがキャッシュラインを記憶する場合には、要
求されたデータを含む「短い記入変更」コマンドがノー
ド３２６からプロセッサ３２０へ送られる。ディレクト
リ３２１は、このトランザクションの結果として更新さ
れる。「読み取り変更」コマンドは、プロセッサ３２０
が、キャッシュラインの内容を変更できるようにキャッ
シュラインの独占的所有権を要求することを指示する。
それ故、「短い記入変更」コマンドに加えて、ノード３
２６は、キャッシュラインの現在バージョンのコピーを
得ている他の全てのプロセッサに「無効化」コマンドを
発生する。ＤＩＲは、１つ以上のプロセッサがキャッシ
ュラインの現在バージョンのコピーを得ているノードを
識別する。ＤＩＲの存在ビットは、この情報を含む。Ｄ
ＴＡＧは、キャッシュラインのコピーを得ている全ての
ホームノードプロセッサを識別する。各々のＤＩＲ存在
ビットがセットされた全てのノードに「無効化」が送信
される。「無効化」を受信する各ノードにおいて、ＤＴ
ＡＧをアクセスして、どのプロセッサがキャッシュライ
ンのコピーを現在記憶するかを決定する。「無効化」
は、これらのプロセッサのみに送られる。ＩＯＰタグ
は、ＩＯＰがコピーを有するかどうか決定するのに使用
され、もしそうであれば、ＩＯＰは「無効化」調査も受
け取る。

【０１１７】要求を発しているプロセッサ以外のプロセ
ッサが所有者である場合には、ホームノードは、「記入
変更マーカー」、「送信読み取り変更」及びゼロ以上の
「無効化」を１つのコマンドとして発生する。スイッチ
において、コマンドは、全ての行先ノードにマルチキャ
ストされる。各行先ノードにおいて、コマンドは、その
要素に分離され、各ノードのグローバルポートは、各ノ
ードにおいてどんなアクションをとるべきかを決定す
る。上記の例では、「送信読み取り変更」がプロセッサ
３４２により処理され、そして「記入変更マーカー」が
プロセッサ３２０により処理される。更に、ＤＴＡＧエ
ントリに基づき、ホームノード、「記入変更マーカー」
を受け取るノード、及び「送信変更」を受け取るノード
において「無効化」が実行される。「送信読み取り変
更」に応答して、ダーティデータが「長い記入変更」コ
マンドを経てプロセッサ３４２からプロセッサ３２０へ
送られる。

【０１１８】従って、「読み取り変更」コマンドは、２
つ又は３つのノード接続即ち「ホップ」を実行すること
ができる。本発明の１つの実施形態では、読み取り型コ
マンド（「読み取り」及び「読み取り変更」）のみが３
つのホップを生じ、但し、第３のホップは「記入」型コ
マンド（「記入」又は「記入変更」）である。しかしな
がら、本発明は、以下に述べる追加コマンドを仮想チャ
ンネル待ち行列に適当に割り当てることにより３つ以上
のホップを必要とする他のトランザクションも含むよう
に容易に変更できる。

【０１１９】ＣＴＤ：図２０Ｇ及び２０Ｈには、クリー
ン―ダーティ（ＣＴＤ）及び無効化―ダーティ（ＩＴ
Ｄ）の基本的な流れが示されている。図２０Ｇでは、ク
リーン―ダーティは、ホームノードにおいてプロセッサ
３２０からディレクトリ３２１へ発生される。プロセッ
サ３２０が更新を希望するところのクリーンキャッシュ
ラインが現在のものであるか効力を失ったものであるか
に基づいて、「確認」コマンド（ＡＣＫ）又は「非確
認」（ＮＡＣＫ）コマンドのいずれかがプロセッサ３２
０へ返送される。対応的に、ＣＴＤは成功又は失敗と言
える。更に、ＣＴＤが成功の場合にデータのキャッシュ
ラインのコピーをもつものとしてディレクトリ３２１の
存在ビットにより指示された全てのノードに「無効化」
が送られる。図２０Ｈに示すように、ＩＴＤコマンド
は、ＣＴＤと実質的に同様に働く。しかしながら、ＩＴ
Ｄは決して失敗とならない。ＡＣＫが常にプロセッサ３
２０に送られ、そしてデータのキャッシュラインのコピ
ーを記憶するシステムの他のノードには「無効化」が送
られる。

【０１２０】ローカル及びグローバル書き込みビクティ
ム：上記のように、書き込みビクティムコマンドは、ダ
ーティデータをプロセッサのキャッシュから適当なホー
ムメモリへ返送する。図２０Ｉ及び２０Ｊを参照すれ
ば、書き込みビクティムの流れは、「ホーム」メモリが
書き込みビクティムを発生するプロセッサと同じノード
であるかどうかに基づいて若干異なることが明らかであ
る。図２０Ｉに示すように、「ホーム」ノードがプロセ
ッサのノードである場合には、プロセッサ３２０が書き
込みビクティムを発生し、そしてデータは、同じノード
のメモリへ直接送られる。

【０１２１】しかしながら、図２０Ｊに示すように、ビ
クティムデータがプロセッサとは異なるホームにある場
合には、データが２つの段階で転送される。第１に、ビ
クティムキャッシュラインがプロセッサ３２０のキャッ
シュ（又はビクティムバッファ）から送出され、そして
プロセッサノードのグローバルポートにおけるビクティ
ムキャッシュ（図６の要素１２４）に記憶される。ビク
ティムキャッシュは、「ビクティムリリース」信号でプ
ロセッサに応答し、プロセッサがそのビクティムバッフ
ァエントリを再使用できることを指示する。次いで、ス
イッチに使用可能な帯域巾が存在するときには、ビクテ
ィムデータは、「書き込みビクティム」コマンドにより
ビクティムキャッシュからホームプロセッサのメモリへ
送られる。

【０１２２】ソースプロセッサＰによりホームメモリに
送られたビクティムデータは、それがメモリに到達する
ときまでに効力を失うことがあることに注意されたい。
このような場合に、ビクティムは、「失敗」と言われ、
ホームメモリは更新されない。このようなケースは、Ｐ
がキャッシュラインの所有権を獲得するときと、Ｐのビ
クティムがホームディレクトリに到着するときとの間の
インターバルに別のプロセッサがキャッシュラインの所
有権を獲得したときに生じる。このような場合には、Ｐ
のビクティムがホームＡＲＢに到達する前に、キャッシ
ュラインに対する「無効化」又は「ＦｒｄＭｏｄ」調査
をプロセッサＰに送信しなければならない。ビクティム
データをメモリに書き込まねばならないかどうか決定す
るために、「書き込みビクティム」コマンドがホームＡ
ＲＢバスに現れるときに、要求されたアドレスに対する
ディレクトリエントリがルックアップされる。ソースプ
ロセッサが依然としてキャッシュラインの所有者である
ことをディレクトリが指示する場合には、ビクティムが
成功となり、メモリを更新する。さもなくば、失敗とな
り、メモリは更新しない。いずれにせよ、ディレクトリ
３２１においてビクティムに対して判断がなされると、
「ビクティムＡＣＫ」コマンドがノード３２５のグロー
バルポートに返送され、ビクティムキャッシュは関連エ
ントリをクリアすることができる。

【０１２３】この設計の１つの実施形態では、ＤＴＡＧ
を使用して、「書き込みビクティム」コマンドがローカ
ルである場合に「書き込みビクティム」コマンドの成功
又は失敗を判断する。この特定の例（ローカル「書き込
みビクティム」要求の例）では、ＤＴＡＧ及びＤＩＲの
両方が「書き込みビクティム」要求の成功又は失敗を決
定するに必要な情報を与えることができる。ＤＴＡＧ
は、単にＤＴＡＧをベースとする機構が小型のＳＭＰノ
ードハードウェアに対して既に設けられているという理
由でＤＩＲに代わって使用される。キャッシュコヒレン
スプロトコルの上記説明では、最も一般的な動作及びコ
マンド形式について述べた。これら機構は、以下に詳細
に説明する。上記のように、本発明の１つの実施形態で
は、２つ以上の関連メッセージパケットを効率化のため
に１つに結合することができる。結合されたパケット
は、次いで、ＨＳ又はノードのＡＲＢバスにおいてその
成分に分割することができる。例えば、ＨＳへのＦｒｄ
Ｍｏｄメッセージは、所有者プロセッサをもつノードへ
のＦｒｄＭｏｄメッセージと、キャッシュラインのコピ
ーをもつノードへの「無効化」メッセージと、ソースノ
ードへのＦｉｌｌＭａｒｋｅｒＭｏｄメッセージとに分
割される。所有者プロセッサノードへのＦｒｄＭｏｄ
は、ノードのＡＲＢバスにおいて、所有者プロセッサへ
のＦｒｄＭｏｄメッセージと、ノードの他のプロセッサ
へのゼロ以上の「無効化」メッセージとに更に分割され
る。

【０１２４】ビクティムコヒレンス性を維持するための
遅延書き込みバッファ動作：図２０Ｉ及び２０Ｊについ
て上述したように、ホームメモリに送られるビクティム
データは、「書き込みビクティム」がホームＡＲＢに到
達する前に受け取られるキャッシュラインに対し「無効
化」又はＦｒｄＭｏｄ調査が介在する結果としてそれが
到着するときまでに効力を失うことがある。ビクティム
データをメモリに書き込まねばならないかどうかを決定
する１つの方法は、各書き込みビクティムコマンドに対
してディレクトリエントリをルックアップすることであ
る。ビクティム書き込みコマンドを発生するプロセッサ
がダーティ所有者であることをディレクトリが指示する
場合には、ビクティムを進めることが許されねばならな
い。さもなくば、失敗となってしまう。この方法が望ま
しい理由は、プロセッサとシリアル化ポイントとの間の
ビクティム書き込みコマンドを、シリアル化ポイントと
プロセッサとの間の調査コマンドと一致させるための複
雑な比較論理構造体の必要性が回避されるからである。

【０１２５】この解決策は、データコヒレンス性の維持
を簡単化するが、メモリ帯域巾が減少するという形態の
性能欠陥を生じさせる。この構成によれば、システムが
ビクティム書き込みコマンドを実行するたびに、先ず、
ディレクトリ状態をアクセスし、次いで、その状態を評
価し、そして最終的に、その状態に基づいて、ビクティ
ムデータのＤＲＡＭ書き込みを実行しなければならな
い。メモリ及びディレクトリは原子的にアクセスされる
ので、公知の設計方法に基づいてシステムがシステムが
設計された場合に、全ビクティム書き込みサイクルは、
ディレクトリルックアップ時間と、状態評価時間と、Ｄ
ＲＡＭ書き込み時間との和に等しくなる。このようなシ
ステムは、全ビクティムサイクルがＤＲＡＭ書き込みの
みで構成されるシステムに対して甚だしい性能上の不利
益をこうむる。

【０１２６】本発明の１つの実施形態は、メモリの各バ
ンクに遅延書き込みバッファを設けることにより、この
メモリバンク利用低下問題を克服する。ビクティム書き
込みがメモリシステムへ発生されるたびに、メモリシス
テムは、次の機能を並列に実行することにより応答す
る。即ち、ビクティム書き込みデータをターゲットメモ
リバンクの遅延書き込みバッファに記憶しそしてそのブ
ロックを「非書き込み可能」又は「無効」と表示し、ビ
クティム書き込みに関連したディレクトリ状態をアクセ
スし、そして現在ビクティム書き込みに代わって、「書
き込み可能」又は「有効」と表示された既にバッファさ
れたビクティム書き込みのＤＲＡＭ書き込みを実行す
る。ディレクトリアクセスが完了したときに、ビクティ
ム書き込みに関連したディレクトリ状態が、ビクティム
書き込みが成功したことを示す場合には、ビクティムが
存在する遅延書き込みバッファが「書き込み可能」又は
「有効」状態へと移行する。遅延書き込みバッファにお
けるデータブロックの「書き込み可能」又は「有効」状
態は、バッファのデータが、ＤＲＡＭメモリに記憶され
たバージョンよりも最新のキャッシュラインのバージョ
ンであることを指示する。バッファが「書き込み可能」
又は「有効」と表示された場合には、そのデータが、メ
モリシステムへのビクティム書き込みのその後に発生に
よりＤＲＡＭへ書き込まれる。既に発生されたビクティ
ム書き込みのＤＲＡＭ書き込みと並列にディレクトリル
ックアップを実行することにより、この実施形態は、全
ビクティムサイクル時間を単一のＤＲＡＭ書き込み時間
に減少する。この実施形態は、「書き込み可能」な又は
「有効」なデータブロックを多数のサイクルにわたり遅
延書き込みバッファに保持し、そのサイクル中にバッフ
ァされたブロックへのその後の参照をメモリへ発生する
ことができるので、遅延書き込みバッファは、連想アド
レスレジスタを備えている。ビクティム書き込みブロッ
クのアドレスは、その関連データが遅延書き込みバッフ
ァに記憶されるのと同時に連想アドレスレジスタに記憶
される。その後の参照がメモリシステムへ発生されると
きには、メモリシステムは、アドレスレジスタに対する
アドレス一致により遅延書き込みバッファにおけるアド
レスブロックを識別する。これは、メモリシステムが、
ＤＲＡＭメモリの効力を失ったデータに代わってバッフ
ァからの最新のデータで遅延書き込みバッファのブロッ
クへの全ての参照にサービスすることを意味する。

【０１２７】ビクティムデータの遅延書き込みバッファ
動作を与える上記技術は、ＤＴＡＧ状態を直接含まずに
ＤＴＡＧ状態を使用してデータブロックの有効性を決定
するスヌーピーバスをベースとするシステムにも使用で
きる。図２１を参照すれば、遅延書き込み動作を与える
メモリ制御システムの１つの実施形態は、ディレクトリ
１４０からライン１４０ａを経てＯｗｎｅｒＭａｔｃ
ｈ信号を受け取るように接続されたメモリコントローラ
３３２を含むように示されている。更に、メモリコント
ローラ３３２は、ディレクトリに入力されるコマンドを
追跡するためにＱＳＡＲＢ１１（ディレクトリ１４０
にも信号供給する）からも入力を受け取る。メモリコン
トローラ３３２は、遅延書き込みバッファ３３６を含
む。遅延書き込みバッファ３３６の各エントリは、デー
タ部分３３６ａと、フラグ部分３３６ｂと、アドレス部
分３３６ｃとを含む。本発明の１つの実施形態におい
て、設計上の複雑さを最小限にするために、遅延書き込
みバッファは、１つのアドレス、データ及びフラグエン
トリのみを保持するが、本発明は、このような構成に限
定されるものではない。

【０１２８】遅延書き込みバッファは、次のように動作
する。動作中に、コマンド、アドレス及びデータがＡＲ
ＢＢＵＳ１３０を経て受け取られると、それらはディ
レクトリ１４０及びメモリコントローラ３３２へ送られ
る。メモリコントローラ３３２は、コマンド、アドレス
及びデータを書き込みバッファ３３６に１トランザクシ
ョン周期中（ここでは１８クロックサイクル中）記憶す
る。トランザクション周期中に、ディレクトリ１４０が
アクセスされ、そしてアクセスの結果がＯＷＮＥＲＭ
ＡＴＣＨライン１４０ａにアサートされる。ＯＷＮＥＲ
ＭＡＴＣＨラインは、メモリの更新を求めるプロセッ
サのプロセッサＩＤが実際にデータのキャッシュライン
の所有者であることをディレクトリエントリが指示する
場合にアサートされる。ＯＷＮＥＲＭＡＴＣＨ信号
は、遅延書き込みバッファエントリ３３６のフラグ３３
６ｂをセットするのに使用される。次に続くトランザク
ション周期中に、メモリバスが使用できそしてフラグ３
３６ｂがアサートされた場合には、メモリ３３４に記憶
データが書き込まれる。本発明の１つの実施形態では、
書き込み動作のみがバッファされ、到来する読み取り動
作は、遅延なくメモリバスをアクセスすることが許され
る。遅延書き込みバッファに記憶されたビクティムデー
タへのその後の読み取り動作は、遅延書き込みバッファ
からサービスされる。

【０１２９】図２２は、遅延書き込み動作のタイミング
図である。時間Ｔ０に、読み取り０動作がＡＲＢＢＵ
Ｓに受け取られる。この読み取り動作は、ＤＲＡＭ３３
４をアクセスするためにメモリへ直ちに伝播される。時
間Ｔ１に、書き込み１動作がＡＲＢＢＵＳに受け取ら
れる。このＴ１サイクル中に、ディレクトリ１４０がア
クセスされ、そしてＴ１サイクルの終わりに、書き込み
１アドレスの一致を示すＯＷＮＥＲＭＡＴＣＨ信号が
アサートされる。その結果、遅延書き込みバッファエン
トリのフラグ３３６ｂがセットされる。時間Ｔ２に、読
み取り２動作が受け取られ、書き込み１動作の前にメモ
リへ送られる。時間Ｔ３の間に、書き込み１動作に対応
するフラグがアサートされた場合に、次の書き込み３動
作が遅延書き込みバッファに受け取られると、書き込み
１動作がＤＲＡＭ３により処理するためにメモリに送ら
れる。

【０１３０】ローカルメモリの読み取りについては、遅
延書き込みバッファのフラグビットをセットするのにＤ
ＴＡＧも使用できることに注意されたい。ローカルメモ
リからのキャッシュラインの１つをローカルノードにお
けるプロセッサのキャッシュの１つに記憶することがで
きる。プロセッサの１つがキャッシュラインをビクティ
ム化しそしてキャッシュラインが遅延書き込みバッファ
に書き込まれたときに、そのキャッシュラインのＤＴＡ
Ｇエントリを検査して、キャッシュラインがプロセッサ
の１つに常駐したかどうか決定することができる。キャ
ッシュラインがプロセッサの１つに常駐した場合には、
ＤＴＡＧエントリの有効ビットを検査して、プロセッサ
がビクティム化するコピーが有効であることを確保す
る。ＤＴＡＧにヒットがありそしてキャッシュラインが
有効であった場合には、ＤＴＡＧが遅延書き込みバッフ
ァのフラグをセットし、キャッシュラインをローカルメ
モリに書き込みさせる。これは、簡単なスヌーピーバス
をベースとする（即ちディレクトリのない）システムが
この同じ簡単なアルゴリズムを適用できるようにする。

【０１３１】従って、図２１のメモリ制御ロジックは、
読み取り動作を読み取りサイクルにおいて直ちに実行す
ることができそして書き込み動作を各書き込みサイクル
に実行できるようにする（たとえ遅延書き込みであって
も）。その結果、ディレクトリのアクセスにより遅延を
こうむることなくデータの定常流がＤＲＡＭに送られ、
そしてコヒレンス性を維持しながら性能が高められる。
遅延書き込みバッファ技術は、ビクティム書き込み動作
に関連して説明したが、メモリ性能を改善するためにコ
ヒレンス状態が集中され且つ一定保持されるようないか
なるシステムにも使用することができる。

【０１３２】仮想チャンネル：従って、キャッシュコヒ
レンスプロトコルを実施するために、プロセッサと、デ
ィレクトリと、メモリと、ＤＴＡＧとの間に多数のメモ
リ参照が送信されることが明らかである。更に、各メモ
リ参照は、多数のトランザクション即ちホップをノード
間に備え、メモリ参照のためのメッセージは、参照全体
が完了する前に転送される。メッセージ間の依存性が参
照を不定に阻止する場合には、マルチプロセッサシステ
ムが停滞（デッドロック）状態となる。上記で簡単に
述べたように、本発明の１つの実施形態は、仮想チャン
ネル流れ制御を使用することにより、ノード間のトラフ
ィックをマネージしそして停滞を生じることなくデータ
コヒレンス性を維持する。仮想チャンネルは、相互接続
ネットワークに停滞のないルートを形成するために最初
に導入された。本発明の１つの実施形態によれば、仮想
チャンネルは、更に、共用メモリコンピュータシステム
のためのキャッシュコヒレンスプロトコルにおけるリソ
ース停滞を防止するのにも使用できる。

【０１３３】公知の関連するキャッシュコヒレンスプロ
トコルでは、２つの形式の解決策が使用されている。少
数のプロセッサと少数の同時保留中要求とを有するシス
テムの場合には、実行中の任意の点に生じ得る考えられ
る最大数の応答を受け入れるに足る大きさの待ち行列及
びバッファが設けられている。充分な待ち行列及びバッ
ファスペースを設けることにより、メッセージが進行の
ために別のメッセージに決して影響されないよう保証し
ている。多数の保留中要求を伴う大型のシステムでは、
考えられる最大数の応答を受け入れるに足る大きさのバ
ッファ及び待ち行列を設けることは実際的ではない。従
って、停滞検出及び分析機構に接続された２チャンネル
相互接続を使用して問題が解決される。第１に、相互接
続部（プロセッサ及びメモリのようなシステム要素間に
メッセージを移動するのに使用される論理的経路）は、
２つのチャンネル、即ち要求チャンネル（又は下位チャ
ンネル）と、応答チャンネル（又は上位チャンネル）と
を使用する。これらのチャンネルは、一般に、物理的な
ものであり、即ち個別のバッファ及び待ち行列を使用す
る。第２に、潜在的な停滞を検出するために発見的手法
が一般的に実施される。例えば、コントローラは、待ち
行列がいっぱいでありそして待ち行列からある時間中に
メッセージが出力されないときに潜在的な停滞を通知す
る。第３に、選択されたメッセージが否定的に確認され
て、リソースを解放し、他のメッセージを進行できるよ
うにする停滞分析機構が実施される。否定的な確認メッ
セージは、それに対応するコマンドをリタイアさせる。

【０１３４】上記の大型システムの解決策は、公平さ／
欠乏の問題及び性能不利益の問題を含む２つの主たる問
題を有している。あるメッセージが否定的に確認される
ので、あるコマンドが長時間完了しない（潜在的に不定
である）ことが考えられる。コマンドが所与の時間周期
内に完了するよう保証されない場合には、そのコマンド
を発生するリソースは、システムデータへの公平なアク
セスを得ることができない。更に、リソースがシステム
データへの公平なアクセスを得ることができないため
に、データに対して欠乏状態となり、潜在的にシステム
の停滞を生じさせる。更に、あるメッセージが否定的に
確認され、従って、それらの行先に到達しないので、無
効化メッセージのようなプロトコルメッセージは、それ
らが行先に首尾良く到達することを指示するための確認
を発生しなければならない。更に、コントローラは、対
応するコマンドが完了したとみなし得る前に全ての確認
が受け取られるまで待機しなければならない。この非決
定論的結果は、キャッシュコヒレンスプロトコルの全性
能を低減するようなメッセージオーバーヘッド及び余計
な待ち時間を生じさせる。

【０１３５】本発明の１つの実施形態によれば、停滞回
避に対する系統的及び決定論的解決策を採用したキャッ
シュコヒレンスプロトコルが使用される。潜在的な停滞
を検出しそして矯正動作を行うのではなく、停滞が設計
により排除される。従って、停滞検出及び分析機構の必
要性がなくなる。第２に、メッセージは、停滞回避のた
めの否定的確認ではなくなるので、「無効化」のような
プロトコルメッセージに対する確認が不要となり、それ
故、帯域巾及び待ち時間が改善される。仮想チャンネル
の使用を説明する目的で、幾つかの有用な用語について
最初に説明する。依存性：メッセージＭ２が進行しな
い限りメッセージＭ１が進行できない場合に、メッセー
ジＭ１はメッセージＭ２に「依存」すると定義する。更
に、依存性は、移行的であるとも定義する。本発明のキ
ャッシュコヒレンスプロトコルを実施する場合に、リソ
ース依存性及び流れ依存性の少なくとも２種類の依存性
がある。Ｍ２が待ち行列スロットのようなリソースを解
放するまでＭ１が進行できない場合に、Ｍ１はＭ２に
「リソース依存」すると定義する。Ｍ２が進行するまで
Ｍ１が進行しないことをキャッシュコヒレンスプロトコ
ルが必要とする場合には、Ｍ１はＭ２に「流れ依存」す
ると定義する。例えば、キャッシュコヒレンスプロトコ
ルは、ディレクトリがある状態に達するまでＭ１が阻止
状態であり、そしてディレクトリの状態を所望の値にセ
ットするのがＭ２であることを要求する。従って、Ｍ１
からＭ２へのリソース又は流れ依存性のチェーンが存在
する場合に、Ｍ１はＭ２に依存すると定義する。

【０１３６】依存性サイクル：Ｍ１の進行がＭ２の進行
に依存し；Ｍ２の進行がＭ３の進行に依存し；Ｍｋ―１
の進行がＭｋの進行に依存し；そして最終的に、Ｍｋの
進行がＭ１の進行に依存するときに、１組のメッセージ
Ｍ１、ＭＫ（≧２）の間に「依存性サイクル」が存在す
ると定義する。メッセージのあるサブセットが依存性サ
イクルを形成するときにメッセージのシステムは停滞状
態になる。Ｍ１はＭｋに依存し、Ｍｋは次いでＭ１に依
存するので、サイクル内のどのメッセージも進行するこ
とができない。ここに開示する方法及び装置は、仮想チ
ャンネルを使用して、キャッシュコヒレンスプロトコル
における停滞を決定論的に回避する。キャッシュコヒレ
ンスプロトコルの設計において必要とされるハードウェ
ア機構及び従うべき１組のルールについて説明する。

【０１３７】１つの実施形態において、キャッシュコヒ
レンスプロトコルは、全てのメモリ動作がせいぜい３段
階で完了すると定める。各段階において、システムの要
素間に１つ以上のメッセージが転送される。それ故、各
段階は、「ホップ」と称される。ホップは、０、１及び
２と番号付けされる。ホップ０では、プロセッサ又はＩ
Ｏプロセッサからの要求がホームディレクトリへ送られ
る。ホップ１では、ホームディレクトリにより発生され
たメッセージが１つ以上のプロセッサ又はＩＯプロセッ
サへ送られる。ホップ２では、メッセージが所有者プロ
セッサからソースプロセッサへ送られる。これらホップ
は、図２３に示されている。キャッシュコヒレンスプロ
トコルの顕著な特性は、全ての動作が所定数のホップ内
に完了することである。ここに示す実施形態では、所定
数が３であるが、本発明は、選択される数が比較的小さ
く且つ一貫したものである限り、特定のホップ数に限定
されるものではない。この特性は、停滞を検出しそして
停滞を解消するためのメッセージを失敗して再トライす
る機構を伴わずに、全てのメッセージをそれらの行先に
ルート指定できることを保証するための鍵である。

【０１３８】上記のように、ここに示す実施形態では、
最大ホップ数が３である。従って、システムは、各々Ｑ
０、Ｑ１及びＱ２と示された３つのチャンネルを備えて
いる。これらのチャンネルは、システム相互接続部を通
る論理的に独立したデータ経路である。これらのチャン
ネルは、物理的なものでもよいし、仮想のもの（或いは
一部分物理的で且つ一部分仮想）でもよい。物理的なも
のであるときには、各チャンネルは、システム全体にわ
たり個別の待ち行列及びバッファリソースを有する。仮
想のものであるときには、チャンネルは、待ち行列及び
バッファリソースを共用し、以下に述べる制約及びルー
ルを受ける。３つのチャンネルは、ハイアラーキーを構
成し、Ｑ０は最下位であり、Ｑ１はその次であり、そし
てＱ２は最上位のチャンネルである。システムにおける
停滞回避のための重要なルールは、チャンネルＱｉのメ
ッセージが、Ｑｉより下位のチャンネルのメッセージに
決して依存しないことである。

【０１３９】更に、本発明の１つの実施形態において、
ＩＯシステムからの応答メッセージと、ＩＯシステムか
らのメモリスペースコマンドとの間の流れ依存性サイク
ルを排除するためにＱＩＯチャンネルが追加される。最
後に、本発明の１つの実施形態では、ビクティムメッセ
ージと、ビクティムメッセージが発生されるがビクティ
ムメッセージが保留中である間に発生されるその後の依
存性メッセージとに対して、Ｑ０Ｖｉｃチャンネルが使
用される。図２０ａ―２０ｈに関連して上述したよう
に、スイッチへ発生される所与のコマンドメッセージ
は、一連の多数の個別トランザクションを発生する。本
発明の１つの実施形態において、所与のコマンドパケッ
トに対する各個別のトランザクションは、チャンネルに
割り当てられる。チャンネルは、本質的に、所与のコマ
ンドパケットの完了段階及び依存性を定義する順序付け
された構造体を形成する。

【０１４０】例えば、図２３は、図２０Ａ―２０Ｊにつ
いて述べた動作の個別トランザクションにチャンネルを
割り当てるところを示すフローチャートである。個別ト
ランザクションは、次の用語で識別される。即ち、参照
により生じる一連のトランザクションにおける第１トラ
ンザクションは、Ｑ０又はＱ０Ｖｉｃトランザクション
と称し、一連のトランザクションにおける第２トランザ
クションは、Ｑ１トランザクションと称し、そして一連
のトランザクションにおける第３トランザクションは、
Ｑ２トランザクションと称する。Ｑ０又はＱ０Ｖｉｃチ
ャンネルは、まだディレクトリを訪れていないプロセッ
サ及びＩＯＰからの初期コマンドを搬送する。従って、
Ｑ０／Ｑ０Ｖｉｃパケットの行先は、常に、ディレクト
リである。Ｑ０Ｖｉｃチャンネルは、「書き込みビクテ
ィム」コマンドに対して特に指定され、一方、Ｑ０チャ
ンネルは、プロセッサ又はＩＯＰにより開始された他の
全ての形式のコマンドを搬送する。

【０１４１】ステップ３８０で発生されるコマンドは、
データを得るか又は状態を更新しようと求める。状態
は、常に、データのアドレスに対応するホームディレク
トリで得ることができる。ステップ３８２において、ホ
ームディレクトリがアクセスされ、そして使用可能なキ
ャッシュラインがホームメモリにより所有される（ディ
レクトリに対して）か、別のプロセッサにより所有され
るかが決定される。いずれの場合にも、応答はＱ１チャ
ンネルを経て発生される。ステップ３８２において、状
態又はデータが第２ノードに得られると決定された場合
には、ステップ３８４において、Ｑ１チャンネルの応答
が第１ノードへ返送される。Ｑ１形式のトランザクショ
ンは、ＳｈｏｒｔＦｉｌｌ、ＳｈｏｒｔＦｉｌｌＭｏ
ｄ、ＶｉｃＡｃｋ、ＣＴＤ―ＡＣＫ／ＮＡＣＫ当を含
む。

【０１４２】ステップ３８２において、ホームノードが
データを所有せず、データがダーティであって別のプロ
セッサにより所有されると決定された場合には、ステッ
プ３８６において、「送信読み取り」又は「送信読み取
り変更」のＱ１形式のトランザクションがＱ１チャンネ
ルを経てリモートノードへ発生される。ダーティへと状
態変化したデータを他のノードが共用することを指示す
るホームノードの状態チェックに応答するか、又は「読
み取り変更」に応答する場合には、ステップ３８８にお
いて、無効化Ｑ１形式トランザクションがシステムの他
の当該ノードに送られる。従って、Ｑ１チャンネルは、
第２の「ホップ」におけるパケットを搬送するためのも
のであり、第１のホップはディレクトリに対するもので
ある。第２の「ホップ」の行先は、常にプロセッサであ
り、プロセッサは、元のコマンドを開始したノードにあ
るか、又はシステム内の別のリモートノードにある。

【０１４３】Ｑ２チャンネルは、「長い記入」又は「長
い記入変更」トランザクションのいずれかを搬送する。
Ｑ２チャンネルは、第３の「ホップ」による第３ノード
からのデータを、元のコマンドを開始したノードへ返送
する。Ｑ０／Ｑ０Ｖｉｃ、Ｑ１及びＱ２形式のコマンド
へのコマンドの割り当ては、ＳＭＰシステムにおいて停
滞のないメッセージ送信を確保するために次のように使
用できる。図２３のフローチャートは、４つの仮想チャ
ンネル間の対話を示すが、本発明の１つの実施形態で
は、キャッシュコヒレンス性を維持する目的で５つの仮
想チャンネルを使用することができる。その追加チャン
ネルは、ＱＩＯチャンネルである。一般に、ＱＩＯチャ
ンネルは、制御状態レジスタ（ＣＳＲ）アクセスを含む
ＩＯアドレススペースへ全ての読み取り及び書き込みを
搬送する。

【０１４４】以下のテーブルＩＩは、チャンネル経路へ
のコマンドマッピングを例示するリストである。テーブルＩＩ： QIO ＣＰＵへの全ＩＯスペース要求 RdByteIO, RdWordIO, WrByteIO, WrWordIO Q0 ＣＰＵ又はＩＯＰからの全メモリ Rd, RdMod, Fetch, CTD, スペース要求 ITD, Vic, RdVic, RdModVic Q0Vic データを転送するＣＰＵ又はＩＯ WrVic, Full Cache Line Ｐからの全メモリスペース要求 Write, QV Rd, QV RdMod, QV Fetch Q1 全送信コマンド FRd, FrdMod, Ffetch 全シャドーコマンド SFRd, SFRdMod, SFEtch, Sinval, Ssnap 短い記入 SFill, SfillMod マーカー記入の全性質 FM, FMMod, Pseudo-FM, Pseudo-DMMod, FrdMod with FM その他 CTD-ACK, CTD-NACK, ITD-ACK, Vic-ACK, VicRel IOスペース応答 IOFillMarker, IOWriteACK 関連Consig Invi-Ack, LoopComSig Q2 長い記入 Fill, FillMod IOスペース記入 IOFill

【０１４５】スイッチをベースとするシステムにおける
仮想チャンネルの１つの実施形態は、各チャンネルに対
して物理的に個別の待ち行列、バッファ又は経路を使用
することを含む。或いは又、待ち行列、バッファ又はデ
ータ経路は、チャンネル間で共用されてもよく、従っ
て、真の「仮想」であってもよい。本発明の１つの実施
形態では、これら技術の組み合わせを使用して、ハード
ウェアの最適な使用がなされる。図２４には、２つ以上
の仮想チャンネル間で単一バッファをいかに共用するか
が示されている。バッファ４００は、多数の「スロッ
ト」を含むように示されている。各スロットは、１つの
チャンネルのみにより専用に使用される。例えば、スロ
ット４０２は、Ｑ２型コマンドに専用の多数のバッファ
エントリを含み、スロット４０４は、Ｑ１型コマンドに
専用の多数のバッファエントリを含み、等々となる。

【０１４６】残りのスロット４１０は、いずれのチャン
ネルについても、メッセージにより使用することがで
き、それ故、「共用」又は「一般的」スロットと称され
る。各チャンネルについてビジー信号が与えられる。ビ
ジー信号は、バッファがそれ以上のメッセージを記憶で
きず、それ故、そのバッファに何も送信してはならない
ことを指示する。所与のチャンネルに対する所与のリソ
ースにおいてビジー信号がアサートされるときと、その
リソースにコマンドを発生するデバイスがビジー信号に
応答して発生を停止するときとの間には待ち時間周期が
ある。この待ち時間の間に、１つ以上のコマンドパケッ
トがリソースへ発生されることが考えられ、それ故、リ
ソースは、コマンドが脱落しないように設計されねばな
らない。

【０１４７】それ故、受信器がビジー流れ制御信号をア
サートした後にも、Ｍ個のメッセージを受け入れること
ができねばならず、但し、Ｍは、次の式III で定められ
る。式III ：Ｍ＝（フレームクロックでの流れ制御待ち時間）／（フ
レームクロックでのパケット長さ）「Ｍ」の値は、ここでは、チャンネル当たりに得られる
専用スロットの数を定義する。図２５には、各チャンネ
ルごとに個別のリソースを使用して仮想チャンネルが実
施される例が示されている。２つのノード４２０及び４
２４の部分は、ハイアラーキースイッチ（ＨＳ）４２２
を経て互いに接続されて示されている。

【０１４８】グローバルポート４２０は、バス４２１ａ
を経てスイッチ４２２から入力データを受け取り、そし
てバス４２１ｂを経てスイッチ４２２にデータを送信す
るように接続される。同様に、グローバルポート４２４
は、バス４２３ａを経てスイッチ４２２にデータを送信
し、そしてバス４２３ｂを経てスイッチ４２２からデー
タを受け取るように接続される。データバス４２１ａ、
４２１ｂ、４２３ａ及び４２３ｂの各々は、全ての形式
のチャンネルコマンドを送信又は受信する。待ち行列機
構４２５のような待ち行列機構は、各リソースの各入力
及び出力端子に設けられる。この待ち行列機構は、多数
の個々に制御されるバッファ４２５ａ―４２５ｅを備
え、各バッファは、１つの形式のチャンネルコマンドの
みを専用に記憶する。バッファ４２５ａは、Ｑ０チャン
ネルコマンドのみを記憶し、バッファ４２５ｂは、Ｑ０
Ｖｉｃチャンネルコマンドのみを記憶し、等々となる。

【０１４９】コマンドパケットが各リソースインターフ
ェイスに受け取られるときに、コマンドの形式がパーズ
され、そしてパケットは、適当なバッファへ送られる。
コマンドパケットがノードの適当なプロセッサ又はＩＯ
Ｐへ送られる準備ができると、それらが適当なバッファ
から選択され、そしてＡＲＢバス及びＱＳＡ（図６）を
経て送られる。各チャンネルごとに１つづつ、５つのサ
ーチエンジンがあり、各チャンネルに対して次のメッセ
ージを探索する。上記機構においては、各チャンネルが
独立して流れ制御され、そしてシステム全体にわたりハ
イアラーキーの最下位チャンネル以外の各チャンネルに
スロットが指定される。これは、チャンネルがリソース
依存性により下位チャンネルによって決して阻止されな
いことを保証する。上位チャンネルメッセージの移動
は、下位チャンネルメッセージによるリソースの占有に
より阻止されない。仮想チャンネル間で物理的バッファ
を共用する上記機構は、簡単なものである。より精巧な
機構については、ハイアラーキースイッチに関して最初
に述べた。

【０１５０】仮想チャンネル：裁定及びコヒレンスプロ
トコル設計のルールコヒレンスプロトコルにおいて停滞のないメッセージ送
信を保証するためにはハードウェア機構のみでは不充分
である。というのは、問題のリソース依存性の部分しか
対処しないからである。全てのリソース及び流れ依存性
サイクルを排除するために、多数の付加的な裁定及びコ
ヒレンスプロトコル設計ルールが適用される。第１に、
メッセージの進行は、下位チャンネルメッセージの進行
に依存してはならず、この場合に、Ｑ２は上位チャンネ
ルであり、そしてＱ０は下位チャンネルである。アービ
ターは、各チャンネルの流れ制御を互いに独立して維持
しなければならない。例えば、ビジーの流れ制御信号が
Ｑ１に対してアサートされるが、Ｑ２に対してはアサー
トされない場合には、アービターは、Ｑ２メッセージを
進行させねばならない。保留中のコマンドパケットに対
してリソースをサーチするのに使用される全てのサーチ
エンジンは、同じ特性をサポートしなければならない。

【０１５１】第２に、２つ以上のチャンネル間に共用さ
れるいかなるリソースも、下位のチャンネルが阻止され
た場合に上位のチャンネルが進行できるようにするため
に、上位のチャンネルの各々に対してある専用のスロッ
トを含まねばならない。第３に、全てのチャンネルコマ
ンドは、一貫して作用しなければならない。Ｑ０コマン
ドの終了点は、常に、ディレクトリである。Ｑ１コマン
ド及びＱ２コマンドの終了点は、常に、プロセッサであ
る。終了点において、トランザクションを継続するため
に、それらを上位チャンネルへ移動しなければならな
い。例えば、Ｑ０メッセージがディレクトリに到達した
ときには、Ｑ０メッセージを発生することができず、Ｑ
１又はＱ２メッセージを発生しなければならない。それ
故、メッセージは、下位チャンネルメッセージへと分岐
又は変換することはできない。

【０１５２】他の点において分岐するトランザクション
の場合には、同じか又は上位のチャンネルのメッセージ
しか形成できない。例えば、「送信読み取り変更」（Ｑ
１メッセージ）がハイアラーキースイッチにおいて「送
信読み取り変更」、「無効化」及び「記入変更マーカ
ー」を形成するときには、これら全てのメッセージがＱ
１メッセージとなる。従って、バスをベースとするシス
テム又はスイッチをベースとするシステムのいずれかに
仮想チャンネルを設ける装置及び方法が提供される。仮
想チャンネル及び上記の順序付け制約を使用することに
より、参照は、ディレクトリによっていったんサービス
されると完了することが保証される。その結果、ＮＡＣ
Ｋ（１つのプロセッサが別のプロセッサにプロセスが完
了しないことを指示する）及びリタイアを必要とする公
知の複雑なプロトコルは排除される。

【０１５３】５つまでの独立したチャンネルを伴う実施
形態を示したが、本発明の１つの実施形態は、所与の数
のチャンネルに限定されず又は対称的なマルチプロセッ
サシステムに限定されないことを理解されたい。むし
ろ、選択されるチャンネルの数は、各チャンネルに固有
の制御及びハードウェアオーバーヘッドが与えられる
と、コヒレントな通信をサポートするに必要な数でなけ
ればならない。従って、仮想チャンネル制御方法及び装
置は、マルチプロセッサシステムにおいて高性能の、停
滞のない通信を行えるようにする。

【０１５４】コヒレンス性を維持するためのディレクト
リの動作：以上に、基本的な通信構成を説明し、そして
ＳＭＰのノード間に通信が自由に流れるようにするため
の基本的な制御構造体が提供された。しかしながら、コ
ヒレンス性のための鍵は、自由に流れるコマンドがシス
テム内の各プロセッサにより正しい順序で「取り扱われ
る」ように確保することである。ＳＭＰシステム内の全
てのコマンドに対しシリアル化ポイントを与える機構
は、各ノードにおけるディレクトリである。上述したよ
うに、全てのＱ０形式コマンドは、先ず、関連メモリア
ドレスのホームディレクトリをアクセスする。いずれの
コマンドに対してもホームディレクトリが最初にアクセ
スされるよう確保することにより各コマンドを共通のソ
ースから正しい順序で検討することができる。本発明の
１つの実施形態では、シリアル化順序は、アドレスＸに
対するディレクトリからの裁定に勝った後にXに対する
Ｑ０コマンドがＡＲＢバスに現れるという順序である。
「ロード」形式のコマンドは、それに対応する読み取り
コマンドがホームディレクトリにアクセスしたときに順
序付けされる。「記憶」形式のコマンドは、それに対応
する「読み取り変更」コマンドがディレクトリにアクセ
スするか又はそれに対応する「クリーン―ダーティ」コ
マンドがディレクトリにアクセスしてＡＲＢバスに現れ
るときに順序付けされる。

【０１５５】例えば、１０個のコマンドの以下のシーケ
ンスが種々のプロセッサ（Ｐ＃）により共通のホームデ
ィレクトリへ発生されると仮定する。但し、Ｘ_iは、キ
ャッシュラインＸの一部分である。テーブルIV：１Ｐ１：記憶Ｘ₁（１）２Ｐ２：ロードＸ₁ ３Ｐ３：ロードＸ₁ ４Ｐ５：ロードＸ₁ ５Ｐ１：記憶Ｘ₂（２）６Ｐ２：記憶Ｘ₁（３）７Ｐ４：ロードＸ₁ ８Ｐ５：ロードＸ₂ ９Ｐ６：ロードＸ₁ １０Ｐ２：記憶Ｘ₁（４）キャッシュラインのバージョンは、各記憶動作の結果と
して更新される。従って、コマンド１はバージョン１を
形成し、コマンド５はバージョン２を形成し、コマンド
６はバージョン３を形成し、そしてコマンド１０はバー
ジョン４を形成する。

【０１５６】シリアル化順序は、ディレクトリに到達す
る事象の各シーケンスがキャッシュラインＸの正しいバ
ージョンを得るように確保する。例えば、コマンド２な
いし４は、バージョン１を得なければならない。プロセ
ッサＰ１のコマンド５が記憶を行うときには、全てのバ
ージョン１キャッシュライン（プロセッサＰ２、Ｐ３及
びＰ５における）に「無効化」を送信しなければならな
い。同様に、プロセッサＰ２のコマンド６がバージョン
３データでＸを更新するときには、プロセッサＰ１のバ
ージョン２データを無効化しなければならない。プロセ
ッサＰ４、Ｐ６及びＰ７は、バージョン３データを得る
が、これは、プロセッサＰ８のバージョン４データの記
憶により後で無効化される。共通のアドレスキャッシュ
ラインＸに対する多数のロード及び記憶動作は、システ
ムにおいていかなる所与の時間にも進行し得ることを述
べれば充分であろう。システムは、ロード及び記憶がデ
ィレクトリによりシリアル化順序で処理されるようにこ
れらのコマンドを処理する。

【０１５７】システムがシリアル化順序を維持しそして
付随的にデータのコヒレンス性を維持するのを助けるた
めに多数の技術が使用される。これらの技術は、Ｑ１チ
ャンネルコマンドの厳密な順序付け、ＣＴＤ明瞭化、
「シャドーコマンド」、「マーカー記入」及び「遅延ビ
クティム書き込みバッファ動作」を含む。各技術につい
て、以下に詳細に説明する。Ｑ１チャンネル順序付け：コヒレンス性を維持するのに
使用される第１の方法は、Ｑ１チャンネル上を進行する
全てのメッセージ、即ちディレクトリから送られる全て
のメッセージが、先入れ先出し順序で進むように確保す
ることである。即ち、ディレクトリから別のプロセッサ
又はIOＰへ送られるＱ１型メッセージは、コマンドがデ
ィレクトリにおいてシリアル化された順序に基づいて送
られる。

【０１５８】例えば、図２６のサブシステムの例では、
ノード４３０における第１プロセッサＰ１（４３１）が
キャッシュラインＸをそのキャッシュ「ダーティ」に記
憶すると仮定する。ノード４３２におけるプロセッサＰ
１６（４３３）は、Ｑ０チャンネルに「Ｘ読み取り(Rea
d X)」を発生し、これは、ノード４３６におけるＸのホ
ームディレクトリ４３７へ送られる。又、ノード４３２
におけるプロセッサＰ１７は、Ｑ０チャンネルに「無効
―ダーティ」コマンドを発生し、これも、ノード４３６
におけるXのホームディレクトリ４３７へ送られる。
「Ｘ読み取り」の受信に応答して、ディレクトリエント
リに基づき、「送信Ｘ読み取り(ForwardedRead X)」が
Ｑ１チャンネルを経てプロセッサＰ１（４３１）へ送ら
れる。ＩＴＤの受信に応答して、ディレクトリエントリ
の状態に基づき、「無効化」がハイアラーキースイッチ
４３５へ送られ、これは、Ｑ１チャンネルを経てプロセ
ッサＰ１及びプロセッサＰ１６へ「無効化」を送る。従
って、同じ時点で、「Ｘ無効化」及び「Ｘ読み取り供
給」がＱ１チャンネルコマンドとしてＰ１へ送られる。

【０１５９】Ｑ１チャンネルのコマンドが順序ずれして
実行することが許された場合には、「読み取り」の前に
「無効化」が生じることがある。その結果、「読み取
り」のための記入データがプロセッサＰ１６に送られな
いことになり、それ移行の動作の結果が予想し得ないも
のとなる。しかしながら、チャンネルＱ１のコマンドを
正しい順序で保つことにより「読み取り」は「無効化」
を受け取る前に処理され、コヒレンス性が維持される。
本発明の１つの実施形態では、チャンネルＱ１について
のみＦＩＦＯ順序が維持され、ＦＩＦＯ順序とは、同じ
メモリアドレスに対応する全てのメッセージがＦＩＦＯ
順序に留まることを意味する。しかしながら、本発明
は、Ｑ１チャンネルに対する順序を維持することのみに
限定されるものではなく、チャンネルのいかなる組み合
わせに対する順序の維持も含むように拡張することがで
きる。

【０１６０】上記の順序付け手順を実施する１つの方法
は、ＱＳＡチップ（図６）のＱＳＡＲＢ１１により実行
される。ＱＳＡＲＢは、全てのＱ０トランザクション
をノードのホームメモリスペースに対してシリアル化す
る。その結果、Ｑ１パケットのシリアル流が発生され
て、ノードのローカルプロセッサと、グローバルポート
及びハイアラーキースイッチを経てノードから離れたプ
ロセッサとの両方に向けられる。第１の順序付けルール
を次に説明する。所与のＱＳＡＲＢにより発生される
全てのＱ１パケットは、シリアルな順序で発生される。
所与のＱＳＡＲＢからの幾つかの又は全てのＱ１パケ
ットがターゲットとする全てのプロセッサは、これらの
Ｑ１パケットを、それらがＱＳＡＲＢにより発生され
た順序で見る。

【０１６１】このルールをサポートするために、ＱＳＡ
チップは、ノード内の接続されたプロセッサとやり取り
される全てのＱ１パケットに順序を維持する。グローバ
ルポートのロジックは、ハイアラーキースイッチとＱＳ
Ａチップとの間に転送される全てのパケットにＦＩＦＯ
順序を維持する。更に、ハイアラーキースイッチは、所
与の入力から所与の出力へ送られる全てのＱ１パケット
にも順序を維持する。このルールは、１つのＱＳＡＲ
ＢからのＱ１パケットと、別のノードのＱＳＡＲＢから
のＱ１パケットとの間に特定の順序を命令するものでは
ないことに注意されたい。他のノードから受け取られた
Ｑ１パケットは、ハイアラーキースイッチを経てホーム
ノードにより発生されたＱ１パケットと次のようにシリ
アル化される。リモートノードのプロセッサをターゲッ
トとする全てのＱ１パケットは、リモートノードのＱＳ
ＡＲＢにより処理される。これらのＱ１パケットは、
ハイアラーキースイッチによりリモートノードで発生さ
れたＱ１パケットとシリアル化される。所与のＱＳＡ
ＲＢからのＱ１パケットの全ての受信者は、Ｑ１パケッ
トを、それらがＱＳＡＲＢにおいてシリアル化された
のと同じ順序で見なければならない。図２７は、多数の
Ｑ０及びＱ１コマンドの順序付けが上記の順序付けガイ
ドラインに基づいてＳＭＰを通して処理されるところを
示すブロック図である。ノード４４０のプロセッサＰｘ
はコマンドＱ０ａを発生し、プロセッサＰｙはコマンド
Ｑ０ｂを発生し、そしてプロセッサＰｚはコマンドＱ０
ｃを発生すると仮定する。同じ時間中に、ＱＳＡＲＢ
４４１は、プロセッサＰｒ及びＰｑからのQ１メッセー
ジをグローバルポート４４３から受け取る。

【０１６２】これらのメッセージは、次のように順序付
けされる。ＱＳＡＲＢ４４１は、Ｑ０ａ、Ｑ０ｂ及び
Ｑ０ｃを処理して、Ｑ１ａ、Ｑ１ｂ及びＱ１ｃ応答を発
生する。これらの発生されたＱ１コマンドは、到来する
Ｑ１コマンドと合成されて、コマンドの順序付けされた
流れをＦＩＦＯ４４２へ供給し、ローカルプロセッサへ
と送る。ＦＩＦＯコマンドの順序は、ＱＳＡＲＢによ
り処理されたコマンドの順序を反映する。Ｑ１ａ、Ｑ１
ｂ及びＱ１ｃコマンドは、グローバルポート４４３へ送
られ、リモートノードへ送信される。グローバルポート
の出力バッファ４４４は、これらのコマンドを、それら
がＱＳＡＲＢにより処理されたのと同じ順序で記憶す
る。この順序は、図１４―１９について上述した方法を
用いてメッセージがリモートＣＰＵ４５４へ送られると
きにハイアラーキースイッチ４４６により維持される。

【０１６３】図２７Ａは、ハイアラーキースイッチにお
いて従う別の順序付けガイドラインを示す。上述したよ
うに、ハイアラーキースイッチは、ハイアラーキースイ
ッチの所与の入力ポートに現れてハイアラーキースイッ
チの共通の出力ポートをターゲットとする多数のパケッ
トが、それらが入力ポートに現れたのと同じ順序で出力
ポートに現れるよう確保することにより、順序を維持す
る。図２７Ｂを参照すれば、上述したように、ハイアラ
ーキースイッチは、入力メッセージをマルチキャスティ
ングする役目も果たし、即ち受け取った１つのＱ１パケ
ットを２つ以上の行先ノードに送信するという役目も果
たす。スイッチによりマルチキャスティングされるパケ
ットの一例は、無効化パケットである。ハイアラーキー
スイッチの異なるポートから入力された多数のパケット
が共通の出力ポートにマルチキャスティングされるとき
には、Ｑ１パケットは、全ての出力ポートにおいて同じ
順序で現れねばならない。例えば、パケット１及びパケ
ット２の両方がハイアラーキースイッチ４６０に受け取
られる場合に、２つのメッセージをプロセッサ４６４及
び４６６にマルチキャスティングする１つの許された方
法は、上記のように、メッセージ２がメッセージ１の前
に両プロセッサに到着するようにすることである。別の
許された方法は、メッセージ１のパケットがメッセージ
２のパケットの前に両プロセッサに到着するようにする
ことである。しかしながら、２つのプロセッサは、２つ
のパケットを異なる順序で受け取ってはならない。

【０１６４】ハイアラーキースイッチが従わねばならな
い別の順序付けルールは、多数の入力ポートからのＱ１
パケットの順序付けされたリストが共通の出力ポートを
ターゲットとするときに、Ｑ１パケットが、全ての到来
するＱ１パケットの１つの共通の順序付けに合致する仕
方で出力ポートに現れるように確保することである。例
えば、図２７Ｃにおいて、入力ポート４６１には、パケ
ット２がパケット４の前に受け取られる。同様に、入力
ポート４６２には、パケット１がパケット３の前に受け
取られる。停滞を防止するには、これら命令の全体的な
順序を遵守しなければならない。出力パケットを与える
１つの許された方法は、パケット３を最初にノード４６
４に送信し、そしてパケット１を最初にノード４６６に
送信することである。この送信が図２７Ｃに示されてい
る。別の許された出力は、パケット２及び４を受信者の
プロセッサにより最初に受け取ることである。しかしな
がら、１つのプロセッサがパケット３を最初に受け取り
そして別のプロセッサがパケット４を最初に受け取る場
合には、プロセッサがそれらの元のシーケンスの他のパ
ケットの受信を待機してストールするので停滞が生じ得
る。

【０１６５】それ故、Ｑ１チャンネルにおいて順序が維
持されるよう確保するルールが設けられる。本発明の１
つの実施形態では、性能の理由で、Ｑ０及びＱ２チャン
ネルパケットを順序ずれして処理するのが望ましい。デ
ータの一貫性を確保するために、多数のコヒレンス性機
構が以下に述べるように設けられる。ダーティへの変更の明瞭化上述したように、Ｑ１形式のコマンドのみが、ディレク
トリに定義されたシリアル化順序で維持される。本発明
の１つの実施形態では、Ｑ０及びＱ２コマンドは順序付
けされない。従って、受け取られるＱ０及びＱ２コマン
ドの相対的なタイミングの結果としてディレクトリにコ
ヒレンス性の問題が生じないように予防策がとられる。

【０１６６】発生する１つのコヒレンス性の問題は、デ
ィレクトリエントリの構造によるものである。図９に示
すように、各ディレクトリエントリは、所有権フィール
ドと、各ノードに対して１つの存在ビットとを含む。存
在ビットは、関連ノードの４つのプロセッサの１つにデ
ータが存在することを示すおおよそのベクトルである。
４つのプロセッサのいずれかが動作すると、存在ビット
がセットされる。従って、ノードのどのプロセッサが存
在ビットをセットしたかに関してある種の曖昧さが生じ
る。この曖昧さは、ある場合にコヒレンス性の問題を引
き起こす。例えば、図２８Ａ及び２８Ｂは、２つのノー
ド４７０及び４７２のブロック図である。ノード４７０
［グローバルシステムのノードＩＤ３］は、プロセッサ
Ｐ１２、Ｐ１３、Ｐ１４及びＰ１５を備え、一方、ノー
ド４７２［グローバルシステムのノードＩＤ７］は、ノ
ードＰ２８、Ｐ２９、Ｐ３０及びＰ３１を含む。

【０１６７】時間Ｔ０―Ｔ３の種々の一連の周期におけ
る所与のキャッシュラインＸのディレクトリエントリの
状態は、図２８Ｂにおいてディレクトリ状態テーブル４
５５に示されている。この例では、キャッシュラインX
のホームノードは、ノード４７０又は４７２以外のノー
ドである。時間Ｔ０において、キャッシュラインＸの所
有者は、所有者ＩＤ８０で示すようにメモリである。更
に、時間Ｔ０において、ノードＩＤ７のプロセッサ３０
は、キャッシュラインＸのクリーンなコピーを記憶す
る。時間Ｔ１において、プロセッサ１４は、「記憶」コ
マンドを送信し、これは、「読み取りブロック変更Ｘ」
に変換され、そしてキャッシュラインＸのホームディレ
クトリへ送られる。メモリが所有者であるから、プロセ
ッサＰ１４は、メモリからデータを得ることができ、そ
してキャッシュラインの所有者となる。キャッシュライ
ンＸの古いバージョンを無効化するためにノード７に無
効化が送信され、そしてノード７の存在ビットがクリア
される。更に、プロセッサＰ１４は、そのノード存在ビ
ット４５６（ビット３）をセットする。キャッシュライ
ンＸは、変更及び記憶のためにホームメモリからプロセ
ッサＰ１４へ送られる。

【０１６８】時間Ｔ２に、プロセッサ３１のような別の
プロセッサが、キャッシュラインＸの「読み取り」を発
生する。この「読み取り」は、プロセッサＰ１４から
「記入」を経てデータを得る。従って、時間Ｔ２に、デ
ィレクトリは、ノードＩＤ３（プロセッサＰ１４）及び
ノードＩＤ７（プロセッサＰ３１）の両方が、ノード存
在ビット４５８及び４５６で示すように、キャッシュラ
インＸのコピーを記憶することを指示する。時間Ｔ３
に、プロセッサ３０によりＣＴＤが発生される場合に
は、システムの異なるプロセッサから見たキャッシュラ
インＸの状態は、次の理由でインコヒレントとなる。Ｃ
ＴＤがディレクトリに到達すると、Ｘのディレクトリエ
ントリを読み取り、そしてそのノード、即ちノードＩＤ
７の存在ビット４５８が既にオンであるかどうか決定す
る。その結果、プロセッサ３０は、次いで、ＣＴＤ要求
において成功したと仮定する。プロセッサ３０は、キャ
ッシュラインＸのプロセッサ１４のコピーを無効化し、
そしてディレクトリの所有者フィールドを更新する。こ
の動作は、予想し得ない結果を招くことがある。という
のは、プロセッサＰ１４がプロセッサＰ３０よりも最新
のデータバージョンを記憶するからである。

【０１６９】１つの問題は、プロセッサ３０がプロセッ
サ１４により形成されたキャッシュラインの古いバージ
ョンをまだ記憶しており、そしてプロセッサ１４がデー
タの最新のバージョンを無効化するように通知したこと
である。このような状態は、ＳＭＰシステムで重大なコ
ヒレンスの問題を生じさせる。上記問題を解消するのに
使用できる幾つかの方法がある。その１つの方法は、シ
ステムの各プロセッサごとに１ビットを与えるようにデ
ィレクトリエントリの存在ビット拡張することである。
従って、分解能がノードレベルからプロセッサレベルへ
変更される。しかしながら、この解決策は、不都合なこ
とに、ディレクトリのサイズを増大する。本発明の１つ
の実施形態は、同じアドレスへの保留中参照がそのノー
ドに対してトランシット状態にあるときにＣＴＤコマン
ドを低速化することにより上記曖昧さの問題を防止する
より簡単な方法を提供する。同じアドレスに対して保留
中の要求がある場合には、その以前の要求がリタイアす
るまでＣＴＤが保持される。所与のノードのトランザク
ション追跡テーブル（ＴＴＴ）（図１０）を使用して、
そのノードに対する保留中のグローバル参照を監視す
る。更に、ＣＴＤがＴＴＴに受け取られた後に受け取っ
た要求は、失敗となる。

【０１７０】図１０を参照して述べたように、ＴＴＴ
は、完全に連想式の多機能制御構造体である。ＴＴＴ
は、２つの一般的なタスクを実行する。これは、その関
連ノードにより発生された全てのリモート参照のアドレ
スを記憶する。従って、ＴＴＴは、そのトランザクショ
ンが完了したとみなされるまで、ノードにより発生され
た各リモートアクセスに対して１つの情報エントリを記
憶する。更に、ＴＴＴは、ローカルアドレスの要求に応
答して、過渡的なコヒレンス状態に関してコヒレンス情
報を与える。従って、ＴＴＴは、アクセスがトランシッ
ト状態にある間にその状態を追跡するためのテーブルで
ある。他の処理システムは、いかなる瞬間にも所与のキ
ャッシュラインへの１つの参照をトランシット状態にす
ることができる。トランシット状態にあるキャッシュラ
インへのその後の参照は、トランシット状態の参照が完
了するまで阻止される。

【０１７１】これに対し、ディレクトリにおけるコマン
ドのシリアル化と、チャンネル順序付けルールとによ
り、本発明のＳＭＰは、同じキャッシュラインへの多数
の参照を所与の瞬間に進行させることができる。その結
果、ＳＭＰの全性能が改善される。ＴＴＴ５２２は、Ｑ
ＳＡチップ５３５のロジックにより、グローバルポート
に発生されたトランザクションの状態を決定するのに使
用される。グローバルポートへ応答を発生する前に、Ｑ
ＳＡは、先ず、ＴＴＴにアクセスして、同じキャッシュ
ラインへのどんな参照が保留中であるかを決定する。参
照は、最後に受け取ったトランザクションに応答してＴ
ＴＴからリタイアしていない場合には保留中である。

【０１７２】参照がＴＴＴからいかにリタイアするか
は、コマンドフィールド５８４に示された参照の形式に
依存する。例えば、ＴＴＴに記憶するためにグローバル
ポートへ送られる「Ｘ読み取り」参照は、「ここに記
入」５８８ａ及び「マーカーをここに記入」５８８ｂの
両方の状態ビットを受け取ることを必要とする。（「マ
ーカーの記入」は、いかに詳細に述べる。）ＣＴＤ又は
ＩＴＤのような状態型の参照の場合に、ＴＴＴにおいて
ＡＣＫ／ＮＡＣＫビット５８８ｃをセットすれば、その
エントリをリタイアするのに充分である。図２９は、Ｔ
ＴＴを使用して曖昧なディレクトリエントリを排除する
ところを示すフローチャートである。ステップ５００に
おいて、キャッシュラインＸは、そのホームノードのメ
モリに記憶され、そしてノード７のプロセッサ３０は、
データのコピーを記憶する。ステップ５０２において、
「ＲｅａｄＭｏｄＸ」がプロセッサ１４により発生され
る。その結果、無効化がノード７に送られる。ステップ
５０４において、プロセッサＰ３１は、「ＲｅａｄＸ」
を発生し、これは、ノード７のＴＴＴのエントリを次の
状態で形成する。

【０１７３】アドレス｜コマンドＩＤ｜状態｜｜｜Fill ｜ Fmark ｜Shadow ｜ACK/NACK Ｘ｜Read 31 ｜｜｜｜ステップ５０６において、プロセッサＰ３０は、ＣＴＤ
Ｘを発生する。QSA チップは、ＣＴＤ命令のアドレスを
検査し、それがリモートＣＴＤであることを決定し、そ
してＴＴＴへのGPリンクを経てグローバルポートへ送信
する。ＴＴＴの内容は、以下に示す通りである。アドレス｜コマンドＩＤ｜状態｜｜｜Fill ｜ Fmark ｜Shadow ｜ACK/NACK Ｘ｜Read 30 ｜｜｜｜Ｘ｜Read 31 ｜｜｜｜図６について述べたように、グローバルポートは、ＴＴ
Ｔからの情報を使用して、どのコマンドをハイアラーキ
ースイッチから送出することが許されたかを決定する。
本発明の１つの実施形態では、保留中の「読み取り」が
トランシット状態にあるとＴＴＴが決定した場合に、グ
ローバルポートは、「読み取り」結果が返送されるまで
ＣＴＤをスイッチへ送ることが防止される。

【０１７４】図２９のフローチャートに示す例では、ア
ドレスＸへの保留中の読み取り要求は、ＴＴＴにより識
別される。その結果、ステップ５０８において、ＣＴＤ
は、「読み取り」がもはや保留中でなくなるまで、オフ
に保たれる。「読み取り」は、「記入」及び「マーカー
記入」の両方がノード７に返送されるまで保留となる。
この時間中に、ステップ５０２においてＲｅａｄＭｏｄ
により発生された無効化がノード７に到達し、各ノード
のＤＴＡＧＳを更新する。Ｘの無効化がＴＴＴに到達す
ると、ＴＴＴは、ＴＴＴに保持されたＣＴＤを失敗と表
示し、これは直ちに解除される。ステップ５１０におい
て、ＣＴＤが依然ＴＴＴにある場合には、グローバルポ
ートを経て送信される。従って、ＴＴＴを使用して、Ｃ
ＴＤコマンドを適当にオフに保持し又は失敗状態とする
ことにより、ディレクトリの存在ビットの曖昧さにより
生じるコヒレンスの問題を排除することができる。

【０１７５】マーカーの記入：プロセッサに対するほと
んどの応答は、Ｑ１チャンネルにおけるものであり、従
って、上記のルールによれば、正しい順序が維持され
る。しかしながら、Ｑ２チャンネルで受け取られたメッ
セージは、この順序制約を受けない。Ｑ２型のメッセー
ジは、「記入」及び「記入変更」を含む。Ｑ２型メッセ
ージの到着は、ディレクトリにおいて明らかなように、
シリアル化順序を表わさないので、返送データに潜在的
な曖昧さが生じる。例えば、「無効化」がＱ１を進行
し、そして「記入変更」がＱ２を進行するので、コヒレ
ンス性を維持するためにどの動作が順序において最初に
生じるべきかを決定する何らかの方法がなければならな
い。

【０１７６】例えば、図３０を参照すれば、２つのノー
ド５２０及び５３２が示されている。説明上必要なノー
ドの部分しか示されていない。プロセッサＰ２（５２
４）及びプロセッサＰ４（５３４）がキャッシュライン
Ｘのコピーを記憶すると仮定する。キャッシュラインＸ
のホームノードは、ノード５３２である。以下の説明に
おいて、次のパケットにより使用されるチャンネルは、
異なる線を用いて指示される。Ｑ０コマンドは、単一線
矢印で指示され、Ｑ１コマンドは、二重線矢印で指示さ
れ、そしてQ２コマンドは、破線矢印で指示される。プ
ロセッサＰ４がキャッシュラインＸの独占的所有権を得
るためにＣＴＤＸを発生すると仮定する。これに応答
して、ディレクトリ存在ビット及びＤＴＡＧ（図示せ
ず）により、ディレクトリ５４２は、ノード５２０へ無
効化を発生する。この無効化は、Ｑ１チャンネルを経て
ノード５２０のＤＴＡＧＳを更新し、そしてコピーを有
する全てのプロセッサ（ここではプロセッサＰ２）に無
効化調査を送信する。

【０１７７】次いで、プロセッサＰ１は、Ｘのホームデ
ィレクトリ５４２へＲｅａｄＭｏｄＸを発生する。上記
のように、Ｘは、現在プロセッサＰ４により所有され、
それ故、コヒレンスプロコルによれば、Ｆｏｒｗａｒｄ
ｅｄＲｅａｄＭｏｄＸがプロセッサＰ４へ送られる。
プロセッサＰ４は、それに応答して、Ｑ２チャンネルを
経てプロセッサＰ１へＦｉｌｌＭｏｄを発生する。Ｑ２
チャンネルの通信は、Ｑ１の通信とシリアル化されない
ので、ＣＴＤＸからの「無効化」がノード５２０に到
達する前にＱ２のＦｉｌｌＭｏｄがプロセッサＰ１に到
達する可能性が存在する。その結果、Ｐ１のキャッシュ
には有効データが書きこまれるが、そのすぐ後で、ＤＴ
ＡＧＳがノードにおけるＸのコピーを無効化するように
セットされ、そしてＰ２及びＰ１に「無効化」が送られ
る。しかしながら、「無効化」は、Ｐ２のバージョンの
みに対応し、Ｐ１におけるバージョンには対応しない。
ここで、システムは、インコヒレントな状態となる。デ
ィレクトリ５４４は、Ｐ１を所有者として記録するが、
Ｐ１はまだ無効化されている。

【０１７８】本発明の１つの実施形態は、各ノードのグ
ローバルポートに「マーカー記入」及びトランザクショ
ン追跡テーブル（図１０）を使用することによりこの問
題を克服する。「マーカー記入(Fill Marker）」又は
「マーカー記入変更(Fill Marker Mod)」は、ホームノ
ードのメモリに現在記憶されていないデータに対する
「読み取り」又は「読み取り変更」要求に応答して発生
されるパケットである。即ち、「マーカー記入」又は
「マーカー記入変更」は、「送信読み取り(Forwarded R
ead)」又は「送信読み取り変更(Forwarded Read Mod)」
と同時に発生される。従って、「マーカー記入」及び
「マーカー記入変更」は、Ｑ１チャンネルコマンドであ
る。「送信読み取り」又は「送信読み取り変更」コマン
ドは、キャッシュラインを記憶するプロセッサに送られ
るが、「マーカー記入」又は「マーカー記入変更」の行
先は、元の「読み取り」又は「読み取り変更」を供給し
たプロセッサである。

【０１７９】「マーカー記入」は、発生元プロセッサ
が、ディレクトリに生じるシリアル化順序を決定できる
ようにする。図３１を参照すれば、「マーカー記入」の
適用は、上記問題を次のように矯正する。前記したよう
に、プロセッサ５３ＡがＸのＣＴＤをＸのホームディレ
クトリに発生し、その結果、「無効化」５５０がＱ１チ
ャンネルを経てノード５２０へ送られると仮定する。プ
ロセッサＰ１（５２２）がＲｅａｄＭｏｄＸをリモ
ートディレクトリに発生すると、その要求に対してＴＴ
Ｔエントリが発生される。この要求に対するＴＴＴテー
ブルエントリの例が図３２に示されている。ＴＴＴテー
ブルエントリは、「ここに記入」及び「マーカーをここ
に記入」状態ビットを含むことに注意されたい。これら
ビットの各々は、ノード５２０のグローバルポートに各
パケットが受け取られるのに応答してセットされる。Ｔ
ＴＴエントリは、「記入」及び「マーカー記入」の両方
が返送されるまでクリアされない。

【０１８０】図３１に戻ると、上述したように、プロセ
ッサ５２２からのＲｅａｄＭｏｄＸは、プロセッサ５
３ＡへのＦＲｄＭｏｄＸを生じる。同時に、チャンネル
Ｑ１を経て、ＦｉｌｌＭａｒｋｅｒＭｏｄＸ５５
２がプロセッサＰ１に返送される。「無効化」及びＦｉ
ｌｌＭｏｄＭａｒｋｅｒの両方が同じＱ１チャンネ
ルに送られる。チャンネルＱ２のＦｉｌｌＭｏｄ５５
４は、「無効化」の前にノード５２０に到着すると仮定
する。グローバル参照の「タグ複製」状態は、Ｆｉｌｌ
Ｍｏｄ又はＦｉｌｌＭｏｄＭａｒｋｅｒの返送に
応答して更新される。従って、ＦｉｌｌＭｏｄは、Ｘ
の所有権をプロセッサＰ１として表わすようにＸのＤＴ
ＡＧ状態を更新させる。

【０１８１】「無効化」５５０が、ノード５２０に到達
する次の命令であると仮定する。ＴＴＴは、「送信読み
取り」命令の状態を決定するためにアクセスされる。こ
の点において、ＴＴＴエントリは、「ここに記入」ビッ
トをセットするが、「マーカーをここに記入」ビットは
セットされない。従って、ＴＴＴは、無効化及びリモー
ト読み取り動作の相対的なタイミングに関する指示を与
える。Ｑ１コマンドのシリアル化のために、無効化は、
プロセッサ５２２からのＲｄＭｏｄＸよりも早い時間に
ディレクトリ５４２に発生されたと推測でき、従って、
ＦｉｌｌＭｏｄが新しいバージョンであり、プロセッ
サ５２２のデータコピーには無効化が適用されない。そ
の結果、プロセッサＰ１のＤＴＡＧエントリは、無効化
されない。

【０１８２】上記実施形態は、ＴＴＴをグローバルポー
トに存在するものとして示したが、別の実施形態によれ
ば、各ノードの各プロセッサは、ディレクトリへの要求
を監視することにより共通のアドレスへのリモート要求
の状態を追跡することができる。従って、「マーカー記
入」は、単にＴＴＴへ送られるのではなく、ディレクト
リにより関連プロセッサへ送られる。従って、ＴＴＴ
は、２つの目的を果たすことが明らかである。マルチプ
ロセッサノードから送出されたコマンドの形式を監視す
ることにより、ＴＴＴは、同じアドレスへの他のコマン
ドが完了するまで、あるコマンド（ＣＴＤのような）の
送信を禁止することができる。更に、要求がＱ２チャン
ネル（「マーカー記入」のような）へ移行したときにＴ
ＴＴに指示する表示機構を設けることにより、ＴＴＴを
用いて、異なるチャンネルに返送されるコマンド（即
ち、Ｑ２記入及びＱ１コマンド）間の相対的なタイミン
グ指示を与えることができ、従って、メモリを崩壊する
ことのあるコマンドがプロセッサへ送られるのを防止す
ることができる。

【０１８３】シャドーコマンド上記説明から明らかなように、ローカルアクセスは、通
常、リモートアクセスよりも相当に早い。従って、性能
に関しては、ローカル及びリモートアクセスの両方がＳ
ＭＰシステムにおいて同時に生じることが許される。し
かしながら、ローカルアクセスの発生によりリモートア
クセスに対して停滞の問題を生じさせる幾つかの場合が
ある。例えば、図３３Ａを参照すれば、１つのプロセッ
サ５６２がキャッシュラインＸにＲｄＸを発生すると仮
定する。キャッシュラインＸのホームノードは、ノード
５６０である。ノード５６０のディレクトリは、プロセ
ッサ５８２がキャッシュラインを現在所有することを指
示する。従って、ＦｏｒｗａｒｄｅｄＲｅａｄＸが
５８２に送られる。

【０１８４】その後、ノード５６０のプロセッサ５６４
がＣＴＤＸを発生すると仮定する。上記のように、キ
ャッシュラインＸは、ノード５６０に対してローカルで
あり、ＣＴＤが成功すると、「無効化」をプロセッサＰ
１に（及び図示のようにプロセッサＰ５にも）送る。図
３３Ｂを簡単に参照すれば、参考としてここに取り上げ
る本発明と同日に出願されたバンドレン氏等の「分散型
データ依存性ストール機構(Distributed Data Dependen
cy Stall Mechanism）」と題する特許出願に開示された
ように、プロセッサＰ１のような各プロセッサは、同じ
キャッシュ位置に対する保留中の読み取りがある場合に
キャッシュへの調査をストールするためのロジックを備
えている。上記の例が与えられると、ＲｅａｄＸの作
用は、ミスアドレスファイル（ＭＡＦ）５７４にアドレ
スＸを記憶することである。ＭＡＦの内容は、到来する
調査に対して比較され、そして到来する調査とＭＡＦの
アドレス間に一致があるときに、調査待ち行列がストー
ルされる。

【０１８５】「記入」データがプロセッサ５８２から返
送されるときに調査待ち行列が解除される。しかしなが
ら、同じ形式のトランザクション（即ち、Ｐ５がリモー
トＲｄＹを実行し、次いで、Ｐ６がＣＴＤＹを発生
する）がノード５８０に生じる場合に、プロセッサＰ５
の調査待ち行列がストールされ、ＲｅａｄＹ要求が満
足されるのを保留する。Ｐ２により発生された「無効
化」の後にＰ５からＦｏｒｗａｒｄｅｄＲｅａｄＹ
が送られる状態でＰ１調査待ち行列がストールされるの
と同時に、Ｐ６により発生された「無効化」の後にプロ
セッサＰ１からＦｏｒｗａｒｄｅｄＲｅａｄＸが送
られる状態でＰ５の調査待ち行列がストールされた場合
には、停滞が生じる。

【０１８６】この停滞問題を防止するための多数の解決
策が存在する。第１に、全ての参照をリモートとするこ
とができ、即ち全ての参照を（ホームノードからの参照
も）、それらがホームノードに送られる前にスイッチに
送ることができる。全ての参照がリモートにされた場合
には、上述した中央の順序付けルールに基づき、停滞状
態は生じない。第２の解決策は、キャッシュラインへの
いずれかの参照がリモートから送られたときに所与のキ
ャッシュラインへの全ての参照をストールすることであ
る。しかしながら、この解決策は、これまでのローカル
動作の性能に著しく影響し、それ故、好ましいものでは
ない。本発明の１つの実施形態は、コマンドシャドー作
用の使用によるローカル及びリモート参照の混合により
課せられる潜在的な停滞を克服する。キャッシュライン
Ｘへのローカル参照がリモートプロセッサへ送られる
と、そのキャッシュラインへのその後の全ての参照がハ
イアラーキースイッチへリモートから送られ、キャッシ
ュラインのローカル参照及びその後の全ての参照が完了
するまで、中央で順序付けされる。従って、まだシャド
ー状態であるキャッシュラインへの以前の参照は、キャ
ッシュラインへの現在の参照もシャドー状態にする。
図３４及び３５を参照して、上記例をシャドーコマンド
の使用と共に説明する。図３５は、ＴＴＴの内容を例示
している。第１プロセッサＰ１は、ＲｄＸをアービター
に発生する。上述したように、プロセッサＰ５へのＦＲ
ｄＸを生じ、これはＴＴＴに記録される。その後、プロ
セッサＰ２は、ＣＴＤＸをＡＲＢに発生する。ＡＲＢ
は、ＴＴＴを検査し、リモートプロセッサへ送られる保
留中のローカル読み取りがあると決定し、そしてグロー
バルポートからプロセッサＰ５へＩｎｖａｌＸを送る。
又、この動作を表わすエントリもＴＴＴに形成され、そ
のシャドービットがセットされる。

【０１８７】同時に、ノード５８０において、同様の一
連のトランザクションが生じる。プロセッサＰ５は、Ｒ
ｄＹを発生し、これはノード５６０に送られると共
に、Ｐ５アドレスをエントリに含ませることによりＴＴ
Ｔに記録される。プロセッサＰ６は、その後、ＣＴＤ
Ｙを発生する。ノード５８０のアービターは、ＣＴＤア
ドレスをＴＴＴ内の保留中読み取りに対して一致させ、
そしてＣＴＤＹをグローバルポートにわたり「シャド
ー」処理する。そのＣＴＤＹに対してＴＴＴにエント
リが形成され、このエントリは、ＴＴＴにおいてそのシ
ャドービットをセットし、ＣＴＤＹが、Ｙへの要求の
適切な順序付けを確保するためにリモート送信されたロ
ーカル参照であることを指示する。上述したように、両
ノードにおいて調査シーケンスで「無効化」の後にＦＲ
ｄがあるときに問題が生じる。「無効化」は、ここでは
中央で順序付けされるので、両無効化を両方の「送信読
み取り」の前にそれらの調査待ち行列へ送信できないこ
とにはならない。というのは、それらは、共通点即ちハ
イアラーキースイッチにおいてシリアル化されるからで
ある。従って、図３６を参照すれば、コマンドの入力シ
ーケンスは、ハイアラーキースイッチ５６８へ入力され
るように示されている。許容し得る出力シリアル化順序
は、順序ａ―ｆとして識別される。上記のＱ１チャンネ
ル順序付けルールによれば、ハイアラーキースイッチへ
のパケット入力のシリアル化順序がスイッチ出力に維持
されることに注意されたい。それ故、上記の場合には、
ＦＲｄは、行先ノードへ送られるときにその関連する
「無効化」に先行する。

【０１８８】ノードの１つは、調査待ち行列に「無効
化」を受け取り、その後、「送信読み取り」を受け取
る。例えば、シリアル化順序を用いて、プロセッサＰ５
の調査待ち行列は、ＩｎｖａｌＹによりストールさ
れ、そしてＦｒｄＸがストールされて、記入を保留す
る。しかしながら、この例では、ＦｒｄＹは、Ｉｎｖ
ａｌＸの後ではなく、従って、Ｐ５調査待ち行列を阻止
しないように「記入」データを与えることができる。リ
モート参照のためにデータが返送されるときには、その
参照に対応するＴＴＴエントリがドロップされる。元の
参照をシャドー処理した他の参照がＴＴＴに存在するこ
とがある。これらコマンドがハイアラーキースイッチか
ら受け取られるときには、シャドー処理されたコマンド
の各々に対するＴＴＴエントリもドロップされる。最終
的に、リモートアクセス及びシャドーアクセスが全て完
了し、そしてＴＴＴがもはやキャッシュラインへマップ
するエントリを含まなくなると、そのキャッシュライン
へのその後のローカル参照をシャドー処理する必要がな
くなる。

【０１８９】従って、シャドーコマンドの使用により、
ローカル及びリモートコマンドの共存から生じるリソー
ス依存性の停滞を、ハードウェアの複雑さを著しく増加
せずに排除することができる。上記の例は、「送信読み
取り」及びＣＴＤの使用を含むが、シャドーコマンド方
法は、他の形式の命令及びマルチプロセッサにも等しく
適用できることに注意されたい。一般に、ローカルアド
レスＸへの参照が存在し、そしてローカルアドレスＸへ
の以前のメッセージがリモートプロセッサ（ＴＴＴによ
り指示された）へ送られるか、又はＸへの以前の参照が
まだシャドー処理されるときには、Ｘへの現在の参照も
シャドー処理される。更に、この方法は、上記の単なる
マルチプロセッサ／スイッチハイアラーキーよりも多数
のハイアラーキーレベルを含む他の形式のアーキテクチ
ャーにも使用できる。例えば、上記方法は、多数のハイ
アラーキーレベルを含み、コマンドがキャッシュライン
への以前の保留中参照のハイアラーキーレベルに基づい
て適当なハイアラーキーレベルに送られるコンピュータ
システムにも使用できる。

【０１９０】従って、大型のＳＭＰコンピュータシステ
ムに使用するためのアーキテクチャ及びコヒレンスプロ
トコルについて説明した。ＳＭＰシステムのアーキテク
チャは、多数のマルチプロセッサノードをスイッチに接
続して最適な性能で動作することのできるハイアラーキ
ースイッチ構造体を備えている。各マルチプロセッサノ
ード内には、マルチプロセッサノードの全てのプロセッ
サを最高の性能で動作できるようにする同時バッファシ
ステムが設けられる。メモリはノード間で共用され、マ
ルチプロセッサノードの各々にメモリの一部分が常駐す
る。マルチプロセッサノードの各々は、メモリコヒレン
ス性を維持するための多数の要素、即ちビクティムキャ
ッシュ、ディレクトリ及びトランザクション追跡テーブ
ルを含む。ビクティムキャッシュは、リモートのマルチ
プロセッサノードに記憶されたメモリを行先とするビク
ティムデータを選択的に更新することができ、これによ
り、メモリの全性能が改善される。ディレクトリに関連
して使用されて、メモリに書きこまれるべきビクティム
を識別する遅延書き込みバッファを各メモリに含ませる
ことによりメモリ性能が更に改善される。

【０１９１】各ノードのディレクトリの出力に接続され
たＡＲＢバスは、ＳＭＰを経て転送される全てのメッセ
ージに対して中央の順序付けポイントとなる。本発明の
１つの実施形態によれば、メッセージは、多数のトラン
ザクションを含み、各トランザクションは、メッセージ
の処理段階に基づいて多数の異なる仮想チャンネルに指
定される。従って、仮想チャンネルの使用は、システム
順序を維持する簡単な方法を与えることによりデータの
コヒレンス性を維持する上で助けとなる。仮想チャンネ
ル及びディレクトリ構造体を使用すると、従来停滞を生
じるキャッシュコヒレンス性の問題を回避することがで
きる。以上、本発明の好ましい実施形態を説明したが、
その概念を組み込んだ他の実施形態も使用できることが
当業者に明らかであろう。それ故、本発明は、上記の実
施形態に限定されるものではなく、特許請求の範囲のみ
によって限定されるものとする。

【図面の簡単な説明】

【図１Ａ】公知の対称的なマルチプロセッサコンピュー
タシステムのブロック図である。

【図１Ｂ】公知の対称的なマルチプロセッサコンピュー
タシステムのブロック図である。

【図２】スイッチを備えた本発明によるマルチプロセッ
サコンピュータノードの１つの一実施形態を示すブロッ
ク図である。

【図３】多数の同時挿入バッファを備えた図１のスイッ
チのデータ経路を示すブロック図である。

【図４Ａ】図３に示す同時挿入バッファの１つの一実施
形態を示すブロック図である。

【図４Ｂ】図４に示す同時挿入バッファの１つを制御す
るためのロジックの一実施形態を示すブロック図であ
る。

【図５】図３に示す同時挿入バッファの１つの別の実施
形態を示すブロック図である。

【図６】同様のノードの大きなネットワークへ接続する
ように拡張された図２のマルチプロセッサコンピュータ
ノードのブロック図である。

【図７Ａ】図６のマルチプロセッサノードと同様の多数
のノードを使用して実施されたＳＭＰシステムの一実施
形態を示す図である。

【図７Ｂ】図６のマルチプロセッサノードと同様の多数
のノードを使用して実施されたＳＭＰシステムの別の実
施形態を示す図である。

【図８】図６のグローバルポートのブロック図である。

【図９】図６のマルチプロセッサノードのディレクトリ
におけるエントリーを示す図である。

【図１０】図８のグローバルポートに使用するためのト
ランザクション追跡テーブル（ＴＴＴ）を示す図であ
る。

【図１１】図７Ａにおいて多数のノードを接続するため
のハイアラーキー式スイッチを示すブロック図である。

【図１２Ａ】停滞を排除するハイアラーキースイッチ用
の相互接続ロジックの一実施形態を示すブロック図であ
る。

【図１２Ｂ】図１２Ａの相互接続ロジックの動作を示す
フローチャートである。

【図１３】マルチプロセッサノードの１つから送信され
るデータを停止する流れ制御を与えるために図１２Ａの
相互接続ロジックに使用される方法を示すフローチャー
トである。

【図１４】ハイアラーキースイッチに対してバスを経て
行われるアドレス及びデータパケットの転送を示すタイ
ミングである。

【図１５】ハイアラーキースイッチにおいて順序を維持
するためのバッファロジックの一実施形態を示すブロッ
ク図である。

【図１６】ハイアラーキースイッチに対して順序を維持
するためのバッファロジックの別の実施形態を示すブロ
ック図である。

【図１６Ａ】チャンネルの依存性を矢印で示す図であ
る。

【図１７】図１６のバッファロジックを動作する１つの
方法を示すフローチャートである。

【図１８】ハイアラーキースイッチにおいて順序を維持
するためのバッファロジックの別の実施形態を示すブロ
ック図である。

【図１８Ａ】チャンネルの依存性を矢印で示す図であ
る。

【図１９】図７Ａ又は７ＢのＳＭＰに使用するためのプ
ロセッサ命令―ネットワーク命令の変換を示すテーブル
である。

【図２０Ａ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｂ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｃ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｄ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｅ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｆ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｇ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｈ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｉ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２０Ｊ】図７Ａ又は７ＢのＳＰＭにおいてノード間
にパケットを転送するための多数の通信流を示す図であ
る。

【図２１】図２又は６のマルチプロセッサシステムに使
用するためのメモリモジュールのレイアウトを示すブロ
ック図である。。

【図２２】遅延書き込み動作のために図２１のメモリモ
ジュールにより使用される制御ロジックを示すタイミン
グ図である。

【図２３】本発明の１つの実施形態においてキャッシュ
コヒレンス性を維持するためにチャンネルに対してマッ
プされる個別のトランザクションの使用を示すフローチ
ャートである。

【図２４】図７Ａ又は７ＢのＳＭＰにおいて仮想チャン
ネルを取り扱うための共用待ち行列構造体の一実施形態
を示すブロック図である。

【図２５】図７Ａ又は７ＢのＳＭＰのノード及びハイア
ラーキーチャンネルにおける個々のチャンネルバッファ
の一実施形態を示すブロック図である。

【図２６】仮想チャンネル間にある程度の順序が維持さ
れない場合に生じる問題を説明するためのブロック図で
ある。

【図２７Ａ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２７Ｂ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２７Ｃ】図７Ａ又は７ＢのＳＭＰにおいてコヒレン
トな通信を与えるためのＱ１チャンネルにおける流れ及
び順序付けの制約を示すブロック図である。

【図２８Ａ】図７Ａ及び７ＢのＳＭＰのディレクトリエ
ントリーにおおよそのベクトル存在ビットがあるために
生じる曖昧さの問題を説明するブロック図である。

【図２８Ｂ】図７Ａ及び７ＢのＳＭＰのディレクトリエ
ントリーにおおよそのベクトル存在ビットがあるために
生じる曖昧さの問題を説明するブロック図である。

【図２９】図２８に示す問題の結果として生じるデータ
の曖昧さを防止するために使用される方法を示すブロッ
ク図である。

【図３０】異なるチャンネルのパケットが順序づれして
受け取られるために生じるコヒレンス性の問題を示すブ
ロック図である。

【図３１】図２９に示すコヒレンス性の問題を防止する
ための記入マーカーの使用を示すブロック図である。

【図３２】図３１について述べた流れ間の命令の状態を
表わすＴＴＴのエントリを示す図である。

【図３３Ａ】ＳＭＰシステムにおけるダーティへの変更
コマンドの作用を示すブロック図である。

【図３３Ｂ】ＳＭＰシステムにおけるダーティへの変更
コマンドの作用を示すブロック図である。

【図３４】図３３について述べた問題を矯正するための
シャドーコマンドの使用を示すブロック図である。

【図３５】図３４について述べたフロー間の命令の状態
を反映するＴＴＴのエントリを示す図である。

【図３６】図３５に示す例における許容し得る逐次順序
付けを示すフローチャートである。

【符号の説明】

１０マルチプロセッサノード１１アービター（ＱＳＡＡＲＢ）１２ａ、１２ｂ、１２ｃ、１２ｄプロセッサモジュー
ル１３メモリ１３ａ−１３ｄメモリモジュール１４Ｉ／Ｏプロセッサ（ＩＯＰ）モジュール１４ａＩ／Ｏバス１４ｂＩＯＰタグ記憶装置１４ｃＩＯＰキャッシュ１５ローカルスイッチ１６ａ−１６ｉデータリンク１７ＡＲＢバス１８ＱＳＡチップ１９ＱＳＤチップ２０デュープリケートタグ記憶装置（ＤＴＡＧ）２５ａ−２５ｅ同時挿入バッファ（ＳＩＢ）２７メインアービター３２バッファ３４ａ−３４ｈマルチプレクサ３６入力アービター３８出力アービター１２２トランザクション追跡テーブル１２４ビクティムキャッシュ１４０ディレクトリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/167 Ｇ０６Ｆ 15/167 Ｂ (72)発明者マドハミトラシャルマアメリカ合衆国マサチューセッツ州 01545 シュローズバリーコモンズドライヴ 55−46 (72)発明者スティーヴンアールヴァンドーレンアメリカ合衆国マサチューセッツ州 01532 ノースボローデイヴィスストリート 224

Claims

【特許請求の範囲】

【請求項１】スイッチを経て接続された複数のマルチ
プロセッサノードを備え、これら複数のマルチプロセッ
サノードの各々が少なくとも１つのプロセッサを更に含
むようなマルチ処理システムにおいて、複数のブロックへと配分される共用メモリと、上記共用メモリの複数のブロックに個数が対応する複数
のエントリを含むディレクトリとを備え、該ディレクト
リの各エントリは、上記複数のマルチプロセッサノード
のどれがデータブロックのコピーを記憶するか識別する
ためのものであり、上記ディレクトリは、上記複数のブ
ロックへのアクセスを順序付けするためのシリアル化ポ
イントに接続されて、複数のブロック各々への多数の参
照をマルチ処理システムにおいて実質的に同時に実行で
きるようにすることを特徴とするマルチ処理システム。
【請求項２】上記複数のブロック各々への多数の参照
は、少なくとも１つのブロックバージョンの異なるもの
に実質的に同時に作用する請求項１に記載のマルチ処理
システム。
【請求項３】少なくとも１つのブロックバージョンの
各々は、ブロックへの書き込み動作の結果を表わす請求
項２に記載のマルチ処理システム。
【請求項４】上記ディレクトリは、複数のブロックの
１つへの各参照に対して一度だけアクセスされる請求項
１に記載のマルチ処理システム。
【請求項５】上記ディレクトリは、参照の完了の際に
メモリの関連ブロックの状態を反映するように参照の完
了の前に原子的にアクセスされる請求項４に記載のマル
チ処理システム。
【請求項６】参照の１つは、メモリのブロックの１つ
を読み取るための調査型参照であり、参照の１つは、メ
モリのブロックにデータを書き込むための更新型動作で
あり、そしてマルチ処理システムの各ノードは、調査型
動作及び更新型動作のシリアル化順序を決定するための
手段を含む請求項５に記載のマルチ処理システム。
【請求項７】所与のブロックへの更新型参照の後にシ
リアル化された所与のブロックへの調査型参照は、更新
型参照に関連したデータが少なくとも１つのプロセッサ
へ返送される前にマルチプロセッサノードの少なくとも
１つのプロセッサに受け取られ、そしてマルチプロセッ
サノードは、既にシリアル化された更新型参照が完了す
るまで調査型参照をストールする手段を備えている請求
項６に記載のマルチ処理システム。
【請求項８】所与のブロックへの調査型参照は、所与
のブロックへの更新型参照の前にシリアル化され、更新
型参照に関連したデータは、調査型参照の実行の前に受
け取られ、そしてマルチプロセッサノードは、更新型参
照に関連したデータを用いて調査型参照を選択的に実行
する手段を備えた請求項６に記載のマルチ処理システ
ム。
【請求項９】ディレクトリを原子的にアクセスした参
照の完了を保証する手段を更に備えた請求項５に記載の
マルチ処理システム。
【請求項１０】完了を保証する上記手段は、複数のマ
ルチプロセッサノード各々の少なくとも１つのプロセッ
サ各々にあって、各変更されたブロックが共用メモリに
書き込まれるまで、及びその変更ブロックに関連した更
新型参照の前にシリアル化された変更ブロックへの全て
の調査型参照が完了するまで、共用メモリの変更ブロッ
クのサブセットを一時的に記憶するための手段を更に含
む請求項９に記載のマルチ処理システム。
【請求項１１】完了を保証する上記手段は、複数のマ
ルチプロセッサノードの各々にあって、各変更されたブ
ロックが共用メモリに書きこ込まれるまで、及びその変
更ブロックに関連した更新型参照の前にシリアル化され
た変更ブロックへの全ての調査型参照が完了するまで、
共用メモリの変更ブロックのサブセットを一時的に記憶
するための手段を更に含む請求項９に記載のマルチ処理
システム。
【請求項１２】各参照は、複数のトランザクションを
含み、各参照の各トランザクションは、マルチ処理シス
テム内の複数のチャンネルの対応する１つに送られ、そ
してシリアル化順序を決定する上記手段は、複数のチャ
ンネルの少なくとも１つにおいて参照のトランザクショ
ンの順序を維持する手段を備えている請求項６に記載の
マルチ処理システム。
【請求項１３】複数のチャンネルの順序付けされたチ
ャンネルは、更新型参照及び調査型参照の相対的な動作
状態を示す情報を搬送する請求項１２に記載のマルチ処
理システム。
【請求項１４】上記保証手段は、更に、複数のマルチプロセッサノードの各々にあって、共用メ
モリのブロックの所望のバージョンがマルチプロセッサ
ノードへ返送されるまで多数の参照の１つを遅延する手
段を備えた請求項９に記載のマルチ処理システム。
【請求項１５】上記保証手段は、更に、複数のマルチプロセッサノードの各々にあって、共用メ
モリのブロックの所望のバージョンがマルチプロセッサ
ノードへ返送されるまで多数の参照の１つの実行を遅延
する手段を備えた請求項９に記載のマルチ処理システ
ム。
【請求項１６】多数の参照の各々は、複数の段階のト
ランザクションを含み、そして上記保証手段は、各参照
のトランザクションの段階を指示する手段を更に含む請
求項９に記載のマルチ処理システム。
【請求項１７】トランザクションの各段階は、異なる
チャンネルを経て送られ、そして参照のトランザクショ
ンの段階を指示する上記手段は、トランザクションの段
階に関連したチャンネルを経て、参照の完了を待機して
いるマルチプロセッサノードへパケットを送信する手段
を備えている請求項１６に記載のマルチ処理システム。
【請求項１８】上記参照は、マルチプロセッサノード
の第１ノードからマルチプロセッサノードの第２ノード
のディレクトリへ送られる読み取り参照であり、そして
上記パケットは、読み取り参照がマルチプロセッサノー
ドの第２ノードのディレクトリをアクセスしたことを指
示するマーカーパケットである請求項１７に記載のマル
チ処理システム。
【請求項１９】スイッチを経て接続された複数のマル
チプロセッサノードを備えたマルチ処理システムにおい
て、複数のマルチプロセッサノードの各々は、少なくと
も１つのプロセッサと、複数のブロックへと配分された共用メモリの一部分と、上記マルチプロセッサノードの共用メモリの複数のブロ
ックの部分に個数が対応する複数のエントリを有するデ
ィレクトリであって、該ディレクトリの各エントリは、
複数のマルチプロセッサノードのどれがデータブロック
のコピーを記憶するか識別するようなディレクトリと、上記共用メモリの複数のブロックのサブセットが共用メ
モリに書き込まれるまで共用メモリの複数のブロックの
サブセットを一時的に記憶するビクティムキャッシュと
を備え、上記サブセットの複数のブロックの各々は、マ
ルチプロセッサノードの少なくとも１つのプロセッサの
１つにより更新されることを特徴とするマルチ処理シス
テム。
【請求項２０】マルチ処理システムにおいて共用メモ
リの共通ブロックへの多数の参照を同時に実行できるよ
うにする方法であって、上記マルチ処理システムは、ス
イッチを経て接続された複数のマルチプロセッサノード
を備え、複数のマルチプロセッサノードの各々は、少な
くとも１つのプロセッサと、複数のブロックへと配分さ
れた共用メモリの一部分と、シリアル化ユニットとを更
に含み、そしてシリアル化ユニットは、共用メモリの部
分の複数のブロックに個数が対応する複数のエントリを
備え、上記方法は、上記共通ブロックへの全ての参照を、その共通ブロック
に関連したマルチプロセッサノードのシリアル化ユニッ
トにそれらが受け取られるときに順序付けし、各参照は
実行中に一度だけシリアル化ユニットを訪れ、そして行
先に記憶された共通ブロックへの参照の完了を、上記共
用メモリのブロックの所望バージョンが行先に返送され
るまで遅延する、という段階を含むことを特徴とする方
法。
【請求項２１】複数のブロック各々への多数の参照
は、少なくとも１つのブロックバージョンの異なるもの
に実質的に同時に作用する請求項２０に記載の方法。
【請求項２２】少なくとも１つのブロックバージョン
の各々は、ブロックへの書き込み動作の結果を表わす請
求項２１に記載の方法。
【請求項２３】上記ディレクトリは、複数のブロック
の１つへの各参照に対して一度だけアクセスされる請求
項２０に記載の方法。
【請求項２４】上記ディレクトリは、参照の完了時に
メモリの関連ブロックの状態を反映するように参照の完
了の前に原子的にアクセスされる請求項２３に記載の方
法。
【請求項２５】上記参照の１つは、メモリのブロック
の１つを読み取るための調査型参照であり、上記参照の
１つは、メモリのブロックにデータを書き込むための更
新型動作であり、そして上記方法は、マルチ処理ノード
の各々が各ノードにおける調査型動作及び更新型動作の
シリアル化順序を決定する段階を含む請求項２４に記載
の方法。
【請求項２６】所与のブロックへの更新型参照の後に
シリアル化された所与のブロックへの調査型参照は、更
新型参照に関連したデータが少なくとも１つのプロセッ
サへ返送される前にマルチプロセッサノードの少なくと
も１つのプロセッサに受け取られ、そして上記方法は、
既にシリアル化された更新型参照が完了するまで調査型
参照をストールする段階を含む請求項２５に記載の方
法。
【請求項２７】所与のブロックへの調査型参照は、所
与のブロックへの更新型参照の前にシリアル化され、更
新型参照に関連したデータは、調査型参照の実行の前に
受け取られ、そして上記方法は、更新型参照に関連した
データを用いて調査型参照を選択的に実行する段階を含
む請求項２５に記載の方法。
【請求項２８】ディレクトリを原子的にアクセスした
参照の完了を保証する段階を更に含む請求項２４に記載
の方法。
【請求項２９】完了を保証する上記段階は、複数のマルチプロセッサノード各々の少なくとも１つの
プロセッサ各々において、各変更されたブロックが共用
メモリに書き込まれるまで、及びその変更ブロックに関
連した更新型参照の前にシリアル化された変更ブロック
への全ての調査型参照が完了するまで、共用メモリの変
更ブロックのサブセットを一時的に記憶する段階を更に
含む請求項２８に記載の方法。
【請求項３０】完了を保証する上記段階は、複数のマルチプロセッサノードの各々において、各変更
されたブロックが共用メモリに書きこ込まれるまで、及
びその変更ブロックに関連した更新型参照の前にシリア
ル化された変更ブロックへの全ての調査型参照が完了す
るまで、共用メモリの変更ブロックのサブセットを一時
的に記憶する段階を更に含む請求項２８に記載の方法。
【請求項３１】複数のマルチプロセッサノードの各々
において、共用メモリの複数のブロックのサブセットが
共用メモリに書き込まれるまで、マルチプロセッサノー
ドの対応する少なくとも１つのプロセッサにより変更さ
れた共用メモリの複数のメモリのサブセットを一時的に
記憶する段階を更に含む請求項２８に記載の方法。
【請求項３２】上記多数の参照の各々は、複数の段階
のトランザクションを含み、そして上記方法は、各参照
のトランザクションの段階を指示する段階を含む請求項
２０に記載の方法。
【請求項３３】トランザクションの各段階は、異なる
チャンネルを経て送られ、そして参照のトランザクショ
ンの段階を指示する上記段階は、トランザクションの段
階に関連したチャンネルを経て、参照の完了を待機して
いるマルチプロセッサノードへパケットを送信する段階
を含む請求項３２に記載の方法。
【請求項３４】上記参照は、マルチプロセッサノード
の第１ノードからマルチプロセッサノードの第２ノード
のシリアル化ユニットへ送られる読み取り参照であり、
そして上記パケットは、読み取り参照がマルチプロセッ
サノードの第２ノードのシリアル化ユニットをアクセス
したことを指示するマーカーパケットである請求項３３
に記載の方法。