JP3360700B2

JP3360700B2 - 多重プロセッサ・システム

Info

Publication number: JP3360700B2
Application number: JP14043494A
Authority: JP
Inventors: マイケル・トーマス・ダィブリノ; ドワイン・アラン・ヒックス; ジョージ・マックネイル・ラティモア; キミング・ケー・ソー; ハナア・ユーセフ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-08-02
Filing date: 1994-06-22
Publication date: 2002-12-24
Anticipated expiration: 2017-12-24
Also published as: US5581734A; EP0637799A3; EP0637799A2; JPH0756813A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、多重プロセッサ・シス
テム内で使用するための複数のプロセッサによって共有
されたキャッシュに係り、更に詳細に説明すれば、各マ
シン・サイクル（キャッシュ・サイクル＝ＣＰＵサイク
ル）当たり１つのロード又はストア要求を処理すること
ができる共有キャッシュに係る。このような改良を実現
するため、インタリービング、パイプライン化、バース
ト・モード論理、並びに複数のデータ／アドレス／要求
ポートといった、性能を強化するための諸技術が組み合
わせて利用されている。

【０００２】

【従来の技術】通常の多重プロセッサ・システムでは、
単一プロセッサ・システム内で使用されるものよりも大
容量を有するキャッシュを設計するのが普通である。こ
のことは、多重プロセッサ・システム上で実行される殆
どのアプリケーションが、単一プロセッサ・システム上
で実行されるアプリケーションよりも大量のデータ処理
を必要とするという事実に起因している。大容量のキャ
ッシュに伴う問題は、比較的長い信号伝播（遅延）時間
が存在し、データ・アドレスをデコードするのに比較的
多い論理レベルが必要となるため、キャッシュのアクセ
ス時間が増加することにある。かくて、キャッシュの設
計者は、十分に大きなキャッシュ容量を提供するのと同
時に、システム性能を最適化することによって、多重プ
ロセッサ・システム上で実行されるアプリケーションの
要求を満足させなければならない。

【０００３】IBM Technical Disclosure Bulletin, Vo
l. 34, No. 1, June 1991 には、各プロセッサごとにそ
れぞれ設けられた専用のＬ１キャッシュと、複数のプロ
セッサによって共有されたＬ２キャッシュとを備えた、
多重プロセッサ・システム用のメモリ階層が開示されて
いる。一のラインがＬ２キャッシュからＬ１キャッシュ
にロードされる場合、Ｌ１キャッシュ内のその位置が記
録されるようになっている。これは、Ｌ２ディレクトリ
を探索することなく、この記録された位置を使用して、
後続のストア動作のためにＬ２キャッシュをアクセスで
きるようにするためである。

【０００４】米国特許第４３７１９２９号は、主メモリ
に対する制御可能なキャッシュ・インタフェースを備え
た多重プロセッサ・システムにおいて、この主メモリを
複数のパーティションに分割し且つこれらのパーティシ
ョンを共通バス上で時分割多重化（インタリーブ）され
た態様でアクセスすることを開示している。これらのパ
ーティションは、各プロセッサに対応する各ホスト・ア
ダプタと一意的に関連している。かかるインタリーブさ
れたアクセス動作は、単一のホスト・プロセッサ−Ｉ／
Ｏチャネル転送期間中に、複数のホスト・プロセッサへ
のサービスを与えることを可能にする。しかし、キャッ
シュから主メモリへの完全なデータ・ブロック転送が開
始される場合は、この完全なデータ・ブロック転送と他
のデータ転送とをインタリーブさせることはできない。
かくて、幾つかのデータ転送は、完全なデータ・ブロッ
ク転送が終了するまで待機しなければならない。

【０００５】米国特許第４０５６８４５号は、インタリ
ーブ動作又は非インタリーブ動作のために使用できるキ
ャッシュを開示している。米国特許第４４４５１７４号
は、それぞれ専用のＬ１キャッシュを備えた各プロセッ
サが、他のプロセッサとＬ２キャッシュ及び主メモリを
共有するようにした多重プロセッサ・システムを開示し
ている。米国特許第４９０５１４１号は、キャッシュを
複数のパーティションに分割するとともに、それぞれの
パーティションを互いに並列に且つ独立に動作させるよ
うにしたキャッシュ・システムが開示されている。この
キャッシュは、単一のマシン・サイクルの間に、互いに
独立した複数のキャッシュ動作を行うことができるよう
に、複数のポートを含んでいる。

【０００６】前述のように、大容量のキャッシュに伴う
問題は、比較的長い信号伝播時間が存在し、データ・ア
ドレスをデコードするのに比較的多い論理レベルが必要
となるために、キャッシュのアクセス時間が増加するこ
とにある。この結果、増加したキャッシュ容量と引き替
えに、キャッシュのアクセス時間、即ち応答時間が増加
することになる。多重プロセッサ・システムを設計する
場合には、コンピュータ・アクセスの応答時間を減少さ
せることに加えて、キャッシュのサイクル時間（要求イ
ンターバル）の問題も考慮しなければならない。一のロ
ード又はストア要求を、キャッシュが各マシン・サイク
ルごとにサービス（処理）するのが望ましい。もし、こ
の性能が達成されたならば、このようなキャッシュは、
マシン・サイクルで測定されるような性能のレベルを維
持することができる。

【０００７】多重プロセッサ・システムの性能を改良す
るのに利用された通常のキャッシュ設計技術は、キャッ
シュのインタリービングと複数のポートとの組み合わせ
のように、システムの性能を推進させることに向けられ
ている。インタリービングを利用すると、キャッシュの
異なったインタリーブ・セクション（キャッシュ・アレ
イ）内にあるデータを同時にアクセスすることが可能に
なる。更に、インタリービングを利用すると、データが
小さな複数のインタリーブ・セクション内に分散配置さ
れているために、同等の容量を有する非インタリーブ式
のキャッシュよりもアクセス時間が短くなるので、１ア
クセス当たりのキャッシュ応答時間が減少することにな
る。この場合、複数のインタリーブ・セクションからの
データが同時にアクセスされるから、要求元のプロセッ
サに至る並列のデータ通路が必要となり、かくてインタ
リーブ式キャッシュをサポートするために、キャッシュ
内の複数のポートが使用される。

【０００８】本発明では、インタリービングと複数のポ
ートとの組み合わせが効果的に利用されている。しか
し、従来のシステムでは、各プロセッサは、各マシン・
サイクル中にキャッシュを同時にアクセスすることがで
きない。従って、本発明は、キャッシュが各プロセッサ
からの１つの要求を１マシン・サイクルでサービスでき
るように、他の性能改善技術を利用することによって、
システム全体の性能を顕著に向上させている。

【０００９】

【発明が解決しようとする課題】本発明が従来の技術と
異なっているのは、多重プロセッサ・システム内の各プ
ロセッサからの要求を、Ｌ２キャッシュが１マシン・サ
イクルでサービスできるように、Ｌ２キャッシュのイン
タリービングと、複数のポートと、パイプライン化アー
キテクチャと、バースト・モード・アクセスの全てが効
果的に利用されている点である。

【００１０】簡述すれば、本発明は、Ｌ２キャッシュを
アクセスする際に、最大の並列度で多重プロセッサ・シ
ステムをサポートするように、高性能のＬ２キャッシュ
を提供するものである。即ち、本発明の目的は、各マシ
ン・サイクル当たり１つのプロセッサ要求にサービスを
与えることによって、システムの応答時間を短縮し且つ
システムのスループットを向上させることにある。

【００１１】

【課題を解決するための手段】従来のシステムは、その
性能を最適化するために前述の技術の全てを利用してい
ない。本発明は、Ｌ２キャッシュを最大限に共有すべ
く、インタリービング及び複数ポートの組み合わせに加
えて、追加の性能強化技術を利用する。本発明によれ
ば、従来の技術に比較して、システムの性能を、約１桁
ほど改善することができる。この性能上の最適化は、パ
イプライン化とバースト・モード・アクセスというシス
テム・アーキテクチャ技術を利用することによって達成
される。ビルトイン・パイプライン処理段階を含ませる
ことによって、Ｌ２キャッシュは、１マシン・サイクル
ごとに任意の１つのプロセッサからの要求にサービスを
与えることが可能となる。このように、Ｌ２キャッシュ
が、各マシン・サイクルごとに一のロード又はストア要
求を受信するのを可能にすると、システム・スループッ
トを顕著に改善することができるだけでなく、Ｌ２キャ
ッシュの利用率を１００％近くまで保証することができ
る。第２に、本発明は、バースト・モード論理として知
られている後述の論理を使用することによって、総合的
なスループットを向上させることができる。

【００１２】バースト・モードのデータ・アクセスにつ
いて説明すると、１回のキャッシュ・アクセス動作の間
に、最も幅の広いデータ（データ・ワード）をＬ２キャ
ッシュと授受することができる。このデータの１部分が
Ｌ２キャッシュの論理内に保持されている間、（システ
ム・バスの幅と等しい幅を有する）このデータの他の部
分が、１マシン・サイクルの間に要求元（プロセッサ又
はメモリ）に転送されるようになっている。次に、保持
されたデータの部分を、次のマシン・サイクルの間に転
送することができる。Ｌ２キャッシュと外部装置（例え
ば、プロセッサ及びメモリ）との間でデータを転送する
のに２マシン・サイクル以上を要することもあるが、Ｌ
２キャッシュとの実際のデータ転送は、単一のマシン・
サイクルの間に行うことができる。

【００１３】複数のプロセッサによって共有されたＬ２
キャッシュの設計に、パイプライン化とバースト・モー
ドの技術を加えることによって、本発明は、マシン・サ
イクルを約４４％ほど節約することを可能にする。この
数値は、次の仮定に基づいている。即ち、（１）プロセ
ッサからの一の要求を受信するのに、１マシン・サイク
ルを要し、（２）１つのインタリーブ・セクションに対
するキャッシュの待ち時間が、１マシン・サイクルであ
り、（３）このインタリーブ・セクションからアクセス
されたデータを供給し且つ要求元ポート用のデータ・ド
ライバを付勢するのに、１マシン・サイクルを要し、
（４）このデータを要求元プロセッサに転送するのに、
１マシン・サイクルを要する、ということである。これ
らの仮定が成立する場合、バースト・モード論理もパイ
プライン化も利用していない通常のキャッシュでは、４
Ｌ（但し、Ｌはシステム・バスの幅）に等しいビット幅
のデータをアクセスするのに１６マシン・サイクルを要
するのに対し、バースト・モード論理とパイプライン化
を利用した本発明のキャッシュでは、同じデータをアク
セスするのに、７マシン・サイクルしか必要としない。
従って、７マシン・サイクルと１６マシン・サイクルの
比率から明らかなように、システム性能が４４％向上す
ることになる。

【００１４】

【実施例】図１には、本発明に従った多重プロセッサ・
システムが示されている。図１において、プロセッサ３
〜３Ｘの各々は、ＩＢＭ社によって製造・販売されてい
るＲＩＳＣシステム／６０００プロセッサのような中央
処理ユニット（ＣＰＵ）を表している。これらのプロセ
ッサは、頻繁に用いられるデータをストアするために、
当該プロセッサ自体に設けられたＬ１キャッシュを含ん
でいる。本発明の実施例では、４個のプロセッサ３が用
いられているが、性能／コストのトレード・オフを条件
として、任意の数のプロセッサを本発明のＬ２キャッシ
ュ１００に関連して用いることができる。

【００１５】本発明のＬ２キャッシュ１００は、Ｎ個の
インタリーブ・セクションを含んでいる。但し、Ｎは、
プロセッサの数Ｘと等しいか、又はそれよりも大きな正
の整数である。図１には、メモリ制御装置（ＭＣＵ）１
０も示されている。データ用のアドレス／要求の形式を
有する制御信号は、プロセッサ３〜３Ｘから、制御線６
〜６Ｘを介して直接的に受信される。入力論理１１０
（図２及び図３）内の仲裁論理は、これらのプロセッサ
の要求を、目標のインタリーブ・セクション（例えば、
図２の１０１〜１０４）へ転送するのに用いられる。一
旦、このインタリーブ・セクションがアクセスされる
と、そこから検索されたデータは、出力論理１５０（図
２及び図３）を介して要求元プロセッサに送信される。
２つ以上のプロセッサ要求が競合（衝突）する場合、即
ち両方の要求が同一のサイクルの間に同一のインタリー
ブ・セクションを目標とする場合、唯１つの要求しかサ
ービスされない。どちらの要求がサービスされるかは、
最も長い間サービスされていなかった（least recently
serviced ）特定のプロセッサからの要求を選択する処
の、仲裁論理内の状態マシンに基づいて決定される。こ
の場合、サービスされなかった要求は、ＭＣＵ１０内の
バッファ、ラッチなどで待ち行列化され、後の時点で、
制御線１５を介してサービスされる。ＭＣＵ１０は、最
も長い間サービスされていなかった特定のプロセッサか
らの要求を決定することができるように、諸データ要求
（ロード及びストア要求）のディレクトリを保持してい
る。仲裁論理による選択は、最も長い間サービスされて
いなかった特定のプロセッサだけに基づいて行われる。
ＭＣＵのディレクトリ（要求の待ち行列）内で待ち行列
化された要求、例えば以前の仲裁の選択に敗れた要求に
は、諸プロセッサから直接的に受信される要求を上まわ
る優先順位が与えられる。本発明は、このように以前の
要求に優先順位を与えることによって、ＭＣＵのディレ
クトリが以前の要求によって充満されるにも拘わらず、
これらの要求が諸プロセッサからの新しい要求に敗れて
サービスされないままに留まる、という問題を解決して
いる。

【００１６】また、本発明は、データがＬ２キャッシュ
１００をバイパスしてプロセッサ３〜３Ｘの相互間で転
送できるようにするためのデータ通路（図２のデータ線
１６０）を設けることによって、キャッシュのインタリ
ーブ・セクションをアクセスすることに伴う遅延時間を
節約するとともに、このインタリーブ・セクションを異
なった要求元からの他のアクセスのために速やかに自由
にできるようにしている。このデータ通路は、ＭＣＵ１
０内の論理によって制御され、制御線１５を介してＬ２
キャッシュ１００に与えられる。データ線７は、Ｌ２キ
ャッシュ１００と主メモリ（図示せず）との間のデータ
通路である。一のプロセッサがＬ２キャッシュ１００内
に存在しないデータを要求する場合、キャッシュ・ミス
が発生し、ＭＣＵ１０内の制御論理がこの要求を制御線
９を介して主メモリへ転送する。この要求について主メ
モリがアクセスされた後、主メモリからのデータは、入
力論理１１０及び出力論理１５０を使用して、Ｌ２キャ
ッシュ１００を介して要求元プロセッサへ流れるように
なっている。即ち、このデータは、ＭＣＵ１０から制御
線１５を介して与えられる制御信号の制御下で、Ｌ２キ
ャッシュ１００の適当なインタリーブ・セクション内に
同時にストアされる。一のキャッシュ・ミスに関連する
主メモリからのデータ流は、前述のプロセッサ間のデー
タ流と類似している。主メモリの制御信号及びデータ流
は、Ｌ２キャッシュ１００内の一のＩ／Ｏポートを通し
て、Ｉ／Ｏ装置に印加することができる。主メモリから
のデータの検索に係る前述の説明は、データ線７及び制
御線９の代わりにデータ線８及び制御線１１が用いられ
ることを除けば、Ｉ／Ｏデータの転送にも当てはまる。
これらのＩ／Ｏ装置は、固定ディスク記憶装置や、ＳＣ
ＳＩドライブ、通信ポートなどを含むことがある。

【００１７】プロセッサ３及び３Ｘは、制御線６及び６
Ｘ、並びにデータ線５及び５Ｘによって、Ｌ２キャッシ
ュ１００を通して種々のインタリーブ・セクションに相
互接続されている。かくて、データは、データ線５及び
５Ｘ、並びにＬ２キャッシュ１００を通して、一方のプ
ロセッサから他方のプロセッサへ流れることができるか
ら、そのデータが存在する特定のインタリーブ・セクシ
ョンをアクセスすることに伴う遅延時間を節約すること
ができる。即ち、各プロセッサがデータを検索し且つこ
のデータを他のプロセッサに転送するための独立したロ
ード動作及びストア動作を実行せずとも、Ｌ２キャッシ
ュ１００とこれらのプロセッサとの間でデータが流れ
る、ということである。制御線６及び６Ｘは、プロセッ
サ３とＬ２キャッシュ１００との間のストア動作及びロ
ード動作を援助するように、タイミング信号などを与え
るために使用される。

【００１８】データ線７は、Ｌ２キャッシュ１００に相
互接続された主メモリとデータを授受するためのデータ
通路である。主メモリに接続された制御線９は、主メモ
リとＬ２キャッシュ１００との間でデータを転送するの
に必要な制御信号を与える。更に、Ｌ２キャッシュ１０
０とこれに相互接続された任意のＩ／Ｏ装置（図示せ
ず）との間で、データを転送することができる。これら
のＩ／Ｏ装置は、固定ディスク記憶装置や、ＳＣＳＩド
ライブ、通信ポート、又はプロセッサ３とデータを授受
するような任意のＩ／Ｏ装置を含むことがある。制御線
１１は、ＭＣＵ１０とこれに相互接続された種々のＩ／
Ｏ装置との間でデータを転送するのに必要な制御信号を
与える。

【００１９】図２には、Ｌ２キャッシュ１００の主要な
構成要素と、それらの構成要素の間のデータの論理的流
れが示されている。前述のように、Ｌ２キャッシュ１０
０は、多重プロセッサ・システム内にあるＸ個のプロセ
ッサに対応して、Ｘ個のデータ入力ポートを有してい
る。更に、Ｌ２キャッシュ１００は、Ｎ個のインタリー
ブ・セクションを含んでいる。但し、Ｎは、Ｘよりも大
きいか、又はＸに等しい正の整数である（図２の例で
は、Ｎ及びＸは、両者ともに４に等しい）。かくて、所
与の時間には、Ｘ個のプロセッサのうち任意の１つが、
Ｎ個のインタリーブ・セクションのうち任意の１つを独
立してアクセスすることができる。もし、ＮがＸよりも
大きければ、各プロセッサは、各マシン・サイクルの間
に、一のインタリーブ・セクションを常にアクセスする
ことができる。他方、ＮがＸよりも小さければ、少なく
とも１つプロセッサが、各マシン・サイクルの間に待機
しなければならない。

【００２０】図７には、Ｘ個（図示の例では４個）のプ
ロセッサ３〜３Ｘと、Ｎ個（図示の例では５個）のイン
タリーブ・セクション１０１〜１０４とを有する多重プ
ロセッサ・システムが示されている。図７を参照する
と、４個のプロセッサ０〜３が、５個のインタリーブ・
セクション１０１〜Ｎとの間でデータをどのようにして
転送するか、そして各プロセッサが、各マシン・サイク
ルの間に、一のインタリーブ・セクションをどのように
してアクセスするかを理解することができる。もし、イ
ンタリーブ・セクションの数Ｎがプロセッサの数Ｘより
も小さければ、他のプロセッサがこれらのインタリーブ
・セクションをアクセスしている間、少なくとも１個の
プロセッサが待機状態に置かれることは明らかである。
かくて、ＮがＸよりも小さな場合には、Ｌ２キャッシュ
１００は、各プロセッサからのデータ転送要求を各マシ
ン・サイクルごとにサービスすることはできない。従っ
て、本発明に従ったＬ２キャッシュ１００の要件は、イ
ンタリーブ・セクションの数Ｎが、プロセッサの数Ｘよ
りも大きいか、又はこれに等しいことである。

【００２１】図２を再び参照すると、本発明に従ったＬ
２キャッシュ１００には、プロセッサＰ０〜Ｐｘが接続
されている。入力論理１１０は、プロセッサ３によって
処理されたデータをＬ２キャッシュ１００内にストアす
るのに必要な諸構成要素を含んでいる。これらの構成要
素は、レシーバや、データ・バッファ、データ選択用の
マルチプレクサ等である。入力論理１１０については、
図３を参照して詳述する。インタリーブ・セクション１
０１〜１０４は、Ｌ２キャッシュ１００内で明確な位置
を有している。本明細書で説明する多重プロセッサ・シ
ステムは、４個のプロセッサを備えているが、これは単
なる例示であって、他の数のプロセッサを有する多重プ
ロセッサ・システムも、本発明の範囲内にあることは明
らかである。例えば、４個のプロセッサを備えた多重プ
ロセッサ・システムにおいて、４メガバイトの総記憶容
量を有するＬ２キャッシュ１００を用いると、優れた性
能を発揮することが分かった。この性能を達成するた
め、本発明の実施例では、Ｌ２キャッシュ１００内の各
チップにそれぞれ４メガビットの記憶容量を与えるとと
もに、８個のチップを用いて所望の総記憶容量を得るよ
うにしている。８個のチップの各々が有する４メガビッ
トの記憶容量を、４個のインタリーブ・セクション１０
１〜１０４にわたってそれぞれ分散配置することによっ
て、各インタリーブ・セクションが各チップごとに１メ
ガビットの記憶容量を有するようにすることができる。
実施例では、４個のプロセッサを備えた多重プロセッサ
・システムにおいて、８個のＳＲＡＭチップが使用され
た。Ｌ２キャッシュ１００の記憶容量を前述のものより
も大きくするためには、次の２つのアプローチを採用す
ることができる。

【００２２】（１）Ｌ２キャッシュ１００を構成する各チップごと
に、図２又は図３に示されているようなインタリーブ・
セクションを追加する。（２）Ｌ２キャッシュ１００を構成するチップ内部のイ
ンタリーブの数を変更することなく、チップ自体を追加
する。前記（１）のアプローチは、プロセッサから追加
のインタリーブ・セクションへのデータ・バスを設け且
つＬ２キャッシュ１００を構成する各チップを内部的に
変更することを必要とするが、それぞれのプロセッサへ
のデータ・バス（図７を参照）には影響しない。他方、
前記（２）のアプローチは、追加されたチップをサポー
トするためにプロセッサからのデータ・バスを拡張する
ことを必要とするが、チップを内部的に変更する必要は
ない。

【００２３】出力論理１５０は、Ｌ２キャッシュ１００
内の複数のインタリーブ・セクション１０１〜１０４か
ら検索されたデータを受信するとともに、これを要求元
プロセッサに出力する。この出力論理１５０は、Ｎ組の
ハードウェア構成要素であって、バースト・モード論理
や、データ選択スイッチ、ラッチ、ロード・スイッチ、
レジスタ、ドライバ等を含んでいる。Ｌ２キャッシュ１
００内にあるＮ個のインタリーブ・セクションに対応し
て、出力論理１５０のＮ組のハードウェア構成要素が設
けられている。

【００２４】図２から明らかなように、プロセッサ３〜
３Ｘが、Ｌ２キャッシュ１００内にストアすべきデータ
を入力論理１１０に転送する場合、この入力論理１１０
は、当該データを処理するとともに、プロセッサ３〜３
Ｘのうち任意の１つ又はＭＣＵ１０によって与えられた
アドレスに基づいて、当該データをデータ線１０５〜１
０８を介して適当なインタリーブ・セクションに送信す
る。ＭＣＵ１０は、以前の仲裁の間に敗れたプロセッサ
要求、主メモリ要求、又はＩ／Ｏ要求のためのアドレス
だけを与える。一旦、当該データがＬ２キャッシュ１０
０内にストアされた後に、当該データが検索されるの
は、一の要求元プロセッサが一のロード命令（もし、こ
のロード命令が仲裁の結果であれば、ＭＣＵ１０からの
ロード命令）をＬ２キャッシュ１００に送信し、このロ
ード命令が入力論理１１０を通して転送される場合であ
る。かくて、目標のインタリーブ・セクション１０１〜
１０４がアクセスされると、そこにストアされていたデ
ータが、データ線１１１〜１１４を介して出力論理１５
０に転送されることになる。次に、ＭＣＵ１０からの制
御信号の制御下で、このデータは、出力論理１５０から
データ線１２０〜１２０Ｘを通して要求元プロセッサ３
〜３Ｘに転送される。従って、図２を参照すると、イン
タリーブ・セクション１０１〜１０４は、複数のプロセ
ッサからのストア動作及びロード動作が並行的に生ずる
こと、即ち本発明に従ったパイプライン化によって、前
述の２つの動作をオーバラップさせ得ることが分かる。

【００２５】次に、Ｌ２キャッシュ１００内のデータ流
を示す図３を参照して、入力論理１１０及び出力論理１
５０の個別的な構成要素を説明する。このデータ流は、
ストア用の待ち行列バッファ１２７へ入り、そこからス
トア・スイッチ１２８として構成されている複数のデー
タ選択スイッチ１２９に出力され、そこから更にインタ
リーブ・セクション１０１〜１０４に加えられる入力デ
ータを示している。一のロード動作の間、このデータ
は、選択されたインタリーブ・セクションからバースト
・モード論理２００〜２００ｎに供給され、そこからロ
ード・スイッチ２０５として構成されている複数のデー
タ選択スイッチ２０７に出力され、次に要求元プロセッ
サ３のデータ入力ポートに供給されるようになってい
る。待ち行列バッファ１２７、ストア・スイッチ１２
８、インタリーブ・セクション１０１〜１０４を対象と
するロード動作及びストア動作、バースト・モード論理
２０８、ロード・スイッチ２０５及びドライバを付勢す
るための全ての制御信号は、ＭＣＵ１０から与えられる
ようになっている。

【００２６】更に詳細に説明すると、プロセッサ３〜３
Ｘは、ビット幅Ｌの１データ・ワードをデータ線１２１
上に置くことによって、データをストアする。実施例に
おいて、１データ・ワードは４０ビットの幅を有し、そ
のうちの３２ビットはデータであり、８ビットはエラー
検査及び訂正（ＥＣＣ）コードである。レシーバ１２３
は、データを受信し、これをラッチ１２４内にストアす
る。次のマシン・サイクルの間、このデータは、データ
線１２５を通して待ち行列バッファ１２７に転送され
る。このデータをストア・スイッチ１２８内にアンロー
ドし且つ次に目標のインタリーブ・セクション１０１〜
１０４内にアンロードするための制御信号がＭＣＵ１０
から送信されるまで、このデータは、待ち行列バッファ
１２７内に保持される。

【００２７】ここで留意すべきは、このストア・アドレ
スが、ＭＣＵ１０から制御線１５を通してＬ２キャッシ
ュ１００に与えられる、ということである。このよう
に、ＭＣＵ１０は、通常の状況下（一のプロセッサによ
るキャッシュ・アクセスの間）でアドレスを供給するば
かりでなく、仲裁や、主メモリのデータ転送や、Ｉ／Ｏ
データ転送が生ずる場合にもアドレスを供給し、更に、
待ち行列バッファ１２７内のデータをデータ選択スイッ
チ１２８に転送すべき時点を指令する制御信号も供給す
る。待ち行列バッファ１２７は、（１つのデータ・ポー
ト当たり１つの待ち行列バッファ、即ち全体としてＸ個
の待ち行列バッファが存在するように）Ｌ２キャッシュ
１００内に設けられており、データがＬ１キャッシュ及
びＬ２キャッシュ１００の両方に直接的にストアされる
ような、ストアスルー動作中に生じ得るストリーミング
・データを、Ｌ２キャッシュ１００に吸収させる機能を
有している。待ち行列バッファ１２７は、Ｌビット幅の
データを受信し、このデータを蓄積するとともに、これ
を先入れ先出し（ＦＩＦＯ）アクセス・モードにおい
て、２Ｌビット幅（例えば、６４ビットのデータと、１
６ビットのＥＣＣコードから成る８０ビット）に拡張し
た上で、待ち行列バッファ１２７からアンロードする。
即ち、Ｌビット幅である第１のデータ部分が、バス１２
５を介して１サイクル後に到着するＬビット幅の第２の
データ部分と連結される、ということである。かくて、
ＭＣＵ１０から一の「アンロード・バッファ（アンロー
ド待ち行列バッファ）」コマンドが受信される場合、２
Ｌビット幅のデータ・ワードが、待ち行列バッファ１２
７からアンロードされて、ストア・スイッチ１２８に入
力されることになる。

【００２８】ここで理解すべきは、ストア動作の間に、
プロセッサ３〜３Ｘのうち任意の１つから受信されたデ
ータは、Ｌ２キャッシュ１００のインタリーブ・セクシ
ョン１０１〜１０４のうち任意の１つにストアできる、
ということである。データは待ち行列バッファ１２７を
通してバッファされた後、例えば２Ｌビット幅に相当す
る比較的大きな細分性を以てインタリーブ・セクション
１０１〜１０４内にストアされる。その理由は、バース
ト・モード論理２００が設けられているからである。プ
ロセッサ３〜３Ｘの各々は、対応するレシーバ１２３
と、待ち行列バッファ１２７と、当該プロセッサがＬ２
キャッシュ１００内にストアすべきデータを受信するた
めの関連するデータ線を有している。図３を簡潔にする
ため、図３にはプロセッサ３（Ｐ０）に対応するこれら
の構成要素だけが示されているに過ぎないが、これらの
構成要素は各プロセッサごとに対応して設けられている
ことに留意すべきである。更に、以下の説明は、プロセ
ッサ３（Ｐ０）に関連する構成要素だけを対象とするに
過ぎないが、多重プロセッサ・システム内の各プロセッ
サが同じように動作することは容易に理解できる筈であ
る。

【００２９】ストア・スイッチ１２８は、各待ち行列バ
ッファ１２７から４０ビットのデータを先入れ先出し順
に受信した後、これをストアすべき実際のインタリーブ
・セクションへ経路指定することを含む、幾つかのスイ
ッチ機能を実行する。即ち、プロセッサ３から転送され
且つ待ち行列バッファ１２７内にストアされているデー
タを、インタリーブ・セクション１０４等にストアする
必要があるということである。ストア・スイッチ１２８
を構成するデータ選択スイッチ１２９〜１２９ｎは、こ
のスイッチ機能を与える。ＭＣＵ１０は、制御線１５を
介してストア・スイッチ１２８へ一の制御信号を与える
ことにより、入力プロセッサからのデータを所望のイン
タリーブ・セクションへ送信する処の、データ選択スイ
ッチ１２９の１つを制御する。かくて、プロセッサ３〜
３Ｘからのデータは、データ・バス１２２〜１２２ｎを
通して、データ選択スイッチ１２９の任意の１つに入力
することができる。これらのデータ・バス１２２〜１２
２ｎは、（プロセッサ３〜３Ｘに対応する）待ち行列バ
ッファ１２７〜１２７ｎの任意の１つからのデータをイ
ンタリーブ・セクション１０１〜１０４の任意の１つに
書き込むことができるように、プロセッサ３〜３Ｘの各
々とデータ選択スイッチ１２９〜１２９ｎの各々とをそ
れぞれ相互接続することができる。複数のデータ・バス
（データ・ポート）は、Ｌ２キャッシュ１００内のＩ／
Ｏピンを節約するために、双方向ポートとして構成され
ている。各データ・ポートは、それに関連する一のアド
レス／要求ポートをそれぞれ有している。主メモリ及び
Ｉ／Ｏデータ転送用のアドレス／要求は、ＭＣＵ１０の
アドレス／要求ポート（図１の制御線１５）を介して送
信される。

【００３０】各インタリーブ・セクションごとに、１つ
のデータ選択スイッチ１２９がそれぞれ設けられてい
る。これらのデータ選択スイッチ１２９は、実際にはマ
ルチプレクサであって、（Ｘ個のプロセッサからの）Ｘ
個の入力信号のうち対応する１つの入力信号を、対応す
るインタリーブ・セクションへ通過させる。

【００３１】本発明の実施例では、それぞれのインタリ
ーブ・セクションに与えられるデータは、８０ビット幅
のデータ・ワードの形式を有している。これらの８０ビ
ット・ワードは、２つの４０ビット・ワードから成り、
各４０ビット・ワードは、３２ビットのデータと８ビッ
トのＥＣＣコード及びタグとを有している。前述のよう
に、Ｌビット幅のデータ・ワードは４０ビットであると
考えることができるから、２Ｌは８０ビット幅のデータ
・ワードを表している。４個のプロセッサを備えた多重
プロセッサ・システムには、（これらのプロセッサに対
応する）４個の待ち行列レジスタ１２７が存在する。従
って、図３のインタリーブ・セクション１０１〜１０４
の各々は、８０ビット・ワード、即ち２Ｌビット幅のワ
ードを処理することができる。

【００３２】ストア・スイッチ１２８内のデータ選択ス
イッチ１２９は、待ち行列バッファ１２７の各々から８
０ビット幅＝２Ｌビット幅のデータ・ワードを１つず
つ、全体として４組の８０ビット幅のデータ・ワードを
受信する。これらのデータ・ワードのうちどのデータ・
ワードがどのインタリーブ・セクションに書き込まれる
かに基づいて、ＭＣＵ１０は、制御線１５を介して、ス
トア・スイッチ１２８に適当な制御信号を送信する。こ
の制御信号は、例えばプロセッサ３（Ｐ０）からのデー
タを、インタリーブ・セクション０（参照番号１０１）
内にストアさせるようなものである。２Ｌビット幅を有
するこれらのデータ・ワードは、データ線１３１〜１３
１ｎを通して、インタリーブ・セクション１０１〜１０
４内のそれぞれのポートに与えられる。かくて、本発明
のＬ２キャッシュ１００は、異なったプロセッサ３〜３
Ｘからの８０ビット幅のデータ・ワードを同時にストア
するための、複数のポートを含んでいることが分かる。

【００３３】プロセッサ３〜３Ｘのうちの２個以上のプ
ロセッサが、インタリーブ・セクション１０１〜１０４
のうち同一のものを対象としてデータを同時にストアす
ることを試みる場合には、競合が生ずるのが普通であ
る。ＭＣＵ１０内の制御論理は、これらの競合が生ずる
のを防止する。なぜなら、ストア・スイッチ１２８内の
各データ選択スイッチ１２９が、別個の直交選択信号を
有していて、各インタリーブ・セクションごとに一時に
１つのストアしか許容しないからである。ここで留意す
べきは、如何なるデータも異なった２つのインタリーブ
・セクションに対し重複してストアされない、即ち各イ
ンタリーブ・セクションはＬ２キャッシュ１００の全体
を通して一意的なデータを保持する、ということであ
る。

【００３４】図４に示されている仲裁論理３００は、
（競合の対象となっている）特定のインタリーブ・セク
ションを最も長い期間にわたってアクセスしていなかっ
たプロセッサだけにアクセス権を与えるために使用され
る。仲裁論理３００については、図４を参照して以下で
詳述する。

【００３５】前述の説明は、少なくとも１個のプロセッ
サが後に使用すべきデータをＬ２キャッシュ１００内に
配置するような一のストア動作に関係している。これに
対し、ロード動作は、処理動作において用いるために、
本発明のＬ２キャッシュ１００から以前にストアされた
データを検索することを含んでいる。各インタリーブ・
セクションへの入力データと同様に、各インタリーブ・
セクションからの出力データも２Ｌビット幅（８０ビッ
ト・ワード）である。このようにすると、単一のキャッ
シュ・サイクルの間に、同じデータ量をＬ２キャッシュ
１００にストアさせ且つＬ２キャッシュ１００からロー
ドさせることができる。例えば、プロセッサ３にロード
すべきデータは、データ線１３３〜１３３ｎを通してイ
ンタリーブ・セクション１０１〜１０４から検索された
後、バースト・モード論理２００〜２００ｎに与えられ
る。

【００３６】バースト・モード論理２００〜２００ｎ
は、インタリーブ・セクション１０１〜１０４の各々か
らの８０ビット・ワードを２つの４０ビット・ワードに
分割することにより、４０ビット幅のシステム・バスが
これを処理できるようにする。

【００３７】プロセッサ３〜３Ｘのうち１つによってデ
ータが要求された場合、その目標のインタリーブ・セク
ションは、１つの８０ビット・ワードをバースト・モー
ド論理２００に出力する。この８０ビット・ワードのう
ち第１の４０ビット（下部データ）は、要求元プロセッ
サへの第１のデータとして、線２０６及びバースト・モ
ード論理２００内のデータ選択スイッチ２０１を通して
転送され、他方、第２の４０ビット（上部データ）は、
保持ラッチ２０３に与えられた後、次のサイクルの間に
出力される。バースト・モード論理２００〜２００ｎの
各々を構成するデータ選択スイッチ（マルチプレクサ）
２０１は、元の８０ビット・ワードの４０ビット部分の
１つ、例えばデータ線２０６〜２０６ｎからの第１の４
０ビットを選択するとともに、このデータが受信される
サイクルと同じサイクルの間に、当該バースト・モード
論理２００を通してそのデータを送信する。バースト・
モード論理２００の他の構成要素は、元の８０ビット・
ワードのうち第２の４０ビット部分をラッチするための
保持ラッチ２０３〜２０３ｎである。実施例では、デー
タ選択スイッチ２０１によって最初に選択されなかった
第２の４０ビット部分は、データ線２０８〜２０８ｎを
介して保持ラッチ２０３内に保持されるようになってい
る。この第２の４０ビット部分は、第１の４０ビット部
分がロード・スイッチ２０５に通されるサイクルの後
の、次のマシン・サイクルの間に出力される。かくて、
各インタリーブ・セクションからの８０ビット・ワード
は、連続的な２つの４０ビット部分に直列化されること
になる。直列化されたこれらのデータ・ワードは、ＭＣ
Ｕ１０からの制御信号によって制御される境界選択レジ
スタ２０７〜２０７ｎを通過される。境界選択レジスタ
２０７〜２０７ｎからのデータ・ワードは、ドライバ２
０９〜２０９ｎを付勢することによって、キャッシュ・
チップから、データ・バス１２０〜１２０ｎを通してプ
ロセッサ・チップに転送される。境界選択レジスタ２０
７からのデータ出力信号は、データ・バス１２０内に存
在する損失を補償するために、ドライバ２０９によって
増幅されなければならない。また、ドライバ２０９を付
勢するための制御信号は、データ・バス１２０の使用可
能性をディレクトリ内に記録しているＭＣＵ１０によっ
て与えられる。

【００３８】前述のように、本発明のＬ２キャッシュ１
００は、インタリーブされた複数のポート及びパイプラ
イン化に加えて、バースト・モード論理を用いているの
で、各マシン・サイクルごとに１つのプロセッサ要求
（ロード又はストア要求）に対してサービスを与えるこ
とができる。

【００３９】図４には、仲裁論理３００を構成する状態
マシン３０１及びアドレス／要求の選択通路が示されて
いる。有効な要求信号３１０〜３１０ｎは、各要求元
（例えば、プロセッサ３〜３Ｘ又はＭＣＵ１０）から受
信される１ビット信号である。要求開始の結果として、
１つ以上の有効な要求信号がアクティブになると、状態
マシン３０１は、選択信号線３１１〜３１１ｘ上にアク
ティブな値（ハイ又はロー）を生成する。これらの選択
信号線３１１〜３１１ｘは、アドレス／要求信号線３１
３〜３１３ｘの唯１つだけを選択するために用いられ
る。前述のように、この選択は、ＭＣＵ１０からの要求
が最高の優先順位を有する場合において、複数のプロセ
ッサ・ポートのうちで最も長い間サービスされていなか
った要求元のポートを基礎として行われる。マルチプレ
クサ３０３は、競合に勝ったアドレス／要求信号を線３
０５を通して出力することにより、これをアクセスが所
望されている特定のインタリーブ・セクションに送信す
る。

【００４０】仲裁論理３００は、Ｌ２キャッシュ１００
の入力論理１１０内に設けられており、ＭＣＵ１０内に
も重複化されている。かくて、プロセッサ３〜３ｘがデ
ータ・アクセスを必要とする場合、これらのプロセッサ
は、該当するアドレス／要求情報をＬ２キャッシュ１０
０及びＭＣＵ１０の両方に送信する。要求信号線３１０
〜３１０ｘは、どの要求元（プロセッサ）が有効なデー
タ転送要求を送信しているかを指示する情報を転送す
る。仲裁論理３００内の状態マシン３０１は、特定のイ
ンタリーブ・セクションについて、要求信号線３１０〜
３１０ｘを介してプロセッサ３〜３ｘから受信した要求
信号の有効性を検査するとともに、これらの要求信号間
の競合を仲裁する。最も長い間サービスされていなかっ
た特定のプロセッサが、この仲裁に勝つようになってい
る。例えば、（有効な要求信号を転送している）要求信
号線３１０及び３１０ｘが両者ともにアクティブであっ
て、しかも要求信号線３１０ｘに対応するプロセッサ３
ｘ（Ｐｘ）が当該インタリーブ・セクションをアクセス
した最後のプロセッサであれば、要求信号線３１０に対
応するプロセッサ３（Ｐ０）がこの仲裁に勝ち、かくて
状態マシン３０１は選択信号線３１１上をアクティブに
する。状態マシン３０１が生成するこの選択信号は、複
数のプロセッサ３〜３ｘのうち１つが当該仲裁に勝った
ことを指示するとともに、このプロセッサからのアドレ
ス／要求信号を線３０５に出力させる。詳述すると、プ
ロセッサ３〜３Ｘからの実際のアドレス／要求信号は、
線３１３〜３１３ｘ上に入力される。状態マシン３０１
からの選択信号がアクティブになると、これに対応する
アドレス／要求信号が選択され、マルチプレクサ３０３
を通して線３０５上に出力されることになる。かくて、
アクティブな選択信号は、マルチプレクサ３０３に対
し、アドレス／要求信号のうち特定の１つを通過させる
ように指示することによって、これに対応するプロセッ
サが所望のインタリーブ・セクションをアクセスできる
ようにする。次に、線３１３〜３１３ｘのうち１つから
のアドレス／要求信号が、線３０５を介して所望のイン
タリーブ・セクションに出力される。前述の例では、線
３１１がアクティブな選択信号を保持していたから、プ
ロセッサ３（Ｐ０）に対応する線３１３上のアドレス／
要求信号がマルチプレクサ３０３によって選択され、線
３０５を介してＬ２キャッシュ１００内の所望のインタ
リーブに通過される。かくて、マルチプレクサ３０３か
らの選択されたアドレス／要求信号は、目標のインタリ
ーブ・セクションに対し、所望のアクセスを開始させ
る。他方、この仲裁に敗れたプロセッサに対応するアド
レス／要求信号（この例の場合は、線３１３ｘ上のアド
レス／要求信号）は、ＭＣＵ１０内に設けられ且つ当該
プロセッサの要求用に指定された一の待ち行列バッファ
内にストアされる。このようにすると、後の時点で、Ｍ
ＣＵ１０のアドレス／要求ポート（制御線１５）を介し
て当該プロセッサ要求を与えることにより、所望のイン
タリーブ・セクションへのアクセスを再試行することが
できるからである。仲裁論理３００は、ＭＣＵ１０から
の待ち行列化された要求が、次の選択ラウンドにおける
仲裁に勝つことを保証する。

【００４１】図５には、２つのＬ２キャッシュの両方と
もバースト・モード論理を利用しておらず、一方のＬ２
キャッシュがパイプライン化され、他方のＬ２キャッシ
ュがパイプライン化されていない場合において、これら
のＬ２キャッシュの間に顕著なタイミング差が存在する
ことが示されている。パイプライン化とは、Ｌ２キャッ
シュ１００の種々の段階において、データをバッファな
どにラッチする能力を意味する。パイプライン化を利用
すると、全体のプロセスが完了するのを待機することな
く、Ｌ２キャッシュ内にデータを入力することができ
る。即ち、Ｌ２キャッシュに入力されたデータは、その
内部にある種々の論理的な構成要素間で移動する際に、
ラッチ（保存）されるようになっており、従って既存の
データがＬ２キャッシュを通して移動するのと並行し
て、追加のデータを入力することができるのである。パ
イプライン化は、複数の論理ステップの実行をオーバラ
ップさせることによってスループットを改善するための
実現上の技術である。

【００４２】図５において、論理的なパイプラインは、
次の４つの段階から成っている。（１）アドレス／要求信号の到着及び仲裁（２）インタリーブ・セクション（キャッシュ・アレ
イ）のアクセス（３）出力論理（バースト・モード論理）（４）要求元プロセッサへのデータ転送タイミング図（Ａ）は、バースト・モード論理もパイプ
ライン化も利用していないが、インタリービングを利用
したＬ２キャッシュに関するものである。図５の内容を
簡潔にするため、各段階は、１マシン・サイクルを要す
るものと仮定する。タイミング図（Ａ）を参照すると、
パイプライン化アクセスを利用していないＬ２キャッシ
ュでは、第１のデータ要求が完全に終了するまで、第２
のデータ要求を開始することができないから、２つのデ
ータ転送要求をサービスするのに２倍のサイクル数、タ
イミング図（Ａ）の例では、８サイクルを要することが
分かる。他方、タイミング図（Ｂ）は、バースト・モー
ド論理を利用していないが、パイプライン化及びインタ
リービングを利用したＬ２キャッシュに関するものであ
って、２つのデータ転送要求をオーバラップさせること
によって、これらの転送要求を５マシン・サイクルの間
に完了できることを示している。詳述すると、タイミン
グ図（Ａ）において、サイクル１には、プロセッサから
キャッシュへアドレス／要求信号が送信され、サイクル
２には、インタリーブ・セクションがアクセスされ、サ
イクル３には、データが出力され、そしてサイクル４に
は、データがプロセッサに与えられる。サイクル５〜８
は、前述と同じプロセッサ又は多重プロセッサ・システ
ム内の他のプロセッサについての同じステップを示して
いる。このように、各々がＬビット幅の２つのデータ・
ワードをプロセッサに与えるために、８マシン・サイク
ルが必要となる。

【００４３】タイミング図（Ｂ）は、パイプライン化及
びインタリービングを利用したＬ２キャッシュについて
は、システムの性能が顕著に改善されることを示してい
る。パイプライン化の利点は、図５の２つのタイミング
図（Ａ）及び（Ｂ）を比較すると、明らかである。即
ち、タイミング図（Ａ）では、他のプロセッサが他のデ
ータ要求／アドレス動作を開始する前に、現データ要求
の全てのプロセスを完了しなければならない。これに対
し、タイミング図（Ｂ）では、パイプライン化を反映し
て、データが各段階の間で保存（ラッチ）されるように
なっているので、２つのアドレス／要求動作を並行し
て、即ちオーバラップされた態様で実行することができ
る。詳述すると、タイミング図（Ｂ）において、サイク
ル１には、第１のプロセッサが一のアドレスを要求し、
サイクル２には、インタリーブ・セクションをアクセス
する。これと同じサイクル２には、第２のプロセッサ
が、Ｌ２キャッシュ内の特定のインタリーブ・セクショ
ンに対する一のアドレスを要求する。サイクル３には、
第１のプロセッサにより要求されたデータがバースト・
モード論理内に置かれ、そして第２のプロセッサが特定
のインタリーブ・セクションをアクセスする。サイクル
４には、第１のプロセッサが要求済みのデータを受信
し、第２のプロセッサ用のデータがバースト・モード論
理内に置かれる。最後のサイクル５には、要求されたデ
ータが第２のプロセッサに与えられる。このように、パ
イプライン化を利用すると、オーバラップ動作が可能に
なるから、システムの性能を顕著に向上させることがで
きる。

【００４４】図６には、バースト・モード論理を利用し
た場合の効果に焦点を合わせた、タイミング図（Ｃ）及
び（Ｄ）が示されている。タイミング図（Ｃ）には、バ
ースト・モード論理を利用しているが、パイプライン化
を利用していないＬ２キャッシュの動作が示されてお
り、この場合には、Ｌ２キャッシュが一のデータ転送要
求にサービスを与えるのに、５サイクルを要することが
分かる。しかし、この要求は、図５に示されている４０
ビット・ワード（Ｌビット幅）とは異なり、その２倍の
８０ビット・ワード（２Ｌビット幅）を対象とするもの
である。かくて、タイミング図（Ａ）及び（Ｃ）を比較
すると、バースト・モード論理を利用しない場合には、
２Ｌビット幅のデータをアクセスするのに８マシン・サ
イクルを要するのに対し、バースト・モード論理を利用
する場合には、同じ量のデータ（２Ｌビット幅）をアク
セスするのに５サイクルしか要しないことが分かる。図
６のタイミング図（Ｄ）には、パイプライン化及びバー
スト・モード論理を両者ともに利用した場合の効果が示
されている。タイミング図（Ｃ）に示されているよう
に、パイプライン化を利用しないで、バースト・モード
論理だけを利用した場合には、４Ｌビット幅のデータ・
ワード（１６０ビット）に対する２つのデータ転送要求
にサービスを与えるのに、１０マシン・サイクルを要す
る。しかし、Ｌ２キャッシュにおいて、パイプライン化
及びバースト・モード論理の両者を利用すると、２つの
４Ｌビット幅のデータ・ワードを転送するのに７マシン
・サイクルを要するに過ぎない。タイミング図（Ｄ）の
斜線部分は、データ・バスが、一の時点でＬビット幅の
データしか転送できないことを示している。

【００４５】前述の事項を一層詳細に説明すると、タイ
ミング図（Ｃ）では、バースト・モード論理が利用され
ているが、パイプライン化は利用されていない。サイク
ル１には、一のプロセッサがＬ２キャッシュに対して一
のアドレス／要求信号を送信する。サイクル２には、イ
ンタリーブ・セクションがアクセスされ、そしてサイク
ル３には、２Ｌビット幅のデータがバースト・モード論
理内に置かれる。サイクル４及び５には、このデータが
前記プロセッサに与えられる。この場合において、与え
られたデータ・ワードの各々は、Ｌ２キャッシュ内にス
トアされている２Ｌビット幅のデータ・ワードと等価の
データを与えるために、それぞれＬビット幅を有してい
る。サイクル６〜１０は、同じプロセッサ又は多重プロ
セッサ内の他のプロセッサに対し２Ｌビット幅のデータ
を与えるために、前述のものと同じステップを用いる。
他方、タイミング図（Ｄ）は、Ｌ２キャッシュ内のデー
タをアクセスするのに必要なサイクル数を更に減少させ
るために、パイプライン化とバースト・モード論理の組
み合わせを利用している。サイクル１には、一のプロセ
ッサが一のアドレス／要求信号を特定のインタリーブ・
セクションに送信する。サイクル２には、このインタリ
ーブ・セクションがアクセスされ、そして同じプロセッ
サ又は他のプロセッサからＬ２キャッシュに対し他のア
ドレス／要求信号が送信される。サイクル３には、第１
の要求データがバースト・モード論理内に置かれ、第２
の要求データがアクセスされる。サイクル４には、（第
１の要求データのうち）Ｌビット幅の第１のデータ・ワ
ードが第１の要求プロセッサに与えられ、それと同時
に、第２の要求データがバースト・モード論理内に置か
れる。サイクル５には、（第１の要求データのうち）Ｌ
ビット幅の第２のデータ・ワードが第１の要求プロセッ
サに与えられる。サイクル６には、（第２の要求データ
のうち）Ｌビット幅の第１のデータ・ワードが要求プロ
セッサに与えられ、サイクル７には、Ｌビット幅の第２
のデータ・ワードが要求プロセッサに与えられる。この
ように、タイミング図（Ｄ）を参照すると、一のプロセ
ッサからＬ２キャッシュに一のアドレス／要求信号が送
信されてから、Ｌ２キャッシュからのデータが与えられ
るまでに、４サイクルを要するに過ぎないことが分か
る。

【００４６】要約すると、図５のタイミング図（Ａ）で
は、合計４Ｌビット幅のデータ・ワードに対するデータ
要求を完了するのに、１６サイクルを必要とする。しか
し、パイプライン化及びバースト・モード論理を両者と
もに利用すると、図６のタイミング図（Ｄ）に示されて
いるように、同じビット数のデータ（４Ｌビット）を７
マシン・サイクルでアクセスすることができる。

【００４７】かくて、４個のプロセッサを備えた多重プ
ロセッサ・システムにおいて、本発明のパイプライン化
及びバースト・モード処理技術を利用すると、サイクル
４から始まる各マシン・サイクルごとに一のプロセッサ
要求にサービスを与えることができる。図６では、４Ｌ
ビット幅のデータが各プロセッサに与えられるのに対
し、図５では、２Ｌビット幅のデータが各プロセッサに
与えられることに留意されたい。図６から明らかなよう
に、パイプライン化とバースト・モード論理を利用する
と、各プロセッサは、２倍の量のデータを少ないサイク
ル数でキャッシュからアクセスすることができる。

【００４８】

【発明の効果】以上のように、本発明によれば、多重プ
ロセッサ・システム内の各プロセッサによるアクセス動
作に最大の並列性を与え、各マシン・サイクルごとに１
つのプロセッサ要求を処理し、システムの応答時間を減
少し、システムのスループットを増加するような高性能
のＬ２キャッシュを提供することができる。

【図面の簡単な説明】

【図１】本発明のＬ２キャッシュ及びメモリ制御装置を
含む多重プロセッサ・システムを示すブロック図であ
る。

【図２】複数のデータ・ポート及びインタリーブ・セク
ションのような主要な構成要素から成る本発明のＬ２キ
ャッシュの構成を示すブロック図である。

【図３】Ｌ２キャッシュの諸構成要素と、Ｌ２キャッシ
ュのデータ流とを示すブロック図である。

【図４】複数の要求が同一のインタリーブ・セクション
に同時に向けられている場合において、一の要求を選択
し且つその目標とするインタリーブ・セクションのアク
セスを開始させるための仲裁論理を示すブロック図であ
る。

【図５】パイプライン化を利用していないキャッシュ
と、パイプライン化を利用しているキャッシュとの間
の、タイミングの著しい相異を示すための論理的なタイ
ミング図である。

【図６】バースト・モード論理を利用しているがパイプ
ライン化を利用していないキャッシュと、バースト・モ
ード論理及びパイプライン化との両方を利用しているキ
ャッシュとの間の、タイミングの相異を示す論理的なタ
イミング図である。

【図７】多重プロセッサ・システム内の各プロセッサが
本発明のＬ２キャッシュ内の個々のインタリーブ・セク
ションをアクセスする態様を示す高レベルのブロック図
である。

【符号の説明】

３〜３Ｘプロセッサ１０メモリ制御装置（ＭＣＵ）１００ｎウェイのインタリーブされた共有
（Ｌ２）キャッシュ１０１〜１０４インタリーブ・セクション１１０入力論理１２７待ち行列バッファ１２８ストア・スイッチ１２９〜１２９ｎデータ選択スイッチ１５０出力論理２００〜２００ｎバースト・モード論理２０１〜２０１ｎデータ選択スイッチ２０３〜２０３ｎ保持ラッチ２０５ロード・スイッチ２０７〜２０７ｎ境界選択レジスタ３００仲裁論理３０１状態マシン３０３マルチプレクサ

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケル・トーマス・ダィブリノアメリカ合衆国テキサス州、オースチン、ウィスパリング・バレー・ドライブ 4901 (72)発明者ドワイン・アラン・ヒックスアメリカ合衆国テキサス州、セダー・パーク、デイフラワー・トレイス 1810 (72)発明者ジョージ・マックネイル・ラティモアアメリカ合衆国テキサス州、オースチン、ウェスターカーク・ドライブ 9108 (72)発明者キミング・ケー・ソーアメリカ合衆国テキサス州、オースチン、ロックレブン・ループ 9021 (72)発明者ハナア・ユーセフアメリカ合衆国テキサス州、オースチン、グレート・ヒルズ・トレイル、ナンバー・フォーハンドレッドトゥエンティーセブン 90009 (56)参考文献特開昭54−66727（ＪＰ，Ａ) 特開平２−178754（ＪＰ，Ａ) 特開昭63−214849（ＪＰ，Ａ) 特開平２−207351（ＪＰ，Ａ) 特開昭58−109952（ＪＰ，Ａ) 特開平１−315849（ＪＰ，Ａ) 国際公開92／22031（ＷＯ，Ａ１)

Claims

(57)【特許請求の範囲】

【請求項１】複数のプロセッサと、前記複数のプロセッ
サによって用いられるデータをストアするためのパイプ
ライン制御されたキャッシュと、前記複数のプロセッサ
と前記キャッシュとの間でデータを転送するための１デ
ータ・ワードに等しい幅を有するシステム・バスとを備
えた多重プロセッサ・システムであって、前記キャッシュは、前記複数のプロセッサが前記キャッ
シュを同時にアクセスできるように、各々が入力ポート
及び出力ポートをそれぞれ有し且つ複数のデータ・ワー
ドに等しいデータ幅をそれぞれ有する複数のインタリー
ブ・セクションから構成されており、更に、前記複数のプロセッサから前記システム・バスを
介して前記キャッシュへ転送される入力データを各プロ
セッサ別にデータ・ワード単位で順次にストアするため
の保持手段、前記各インタリーブ・セクションのデータ
幅に等しくなるように前記順次にストアされた複数の隣
接データ・ワードを組み合わせるための手段、及び前記
組み合わされたデータ・ワードを前記複数のインタリー
ブ・セクションのうち目標とする一のインタリーブ・セ
クションに供給するための手段を含んでいる入力論理手
段と、前記キャッシュから読み取られた前記組み合わされたデ
ータ・ワードを個々のデータ・ワードに分離するための
分離手段、及び前記分離されたデータ・ワードの各々を
前記システム・バスを介して要求元のプロセッサに順次
に送出するための送出手段を含んでいる出力論理手段
と、前記複数のプロセッサのうち２個以上のプロセッサの要
求が前記複数のインタリーブ・セクションのうち１つの
インタリーブ・セクションに対して同時にアクセスを要
求する場合、当該１つのインタリーブ・セクションを最
も長い間アクセスしていなかったプロセッサの要求に対
し、前記１つのインタリーブ・セクションをアクセスす
るための優先順位を与えるための仲裁手段とを備え、前記仲裁手段は、現選択ラウンドにおける仲裁に敗れた
プロセッサの要求を次の選択ラウンドに参加させるため
に一旦待ち行列バッファ内にストアし、次の選択ラウン
ドにおいて他のプロセッサから直接的に受け取られる要
求に与えられる優先順位を上まわる優先順位を前記待ち
行列バッファからの前記仲裁に敗れたプロセッサの要求
に与えて次の選択ラウンドの仲裁を行うように構成され
ていることを特徴とする、多重プロセッサ・システム。