JPH0926877A

JPH0926877A - 読取りおよび／または書込みポートのバンドワイドが狭いレジスタ・ファイルを有するコンピュータ・プロセッサ

Info

Publication number: JPH0926877A
Application number: JP8099598A
Authority: JP
Inventors: Young Robert; ロバート・ヤング; Neil Wilhelm; ニール・ウィルヘルム
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1995-03-31
Filing date: 1996-03-29
Publication date: 1997-01-28
Also published as: US5761475A; EP0735463A3; KR960035259A; EP0735463A2

Abstract

(57)【要約】【課題】必要なメモリを小さくしたプロセッサを得
る。【解決手段】プロセッサはレジスタのレジスタファイ
ルと、（ｚ）本のパイプラインを有している実行ユニッ
トにサイクルごとにプログラムの命令を（ｉ）個まで発
行できるディスパッチ・ユニットとを含んでいる。命令
の中にはレジスタ・ファイルのレジスタのうちのいくつ
かをソース・オペランドとして指定し、レジスタ・ファ
イルのレジスタの一部を宛先レジスタとして示すものを
含むプロセッサに関する。プロセッサはレジスタ・ファ
イルのレジスタを格納する、サイクルごとに最大（Ｎ）
個のレジスタ値（ただし、Ｎはサイクル中にアクセスす
る必要があるレジスタ値の最大値未満である）を受け入
れるように構成された（Ｎ）個のアクセス・ポートを有
しているメモリを含んでいる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はコンピュータに関
し、詳細にいえば、１サイクル中にレジスタ・ファイル
からアクセスされるのに必要な読取りおよび／または書
込みポートの最大数よりも少ない数の読取りおよび／ま
たは書込みポートを備えたレジスタ・ファイルを有する
プロセッサに関する。

【０００２】

【従来の技術】初期のプロセッサは単一段の実行ユニッ
トを含んでいた。命令はプログラムの順序で、一度に１
つずつ実行ユニットに送られる。実行のために命令が必
要とする任意のレジスタ値が、命令が実行ユニットに入
る直前に、レジスタ・ファイルによって供給される。実
行後、命令の結果がレジスタ・ファイルに再度格納さ
れ、プログラムの次の命令に対して上記のステップが繰
り返される。最新のプロセッサはパイプライン化されて
おり、またスーパースカラである。パイプライン・プロ
セッサにおいては、多数の段が互いに結合されて、パイ
プラインを形成している。パイプラインの各段は特定の
操作を行う。命令が順次パイプラインの第１段に入り、
各クロック・サイクル（以下「サイクル」と呼ぶ）で、
命令がある段から次の段に渡される。命令がパイプライ
ンを通って行くにつれて、各段の特定の操作が命令に対
して行われる。パイプラインの最後の段において、命令
の実行が完了する。パイプライン・プロセッサが複数の
命令を同時に行えるため、プロセッサのスループットが
改善される。スーパースカラ・プロセッサは複数のパイ
プラインを含んでおり、これによってプロセッサのスル
ープットがさらに改善される。プロセッサのスカラ度と
はプロセッサのパイプラインの数をいう。

【０００３】図１を参照すると、従来の技術によるパイ
プライン・プロセッサが示されている。プロセッサ１０
は他の要素に加えて、命令（Ｉ）キャッシュ１２、命令
プリフェッチ・ユニット１４、命令バッファ１６、ディ
スパッチ・ユニット１８、実行ユニット２０、レジスタ
・スコアボード・ユニット２２、およびメモり階層２４
を含んでいる。実行ユニットは１つまたは複数のパイプ
ライン２６ａないし２６ｚを含んでいる。メモリ階層２
４は上から下へ向かって、レジスタ・ファイル（ＲＦ）
２８、データ・キャッシュ３０、命令キャッシュ１２、
メイン・メモリ３２、ディスク記憶装置３４、および典
型的な外部メモリ（図示せず）を含んでいる。メイン・
メモリ３２およびディスク記憶装置３４は通常、データ
とプログラムの命令の両方を格納している。

【０００４】レジスタ・ファイル２８の特性はプロセッ
サ１０に対して開発された命令セットによって決定され
る。換言すると、命令セットがプログラマ利用可能なレ
ジスタ・ファイル２８内のレジスタのタイプおよびサイ
ズを規定する。たとえば、ＳｕｎＭｉｃｒｏｓｙｓｔ
ｅｍｓ，Ｉｎｃ．（カリフォルニア州Ｍｏｕｎｔａｉ
ｎＶｉｅｗ）とＳＰＡＲＣＩｎｔｅｒｎａｔｉｏｎ
ａｌ（カリフォルニア州ＭｅｎｌｏＰａｒｋ）が共同
で開発したＳＰＡＲＣ命令セットＶ９は最大５２０個の
レジスタを有する整数レジスタ・ファイルと、３２個ま
でのレジスタを有している個別の浮動小数点レジスタ・
ファイルを規定しており、各レジスタは６４ビット幅で
ある。（単純化するため、図１が「包括的な」レジスタ
・ファイル２８を示しており、個々の整数および浮動小
数点レジスタ・ファイルを示していないことに留意され
たい。）

【０００５】すべての命令セットで、命令の中にはレジ
スタをソース・レジスタあるいは宛先レジスタのいずれ
かとして指定するものがある。ソース・レジスタは実行
対象の命令が必要とするソース値を含んでいる。宛先レ
ジスタは命令が実行された後の結果値を格納するために
使用される。命令セットの他の命令はソース・レジスタ
も宛先レジスタも指定しないことがある。表１はソース
・レジスタを指定する命令、宛先レジスタを指定する命
令、およびレジスタを指定しない命令のいくつかの例を
示す。

【０００６】

【表１】

【０００７】プロセッサ１０はサイクル当たり最大
（ｉ）個までの命令を発行するように設計されている。
作動中に、プロセッサ１０によって実行されるプログラ
ムの命令は命令キャッシュ１２にロードされる。プリフ
ェッチ１４は命令キャッシュ１２から命令を取り出し、
これらをプログラムの順序で命令バッファ１６に置く。
ディスパッチ・ユニット１８は各サイクルで命令バッフ
ァ１６内の次の（ｉ）個の命令を発行しようと試みる。
しかしながら、サイクルごとにディスパッチされる命令
の実際の数は２つの要因、すなわち（１）リソースの依
存度および（２）レジスタ依存度によって決定される。
（ｚ）個の命令の間のリソース依存度およびレジスタ依
存度を次いでチェックして、以下の手順で同時に解決す
る。

【０００８】１．リソース依存度を解決する際に、ディ
スパッチ・ユニット１８は実行ユニット２０のパイプラ
イン２６ａないし２６ｚで利用可能なリソースを、命令
バッファ１６内の次の９ｉ０の命令のうちの命令と比較
する。たとえば、次の（ｉ）個の命令が３個の整数命令
を含んでおり、実行ユニット２０で利用可能な整数パイ
プライン２６が２つだけである場合、整数命令のうちの
１つは現行サイクルでディスパッチすることができな
い。実際には、ディスパッチ・ユニット１８がディスパ
ッチが考えられる次の（ｉ）個の命令に「リソース・ラ
イン」を引き、リソース・ラインよりも下の命令だけを
ディスパッチの対象とする。リソース・ラインよりも上
の命令は以降のサイクルでのディスパッチの対象とな
る。

【０００９】２．レジスタ依存度を解決する際に、ディ
スパッチ・ユニット１８はディスパッチ対象の次の
（ｉ）個の命令のうちリソース・ラインよりも下の命令
が必要とするソース・レジスタをアサートする。次い
で、必要なレジスタをレジスタ・スコアボード２２にあ
るものと比較する。レジスタ・スコアボードはパイプラ
イン２６ａないし２６ｚで再計算されるすべてのレジス
タ値の現行レコードを維持している。パイプライン２６
の１つにある古い命令によって現在再計算されているレ
ジスタ値を命令が必要とする場合、命令は依存している
といわれる。依存命令がレジスタ値を必要とする前に、
レジスタ値が実行ユニット２０で利用可能となった場
合、命令は遅延なしにディスパッチされる。これに対
し、依存命令のディスパッチの用意ができたときに、必
要なレジスタ値がまだ利用できない場合、ディスパッチ
・ユニット１８はその命令のディスパッチを遅延ないし
「ストール」させる。競合しているレジスタ値が利用可
能となったとき、ストールしていた命令がディスパッチ
され、レジスタ値はレジスタ値を再計算したばかりのパ
イプライン２６から、レジスタ値を必要とするパイプラ
インへバイパスされる。

【００１０】リソース・ラインよりも下の命令にレジス
タ競合がない場合、すなわち、必要なレジスタ値が再計
算されていない場合、レジスタ値はレジスタ・ファイル
２８から直接得られる。ディスパッチ・ユニット１８は
リソース依存度およびレジスタ依存度を解決するにあた
り、所与のサイクルでプロセッサ１０が実行できる命令
よりも少ない命令を発行する。それにもかかわらず、プ
ログラムの命令の適切な実行を維持するのにこの操作が
必要である。さらに、プロセッサの中には命令を順不同
で発行することによってストールを回避できるものもあ
る。命令が実行された後、再計算されたレジスタ値はレ
ジスタ・ファイル２８に格納される。実行された命令の
宛先レジスタに収められている実行された命令の結果
は、パイプライン２６ａないし２６ｚから抜ける。結果
がレジスタ・ファイル２８に格納されるので、実行ユニ
ット２０で再計算されていない最新のレジスタ値がより
新しい命令に利用可能である。

【００１１】ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓのＵｌ
ｔｒａＳＰＡＲＣ^TM、ＭｏｔｏｌｏｒａおよびＩＢＭの
ＰｏｗｅｒＰＣ、ＤｉｇｉｔａｌＥｑｕｉｐｍｅｎｔ
ＣｏｒｐｏｒａｔｉｏｎのＡｌｐｈａ^TMなどの最新の
マイクロプロセッサはさまざまな点で類似している。こ
れらのプロセッサの各々はサイクルごとに４（ｉ＝４）
個までの命令を発行することができ、それぞれのレジス
タ・ファイル２８を実現するためにオンチップ・スタテ
ィック・ランダム・アクセス・メモリ（ＳＲＡＭ）アレ
イを使用している。しかしながら、サイクルごとに４個
の命令（ｉ＝４）をディスパッチするのに必要なアクセ
ス・ポートの最大数は、プロセッサごとに異なってい
る。読取りおよび書込みポートの最大バンドワイドがど
のようなものであるかを決定する要因としては、（１）
プロセッサの実行ユニット２０内のパイプライン２６の
数およびタイプ、（２）命令セットの命令のタイプなら
びにソース・レジスタおよび宛先レジスタの要件などが
ある。

【００１２】本出願人が知る限り、ＵｌｔｒａＳＰＡＲ
Ｃ、ＰｏｗｅｒＰＣ、Ａｌｐｈａおよびその他の従来技
術のプロセッサはすべて、整数および浮動小数点レジス
タ・ファイル２８の双方とも、「最悪」のサイクルの際
に必要とされるであろうレジスタ読取りおよび書込みポ
ートの最大数と等しい数の読取りおよび書込みポートを
備えている。本明細書でいう最悪サイクルとは、ソース
・レジスタ値および／または宛先レジスタ値の可能な最
大数を必要とするサイクルである。

【００１３】最悪サイクルを説明するために、Ｕｌｔｒ
ａＳＰＡＲＣおよびＶ９命令セットを示す。Ｕｌｔｒａ
ＳＰＡＲＣプロセッサは９本のパイプラインを含んでい
る。９本のパイプラインは２つの整数ユニット、１つの
ロード／ストア・ユニット、２つのグラフィックス・ユ
ニット、１つのブランチ・ユニット、１つの加算浮動小
数点ユニット（ＦＰＵ）、１つの乗算ＦＰＵ、１つの除
算ＦＰＵ、および１つの平方根ＦＰＵを含んでいる。Ｖ
９命令セットは２つまでのソース・レジスタ・オペラン
ドおよび１つの宛先オペランドを必要とする整数命令を
定義している。ロード／ストア命令は１つ、２つまたは
３つのいずれかのソース・オペランドを指定できる。浮
動小数点命令は２つまでのソース・オペランドと１つの
宛先レジスタを指定できる。

【００１４】この例において、４個の命令（ｉ＝４）が
ディスパッチ対象であるサイクルを考える。４個の命令
は各々が２つのソース・オペランドを必要とする３つの
整数演算、および３つのソース・オペランドを必要とす
る１つのロード／ストア演算を含んでいる。Ｕｌｔｒａ
ＳＰＡＲＣプロセッサが有している整数ユニットが２つ
だけであるから、２つのもっとも古い整数命令とロード
／ストア命令をこのサイクルでディスパッチできるだけ
である。第３の整数命令をディスパッチするのにリソー
スを利用できないのであるから、その命令は後のサイク
ルまでストールさせられる。これらの条件のもとでは、
ＵｌｔｒａＳＰＡＲＣの整数レジスタ・ファイル２８に
は、合計７つのレジスタ読取りポートと３つのレジスタ
書込みポートが必要である。ディスパッチされた命令の
他に考えられる組合せで、レジスタ・ファイル２８にお
いてもっと大きい読取りポート・バンドワイドを必要と
するものがないので、命令の上記のセットは最悪の例を
表すものである。本明細書で例を挙げないが、Ｕｌｔｒ
ａＳＰＡＲＣの浮動小数点レジスタ・ファイル２８は５
つの読取りポートと３つの書込みポートを必要とする。
ＰｏｗｅｒＰＣ、Ａｌｐｈａチップおよび他の周知のプ
ロセッサの読取りおよび書込みポートの数は、最悪のサ
イクルに対するバンドワイド要件をまず決定し、最悪の
サイクルでレジスタ・ファイル２８にアクセスするため
に十分なバンドワイドを与えることによって、同様な態
様で決定される。

【００１５】図２を参照すると、レジスタ・ファイル２
８のレジスタ値を格納するのに通常使用されるＳＲＡＭ
メモリ・アレイのブロック図が示されている。メモリ・
アレイ４０は（ｍ）本の行を含んでいる。各行Ｒ₀ない
しＲ_m-1はレジスタ・ファイル２８のレジスタに対応し
ている。各行Ｒは（ｎ）個のメモリ・セル４２₀ ないし
４２_n-1 を含んでいる。（ｎ）はプロセッサ１０が使用
するワード・サイズの幅に等しい。上述のプロセッサに
おいて、ワード・サイズはプロセッサにより（ｎ＝３
２）ビットまたは（ｎ＝６４）ビットのいずれかであ
る。メモリ・アレイ４０は行デコーダ４４も含んでい
る。複数本（ｘ）のワード・ラインが行デコーダ４４と
各行Ｒ₀ないしＲ_m-1との間にそれぞれ結合されている。
メモリ・アレイ４０は通常、メモリセル４２の各列に関
連づけられ、メモリ・アレイ４０の高さだけ延びている
複数本（ｙ）のディファレンシャル・ビット・ライン４
８を含んでいる。（複数本（ｘ）のワード・ライン４６
と複数本（ｙ）のディファレンシャル・ビット・ライン
とは、明確にするためにそれぞれ単独のラインとして示
されていることに留意されたい。）たとえば、上述のＵ
ｌｔｒａＳＰＡＲＣの整数レジスタ・ファイルにおいて
は、アレイの各行Ｒ₀ないしＲ_m-1に対して、７本の読取
りワード・ラインと３本の書込みワード・ライン、すな
わち合計１０本（Ｘ＝１０）のワード・ライン４６が必
要である。さらに、７本のディファレンシャル読取りビ
ット・ラインと３本のディファレンシャル書込みビット
・ライン、すなわち合計２０本（ｙ＝２０）のビット・
ラインが各メモリ・セル４２に必要である。

【００１６】

【発明が解決しようとする課題】上述したＳＲＡＭメモ
リ・アレイはさまざまな問題を引き起こす。アレイ内の
各セル４２の場合、ワード・ライン／ディファレンシャ
ル・ビット・ライン対の各組合せに対して、２つのパス
・トランジスタが必要である。結果として、各メモリ・
セルに関連したワード・ライン、ビット・ライン、およ
びパス・トランジスタの数のため、各メモリ・セルのサ
イズないしピッチは比較的大きくなる。個々のセルのピ
ッチが大きいことは、メモリ・アレイの全体的なサイズ
が大きくなり、プロセッサ・ダイの面積で大きな割合を
占めることを意味する。このことはプロセッサの製造歩
留まりに悪影響を及ぼし、製造コストを引き上げる。メ
モリ・アレイの比較的大きなサイズはいくつかの理由
で、レジスタ・ファイル２８のレジスタ値にアクセスす
るのに必要な平均時間に悪影響を及ぼす。アレイの全体
的なサイズが大きいことによる長いワード・ラインおよ
びビット・ラインは、平均アクセス時間を長くする。各
セルに関連したパス・トランジスタ、ワード・ライン、
およびビット・ラインの数は各セルでの容量性負荷を大
きくする傾向がある。各セルにおける容量性負荷の増加
は各セルに格納されている有限の電荷が、適切なディフ
ァレンシャル・ビット・ライン対を駆動することをさら
に困難とする。上記の問題はすべてプロセッサ１０のス
カラ度を高くすると悪化する。たとえば、５個の命令を
発行するプロセッサ（ｉ＝５）の場合、さらに付加的な
読取りワード・ライン、書込みワード・ライン、および
ディファレンシャル書込みビット・ライン対が必要とな
り、上記の問題を増加させる。

【００１７】いくつかの設計の傾向がプロセッサ業界で
よく見られる。すなわち、高いスカラ度、サイクル時間
の短縮、大きいレジスタ・ファイル、および広いワード
幅である。複雑な読み書き回路、比較的大きいサイズ、
および比較的アクセス速度の遅いＳＲＡＭメモリ・アレ
イ４０でのレジスタ・ファイル２８の実施形態は、これ
らの属性の各々におけるパフォーマンスの改善にかなり
の障害となる。事実、本出願人は上述のようなＳＲＡＭ
メモリ・アレイ４０が、次世代のプロセッサにおいて、
スカラ度の進歩、ワード・サイズの増加、レジスタ・フ
ァイルのサイズの増加、および／またはサイクル時間の
短縮を妨げたり、さらには阻止したりする設計障害とな
ると考えている。したがって、レジスタ値にアクセスす
る改善された装置および方法が必要である。

【００１８】

【課題を解決するための手段】本発明はレジスタのレジ
スタ・ファイルと、サイクルごとのプログラムの（ｉ）
個の命令を（ｚ）本のパイプラインを有する実行ユニッ
トに発行することのできるディスパッチ・ユニットとを
有するプロセッサにかかわり、そのプロセッサは、命令
のあるものがレジスタ・ファイルのレジスタのいくつか
をソース・オペランドとして指定し、かつレジスタ・フ
ァイルのレジスタのいくつかを宛先レジスタとして指定
する。プロセッサは、レジスタファイルのレジスタを格
納するとともに、サイクルごとに（Ｎ）個までのレジス
タにアクセスするように構成された（Ｎ）個のアクセス
・ポート（ただし、（Ｎ）はサイクル中にアクセスする
必要のあるレジスタ値の最大数未満である）を有してい
るメモリも含んでいる。最悪のサイクルとは、ソース・
レジスタ値および／または宛先レジスタ値の最大数が必
要とされるサイクルと定義される。

【００１９】デコード／ディスパッチ・ユニットは、命
令バッファ内に待ち行列化されたプログラムの命令を実
行ユニットの（ｚ）本のパイプラインにディスパッチす
るように構成されている。このデコード／ディスパッチ
・ユニットは、あるサイクルにおけるディスパッチ対象
の命令のグループが必要とするレジスタ値の数がレジス
タ・ファイルを含んでいるメモリの読取りポートのバン
ドワイド（Ｎ）よりも大きくなるという問題（すなわ
ち、ボトルネック状態）を軽減するのを助ける２つの機
能を果たす。第１の処置で、デコード／ディスパッチ・
ユニットは、プログラムの順序での命令の発行を並べ換
え、ボトルネック状態を回避する。第２の処置で、デコ
ード／ディスパッチ・ユニットは、ボトルネック状態が
特定されている以降のサイクルで必要とされるレジスタ
値をプリフェッチし、格納する。ボトルネック状態を引
き起こすサイクルで命令が発行された場合、プリフェッ
チされ、格納されているレジスタ値が実行ユニットに与
えられる。レジスタ値をプリフェッチすることによっ
て、ボトルネック状態を回避できることがある。いずれ
の処置もボトルネック状態の解消に効果がない場合、ボ
トルネックのあるサイクル内の1つまたは複数の命令が
ストールされる。

【００２０】レジスタ・ファイルにアクセスするために
使用される読取りポートの数（Ｎ）は設計上の選択の問
題である。レジスタ・ファイルを含んでいるメモリに対
する読取りポートの数を減らすことによって、従来の技
術で論じられている書込み問題の多くが軽減される。例
えば、レジスタ・ファイルへの読取りポートの数が少な
い場合、各セルと関連するワード・ライン、ビット・ラ
インおよびパス・トランジスタが少ないため、メモリ・
アレイ内の各セルのピッチを小さくすることができる。
さらに、デコーダやドライバなどの必要な周辺回路の量
が少なくなる。これらの要因のすべてによって、メモリ
・アレイ全体のサイズを小さくできるようになり、これ
はメモリの平均アクセス時間を短縮することを助け、ま
た製造歩留まりを上げるのを助ける。従来技術のレジス
タ・ファイルの問題の多くは、したがって、レジスタ・
ファイルへの読取りポートの数を減らすことによってか
なり解消することができる。

【００２１】本発明のシステムの目的、特徴および利点
は以下の説明から明らかとなろう。

【００２２】

【発明の実施の形態】図３を参照すると、本発明による
プロセッサのブロック図が示されている。プロセッサ５
０は命令（Ｉ）キャッシュ１２、プリフェッチ・ユニッ
ト１４、命令バッファ１６、デコード／ディスパッチ・
ユニット１８、（ｚ）本のパイプライン２６ａないし２
６ｚを含んでいる実行ユニット２０、レジスタ・スコア
ボード・ユニット２２、およびメモり階層（図示せず）
の上に配置されたレジスタ・ファイル２８を含んでい
る。図１に挙げたものと同一または類似した機能を果た
す同様な要素は、図３において同じ参照符号で示されて
おり、したがって、本明細書で詳細には説明しない。プ
ロセッサ５０はバイパス論理回路５２、マルチプレクサ
（ＭＵＸ）回路５４、スケジューラ５６、および複数個
の記憶要素５８も含んでいる。

【００２３】各サイクルにおいて、デコード／ディスパ
ッチ・ユニット１８は、命令バッファ１６内の次の
（ｉ）個の命令のうちの次のサイクルでディスパッチさ
れることになっている命令をアサートする。スケジュー
ラ５６はデコード／ディスパッチ・ユニット１８の指示
により、必要なレジスタ値をレジスタ・ファイル２８か
ら取り出し、取り出したレジスタ値をＭＵＸ５４のデー
タ入力７０に与える。ＭＵＸ５４はスケジューラ５６か
らの選択入力７２に応じて、取り出したレジスタ値をデ
ータ・ライン７４ａないし７４ｚのそれぞれを介して、
パイプライン２６ａないし２６ｚのうちの適切なもの、
あるいはメモり・ロケーション５８のうちの１つに送
る。命令はデコード／ディスパッチ・ユニット１８によ
って、入力ライン６８ａないし６８ｚのそれぞれを介し
て、パイプライン２６ａないし２６ｚにディスパッチさ
れる。

【００２４】パイプライン２６ａないし２６ｚの各段で
レジスタ値が再計算された場合に、レジスタ値を受け取
るようにバイパス論理回路５２が結合されている。矢印
６０はバイパス論理５２への再計算されたレジスタ値の
流れを表している。デコード／ディスパッチ・ユニット
１８およびスコアボード２２の指示によって、バイパス
論理回路５２は、必要に応じ、再計算されたレジスタ値
をパイプライン２６ａないし２６ｚに戻す。矢印６２お
よび矢印６４はそれぞれ、バイパス論理５２から実行ユ
ニット２０内のパイプライン２６への再計算されたレジ
スタ値の流れを表す。

【００２５】プロセッサ５０は従来技術のプロセッサ１
０と大幅に異なっている。レジスタ・ファイル２８は少
ない数（Ｎ）の読取りポートを有している。（Ｎ）はサ
イクル中にレジスタ・ファイル２８を形成するために必
要なソース・レジスタ値の考えられる最大数よりも小さ
い数である。レジスタ・ファイル２８への読取りポート
の数を必要な最大値（Ｘ）および幅よりも小さくするこ
とによって、従来の技術で検討した配線およびトランジ
スタのカウントの問題の多くが軽減される。たとえば、
読取りポートの数を少なくすると、メモリの各セルに関
連したワード・ライン、ビット・ラインおよびパス・ト
ランジスタの数が少なくなるため、各セルのピッチを小
さくすることができる。さらに、デコーダおよびドライ
バなどの必要な周辺回路の量が少なくなる。これらの要
因のすべてによって、レジスタ・ファイル２８を含んで
いるメモリ・アレイ全体のサイズを小さくすることが可
能となり、これはメモリの平均アクセス時間を短縮する
のを助け、また製造歩留まりを上げるのを助ける。

【００２６】レジスタ・ファイル２８の読取りポートの
バンドワイドを狭くすることに関連する欠点は、ポート
の数を所与のサイクルでディスパッチの対象となる命令
のグループに十分なものとできないことがあることであ
る。２個の命令（ｉ＝２）を発行するプロセッサでは、
たとえば、２個の命令があるサイクルで発行されるよう
にスケジュールされており、両方の命令が２つのレジス
タ値を必要としている場合、合計４つのソース・レジス
タ値がレジスタ・ファイル２８に必要となる。レジスタ
・ファイル２８が有している読取りポートが２つだけの
場合（Ｎ＝２）、必要なレジスタ値の数がレジスタ・フ
ァイル２４に利用可能な読取りポートの数を超えている
ため、ボトルネック状態がこのサイクルに存在する。ボ
トルネック状態は何とか補正されていない場合、第２の
命令をストールさせ、その後のサイクルで発行するよう
にする。

【００２７】デコード／ディスパッチ・ユニット１８は
レジスタ・ファイル２８を含んでいるメモリにおける読
取りポート・ボトルネック状態を軽減するのを助ける２
つの処置を行うようにプログラムされている。第１の処
置において、デコード／ディスパッチ・ユニット１８
は、プログラムの順序での命令の発行を並べ換え、ボト
ルネック状態を回避することを試みることができる。第
２の処置において、デコード／ディスパッチ・ユニット
１８は、ボトルネックを引き起こす命令のディスパッチ
に先立って、ボトルネック状態を有するものとして特定
されている以降のサイクルで必要とされるレジスタ値を
プリフェッチし、格納する。第２の処置を実施するため
に、各サイクルのレジスタ値の要件をアサートする。
（Ｎ）未満のレジスタ値に現行サイクル中にレジスタ・
ファイル２８によってアクセスしようとする場合には、
読取りポートのバンドワイドに「ギャップ」が存在する
といわれる。次に、デコード／ディスパッチ・ユニット
１８は命令バッファ１６内の他の命令を調べ、ボトルネ
ック状態が発生する以降のサイクルを特定する。このよ
うなサイクルが特定された場合、デコード／ディスパッ
チ・ユニット１８はスケジューラ５６に指示して、現行
サイクルのギャップ中に以降のサイクルに必要とされる
レジスタ値をプリフェッチする。プリフェッチされたレ
ジスタ値はメモリ・ロケーション５８に一時的に格納さ
れる。以降のサイクルの命令が発行された場合、メモリ
・ロケーション５８に格納されているレジスタ値が、プ
リフェッチされたレジスタ値を必要とする命令を実行す
る適正なパイプライン２６に与えられる。レジスタ値を
プリフェッチすることによって、これを行わなければボ
トルネック状態を有することになるサイクルを回避する
ことができる。

【００２８】本発明の動作はいくつかの例を使用するこ
とによって説明するのがもっともよいであろう。２個の
命令（ｉ＝２）の発行、すなわち２つの読取りポート
（Ｎ＝２）を備えたレジスタ・ファイルを有する２つの
スカラ・プロセッサを考える。以下の命令のストリング
に依存する下記の３つの実施例は、レジスタ・ファイル
２８の読取りポートにおけるボトルネック状態が作動中
にどのように解消されるかを説明するものである。

【００２９】

【表２】

【００３０】実施例１：第１のサイクルにおいて、デコ
ード／ディスパッチ・ユニット１８は最初の２個の命令
Ｉ１およびＩ２のディスパッチを考慮する。同時に、命
令Ｉ１およびＩ２はソース操作として必要とされる４つ
のレジスタ値（Ｒ１、Ｒ２、Ｒ４およびＲ５）を定義す
る。４つのレジスタに対する最新の値がレジスタ・ファ
イル２８にあるものと想定すると、これら両方の命令が
発行された場合、ボトルネック状態がレジスタ・ファイ
ル２８の読取りポートに存在することとなる。これに応
じて、パイプライン２６ａおよび２６ｂの状態によっ
て、デコード／ディスパッチ・ユニット１８はいくつか
の可能性を考慮する。両方のパイプライン２６ａおよび
パイプライン２６ｂがディスパッチに利用できる場合、
デコード／ディスパッチ・ユニット１８はスケジューラ
５６に指示して、レジスタ値Ｒ１およびＲ２を取り出
し、第１の命令Ｉ１を発行する。次いで、第２の命令の
ディスパッチを以降のサイクルで考慮する。一方、デコ
ード／ディスパッチ・ユニット１８はリソース依存度チ
ェックを行った後、第１のパイプライン２６ａがストー
ルされており、新しい命令を受け入れられないことを認
識し、次いで、スケジューラ５６に指示して、レジスタ
値Ｒ４およびＲ５を取り出し、第２の命令Ｉ２をパイプ
ライン２６ｂに発行する。第２の命令Ｉ２のディスパッ
チを第１の命令Ｉ１の前にシフトし、プログラムの順序
外にすることによって、命令のストールが回避される。
これらの状況のもとで、第２の命令Ｉ２を発行できるの
が、第１の命令Ｉ１に依存していないときだけであるこ
とに留意すべきである。

【００３１】さらに他の可能性として、デコード／ディ
スパッチ・ユニット１８が命令Ｉ２および１３を発行で
きることがある。条件付きブランチである命令Ｉ３がソ
ース・レジスタ値を何ら必要としないため、２個の命令
のレジスタ要件が２（Ｎ＝２）を超えることはない。し
たがって、命令Ｉ２および１３が両方とも命令Ｉ１に依
存していなければ、これらを命令Ｉ１以前に発行するこ
とができる。

【００３２】実施例２：第２の命令Ｉ２だけが第１のサ
イクルで発行され、第１の命令がストールされると想定
した場合、デコード／ディスパッチ・ユニット１８は第
２のサイクルでの第１の命令Ｉ１および第３の命令Ｉ３
のディスパッチを考慮する。第３の命令Ｉ３が条件付き
ブランチで、ソース・オペランド・レジスタ値を何ら必
要としないものであるから、レジスタ・ファイル２８の
読取りポートにおけるボトルネック状態は第２のサイク
ルで存在しなくなる。したがって、デコード／ディスパ
ッチ・ユニット１８はスケジューラ５６に指示して、第
１の命令Ｉ１のレジスタ値Ｒ１およびＲ２を取り出す。
同時に、第１の命令Ｉ１と第３の命令Ｉ３が第２のサイ
クルでディスパッチされる。第１の命令Ｉ１が第１のサ
イクルでディスパッチされ、第２の命令Ｉ２ではない場
合、デコード／ディスパッチ・ユニット１８はレジスタ
値Ｒ４、Ｒ５を取り出して、第２のサイクルで第２の命
令Ｉ２および第３の命令Ｉ３をディスパッチすることに
留意すべきである。

【００３３】実施例３：第３のサイクルにおいて、デコ
ード／ディスパッチ・ユニット１８は第４の命令Ｉ４お
よび第５の命令Ｉ５のディスパッチを考慮する。第４の
命令Ｉ４はレジスタ値を何ら必要としないブランチ命令
であり、第５の命令Ｉ５はソース・レジスタ値Ｒ７を１
つだけ必要とする移動命令である。２個の命令が必要と
する命令が１つのレジスタ値Ｒ７だけであるから、この
サイクル中で読取りポートがレジスタ・ファイル２８を
使用する際には「ギャップ」が存在する。ギャップが特
定された場合、デコード／ディスパッチ・ユニット１８
は命令バッファ１６に待ち行列化されている命令を調べ
る。第４のサイクルで発行される命令を調べると、命令
Ｉ６および１７を発行するのに３つのレジスタ値Ｒ１
１、Ｒ１２およびＲ１４が必要であることがわかる。３
つのレジスタ値が必要であるから、ボトルネック状態が
第４のサイクルに存在することになる。この状況におい
て、デコード／ディスパッチ・ユニット１８はスケジュ
ーラ５６に指示して、レジスタ値Ｒ７を取り出し、第３
のサイクルでレジスタ値Ｒ１１をプリフェッチし、命令
Ｉ４および命令Ｉ５を第３のサイクルで発行する。レジ
スタ値Ｒ７は命令Ｉ５を実行しようとしている実行ユニ
ット２０のパイプライン２６に与えられる。レジスタ値
Ｒ１１は、しかしながら、記憶要素５８の１つに格納さ
れる。第４のサイクルにおいて、レジスタ値Ｒ１２およ
びレジスタ値Ｒ１４が取り出され、命令Ｉ６および命令
Ｉ７がディスパッチされる。レジスタ値Ｒ１１をプリフ
ェッチし、格納することによって、３つのレジスタ値Ｒ
１１、Ｒ１２およびＲ１４が第４のサイクルで命令Ｉ６
および１７で利用可能となる。したがって、ボトルネッ
ク問題がレジスタ・ファイル２８の読取りポートで回避
され、考えられる最大数の命令（ｉ＝２）が第４のサイ
クルで発行される。

【００３４】各パイプライン２６の段数を（Ｎ）に対す
る値を選択する際に考慮しなければならない。各パイプ
ライン２６に多くの段を有しているマルチパイプライン
・プロセッサにおいては、比較的大きい数のレジスタ値
を任意の時点で実行ユニット２０に収めることができ
る。空間的および時間的ローカリティの原理に基づい
て、パイプライン２６のレジスタ値はレジスタ・ファイ
ル２８に収められているレジスタ値よりも、発行されよ
うとしている命令に関与する度合いが高くなる。したが
って、レジスタ値がこのようなプロセッサのレジスタ・
ファイル２８からよりも、バイパス操作で得られる可能
性が高い。所与のプログラムの命令の大多数に関して、
２つのソース・レジスタ値が必要ないことを認識するこ
とも重要である。これとは対照的に、プログラムの命令
の比較的大きな割合を通常ロード／ストア命令、ブラン
チ命令、移動命令、あるいはノー・オペレーションなど
のいずれかが占めており、これらはすべて０または１い
ずれかのレジスタ値オペランドを必要とする。バイパス
操作間であり、かつ大きな割合の命令が通常２つのソー
ス・オペランドを必要としないことにより、レジスタ・
ファイル２８の読取りポートのバンドワイド（Ｎ）の幅
が所与のサイクルにおいて十分なものでないという状況
は、あまり普通のことではない。それ故、比較的多くの
サイクルに対して、レジスタ・ファイル２８の狭くされ
た読取りポートのバンドワイドが問題を起こすことはな
い。しかしながら、ボトルネック状態が存在している場
合、上述の２つの処置がほとんどの場合に、問題を修正
するのを助ける。

【００３５】図４Ａを参照すると、本発明の動作を説明
する流れ図が示されている。命令バッファ１６内の命令
は、まずデコード／ディスパッチ・ユニット１８によっ
て解析され、次のサイクルでのディスパッチ対象の命令
がアサートされる（ボックス１０２）。その後、リソー
ス・チェックを行って、次のサイクルでのディスパッチ
対象命令を実行するのにリソースが利用できるかどうか
を判断する（ボックス１０４）。リソースが利用できな
い命令はストールする（楕円１０５）。リソースが利用
できるほかのすべての命令に対して、命令を実行するの
に必要なソース・レジスタ値がアサートされる（ボック
ス１０６）。次に、バイパス操作に利用可能な必要なレ
ジスタ値が取得される（ボックス１０８）。その後、ボ
トルネック状態がこのサイクルでレジスタ・ファイル２
８の読取りポートに存在しているかどうかを判定するチ
ェックが行われる（ボックス１０９）。ボトルネック状
態が存在していない場合には、命令がディスパッチされ
る（楕円１１０）。ボトルネック状態が存在している場
合には、上述の２つの処置のうち１つが問題を軽減する
ために試みられる。まず、実行に必要なプリフェッチさ
れたレジスタ値を取得する（ボックス１１２）。レジス
タ値のプリフェッチがボトルネックを軽減した場合に
は、命令がディスパッチされる（楕円１１３）。レジス
タ値がプリフェッチされない場合、あるいはレジスタ値
がプリフェッチされたが、ボトルネック状態が依然存在
している場合には、命令をプログラムの順序から並べ換
えて、ボトルネック状態を回避できるかどうかを判定す
る（ボックス１１４）。命令の並べ替えがボトルネック
を軽減した場合には、命令がディスパッチされる（楕円
１１５）。上述の２つの処置がボトルネックを軽減しな
い場合には、1つまたは複数のディスパッチ対象の命令
がストールする（ボックス１１６）。上記のプロセスは
プロセッサ５０内でのプログラムの実行中の各サイクル
で繰り返される。

【００３６】図４Ｂを参照すると、レジスタ値のプリフ
ェッチに関連するステップを説明する流れ図１２０が示
されている。まず、現行サイクル内の読取りポートのギ
ャップを特定する（ボックス１２２）。ギャップが特定
された場合、ボトルネックの問題が存在する可能性のあ
る以降のサイクルが特定される（ボックス１２４）。最
後のステップにおいて、必要なレジスタ値がギャップ内
でプリフェッチされ、格納される（ボックス１２６）。
このプロセスもプロセッサ５０内でのプログラムの実行
中の各サイクルで繰り返される。

【００３７】上記の発明を特定の実施の形態に関して詳
細に説明してきたが、本発明に対するいくつかの変更お
よび改変が本発明の精神を逸脱することなく行えること
が明らかであろう。本発明はあらゆるスカラ・プロセッ
サで実施できる。さらに、本発明を複数発行プロセッサ
で実施することもできる。たとえば、４個の命令を発行
するプロセッサ（ｉ＝４）においては、読取りポート・
レジスタ・バンドワイドは２（Ｎ＝２）、５（Ｎ＝
５）、または６（Ｎ＝６）である。５個の命令を発行す
るプロセッサ（ｉ＝５）または６個の命令を発行するプ
ロセッサ（ｉ＝６）においては、読取りポート・レジス
タ・バンドワイドは２（Ｎ＝２）、５（Ｎ＝５）、６
（Ｎ＝６）または８（Ｎ＝８）である。本出願人は１サ
イクルでのディスパッチ対象命令の数が現在の最新プロ
セッサよりもかなり多い超長命令ワード（ＶＬＩＷ）プ
ロセッサまたは類似のプロセッサに、本発明が特に適用
できるものであると確信している。読取りおよび書込み
ポートの狭いバンドワイドは、整数レジスタ・ファイル
および浮動小数点レジスタ・ファイル両方を格納するメ
モリにも適用できる。最後に、本明細書で詳細に説明し
ないが、本発明の原理をレジスタ・ファイル２８に関連
する書込みポートの数を減らすためにも使用できる。た
とえば、（ｉ）発行プロセッサにおいては、書込みポー
トの数は１（Ｍ＝１）ないし最悪ケースで必要な書込み
ポートの最大数マイナス１の範囲でかまわない。本明細
書が例示的なものにすぎず、本発明の真の範囲および精
神は首記の特許請求の範囲に示されるものである。

【図面の簡単な説明】

【図１】従来技術によるコンピュータのブロック図で
ある。

【図２】従来技術のコンピュータ・システムのレジス
タ・ファイルに使用されるＳＲＡＭアレイのブロック図
である。

【図３】本発明による読取りバンドワイドが狭いレジ
スタ・ファイルを有するコンピュータのブロック図であ
る。

【図４】本発明によるコンピュータの作動ステップを
示す流れ図である。

【符号の説明】

１２命令（Ｉ）キャッシュ１４プリフェッチ・ユニット１６命令バッファ１８デコード／ディスパッチ・ユニット２０実行ユニット２６ａ−２６ｚパイプライン２８レジスタ・ファイル５２バイパス論理回路５４マルチプレクサ（ＭＵＸ）回路５６スケジューラ５８記憶要素７０データ入力７２選択入力

───────────────────────────────────────────────────── フロントページの続き (72)発明者ニール・ウィルヘルムアメリカ合衆国 94025 カリフォルニア州・メンロパーク・プロスペクトストリート・2110

Claims

【特許請求の範囲】

【請求項１】レジスタのレジスタ・ファイルと、
（ｚ）本のパイプラインを有している実行ユニットにサ
イクルごとにプログラムの命令を（ｉ）個まで発行でき
るディスパッチ・ユニットとを含んでおり、前記命令の
中にはレジスタ・ファイルのレジスタのうちのいくつか
をソース・オペランドとして指定し、レジスタ・ファイ
ルのレジスタのうちのいくつかを宛先レジスタとして指
定するものがあり、所与の命令セットのために１サイク
ル中にアクセスする必要のあるレジスタ値の最大数
（Ｘ）を有しているプロセッサであって、サイクルごとに最大（Ｎ）個のレジスタ（ただし、
（Ｎ）は（Ｘ）未満である）を受け入れるように構成さ
れた（Ｎ）個のアクセス・ポートを有するとともに、レ
ジスタ・ファイルのレジスタを格納するメモリを備えて
いるプロセッサ。
【請求項２】実行ユニットへディスパッチされるプロ
グラム命令を待ち行列化するように構成されている命令
バッファと、次のサイクルでのディスパッチ用の待ち行
列内の次の（ｉ）個の命令のディスパッチを考慮するよ
うに構成されたディスパッチ・ユニットとをさらに含ん
でおり、前記ディスパッチ・ユニットがさらに次のサイ
クルでレジスタ・ファイルを格納するメモリからの次の
（ｉ）個の命令が必要とするレジスタ値をアサートする
ように構成されており、かつ次の（ｉ）個の命令をディ
スパッチする場合に、レジスタ・ファイルを格納するメ
モリのアクセス・ポートにボトルネック状態が存在する
かどうかを判断するように構成されていることを特徴と
する請求項１に記載のプロセッサ。
【請求項３】プロセッサの実行ユニットの（ｚ）本の
パイプラインからの再計算されたレジスタ値を受けるバ
イパス論理回路をさらに有し、前記ディスパッチ・ユニ
ットが、その再計算されたレジスタ値の選択されたもの
がディスパッチを考慮する次の（ｉ）命令のいずれかに
利用できるように、再計算されたレジスタ値のいずれか
を実行ユニットの（ｚ）本のパイプラインへ戻すよう前
記バイパス論理回路に命令することを特徴とする請求項
２記載のプロセッサ。
【請求項４】レジスタのレジスタ・ファイルと、
（ｚ）本のパイプラインを有している実行ユニットにサ
イクルごとにプログラムの命令を（ｉ）個まで発行でき
るディスパッチ・ユニットとを含んでおり、前記命令の
中にはレジスタ・ファイルのレジスタのうちのいくつか
をソース・オペランドとして指定し、レジスタ・ファイ
ルのレジスタのうちのいくつかを宛先レジスタとして指
定するものがあり、所与の命令セットのためにサイクル
中にアクセスする必要のあるレジスタ値の最大数（Ｘ）
を有しているプロセッサを構成させる方法であって、サイクルごとに最大（Ｎ）個のレジスタ（ただし、
（Ｎ）は（Ｘ）未満である）を受け入れるように構成さ
れた（Ｎ）個のアクセス・ポートを有するとともにレジ
スタ・ファイルのレジスタを格納するメモリを設けるス
テップを備えている方法。
【請求項５】実行ユニットへディスパッチされるプロ
グラム命令を待ち行列化するように構成されている命令
バッファを設けるステップと、次のサイクルでのディス
パッチ用の待ち行列内の次の（ｉ）個の命令のディスパ
ッチを考慮するように構成されたディスパッチ・ユニッ
トを設けるステップとをさらに含んでおり、ディスパッ
チ・ユニットがさらに次のサイクルでレジスタ・ファイ
ルを格納するメモリからの次の（ｉ）個の命令が必要と
するレジスタ値をアサートするように構成されており、
かつ次の（ｉ）個の命令をディスパッチする場合に、レ
ジスタ・ファイルを格納するメモリのアクセス・ポート
にボトルネック状態が存在するかどうかを判断するよう
に構成されていることを特徴とする請求項４に記載の方
法。
【請求項６】レジスタのレジスタ・ファイルと、
（ｚ）本のパイプラインを有している実行ユニットにサ
イクルごとにプログラムの命令を（ｉ）個まで発行でき
るディスパッチ・ユニットとを含んでおり、命令の中に
はレジスタ・ファイルのレジスタのうちのいくつかをソ
ース・オペランドとして指定し、レジスタ・ファイルの
レジスタのうちのいくつかを宛先レジスタとして指定す
るものがあり、所与の命令セットに関するサイクル中に
アクセスする必要のあるレジスタ値の最大数（Ｘ）を有
しているプロセッサを操作する方法において、サイクルごとに最大（Ｎ）個のレジスタ（ただし、
（Ｎ）は（Ｘ）未満である）を受け入れるように構成さ
れた（Ｎ）個のアクセス・ポートを有しているととも
に、レジスタ・ファイルのレジスタを格納するメモリに
アクセスするステップを備えている方法。
【請求項７】第１のサイクルでのディスパッチが考慮
されている（ｉ）個の命令が必要とするレジスタ値をア
サートするステップをさらに含んでいることを特徴とす
る請求項６に記載の方法。
【請求項８】第１のサイクルでのディスパッチが考慮
されている（ｉ）個の命令が必要とするレジスタ値のう
ちのいずれがバイパス操作によって得られるかを判定す
るステップをさらに含んでいることを特徴とする請求項
６に記載の方法。
【請求項９】第１のサイクルで必要とされるレジスタ
値の数がレジスタ・ファイルのレジスタを格納するメモ
リのレジスタ読取りポート（Ｎ）を超えるかどうかをア
サートするステップをさらに含んでいることを特徴とす
る、請求項５に記載の方法。
【請求項１０】第１のサイクルで必要とされるレジス
タ値の数がレジスタ・ファイルのレジスタを格納するメ
モリのレジスタ読取りポート（Ｎ）を超えている状況
で、プログラムの順序外で命令を発行するステップをさ
らに含んでいることを特徴とする請求項９に記載の方
法。
【請求項１１】第１のサイクルで必要とされるレジス
タ値の数がレジスタ・ファイルのレジスタを格納するメ
モリのレジスタ読取りポート（Ｎ）を超える状況におい
て、レジスタ値をプリフェッチするステップをさらに含
んでいることを特徴とする請求項９に記載の方法。