JPH11272482A

JPH11272482A - 順次命令ストリ―ム処理方法、コンピュ―タ・システムおよびマイクロプロセッサ

Info

Publication number: JPH11272482A
Application number: JP11005973A
Authority: JP
Inventors: Thomas J Heller Jr; トーマス・ジェイ・ヘラー・ジュニア; William Todd Boyd; ウィリアム・トッド・ボイド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-01-20
Filing date: 1999-01-13
Publication date: 1999-10-08

Abstract

(57)【要約】【課題】第１および第２の処理要素を有するコンピュ
ータ・システム内で順次命令ストリームを処理するため
の改善された方法を提供すること。【解決手段】前記処理要素のそれぞれはそれ自体の汎
用レジスタおよび制御レジスタの設定によって決定され
るそれ自体の状態を有する。前記第１の処理要素による
前記順次命令ストリームの処理中の任意の時点におい
て、同じ順次命令ストリームの連続処理を前記第２の処
理要素に引き継がせることが利益になる場合、第１およ
び第２の処理要素は、順次命令ストリームを処理し、全
く同じ命令を実行している可能性があるが、前記第１お
よび第２の処理要素の状態の組合せによって決定される
前記コンピュータ・システムの全体的なアーキテクチャ
状態を変更することができるのは、前記処理要素の一方
だけになる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・シ
ステムに関し、特に、パイプライン同期によりシステム
・パフォーマンスを改善するための結合コプロセッサを
備えたマイクロプロセッサ・コンピュータ・システムの
ための方法に関する。また、本発明は、コンピュータ・
システムに関し、特に、システム・パフォーマンスを改
善し、改良されたマイクロプロセッサ・サポートを備え
たマイクロプロセッサを提供するために結合されたマイ
クロプロセッサとコプロセッサとを備えたコンピュータ
・システムに関する。

【０００２】

【従来の技術】現行のマイクロプロセッサのパフォーマ
ンスは、重要な作業負荷の大部分に関する有限キャッシ
ュ効果によって厳密に制限されている。有限キャッシュ
効果としては、マイクロプロセッサの第１レベルのキャ
ッシュが無限に大きくなっていれば解消すると思われる
パフォーマンス劣化のすべての誘因を含む。オフチップ
記憶域からのオペランド・データを待っている間にマイ
クロプロセッサが機能停止する時間の量は、多くの場合
に命令の実行に費やす時間と等しい。これは、データベ
ースおよびトランザクション処理を含む作業負荷の場合
に特に言えることである。

【０００３】多くの現行のマイクロプロセッサ設計は、
有限キャッシュの不利益の低減を目指している。大規模
キャッシュ、複数レベルのキャッシュ、高速マルチチッ
プ・モジュール、順不同実行、命令事前取出しは広く使
用されており、最も有用であると考えられている。オペ
ランドの事前取出しも、従来の順不同処理の有無にかか
わらず、所与の作業負荷に正常に使用されている。しか
し、オペランドの事前取出しは、データベースおよびト
ランザクション作業負荷には特に効果的なわけではな
い。大規模キャッシュは有限キャッシュ効果の低減をも
たらすが、この領域のさらなる改良は、ダイのサイズま
たはチップ・カウントの増加が示すコスト・パフォーマ
ンス上の意味によって制限されている。現行の順不同実
行技法は、有限キャッシュ効果の大幅な低減をもたらす
が、プロセッサ・クロック周波数の低減および設計の複
雑さの増大という形の不利益を伴う。したがって、以前
は好ましいと考えられていた順不同実行設計を実現する
コストを大幅に削減できるようなマイクロプロセッサ設
計の改良を提供する必要がある。

【０００４】用語集ＣＰＩは、命令当たりのマシン・サイクル数を意味す
る。

【０００５】ＳＦＥは、本発明が提供する推論取出しエ
ンジンである。

【０００６】uPCoreは、サイクル時間と設計の複雑さと
無限Ｌ１キャッシュのＣＰＩとの兼ね合いに関してバラ
ンスを取ったマイクロプロセッサ設計を表す。

【０００７】

【発明が解決しようとする課題】本発明は、マイクロプ
ロセッサ・コンピュータ・システムを設計するための方
法を提供し、詳細には、パイプライン同期によりシステ
ム・パフォーマンスを改善するための結合コプロセッサ
を備えたマイクロプロセッサ・コンピュータ・システム
のための方法を提供する。本発明では、順不同サポート
を改善し、大規模キャッシュおよびマルチレベル・キャ
ッシュを使用する能力をコンピュータ・システムに提供
し、特に、マイクロプロセッサと結合コプロセッサとを
備え、有限キャッシュの不利益の低減を達成し、それに
よりシステム・パフォーマンスの向上をもたらす推論エ
ンジンを提供するコンピュータ・システムを提供する。

【０００８】

【課題を解決するための手段】好ましい実施例の改良点
は、複数のパイプラインの同期によるレジスタ管理を介
してマイクロプロセッサ・サポートを改善する。このよ
うな改良点は、（必要に応じて先取出しおよび同時ロー
ドの実行などのスーパスカラ技法を処理できるようにな
っている間に）本質的に適正順序で命令を処理するコア
・マイクロプロセッサと協力して動作する複数の実行要
素を有する推論取出しエンジン（ＳＦＥ）と、順不同実
行のための方法と、複数のマイクロプロセッサとの同期
を取る方法と、ＳＦＥとマイクロプロセッサ・コア（uP
Core）の両方によって共用される記憶階層への推論メモ
リ参照の生成を可能にするレジスタ管理プロセスとを提
供することによって達成される。

【０００９】uPCoreとＳＦＥはどちらも処理要素と見な
される。システムは、第１および第２の処理要素を有す
るコンピュータ・システム内で順次命令ストリームを処
理し、それぞれの処理要素はそれ自体の汎用レジスタお
よび制御レジスタの設定によって決定されるそれ自体の
状態を有する。処理中の任意の時点において、同じ順次
命令ストリームの連続処理を第２の処理要素に引き継が
せることが利益になる場合、第１および第２の処理要素
は、順次命令ストリームを処理し、全く同じ命令を実行
している可能性があるが、第１および第２の処理要素の
状態の組合せによって決定される前記コンピュータ・シ
ステムの全体的なアーキテクチャ状態を変更することが
できるのは、前記処理要素の一方だけ（好ましい実施例
ではこれはuPCoreになる）になる。

【００１０】好ましい実施例では、第２のプロセッサ
は、順不同実行を可能にし、それにより、有限キャッシ
ュの不利益を低減してパフォーマンスを向上するため
に、第１の適正順序処理要素より多くのパイプライン・
ステージを有することになる。第２の処理要素の結果を
処理して格納しても、好ましい実施例ではコンピュータ
・システムのアーキテクチャ状態を変更することはな
い。結果は、その汎用レジスタまたはその個人用記憶バ
ッファ内に格納される。２つの処理要素の状態の再同期
化は、無効命令、機能停止、または順不同コプロセッサ
（ＳＦＥ）としてコプロセッサとともに処理することに
対する計算固有の利益が発生したときに行われる。

【００１１】ＳＦＥはuPCoreとのインタフェースを取
り、したがって、本発明は同じシリコン・チップ上に設
けたＳＦＥと第１のプロセッサuPCoreによって、より容
易に実施される。また、マルチチップ実施態様も可能で
あり、本発明の現行実施例と一貫するものである。uPCo
reは従来の構造を有し、好ましい実施例では複合システ
ムのアーキテクチャ状態を維持するが、汎用ミラー・バ
ージョンではアーキテクチャ状態を維持する責任は交互
に果たされるかまたは両者によって共用される。ＳＦＥ
によって呼び出されたアクションは、好ましい実施例で
は、uPCoreのアーキテクチャ状態を直接変更することは
ない。ＳＦＥは、uPCoreがそれを使用する前に複合シス
テムのキャッシュを命令およびオペランド・データで満
たす記憶参照を生成するために使用する。このような改
良点は、米国特許第４９０１２３３号（以下Liptayとい
う）および米国特許第４５７４３４９号で開発されたも
のなどの従来のレジスタ・リネーム方式によって可能に
なったシステム・パフォーマンスを拡張する。

【００１２】上記その他の改良点については以下の詳細
な説明に示す。特に本出願人が最初に開発し広く実施さ
れている従来の設計を上回る利点および特徴を備えた本
発明をさらに理解するために、以下の説明および後述す
る図面を参照されたい。

【００１３】

【発明の実施の形態】好ましい実施例を詳細に検討する
前に、一例として、最初に本出願人によって開発され、
Liptay特許である米国特許第４９０１２３３号に記載さ
れている典型的な従来技術の順不同マイクロプロセッサ
設計を例示することは価値のあることだろう。図１およ
び図２は、最初はレジスタ管理システム（ＲＭＳ）の使
用を教示する米国特許第４９０１２３３号に記載され
た、このような典型的な従来技術の順不同マイクロプロ
セッサ設計を示している。ＲＭＳにより、アーキテクチ
ャ・システム内で命名されている以上の物理レジスタを
汎用ならびに精密な分岐後回復の両方に使用できるよう
になる。レジスタ管理システムの使用は順不同実行を使
用可能にするために本質的なものである。順不同実行に
より、本発明の焦点である有限キャッシュの不利益を大
幅に低減できることが分かっている。米国特許第４９０
１２３３号に記載された好ましい実施例は、従来技術の
適正順序プロセッサ設計の基本パイプラインの変更を含
む。このような変更は、全体的なシステムにＲＭＳを統
合する必要があり、その結果、長い、すなわち、ステー
ジ数が多い命令パイプラインになるか、または適正順序
設計の命令パイプラインよりステージ当たりの論理数が
多い命令パイプラインになる。米国特許第４９０１２３
３号の好ましい実施例により、従来の適正順序設計に対
する無限Ｌ１キャッシュＣＰＩと有限キャッシュＣＰＩ
の両方の改良が可能になる。本発明は、無限Ｌ１ＣＰＩ
を改善するための順不同技法の使用を排除するものでは
ないが、主命令実行パイプラインにおける順不同サポー
トと設計の複雑さとのより良いバランスを達成するため
にその使用を制限することができる。本発明は、uPCore
パイプライン長またはパイプライン内の各ステージの長
さを増加せずに有限Ｌ１ＣＰＩ加算器を低減するため
の順不同技法の使用に集中するものである。全体的な結
果として、米国特許第４９０１２３３号よりシステム・
パフォーマンスが向上する。というのは、データベース
およびトランザクション作業負荷の場合、サイクル時間
の改善によって、米国特許第４９０１２３３号によって
得られる無限Ｌ１キャッシュＣＰＩの小規模の改善に比
べ、パフォーマンスが向上するからである。さらに、本
発明は、uPCoreを適正順序設計として実現する場合にレ
ジスタ管理システムを主命令処理パイプラインから分離
することにより、順不同命令処理に関連するすべての問
題について設計の複雑さの大幅低減を見込んでいる。こ
のような検討により、米国特許第４９０１２３３号によ
って実現された図１および図２について説明する。

【００１４】Liptayの発明は、汎用レジスタ、たとえ
ば、ｎ個の汎用レジスタなどの指定の複数のアドレス可
能（論理）レジスタのアーキテクチャ設計要件を有する
コンピュータ・システム用のレジスタ管理システムであ
った。Liptay設計の要素の多くは、以下に説明するよう
に本システムでも使用する。ｍ個のレジスタを有するレ
ジスタ・アレイ（ＲＡ）は、ｎ個の汎用レジスタの諸機
能を果たすために設けられており、ｍはｎより大きい。
例示の実施例として、米国特許第４９０１２３３号には
１６個のＧＰＲを有する周知のＩＢＭシステム／３７０
アーキテクチャによるシステムが記載されており、この
システムは現在でも現行のＳ／３９０マシンに使用され
ている。ＲＡは、アーキテクチャ・レジスタの諸機能を
果たすために特定のＲＡの動的割当てを行う。特定のレ
ジスタ割当ての機能が完了すると、ＲＡ内のその位置は
解放され、やがて同じかまたは他のアーキテクチャＧＰ
Ｒとして再割当て可能になる。

【００１５】レジスタ管理システムは、全体的なコンピ
ュータ・アーキテクチャに依存しておらず、現行のマイ
クロプロセッサ設計で使用されているように、様々な環
境で実現することができる。したがって、それがメイン
フレーム・プロセッサであるかマイクロプロセッサであ
るかにかかわらず、図１および図２に示すコンピュータ
・システム１０は、キャッシュ・メモリ・システム１４
に接続されたメイン・メモリ１２を有する。キャッシュ
・メモリ・システム１４は、任意の数の容認できる状態
に編成することができるが、この例では命令操作とデー
タ操作をそれぞれ別々に処理するために命令キャッシュ
１６とデータ・キャッシュ１８がともにメイン・メモリ
１２に接続された状態で示されている。階層メモリ設計
はカスケード配置においてメモリ・サイズとメモリ速度
という両方の利点をもたらすためにキャッシュ・メモリ
に複数のレベルを設けるものであり、このようなメモリ
設計は、図１および図２には示されていないが、図３に
示すように本発明と一貫するものである。

【００１６】図１および図２のように、命令は命令キャ
ッシュ１６から命令バッファ・ユニット２０を通って命
令レジスタ・ユニット２２に伝わる。例示のため、命令
レジスタ・ユニット２２は複数の別々の命令レジスタを
有し、このような命令レジスタの望ましい数は２個、３
個、または４個である。

【００１７】実行ユニットとして機能する汎用ユニット
は、算術または論理、スカラまたはベクトル、スカラま
たは浮動小数点など、実行される機能のタイプに沿って
設計することができる。汎用実行ユニットがこのような
配置がどのようなものでも汎用レジスタ（ＧＰＲ）を使
用するので、本発明は、コンピュータ内の汎用実行ユニ
ットの数、機能配置、設計の点で多くの変形態様に応用
可能である。

【００１８】例示のため、Liptayシステムは、それぞれ
２４および２６として示されている汎用実行ユニット
（ＧＰＥ）１および２とともに示されている。汎用ユニ
ット２４ではその出力がストア・バッファ・ユニット２
８に接続され、そのユニットの出力はデータ・キャッシ
ュ１８に接続されている。汎用ユニット２４は、実際に
は単一実行ユニットである場合もあれば、複数ユニット
の組合せである場合もあり、この実施例に示すように、
ユニット２４はストア・バッファ２８に送られる結果を
生成するが、その結果は命令完了までそのバッファ内に
保持され、その後、メモリに格納することができる。汎
用ユニット２６では、その出力が本発明による汎用レジ
スタ・アレイ（ＲＡ）３０に接続されている。ＧＰＥ２
６は命令について操作して結果を生成するが、その結果
は、直ちに格納するのではなく、レジスタ内で使用可能
である必要がある。命令スタックまたは待ち行列３１
は、命令レジスタ・ユニット２２から命令を受け取っ
て、それをＧＰＥ２４または２６に適切に向けるために
設けられている。単一ＲＡおよびレジスタ管理システム
とともに様々なタイプの複数の実行ユニットを使用する
ことができる。ＲＡ３０は、このアーキテクチャによっ
て認識される１６個のＧＰＲの諸機能を果たすために３
２個の動的割当て可能な実（物理）レジスタを含む。

【００１９】ＲＡ３０は、状況情報によって制御され、
制御バス３４を介してレジスタ管理システム（ＲＭＳ）
３２に状況情報を供給する。ＲＭＳ３２は、様々なタイ
プの状況情報を受け取って供給するために他のいくつか
のシステムに接続されている。割込み制御要素３６は、
命令レジスタ２２、ＲＭＳ３２、ＲＡ３０に接続され、
割込みの適切な処理を行い、必要な状況情報を保存す
る。

【００２０】発行から実行まで命令に従い、入力オペラ
ンドおよび出力オペランド用にレジスタを割り当てるた
めに、ＲＭＳ３２は命令レジスタ・ユニット２２とＧＰ
Ｅ２４および２６に接続されている。

【００２１】図１および図２のコンピュータは、命令レ
ジスタ・ユニット２２から命令を受け取るために接続さ
れ、命令アドレス計算要素（Ｉ−ＡＣＥ）５２への出力
を有する命令待ち行列５０を有する。また、Ｉ−ＡＣＥ
５２は、ＲＡ３０から入力を直接受け取るためにも接続
され、命令キャッシュ１６に接続された出力を有する。
命令待ち行列５０は、状況情報を供給するためにＲＭＳ
３２に接続されている。

【００２２】図１および図２のコンピュータは、命令レ
ジスタ・ユニット２２からの出力を受け取るために接続
されたアドレス待ち行列６０を有する。アドレス待ち行
列６０の出力は、データ・アドレス計算要素（Ｄ−ＡＣ
Ｅ）６２への入力として接続されている。Ｄ−ＡＣＥ６
２へのもう一方の入力はＲＡ３０からのものである。Ｄ
−ＡＣＥ６２は、状況情報を供給するためにＲＭＳ３２
に接続されている。

【００２３】Ｄ−ＡＣＥ６２の出力はアドレス取出し待
ち行列６４に接続され、この待ち行列はデータ・キャッ
シュ１８への入力として接続された第１の出力と、アド
レス・ストア待ち行列６６への入力として接続された第
２の出力とを有する。アドレス・ストア待ち行列は、デ
ータ・キャッシュ１８に接続された出力を有し、状況情
報を供給するためにＲＭＳ３２との接続を有する。

【００２４】このコンピュータは、同じく状況情報を供
給するためにＲＭＳ３２に接続された浮動小数点演算ユ
ニット７０を有する。以下に説明するように、ＲＭＳ３
２がＲＡ３０とは無関係のユニットおよびレジスタとと
もに機能できることは重要なことである。たとえば、１
つのＲＭＳは複数のレジスタ・アレイとともに機能する
ことができる。より具体的には、１つのＲＭＳが２つの
ＲＡを制御し、そのＲＡを同じかまたは異なるタイプの
複数の実行ユニットに接続することができる。

【００２５】浮動小数点ユニット（ＦＰＵ）７０の入力
は、浮動小数点命令待ち行列７２および浮動小数点デー
タ・レジスタ・ユニット７４によって供給される。浮動
小数点命令待ち行列７２はＩ−ＲＥＧ２２からその入力
を受け取る。浮動小数点データ・レジスタ・ユニット７
４は、データ・キャッシュ１８およびＦＰＵ７０からそ
の入力を受け取る。浮動小数点ユニット７０の出力はス
トア・バッファ・ユニット７６に接続され、そのユニッ
トの出力はデータ・キャッシュ１８への入力として接続
されている。

【００２６】次に本発明をより詳細に検討すると、図３
に示すように大規模キャッシュおよび複数レベルのキャ
ッシュを設けることができる場合に使用するために、後
述する本システムが有効であることが分かるだろう。本
発明は既存のキャッシュのパフォーマンスに改良を加え
るものであり、推論取出しは各レベルのキャッシュのミ
ス率を改善することになるだろう。全パフォーマンス上
の利益は、多くの場合にＳＦＥのシリコン・サイズによ
ってオンチップ・キャッシュが増加した場合に得られた
はずのものと比較して評価しなければならない。Ｌ１キ
ャッシュの場合のように、この比較が必ずしも有効では
ない場合がある。というのは、領域ではなくサイクル時
間の制約が通常、Ｌ１キャッシュにとって重要であるか
らである。予備的な結果によれば、オンチップの２次キ
ャッシュのサイズの約１／４〜１／２であるＳＦＥを使
用して、１５〜２０％のパフォーマンスの改善が得られ
る可能性がある。

【００２７】図３の好ましい実施例図３に示す好ましい実施例に示すように、諸要素の相互
接続は、uPCore（２００）と同期ユニット（ＳＵ２０
１）、ＳＦＥ（２０２）、命令およびデータ・キャッシ
ュ（２０３）とのインタフェースなどの様々なインタフ
ェースによって行われる。キャッシュ・メモリ・システ
ムは、任意の数の容認できる状態に編成することができ
るが、この例ではこの階層メモリのメイン・メモリ２０
４に接続された複合命令およびデータ・キャッシュ２０
３によって示されており、この階層メモリはカスケード
配置においてメモリ・サイズとメモリ速度という両方の
利点をもたらすためにキャッシュ・メモリに複数のレベ
ル（たとえば、２０３’・・・２０３”）を設けるもの
であり、このようなメモリ設計は本発明と一貫するもの
である。また、分割された命令キャッシュとデータ・キ
ャッシュも本発明と一貫するものである。

【００２８】任意の数のＳＦＥ２０２・・・２０２’・
・・２０２”とともに、任意の数のuPCore２００・・・
２００’・・・２００”を使用することができる。ＳＦ
Ｅは、所与の時点で単一のuPCoreに関連付けることがで
きるが、同期機能が実行された後で他のuPCoreとの関連
付けを変更することができる。各ＳＦＥは、１つのスト
ア・バッファおよび１つのＳＵに関連付けられている。
たとえば、必要なＳＦＥ機能を提供するために２０１’
と２０２’と２０５’とをまとめて使用する。任意の数
のＳＦＥを単一のuPCoreに同時に関連付けることができ
る。好ましい実施例は、単一のＳＦＥと複数のuPCoreと
を有する。

【００２９】しかし、好ましい実施例のハードウェアの
詳細説明に入る前に、図３では、uPCoreが代わりに動作
可能な代替汎用実施例も分かるだろう。図３の汎用実施
例では、ここに示し説明する諸機能を２重にしている
が、アーキテクチャ制御は２００、２００’、２００”
と２０２、２０２’、２０２”との間で交互に行われ、
詳細に説明するもののミラー・イメージとして同じ機能
が実行される。

【００３０】したがって、この好ましい実施例は代替汎
用実施例の具体的な好ましい例であり、代わりにマシン
のアーキテクチャ状態を制御しながら、第１の従来の処
理要素uPCore２００、２００’、２００”と第２の処理
要素ＳＦＥ２０２、２０２’、２０２”が協力して動作
する。図３に示す好ましい実施例では、第１の処理要素
は、順次命令ストリームのほとんどの命令を適正順序で
処理し、アーキテクチャ状態を制御する。したがって、
一般に、それぞれの処理要素がそれ自体の汎用レジスタ
および制御レジスタの設定によって決定されるそれ自体
の状態を有するような、第１および第２の処理要素を有
するコンピュータ・システム内で順次命令ストリームを
処理するための方法は、前記処理要素の第１のもの、た
とえば、２００に前記順次命令ストリームの初期命令を
向けることから開始する。前記順次命令ストリームの処
理は、コンピュータ・システムのアーキテクチャ状態の
変化を前記第２の処理要素に転送する前記処理要素の第
１のものを使用して続行される。しかし、前記第１の処
理要素、たとえば、uPCore２００による前記順次命令ス
トリームの処理中の任意の時点において、同じ順次命令
ストリームの連続処理を前記第２の処理要素、たとえ
ば、ＳＦＥ２０２に開始させることが利益になる場合、
コンピュータ・システムの第２の処理要素は、転送され
た状態を復元し、第２の処理要素によって順次命令スト
リームを処理することにより、同じ順次命令ストリーム
の連続処理を開始する。

【００３１】次にこの第２の処理要素は、第１の処理要
素が要求するコンピュータ・システムのアーキテクチャ
状態の変化を第１の処理要素に転送する。

【００３２】交互に制御する代替実施例と好ましい実施
例のいずれでも、第１のプロセッサと第２のプロセッサ
は全く同じ命令を実行している可能性があるが、前記第
１および第２の処理要素の状態の組合せによって決定さ
れる前記コンピュータ・システムの全体的なアーキテク
チャ状態を変更できるのは、前記処理要素の一方だけに
なる。好ましい実施例では、この組合せは第１の処理要
素によって決定される。第２の処理ＳＦＥのアクション
はシステムのアーキテクチャ状態を変更することはな
く、好ましい実施例では、また代替実施例でも、システ
ムのアーキテクチャ状態は第２の処理要素の状態によっ
て全部または一部が決定される可能性がある。好ましい
実施例では、uPCoreパイプラインがほとんどすべての順
次命令を適正順序で処理し、uPCoreとＳＦＥによって共
用されるキャッシュを準備するために使用する命令はＳ
ＦＥが前処理し、アーキテクチャ状態を制御するuPCore
との再同期化を可能な限り頻繁に取り、ＳＦＥの結果が
別々の個人用ストア・バッファに格納されるときにＳＦ
Ｅが命令を前処理すると、有限キャッシュの不利益が低
減される。

【００３３】好ましい実施例には当てはまらないが、交
互に制御する実施例では、アーキテクチャ状態の制御は
前後に切り替わる。

【００３４】汎用方法では、それ自体の汎用レジスタお
よび制御レジスタの設定によって決定されるそれ自体の
状態を有する前記処理要素のそれぞれと、前記順次命令
ストリームの前記処理中の第１および第２の処理要素の
それぞれは、全く同じ命令を実行している可能性がある
が、前記第１および第２の処理要素の状態の一部の組合
せによって決定される前記コンピュータ・システムの全
体的なアーキテクチャ状態を変更できるのは、前記処理
要素の一方だけになるが、アーキテクチャ状態を制御す
る方が第１の処理要素から第２の処理要素へ変更し、第
２の処理要素から第１の処理要素に戻すことができる。
このプロセスは、まず第１に前記処理要素のうちの前記
第１のものを使用して順次命令ストリームを処理し、第
２の処理要素が要求するコンピュータ・システムのアー
キテクチャ状態の変化を前記第２の処理要素に転送し、
将来の時点で前記第２の処理要素用のアーキテクチャ状
況に使用するためにこのように転送された変化を蓄積す
るはずである。次に、前記第１の処理要素による前記順
次命令ストリームの処理中の任意の時点において、同じ
順次命令ストリームの連続処理を前記第２の処理要素に
引き継がせることが利益になると判定された場合、第２
の処理要素は、前記第１の処理要素から前に転送された
蓄積アーキテクチャ状態を復元し、前記第２の処理要素
によって前記順次命令ストリームを処理することによ
り、同じ順次命令ストリームの連続処理を引き継ぐ。第
２の処理要素が順次命令ストリームの処理を制御してい
る間、それは、将来の時点で使用すべきアーキテクチャ
状態に関する前記変化の蓄積と使用のために、第１の処
理要素が要求するコンピュータ・システムのアーキテク
チャ状態の変化を第１の処理要素に転送する。次に、も
う一度、制御を変更することができ、前記第２の処理要
素による前記順次命令ストリームの処理中の任意の時点
において、第１の処理要素に制御を再開させ、同じ順次
命令ストリームの連続処理を第１の処理要素に引き継が
せることが利益になる場合、第１の処理要素は、前記第
２の処理要素から前に転送された蓄積アーキテクチャ状
態を復元し、第１の処理要素によって前記順次命令スト
リームを処理することにより、同じ順次命令ストリーム
の連続処理を引き継ぐ。

【００３５】次に、第１の処理要素と第２の処理要素は
マルチプロセッサとして機能することができる。また、
２００、２００’、２００”によって示すように、第１
のプロセッサは、単一のＳＦＥまたは複数のＳＦＥとと
もにマルチプロセッサとして機能する複数の第１の処理
要素を含むことができる。しかし、複数のＳＦＥは、単
一のuPCoreとともに使用されないはずである。すなわ
ち、マルチプロセッサは、１組の１つまたは複数の第１
の処理要素と少なくとも１つの第２の処理要素との組合
せとともに機能することができる。好ましい実施例で
は、第２の処理要素のそれぞれについて、１つの同期ユ
ニットＳＵ２０１、２０１’、２０１”という形の同
期機能が設けられている。このＳＵは、それとともに命
令ストリームを処理する第１の処理要素uPCoreによって
処理されているものと同じ命令の処理を第２の処理要素
ＳＦＥ２０２、２０２’、２０２”が開始する時期を決
定する。したがって、各ＳＦＥごとに１つの同期ユニッ
トが設けられ、ＳＵは、制御中のuPCoreによって処理さ
れている処理ストリームのうちの同じ命令または次の命
令の処理をＳＦＥが開始する時期を決定する。また、Ｓ
Ｕは、ＳＦＥ処理要素による命令の処理を停止または無
視すべき時期を決定する。この決定は、第１および第２
の処理要素から同期ユニットに供給される入力を使用し
て、コンピュータ・システム全体の計算済み利益判定に
よって行われる。カウンタ４０７および４０８が情報を
供給する図５のように、この入力はその時点でまたはシ
ステム内に格納された情報から同期ユニットに供給する
ことができる。

【００３６】図８の７０９のように、第１の処理要素に
よる命令の処理中に機能停止判定が行われた場合、同期
ユニットは、それが処理しているものと同じ命令の処理
を第２の処理要素が開始する時期を決定する。第１の処
理要素による命令の処理中に第２の処理要素が処理する
よう設計されていない操作がある場合、すなわち、有効
命令が一切使用可能になっていない場合（７０７）、同
期ユニットは、好ましい実施例ではＳＦＥとuPCoreの状
態の再同期化による、第２の処理要素の状態とコンピュ
ータ・システムのアーキテクチャ状態との再同期化を行
う時期を決定する。命令ストリームの処理中に第２の処
理要素がコンピュータ・システムに対していかなる利益
ももたらさないと判定された場合（特定利益判定２０
８）、同期ユニットは、第２の処理要素の状態とコンピ
ュータ・システムのアーキテクチャ状態との再同期化を
行う時期を決定する。図８に示すすべての判定７０７、
７０８、７０９では、同期ユニットによって再同期化を
行うべき時期を決定するだけでなく、どの処理要素との
状態の再同期化を行うべきかも決定する。命令を前処理
しているプロセッサ、すなわち、ＳＦＥは、その結果を
それ専用の結合済み個人用ｇｐｒまたはストア・バッフ
ァ２０５、２０５’、２０５”に格納する。この格納は
他の処理要素のアーキテクチャ状態に影響しないので、
このように別々に同期化することによってＳＦＥは順次
ストリームのほとんどの命令を処理するプロセッサのパ
フォーマンスを改善することができ、ＳＦＥは前記第１
の処理要素によって処理されている処理ストリームのう
ちの次の命令または同じ命令を処理することができ、Ｓ
Ｕは前記第２の処理要素による命令の処理を停止または
無視すべき時期を決定することができる。第１の処理要
素は、取出しのために前記第１および第２の処理要素の
両方によって共用されるデータおよび命令キャッシュか
らデータを取り出す。

【００３７】好ましい実施例のこの方法により、第１の
処理要素用のキャッシュを満たし、順不同プロセッサと
して前処理を処理するために、ＳＦＥを使用して前記順
次命令ストリームを前処理することができる。再同期化
中および前記第２の処理要素による命令の処理を停止ま
たは無視すべき場合、第２の処理要素は、再同期化の前
に第１の処理要素用の命令ストリームの前処理のすべて
の結果と部分結果を除去する。

【００３８】したがって、好ましい実施例では、ＳＦ
Ｅ、同期ユニット、２つの（複数を表す）uPCore、なら
びにＳＦＥ２０２用の個人用ストア・バッファ（複数も
可）２０５が前述し図８に示す方法で使用されることが
分かるだろう。同期ユニット２０１は、図８に示すよう
にＳＦＥ２０２の状態を含む。許容できる状態は、動作
中（Ａ）、除去中（Ｂ）、ＳＦＥとuPCore２００との再
同期化中（Ｃ）、ＳＦＥとuPCore２００’との再同期化
中（Ｄ）である。初期のＳＦＥ状態は（Ｃ）である。状
態Ｃでは、ＳＦＥは、そのアドレスで順不同実行を開始
するための用意としてuPCore２００から最新のリタイヤ
された命令アドレスを受け取る。同期ユニット２０１
は、キャッシュ・ミスのためにuPCoreが機能停止したこ
とを示す表示の有無について、ＳＦＥとともに機能する
各uPCoreによって、uPCoreとのＳＵのインタフェースを
連続的に監視する。uPCoreは動作中であり、インタフェ
ース２１０によりキャッシュ記憶域および主記憶域を連
続的に参照している。命令およびオペランド・データ
は、命令およびデータ・キャッシュ２０３からインタフ
ェースによりuPCoreに返される。

【００３９】再同期化中からＳＦＥ動作中（状態Ａ）へ
の状態変化は、ＳＦＥのレジスタ管理システムがuPCore
に関連するＳＲＡＬの内容をＳＦＥのＤＲＡＬにロード
したときに発生する。ＳＦＥ動作中状態に入ると、ＳＦ
Ｅは、uPCoreからインタフェース２０６により受け取っ
た最新の命令アドレスで命令取出しと実行を開始する。
ＳＦＥのＧＰＲ状態は、同じ命令アドレスによって指し
示された命令のリタイヤ時にuPCoreが持っていたのと同
じ状態を反映する。ＳＦＥが動作中である間に、インタ
フェース２０６により受け取ったＧＰＲ結果を汎用レジ
スタ・アレイに書き込み続けるが、レジスタ管理システ
ムはそれを同期レジスタ割当てリストに関連付ける。そ
れらは、同期事象後にＳＦＥ内で実行される命令のみが
使用することになる。このため、ＳＦＥは、それが関連
付けられている各uPCoreのＧＰＲ状態の個別のイメージ
を維持し、ＳＦＥはそれに対して後でアクセスすること
ができる。一方、ＳＦＥのＲＭＳは、ＳＦＥによる命令
ストリームの実行に使用するＧＰＲのイメージを更新す
るために、ＳＦＥの実行結果のみを使用する。

【００４０】ＳＦＥは動作中状態に入った直後に順不同
命令の実行を開始することになるが、uPCoreはそれ自体
のペースで実行を続行し、uPCoreの従来の処理要素がそ
れらを使用する前に命令およびオペランド・データのキ
ャッシュ記憶域２０３に供給されるものであって推論エ
ンジン処理要素ＳＦＥの記憶域が参照するものを含むキ
ャッシュ２０３からその命令を取り出す。好ましい実施
例のuPCoreは、適正順序プロセッサとして排他的に設計
するか、または適正順序処理のために最適化するか、ま
たはすべての命令の実質的に９５％未満が予測から利益
を得られない場合に命令の処理を扱えるものにすること
ができる。したがって、それは、Ｌ１キャッシュ・ミス
の場合にパイプライン機能停止を経験する可能性があ
る。ＳＦＥは、順不同実行を行うことができるので、機
能停止を発生した命令以降も続行することができる。Ｓ
ＦＥは、動作中である間に、インタフェース２０７によ
り命令およびデータ・キャッシュと、インタフェース２
０８によりストア・バッファの両方に送られる取出し参
照を生成する。キャッシュとストア・バッファの両方が
所望のデータを持っていない場合にキャッシュ・ミスが
検出される。命令およびオペランドは、ストア・バッフ
ァ内に関連項目がない場合にはインタフェース２０７に
よりＳＦＥに返され、ストア・バッファ内に関連項目が
ある場合にはインタフェース２０８により返される。Ｓ
ＦＥストア参照は、命令およびデータ・キャッシュには
送られず、むしろストア・バッファに送られる。このた
め、ＳＦＥストア命令の結果は、uPCoreおよびキャッシ
ュのアーキテクチャ状態を変更せずにＳＦＥ上で実行さ
れる後続命令に使用可能なものにすることができる。す
べてのＳＦＥストアは、ストア・バッファ内に保持され
る。

【００４１】同期ユニットは、インタフェース２０９に
よりＳＦＥの活動を監視する。ＳＦＥが実行すべきサポ
ート済み命令を実行し尽くすかまたは処理するように設
計されていない割込みまたは例外あるいはそれ以外の点
で無効の割込みまたは例外を検出した場合、これはイン
タフェース２０９上に示される。その場合、同期ユニッ
トはＳＦＥを図８の除去中状態（Ｂ）に送る。また、同
期ユニットは、uPCoreによる命令のデコードとＳＦＥに
よる命令のリタイヤの進行状況も監視する。有効な命令
７０７がそれ以上存在しない場合またはＳＦＥが推論事
前取出し利益７０８をもたらさないと判定された場合、
ＳＦＥは、uPCore実行よりはるかに遅れていると想定さ
れ、この場合も除去中状態（Ｂ）に移行する。現在ＳＦ
Ｅに関連付けられているuPCoreが依然として判断点（７
０９）で機能停止している場合、除去中状態への移行は
ブロックされ、ＳＦＥは引き続き動作中状態になる。Ｓ
ＦＥの利益を示す他の多くの指示は、ＳＦＥが除去中状
態に入るべき時期を決定するために使用することができ
るが、本発明と一貫するものである。

【００４２】ＳＦＥは、いったん除去中状態（Ｂ）に入
ると、すべての命令、命令の一部、ならびに部分結果が
ＳＦＥのデータ経路および制御構造からクリアされるま
で、この状態から出ない。この間、いかなる要求も命令
またはデータ・キャッシュに送られない。７０６でこれ
が実施されるとＳＦＥは除去中状態を出て、２通りの状
態のうちの一方ＣまたはＤに移行することができる。Ｓ
ＦＥは、uPCore２００またはuPCore２００’のいずれか
一方との再同期化を行うことができる。このような２通
りのアクション間でＳＦＥによって決定される選択７０
４は様々な要素に基づくことができ、そのすべては本発
明と一貫するものである。好ましい実施例では、どのuP
Coreが最後にＳＦＥと同期化されたかを示す単純な指示
を使用しているが、その場合、ＳＦＥはもう一方のuPCo
reを使用してこの同期化を行うことになる。他のアルゴ
リズムを使用すると、判断点７０４により同じuPCoreが
何回も選択される可能性がある。再同期化が完了する
と、状態はもう一度動作中に戻され、サイクルが再び始
まる。

【００４３】推論エンジン（ＳＦＥ）ＳＦＥは、従来の順不同処理を使用し、さらに、推論オ
ペランドおよび命令取出しを生成するためにスーパスカ
ラ技法と呼ばれる所与の機能または技法を使用する。こ
のような技法としては、レジスタのリネーム、命令のリ
オーダ、完了スコアボードなどを含む。ＳＦＥの実施態
様としては広範な実施態様が考えられる。最適設計の基
準は、現世代の順不同設計とは全く異なるようなサイク
ル時間および領域上の制約を含むことになる。図４は、
ＳＦＥと、システムの他の要素とのインタフェースの詳
細を示している。この単純化しすぎた図は、新規のレジ
スタ管理システムと汎用レジスタ・アレイおよび命令処
理パイプラインとの対話を強調するためのものである。
これは図１および図２と似ているが、重要な違いがあ
る。第１に、ＧＰＲとuPCoreとの間のインタフェース２
０６の一部を形成する追加のインタフェース３０６が存
在する。このインタフェースは、uPCoreのＧＰＲの更新
をＳＦＥに伝達するために使用する。第２は、同期レジ
スタ割当てリスト（ＳＲＡＬ）の使用を含むように本発
明のＲＭＳ３０１が変更されていることである。第３
は、Liptay他の米国特許第４９０１２３３号に示すよう
に、メモリ階層へのストアが命令およびデータ・キャッ
シュではなく、ストア・バッファ２０５に送られること
である。ＳＦＥ内のデータ・フローは、図４に示すLipt
ay他の米国特許第４９０１２３３号から図１および図２
に示すように通過し続け、ストア・バッファ２０５に到
達する。

【００４４】インタフェース３０２、３０３、３０４、
３０５は、インタフェース２０９の一部を含み、同期ア
ドレス、除去インジケータ、再同期化指示、デコード済
み命令指示をそれぞれ伝達する。同期アドレスは、ＳＦ
ＥとuPCoreのアーキテクチャ状態との再同期化が行われ
た直後に命令取出しおよび実行のための開始点としてＳ
ＦＥが使用する。ＳＦＥ除去指示により、ＳＦＥはすべ
ての命令結果と部分結果を廃棄して、ＳＦＥのストア・
バッファの内容を除去する。再同期化指示は、ＳＦＥが
どのuPCoreとの同期を取るべきかならびに再同期化を行
う時期を決定するためにＳＦＥが使用する。ＳＦＥは、
命令完了インタフェースを使用して、命令が正常にデコ
ードされたことをＳＵに示す。ＳＵは、ＳＦＥが推論取
出し利益をもたらすかどうかを判定する際にこの情報を
使用する。ＳＦＥは、インタフェース３０７により命令
およびデータ・キャッシュと、インタフェース３０８に
よりストア・バッファとの両方に命令およびオペランド
取出し要求を送る。インタフェース３０７により送られ
た推論取出しは、機能停止後に実行を再開するときにuP
Coreが同じ取出し要求を行う前にＳＦＥによって行われ
る。それにより、uPCoreは、このような取出し要求の待
ち時間の改善を経験することになる。というのは、所望
の線が最近アクセスされ、最も近いレベルのキャッシュ
にインストールされたからである。

【００４５】ＳＦＥはuPCoreのアーキテクチャ状態とは
無関係なので、順不同命令処理の実施態様は多くのアー
キテクチャ上の懸念を免れる。このため、スケジュール
が改善され、全体的な設計のサイクル時間に及ぼす影響
が低減される。ＳＦＥに関連する実施上のリスクは、uP
Coreから完全に切り離すことができる。ＳＦＥは、大規
模かつ様々な命令セットの必要性を満たす必要があるuP
Coreにとって不可能なやり方で推論取出しを生成するた
めに最適化することができる。ＳＦＥは、たまに使用す
る命令、例外処理操作、または回復アルゴリズムを実現
する必要はない。このようなめったに起こらない事象の
場合、ＳＦＥは、命令ストリームの実行を停止し、これ
を同期ユニットに指示することになる。uPCoreは、結
局、機能停止状態から出るが、このめったに起こらない
事象が持続する場合は、適正順序設計のかなり単純な手
法によりそれを処理することになる。

【００４６】ＳＦＥの設計は、必ずしも無限ＣＰＩのた
めだけでなく、多数の命令を迅速にデコードし発行する
ために最適化しなければならない。ＳＦＥは、従来の設
計に比べ、無限Ｌ１キャッシュ・パフォーマンスに及ぼ
す影響について同じように考慮せずに、命令パイプライ
ンをより長くして設計することができる。システム全
体、すなわち、ＳＦＥとuPCoreの両方の無限Ｌ１キャッ
シュ・パフォーマンスは、ＳＦＥではなく、uPCoreのパ
イプラインのみに依存する。

【００４７】本発明の設計では、uPCoreによってオペラ
ンド事前取出しを行う必要はなく、したがって、ＳＦＥ
システムを使用すると、この機構およびそれに関連する
複雑さが必要に応じてuPCoreから除去される。場合によ
っては、オペランド事前取出しをuPCore内に保持する必
要があるが、これは本発明と一貫するものである。

【００４８】ＲＭＳに対して行った革新的な変更の詳細
を図６に示すが、同図では好ましい実施例により、ＳＦ
ＥはＳＦＥに関連する各uPCoreごとに同期レジスタ割当
てリスト（ＳＲＡＬ）を維持する。本発明のレジスタ管
理システムは、ＳＲＡＬを使用するための拡張を含み、
全体的なコンピュータ・アーキテクチャに依存せず、様
々な環境で実現することができる。したがって、本発明
の範囲を制限せずに、本発明による図４に示すＳＦＥ
は、ＩＢＭシステム３９０アーキテクチャによれば、１
６個の汎用レジスタ（ＧＰＲ）を有するものとして記載
されている。ＧＰＲレジスタ・アレイ（ＲＡ）はＲＭＳ
とともに、アーキテクチャ・レジスタの諸機能を果たす
ために、特定のＲＡ位置の特定のレジスタ割当ての動的
割当てを行う。特定のレジスタの機能が完了すると、Ｒ
Ａ内のその位置は解放され、やがて同じかまたは他のＧ
ＰＲとして再割当て可能になる。

【００４９】ＲＡは、本発明のこの実施例のアーキテク
チャによって認識される１６個のＧＰＲの諸機能を果た
すために４８個の動的割当て可能な実（物理）レジスタ
を含む。ＧＰＲ割当てをＲＡ割当てに変換するために命
令をデコードする場合、デコード・レジスタ割当てリス
ト（ＤＲＡＬ）を使用する。各命令をデコードすると、
その命令が参照するＧＰＲをＤＲＡＬで調べ、どのＲＡ
位置がＧＰＲに割り当てられているかを判定し、結果を
受け取るために新しいＲＡ位置が割り当てられると、こ
のような割当てを反映するためにＤＲＡＬが更新され
る。このため、ＧＰＲを使用する各命令は、そのＧＰＲ
を参照するために最新の命令に割り当てられているＲＡ
位置を見つけるよう、ＤＲＡＬによって指示される。

【００５０】バックアップ・レジスタ割当てリストによ
り、待機せずに、１つ、２つ、または３つの条件付き分
岐をそれぞれ処理することができる。これは、ＤＲＡＬ
と同じ構造を有し、１サイクル中にＤＲＡＬの内容全体
をＢＲＡＬにコピーするかまたはその逆を行えるように
それに接続されている。このような転送は論理ユニット
５０５によって制御される。これは、たとえば、分岐を
行うかどうかの推測が間違っていると分かった場合にＤ
ＲＡＬの内容を保管するために条件付き分岐を検出した
ときに使用する。

【００５１】アレイ制御リスト（ＡＣＬ）は、ＲＡおよ
びＳＦＥの残りから状況情報を受け取って制御情報を送
るように接続されている。論理ユニット５０５は、ＡＣ
Ｌを制御し、ＡＣＬ、ＤＲＡＬ、ＢＲＡＬの動作を調整
する。ＧＰＲをサポートするＲＡのそれぞれについて、
そのＲＡに関連する状況情報を記憶するＡＣＬレジスタ
が１つずつ存在する。また、アレイの各レジスタ位置ご
とに項目が１つずつ存在する。

【００５２】レジスタ管理システムにＳＲＡＬを追加す
ることは、ＳＦＥの機能にとって、したがって、本発明
にとってきわめて重要である。ＳＲＡＬは、ＤＲＡＬと
同じ構造を有し、１サイクル中にＳＲＡＬの内容全体を
ＤＲＡＬにコピーできるようにそれに接続されている。

【００５３】ＳＦＥが関連付けられている各uPCoreごと
に、ＳＲＡＬが１つずつ用意されている。uPCoreがＧＰ
ＲおよびＣＲ更新を生成すると、その更新はインタフェ
ース２０６によりＳＦＥに転送される。uPCoreに対する
サイクル時間の影響を最小限にするために、その結果は
１サイクル分、遅延することができる。ＧＰＲ更新はＲ
Ａに書き込まれ、ソースuPCoreに関連するＳＲＡＬはＲ
Ａ位置を指し示すように更新される。本実施例のuPCore
は通常、適正順序実行設計として機能するので、インタ
フェース２０６上のＧＰＲ更新はリタイヤした命令に関
するＧＰＲ更新を反映し、したがって、ＳＲＡＬが現在
示しているのと同じＲＡに必ず書き込むことができる。
uPCoreからの連続更新を収容できることを保証するため
に、再同期化動作中にＳＲＡＬには１６個の新しいＲＡ
項目を用意しなければならない。本実施例では、これは
問題ではない。というのは、再同期化動作の前に必ず、
ＳＲＡＬに関連するもの以外のすべてのＲＡ項目を解放
するＳＦＥ除去が行われるからである。ＳＲＡＬ内のＳ
ＦＥコピーにおけるuPCoreのＧＰＲ状態は、必ず、最低
１サイクル遅延している。ＳＦＥがuPCoreとの同期を取
る必要がある場合、ＳＲＡＬの内容をＤＲＡＬに移動す
るだけで、このタスクが達成される。この動作は、予測
ミス分岐の場合にマイクロプロセッサの状態を復元する
ためにLiptayでＢＲＡＬを使用する方法に似ている。

【００５４】本発明のＳＲＡＬの機能は、LiptayのＢＲ
ＡＬとは相当異なっている。第１に、ＳＲＡＬには、uP
Coreの場合のように他の命令処理パイプラインからのＧ
ＰＲ更新が書き込まれることである。

【００５５】第２に、ＳＲＡＬの内容をＤＲＡＬに移動
させるトリガが、LiptayでＢＲＡＬの内容をＤＲＡＬに
移動させるトリガとは非常に異なることである。Liptay
では、予測ミス分岐がトリガになる。本発明では、事前
取出し利益が一切ないという指示をトリガとして使用
し、したがって、米国特許第４９０１２３３号とその商
用実施例は本発明によるＳＲＡＬの機能とは全く異なる
ことが分かるだろう。ＢＲＡＬはこの目的には使用でき
ないが、本発明では、Liptayによって導入されたものと
同じ機能、すなわち、分岐推測指示が間違っているとい
う判定後にプロセッサ状態を復元するために使用する。
第３の重要な違いは、ＳＲＡＬの内容をＤＲＡＬに移動
したときに、ＳＲＡＬ内のすべての項目が１６個の新し
いＲＡ位置を指し示すように直ちに変更されることであ
る。Liptayでは、未解決の分岐をデコードする場合に、
ＢＲＡＬがＤＲＡＬから直接ロードされる。

【００５６】複数のＳＲＡＬを使用すると、ＳＦＥは複
数のuPCoreとの同期を取ることができるようになる。２
つまたはそれ以上のuPCoreが同じＳＦＥを使用して事前
取出し利益をもたらすことができるが、両方が同時にそ
のＳＦＥを使用することはできない。それぞれの追加の
ＳＲＡＬは、同期化のために関連のuPCoreのＧＰＲ結果
バスならびに関連のストア・バッファを伴わなければな
らない。

【００５７】uPCore この好ましい実施例のuPCore設計は、従来のマイクロプ
ロセッサ（好ましいことにMotorolaおよびＩＢＭから販
売されたPowerPC 601などの現行のスーパスカラ設計の
１つであるが、Intel 286などのさらに古い設計でもよ
い）である。コンピュータ設計の分野では、１つのシス
テムが複数の汎用実行ユニットを有することは既知のこ
とである。たとえば、汎用ユニットは、実行する機能の
タイプに沿って設計することができる。このuPCore内に
はこのような汎用実行ユニットが２つだけ示されている
が、汎用実行ユニットをいくつ使用してもその使用は本
発明と一貫するものである。本発明のuPCore部分は、図
７に示すものを除き、従来のマイクロプロセッサ設計に
対する特定の変更を必要としない。図７は、最新のリタ
イヤ済み命令のアドレスを６０４でどのようにラッチ
し、インタフェース６０４’によりＳＦＥに誘導するか
を示している。汎用実行ユニット６０１および６０２か
らのＧＰＲ結果バスも６０３でラッチされ、そのインタ
フェイス６０３’によりＳＦＥに誘導される。図７に示
すuPCoreは適正順序設計であるが、マイクロプロセッサ
として現在商業使用されているものなどの順不同設計要
素の使用も本発明の設計と一貫するものである。

【００５８】同期ユニット同期ユニット（ＳＵ２０１）は、uPCoreとＳＦＥとの
対話を制御するために必要な論理機能のすべてを含んで
いる。ＳＵは、状態マシンと、関連の入力レジスタ４０
４、４０５、４０６とからなる。状態マシンの出力は、
除去機能およびレジスタ管理システムへの入力を制御す
るようなＳＦＥへのインタフェース２０９からなる。Ｒ
ＭＳへの線は、同期動作の場合にＤＲＡＬへのＳＲＡＬ
のロードを制御する。

【００５９】同期ユニットは、ＳＦＥがシステム全体に
事前取出し利益をもたらすかどうかを判定するために使
用する論理機能を含んでいる。この実施例では、２つの
命令カウンタ４０８、４０７を使用して、この機能を提
供する。第１のカウンタ４０８は、uPCoreが命令をリタ
イヤするたびに増分される。第２のカウンタ４０７は、
ＳＦＥが命令をデコードするたびに増分する。両方のカ
ウンタは、再同期化動作中にゼロにリセットされる。再
同期化後、両方のカウンタの比較を使用して、ＳＦＥが
uPCoreに役立つような推論取出し参照を生成する機会を
有するかどうかを判定する。uPCoreの実行より十分先だ
ってＳＦＥが命令をデコードしていない場合、利益を得
る可能性は全くない。２つのカウンタを比較すると、図
８の特定利益判断点７０８への入力として、利益を得る
可能性を示す不正確だが十分な指示が得られる。本実施
例では、この用途のために１０というしきい値を使用す
る。ＳＦＥデコード・カウントがuPCoreリタイヤ・カウ
ントより少なくとも１０大きくない場合、同期ユニット
はいかなる利益も示さないことになる。

【００６０】また、同期ユニットは、ＳＦＥが現在どの
uPCoreに関連付けられているかを示す指示も保持する。
各ＳＦＥは単一の同期ユニットを有するが、各ＳＦＥは
いくつのuPCoreにも関連付けることができる。本実施例
では、１つのＳＦＥが２つのuPCoreに関連付けられてい
る。

【００６１】ＣＰとＳＥとの対話の代替拡張ＣＰとＳＥとの対話の拡張として可能なものが他にもあ
る。一例としては、ＳＥとＣＰの両方によって共用され
る分岐予測テーブルをＳＥに更新させることを含むだろ
う。また、ＳＥは、ＣＰがパイプライン崩壊を回避でき
るような潜在的な命令例外または他の条件に関するヒン
トもＣＰに提供できるだろう。ＳＦＥ取出し要求に応答
して取り出された命令およびオペランド・データは、uP
Coreに直接転送することができる。したがって、データ
は、推論要求が正確である場合、uPCoreの汎用実行ユニ
ットおよび命令デコード論理回路により近いものにな
る。このため、実施態様によっては、有限キャッシュの
不利益をさらに低減することができる。

【００６２】本発明の好ましい実施例について記載して
きたが、当業者であれば、現在ならびに将来、本出願人
の開発の範囲内に該当する様々な改良および強化を行う
ことができることが分かるだろう。

【００６３】様々な改良を行う人は、順不同（または順
序）実行は無限Ｌ１キャッシュＣＰＩの低減に比べ、有
限Ｌ１キャッシュＣＰＩの低減の際により大きい利益を
もたらすことが本出願人のパフォーマンス分析によって
示されていることが分かるだろう。現行技術は、有限キ
ャッシュ効果が迅速に拡大し、それにより、有限Ｌ１Ｃ
ＰＩの利益が無限Ｌ１ＣＰＩの利益よりはるかに大き
くなることを示す傾向にある。

【００６４】これまで詳述したように、コア・マイクロ
プロセッサをサポートする推論取出しエンジン（ＳＦ
Ｅ）を設けることと、一致アクションのアーキテクチャ
状態を維持しながら、ＳＦＥとマイクロプロセッサ・コ
ア（uPCore）の両方によって共用される記憶階層への推
論メモリ参照を可能にするようにコア・マイクロプロセ
ッサと協力して対話することにより、順不同実行を使用
する従来技術の設計の大幅な単純化を希望するか、また
は順不同実行を使用しない従来技術の設計に対する大幅
なパフォーマンスの改善を希望する人に利益をもたらす
だろう。理論的には、本発明は、システム・パフォーマ
ンスの向上を追求して順不同実行の使用に関連する設計
上の兼ね合いをさらに最適化できるようにするものであ
る。また、本発明では、最近の設計の一部で使用してい
るステージがますます深くなるのとは対照的に、メイン
・パイプラインに対して順不同実行の複雑さを大幅に増
加せずに、周波数が高く、複雑さが低く、無限Ｌ１キャ
ッシュＣＰＩが低くなるようにマイクロプロセッサの設
計を最適化することができる。

【００６５】同時に、このコプロセッサは、マイクロプ
ロセッサとコプロセッサの両方に関する有限キャッシュ
効果の低減を追求して、かなりの程度まで順不同実行技
法を使用することができる。コプロセッサ内の順不同実
行の複雑さは、コプロセッサがアーキテクチャ化命令の
フルセットまたは命令実行に関連する例外および割込み
のフルセットをサポートする必要がないことによって軽
減される。上記の請求の範囲は、さらなる改良点を包含
し、最初に開示した本発明の適切な保護を維持するもの
と解釈しなければならない。

【００６６】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６７】（１）第１および第２の処理要素を有する
コンピュータ・システム内で順次命令ストリームを処理
するための方法であって、前記処理要素のそれぞれがそ
れ自体の汎用レジスタおよび制御レジスタの設定によっ
て決定されるそれ自体の状態を有し、前記処理要素の第
１のものに前記順次命令ストリームの初期命令を向ける
ステップと、前記処理要素の第１のものを使用して前記
順次命令ストリームの処理を続行し、前記コンピュータ
・システムのアーキテクチャ状態の変化を前記第２の処
理要素に転送するステップと、前記第１の処理要素によ
る前記順次命令ストリームの処理中の任意の時点におい
て、同じ順次命令ストリームの連続処理を前記第２の処
理要素に引き継がせることが利益になる場合、転送され
た状態を前記第２の処理要素によって復元し、前記第２
の処理要素によって前記順次命令ストリームを処理する
ことにより、同じ順次命令ストリームの連続処理を引き
継ぐステップとを含み、次に前記第２の処理要素が、前
記第２の処理要素による前記順次命令ストリームの処理
中に、前記コンピュータ・システムのアーキテクチャ状
態の変化を前記第１の処理要素に転送し、それにより、
前記第１および第２の処理要素が、前記順次命令ストリ
ームの前記処理中に、全く同じ命令を実行している可能
性があるが、前記第１および第２の処理要素の状態の組
合せによって決定される前記コンピュータ・システムの
全体的なアーキテクチャ状態を変更することができるの
は、前記処理要素の一方だけになる方法。（２）前記第１の処理要素が、マルチプロセッサとして
機能する複数の第１の処理要素を含む、上記（１）に記
載の方法。（３）前記状態の組合せが前記第１の処理要素によって
決定される、上記（１）に記載の方法。（４）前記第１および第２の処理要素の前記状態の組合
せが前記第１の処理要素によって決定され、１つまたは
複数の第１の処理要素と少なくとも１つの第２の処理要
素からなるセットがマルチプロセッサとして機能する、
上記（１）に記載の方法。（５）前記第２の処理要素のそれぞれについて１つの同
期ユニットが設けられている、上記（４）に記載の方
法。（６）前記第２の処理要素のそれぞれについて１つの同
期ユニットが設けられ、それが前記第１の処理要素によ
って処理されているものと同じ命令の処理を前記第２の
処理要素が開始する時期を決定する、上記（４）に記載
の方法。（７）前記第２の処理要素のそれぞれについて１つの同
期ユニットが設けられ、それが前記第１の処理要素によ
って処理されている処理ストリームのうちの次の命令ま
たは同じ命令の処理を前記第２の処理要素が開始する時
期を決定する、上記（４）に記載の方法。（８）前記第２の処理要素のそれぞれについて１つの同
期ユニットが設けられ、それが前記第１の処理要素によ
って処理されている処理ストリームのうちの次の命令ま
たは同じ命令の処理を前記第２の処理要素が開始する時
期を決定し、前記第２の処理要素による命令の処理を停
止または無視すべき時期を決定する、上記（４）に記載
の方法。（９）前記第２の処理要素による命令の処理を停止また
は無視すべき時期の決定が、前記第１および第２の処理
要素から前記同期ユニットに供給される入力を使用し
て、前記コンピュータ・システム全体の計算済み利益判
定に基づいて行われる、上記（８）に記載の方法。（１０）前記同期ユニットに供給される前記入力が、前
記システム内で現在決定されるかまたは格納されている
情報を含む、上記（９）に記載の方法。（１１）前記同期ユニットの命令カウンタ内に格納され
ている、上記（１０）に記載の方法。（１２）前記第１の処理要素による命令の処理中に機能
停止が発生した場合、前記同期ユニットが前記第１の処
理要素によって処理されているものと同じ命令の処理を
前記第２の処理要素が開始する時期を決定する、上記
（６）に記載の方法。（１３）前記第１の処理要素による命令の処理中に前記
第２の処理要素が処理するよう設計されていない操作が
ある場合、前記同期ユニットが前記第２の処理要素の状
態と前記アーキテクチャ状態との再同期化を行う時期を
決定する、上記（６）に記載の方法。（１４）前記命令ストリームの処理中に前記第２の処理
要素が前記コンピュータ・システムに対していかなる利
益ももたらさないと判定された場合、前記同期ユニット
が前記第２の処理要素の状態と前記アーキテクチャ状態
との再同期化を行う時期を決定する、上記（６）に記載
の方法。（１５）前記第１の処理要素による命令の処理中に機能
停止が発生した場合、前記同期ユニットが前記第１の処
理要素によって処理されているものと同じ命令の処理を
前記第２の処理要素が開始する時期ならびに前記第１の
処理要素のうちのどの処理要素とともに開始するかを決
定する、上記（６）に記載の方法。（１６）前記第１の処理要素による命令の処理中に前記
第２の処理要素が処理するよう設計されていない操作が
ある場合、前記同期ユニットが前記第２の処理要素の状
態と前記アーキテクチャ状態との再同期化を行う時期な
らびに前記第１の処理要素のうちのどの処理要素ととも
に行うかを決定する、上記（６）に記載の方法。（１７）前記命令ストリームの処理中に前記第２の処理
要素が前記コンピュータ・システムに対していかなる利
益ももたらさないと判定された場合、前記同期ユニット
が前記第２の処理要素の状態と前記アーキテクチャ状態
との再同期化を行う時期ならびに前記第１の処理要素の
うちのどの処理要素とともに行うかを決定する、上記
（６）に記載の方法。（１８）前記第２の処理要素の結果のストアがその個人
用汎用レジスタまたはストア・バッファに対して行われ
る、上記（６）に記載の方法。（１９）前記第２の処理要素に１つの同期ユニットが設
けられ、それが前記第１の処理要素によって処理されて
いる処理ストリームのうちの次の命令または同じ命令の
処理を前記第２の処理要素が開始する時期を決定し、前
記第２の処理要素による命令の処理を停止または無視す
べき時期を決定する、上記（１）に記載の方法。（２０）前記第２の処理要素が、前記順次命令ストリー
ムの命令の処理時に、前記第２の処理要素に結合された
その個人用汎用レジスタまたは個人用ストア・バッファ
に結果を格納し、前記第１の処理要素が、取出しのため
に前記第１および第２の処理要素の両方によって共用さ
れるデータおよび命令キャッシュからデータを取り出
す、上記（１）に記載の方法。（２１）前記第１の処理要素によって処理される命令ス
トリームの同じ命令のうちの一部を処理するために前記
第２の処理要素を使用する、上記（２０）に記載の方
法。（２２）前記第２の処理要素が順不同プロセッサであ
る、上記（２１）に記載の方法。（２３）機能停止後に前記第１および第２のプロセッサ
の再同期化を行い、再同期化中に前記第２の処理要素が
再同期化前に前記第１の処理要素用の命令ストリームの
前処理のすべての結果と部分結果を除去する、上記（１
５）に記載の方法。（２４）再同期化中に前記第２の処理要素が再同期化前
に前記第１の処理要素用の命令ストリームの前処理のす
べての結果と部分結果を除去する、上記（１６）に記載
の方法。（２５）再同期化中に前記第２の処理要素が再同期化前
に前記第１の処理要素用の命令ストリームの前処理のす
べての結果と部分結果を除去する、上記（１７）に記載
の方法。（２６）第１および第２の処理要素を有するコンピュー
タ・システム内で順次命令ストリームを処理するための
方法であって、前記処理要素のそれぞれがそれ自体の汎
用レジスタおよび制御レジスタの設定によって決定され
るそれ自体の状態を有し、前記処理要素の第１のものに
前記順次命令ストリームの初期命令を向けるステップ
と、前記処理要素の第１のものを使用して前記順次命令
ストリームの処理を続行し、前記第２の処理要素が要求
する前記コンピュータ・システムのアーキテクチャ状態
の変化を前記第２の処理要素に転送し、将来の時点で前
記第２の処理要素用のアーキテクチャ状況に使用するた
めに前記転送された変化を蓄積し、前記第１の処理要素
による前記順次命令ストリームの処理中の任意の時点に
おいて、同じ順次命令ストリームの連続処理を前記第２
の処理要素に引き継がせることが利益になる場合、前記
第２の処理要素によって前記第１の処理要素から前に転
送された前記蓄積アーキテクチャ状態を復元し、前記第
２の処理要素によって前記順次命令ストリームを処理す
ることにより、同じ順次命令ストリームの連続処理を引
き継ぐステップとを含み、次に前記第２の処理要素が、
前記順次命令ストリームの処理中に、将来の時点で使用
すべきアーキテクチャ状態に関する変化の蓄積と使用の
ために、前記第１の処理要素が要求する前記コンピュー
タ・システムのアーキテクチャ状態の変化を前記第１の
処理要素に転送し、それにより、前記第１および第２の
処理要素が、前記順次命令ストリームの前記処理中に、
全く同じ命令を実行している可能性があるが、前記第１
および第２の処理要素の状態の一部の組合せによって決
定される前記コンピュータ・システムの全体的なアーキ
テクチャ状態を変更することができるのは、前記処理要
素の一方だけになる方法。（２７）前記第２の処理要素による前記順次命令ストリ
ームの処理中の任意の時点において、同じ順次命令スト
リームの連続処理を前記第１の処理要素に引き継がせる
ことが利益になる場合、前記第１の処理要素によって前
記第２の処理要素から前に転送された前記蓄積アーキテ
クチャ状態を復元し、前記第１の処理要素によって前記
順次命令ストリームを処理することにより、同じ順次命
令ストリームの連続処理を引き継ぎ、前記第１の処理要
素がマルチプロセッサとして機能する複数の第１の処理
要素を含む、上記（２６）に記載の方法。（２８）命令およびデータ用のキャッシュ記憶域を備え
た階層メモリを有するコンピュータ・システムであっ
て、パイプライン・ステージごとに定義された長さと定
義された遅延を有する少なくとも１つの命令パイプライ
ンによって命令を処理するための少なくとも１つの従来
の処理要素と、順不同処理から有限キャッシュ改良を導
出する命令シーケンスに関し、順不同命令を含む命令を
処理するための追加の推論エンジン処理要素とを含み、
前記追加の推論エンジン処理要素と前記従来の処理要素
が、命令ストリームを処理するために協力して動作する
ように結合され、前記従来の処理要素がそのパイプライ
ン・ハンドルによって一致アクションのアーキテクチャ
状態を維持し、前記推論エンジン処理要素が推論プロセ
スを処理し、その結果は前記コンピュータ・システムの
アーキテクチャ状態を変更する可能性はないが、前記従
来の処理要素によって検出された有限キャッシュの不利
益を改善する、コンピュータ・システム。（２９）前記推論処理要素が、中央処理領域内のｍ個の
レジスタであって、ｍは１つの命令の１つまたは複数の
２進フィールドによって識別される命令アドレス可能Ｇ
ＰＲの所定の個数ｎより大きいレジスタと、順不同命令
実行のための備えであって、分岐方向推測に基づいて条
件付き分岐命令を処理するための備えとを含む、上記
（２８）に記載のコンピュータ・システム。（３０）前記従来の処理要素が、前記従来の処理要素に
よって検出された記憶参照の順序を改善するために独立
して命令を事前取出しして実行するために前記追加の推
論エンジン処理要素を提供するコプロセッサに結合さ
れ、前記システムが、前記追加の推論エンジン処理要素
と前記従来の処理要素の両方に結合され、その両方によ
って共用される前記命令およびデータキャッシュを含む
前記記憶階層への推論メモリ参照の生成を可能にするレ
ジスタ管理プロセスを使用する、上記（２８）に記載の
コンピュータ・システム。（３１）命令およびデータを取り出すために、前記従来
の順不同処理要素と、前記追加の推論エンジン処理要素
を提供する前記コプロセッサとの両方に結合された命令
およびデータ・キャッシュと、前記追加の推論エンジン
処理要素のストアおよび取出しコマンドに応答して命令
およびデータを双方向転送するための独立ストア・バッ
ファとをさらに含む、上記（３０）に記載のコンピュー
タ・システム。（３２）前記従来の処理要素と前記追加の推論エンジン
処理要素との同期を取るために、前記従来の処理要素
と、前記追加の推論エンジン処理要素を提供する前記コ
プロセッサとの両方に結合された同期ユニットをさらに
含む、上記（３１）に記載のコンピュータ・システム。（３３）前記追加の推論エンジン処理要素を提供するコ
プロセッサが、前記従来の順不同処理要素および前記命
令およびデータ・キャッシュのアーキテクチャ状態を変
更せずに、前記追加の推論エンジン処理要素上で実行さ
れる後続命令に使用可能なものにするために、命令およ
びデータ・キャッシュに送られず、むしろストア・バッ
ファに送られるストア参照を生成し、すべての追加の推
論エンジン処理要素ストアが前記独立ストア・バッファ
に対して行われる、上記（３１）に記載のコンピュータ
・システム。（３４）前記キャッシュと前記ストア・バッファの両方
が所望のデータを持っていない場合に推論コプロセッサ
・キャッシュ・ミスが検出され、命令およびオペランド
は、前記ストア・バッファ内に関連項目がない場合には
第１のインタフェースにより前記追加の推論エンジン処
理要素に返され、前記ストア・バッファ内に関連項目が
ある場合には第２のインタフェースにより返される、上
記（３３）に記載のコンピュータ・システム。（３５）ＧＰＲインタフェースにより前記従来の順不同
処理要素の更新を前記追加の推論エンジン処理要素に伝
達するために、前記従来の順不同処理要素の汎用アーキ
テクチャ・レジスタ間のＧＰＲインタフェースをさらに
含む、上記（３１）に記載のコンピュータ・システム。（３６）前記ＧＰＲインタフェースにより前記従来の処
理要素と追加の推論エンジン処理要素の前記パイプライ
ン・ステージの同期を取るために同期レジスタ割当てリ
ストを有するレジスタ管理システムをさらに含む、上記
（３１）に記載のコンピュータ・システム。（３７）前記ＧＰＲインタフェースによる前記追加の推
論エンジン処理要素から前記メモリ階層へのストアが、
前記命令およびデータ・キャッシュではなく、そのスト
ア・バッファに送られる、上記（３１）に記載のコンピ
ュータ・システム。（３８）前記ＧＰＲインタフェースによる前記追加の推
論エンジン処理要素から前記メモリ階層へのストアが、
前記命令およびデータ・キャッシュではなく、そのスト
ア・バッファに送られ、前記ＧＰＲインタフェースによ
り前記従来の順不同処理要素の更新を前記追加の推論エ
ンジン処理要素に伝達するために、前記従来の順不同処
理要素の汎用アーキテクチャ・レジスタ間のＧＰＲイン
タフェースが設けられ、前記ＧＰＲインタフェースによ
り前記従来の処理要素と追加の推論エンジン処理要素の
前記パイプライン・ステージの同期を取るために同期レ
ジスタ割当てリストを有するレジスタ管理システムが設
けられている、上記（３１）に記載のコンピュータ・シ
ステム。（３９）前記追加の推論エンジン処理要素が命令を処理
するためにパイプライン・ステージごとに定義された長
さと定義された遅延を有する１つまたは複数のパイプラ
インからなる命令パイプラインを有し、前記従来の処理
要素が前記推論エンジン処理要素より少ないパイプライ
ン・ステージを有するが、前記追加の推論エンジン処理
要素による順不同処理から有限キャッシュ改良を導出し
ない命令シーケンスの場合にパイプラインの各ステージ
ごとに等しい遅延が存在する、上記（２８）に記載のコ
ンピュータ・システム。（４０）前記従来の処理要素が命令を処理するためにパ
イプライン・ステージごとに定義された長さと定義され
た遅延を有する１つまたは複数のパイプラインからなる
命令パイプラインを有し、前記従来の処理要素が前記推
論エンジン処理要素コプロセッサより少ないパイプライ
ン・ステージを有するが、前記追加の推論エンジン処理
要素による順不同処理から有限キャッシュ改良を導出し
ない命令シーケンスの場合にパイプラインの各ステージ
ごとに等しい遅延が存在する、上記（３１）に記載のコ
ンピュータ・システム。（４１）命令およびデータ用のキャッシュ記憶域を備え
た階層メモリを有するマイクロプロセッサであって、パ
イプライン・ステージごとに定義された長さと定義され
た遅延を有する複数のパイプラインによって命令を処理
するための少なくとも１つの従来の処理要素と、順不同
処理から有限キャッシュ・サポートを導出する命令シー
ケンスに関し、順不同命令を含む命令を処理するための
追加の推論エンジン処理要素とを含み、前記追加の推論
エンジン処理要素と前記従来の処理要素が、命令ストリ
ームを処理するために協力して動作するように結合さ
れ、前記従来の処理要素がそのパイプライン・ハンドル
によって一致アクションのアーキテクチャ状態を維持
し、前記推論エンジン処理要素が推論プロセスを処理
し、その結果は前記コンピュータ・システムのアーキテ
クチャ状態を変更する可能性はないが、レジスタ管理お
よび前記複数のパイプラインの同期により前記従来の処
理要素によって検出された有限キャッシュの不利益を改
善する、マイクロプロセッサ。

【図面の簡単な説明】

【図１】本出願人のLiptayの米国特許第４９０１２３３
号が示すものと同じ記述内容を示す図であり、本出願人
の開発後に本出願人の従来のメインフレームや、Intel
のPentiumマイクロプロセッサ、Digital社のAlpha、Sun
Microsystem社のUltraSparcマイクロプロセッサなどの
マイクロプロセッサにおいて広く使用されてきた従来の
努力の限界を示す図である。

【図２】本出願人のLiptayの米国特許第４９０１２３３
号が示すものと同じ記述内容を示す図であり、本出願人
の開発後に本出願人の従来のメインフレームや、Intel
のPentiumマイクロプロセッサ、Digital社のAlpha、Sun
Microsystem社のUltraSparcマイクロプロセッサなどの
マイクロプロセッサにおいて広く使用されてきた従来の
努力の限界を示す図である。

【図３】好ましい実施例の概要を示す概略図である。

【図４】ＳＦＥの詳細と、ＳＦＥとストア・バッファ、
キャッシュ、uPCoreとのインタフェースを示す図であ
る。また、ＳＦＥとuPCoreによって共用されるキャッシ
ュによりＳＦＥの命令およびオペランド取出しを経路指
定するための好ましいハードウェアも示す。

【図５】uPCoreとＳＦＥとの間の同期ユニットをより詳
細に示す図である。

【図６】uPCoreとＳＦＥとの同期に対応するためにLipt
ayのレジスタ・リネーム発明に対して行った改良をより
詳細に示す図である。

【図７】uPCoreの好ましいハードウェアを示す図であ
る。

【図８】パフォーマンスを改善するために使用する方法
Ｉを示すために、推論エンジンとマイクロプロセッサuP
Coreとの対話をデータ・フロー図としてより詳細に示す
図である。（注：例示の便宜上、図を各部に分離している可能性
があるが、複数の用紙を使用する場合、慣例として、図
の最上部を１枚目として配置し、後続の用紙は順に下方
および反対側に移行してその図を示すものとする。）

【符号の説明】

２００マイクロプロセッサ・コア（uPCore）２００’ マイクロプロセッサ・コア（uPCore）２００” マイクロプロセッサ・コア（uPCore）２０１同期ユニット（ＳＵ）２０１’ 同期ユニット（ＳＵ）２０１” 同期ユニット（ＳＵ）２０２推論取出しエンジン（ＳＦＥ）２０２’ 推論取出しエンジン（ＳＦＥ）２０２” 推論取出しエンジン（ＳＦＥ）２０３命令およびデータ・キャッシュ２０３’ 命令およびデータ・キャッシュ２０３” 命令およびデータ・キャッシュ２０４メイン・メモリ２０５ストア・バッファ２０５’ ストア・バッファ２０５” ストア・バッファ２０６インタフェース２０７インタフェース２０８インタフェース２０９インタフェース２１０インタフェース

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウィリアム・トッド・ボイドアメリカ合衆国12603 ニューヨーク州ポーキープシーカーメン・ドライブ 37

Claims

【特許請求の範囲】

【請求項１】第１および第２の処理要素を有するコンピ
ュータ・システム内で順次命令ストリームを処理するた
めの方法であって、前記処理要素のそれぞれがそれ自体
の汎用レジスタおよび制御レジスタの設定によって決定
されるそれ自体の状態を有し、前記処理要素の第１のものに前記順次命令ストリームの
初期命令を向けるステップと、前記処理要素の第１のものを使用して前記順次命令スト
リームの処理を続行し、前記コンピュータ・システムの
アーキテクチャ状態の変化を前記第２の処理要素に転送
するステップと、前記第１の処理要素による前記順次命令ストリームの処
理中の任意の時点において、同じ順次命令ストリームの
連続処理を前記第２の処理要素に引き継がせることが利
益になる場合、転送された状態を前記第２の処理要素によって復元し、
前記第２の処理要素によって前記順次命令ストリームを
処理することにより、同じ順次命令ストリームの連続処
理を引き継ぐステップとを含み、次に前記第２の処理要素が、前記第２の処理要素による
前記順次命令ストリームの処理中に、前記コンピュータ
・システムのアーキテクチャ状態の変化を前記第１の処
理要素に転送し、それにより、前記第１および第２の処理要素が、前記順
次命令ストリームの前記処理中に、全く同じ命令を実行
している可能性があるが、前記第１および第２の処理要
素の状態の組合せによって決定される前記コンピュータ
・システムの全体的なアーキテクチャ状態を変更するこ
とができるのは、前記処理要素の一方だけになる方法。
【請求項２】前記第１の処理要素が、マルチプロセッサ
として機能する複数の第１の処理要素を含む、請求項１
に記載の方法。
【請求項３】前記状態の組合せが前記第１の処理要素に
よって決定される、請求項１に記載の方法。
【請求項４】前記第１および第２の処理要素の前記状態
の組合せが前記第１の処理要素によって決定され、１つ
または複数の第１の処理要素と少なくとも１つの第２の
処理要素からなるセットがマルチプロセッサとして機能
する、請求項１に記載の方法。
【請求項５】前記第２の処理要素のそれぞれについて１
つの同期ユニットが設けられている、請求項４に記載の
方法。
【請求項６】前記第２の処理要素のそれぞれについて１
つの同期ユニットが設けられ、それが前記第１の処理要
素によって処理されているものと同じ命令の処理を前記
第２の処理要素が開始する時期を決定する、請求項４に
記載の方法。
【請求項７】前記第２の処理要素のそれぞれについて１
つの同期ユニットが設けられ、それが前記第１の処理要
素によって処理されている処理ストリームのうちの次の
命令または同じ命令の処理を前記第２の処理要素が開始
する時期を決定する、請求項４に記載の方法。
【請求項８】前記第２の処理要素のそれぞれについて１
つの同期ユニットが設けられ、それが前記第１の処理要
素によって処理されている処理ストリームのうちの次の
命令または同じ命令の処理を前記第２の処理要素が開始
する時期を決定し、前記第２の処理要素による命令の処
理を停止または無視すべき時期を決定する、請求項４に
記載の方法。
【請求項９】前記第２の処理要素による命令の処理を停
止または無視すべき時期の決定が、前記第１および第２
の処理要素から前記同期ユニットに供給される入力を使
用して、前記コンピュータ・システム全体の計算済み利
益判定に基づいて行われる、請求項８に記載の方法。
【請求項１０】前記第１の処理要素による命令の処理中
に機能停止が発生した場合、前記同期ユニットが前記第
１の処理要素によって処理されているものと同じ命令の
処理を前記第２の処理要素が開始する時期を決定する、
請求項６に記載の方法。
【請求項１１】前記第１の処理要素による命令の処理中
に前記第２の処理要素が処理するよう設計されていない
操作がある場合、前記同期ユニットが前記第２の処理要
素の状態と前記アーキテクチャ状態との再同期化を行う
時期を決定する、請求項６に記載の方法。
【請求項１２】前記命令ストリームの処理中に前記第２
の処理要素が前記コンピュータ・システムに対していか
なる利益ももたらさないと判定された場合、前記同期ユ
ニットが前記第２の処理要素の状態と前記アーキテクチ
ャ状態との再同期化を行う時期を決定する、請求項６に
記載の方法。
【請求項１３】前記第１の処理要素による命令の処理中
に機能停止が発生した場合、前記同期ユニットが前記第
１の処理要素によって処理されているものと同じ命令の
処理を前記第２の処理要素が開始する時期ならびに前記
第１の処理要素のうちのどの処理要素とともに開始する
かを決定する、請求項６に記載の方法。
【請求項１４】前記第１の処理要素による命令の処理中
に前記第２の処理要素が処理するよう設計されていない
操作がある場合、前記同期ユニットが前記第２の処理要
素の状態と前記アーキテクチャ状態との再同期化を行う
時期ならびに前記第１の処理要素のうちのどの処理要素
とともに行うかを決定する、請求項６に記載の方法。
【請求項１５】前記命令ストリームの処理中に前記第２
の処理要素が前記コンピュータ・システムに対していか
なる利益ももたらさないと判定された場合、前記同期ユ
ニットが前記第２の処理要素の状態と前記アーキテクチ
ャ状態との再同期化を行う時期ならびに前記第１の処理
要素のうちのどの処理要素とともに行うかを決定する、
請求項６に記載の方法。
【請求項１６】前記第２の処理要素に１つの同期ユニッ
トが設けられ、それが前記第１の処理要素によって処理
されている処理ストリームのうちの次の命令または同じ
命令の処理を前記第２の処理要素が開始する時期を決定
し、前記第２の処理要素による命令の処理を停止または
無視すべき時期を決定する、請求項１に記載の方法。
【請求項１７】前記第２の処理要素が、前記順次命令ス
トリームの命令の処理時に、前記第２の処理要素に結合
されたその個人用汎用レジスタまたは個人用ストア・バ
ッファに結果を格納し、前記第１の処理要素が、取出し
のために前記第１および第２の処理要素の両方によって
共用されるデータおよび命令キャッシュからデータを取
り出す、請求項１に記載の方法。
【請求項１８】前記第１の処理要素によって処理される
命令ストリームの同じ命令のうちの一部を処理するため
に前記第２の処理要素を使用する、請求項１７に記載の
方法。
【請求項１９】機能停止後に前記第１および第２のプロ
セッサの再同期化を行い、再同期化中に前記第２の処理
要素が再同期化前に前記第１の処理要素用の命令ストリ
ームの前処理のすべての結果と部分結果を除去する、請
求項１３に記載の方法。
【請求項２０】再同期化中に前記第２の処理要素が再同
期化前に前記第１の処理要素用の命令ストリームの前処
理のすべての結果と部分結果を除去する、請求項１４に
記載の方法。
【請求項２１】再同期化中に前記第２の処理要素が再同
期化前に前記第１の処理要素用の命令ストリームの前処
理のすべての結果と部分結果を除去する、請求項１５に
記載の方法。
【請求項２２】第１および第２の処理要素を有するコン
ピュータ・システム内で順次命令ストリームを処理する
ための方法であって、前記処理要素のそれぞれがそれ自
体の汎用レジスタおよび制御レジスタの設定によって決
定されるそれ自体の状態を有し、前記処理要素の第１のものに前記順次命令ストリームの
初期命令を向けるステップと、前記処理要素の第１のものを使用して前記順次命令スト
リームの処理を続行し、前記第２の処理要素が要求する
前記コンピュータ・システムのアーキテクチャ状態の変
化を前記第２の処理要素に転送し、将来の時点で前記第
２の処理要素用のアーキテクチャ状況に使用するために
前記転送された変化を蓄積し、前記第１の処理要素によ
る前記順次命令ストリームの処理中の任意の時点におい
て、同じ順次命令ストリームの連続処理を前記第２の処
理要素に引き継がせることが利益になる場合、前記第２の処理要素によって前記第１の処理要素から前
に転送された前記蓄積アーキテクチャ状態を復元し、前
記第２の処理要素によって前記順次命令ストリームを処
理することにより、同じ順次命令ストリームの連続処理
を引き継ぐステップとを含み、次に前記第２の処理要素が、前記順次命令ストリームの
処理中に、将来の時点で使用すべきアーキテクチャ状態
に関する変化の蓄積と使用のために、前記第１の処理要
素が要求する前記コンピュータ・システムのアーキテク
チャ状態の変化を前記第１の処理要素に転送し、それにより、前記第１および第２の処理要素が、前記順
次命令ストリームの前記処理中に、全く同じ命令を実行
している可能性があるが、前記第１および第２の処理要
素の状態の一部の組合せによって決定される前記コンピ
ュータ・システムの全体的なアーキテクチャ状態を変更
することができるのは、前記処理要素の一方だけになる
方法。
【請求項２３】前記第２の処理要素による前記順次命令
ストリームの処理中の任意の時点において、同じ順次命
令ストリームの連続処理を前記第１の処理要素に引き継
がせることが利益になる場合、前記第１の処理要素によ
って前記第２の処理要素から前に転送された前記蓄積ア
ーキテクチャ状態を復元し、前記第１の処理要素によっ
て前記順次命令ストリームを処理することにより、同じ
順次命令ストリームの連続処理を引き継ぎ、前記第１の
処理要素がマルチプロセッサとして機能する複数の第１
の処理要素を含む、請求項２２に記載の方法。
【請求項２４】命令およびデータ用のキャッシュ記憶域
を備えた階層メモリを有するコンピュータ・システムで
あって、パイプライン・ステージごとに定義された長さと定義さ
れた遅延を有する少なくとも１つの命令パイプラインに
よって命令を処理するための少なくとも１つの従来の処
理要素と、順不同処理から有限キャッシュ改良を導出する命令シー
ケンスに関し、順不同命令を含む命令を処理するための
追加の推論エンジン処理要素とを含み、前記追加の推論エンジン処理要素と前記従来の処理要素
が、命令ストリームを処理するために協力して動作する
ように結合され、前記従来の処理要素がそのパイプライ
ン・ハンドルによって一致アクションのアーキテクチャ
状態を維持し、前記推論エンジン処理要素が推論プロセ
スを処理し、その結果は前記コンピュータ・システムの
アーキテクチャ状態を変更する可能性はないが、前記従
来の処理要素によって検出された有限キャッシュの不利
益を改善する、コンピュータ・システム。
【請求項２５】前記推論処理要素が、中央処理領域内のｍ個のレジスタであって、ｍは１つの
命令の１つまたは複数の２進フィールドによって識別さ
れる命令アドレス可能ＧＰＲの所定の個数ｎより大きい
レジスタと、順不同命令実行のための備えであって、分岐方向推測に
基づいて条件付き分岐命令を処理するための備えとを含
む、請求項２４に記載のコンピュータ・システム。
【請求項２６】前記従来の処理要素が、前記従来の処理要素によって検出された記憶参照の順序
を改善するために独立して命令を事前取出しして実行す
るために前記追加の推論エンジン処理要素を提供するコ
プロセッサに結合され、前記システムが、前記追加の推
論エンジン処理要素と前記従来の処理要素の両方に結合
され、その両方によって共用される前記命令およびデー
タキャッシュを含む前記記憶階層への推論メモリ参照の
生成を可能にするレジスタ管理プロセスを使用する、請
求項２４に記載のコンピュータ・システム。
【請求項２７】命令およびデータを取り出すために、前
記従来の順不同処理要素と、前記追加の推論エンジン処
理要素を提供する前記コプロセッサとの両方に結合され
た命令およびデータ・キャッシュと、前記追加の推論エ
ンジン処理要素のストアおよび取出しコマンドに応答し
て命令およびデータを双方向転送するための独立ストア
・バッファとをさらに含む、請求項２６に記載のコンピ
ュータ・システム。
【請求項２８】前記従来の処理要素と前記追加の推論エ
ンジン処理要素との同期を取るために、前記従来の処理
要素と、前記追加の推論エンジン処理要素を提供する前
記コプロセッサとの両方に結合された同期ユニットをさ
らに含む、請求項２７に記載のコンピュータ・システ
ム。
【請求項２９】前記追加の推論エンジン処理要素を提供
するコプロセッサが、前記従来の順不同処理要素および
前記命令およびデータ・キャッシュのアーキテクチャ状
態を変更せずに、前記追加の推論エンジン処理要素上で
実行される後続命令に使用可能なものにするために、命
令およびデータ・キャッシュに送られず、むしろストア
・バッファに送られるストア参照を生成し、すべての追
加の推論エンジン処理要素ストアが前記独立ストア・バ
ッファに対して行われる、請求項２７に記載のコンピュ
ータ・システム。
【請求項３０】前記キャッシュと前記ストア・バッファ
の両方が所望のデータを持っていない場合に推論コプロ
セッサ・キャッシュ・ミスが検出され、命令およびオペ
ランドは、前記ストア・バッファ内に関連項目がない場
合には第１のインタフェースにより前記追加の推論エン
ジン処理要素に返され、前記ストア・バッファ内に関連
項目がある場合には第２のインタフェースにより返され
る、請求項２９に記載のコンピュータ・システム。
【請求項３１】ＧＰＲインタフェースにより前記従来の
順不同処理要素の更新を前記追加の推論エンジン処理要
素に伝達するために、前記従来の順不同処理要素の汎用
アーキテクチャ・レジスタ間のＧＰＲインタフェースを
さらに含む、請求項２７に記載のコンピュータ・システ
ム。
【請求項３２】前記ＧＰＲインタフェースにより前記従
来の処理要素と追加の推論エンジン処理要素の前記パイ
プライン・ステージの同期を取るために同期レジスタ割
当てリストを有するレジスタ管理システムをさらに含
む、請求項２７に記載のコンピュータ・システム。
【請求項３３】前記ＧＰＲインタフェースによる前記追
加の推論エンジン処理要素から前記メモリ階層へのスト
アが、前記命令およびデータ・キャッシュではなく、そ
のストア・バッファに送られる、請求項２７に記載のコ
ンピュータ・システム。
【請求項３４】前記ＧＰＲインタフェースによる前記追
加の推論エンジン処理要素から前記メモリ階層へのスト
アが、前記命令およびデータ・キャッシュではなく、そ
のストア・バッファに送られ、前記ＧＰＲインタフェー
スにより前記従来の順不同処理要素の更新を前記追加の
推論エンジン処理要素に伝達するために、前記従来の順
不同処理要素の汎用アーキテクチャ・レジスタ間のＧＰ
Ｒインタフェースが設けられ、前記ＧＰＲインタフェー
スにより前記従来の処理要素と追加の推論エンジン処理
要素の前記パイプライン・ステージの同期を取るために
同期レジスタ割当てリストを有するレジスタ管理システ
ムが設けられている、請求項２７に記載のコンピュータ
・システム。
【請求項３５】前記追加の推論エンジン処理要素が命令
を処理するためにパイプライン・ステージごとに定義さ
れた長さと定義された遅延を有する１つまたは複数のパ
イプラインからなる命令パイプラインを有し、前記従来
の処理要素が前記推論エンジン処理要素より少ないパイ
プライン・ステージを有するが、前記追加の推論エンジ
ン処理要素による順不同処理から有限キャッシュ改良を
導出しない命令シーケンスの場合にパイプラインの各ス
テージごとに等しい遅延が存在する、請求項２４に記載
のコンピュータ・システム。
【請求項３６】前記従来の処理要素が命令を処理するた
めにパイプライン・ステージごとに定義された長さと定
義された遅延を有する１つまたは複数のパイプラインか
らなる命令パイプラインを有し、前記従来の処理要素が
前記推論エンジン処理要素コプロセッサより少ないパイ
プライン・ステージを有するが、前記追加の推論エンジ
ン処理要素による順不同処理から有限キャッシュ改良を
導出しない命令シーケンスの場合にパイプラインの各ス
テージごとに等しい遅延が存在する、請求項２７に記載
のコンピュータ・システム。
【請求項３７】命令およびデータ用のキャッシュ記憶域
を備えた階層メモリを有するマイクロプロセッサであっ
て、パイプライン・ステージごとに定義された長さと定義さ
れた遅延を有する複数のパイプラインによって命令を処
理するための少なくとも１つの従来の処理要素と、順不同処理から有限キャッシュ・サポートを導出する命
令シーケンスに関し、順不同命令を含む命令を処理する
ための追加の推論エンジン処理要素とを含み、前記追加の推論エンジン処理要素と前記従来の処理要素
が、命令ストリームを処理するために協力して動作する
ように結合され、前記従来の処理要素がそのパイプライ
ン・ハンドルによって一致アクションのアーキテクチャ
状態を維持し、前記推論エンジン処理要素が推論プロセ
スを処理し、その結果は前記コンピュータ・システムの
アーキテクチャ状態を変更する可能性はないが、レジス
タ管理および前記複数のパイプラインの同期により前記
従来の処理要素によって検出された有限キャッシュの不
利益を改善する、マイクロプロセッサ。