JPH01140330A

JPH01140330A - 高性能ｃｐｕ−ｆｐｕクラスタ用パイプライン型スレーブプロトコル

Info

Publication number: JPH01140330A
Application number: JP63228290A
Authority: JP
Inventors: Sorin Iacobovici; ソリン　イアコボビッチ
Original assignee: National Semiconductor Corp
Current assignee: National Semiconductor Corp
Priority date: 1987-09-11
Filing date: 1988-09-12
Publication date: 1989-06-01
Also published as: EP0306891A2; EP0306891A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】斂排分互本発明はデータ処理方式乃至はシステムに関するもので
あって、更に詳細には、浮動小数点例外の正確さを犠牲
にすること無しに、システムの中央処理装置（ＣＰＵ）
の実行装置を越えて浮動小数点命令の実行をパイプライ
ン動作させることを可能とする新規なスレーブインター
フェースプロトコルに関するものである。

死末皮４最近の先例を見ない発展にも拘らず、今日のＶＬＳＩ技
術は、分向、コンピュータ設計者に、どの特徴をＣＰＵ
チップに集積化させるか又どの特徴をコブロセサ（協働
プロセサ、ｃｏｐｒｏｃｅｓｓｏｒ）チップ内に組み込
むかを決定することを強制している。幾つかの例外を除
き、ＣＰＵ用の浮動小数点計算サポートはコブロセサ内
において実施される。

浮動小数点サポートをコブロセサ内において実現するこ
とには２つの主要な利点がある。第１に、浮動小数点装
置（ＦＰＵ）に対するＣＰＵサポートは、完全な浮動小
数点機能をＣＰＵチップ上に組み込むことよりも、必要
とするトランジスタの数は著しく少ない。残りのトラン
ジスタを使用してＣＰＵ！！数性能を増大させることが
可能である。

第２に、高浮動小数点性能が絶対的に必要なものではな
い場合には、浮動小数点命令（ＦＰ命令）をソフトウェ
アでエミュレートすることが可能であり、従って浮動小
数点装置チップに対する必要性を取り除くことによって
システムのコストを低下させることが可能である。

別体の浮動小数点装置チップ上で浮動小数点サポートを
実現することの欠点は１通常、ＣＰＵ−ＦＰＵ通信オー
バーヘッドの為に性能が低いことと、能率的なＣＰＵ−
ＦＰＵ通信プロトコルをサポートする為に必要とされる
ＣＰＵピン数が高いことである。

浮動小数点命令は、マイクロプロセサの現在の技術水準
の命令アーキテクチャ−の位置である。

そうであるから、ＦＰ全命令、その命令がオンチップ浮
動小数点実行装置によって実行されるか又はオフチップ
浮動小数点装置によって実行されるかに拘らずマイクロ
プロセサをベースにしたシステムにおいて同一的に実行
されねばならない。この場合に、同一的な実行とは、浮
動小数点命令例外（ＦＰ例外）の場合に同一の結果及び
同一の応答の両方のことを意味する。

例外は、命令実行の通常のシーケンス即ち順番を変化さ
せる条件、イベント（事象）及びエラーである。

典型的なマイクロプロセサアーキテクチャ−は、単精度
（３２ビツト）及び倍精度（６４ビツト）の両方に対し
て多数の浮動小数点レジスタ（ＦＰレジスタ）を使用し
ている。これらのレジスタは、マイクロプロセサの汎用
レジスタである整数レジスタを補充するものである。マ
イクロプロセサ命令組の実現において、命令タイプは、
どのタイプのレジスタを使用すべきであるかを示す。例
えば、１つ又はそれ以上のレジスタオペランドを持った
ＦＰ全命令、ＦＰレジスタを使用することを示す。

この基準に対する例外は、整数／浮動小数点変換及び浮
動小数点／整数変換命令であり、それらは浮動小数点オ
ペランドに対してはＦＰレジスタを使用することを又整
数オペランドに対しては汎用レジスタを使用することを
示す。

ある場合には、ＦＰ全命令フェイルして、ＩＥＥＥ７５
４スタンダードによって決められている例外の１つを発
生する場合が成る。この様なスタンダードな例外の１例
は、有限数をＯで割算する試みがなされる場合である。

例外タイプは、典型的に浮動小数点ステータスレジスタ
として指定されるマイクロプロセサアーキテクチャによ
って構成される別のレジスタ内にステータスビットによ
って表される。例外の発生によってセントされると、こ
れらのビットはソフトウェアによってクリアされる迄不
変のまま残存する。浮動小数点ステータスレジスタのそ
の他のビットは、該ソフトウェアがＦＰ例外の各タイプ
を別々にマスクすることを可能とさせる。マスクされて
いないＦＰ例外の発生は、浮動小数点ステータスレジス
タの適切なステータスビットをセットし且つＣＰＵをト
ラップし、一方マスクしたＦＰ例外の発生は、浮動小数
点ステータスレジスタの対応するステータスビットのみ
をセットする。

典型的に、特別のタイプのインタラブド（割込み）即ち
Ｔｒａｐ　（ＦＰＵ）がマスクされていないＦＰ例外に
対してマイクロプロセサアーキテクチャ−によって構成
される。マスクされていないＦＰ例外が発生すると、Ｃ
ＰＵはフェイルした命令のプログラムカウンタ値を格納
し且つ特別のルーチンヘジャンプする。Ｔｒａｐ　（Ｆ
ＰＵ）サービスルーチンは、その例外を発生した問題を
ソフトウェア内に固定し且つ該ＦＰ全命令再実行する場
合がある。ＦＰ例外処理ルーチンは、通常、浮動小数点
ライブラリーの一部である。

ＦＰ例外がサービスされる時に格納したシステムステー
タスは常にシーケンシャル（逐次的）なアーキテクチャ
−モデルと一致しているので、マスクされていないＦＰ
例外は正確なインタラブドを発生する。アーキテクチャ
−のパイプライン型実現において正確なインタラブドを
達成する為に特別の注意を払うへきである。このことは
、パイプライン型命令は、シーケンシャルアーキテクチ
ャ−モデルによって決定されるものと異なった順番でシ
ステムステータスを修正する場合があるという事実に起
因するものである。

上述した如く、マイクロプロセサは、通常、別体の浮動
小数点装置コブロセサにおいて浮動小数点アーキテクチ
ャ−を実現する。即ち、浮動小数点装置は、ＣＰＵに対
しての遠隔浮動小数点実行装置の役割を担う。そうであ
るから、ＣＰＵは実行されるべき命令及びイベントメモ
リオペランドを７７動小数点装置へ送給する。ＦＰレジ
スタ及び浮動小数点ステータスレジスタは浮動小数点装
置チップの一部として実現される。その結果、ＦＰ命令
オペランドがＦＰレジスタ内にある場合に、そのオペラ
ンドを読取又は書き込む為にＣＰＵのサポートは必要と
はされない。

浮動小数点装置によるＦＰ命令実行の終わりに。

ＣＰＵは通常法の命令へ進むことが自由である。

然し乍ら、成る場合にそうではなくて、例えば、浮動小
数点比較命令の場合における如＜ＣＰＵプロセサステー
タスレジスタにおけるビットをＦＰ全命令変化させる場
合、又はＦＰ命令実行の間にＦＰ何例外発生する場合等
である。

上述した２つの条件は１通常、特別のラインｒＴｒａｐ
Ｊをアサート即ち活性化させることにより浮動小数点装
置によってＣＰＵに対して信号を送ることが可能である
。

その他の全ての場合において、浮動小数点装置は、別の
ラインｒＤｏｎｅＪをアサートすることによってＦＰ全
命令所定の通りに完了したことを表す信号を発する。Ｆ
Ｐ命令宛先がＦＰ全命令１つである場合には、ＣＰＵは
そのまま手続を進めることが可能である。その宛先がメ
モリ内にある場合には、ＣＰＵは浮動小数点装置からの
結果をメモリ内に格納せねばならない。

正確なＦＰ何例外維持する為の直接的な解決法は、浮動
小数点装置によるＦＰ命令実行の結果が既知となる迄、
ＣＰＵをストール即ち機能停止状態とさせておくことで
ある。ＦＰレジスタ内の１つに宛先を持ったＦＰ全命令
場合における如く。

現在のＦＰ全命令支持する為にＣＰＵによってエキスト
ラな作業を行なうことが必要でない場合でも、ＣＰＵは
次の命令に進む前にｒＤｏｎｅＪ信号を待つ。その結果
、ＦＰ何例外発生すると、その例外をサービス即ち実施
する前に適切なプログラムカウンタ値ＰＣ及びシステム
ステータスが操作システムによってセーブ（保存）され
る。

第１図は、典型的な現在の技術水準の３２ビツトマイク
ロプロセサのＣＰＵ−ＦＰＵクラスタを示したシステム
ブロック図である。ＣＰＵｌ０は浮動小数点袋ｇｆ１２
へ命令及びメモリオペランドを書き込み、且つ第２図に
示したｔイミング線図に示される如く、特別の２クロツ
クスレーブパストランザクシヨンを使用して、浮動小数
点装置１２から結果及びステータスを読み取る。ＣＰＵ
パッケージピンを節約する為に、ＣＰＵ−ＦＰＵインタ
ーフェースは、データバス及び幾つかの特別の制御ライ
ン（ＳＰＣ，ＤＯＮＥ、ＴＲＡＰ）を使用する。

ＣＰＵ−ＦＰＵバスを包含する浮動小数点装置１２及び
ＣＰＵｌ０の異なった資源におけるＦＰ全命令よって使
われる時間は第３図によって表される。第３図に示した
例は、レジスタ対しジスタＦＰ命令、即ち両方のオペラ
ンドを有し且っＦＰレジスタ内に宛先を有する命令であ
る。第３図は、デコードされたＦＰ全命令ＣＰＵ実行に
到達した時から、浮動小数点装置１２からのｒＤｏｎｅ
Ｊ信号が処理されて、ＣＰＵｌ０が次の命令で続行する
ことを許容する迄の実行フェーズのみを示している。

第３図に示した浮動小数点実行装置はパイプライン構成
とされている０本例における該ＦＰＵ実行装置の処理能
力は２クロツクサイクルであり。

一方その待ち時間は６クロツクサイクルであり。

即ち３段パイプライン構成である。このことは。

現在の技術水準の浮動小数点データバスチップの内部ア
ーキテクチャ−及び性能と適合性がある。

該性能を特定する為に使用されるクロックサイクルはＣ
ＰＵ等価クロックである。

第３図に示した如く、ＦＰ命令実行時間は１表示した全
てのステージにおける命令によって使用される時間の和
である。そうであるから、この実現の場合、命令処理能
力は、命令待ち時間と等しい。従って、加算フロート（
浮動）、減算フロート、又は乗算フロート等の簡単な命
令に対する高ＦＰＵ実行装置処理能力（命令光たり２ク
ロツクサイクル）に拘らず、（：ＰＵ−ＦＰＵクラスタ
はこれらのＦＰ全命令１４クロツクサイクルで実行する
。上述した如く、この高オーバーヘッドは。

従来のＣＰＵは次の命令に進む前にｒＤｏｎｅＪ信号を
待つという事実に起因している。このことは正確なＦＰ
全命令達成する簡単な方法ではあるが、それはＣＰＵ処
理能力を使用する上で非効率的なものである。

且−攻本発明は、以上の点に鑑みなされたものであって、上述
した如き従来技術の欠点を解消し、従来のプロトコルの
利点を維持し且つ殆どの浮動小数点命令に関連する欠点
を除去した新規なコブロセサインターフェースプロトコ
ルを有するデータ処理方式及び方法を提供することを目
的とする。

青−双本発明に拠れば、ＣＰＵ−ＦＰＵプロトコルオーバーヘ
ッドを除去する為に、ＦＰ命令実行をパイプライン化す
る。以下に説明する如く、二三の特別の場合を除いて、
ＣＰＵは、浮動小数点装置へＦＰ命令を供給した後に次
のＦＰ命令へ進む。

供給されたＦＰ命令は、浮動小数点装置内においてキュ
ーされ、それが実行される順番を待つ。ＦＰ命令実行の
結果、即ち成功裡に完了したか又は例外のいずれである
かを表す信号が、ＦＰ命令が浮動小数点装置へ供給され
たのと同一の順番でＣＰＵによって受は取られる。正確
な浮動小数点例外を維持する為に、ＣＰＵ内の回復機構
がプログラムカウンタ値及び浮動小数点装置へ供給され
た命令に関係するその他の関連性ある情報を保存する。

本発明の１実施例に拠れば、浮動小数点装置に対して局
所的ではないシステムステータスを変化させるトップオ
ブスタック（Ｔｏｐ−ｏｆ−５ｔａｃｋ）等の命令又は
アドレスモードの場合、命令実行はシリアル化即ち直列
化される。即ち、ＣＰＵは次の命令に進む前に、停止し
て且つ以前に発行したＦＰ命令が終了するのを待つ。浮
動小数点装置に対して局所的ではないシステムステータ
スは、ＣＰＵ汎用レジスタ又は特別レジスタ等の浮動小
数点装置内部において使用されていない全てのレジスタ
及び全てのメモリ位置から構成される。本発明の別の実
施例に拠れば、ＦＰ命令及び整数命令実行は、整数命令
の実行によって修正されるＣＰＵレジスタの内容を保存
するＣＰＵ内の「シャドウレジスタ」を与えることによ
ってオーバーラツプされる。

去ｉ鮮以下、添付の図面を参考に１本発明の具体的実施の態様
に付いて詳細に説明する。

上述した如く、本発明に拠れば、浮動小数点装置実行装
置が使用可能になる迄浮動小数点装置が発行された命令
をバッファする間にＣＰＵの実行装置が次の命令へ進む
ことを許容することによって、ＣＰＵ及び浮動小数点装
置（ＦＰＵ）コブロセサの間のインターフェースに通常
関連するプロトコルオーバーヘッドを取り除いている。

特別の場合を除いて、浮動小数点装置へＦ命令を発行し
た後に次の整数又は浮動小数点命令（ＦＰ命令）の実行
へＣＰＵが進むことを許容することによって、ＣＰＵ−
ＦＰＵクラスタは高処理能力を達成する。以下に更に詳
細に説明する如く、正確な浮動小数点命令例外（ＦＰ例
外）を維持する為に回復機構が設けられている。

従来のＣＰＵアーキテクチャ−においては、回復機構が
設けられていないと、新たな命令の実行と共にＣＰＵに
よってシステムステータスが変更される。その結果、Ｆ
Ｐ命令は不正確となり、従って、ＣＰＵアーキテクチャ
−と不適合となる。

このことを防止する為に、従来のＣＰＵ実行装置は、以
前の命令の全てが例外無しの点を通過した後にのみ次の
命令へ進行する。

本発明に拠れば、その他の関連性のある情報と共に変化
することの可能なレジスタの内容を、ＣＰＵ内の特別の
格納機構、即ち浮動小数点命令ＦＩＦＯ（ＰＩＦ）内に
保存乃至は格納することによってＦＰ例外を正確に保存
することが可能である。該レジスタは、第５図に示した
如く、対応するＦＰ命令が浮動小数点装置へ発行される
時に、浮動小数点命令ＦＩＦｏ内に保存される。現在の
ＦＰ命令を浮動小数点装置へ発行するのと並列的に、Ｃ
ＰＵ実行装置は、命令のプログラムカウンタ値を浮動小
数点命令ＦＩＦＯ内にロードし、且つ特別の場合を除い
て、次の命令へ進行する。ＣＰＵがＦＰ命令シーケンス
の実行のみならず、ＦＰ命令及び整数命令ともオーバー
ラツプする場合には、プロセサステータスレジスタも浮
動小数点命令ＦＩＦＯ内に保存され、一方整数命令によ
って修正されるべきＣＰＵレジスタは、第５図に示した
如く、「シャドウ（ｓｈａｄｏｗ）」レジスタ内に保存
される。

本発明のパイプライン型スレーブプロトコルにおいては
、ｒＤｏｎｅＪ信号及びｒＴｒａｐＪ信号は、従来技術
に関しての上に説明した非パイプライン型プロトコルに
対してのものと同一の条件を表している。即ち、ｒＤｏ
ｎｅＪは成功したＦＰ全命令完了を表し、一方ｒＴｒａ
ｐＪはＣＰＵのＰＳＲを変化させるＦＰ全命令又はマス
クしていないＦＰ何例外発生を表す。浮動小数点装置は
、これらの信号を同一の順番でアサート即ち活性化させ
、その場合に、それらが対応するＦＰ全命令ＣＰＵによ
って浮動小数点装置に対して発行されたものである。Ｃ
ＰＵによって受は取られた「ＤｏｎｅＪ信号は、単に、
浮動小数点命令ＦＩＦＯを前進させる。その結果、浮動
小数点命令ＦＩＦＯの出力におけるレジスタ値は、浮動
小数点装置によって現在実行中のＦＰ全命令対応する。

実行中のＦＰ全命令ｒＴｒａｐＪ信号をアサートするこ
とによってＣＰＵへ例外の信号を送ると、ＣＰＵは修正
したレジスタを浮動小数点命令ＰＩＦＯの出力からの保
存した値で置換し１次いで該ＰＩＦをフラッシュする。

この様に、Ｔｒａｐ　（ＦＰＵ）が実行を開始すると、
システムステータスは、正確なＦＰ何例外要求するシー
ケンシャルなアーキテクチャ−モデルと一致する。

２つのパイプライン化スレーブ手法が考えられる。１つ
の手法は、ＦＰ全命令整数命令の並列実行、即ちオーバ
ーラッピング、を可能とさせる。

他の手法は、ＦＰ全命令みの並列実行を可能とさせる。

　ＦＰ全命令整数命令の実行のオーバーラツプは、−層
高い性能を提供することが可能であるが、ＦＰ何例外正
確な性質を維持する為にＣＰＵ内部において実現される
べき比較的複雑な回復機構を必要とする。この手法の為
のＣＰＵ及び浮動小数点操作に付いては、第６図に示し
たフローチャートに詳細に示しである。

第７図は、この手法の為の浮動小数点命令ＦＩＦＯのコ
ンフィギユレーション即ち形態を示している。

ＦＰ全命令整数命令とを並列的に実行することを許容す
る場合、プログラムカウンタＰＣが浮動小数点命令ＦＩ
Ｆｏ内に保存されるのみでなく、ＣＰＵのプロセサステ
ータスレジスタＰＳＲも保存される。このことが必要と
されるのは、整数命令の幾つかはプログラムステータス
レジスタピットを修正させ且つプログラムステータスレ
ジスタはＦＰ何例外場合にその元の値に回復されねばな
らないからである。

以下に説明する特別の場合を除いて、ＦＰ全命令浮動小
数点装置へ発行した後にＣＰＵは次の命令へ進むことが
可能である。ＣＰＵの実行装置、ＣＰＵ−ＦＰＵバス、
ＦＰＵコントローラ、ＦＰＵ実行装置等のＦＰ命令実行
のパイプライン化を第４図に示しである。特別の場合が
発生しない限り、ＣＰＵ−ＦＰＵクラスタは、パイプラ
インの最低速度ステージの処理能力に等しいピーク処理
能力を与える（第４図に示した例の場合、レジスタ対し
ジスタＦＰ命令実行に対し２ＣＰＵクロツクサイクル）
。このことは、非パイプライン化スレーブインターフェ
ースの場合におけるよりも一層高い処理能力である。

ＦＰ命令宛先がメモリ内であると、ＣＰＵは浮動小数点
装置へ命令及びオペランドを送り１次いで、停止して浮
動小数点命令ＦＩＦＯが空となるのを待つことが可能で
ある。この場合に、ＰＩＦ空条件は、浮動小数点装置へ
送った全てのＦＰ全命令成功裡に完了され且つ最後の命
令の結果がＣＰＵがそのメモリ宛先を読み取り且つ格納
する為に使用可能であることを表す。

このアプローチ即ち手法は、順番の狂ったメモリ修正を
防止し、一方性能を最大化させる。何故ならば、オプコ
ード（ｏｐｃｏｄｅ）及びイベントメモリオペランドが
、共面のＦＰ全命令浮動小数点装置実行とオーバーラツ
プされて浮動小数点装置へ送られるからである０次の整
数命令がメモリ宛先を持っていると、ＣＰＵはこのこと
を検知し且つ停止して、ＰＩＦ空条件を待機せねばなら
ない。

このことは、ＦＰ何例外発生することがないことを決定
する前に、メモリ修正、即ちシステムステータス変化を
防止する為に行なわれる。

第９図に示した如く、別の手法は、ＦＰ全命令ＣＰＵへ
発行された時にＦＩＦ内にエキストラなビット、即ちＭ
ビットを保存し、且っＣＰＵが次の命令へ進むことを許
容することである。メモリ内の宛先を持ったＦＰ全命令
浮動小数点装置によって実行される場合、ＣＰＵは、Ｐ
ＩＦの底部にあるＭビットを見ることによりこれがその
場合であることを知る。Ｍビットがセットされ且っ「Ｄ
ｏｎｅＪ信号が浮動小数点装置から受は取られると、Ｃ
ＰＵは、浮動小数点装置がデータバス上のその結果の値
を駆動する間に、アドレス信号及び適切な制御信号をア
サートすることによって浮動小数点装置からメモリへそ
の結果を直接的に書き込むことが可能である。

ＦＰレジスタ内の宛先を有するＦＰ全命令ＣＰＵレジス
タ内の宛先を持った整数命令が続く場合、該ＦＰ全命令
浮動小数点装置へ発行した直後にＣＰＵはこれらの命令
の実行を開始することが可能である。これを行なう為に
且つ正確なＦＰ例外を維持する為に、ＣＰＵは「シャド
ウレジスタ」を実現せねばならない。これらシャドウレ
ジスタは、それらが修正される前に、ＣＰＵレジスタの
古い値を保存する為に使用される。ＦＰ例外の場合。

ＣＰＵは、該シャドウレジスタ内の値を使用してそのレ
ジスタ値を回復させる。その結果、システムステータス
は、シーケンシャルアーキテクチャ−モデルと一致乃至
は一貫して維持される。

ＣＰＵプロセサステータスレジスタを修正する浮動小数
点比較と同様に、ＦＰ全命令、ＣＰＵに対して完了の信
号を送り、ｒＴｒａｐＪラインをアサートする。ｒＴｒ
ａｐＪがＣＰＵの介入を要求すると、ＣＰＵは該命令及
びオペランドを浮動小数点装置へ送り５次いで停止して
、ｒＴｒａｐＪを待つ。

ＣＰＵレジスタを暗に変化させるトップオブスタックの
如きアドレスモードも、ＣＰＵに夫って検知され且つ注
意深く処置されねばならない。１つの可能な手法は、Ｓ
Ｐレジスタを浮動小数点命令ＦＩＦＯ内に保存し且つそ
れをＦＰ例外の場合に回復させることである。然し乍ら
、この複雑化は、トップオブスタックオペランドを有す
るＦＰ全命令パイプライン化させることを可能とさせる
性能見返りによって正当化されることはない。より簡単
な手法は、トップオブスタックオペランドを有するＦＰ
全命令ＣＰＵに検知させ且つ浮動小数点命令ＦＩＦＯが
空となった後、即ち以前のＦＰ全命令全てを成功裡に完
了した後のおいてのみ、それらを浮動小数点装置へ発行
させることである。

上述した各機構のＣＰＵ性能に対しての貢献度をより完
全に理解する為に、ＣＴＰフォートランコンパイラでコ
ンパイルされたウェットストーン（Ｗｈｅｔｓｔｏｎｅ
）ベンチマークを解析した。該解析の目的は、パイプラ
イン化することの可能なＦＰ全命令グループを検知する
ことであった。これらを。

宛先メモリを有するＦＰ全命令終了するグループ、宛先
ＣＰＵレジスタを持った整数命令で終了するグループ、
宛先メモリを持った整数命令で終了するグループ等に類
分けさせた。該解析の結果を第８図のグラフに示しであ
る。

第８図に示した分布から明白な如く、浮動小数点性能改
善に対する最大の貢献はパイプライン化。

即ちＦＰ命令逐次実行のオーバーラツプ化に起因するも
のであることが分かる。幸運なことに、ＦＰ命令パイプ
ライン化に対するＣＰＵサポートは比較的簡単である。

上述した如＜ＦＰ全命令び整数命令実行をオーバーラツ
プさせる、即ちＰＳＲ及びＦＩＦ等を除きＣＰＵシャド
ウレジスタを実現するべく試みる場合に、サポート機構
が複雑となる。然し乍ら、第８図に示した如く、この様
なオーバーラツプを利用する場合の数は最小であり。

ＣＰＵレジスタ内の宛先を有する整数命令で終了するＦ
Ｐ命令グループのみを包含している。

科学的プログラムの様にＦＰ全命令高度に使用するプロ
グラムの場合、ＦＰ全命令び整数命令のオーバーラツプ
を利用する場合の数は第８図に示した場合よりも更に一
層まれである。

ＦＰ全命令び整数命令実行のオーバーラツプを可能とさ
せるＣＰＵ特徴の性能利得は低く且つ実現上の複雑性が
高いので１本発明の好適実施例は、ＦＰ命令パイプライ
ン化のみをサポートするｌｉｆｉｔを実現させている。

上述したより一層完全な解決法と好適な解決法との間の
差異は、次の命令が整数命令である場合には、ＦＰ全命
令浮動小数点装置へ発行した後にＣＰＵが停止するとい
う事実にある。ＣＰＵは、浮動小数点命令ＦＩＦＯが空
となった時、即ち全ての発行されたＦＰ全命令成功裡に
完了された時にのみ、整数命令の実行を開始する。

整数命令に遭遇した場合にＦＰ命令実行をシリアル化す
る為の決定は、ＣＰＵシャドウレジスタに対する必要性
を除去する。ＣＰＵは、プロセサステータスレジスタを
アップデートするＦＰ全命令停止するので、浮動小数点
命令ＦＩＦ○は、上述し且つ第９図に示した如く、浮動
小数点装置へ発行されたＦＰ全命令プログラムカウンタ
及び究極的にＭビットのみを保存することが必要である
。

上述した如く、プログラムカウンタ値は、対応するＦＰ
全命令浮動小数点装置へ発行される時にＦＩＦへ入力さ
れる。

ＦＰ命令パイプライン化のみのＣＰＵ及び浮動小数点装
置のサポートの１例を第１０図にフローチャートの形で
詳細に示しである。入力するＦＰ全命令保存する浮動小
数点装置ＦＩＦＯは、ｃｐＵの浮動小数点命令ＦＩＦＯ
よりも一層深い。同時に、ＦＰ命令実行の結果を表す信
号（ｒＤｏ　ｎｅ」又はｒＴｒａｐＪ）が、ＣＰＵが対
応するＦＰ全命令発行したのと同一の順番で浮動小数点
装置によってアサートされる。これら２つの条件の結果
として、浮動小数点装置がそれ以上命令を受は付けるこ
とが出来ない場合に、ＣＰＵへ信号を送る為の特別のラ
インを設けることが必要ではない。このことは、浮動小
数点装置のＦＩＦＯが満杯となるチャンスを持つ前に浮
動小数点命令ＦＩＦＯが満杯となることに起因してＣＰ
Ｕが停止するからである。

上述したＣＰＵ−ＦＰＵクラスタによって達成される性
能は、実行されるワークロード即ち作業負担、コンパイ
ラの能力、及び浮動小数点装置の速度等に依存する。

メモリ対しジスタＦＰ命令は、より低い処理能力を持っ
ている。何故ならば、ＣＰＵ実行装置及びＣＰＵ−ＦＰ
Ｕバスは、各３２ビツトオペランドワードをフェッチし
且つそれを浮動小数点装置へ転送する為に該各ワードに
対して２つのエキストラなりロックサイクルを必要とす
る。メモリ対レジスタ命令を使用することは、最初にメ
モリオペランドをＦＰレジスタ内にロードし次いでレジ
スタ対レジスタ命令を実行することよりも、より良好な
性能を与える。それにも拘らず、メモリオペランドが１
つを越えるＦＰ全命令よって使用される場合には、２番
目の手法の方が良い場合がある。

実行時間は、全命令待ち時間であり、即ちシリアル化Ｆ
Ｐ命令に対して、及び整数命令の前の最後のＦＰ全命令
対して、ＣＰＵ−ＦＰＵクラスタに対して１４クロツク
である。

浮動小数点命令ＦＩＦＯ深さは、性能と実現複雑性との
間の妥協とすべきである。

要約すると、高速浮動小数点実行装置は、現在の技術水
準のマイクロプロセサに過剰な数のトランジスタを組み
込むことを必要とする。高速浮動小数点装置コブロセサ
チップの場合、ＣＰＵ−ＦＰＵ通信プロトコルの効率は
、浮動小数点性能に対する臨界的な要因となる。浮動小
数点装置によるＦＰ全命令実行の結果をＣＰＵに待たせ
るプロトコルは、性能を著しく劣化させる。本発明のパ
イプライン化したスレーブプロトコルは、それらの実行
をＣＰＵ実行装置を越えてパイプライン化させることに
よって殆どのＦＰ全命令対するＣＰＵ−ＦＰＵ通信オー
バーヘッドを取り除いている。

同時に、正確なＦＰ例外を維持する為に回復機構をＣＰ
Ｕ内に実現させる。その結果、正確な例外を犠牲とする
こと無しに、ＣＰＵは非常に高い浮動小数点性能をサポ
ートすることが可能である。

以上、本発明の具体的実施の態様に付いて詳細に説明し
たが１本発明はこれら具体例にのみ限定されるべきもの
では無く、本発明の技術的範囲を逸脱すること無しに種
々の変形が可能であることは勿論である。

【図面の簡単な説明】

第１図は現在の技術水準の３２ビツトマイクロプロセサ
のＣＰＵ−ＦＰＵクラスタを示した概略ブロック図、第
２図は第１図に示したクラスタ内の浮動小数点装置への
メモリオペランド又はＦＰ全命令ＣＰＵ’ｌ込を示した
タイミングチャート図、第３図は従来のスレーブプロト
コルを使用してＣＰＵ−ＦＰＵバスを包含する浮動小数
点装置及びＣＰＵの異なった資源においてＦＰ全命令よ
って費やされる時間を示したタイミング線図、第４図は
本発明のプロトコルを使用してＣＰＵ−ＦＰＵバスを包
含する浮動小数点装置及びＣＰＵの異なった資源におい
てＦＰ全命令よって費やされる時間を示したタイミング
線図、第５図は本発明に基づきＦＰ全命令パイプライン
化を示したブロック線図、第６Ａ図乃至第６Ｃ図は本発
明のプロトコルの実現の１例を示したフローチャートの
各部分図、第７図は本発明に基づ＜ＦＰ全命令ＩＦＯの
コンフィギユレーションを示した概略図、第８図はウェ
ットストーンベンチマークにおけるＦＰ全命令異なった
グループを示したグラフ図、第９図は本発明に基づ＜Ｆ
Ｐ全命令ＩＦＯの別の実施例のコンフィギユレーション
を示した概略図、第１０図は本発明に基づきＣＰＵ−Ｆ
ＰＵパイプライン化スレーブプロトコルに対してのＣＰ
Ｕサポートノ実現の１例を示したフローチャート図、で
ある。（符号の説明）１０：ＣＰＵ１２：浮動小数点装置特許出願人　　　　ナショナル　セミコンダクタ　コー
ポレーションＦＩＧ、６ＡＦＩＧ、６ＢＰτノ＋（ｅＰ啄■−ｒ＋）２、・４７・う’−’ｔ−ｔｅ、：タロつり一１ｕ−’）’翫−一−

Claims

【特許請求の範囲】１、中央処理装置（ＣＰＵ）及び前記ＣＰＵにより出さ
れる浮動小数点命令を実行する為の浮動小数点装置を有
するデータ処理方式において、前記浮動小数点装置にお
いて実行された浮動小数点命令の結果が例外である場合
に前記ＣＰＵステータス情報を回復することが可能であ
る様に前記浮動小数点装置によるパイプライン型実行の
為に前記ＣＰＵによって出される浮動小数点命令に関連
するＣＰＵステータス情報を格納する為の格納手段が前
記ＣＰＵ内に設けられていることを特徴とするデータ処
理方式。２、特許請求の範囲第１項において、前記ステータス情
報が前記ＣＰＵによって出された浮動小数点命令のプロ
グラムカウンタ値を有することを特徴とするデータ処理
方式。３、特許請求の範囲第２項において、前記ステータス情
報が、前記浮動小数点装置へ出された浮動小数点命令の
指定がメモリ内であるか否かを表す情報を有することを
特徴とするデータ処理方式。４、特許請求の範囲第２項において、前記ステータス情
報は、前記ＣＰＵによって出される浮動小数点命令に関
連するＣＰＵのプロセサステータスレジスタの内容を有
することを特徴とするデータ処理方式。５、特許請求の範囲第４項において、浮動小数点命令及
び整数命令の実行がオーバーラップしており、且つ前記
浮動小数点装置への浮動小数点命令の発行に対応する時
間に前記ＣＰＵのステータスに関連する付加的な情報を
格納するシャドウ格納手段が前記ＣＰＵ内に設けられて
おり、前記付加的ステータス情報は、浮動小数点命令の
実行の結果が例外である場合にＣＰＵレジスタの内容を
回復させることが可能である様に整数命令の実行によっ
て修正されるＣＰＵレジスタの内容を有するものである
ことを特徴とするデータ処理方式。６、中央処理装置（ＣＰＵ）及び浮動小数点命令を実行
する浮動小数点装置を有するデータ処理方式において、
正確な例外を維持しながら浮動小数点命令のパイプライ
ン型実行を行なう方法において、浮動小数点命令を出し
、前記浮動小数点命令を前記浮動小数点装置内に格納し
、浮動小数点命令が前記ＣＰＵによる発行の順番に従っ
て逐次実行される様に爾後に発行される浮動小数点命令
を前記浮動小数点装置内に格納し、各浮動小数点命令の
発行に対応する時間に前記ＣＰＵのステータスに関連す
るＣＰＵ情報を格納し、その浮動小数点命令の実行の結
果が例外である場合に対応する浮動小数点命令用のステ
ータス情報を回復する、上記各ステップを有することを
特徴とする方法。７、特許請求の範囲第６項において、前記ＣＰＵ内に格
納した情報は、前記浮動小数点命令の指定がメモリ内で
あるか否かを表す情報を有することを特徴とする方法。８、特許請求の範囲第７項において、前記浮動小数点命
令の指定がメモリ内である場合、前記ＣＰＵは、前記浮
動小数点装置が結果の値をシステムデータバス上に駆動
する間に、アドレス及び適切な制御信号を活性化させる
ことによって前記浮動小数点命令の結果をメモリへ書き
込むことを特徴とする方法。９、中央処理装置（ＣＰＵ）及び前記ＣＰＵによって発
行される浮動小数点命令を実行する為の浮動小数点装置
を有するデータ処理装置において、正確な例外を維持し
ながら浮動小数点命令のパイプライン型実行を行なう方
法において、浮動小数点命令を発行し、前記ＣＰＵによ
って発行された順番に逐次実行を行なう為に以前に発行
された浮動小数点命令で前記浮動小数点装置内に浮動小
数点命令をキューさせ、前記浮動小数点命令の発行に対
応する時間に前記ＣＰＵのステータスに関連するＣＰＵ
情報を格納し、実行用の整数命令を発行し、前記整数命
令の発行に対応する時間に前記ＣＰＵのステータスに関
連するＣＰＵ付加情報を格納し、前記浮動小数点命令を
実行し、前記浮動小数点命令の結果が例外である場合に
前記ステータス情報及び付加ステータス情報を回復する
、上記各ステップを有することを特徴とする方法。