JPH07114455A

JPH07114455A - パイプライン浮動小数点プロセッサ及びその乗算・加算命令シーケンスの実行

Info

Publication number: JPH07114455A
Application number: JP6186921A
Authority: JP
Inventors: Son Dao-Trong; ソン・ダオーツロング; Juergen Haas; ユールゲン・ハース; Rolf Mueller; ロルフ・ミュラー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-09-29
Filing date: 1994-08-09
Publication date: 1995-05-02
Anticipated expiration: 2013-03-18
Also published as: EP0645699A1; JP2729027B2; US5517438A

Abstract

(57)【要約】【目的】パイプライン浮動小数点プロセッサにおける
高速乗算−加算命令の待ちサイクルを不要とする。【構成】加算パイプラインを再構成する。１．乗算器Ｍから整列器ＡＬ１、２へパスＮＤを介して
正規化されたデータのフィードバックを行う。２．積の先頭のゼロの桁の可能性を考慮してデータ・パ
スの両側で左への１桁の桁送り、及び保護桁のＺ１、２
による特別なゼロ設定を行う。３．オーバフロー及びアンダーフローの認知のために９
ビットでの指数形成、及びアンダーフローのために、真
ゼロ値ユニット（Ｔ／Ｃ）による飛びで指数結果がゼロ
にリセットされる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、乗算−加算シーケンス
の性能を向上させるパイプライン式浮動小数点プロセッ
サ（floating-point processor：ＦＬＰＴ）における配
置及び方法に関し、これによれば乗算が３つのサイクル
内で実行される。すなわち、オペランドの読取り、部分
和の形成及び最終結果のための部分和の加算である。さ
らに、この加算においても３つのサイクル、すなわちオ
ペランドの読取り、オペランドの整列及び加算を必要と
する。

【０００２】

【従来の技術】浮動小数点プロセッサ（ＦＬＰＴ）は、
科学計算アプリケーションを実行するため、メイン・プ
ロセッサ（ＣＰＵ）に機能を追加するべく用いられる。
ＩＢＭエンタープライズ・システム／９０００（ＥＳ／
９０００）の入門レベルのモデル（例えば９２２１）に
おいては、浮動小数点プロセッサはＣＰＵに強固に結合
されており、全てのＩＢＭシステム／３９０浮動小数
点命令を実行する。全ての命令はハードウェア的にコー
ド化されているため、マイクロ命令は不要である。さら
に、全体の性能を高めるために、２進整数の乗算もまた
浮動小数点プロセッサ上で実行される。

【０００３】図１は、上記の浮動小数点プロセッサのデ
ータ・フローを示す。浮動小数点プロセッサについて
は、IBM Journal of Research and Development, Vol.
36, Number 4, July 1992に詳細な記載がある。ＣＰＵ
は、４つのステージ（段階）のパイプラインに基づいて
いるが、浮動小数点プロセッサはその最もよく利用され
る命令、例えば、倍精度オペランドに対して１サイクル
中で加算、減算、及び乗算を実行するために５つのステ
ージのパイプラインを必要とする（詳細については、
「ESA/390 Architecture」, IBM Form No.: G580-1017-
00を参照されたい）。

【０００４】ＣＰＵは、浮動小数点プロセッサのために
オペランドのアドレスを決定し、キャッシュからオペラ
ンドを与え、そして全ての例外を処理する。５つのステ
ージのパイプラインとは、ＣＰＵ上で実行される命令取
出し、レジスタ読出し、オペランド再整列、加算、及び
正規化とレジスタ記憶である。

【０００５】ＣＰＵとの同期を保持するために、浮動小
数点プロセッサが１以上のサイクルを必要とする場合に
は必ず浮動小数点待ち信号が立ち上げられる。そしてＣ
ＰＵは、この待ち信号がそのプログラム・カウンタに達
する以前に消失するまで待ってから、バス上に維持され
ていた次の順次命令を開始する。

【０００６】ＩＢＭシステム／３９０のアーキテクチ
ャは、割込みが正確であることを要求するので、例外が
発生しそうな場合には必ず待ち条件も呼出される。さら
に図１に示されるように、先行する命令の結果が用いら
れる場合に待ちサイクルを避けるための多くのバイパス
・バスが用いられている。待ちサイクルは、１つの命令
の結果がすぐに次の順次命令（next sequential instru
ction：ＮＳＩ）により用いられる場合にのみ必要とさ
れる。例えば、加算命令が乗算命令に続く場合などであ
り、乗算命令の結果は加算命令の加数により加算されな
ければならない。

【０００７】図１に示されたデータ・フロー（流れ）
は、小数部処理のために２つの並行するパスを有する。
１つは、全ての非乗算・非除算命令が実行される加算パ
スであり、もう１つは、乗算及び除算のために特別に設
計された乗算パスである。加算パスは、一定（６０個）
のビット幅を有し、オペランド・スイッチャ、整列器、
加算器、及び正規化シフタからなる。各オペランドにつ
いて２つの整列器を用いる代りにスイッチャをオペラン
ドの切換えのために用いることにより、整列器を１つ省
くことができる。さらにこのスイッチャは他の命令のた
めにも必要とされるものであり、これによって回路素子
をはるかに少なくできる。

【０００８】乗算パスは、５８ビット乗算器のためのブ
ース・エンコーダ、５８×６０ビットの積項の和及び桁
上げを生成する乗算器マクロ、及び結果である積を与え
る９２ビット加算器とからなる。符号パス及び指数パス
は、加算パスと一致するように調整される。指数パス
は、先に触れたＩＢＭシステム／３９０のアーキテク
チャにより規定されるように、全ての例外と真のゼロ状
態を処理する。

【０００９】他の全ての命令の実行は、加算パス及び乗
算パスの中へマージされており、最小限の論理回路のみ
を必要とする。従って、図１のデータ・フローは、単な
る加算、減算及び乗算動作に対して必要とされるよりも
多くの機能ブロックと乗算器ステージを示している。

【００１０】さらに図１からわかるように、データ・フ
ローはより小さな部分であるＦＡ、ＦＢ、ＦＣ、ＦＤ、
ＭＡ、ＭＢ、ＰＳ、ＰＣ及びＰＬ（典型的には、入力制
御を有するレジスタ）へ区分される。これらの区分及び
浮動小数点命令の３つの主要なグループ区分は、１）加算／減算、ロード２）乗算３）除算である。これらは、科学計算アプリケーションにおいて
最もよく用いられる命令である。最初の２つの命令グル
ープは１つのサイクル内で実行され、除算はできるだけ
高速に行われる。

【００１１】加算命令については、パイプラインの最初
の２つのステージにおいて、命令とオペランドの取出し
のみが行われる。全てのデータ処理は、パイプラインの
ステージ３及びステージ４に集中している。ステージ５
において、結果が浮動小数点レジスタに戻され書込まれ
る。

【００１２】ロード命令は、ゼロに等しいオペランドに
よる加算であるかのように処理される。ステージ３にお
いて、整列シフトの量を決定するために双方のオペラン
ドの指数が比較される。そして、より小さい指数をもつ
オペランドが、再整列のために整列器へ渡される。パイ
プラインのステージ４において整列させられたオペラン
ドが加算される。加算においてキャリアウト（carry-ou
t）が生じる場合があり、その結果、前記のアーキテク
チャにおいては１桁だけ位を右へ桁送りする。よって、
それに応じて指数は減らされる。

【００１３】ステージ４ではまだ時間に余裕があるの
で、指数増加、指数調整又は乗算もしくは除算指数のい
ずれが要求されているかを選択する入力マルチプレクサ
（図１）をもつ１つの指数加算器のみを用いて、指数計
算がその加算の後に順次行われる。

【００１４】ゼロ・ロードの検知は、１６進数の桁の和
を計算することにより、キャリイン（carry-in）を進め
ることなく行われる。桁の位ｉについての１６進数和０
及びＦが決定され、マルチプレクサ内に与えられる。こ
の位に対するキャリインは、その桁の結果がゼロである
か否かを選択する。このキャリ・ビットは、加算器とし
て用いられる同じ桁上げ先見回路から生じるので、さら
に別の回路は不要である。前述の論理を用いることによ
り、桁送り量は加算結果とほぼ同時に決定することがで
きる。

【００１５】指数例外もまた、オーバフローであれアン
ダーフローであれステージ４で検知される。一方、次の
命令はすでに開始されている。前述のように、次の順次
命令の実行を保留するためにステージ３で待ち状態が生
じることもある。有効な加算の場合における待ち状態
は、以下のときに生じる。−中間的な結果の指数が７Ｆ
（１６進数）であり、かつ指数増分が加算器からのキャ
リアウトにより生じるとき。−中間的な結果の指数が０
Ｄよりも小さく、かつ非正規化オペランドに対する正規
化が必要なとき。ここで、指数は正規化桁送り量により
減らされなければならず、この量は多くとも０Ｄ（十進
数の１４）のはずなので、指数のアンダーフローを生じ
る。

【００１６】乗算は、部分的な積項の直列加算を備える
修正ブース・アルゴリズム乗算器を用いることにより実
行される。それは、多くの高性能の数値演算コプロセッ
サにおける３つの命令サイクル内で行われるものであ
る。すなわち、１．オペランド読取り２．部分和形成３．最終結果のための部分和の加算（図３を参照のこ
と）

【００１７】第１及び第３のサイクルのデータ・バイパ
スにより、次の命令に対して同じ結果を用いる場合は１
つのサイクルを省くことができる。しかしながら、それ
でも尚、先行する乗算の結果を加数又は被加数として用
いる加算命令がその乗算命令のすぐ後に続く場合は、図
３からわかるように１つの待ちサイクルが必要とされ
る。

【００１８】数学的問題、特に行列計算を解く場合に、
加算命令が乗算の結果を用いるような乗算−加算のシー
ケンスが非常に頻繁に用いられる。ＩＢＭのＲＳ６００
０等のリスク（RISC：reduced instruction set comput
er）・システムは、２つの動作を１つの複合命令に組合
わせることが可能な基本的な設計を有する。しかしなが
ら、この設計は前述のＥＳＡ／３９０アーキテクチャに
は適合しない。古いプログラムは、ＥＳＡ／３９０から
の結果とは異なる結果を与える可能性がある。これを避
けるために、１つの待ちサイクルを挿入しなければなら
ない（図３）。

【００１９】

【発明が解決しようとする課題】性能計算においては、
ＬＩＮＰＡＣＫループが非常によく用いられる。これは
５つの命令のシーケンスから構成される。１）ロード２）乗算３）加算４）記憶（ストア）５）分岐戻り分岐命令は、通常、ゼロ−サイクルで処理されるので、
付加される待ちサイクルが２５％の性能低下をもたらす
ことになる。本発明の目的は、主に、直前の乗算結果を
用いる大量の乗算−加算シーケンスをもつ行列計算を行
う必要がある場合に、パイプライン浮動小数点プロセッ
サの性能を向上させることである。

【００２０】

【課題を解決するための手段】本発明のこの目的は、以
下の４つの修正により実現される。１．乗算器Ｍから整列器ＡＬ１及びＡＬ２へのフィード
バック・パスＮＤを介しての正規化されたデータのデー
タ・フィードバック。２．積の先頭にゼロの桁がある可能性を考慮するため
の、データ・パスの両側にあるＳＬ１及びＳＬ２による
左への１桁の桁送り（保護桁（guard digit）の特別ゼ
ロ設定）。３．Ｚ１及びＺ２におけるオーバフロー及びアンダーフ
ローの認識に対する９ビットによる指数生成。アンダー
フローに起因して、指数結果が真のゼロにより即座にゼ
ロにリセットされる。４．双方の整列器ＡＬ１及びＡＬ２が１６桁へ拡張され
る。上記特徴をパイプライン浮動小数点プロセッサに適用す
ることにより、乗算−加算命令において２５％の性能の
向上が達成される。

【００２１】

【実施例】図５に示すパイプライン浮動小数点プロセッ
サの新しいデータ・フローは、図６により示されるよう
に乗算−加算の命令シーケンスのゼロ待ち処理が可能で
あり、実質的に４つの修正により得られるものである。
すなわち、１．乗算器Ｍから整列器ＡＬ１及びＡＬ２へのフィード
バック・パスＮＤを介しての正規化されたデータのデー
タ・フィードバック。２．積の先頭にゼロの桁がある可能性を考慮するため
の、データ・パスの両側にあるＳＬ１及びＳＬ２による
左への１桁の桁送り（保護桁（guard digit）の特別ゼ
ロ設定）。３．Ｚ１及びＺ２におけるオーバフロー及びアンダーフ
ローの認識に対する９ビットによる指数生成。アンダー
フローに起因して、指数結果が真のゼロにより即座にゼ
ロにリセットされる。４．双方の整列器ＡＬ１及びＡＬ２が１６桁へ拡張され
る。

【００２２】高速の乗算−加算命令シーケンスを実行す
るために、次の段階的手順が必要である（図６を参照の
こと）。１．乗算実行のためにオペランドＯＰＤＩ及びＯＰＤＩ
Ｉを読取る。２．中間的な指数積を計算し、乗算アレイＭの中に乗算
のための部分和を形成する。同時に、加算のためのオペ
ランドＯＰＤ１を読取る。３．最終的な積を得るために乗算アレイの部分和を加算
し、及びそのデータを加算のためにフィードバックす
る。それと並行して、１６桁フレーム内の整列のために
指数の比較が行われる。その後、もし積の先頭の桁がゼ
ロであれば、１桁の左桁送りにより最終的な整列が調整
される。しかしながら、次の場合を考慮しなければなら
ない。すなわち、ａ）積が真にゼロである。よって、乗算器アレイＭから
得たオペランドは、ゼロにされる。ｂ）中間の積指数がＯＰＤ１指数よりも小さい。この場
合、積は整列され、それ以上特別な動作をとる必要はな
い。ｃ）中間の指数がＯＰＤ１指数よりも大きい。この場
合、加数を整列する必要がある。もし積がその先頭の桁にゼロをもっていなければ、その
積の保護桁をゼロに設定しなければならない。しかし、
積が先頭にゼロをもっていれば、双方のオペランド（乗
算及びＯＰＤ１からの結果オペランド）が１桁だけ左へ
桁送りされ、そして整列器の１６番目の桁（図６のデー
タ・フローの例）がその結果の保護桁となる。４．双方のオペランドが適切に整列されると、（図４と
図６の比較からわかるように）待ちサイクルを全く必要
とすることなくそれらが加算されて乗算−加算命令シー
ケンスの最終的な結果となる。

【００２３】以下に記載する例１乃至例１０（図７乃至
図１６）は、加算、乗算、及び１つのオペランドが先行
する乗算の結果である加算を直後に伴う乗算に対して、
結果を計算しなければならない様々な状態と浮動小数点
プロセッサのデータ・フローが図２、図３及び図６によ
る異なるパイプラインのステージにおけるこれらの状況
をいかに処理するかを示している。

【００２４】以下の、例１乃至例６（図７乃至図１２）
からなる第１のグループでは、図５による新しい浮動小
数点プロセッサのデータ・フローにおける汎用的な加算
及び乗算動作の間に起り得る様々な状態が示されてい
る。例１（図７）オペランドＯＰＤ１及びＯＰＤ２（被加数及び加数）
は、「オペランド読取り」の間に中間的な加算器入力レ
ジスタＦＡ及びＦＢへ転送される。これらのオペランド
は、小数部の値と指数とからなる。指数０５と０７が適
合しないので、オペランド整列のために小さい方の指数
の位を２つほど右へ桁送りする必要がある。これは、
「オペランド整列」の間に行われる。オペランドＯＰＤ
１のアンダーフロー値７は、後に加算結果（中間値又は
最終値）を「加算」の間に形成しなければならないとき
に用いるために保護桁ＧＤにより捕捉される。整列器Ａ
Ｌ１及びＡＬ２による整列の後、さらにシフタ（桁送り
器）ＳＬ１及びＳＬ２並びにＳＬ１とゼロ検知器Ｚ１と
の間に相互接続される真値／補数ユニットＴ／Ｃを介し
て渡した後に、オペランドが加算器ＡＤＤ−Ａの入力レ
ジスタＦＣ及びＦＤに記憶される。ＡＤＤ−Ａは、例１
に示される中間的な結果ＩＲ１を算出する。

【００２５】結果の小数部部分の正規化は、ノーマライ
ザ（正規化器）ＮＯＲＭ−Ａにより行われなければなら
ず、その結果、切捨てられた正規化小数部となり、それ
から指数が調整される。その後、最終的な結果又は和が
出力レジスタＦＥに記憶される。以上の全ての動作は、
浮動小数点プロセッサのパイプラインのステージである
「加算」において行われる。

【００２６】例２（図８）例２では、オペランドＯＰＤ２がオペランドＯＰＤ１よ
りも小さいさらに汎用的な加算が示されている。従って
オペランドＯＰＤ１の小数部は、オペランド整列のた
め、両指数（０５、０１）の差（４）だけ右へ桁送りさ
れなければならない。加算の中間結果ＩＲ１が先頭に３
つのゼロをもつので、３だけ左へ桁送りする必要があ
り、その結果、最終結果ＦＲの指数０２となって加算器
出力レジスタＦＥに記憶される。

【００２７】例３（図９）例３では、オペランドＯＰＤＩ及びＯＰＤＩＩが乗算器
入力レジスタＭＡ、ＭＢへ読込まれている状態での乗算
が示されている。先の例と同様に、オペランドは小数部
と指数とからなる。乗算器アレイＭで部分和が形成さ
れ、中間値として乗算器出力レジスタＰＣ及びＰＳに記
憶される。この例では、簡易にするために実際の値は省
かれている。部分的積加算により、中間結果ＩＲ２が算
出されるが、この中の１つの小数部部分が先頭にゼロを
もっている。このため、１だけ左へ桁送りされ、０５か
ら０４へと指数調整される。よって、このとき出力レジ
スタＦＥは、切捨てられ正規化された小数部と調整され
た指数とを含む。

【００２８】例４（図１０）この例では、桁送り動作は、積加算の後は必要ないよう
に見える。出力レジスタＦＥ内の最終結果の位の数を正
規化するために切捨てのみが必要とされる。

【００２９】例５（図１１）例５では、負の指数（−４９、−５０）とＯＰＤＩの小
数部がＯＰＤＩＩのそれよりも大きいような小数部とを
もつオペランドが示されている。小数部の値はオーバフ
ローを生じないように見える。例が示すように、最終結
果ＦＲのために、中間結果ＩＲ２を１だけ左へ桁送りす
る動作のみが指数調整として必要である。しかしなが
ら、ＦＲが真のゼロとなるように指数アンダーフローが
行われた。

【００３０】例６（図１２）例６は、負のオペランドをもつ非常に簡単な例を示して
おり、レジスタＦＥ内の最終結果ＦＲを形成するために
ＩＲ２の切捨てのみが必要である。

【００３１】次の例７乃至例１０（図１３乃至図１６）
からなる第２のグループは、乗算−加算命令のゼロ待ち
処理及びパイプラインの異なるステージ１乃至４で実行
される様々な段階的手順を示している。

【００３２】例７（図１３）図示のとおり、乗算は、３つの処理段階Ａ１乃至Ａ２
と、加算のために必要な同じ番号の処理段階Ｂ１乃至Ｂ
３とを必要とする。従って、全体の動作は、パイプライ
ンの４つのステージ１乃至４の中で行われる。処理段階
Ａ１の間に、双方のオペランドＯＰＤＩ及びＯＰＤＩＩ
が乗算器アレイＭの入力レジスタＭＡ及びＭＢへ読取ら
れる（第１のパイプライン段階）。

【００３３】パイプラインの次のステージ２において、
処理段階Ａ２の乗算の部分和が形成され、続いて、後に
加算されるために乗算器出力レジスタＰＣ及びＰＳへ転
送される。同じステージ２であっても処理段階Ｂ１にお
いては、オペランドＯＰＤ１が加算器ＡＤＤ−Ａのため
に中間的な入力レジスタＦＡへ読取られる。もう一方の
中間的な加算器入力レジスタＦＢ内に前の通常加算命令
から残されていた古い内容は、この場合には無関係であ
る。なぜなら、乗算−加算命令の加算のための第２のオ
ペランド（ＯＰＤ２）は、次のパイプラインのステージ
３の処理段階Ａ３において加算器ＡＤＤ−Ｍで部分和を
総計し、そして先に図５に関して述べたようにフィード
バック・パスＮＤを介してフィードバックされる中間結
果ＩＲ１を与え、オペランドＯＰＤ２を形成することに
より算出されるからである。

【００３４】図５に示したとおり、オペランドは、加算
器入力レジスタＦＣ及びＦＤへ渡される過程において、
必要に応じて、指数が適合していない場合は整列器ＡＬ
１、ＡＬ２及びシフタＳＬ１、ＳＬ２で整列動作を受け
なければならず、あるいは、加算器ＡＤＤ−Ａでの実際
の加算の前に保護桁ＧＤを含む先頭のゼロを取除かなけ
ればならない場合にはゼロ設定動作を受けなければなら
ない。

【００３５】いくつかの特別な状況が例７に示されてい
る。｛１｝（尚、図面中では、数字を丸で囲った表記で
示されている）で示すように、ＩＲ１は、パイプライン
のステージ３において１つの余分な桁ＧＤとともに（４
ビット）パスＮＤを介してフィードバックされる。保護
桁（ＧＤ＝８）は、ステージ３の処理段階Ａ３で行われ
た積加算から生じたものである。｛２｝（尚、図面中で
は、数字を丸で囲った表記で示されている）は、３つの
位だけ右へ桁送りすることにより生じるオペランドＯＰ
Ｄ１の整列が、２つのＧＤ（１、１）の分だけデータ幅
を拡張させることを示している。参照マーク｛３｝
（尚、図面中では、数字を丸で囲った表記で示されてい
る）の位においては、ＩＲ１からレジスタＦＤへ転送さ
れるオペランドが先頭のゼロを有しており、左へ桁送り
することによりこれを取除いた結果、指数Ｅｘｐが０５
から０４へ変わることが示されている。

【００３６】ステージ３の処理段階Ａ３において、さら
にＦＥの内容が切捨てられ正規化される。これにより、
−１の指数調整が行われる（０５から０４へ）。さらに
ステージ４の処理段階Ｂ３において最終結果を形成する
ために、最終の加算動作に先立って指数調整のための左
への桁送りが必要である。加算の結果は、ＩＲ２に中間
値として記憶されるが、尚切捨てられ正規化されなけれ
ばならない。この手順において、もし保護桁がある場合
はこれを取除いてから最終結果をＦＥへ転送しなければ
ならない。出力レジスタは最終結果ＦＲを含む。

【００３７】例８（図１３）例８においては、例７で論じられたものと異なるオペラ
ンドの値によって生じる特別な状況が、｛４｝及び
｛５｝（尚、図面中では、数字を丸で囲った表記で示さ
れている）で示されている。｛４｝では、ＦＤ内の保護
桁ＧＤの別個のゼロ設定が必要であり、第３の段階の処
理段階３において行われる。｛５｝（尚、図面中では、
数字を丸で囲った表記で示されている）では、ＦＣ内の
オペランドの小数部部分を切捨てる必要がある。このこ
とは、左への１桁の桁送りをする必要がないことを意味
し、従って、先頭のｎ＋１桁のみが加算へと渡される。

【００３８】例９（図１５）例９では、ステージ３の処理段階Ｂ２において、乗算の
結果として中間的にＦＤに記憶されたオペランドが付加
的な保護桁を必要とするような｛６｝（尚、図面中で
は、数字を丸で囲った表記で示されている）で示される
特別な状況がある。双方のオペランドの指数が既に調整
されているので（いずれも０５）、引続いて桁送り動作
をする必要がない。

【００３９】例１０（図１６）最後の例１０では、指数のアンダーフローがいかに処理
されるかが｛７｝（尚、図面中では、数字を丸で囲った
表記で示されている）で示されている。指数のアンダー
フローは、さらに１ビット（ｑ）を必要とし、そしても
し真のゼロ状態がＴ／Ｃユニットにより検知された場合
はパスＮＤを介するデータ・フィードバックを取消すこ
とが必要である。

【００４０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４１】（１）乗算器（Ｍ）での乗算に先立ってオ
ペランド（ＯＰＥＩ、ＯＰＥＩＩ）を中間的に記憶する
ための第１の入力レジスタ（ＭＡ）及び第２の入力レジ
スタ（ＭＢ）と、該乗算器の出力に接続されかつ第１の
加算器（ＡＤＤ−Ｍ）での加算に先立って該乗算の部分
和を中間的に記憶するための加算器出力レジスタ（Ｐ
Ｃ、ＰＳ）と、該加算器の出力に接続されかつ該部分和
の総計（ＯＰＤ２）を正規化するための第１の正規化器
（ＮＯＲＭ−Ｍ）とを備える乗算域(ＭＳ）と、加算の
ためにオペランド（ＯＰＤ１、ＯＰＤ２）を中間的に記
憶するための第３の入力レジスタ（ＦＡ）及び第４の入
力レジスタ（ＦＢ）と、第２の加算器（ＡＤＤ−Ａ）で
の該オペランドの加算に先立って双方のオペランドを中
間的に記憶するための第１の加算器入力レジスタ（Ｆ
Ｃ）及び第２の加算器入力レジスタ（ＦＤ）と、該第１
の加算器入力レジスタに接続されかつオペランドの真値
／補数形成のために該第３の入力レジスタと真値／補数
ユニット（Ｔ／Ｃ）との間に相互接続されるオペランド
（ＯＰＤ１）整列用の第１の整列器（ＡＬ１）と、前記
第４の入力レジスタに接続されるオペランド（ＯＰＤ
２）整列用の第２の整列器と、該第２の加算器の出力に
接続されかつ最終結果を正規化するための第２の正規化
器（ＮＯＲＭ−Ａ）とを備える加算域（ＡＳ）とを有す
る浮動小数点プロセッサの配置であって、待ちサイクル
を必要とせずに高速の乗算−加算命令を実行するため
に、前記第１の正規化器の出力を前記第１及び第２の整
列器の入力へ接続するフィードバック・パス（図４のＮ
Ｄ）と、前記第１の整列器と前記真値／補数ユニットと
の間に相互接続される第１の左桁送り器（ＳＬ１）と、
前記真値／補数ユニットと前記第１の加算器入力レジス
タとの間に相互接続されるゼロ設定器（Ｚ１）と、前記
第２の整列器と前記第２の加算器入力レジスタに接続さ
れる第２のゼロ設定器（Ｚ２）との間に相互接続される
第２の左桁送り器（ＳＬ２）とを設けることを特徴とす
る浮動小数点プロセッサの配置。（２）上記（１）に記載の浮動小数点プロセッサの配置
において待ちサイクルを必要とせずに高速の乗算−加算
命令を実行する方法であって、１）乗算器（Ｍ）の第１
の入力レジスタ（ＭＡ）及び第２の入力レジスタ（Ｍ
Ｂ）へ乗算のためのオペランド（ＯＰＤＩ、ＯＰＤＩ
Ｉ）を読取るステップと、２）前記乗算器（Ｍ）により
部分和を形成するステップと、３）積の指数計算を実行
し、もしその積が先頭にゼロを有していれば１だけ指数
を減らし、かつ同時に加算のオペランド（ＯＰＤ１）を
読取るステップと、４）乗算の部分和を加算し、その結
果である中間値をフィードバック・パス（ＮＤ）を介し
て整列器（ＡＬ１、ＡＬ２）へフィードバックするステ
ップと、５）前記積の中間値及び前記加数（ＯＰＤ１）
の指数同士を比較し、もしそれらが一致しなければ適切
な整列を実行するステップと、６）以下の場合、すなわ
ち、ａ．もし前記積が真にゼロであれば、前記乗算器か
らフィードバックされるオペランドがゼロに設定され
る、ｂ．もし前記中間的な積の指数が前記加数オペラン
ド（ＯＰＤ１）の指数よりも小さいか等しいならば、該
積が整列させられる、ｃ．もし前記中間的な積の指数が
前記加数オペランドの指数よりも大きいならば、該加数
が整列させられる、のいずれかの場合が当てはまるか否
かを検査するステップと、７）前記積が先頭にゼロをも
たない場合、該積の保護桁があればそれをゼロに設定す
るステップと、８）前記積が先頭にゼロをもつ場合、双
方のオペランドが桁送り器（ＳＬ１、ＳＬ２）により１
桁だけ左へ桁送りされ、かつその結果、前記整列器の最
下位桁が保護桁となるステップと、９）双方のオペラン
ドが適切に整列させられたとき、第２の加算器（ＡＤＤ
−Ａ）により加算されて、高速の乗算−加算命令の最終
的な結果を得るステップとを有する高速の乗算−加算命
令を実行する方法。

【００４２】

【発明の効果】上述のような本願の特徴的構成を用いる
ことにより、パイプライン式浮動小数点プロセッサにお
いて、直前の乗算結果を用いる乗算−加算命令シーケン
スから待ちサイクルを省くことが可能となり、処理効率
が向上した。

【図面の簡単な説明】

【図１】従来のパイプライン浮動小数点プロセッサのブ
ロック図を示す。

【図２】図１のパイプライン浮動小数点プロセッサにお
いて、加算命令を処理するパイプラインのステージを表
す概略図である。

【図３】図１のパイプライン浮動小数点プロセッサにお
いて、乗算命令を処理するパイプラインのステージを表
す概略図である。

【図４】図１のパイプライン浮動小数点プロセッサにお
いて、乗算−加算命令シーケンスを処理するパイプライ
ンのステージを表す概略図である。

【図５】本発明により改良されたパイプライン浮動小数
点プロセッサのブロック図である。

【図６】乗算−加算命令シーケンスを処理する、図５の
浮動小数点プロセッサのパイプライン・ステージの概略
図である。

【図７】図５の浮動小数点プロセッサにおける汎用的な
加算及び乗算動作の一例である。

【図８】図５の浮動小数点プロセッサにおける汎用的な
加算及び乗算動作の一例である。

【図９】図５の浮動小数点プロセッサにおける汎用的な
加算及び乗算動作の一例である。

【図１０】図５の浮動小数点プロセッサにおける汎用的
な加算及び乗算動作の一例である。

【図１１】図５の浮動小数点プロセッサにおける汎用的
な加算及び乗算動作の一例である。

【図１２】図５の浮動小数点プロセッサにおける汎用的
な加算及び乗算動作の一例である。

【図１３】図５の浮動小数点プロセッサにおける新しい
乗算−加算命令の一例である。

【図１４】図５の浮動小数点プロセッサにおける新しい
乗算−加算命令の一例である。

【図１５】図５の浮動小数点プロセッサにおける新しい
乗算−加算命令の一例である。

【図１６】図５の浮動小数点プロセッサにおける新しい
乗算−加算命令の一例である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ユールゲン・ハースドイツ72074、チュービンゲン、ダイムレルシュトラーセ６ (72)発明者ロルフ・ミュラードイツ71032、ボーブリンゲン、ハウフシュトラーセ８／１

Claims

【特許請求の範囲】

【請求項１】乗算器（Ｍ）での乗算に先立ってオペラン
ド（ＯＰＥＩ、ＯＰＥＩＩ）を中間的に記憶するための
第１の入力レジスタ（ＭＡ）及び第２の入力レジスタ
（ＭＢ）と、該乗算器の出力に接続されかつ第１の加算
器（ＡＤＤ−Ｍ）での加算に先立って該乗算の部分和を
中間的に記憶するための加算器出力レジスタ（ＰＣ、Ｐ
Ｓ）と、該加算器の出力に接続されかつ該部分和の総計
（ＯＰＤ２）を正規化するための第１の正規化器（ＮＯ
ＲＭ−Ｍ）とを備える乗算域(ＭＳ）と、加算のためにオペランド（ＯＰＤ１、ＯＰＤ２）を中間
的に記憶するための第３の入力レジスタ（ＦＡ）及び第
４の入力レジスタ（ＦＢ）と、第２の加算器（ＡＤＤ−
Ａ）での該オペランドの加算に先立って双方のオペラン
ドを中間的に記憶するための第１の加算器入力レジスタ
（ＦＣ）及び第２の加算器入力レジスタ（ＦＤ）と、該
第１の加算器入力レジスタに接続されかつオペランドの
真値／補数形成のために該第３の入力レジスタと真値／
補数ユニット（Ｔ／Ｃ）との間に相互接続されるオペラ
ンド（ＯＰＤ１）整列用の第１の整列器（ＡＬ１）と、
前記第４の入力レジスタに接続されるオペランド（ＯＰ
Ｄ２）整列用の第２の整列器と、該第２の加算器の出力
に接続されかつ最終結果を正規化するための第２の正規
化器（ＮＯＲＭ−Ａ）とを備える加算域（ＡＳ）とを有
する浮動小数点プロセッサの配置であって、待ちサイク
ルを必要とせずに高速の乗算−加算命令を実行するため
に、前記第１の正規化器の出力を前記第１及び第２の整列器
の入力へ接続するフィードバック・パス（図４のＮＤ）
と、前記第１の整列器と前記真値／補数ユニットとの間に相
互接続される第１の左桁送り器（ＳＬ１）と、前記真値／補数ユニットと前記第１の加算器入力レジス
タとの間に相互接続されるゼロ設定器（Ｚ１）と、前記第２の整列器と前記第２の加算器入力レジスタに接
続される第２のゼロ設定器（Ｚ２）との間に相互接続さ
れる第２の左桁送り器（ＳＬ２）とを設けることを特徴
とする浮動小数点プロセッサの配置。
【請求項２】請求項１に記載の浮動小数点プロセッサの
配置において待ちサイクルを必要とせずに高速の乗算−
加算命令を実行する方法であって、１）乗算器（Ｍ）の第１の入力レジスタ（ＭＡ）及び第
２の入力レジスタ（ＭＢ）へ乗算のためのオペランド
（ＯＰＤＩ、ＯＰＤＩＩ）を読取るステップと、２）前記乗算器（Ｍ）により部分和を形成するステップ
と、３）積の指数計算を実行し、もしその積が先頭にゼロを
有していれば１だけ指数を減らし、かつ同時に加算のオ
ペランド（ＯＰＤ１）を読取るステップと、４）乗算の部分和を加算し、その結果である中間値をフ
ィードバック・パス（ＮＤ）を介して整列器（ＡＬ１、
ＡＬ２）へフィードバックするステップと、５）前記積の中間値及び前記加数（ＯＰＤ１）の指数同
士を比較し、もしそれらが一致しなければ適切な整列を
実行するステップと、６）以下の場合、すなわちａ．もし前記積が真にゼロであれば、前記乗算器からフ
ィードバックされるオペランドがゼロに設定されるｂ．もし前記中間的な積の指数が前記加数オペランド
（ＯＰＤ１）の指数よりも小さいか等しいならば、該積
が整列させられるｃ．もし前記中間的な積の指数が前記加数オペランドの
指数よりも大きいならば、該加数が整列させられるのいずれかの場合が当てはまるか否かを検査するステッ
プと、７）前記積が先頭にゼロをもたない場合、該積の保護桁
があればそれをゼロに設定するステップと、８）前記積が先頭にゼロをもつ場合、双方のオペランド
が桁送り器（ＳＬ１、ＳＬ２）により１桁だけ左へ桁送
りされ、かつその結果、前記整列器の最下位桁が保護桁
となるステップと、９）双方のオペランドが適切に整列させられたとき、第
２の加算器（ＡＤＤ−Ａ）により加算されて、高速の乗
算−加算命令の最終的な結果を得るステップとを有する
高速の乗算−加算命令を実行する方法。