JPH09231201A

JPH09231201A - 浮動小数点乗算累算装置

Info

Publication number: JPH09231201A
Application number: JP8304451A
Authority: JP
Inventors: D Nafuzuigaa Samuel; サミュエル・ディー・ナフズィガー; R Smentek David; デビッド・アール・スメンテック
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1995-11-30
Filing date: 1996-11-15
Publication date: 1997-09-05
Anticipated expiration: 2016-11-15
Also published as: JP3803438B2; US5757686A

Abstract

(57)【要約】【課題】データ経路幅を減少した浮動小数点乗算累算装
置ＦＭＡＣおよびそれを使用する方法を提供する。【解決手段】数値Ａ、ＢおよびＣが各々ｍビットの仮数
および指数を含むとして、(Ａ×Ｂ)とＣの指数部を比較
して(Ａ×Ｂ)とＣの仮数が重ね合う範囲があるか否かを
判断し、(Ａ×Ｂ)仮数部の範囲を越えるＣ仮数部分をす
べてＣＨＩレジスタへ転送し、(Ａ×Ｂ)仮数部と重なり
合うＣの仮数部分をシフトさせて(Ａ×Ｂ)およびＣの仮
数のビットをそれぞれの大きさに従って位置調整し、Ｃ
の仮数のシフトされた部分を(Ａ×Ｂ)の仮数部に加算し
て一時的結果を生成し、ＣＨＩバッファの下位ビットを
一時的結果からシフトさせ、ＣＨＩバッファへ転送され
たＣ仮数部のビットと一時的結果の上位ビットをマージ
させて最終累算結果を生成する。かくして、ＦＭＡＣの
データ経路幅は「２ｍ＋１」ビットに抑えられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、浮動小数点乗算累
算装置であるＦＭＡＣ装置において乗算結果に対する加
数の高位部分の結合を行わないことによって演算機構の
データ経路幅の拡大を抑える方法および装置に関するも
のである。

【０００２】

【従来の技術】マイクロプロセッサのアーキテクチャの
設計において、速度、正確度およびコストという３つの
非常に重要な考慮点がある。優れた正確度および高速で
の乗算、加算およびその他の演算を実行するマイクロプ
ロセサ(ＣＰＵ)を設計することは望ましいことではある
が、コストの観点から効率的に製造することことができ
るＣＰＵを設計することもまた望まれる。ＲＩＳＣ(す
なわち減少命令セット・コンピュータ）のＣＰＵにおい
て乗算および加算を累計演算すなわち(Ａ＊Ｂ)＋Ｃに融
合させることによって速度および正確度が顕著に向上し
た。単に２つの数を加算または乗算することが必要なら
ば、Ｃ＝０をセットすることによって演算Ａ＊Ｂを実行
し、またＢ＝1をセットすることによっ演算Ａ＋Ｃを実
行することができる。演算(Ａ＊Ｂ)＋Ｃを実行するＣＰ
Ｕコンポーネントは、(浮動小数点乗算累算装置を意味
するFloating-point Multiply Accumulate Unitの頭文
字である)ＦＭＡＣまたは(乗算加算融合浮動小数点装置
を意味するMultiply-Add-Fused Floating-Point Unitの
頭文字である)ＭＡＦ／ＦＰＵと一般に呼ばれる。

【０００３】ＦＭＡＣへの入力は、オペランドＡ(被乗
数)、Ｂ(乗数)およびＣ(加数)であり、この場合、Ａ、
ＢおよびＣは固定または浮動小数点数のいずれかであ
る。２進数形式で単精度(３２ビット)または倍精度(６
４ビット)を表現するためのＩＥＥＥ表記法は〔Ｓ，
Ｅ，Ｍ]であって、この場合、Ｓは数値の符号を表す１
ビットで、Ｅが指数部で、Ｍが(先頭ビットを削られた)
仮数部であるとされる。従って、ＩＥＥＥ浮動小数点数
形式は、Ｓ＊Ｍ＊２^Eである。単精度系においては、Ｅ
は８ビットによって表現され、Ｍは２３ビットによって
表現される(但し浮動小数点数がＦＭＡＣへ入力される
時、ＦＭＡＣにとって内部的に実行される演算が仮数が
含む先頭の１が存在することを必要とするので、２３ビ
ット仮数は２４ビット仮数になる)。倍精度系において
は、Ｅは１１ビットによって表現され、Ｍは５２ビット
によって表現される(但しＦＭＡＣの内部では５３ビッ
トである)。

【０００４】ＦＭＡＣの物理的なレイアウトは、Ａ、Ｂ
およびＣの仮数を加算し乗算する場合に実行されねばな
らない演算によって大部分決定される。この点は、Ａ、
ＢおよびＣが倍精度数値で、それらの仮数部(５３ビッ
ト)がそれらの指数部(１１ビット)のサイズのほぼ５倍
である場合に特に該当する。図２は従来技術のＦＭＡＣ
の物理的レイアウトを示す。

【０００５】ＡとＢの乗算は、それらの仮数の乗算およ
びそれらの指数の加算を必要とする。Ａの仮数がｍビッ
トを含みＢの仮数がｎビットを含むとすれば、それらの
仮数の乗算は、各回毎にＡのｍビットを左へ１ビットず
つシフトさせながらＡにそれ自身をｎ回加算することを
必要とする。乗算の結果は、「ｍ＋ｎ＋１」ビットの仮
数であり、ＦＭＡＣのデータ経路をｍビットから「ｍ＋
ｎ＋1」ビットへ拡大することを必要とする。もしもＡ
およびＢが各々ｍビット仮数を持つ倍精度数値であれ
ば、それらの仮数を乗算した結果は、「２ｍ＋１」ビッ
ト、すなわち１０７ビット数値である。このように、倍
精度系においては、図２のＦＭＡＣのデータ経路は、５
３ビットから１０７ビットへデータ経路を拡張すること
が許容される乗算機構を必要とするであろう。

【０００６】(Ａ＊Ｂ)とＣの加算は、それらの仮数の加
算の前に、それらの指数の大きさの比較を通してそれら
の仮数の調整(alignmenntすなわち小数点位置合わせの
意)を必要とする。その場合、次のような４つの可能な
加算のケースが考察されねばならない(注：以下ＥＸＰ
は指数を示す)。１)ＥＸＰ(Ｃ)＜＜ＥＸＰ(Ａ＊Ｂ) ２)ＥＸＰ(Ｃ)＜ＥＸＰ(Ａ＊Ｂ) ３)ＥＸＰ(Ｃ)＞＞ＥＸＰ(Ａ＊Ｂ) ４)ＥＸＰ(Ｃ)＞ＥＸＰ(Ａ＊Ｂ) 第１のケースでは、(Ａ＊Ｂ)とＣの仮数を調整させる試
みが加数Ｃの右へのオーバーシフトを引き起こすので、
Ｃのみが(Ａ＊Ｂ)の丸めに影響を及ぼす。

【０００７】第２のケースでは、(Ａ＊Ｂ)およびＣの仮
数の調整がＣを右へシフトさせる結果となる。Ｃの仮数
のビットの一部は、オーバーシフトされる可能性がある
ので、丸め計算(スティッキー・ビット情報)に入るであ
ろう。Ｃの残りのビットは、(Ａ＊Ｂ)演算結果の該当す
るビットに加えられる。

【０００８】第３と第４のケースでは、(Ａ＊Ｂ)および
Ｃの仮数の調整はＣを左へシフトさせる結果となる。左
シフトは、倍精度ＦＭＡＣのデータ経路が更に５３ビッ
ト(すなわち合計「３ｍ＋１」ビットに）拡幅されるこ
とを必要とする。ひとたびＣが(Ａ＊Ｂ)の仮数の範囲外
へシフトされると、(Ａ＊Ｂ)結果のみがＣの丸めを始め
ることができるだけであり、Ｃをさらに左へシフトさせ
る必要がない。(Ａ＊Ｂ)およびＣの仮数がなんらかの重
なり部分を持てば、それらの仮数の調整されたビットが
加算される。

【０００９】先頭ビット予測器(leading bit anticipat
or)および／または丸め器を使用して出力されるＦＭＡ
Ｃの累算結果は、Ｓ、ＥおよびＭの形式での(先頭１ビ
ットが再び取り除かれた)「ｍ‐1」ビット仮数、指数お
よび符号ビットである。「ｍ‐1」ビット仮数から切り
捨てられたあるいはその範囲外へシフトされたビットは
丸め計算において使用される。

【００１０】

【発明が解決しようとする課題】「３ｍ＋１」ビットの
加算器、シフト器および先頭ビット予測器によって必要
とされる物理的な空間は従来技術のＦＭＡＣの欠点であ
ると認められる。これらのコンポーネントによって底部
でまた乗算機構の傾斜によって片側に飛び出した半端な
形状のチップ面積を効率的に利用することは難しい。チ
ップ面積は高価であるので、空間の浪費は非常にコスト
高となる。

【００１１】更に、大きな加算器、シフト器および先頭
ビット予測器のデータ経路に関する要件によって、ＦＭ
ＡＣ製造コストが増大し、システム処理性能が低下する
(信号経路の距離増加のため演算速度が低下する)。従っ
て、ＦＭＡＣデータ経路を「３ｍ＋１」ビット幅に拡張
する必要性を除去しそれによってＦＭＡＣデータ経路を
「２ｍ＋１」ビット幅にとどめるＦＭＡＣおよびこれを
使用する方法を提供することが本発明の主要目的であ
る。

【００１２】また、最高「２ｍ＋１」ビットの加算器、
シフト器および先頭ビット予測器の使用のみを必要とす
るＦＭＡＣおよびこれを使用する方法を提供することが
本発明の別の目的である。更に、ＦＭＡＣによって必要
とされる物理的チップ面積減少を通して顕著なコスト節
減を実現するＦＭＡＣおよびこれを使用する方法を提供
することが本発明の別の目的である。更にまた、信号経
路の短絡によってシステム処理性能を向上させるＦＭＡ
Ｃおよびこれを使用する方法を提供することが本発明の
更にまた別の目的である。

【００１３】

【課題を解決するための手段】上記発明の課題を解決す
るため、本発明は、Ａ、ＢおよびＣが各々ｍビットの仮
数および指数を含み、(Ａ×Ｂ)の結果が２ｍビットの仮
数および指数を含む演算(Ａ×Ｂ)＋Ｃを実行する浮動小
数点乗算累算装置(すなわちＦＭＡＣ)を提供する。ＦＭ
ＡＣは先ず(Ａ×Ｂ)とＣの指数部を比較して(Ａ×Ｂ)と
Ｃの仮数に重ね合わせ範囲があるか否かを判断する。
(Ａ×Ｂ)仮数部の範囲を越えるＣ仮数部分はすべてＣＨ
Ｉバッファへ転送される。Ｃの残りの部分または(Ａ×
Ｂ)仮数部と重なり合うＣの仮数部分をシフトさせて、
(Ａ×Ｂ)およびＣの仮数のビットをそれぞれの大きさに
従って調整させる。その後、Ｃの仮数のシフトされた部
分が(Ａ×Ｂ)の仮数部に加算され一時的結果が生成され
る。Ｃ仮数の一部がＣＨＩバッファへ転送されている場
合、(ＣＨＩバッファへ転送されたビット数に応じて)1
つまたは複数の最下位ビットが一時的結果からシフトさ
れる。最後に、ＣＨＩバッファへ転送されたＣ仮数部の
ビットが一時的結果の１つまたは複数の最上位ビット位
置にマージされる。

【００１４】上記ステップのすべては、「２ｍ＋１」ビ
ット幅のデータ経路境界内で実行することができる。こ
のようにして、１)ＦＭＡＣを実行するために必要とさ
れるチップ面積が減少され、２)信号経路が短縮され、
３)システム処理性能が向上し、４)より小さくより低コ
ストの加算器、シフト器および先頭ビット予測器が使用
され、５)顕著なコスト節減が実現する。

【００１５】本発明は、更に、発明の課題を解決する手
段として、数値Ａ，ＢおよびＣそれぞれの入力部、乗算
(Ａ×Ｂ)の結果の仮数の範囲を越えるＣの仮数の１つ以
上のビットを格納するＣＨＩレジスタ、(Ａ×Ｂ)の仮数
の範囲と重なるＣの仮数の１つ以上のビットを格納する
ＣＢＵＳレジスタ、Ｃと(Ａ×Ｂ)の指数の差に対応する
数のビットだけＣの仮数を左へシフトさせてシフトさせ
たビット位置をＣＢＵＳレジスタに格納させる第１シフ
ト器、(Ａ×Ｂ)＋ＣＢＵＳを出力する加算器、加算器の
(Ａ×Ｂ)＋ＣＢＵＳ出力に接続する先頭ビット予測器、
(Ａ×Ｂ)＋Ｃ累算結果出力部、先頭ビット予測器の出力
をＣと(Ａ×Ｂ)の指数の間の差に等しいビット数だけ右
へシフトさせてシフトさせた結果を累算結果出力部に出
力する第２シフト器、および(Ａ×Ｂ)の仮数の範囲を越
えるＣの仮数の１つ以上のビットを格納するＣＨＩレジ
スタのビットと累算結果出力の１つ以上の上位ビットを
結合させる結合手段を備えた累算演算(Ａ×Ｂ)＋Ｃを実
行する浮動小数点乗算累算装置すなわちＦＭＡＣ装置を
含む。

【００１６】

【発明の実施の形態】累計演算(Ａ×Ｂ)＋Ｃを実行する
ＦＭＡＣ(浮動小数点乗算累計装置)２０において乗算結
果２８に対する加数の高位部分の結合を取り除く方法が
図３ないし図６に示されている。ここで、Ａ、Ｂおよび
Ｃ２２、２４、３０は各々ｍビットの仮数部および指数
部を持ち、(Ａ×Ｂ)の結果は、「２ｍ＋１」ビットの仮
数部および指数部を持つ。本発明の方法は、一般的に以
下のステップを含む。すなわち、先ず、(Ａ×Ｂ)２８と
Ｃ３０の指数部を比較して(Ａ×Ｂ)２８とＣ３０の仮数
部の重なり範囲があるか否かを判断し、(Ａ×Ｂ)２８の
仮数部の範囲を越えるＣ３０の仮数部分をＣＨＩレジス
タ３２へ転送する。次に、(Ａ×Ｂ)２８およびＣ３０の
仮数部のビットをそれぞれの大きさに応じて調整させる
ため、(Ａ×Ｂ)２８の仮数部の範囲と重なるＣ３０仮数
のすべての部分をシフトさせ、Ｃ３０仮数部のシフトさ
れた部分３６を(Ａ×Ｂ)２８の仮数部に加算して一時的
加算結果を生成する。Ｃの仮数部３０の一部がＣＨＩレ
ジスタ３２へ転送されていれば、ＣＨＩレジスタ３２に
転送されたビット数に対応する１つまたは複数の下位ビ
ットを一時的加算結果からシフトさせる。最後に、ＣＨ
Ｉレジスタ３２へ転送されたＣ仮数部３０のビットを一
時的加算結果の１つまたは複数の上位ビット位置にマー
ジさせて、累算結果４４を生成する。

【００１７】上記本発明の方法を実施することができる
ＦＭＡＣ２０が図１に示されている。本装置は、一般的
に、数値Ａ，ＢおよびＣ２２、２４、３０それぞれの入
力部、乗算(Ａ×Ｂ)の結果の仮数部２８の範囲を越える
Ｃの仮数部３０の１つ以上のビットを格納するＣＨＩレ
ジスタ３２、(Ａ×Ｂ)仮数２８の範囲と重なるＣの仮数
３０の１つ以上のビット(重ね合うビットは適切に位置
調整される)を格納するＣＢＵＳレジスタ３６、Ｃ３０
と(Ａ＊Ｂ)２８の指数の差に対応する数のビットだけＣ
３０の仮数を左へシフトさせて、シフトさせたビット位
置をＣＢＵＳレジスタ３６に格納させる第１シフト器３
４、(Ａ×Ｂ)＋ＣＢＵＳを出力する加算器３８、加算器
３８の(Ａ×Ｂ)＋ＣＢＵＳ出力に接続する先頭ビット予
測器４０、(Ａ×Ｂ)＋Ｃ累算結果出力部４４、先頭ビッ
ト予測器４０の出力をＣと(Ａ＊Ｂ)の指数の間の差に等
しいビット数だけ右へシフトさせて、シフトさせた結果
を累算結果出力部４４に出力する第２シフト器４２、お
よび(Ａ×Ｂ)２８の仮数の範囲を越えるＣ３０の仮数の
１つ以上のビットを格納するＣＨＩレジスタ３２のビッ
トと累算結果出力４４の１つ以上の上位ビットを結合さ
せる結合手段を備える。

【００１８】以下にＦＭＡＣ２０の詳細を記述する。本
発明の好ましい方法のプロセスは、ＦＭＡＣ２０のオペ
ランド(Ａ＊Ｂ)２８およびＣ３０から始まる。ここで、
(Ａ＊Ｂ)２８は「２ｍ＋１」ビットの仮数部を持つ乗算
結果であり、Ｃ３０は、ｍビットの仮数部を持つ加数で
ある。各オペランド２８、３０は更に指数および符号ビ
ットと関連づけられている。累計演算(Ａ＊Ｂ)＋ＣがＦ
ＭＡＣ２０内で分割できない演算として実行されるが、
(Ａ＊Ｂ)の結果２８に対するＣ３０の高位部分の結合を
行わずに(Ａ＊Ｂ)をＣに加算する方法は、Ａ２２とＢ２
４の乗算とは無関係であり、従って、ＦＭＡＣ２０の乗
算機構２６について知らなければならないことは、キャ
リ保存加算器または同等の機構を使用してオペランドＡ
２２およびＢ２４(被乗数および乗数)のｍビット仮数部
を乗算して「２ｍ＋１」ビット仮数部を持つ(Ａ＊Ｂ)乗
算結果２８をこの機構が作成するということだけでよ
い。

【００１９】(Ａ＊Ｂ)の結果２８が作成された後、(Ａ
＊Ｂ)３０とＣ２８の指数部の大きさが比較され、次の
４つの可能なケースのどれが存在するか判断される。４
つのケースは、１)ＥＸＰ(Ｃ)＜＜ＥＸＰ(Ａ＊Ｂ) ２)ＥＸＰ(Ｃ)＜ＥＸＰ(Ａ＊Ｂ) ３)ＥＸＰ(Ｃ)＞＞ＥＸＰ(Ａ＊Ｂ) ４)ＥＸＰ(Ｃ)＞ＥＸＰ(Ａ＊Ｂ) である。これらの４つのケースの各々は、図３ないし図
６の水平分割線より上方に描かれた(Ａ＊Ｂ)２８とＣ３
０の仮数によって表されている。より小(＜)およびより
大(＞)は、(Ａ＊Ｂ)２８とＣ３０の指数が相違してはい
るが、それらの仮数の範囲の間にある程度の重ね合わせ
が存在することを意味する。非常に小(＜＜)および非常
に大(＞＞)は、(Ａ＊Ｂ)２８とＣ３０の指数の相違が非
常に大きいためそれらの仮数の範囲が重ならないことを
意味する。

【００２０】ＥＸＰ(Ｃ)＞ＥＸＰ(Ａ＊Ｂ)である図５の
第３のケースが、本発明のＦＭＡＣおよびそれを使用す
る方法によって最も影響を受けるので、このケースを最
初に考察する。Ｃ３０の仮数が「２ｍ＋１」ビット幅の
データ経路の限界内でＦＭＡＣ２０に入力されるが、
(Ａ＊Ｂ)２８とＣ３０の指数の比較によって、Ｃ３０の
下位ビットのいくつかが(Ａ＊Ｂ)２８の上位ビットのい
くつかと重ね合うことが示されている。従来技術の(図
２の)ＦＭＡＣ５０においては、このケースでは、「３
ｍ＋１」ビットの加算器５４、シフト器５２、５８およ
び先頭ビット予測器５６が必要とされるので、ＦＭＡＣ
５０のデータ経路は「２ｍ＋１」ビットから「３ｍ＋
１」ビットへ拡幅されねばならない。しかし、Ｃ３０の
高位部分すなわち(Ａ＊Ｂ)結果２８と重ならないＣ３０
部分を取り外すことによって、データ経路拡張を不要に
させることが可能である。

【００２１】Ｃ３０と(Ａ＊Ｂ)２８の指数の間の差に等
しいＣ３０のビット数がＣＨＩレジスタ３２の対応する
位置に転送される。ＣＨＩ３２ビット位置の残りは、１
で埋められる。Ｃ３０の高位ビットがＣＨＩ３２へ転送
されたならば、Ｃ３０の高位ビット位置に何が残ってい
ようと問題ではない。Ｃ３０の高位ビット位置はＣ３０
の残存内容としてマスクされ、「２ｍ＋１」ビットＣＢ
ＵＳレジスタ３６へ転送される。Ｃ３０の内容がＣＢＵ
Ｓ３６へ転送されると、その内容は、Ｃ３０と(Ａ＊Ｂ)
２８の指数の差に対応する数のビットだけ左へシフトさ
れる。Ｃ３０の高位部分がＣＢＵＳ３６からマスクさ
れ、Ｃ３０と(Ａ＊Ｂ)２８の重なり合うビットが今や調
整されたことが観察される。ＣＢＵＳ３６の下位ビット
はゼロで埋められる。Ｃ３０と(Ａ＊Ｂ)２８の重なり合
うビットが調整された後、「２ｍ＋１」ビット幅加算器
を使用して(Ａ＊Ｂ)＋ＣＢＵＳの一時的結果(図５でＴ
ＥＭＰ４６として表されている)が生成される。スティ
ッキー・ビット情報を使用してＴＥＭＰ結果４６を丸め
ることができるであろうし、また、ＴＥＭＰ４６からの
どのようなキャリもＣＨＩ３２を増加させるために使用
することができる。ＣＨＩ３２の下位ビットはゼロで埋
められるので、ＴＥＭＰ４６からのキャリは、ＣＨＩ３
２の下位ビットからＣ３０の高位部分を表すＣＨＩ３２
のビットに伝播する点に注意する必要がある。

【００２２】ＴＥＭＰ結果４６を作成した後、ＴＥＭＰ
結果４６は、Ｃ３０と(Ａ＊Ｂ)２８の指数の間の差に等
しいビット数だけ右へシフトされなければならない。Ｔ
ＥＭＰ４６のビットが右にシフトされると、ＴＥＭＰ４
６の上位ビットはゼロで埋められる。シフトされたＴＥ
ＭＰレジスタは、図５においてＳＨＩＦＴＥＤ_ＴＥＭ
Ｐ４８と表記されている。ＣＨＩ３２に含まれるＣ３０
の高位部分は、ＳＨＩＦＴＥＤ_ＴＥＭＰ４８の一時的
(Ａ＊Ｂ)＋Ｃの結果と調整され、今やＳＨＩＦＴＥＤ_
ＴＥＭＰ４８とマージされる。「２ｍ＋ｌ」ビット結果
が、先頭ビット予測器および／またはシフト器に送ら
れ、所望の「ｍ−１」ビット仮数結果ＲＥＳＵＬＴが得
られる。結果の指数および符号は従来技術の方法を使用
して調節される。

【００２３】次に、ＥＸＰ(Ｃ)＞＞ＥＸＰ(Ａ＊Ｂ)であ
る図６の第４のケースを考察する。第４のケースでは、
Ｃ３０と(Ａ＊Ｂ)２８の指数の比較は、Ｃ３０と(Ａ＊
Ｂ)２８の仮数が重ならないことを示す。従って、Ｃ３
０のすべてのビットがＣＨＩ３２へ転送され、ＦＭＡＣ
２０の出力はＣＨＩ３２に等しく、使用する丸め方式に
依存するがおそらく最下位ビットの±１によって丸めが
行われるであろう。ＣＢＵＳ３６、ＴＥＭＰ４６および
ＳＨＩＦＴＥＤ_ＴＥＭＰ４８のレジスタの値は、ＦＭ
ＡＣ２０の結果として生じる出力に関しては無関係であ
る。Ｃ３０の存在しない低位ビットがＣＢＵＳ３６にシ
フトされる時、オーバーシフトが発生し無意味なＣＢＵ
Ｓ３６を作成する(ＣＢＵＳ３６はおそらくすべてゼロ
で埋められる)。一時的な(Ａ＊Ｂ)＋Ｃ結果(ＴＥＭＰレ
ジスタ４６)がシフトされると、オーバーシフトが発生
し、ＳＨＩＦＴＥＤ＿ＴＥＭＰレジスタ４８はおそらく
すべてゼロで埋められる。ＴＥＭＰレジスタ４６からシ
フト・アウトされるたビットは、ＣＨＩ結果４４の丸め
のためのスティッキー・ビットを計算する際に使用する
ことができる。

【００２４】次に第１のケースおよび第２のケースを考
察する。ＥＸＰ(Ｃ)＜＜ＥＸＰ(Ａ＊Ｂ)である図３の第
１のケースでは、Ｃ３０と(Ａ＊Ｂ)２８の指数の比較が
Ｃ３０と(Ａ＊Ｂ)２８の仮数が重ならないことを示す。
Ｃ３０の大きさが(Ａ＊Ｂ)２８より小さいので、Ｃ３０
のビットはＣＨＩ３２にシフトされない。Ｃ３０が(Ａ
＊Ｂ)２８より非常に小さいので、ＣＢＵＳ３６はゼロ
で埋められれ、ＦＭＡＣ２０の結果４４は(Ａ＊Ｂ)の出
力であり、使用する丸め方式に依存するがおそらく最下
位ビットの±１によって丸めが行われるであろう。

【００２５】ＥＸＰ(Ｃ)＜ＥＸＰ(Ａ＊Ｂ)である図４の
第２のケースでは、Ｃ３０と(Ａ＊Ｂ)２８の指数の比較
がＣ３０の一部またはすべてが(Ａ＊Ｂ)と重ね合うこと
を示す。このケースでもまたＣ３０のビットはＣＨＩ３
２にシフトされない。Ｃ３０はＣＢＵＳ３６に転送され
る際右へシフトされる。ＣＢＵＳ３６の下位ビットがゼ
ロで埋められ、ＣＢＵＳ３６の上位ビットは符号拡張ビ
ットで埋められる(すなわちＣ３０が正ならゼロで、負
なら１で埋められる)。Ｃ３０の１つまたは複数のビッ
トがＣＢＵＳ３６の範囲外へシフトされる可能性があ
る。これらのビットは丸めのため使用することもでき
る。ＴＥＭＰ結果４６が計算された後、先頭ビット予測
器およびシフト器が、ＳＨＩＦＴＥＤ＿ＴＥＭＰ４８の
ＴＥＭＰ結果４６を左にシフトさせる。

【００２６】上記の方法を実行することができるＦＭＡ
Ｃ２０が図１に示されている。ＦＭＡＣ２０がその最大
データ経路幅が「３ｍ＋１」ビットではなく「２ｍ＋
１」ビットに限定されている点において従来技術のＦＭ
ＡＣ５０と相違することに注意する必要がある。図１の
ＦＭＡＣ２０の乗算機構は、従来技術のＦＭＡＣ５０の
ものと同じである。しかし、加算器３８、先頭ビット予
測器４０およびシフト器３４、４２は同じではない。Ｃ
ＢＵＳ３６が(Ａ＊Ｂ)２８と重なるＣ３０部分のみを含
むので、それは「２ｍ＋１」ビット幅に限定される。こ
の結果、ＣＢＵＳ３６に先行するシフト器３４、４２お
よび累算結果レジスタ４４は、「２ｍ＋ｌ」ビット幅に
限定することができる。更に、先頭ビット予測器４０も
また「２ｍ＋１」ビット幅に限定することができる。Ｆ
ＭＡＣのデータ経路の最大幅の制限はＦＭＡＣ２０を構
成する際に必要なチップ面積を減少させるだけでなく、
信号経路の距離をも減少させる。信号経路指定が「２ｍ
＋１」ビット・シフトでなくレジスタ・ビットの「３ｍ
＋１」ビット・シフトを可能にさせなければならないな
ら、ＦＭＡＣは一層長い配線を必要とし、システムの全
般的遅延が生じる。

【００２７】従来技術のＦＭＡＣ５０における場合と同
様に、上記方法の諸ステップは並列的に実行することが
できる。可能な整相シナリオが図７に示されている。ク
ロック段階ゼロ(図の符号５８)において、オペランド
Ａ、ＢおよびＣがＦＭＡＣ２０へ入力される。段階１
(図の符号６０)において、(比較その他)の指数演算が実
行される。段階２(図の符号６２)において、ＡおよびＢ
が乗算機構の多数のキャリ保存加算器を使用して乗算さ
れる。段階３(図の符号６４)において、Ｃの高位部分が
マスクされＣＨＩに転送される。更に、キャリ保存加算
器によって生成された部分的結果をマージして(Ａ＊Ｂ)
が作成され、(Ａ＊Ｂ)と重なるＣの部分がシフトされ
て、(Ａ＊Ｂ)結果と適切に調整されたＣのビットを含む
ＣＢＵＳが作成される。段階４(図の符号６６)におい
て、(Ａ＊Ｂ)およびＣＢＵＳが、「２ｍ＋１」ビット幅
の加算器において加算され、ＴＥＭＰ結果が作成され
る。ＴＥＭＰ結果が先頭ビット予測器に供給され、上位
ビット・シフト(１６シフト)が実行される。上位スティ
ッキー情報が判断され、必要な場合ＣＨＩレジスタが増
分される。段階５(図の符号６８)において、低位シフト
(すなわち４ビット・シフト、１ビット・シフトおよび
調整シフト)が実行される。丸め方式に従ってＴＥＭＰ
レジスタが丸められ、(Ａ×Ｂ)＋ＣＢＵＳ加算器からの
キャリに応じてＣＨＩが増分させられる。ＥＸＰ(Ｃ)＞
(あるいは＞＞)ＥＸＰ(Ａ＊Ｂ)の場合、ＣＨＩはシフト
されたＴＥＭＰレジスタ(ＳＨＩＦＴＥＤ＿ＴＥＭＰ)に
マージされ、累算結果(すなわちＲＥＳＵＬＴ)が作成さ
れる。事後シフト方向に従って、(Ａ＊Ｂ)あるいはＣレ
ジスタに関連する指数が選択される。(事後シフト方向
が左のため)ＥＸＰ(Ａ＊Ｂ)が選択される場合、指数
は、事後左シフトの量によって調節される。(事後シフ
ト方向が右のため)ＥＸＰ(Ｃ)が選択される場合、指数
は、±１だけの調整を必要とすることがある。段階６
(図の符号７０)において、(すべて１またはすべてゼロ
という)例外的な仮数が出力されるアンダーフローまた
はオーバーフローが発生しな限り、ＲＥＳＵＬＴレジス
タがＦＭＡＣ２０から出力される。

【００２８】上述のＦＭＡＣ２０およびそれを使用する
方法が、先頭ビット１を含めオペランドの仮数部のビッ
ト数をｍと仮定して、ＦＭＡＣのデータ経路幅を「２ｍ
＋１」を越える幅に増加させる必要性を除去する点は認
識されるであろう。幅を３分の１減少された加算器、先
頭ビット予測器およびシフト器が物理的チップ面積を減
少させるだけではなく、必要とされる信号経路配線の長
さを減少させ、それによって上記コンポーネントの演算
速度が上昇する。

【００２９】以上本発明の実施形態を詳細に記述した
が、本発明の概念はその他の種々の実施形態で実現する
ことは可能であり、従来技術によって制約されている場
合を除き、本発明がそのような種々のバリエーションを
含むものとみなされるべきである点は理解されるべきで
ある。上記の記述は、有効範囲の点においてＦＭＡＣを
通る数値の流れを正の数に限定した。本発明は正負両方
の数に関連してＦＭＡＣを使用することができるように
考慮されているが、(２の補数形式への変換やビット反
転などの符号付き数値の取り扱いに関する従来技術につ
いて知識を持つ)当業者が負数を使用する上述の方法を
完全に実施することができる点は認められるであろう。

【００３０】本発明には、例として次のような実施様態
が含まれる。（１）累算演算(Ａ×Ｂ)＋Ｃを実行する浮動小数点乗算
累算装置すなわちＦＭＡＣ装置であって、数値Ａ，Ｂお
よびＣそれぞれの入力部と、乗算(Ａ×Ｂ)の結果の仮数
の範囲を越えるＣの仮数の１つ以上のビットを格納する
ＣＨＩレジスタと、(Ａ×Ｂ)の仮数の範囲と重なるＣの
仮数の１つ以上のビットを格納するＣＢＵＳレジスタ
と、Ｃと(Ａ×Ｂ)の指数の差に対応する数のビットだけ
Ｃの仮数を左へシフトさせて、シフトさせたビット位置
をＣＢＵＳレジスタに格納させる第１シフト器と、(Ａ
×Ｂ)＋ＣＢＵＳを出力する加算器と、加算器の(Ａ×
Ｂ)＋ＣＢＵＳ出力に接続する先頭ビット予測器と、(Ａ
×Ｂ)＋Ｃ累算結果出力部と、先頭ビット予測器の出力
をＣと(Ａ×Ｂ)の指数の間の差に等しいビット数だけ右
へシフトさせて、シフトさせた結果を累算結果出力部に
出力する第２シフト器と、(Ａ×Ｂ)の仮数の範囲を越え
るＣの仮数の１つ以上のビットを格納するＣＨＩレジス
タのビットと累算結果出力の１つ以上の上位ビットを結
合させる結合手段と、を備えるＦＭＡＣ装置。（２）数値Ａ，ＢおよびＣがそれぞれｍビットの仮数部
および指数部を持ち、(Ａ×Ｂ)の仮数部が「２ｍ＋１」
ビットを含み、(Ａ×Ｂ)＋ＣＢＵＳ出力が「２ｍ＋１」
ビットを含み、加算器が「２ｍ＋１」ビットの最大幅を
持つ、上記（１）に記載のＦＭＡＣ装置。（３）第１シフト器および第２シフト器が「２ｍ＋１」
ビットの最大幅を持つ、上記（２）に記載のＦＭＡＣ装
置。（４）先頭ビット予測器が「２ｍ＋１」ビットの最大幅
を持つ、上記（３）に記載のＦＭＡＣ装置。（５）「２ｍ＋１」ビットの最大データ経路幅を備える
上記（４）に記載のＦＭＡＣ装置。（６）ＡおよびＢの入力部に接続し、乗算(Ａ×Ｂ)を実
行して「２ｍ＋１」ビットの仮数部の積を出力する乗算
機構を更に備える上記（１）に記載のＦＭＡＣ装置。

【００３１】（７）数値Ａ、ＢおよびＣが各々ｍビット
の仮数および指数を含み、乗算(Ａ×Ｂ)の結果が「２ｍ
＋１」ビットの仮数および指数を含む累算演算(Ａ×Ｂ)
＋Ｃを実行する浮動小数点乗算累算装置すなわちＦＭＡ
Ｃ装置において、(Ａ×Ｂ)とＣの指数部を比較して(Ａ
×Ｂ)とＣの仮数が重ね合う範囲があるか否かを判断す
るステップと、(Ａ×Ｂ)仮数部の範囲を越えるＣ仮数部
分をすべてＣＨＩレジスタへ転送するステップと、(Ａ
×Ｂ)仮数部と重なり合うＣの仮数部分をシフトさせ
て、(Ａ×Ｂ)およびＣの仮数のビットをそれぞれの大き
さに従って位置調整するステップと、Ｃの仮数のシフト
された部分を(Ａ×Ｂ)の仮数部に加算して一時的結果を
生成するステップと、Ｃ仮数の一部がＣＨＩバッファへ
転送されている場合、ＣＨＩバッファへ転送されたビッ
ト数に応じて、1つまたは複数の最下位ビットを一時的
結果からシフトさせるステップと、ＣＨＩバッファへ転
送されたＣ仮数部のビットを一時的結果の１つまたは複
数の最上位ビット位置にマージさせて、累算結果を生成
するステップと、を含むＣを(Ａ×Ｂ)に加算する方法。（８）一時的結果が「２ｍ＋１」ビットの仮数部を含む
上記（１）に記載の方法。（９）累算結果に対し切り捨て演算を実行して「ｍ−
１」ビットの累算結果を作成するステップを更に含む上
記（８）に記載の方法。（１０）上記切り捨て演算が、ＣＨＩバッファへ転送さ
れたＣ仮数部のビットを一時的結果の１つまたは複数の
最上位ビット位置にマージさせて累算結果を生成するス
テップと同時に実行される、上記（９）に記載の方法。

【００３２】

【発明の効果】本発明の装置およびその装置を使用する
方法は、(Ａ×Ｂ)＋Ｃのすべての演算を「２ｍ＋１」ビ
ット幅のデータ経路境界内で実行することを可能とし、
これによって、ＦＭＡＣを実行するために必要とされる
チップ面積の減少、信号経路の短縮、システム処理性能
の向上、より小さくより低コストの加算器、シフト器等
のコンポーネントの使用および顕著なコスト節減という
効果を奏する。

【図面の簡単な説明】

【図１】加数上位部の除去によって「２ｍ＋１」ビット
幅に制限されたデータ経路を備えたＦＭＡＣ装置のブロ
ック図である。

【図２】「３ｍ＋１」ビット幅のデータ経路を備えた従
来技術のＦＭＡＣ装置のブロック図である。

【図３】ＥＸＰ(Ｃ)＜＜ＥＸＰ(Ａ＊Ｂ)の場合のＦＭＡ
Ｃを通過するデータの流れを示すブロック図である。

【図４】ＥＸＰ(Ｃ)＜ＥＸＰ(Ａ＊Ｂ)の場合のＦＭＡＣ
を通過するデータの流れを示すブロック図である。

【図５】ＥＸＰ(Ｃ)＞＞ＥＸＰ(Ａ＊Ｂ)の場合のＦＭＡ
Ｃを通過するデータの流れを示すブロック図である。

【図６】ＥＸＰ(Ｃ)＞ＥＸＰ(Ａ＊Ｂ)の場合のＦＭＡＣ
を通過するデータの流れを示すブロック図である。

【図７】図１のＦＭＡＣを制御するクロック信号を示す
ブロック図である。

【符号の説明】

２０本発明のＦＭＡＣ装置２２浮動小数点数値Ａ２４浮動小数点数値Ｂ２６乗算機構２８Ａ×Ｂ３０浮動小数点数値Ｃ３２ＣＨＩレジスタ３４第１シフト器３６ＣＢＵＳレジスタ３８、５４加算器４０、５６先頭ビット予測器４２第２シフト器４４累算結果ＲＥＳＵＬＴ４６一時的結果ＴＥＭＰ４８シフトされた一時的結果ＳＨＩＦＴＥＤ＿ＴＥ
ＭＰ５０従来技術のＦＭＡＣ装置５２、５８シフト器

Claims

【特許請求の範囲】

【請求項１】累算演算(Ａ×Ｂ)＋Ｃを実行する浮動小数
点乗算累算装置すなわちＦＭＡＣ装置であって、数値Ａ，ＢおよびＣそれぞれの入力部と、乗算(Ａ×Ｂ)の結果の仮数の範囲を越えるＣの仮数の１
つ以上のビットを格納するＣＨＩレジスタと、 (Ａ×Ｂ)の仮数の範囲と重なるＣの仮数の１つ以上のビ
ットを格納するＣＢＵＳレジスタと、Ｃと(Ａ×Ｂ)の指数の差に対応する数のビットだけＣの
仮数を左へシフトさせて、シフトさせたビット位置をＣ
ＢＵＳレジスタに格納させる第１シフト器と、 (Ａ×Ｂ)＋ＣＢＵＳを出力する加算器と、加算器の(Ａ×Ｂ)＋ＣＢＵＳ出力に接続する先頭ビット
予測器と、 (Ａ×Ｂ)＋Ｃ累算結果出力部と、先頭ビット予測器の出力をＣと(Ａ×Ｂ)の指数の間の差
に等しいビット数だけ右へシフトさせて、シフトさせた
結果を累算結果出力部に出力する第２シフト器と、 (Ａ×Ｂ)の仮数の範囲を越えるＣの仮数の１つ以上のビ
ットを格納するＣＨＩレジスタのビットと累算結果出力
の１つ以上の上位ビットを結合させる結合手段と、を備えるＦＭＡＣ装置。