JPH03180928A

JPH03180928A - 浮動小数点乗算装置

Info

Publication number: JPH03180928A
Application number: JP1318940A
Authority: JP
Inventors: Nariya Tanaka; 成弥田中; Tetsuaki Nakamigawa; 哲明中三川; Hideo Maejima; 前島　英雄
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-12-11
Filing date: 1989-12-11
Publication date: 1991-08-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、浮動小数点乗算装置に関するものである。

〔従来の技術〕

第２図は、従来の浮動小数点乗算回路の代表的な例を示
すもので、６４ビット長の２つのデータＸ。

Ｙを入力すると、その浮動小数点乗算を実行し、６４ビ
ットデータＷを出力する。入力データＸ、Ｙは、○〜５
１ビットまでが仮数部を、５２〜６２ビットまでが指数
部を、６３ビットが符号情報をそれぞれ基準に基づいて
配置されている。この基準は、「フローティング　ポイ
ント　サブコミツテイーワーキング　ドキュメント」、
アイ　イーイーイー（１１Ｆ１ｏａｔｊｎｇｐｏｉｎｔ
　Ｓｕｂｃｏｍｍｉｔｔｅｅ　Ｉｌｌｏｒｋｉｎｇ　Ｄ
ｏｃｕｍｏｎｔ”。

ＩＥＩＥＥ）　ｐ、７５４．１９８７で示されている。

浮動小数点乗算回路の動作は、符号部、指数部、仮数部
に対する３つの演算からなっており、出力データＷの符
号は、入力データＸ、Ｙの符号が同じなら正、相異なっ
ていれば負であり、符号演算回路２０６は、入力データ
の符号ビット２１０Ｘ、　２１０Ｙの排他的論理和を求
めて信号線２１５ヘデータＷの符号ピッＩ〜として出力
する。

一指数演算回路２０５は、入力データＸ、Ｙの符号２１０
Ｘ、　、　２１０Ｙ　、指数２］、１．Ｘ、　２１１Ｙ
を入力し、同符号のとき加算、異符号のとき減算を実行
し信号線２１６へ出力する。指数補正１鴨路２０４は、
仮数部の正規化回路２０２かまるめ回路２０３から最大
１または−１の補正が要求されたときに、出力Ｗの符号
２１５が正のときは１、負のときは−１を補正し、その
結果を出力データＷの指数部として信号線２２２へ出力
する。

仮数部の演算は、部分積演算回路２０１．加算ユニット
（ＡＵ）　２３０、正規化回路２０２、及びまるめ−１
路２０３で実行され、入力データＸ、Ｙの仮数部の積か
ら、出力データＷの仮数部が算出される。

入力データＸの仮数部は５２ビットで表示されているが
、この５２個の“Ｏ”、“↓”の並びを＊＊本・・・と
かくと、当該データの仮数部の真のイ直ＴＪ　ＸはＰＸ＝１．　　　＋１’＊　　本　・　　・　・　［２
コ　　　・・・　・　　（１）である。入力データＹの
仮数部１）　Ｙについても同様で、どちらも５３ピツＩ
〜の２進数となる。ただし［２コは２進数表示であるこ
とを示している。従って乗算は式（１）の形の２つの数
ＰＸ、ＰＹの間で実行され、その結果は１１、＊申串・・・［２］１０、＊　　申　傘　・　・　・　［２］　　　　　　
　　・・・・・・　（２）０１、＊寧＊・・・［２］のどれかの形になる。ただしここでの本本本・・は１０
４個の“Ｏ”、′１”の並びである。ここまでの乗算は
、まず部分積演算回路２０１へ入力データＸ、Ｙ（７）
仮数部２１２Ｘ、　２１２Ｙが入力されると、その入力
の最上位ビット（ＭＳＢ）に１を追加した式（１）の形
の数の積計算が行われる。部分積演算回路２０１は、後
述するようにＣＳ　Ａ　（ＣａｒｒｙＳａｖｅ　Ａｄｄ
ｅｒ）により構成されており、その出力はサムの集合体
２３２　（１０２ビット）、キャリーの集合体２３１　
（１０６ビット）である。１０６ビット長のＡＵ（Ａｒ
ｉｔｈｍｅｔｊ、ｃ　１Ｊｎｉｔ）　２３はこの２つの
出力を加算して式（２）の形の１０６ビットの乗算結果
を信号線２１７に出力する。

以上の乗算結果が式（２）の最初の２つの形の７− いずれかになったときは、これを式（１）の形にして出
力データＷの仮数部とする必要がある。正規化回路２０
２はこの場合に乗算出力２１７を１ビット左ヘシフトし
、指数部の演算結果を補正すると同時に、次のまるめ演
算のために左シフト後の最下位（ＬＳＢ）を、左シフト
前のＬＳＢ　（これはシフトにより消える）及びその工
つ上位のビットの論理和に置き換えておく。

こうして得た正規化回路２０２の出力２１８は１０５ビ
ット長となっているが、まるめ回路２０３はこれを式（
１）の形の５３ビット長のデータとする。このまるめの
方法としては、前述のＩＥＥＥ基準によると４つのモー
ドＲＺ、ＲＭ、ＲＭ、ＲＰ、及びＲＮが与えられている
。ＲＺモードはＯに近付づくようにまるめるもので、切
り捨て処理を実行する。ＲＭモードは−■に近づけるよ
うにするもので切り下げ処理を実行する。ＲＰモードは
＋■に近づけるもので切り上げ処理を実行する。最後の
ＲＮモードは四捨五入処理を実行する。これらの処理は
、小数点以下５２ビット目をり、５３ビット目８− をＧ、５４ビット目をＲ１５５ビット目以下の各ビット
のオアをＳ、演算結果の符号をＳ、としたとき、次式に
従って求められた値が小数点以下５２ビット目に加えら
れて、小数点以下５３ビット目以降の部分が除かれる。

ＲＺモード：ＯＲＭモード：Ｓ、・　（Ｇ＋Ｒ＋５）ＲＰモード：Ｓ、・　（Ｇ＋Ｒ＋５）ＲＮモード二Ｇ・（Ｒ＋Ｓ）＋Ｌ　−Ｇ・　（Ｒ＋Ｓ）
・・・・・・（３）こうしてまるめられた５３ビットのデータの内、ＭＳＢ
にある“１”が自動的に取り除かれ、出力データＷの仮
数部にセットされる。

特殊データ処理回路２０７は、ＩＥＥＥ基準で決められ
ている一■、＋■、Ｎ　Ａ　Ｎ　（Ｎｏｔ　Ａ　Ｎｕｍ
ｂｅｒ）など例外的な数字を検出し処理を終了させるた
めの制御回路であるが、本発明には関係ないのでその説
明は省略する。

次に、本発明に関係のある部分積演算回路２０１の従来
例を詳細に説明する。手計算による乗算と９− 同様に、乗数の１桁づつを被乗数にかけると１つづつの
部分積が生じ、こうして得た部分積を桁合わせをして加
算すれば乗算が完了する。この手計算と同じ方法をその
まま実行すると、最初の部分積と次の部分積を加算し、
その結果と次の部分積を加算するという処理を繰り返す
ことになる。しかしこれでは各加算時にキャリー伝搬が
生じるため並列処理が行えず、性能が上がらない。これ
を改善するためにＣ８Ａ方式が考案された。このＣ８Ａ
の構成は第３図に示されており、同図（ｂ）の回路４（
ｉＩＪ）を同図（ａ）のように接続して部分積演算回路
２０１が構成されている。ユニット回路４（ｉ、ｊ）は
、入力データＸ、Ｙの仮数部２１２Ｘ、　２１２Ｙを式
（１）の形にしたＰＸ、ＰＹの第Ｊｌ−ＬビットＸ（ｊ
）、Ｙ（ｉ）（ともにＬＳＢから数えてＪ＋１番目のビ
ット）のアンドをアンドゲートＡＮＤ　（ｊｌ　ｉ）で
とり、その出力と他の２つの入力ｃ　（ｉ−１１ｊＬ　
ｓ　（ｉ−１１ｊ＋１）との３入力に対する全加算を全
加算器ＦＡ（ｉ、ｊ）で算出する。その結果はサムｓ（
ｉ。

１〇− Ｓ）、キャリー（−ｉ、ｊ）として出力される。ここで
３入力に対する全加算器ＦＡの出力ｓ、ｃの真理値表は
第１−表の通りである。

第　　１−　　表第３図の回路構成の動作は次の通りである。第３図（ａ
）で、Ｙ（ｉ−１）が入力されている１番−にのユニッ
ト回路・・４　（ｉ−１，ｊ＋１）。

４　（ｉ−工ｔ　、’］）　＋　４　（ｉ−１ｔ　ｊ−
、ｔ）は・・・は、ＰＹを乗数としたときその第（ｉ−
１）ビット目Ｙ（ｉ、−１）と被乗数１）　Ｘとの部分
積の各ビットを算出しており、またＹ　（コ）が入力さ
れている第２行目のユニット回路・・４（ｊ、ｊ→１）
。

’］　（、；　ｒ　、ｊ）　＋　４　（ｊ、、　＋ｊ−
ｉ）　　・・・は、ＰＹの第」ビットＹ（：ｉ、）とＰ
Ｘとの部分積の各ビットを算出している。一方、縦方向
の各ユニット回路にはＰＸの同じ桁のビットが入力され
ているから、Ｊ−記の第１行目の各ユニット回路の出力
ビットは第２行目のそれより１桁下位に相当する。従っ
て同図のように各ユニット回路のサムＳを■っ下の行の
］っ右よりのユニツ１−回路ｌ＼、キャリーＣをすぐ下
のユニット回路へ入力し、こうして全加算器ＦＡにより
アンドゲートの出力と合わせて各ユニット回路で加算を
行えば、必要な部分積の和が求められる。しかもこの方
法によると、第３図（ａ）の各行の中でのキャリーの伝
搬はなくなり、キャリーは次の加算時に加えるというや
り方であるので、部分積同志の加算は各ビット並列に行
える。ＰＹのビット数は５３であるが、ＰＹのＬＳＢと
その１つ」このビットＹ　（ｏ）　、　ｙ　（１）に対
しては第３図（ｂ）のユニット回路は不要でアントゲ−
１−だけでよい。そしてこの２段の各アンドゲート出力
が第３段目のＹ（２）に対するユニット回路の行の全加
算器へ入力されればよいので、結局上記の部分積の加算
は５１段の全加算器の遅延時間により実行でき、高速な
演算が可能となる。

ただし第３図（ａ）の最下段にくる各ユニット回路及び
最右列にくる各ユニット回路からは、サムのビット列と
キャリーのビット列とが出力されており、これらのビッ
ト列がサム集合体２３２、キャリー集合体２３１を形成
する。これらをＡ　Ｕ　２３０で加算したものが乗算結
果となる。この全体の様子は第４図（ａ）に示されてい
る。（ただしこの図は簡単のため各入力データを８ビッ
トとして示した）部分積演算の高速化技術の別の従来例
を次に説明する。第３図の方法は、各部分積をＣ８Ａ方
式により第４図（、）のように順次加算していくもので
あるが、これを同図（ｂ）に示すように、各部分積を奇
数と偶数に分け、各々を並列にＣ８Ａ方式により同時実
行し、それぞれのサム集合体ＡＩ、Ｂｌ及びキャリー集
合体Ａ２．Ｂ２を求める。

３次に各サム集合体Ａ１．．Ｂ１の和及び各キャリー集合
体Ａ２．Ｂ２の和を求めたのち、これらの和をＡＵで加
算するもので、その詳細ばＴＳＳＣＣ８４（Ｉｎｔｅｒ
ｎａｔｊｏｎａｌ　５ｏｌｉｄ　５ｔａｔｅ　Ｃｊ、ｒ
ｃｕｉｔ　Ｃｏｎｆｅｒｅｎｃｅ）　　の９２〜９３頁
に示されている。

別の高速化技術として、Ｗａｌｌ、ａｃ＋ｑ方式と呼ば
れるものがある。本方式は、各桁ごとに木構成をとりな
がら部分積を求めるものであるが、ビット長が大きくな
ると不規則な構造のため不利である。

しかし、第３図（ｂ）の方法で各部分積の結果をまとめ
る部分、つまり４つの集合体を２つの集合体にするよう
な部分には有効であり、Ｃ８ＡとＷａｌ、］ａｃｅの両
方式を併用するものがある。なお、Ｗａｌｌａｃｅの方
式については、ＩＥＥＥ　Ｔｒａｎｓ、　Ｅｌｅｃｔｒ
ｏｎ。

Ｃｏｍｐｕｔｅｒｓ、　ｖｏｌ、ＥＣ−１３，ＰＰ１４
−１７．　ｌｉ’ｅｂ、］９６ｉ１に示されている。

部分積演算のもう１つの拙守な高速化方法として、ブー
スのアルゴリズムがしげられる。本アルゴリズムの特長
は、部分積の数を半分にしてしまうところにあり、これ
によって高速化を実現して１４いる。このアルゴリズムについては、Ｑｕａｒｔ、　Ｊ
。

Ｍｅｃｈ、　Ａｐｐｌ、　Ｍａｔｈ、、　ｖｏｌ、４．
　Ｐａｒｔ２．１９５１に示されており、第５図は本方
式の部分積演算回路の例を示すものである。第５図（ａ
）において、入力データＹの仮数部に１．をつけたデー
タＰＹはブースのデコーダ５３０へ入力され、各ユニッ
ト回路への選択信号Ｂ　（ｉ）に変換される。この信号
Ｂ（ｉ）の個数はデータＰＹのビット数の半分であり、
各信号Ｂ　（ｉ）は３本の信号線により３ビットの選択
信号となっている。ユニット回路５（ｉ。

ｊ）は、第５図（ｂ）のような構成となっており、デー
タＰＸ（７）２”）（７）ビットＸ　（ｊ）　、　Ｘ　
（ｊ−１）からセレクタＳＥＬ　（ｉｌ　ｊ）により５
つのデータを生成し、さらにその内の１つを上記の選択
信号Ｂ　（ｉ）の値に応じて選び出す。これが部分積の
値となるので、第３図の場合と同様に、３入力の全加算
器ＦＡ　（１１ｊ）によってＣ８Ａ方式の加算を行う。

本例によれば、部分積の段数は２７段でその加算は２５
段の全加算器の遅延時間で実行できる。

５− 〔発明が解決しようとするＲ題〕上記した従来技術のいずれにおいても、仮数部の乗算の
中でサム集合体とキャリー集合体の加算とまるめの加算
という２度の加算をシリアルに行っているため、処理速
度が余計にかっていた。また、指数部の演算において補
正が必要となったときに補正値の算出とそのオーバーフ
ローあるいはアンダーフローの検出を行っており、これ
も高速化の障害となっていた。

本発明の目的は、浮動小数点の乗算をより高速に行える
ようにした浮動小数点乗算装置を提供するにある。

〔課題を解決するための手段〕

上記の目的を達成するために、本発明においては、仮数
部演算の部分積演算後の加算とまるめの加算を一度に実
行する構成とし、指数部の演算では、指数の演算時にお
こる可能性のある補正値の演算及びオーバーフロー及び
アンダーフローの検出を予め行っておき、補正が必要と
なったときにはそれらを単に選択する構成とし、また、
部分積演算では５以上の入力をもつ全加算器を用いて同
時に２つ以上の部分積の和を求める構成とした。

〔作　用〕

仮数部演算において、部分積をＣ８Ａ方式で加算して得
たサム集合体及びキャリー集合体からまるめに必要な補
正値を生成すれば、これは簡単な処理で短時間で行える
から、この補正値と２つの集合体とを同時に加算すれば
まるめのための加算時間を別に設ける必要がなくなる。

また、指数部の演算とその補正値の演算、及びオーバー
フローあるいはアンダーフローの検出を予め実行してお
けば、仮数部の結果がでたときには選択するだけでよい
ので、指数部の補正およびオーバーフロー／アンダーフ
ローの検出時間を節約できる。さらに、５以上の入力を
もつ全加算器を用いて部分積の加算を複数個並列に行え
ば、処理時間が短縮され、高速化がはかれる。

〔実施例〕

以下、本発明を実施例により説明する。本発明の浮動小
数点乗算回路１００は、指数演算部と仮数１７− 演算部の構成が従来の第２図と異なっており、以下では
この異なった部分を説明する。

指数演算回路１１０は、入力データＸ、Ｙの指数部２１
１Ｘ、　２１１Ｙの各１１ビットと符号演算回路２０６
の出力２１５から指数の計算を実行するが、この他に正
規化回路またはまるめ回路で±１の補正を実行する可能
性があるため、予め指数の補正値を計算し、かつ補正前
のデータと補正後のデータのオーバーフロー及びアンダ
ーフローをチエツクしておく。第６図は、指数演算回路
１１０の構成を示すもので、加減算器２２０１は従来通
りの指数の計算を行う。±１補正回路２２０３は、予め
正規化またはまるめ時に発生する可能性のある補正値を
演算しておく。オーバーフロー／アンダーフロー判定回
路２２０２は、補正がＯのときのチエツクを行い、もし
オーバーフロー／アンダーフローが発生していればその
判定時点に浮動小数点演算処理を中断してもよい。なぜ
なら、補正前にすでにオーバーフロー／アンダーフロー
していれば、補正後もオーバーフロー／アンダーフロー
しているからである。

オーバーフロー／アンダーフロー判定回路２２０４は±
１補正回路２２０３出力の判定を予め行っておく。

この判定によりオーバーフロー／アンダーフローが検出
されたときに処理中断を行う場合には、検出後すぐに中
断せず、補正が必要であると判明した時点に中断する。

以上の処理は仮数部の演算結果により補正するかどうか
わかるまでに補正値の演算及びオーバーフロー／アンダ
ーフローの判定処理が予め終わってしまうから、後はそ
の選択のみですみ、全体の処理時間を短縮できる。

第１図に戻って、仮数部の演算について説明する。入力
データＸ、Ｙの仮数部２］２Ｘ、　２＋、２Ｙから式（
１）で説明したデータＰＸ、ＰＹ　（各々５３ビット）
を生成し、Ｃ８Ａ方式で部分積の和を求め、サム集合体
２３２とキャリー集合体２３１を部分積演算回路２０１
で算出するまでは従来と同じである。本発明実施例では
このあと、各集合体２３２．２３１をＡＵで加算して１
０６ビットの結果を得るのではなく、各集合体２３２，
２３１の下位ビットより補正値発生回路１】６で補正値
を生成し、各集合体２３２．２３コの上位ビットの加算
とまるめの加算を同時に行う方法をとる。最後に正規化
を行い、処理を完了する。

第７図は補ＪＩＥ発生の説明図で、２つの集合体２３１
．２３２が入力である。今これらのデータのピッＩ・位
置を■、Ｓ　１３から第Ｏピッ［〜、第１ビット・・と
呼ぶことにすると、集合体２３１．、２３２の小数点付
置は第１０４ピッＩ−と１０３ピツ１〜との間にある。

そしてこれらの加算結果は第１０５ピツ１〜（ＭＳＢ）
にＮ　１　＋＋が発生する場合がある。従来の方法では
この加算を行い、Ｍ、　Ｓ　１３に１１１”が立つと１
−ビットシフトをするという正規化がまず行われた後ま
るめ処理が行われたが、本発明実施例では加算も正規化
も行う前にまるめのための処理を行う。そこで、加算結
果のＭＳＢがＩＩ　Ｑ　１１の場合をＡデータ型式、パ
１”の場合をＢデータ型式とよぶと、この両方の場合に
対するまるめの処理を予め行っておく必要がある。従っ
て、式“３”で説明したまるめ処理のための情報はＡデ
ータ型式の場合は第５２〜５０ビットがＬｌ、、　Ｇｌ
、　Ｒ１，第４９ビット〜○ビットのオアがＳｌであり
、Ｂデータ型式の場合＝１９は（まだシフトしていないので）第５３〜５１ビットが
Ｌ２．　Ｇ２．　Ｒ２，第５０−０ビットのオアがＳ２
’ｔｌ−ある。そしてまるめ処理は、Ａデータ型式の場
合第５２ピッＩ−目にまるめによる補正と、本来乗算す
ることにより得られる第５１〜Ｏビットからのキャリー
信号の２つの補正をする。その補正値はＯ５＋１、＋２
をとる。０は下からのキャリー信号がなくかつまるめに
よる補正がない場合、＋１は下からのキャリー信号があ
るかまたはまるめによる補正がある場合、＋２は下から
のキャリーがありかつまるめによる補正もある場合であ
る。一方、Ｂデータ型式の場合は、Ａデータ型式の場合
と、各ビットが１つ上位へ移る点を除けば同じ処理でよ
い。

第上図の補正値発生回路１１６は、キャリー集合体２３
２及びサム集合体２３１のそれぞれの下位半分の第５３
〜０ビットを取り込み、第８図の処理１１６１をまず実
行して、まるめのための情報を発生する。

ここでフラグａ、ｂ、及びＣは、２つの集合体２３］、
、　２３２の加算結果の第５０〜○ビット、第５１〜０
ピツ１〜、及び５２〜○ビットがオール○かどうかを示
すもので、まるめ処理のためＳｌ、、Ｓ２ビットを得る
ためのものである。Ｓｌ、Ｓ２は加算結果の論理和であ
るが、その論理的な反対は加算結果のオールＯと等価で
あるからである。そしてこのオールＯの検出は特開昭６
３−２０８９３８号に示されているように、簡単な回路
で行え、その処理時間も小さい。

つづ＜ｂ−ｆは、加算結果の第５１〜０．５２〜○、及
び５０〜０ピツＩ〜までのキャリー出力を示すフラグ、
ｇ−Ｑは図示の各ビット位置の（ｆ＆、ｍは符号信号で
、これらも簡単に求められる。

以上の１３個のデータが求まると、まるめモードに応じ
た補正発生処理１１６２が実行される。この内容は第９
図に示されており、式（３）で説明した各モード対応の
補正値を第８図のデータから求めるもので、これらの補
正値２３３はまるめ回ｇ１．１５へ入力される。

第１０図はまるめ回路１１５の構成を示すもので、部分
積演算回路２０１の出力のサム集合体２３２及びキャリ
ー集合体２３１の上半分（第１０５〜５２ビット）と上
記の補正値２３３が入力され、Ａデータ型式用、Ｂデー
タ型式用の３入力ＡＵ回路２１０１．２１０２で加算さ
れる。これによって各データ型式のときの、仮数部乗算
結果をまるめた値が各ＡＵ回路出力２３４．２３５とし
て出力される。さらに正規化回路１１４のセレクト信号
２３５として、３入力ＡＵ回路２１０１の第１０５ビッ
トのデータ２７３が出力される。正規化回路１１４は、
セレクタとなっており、セレクト信号１７１１により、
目標のデータを切り変える。

セレクト信号２７３がＯであれば　れデータ型式を１で
あれば、Ｂデータ形式を出力すればよい。このようにし
て、本実施例によれば、第８図、第９図の補正値の算出
は簡単な論理処理で極めて短い時間を要するだけである
から、２つの集合体２３２．２３１の加算とまるめのた
めの加算をまるめ回路１１５で同時に実行できる。

次に、５以上の入力をもつ全加算器を用いて部分積演算
を高速化したいくつかの実施例を説明する。以下では７
入力の全加算器を用いるものとし、その具体的な構成例
を第は１１図に示す。これは３入力全加算器を４個用い
て構成したもので、７つの入力１００１〜１００７を加
算して、３つの出力、即ちサムＳ、第１のキャリーｃ１
．第２のキャリーＣ２を得る。この入出力の関係は先に
示した３入力のときの真理値表（第１表）と同様に示せ
るが、入力の組み合わせが２’＝１２８通りあって長く
なるので省略する。要は７つの入力（すべてがＯ”か“
ｌ”）の内の“１”の個数をｎとしたときこれを２進数
で表したものが（ｃ２．ｃｌ、ｓ）になる。

このように７入力とすると、出力は１０進でＯ〜７であ
るから、２進数では３ビット必要で、２つのキャリーｃ
２．ｃｌが出力として必要になる。そして第１１図の回
路構成では、回路の遅延時間は３入力全加算器３段分の
遅延時間に相当し、面積は４個分に相当する。なお、７
入力の全加算器を第１１図のような構成ではなく、直接
、プール代数を用いた最適な回路にしてもよい。

第１２図はこの７入力全加算器（ＦＡ）を用いたＣ８Ａ
方式の部分積演算回路の一実施例を示しており、部分積
の第ｎ＋２．ｎ＋１．ｎ桁目（ピッ２３ト位置と同じ）の部分積［ｉ］〜［ｉ　＋　７］を加え
る部分を抜きだしたものである。同図の左下の７入力全
加算器を例にとると、入力１００５〜１００７にはすぐ
上のサム出力Ｓ、その右のキャリー出力ｃ１．及びさら
にその右のキャリー出力Ｃ２が入力され、これらが部分
積［ｉ］〜［ｉ　＋　３　］までを加えた結果得られた
サム及びキャリーである。

方、入力１００１〜１００４には部分積［ｉ＋４］〜［
ｉ＋７］のｎ桁目（図の丸印。これは乗数、被乗数の対
応ビットのアンドをとった値）がそのまま入力される。

このような接続関係はどの全加算器に対しても同様で（
周辺部を除いて）規則的になっている。なお、ここでは
、７入力データの内、上段の演算出力を入力１００５〜
１００７へ、今求めた部分積を入力１００１〜１００４
へ入力したが、論理的には７入力は対称であるから、ど
の入力にどれが入ってもよい。しかし一般に、上段の演
算出力がクリティカルパスとなるため、全加算器の遅延
時間の小さい方から３つをこの演算出力に使う接続方法
が好ましい。

２４− 次に本実施例の動作を説明する。第１３図は５３ビット
×５３ビットの部分積演算を行う場合の、ｎ桁目の演算
方法を示すもので、第１２図の接続関係からｎ桁目のみ
をとり出している。まず５３ビットのデータから第５図
で述べたブースのアルゴリズムを通して２７個の部分積
が生成されているとする。

本図で丸印に数字が書かれているものが、このｎ桁目の
各部分積を示している。この２７個の部分積を７入力全
加算器を使って演算すると、第１段目の７入力全加算器
は、部分積１〜７の和を算出する。第２段目の加算器は
、部分積８〜１１と第１段目の出力との和を、以後部分
積４個づつを１段ごとに加算して、全部で６段の７入力
全加算器でｎ桁目（ｎはどこでもよい）の値が算出され
る。第６段目の演算結果は各桁とも３つ存在するため、
よく知られている３入力１１ａｌｌａｃｅの方式により
２つの出力にする。こうして第↑図の補正発生回路１１
６及びまるめ回路１１５への２つの入力データ２３２．
２３１とする。なお、第１２図では部分積を求める部分
を単に丸印で示したが、ブースのアルゴリズムを使う場
合には第５図に示したような部分積生成のための回路構
成を７入力全加算器に対しても行う必要がある。この詳
細は第１４図、第１５図に示されており、第１４図は第
１３図の７入力がすべて部分積である全加算器９０］、
、　９０２の場合の構成である。

入力データＸの仮数部を式（１）の形にしたデータＸＰ
の８つの連続したビットＸ（ｊ−１）〜Ｘ（ｊ＋６）の
２つづつから各セレクタＳ　Ｅ　Ｌはそれぞれ５つの値
を生威しくこれは第５図のセレクタと同じもの）、ブー
スのデコーダ出力Ｂ　（ｉ）〜Ｂ　（ｊ＋６）によりそ
れぞれ土つが選択されて７入力全加算器１０００の入力
１００１〜１００７どなる。また第１５図は第１３図の
第２回目行以降のＦＡ演算を行う場合で、第１４図の構
成でキャリーＣ１，、Ｃ２゜サムＳの入力部分の部分積
をとる回路（セレクタ）を除去した構成になっている。

本実施例によると、２７個のデータの部分積演算を実施
するために、６段の７入力加算器と３入力ｌ１ｌａｌｌ
ａｃｅ回路の遅延時間により部分積演算が実行できる。

これは、７入力全加算器を第１１図の回路とすると、３
入力全カロ算器の遅延時間しこ換算して１９段となり、
従来のブース方式とＣ８Ａ方式を組み合わせたときの２
７段に比へさらに高速となる。

第１６図は７入力全加算器を用いた部分積演算回路の別
の実施例を示すもので、ｎ桁１」の部分積演算の部分の
みを示している。５３ビットの入力はブースのデコーダ
と第１４図及び第１５図で示した回路により２７個の部
分積に変換され（丸印を付けた１〜２７の記号で示した
）、２系列の７入力全加算器により並列に加算される。

７入力全加算器９０１゜及び９０２は、部分積の第１〜
７番目、及び８〜１４番目をそれぞれ加算する。以下、
７入力全加算器９０３は部分積の１５〜１８番目と他の
桁からの２つのキャリーと全加算器９０１のサムＳとの
加算を、７入力全加算器９０４は部分積の第１９〜２２
番１１と他の桁からの２つのキャリーと全加算器９０２
のサムＳとの加算を・・・という具合に構成されている
。

ここで他の桁からのキャリーｃｌ、ａ２は、それぞれ１
つ下、２つ下の桁からのキャリー出力である。

そして最後にｂｌ　ａ　ｌ　、１．　ａ　ｃ　ｅの回路
（６入力全加算器）７によりキャリー集合体２３１およびサム集合体２３２を
生成する。

第１７図は上記実施例の動作説明図で、和を２系統に分
けて並列に求める。即ち、第１回目に部分積１〜７と同
８〜１４を同時に演算し、次に部分積１５〜１８と同１
９〜２２の各々４つを同時に加算し、次に部分積２３〜
２４と同２５〜２７を同時に加算しくこの段階では４つ
づつはないが、余った所は０を入力）、最後にＷａｌ、
ｉａｃ、ｅの回路でまとめ、集合体２３１．、２３２と
して第１−図のまるめ回路１１５及び補正植発生回路】
コロへ出力する。以上の演算の遅延時間は、７入力全加
算器３段と６入力Ｗａｌｌａｃｅ回路ｊ段分であり、こ
れら各加算器を第１１図の構成とすると、３入力全加算
器に換算して１２段分の遅延時間となり、さらに高速化
が遠戚できる。

なお、本実施例では第３回目の演算を行う７入力全加算
器への入力数が不足し、そこへＯを入力するものとした
が、Ｃ８Ａ方式による７入力加算は第２回目の演算まで
とし、部分積２３〜２７はＷａｌｌ、ａｅｅの方式で加
算してもよい。この場合は１１入力のＷａｌ、１ａｃｅ
同２８路を必要とし、全体の遅延時間は２段の７入力全加算器
と１１入力ＬＮａｌｌａｃｅ回路１段分となる。これを
３入力全加算器の遅延時間で見ると１１段となる。

このように、部分積が丁度４個残らなかったどきはその
分をＷａｌ、１ａｃｅ回路で演算することもできる。

次に、さらに並列度を高めた実施例を説明する。

第１８図は７入力全加算器を用いて４並列に部分積の加
算を行う方法の動作説明図で、最初に部分積上〜７．８
〜〕４．１５〜２１．及び２２〜２７（あまりはＯを入
れる）を同時に算出する。この演算結果は、各桁とも】
２の出力（４並列にそれぞれ３出力）が存在するため、
よく知られている１２人Ｗａｌｌａｃｅの方式より２つ
の出力にする。この出力を各桁でまとめてまるめ回路１
１５等／＼出力する。

第１８図の方法を実現する回路構成を第１９図（ａ）に
示す。この実施例は、以下の同図（ｂ）（ｃ）とともに
、部分積演算回路２０１の全体を示しており、ＬＳＩ化
のときの各回路の配置の概要図である。

入力データＸ、Ｙは共に５３ビットとし、入力データＹ
はブースのデコーダにより２７個の出力に変換される。

図中Ｕ７は第１４図に示した部分積と和を求めるユニッ
ト回路で、縦方向に並んだ４個が第１８図に示した工桁
分の部分積の和を上回で同時に算出する。そしてその結
果は、１２入力のＷａｌ、］、ａｃｅ回路Ｗ１回路主１
められる。ここで、各ユニット回路Ｕ７からＷａｌｌａ
ｃｅ回路Ｗ１２までの矢印の長さは、実際の配線長の大
小を定性的に表している。このため、必要があれば、各
段ユニット回路Ｕ７の出力ドライバの原動能力を配線長
に合わせて変えてもよい。

本実施例によれば、１段の７入力全加算器と１２入力Ｗ
ａｌｌａｃｅ回路の遅延時間を持つから、３入力全加算
器の遅延時間に換算すると８段となり、層の高速化がは
かれる。

第１９図（ｂ）は、第１９図（ａ）の１２入力Ｗａｌｌ
ａｃｅ回路Ｗ１２を２つの６入力Ｗａ１．１ａｃｅ回路
ｗ６と４入力Ｖａ１．１ａｃｅ回路Ｗ４に分けて配置し
た実施例を示すものである。上段の２つのユニット回Ｍ
Ｕ７の出力が上側の６入力Ｗａ１．］、ａｃｅ回路ｗ６
で加算され、下段の２つのユニット回路Ｕ７出力が下側
の６入力Ｗａｌｌａｃｅ回路Ｗ６で加算され、さらに各
６人カ１Ｉｌａ１１ａｃｅ回路Ｗ””　出力が４入力Ｗ
ａ１１．ａｃｅ回路ｗ４でまとめられる。本実施例によ
ると、図示の矢印かられかるように、上側の６入力１１
ａｌｌａｃｅ回路の出方ドライバだけ高駆動能力のある
デバイスとすればよく、ドライバの面積を小さく、さら
にピーク電流も小さくできるという効果がある。

第１９図（ｃ）は第１９図（ｂ）の構成において、２つ
の６入力Ｗａｌｌａｃｅ回路ｗ６の位置を変え、そこへ
入力を送るユニット回路Ｕ７の出方負荷を揃えるように
して、回路設計を容易番こしたものである。

以上、種々の実施例を説明した。パイプライン化による
高速化については触れながったが、どの実施例において
もパイプライン化を行うことは可能で、−層の高速化が
実現できる。また演算対象とするデータ長は６４ビット
としたが、この長さが変わっても本発明が適用できるこ
とはいうまでもない。さらに、部分積演算回路での加算
の高速化のために７入力の全加算器を用いる例を示した
が、これは出力を３ビット（サムと２つのキャリー）＝
３１− としたときは入力の最大が７個、従って中間段階で４個
の部分積をそれまでの結果（キャリー２個とサム）と−
度に加算でき、同し３ビット出力の４〜６入力全加算器
の場合よりも効率がよいからである。全加算器をｎビッ
ト出力（サムｎ−１個のキャリー）とすれば、入力数は
最大２ｎ−１ビットまでとれ、このような全加算器の利
用へ本発明を拡張することは容易である。

〔発明の効果〕

本発明によれば、まるめの処理と仮数部の積を求める演
算処理の一部とを同時に行え、また指数部の演算及び乗
算結果のオーバーフロー／アンダーフローを予め検出で
き、さらに５以上の入力をもつ全加算器を用いることに
より部分積の加算を複数個並列に実行できるから、浮動
小数点の乗算処理を高速に行えるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図〜
第５図は従来の浮動小数点乗算回路の構成と動作を示す
図、第６図は第１図の指数演算回路の構成例を示す図、
第７図〜第９図は第１図の２補正値発生回路の動作説明図、第１０図は第１図のまる
め回路の構成例を示す図、第１１図は７入力全加算器の
構成例を示す図、第１２図〜第１９図は第工図の部分積
演算回路に７入力全加算器を用いて高速化した実施例と
その動作説明図である。１００・・・浮動小数点乗算回路、１１０・・指数演算
回路、１１３・セレクタ、１１４・・・正規化回路、１
１５・・・まるめ回路、１１６・・・補正値発生回路、
２０１・・・部分積演算回路。

Claims

【特許請求の範囲】１、２つの浮動小数点数を入力データとし、２つの入力
データの符号から出力データの符号を算出する符号演算
部と、２つの入力データの仮数部の積を求めその結果の
正規化及びまるめ処理を行って出力データの仮数部を算
出する仮数演算部と、２つの入力データの指数部の加減
算処理と該処理結果の上記正規化及びまるめ処理の結果
に応じた補正処理を行って出力データの指数部を算出す
る指数演算部とから構成された浮動小数点乗算装置にお
いて、上記指数演算部に、上記正規化及びまるめ処理の
結果に応じて必要となる可能性のある補正値を上記加減
算処理結果から予め算出しておく第１の手段と、該手段
の出力及び上記加減算処理結果のオーバーフローあるい
はアンダーフローの有無を予め検出しておく第２の手段
と、上記仮数演算部における正規化及びまるめ処理結果
が出力されたときに該結果に応じて上記加減算処理結果
あるいは予め算出された補正値から必要な値を選択して
出力データの指数部とし、かつ上記予め検出されたオー
バーフローあるいはアンダーフローの有無の判定結果を
とりだす第３の手段とを設けたことを特徴とする浮動小
数点乗算装置。２、前記指数部の加減算処理結果のオーバーフローある
いはアンダーフローが前記第２の手段により検出された
ときは該検出された時点に当該乗算処理を中断し、また
前記第１の手段により算出された補正値のオーバーフロ
ーあるいはアンダーフローが前記第２の手段により検出
され、かつ当該補正値が前記第３の手段により選択され
たときには当該乗算処理を中断することを特徴とする請
求項１記載の浮動小数点乗算装置。３、前記仮数演算部と、一方の入力データの各ビットも
しくは複数ビットごとに他方の入力データ全体との積を
部分積として算出する部分積算出手段と、該手段により
算出された各部分積の加算を、加算すべきデータの各ビ
ットごとの和をそのビット位置の和ビット及びキャリー
ビットとして算出しかつ次データ加算時に上記算出した
和ビット及びキャリービットと上記次データのそれぞれ
該当するビットとの加算を行うという処理を繰り返すこ
とによって行う部分和算出手段と、該手段により上記部
分積をすべて加算して得られた和ビットの集合及びキャ
リービットの集合から仮数部乗算結果のまるめ処理に必
要な補正データを生成するための補正値発生手段と、該
手段により生成された補正値と上記和ビットの集合及び
キャリービットの集合とを加算してまるめ処理を施した
仮数部乗算結果を生成するためのまるめ手段と、該手段
の出力を正規化して出力データの仮数部を生成する正規
化手段とから構成したことを特徴とする請求項１記載の
浮動小数点乗算装置。４、前記部分和算出手段は、ｎを３以上の整数としたと
き、１個の和ビットとｎ−１個のキャリービットを出力
とし、かつ２＾ｎ−１個の入力ビットを有する全加算器
により構成され、該全加算器の入力は、２＾ｎ−１個の
前記部分積の同一桁のビットであるか、あるいは２＾ｎ
−ｎ−１個の上記部分積の同一桁のビットと他の全加算
器の当該桁対応の和ビット出力と他のｎ−１個の全加算
器から出力された該当ビット相当のキャリービットであ
ることを特徴とする請求項３記載の浮動小数点乗算装置
。５、ｍを２以上の整数としたとき、前記加算すべき部分
をｍ組に分割し、該分割した各組ごとに設けた前記部分
和算出手段により部分和を算出し、さらに該算出したｍ
個の部分和ごとの前記和ビットの集合及びキャリービッ
トの集合のそれぞれの和を算出する合成手段によって全
ての部分積を加算したときの和ビットの集合及びキャリ
ービットの集合を生成する構成としたことを特徴とする
請求項３あるいは４記載の浮動小数点乗算装置。