JPH04314126A

JPH04314126A - 逆数発生装置

Info

Publication number: JPH04314126A
Application number: JP3079415A
Authority: JP
Inventors: Shingo Kojima; 小嶋　伸吾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-04-12
Filing date: 1991-04-12
Publication date: 1992-11-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報処理装置において
浮動小数点除算を行なう数値演算プロセッサの逆数発生
装置に関する。

【０００２】

【従来の技術】従来の高速除算方式の代表的なアルゴリ
ズムとしてニュートン法による逆数近似がある。これは
Ａ／Ｂを計算する場合に、次のニュートンの逐次近似式
を使う。

【０００３】

【０００４】この式を使って１／Ｂの近似値を必要な精
度まで求め、その値にＡを乗じで除算結果とするもので
ある。まず、このニュートンの逐次近似による逆数発生
アルゴリズムを説明する。

【０００５】まず、１／Ｂの値を求めるということは、
ｆ（Ｘ）＝（１／Ｘ）−Ｂの方程式においてｆ（Ｘ）＝
０となる解を求めることである。これをニュートンの逐
次近似式（１）に当てはめると、次の（２）式になる。

【０００６】

【０００７】適当な方法でｘＮ　の初期値を求めた後、
（２）式を繰り返し使って演算を進めれば２乗近似によ
りｘＮ　の精度は倍々に増えるため、必要な精度の１／
Ｂの近似値を求めることができる。ニュートン法および
２乗近似については、一松　　信著「シリーズ新しい応
用の数学８　　初等関数の数値計算」１４７〜１４９頁
を参照。

【０００８】次に、この方法で６４ビット長浮動小数点
データの除算を行なう場合を説明する。

【０００９】浮動小数点演算に関する標準規格であるＩ
ＥＥＥ７５４では、倍精度フォーマット（６４ビット長
浮動小数点フォーマット）の仮数部　　Ｍは、ｂＮ　を
それぞれ１ビットのデータとすると次のように表される
。

【００１０】Ｍ＝１．ｂ５１　　ｂ５０　　ｂ４９　　‥‥　　ｂ２
　　　ｂ１　　　ｂ０すなわち、５２ビットのビット列
からなる１≦Ｍ＜２の範囲のデータと規定されている。この仮数部にさらに１１ビットの指数部と１ビットの符
号が組み合わされて６４ビットの浮動小数点データとな
るが、浮動小数点除算の場合は指数部は単に減算を行な
うのみであるため、被除数の仮数部の除数の仮数部の除
算を考えればよい。

【００１１】仮数部における小数点以下の有効精度が５
２ビットであるため、除算のための逆数近似も５２ビッ
トの精度が得られればよい。

【００１２】この精度を得るための一例として、１３ビ
ット精度の逆数近似値を初期値としてＲＯＭテーブルか
ら検索し、２回のニュートン近似により５２ビット精度
とする場合を説明する。

【００１３】次のように表されるＢの逆数近似値を求め
るとする。

【００１４】Ｂ＝１．ｂ５１　　ｂ５０　　ｂ４９　　‥‥　　ｂ２
　　　ｂ１　　　ｂ０このＢの上位１３ビット［ｂ５１
　　ｂ５０　　‥　　ｂ３９］をアドレスとしてＢ０　＝１．ｂ５１　　ｂ５０　　‥‥　　ｂ３９０　
　０　　‥‥　　０の逆数１／Ｂ０　が格納されている
ＲＯＭテーブルを検索し、１３ビット長のデータ［ｘ５
１　　ｘ５０　　‥‥　　ｘ３９］を得る。この１３ビ
ットは

【００１５】１／Ｂ０　＝ｘ５２．　　ｘ５１　　ｘ５０　　ｘ４９
　　ｘ４８　　‥‥とした時の［ｘ５１　　ｘ５０　　
‥‥　　ｘ３９］の１３ビットである。

【００１６】なお、ｘ５２は、Ｂ０　＝１．０　　のと
き　　ｘ５２＝１、Ｂ０　＞１．０　　のとき　　ｘ５
２＝０、となるため、ＲＯＭによる検索とは別に［ｂ５
１　　ｂ５０　　‥‥　　ｂ３９］のＮＡＮＤをとって
ｘ５２を発生する。

【００１７】ｘ０　＝ｘ５２．　　ｘ５１　　ｘ５０　　‥‥　　ｘ
３９　　０　　０　　‥‥と考えて　　Ｘ１　＝Ｘ０　（２−Ｂ・Ｘ０　）　　‥‥‥‥‥
‥‥‥‥‥‥‥‥‥‥‥　　（３）　　Ｘ２　＝Ｘ１　
（２−Ｂ・Ｘ１　）　　‥‥‥‥‥‥‥‥‥‥‥‥‥‥
‥‥　　（４）のようにニュートン近似を２回繰り返せ
ばＸ２　は５２ビット精度の１／Ｂの近似値となる。こ
こで各アルゴリズムにおける演算時間を比較するため、
それらのアルゴリズムをインプリメントするハードウェ
アを仮定しておく。

【００１８】図５はこの場合のハードウェアの構成を示
すブロック図である。入力レジスタ１１は演算対象とな
るデータが格納されている４ｎビット長のレジスタであ
り、第１データバス２１および第２データバス２２に対
して出力する場合は最上位に整数部の１を付加して５３
ビット長で出力する。ショートパス機構１２は第３デー
タバス２３上の５３ビットデータを遅延なく第１データ
バス２１および第２データバス２２に帰還させる回路で
、第１データバス２１および第２データバス２２の２つ
のデータバスに対しそれぞれ専用のショートパスがある
。

【００１９】ＲＯＭ（２）１３は逆数の初期値を与える
ためのＲＯＭテーブルであり、入力レジスタ１１の上位
１３ビットをアドレスとして１３ビットのデータを出力
するため、１３ビット／語×２１３語のデータを持つ。また、整数ビットを生成するため、出力した１３ビット
のＮＡＮＤをとって最上位ビットの上に付加し、３９ビ
ットのゼロを最下位ビットの下に付加して５３ビットデ
ータとした後にマルチプレクサ１４に出力する。

【００２０】マルチプレクサ１４は乗算器１５の片方の
入力を第１データバス２１から取るかＲＯＭテーブル１
３から取るかを選択し、乗算器１５は第１データバス２
１上の５３ビットデータとマルチプレクサ１４の出力と
の積を３クロックで乗算し、入力される５３ビットデー
タの最上位ビットを整数ビット、最上位ビットとその下
のビットの間に小数点があるものとして入力データと同
じ形式の５３ビットデータを出力すると共に、この出力
の５３ビットデータを論理反転して出力する機能を持つ
。

【００２１】また、第１データバス２１は乗算器１５に
被乗数オペランドを５３ビット幅で転送し、第２データ
バス２２は乗算器１５に乗数オペランドを５３ビット幅
で転送し、第３データバス２３は乗算器１５から乗算結
果を５３ビット幅で転送し、この演算結果が５３ビット
長の結果レジスタ１８に格納される。

【００２２】このように入力レジスタ１１およびショー
トパス機構１２と乗算器１５は被乗数オペランドと乗数
オペランドを独立に転送できる２本のデータバスで結ば
れ、また乗算器１５の出力はさらに別の第３データバス
２３で結果レジスタ１８およびショートパス機構１２と
結ばれている。その結果、乗算器１５は２つのオペラン
ドを同時に得ることができ、さらにショートパス機構１
２により直前の乗算結果を続けて次の乗算のオペランド
とすることができる。また、ショートパス機構１２は直
前のショートパス転送の値を保持し続ける機能を持ち、
つまりショートパス機構１２を使って第３データバス２
３から第１データバス２１または第２データバス２２へ
転送が行なわれた後、ショートパス機構１２に第３デー
タバス２３からデータが入力されなければ、以降にショ
ートパス機構１２からデータを出力させた場合には最後
にショートパス機構１２を使って転送を行なったデータ
が再び読み出せる。

【００２３】なお、ＲＯＭテーブル１３の検索には１ク
ロックかかるものとする。このハードウェアに従来例の
アルゴリズムをインプリメントした場合の逆数算出動作
を図６のタイミング図に示す。

【００２４】まず、初期値Ｘ０　を得るため、ｔ２　で
入力レジスタ１１の上位１３ビットを使ってＲＯＭテー
ブル１３を検索する。ｔ３で‘Ｂ’を第１データバス２
１より乗算器１５へ転送し、ｔ４　でＲＯＭテーブル１
３から出力された‘Ｘ０　’との乗算を行なう。（３）
式では、数値‘２’と乗算結果との減算を行なわなけれ
ばならないが、Ｂは浮動小数点データの仮数部であり、
Ｘ０　はＢの逆数の近似値であるため、１≦Ｂ＜２、１
／２＜Ｘ０　≦１であるから、０．５＜Ｂ・Ｘ０＜２と
なり、次式が得られる。

【００２５】

【００２６】よって、この論理反転値を［２−Ｂ・Ｘ０
　］の代わりとして演算を進める。この論理反転値を第
３データバス２３に出力し、さらにショートパス機構１
２を使って直ちに第１データバス２１経由で乗算器１５
に戻す（ｔ５　）。また、マルチプレクサ１４により再
びＸ０　をＲＯＭテーブル１３から乗算器１５に出力し
、Ｂ・Ｘ０　の反転信号とＸ０　との乗算を行ない、（
３）式の計算を完了する（ｔ６　）。

【００２７】ｔ６　の乗算結果Ｘ１　を第３データバス
２３に出力し、ショートパス機構１２を使って直ちに第
２データバス２２経由で乗算器１５に戻す（ｔ７　）。同時に第１データバス２１を使ってＢを入力レジスタ１
１から乗算器１５に転送し（ｔ８　）、ｔ９　でＸ１　
とＢとの乗算を行なう。この乗算結果Ｂ・Ｘ１　の反転
値を（４）式の２−Ｂ・Ｘ１　の代わりとする。

【００２８】Ｂ・Ｘ１　の反転値を第３データバス２３
からショートパス機構１２、第１データバス２１と経由
させて乗算器１５に与え（ｔ１０）、第２データバス２
２用のショートパス機構１２に保持されているＸ１とｔ
１１で乗算し、Ｘ２　を得る。第３データバス２３を使
って結果レジスタ１８へＸ２　を転送し、処理を終了す
る。この動作により５２ビット精度で１／Ｂの近似値が
得られる。

【００２９】このように、（１３ビット／語）×２１３
語（＝１０６，９４６ビット）のＲＯＭテーブルを使っ
た従来例では逆数の近似値を求めるために、１３クロッ
クを要する。

【００３０】次に、この従来例を高速化するためにＲＯ
Ｍテーブルを大型化し、ニュートン近似１回のみで５２
ビット精度の逆数近似を行なう第２の従来例を説明する
。

【００３１】ニュートン近似１回のみで５２ビット精度
を得るためには、初期値として２６ビットの値が必要で
あるが、これ以外は第１例の前半と同様である。従って
、ハードウェアの構成もＲＯＭテーブル１３へのアドレ
スが入力レジスタ１１の上位２６ビットとなり、出力が
２６ビット長となる以外は変わらない。図７にこの逆数
算出動作のタイミング図を示す。

【００３２】まず、初期値Ｘ０　を得るため、ｔ１　で
ＲＯＭテーブル１３を検索する。次のｔ２　で第１デー
タバス２１により転送されたＢとＲＯＭテーブル１３か
ら出力されたＸ０　とが乗算される。第１の従来例と同
様、（３）式の［２−Ｂ・Ｘ０　］をＢ・Ｘ０　の反転
値としてＸ０　と乗算し（ｔ３　）、（３）式の計算を
完了する。初期値が２６ビット精度であるため、２乗近
似によりこの１回のニュートン近似で５２ビット精度の
１／Ｂの近似値が得られる。

【００３３】この場合は図７に示したように、（２６ビ
ット／語）×２語（＝１，７４４，８３０，４６４ビッ
ト）のＲＯＭテーブルを使って７クロックで逆数近似を
行なう。

【００３４】

【発明が解決しようとする課題】上述したように従来の
ニュートン近似を使った除算方式では、実行時間を短縮
しようとするとＲＯＭテーブルが巨大になり、高速化で
きないという欠点がある。

【００３５】本発明の目的は、このような問題を解決し
、ニュートン近似の初期値を直線近似を使って補間する
ことにより、小容量のＲＯＭテーブルで高速な除算を可
能にした逆数発生装置を提供することにある。

【００３６】

【課題を解決するための手段】本発明の逆数発生装置の
構成は、４ｎビット長の入力データを保持する入力レジ
スタと、この入力レジスタの上位ｎビットをアドレスと
してこの入力レジスタが保持している値の逆数の近似値
を２ｎビット長で出力する第１のＲＯＭテーブルと、前
記入力レジスタの上位ｎビットをアドレスとしてこの入
力レジスタが保持している値の逆数の２乗の近似値をｎ
ビット長で出力する第２のＲＯＭテーブルと、前記入力
レジスタの下位ビットと前記第２のＲＯＭテーブルの出
力とを乗算する乗算器と、前記第１のＲＯＭテーブルの
出力から前記乗算器の出力を減算する減算器とを備え、
この減算器の出力から逆数近似計算に必要な２ｎビット
精度の初期値を求めることを特徴とする。

【００３７】

【実施例】まず、本発明の逆数発生アルゴリズムを説明
する。

【００３８】従来例で説明したように、５２ビット精度
の逆数近似を行なう場合、ニュートン法を２回用いると
初期値が１３ビットで済むためＲＯＭテーブルのサイズ
は小さくなる（１３ビット／語×２１３語）が実行時間
が長くなり、ニュートン法を１回で済ませようとすると
初期値が２６ビットとなりＲＯＭテーブルの大きさが極
端に大きくなってしまう（２６ビット／語×２２６語）
という問題があった。

【００３９】そこで本発明では２６ビットの初期値を直
接ＲＯＭテーブルから検索せずに、２つのＲＯＭテーブ
ル（２６ビット／語×２１３語＋１３ビット／語×２１
３語）と減算器を使って直線近似により算出する。

【００４０】この直線近似により２６ビットの初期値を
得る方法を説明する。図３には逆数関数ｆ（Ｂ）＝１／
Ｂのグラフの１部分の拡大図を示す。Ｂ０　からΔＢだ
け離れたＢ０　＋ΔＢでのｆ（Ｂ０　＋ΔＢ）は、Ｂ０
　でのグラフの接線の傾きｆ′（Ｂ０　）からｆ（Ｂ０
　）＋ｆ′（Ｂ０　）・ΔＢと近似できる。ｆ（Ｂ）＝
１／Ｂの場合は次の（５）式となる。

【００４１】

【００４２】いま、ある６４ビット浮動小数点データの
仮数部Ｂを次のようにする。

【００４３】Ｂ＝１．ｂ５１　　ｂ５０　　ｂ４９　　‥‥　　ｂ２
　　　ｂ１　　　ｂ０この上位１３ビットと下位３９ビ
ットとを次のＢ０　，ΔＢとに分解することができる。

【００４４】　　Ｂ０　＝１．ｂ５１　　ｂ５０　　‥‥　　ｂ４０
　　ｂ３９　　０　　　　０　　　　‥‥　　０　　Δ
Ｂ＝０．０　　　　０　　　　‥‥　　０　　　　０　
　　　ｂ３８　　ｂ３７　　‥‥　　ｂ１　　　ｂ０　従って、（５）式を使って１／（Ｂ０　＋ΔＢ）の近似
値を求めることができる。

【００４５】この近似値を２６ビット精度で求めるため
には、（５）式の第１項［１／Ｂ０　］は２６ビット必
要であるが、第２項［ΔＢ／Ｂ０　２　］は、ΔＢの上
位１３ビットがすでにゼロであるため、１／Ｂ０　２　
が１／４＜１／Ｂ０　２　≦１という範囲でも次のよう
になる。

【００４６】　　ΔＢ／Ｂ０　２　＝０．０　　…　　０　　ｙ３８
　　ｙ３７　　‥‥　　ｙ１　　　ｙ０　（最大値）　
　ΔＢ／Ｂ０　２　＝０．０　　…　　０　　０　　　
　０　　　　ｙ３６　　‥‥　　ｙ０　（最小値）（５
）式として欲しい有効桁はビット５１からビット２６ま
での２６ビットであるため、１／Ｂ０　２　は１３ビッ
トあれば充分である。従って、１／Ｂ０　の上位２６ビ
ットと１／Ｂ０　２　の上位１３ビットを［ｂ５１　　
ｂ５０　　‥‥　　ｂ４０　　ｂ３９］の１３ビットを
アドレスとしてＲＯＭテーブルから引くことにより、乗
算と減算を使って２６ビットの１／（Ｂ０　＋ΔＢ）の
近似値を求めることができる。

【００４７】ここで（５）式の誤差を検討しておく。Ｂ
０　＋ΔＢでの誤差Δｆ（Ｂ０　）は次式のようになる
。

【００４８】

【００４９】Ｂ０　は浮動小数点数の仮数部であるため
、１≦Ｂ０＜２である。よって、Δｆ（Ｂ０　）は次式
となる。

【００５０】

【００５１】この式から２６ビット精度が保証される。この方法で２６ビット精度の近似値が得られれば、あと
はニュートン法１回により５２ビット精度の逆数近似値
が得られる。

【００５２】次に、このアルゴリズムをインプリメント
した逆数発生装置の構成と動作を図１により説明する。図において、１１は演算対象となるデータが格納されて
いる５２ビット長の入力レジスタであり、第１データバ
ス２１および第２データバス２２に対して出力する場合
は最上位に整数部の１を付加し、５３ビット長で出力す
る。１２は第３データバス２３上の５３ビットデータを
遅延なく第１データバス２１および第２データバス２２
に帰還させるためのショートパス機構であり、第１デー
タバス２１および第２データバス２２の２つデータバス
に対しそれぞれ専用のショートパスがある。

【００５３】１３は逆数の２乗の近似値を与えるための
第２ＲＯＭテーブルであり、入力レジスタ１１の上位１
３ビットをアドレスとして１３ビットのデータを出力す
るため、１３ビット／語×２１３語のデータを持つ。ま
た、整数ビットを生成するため、出力した１３ビットの
ＮＡＮＤをとってその１ビットを最上位ビットの上に付
加する。さらに、３９ビットのゼロを最下位ビットの下
に付加して５３ビットデータとした後にマルチプレクサ
１４に出力する機能を持つ。マルチプレクサ１４は乗算
器１５の片方の入力となり、この入力を第１データバス
２１から取るか第２ＲＯＭテーブル１３から取るかを選
択する。

【００５４】乗算器１５は第１データバス２１上の５３
ビットデータとマルチプレクサ１４の出力との積を３ク
ロックで演算する。入力される５３ビットデータの最上
位ビットを整数ビット、最上位ビットとその下のビット
の間に小数点があるものとして乗算を行ない、入力デー
タと同じ形式の５３ビットデータを出力するものとする
。また、第１データバス上のデータに対しては全ビット
を演算対象とする機能の他に上位１４ビット（整数部１
ビット＋小数部上位１３ビット）をゼロにマスクして演
算する機能を持つ。さらに、出力の５３ビットデータを
論理反転して出力する機能を持つ。

【００５５】第１ＲＯＭテーブル１６は逆数の近似値を
与えるためのＲＯＭテーブルであり、入力レジスタ１１
の上位１３ビットをアドレスとして２６ビットのデータ
を出力するため、２６ビット／語×２１３語のデータを
持つ。また、整数ビットを生成するため、出力した２６
ビットのＮＡＮＤをとってその１ビットを最上位ビット
の上に付加する。さらに、２６ビットのゼロを最下位ビ
ットの下に付加して５３ビットデータとした後に減算器
１７に出力する。この減算器１７は第１ＲＯＭテーブル
１６の出力から乗算器１５の出力を減算する。

【００５６】第１データバス２１は乗算器１５に被乗数
オペランドを転送し、第２データバス２２は乗算器１５
に乗数オペランドを転送し、第３データバス２３は乗算
器１５および減算器１７から結果を転送し、結果レジス
タ１８は演算結果が格納される。

【００５７】このように入力レジスタ１１およびショー
トパス機構１２と乗算器１５は被乗数オペランドと乗数
オペランドを独立に転送できる２本のデータバス２１，
２２で結ばれ、また乗算器１５の出力と減算器１７の出
力はさらに別の第３データバス２３で結果レジスタ１８
およびショートパス機構１２に結ばれている。その結果
、乗算器１５は２つのオペランドを同時に得ることがで
き、さらにショートパス機構１２により直前の乗算結果
を続けて次の乗算のオペランドとすることができる。また、ショートパス機構１２は直前ショートパス転送の
値を保持し続ける機能を持つ。つまり、ショートパス機
構１２を使って第３データバス２３から第１データバス
２１または第２データバス２２へ転送が行なわれた後、
ショートパス機構１２に第３データバス２３からデータ
が入力されなければ、以降にショートパス機構１２から
データを出力させた場合には最後にショートパス機構１
２を使って転送を行なったデータが再び読み出せる。な
お、第１ＲＯＭテーブル１６および第２ＲＯＭテーブル
１３の検索には１クロックかかるものとする。

【００５８】この場合の逆数算出動作を図２のタイミン
グ図に示す。入力レジスタ１１に保持されている５２ビ
ットデータＢはｂＮ　はｎ番目のビットとすると、次の
５２ビットのビット列とする。

【００５９】Ｂ＝１．ｂ５１　　ｂ５０　　ｂ４９　　‥‥　　ｂ１
　　　ｂ０　　また、Ｂの上位１３ビットＢ０　と、下
位３９ビットΔＢとを次のように分解したデータとする
。

【００６０】　　Ｂ０　＝１．ｂ５１　　ｂ５０　　‥‥　　ｂ３９
　　０　　　　０　　　　‥‥　　０　　ΔＢ＝０．０
　　　　０　　　　‥‥　　０　　　　ｂ３８　　ｂ３
７　　‥‥　　ｂ０　　　前述の（５），（４）式に従って演算を進める。

【００６１】まず、１／Ｂ０　２　の近似値Ｚ２　を得
るため、入力レジスタ１１の上位１３ビットを使って第
２ＲＯＭテーブル１３を検索する（ｔ１　）。入力レジ
スタ１１のデータＢを第１データバス２１により乗算器
１５へ転送する（ｔ２　）。乗算器１５は第１データバ
ス上のデータの上位１４ビット（整数部１ビット＋小数
部上位１３ビット）をマスクして（ΔＢとして）受理し
、ＲＯＭテーブル１３からマルチプレクサ１４を経由し
て入力されたＺ２　との乗算を行ない（ｔ３　）、その
乗算結果ΔＢ・Ｚ２　を得ている。

【００６２】次に、１／Ｂ０　の近似値Ｚ１　を得るた
め、入力レジスタ１１の上位１３ビットを使って第２Ｒ
ＯＭテーブル１３を検索する（ｔ４　）。第１ＲＯＭテ
ーブル１６の出力と乗算器１５の出力を減算器１７に入
力し、Ｚ１　−ΔＢ・Ｚ２　を行ない（ｔ５　）、まず
２６ビット精度で１／Ｂの近似値を得、ニュートン近似
の初期値とする。

【００６３】減算器１７の出力［Ｘ１　＝Ｚ１　−ΔＢ
・Ｚ２　］を第３データバス２３に出力すると同時に、
ショートパス機構１２を使って第２データバス２２にの
せる（ｔ６　）。一方で入力レジスタ１１の内容Ｂを第
１データバス２１を使って乗算器１５に入力する（ｔ７
　）。乗算器１５はＢの上位ビットをマスクせずに全ビ
ットを演算対象とし、第２データバス上のＸ１　との乗
算を行なう（ｔ８　）。

【００６４】ここで、（４）式は前述の（４）式のよう
に数値‘２’と乗算結果との減算を行なわなければなら
ないが、Ｂは浮動小数点データの仮数部であり、Ｘ０　
はＢの逆数の近似値であるため、次式のようになる。

【００６５】

【００６６】従って、この論理反転値を［２−Ｂ・Ｘ０
　］の代りとするため、乗算器１５は乗算結果Ｂ・Ｘ１
　を論理反転し、（４）式の［２−Ｂ・Ｘ１　］とする
。

【００６７】乗算器１５はこのＢ・Ｘ１　の反転値を第
３データバス２３に出力し、さらにショートパス機構１
２を使って直ちに第１データバス１６経由で乗算器１５
に戻す（ｔ９　）。同時に第２データバス２２用のショ
ートパス機構１２に保持されているＸ１　を乗算器１５
に入力し（ｔ１０）、Ｘ２　としてＸ１　とＢ・Ｘ１　
の反転値との乗算値を得る（ｔ１１）。第３データバス
２３を使って結果レジスタ１８へこのＸ２　を転送し、
処理を終了する。以上の動作により５２ビット精度の１
／Ｂの近似値が得られる。

【００６８】このように本実施例は１３ビット／語×２
１３語（＝１０６，９４６ビット），２６ビット／語×
２１３語（＝２１３，８９２ビット）の２つのＲＯＭテ
ーブルを使い、総ＲＯＭ容量３２０，８３８ビットで１
１クロックで５２ビット精度の逆数近似を計算すること
ができる。

【００６９】本実施例では３本のデータバスやショート
パス機構を使って逆数発生以外の演算も行なえる構成と
したため、ハードウェアが大規模になっている。ところ
が、逆数発生の機能のみを持つ装置であればより簡単な
ハードウェアでさらに高速な演算が可能である。そこで
、第２の実施例として逆数発生専用とした場合の構成と
動作を示す。なお、整数ビットを省略してハードウェア
を簡略化するため、第２の実施例ではＢ＝１．００…０
の場合は除外して考えることにする。

【００７０】図４は本発明の第２の実施例の逆数発生装
置のハードウェア構成を示すブロック図であり、演算対
象データのビット幅は第１の実施例と同じく５２ビット
とする。演算対象データを保持する入力レジスタ３１に
保持されている値Ｂとして各ビットのビット番号を、図
８に示す通りに定義する。すなわち、最上位ビットをビ
ット５１、最下位ビットをビット０とし、小数点はビッ
ト５１の上にあるものとする。この値Ｂは次のように示
される。

【００７１】

【００７２】逆数の近似値を与えるための第１ＲＯＭテ
ーブル３２は、入力レジスタ３１の上位１３ビットをア
ドレスとして２６ビットのデータを出力するため、２６
ビット／語×２１３語のデータを持つ。逆数の２乗の近
似値を与えるための第２ＲＯＭテーブル３３は、入力レ
ジスタ１１の上位１３ビットをアドレスとして１３ビッ
トのデータを出力するため、１３ビット／語×２１３語
のデータを持つ。

【００７３】乗算器３４は１３ビット×１３ビット乗算
器であり、第２ＲＯＭテーブル３３の出力の１３ビット
データと入力レジスタ１１の［ビット３８〜ビット２６
］の１３ビットデータを乗算し、２６ビットデータとな
る乗算結果の上位１３ビットを出力する。２６ビット減
算器３５は、乗算器３４の１３ビット出力の上位をゼロ
拡張して２６ビットデータとし、第１ＲＯＭテーブル３
２の２６ビットデータから減算し、２６ビットデータを
出力する。

【００７４】２６ビット×５２ビット乗算器３６は、減
算器３５の２６ビット出力と、もう一方の５２ビット入
力データとの乗算結果を出力する。このとき、入力およ
び出力されるデータは、図８に示したようにビット５２
の上に小数点がある固定小数点数とて扱われ、出力され
るデータは乗算結果の上位５２ビットとなる。

【００７５】マルチプレクサ３７は、入力レジスタ１１
からの５２ビットデータと反転器３８の５２ビット出力
のいずれかを選択して乗算器３６へ入力する。反転器３
８は乗算器３６の５２ビット出力を論理反転し、結果レ
ジスタ１８ａは乗算器３６の出力を保持するレジスタで
ある。

【００７６】次に本実施例の逆数発生装置の動作を説明
する。まず、第１ステップとして入力レジスタ１１の［
ビット５１〜ビット３９］の１３ビットデータをアドレ
スとして第１ＲＯＭテーブルおよび第２ＲＯＭテーブル
を検索する。第２ステップで、第２ＲＯＭテーブルから
の１３ビットデータと入力レジスタ１１の［ビット３８
〜ビット２６］の１３ビットデータを乗算する。この乗
算は前述の（５）式の第２項［ΔＢ／Ｂ０　２　］に相
当する。

【００７７】第２ＲＯＭテーブル３３からの１３ビット
出力は次の［Ｚ５１〜Ｚ３９］の１３ビットに相当する
。

【００７８】

【００７９】また、入力レジスタ１１の［ビット３８〜
ビット２６］は、次の［Ｂ３８〜Ｂ２６］の１３ビット
に相当する。

【００８０】

【００８１】これらの１３ビットデータを整数と見なす
とその乗算結果は２６ビットデータになるはずである。また、Ｚ３９の重みは２−１３　、Ｂ２６の重みは２−
２６　であるため、整数乗算と見なした場合の乗算結果
２６ビットデータの最下位の実際の重みは２−３９　で
ある。よって、その２６ビットデータ［Ｖ３８Ｖ３７Ｖ
３６Ｖ３５Ｖ３４…Ｖ１３］は次のビット位置に相当す
る。

【００８２】

【００８３】いま、（５）式ではビット２６までの精度
を得られれば良いから、乗算器３４は２６ビットデータ
［Ｖ３８〜Ｖ１３］の上位１３ビット［Ｖ３８〜Ｖ２６
］を出力する。

【００８４】第３ステップで乗算器３４の１３ビット出
力の上位に１３ビットのゼロを付加し、第１ＲＯＭテー
ブル３２の２６ビット出力とともに減算器３５に入力し
て、減算を行なう。第１ＲＯＭテーブル３２からの２６
ビット出力は、次の［Ｙ５１〜Ｙ２６］の２６ビットに
相当する。

【００８５】

【００８６】（５）式の第１項から第２項を引く減算を
行なうため、この２６ビットデータと乗算器３４の１３
ビットデータ［Ｖ３８〜Ｖ２６］の各ビットの重みを合
わせるために、［Ｖ３８〜Ｖ２６］の上位を１３ビット
ゼロ拡張し、次の値から［１／Ｂ０　−ΔＢ・１／Ｂ０
　２　］の減算を行なう。

【００８７】

【００８８】第４ステップで入力レジスタ３１からのデ
ータを選択するようにマルチプレクサ３７を制御し、乗
算器３６に減算器３５からの２６ビットデータと入力レ
ジスタ３１からの５２ビットデータを与え、乗算を行な
う。この乗算は（４）式の，Ｂ×Ｘ１　の乗算に相当す
る。

【００８９】入力レジスタ１１のＢは５２ビットである
が、Ｘ１　（＝１／Ｂ０　−ΔＢ・１／Ｂ０　２　）は
１／Ｂ０　とΔＢ・１／Ｂ０　２　との減算結果である
ため、２６ビットしかない。よって、乗算器３６が行な
う乗算は５２ビット×５２ビットである必要はなく、２
６ビット×５２ビットで充分である。（４）式では［２
−Ｂ・Ｘ１　］となっているが、これはビット５１から
ビット０までの各ビットの論理反転により得られるため
、反転器３８により乗算器３６の出力の反転を行なう。

【００９０】第５ステップで反転器３８からのデータを
選択するようにマルチプレクサ３７を制御し、乗算器３
６に減算器３５からの２６ビットデータと反転器３８か
らの５２ビットデータを与え、乗算を行なう。この乗算
は（４）式の［Ｘ１　×（２−ＢＸ１　）］の乗算に相
当する。この乗算も第４ステップと同様に一方の入力Ｘ
１　が２６ビットしかない。よって、２６ビット×５２
ビットで充分である。この乗算結果を結果レジスタ１８
ａに出力し、逆数演算を終了する。

【００９１】次に、本実施例のハードウェア量と実行時
間を見積る。まず、ＲＯＭ容量は第１の実施例と同様、
３２０，８３８ビットである。また、第１の実施例では
全ての乗算を１つの５２ビット×５２ビット乗算器で処
理していたが、本実施例では［ΔＢ／Ｂ０　２］の乗算
専用に１３ビット×１３ビット乗算器を用意しているた
め、この分のハードウェアが増大する。反対に第１の実
施例で使った５２ビット×５２ビットの乗算器は本実施
例では２６ビット×５２ビットとなり、この乗算器のた
めのハードウェア量は約半分に減少する。さらにデータ
転送のためのデータバスやショートパス機構が不要にな
るため、逆数発生装置全体としてのハードウェアは第１
の実施例よりも本実施例の方が小さくなる。

【００９２】また、実行時間も第１の実施例より少なく
なる。まず、第１ステップのＲＯＭテーブル検索には第
１実施例と同様、１クロック費やされるとする。第２ス
テップの乗算はデータ長が第１の実施例の５２ビット×
５２ビットに対し、１３ビット×１３ビットであるため
、第１の実施例の３クロックに対し、１クロックで処理
できる。第３ステップの減算は第１実施例と同様、１ク
ロックとする。第４および第５ステップの乗算もデータ
長が第１実施例の５２ビット×５２ビットに対し、２６
ビット×５２ビットであるため、第１実施例の３クロッ
クに対し２クロックで処理できるとする。以上の実行時
間の合計から、本実施例の逆数発生装置の実行時間は７
クロックとなる。このように、ハードウェアの構成を逆
数発生専用にすることにより、さらに高速な逆数演算が
が可能となる。

【００９３】

【発明の効果】以上説明したように本発明の逆数発生装
置は、２つのＲＯＭテーブルを使ってニュートン近似の
ための初期値を直線近似で補間することにより、ＲＯＭ
容量を削減すると共に、高速な逆数演算をすることがで
きるという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例の逆数発生装置のブロック図

【図２】図１の動作を説明する模式的タイミング図

【図
３】直線近似の計算法を説明する座標図

【図４】本発明
の第２の実施例の逆数発生装置のブロック図

【図５】従来の逆数発生装置の一例のブロック図

【図６
】従来の逆数発生装置のニュートン近似２回の場合を説
明するタイミング図

【図７】従来の逆数発生装置のニュートン近似１回の場
合を説明するタイミング図

【図８】入力レジスタのビット番号を説明する配列図

【符号の説明】

１１，３１　　　　入力レジスタ１２　　　　ショートパス機構１３，３３　　　　第２ＲＯＭテーブル１４，３７　　
　　マルチプレクサ１５，３４，３６　　　　乗算器１６，３２　　　　第１ＲＯＭテーブル１７，３５　　
　　減算器１８，１８ａ　　　　結果レジスタ２１　　　　第１データバス２２　　　　第２データバス２３　　　　第３データバス３８　　　　反転器

Claims

【特許請求の範囲】

【請求項１】　　４ｎビット長の入力データを保持する
入力レジスタと、この入力レジスタの上位ｎビットをア
ドレスとしてこの入力レジスタが保持している値の逆数
の近似値を２ｎビット長で出力する第１のＲＯＭテーブ
ルと、前記入力レジスタの上位ｎビットをアドレスとし
てこの入力レジスタが保持している値の逆数の２乗の近
似値をｎビット長で出力する第２のＲＯＭテーブルと、
前記入力レジスタの下位ビットと前記第２のＲＯＭテー
ブルの出力とを乗算する乗算器と、前記第１のＲＯＭテ
ーブルの出力から前記乗算器の出力を減算する減算器と
を備え、この減算器の出力から逆数近似計算に必要な２
ｎビット精度の初期値を求めることを特徴とする逆数発
生装置。