JPH05197741A

JPH05197741A - インターリーブド乗算器累算器

Info

Publication number: JPH05197741A
Application number: JP17203392A
Authority: JP
Inventors: Peter Ruetz; ルーツピーター; Wen-Wi Ti; ティウェン−ウィ
Original assignee: LSI Logic Corp
Current assignee: LSI Corp
Priority date: 1991-06-06
Filing date: 1992-06-05
Publication date: 1993-08-06
Also published as: EP0517241A2; EP0517241A3

Abstract

(57)【要約】【目的】高い処理能力及び効率的な行列乗算を実行す
ることが可能なインターリーブド乗算器累算器を提供す
る。【構成】本発明に基づくインターリーブド乗算器累算
器は、それぞれが乗算器素子とパイプラインレジスタを
含む複数の直列接続された乗算器セグメントとそれぞれ
が加算器素子とパイプラインレジスタを含む複数の直列
接続された累算器セグメントから構成され、行列乗算な
どのデータは直列接続された最初の乗算セグメントに送
られ、全てのパイプラインレジスタがクロックされ、直
列接続された最後の乗算器セグメントからの出力は直列
接続された最初の累算器セグメントに加えら、直列接続
される最後の累算器セグメントの出力は最初の累算器セ
グメントの入力に加えられ、乗算器累算器の全体として
の出力は最後の累算器セグメントの出力から得られる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ディジタル信号処理及
びグラフィックスシステムに置いて使用されるような乗
算器累算器に関し、特に行列乗算を含む用途に関する。

【０００２】

【従来の技術】最近のディジタル信号処理及びグラフィ
ックスシステムの分野において、特に、実時間画像処理
及び多次元制御システムなどの応用分野において、多く
の積和計算を頻繁に実行する必要がある。一般的に、か
かる応用分野では、高速の行列乗算、あるいは多数の連
立方程式の解法が必要である。これらの問題の解法に
は、次のような形式の項を含む計算が必要とされる。

【０００３】

【数１】

【０００４】典型的には、これらの計算は、乗算器累算
器として、あるいは乗算器累算器のアレイとして構成さ
れたディジタルハードウェアの助けを借りて実行され
る。

【０００５】乗算器累算器はその構成部分の乗算器及び
累算器から命名されている。乗算器部分は２つのディジ
タル入力を受け取りディジタル積を演算する。累算器
は、ディジタル加算器と格納素子又はパイプラインレジ
スタの２つの二次構成部分から構成される。一般的に、
累算器は、パイプラインレジスタの出力が加算器の入力
の１つに接続されて、加算器の出力が格納素子の入力に
接続されて、各連続加算に伴いパイプラインレジスタ内
のディジタル値が加算された量分増加する。

【０００６】加算器累算器の中には、固定小数点（又は
２値整数）の数値に関してのみ動作するものもあり、他
方浮動小数点の数値に関してのみ動作するものもある。
いずれの場合にも、回路トポロジーは同じである。唯一
の相違は乗算器と累算器の固有の設計に見られるのみで
ある。浮動小数点及び固定小数点の乗算器及び累算器の
双方とも周知であり、当業界において広く使用されてい
るので、それらの設計の詳細についてはここでは述べな
い。

【０００７】乗算器累算器は特に積和計算に適するもの
である。積が計算されると、その積を以前の加算結果を
含む格納レジスタの内容に加算可能である。結果が格納
レジスタに格納されて、次の乗算が実行される。

【０００８】典型的な乗算器累算器の構成例を図１及び
図２に示す。これらの図中には、以下の素子が示されて
いる：すなわち、乗算器１１０、２１０；加算器１２
０、２２０；パイプラインレジスタ１３０、２３０、２
９０；クロック１４０、２４０；乗算器入力１５０、１
６０、２５０、２６０；加算器入力１７０、１８０、２
７０、２８０が示されている。

【０００９】図１において、乗算器及び累算器は、２つ
の入力「Ｘ」及び「Ａ」（前述の積和の「Ｘ」及び
「Ａ」項に相当する）が乗算器の入力に加えられ、乗算
器の出力が累算器（加算器１２０）の一方の入力に加え
られるように、接続される。累算器（加算器１２０）の
出力は、その出力が累算器（１２０）の他方の入力に接
続されているエッジトリガパイプラインレジスタに入力
されている。

【００１０】図２の乗算器累算器は図１のものと同様で
あるが、エッジトリガパイプラインレジスタ２９０が乗
算器出力及び累算器入力の間に配置されている。

【００１１】図１の乗算器累算器においては、入力１６
０「Ａn 」及び１５０「Ｘn 」（ここで、添え字「ｎ」
は図示していないがサンプリング時間「ｎ」に関連して
いる）が乗算器１１０に関して動作して、ライン１７０
に結果「ＡＸn 」を生じる。この結果が次いで累算器１
２０の一方の入力に加えられる。累算器１２０の出力は
パイプラインレジスタ１３０に送られる。レジスタ１３
０の出力はライン１８０を介して累算器１２０の他方の
入力に接続されている。次の入力「Ａn+1 」及び「Ｘn+
1 」は、結果「ＡＸn 」がパイプラインレジスタにより
ラッチされるまで（クロック１４０）、乗算器に入力さ
れることはない。最小クロック周期は、乗算器入力とレ
ジスタの間の全ての直列遅れを考慮に入れる必要があ
る。この周期は次式により与えられる。

【００１２】

【数２】

【００１３】図２の乗算器累算器はほぼ図１の装置と同
様であり、図１と似た番号が付された乗算器２１０、累
算器（加算器部分）２２０、レジスタ２３０、及びライ
ン２４０、２５０、２６０、２７０、及び２８０を備え
ている。主な相違は、乗算器２２０の出力に第２のパイ
プラインレジスタ２９０が付加された点にある。二重の
パイプライン構成により、この構成の最小のクロック周
期は次式により与えられる。

【００１４】

【数３】

【００１５】この構成は、図１の乗算器累算器と同様の
構成によって、より高速に動作することが可能である
が、結果がレジスタ２３０の出力に現れる前に、付加的
な遅れのクロック周期が必要である。

【００１６】図１及び図２の乗算器及び累算器の伝搬遅
れが等しく、ｔpdの数値を有し、さらにレジスタとクロ
ックに関連する遅れが無視できるものと仮定すると、ｎ
×ｎの行列にｎ×１のベクトルを乗算するために必要な
式はそれぞれ次式により与えられる。

【００１７】

【数４】

【００１８】画像処理及びグラフィックスのアプリケー
ションが大きくなると、より高速な表示解度及びより良
好なユーザ応答性に対するニーズが高まる。これはより
高速の行列乗算に関するニーズの増加と換言できる。多
くの高速画像処理システムが設計されているが、これら
は、速度を改良するためのディジタルハードウェアの量
的なディジタルハードウェアの並行処理に基づいてい
る。明らかに、かかるシステムは非常に高価となる可能
性がある。

【００１９】これらの用途のために、可能な限り低いコ
ストで最良の動作性能を得ることができる乗算器累算器
に対するニーズが存在する。

【００２０】

【発明が解決しようとする課題】したがって、本発明の
目的は、従来の乗算器累算器よりも良好な処理能力を有
する乗算器累算器を提供することである。

【００２１】さらに本発明の別な目的は、行列乗算時間
を相当短縮可能な乗算器累算器を提供することである。

【００２２】さらに本発明の別の目的は、従来の乗算器
累算器よりも乗算器累算器に関する最小クロック周期を
相当短縮することである。

【００２３】

【課題を解決するための手段】本発明によれば、インタ
ーリーブド乗算器累算器は、複数の直列接続された乗算
器セグメントと、複数の直列接続された累算器セグメン
トから構成される。各乗算器セグメントは、乗算器素子
とパイプラインレジスタとを含んでいる。各累算器セグ
メントは加算器（その他の演算ユニット）素子とパイプ
ラインレジスタを含んでいる。行列乗算に関するような
データは、直列接続された乗算セグメントの最初のセグ
メントに送られ、全てのパイプラインレジスタがクロッ
クされる。直列接続された乗算器セグメントの最後のセ
グメントからの出力は直列接続された累算器セグメント
の最初のセグメントに加えられる。直列接続される累算
器セグメントの最後のセグメントの出力は累算器セグメ
ントの最初のセグメントの他方の入力に加えられる。乗
算器累算器の全体としての出力は最後の累算器セグメン
トの出力から得られる。

【００２４】本発明のある特徴によれば、別のパイプラ
イン段を最後の乗算器及び累算器セグメントの出力に直
列接続することが可能である。

【００２５】本発明のある特徴によれば、乗算器及び加
算器素子を別の演算ユニットと構成し、レジスタをメモ
リ内に集中することが可能である。

【００２６】本発明のインターリーブド乗算器累算器
は、そのパイプライン乗算器及び累算器構成により高い
処理能力と効果的な行列乗算を実行可能である。

【００２７】他の目的、特徴及び効果については、以下
の説明により明らかになろう。

【００２８】

【実施例】図３は、パイプライン乗算器（３０６−３２
０）、パイプライン加算器又は累算器（３５６−３７
０）、及び多数の追加パイプラインレジスタ（３２２，
３２４，３２６，３７２，３７４，３８０）から成る乗
算器累算器３００を示している。乗算器は、それぞれが
パイプラインレジスタ（３０８，３１２，３１６，３２
０）を介して次のセグメントに送られるｋ個のパイプラ
インセグメント（乗算器３０６，３１０，３１４，３１
８）と、ｊ個の別に直列接続されたパイプラインレジス
タ（３２２，３２４，３２６）から構成されて、パイプ
ラインレジスタの総数（ｋ＋ｊ）が同じ次数（ｎ）のベ
クトルに乗算される正方行列の次数（ｎ）と等しくなっ
ている。

【００２９】また、本発明によれば、同様に構成された
加算器連鎖（３５６−３７０）が存在しており、それ
は、それぞれがパイプラインレジスタ（３５８，３６
２，３６６，３７０）を介して次のセグメントに送られ
る同数のｋ個のパイプライン加算器セグメント（３０
６，３１０，３１４，３１８）と、同数のｊ個の別の直
列接続されたパイプラインレジスタ（３７２，３７４，
３８０）を備えている。最後のパイプラインレジスタ３
８０の出力は最初のパイプライン加算器セグメントの入
力３５４の一方にフィードバックされる。他方の入力３
５２は前述のパイプライン乗算器の最後のパイプライン
レジスタ３２６の出力に接続されている。

【００３０】最初に、ゼロ入力を乗算器一方または双方
に加え、累算器フィードバック３５４をゼロに強制し、
さらに、全てのレジスタがゼロで満たされるまでシステ
ムをクロッキングする（クロック３９０を参照）ことに
より、あるいは、ダイレクト手段によりレジスタを並行
ロードすることにより、あるいは累算器フィードバック
信号をゼロに強制することにより、全てのレジスタがク
リアされる（ゼロで満たされる）。

【００３１】初期化の後に、乗算及び累算される入力対
が、クロック３９０の１周期ごとに１対の割合で対の連
続形式で（例えば、Ａ1 とＸ1 、Ａ2 とＸ1 といったよ
うに）乗算器累算器に加えられる。ｋクロック周期の後
に、最初に終了した積（すなわちＸ1 とＡ1 との積）が
パイプラインレジスタ３２０の出力に表れる。他の３つ
の積はパイプライン中において処理中であるが（すなわ
ち、レジスタ３１６内におけるＡ2 Ｘ2 、レジスタ３１
２内におけるＡ3 Ｘ3 、及びレジスタ３０８内における
Ａ4 Ｘ4 ）、未だ全てが解法されてはいない。さらにｊ
クロック後に、最初の積、Ａ1 Ｘ1 が累算器の入力３５
２に表れる。さらにｎクロック後に、全ての累算器パイ
プラインレジスタが、内部に１つの積の項を有すること
になる（各々にゼロ値が加算されるが、数値は、ｋ番面
緒レジスタ３７０に到達するまで、完全に解法されるわ
けではない）。レジスタ３５８はＡn Ｘn を備え、レジ
スタ３６２はＡn-1 Ｘn-1 を備えるといったように続
き、レジスタ３８０がＡ1 Ｘ1 を備えることになる。次
のクロックで、レジスタ３８０の出力が乗算器パイプラ
インの次の積、Ａn+1 Ｘn+1 に加算される。この処理
が、パイプライン内の全てのレジスタがｎクロック間隔
だけ間を置いた積の和を含むようになるまで継続され
る。すなわち、ｎが８であり、レジスタ３８０がＡ1 Ｘ
1 ＋Ａ9 Ｘ9 を有する場合には、レジスタ３７４はＡ2
Ｘ2 ＋Ａ10Ｘ10を含むといったようになる。

【００３２】特に有用で説明しやすい特殊事例が以下に
示すような４×４の行列ベクトル乗算である。

【００３３】

【数５】

【００３４】結果として得られるベクトルは、以下の４
項を有している。１）ＡＸ＋ＢＹ＋ＣＺ＋ＤＷ２）ＥＸ＋ＦＹ＋ＧＺ＋ＨＷ３）ＩＸ＋ＪＹ＋ＫＺ＋ＬＷ４）ＭＸ＋ＮＹ＋ＯＺ＋ＰＷ

【００３５】図４は、前述の４×４行列ベクトル積を計
算するための乗算器累算器４００の構造を示している。
以下の素子が示されているが、詳細な説明は不要であろ
う。乗算器４０６，４１０，４１４，４１８；加算器４
５６，４６０，４６４，４６８；乗算器４０２，４０４
に対する入力；加算器４５２，４５４に対する入力；パ
イプラインレジスタ４０８，４１２，４１６，４２０，
４５８，４６２，４６６，４７０及びクロック入力４９
０である。

【００３６】レジスタ遅れが（適当に近似された）乗算
器及び加算器遅れに比較して無視可能であり、さらに、
図４に示すように、乗算器及び累算器がそれぞれ４つの
内部パイプラインセクション（レジスタの後に各演算ユ
ニットが続く）を備えるようにばらばらにされているも
のとするならば、使用され得る最小クロック周期は、乗
算器遅れもまた４つの大体等しいセグメントに分解され
るため、おおまかにいってｔ_PD(MUL)／４となる。これ
は図２の乗算器累算器クロック速度の約４倍であり、図
１の乗算器累算器のクロック速度の約８倍である。

【００３７】従来の乗算器累算器は以下の順番の入力が
表れる。ＡＸ，ＢＹ，ＣＺ，ＤＷ，ＥＸ，ＦＹ，ＧＺ，ＨＷ …

【００３８】本発明に基づく乗算器累算器内では内部パ
イプライン処理がされているので、処理のためのデータ
表示の順番は代わりに次のようになる。ＡＸ，ＥＸ，ＩＸ，ＭＸ，ＢＹ，ＦＹ，ＪＹ，ＮＹ …

【００３９】本発明に基づくデータ処理の「インターリ
ーブド」の特質のため、「インターリーブド乗算器累算
器」と言及する。

【００４０】図５は、４×４行列ベクトル乗算に関する
データタイミングとフローであり、図１及び図２の乗算
器累算器に関しては、それぞれ、「０１」及び「０２」
と言及され、本発明のインターリーブド乗算器累算器に
関しては「Ｉ」として言及されている。

【００４１】図５より、ｎ＝ｋ＝４の場合の事例に関す
る比較が容易に行え、各乗算器累算器の待ち時間は（イ
ンターリーブド乗算器累算器クロック周期の時間単位に
おいて）次のようになる。０１：ｔ＝１２８時間単位０２：ｔ＝６８時間単位Ｉ：ｔ＝２０時間単位（クロック周期）

【００４２】ｎ≧ｋである場合の待ち時間は（再びイン
ターリーブド乗算器累算器クロック周期の時間単位にお
いて）次のようになる（０１及び０２については比較の
ために示されている。０１：ｔ＝２ｋｎ² ０２：ｔ＝ｋｎ²＋ｋＩ：ｔ＝ｎ²＋ｎ

【００４３】連続動作に関する３つの方法の処理能力Ｔ
（毎秒の行列ベクトル乗算）は次のようになる。０１：Ｔ＝１／（２ｋ²ｔ_clk）０２：Ｔ＝１／（ｎ²ｔ＋ｋ_clk）Ｉ：Ｔ＝ｋ／（ｎ²ｔ_clk）

【００４４】このように、本発明のインターリーブド乗
算器累算器は、図１の乗算器累算器よりも２ｋ倍高速で
あり、図２の乗算器累算器よりもｋ倍高速である。４×
４行列ベクトル乗算に関する事例では、インターリーブ
ド乗算器累算器よりも８倍高速であり、図２の乗算器累
算器の４倍高速である。

【００４５】

【発明の効果】特許請求の範囲に記載されたインターリ
ーブド乗算器累算器に関しては、 (a) パイプラインレジスタはラッチやメモリのようなコ
ンピュータの格納装置内で実行可能であり； (b) クロック信号はいかなる周期的信号でも構わず； (c) 乗算器及び加算器は、乗算器、加算器、除算器、減
算器などの本発明の場合には関数（ｆ）及び（ｇ）を実
行するインターリーブドユニットとして広範に表現され
ているような任意の演算関数（演算論理ユニット）とす
ることが可能であることに留意されたい。

【００４６】以上のように、本発明に基づくインターリ
ーブド乗算器累算器は、そのパイプライン乗算器及び累
算器構成により、高い処理能力及び効率的な行列乗算を
実行することが可能である。

【図面の簡単な説明】

【図１】従来の単一パイプライン乗算器累算器の構造を
示すブロック図である。

【図２】従来の二重パイプライン乗算器累算器の構造を
示すブロック図である。

【図３】本発明の乗算器累算器の好適な実施例の構造を
示すブロック図である。

【図４】４×４行列乗算用に特に設計された本発明の好
適な実施例を示すブロック図である。

【図５】４×４行列ベクトル乗算用の本発明の乗算器累
算器を通過するデータフローを示すデータフロー及びタ
イミング図である。

【符号の説明】

３００乗算器累算器３０２−３０４乗算器入力３０６−３２０パイプライン乗算器３２２−３２６パイプラインレジスタ３６２−３５４累算器入力３５６−３７０パイプライン加算器３７２−３８０パイプラインレジスタ３９０クロック入力

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウェン−ウィティアメリカ合衆国、カリフォルニア州 95035、ミルピタス、サラトガドライブ 1423

Claims

【特許請求の範囲】

【請求項１】２つのデータ入力と；１つのデータ出力
と；クロック信号を受信するための手段と；パイプライ
ン乗算器であって、前記２つのデータ入力に接続され、
複数の直列接続されたパイプライン乗算器セグメントを
備え、さらに第１の最終パイプラインレジスタを含み、
パイプラインセグメントが存在する数と同じ数の乗算が
処理可能であり、各クロック信号が各部分的に解決され
た乗算項を次に直列接続されたパイプラインセグメント
に進め、さらに前記第１の最終パイプラインレジスタの
出力が前記パイプライン乗算器のデータ出力とされるよ
うに構成されるものと；パイプライン累算器であって、
２つの入力と１つのデータ出力と複数の直列接続された
パイプライン累算器セグメントを備え、さらに第２の最
終パイプラインレジスタを含み、パイプラインセグメン
トが存在する数と同じ数の加算（累算）が処理可能であ
り、各クロック周期が各部分的に解決された加算（累
算）項を次に直列接続されたパイプラインセグメントに
進め、さらに第２の最終パイプラインレジスタの出力が
前記パイプライン累算器のデータ出力とされるように構
成されるものと；からなり、前記パイプライン乗算器及
び前記パイプライン累算器が、前記パイプライン乗算器
の前記第１の最終パイプラインレジスタの出力が前記パ
イプライン累算器の１つの入力に接続され、前記パイプ
ライン累算器の前記第２の最終パイプラインレジスタの
出力が前記パイプライン累算器の他の入力に接続されて
さらにインターリーブド乗算器累算器の出力ともされる
ように相互接続されており；さらに、前記パイプライン
レジスタが前記クロック信号を受信する手段に応答する
べく接続されていることを特徴とする、インターリーブ
ド乗算器累算器。
【請求項２】前記パイプラインレジスタが１つのコンピ
ュータ格納装置内に置かれることを特徴とする、請求項
１に記載のインターリーブド乗算器累算器。
【請求項３】前記パイプライン乗算器セグメントの数が
パイプライン累算器セグメントの数と同数であることを
特徴とする、請求項１に記載のインターリーブド乗算器
累算器。
【請求項４】乗算器内のパイプラインセグメントの数が
乗算器動作をパイプライン処理するために必要な数より
も多く、パイプライン乗算器の剰余が直列接続されたパ
イプラインレジスタから形成されることを特徴とする、
請求項３に記載のインターリーブド乗算器累算器。
【請求項５】累算器内のパイプラインセグメントの数が
累算器動作をパイプライン処理するために必要な数より
も多く、パイプライン乗算器の剰余が直列接続されたパ
イプラインレジスタから形成されることを特徴とする、
請求項３に記載のインターリーブド乗算器累算器。
【請求項６】行列ベクトル乗算用に構成され、パイプラ
イン乗算器内のパイプラインセグメントの数及びパイプ
ライン累算器内のパイプラインセグメントの数がそれぞ
れ処理される行列ベクトル乗算の次数（ｎ）と同じ数で
あり、行列項が前記インターリーブド乗算器累算器の１
つの入力に頂部から底部に及び左から右に向かい入力さ
れ、ベクトル項が前記インターリーブド乗算器累算器の
他方の入力に左から右に向かって順次、但し「ｎ番目」
のクロック毎にのみ進むように入力されることを特徴と
する、請求項３に記載のインターリーブド乗算器累算
器。
【請求項７】前記パイプライン乗算器と前記パイプライ
ン累算器が２値整数乗算及び加算のみ用に構成されてい
ることを特徴とする、請求項１に記載のインターリーブ
ド乗算器累算器。
【請求項８】前記パイプライン乗算器及び前記パイプラ
イン累算器が浮動小数点乗算及び加算用に構成されてい
ることを特徴とする、請求項１に記載のインターリーブ
ド乗算器累算器。
【請求項９】２つのデータ入力と；１つのデータ出力
と；周期的に信号を受信するための手段と；第１の関数
（ｆ）を実行するための第１のパイプライン演算装置で
あって、前記２つのデータ入力に接続されて複数の直列
接続されたパイプライン第１演算セグメントを備え、さ
らに第１の最終パイプラインレジスタを含み、パイプラ
インセグメントが存在する数と同数の第１の関数が処理
可能であり、各周期信号が各部分的に解決される第１の
関数項を次に直列接続されたパイプラインセグメントに
進め、さらに前記第１の最終パイプラインレジスタの出
力が前記第１のパイプライン演算装置の出力とされるも
のと；第２の関数（ｇ）を実行するための第２のパイプ
ライン演算装置であって、２つの入力と１つのデータ出
力とさらに複数の直列接続されたパイプライン第２演算
セグメントを備え、第２の最終パイプラインレジスタを
含み、さらにパイプラインセグメントが存在する数と同
数の第２の関数が処理可能であり、各周期信号が各部分
的に解決された第２の関数項を次に直列接続されたパイ
プラインセグメントに進め、さらに前記第２の最終パイ
プラインレジスタの出力が前記第２のパイプライン演算
装置のデータ出力とされるものと；からなり、前記パイ
プライン第１の演算装置と前記第２のパイプライン演算
装置が、前記第１の最終パイプラインレジスタの出力が
前記第２のパイプライン演算装置の入力の１つに接続さ
れるように相互接続され；前記第２の最終パイプライン
レジスタの出力が前記第２のパイプライン演算装置の他
方に入力に接続されて前記インターリーブド演算装置の
出力ともされ；さらに、前記パイプラインレジスタが前
記周期的に信号を受信するための手段に応答するように
接続されることを特徴とする、インターリーブド演算装
置。
【請求項１０】前記パイプラインレジスタが１つのコン
ピュータ格納装置内に配置されることを特徴とする、請
求項９に記載のインターリーブド演算装置。