JPH03282730A

JPH03282730A - 半導体演算回路

Info

Publication number: JPH03282730A
Application number: JP2081210A
Authority: JP
Inventors: Naoyuki Hatanaka; 畑中　直行; Tomoji Takada; 高田　知二
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-03-30
Filing date: 1990-03-30
Publication date: 1991-12-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は、半導体演算回路に関する。

（従来の技術）最近の汎用信号処理ＬＳＩにおいては、積和演算におけ
る係数乗算の高速化のために、第８図に示すように積和
演算の実行に先立ってＬＳＩに内蔵された係数メモリ回
路１に係数をロードしておき、積和演算の実行時に係数
メモリ回路１から係数を読み出して乗算器２で乗算を実
行するようになっている。また、乗算そのものの実行速
度を高速にするため、種々の乗算器の高速化手法が用い
られている。

ここで、乗算器の高速化手法として、特によく用いられ
るものに、ブースのアルゴリズムを用いた方式がある。

この方式は、乗数もしくは被乗数のいずれかをデコード
することにより、部分積の数を少な（し、加算回路での
加算時間を短縮し、高速化しようとするものである。そ
の場合、第８図に示すように乗算器２の内部にデコード
のためのデコード回路３と、部分積加算のための加算回
路４が必要である。第９図にデコード回路３のロジック
図を示し、また第１０図に加算回路４のブロック図を示
しである。第９図は人力信号が１６ビツトの場合の２次
のブースのアルゴリズムによるデコード回路３０ロジツ
ク図であり、このデコード回路３を用いることで第１０
図の加算回路４に示すように部分積の数を通常の半分で
ある８個にすることができる。

ところで、デコード回路３でのデコード時間の乗算器全
体の実行時間に占める割合は、前記加算回路４での加算
時間のそれに比べて無視できるほど小さくはなく、その
結果、乗算器全体として期待するほどの高速化が得られ
ていないのが実状である。

このことは、将来、汎用信号処理ＬＳＩにおいて、乗算
器に前述のような方式を採用する場合にも同様に問題と
なると考えられる。すなわち、現在でもそうであるが、
これからの汎用ＬＳＩでは、マシンサイクルの高速化と
共に、割り込み処理などによるパイプラインハザードを
回避するため、１回の乗算は１マシンサイクルで実行（
フラッシュ動作）できることが望まれる。その点から、
乗算器の乗算時間は、信号処理ＬＳＩのマシンサイクル
を決定するものであり、前記のような乗算器では、信号
処理ＬＳＩのマシンサイクルの高速化を妨げることが予
想される。

（発明が解決しようとする課題）上記のように、ブースのアルゴリズムのような乗数、ま
たは被乗数のいずれか一方をデコードすることにより、
乗算に必要な加算時間を短縮し、高速化するという従来
の方式を採用した乗算器において、実際には、乗算器全
体として期待するほどの高速化は得られていない。すな
わち、このような乗算器が、汎用信号処理ＬＳＩにおけ
るマシンサイクルの高速化を妨げているという問題点が
あった。

この発明はこのような従来の問題点に鑑みてなされたも
ので、回路規模をそれほど大きくすることなくマシンサ
イクルを高速化し、かつ１回の乗算を１マシンサイクル
で実行することができる半導体演算回路を提供すること
を目的とする。

［発明の構成］（課題を解決するための手段）この発明の半導体演算回路は、乗数または被乗数をデコ
ードするデコード回路と、このデコード回路によりデコ
ードされた乗数または被乗数の複数個を記憶する係数メ
モリ回路と、この係数メモリ回路に記憶されている乗数
または被乗数を読みだしてきて入力されてくる相手方の
被乗数または乗数とブースのアルゴリズムにしたがって
乗算するものである。

（作用）この発明の半導体演算回路では、乗算器で乗算する乗数
または被乗数のいずれかをあらかじめデコード回路にお
いてデコードして係数メモリ回路に記憶しておき、乗算
においてはこのあらかじめデコードされている乗数また
は被乗数を読み出してきて相手方の被乗数または乗数と
乗算する。

こうして、従来のように乗算時に乗数または被乗数の一
方をデコードしてから相手方の被乗数または乗数と乗算
する場合に比べて、デコード時間を必要としない分だけ
、乗算時間の高速化がはかれることになる。

（実施例）以下、この発明の実施例を図に基づいて詳説する。

一般にＬＳＩは第１図に示すように、演算処理を行う演
算処理系統半導体演算回路１］とプログラム命令を処理
する命令処理系統半導体演算回路１２とが統合された形
で組み込まれている。そしてそれぞれの系統にデコード
回路１３．１４と演算回路１５．１６とが含まれている
。

この発明の一実施例はこの演算処理系統１１の構成に係
わるもので、第２図に示すように１６ビツト信号を入力
とし、３２ビット信号を出力するデコード回路１３と、
このデコード回路１３がデコードした複数個の係数を記
憶する係数メモリ回路１７と、この係数メモリ回路１７
の係数を読み出して入力乗数と乗算する乗算器１８とか
ら構成されている。この乗算器１８は部分積を加算する
加算回路１９だけから構成されている。なお、これらの
係数メモリ回路１７と乗算器１８と加算回路１９とで演
算回路１５を構成している。

次に、上記の構成の半導体演算回路の動作について説明
する。

デコード回路１３には１６ビツトの信号が２の補数表現
された２進数値として入力される。そして入力された信
号はデコード回路１３でブースのアルゴリズムに従う、
たとえば３２ビツトの信号にデコードされ、出力される
。

その３２ビツトの信号は、書き込み可能な係数メモリ回
路１７に順次書き込まれていき、ストアされる。

乗算実行時には、この係数メモリ回路１７から係数が順
次読み出され、乗算器１８に入力されていく。そして、
乗算器１８に入力されてくる乗数と乗算されて部分積が
求められ、これを加算回路］９において加算し、最終乗
算結果が出力されていく。

この様な回路構成にすることにより、次のような効果が
得られることになる。ブースのアルゴリズムなど、一般
に乗数、または被乗数のいずれかをデコードする乗算方
式を採用する場合、デコード回路でそれらに適した信号
にあらかじめデコードして係数メモリ回路に記憶させて
おき、乗算実行時にその信号を係数メモリ回路から読み
出して乗算器に入力するため、乗算器にはデコード回路
が不要となり、デコード時間も不要となり、この結果と
して乗算器における乗算時間が加算時間のみとなって高
速化され、マシンサイクルが高速であっても１回の乗算
を１マシンサイクルで実行（フラッシュ動作）可能にな
る。

なお、この発明の実施例によれば、一般に係数メモリ回
路の回路規模が大きくなるが、メモリ回路の集積度は高
く、したがってそれによる回路規模の増大は特に問題と
ならない。またデコード回路による係数メモリ回路への
係数データの書き込み時間のオーバーヘッドが問題にな
ることはほとんどなく、したがって演算の高速化が実現
できるのである。

第３図はこの発明の他の実施例を示しており、複数の乗
算器としての部分積加算回路２’Ｏａ、２０ｂ、・・・
、２Ｏｎを有する半導体演算回路である。

この半導体演算回路では、複数の部分積加算回路２０ａ
、２０ｂ、・・・、２０ｎに共通の乗数を与えるための
ものであり、入力端子２１より入力される乗数信号を第
１のレジスタ２２で記憶し、これをあらかじめデコード
回路２３によりデコードし、デコードされた信号を第２
のレジスタ２４に格納するようになっている。

一方、各部分積加算回路２０ａ、２０ｂ、・・・２Ｏｎ
には被乗数を個別に入力端子２５ａ、２５ｂ、・・・、
２５ｎから与え、各部分積加算回路２０ａ　、　　２Ｑ
　ｂ　、　−、２Ｏｎで第２のレジスタ２４に格納され
ている共通の乗数と各被乗数入力とを乗算して部分積を
求め、この乗算結果を出力端子２５ａ、２６ｂ、・・・
、２６ｎから出力するようにしている。

この実施例では、共通の係数としての乗数をいったんデ
コード回路２３によりデコードして第２のレジスタ２４
に記憶しておき、乗算実行時にこの乗数を読み出して各
部分積加算回路２０ａ、２０ｂ、・・・、２０ｎで乗算
して部分積を得ることができるために乗算の高速化が図
れるのである。

第４図はこの様な半導体演算回路を積和演算□回路に組
み込んだ回路構成を示しており、第３図に示す実施例の
半導体演算回路１０１に共通の乗数入力を入力端子２１
から入力し、被乗数を入力端子２５　ａ　、　　２５　
ｂ　、−、２５ｎから人力し、得られる部分積結果を出
力端子２６ａ、２６ｂ、・・・２６ｎから遅延回路２７
ａ、２７ｂ、−＝、２７ｎに入力して遅延させ、これを
さらに遅延回路２８ａ、　　２３ｂ、・・・、２８ｎで
時間的にずらせながら加算回路２９ａ、２９ｂ、・・・
、２９ｎで順次加え合わせることにより積和演算するよ
うにしたものであり、これによりパイプライン演算が可
能となる。

また第５図はこの発明のさらに他の実施例であり、複数
の異なる乗数を共通の一つの被乗数と乗算するために、
複数の乗算器として部分積加算回路３０ａ、３０ｂ、・
・・、３０ｎを備えた半導体演算回路の構成を示してい
る。

この実施例では、入力端子３１から複数の乗数信号を入
力してまず第１のレジスタ３２に格納し、デコード回路
３３によりデコードして各節２のレジスタ３４　ａ　ｒ
　３４　ｂ　＋　・・・、３４ｎに順次格納するように
している。

一方、共通の被乗数の方は、入力端子３５から各部分積
加算回路３０ａ、３０ｂ、・・・、３０ｎに入力し、こ
こで各節２のレジスタ３４ａ、３４ｂ。

・・・、３４ｎから読み出してきた乗数と乗算して部分
積を求め、その結果を出力端子３６ａ、３６ｂ。

・・・、３６ｎから出力するようにしている。

この実施例では、共通の被乗数に対して各部分積加算回
路３０ａ、３０ｂ、・・・、３０ｎごとに乗算実行前に
すでにデコードしていったん記憶しておいた乗数を乗算
することができ、乗算時に逐一デコードしてから乗算す
る従来の乗算器よりも高速化が図れるのである。

第６図は上記の実施例の半導体演算回路を積和演算回路
に組み込んだ回路構成を示しており、第５図に示す実施
例の半導体演算回路１０２に共通の被乗数入力を入力端
子３５から入力し、乗数を入力端子３１から順次入力し
て部分積を求め、得られる部分積結果を出力端子３６ａ
、３６ｂ、・・・３６ｎから遅延回路３７ａ、３７ｂ、
−，３７ｎ１に入力して遅延させ、これをさらに遅延回路３８ａ、３
３ｂ、・・・、３８ｎで時間的にずらせながら加算回路
３９ａ、３９ｂ、・・・、３９ｎで順次加え合わせるこ
とにより積和演算するようにしたものであり、これによ
りパイプライン演算が可能となる。

この様な第二及び第三の実施例においても、個々の乗算
器が持っていたデコード回路を一つのデコード回路で共
有することができ、デコード回路の占める面積を減少さ
せることができ、高速で、しかもよりコンパクトな半導
体演算回路が実現できることになる。

第１図に示したＬＳＩにおける命令処理系統１２の回路
構成について、次に説明する。

複数個の演算処理回路を有し、それらを並列に動作させ
ることにより高いスループットを得ようとする最近の汎
用信号処理ＬＳＩにおいては、それらの演算処理回路を
制御するために１ワードあたり１００〜２００ビツト程
度のビット数を持った命令コードが必要となってきてい
る。これは複　２数個の演算処理回路を同時に制御しなければならないた
めに、演算処理回路の数に比例した数のビット数が必要
となることに加えて、高速化のために命令コードがデコ
ードされずに用いられるためである。

一方、汎用性の要求からは、そのような水平型命令コー
ドをあらかじめＬＳＩに内蔵された書き込み可能な制御
記憶回路（ＷＣＳ　；Ｗｒ　ｉ　ｔ　ａｂｌｅ　　Ｃｏ
ｎｔｒｏｌ　　Ｓｔｏｒａｇｅ：以下、ＷＣＳと称する
）に記憶させ、しかる後にＷＣＳから命令コードを読み
出して所定の処理シーケンスを実行するという手法が用
いられるようになってきている。

以上のような情勢から、今後は汎用信号処理ＬＳＩにお
いては、ＬＳＩに内蔵される演算処理回路の増加にとも
ない、ますますビット数の多いＷＣＳが内蔵されること
が必要になる。

ところで、命令コード１ワードを直接１回てＷＣＳへ書
き込むためには、命令コードのビ・ソト数と等しい数の
ＬＳＩの入力端子を必要とするが、　３これは現実的には実現不可能である。そのため、従来の
ＬＳＩに内蔵されたＷＣＳに、この様なビット数の多い
命令コードを書き込むためには、般に直並列変換手法が
用いられている。これは、命令コード１ワードを数回に
分けてＬＳＩ入力端子より入力し、ＬＳＩ内部で命令コ
ード１ワードを再構成し、ＷＣＳへ書き込むという手法
である。

第１１図はこの手法を説明するものであり、ＬＳＩ４０
の入力端子は３２本であり、一方、ＷＣＳの１ワードの
ビット数、すなわち命令コードのビット数は１２８であ
る。

図において、ＬＳ　Ｉ４０の入力端子４１からクロック
信号に同期して入力される命令コードの１回目の３２ビ
ット分の信号はクロック信号４３と第１のロード信号４
４とにより第１の中間レジスタ４８に書き込まれる。２
回目、３回目、及び４回目の３２ビット分の信号も同様
にクロック信号４３と第２、第３、第４のロード信号４
５．４６゜４７によりそれぞれ第２、第３、第４の中間
レジスタ４９，５０．５１に書き込まれる。この時点　
４で第１から第４までの中間レジスタ４８〜５１に命令コ
ード１−２８ビツト、すなわち１ワ一ド分が書き込まれ
たことになる。その命令コードはクロック信号５５、第
５のロード信号５６及びアドレス信号５７によりＷＯ２
に書き込まれる。そして、以下、上記と同様の動作を繰
り返すことにより、ＷＯ２には命令コードが１ワ一ド単
位で順次書き込まれていく。

これが従来のＬＳ　Ｉ４０に内蔵されたＷＯ２に命令コ
ードを書き込む手法である。

しかしながら、この様な手法では、ＷＯ２の１ワードの
ビット数はそれほど多くすることができない。その理由
は、次のようである。すなわち、汎用性と将来性、高機
能性などを考えると、ＷＯ２のワード数は十分大きくし
ておくことが望ましい。さらに、高速性という点から考
えると、ＷＯ２への書き込み時間はできるだけ短い方が
よい。

しかしながら、前述のようにＬＳＩの現実的な問題とし
て、ＷＯ２へ命令コードを書き込むために多くの入力端
子を設けることはできない。この制御　５約条件を数式で表すと次式のような関係となる。

ＷＯ２に要求されるワード数をｗＳｗｃｓへ命令コード
を書き込むために許容できる時間をＴ５同じく許容でき
るＬＳＩの入力端子数をＳとすると、ＷＯ２の１ワード
のビット数幅ｐは、αを係数として、ｐ　≦　α　・　　　　　　Ｔのようになり、ｐはＳ、Ｗ、及びＴにより制限されるの
である。

そこで、ＷＯ２のワード数の要求やＷＯ２への命令コー
ド書き込み時間及びＬＳＩの入力端子数の制約などを満
たしながら、ＷＯ２の１ワードのビット数を効果的に多
くするために第７図に示すような回路構成の半導体演算
回路を構成することができる。

この第７図の実施例の半導体演算回路について説明する
と、ＬＳＩ６０の入力端子６１とＬＳＩ６０に内蔵され
たＷＣ８７４との間に、以下のよ　６うな前処理回路が設けられている。すなわち、ＬＳＩ６
０の入力端子数をｓ、ＷＣ８７４の１ワードのビット数
をｋとするとき、前処理回路はＳビットの信号をｎ回続
けて入力し、それらをまとめてｐ−ｎＳビットの並列信
号にして出力する直並列変換回路６２と、このｐビット
の信号の一部または全部からなるｍビットの信号を入力
し、斐〉ｍなる愛ビットの信号にデコードするデコード
回路７２と、この愛ビットの信号の一部からなるｍビッ
トの信号と、前記デコード回路７２の入力信号であるｍ
ビットの信号とを入力し、それらを選択して同じくｍビ
ットの信号を出力する選択回路としての多重化回路７３
とを備えている。

そして、前記多重化回路７３から出力されるｍビットの
信号、前記ｐビットの信号から前記デコード回路７２に
入力されたｍビットの信号を除いた（ｐ−ｍ）ビットの
信号、及び前記ｕビットの信号から前記多重化回路７３
に入力されたｍビットの信号を除いた（１−ｍ）ビット
の信号を出力し、これらの出力信号のビット数の総和（
ｐ＋１７ｍ）がＷＯ２の１ワードのビット数ｋに等しくなるよう
にしているのである。

なお、直並列変換回路６２はクロック信号６３とロード
信号６４〜６７それぞれが入力される中間レジスタ６８
〜７１により構成されている。またＷＣ８７４には、ク
ロック信号７５、ロード信号７６及びアドレス信号７７
が与えられるようになっている。

この様な半導体演算回路の動作について、次に説明する
。

ＬＳ　Ｉ　６０の入力端子６１からクロック信号に同期
しながら、Ｓビットずつｎ回に分けて入力される入力信
号は、直並列変換回路６２において、クロック信号６３
とロード信号６４，６５，６６゜６７により順次ｎ個の
中間レジスタ６８，６９゜７０．７１に書き込まれ、ｐ
＝ｎ　Ｓビットの並列信号となる。

これを前述した第１１図の従来回路と対応付けると、ｐ
＝１２８．ｎ＝４，５＝３２となる。そして、このｐ−
１２８ビツトの信号が、そのまま　８ＷＣ３７４の１ワ一ド分の命令コードしてＷＣ８７４に
書き込まれていたのである。

これに対して、この第７図の実施例では、ｐビットの信
号の一部または全部からなるｍビットの信号がデコード
回路７２に入力される。デコード回路７２に入力された
ｍビットの信号は１．ｌ＞ｍなるｕビットの信号にデコ
ードされ、出力される。

さらに、その愛ビットの信号の一部からなるｍビットの
信号は、前記デコード回路７２の入力信号であるｍビッ
トの信号とともに多重化回路７３に入力され、選択され
た後、同じくｍビットの信号として出力される。

そして、前記多重化回路７３から出力されるｍビットの
信号と、前記ｐビットの信号から前記デコード回路７２
に入力されたｍビットの信号を除いた（ｐ−ｍ）ビット
の信号と、前記斐ビットの信号から前記多重化回路７３
に入力されたｍビットの信号を除いたＣ１−ｍ）ビット
の信号とが最終的な１ワ一ド分の命令コードとなり、ク
ロック信号７５、ロード信号７６、及びアドレス信号７
９７によりＷＣ５７４へ書き込まれる。

このときの命令コードのビット数には、ｋ＝ｍ＋　（ｐ
−ｍ）　＋（吏−ｍ）＝ｐ十更−ｍとなるが、ここでｆ
ｌ＞ｍであるので、ｋ＞ｐとなり、従来方式による命令
コードのビット数ｐよりも多くできることになる。

以上のようにして、命令処理系統１２の半導体演算回路
では、固定のハードウェアでありながら、等価的にｍの
値を変えることができる。すなわち、ｐビットの信号か
ら（ｐ−ｍ）〜ｐビットを、またそれに対応して前記愛
ビットの信号から更〜（ｕ−ｍ）ビットをにビットの命
令コードを形成するために用いることができる。これは
コード化されたｐビットの信号の一部（部分フィールド
）のビット数ｍを変えることができることを意味する。

また、ある処理においては、命令コードの中のいくつか
のビットは何であってもよい（Ｄｏｎｔ　　Ｃａｒｅ）
という場合やすべて０（ＡＩＩＯ）である場合があるが
、このような場合でも、　０従来ならばそのような命令コードも他の命令コードと同
様に扱われてしまっていたが、この実施例ではそのよう
な命令コードはコード固有の性質を表す情報をあらかじ
め前記ｐビットの信号の中にコード化しておくことによ
り、所定の命令コードを発生することができる。

［発明の効果］以上のようにこの発明によれば、ブースのアルゴリズム
など、一般に乗数または被乗数のいずれかをデコードす
る乗算方式を採用する場合、デコード回路でそれらに適
してた信号をあらかじめデコードして係数メモリ回路に
記憶させておき、乗算実行時にその信号を係数メモリ回
路から読み出して乗算器に入力するようにしているため
、従来のように乗算器側でまずデコードしてから乗算を
実行するものと異なり、乗算実行時のデコード時間が不
要となり、この結果、乗算器における乗算時間は加算時
間のみて済むことになって演算が高速化でき、マシンサ
イクルが高速であっても］回の乗算が１マシンサイクル
で実行可能になる。

１

【図面の簡単な説明】

第１図は一般的なＬＳＩの内部回路構成を説明する説明
図、第２図はこの発明の一実施例の回路ブロック図、第
３図はこの発明の他の実施例の回路ブロック図、第４図
は第３図の実施例の回路を組み込んだ半導体積和演算回
路のブロック図、第５図はこの発明のさらに他の実施例
の回路ブロック図、第６図は第５図の実施例の回路を組
み込んだ半導体積和演算回路のブロック図、第７図はこ
の発明の他の実施例の回路ブロック図、第８図は従来例
の回路ブロック図、第９図は一般的なデコード回路の回
路ブロック図、第１０図は一般的な部分積加算回路の回
路ブロック図、第１１図は他の従来例の回路ブロック図
である。１１・・・演算処理系統　　１２・・・命令処理系統１
３．１４・・・デコード回路１５．１６・・・演算回路１７・・・係数メモリ回路　１８・・・乗算器１９・・
・加算回路

Claims

【特許請求の範囲】

乗数または被乗数をデコードするデコード回路と、この
デコード回路によりデコードされた乗数または被乗数の
複数個を記憶する係数メモリ回路と、この係数メモリ回
路に記憶されている乗数または被乗数を読みだしてきて
入力されてくる相手方の被乗数または乗数とブースのア
ルゴリズムにしたがって乗算することを特徴とする半導
体演算回路。