JPH07200260A

JPH07200260A - 単一プロセッサにおける並列データ処理

Info

Publication number: JPH07200260A
Application number: JP6312671A
Authority: JP
Inventors: Ruby Bei-Loh Lee; ルビー・ベイ−ロー・リー
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1993-11-23
Filing date: 1994-11-22
Publication date: 1995-08-04
Anticipated expiration: 2019-10-20
Also published as: EP0654733B1; DE69424626T2; EP0924601A3; EP0654733A1; US5636351A; DE69428466T2; JP3578502B2; DE69424626D1; EP0924601A2; EP0924601B1; DE69428466D1

Abstract

(57)【要約】【目的】本発明は、単一のプロセッサにおいて並列デ
−タ処理ができるシステムを提供する。【構成】複数のオペランドからなる第１のパ−テショ
ンと、第２のパ−テションから構成し、フル・ワ−ド長
のオペランドに演算を施す場合には、第１のパ−テショ
ンから第２のパ−テションへのデ−タ伝搬を可能にし、
フル・ワ−ド長よりも短いビット長の場合には第１のパ
−テションから第２のパ−テションへのデ−タ伝搬を阻
止するようにする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、単一プロセッサにおけ
る並列データ処理に関するものである。

【０００２】

【従来の技術】一般に、単一プロセッサ・システムは、
２つのオペランドに順次演算を施す。例えば、３２ビッ
トコンピュータの場合、各整数オペランドは、３２ビッ
トである。６４ビット・コンピュータの場合、各整数オ
ペランドは、６４ビットである。従って、６４ビット・
コンピュータにおける整数「加算」命令では、２つの６
４ビット整数オペランドを加算して、６４ビットの整数
結果が得られる。ほとんどのパイプラインで形成された
６４ビット・プロセッサでは、６４ビット加算命令に、
１サイクルの実行時間を要する。

【０００３】多くの例において、オペランドの直接関連
する範囲は１６ビット又はそれ以下である。しかし、現
在の３２ビットまたは６４ビット・コンピュータにおい
て、１対の１６ビット・オペランドの演算を施すには今
まで通り完全な命令が必要になる。従って、１６ビット
・オペランドに演算を施すのに必要な実行サイクル数
は、３２ビット・コンピュータにおける２つの３２ビッ
ト・オペランド、または６４ビット・コンピュータにお
ける２つの６４ビット・オペランドに演算を施すのに必
要な実行サイクル数と同じになる。

【０００４】先行技術の場合、並列データ処理には、そ
れぞれ、フル・ワード長のデータを取り扱うことが可能
な機能毎のユニットからなる、機能毎のユニットの複製
品を作ることが必要とされた。例えば、１９６６年１２
月の、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ、第５
４巻、１９０１〜１９０９ページにおける、Ｍｉｃｈａ
ｅｌＦｌｙｎｎによるＶｅｒｙＨｉｇｈ−Ｓｐｅｅ
ｄＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓを参照された
い。

【０００５】

【発明が解決しようとする課題】しかし、こうした並列
処理の実施は、必要なハードウェア及び設計の複雑さの
両方に関連して、コストが高くつく。

【０００６】

【課題を解決するための手段】本発明の望ましい実施例
によれば、単一プロセッサ内における並列データ処理を
可能にするシステムが提供される。データの並列処理を
可能にするため、シフタのような処理システム内におけ
る論理演算装置または他の演算実行エンティティが区分
化される。各パーティション内で、演算が実施される。
フル・ワード長のオペランドに対する演算を実施すべき
場合には、並列処理は行われない。従って、パーティシ
ョン間における境界を越えてデータを自由に伝搬させる
ことが可能である。１フル・ワード長未満の複数のオペ
ランドを利用して、並列に演算を実施する場合には、パ
ーティション間における少なくとも１つの境界を越えて
データが伝搬しないようにする。

【０００７】例えば、演算が加算演算（例えば、２の補
数加算）の場合、複数のパーティションが、それぞれ、
加算演算を実施する。フル・ワード長のオペランドに加
算を施すべき場合には、パーティション間における桁上
げの伝播が可能になる。１フル・ワード長より短い複数
のオペランド集合に並列加算演算を施す場合には、パー
ティション間における少なくとも１つの境界を越える桁
上げの伝播が阻止される。

【０００８】同様に、演算がシフトの場合、複数のパー
ティションが、それぞれ、シフト演算を実施する。フル
・ワード長のオペランドにシフトを施すべき場合には、
パーティション間におけるシフトが可能になる。１フル
・ワード長より短い複数のオペランドを利用して、並列
に演算を施す場合には、パーティション間における少な
くとも１つの境界を越えるシフトが阻止される。

【０００９】また、本発明の望ましい実施例によれば、
乗算器は、全ワード被乗数の乗算とサブ・ワード被乗数
の並列乗算の両方を実施する。例えば、論理ＡＮＤゲー
ト（またはその同等物）のアレイといった回路要素が、
部分積を発生する。部分積和回路要素が、部分積を合計
することによって、結果が得られる。部分積ゲート手段
が、サブ・ワード被乗数の並列乗算の選択に応答して、
選択された部分積の値を強制的にゼロにし、この結果、
サブ・ワード被乗数の並列乗算が実施される。乗算器が
全ワード乗算を実施している間、部分積の値が強制的に
ゼロにされることはない。部分積ゲート手段は、例え
ば、論理ＡＮＤゲートの少なくとも一部に対する第３の
入力を利用して実施することが可能である。

【００１０】本発明によれば、オペランドがフル・ワー
ド長より短い場合における並列処理演算を容易化するこ
とによって、単一プロセッサ・システムの性能を大幅に
高めることが可能になる。並列処理のこの低コストの利
用によって、プロセッサ・チップにおけるシリコン・ス
ペースまたは設計の複雑さにあまりコストを費やすこと
なく、このタイプのデータ並列処理を利用可能な計算に
関する性能が大幅に向上する。

【００１１】

【実施例】図１には、本発明の望ましい実施例による、
プロセッサ内における演算実行データ経路の略ブロック
図が示されている。近く行われることになる演算のオペ
ランド及び実施済みの演算の結果は、汎用レジスタ２５
に記憶される。演算が実施される際には、汎用レジスタ
２５内の第１のレジスタに記憶された第１のオペランド
が、第１のソース・バス２１に送り出される。演算に別
のオペランドが必要な場合には、汎用レジスタ２５内の
第２のレジスタに記憶されている第２のオペランドが、
第２のソース・バス２２に送り出される。

【００１２】演算の実施後、結果は、結果バス２３に送
り出され、汎用レジスタ２５内のレジスタにロードされ
る。演算は、論理演算装置（ＡＬＵ）２６またはシフタ
２９によって実施される。プリ・シフタ２７及び補数回
路要素２８のそれぞれを利用して、ＡＬＵ２６が受信す
る前に、オペランドに修正を加えることが可能である。
本発明と同様に構成された、単一プロセッサ・システム
のアーキテクチャに関する一般的背景については、１９
８９年１月の、ＩＥＥＥＣｏｍｐｕｔｅｒ、第２２
巻、第１号、７８〜９１ページにおける、Ｒｕｂｙ
Ｂ．ＬｅｅよるＰｒｅｃｉｓｉｏｎＡｒｃｈｉｔｅｃ
ｔｕｒｅを参照されたい。

【００１３】本発明の望ましい実施例によれば、ＡＬＵ
を区分化して、並列データ処理を行うことが可能であ
る。例えば、図２には、２つのパーティションに分割さ
れたＡＬＵ２６が示されている。第１のパーティション
４１は、第１のオペランドの下位ビット４２、及び、第
２のオペランドの下位ビット４３に演算を施して、下位
ビットの結果４４を求める。第２のパーティション５１
は、第１のオペランドの上位ビット５２、及び、第２の
オペランドの上位ビット５３に演算を施して、上位ビッ
トの結果５４を求める。

【００１４】セレクタ５０を利用することによって、制
御入力４９に応答して、データ経路４５の情報を第１の
パーティション４１から第２のパーティション５１に伝
搬できるようにするか、あるいは、第１のパーティショ
ン４１から第２のパーティション５１への伝搬前に、デ
ータ経路４５の情報を遮断することが可能になる。すな
わち、フル・ワード・オペランドに対して実施される算
術演算の場合、情報は、セレクタ５０を介して第１のパ
ーティション４１から第２のパーティション５１に伝搬
させることが可能である。ハーフ・ワード・オペランド
に対して並列算術演算が実施される場合には、セレクタ
５０によって、第１のパーティション４１から第２のパ
ーティション５１への情報の伝搬が阻止される。一般
に、論理演算の場合、第１のパーティション４１から第
２のパーティション５１への情報の伝搬は生じない。

【００１５】例えば、３２ビット幅のデータ経路を備え
たコンピュータの場合、各フル・ワード・オペランド
は、３２ビットである。従って、３２ビットのフル・ワ
ード・オペランドを利用して演算を行う場合、セレクタ
５０は、セレクタ５０を介した、第１のパーティション
４１から第２のパーティション５１への情報伝搬を可能
にする。１６ビットのハーフ・ワード・オペランドを利
用して２つの並列演算を行う場合、セレクタ５０は、セ
レクタ５０を介した、第１のパーティション４１から第
２のパーティション５１への情報伝搬を阻止する。代わ
りに、ライン５９の値がパーティション５１に送られ
る。「加算」の実施時には、論理０が、入力ライン５９
におきかわる。「減算」の実施時には、論理１が、入力
ライン５９におきかわる。

【００１６】本発明の望ましい実施例の場合、図１に示
すＡＬＵによって実施される一般的な算術演算は、２の
補数加算である。当該技術の熟練者には明らかなよう
に、ＡＬＵにおいて２の補数加算演算を実施する前に、
２の補数回路要素２８を利用して、あるオペランドに対
する２の補数演算を実施することによって、２の補数減
算が実施される。また、ＡＬＵにおいて２の補数加算演
算を実施する前に、プリ・シフタ２７を利用して、オペ
ランドのプリ・シフトを行うことによって、シフト及び
加算演算が実施される。

【００１７】図３には、本発明の望ましい実施例によ
る、ＡＬＵ２６内における桁上げ伝播加算を行う２の補
数加算器の実施例が示されている。代替案では、ＡＬＵ
２６に、桁上げ先見加算を行う２の補数加算器が含まれ
る。ハーフ加算器６０は、第１のオペランドの単一ビッ
トＸ０及び第２のオペランドの単一ビットＹ０を受信す
る。ハーフ加算器６０は、和ビットＺ０及び桁上げビッ
トＣ０を送り出す。フル加算器６１は、第１のオペラン
ドの単一ビットＸ１、第２のオペランドの単一ビットＹ
１、及び、桁上げビットＣ０を受け取る。フル加算器６
１は、和ビットＺ１及び桁上げビットＣ１を送り出す。
フル加算器６５は、第１のオペランドの単一ビットＸｉ
ー１、第２のオペランドの単一ビットＹｉー１、及び、
先行加算器（すなわち、不図示のＣｉー２）からの桁上
げビットを受け取る。フル加算器６５は、和ビットＺｉ
ー１及び桁上げビットＣｉー１を送り出す。フル加算器
６６は、第１のオペランドの単一ビットＸｉ及び第２の
オペランドの単一ビットＹｉを受け取る。許可ビット４
９の値によって、フル加算器６６は、セレクタ５０（ま
たは、当該技術の通常の技術者であれば理解し得る同等
の論理回路要素）を介して桁上げビットＣｉを受信す
る。フル加算器６９は、第１のオペランドの単一ビット
Ｘｊー１、第２のオペランドの単一ビットＹｊー１、及
び、先行加算器（不図示）からの桁上げビットを受信す
る。フル加算器６９は、和ビットＺｊ−１及び桁上げビ
ットＣｊ−１を送り出す。

【００１８】図３に示す加算器の実施例の場合、「ｊ」
は、データ経路のサイズ、及び、フル・ワード演算のビ
ット長である。また、「ｉ」は、「ｊ」を２で割った値
に等しい。例えば、「ｊ」が３２に等しければ、「ｉ」
は１６に等しい。

【００１９】セレクタ５０は、図３にも示されている。
「ｊ」ビットのフル・ワード・オペランドを利用して演
算を行う場合、許可ビット４９は、論理１に等しく、桁
上げがセレクタ５０を介してフル加算器６６に伝播する
のを可能にする。「ｉ」ビットのハーフ・ワード・オペ
ランドを利用して２つの並列演算を実施する場合、許可
ビット４９は論理ゼロに等しく、桁上げがセレクタ５０
を介してフル加算器６６に伝播するのを阻止する。代わ
りに、ライン５９の値が、フル加算器６６に送られる。
「加算」の実施時には、論理０が入力ライン５９におき
かわる。「減算」の実施時には、論理１が入力ライン５
９におきかわる。

【００２０】図２及び図３には、２つのパーティション
を備えたＡＬＵ２６の実施例が示されているが、本発明
の他の望ましい実施例に基づいて設計されたＡＬＵの場
合、ＡＬＵをさまざまに区分化することが可能である。
例えば、図４には、本発明の望ましい代替実施例に基づ
くＡＬＵ２６の代替略ブロック図が示されている。図４
では、ＡＬＵ６は、４つのパーティションに分割されて
いる。第１のパーティション７１は、第１のオペランド
の下位ビット７２及び第２のオペランドの下位ビット７
３に演算を施し、下位ビットの結果７４を求める。第２
のパーティション８１は、第１のオペランドのビット８
２及び第２のオペランドのビット８３に演算を施し、結
果ビット８４を求める。第３のパーティション９１は、
第１のオペランドのビット９２及び第２のオペランドの
ビット９３に演算を施し、結果ビット９４を求める。第
４のパーティション１０１は、第１のオペランドの上位
ビット１０２及び第２のオペランドの上位ビット１０３
に演算を施し、上位ビットの結果１０４を求める。

【００２１】セレクタ８０を利用して、制御入力７９に
応答し、第１のパーティション７１から第２のパーティ
ション８１へのデータ経路７５における情報の伝搬を可
能にするか、あるいは、第１のパーティション７１から
第２のパーティション８１へ伝搬する前に、データ経路
７５の情報を遮断する。すなわち、フル・ワード・オペ
ランドまたはハーフ・ワード・オペランドに対して実施
される算術演算の場合、セレクタ８０を介した、第１の
パーティション７１から第２のパーティション８１への
情報伝搬が可能になる。クォータ・ワード・オペランド
に対する並列算術演算を実施する場合、セレクタ８０
は、第１のパーティション７１から第２のパーティショ
ン８１への情報の伝搬を阻止する。代わりに、ライン８
８の値がパーティション８１に送られる。「加算」の実
施時には、ライン８８で論理０が伝送される。「減算」
の実施時には、ライン８８で論理１が伝送される。一般
に、論理演算の場合、パーティション間における情報の
伝搬は生じない。

【００２２】セレクタ９０を利用して、制御入力８９に
応答し、第２のパーティション８１から第３のパーティ
ション９１へのデータ経路８５における情報の伝搬を可
能にするか、あるいは、第２のパーティション８１から
第３のパーティション９１へ伝搬する前に、データ経路
７５の情報を遮断する。すなわち、フル・ワード・オペ
ランドに対して実施される算術演算の場合、セレクタ９
０を介した、第２のパーティション８１から第３のパー
ティション９１への情報伝搬が可能になる。クォータ・
ワード・オペランドまたはハーフ・ワード・オペランド
に対する並列算術演算を実施する場合、セレクタ９０
は、第２のパーティション８１から第３のパーティショ
ン９１への情報の伝搬を阻止する。代わりに、ライン９
８の値がパーティション９１に送られる。「加算」の実
施時には、ライン９８で論理０が伝送される。「減算」
の実施時には、ライン９８で論理１が伝送される。

【００２３】セレクタ１００を利用して、制御入力９９
に応答し、第３のパーティション９１から第４のパーテ
ィション１０１へのデータ経路９５における情報の伝搬
を可能にするか、あるいは、第３のパーティション９１
から第４のパーティション１０１へ伝搬する前に、デー
タ経路７５の情報を遮断する。すなわち、フル・ワード
・オペランド及びハーフ・ワード・オペランドに対して
実施される算術演算の場合、セレクタ１００を介した、
第３のパーティション９１から第４のパーティション１
０１への情報伝搬が可能になる。クォータ・ワード・オ
ペランドに対する並列算術演算を実施する場合、セレク
タ１００は、第３のパーティション９１から第４のパー
ティション１０１への情報の伝搬を阻止する。代わり
に、ライン１０８の値がパーティション１０１に送られ
る。「加算」の実施時には、ライン１０８で論理０が伝
送される。「減算」の実施時には、ライン１０８で論理
１が伝送される。

【００２４】例えば、６４ビット幅のデータ経路を備え
るコンピュータの場合、各フル・ワード・オペランドは
６４ビットである。従って、６４ビットのフル・ワード
・オペランドを利用して演算を実施する場合、セレクタ
８０は、セレクタ８０を介した、第１のパーティション
７１から第２のパーティション８１への情報の伝搬を可
能にし、セレクタ９０は、セレクタ９０を介した、第２
のパーティション８１から第３のパーティション９１へ
の情報の伝搬を可能にし、セレクタ１００は、セレクタ
１００を介した、第３のパーティション９１から第４の
パーティション１０１への情報の伝搬を可能にする。３
２ビットのハーフ・ワード・オペランドを利用して２つ
の並列演算を実施する場合、セレクタ８０は、セレクタ
８０を介した、第１のパーティション７１から第２のパ
ーティション８１への情報の伝搬を可能にし、セレクタ
９０は、セレクタ９０を介した、第２のパーティション
８１から第３のパーティション９１への情報の伝搬を阻
止し、セレクタ１００は、セレクタ１００を介した、第
３のパーティション９１から第４のパーティション１０
１への情報の伝搬を可能にする。１６ビットのクォータ
・ワード・オペランドを利用して４つの並列演算を実施
する場合、セレクタ８０は、セレクタ８０を介した、第
１のパーティション７１から第２のパーティション８１
への情報の伝搬を阻止し、セレクタ９０は、セレクタ９
０を介した、第２のパーティション８１から第３のパー
ティション９１への情報の伝搬を阻止し、セレクタ１０
０は、セレクタ１００を介した、第３のパーティション
９１から第４のパーティション１０１への情報の伝搬を
阻止する。

【００２５】図５には、本発明のもう１つの望ましい代
替実施例に基づく、ＡＬＵ２６のもう１つの代替略ブロ
ック図が示されている。図５の場合、ＡＬＵ２６は、そ
れぞれ、１ビット幅のパーティションに分割される。第
１のパーティション１１１は、第１のオペランドの下位
ビット１１２及び第２のオペランドの下位ビット１１３
に演算を施し、下位結果ビット１１４を求める。第２の
パーティション１２１は、第１のオペランドのビット１
２２及び第２のオペランドのビット１２３に演算を施
し、結果ビット１２４を求める。パーティション１３１
は、第１のオペランドのビット１３２及び第２のオペラ
ンドのビット１３３に演算を施し、結果ビット１３４を
求める。パーティション１４１は、第１のオペランドの
ビット１４２及び第２のオペランドのビット１４３に演
算を施し、結果ビット１４４を求める。パーティション
１５１は、第１のオペランドの上位ビット１５２及び第
２のオペランドの上位ビット１５３に演算を施し、上位
結果ビット１５４を求める。

【００２６】セレクタ１２０を利用して、制御入力１１
９に応答し、第１のパーティション１１１から第２のパ
ーティション１２１へのデータ経路１１５における情報
の伝搬を可能にするか、あるいは、第１のパーティショ
ン１１１から第２のパーティション１２１へ伝搬する前
に、データ経路１１５の情報を遮断する。データが遮断
されると、ライン１２８の値がパーティション１２１に
送られる。「加算」の実施時には、ライン１２８で論理
０が伝送される。「減算」の実施時には、ライン１２８
で論理１が伝送される。

【００２７】セレクタ１３０を利用して、制御入力１２
９に応答し、あるデータ経路におけるすぐ前のパーティ
ション（不図示）からパーティション１３１への、前記
すぐ前のパーティションからの情報の伝搬を可能にする
か、あるいは、パーティション１３１に伝搬する前に、
該データ経路における前記すぐ前のパーティションから
の情報を遮断する。データが遮断されると、ライン１３
８の値がパーティション１３１に送られる。「加算」の
実施時には、ライン１３８で論理０が伝送される。「減
算」の実施時には、ライン１３８で論理１が伝送され
る。

【００２８】セレクタ１４０を利用して、制御入力１３
９に応答し、パーティション１３１からパーティション
１４１へのデータ・ライン１３５における情報の伝搬を
可能にするか、あるいは、パーティション１３１からパ
ーティション１４１へ伝搬する前に、データ経路１３５
の情報を遮断する。データが遮断されると、ライン１４
８の値がパーティション１４１に送られる。「加算」の
実施時には、ライン１４８で論理０が伝送される。「減
算」の実施時には、ライン１４８で論理１が伝送され
る。

【００２９】セレクタ１５０を利用して、制御入力１４
９に応答し、あるデータ経路におけるすぐ前のパーティ
ション（不図示）からパーティション１５１への、前記
すぐ前のパーティションからの情報の伝搬を可能にする
か、あるいは、パーティション１５１に伝搬する前に、
該データ経路における前記すぐ前のパーティションから
の情報を遮断する。データが遮断されると、ライン１５
８の値がパーティション１５１に送られる。「加算」の
実施時には、ライン１５８で論理０が伝送される。「減
算」の実施時には、ライン１５８で論理１が伝送され
る。

【００３０】セレクタに対する制御入力を利用すること
によって、可変長オペランドの並列処理を可能にするこ
とができる。例えば、６４ビット幅のデータ経路を備え
た処理システムの場合、制御入力は、２つの１６ビット
算術演算及び４つの８ビット算術演算の並列処理が、全
て、同時に実施されるように選択することが可能であ
る。さらに、合計しても、そのワード・サイズまでにし
かならない任意のビット組み合わせを利用することも可
能である。例えば、１７ビット、３ビット、１６ビッ
ト、１２ビット、５ビット、及び、１１ビットの算術演
算を同時に実施することも可能である。

【００３１】上述の原理は、桁上げ先見加算器にも当て
はまる。例えば、図１０には、本発明の別の望ましい実
施例に基づく、ＡＬＵ２６内の桁上げ先見を伴う、２の
補数加算器の実施例が示されている。桁上げ先見回路４
７０によって、加算器の桁上げが生じる。ハーフ加算器
４６０は、第１のオペランドの単一ビットＸ０及び第２
のオペランドの単一ビットＹ０を受信する。ハーフ加算
器４６０は、和ビットＺ０を送り出す。フル加算器４６
１は、第１のオペランドの単一ビットＸ１、第２のオペ
ランドの単一ビットＹ１、及び、桁上げビットＣ０を受
信する。フル加算器４６１は、和ビットＺ１を送り出
す。フル加算器４６５は、第１のオペランドの単一ビッ
トＸｉ−１、第２のオペランドの単一ビットＹｉ−１、
及び、桁上げビットＣｉ−２を受信する。フル加算器４
６５は、和ビットＺｉ−１を送り出す。フル加算器４６
６は、第１のオペランドの単一ビットＸｉ、第２のオペ
ランドの単一ビットＹｉ、及び、桁上げビットＣｉ−１
を受信する。フル加算器４６６は、和ビットＺｉを送り
出す。フル加算器４６９は、第１のオペランドの単一ビ
ットＸｊ− 1、第２のオペランドの単一ビットＹｊ−
１、及び、桁上げビットＣｊ−２を受信する。フル加算
器４６９は、和ビットＺｊ−１を送り出す。

【００３２】図１０に示す加算器の実施例の場合、
「ｊ」は、データ経路のサイズ及びフル・ワード演算の
ビット長である。また、「ｉ」は、「ｊ」を２で割った
値に等しい。例えば、「ｊ」が３２に等しいと、「ｉ」
は１６に等しい。代わりに、ｊが３２に等しい場合、ｉ
を３２未満の任意の整数に等しくなるようにすることも
可能である。

【００３３】「ｊ」ビットのフル・ワード・オペランド
を利用して演算を実施する場合、許可ビット４５２は、
論理１に等しく、全ての桁上げの伝播を可能にする。ビ
ットｉとｉ＋１の間で区分された「ｉ」ビットのサブ・
ワード・オペランドを利用して２つの並列演算を実施す
る場合、許可ビット４５２は、論理０に等しく、パーテ
ィション境界を越える桁上げの伝播を阻止する。代わり
に、ライン４５１の値が、フル加算器４６６に送られる
値として利用される。「加算」の実施時には、入力ライ
ン４５１で論理０が伝送される。「減算」の実施時に
は、入力ライン４５１で論理１が伝送される。

【００３４】桁上げ先見加算器の働きは、当該技術にお
いて周知のところである。例えば、Ａ［ｉ］が入力の１
ビットであり、Ｂ［ｉ］が他の入力の１ビットであり、
Ｓ［ｉ］が加算器からの和の１ビットであると仮定す
る。加算器からの和の１ビットは、下記の式１によって
示される。

【００３５】

【数１】

【００３６】式１において、Ｃ［ｉ−１］は、桁上げ先
見加算器の先行ビットからの桁上げである。桁上げ先見
加算器は、これらの桁上げビットを素早く発生するのに
有効である。

【００３７】Ｇ［ｉ］が、このビットによって桁上げを
発生させるべきであることを示す信号であり、Ｐ［ｉ］
が、先行ビットからこのビットの出力に桁上げが伝播す
る可能性のあることを示す信号であると仮定する。これ
らは、下記の式２によって決まる。

【００３８】

【数２】

【００３９】従って、桁上げ先見加算器内における４ビ
ットの場合、桁上げビットは、下記の式３のように発生
させることが可能である。

【００４０】

【数３】

【００４１】上記式３において、「＊」は、論理ＡＮＤ
演算に相当し、「＋」は、論理ＯＲ演算に相当する。

【００４２】本発明の望ましい実施例を実行する場合、
発生Ｇ［ｉ］及び伝播Ｐ［ｉ］が強制的に偽にされる
と、桁上げは、特定のビットで停止する。例えば、上記
式３の場合、Ｇ［ｉ−３］及びＰ［ｉ−３］が偽の場
合、Ｃ［ｉ−３］は偽になり、Ｃ［ｉ−４］は、Ｃ［ｉ
−２］、Ｃ［ｉ−１］、及び、Ｃ［ｉ］の値に影響を及
ぼすことはできない。同様に、Ｇ［ｉ−２］及びＰ［ｉ
−２］が偽の場合、Ｃ［ｉ−２］は偽になり、Ｇ［ｉ−
３］及びＰ［ｉ−３］及びＣ［ｉ−４］は、Ｃ［ｉ−
１］及びＣ［ｉ］の値に影響を及ぼすことはできない。

【００４３】Ｍ［ｉ］が、１の場合、ビット［ｉ］とビ
ット［ｉ＋１］との桁上げ連鎖をブレークするマスク・
ビットであると仮定すると、新しい式４は、下記のよう
に生成することが可能である。

【００４４】

【数４】

【００４５】Ｍ［ｉ］が１の場合、桁上げは、ビット
［ｉ］から発生することができないか、あるいは、ビッ
ト［ｉ］を介して伝播することができない。

【００４６】キャリ・インに関して、オペランドの一方
の１の補数を生成し、もう一方のオペランドに加算する
ことによる減算（２の補数演算）の場合、Ｍ［ｉ］が１
であれば、あるビットにおいて強制的に桁上げを発生し
なければならない。

【００４７】Ｆが、真の場合、Ｍ［ｉ］が１であれば、
あるビットにおいて強制的に桁上げを発生させる信号で
あると仮定する。Ｇｓ［ｉ］及びＰｓ［ｉ］に関する式
は、下記の式５に示すようになる。

【００４８】

【数５】

【００４９】Ｍ［ｉ］が１の場合、Ｇｓ［ｉ］の値はＦ
によって決まる。Ｍ［ｉ］が１の場合、Ｇｓ［ｉ］の値
は、前述のように、Ａ［ｉ］及びＢ［ｉ］によって決ま
る。この伝播は、Ｆ信号によって強制する必要はない。

【００５０】キャリ・アウトの式は、下記の式６によっ
て示される。

【００５１】

【数６】

【００５２】当該技術の熟練者には明らかなように、本
発明の原理は、コンピュータ・システムＡＬＵ内の算術
演算に限定されるものではない。例えば、ＡＬＵに示さ
れる区分化は、データに基づいて機能するコンピュータ
・システム内の他のエンティティにも拡張することが可
能である。例えば、図６には、プリ・シフタ２７におい
て具現化された本発明が示されている。本発明の同じ実
施例は、シフタ２９の実施にも利用することが可能であ
る。プリ・シフタ２７及びシフタ２９を区分化すること
によって、例えば、並列シフト・加算演算、及び、並列
シフト演算の実施が可能になる。

【００５３】プリ・シフタ２７には、図示のように、シ
フト・レジスタ・１ビット・スライス１６０、シフト・
レジスタ・１ビット・スライス１６１、シフト・レジス
タ・１ビット・スライス１６５、シフト・レジスタ・１
ビット・スライス１６６、及び、シフト・レジスタ・１
ビット・スライス１６９が含まれている。

【００５４】データを左にシフトする場合には、一般
に、論理値が０の、入力１７１におけるデータが、シフ
ト・レジスタ・１ビット・スライス１６０に対する入力
として利用される。データを右にシフトする場合には、
セレクタ１７５が、制御入力１８２に応答し、入力１８
１におけるデータ（論理値０または論理値１）を選択す
るか、あるいは、シフト・レジスタ・１ビット・スライ
ス１６９によって現在記憶されている値を選択して、シ
フト・レジスタ・１ビット・スライス１６９に対する入
力とする。

【００５５】シフタを区分化すべき場所がどこであれ、
シフタには、追加セレクタが追加される。例えば、図６
には、シフト・レジスタ・１ビット・スライス１６５と
シフト・レジスタ・１ビット・スライス１６６の間で区
分化されたシフタが示されている。そこには、セレクタ
１７４及びセレクタ１７３が追加されている。区分化オ
ペランドに対するシフト演算に関して、データが左にシ
フトされる場合には、セレクタ１７３は、制御入力１８
５に応答して、一般には論理値０の、入力１７２のデー
タを選択し、シフト・レジスタ・１ビット・スライス１
６６として利用する。フル・ワード・オペランドに対す
るシフト演算に関して、データが左にシフトされる場合
には、セレクタ１７３は、シフト・レジスタ・１ビット
・スライス１６５からの出力を選択し、シフト・レジス
タ・１ビット・スライス１６６に対する入力として利用
する。

【００５６】区分化オペランドに対するシフト演算に関
して、データが右にシフトされる場合には、セレクタ１
７４は、制御入力１８４に応答し、入力１８３における
データ（論理値０または論理値１）を選択するか、ある
いは、シフト・レジスタ・１ビット・スライス１６６に
よって現在記憶されている値を選択して、シフト・レジ
スタ・１ビット・スライス１６５に対する入力とする。
フル・ワード・オペランドに対するシフト演算に関し
て、データが右にシフトされる場合には、セレクタ１７
４は、シフト・レジスタ・１ビット・スライス１６６か
らの出力を選択し、シフト・レジスタ・１ビット・スラ
イス１６５に対する入力として利用する。

【００５７】図６には、パーティションが２つだけのシ
フタが示されている。ＡＬＵにおけるパーティションに
関する以上の説明から明らかなように、シフタは、さま
ざまなやり方で区分化することが可能である。例えば、
６４ビットのシフタは、２、４、８、１６、３２、また
は、６４ビットの等サイズのパーティションに区分化す
ることが可能である。さらに、パーティションが、それ
ぞれ、等しいビット数で動作するのは、本発明の要件で
はない。

【００５８】上記実施例では、一連の１ビット・スライ
スから構成されるシフト・レジスタとして実施された、
プリ・シフタ２７及びシフタ２９が示されているが、望
ましい代替実施例には、マルチプレクサで実施されるプ
リ・シフタ及びシフタがある。一般に、プリ・シフタ２
７は、通常、例えば、せいぜい、０、１、２、３、また
は、４ビットといった小ビット数ずつしかシフトするこ
とができないので、１レベルのマルチプレクサによって
実施される。シフタ２９は、一般に、各レベルが４対１
マルチプレクサである、３レベルのマルチプレクサによ
って実施される。例えば、６４ビット・シフタ２９の場
合、第１レベルのマルチプレクサは、０、１６、３２、
または、４８ビットのシフトを行う。第２レベルのマル
チプレクサは、０、４、８、または、１２ビットのシフ
トを行うことができる。第３レベルのマルチプレクサ
は、０、１、２、または、３ビットのシフトを行うこと
ができる。これによって、０〜６３の任意のビット数の
シフトが行えることになる。３段のマルチプレクサから
構成されるこうしたシフタの場合、１ビット・スライス
を識別することも可能である。しかし、当該技術の熟練
者には明らかなように、３つのマルチプレクサ段の１つ
以上において、任意の２ビット間におけるシフトをブロ
ックすることが必要になる可能性がある。

【００５９】本発明の原理は、コンピュータ・システム
における他の構成要素にも拡張することが可能である。
例えば、乗算器は、本発明の望ましい実施例に従い、全
ワード乗算以外に、部分ワード並列乗算も行えるように
実施することが可能である。

【００６０】例えば、図７には、先行技術による４ビッ
ト乗算器が示されている。乗算器が、４ビットの最初の
被乗数Ｘ３Ｘ２Ｘ１Ｘ０（基数２）と４ビットの第２の
被乗数Ｙ３Ｙ２Ｙ１Ｙ０（基数２）を掛け合わせること
によって、８ビットの結果Ｚ７Ｚ６Ｚ５Ｚ４Ｚ３Ｚ２Ｚ
１Ｚ０（基数２）が得られる。当該技術の熟練者には明
らかなように、論理ＡＮＤゲート２０１、２０２、２０
３、２０４、２０５、２０６、２０７、２０８、２０
９、２１０、２１１、２１２、２１３、２１４、２１
５、及び２１６を利用して、乗算に関する部分積を発生
することが可能である。部分積和回路２２０が、論理Ａ
ＮＤゲート２０１〜２１６によって発生する部分積の和
を求めることによって、結果が得られる。

【００６１】２つの被乗数Ｘ３Ｘ２Ｘ１Ｘ０及びＹ３Ｙ
２Ｙ１Ｙ０、論理ＡＮＤゲート２０１〜２１６によって
発生する部分積、及び、部分積和回路２２０によって生
じる結果は、乗算器の働きを要約するやり方で、表に組
み入れることが可能である。例えば、こうした表は、下
記の表１のように示される。

【００６２】

【表１】

【００６３】上記表１に示す表記法によれば、両方の被
乗数及び結果における各ビットのビット位置が、明確に
識別される。さらに、各部分積の形成に利用される被乗
数のビットが、明確に示されている。当該技術の熟練者
には明らかなように、上記表１に示す情報は、下記の表
２に示すように、省略または単純化した表記法を用い
て、表すことも可能である。

【００６４】

【表２】

【００６５】上記表２において、第１の被乗数の各ビッ
トは、「Ｘ」で表され、第２の被乗数の各ビットは、
「Ｙ」で表され、部分積の各ビットは、「ｚ」で表さ
れ、結果の各ビットは、「Ｚ」で表されている。表２の
さらに単純な表記法を利用すると、８ビットの乗算器に
ついて、下記の表３に示すように、解説することが可能
である。

【００６６】

【表３】

【００６７】表３に示すように、乗算器が、８ビットの
第１の被乗数ＸＸＸＸＸＸＸＸ（基数２）と８ビットの
第２の被乗数ＹＹＹＹＹＹＹＹ（基数２）を掛け合わせ
ることによって、１６ビットの結果ＺＺＺＺＺＺＺＺＺ
ＺＺＺＺＺＺＺ（基数２）が得られる。

【００６８】同様に、表２及び表３のより単純な表記法
を利用すると（ただし、ビット位置間のスペースは考慮
外とする）、１６ビットの乗算器について、下記の表４
に示すように、解説することができる。

【００６９】

【表４】

【００７０】表４に示すように、乗算器が、１６ビット
の第１の被乗数ＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸ（基
数２）と１６ビットの第２の被乗数ＹＹＹＹＹＹＹＹＹ
ＹＹＹＹＹＹＹ（基数２）を掛け合わせることによっ
て、３２ビットの結果ＺＺＺＺＺＺＺＺＺＺＺＺＺＺＺ
ＺＺＺＺＺＺＺＺＺＺＺＺＺＺＺＺＺ（基数２）が得ら
れる。

【００７１】本発明の望ましい実施例によれば、標準的
な乗算器に修正を加えることによって、全ワードの乗算
以外に、部分ワードの並列乗算を可能にする乗算器を実
現することができる。例えば、図８には、本発明の望ま
しい実施例による４ビット乗算器が示されている。論理
ＡＮＤゲート３０１、３０２、３０３、３０４、３０
５、３０６、３０７、３０８、３０９、３１０、３１
１、３１２、３１３、３１４、３１５、及び、３１６
は、乗算に関して、部分積を発生する。部分積和回路３
２０が、論理ＡＮＤゲート３０１〜３１６によって発生
する部分積の和を求めることによって結果が得られる。

【００７２】図８に示す乗算器の場合、部分積和回路３
２０は、図７に示す部分積和回路２２０と全く同じよう
に実施することが可能である。図８に示す乗算器と図７
に示す乗算器との差は、論理ＡＮＤゲート３０３、３０
４、３０７、３０８、３０９、３１０、３１３、及び３
１４のそれぞれに含まれる追加入力に接続された、制御
ライン３２１の追加である。

【００７３】図８に示すように、制御ライン３２１が論
理１にセットされると、乗算器が、４ビットの第１の被
乗数Ｘ３Ｘ２Ｘ１Ｘ０（基数２）及び４ビットの第２の
被乗数Ｙ３Ｙ２Ｙ１Ｙ０（基数２）に対して全ワード乗
算を実施し、８ビットの結果Ｚ７Ｚ６Ｚ５Ｚ４Ｚ３Ｚ２
Ｚ１Ｚ０（基数２）が得られる。２つの被乗数Ｘ３Ｘ２
Ｘ１Ｘ０及びＹ３Ｙ２Ｙ１Ｙ０、論理ＡＮＤゲート３０
１〜３１６によって発生する部分積、及び、部分積和回
路３２０によって発生する結果は、下記の表５に示すよ
うに、表の形に表すことが可能である。

【００７４】

【表５】

【００７５】表５と上記表１との比較を行うことによっ
て、ライン３２１が論理１にセットされると、図８に示
す乗算器の働きが、図７に示す乗算器の働きと同じにな
ることが確認される。従って、上記表２と同様、単純化
した表記法を利用して、下記表６に示すように、図８に
示す乗算器の働きを解説することが可能である。

【００７６】

【表６】

【００７７】図９には、図８に示す乗算器が示されてい
るが、制御ライン３２１が０にセットされている点だけ
は異なっている。この結果、部分積の半分がゼロにな
り、乗算器は、部分（２ビット）ワードの並列処理が可
能になる。すなわち、第１の乗算において、２ビット被
乗数Ａ１Ａ０（基数２）と２ビット被乗数Ｃ１Ｃ０（基
数２）を掛けることによって、４ビットの結果Ｅ３Ｅ２
Ｅ１Ｅ０（基数２）が得られる。第２の乗算において、
２ビットの被乗数Ｂ１Ｂ０（基数２）と２ビットの被乗
数Ｄ１Ｄ０を掛けることによって、４ビットの結果Ｆ３
Ｆ２Ｆ１Ｆ０（基数２）が得られる。並列乗算に利用さ
れない部分積は、強制的に論理ゼロにされる。この並列
乗算は、下記の表７に示すように、表の形で表すことが
可能である。

【００７８】

【表７】

【００７９】

【表８】

【００８０】表７及び８に示すように、部分ワードの並
列乗算は、乗算器において選択された部分積を強制的に
ゼロにすることによって、乗算器で実施される。一般
に、利用されない部分積を強制的にゼロにすることによ
って、任意のサイズの標準的な乗算器を利用して、並列
乗算を行うことが可能である。部分積は、例えば、１つ
以上の制御入力及び３つの入力論理ＡＮＤゲート（また
はその同等物）を用いて、強制的に論理０にされる。

【００８１】例えば、上述のように、８ビット乗算器
は、表３に示すように実施することが可能である。本発
明の教示に従い、図８及び図９に示すような回路要素を
設けて、部分積を強制的にゼロにすることによって、こ
の同じ乗算器を利用して、部分ワード被乗数の並列乗算
を実施することが可能である。部分積和回路要素に対す
る修正は不必要である。従って、本発明の教示に基づい
て表３に示す乗算器に修正を施すことによって、例え
ば、下記の表９によって実施されるように、４ビット被
乗数を利用し、２つの並列乗算を実施することが可能に
なる。

【００８２】

【表９】

【００８３】上記表９から明らかなように、部分ワード
被乗数の第１の並列乗算において、４ビット被乗数ＡＡ
ＡＡ（基数２）と４ビット被乗数ＣＣＣＣ（基数２）を
掛けることによって、８ビットの結果ＥＥＥＥＥＥＥＥ
（基数２）が得られる。部分ワード被乗数の第２の並列
乗算において、４ビット被乗数ＢＢＢＢ（基数２）と４
ビット被乗数ＤＤＤＤ（基数２）を掛けることによっ
て、８ビットの結果ＦＦＦＦＦＦＦＦ（基数２）が得ら
れる。部分席を強制的にゼロにせずに、乗算器によっ
て、２つの全ワード（８ビット）被乗数の乗算が実施さ
れる。

【００８４】同様に、上述のように、１６ビット乗算器
は、表４に示すようにして実施することが可能である。
本発明の教示に従い、図８及び図９に示すような回路要
素を設けて、部分積を強制的にゼロにすることによっ
て、この同じ乗算器を利用して、部分ワード被乗算器の
並列乗算を実施することが可能である。部分積和回路要
素に対する修正は必要はない。従って、本発明の教示に
基づき、表４に解説の乗算器に修正を加えることによっ
て、例えば、下記の表１０によって実施されるように、
８ビット（部分ワード）被乗数を利用して、２つの並列
乗算を実施することが可能になる。

【００８５】

【表１０】

【００８６】上記表１０から分かるように、第１の並列
乗算において、８ビット被乗数ＡＡＡＡＡＡＡＡ（基数
２）と８ビット被乗数ＣＣＣＣＣＣＣＣ（基数２）を掛
けることによって、１６ビットの結果ＥＥＥＥＥＥＥＥ
ＥＥＥＥＥＥＥＥ（基数２）が得られる。部分ワード被
乗数の第２の並列乗算において、８ビット被乗数ＢＢＢ
ＢＢＢＢＢ（基数２）と８ビット被乗数ＤＤＤＤＤＤＤ
Ｄ（基数２）を掛けることによって、１６ビットの結果
ＦＦＦＦＦＦＦＦＦＦＦＦＦＦＦＦ（基数２）が得られ
る。部分積を強制的にゼロにせずに、乗算器によって、
２つの全ワード（１６ビット）被乗数の乗算が実施され
る。

【００８７】上記説明においては、ハーフ・ワードの並
列乗算が示されているが、当該技術の通常の技術者であ
れば明らかなように、適合する部分積を選択して、強制
的にゼロにすることによって、実施される並列乗算の数
ち部分ワード・サイズの両方を変更することが可能であ
る。

【００８８】例えば、本発明の教示に従い、図８及び図
９に示すような回路要素を設けて、部分積を強制的にゼ
ロにすることによって、表４（及び表１０の両方又は一
方）に解説のように実施される１６ビット乗算器を利用
して、３つの同時並列乗算を実施することが可能であ
る。従って、本発明の教示に基づき、表４に解説の乗算
器に修正を加えることによって、例えば、下記の表１１
によって実施されるように、８ビット被乗数を利用し
て、１つの並列乗算を実施し、４ビット被乗数を利用し
て、２つの並列乗算を実施する事が可能になる。

【００８９】

【表１１】

【００９０】上記表１１から分かるように、第１の並列
乗算において、８ビット被乗数ＡＡＡＡＡＡＡＡ（基数
２）と８ビット被乗数ＤＤＤＤＤＤＤＤ（基数２）を掛
けることによって、１６ビットの結果ＧＧＧＧＧＧＧＧ
ＧＧＧＧＧＧＧＧ（基数２）が得られる。第２の並列乗
算において、４ビット被乗数ＢＢＢＢ（基数２）と４ビ
ット被乗数ＥＥＥＥ（基数２）を掛けることによって、
８ビットの結果ＨＨＨＨＨＨＨＨ（基数２）が得られ
る。第３の並列乗算において、４ビット被乗数ＣＣＣＣ
（基数２）と４ビット被乗数ＦＦＦＦ（基数２）を掛け
ることによって、８ビットの結果ＩＩＩＩＩＩＩＩ（基
数２）が得られる。当該技術の熟練者には明らかなよう
に、表１１に示す、値がゼロの、全ての部分積につい
て、３つの入力論理ＡＮＤゲートまたはその論理同等物
を設けて、並列乗算演算の実施時に、部分積を強制的に
ゼロにすることができるようにしなければならない。し
かし、表１１に示すように、サイズの異なるパーティシ
ョンの混合が行われると、当該技術の熟練者には明らか
なように、実施例によっては、異なる部分積の項を強制
的にゼロにするために、異なる制御入力が必要とされる
可能性がある。

【００９１】上記解説から明らかなように、乗算器の部
分積を選択的かつ強制的にゼロにすることによって、乗
算器において、部分ワードの並列乗算を十分に実施する
ことが可能になる。ワード・サイズ、同時に実施される
並列乗算の数、及び、部分ワールド・サイズは、本発明
の教示に従って自由に変更することが可能である。

【００９２】図１１には、本発明の望ましい実施例に従
って実行可能な命令の一例が示されている。例えば、命
令５００には、フィールド５０１、サブ・フィールド５
０２、フィールド５０３、フィールド５０４、及び、フ
ィールド５０５が含まれている。フィールド５０１は、
演算コードについて記述する。フィールド５０１は、例
えば、加算、シフト及び加算、減算、シフト及び減算、
左シフト、右シフト、乗算、または、任意の数の他の演
算を示している。フイ −ルド５０１のサブ・フィールド
５０２は、その演算を並列演算として実施すべきか否か
を指示するものであり、並列演算する場合には、オペラ
ンドのサイズを指示する。フィールド５０３は、第１の
送信元レジスタを指示する。フィールド５０４は、第２
の送信元レジスタを指示する。フィールド５０５は、宛
先レジスタを指示する。

【００９３】当該技術において周知のように、命令５０
０は、命令の編成を可能にする、見込みのある多くの方
法のうちの１つが示されている。例えば、命令５１０に
は、並列演算指示が別個のフィールドに含まれる、代替
実施例が示されている。例えば、命令５１０には、フィ
ールド５１１、フィールド５１２、フィールド５１３、
フィードフィールド５１４、及び、フィールド５１５が
含まれている。フィールド５１１は、演算コードについ
て記述する。フィールド５１１は、例えば、加算、シフ
ト及び加算、減算、シフト及び減算、左シフト、右シフ
ト、乗算、または、任意の数の他の演算を示している。
フィールド５１２は、その演算を並列演算として実施す
べきか否かを指示するものであり、並列演算する場合に
は、オペランドのサイズを指示する。フィールド５１３
は、第１の送信元レジスタを指示する。フィールド５１
４は、第２の送信元レジスタを指示する。フィールド５
１５は、宛先レジスタを指示する。

【００９４】当該技術において明らかなように、本発明
は、部分積を発生する他の乗算器にも有効である。例え
ば、本発明は、Ｂｏｏｔｈ符号化乗算器において利用す
ることも可能である。Ｂｏｏｔｈ符号化乗算器の場合、
部分積の項の各行毎に２ビット以上の乗数（ｙ被乗数）
を考慮することによって、発生する部分積の項の行数が
少なくなる。例えば、１９９０年にＭｏｒｇａｎＫａ
ｕｆｍａｎｎから刊行された、ＪｏｈｎＨｅｎｎｅｓ
ｓｙ＆ＤａｖｉｄＰａｔｔａｅｓｏｎによるＣｏ
ｍｐｙｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ、ＡＱｕ
ａｎｔｉｔａｔｉｖｅＡｐｐｒｏａｃｈの付録ｐｐ．
Ａ−３９〜Ａ−４９を参照されたい。上記乗算器の場
合、当該技術の熟練者には明らかなように、Ｂｏｏｔｈ
符号化乗算器によって発生する部分積の項の値は、並列
処理を考慮して変更される。

【００９５】すなわち、Ｂｏｏｔｈ符号化乗算器の場
合、図８及び図９に示すＡＮＤゲート３０１〜３１６の
代わりにマルチプレクサが用いられる。例えば、「オー
バーラッピング・トリプレット」法を利用したＢｏｏｔ
ｈ符号化乗算器は、いつも１ビットではなく、いつも乗
数（すなわち、ｙ被乗数）の３ビットを検査して、図８
及び図９に示す乗算器のように、常に＋ｘまたは０にな
る部分積の行ではなく、＋ｘ、＋２ｘ、−ｘ、及び、０
のうちの１つになる部分積の行を発生する。これは、５
対１乗算器として実施する事が可能である。「オーバー
ラッピング・トリプレット」という名称は、この方法
が、乗数（ｙ被乗数）の３ビットを検査して、各行毎に
乗数（ｙ被乗数）の２ビットを廃棄するという事実によ
るものである。次の行に関して、この次の行に用いられ
る乗数（ｙ被乗数）の３ビットのうち最下位ビットが、
先行行から用いられる乗数の３ビットのうちの最上位ビ
ットである場合に、オーバーラップが生じる。

【００９６】並列サブ・ワード乗算を実施するため、そ
の部分積の行が形成中のサブ・ワードの積に対応しない
ｘ被乗数のビットは、ゼロにセットされる。これは、無
修正のＢｏｏｔｈ符号化乗算器の場合と同様、マルチプ
レクサに対する制御信号を修正することによって、マル
チプレクサを用いて実施することが可能である。部分積
の行の符号、マルチプレクサに対する追加入力として用
いられることも可能である。

【００９７】以上の解説には、本発明の典型的な方法及
び実施例が開示され、説明されているだけである。当該
技術の熟練者には明らかなように、本発明は、その精神
または本質的な特徴を逸脱することなく、他の特定の形
態において具現化することが可能である。従って、本発
明の開示は、本発明の範囲を例示することを意図したも
のであって、それを制限するものではなく、該範囲につ
いては、下記に示す実施例に記載されている。

【００９８】即ち、上記説明した単一プロセッサにおけ
る並列データ処理は下記に示すようにして具現化でき
る。

【００９９】［１］複数のオペランドからの第１のビッ
ト集合に演算を施す第１のパーティション回路要素と、
複数のオペランドからの第２のビット集合に演算を施す
第２のパーティション回路要素と、第１のパーティショ
ン回路要素と第２のパーティション回路要素の間に結合
されて、フル・ワード長のオペランドに演算を施す場合
には、第１のパーティション回路要素から第２のパーテ
ィション回路要素へのデータ伝搬を可能にし、フル・ワ
ード長オペランドのビット長より短いビット長のオペラ
ンドに並列演算を施す場合には、第１のパーティション
回路要素から第２のパーティション回路要素へのデータ
伝搬を阻止できるようにする第１の選択手段から構成さ
れる、処理システム内の機能単位である。

【０１００】［２］第１のパーティション回路要素が、
複数のオペランドの下位ビットに加算演算を実施するこ
とと、第２のパーティション回路要素が、複数のオペラ
ンドの上位ビットに加算演算を実施することと、第１の
選択手段が、フル・ワード長のオペランドに加算を施す
場合には、第１のパーティション回路要素から第２のパ
ーティション回路要素への桁上げ伝播を可能にし、サブ
・ワード長オペランドに並列加算を施す場合には、第１
のパーティション回路要素から第２のパーティション回
路要素への桁上げ伝播を阻止できるようにするセレクタ
である上記［１］に記載の機能単位である。

【０１０１】［３］複数のオペランドからの第３のビッ
ト集合に演算を施す第３のパーティション回路要素と、
複数のオペランドからの第４のビット集合に演算を施す
第４のパーティション回路要素と、第２のパーティショ
ン回路要素と第３のパーティション回路要素の間に結合
されて、フル・ワード長のオペランドに演算を施す場合
には、第２のパーティション回路要素から第３のパーテ
ィション回路要素へのデータ伝搬を可能にし、オペラン
ドに並列演算を施す場合には、第２のパーティション回
路要素から第３のパーティション回路要素へのデータ伝
搬を阻止できるようにする第２の選択手段と、第３のパ
ーティション回路要素と第４のパーティション回路要素
の間に結合されて、フル・ワード長のオペランドに演算
を施す場合には、第３のパーティション回路要素から第
４のパーティション回路要素へのデータ伝搬を可能に
し、オペランドに並列演算を施す場合には、第３のパー
ティション回路要素から第４のパーティション回路要素
へのデータ伝搬を阻止できるようにする第３の選択手段
が設けられている上記［１］に記載の機能単位である。

【０１０２】［４］第１の選択手段に、フル・ワード長
オペランドのビット長より短いビット長のオペランドに
並列加算を施す場合には、第２のパーティション回路要
素に論理０を送り、フル・ワード長オペランドのビット
長より短いビット長のオペランドに並列減算を施す場合
には、第２のパーティション回路要素に論理１を送る手
段が設けられている上記［１］に記載の機能単位であ
る。

【０１０３】［５］機能単位が、桁上げ先見加算器から
構成される上記［１］に記載の機能単位である。

【０１０４】［６］機能単位が、単一命令に応答して、
オペランドに並列演算を実施する上記［１］に記載の機
能単位である。

【０１０５】［７］機能単位が、減算を実施する上記
［１］に記載の機能単位である。

【０１０６】［８］それぞれ、少なくとも１つのオペラ
ンドからのビット集合に演算を施す、ハードウェアで実
施される複数のパーティションと、それぞれ、複数のパ
ーティションからの２つのパーティション間に結合され
て、オペランド・サイズの選択に応答し、２つのパーテ
ィション間におけるデータ転送を可能にしたり、阻止で
きるようにする少なくとも１つの選択手段が設けられ
た、演算を実行するための第１の演算実施手段から構成
される、並列データ処理を可能にするプロセッサであ
る。

【０１０７】［９］複数のパーティションが、それぞ
れ、１クォータ・ワード幅である上記［８］に記載のプ
ロセッサである。

【０１０８】［１０］複数のパーティションが、それぞ
れ、１ビット幅であることと、プロセッサに、さらに、
どの選択手段によって、パーティション間におけるデー
タ転送を可能にし、また、どの選択手段によって、パー
ティション間におけるデータ転送を阻止するかを選択す
るための手段が設けられている上記［８］に記載のプロ
セッサである。

【０１０９】［１１］各パーティションに、１ビット加
算器が設けられていることと、各選択手段が、２つの１
ビット加算器間における桁上げの伝播を促進するか、ま
たは、中断するセレクタである上記［１０］に記載のプ
ロセッサである。

【０１１０】［１２］複数のパーティションが、それぞ
れ、１ハーフ・ワード幅である上記［８］に記載のプロ
セッサである。

【０１１１】［１３］第１の演算実施手段が、シフタで
ある上記［８］に記載のプロセッサである。

【０１１２】［１４］第１の演算実施手段が、論理演算
装置である上記［８］に記載のプロセッサである。

【０１１３】［１５］さらに、それぞれ、オペランドか
らのビット集合をシフトする、複数のシフト・レジスタ
・パーティションと、それぞれ、複数のシフト・レジス
タ・パーティションからの２つのシフト・レジスタ・パ
ーティション間に結合されて、オペランド・サイズの選
択に応答し、２つのシフト・レジスタ・パーティション
間におけるデータ・ビットのシフトを可能にしたり、阻
止したりする、少なくとも１つの選択手段からなる、論
理演算装置の入力に結合されたプリ・シフタが設けられ
ている上記［１４］に記載のプロセッサである。

【０１１４】［１６］各パーティションが、桁上げ先見
加算を実施する上記［８］に記載のプロセッサである。

【０１１５】［１７］各パーティションが、減算を実施
する上記［８］に記載のプロセッサである。

【０１１６】［１８］（ａ）第１のパーティション回路
要素において、少なくとも１つのオペランドからの第１
のビット集合に演算を施すステップと、（ｂ）第２のパ
ーティション回路要素において、少なくとも１つのオペ
ランドからの第２のビット集合に演算を施すステップ
と、（ｃ）フル・ワード長オペランドに演算を施す場
合、第１のパーティション回路要素からのデータが、第
２のパーティション回路要素による結果の計算に影響を
及ぼすことを可能にするステップと、（ｄ）オペランド
に並列演算を施す場合、第１のパーティション回路要素
からのデータが、第２のパーティション回路要素による
結果の計算に影響を及ぼさないようにするステップから
構成される、単一プロセッサ内における並列データ処理
を可能にするための方法である。

【０１１７】［１９］ステップ（ａ）に、複数のオペラ
ンドの下位ビットに加算演算を施すステップが含まれる
ことと、ステップ（ｂ）に、複数のオペランドの上位ビ
ットに加算演算を施すステップが含まれることと、ステ
ップ（ｃ）に、フル・ワード長オペランドに加算を施す
場合、第１のパーティション回路要素からの桁上げが、
第２のパーティション回路要素による結果の計算に影響
を及ぼすことを可能にするステップが含まれることと、
ステップ（ｄ）に、オペランドに並列加算を施す場合、
第１のパーティション回路要素からの桁上げが、第２の
パーティション回路要素による結果の計算に影響を及ぼ
さないようにするステップが含まれ上記［１８］に記載
の方法である。

【０１１８】［２０］ステップ（ａ）に、複数のオペラ
ンドの下位ビットに桁上げ先見加算演算を施すステップ
が含まれることと、ステップ（ｂ）に、複数のオペラン
ドの上位ビットに桁上げ先見加算演算を施すステップが
含まれる上記［１８］に記載の方法である。

【０１１９】［２１］ステップ（ａ）に、複数のオペラ
ンドの下位ビットに減算演算を施すステップが含まれる
ことと、ステップ（ｂ）に、複数のオペランドの上位ビ
ットに減算演算を施すステップが含まれる上記［１８］
に記載の方法。

【０１２０】［２２］ステップ（ａ）に、複数のオペラ
ンドの下位ビットに桁上げ伝播加算演算を施すステップ
が含まれることと、ステップ（ｂ）に、複数のオペラン
ドの上位ビットに桁上げ伝播加算演算を施すステップが
含まれることと、ステップ（ｃ）に、フル・ワード長オ
ペランドに加算を実施する場合には、第２のパーティシ
ョン回路要素への桁上げの伝播を可能にするステップが
含まれることと、ステップ（ｄ）に、オペランドに並列
加算を実施する場合には、第２のパーティション回路要
素への桁上げの伝播を阻止するステップが含まれる上記
［１８］に記載の方法である。

【０１２１】［２３］（ａ）ハードウェアによって実施
される複数のパーティションのそれぞれにおいて、少な
くとも１つのオペランドからのビット集合に演算を施す
ステップと、（ｂ）少なくとも１つのフル・ワード長オ
ペランドに演算を施す場合には、データが、複数のパー
ティション間における境界を越えて、計算に影響を及ぼ
すことを可能にするステップと、（ｃ）複数のフル・ワ
ード長より短いオペランドを用いて、並列演算を実施す
る場合には、データが、複数のパーティション間におけ
る少なくとも１つの境界を越えて、計算に影響を及ぼさ
ないようにするステップから構成される、単一プロセッ
サ内における並列データ処理を可能にするための方法で
ある。

【０１２２】［２４］上記［２３］のステップ（ａ）
に、複数のパーティションのそれぞれにおいて、ビット
集合に加算演算を施すステップが含まれることと、上記
［２３］のステップ（ｂ）に、パーティション間におけ
る桁上げの伝播を可能にするステップが含まれること
と、上記［２３］のステップ（ｃ）に、並列演算を実施
する場合には、複数のパーティション間における少なく
とも１つの境界を越えて、桁上げが伝播しないようにす
るステップが含まれる上記［２３］に記載の方法であ
る。

【０１２３】［２５］上記［２３］のステップ（ａ）、
（ｂ）、及び、（ｃ）の前に、さらに、（ｄ）複数のシ
フト・レジスタ・パーティションのそれぞれにおいて、
ビット集合をシフトするステップと、（ｅ）フル・ワー
ド長より短い複数のオペランドを用いて、並列演算を実
施する場合には、データが、複数のシフト・レジスタ・
パーティション間における少なくとも１つの境界を越え
てシフトしないようにするステップが実施される上記
［２３］に記載の方法である。

【０１２４】［２６］各パーティションに、１ビット加
算器が含まれている上記［２３］に記載の方法である。

【０１２５】［２７］複数のパーティションのそれぞれ
が、１ハーフ・ワード幅である上記［２３］に記載の方
法である。

【０１２６】［２８］複数のパーティションが、マルチ
プレクサを利用して実施されるシフタから構成される上
記［２３］に記載の方法である。

【０１２７】［２９］上記［２３］のステップ（ａ）
に、複数のパーティションのそれぞれにおいて、ビット
集合にシフト演算を施すステップが含まれることと、上
記［２３］のステップ（ｂ）に、パーティション間にお
けるシフトの伝播を可能にするステップが含まれること
と、上記［２３］のステップ（ｃ）に、並列演算を実施
する場合には、複数のパーティション間における少なく
とも１つの境界を越えて、シフトが伝播しないようにす
るステップが含まれ上記［２３］に記載の方法。

【０１２８】［３０］部分積を発生するための部分積発
生手段と、部分積発生手段に結合されて、部分積を合計
し、結果を求めるための部分積和回路要素と、全ワード
乗算とサブ・ワード被乗数の並列乗算の一方を選択する
ための選択手段と、部分積発生手段及び選択手段に結合
されて、選択手段がサブ・ワード被乗数の並列乗算を選
択するのに応答し、選択された部分積を強制的に新しい
値にして、サブ・ワード被乗数の並列乗算が実施される
ようにするための部分積選択手段から構成される、全ワ
ード乗算及びサブ・ワード被乗数の並列乗算の両方を実
施する乗算器である。

【０１２９】［３１］選択手段がサブ・ワード被乗数の
並列乗算を選択するのに応答して、部分積選択手段が、
選択された部分積の値を強制的にゼロにする上記［３
０］に記載の乗算器。

【０１３０】［３２］部分積発生手段が、論理ＡＮＤゲ
ート・アレイから構成され、論理ＡＮＤゲート・アレイ
における各論理ＡＮＤゲート毎に、部分積を発生する上
記［３１］に記載の乗算器。

【０１３１】［３３］部分積選択手段が、論理ＡＮＤゲ
ートの少なくとも一部に対する第３の入力から構成され
る上記［３２］に記載の乗算器。

【０１３２】［３４］乗算器が全ワード乗算を実施する
場合には、部分積選択手段が、部分積の値を強制的にゼ
ロにすることはないという上記［３１］に記載の乗算器
である。

【０１３３】［３５］乗算器が、Ｂｏｏｔｈ符号化乗算
器である上記［３０］に記載の乗算器である。

【０１３４】［３６］単一のハードウェア乗算器を利用
して、全ワード被乗数の乗算及びサブ・ワード被乗数の
並列乗算の両方を実施するための方法において、（ａ）
部分積を発生するステップと、（ｂ）サブ・ワード被乗
数の並列乗算を実施する選択に応答し、選択された部分
積を強制的に新しい値にするステップと、（ｃ）部分積
和回路要素を利用して、部分積を合計し、結果を求める
ステップから構成される、単一のハードウェア乗算器を
利用して、全ワード被乗数の乗算及びサブ・ワード被乗
数の並列乗算の両方を実施するための方法である。

【０１３５】［３７］上記［３６］のステップ（ｂ）
に、サブ・ワード被乗数の並列乗算を行う選択に応答
し、選択された部分積の値を強制的にゼロにするステッ
プが含まれる上記［３６］に記載の乗算方法である。

【０１３６】［３８］上記［３６］のステップ（ａ）
が、論理ＡＮＤゲート・アレイを利用して、実施される
ことと、論理ＡＮＤゲートにおける各論理ＡＮＤゲート
毎に、部分積を発生する上記［３７］に記載の乗算方法
である。

【０１３７】［３９］上記［３６］のステップ（ｂ）に
おいて、選択された部分積の値を強制的にゼロにするス
テップが、論理ＡＮＤゲートの一部に対する入力に論理
０を配置することによって実施される上記［３８］に記
載の乗算方法である。

【０１３８】［４０］上記［３６］のステップ（ｂ）に
おいて、乗算器が全ワード乗算を実施している間、部分
積の値を強制的にゼロにすることはないという上記［３
７］に記載の乗算方法である。

【０１３９】

【発明の効果】上記説明したように本発明に係る単一プ
ロセッサにおける並列デ−タ処理は、第１のパーティシ
ョン回路要素と、第２のパーティション回路要素と、第
１のパーティション回路要素と第２のパーティション回
路要素の間に結合されて、フル・ワード長のオペランド
に演算を施す場合には、第１のパーティション回路要素
から第２のパーティション回路要素へのデータ伝搬を可
能にし、フル・ワード長オペランドのビット長より短い
ビット長のオペランドに並列演算を施す場合には、第１
のパーティション回路要素から第２のパーティション回
路要素へのデータ伝搬を阻止できるようにする第１の選
択手段から構成したことにより、オペランドがフル・ワ
−ド長より短い場合における並列処理演算を容易化する
ことができ、単一プロセッサ・システムの性能を大幅に
高めることができると共に、並列処理の低コスト化を図
り、プロセッサ・チップにおけるシリコン・スペ−スま
たは設計の複雑さにコストを費やすことなく、デ−タ並
列処理を利用可能な計算に関する性能を大幅に向上させ
るとができると云う極めて優れた効果を奏する。

【図面の簡単な説明】

【図１】本発明の望ましい実施例に基づく、プロセッサ
内における演算実行データ経路の略ブロック図である。

【図２】本発明の望ましい実施例に基づく、図１に示す
論理演算装置（ＡＬＵ）の略ブロック図である。

【図３】本発明の望ましい実施例に基づく、図２に示す
ＡＬＵ内における２の歩数加算機の実施例を示す図であ
る。

【図４】本発明の望ましい代替実施例に基づく、図１に
示す論理演算装置（ＡＬＵ）の代替略ブロック図であ
る。

【図５】本発明の望ましい代替実施例に基づく、図１に
示す論理演算装置（ＡＬＵ）のもう１つの代替略ブロッ
ク図である。

【図６】本発明の望ましい代替実施例に基づく、図１に
シフタの実施例を示す図である。

【図７】先行技術による乗算器を示す図である。

【図８】本発明の望ましい実施例に基づいて実施される
乗算器を示す図である。

【図９】本発明の望ましい実施例に基づいて実施される
乗算器を示す図である。

【図１０】本発明の望ましい代替実施例に基づく、図１
に示すＡＬＵ内における桁上げ先見加算機の実施例を示
す図である。

【図１１】本発明の望ましい代替実施例に基づく、命令
のレイアウトの一例を示す図である。

【符号の説明】

２１ソース・バス２３結果バス２５汎用レジスタ２６ＡＬＵ２７プリ・シフタ２８補数回路要素２９シフタ５０、８０、９０、１００、１２０、１３０、１４０、
１５０、１７３、１７４セレクタ６０４６０ハーフ加算器６１、６５、６６、６９、４６５、４６６、４６９
フル加算器２２０、３２０部分積和回路３０１〜３１６論理ＡＮＤゲート４７０桁上げ先見回路

Claims

【特許請求の範囲】

【請求項１】複数のオペランドからの第１のビット集
合に演算を施す第１のパーティション回路要素と、複数
のオペランドからの第２のビット集合に演算を施す第２
のパーティション回路要素とからなり、前記第１のパーティション回路要素と前記第２のパーテ
ィション回路要素の間に結合されて、フル・ワード長の
オペランドに演算を施す場合には、前記第１のパーティ
ション回路要素から前記第２のパーティション回路要素
へのデータ伝搬を可能にし、フル・ワード長オペランド
のビット長より短いビット長のオペランドに並列演算を
施す場合には、前記第１のパーティション回路要素から
前記第２のパーティション回路要素へのデータ伝搬を阻
止できるようにする第１の選択手段を構成したことを特
徴とする単一プロセッサにおける並列データ処理。