JPH03211688A

JPH03211688A - プロセッサアレイ

Info

Publication number: JPH03211688A
Application number: JP30843690A
Authority: JP
Inventors: David J Hunt; デイビッド、ジョン、ハント
Original assignee: AMT Holdings Ltd
Current assignee: AMT Holdings Ltd
Priority date: 1989-11-14
Filing date: 1990-11-14
Publication date: 1991-09-17
Also published as: EP0428328A1; GB8925720D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は並列処理コンピュータシステムに関し、詳細に
はＳＩＭＤアーキテクチャを用いる処理エレメントアレ
イを含むシステムに関する。そのようなシステムの一例
は英国特許出願１４４５７１４号に示されている。

〔従来の技術〕

従来のＳＩＭＤプロセッサは高集積度装置においてプレ
キシビリティを得るために多数の非常に単純なプロセッ
サを用いている。そのようなアレイの処理エレメントは
単一ビットのベースで動作するように構成されている。

〔発明が解決しようとする課題〕

このような構成の従来のプロセッサは本質的に処理時間
が大きくなり、効率が低い。

〔課題を解決するための手段〕

本発明の第一の観点によれば夫々局部的な記録部分すな
わちローカルメモリを含む複数の処理エレメントと、算
術演算ユニットと、このユニット用のオペランドレジス
タ手段を含む、ＳＩＭＤアーキテクチャを用いるプロセ
ッサアレイであってこのユニットがバイト幅プロセッサ
であり、オペランドレジスタ手段が多バイトシフト回路
と、このシフト回路の夫々のバイト用のデータ出力と、
これら出力の内の選ばれた１個からこのユニットにデー
タ通信を行うように配置されたマルチプレクサとを含む
ことを特徴とするプロセッサアレイを提供する。

本発明の処理エレメントは算術演算ユニットが、一般に
夫々８ビット幅をもつバイトのすべてについて動作しう
るようにするものである。処理エレメントは、多バイト
または部分バイトを含むオペランドが効率の低下を伴う
ことなく処理されるように構成される。これにより、処
理エレメント内でより広いデータ通信を使用出来るよう
になり、全体としてアレイの出力の著しい増加を与える
。これと同時に本発明の処理エレメントの構造は主たる
設計目標である高集積度と動作のフレキシビリティを得
ることを充分簡単なものとする。

このオペランドレジスタ手段はデータをバイトをもって
一つの端から他方ヘシフトするように構成された第１多
バイトシフト回路とこの回路に並列に接続してデータを
バイトをもって一方の端から他方へとシフトするように
構成された第２多バイトシフト回路を含む。この第１シ
フト回路はこの一端において算術演算ユニットからのバ
イト出力を受けるように構成され、第２シフト回路は一
端でこのユニットから桁上げビット出力を受け、他端で
マルチプライヤレジスタにデータを出力するように構成
される。また、オペランドレジスタ手段は第２シフト回
路に並列の出力レジスタを含み、この出力レジスタの夫
々のバイト位置におけるデータ出力が第１シフト回路の
対応するデータ入力とマルチプレクサの入力に接続する
。

マルチプライヤレジスタはバイト幅シフトレジスタであ
って夫々の処理エレメントのローカルメモリと演算ユニ
ットへのデータ入力との間に接続する。これらシフト回
路は一般に２：１または４：１のマルチプレクサで形成
される。処理エレメントは０，１．８または９位置（８
ビット幅プロセッサの場合）のシフトを用いて機能する
ように構成される。それ故、任意の数の位置をシフトさ
せるに必要な複雑なロジックは不要となる。

本発明によればバイト幅演算ユニットを使用して得られ
る利点を最大限とする処理エレメント構造を与える。特
にビット幅のシフト回路の出力を他のオペランドレジス
タすなわちマルチプライヤレジスタにとり込むようにし
てオペランドレジスタ手段に一対のシフト回路を使用す
ることによりバイトまたは多バイトオペランドについて
算術演算機能を実行する際に処理エレメントの性能を著
しく向上させる。

この演算ユニットはマスクビットパターンを受けるよう
に構成されたマス久入力を含み、このマスクビットパタ
ーンに応じてバイト幅オペランドの選ばれたビットにも
とづき動作する。

演算ユニットにマスクを用いることにより、バイトの境
界にではなく任意の選択されたビットフィールドについ
てユニットを動作させうるようになる。

好適には処理エレメントはローカルメモリからのデータ
についてはバイト幅入力、オフチップメモリについては
ビット幅入力を含む。

このアレイは、多数のサブアレイを含み、夫々のサブア
レイはｎ個の処理エレメントを含みそしてサブアレイメ
モリに対しｎビット通路を有する。

夫々のサブアレイメモリは局部的にインデクシングされ
る。

サブアレイオフチップメモリを用いることは英国特許出
願８９２５７２１．６に詳細に示されている。

本発明の第二の観点によれば、複数の単一ビット処理エ
レメントを含みそしてＳＩＭＤアーキテクチャを用いる
プロセッサアレイであって複数の共処理エレメントを更
に含み、夫々の共処理エレメントは夫々の処理エレメン
トについて設けられており、夫々の処理エレメントと共
処理エレメントがアレイメモリの一つの共通領域をアド
レスし、夫々の共処理エレメントがローカルメモリとバ
イト幅算術演算ユニットとこのユニット用のオペランド
レジスタ手段を含むプロセッサアレイを提供する。

〔実施例〕

第１図の本発明のプロセッサアレイは制御ユニット１と
処理エレメントアレイ２を含む。アレイ２は夫々別のチ
ップに形成される多数のモジュール５Ｌ−５４を含む。

この例では夫々のモジュールは３２個の処理エレメント
ＰＥを含む。各モジュールはオンチップメモリであり、
それに関連したオフチップメモリブロックを有する。

１個の処理エレメントの構造を第２図に示す。

この処理エレメントは８ビツトバイトで動作する。

このエレメントは８ビツト幅の算術演算ユニットＡＬＵ
と８ビツト幅の、ユニットＡＬＵとオンチップメモリと
の間でデータを運ぶデータ路を含む。

後述するように、この処理エレメントは更にバイト形シ
フト回路Ｑ１と、ビット形シフト回路Ｑ２と出力レジス
タＱＯを含む４バイト幅の３２ビットオペランドシフト
回路Ｑを含む。これらシフト回路に適正に相互接続され
た複数の２：１マルチプレクサで形成される。あるいは
後述するように１個の４：１マルチプレクサをシフト回
路Ｑ１とＱ２の両方の機能を行うために用いてもよい。

出力レジスタＱＯの夫々のバイト位置からの出力はバイ
ト幅シフト回路Ｑ１の対応する入力に接続されて周期的
なデータ路を与える。出力レジスタＱＯの夫々の出力は
マルチプレクサＭＵＸにも接続し、このマルチプレクサ
はバイト幅のデータ路により演算ユニットＡＬＵの入力
に接続してオペランドシフト回路Ｑの４個のバイト位置
の内の選ばれた１個からデータ通信を行う。このユニッ
トＡＬＵの出力はバイト幅シフト回路Ｑ１の一端に入り
、ＡＬＵの単一ビット桁上出力はビット幅シフト回路Ｑ
２の１端に入る。ビットシフト回路Ｑ２の他端のデータ
出力はビット幅データ路を介して８ビツトシフトレジス
タＳ１すなわち「マルチプライヤ」レジスタの一端にと
り出される。

処理エレメントＰＨの異なるエレメントおよび算術演算
を行う際の処理エレメントＰＥの使用例を次に詳述する
。

メモリ路オンチップメモリは８ビツト幅として組織化されそして
１クロツクサイクルで１バイトが読出されあるいは書込
まれるが、これらは同一のサイクルには生じない。実際
には１個のＰＥについてのオンチップメモリは少くとも
５１２ビツトであると宵利である。便宜上第２図にはオ
ンチップメモリを示していない。このオンチップメモリ
の読取ポートは第２図の上に書込ポートは下に示しであ
る。

最小桁ビット用のＰＥデータ路は前述した英国出願に示
されるように従来の単一ビット処理エレメントとはゾ同
じである。しかしながらオンチップメモリでの１セツト
の１ビツト動作については次の機能が更に必要である。

１、　読取ポートについて、オンチップメモリバイトの
任意のビットを選びそれを最小桁ビットに置く自由。Ｐ
Ｅ入力の他のビットは不定としうる。

２、　書込ポートについて、すべてのビットにＡＬＵ出
力の最小桁ビットを複製する自由。あるいはこの複製は
ＡＬＵ自体で行うことも出来る。

３、　　そのバイトの１ビツトのみをオンチップメモリ
に書込む自由。好適にはこれは個々のビットへの書込み
をゲートすることで行われる。あるいはこれは読取−マ
ージ−書込として行うことも出来るが時間がかかる。

これら付加的な機能はオンチップメモリへの１ビツトア
クセス（並びにバイトアクセス）を与えるのと等価であ
る。一般に、メモリへのアクセスに用いられるビットア
ドレスは、１ビツト動作について用いられるのは常にＡ
ＬＵの最小桁ビットであるからＡＬＵのマスキング用に
用いられるものとは異なる。

オフチップメモリからの１ビツト幅の通路はオンチップ
メモリの最小桁ビットでマルチプレクス処理され、この
場合的のビットは無視される。同様に、オフチップメモ
リはオンチップメモリの書込路の最小桁ビットから書込
まれる。

Ｑレジスタ前述のように本実施例ではＱレジスタはシフト能力を有
する３２ビット幅のレジスタである。−般にＱレジスタ
の長さはオペランドのワード長に整合されるが、必ずし
もそうでなくてもよい。例えばＰＥが４８とットワード
を処理すべきときにはＱは少くとも４８ビツトの長さを
存する。レジスタ長より短い任意のワード長を直接に用
いて例えば２４ビツト乗算用に書込まれたコードが長さ
２４．３２または６４ビツトのＱレジスタで不変にワー
クするようにすることが出来る。レジスタより長いワー
ドはソフトウェアかこれらワードを適正に部分化する場
合に処理可能である。Ｑレジスタは同時読取、書込ボー
トを有する特殊なオンチップメモリのように動作する。

Ｑレジスタをその最小桁バイトのみがＡＬＵオペランド
として用いられそして入力が任意のバイト位置につくり
うるように構成することが出来る。

実際にはＡＬＵオペランドとして任意のバイトを選びそ
してレジスタの１バイトに入力を制限しうるようにする
とより有利である。Ｑレジスタの長さは８，１６．２４
または３２ビツトとしうる。

現存する１ビツトアレイのインストラクション群を争う
ときには最大桁バイトの最小桁ビットが用いられる。

Ｑレジスタの電流出力は順次２つのシフト回路を通る。

１、　　ＭＳ端に与えられるＡＬＵ出力で８ビツト（１
バイ）の右シフト。

ＡＬＵデータをＭＳバイトに入力しそして他のバイトを
不変のまま通しうるようにす′ることも有効である。

２、　　ＡＬＵ桁上出力またはＭＳ端に与えられるＣレ
ジタの値で１ビツトの右シフト。これが行われると、右
にシフトされたビットはＳレジスタすなわちマルチプラ
イヤレジスタにシフト出来る。

第２シフト回路の出力は常にＱレジスタへとクロックさ
れる。これら２ｇ！Ａのシフト回路は別々にあるいは一
緒に用いられそしてその一方または双方をグローバルと
しあるいはローカルアクティビティコントロールの下に
おきうる。

Ｓレジスタ（マルチプライヤレジスタ）Ｓレジスタは読
取／書込用の「前」のメモリ内容を保持するために用い
られる８ビツトのシフトレジスタである。これは、乗算
において特に用いられるプログラム可視レジスタとして
も与えられる。Ｑレジスタの拡張として一般に右に１ビ
ツトシフト出来る。最小桁ビットはマルチプライヤビッ
トとして使用出来る。

隣接入力マルチプレクサ一般に、夫々の処理エレメントはその周囲の４個の隣接
するエレメントの夫々からデータ入力を受ける。この入
力は一般に１ビツト幅である。隣接入力マルチプレクサ
は従来の１ビツトＰＥ設計におけるような夫々のＰＨに
ついての一般入力マルチブレクサの部分ではなく、演算
ユニットのキャリーイン（ｃａｒｒｙ−ｉｎ）に動かさ
れそこで隣接値が１ビツトＣレジスタでマルチプレクス
処理される。この構成は１ビツトＰＨにおけるよりキャ
リの伝ばんのより大きいフレキシビリティを与えるもの
である。

入力マルチプレクサ汎用入力マルチプレクサは英国特許出願節８８２９６２
２．３に示されるような１ビツトアレイに用いられるも
のと同様に機能する。このマルチプレクサは次のオプシ
ョンを与える：１、　　　Ｑレジスタ。最小桁ビットによるＱレジスタ
の一つの選ばれたバイトの最小桁ビットそして他のビッ
トによるものは０すなわち入力なし。

この目的について選ばれたバイトは他のＡＬＵ入力につ
いて選ばれるものと同じである。レスポンスインストラ
クションについてはＱの最大桁バイトか通常用いられる
。

２、　　Ａレジスタ。最小桁ビットによる１ビツトレジ
スタの逆数であり他のビットによるものは０（すなわち
入力なし）。非反転値ではなく逆数が用いられる。

３、　　メモリ入力。これは最小桁ビットについてオフ
チップメモリデータまたはオンチップメモリバイトの選
ばれたビットからの８ビツトデータである。

４、　　　Ｓレジスタ。８ビツト５、　　ＭＣＵからの行／列データ。最小桁ビットは行
または列方向にＭＣＵから出る１ビツトデータを受ける
。この構成は英国特許出願第８８２９６２２．３に示さ
れている。この最小桁ビットはＰＥまたはメモリに書込
まれたデータまたはレスポンスデータにおいて行または
列選択に用いられるマスクである。後者の目的について
はこれはマルチプレクサの他の入力でＯＲ処理される。

他のビットはＭＣＵからの、すべての他のＰＥに共通の
７ビツトテータを受ける。このように８ビツトのリテラ
ル値が一般にオペランドとして使用出来る。

６、　　　Ｄレジスタ。最小桁ビットについての１ビツ
トＤレジスタ。他のビットについては０（すなわち入力
なし）。このＤレジスタは処理機能が行なわれると同時
にアレイに対しデータがシフトしうるように従来のごと
くに構成されている。第２図には示されていない。

行／列レスポンスは入力マルチプレクサの最小桁ビット
からとり出される。

Ａレジスタこれは上記英国特許出願に示されると同様に機能する。

このレジスタは直接または現存するＡレジスタ値でＡＮ
Ｄ処理（マスク処理）されてＡＬＵのキャリアウド（ｃ
ａｒｒｙｏｕｔ）からロードされる。従来の１ビツトア
レイの機能との両立性はＡレジスタについての適正な機
能とＡＬＵの１ｓビツトのキャリアウドを発生しそして
他のＡＬＵビットをマスクし、所定の値が桁上出力に通
るようにすることにより与えることが出来る。この構成
は、演算テストの結果に従ってアクティビティを設定し
うるようにする。

アクティビティ選択アクティビティ制御はオンチップメモリ、オフチップメ
モリまたはＱレジスタのシフトまたはローディングに対
し与えることが出来る。個々のＰＥのレベルにおいて、
アクティビティ制御は前記英国特許出願に示される対応
する機能と同じである。これはアクティビティについて
Ａまたはその逆数に等しいかあるいは行または列につい
て制御されるべきオプションを与える。マスキング制御
の他のレベルをオンチップメモリの個々のビットに加え
ることが出来る。８個のマスクビットからなるビット群
はすべてのＰＨに共通であり上記制御でＡＮＤ処理され
る。これは１つのバイトの個々のビットに対する書込み
または一般にそのバイト内に１つの特定のビットフィー
ルドを特定するオプションを与える。マスクパターンは
一般に、オンチップメモリへの１ビット書込みがマスキ
ングにより行われない限り、ＡＬＵＭ能を制御するため
に用いられたものと同一のパターンである。

この実施例ではアクティビティもＳレジスタの１ビツト
に従ってセット出来る。。後述するようにこれは「多重
Ｊａｍ能の遂行を授けるものである。

Ｃレジスタこれは１ビツト幅でありＡＬＵの桁上借り出力からロー
ドされる。これはＡＬＵへのキャリーインまたはＱレジ
スタについての直列シフト入力として使用出来る。

ＡＬＵ前述のように、これは８ビツト幅であり、入力としてオ
ペランドレジスタ手段Ｑおよび入力マルチプレクサデー
タの選ばれたバイトをそしてキャリーインとしてＣレジ
スタを採用する。

種々の機能が当られる。１ビツト機能の最大のフレキシ
ビリティを与えるために最小桁ビットは和および桁上出
力の両方について完全な機能単位を有する。他のビット
位置については算術和、差および逆差がオペランドのコ
ピーと種々のビット毎のプール機能と共に与えられる。

ＡＬＵはバイト境界ではなく選ばれたビットフィールド
についての操作を可能にするマスキング特性を有する。

かくしてすべてのＰＥに共通な８ビツトマスクがＡＬＵ
に与えられそして次の効果を有する。

マスクビット−１であればキャリーアウトビットの通常
の発生。

マスクビット−〇であればそのビット位置においてキャ
リーアウトビット−キャリーインビット。

結果ビット；マスクビット−１であればそのビットにつ
いての通常の結果ビット機能がＡＬＵ出力に与えられる
。マスクビット−〇であれば結果の値は無視され、実施
に便利な任意の値が与えられる。

ＡＬＵ動作のマスキングは前述のようにキャリの伝ばん
を明確にゲートすることにより行うことが出来るが、こ
れはＡＬＵの高速動作についての標準的な桁上げ予測技
術の使用を排除する。あるいはこのマスクをマスクビッ
トが０のとき各ビット位置についてＡＬＵの１個の入力
を１にそして他を０に強制することによっても達成出来
る。

このマスクパターンはスタートビットとエンドビットに
より特定される真ビ、ットの連続する群を含む。これは
勿論単一ビットの選択を可能にする。

一つのバイトについての動作についてはスタートビット
が０そしてエンドビットが７として特定される。単一ビ
ット動作についてはＡＬＵの最小桁ビットが用いられ、
それ故スタートおよびエンドビットは共に７として特定
される。このように、最小桁ビットのキャリーアウトは
他のＡＬＵビットを介してそのまま伝ばんしそしてＣに
クロックされる。

乗算中、ＳレジスタのＬＳビットは乗算とじて作用しそ
してこれをＡＬＵ機能をそのビットのローカル値により
「コピー」または「加算」として選ぶことにより達成す
る。また非回復除算のような目的につい加算と減算を区
別するためのローカル制御か与えられる。Ｓレジスタの
ＬＳビットはこの機能を制御するために用いられる。

マージ機能これはメモリ出力データをＡＬＵ出力または前のメモリ
内容として選択するロジックである。これは８ビット幅
であり、夫々のビットがそれ自体のアクティビティ選択
を有するがその機能はその他の点では前記の単一ビット
システムと同じである。このマージ機能はオンチップメ
モリへの８ビット通路を与えそして、前述のようにオフ
チップメモリ通路は最小桁ビットからとり出される。

隣接通路隣接出力（図示せず）はＱレジスタの選択されたバイト
（シフト機能用）の最小桁ビットまたはＡＬＵのキャリ
ーアウト（リップル加算機能）でなくてはならない。こ
のメモリ通路は隣接出力と共通である。選ばれた隣接入
力はＡＬＵへのキャリーインとしてＣレジスタの代りに
用いられる。

Ｄプレーン前述した英国特許出願に示されるシステムにおけるよう
に、高速人力−出力動作用のデータブレーンを形成する
Ｄレジスタを用いることが出来る。

Ｄレジスタはメモリ入力からロードされあるいはメモリ
書込通路のデータとして供給される。単一ビットＤレジ
スタをオフチップメモリにのみ接続するように使用出来
る。オン７チツプメモリをキャシュとして動作させる場
合にはＩ１０データがバッファメモリにより処理されモ
してＤブレーンのオンチップメモリへまたはそこからの
転送が行われる。この場合にはＤレジスタは８ビット幅
である。

ＰＥの使用例−無符号整数の乗算２倍の長さの積をつくる３２ビツトのオペランドの無符
号整数の乗算法を次に述べる。説明の便宜上、Ｑははじ
めに０とする。オペランドと結果はオンチップメモリに
生じる。

Ｆｏｒ　　乗数の各バイトＳに乗数バイトをロード。

Ｆｏｒ乗数バイトの各ビット［’ｏｒ　　被乗数の各バイト ’ｄｈｅｒｅ　　ＳのＬＳビットＱレジスタの１ｓバイトとメモリがらの被乗数バイトを
加算。

ＥｌｓｅｗｈｅｒｅＡＬＵ出力にＱレジスタをコピーＥｎｄｗｈｅｒｅＣはこのループの第１回目のバスを除き加算のキャリー
インとして用いられる。キャリーアウトはＣにクロック
される。Ｑレジスタは１バイトだけ右にシフトされ、Ａ
ＬＵの結果が最大桁バイト位置になる。

このループの最終バスおよびＱレジスタは１ビツト右（
並びに１バイト）だけシフトされてＡＬＵキャリーアウ
トがｍｓビットのところになる。

Ｓレジスタも１つシフトされてＱの１ｓビツトがＳのｍ
ｓビットにシフトされる。これにより１個の結果ビット
がＳに置かれ次の乗数ビットにＱが整合しそして今使用
した乗数ビットが捨てられて次の乗数ビットが正しい位
置となる。

Ｅｎｄ　ＦｏｒＥｎｄ　ＦｏｒＳ　Ｌ、ジスタからの結果バイトを記憶Ｅｎｄ　ＦｏｒＦｏｒ　　結果のｍｓ分の各バイトＱの適正なバイトから結果バイトを記憶Ｅｎｄ　Ｆｏｒこの条件付きの加算はＡＬＵ機能を制御しく前述したよ
うに）あるいはＱのバイトシフトを制御することにより
達成出来る。この場合には１つのシフトが乗数ビットに
は無関係に行われねばならない。乗数ビットが０であれ
ばＭＳエンドにシフトされた桁上ビットは０とされる。

３２ビツトのオペランドについてはこれは２倍の長さの
無符号積をつくるため１４０個のインストラクションを
用いる。結果がアクティビティ制御により書込まれるべ
き場合にはエクストラサイクルが必要となる。

事実この方法は任意の長さの、３２ビツトより長いもの
であってもよい乗数に直接に適用出来る。

被乗数か３２ビツトより短い場合には上記のコードは更
にＱの異なるバイトを使用するために変更され、そして
、結果の下位半分の桁のバイトがＳではなくＱのバイト
の内の１組から記憶される。

被乗数が３２ビツトより大であればこの処理がこの被乗
数の夫々３２ビツトまでの長さのセクションに適用され
る。最後に部分積が加算される。

任意ビットフィールド７ビツト加算（例えば実数の成るフォーマットの乗算用
の指数処理に用いられる）のような動作はＡＬＵ内のマ
スクされた演算を用いて行うことが出来る。これは任意
のビット位置でのキャリーインおよびＣにロードされる
べき任意のビット位置からのキャリーアウトとしてＣレ
ジスタの内容すなわち０を使用しうるようにする。マス
キングはまた通常のアクティビティ制御の書込みについ
て用いられると同様の読取−マージ−書込みシーケンス
を用いて任意のビットフィールドに結果を書込むことを
可能にする。

組合オ）されるべきビットフィールドがバイト境界に対
して同一の整合を有していない場合には、一方のフィー
ルドがＱレジスタにロードされ、そして、算術演算を行
う前に次々の１ビツトシフトこよりラインアップされる
。同様にＡＬＵ結果はＱ１４きもどされそして必要であ
ればメモリへの直接書込みではなく結果スペースに整合
される。

隣接操作リップル加算についてはＡＬＵの出力からキャリがとり
出されそしてキャリーインとして隣接するＰＥのＡＬＵ
に入れられる。これらオペランドは一般にＱレジスタの
バイトとメモリバイトである。マスキングを用いたこの
キャリはＡＬＵ内の任意のビットフィールドを通る。従
来の単一ビットアレイの機能は人力マルチプレクサにお
けるオペランドとしてＣを選びそしてＡＬＵの、最小桁
ビットを除くすべてのビットをマスキングすることによ
りモデル化出来る。隣接シフトについては隣接出力はＱ
レジスタの選ばれたバイトの最小桁ビットからとり出さ
れる。隣接入力はＡＬＵキャリ入力に入り、そしてＡＬ
Ｕの機能は、この値が機能出力に再生されてＱまたはＡ
に書きもどされうるようなものである。これの変更例は
、最小桁ビットを適正に機能設立しそして他のビットを
マスキングすることによりＡＬＵについてキャリーアウ
トを介しキャリーインを伝ばんさせるものである。同時
にＱレジスタは右に一つシフトされＡＬＵキャリがｍｓ
エンドとなる。これをくり返すことによりＱレジスタ内
の任意の数のビットを１サイクル当り、ＰＥ毎に１ビツ
トの速度で隣接ＰＥにシフトすることが出来る。

メモリ構成外部インターフェースこのＰＥはオフチップメモリに対し１ビツト通路を有す
る。これは明らかに現存するものと両立するものであり
、プールマトリクスの演算に必要なものである。しかし
ながら、ＰＥ内に広いデータ通路を与えることにより、
オフチップメモリとのインターフェースの部分としてデ
ータを再配列またはモード変換することが可能になる。

チップ上に３２個のＰＥを３２×１として配置するとす
ると、オフチップメモリに対する３２本の１ビット通路
は１本の３２ビット通路とみなすことが出来る。この１
本の３２ビット通路はすべてのＰＨに入力を与えそして
選ばれた１個のＰＥのＱレジスタにロードしうろことに
なり、他の３１個のＰＥをロードするにはこれをくり返
せばよい。この方法は第３図にローカルアドレスインデ
クンング用のハードウェアと共に示しである。

全体として同様の効果を与える他の方法はＱレジスタを
３２Ｘ３２シフトブレーンとして構成し、それによりデ
ータがこれらＱレジスタ群に対し次々にシフトされるよ
うにするものである。

いずれの方法もＱレジスタ入力におけるマチルブレクサ
を広くしなければならない。

いずれの方法もオフチップメモリとＰＥの間の転送にお
いて「コーナーターン」を与えるものである。前述のよ
うにこれは３２ビツトデ一タ項目に特有であるが、８ま
たは１６ビツト項目を処理するための構成もまた考えら
れる。

「水平モード」でデータをオフチップメモリに保持する
ことの利点は次の通りである。

１゜　　ＭＣＵからマトリクスの一つのエレメントへの
アクセスはベクトルまたはスカラエレメントに対するア
クセスと同じ速度である。

２、　データがホストから送られあるいはそれにもどる
ときにモード変換を必要としない。場合によっては変換
ルーチンがフォーマット変換を行うために必要であるた
め変換ルーチンは必要である。

アレイメモリ内のワードの順序づけは通常のメモリにつ
いて当然であるものと同じものである必要はないが英国
特許ＧＢ−Ｂ−２１３０４０９に示されるものと同様の
ホストインターフェースにアドレスシーケンスエンジン
チップを含めることにより適応してもよい。

３、　　　Ｉ１０システムについてはモード変換は不要
であるが、ロード（またはバイト）レベルでの再配列は
一般に必要であり、２重バッファリングとプログラマブ
ルアドレス発生用の現在の方法も極めて適切なものであ
る。

４、　データがオフチップメモリとオンチップメモリの
間で転送されているときオフチップメモリのアドレスシ
ーケンスを変更することによりそのデータは転送中に行
方向に有効に再配列される。

この再配列は各行に沿った３２個のＰＥ群内でのみ適用
する。

５、　オフチップメモリへのワードアクセスではＥＣＣ
またはパリティ　（メモリのタイプにより）を維持しチ
エツクするのは簡単であるからローカルインデクシング
を与えることが出来る。データビンと共用しない限りア
ドレスを出するに余分なチップビンが必要である（これ
はインデクシング動作を長くする）。

オンチップバッファがインデクシングされた書込みにつ
いて３２個のアドレス（ＰＥ当り１個）を保持するため
に用いられる。これはＲＡＭまたはシフトレジスタでよ
い。インデクシングされた書込みについて、各ＰＥはＱ
内にそのアドレスをつくり、これらが内部メモリデータ
路を用いてアドレスバッファに転送される。次に書込ま
れるべきデータがＱにロードされる。そして各データワ
ードがバッファから対応するアドレスを用いて書込まれ
る。あるいは、データの保持に別のオンチップバッファ
を用いることが出来、ローカルインデクシングが行われ
るときＱレジスタは用いられない。そのときメモリアク
セスが処理機能と並列に行われ、いくつかのサイクルが
処理からとり出されてオンチップメモリとバッファレジ
スタ間のデータをコピーする。

成るテーブル索引動作での使用と共に、ローカルインデ
クシングは例えばシートマツプオーバーサイズアレイの
シフトを援助する。

ソフトウェアは適正なデータ値の付加とデータと限界に
対するアトルスチェックを採用しており、その場合には
ローカルインデクシングは監視呼出しによりアクセスさ
れるシステム機能となる。あるいはこの機能はハードウ
ェアで行うことが出来る。

上記の形式の処理エレメントはコプロセッサとして従来
の単一ビット処理エレメントと共に使用出来る。第４，
５図はそのような構成を用いる実施例を示す。１個の８
ビツト処理エレメント（ＣＰ）はアレイの夫々の単一ビ
ット処理エレメント（Ｐ　Ｅ）に関連づけられる。この
８ビツト処理エレメントは単一ビット処理エレメントに
物理的に近似する必要はな（、図示の例では８ビツト処
理エレメントは単一ビット処理エレメントのサブアレイ
に沿って配置された共処理サブアレイＣＰＳ１、・・・
・・・ＣＰＳ４内に形成される。明らかなように他の物
理的構成も可能である。

単一ビット処理エレメントとコプロセッサの８ビツトエ
レメントはＭＣＵからのインストラクションにより制御
される。しかしながら単一ビット処理エレメントがＭＣ
Ｕから直接入るアブセンブリ言語（ＡＰＡＬ）のインス
トラクションに従う間に共処理サブアレイ内の８ビツト
処理エレメントの動作はここでｒＣＰＡＬＪと呼ぶ低レ
ベルアッセンブリ言語のインストラクションにより制御
される。付表ＡはＣＰＡＬの全構文のリストである。こ
の実施例においてマルチプライヤレジスタはＭで示され
ており、Ｓレジスタは８ビツトＰＥのメモリから読出さ
れたデータを保持するための別のレジスタである。

アレイメモリからアレイメモリへの組込み動作は１ビツ
トＰＥまたは８ビツトＰＥの、行われている特定の機能
により適した方で行われる。単一ビットＰＥとはことな
り、８ビツトＰＥ間には通信はなく、それらの使用はそ
のためにアレイメモリに垂直方向に保持されるデータに
適用される処理機能（データの動きではない）に制限さ
れる。

この実施例のそれぞれの８ビツトＰＥは「ＣＰ８」で示
しである。このＣＰ８はこの例では３２バイトのローカ
ルメモリを有し、これがオペランドと結果を保持すると
共に組込み機能用のワークスペースとして作用する。一
般に与えられた組込み機能についてのオペランドはＣＰ
８組込み機構が実施される前にアレイメモリからＣＰ８
メモリヘコビーされる。結果は後に再びコピーされ、あ
るいはＣＰ８メモリ内の１回の動作の結果が次の動作の
オペランドとして使用される。アレイメモリとＣＰ８メ
モリの間のデータコピーは主アッセンブリ言語インスト
ラクション列内の特別なインストラクションにより制御
されそしてＣＰ８／１−ドウエアにより直接影響される
。従って、占有ＣＰＡレコードがＣＰ８メモリに固有の
動作のみを処理する。

ＣＰ８組込み機能はアッセ、ンブリ言語インストラクシ
ョンの結果として任意の入力点でスタートされ、そして
ストップフィールドを含むインストラクションが入るま
で分岐またはルーピングすることなく続行する。ＣＰＡ
Ｌの実行は中断出来ないが、主アッセンブリ言語ＡＰＡ
ＬがＣＰ８メモリとアレイメモリの間のデータの同時コ
ピーを呼び出す場合にはいくつかのインストラクション
コピーがＣＰ８メモリへのアクセスのために自動的に「
盗用」される。

上記のＭおよびＳレジスタの相異の他に各ＣＰ８の内部
レジスタの構成は一般に第一の実施例におけるものと同
様である。これらレジスタのネーム、ビット幅および主
機能は次の通りである。

Ｑ３２アキュムレータＣ１キャリＭ８マージ／乗算コントロールＳ８メモリ読取ＣＰ８メモリは常に８ビット幅で読取られあるいは書込
まれ、そして同様にすべてではないが殆どの動作は８ビ
ット幅である。Ｑレジスタは４個の８ビツトレジスタと
して有効に機能する。ＣＰＡＬではバイト幅の動作はＣ
レジスタの設定の使用の外は省略モードである。レジス
タＭとＳは上記の特定の機能に加えて汎用レジスタとし
て使用出来る。

第５図は１個のＣＰ８を示す。データ路はＣレジスタと
アレイメモリビンに関連するものを除き殆ど１バイト幅
である。

ＣＡＰの心臓部であるＡＬＵは一般に前記実施例におけ
ると同様である。しかしながら、単一ビットプロセッサ
と共にコプロセッサとしての使用を意図しているから、
上記の単一ビット機能の殆どは省略出来る。また、便宜
上ＡＬＵ内のビットレベルのマスキングは省略されてい
る。ＯＲ機能は等価な効果を得るためにＡＬＵ入力にお
いてソフトウェア制御のもとで行われる。ＡＬＵ出力の
マージ機能はバイトについて動作しそして個々のビット
のマージは不可能である。チップの外の主メモリに対す
る転送は別のレジスタＤにより行われる。これはＤＭＡ
モードで７動作し夫々のＣＦ２のついて一時に１ビツト
づつ並列にデータを転送しそしてＣＰ８メモリに対し夫
々のバイトを転送するためにＣＦ２からサイクルを盗用
する。Ａレジスタは主メモリへの結果の書込みの制御に
のみ使用される。ＣＦ３内のすべての条件付き動作はＭ
レジスタの最小桁ビットによりきまる。

【図面の簡単な説明】

第１図はプロセッサアレイシステムのブロック図、第２
図は第１図のシステムで使用するための処理エレメント
を示す図、第３図は単一サブアレイ用のメモリインター
フェースの構成を示す図、第４図は他の実施例のブロッ
ク図、第５図は第４図のシステムで使用するための処理
エレメントを示す図である。１・・・制御ユニット、２・・・処理エレメントアレイ
。

Claims

【特許請求の範囲】１、夫々ローカルメモリを含む複数の処理エレメント（
ＰＥ、ＣＰ）と、算術演算ユニット（ＡＬＵ）とこの算
術演算ユニット用のオペランドレジスト手段（Ｑ）を含
む、ＳＩＭＤアーキテクチュアを用いるプロセッサアレ
イであって、上記算術演算ユニット（ＡＬＵ）がバイト
幅プロセッサであり、上記オペランドレジスタ手段（Ｑ
）が多バイトシフト回路と、このシフト回路の夫々のバ
イト用のデータ出力と上記出力の内の選ばれた１個から
上記算術演算ユニット（ＡＬＵ）にデータ通信を行うよ
うに配置されたマルチプレクサ（ＭＵＸ）とを含むこと
を特徴とするプロセッサアレイ。２、前記オペランドレジスタ手段（Ｑ）はデータをバイ
トをもって一つの端から他方へシフトするように構成さ
れた第１多バイトシフト回路（Ｑ１）とこのシフト回路
（Ｑ１）に並列に接続すると共にデータをバイトをもっ
て一方の端から他方へとシフトするように構成された第
２多バイトシフト回路（Ｑ２）を含むごとくなった請求
項１記載のプロセッサアレイ。３、前記第１シフト回路は前記一端において前記算術演
算ユニット（ＡＬＵ）からのバイト出力を受けるように
構成され、前記第２シフト回路は前記一端で上記算術演
算ユニットから桁上ビット出力を受けそして他端でマル
チプライヤレジスタ（５）にデータを出力するように構
成されるごとくなった請求項２記載のプロセッサアレイ
。４、前記オペランドレジスタ手段（Ｑ）は更に前記第２
シフト回路（Ｑ２）に並列に接続する出力レジスタ（Ｑ
０）を含み、この出力レジスタ（Ｑ０）の夫々のバイト
位置におけるデータ出力が前記第１シフト回路の対応す
るデータ入力と前記マルチプレクサの入力に共通に接続
されるごとくなった請求項３記載のプロセッサアレイ。５、前記算術演算ユニット（ＡＬＵ）はマスクビットパ
ターンを受けるように構成されたマスク入力を含み、こ
のマスクビットパターンに応じてバイト幅オペランドの
選ばれたビットにもとづき動作するごとくなった請求項
１乃至４の１に記載のプロセッサアレイ。６、前記処理エレメント（ＰＥ）はローカルメモリから
のデータ用のバイト幅入力とオフチップメモリ用のビッ
ト幅入力を含むごとくなった請求項１乃至５の１に記載
のプロセッサアレイ。７、前記アレイは、夫々ｎ個の処理エレメント（ＰＥ）
を含み、そしてサブアレイメモリに対しｎビット通路を
有する多数のサブアレイ（Ｓ１、・・・・・・Ｓ４）を
含むごとくなった請求項１乃至６の１に記載のプロセッ
サアレイ。８、前記夫々のサブアレイメモリは局部的にインデクシ
ングされるごとくなった請求項７記載のプロセッサアレ
イ。９、単一ビット処理エレメント（ＣＰ、ＰＥ）のアレイ
を更に含み、これら処理エレメント（ＰＥ、ＣＰ）は対
応する単一ビット処理エレメント（ＣＰ、ＰＥ）につい
てコプロセッサとして機能するように構成されたバイト
幅算術演算ユニット（ＡＬＵ）を含むごとくなった請求
項１乃至４の１に記載のアレイ。１０、複数の単一ビット処理エレメント（ＰＥ）を含み
そしてＳＩＭＤアーキテクチャを使用するプロセッサア
レイであって、複数の共処理エレメント（ＣＰ）を更に
含み、夫々の共処理エレメントは夫々の処理エレメント
（ＰＥ）について設けられており、夫々の処理エレメン
トと共処理エレメントがアレイメモリの一つの共通領域
をアドレスし、夫々の共処理エレメント（ＣＰ）がロー
カルメモリと、バイト幅算術演算ユニット（ＡＬＵ）と
このユニット用のオペランドレジスタ手段（Ｑ）を含む
ごとくなったことを特徴とするプロセッサアレイ。１１、前記オペランドレジスタ手段（Ｑ）は多バイトシ
フト回路と、このシフト回路の夫々のバイト用のデータ
出力と、これら出力の内の選ばれた１個から前記算術演
算ユニット（ＡＬＵ）にデータ通信を行うように構成さ
れたマルチプレクサ（ＭＵＸ）とを含むごとくなった請
求項１０記載のアレイ。１２、前記算術演算ユニット（ＡＬＵ）用のオペランド
を保持するように接続されるバイト幅マルチプライヤレ
ジスタ（Ｍ）を更に含み、前記オペランドレジスタ手段
（Ｑ）がこのマルチプライヤレジスタ（Ｍ）に記憶され
た１個以上のビットの値により、上記オペランドレジス
タ手段に保持されるデータを１バイトだけシフトするよ
うに構成されるごとくなった請求項１０記載のプロセッ
サアレイ。