JPH0228721A - プロセシング・システム - Google Patents

プロセシング・システム

Info

Publication number
JPH0228721A
JPH0228721A JP6939589A JP6939589A JPH0228721A JP H0228721 A JPH0228721 A JP H0228721A JP 6939589 A JP6939589 A JP 6939589A JP 6939589 A JP6939589 A JP 6939589A JP H0228721 A JPH0228721 A JP H0228721A
Authority
JP
Japan
Prior art keywords
data
processor
register
control
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6939589A
Other languages
English (en)
Inventor
David R Baldwin
デイヴィッド ロバート ボードウィン
Kent Osman
オスマン ケント
Asherliler Yavari
ヤヴァリ アシシャリラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3DLabs Ltd
Original Assignee
DuPont Pixel Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB8806871A external-priority patent/GB2215886A/en
Priority claimed from GB8806851A external-priority patent/GB2215877A/en
Priority claimed from GB8806849A external-priority patent/GB2215875A/en
Priority claimed from GB8806859A external-priority patent/GB2217059A/en
Priority claimed from GB8806860A external-priority patent/GB2217060A/en
Priority claimed from GB8806852A external-priority patent/GB2215878A/en
Application filed by DuPont Pixel Systems Ltd filed Critical DuPont Pixel Systems Ltd
Publication of JPH0228721A publication Critical patent/JPH0228721A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a secondary processor, e.g. coprocessor
    • G06F9/3879Concurrent instruction execution, e.g. pipeline or look ahead using a secondary processor, e.g. coprocessor for non-native instruction execution, e.g. executing a command; for Java instruction set
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • G06F15/8061Details on data memory access
    • G06F15/8069Details on data memory access using a cache
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a secondary processor, e.g. coprocessor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Multi Processors (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 著作権の一部放棄 本特許出願におけるすべての材料は、英国、米国および
その他の国々の著作権法に基く著作権による保護に服す
る。本出願の最初の有効な出願日を以て、本出願の材料
は未公開の材料として保護される。
しかしながら、この刹料を複写することは、特許書類あ
るいは特許開示が英国あるいはその他の国の公的な特許
出願書類あるいは記録において現れてくるものとして、
だれもがファクシミリ再生することに著作権者は異議を
唱えないという範囲内において、許可される。しかし、
その地点においては、著作権者はどのようなものである
かすべての著作権を留保する。
[産業上の利用分野] 本発明は、コンピュータ・システムおよびサブシステム
、およびコンピュータを利用したデータ処理方式に関し
、特にプロセシング・システム、すなわちマルチプロセ
ッサ・アーキテクチャに関するものである。
[従来の技術] 高速マルチプロセッサ・アーキテクチャ並列に動作する
複数のプロセッサを使用することは、これまで、非常に
高いスループットを達成するための便利な方法であると
認識されてぎた。
このようなアーキテクチャが数多く提案されている。し
かし、このようなアーキテクチャを実際に実現すること
は非常に困難である。特に、広範囲にわたるユーザの要
求を満足し、技術進歩を取り入れることができるような
、非常に多様性のあるこの種のアーキテクチャを設計す
ることは困難である。
マルチプロセッサ・アーキテクチャに関連する一部の問
題点の概要が、雑誌Computerの1988年2月
号の9ページのD ubois他著、” S ynch
r。
n1zation、Coherence、and E 
vent  Orderingin  M ultip
rocessors”に示されている。この文υ、は引
用することて木明細書の一部とする。また、ディジタル
信号処理のために最近提案されたマルチプロセッサ・ア
ーキテクチャについて、雑誌Computerの198
8年2月号の47ベーシ、L ange他著、” A 
n Optimum  P arallel A rc
hitecLure for  Higl+−5pee
d  Real−Time DigitalSigna
l  P rocessing ” に説明されている
。この文似は引用することて木明細書の一部とする。
プロセッサ間データ・ルーティング プロセッサ間て作業を割り振るための2つの船釣な概念
はバイブライニング(パイプライン化)と並列化である
。°′バイブライニング″は般に、1つのデータ・セッ
トが複数のプロセッサによって連続的に操作されるよう
なデータ・ルティングを示す用語として使用される。並
列化(パラレリズム)は、別々のプロセッサによって異
なる操作が同時に実行されるようなデータ・ルーティン
グを示している。もちろん、アルゴリズムの中には、バ
イブライニングまたは並列化の方が他方よりはるかに優
れている場合もある。
パイプラインの速度は、その中でもつとも遅い段階によ
って制限される。さらに、パイプライン・システムの平
均効率は、2つのオーバヘッドによって低下する。それ
は、操作を開始するときにパイプラインを満杯にしなけ
ればならないことと、操作が終了するとぎにパイプライ
ンを空にしなけれはならないことである。これらのオー
バヘットの影響は、1回のラン(実行)でパイプライン
を通じて渡さなければならない要素の数と、パイプライ
ンに含まれる段階の数(パイプラインの長さと呼ぶ)の
比率に応じて異なる。したがって、パイプラインの長さ
がかなり長い場合は(たとえば、各ランての要素の数が
200であり、パイプラインの段階の数が2の場合)、
これらのオーバーヘットはほとんど考慮する必要がない
。しかし、短いパイプラインの場合には、これらのオバ
ーヘットはスルーブツトに対して重要な要素となる。
アドレス空間とアドレス別算 大きい71−レス空間を持つ仮想メモリ・システムか増
加している中で、32ビツト以」二の7トレス空間を取
り扱うことかてきる機能はコンピュタ・システムにとっ
て非常に重要になっている(48ヒツト以上のアドレス
空間を備えたシステムも出現している)。しかし、デー
タとインストラクションに対して同じアドレス空間を使
用するシステムでは、これはプログラム・シーケンスに
対して制約条件となる可能性がある。
非常に高いスループットが必要とされる場合には、通苓
、マイクロコーディングしたシステムを使用する。した
がって、このようなシステムでは、特にプログラム・ア
ドレス計算の速度が重要である。しかし、大きいアドレ
ス空間を使用すると、リアルタイムでアドレスに対して
実行できる計算の範囲が大きく制限される。このような
制限は特に、高速フーリエ変換(FFT)のようなアル
ゴリズムでは不便である。FFTは大量のデータ演算と
アドレス演算を必要とする。
キャッシュ・メモリ・アーキテクチャ キャッシュ・メモリは、コンピユーテイング・システム
のスルーブツトを向上するための便利な方法である。す
でにキャッシュに登録されているメモリ・ロケーション
を要求するために何度もメモリ・アクセスか実行される
場合には、キャッシュから読み取るたびに、キャッシュ
・アクセス時間とメイン・メモリ・アクセス時間の差に
等しい時間を短縮できる。したがって、キャッシュ・メ
モリ・システムは通常、キャッシュに対する帯域幅を最
大限に利用しようとする。
入出力管理 スーパーコンピュータ・システムやメインフレーム・シ
ステムでは、これまで、インタフェース・コントローラ
と少なくとも1つの他のプロセッサを使用するたりてな
く、独立した人出カプロセッサが使用されてきた。この
ようなシステムは多くの場合、いろいろな特殊作業を処
理するために、多彩な専用プロセッサを使用する。
最近では、このような人出カプロセッサかポド・レベル
の数値処理サブシステムでも使用されるようになってき
た。たとえば、 M ercury  Computer S yste
msは、浮動小数点フロセッサと非同期的に動作する、
独立したデータ転送プロセッサを備えたシステム(Z 
1p3232)を発表した。
専用ハードウェア・アーキテクチャ 多くの専用プロセッサ・アーキテクチャが提案されてお
り、これらのアーキテクチャは特に、特定のアプリケー
ションにとフで便利である。しかし、このような専用ア
ーキテクチャを汎用数値処理アーキテクチャに統合する
方法については、あまり注意が払われていない。また、
アルゴリズム固有のプロセッサのための汎用インタフェ
ース管理についても、あまり注意は払われていない。
アーキテクチャの5揉性 スーパーコンピュータ、゛°ミニ・スーパーコンピュー
タ′°、 °°スス−−・ミニコンピユーラダ′および
数値アクセラレータ・ボードのための多彩なアーキテク
チャがt是案されている。たとえば、K 、  Hwa
ngおよびF 、  B riggs著、Comput
erA rchitecture and  P ar
allel  P rocessing(1985)を
参照されたい。この文献は引用することで本明細書の一
部とする。しかし、これまで提案されている多くの興味
あるアーキテクチャは非常に多様であるため、このよう
な新しい各アーキテクチャを採用するためには、多大な
ユーザ投資が必要となる。このようなアーキテクチャの
多様性は、チップ・レベルの多様性も含めて、多くの要
素によって発生している。半導体メーカーは、新しいシ
ステム設計にとって役立つ集積回路を開発することで激
しく競合しているため、たえず魅力のある新しいチップ
設計が発表されている。しかし、ユーザから見ると、チ
ップ・セットの選択は、通常、アーキテクチャの大きな
部分を決定する。異なるデツプを採用すれば、ビン配列
や必要なルーティングが異なり、命令セットやデータ処
環プロトコルも異なる可能性かある。
[発明の要約] 本出願では、多くの革新的教示について述へる。これら
の革新的教示は、第1図に示すようなシステムをもとに
説明する。
本発明について、第1図に示したような特定のシステム
実施例(または、第9A、10.41、または43図に
示す実施例)をもとに説明する。
これらの実施例の機能は、必ずしもすべてが本発明の先
行技術の一部ではなく、好適な実施例を説明する基礎と
なる。
多くの発明事項の中で、ここでは特に、数値処理サブシ
ステムについて説明する。このサブシステムでは、3種
類のプロセッサが同時に独立したプロセスを実行する。
これらのプロセッサの1つはデータ転送プロセッサであ
り、1つは制御プロセッサ、およびもう1つは浮動小数
点プロセッサである。このサブシステムにはまた、少な
くとも1メガバイトのキャッシュ・メモリも含まれてぃ
る。このキャッシュ・メモリは、非常に帯域幅の高いバ
スによって浮動小数点プロセッサにリンクされる。
大部分のアルゴリズムは、4つの独立した部分に分割で
きる。それは制御、データ入出力、アドレス演算、およ
びデータ演算である。好適なアーキテクチャては、これ
らを独立したタスクとして取り扱い、それを3つのプロ
セッサにマツプする。制御とアドレス演算は、制御プロ
セッサ(cp)モジュール110が取り扱い、データ人
出力タスクはデータ転送プロセッサ(DTP)モジュー
ル120が処理し、データ演算は浮動小数点(または他
の数値)プロセッサ・モジュール(FP)130が処理
する。
3つのプロセッサを使用するということは、浮動小数点
プロセッサがデータ演算を実行している間、制御プロセ
ッサがアドレス演算を実行できることを意味する。さら
に、データ転送プロセッサは、ほかの2つのプロセッサ
のバックグラウンドでデータ・フェッチを実行できる。
したがって、データ演算はほとんど100%に近い効率
で実行でき、アドレス演算か終了するのを待つ必要はな
い。さらに、データ演算とアドレス演算は、り1部デー
タ・フェッチやセーブの間、必ずしも待つ必要はない。
これは、データ転送プロセッサか制御処理モジュールお
よび数値処理モジュールのハックグウラウントてこれら
の処理の一部を実行てぎるからである。
この方式で機能を分割し、それをそれぞれ独立したプロ
セッサに割り当てることにより、次に示すような多くの
利点が得られる。
1 アルゴリズムの3つのフェーズはすへて、並列また
は同時に実行でき、その結果、高いスルプツトを達成で
きる。処理する問題に応して、並列化はアルゴリズム間
またはアルゴリズムの内部になる。
2 アルゴリズムを分割すれは、プログラミングが容易
になる。これは、問題の各部分を他の部分から独立して
解決できるからである。しかし、この利点が得られるの
は、プログラマか弁護に多くの同期事象を開始する必要
がない場合だけである。
3、各プロセッサのアーキテクチャは、問題全体の一部
だけを解決ずれはよいため、はるかに単純になる。
この結果、このアーキテクチャはマルチプロセッサ シ
ステムにおけるアルゴリズム・パーティションの一11
xに困難な問題に対して、単純な部分解を求めることに
よってその処理を容易にしている。
木出願で述へる革新的教示を利用し、プロセッサ間のイ
ンタフェースを非常に明確で、単純なものにすれは、多
くの利点を得ることかてぎる。さらに、その結果から、
また利益を得ることがてきる。
1 各プロセッサは、他のプロセッサに影響を与えずに
アップグレートできる。
2 まったく異なるタイプのプロセッサを数値プロセッ
サの1つ(またはそれ以上)と置き換えることかできる
。(この点については、この後詳しく説明する。) 3、明確なインタフェースにより、複数のユニットをサ
ボー1−できる。
4 ソフトウェアに対する投資を保護てきる。
プロセッサの1台をリプレースすることによりシステl
\か変更された場合、そのプロセッサ用のソフトウェア
たりを変更しなりねばならない。(多くの場合、新しい
マイクロコード定義によってソフトウェアを再アセンブ
ルするだけで十分である。) 浮動小数点プロセッサをデータ・キャッシュにリンクす
るために帯域幅の高いバスを使用することにより、この
アーキテクチャの機能をさらに向上できる。浮動小数点
プロセッサのスループットがその限界に到達するまで、
システム全体のスループットが向上される場合には、浮
動小数点プロセッサでのインタフェースに与える帯域幅
の制限は非常に重要になる。
さらに、このアーキテクチャでは、必要に応して複数の
浮動小数点プロセッサを使用でき、さらに、スループッ
1〜を向上で参る。つまり、アルゴリズム全体のスルー
プットは、算術演算のクリティカル・パスのスルーブツ
トにかなり近くなるまで向上できる。このことは、シス
テム全体のスルプツトを大幅に向上し、しかもGa A
sチップや光ライン・トライバなどの新しいデバイス技
術のために多くのコストを費やす必要がないことを不し
ている。
各プロセッサは別個にマイクロコーディングされる。し
たがって、この環境でのプログラミングは、これらの独
立したマイクロコード・ストリムを操作しなければなら
ない。これは、同期ポイントを除き、非同期である。し
かし、プログラミングを単純化し、プログラムを格納す
るのに必要な空間をできるだけ小さくするために、制御
プロセッサとのインタフェースはできるだけ制限し、制
御プロセッサが与えられたタイプのすべての算術演算に
対して同じ命令シーケンスを使用するようにしている。
たとえは、2つの配列を3番目の配列にマツプする操作
ては、すへて、どの操作を個々のスカラー要素に対して
実行するかとは無関係に、制御プロセッサに対して同じ
マイクロ命令シーケンスを使用する。(もちろん、(1
動小数点プロセッサの命令シーケンスは異なっている。
) このアーキテクチャでは、完全に非同期のマルチプロセ
ッサ・アーキテクチャのスルーブツトに関する多くの利
点が提供されるが、マルチプロセッサ・アーキテクチャ
で通常問題になるプログラミングの困難さ(およびプロ
グラミング・サボトの困難さ)の多くは回避されている
。つまり、このアーキテクチャにおける3つ(またはそ
れ以上)のプロセッサは、複数命令/複数データ・スト
リーム(MIMD)システムとして動作するが、プログ
ラミング環境は非常に単純である。
アクセラレータ・サブシステムの速度を算術演算ハード
ウェアで可能な最大の速度に高めるために、アーキテク
チャ上の多くの発明が行われている。たとえば、好適な
本実施例では、数値プロセッサ・モジュール130には
、32ビツトのハトウェア乗算器が含まれている。この
タイプの高速乗算器は、現在ては標準部品として一般に
販売されているか、このようなハードウェアを効率よく
使用するために高速システムを開発する場合の問題は非
常に多い。
このようなアーキテクチャを成功に導くためのいくつか
のキーポイントは、キャッシュの帯域幅に関連している
。キャッシュ140の可能なデータ速度は非常に高く、
これはシステム全体のスルーブツトを向上する上で非常
に重要な要素である。しかし、数値処理モジュール13
0の速度を犠牲にせずに、キャッシュと外部インタフェ
ースの間でデータを効率よく転送することも必要である
。つまり、数値モジュール130の内部の高速の実行速
度を利用するには、データ転送を実行している間、演算
プロセスを停止しないようにすることが非常に望ましい
もう1つの重要な要素は時間スケールである。
数値処理モジュール130は最大速度に設定される。つ
まり、制御機能はかなり単純にしなければならない。高
いレヘルの機能を実現するために、制御プロセッサ・モ
ジュールとデータ転送プロセッサ・モジュールを使用す
れば、この結果、これらのモジュールは低速で実行され
ることになる。
数値処理モジュール+30はキャッシュ+40をほかの
プロセッサと共有しなtプれはならないため、数値処理
モジュール130の場合におけるインタフェースの一時
的な状態は非常に微妙である。
したがって、データ・キャッシュ・メモリ140の構造
と、システム内でのキャッシュ・メモリとほかのブロッ
クとの関係は非常に重要である。
1つの重要な教示は、データ・キャッシュ・メ干す14
0が幅の広いキャッシュ・バス144によって浮動小数
点プロセッサ130に接続されていることである。好適
な本実施例では、キャッシュ・バス144には、データ
のために確保されている256の物理ラインがある。(
データ・ラインのほかに、制御ラインもここに示されて
いるいろいろなブロックをリンクする。) 非常に高いメモリ帯域(バンド)幅を実現するために使
用でとる基本方式は次に示す3方式たりである。
1、非常に高速のメモリ・デバイスを使用する。この場
合の問題は、経済性とサイズである。
非常に高速のメモリ・デバイスは非常に高価であり、場
合によっては、低速のメモリ・デバイスの価格の10倍
もすることがあり、デバイス当たりのストレージ・ビッ
ト数もさらに制限されている。この方式の主な利点は、
メモリ内でのデータ・レイアウトと無関係に帯域幅を改
善できることである(アドレス・ジェネレータが十分高
速であるものと仮定した場合)。
2、インターリーブしたメモリを使用する。インターリ
ーブしたメモリは従来、ダイナミックRAM (DRA
M)と組み合わせて使用されてきた。このようなメモリ
では、サイクル時間はアクセス時間より長くなる。この
方式では、2つ以上のバンクをインターリーブし、バン
ク間のタイミングをオフセットすることにより、大きな
利点を得ることがでとる。この方式の問題は、連続した
アクセスで同じバンクをヒラ]・し続ける場合や、(マ
ルヂポート・メモリで)別のポートを通してアクセスし
た結果、バンクの順次アクセスが妨害されるとぎに発生
ずる。この方式はスタティンク・メモリ(SRAM)と
組み合わせて使用できるが、アクセス時間とサイクル時
間か等しい場合には、DRAMはと魅力かない。
3 幅の広いメモリ・コー1〜を使用する。通路、メ干
すの幅はワードの幅と同じである。たとえは、32ビツ
ト・ワードを使用するシステムは、通常、32ビツトの
メモリ・アーキテクチャを使用する。しかし、ここて説
明するいくっかの発明事項では、キャッシュ・メモリに
対して非常に幅の広いローカル・バスを用いたシステム
か非常に有利であることを示している。
幅の広いメモリ構造は、連続に並んた多くのワードを並
列にアクセスすることにより、帯域幅を向上する。この
ような向上では、インターリーブ方式のメモリ・アーキ
テクチャの場合より必要とされるタイミングかはるかに
単純である。この方式の主な問題点は、順次アクセス以
外の場合、通フルのアーキテクチャと同程度にまて、9
1r域幅が低下するということである。
一部のポートまたはずへてのポートがメモリそのものよ
りはるかに低い111:域幅を持つようなマルヂポート
・システムでは、このメモリ・アーキテクチャには別の
利点かある。このような場合、受信側が後て数サイクル
にわたってアクセスするためにデータを収集する目的で
、何らかの中間ストレージ(通常はレジスタ)かある。
このような時間多重化したアクセスを実行している間、
メモリ・システムは帯域幅を必要としない。
もう1つの革新的教示は、マルチプロセッサ数値処理サ
ブシステムであり、このサブシステムでは、数値処理バ
ー1〜ウエアとのインタフェースは、多様な集積回路を
容易に採用できるような方法で制限されている。
本発明では、浮動小数点プロセッサとそのサポート・ロ
ジックかモジュールとして分離されてい3す るシステムを提供する。モジュール・インタフェースは
、浮動小数点チップ・セットから独立したものとして定
義される。したかって、異なる浮動小数点ユニットを使
用して新しいモジュールを没計てき、そのとき、システ
ムの他の部分を変更する必要はない。この方式の利点は
次のとおりである。
1、技術の進歩に伴って、より高速な浮動小数点ユニッ
トが提供されるようになる。ここで開示されている革新
的なアーキテクチャを使用すれは、新しいデバイスを採
用するのに必要な作業量はかなり少なくなる。
2、半導体メーカーは、開発時間、デバイス開発の能力
、デバイスの実際の性能に関して非常に楽観視している
。ここに開示されている革新的なアーキテクチャを採用
すれば、システム設語をさらに柔軟にすることができる
。したかって、集積回路メーカーに問題かある場合には
、システム設計者はただちに別のデツプ・セットを利用
てき、そのとき、システム設剖全体を変更する必要はな
い。速度を犠牲にせずに、このようなチップ独立性を達
成するために、キャッシュ・メモリから数値処理サブシ
ステムへのインタフェースで、非割に柔軟で高度にマル
チポート化したレジスタ・ファイルを使用している。ア
ルゴリズムを柔軟にするために、データ・キャッシュ・
メモリから数値処理サブシステムのコントロール・スト
レージへの並列書き込みか可能となっている。
浮動小数点プロセッサ・モジュール130ては、はとん
どずへての浮動小数点デバイスを使用てぎる。このよう
な柔軟性は、浮動小数点ユニットをサブシステムの他の
部分から分離し、(レジスタ・ファイルを通して)非常
に単純なインタフェースを提供したことにより達成され
ている。この方式の利点は非常に数多くある。
新しい(さらに高速の)浮動小数点演算ユニット(FP
U)か提供されるようになった場合、それを新しいモジ
ュールで採用し、演算中心型アルゴリズムでアクセラレ
ータ・システムの性能を向上てぎる。
l!先端の技術を利用する場合、常にFPLIのメーカ
ーがその部品の供給に関して問題を起こす可能性がある
という危険性を含んでいる。このような場合には、本発
明の新規な特徴により、ジI:・;;。
に簡単に別のFPUに変更できる。
どのアルゴリズムの場合も、浮動小数点プロセッサ・モ
ジュール130の部分だけを変更ずれiJよいため、ソ
フトウェアに対する投資は保護される。新しい定義によ
って浮動小数点プロセッサ・千ジュール130のマイク
ロコードを再度アセンブルすれば、はとんどの変更点を
網羅できる。これがあてはまらない場合には(新しいF
PUかまったく異なるものである場合)、マイクロコー
ドを書き直すことが必要である。しかし、浮動小数点プ
ロセッサ・モジュール130のルーチンは通常、単純な
算術演算のリストであり、条件制御はほとんど含まれて
いないため、この作業は簡単である。
多くの場合、数値処理モジュール130の演算チップを
変更しても、必要となる設計時間は数カ月にすぎない。
つまり、新しい世代のFPUを採用するために、非常に
短期間で製造変更を行うことかできる。
モジュール方式のアプローチと、マルチプロセッサ・サ
ブシステムの他の部分との単純なインタフェースの1采
用により、アルゴリズムによってカストマイズしたモジ
ュールの開発費用はかなり安くなる。このようなアルゴ
リズムによってカストマイズしたモジュールは、性能を
大幅に向上できる。
最大4つのプロセッサ・モジュールを1つのサブシステ
ムに容易に組み合わせることができる。
アルゴリズムの中には、プロセッサによって非常に制限
されているものがあり、2つ以上の数値処理モジュール
の間で作業負荷を分割することによって性能を向上でざ
る。(明らかに、アルゴリズムがキャッシュ・バッファ
のデータ転送速度によって制限されている場合には、複
数の数値プロセッサ・モジュール130を使用した構成
を採用しても、性能を向上することはできない。)アル
ボリズム固有のモジュールは、標準的な浮動小数点モジ
ュールと混在することができ、特定の分野では、標準的
な浮動小数点ブロモ・ンサ・二〇ジ5−ルの汎用処理機
能を犠牲にせずに、性能を向上できる。
異なるチップで必要となるルーティングや異なるビン出
力を補正するために、交換可能なサブボードを使用して
、算術演算チ・ンブをマウントする。
(以下余白) 好適な本実施例で提供する並列ロード帯域幅は非常に高
いため、これまでは実用的でなかった数値処理モジュー
ルのマイクロコードの動的ベージングも、多くのアプリ
ケーションで実用化することができる。
好適な本実施例では、各サブシステムは最大6つのマイ
クロコーディングしたプロセッサ(1つの制御プロセッ
サ、1つのデータ転送プロセッサ、および最大4つの浮
動小数点プロセッサまたはアルゴリズム・アクセラレー
タ)を含むことができる。これらの各プロセッサは独自
のWC5を備えている。各WC8には、マイクロコード
をロートするために書き込みが必要であり、また、診断
やブレークポイントの設定などのために読み取りが必要
である。
制御プロセッサにはマイクロコードが分散されている。
つまり、制御プロセッサ・モジュール110のマイクロ
命令アドレスとマイクロコード・クロックは、制御プロ
セッサのプライマリ・コントロール・ストア220に提
供されるだけでなく(デコーダ・ロジック260に適用
されるマイクロ命令をフェッチするため)、同じマイク
ロコード・クロックとマイクロ命令アドレスか2つ以上
の制御プロセッサの各拡張にも適用される(“CP拡張
ロジック″と呼ふ)。これらの拡張は各数値プロセッサ
・モジュール130(またしJアルゴリズム・アクセラ
レータ130)で複写される。このCP拡張ロジックに
は、書き込み可能なコントロール・ストア拡張490(
追加マイクロ命令フィールドを含む)とこれらのマイク
ロ命令フィールドをデコートするための一部のデコート
・ロジックも含まれる。 多くのアプリケーションては
、複数の浮動小数点プロセッサが共通のマイクロコード
を使用する。したかって、好適な本実施例でも、個々に
ではなく、同時にマイクロコードをロートする方法を採
用している。この結果、ダウンロード時間を短縮てきる
ここで説明するもう1つの革新的教示は、数値処理サブ
システムであり、このサブシステムでは、少なくとも4
つのプロセッサが同時に独立したプロセスを実行する。
このサブシステムには、?!数の数値プロセッサが含ま
れており、これらのプロセッサはすへて、並列に実行さ
れる制御フロセッサによって上位レベルで監視される。
制御プロセッサは上位レベルの監視作業を実行するたり
でなく、数値プロセッサ・千ジュールとの間のすべての
データ転送も直接制御する。数値プロセッサ・モジュー
ルは、非常に幅の広いキャッシュ・バス(256ビツト
が望ましい)に並列に接続される。データ転送プロセッ
サは、制御プロセッサおよび数値プロセッサのバックグ
ラウンドで、キャッシュと外部の間のデータ転送を管理
する。
数値プロセッサは、制御プロセッサおよびブタ転送プロ
セッサと非同期に動作する。数値プロセッサがデータ演
算を実行している間、制御プロセッサはアドレス演算を
実行し、ダブル・バッファへのキャッシュ転送を実際に
管理する。したがって、数値処理モジュールのスルーブ
ツトは大幅に向上される。
本実施例は、一部のプログラムが演算中心型繰作を各デ
ータ・セットに対して実行しなりれはならないようなシ
ステムの場合に特に魅力的である。
モジュール130は浮動小数点プロセッサであることが
望ましいが、多くの場合、もっと−数的に数値プロセッ
サと呼ぶ。下記に説明するように、種々の他のデータ演
算ユニットは、それぞれ少なくとも1つの独立したプロ
セッサを含んでおり、浮動小数点プロセッサ130に置
き換えることができる。
3種類のプロセッサ・モジュールを使用すれば、容易に
タスクを割り当てることができる。主なタスクの分担方
法は次のとおりである。
データ転送プロセッサは、外部インタフェースを通して
外部とのインタフェースを管理し、また、キャッシュ・
メモリと外部との間のデータ転送も処理する。
制御プロセッサ110は、アドレス演算を実行し、数値
処理モジュール130との間のすべてのデータ転送を制
御する。
数値処理量ジュール130はデータ演算を実行する。こ
のにうな作業分担をサポートするために、効率のよい高
速システムを設計するには、いくつかの重大なアーキテ
クチャ上の問題を解決しなりればならない。しかし、本
発明ではこれらの問題を解決し、非常に優れた結果を実
現している。
このようなアーキテクチャを容易に実現可能にするため
に、第1図の実施例には、いくつかの重要なハードウェ
ア機能が含まれている。まず、制御プロセッサ110に
は、アドレス演算のための非常に犬粗い演算容量が含ま
れている。好適な本実施例では、第2図に示すように、
このプロセッサにはシーケンサだけでなく、アドレス生
成ロジックと演算ロジック・ユニット(ALU)も含ま
れている。
データ転送プロセッサ120は、外部インタフェース・
コントローラの操作を監視する。好適な本実施例では、
実際に3つの外部インタフェース・コントローラがある
。このようなコントローラとして、VMEバス・インタ
フェース160か使用されており、また、2つのバック
ブレーン−バスのためのコントローラも含まれている。
(1つのバックブレーン・バスは°“データ・バイブ′
°であり、アクセラレータ間の帯域幅の高いリンクを提
供し、もう1つのバックブレーン・バスは゛GIPバス
”であり、イメージ・データやグラフィックス・データ
の転送のために最適化されている。)これらの3つのバ
ス・インタフェースにはそれぞれ、独自の制御ロジック
が含まれており、また、コントローラも含まれている。
たとえば、VMEバス・インタフェースには、高速のブ
ロック・データ転送のためのダイレクト・メモリ・アク
セス(DMA)コントローラが含まれている。しかし、
データ転送プロツセッサ120は、これらのすべてのイ
ンタフェースに対して上位レベルの監視機能を提供する
このアーキテクチャの重要な部分はキャッシュ・メモリ
140である。このキャッシュ・メモリには、非常に幅
が広い(256ビツト)だCづてなく、サイズが犬キ<
(少なくとも2メガバイト)、高速であり(本実施例で
は、アクセス時間は100ナノ秒であり、さらにそれ以
上に高速にすることもできる)、または効果的にトライ
ポート化することができる。メモリは物理的にはデュア
ル・ポートであり、制御プロセッサ110とデータ転送
プロセッサ120の間の仲裁は、マイクロコーディング
した命令によって達成される。
また、キャッシュ・メモリ140の3つのホトがまった
く異なっている点にも注意しなければならない。一般に
、大部分の数値処理サブシステムでは、キャッシュ・メ
モリと数値クランチング・コンポーネントの間の帯域幅
は非常に重要であった。したがって、好適な本実施例で
は、数値プロセッサ130に対するポートは、制御プロ
セッサおよびデータ転送プロセッサに対するポートより
はるかに広い(したがって、帯域幅がはるかに高い)好
適な本実施例では、制御プロセッサとデータ転送プロセ
ッサに対するポートは、わずか32ビツトの幅である。
さらに32ビツトポートで完全に並列なレジスタ・セッ
トを使用することにより、キャッシュ・メモリ140で
、このようなポートにおけるすへてのアクセスか完全に
並列なものとして見えるようにしている。つまり、25
6ビツトの並列読み取りまたは並列刊き込みが実行され
るように見える。
このように、このアーキテクチャは以前の多くのアーキ
テクチャが問題としていた点を解決している。従来のア
ーキテクチャでは、数値クランヂングのスループットと
キャッシュの帯域幅か重要なボトルネックになっていた
。好適な本実施例のアーキテクチャは、これらの制限を
排除しでいる。
事実、好適な本実施例には、この目的でさらにもう1つ
の重要なステップも含まれている。数値処理モジュール
130に対するインタフェースは、複数のモジュール1
30を並列に使用することができ、これらのすべてのモ
ジュールが1つの制御プロセッサ110の制御のもとで
実行され、すべてが共通のデータ・キャッシュをアクセ
スてきるように定義されている。キャッシュ・バス14
4の帯域幅が非常に高いことは、この結果を達成するた
めに重要な要素である。
制御プロセッサ110とデータ転送プロセッサ・モジュ
ール120の間のインタフェースは、キャッシュを効率
よく開発するための重要な機能を提供する。好適な本実
施例では、このインタフェースを改善するためにいくつ
かの重要な機能を採用している。まず、マイクロプログ
ラミングしたプロセッサで一般的に使用されているよう
に、制御プロセッサ110とデータ転送プロセッサ12
0の両方が可変時間命令を使用している。つまり、一部
の命令タイプは、ほかの命令タイプより長いサイクル時
間を必要とする。たとえば、非常に極端な例について考
えてみると、操作なし命令や無条件分岐は、はるかに短
いプロセッサ時間しか必要としない。したがって、プロ
セッサを定義するため″に一般に可変時間クロックが使
用されてきた。この場合、クロック・ジェネレータは実
行中の命令タイプを調べ、そのタイプに応じて、クロッ
ク間隔を調整する。
好適な本実施例では制御プロセッサ110とブタ転送プ
ロセッサ+20はどちらも、クロックとして共有の可変
時間クロックを使用している。
したがって、制御プロセッサ110とデータ転送プロセ
ッサ120は、別々の命令ストリームを同時に実行して
いる場合ても同期して実行できる。
明らかに、1つのプロセッサが短いサイクル時間を要求
した場合には、そのプロセッサは、もう方のプロセッサ
か要求した長い時間を生成するために、クロックを一時
的に遅くしたとぎに、少し効率か低下する。しかし、イ
ンストラクションの大部分はもっとも短いサイクル時間
を指定するため、この効率の低下は非常にわずかである
さらに、別のレベルの仲裁機能も提供される。
制御プロセッサ110には、キャッシュ・メモリ140
をアクセスするための優先順位か与えられる。つまり、
データ転送プロセッサ120は、キャッシュ・アクセス
を実行する前に、キャッシュ。
アクセスが制御プロセッサ110によって割り込まれて
いないかどうかを必ず確認しなければならない。しかし
、ロック・アウトを防止するために、データ転送プロセ
ッサ120には、割り込み信号が与えられており、制御
プロセッサ110に対して、少なくとも1サイクルの間
だけ、キャッシュ・ポート142の制御を解放するよう
に要求することができる。
もちろん、本発明のサブシステムの特徴は、全体として
のコンピュータ・システムの特徴てもある。さらに、こ
こで述へる革新的教示の多くは、第1図に示すような独
立したサブシステムを含まないコンピュータ・システム
にも採用できる。つまり、より単純な構造のスタンドア
ロン・コンピュータ・システムにも採用できる。しかし
、第1図はここに開示された発明の詳細な説明する現在
好適なヘストモートであり、したがって、説明の大部分
は、第1図、あるいは第9A図、10、または43図に
示した実施例をもとにしている。
好適な実施例には、数値プロセッサからキャラシュへの
データ・インタフェースを制御するーrンタフェース・
ロジックにおいて、いくつかの重要な特徴がある。これ
らの特徴については、下記に詳しく説明する。
非常に幅の広いバスと高度にマルチポート化されたレジ
スタ・ファイルを使用すると、コストか高くなるという
問題かある。好適な完全な機能を備えたレジスタ・ファ
イルをバスと同じ幅(256ビツト)にした場合には、
コストは非常に高くなる。したかつて、好適な本実施例
では、64ビツトのレジスタ・ファイルを使用している
ホールディング・レジスタ420 (256ビツト)と
高速レジスタ・ファイル430 (64ビツト)の間の
幅の相違は、これらの2つの要素の間のデータ転送を4
つの部分にシリアル化しなりればならないことを示して
いる。(しかし、多くの場合、特定の計算のために8ワ
ード(つまり256ビツト)全部が必要となることはな
いため、処理時間とレジスタ・ファイルの記憶空間は、
必要な部分だりを転送することにより節約てきる。) このインタフェースて使用する転送ロジックは、必要な
データ転送を実現するだけてなく、データ転送の非同期
的な性質も実現する。これは、ホールディング・レジス
タの一方が制御レジスタとデータ・キャッシュ・メモリ
とのインタフェースをとり、もう一方が数値処理ハード
ウェアと同じタイミング領域にあるレジスタ・ファイル
とのインタフェースをとらなければならないからである
さらに中間クロック・ドメインを使用して、データ・キ
ャッシュ・メモリ140(CPクロック・ジェネレータ
250によって制御される)とレジスタ・ファイル43
0の内部バンク(FPクロック・ジェネレータ480に
よって制御される)の間の転送を実現している。この中
間クロック・ドメインは、CPクロック・ドメインと同
X)]がとられる。
浮動小数点演算ユニットとデータ・キャッシュ・メモリ
の間のクロック境界は非常に重要な境界である。この境
界は、単にクロック・フェーズ境界と交差するたけてな
く、クロック周波数の大幅な差も妨害する。さらに、す
でに述べたように、この境界と交差する転送帯域幅も重
要である。
好適な本実施例では、この境界を2つのステップで橋渡
しする。
レジスタ・ファイル・インタフェースのダブル・バッフ
ァリングは、FPタロツク・ドメインから状態変化クロ
ック・ドメインへの転送を提供する。
高速多重化転送(レジスタ・ファイル430の外部バン
クからFPホールディング・レジスタ4200FPイン
タフエースへの転送)は、状態変化クロック・ドメイン
の内部で発生する。
ホールディング・レジスタ420からデータ・キャッシ
ュ・メモリ140への転送は、完全にCPクロック・ド
メインの内部から発生する。
このクロック周波数の差に関して、−数的に注意しなけ
ればならない点を述べる。
小さい転送サイクル時間と最低のFPサイクル時間の関
係は偶然的なものではない。すでに述へたように、キャ
ッシュの帯域幅に対する最悪の負荷は、ダイアダクチイ
ック(diadactic)操作から発生する。たとえ
は、ベクトル加算では、2つのオペランドと1つの結果
をキャッシュからレジスタ・ファイルに移動しなければ
ならない。レジスタ・ファイルのFPU側では、2つの
オペランドが並列に読み取られ、(これとのパイプライ
ンにより)結果はレジスタ・ファイルに同時に書き込ま
れる。したがって、最悪のケースでは、演算ユニットの
各演算サイクルに対して、2ワードをレジスタ・ファイ
ル430に書き込み、1ワードを書き込まなければなら
ない。すべての操作がdiadactic操作であるわ
けではないが、平均的な転送負荷はそれほど望ましいも
のではない。状態変化クロック・ドメインを使用した実
施例では、すでに述へたように、このことは、小さいサ
イクル当たりに転送されるワード数によフて除算した小
さいサイクル時間が、FPUにおける演算サイクルの最
小時間に172〜1/3を乗算した範囲でなければなら
ないことを示している。
状態変化クロック・ドメインでの転送スルーブツトを最
大限に向上するのに役立つ機能は、高速レジスタ・ファ
イルの一方にだけあるダブル・ワード・インタフェース
である。つまり、レジスタ・ファイルはキャッシュ・メ
モリの側から見ると、64ビツトの幅であるかのように
見える。しかし、FPU側では、32ビツトの幅である
かのように見える。この結果、ワード・アドレスに奇数
/偶数構造が発生ずるが、この奇数/偶数構造によって
発生する可能性のある問題は、いくつかの新しい機能に
よって回避されている。これらの問題は回避することが
できるため、ダブル・ワド・インタフェースは、制御プ
ロセッサおよびデータ転送プロセッサとキャッシュ・メ
モリの間のインタフェースをとる。好適な本実施例では
、キャッシュは物理的にはデュアル・ポートであるが、
トライポートであるかのように使用されている。
好適な実施例とアーキテクチャは、特定のクラスのアル
ゴリズムを非常に効率よく実行できるように考えられて
いる。しかし一般に、大量の°゛順にならんでいない″
スカラー演算や複雑な条件制御を含むアルゴリズムを実
行する場合には、それほど効率的でない。好適な実施例
のサブシステムは、条件制御をほとんど含まず、動的数
値範囲が大ぎい縁り返し演算シーケンスを含むアルゴリ
ズムを実行するときに、最大の威力を発揮する。このカ
テゴリには、次の操作が含まれる。
ベクトル演算:これらの演算には、2つの配列を加算す
るなどの、数値配列に対する操作と、数値配列間の操作
が含まれている。
信号/イメージ処理:この処理には、回線、FIRフィ
ルタ、高速フーリエ変換(FFT)、および統計などの
操作が含まれる。ヒストグラムとマツピング・アルゴリ
ズムは、浮動小数点プロセッサの整数処理機能を使用す
ることによりかなり効率よく実行できる。
グラフィックス:このアーキテクチャは特に、変換、交
差、透視演算に適している。このアルゴリズムを正しく
分割ずれは、隠面消去やクリッピングなどの複雑な操作
(つまり、条件制御か必要となる機能)も容易に実現で
きる。
好適な本実施例で実現されCいる顕著な機能と特徴は次
のとおりである。1)現実のアルコリズムに対して非常
に高い浮動小数点性能を備えた数値クランチング・モジ
ュール(50MフロップLJ上)、これはかなりの時間
にわたって維持できる。2)独立した高速入出力機能 
浮動小数点演算と並列に実行でき、浮動小数点演算の速
度には影響を与えない。3)容易なマイクロコード・フ
ログラミング。4 ) ’li!’域幅が高く、大きい
データ・メモリ、データ中心型演算をフル・スピードで
サポートできる。5)多彩なインタフェースが提供され
る。6)このアーキテクチャは、“将来の技術進歩に対
応てきる°°設計てあり、より高速のコンポーネントが
提供されるようになった場合には、そのコンポーネント
を直ちに採用でき、そのとき、ハードウェアとラフ1−
ウェアはほとんど変更する必要かない。7)マルヂアク
セラレータ構成を使用でき、パイプライン方式または並
列(パラレル)方式でサブシステムを追加することによ
り、全体としてのシステム性能を向上できる。
ここで述へるもう1つの革新的教示は、1つまたは複数
の数値プロセッサと、少なくとも1つのアプリケーショ
ン・カス1〜マイズした(アプリケジョン向け)プロセ
ッサ(または゛アルゴリズム・アクセラレータ″°)を
含む’Al11サブシステムである。アプリケーション
向け(カストマイズした)プロセッサは、離散フーリエ
変換操作などの部の特定の操作のために特に選択されて
いる。
数的な数値演算に対しては、汎用数値プロセッサを使用
して、かなり高速の処理速度を提供する。制御プロセッ
サはほかのプロセッサと並列に実行され、それらのプロ
セッサから見えない多くのタスクを実行できる(アドレ
ス演算やデータ転送など)。また、独立したデータ転送
プロセッサを使用し、外部インタフェースの条件に対応
する。また、このデータ転送プロセッサは、数値プロセ
ッサやアプリケーション固有のプロセッサとは別に、へ
ツクグラウンドて並列に実行される。
専用コンピュータは、その専門分野ではπに、汎用コン
ピュータより優れた性能を持つことはJ:く知られてい
る。第1図に示すサブシステムは、それ自体を専用コン
ピュータ(アレイ・プロセッサまたはベクトル・プロセ
ッサ・タイプ)であると考えることができるが、アルゴ
リズム・アクセラレータ(またはアプリケーション・ア
クセラレタ)を追加ずれば、さらに専用コンピュータと
しての機能を向上てきる。アルゴリズム・アクセラレー
タは、汎用浮動小数点プロセッサ・モジュールの代わり
に使用でき、また、汎用浮動小数点プロセッサ・モジュ
ールと組み合わせても使用できる。
アレイ・プロセッサの大部分のユーザは、大量の演算で
構成される1つまたは2つのアルゴリズムを使用する。
このような場合、この特定のアルゴリズムに適した設計
であるハードウェアを使用すれば、汎用浮動小数点プロ
セッサ・モジュールよりはるかに性能を向上できる。た
とえば、高速フーリエ変換(FFT)アルゴリズムは、
信号処理とイメージ処理で非箔に重要である。標準的な
浮動小数点プロセッサは、IKの複素数FFTを16ミ
リ秒て実行てきるが、本発明の1つの実施例が提供する
FFTアルゴリズム・アクセラレタは、同じFFTを2
00マイクロ秒で実行できる(同等のコンポーネン1〜
を使用した場合)。
FFTアルゴリズムは一部のユーザにとって非常に重要
であり、汎用演算機能より重要視されることがある。こ
のような場合には、4つのFFTアクセラレータを使用
して、FFT時間を50マイクロ秒まで短縮てぎる。こ
れは、汎用浮動小数点プロセッサを使用した場合より非
常に大幅な性能の向上である。
アプリケーション用にカストマイズしたプロセッサは、
アプリケーション用にカストマイズした数値プロセッサ
であるのが好適である。しかし、アプリケーション用に
カストマイズしたプロセッサは、シンボリック・プロセ
ッサ(つまり、LlSPやPROLOGを非常に高い効
率で実行するのに必要な特別なデータ・パスを備えたプ
ロセッサ)やニューラル・ネットワーク・マシンなどの
ように、最先端の機能を採用したプロセッサでもかまわ
ない。(しかし、このようなケースはあまり望ましくな
い。) ここで述へるもう1つの革新的教示は、マルチプロセッ
サ数値処理サブシステムであり、このサブシステムは、
ホスト・システムの制御のもとで、新しい方法でばかの
このようなサブシステムと組み合わせて使用できる。こ
のようなサブシステムを2つ以上組み合わせて構成する
場合には、各サブシステムは少なくとも2つの帯域幅の
高い入力ポートを持ち、少なくとも1つの帯域幅の高い
出力ポートを持つ。この結果、高度にバイプライニング
および並列化された多彩なアーキテクチャを容易に実現
できるようになる。この概念を採用すれば、マルチプロ
セッサ・サブシステムは、バックブレーンとは無関係に
、かなり長い距離にわたって、多くのトポロジのいずれ
でも接続することかてぎる。
好適な本実施例では、これらのサブシステム間の各バス
(゛データ・タイプ”とも呼ぶ)は、40メガバイト/
秒の速度で32ビツト転送をサポートし、受信側てはF
IFO方式でバッファに格納される。各サブシステムに
は、2つのデータ・タイプ入力インタフェースと1つの
出力インタフェースが含まれている。出力タイプは独立
したクロックを備えているため、2つの入力タイプにデ
イジー・ヂエーン接続した場合、データは各入力タイプ
に個々にルーティングするか、または同時にルーティン
グすることができる。出力バイブはまた、各入力バイブ
のFIFOから1つずつ、2つの状態信号を受は付ける
ことかできるため、データ転送が一時停止したときに、
そのことを知ることがで籾る。
部のアルゴリズムやアプリケーションは、このようなサ
ブシステムを並列化またはバイブライン化し、演算の作
業負荷を分散することにより、全体としての性能を向上
てきる。たとえば、このようなバイブライニングしたサ
ブシステムは特に、高性能の3次元グラフィックス・ワ
ークステーションを開発するとぎに役立つ。
直接にデイジー・ヂエーン接続した複数のサブシステム
を使用ずれは、データを共有することかできる。この場
合、゛°マスタ・サブシステム゛°はポスト・メ千りか
らデータを11又果し、データ・タイプ接続を通して、
そのデータをほかのすべCのサブシステムと共有する。
このようにすれば、各サブシステムがそれぞれデータを
収集するのではなく、1つのサブシステムだCづがデー
タをフェッチすればすむため、ホスト・バスの帯域幅を
節約できる。
データ・タイプはまた、Cambridge  Rin
gなどのトークンを受は渡しするネットワークを効果的
に形成するためのリングとして接続できる。データ・タ
イプに送られるデータの内容と意味は、ソフトウェアに
よって制御されるが、データは通常、メツセージ・パケ
ットの形態である。
データ・タイプは特に、サブシステム間通信のために採
用されているが、他の周辺装置に接続する場合にも使用
できる。維持できる入出力速度は40メガバイト/秒で
あるが、バースト入力速度はもっと速い。バースト入力
速度は、ケーブル接続の電気的特性によって制限される
が、1データ・タイプ入力に対して、最高160メガバ
イト/秒まで達成できる(また、両方の入力が並列化さ
れている場合には、適切なバッファ・カードによって、
最高320メガバイト/秒を実現できる)。
(以下、第101頁に続く) [実施例コ 以下、図面を参照して本発明の実施例を計則に説明する
(目次) 実施例     、、、、、、、、、、、、、、、、、
、、、、、、、、lI2概要説明   、、、、、、、
、、、、、、、、、、、、、、、、、+12設語目1票
 、、、、、、、、、、、、、、、、、、、、、、、、
、、I21アルゴリズムの分割  、、、、、、、、、
、、、、、122アーキテクチヤの説明 、、、、、、
、、、、、、、、125cpモジユール11Oの概略 (第2八図)  、−、、、、:、、、、、、、、、、
、、、、、、U6DTPモジュール120の概略 (第3A図)  、、、、、、、、、、、、、、、、、
、、、、、、、I28FPモジユール130の概略 (第4A−4C図)  、、、、、、、、、、、、、、
、、、、、、1310CMの概略 (第5図) 、、、
、、、、、、、、、、、1340M190の概略、、、
、、、、、、、、、、、、、、、、、、、137外部イ
ンタフェースの概略、、、、、、、、、、139制御プ
ロセツサ(CP)モジュール110 、、、、+42整
数プロセッサ機構(It”U)240.、、、、、、、
、.15071−レス生成機構(八G)230、、、、
、、、、、、、.152シーケンサ210と関連支援ロ
ジック、155割込み     、、、、、、、、、、
、、、、、、、、158浮動小数点プロセッサ(一般)
 (+61)条件コー1〜・ロジック     、、、
、、163マイクロ・アドレス・バス、、、、、、、、
、、168定数フイールド、、、、、、、、、、、、、
、、、、、、、170書込み可能制御記憶機構(WO2
)220.、、、、.171WCSインタフエース・レ
ジスタ 222と223 、、、、、、、、、、、、、、、、、
、、、、、−172FP制御ロジツク、、、’、、、、
、、、、、、、、、、、、、、、175その他のロジッ
ク 、、、、、、、、、、、、、、、、、、、175モ
ート・レジスタ203 (1751;CDバス・デコー
ド・ロジック(176)クロック発生機構250、、、
、、、、、、、、、、、、.178デバツグ・ハードウ
ェア、、、、、、、、、、、、、、184マイクロコ一
ト語の形式、、、、、、、、、、、、、185データ転
送プロセツサ・モジュール120、.198データ転送
の制御  、、、、、、、、、、、、、、、、201整
数プロセッサ機構340、、、、、、、、、、、、、.
208+01 シーケンサ310と関連支援ロジック  208割込み
  、、、、、、、、、、、、、、、、、、、、、、、
、2011条件コート・ロジック 、、、、、、、、、
、、、211マイクロ・アドレス・バス311、、、、
、.216定数/次アドレス・フィールド 、、、、、
21Gマルチウ工イ分岐、、、、、、、、、、、、、、
、、、、、、211+書込み制御記憶機構(WO2)3
20.、、、、、、、、.220DMAコントローラ、
、、、、、、、、、、、、、、、、、、、221その他
のロジック、、、、、、、、、、、、、、、、、、、、
221モード・レジスタ(221) 、TDバスデコー
ト(222)、クロック発生 機構(224) デパック・ハードウェア 、、、、、、、、、、、、2
24マイクロコ一ド語の形式、、、、、、、、、、、、
、、225マイクロコード拡張バス、、、、、、、、、
、、、、、233数値プロセツサ・モジュール+30、
、、、、、、.234浮動小数点算術演算機構(FPU
) 、、、、、、、、238算術計算機構440と45
0、、、、、、、、、、、.239スクラツチバツト・
メモリ1810.、、、、.244高速レジスタ・ファ
イル430、、、、、、、.241i2重ハソファリン
グ 、、、、、、、、、、、、、、、、252非レジス
タ・ピッ1−のセラ1−フ9プ時間短縮  、、、、、
、、、、、、、、、、、、、、、、259キヤツシユ・
バス・インタフェース と制御 、、、、、、、、、、、、、、、、、、、、、
、、、、、、、262保持レジスタ420、、、、、、
、、、、、、、、、、、.262データ・キャッシュ転
送ロジック 、、、263局所転送バス制御ロジック(
264) 。
転送りロック発生機構412(264)制御信号(26
9) 転送の制約条件(缶詰構造) 、−、、、、,273保
持レジスタ/転送りロック動作、、、、278FPプロ
グラム制御、、、、、、、、、、、、、、、、、、、、
279マイクロ命令順序付け(279)。
スタック・レジスタ478 (281) ;サブルーチ
ンの動作(283) 、クロック発生機構480 (2
83) 、マイクロコード短縮(286)、マイクロコ
ードの並列ロート(289) :FPマイクロコード・
ルーヂン実行の始動(291) FPモジュールの選択(292)、制御レジスタ(29
4) マイクロコード語の形式 149.。
プログラムの流れの例4490.。
デバッグ・ハードウェア91.。
アプリケーション向きプロセッサ・ モジュール13O FFT高速化モジュール9319.。
データ・キャッシュ・メモリ・ モジュール140 メモリ構成 データ・ポート cp転送ロジック DTP転送ロジック540・・・・・・仲裁ロジック5
35 コマンド・メモリ190 、、、、、、、、、、、、、
、。
ホスト・インタフェース・ロジック11i0物理的バス
線とのインタフェース1.。
バス・コントローラ650 (343) 。
マスク・モードとスレーブ・ 、301 10C 、314 モート(3II5)、データ・バッフ7620 (:J
17) 、アドレス・バッファ1i30(347) VMEインタフェース・メモリ660、、、、、.34
7メモリ・マツプ、、、、、、、、、、、、、、、、、
、、、、、347データFIFO670,、、、、、、
、、、、、、、、、、、、、、,350VME割込ミロ
シック680、、、、、、、、、、、、、.351DM
^コントローラ640、、、、、、、、、、、、、、、
.351マイクロコード・ロード制御 ロジック610、、、、、、、、、、、、、、、、、、
、、、、、.354レジスタ・ブロック612、、、、
、、、、、、、、、.355制御レジスタ・ビット(3
55)。
ストローブ・バッファ(358)。
状況レジスタ(360) :wcs制御レジスタ(36
1) 、WCSデータ・レジスタ(366) ;cpマ
イクロ アドレス・レジスタ(367)。
DTPマイクロアドレス・ レジスタ(367) データ・パイプ・インタフェース 0シツク150 、、、、、、、、、、、、、、、、、
、、、、、、、、、:169画像プロセッサ・インタフ
ェース170、、、.373直列ループ・インタフェー
ス 、、、、、、、376制御記憶機構とのループ・ インタフェース、、、、、、、、、、、、、、、、、、
、、、、37フルーブ制御、、、、、、、、、、、、、
、、、、、、、、、、、、378ループ・トポロジ、、
、、、、、、、、、、、、、、、、、、381ホストと
のループ・インタフェース  、386DTPマイクロ
コード拡張ループ、、、、、、、、381i並列マイク
ロコード・ローディング  、、387モジユール拡張
オプシヨン、、、、、、、、、、、、、、391モジュ
ール接続、、、、、、、、、、、、、、、、、、、、、
、392多重数値処理千ジュール、、、、、、、、、、
、、、、394キヤツシユ・メモリ拡張、、、、、、、
、、、、、、、399物理的および電気的実装ボード、
、、、、、、、、、399PAL実装、、、、、、、、
、、、、、、、、、、、、、、、、、、、、405CP
  PAL、、、、、、、、、、、、、、、、、、、、
、、、、、、、、406クロツク波形生成PAL250
 (406) 。
CDバス・ソースPAL (408) ;coババス先
1’AL(409) 、符号/ゼロ拡張PAL、211
i(410) ;マルチウェイ分岐アドレス指定PAL
217 (411) :データ入力条件コート選択PA
L(412)DTPとI/F PAL 、、、、、、、
、、、、、、、、、、、、412VME 7ドl/スー
プコードPAL(413)。
DM八へIFO状況とクロック制御PAL(,413)
、VME読取りと書込みデコードPAL611 (41
4) 、VMEスレーブ・アクセス・タイミングPAL
(414);信号ループ制御PAL(415) DCMとDCM I/F PAL 、、、、、、、、、
、’、、、、、、4180CMアドレス・デコードPA
L(418)。
DCM保持レジスタ制御PAL(419):80M書込
みフラグ・レジスタ PAL(421) 、FP書込みマスクPAL(423
)P PAL WCSロード・イネーブルPAL (423) 。
ホスト−ソース・モジュール 選択PAL(423) ;cpモジュール選択PAL 
(425) ;pp−wcs制御PAL (426) 
ハントシェーク・ロジックI】Δ1.(428)割込み
捕捉PAL(432)、マイクロアドレスとクロック制
御 +1AL(432);直列/並列ロート選択T’AL 
(43,3) ;cp書込みデコートPへL(434)
、CP読取りデコートPAL(435) 、保持レジス
タ制御PAll161F436) 、保留レジスタ開始
アドレスPAL (439) 、レジスタ・ファイルW
E制御(439)、レジスタ・ファイル・アドレス修飾
PへL(4411);レジスタ・ファイル・アドレス 増分機構(441)、データ有効性制御PAL(442
) 、マイクロ命令アドレス選択PAL (442) 
、ALII問題状況PAL(443)スタック制御PA
L3910(444)レジスタ・ファイル・アドレス 修飾子PAL (445) 、結実用バス制御PAL(
447) 、VME割込みPへL(448)DMA/V
ME ス−i−−1−・7 シン(449)DM八へド
レス制御(452)、割込み縁捕捉(452) GIPマイクロコード・デコー1〜 (453A) 、GIP割込みマスク(453[1)G
IP割込みステート・マシン(454)ホスト・コンピ
ュータ、、、、、、、、、、、、、、、、、、454ホ
ストとのバス・インタフェース 、、、、ll56画像
プロセッサ・サブシステム、、、、、、、、457シス
テムの動作 、、、、、、、、、、、、、、、、、、、
、、、459サンプル動作の実現、、、、、、、、、、
、、、、、、、、459物理メモリ・モデル (CPZDTP間のやりとり) 、、、、、、、、、、
、、、、461仮想メモリ・モデル、、、、、、、、、
、、、、、、、、470cpとFP間のやりとり 、、
、、、、、、、、、、、、、、l178ソフトウ工ア階
層、、、、、、、、、、、、、、、、、、、、484ア
プリケーシヨンとライブラリ・ ソフトウェア、、、、、、、、、、、、、、、、、、、
、、486装置トライバ   、、、、、、、、、、、
、、、、、487マイクロコード監視ルーチン、、、、
、、、489マイクロコード転送ルーチン(DTP) 
、、491マイクロコード転送ルーヂン((:P)、、
、、492マイクロコード泪算ルーヂン(FP)119
3短縮マイクロコード、、、、、、、、、、、、、、、
、、、495マルヂウ工イ分岐、、、、、、、、、、、
、、、、、、、、、496離散フーリエ変換実装、、、
、、、、、、、、、、、、、、497多重FPモジュー
ル付きFFT 、、、、、、、、、、、、503バタフ
ライ計算スルーブツト(504)。
転送バンド幅(505) ヒストグラム・アルゴリズム実装、、、、、、、509
プレビユー・モートのパイプライン方式%式% 本出願の数多くの新規な開示技術について、本発明の好
適実施例に特に関連づけて説明するが、これらの新規開
示技術は、ホスト・コンピュータの指示を受りて稼動し
て高速数値計算を処理するサブシステムの特有の問題に
応用できる利点がある。(この種のサブシステムは一般
に「高速化ボード」と呼ばれている。)しかし、本実施
例は、本明細書に記載されている新規開示技術の多数の
有利な用途の1つの例にすぎないことは勿論である。例
えば、本明細書に開示されている各種アーキテクチャ上
の新規技術は、広範囲にわたるコンピュータ・システム
に任意選択的に応用が可能である。−数的に、本明細書
に記載されている内容は特許請求の範囲に記載の梯々な
発明の範囲を必ずしも限定するものではない。さらに、
記載内容によっては、本発明の特徴事項に適用されるも
のと適用されないものとがある。
概要説明 以下では、第1図に示すものと同じシステムの実施例(
または第9A、10.41、または43図に示す代替実
施例)に特に関連つりで本発明を説明することにする。
これらの実施例の特徴事項は本発明の必須事項のすべて
であるとは限らず、好適実施例を説明するために便宜的
に示したものである。
第1図は、数値処理システムのアーキテクチャを示した
概念図であり、通常大型コンピュータ・システムのサブ
システムとして使用されるものである。第1図に示すよ
うなシステムは一般に「高速化ポート」と呼ばれている
。これらは通常サブシステムとして使用されている。つ
まり、監視プロセッサから高水準コマンドがこの高速化
サブシステムに与えられる。例えば、監視プロセッサは
高速化サブシステムにベクトル加算、行列反転、高速フ
ーリエ変換(FFT)の実行を命令することができる。
高速化サブシステムはこの命令を受りて監視プロセッサ
が指定した記憶位置からデータを取り出し、数値処理操
作を実行し、その結果を監視プロセッサに返却する。
第1図は、3つの異なるプロセッサ・モジュールかうな
り、そのすべてが異なるタスクを同時並行に実行できる
アーキテクチャを示している。これらの3千ジユールと
は、制御プロセッサ(CP)モジュール110、データ
転送プロセッサ(DTP)モジュール120、数値処理
モジュール+30である。
(この数値処理モジュールは浮動小数点処理モジュール
であることが好ましく、従ってこのモジュールは”FP
”モジュールと呼ばれることが多い。数値処理モジュー
ルは、以下で説明するように、他にも各種タイプのもの
が使用可能である。)数値処理子ジュール130は他の
2つのプロセッサと非同期に、つまり、完全に独立した
クロックで稼動する。さらに、外部インタフェース15
0.160,170,180にも相当量のロジックが備
わっている。
データ・キャッシュ・メモリ14Gの構造と、システム
内の他のブロックとの関係は非常に重要である。データ
・キャッシュ・メモリ140は広幅キャッシュ・バス1
44を経由して浮動小数点プロセッサ130に結ばれて
いる。好適実施例では、キャッシュ・バス+44は、デ
ータ用に予約された256木の物理線から構成されてい
る。
これらの3種類のプロセッサ・モジュールはタスク割振
りを容易にする。タスク割振りは基本的には次のように
行なわれる。
データ転送プロセッサは、外部インタフェースを通して
外部世界とのインターフェースを管理すると共に、キャ
ッシュ・メモリと外部世界との間のデータ転送を取り扱
う。
制御プロセッサ110はアドレス計算を行ない、数値処
理モジュール130との間で送受されるすべてのデータ
転送を制御する。
数値処理モジュール130はデータ計算を行なう。
このタスク割振りを効率よく、高速にサポートするシス
テムを設計するためには、いくつかの重要なアーキテク
チャ上の問題を解決する必要がある。しかし、本発明に
よれば、これらの問題が解決され、驚異的な成果が得ら
れる。
かかるアーキテクチャの実現を容易にするために、第1
図の実施例では、注目ずへぎバー1−ウェア機構かいく
つか設りられている。第1は、制御プロセッサ110に
、アドレスB1算操作のための強力な機能をもたせたこ
とである。好適実施例では、第2図に概要を示すように
、このプロセッサはシーケンサだけでなく、アドレス生
成ロジックと算術論理演算機構(ユニット) (ALI
I)も備えている。
データ転送プロセッサ120は外部インタフェース・コ
ントローラの動作を監視する。好適実施例では、外部イ
ンタフェース・コントローラは実際には3つ設けられて
いる。つまり、 VMEバス・インタフェース+60と
、2個のバックブレーン・バスに対する制御装置である
。(一方のバックブレーン・バスは「データ・パイプ」
であり、高速化ボード間を高バンド幅リンクで結ぶもの
である。もう一方はr GIPバス」であり、画像や図
形データの伝送を最適化するものである。)これらの3
つのバス・インタフェースの各々は、独自の制御ロジッ
クと好ましくはコントローラを備えている。例えば、V
Mliバス インタフェースはブロック・データ転送を
高速化するために、直接メモリ・アクセス(DMA) 
 コントローラを備えている。
しかし、データ中云送フ゛ロセッ4Ji20はこれらの
インタフェースを高度に曽視する機能を備えている。上
記アーキテクチャの最も重要な部分はギヤッシJ−・メ
モリ1/lOである。このキャッシュ・メモリは幅が広
< (256ビツト幅)、大容量てあり(少なくとも2
メガバイト)、高速であるが(現構成ではアクセス時間
か100ナノ秒であり、J:り高速化することか好まし
い)、それだりてなく3つのポートを備えて効率化を図
っている。このメモリは物理的には2ポートだけにする
のが好ましく、制御プロセッサ110とデータ転送プロ
セッサ120間の仲裁はそれぞれのマイクロコード命令
方式で行なわれる。
さらに7主目すべきことは、キ・ヤッシュ・メモリ14
0の3ポートが全く異なることである。−数的に、大部
分の数値処理サブシステムでは、キャッシュ・メモリと
数値処理構成機構(ユニット)間のハント幅か非−;:
・、に重要になっている。従って、好適実施例では、数
値プロセッサにつながるボ1−は制御プロセッサとデー
タ転送プロセッサにつながるボー1−よりも幅か広くな
っている(従って、ハント幅か広くなっている)。好適
実施例では、後者のポートはわずか32ビツト幅である
。さらに、完全並列レジタ群か32ビツト・ポートで使
用されているので、これらのポートに対するすべてのア
クセスはキャッシュ・メモリ140からは完全に並列、
つまり、256ビツト並列読取りまたは書込みとして見
えるようになっている。
数値処理モジュール+30とのインタフェースは、複数
のモジュール130がすべて1つの制御プロセッサの制
御を受けて並列に使用でき、すべてが(好ましくは)1
つのデータ・キャッシュ・メモリ140をアクセスでき
るように定義されている。キャッシュ・バスの幅を極端
に広くすることは、この複数モジュール機能を実現する
上で重要な要因となる。
制御プロセッサ110とデータ転送プロセッサ・モジュ
ール120間のインタフェースにb、ギA・ノシュを効
率よく利用できる重要な機能を備えている。好適実施例
では、重要な機能のいくつかは、このやりとりの利点を
向上するために使用されている。第1は、多重プログラ
ミング プロセッサでは普通に行なわれていることであ
るか、制御プロセッサ110とデータ転送プロセッサ1
20か共に可変継続時間命令を使用していることである
。つまり、ある種の命令タイプは、他の命令タイプより
もサイクル時間を大幅に長くする必要がある。
例えば、極端な例として、ノー・オペレーション命令や
無条件ブランチは、乗算命令よりもcpu時間を大幅に
少なくする必要がある。従って、可変継続時間クロック
を使用してプロセッサの制御を行ない、実行中の命令を
クロック発生装置にチエツクさせて、クロック時間間隔
の継続時間をそのチエツク結果に応して高速に調整する
ことか一般化されている。
木好適実施例では、制御プロセッサ110とブタ転送プ
ロセッサ120は共に共用可変継続時間クロックにより
クロックがとられる。従って、制御プロセッサ110と
データ転送プロセッサは、たとえ別々の命令ス[・リー
ムを同時に実行中であっても、同期して稼動するように
イネーブルされる。
制御プロセッサ110にキャッシュ・メモリ140への
アクセス優先権が与えられている。つまり、データ転送
プロセッサ120は、制御プロセッサ110が先にキャ
ッシュをアクセスしていないことを確かめてからキャッ
シュをアクセスする必要がある。しかし、ロックアウト
を防止するために、データ転送プロセッサ12oは割込
み信号を出して、制御プロセッサ110が少なくとも1
サイクルの間キャッシュ・ポートの制御権を解放するよ
うに指示することができる。
これらの3種類のプロセッサ・モジュールは、以下の説
明で略語を用いて引用することがある。
例えば、データ転送プロセッサ・モジュール120で実
行されるマイクロコードはDTP マイクロコードと呼
ぶ場合がある。同様に、制御プロセッサ110で実行さ
れるマイクロコードはCPマイクロコードと、数値処理
モジュール130で実行されるマイクロコードはFPマ
イクロコードと呼ぶ場合かある。これらの略語は他の機
能についても用いられている。
設計目標 本好適実施例のサブシステムは、小型化され、低コスト
であるが、高度の浮動小数点数値処理性能をもつ設計に
なっているわ このサブシステムを使用するために2つのシステムが目
標となっている。このサブシステムは、広範囲にわたる
汎用ホスト・コンピュータで浮動小数点高速化機構(ユ
ニット)として使用するのに適している(特に、UNI
Xエンジンと互換性をもたせることが望ましい)。
また、第1図の高速化システムは、特殊画像処理システ
ムで利用すると大きな利点が得られるように意図されて
いる。この種のシステムの例としては、ベンチマーク・
チクノロシーズ社から提供され、r GIPシステム」
と呼ばれる図形画像処理システムがある。(GIPシス
テムは広範囲にわたる図形画像アブリゲーションで高ス
ルーブツトが得られるようにするいくつかの機能を備え
ている。)第1.9A、IQ、43図などに示されてい
るような高速化サブシステムを備えたこの種のシステム
は、3次元図形アルゴリズムを実行させる上で特に利点
がある。
アルゴリズムの分割 以下では、第1図のアーキテクチャについてさらに詳し
く説明するが、その前に、この多重プロセッサ構成がど
のように使用されるかについて説明することにする。
上述したように、大部分のアルゴリズムは4つの独立部
分、つまり、制御、データ入力、アドレス計算、および
データ計算に分けることができる。
これらを個別タスクとして扱い、3つのプロセッサにマ
ツピングするようなアーキテクチャにすることが好まし
い。制御とアドレス計算は制御プロセッサ(cp)モジ
ュール110が取り扱い、データ入出力タスクはデータ
転送プロセッサ(DTP)そジコール120が取り扱い
、データル1算は浮動小数点プロセッサ(FP)モジュ
ール+30が取り扱う。
アルゴリズムを制御プロセッサ・モジコール110 と
Fl’間でどのように分割されるかは、いくつかの特定
アルゴリズム実装例を示して、以下に詳しく説明する。
1つの好例は、第31図を参照して下達する高速フーリ
エ変換(FFT)実装によるものであるが、このFFT
アルゴリズムはプログラミング効率が悪いことでよく知
られている。
この例では、FFTアルゴリズムは、データ・サンプル
とフェーズ係数のアドレス計算を制御プロセッサ・モジ
ュール110に割り当て、バタフライ計算を浮動小数点
プロセッサ・モジュール130に割り当てることによっ
て、制御プロセッサ・モジュール110と浮動小数点プ
ロセッサ・モジニル130間で分割されている。
FFTソフトウェアのうちCPモジュール110で実行
される部分は、複素数データのアドレスをステージとバ
タフライ数の関数として計算する。複素数フェーズ係数
はテーブルに保持されているので、そのソフトウェア部
分はテーブル内の必要とする位置も、ステージとバタフ
ライ数の関数として84算する。アドレスが計算で求ま
ると、データと係数が取り出されて、浮動小数点プロセ
ッサ・千ジュール130に渡される。浮動小数点プロセ
ッサ・モジュール130がバタフライ計算を完了すると
、制御プロセッサ・モジュール110はその結果を読み
取り、格納してから次のバタフライのアドレス計算を繰
り返すことになる。注目すべきことは、制御プロセッサ
・モジュール110は、実際に行なわれているバタフラ
イ計算を追跡する必要がなく、データを同期点で浮動小
数点プロセッサ・モジュール130とやりとりするだけ
でよいことである。また、このソフトウェアは、アドレ
スを計算するだけでなく、キャッシュ・メモリと数値プ
ロセッサ間の実際のデータ転送を制御することも注目す
べきである。
FFTソフトウェアのうち浮動小数点プロセッサ・モジ
ュール130で実行される部分は、各連続ステージでデ
ータ・セットのバタフライ計算を行なうJ二うに直線的
にコーディングされた単純命令列によってバタフライ割
算を行なう。各スデーシでの正確なデータと係斂をマ“
lるために必要な複pill ;’;+ニアトレス削算
は関知しない。従って、データ泪算のためのコートは、
データ転送操作と力1[関係に碧くことができる。事実
、浮動小数点プロセッサモジュール+30に別の段別を
採用したい場合(例えば、異なる浮動小数点チップ・セ
ラ1−を使用したり、FFTにより適した低レベル・デ
ータ通路アーキテクチャを使用したりする目的て)は、
このソフトウェア部分(比較的単純化されている)を変
更するだけでよい。
CPとFPソフトウェアの実行は並列に行なわれ、アル
ゴリズム実行速度が低速部分によって決まるようにパイ
プライン化されている。
アーキテクチャの説明 第1図のサブシステムの主要部分のいくつかについて、
以下詳しく説明する。なお、ここでは、要約だけを説明
していることに注意されたい。もっと詳しい説明はその
あとて行なう。
(,1)モジュール11()の概略(第2Δ図)制御プ
ロセッサ(シP)モジュール110は、32ピッ1〜整
数ブロセンジ機構(ユニット) (IPU)240、マ
イクロコード・シーケンサ210、 アドレス生成機構
(ユニッ1〜) (AG)230、その他マイクロプロ
グラム・メモリ、クロック発生装置、バス制御といった
機構(ユニッ1〜)から構成されている。
好適実施例では、整数フロセッサ機構240はWeit
ek XL8137を使用し、シーケンサ210はAn
alogDevices社製八〇5P−1401を使用
へ、アドレス生成機構230はAnalag Devi
ces社製ADSP−1401を使用している。当業者
ならば容易に理解されるように、これらに代えてその他
の各種構成要素を使用することも、他のブロックに同等
の機能をこれらに代えて組み入れることも可能である。
制御プロセッサ・モジュール+10は次の2つの主要タ
スクを受は持つ。
まず、ホストからのコマンドを解釈し、DTPモジュー
ル120に転送を要求し、データ計算を開始する前に浮
動小数点プロセッサ・モジュール130を初期化するこ
とによって、ボーI〜の動作を’dr+J御することで
ある(高位レベル)、。
次に、データ・ギャッシコ・メモリのア)・レスを生成
し、データ・キャッシュ・メモリとFPモジュール13
0間のデータ転送と紅路な制御することである。この活
動は通苓高位レベル制御操作か完了したあと、実際の数
値処理過程で反復的に行なわれる。ループ制御はシーケ
ンサか取り扱い、アドレス生成機構とIPUがアドレス
生成のために排他的に使用できるようになっている。
他のブロックとの連絡は32ビツト幅データ・バス(C
Dバス112)を通して行なわれ、制御プロセッサ・モ
ジュール+10はこのバスを通して、ブタ・キャッシュ
・メモリ140、コマンド・メモリ+90、およびFP
モジュール130の制御レジスタに対する読み書きを行
なう。制御プロセッサ・モジュール110はホストによ
って(VMEインタフェース160を通して)、浮動小
数点プロセッサ・モジュール130によって、あるいは
データ転送プロセッサ・モジュール12flによって割
込みをかりることか可能である。正’7it !l’J
J作では(つまり、プログラム開発やデバッグと切り離
されり)、データ転送フロセッサ・モジュール120だ
りが割込み発生源となる。
DTPモジュール120の概略(第3八図)データ転送
プロセッサ(DTP)モジュール120は同じ32ビツ
ト・プロセッサとシーケンサを使用しているので、プロ
グラマから見たとき同じように見える。顕著に異なるの
はバス制御とインタフェース制御である。制御プロセッ
サ・モシュル+10 と異なる特徴がもう1つある。そ
れは、データ転送プロセッサ・モジュール120には、
マイククロコード拡張ポートがあり、アットオン・ポー
ト(大容量メモリ・カードやネットワーク・カートなど
)の制御が可能になフていることである。
データ転送プロセッサ・モジュール120は次の2つの
タスクを受は持つ。
まず、データ・キャッシュ・メモリと外部インタフェー
ス間のデータ転送を制御することである。(これは、制
御プロセッサ・モジュール110(またはホスI〜)か
らコマン1−を受けて行なわれる。) 次は、外部インタフェースからのコマンドをコマンド・
メ干す190に保電されているコマンド待ち行列に転送
し、あとで制御プロセッサ・モジュールが処理できるよ
うにすることである。外部インタフェースはいずれもコ
マンドを出すことができるが、初期状態では、VMEイ
ンタフェースが主要コマンド発生源であるものと予想さ
れる。適当なソフトウェアでコマンド・リストをデータ
・キャッシュ・メモリ(またはコマンド・メモリ)に入
れておき、あとでマクロとして呼び出される(この手法
は「ベクトル連鎖」とも呼ばれている)。デバッグ環境
では、データ転送プロセッサ・モジュール120はデバ
ッグ・モニタ(ホスト側で稼動)とデータ転送プロセッ
サ・モジュール120や制御プロセッサ・モジュール1
10や浮動小数点プロセッサ・モジュール130でデバ
ッグ中のマイクロコード間の主要インタフェースとなる
また、このデータ転送プロセッサ・モジュールを通して
デハノク・モニタはVMEアドレス空間にマツピングさ
れていない各秤メ干りをアクセスすることができる。
外部インタフェース、データ・キャッシュ・メモリ、コ
マンI〜・メモリ、 VMEインタフェース・メモリ、
およびデータ転送プロセッサ・モジエル120間のデー
タとコマンドの転送は32ビット幅TDバス122を縁
由して行なわれる。外部インタフェース】50.160
.170はFIFO(先入れ先出し)でバッファに入れ
られ、アテンションが必要になったとき、つまりある種
のデータを受は取ったり、なにもなくなりつつあるとき
、データ転送プロセッサ・モジュール120に割込みを
かける。別の割込み発生源としては、ホスト(VMEイ
ンタフェース経由)と、制御プロセッサ・モジュール1
10がある。
データ転送プロセッサ・モジュール120によるデータ
・キャッシュ・メモリへのアクセスは、制御プロセッサ
・モジュール110が使用していない+29 サイクルに制限される。(C1)モジュール110は浮
動小数点ブrJセッサ・モジュール130への転送11
、腎や自身のためにメモリを使用していることがある。
)データ転送プロセッサ・モジコール120か長時間ア
クセス待ちに置かれた場合は、制御プロセッサ・千ジュ
ールに割込みをかりて、サイクルをスチールすることが
できる。
FPモジュール130の概略(第4八−4C図)浮動小
数点プロセッサ・モジュール130は別ボードに置かれ
ており、このポートは主ベース・ボードに差し込むこと
によって使用される。浮動小数点プロセッサ・モジュー
ル130の動作は次の2つの部分に分かれて行なわれる
(a)マイクロコード浮動小数点機構(ユニット)。こ
の部分は浮動小数点計算を受は持つ。この機構は1つの
目標、つまり、可能な限り高速に動作して、浮動小数点
ハードウェア機構の性能を引き出す設計になフている。
これらの設計目標を達成するために、非常に単純化され
たアーキテクチャが採用されている。つまり、浮動小数
点乗算機構、浮動小数点A1.lI  (算術論理演算
機構)、高速多重ボー1−・レジスタ・ファイル、A1
純化された高速シーケンサから構成されている。さらに
、スクラッヂバット・メそりが内部データ通路と密結合
され、参照テーブルを保管し、ヒストグラム記憶域を提
供する。浮動小数点算術演算機構は2つの読取りポート
と1つの書込みポートを通してレジスタ・ファイルとの
インタフェースとなる。
もう1つの書込みポートは読取りポートの一方と結ばれ
て、データ・シャツフルと複写機能を提供する。最終ポ
ートは両方向であり、データをレジスタ・ファイルとや
りとりするために使用される。
(b)データ・キャッシュ・メモリ・インタフェース。
FPモジュールのこの部分は、データ・キャッシュ・メ
モリとレジスタ・ファイルの両方向ポート間のインタフ
ェースとなる。レジスタ・ファイルとデータ・キャッシ
ュ・メモリ間には両方向レジスタ群があり、データ転送
のバイブラインとなり、データ多重化と経路指定を取り
扱う。
転送制御は転送ロジックで生成される。この−rンタフ
ェースの多くの部分G:l、物理的にはF l’ %ジ
ュール130と同じ場所に置かれているか、CP −T
I−ジュール110 と共にクロックかどられるのて、
(・1)モジュール130の一部というよりも、拡張C
Pモジュール110 と一般に呼ばれている。
高度多重ポート高速レジスタ・ファイルは、制御プロセ
ッサ・モジュール110と浮動小数点フロセッサ・モジ
ュール間のクリーンなインタフニスとなる点て重要な要
素である。このレジスタ・ファイルの一方の側は制御プ
ロセッサ・モシュル110と同期して動作し、他方の側
は浮動小数点プロセッサ・千ジュール130と同期して
動作する。このようにクロック境界を設けたので、境界
の一方の側に変更を加えても他側が影響されることがな
い。この結果、より高速の、あるいはもっと多くの統合
浮動小数点チップ・セットへの移行が容易になり、従っ
て、浮動小数点機構の独立性を保つことができる。
浮動小数点プロセッサ・モジュール130(またはアル
コリズムに合わせて変更されたモジュール1:10’ 
)は、最高4つまでこの種のサブシステムに組み入れる
ことが可能である。第9八図と第1O図にそのいくつか
の例か示されている。
DCMの概略(第5図) データ・キャッシュ・メモリ140は高バント幅多重ポ
ート・メモリである。このメモリとそのインタフェース
のアーキテクチャは、本好適実施例のシステム全体の性
能を大幅に向上させる利点をもっている。高バント幅が
必要とされるのは、浮動小数点プロセッサ・モジュール
130が単純なベクトル計算を実行中のとき、浮動小数
点プロセッサ・モジュール130にデータを常時提供す
るためである(そして、その結果を除去するためである
)。例えは、ベクトル「加算」操作には、計算毎に数字
を3回転送する必要がある。浮動小数点プロセッサ・モ
ジュール130が20Mflopsの計算速度に耐えら
れる場合は、それに歩調を合わせるために要求されるメ
モリのバンド幅は毎秒240Mバイトとなる。
データ・キャッシュ・メ士り幻[i4K X :12ヒ
ツト・メモリからなるメモリ バンクを備え、2Mバイ
トのオンボード記憶機構を#?f載し°(いる。これは
遠隔メモリ拡張ボーF4310をキャッシュ・バス11
14に(=J加することにより拡張可能である。(物理
的には、このメモリ拡張モジュールは浮動小数点プロセ
ッサ・モジュール130の各種モジュールと同じコネク
タに差し込まれる。)このメモリ拡張モジュールは、オ
ンボード・データ・キャッシュ・メモリと同じバンド幅
になっているので、追加の12Mバイト・メモリを2M
バイト単位で拡張するように構成することが可能である
。2重容量メモリ・モジュールを使用すると、オンボー
ド記憶機構を4Mバイトまで、オフポート記憶機構を2
4Mバイトまで増加できる。
データ・キャッシュ・メモリには3つのポートがあり、
各々はプロセッサの各々につながっている。しかし、制
御プロセッサ・モジュール110と浮動小数点プロセッ
サ・モジュール+30へのデータ転送はすべてCPマイ
クロコードによって制御されるので、多くの点て、メモ
リを2重ポートたりをもつものとして扱うことが可能と
されていた。
浮動小数涛プロセッサ・モジュール130と制御プロセ
ッサ・モジュール110に対するデータ転送は入出力転
送jこり優先されているので、データ転送フロセッサ・
千ジュール120はメモリ・サイクルに空きが出るまて
待たされることになる。データ転送プロセッサ・モジュ
ール120の待ち時間か長い場合は、制御プロセッサ・
モジュール+10に割込みをかけて、メモリへのアクセ
ス権を獲得することができる。このことは、制御プロセ
ッサ・モジュール110がランダム・アクセスを行なっ
ていない限り、問題となることはない。その場合でも、
ブロック人出力転送では、データ転送プロセサ・モジュ
ール120は別のデータ・ブロックを要求する必要が起
こる前に、メモリ・アクセスごとにデータを転送するた
めに8サイクルが必要になる。
妥当なサイクル時間メモリ装置で高メモリ・バンド幅を
得るために、広幅メモリ・アーキテクヂャが採用された
。メモリは24ビツト幅であるので、1回のアクレス・
サイクルで、32ハイl−(訓話)が転送される。メモ
リのヅイクル期間か100 nsであれば、メモリ・バ
ンド幅はブロック転送では毎秒320Mバイト、ランダ
ムF語のアクセスでは毎秒4ON!バイトである。
データ・キャッシュ・メモリは、FPモジュール13G
用のマイクロコード・オーバーレイを保管しておくため
にも使用できる。これらは、浮動小数点プロセッサ・モ
ジュール130のマイクロコードがWCSサイズを越え
たとき、FPモジュールの書込み可能制御記憶機構との
間で受は渡しされる。この並行ロード機能によるWO2
の再ロードは、ポスト制御による通常のシリアル・ロー
ドよりもはるかに高速に行なわれる。事実、この機能は
マイクロコードを動的にベージングができるだけの高速
になっている。
CM 190の概略 コマンド・メモリは小容量(2K)の32ビツト幅メモ
リでり、制御プロセッサ・モジュール110とデータ中
云送フ゛ロセッサ・モジュール120間の2つのボー1
−をもっている。コマンI−1制御および状況データは
このメモリに保管されているソフトウェア待ち行列また
はFIFOスタックを通して、制御プロセッサ・モジュ
ール+10とDTPの間で受は渡しされる。
このメモリの半分は制御プロセッサ・モジュール110
と浮動小数点プロセッサ・モジュール130の状態情報
(一部のコマンド構造と共に)を保存しておくために、
マイクロコード・デバッグ・モニタ用として予約されて
いる。
(以下余白) 外部インタフェースの概略 好適実施例では、効率のよいインタフェースをいくつか
備えている。その中で最も重要なのがポスト・インタフ
ェース(VMEインタフェースとも呼ばれる)である、
 VMEインタフェースは好適実施例によるサブシステ
ムとVMEバスとを結ぶインタフェースであり、VME
バス規格改訂版c1に規定されている電気的仕様とプロ
トコル仕様に準拠している。
VMEインタフェースは、VMEポストがマイクロコー
ドをアップロードしているとき、制御または状況レジス
タをアクセスしているとき、VMEインタフェース・メ
モリ(VIM)をアクセスしているとき、あるいはデー
タFIFOをアクセスしているときはスレーブ・モード
で動作する。スレーブ・モードのインタフェースはバイ
トまたは語アクセスをサポートせず、32ビツト並列ア
クセスだけをサポートする。しかし、制御および状況レ
ジスタは16ビツト幅であるので、16ビツトのホスト
は本好適実施例のサブシステムを制御できる。
VMEインタフェースは、局所DMAの制御を受りてデ
ータトIFOとVMEメモリ間でデータを転送するとき
は、マスク・そ−ドで動作する。DMAの活動は、デー
タ転送プロセッサ・モジュール120が割込みサイクル
をVMEバス上で開始することによりこのモジュールに
よって制御され、モニタされる。
データ・パイプ・インタフェースは、高バンド幅バック
ブレーン・バスと結ばれる段組になっている。(物理的
には、これはリボン・ケーブルを使用するだけで構成に
含めることができる。)このバスを使用すると、私用サ
ブシステム間の通信が行なえるので便利である。つまり
、インタフェース・ロジックは2つの受信ポートと1つ
の送信ポートを備えているので、この種のバスを複数短
距離局所バスとして使用して、幅広いデータ流れアーキ
テクチャを実現することができる。このバス上のデータ
転送はFIFOでバッファリングされるので(受信端側
)、データ転送を高速にかつ低オーバヘッドで行なうこ
とができる。複数のサブシステムを並列にも直列にも(
例えは、バイブラインで)接続てきるので、品性f1に
のシステムをi4?+単に実現することがてきる。
1つの例として、高性能の実時間3次元図形システムヲ
、2つのQa化ザブシステムと画像プロセッサをパイプ
ライン構成にすることによって構築することができる。
最初の高速化サブシステムはフレームnて多角形を変形
してクリッピングし、2番目の高速化サブシステムはフ
レームn−1で多角形を描画順に分類しく隠蔽表面除去
の!こめ)、画像プロセッサはフレームn−2で多角形
を描画する。
DTPマイクロコード拡張インタフェースは仮想的にD
TPモジュール120のマイクロアドレスとデータ・バ
スを拡張したものである。これはGIPマイクロコード
拡張バスと完′全に互換性(物理的および電気的に)が
あるので、GIP用に設計され、この種のインタフェー
スを使用するどの拡張カートでも使用できる。外部大容
量メモリ・システムとネットワーク・カートはこのイン
タフニス ボー1−経由で未実施例のサブシステムと結
ばれる。
画像データ・バス・インタフェース+70 (またはr
GIl+インタフェース」)は、特に図形と画像ブタ用
に最適化された別のバスに結ばれる。このインタフェー
スは、 GIPマイクロコード拡張バスとも接続できる
ので、本実施例のサブシステム上のいくつかのインタフ
ェース・ロジックをGIPマイクロコードで制御するこ
とができる。これにより、GIPと本実施例のサブシス
テム間は両方向16ビツト幅のFIFOで結ばれるので
、コマンドとブタをFIFO経由で送ることができる。
このインタフェースの各側は他方の側に割込みをかける
ことができる。
制御プロセッサ(cp)モジュール110制御プロセツ
サは、32ビット整数プロセッサ機構(ユニット) (
IPU)240に搭載された32ビツト・マイクロコー
ド・プロセッサであり、本好適実施例では、Weite
k XL8137が使用されている。IPU240は1
6ビツ1〜・アドレス生成機構(AG)230  (本
実施例では八nalo); Devices社ADSP
 +410を使用)および16ビソト シーケン+)2
10(本実施例−CはAnalogDcviccs 2
1Δ051’ 1401を使用)にj:ッてヅボー1〜
される。制御プロセッサ内の主データ通路はCOババス
12である。
第2A図は本好適実施例における制御プロセッサ110
の構造を概要図で示したものである。書込み可能制御記
憶機構(WGS)220は、マイクロ命令列を納めてい
るメモリである。シーケン+210からマイクロ命令ア
ドレス・コマンドが出されて、制御記憶機構220から
マイクロ命令が取り出される。
この方法で制御記憶機構から取り出される命令の流れを
示したのが221である。レジスタに格納されない出力
とレジスタ222に格納される出力の両方を設けること
が好ましい。レジスタ222に格納された出力はデコー
ダ280に入力される。レジスタ222 と223は共
に直列シャドウ・レジスタとして構成され、直列ループ
225とのインタフェースとなる。マイクロアドレスの
流れの一部をライン211Aから得て、浮動小数煮干ジ
ュール130に通知1 /I 2 するJ二うにするのが好ましい。この方法をとると、以
下に述へるような利点が得られる。
また、ライン221上の流れを両方向にするのが好まし
い。つまり、このラインは書込み可能制御記憶機構から
マイクロ命令を読み出すために使用てきるだけでなく、
ある種の場合には、命令を逆に制御記憶機構に書き込む
ためにも使用できる。
その利点については下達するが、これは重要な機能であ
る。
マイクロコード出力221は入力としてデコーダ260
に送られる。従来の方法では、このデコーダは最小限の
低レベル・デコード・ロジックを使用して、マイク命令
のフィールドを分割して、必要時にそれらをデコード化
している。本実施例のマイクロ命令形式は第2B図に示
されているが、これについては以下で詳しく説明する予
定である。デコーダ260の出力261はアドレス生成
機構230、整数処理機構240、シーケンサ210と
いった主要機能ブロックのすべてに送られる。これらの
ラインはいろいろな個所につながっているので、個別的
には示していない。
シーケンサ210は、リンク・レジスタ(トランシーツ
旬2目を経由してIPU 240から送られてくる入力
とシーケンサ局所バス215を経由してアドレス生成機
構230から送られてくる入力だけでなく、他のいくつ
かの入力も受り取る。
さまざまな割込み線はマルチプレクサ213を通して多
重化され、これらの割込みにより、シーケンサ210の
プログラム・カウンタ動作がさまざまに変更される。割
込みをそれぞれに応じて処理するシーケンサ・ハードウ
ェアはよく知られている。
別のマルチプレクサ(212で示されている)は各種条
件コード信号から1つを選択して、シーケンサ210に
入力するために使用される。これらの条件コード信号は
、詳細は後述するように、シーケンサ210のロジック
の中でいろいろな使い方をされている。
バッファ217は、マイクロ命令のフィールドで指定さ
れている定数を送るために使用される。
さらに、別の人出力かいくつか書込み制御記憶機構22
0とマイクロ命令バス221 に示されている。」込み
イネーブル線は、例えばホストからといったように、外
部から制御される。さらに、2ウエイ・インタフェース
2118を通して、ホストはマイクロアドレス・バス2
11に対して読み書きを行なう。この機能は診断に利用
できるだけでなく、マイクロ命令を制御記憶機構に書き
込むときにも利用できる(後述する)。
クロック発生装置250は制御プロセッサ110とデー
タ転送プロセッサ120の両方からサイクル継続時間入
力を受は取る。現クロック・サイクルの継続時間は、C
PとDTPモジュールから受は取った最も継続時間の長
い指定子から即時に選択される。これは、プログラマブ
ル・ロジック・アレイ(PAL)を用いて実装するのが
好ましい。デコーダ260の場合と同様に、クロック発
生装置250の出力はいろいろな個所に送られるので、
個々には示していない。
第2B図は本好適実施例におけるマイクロ命令フイール
ドの割当てを示したものである。〔,1)拡張ロジック
におけるフィールドの割当ても示されている。この拡張
ロジックの動作については以下で訂しく説明する。なお
、ここで注意しておきたいことは、この拡張フィールド
内のマイクロ命令の追加ビットと、基本WC3220内
の各命令のこれらの追加フィールドをWC5拡張機構お
よびこれらのマイクロ命令フィールドをデコートして実
行するロジックはすべてサブシステム内の各数値処理モ
ジュール130またはアルゴリズム高速化機構にも同じ
ものがあることである。従って、第10図の実施例には
、3つのWC5拡張機構が設けられるので、CPマイク
ロコード・フィールド全体は192ビツトになる。
基本命令内の個々の命令フィールドは整数処理機構24
0 (32ビツト)、アドレス生成機構230(10ビ
ツト)、およびシーケンサ210(7ビツト)用に割り
振られている。拡張フィールド(これは各WC5拡張機
構に保管される)では、フィールドはレジスタ選択、条
件選択、および転送制御用に割り振られている。これら
のビットの用法については、あとで訂しく説明する。
他の命令フィールドは従来のマイクロコード・アーキテ
クチャで採用されている方法で割り振られる。例えば、
あるビットは中断点まできたことを示すために使用され
、いくつかのビットは命令タイプを簡単に記述するため
に使用され、2ビツトはクロック制御をコート化するた
めに(上述したように、可変継続時間クロックを可能に
する目的で)使用される。
アドレス・レジスタ230はオフ・ザ・シェルフ・アド
レス生成機構である。計算をこの機構で行なえるので、
制御プロセッサ110の高速アドレス計算能力が向上す
る。
さらに、整数処理機構(IPU) 240は算術演算機
能を更に向上させる。IPUはCDバス112から読み
書きができると共に、アドレスをCAババス出力するこ
ともできる(レジスタ241を通して)。これらのアド
レスは、第1図に示すように、キャッシュ・メモリ14
0とコマンド・メモリ120に対する71〜レス情報と
なるものである。
木好適天h11L例において整数処理機構2401便川
され用実際の構成要素は高度の躊術演算機能を(Ni“
Iえており、この中には、乗算なバー1〜ウエアで行な
う機能も含まれている。従って、J84flioo と
240を一紹に使用すると、算術演算機構の多くをアド
レス生成のために利用することかできる。更に、シーケ
ンサ210がマイクロ命令71−レス生成機能も実行す
るロジックをいくつか備えていることは勿論である。
アドレス生成機構230からの出力231はバッファに
入れられ、CDバス112に送り返される。シーケンサ
210は整数処理機構240の出力を読み取ることがで
きるが(リンク・レジスタ214を通して) 、 IP
II 240にコマンドでCDバス112を駆動させる
こともできる。キャッシュ・メモリ140、FT’モジ
ュール130、またはコマンド・メモリ190もこれら
の結果がこのバスに送り出された時点て、その結果をア
クセスすることができる。
レジスタ203(第2八図の左」二に図示)は使用頻度
の低いいくつかの制御信号を格納する。これらの制御信
号に6J、診断用信号、14トD制御信号などがある。
整数プロセッサ機構(IPII) 240IPU HO
は、4ポート・レジスタ・ファイル+110、A1.U
 1120、フィールド・マージ機構1130および乗
算/除算機構1140から構成されている。これらの構
成機構を簡略図で示したのが第11図である。2つの外
部データ通路は同図にDおよびへDバス1101.11
02で示されている。制御プロセッサ・モジュール+1
0では、へDバス1102はレジスタ241を通して接
続され、各種メモリへのアドレス・バスとして使用され
る。Dバス1101はCDバス112に直結されている
IP口240の4つのポート・レジスタ・ファイル11
10により、4番目のポート経由によるレジスタへの書
込みに加えて、rl −r2 +r3といった演算が1
サイクルで行なえる。ALU 1120は通常の算術お
よび論理演算機能のほかに、優先コード化とビットまた
はバイ1−反転命令を備えている。フイ+49 ルト・マージ機構■130は多重ビット・シフトど回転
、可変ピッ1− フィール1へ抽出、保管とマージ機能
を備えている。乗算/除算機構1140はl1lLI2
40の他の部分から独立して稼動する。この機構かいっ
たん乗算または除算操作を開始したあとは、他の乗算/
除算以外の命令はいずれもALU 1120またはフィ
ールド・マージ機構1130に実行させることができる
。乗算は32 x 32符号付き(8サイクル)で行な
われ、除算は64 x 32ビット符号なしく20サイ
クル)で行なわれる。
レジスタ241はIPU 240の外部にあり、Cへバ
ス111 とのインタフェースでイ吏用される。これに
より、メモリをアクセスするときパイプライン遅延が生
じる。(このレジスタが必要なのは、ここで使用されて
いる特定部分では、へ〇バスはサイクルが開始してから
75−90ns経通するまでは有効にならないためであ
る。) lpo 240 (”C”バス1103上の)に対する
マイクロコード命令入力は内部的に格納されるので(レ
ジスタ+151) 、マイクロコード命令は直接に書込
み制御記]怠機構(WC5)から取り出される。
ア1−レス生成機構(八G) 2:10木好適実施例で
使用されるア1−レス生成機構230の4tli成は第
12図にその概要か示されている。
主要要素としては、16ビツ1〜幅のALU +210
.30個の内部レジスタ(これらのレジスタを機能別に
分りると、16個のアドレス・レジスタ1222.4個
のオフセット・レジスタ1224.4個の比較レジスタ
1226、および4個の初期設定レジスタ1228に分
類される)がある。他にも、アドレス比較機構1230
とビット反転機構1240がある。内部バス1250は
データの経路指定を行ない、”Y”バス1270はアド
レス出力231を行ない、この出力はCDバス112に
フィードバックされる(出力バッファ−232がイネー
ブルされたとき)。“D”バス1260はシーケンサ・
データ・バス215に人出力を行なうように結ばれてお
り、バス215はリンク・レジスタ/トランシーバ21
4 によってCDバスから分離されている。
実際の装置は命令デコーダとその他のタイミングおよび
接合ロジック(図示せす)も備えている。
これらの機能により、アドレス生成機構230は1サイ
クルで次のことが行なえる。
16ビツト・アドレスを出力1−ること。
メモリ・アドレスにオフセットを加えることによりメモ
リ・アドレスを修飾すること。
アドレス値がいつ事前設定境界に移動または境界を越え
たかを検出し、条件付きでアドレス値を再初期設定する
こと。
この最後のステップは循環バッファやモジュール・アド
レス指定を取り入れる上で特に有用である。
アドレス生成機構230はIPU 240がもつアドレ
ス生成機能を補強するものである。しかし、アドレス生
成機構230で使用される特定チップは直接に動作する
場合、16ビツト・アドレスしか生成できない。(倍精
度アドレスは2サイクルを必要とするが、2個のチップ
をカスケード接続することも可能である。)本好適実施
例では、アドレス生成機構230の16ビツト・アドレ
ス出力はIt’ll 240に渡され、そこでそのアド
レス出力がペース・ア1−レスに加えられ、32ビット
まで拡張される。
アドレス生成機構のレジスタは16ビツト幅Dボ1−を
通してアクセスされる。゛このポートはシーケンサと同
じ局所部分215 とリンク・レジスタ214に接続さ
れている。
アドレスはYポート+270 (第2八図にライン23
1で示されている)から送出される。アドレスはCDバ
スと結ばれる前に、3状態バツフア232に渡される。
アドレス生成機構のDかYのどちらかが読み取られると
き(つまり、CDバスを駆動するように要求されるとき
)、16ビツト値はバス幅(32ビツト)までゼロで拡
張または符号で拡張することができる。これを実行する
ロジックは、あとで詳しく説明する符号/ゼロ拡張PA
L 216内に置かれている。ゼロ拡張または符号拡張
はCPマイクロコードから直接に制御される。(この機
能は、16ビツト幅ポートのいずれかがCDバスを駆動
するために選択されたとき使用可能になる。) アドレス生成機構230の命令セットは次のように分類
されている。
ルーピング レジスタ転送 論理およびシフト(桁送り)操作 制御操作 その他の操作 アドレス生成機構の入力となるマイクロコード命令は内
部レジスタに格納され、WC5220から直接に取り出
されるようになっている。
シーケンサ220と関連 援ロジック 本好適実施例では、シーケンサ210はADSP140
1を採用している。この特定の八〇SPを実装したシー
ケンサの主要要素は第13図に示されている。
これは、16ビツト加算機構1310.84 x 84
ビットRAM 1320、割込みロジック1330、割
込みベクトル記憶機構1340、および4個のループ・
カウンタが含まれる。
内部RAM132.0は次の3通りの使い方が可能であ
る。
1つはレジスタ・スタックとしてである。スタックとし
て使用すると、サブルーチンに入ったとぎ最高4個まで
のア1−レスをスタックに入れておくことができる。こ
れらのアドレスは関係命令内の2ビツト・フィールドに
よってアクセス可能である。
次はサブルーチン・スタックとしてである。このスタッ
クはサブルーチンのリンケージと割込みのための通常戻
りアドレスの記憶域となるものである。これは、状況レ
ジスタやカウンタなどの他のパラメータを格納するため
にも使用できる。
最後は間接アドレス記憶域としてである。これは使用願
度の高いアドレスの格納用に予約しておくことができる
。これらはDポートの下位6ビツトを用いてアクセスさ
れる。
スタック制限レジスタ1321はスタック域が他のスタ
ック域を壊したり、スタック・オーバフローやアンダフ
ローが起こるのを防止するものである。これらのどれか
が起こると、内部割込みが起こり、エラー状態にフラッ
グが付けられたり、スタックはオフチップに拡張される
(スタック・ベージング)。
10個の優先割込みか用意されている。そのうちの2個
は装置内部のもので、スタック・エラーとカウンタ・ア
ンダフローに対するものである。8個は外部である。割
込み検出、レジスタリングおよびマスキングはずへてロ
ジック1330によりオンチップでIA埋され、対応す
るヘク)・ルか訓込みヘクトル・ファイル1340から
取り出される。
命令セットは非常に豊富であり、ジャンプ、サブルチー
ヂン呼出し、戻りなど幅広く揃っている。これらの命令
の大部分は絶対アドレス、相対アドレス、または間接7
1〜レスを使用して目標アドレスを指定てきる。これら
は選択した条件の1つによって修飾可能である。
無条件。命令を常に実行する。
フラグなし。条件コート入力(FL八へと呼ぶ)か偽で
あれば、命令を実行し、そうでなければ続行する(通常
失敗命令) フラグ。条件コート入力が真であれば、命令を実行し、
そうでなければ続行する(通常失敗命令)。
7′1号。命令の実行は状況レジスタ内の符号ピッ1−
にj:って左右される。
スタック管理、状況レジスタ操作、カウンタ操作、およ
び割込み制御を行なう命令も用意されている。
マイクロコード命令入力は内部レジスタに格納され、マ
イクロコード命令はWCS  (レジスタ格納なし)か
ら直接に取り出される。
シーケンサ支援ロジックには、割込み、条件つぎコート
選択、マイクロアドレス・バス、定数/次アドレス・フ
ィールドの4種類がある。
凱込及 本好適実施例でシーケンサ210用に使用されているチ
ップは4個の割込み入力ビンがあるだけである。従って
、使用可能な割込み数を8個に拡張するために外部マル
チプレクサ2+3が使用されている。割込みは主に連絡
用とデバッグ・ツールをサポートするために使用される
割込み発生源(最も優先度の高い順)は次の通りである
テハッグ環境内では、名目的には、モニタ・タスクとユ
ーザ・タスクの2タスクが稼動している。クロー・ロジ
ック(claw logic)は、モニタ・タスクを1
ステツプ進めることなく、ユーザタスクだけを1ステツ
プ進めるものである。クロ・ロジックはユーザ・タスク
の中のある命令か実行されると、モニタ・タスクに「制
御を返却させるノ。ユーザ・タスクに制御を返却させる
命令はクロー割込みを要求する。これは1サイクルたけ
遅れているので、ユーザ・タスクの最初の命令が実行さ
れると割込みが引き起される。従って、ユーザ・タスク
の次の(つまり、2番目の)命令が実行されるまえに、
制御がモニタ・タスクに返却される。
忠亘羞 この割込みレヘルはマイクロコード・ビットと直接関係
があるので、割込みが起こるとこのビットがセットされ
る。この仕組を利用すると、中断点を設ける上で便利で
ある。中断点ビットがセラi−された命令か実行される
と、制御は中断点処理ルーチンに渡される。中断点はい
くつでも設定が可能である。
VMEバス VMEバス訓込みは通常デバッグ・モニタをサボI・す
る目的だりに使用されるので、正常動作時には使用され
ない。
浮動小数点プロセッサ(中断点) 浮動小数点プロセッサ・モジュール130がそのWCS
にセットされている中断点の1つを見つけると、FPク
ロックは停止される。FPモジュールはこのことをこの
割込みを通して、制御プロセッサ・モジュール110に
通知する。
DTPメモリ・アクセス この割込みは、制御ブロセッ廿・モジュールにデータ・
キャッシュ・メモリへのアクセスを一時的に中止させる
ために使用される。これによりデータ転送プロセッサ・
モジュール120はキャッシュ+40にアクセスかてぎ
るようになる。
DTI+ (コマンド) この割込みは、CI+コマンドFIF口(コマンド・メ
モリ+90内の)にコマン1−があることをデータ転送
プロセッサが制御プロセッサ・モジュール+10に知ら
せるために使用される。傘會 DTP (データ転送完了) この割込みはデータ転送要求が完了したことを制御プロ
セッサ・千ジュールに知らせるためにデータ転送プロセ
ッサ・モジュール120によって使用される。申申 浮動小数点プロセッサ(一般) この割込みは、CPW八Iへ、FPW八Iへが状態を変
えたり、エラーが起こったり(エラー・タイプはソフト
ウェアで定義できる)、浮動小数点プロセッサ・モジュ
ール130に中断点が現れると、引き起される。活動事
象は、FPモジュール130上にあって、制御プロセッ
サ・モジュール110がロードできるマスク・レジスタ
によって選択される。この割込みは今は使用されず、将
来の使用に備えて予約されている。複数のFPモジュー
ル130を使用するシステムでは、4個のFT’がこの
割込みを共用する予定である。i;eって、割込みサー
ビス・ルーチンは、これらのFl’に正しくサービスす
るためにはどの1・Pか割込みを引ぎ起したかを知って
いる必要がある。中 注意 ψ印の付いた割込みは通苓の条件コート・ロジッ
クでもテストできるので、これらをボリングした方が好
都合の場合には、そうすることが可能である。
*傘印のイ」いた割込みの場合は、割込み状態を引き起
したことは、ソフトウェアFIFOデータ構造内の制御
情報を調べることで検出することができる。これは割込
みが使用されない場合には、ポーリングすることが可能
である。
マルチプレクサ213を使用して割込み数を拡張するた
めには、4個の高優先度割込みレベルと4個の低優先度
割込みとの間のタイミング条件を変える必要がある。4
個の高優先度割込みであることを認識するためには、マ
イクロコード・クロックの立上がり縁より25ns前に
割込みを引き起す必要がある。低優先度割込みの場合は
、この115間制限は立下がり縁より15ns前にする
必要かある。
割込みを引籾起ずには、対応する割込み入力は1クロッ
ク期間の間高レベルに保持される。へドウエアによる割
込み認知ザイクルは必要tJいので、割込み生成ハード
ウェア機構は非常に単純化される。
条件コート・ロジック シーケンサはFLAGと呼ばれる1つの条件コート入力
端をもっており、テスト可能な状況信号はすべて多重化
されてこのビンに入力される。これは内部レジスタに格
納され、通常のセットアツプ時間はIRQにマスク(カ
ウンタ・アンダフロー割込み)がかけられているときは
1onsであり、イネーブルされたときは26nsであ
る。FLAG入力端の極性はシーケンサ内部で変えるこ
とができる。
第40A図に示すように、FLAG入力端の状態をシー
ケンサ210の外部で保存しておくためにいくつかの追
加ロジックを使用することが好ましい。そうすれば、シ
ーケンサ21θの内部状態を割込みが起キノごあとて完
全1ζ復元することかてきる。
11八1.4021はシーケンサ21O(または3IO
)の内部で内部フリップフロップ4020をエミュレー
i−するために使用される。このI’ALは従って、「
疑似レジスタ」として動作するだけである。この必要が
起こるのは、第4011図に示すような条件のときであ
る。
割込みが発生ずると、シーケンサは割込み処理ルーチン
に制御を渡す。このルーチンが実行されている間、疑似
レジスタPALは割込み発生前に存在していた状況フラ
グ条件のコピーを保持しているだけである。割込み処理
ルーチンの実行が終ると、マルチプレクサ212はこの
ルーチンの指示を受けて、PAL4021の出力をシー
ケンサ210へのFLAG入力としてシーケンサに渡す
。これにより、フリップフロップ4020の内部状態が
復元される。
この結果、命令の流れは割込みが起こらなかりだ場合と
同じ順序で継続する。これは、割込みに続く命令が条件
付きブランチである場合は特に重要である。内部状態を
正しく復元すれば、この条件イ]もブランチは止しく実
行されることに/fる。
勿論、このロジックは、シーケンサによって6J必要で
12い場合かあるか、木好適実施例で使用されているに
うな特定シーケンサでは使用した方か好都合である。
テスト可能状況信号には、欧のものかある。
IPU 240条件コート出力 これは、現命令の状況
を中継するものである。どの条件がこのビン十テlpH
出力によって指示されるかは、マイクロアドレスによっ
て定義されている。
マイクロコード・ループ これはVMEインタフェース
制御レジスタの中の状況ビットであり、診断ソフトウェ
アで使用すると便利である。
書込みフラッグ0と1:この2信号はデータ・キャッシ
ュ・メモリ書込みロジックの内部状態をアクセスしやず
くするもので、デバッグ・モニタ内の状態格納と復元マ
イクロコードによってのみ使用される。
保留状態、これは、劃込みから戻るときテス1〜され、
ジャンプによって割込み処理ルーチンに移っだ場合でも
どの条件付ぎジャンプその他か正しく実行されるJ:う
にする。
FP状況信号CIIW層1 これは、11)かその81
算を終えて、追加データを待っているときクリアされる
FP状況信号Fl’WAIT :これは、制御プロセッ
サ・モジュール110がその割算を終えて、追加データ
を待っているときクリアされる。
FP状況信号バンク選択・これは、レジスタ・ファイル
が2重バッファ(論理)モードで使用されているとき、
FPレジスタ・ファイルのどちらの半分が制御プロセッ
サ・モジュール110に割り振られているかを知らせる
FP状況信号 直列ループ。これはFP上の浮動小数点
チップを通して実行される直列ループの終りから抽出さ
れる。この直列ループとのインタフニスを通して、制御
プロセッサ・モジュール+10はこれらの装置の内部状
況を抽出する(挿入)ことかできる。
1・P状況イ3号 cp待ちgl込みとFP待ち割込み
。これらの2つの4人I兄ビットはそれぞれのイ言号か
高から低に移るとゼッ1−される(マスキングが可能1
1場合)。信4Trpw八+TとCPW八Iへば、CI
+か割込み発生源を突き止める前に再び高に戻ることか
あるので、直接にテストされる。
FP状況信号川用P中断点。これは、デバッグ目的たり
に使用され、FPが中断点までくるとセットされる。
FI’状況信号 FPエラー。これは、エラーが浮動小
数点プロセッサ・モジュール130で起こると、セット
される。これは将来の使用に備えて設けられたものであ
る。
FP状況信号はシーケンサに向う共通線を共用し、実際
にテストされる状況信号はCP拡張マイクロコード部分
によりて選択される。
IPU 240からの条件出力は100nsでサイクル
するとぎは、遅れて有効になるのでシーケンサのセット
アツプ時間に間に合わない(特にマルチプレッサによっ
て遅延されるので)。この条件をテストするときは、ク
ロックを125nsに延長する必要がある。
ゴor 1oop”はシーケンサ内部のカウンタの1つ
を使用すると、コーディングしやくなり、1PU2iは
アドレス割算から解放される+For−1oopsはI
PU240を用いて行なうこともてきるが、そうすると
、サイクル時間が長くなるので余分なオーバヘットが生
しることになる。
条件コートは8,1マルヂブレクサ212を通して多重
化されてシーケンサの”FLAG”入力端に入力される
。シーケンサは選択した条件コート信号の極性を内部レ
ジスタに格納して、その選択を行なう。
マイクロアドレス・バス マイクロアドレス・バス211と211Aは、通常プロ
グラム実行時にはシーケンサ210から、マイクロコー
ドのロート時にはVMEバスから駆動させることができ
る。VMEバスはマイクロアドレス・バスの内容を読み
取って、シーケンサがどのアドレスにあるかを確かめる
こともできる。これは、シーケンサ動作と非同期に行な
われ、主に診断て使用される。
マイクロアドレス211は、制御ブロセッヅ・千ジュー
ル110のWCSの32ビツトが各トP干ジコール上に
置かれているので、FPモジュール(拡張部分211八
で示されている)上にも結はれている。マイクロアドレ
ス・バス拡張部分はFP WCSを駆動するためにも使
用できる。この機能は次の2つの理由で便利である。
1 ) FPマイクロコードがダウン・ロードされると
きポストからアドレスを与えることができる。
2)FPマイクロコードを制御プロセッサ・モジュール
と同期させて実行させるときに使用できるので、制御プ
ロセッサ・千ジュール内のシーケンサ210のアドレス
が内部生成アドレスの代わりに使用できる。(この機能
は本好適実施例では採用されていないが、いつでも利用
できる方法である。) (以下余白) 定数フィールド マイクロ命令のlOピッ1−幅定数フイールドは主にシ
ーケンサにアI・レスを与えるために使用されるが、ア
ドレス生成機構の定数を保持するために使用することも
てきる。
シーケンサ210は両方向で私用局所バス(シーケンサ
・データ・バス215)と結ばれている。これにより、
ジャンプなどをCDバス+12を使用する処置と並行に
行なうことができる。シーケンサ・データ・バスは両方
向リンク・レジスタ/トランシーバ214を経由してC
Dバス112 とリンクされている。クロックのタイミ
ングとリンク・レジスタ214に対する「フィードスル
ー」制御は、送り元と宛先はすべて要求条件が異なるの
で、転送経路と方向に応して変化する。アドレス生成機
構のデータ入力端は、アドレス生成機構230がシーケ
ンサと同じタイミング条件でこのバスで転送を行なう必
要があるので、このインタフェースのシーケンサ側に接
続されていることに注目すべぎであこの構成により、次
のような経路指定か可能である。
定数フィールlj−>シーケンサ(ジャンプ)定数フィ
ールド−>CDバス(レジスタ・ロード)シーケンサ−
>CDバス(診断) CDバス−〉シーケンサ(’:jf算ににるジャンプ)
定数フィールド−〉アドレス生成機構 アドレス生成機構−〉CDバス(診断)CD)<スー〉
アドレス生成機構(計算によるアドレス) 書込み可能制御記憶機構(W(:S’)220本好適実
施例では、wcsメモリ・バンクはマイクロコードSI
Lモジュールを使用している。これらは8K x 32
 ビット・メモリを備えており、これと共に、マイクロ
コードのロートと診断のための直列シャドウ・レジスタ
222 と223を備えている。(これらのシャドウ・
レジスタの動作は以下で詳しく説明する予定である。)
このモジュールは2つの種類、つまり、出力がレジスタ
に格納されるものと、レジスタに格納されないものとが
ある。IPU 240、アドレス生成機構230、およ
びシーケンサ2104:lそれぞれ独自に内部バイブラ
イン・レジスタを持っているので、 WCSからの非レ
ジスタ格納出力を使用する。
を主1すべきことは、制御プロセッサ・モジュールのW
CSは実際には分散されていることである。
図示の基本WCS部分220(これは物理的にベース・
ボード上に置かれている)のほかに、さらにWCS22
0の拡張部分が1つまたは2つ以上ある。これらの拡張
部分はマイクロアドレス・ストリーム’ 211Aを受
は入れ、物理的に各FPモモジュール上置かれている。
基本WC5220に格納されている命令セットは各アド
レスに96ビツトの命令を収容している。WCS拡張部
分490は各々基本WC5220と同じアドレス範囲に
またがっているが、wC5拡張部分の各々(数値プロセ
ッサ・モジュールの各々にある)は各アドレスに追加の
32ビツト命令を収容している。
WCSインタフェース・レジスタ222 と223ホス
ト(VMEインタフェース160を通して稼動する)か
制御記憶機構のすべてに刻してt3cみ書きを行なうと
き使用する直列ループの動作について以下詳しく説明す
る。ここでは、ハートウコーア4i1i成と接続関係に
ついて説明する。
上述したように、レジスタ222はレジスタ格納マイク
ロ命令出力をデコーダ21i0に対して、および他の多
くのロジックとメモリ構成要素に提供する。内部レジス
タに出力を格納する構成要素の場合には、非レジスタ格
納出力も提供される。(例えば、IPU240は内部命
令パイプライン・レジスタをもっている。また、高度の
内部デコート・ロジックも備えている。IPLI 24
0はデコーダ260からある種のレジスタ格納制御ビッ
ト、例えば、出力イネーブル信号も受は取ることに注目
すべきである。) レジスタ222は実際は直列シャドウ・レジスタである
。これはレジスタ可能による並列スルーフットが得られ
るだりでなく、直列アクセス・モトももっている。直列
アクセス・モートは上述する直列ループとのインタフェ
ースのために使用される。
他方の直列シャトつ・レジスタ223は非レジスタ格納
出力のシャ1一つとなるものである。完全な命令に対応
する直列出力を得るためには(要求時に)(または、逆
に命令221の全幅を制御記憶機構220に書キ戻ずた
めには)、すべてのビット・フィールドをアクセスする
必要かある。
勿論、上述したように接続すると、データ・インタフェ
ースだけでWO2220と結ぶことができる。つまり、
レジスタ222 と223にはWO2220内の記憶位
置の内容か見えるが、データと明示的に結び付いたアド
レスは見えない。アドレス・インタフェースは両方向接
続211Bで示されているように、別個の2方向インタ
フエースである。これはCPマイクロアドレス・バスで
あり、 VMEインタフェース内のマイクロコード・ロ
ード制御ロジックと結ばれている。これと同じバスは、
DTP制御記憶機構を除くシステム内のすべての制御記
憶機構とのマイクロアドレス・インタフェースとなって
いる。DTP制御記憶機構内のマイクロアドレス線はV
MEインタフェース内の別のレジスタ/バッファ対に結
ばれている。
1・P制御ロジック アーキテクチャのもう1つの特徴は、制御プロセッサ・
モジュールが単に監視プロセッサであるだけでノt <
、浮動小数点プロセッサ・モジ;5.−ルとの間で受り
渡しされるずべてのデータ転送を直接に制御することで
ある。このロジックの大部分はFl”モジュール上に置
かれているか、その制御は制御プロセッサ・モジュール
+10のマイクロコトによって行なわれ、CDバスとの
インタフェースとなっている。このロジックはあとで詳
しく説明するが、そこではFPモジュールのデータ操作
について検討する予定である。
モード・レジスタ203はマイクロコード・ビットを専
用するほど重要でない使用頻度の低い制御信号の値を保
持する。モード・ビットには次のものがある。
読取り保持レジスタ5[ilを通る流れまたはレジスタ
制御。
書込み保持レジスタ561を通る流れまたはレジスタ制
御(第5図に5[il として示されているレジスタは
実際には2重になっており、1個の読取りレジスタと1
個の書込みレジスタからなっている)。
保持レジスタ560に対するループバック・モト。
2個のLED制御信号。
モジュール選択(3ビツト) このアトスレは複数個の
FPモジュール130やアルゴリズム高速化機構130
゛の間で選択される。
CDバス・デコート・ロジック デ:r−ダooの機能の1つは、マイクロコードCDソ
ース・フィールドをデコードして、CDバスを駆動でき
る装置の出力イネーブルを制御することである。また、
CD宛先フィールドをデコードして、クロック・ストロ
ーブと書込みイネーブル信号(これらはクロック発生機
構からの書込みゲ−1− (g 43によって修fii
される)を発生ずることも機能の1つである。CDバス
上のポートの大部分はB。
み書きができるので、IT’ll 2110にある疑似
レジスタは必要ない。(CDソースと宛先の一部はデコ
ダ260にあるデコード・ロジックによってで12く、
CP拡張ロジック410にあるデコート・ロジックによ
って制御されることに注目すべきである。) CDバス・ソースと宛先として可能なものとして、IP
U 240、コマンド・メモリ、データ・キャッシュ・
メモリ保持レジスタ56〇八、モード・レジスタ(8ビ
ツト)、転送制御レジスタ**傘、FP制御レしスタ*
*中、開始アドレス・レジスタ***、命令レジスタ(
8ビツト)、状況レジスタ(ソースのみ)傘、アドレス
生成機構アドレス・ポート**、アドレス生成機構デー
タ・ポート傘傘、シーケンサ・データ・ポート峙、定数
/次アドレス・フィールド(ソースのみ)幸傘がある。
中印の付いたレジスタはFPモモジュール上置かれてい
るCP拡張ロジックの一部である。これらのレジスタは
、WC5拡張部分490に格納されている拡張CPマイ
クロコード内のフィールドによって選択される。選択さ
れたモジュールだりがデータ転送に応答して、データを
送受する。中中印のイ」いたソースは下位16ビツトを
駆動させるたりである。これらのビットの1つが選択さ
れると、符号/ゼロ拡張PAL 216も活動化される
ので、データは32ビツトのバス幅まで符号またはゼロ
で拡張される。
ソースと宛先はそれぞれ1つだけが選択可能であり、こ
れらは異なっていなければならない。
IPo 240 ヘ(Dデータ転送はIPU 240 
)命令ブイールドの制御の下で行なわれるので、CDデ
ータはそれが別の宛先にロードされているときと同時に
CDバスから取り出すことができる。
クロック 生 構250 クロック発生機構250は制御プロセッサ・モジューJ
l、110  (tiJ主でデータ転送プロセッサ・モ
ジュール120)を通して使用される基本クロック信号
を発生する。この機構は、制御プロセッサ110とデー
タ転送プロセッサ120の両方からサイクル継続時間入
力を受り取る。現クロック・サイクルの継続時間は、C
Pと01’Pモジユールから受り取った2つの入力のう
ち長い方の継続時間に従って、即時に選択される。
この発生機構はプログラマブル・ロジック・アレイ(P
AL)  に実装することが好ましい。このP A L
はあらかじめ定義された4つの波形列の1つを生成する
。これらの4つの波形列は期間が異なっている。つまり
、入力クロック期間の4.5.6.7倍になっている。
これは、本実施例のように、40MHzオシレータが使
用されるときは、100.125゜150、および17
5nsに変換される。
4つのクロック出力が生成される。これらのクロックは
、タイム2クロツクを除き、すべてサイクル継続入力に
応じて同じ継続時間をもつ。これらには、マイクロコー
ド・クロック、バイブライン・クロック、書込みイネー
ブル・ゲート信号、タイム2クロツクがある。
マイクロコード・クロックは2サイクル(オシレータの
)の間常に高レベルにあり、そのあと2.3.4または
5ヅイクルの間(これはサイクル長入力によって選択さ
れる)低レベルになる。
マイクロコード・クロックはシーケンサ、整数処理機構
、アドレス生成機構、レジスタなどを同期させて稼動さ
せるものである。
バイブライン・クロックはマイクロコード・クロックと
波形が同じであるが、マイクロコード・クロックはバイ
ブライン・クロックを動作させたままにして、マイクロ
コードのロード時にディスエーブルさせることが可能で
ある。
書込みイネーブル・ゲート信号はマイクロコード・クロ
ックが高になった1サイクルのあと低になるが、マイク
ロコード・クロックが低に戻る1サイクル前に高に戻る
この(lはメモリのすべてとレジスタの一部に対する書
込みイネーブルのタイミングをとるものである。
タイプ2クロツクは、マイクロコード・クロックの動作
周波数の2倍の周波数で動作し、その立上がり縁はマイ
クロコード・クロックの縁と同じタイミングで現」する
。これは特殊り[Uツクであり整数プロセッサ機構21
0 と3110たりて使用される。It’llはそれぞ
れの(内部)乗算/除2;曜ロジックのクロックをとる
ためにこのクロックを使用して、これらの多重サイクル
機能で要する時間を短縮する。
クロックのサイクル期間の長さは命令毎に調節され、各
命令に割り当てられる時間かその命令で指定されたデー
タ通路の経路指定で必要になる最小時間になるようにし
ている。各命令のヅイクル継続時間はマイクロコー1〜
・アセンブラに計算させて、命令の一部に含めることが
好ましい。こうすると、サイクル期間の長さか固定して
いる場合よりも性能か向上する。サイクル期間の長さか
固定している場合は、ずへての命令が最も遅い命令と同
じ時間かかってしまうからである。木好適実施例では、
サイクル期間の長さは100.125 150および+
75nsがサポートされているか、殆との命令は最短の
サイクル期間の長さを使用するようになっている。
クロック・サイクルは「待ち信号」によフて延長するこ
とも可能である。この待ち信号は、例えは、メモリか使
用中であったり、オフボードにあってそれらのアクセス
時間を追加のバッファリングのために延長する必要かあ
るために、メ干すが通瘍のアクセス時間に応しられない
とき使用される。例えば、2ポートを備えたVMEイン
タフェース・メモリはアドレスの衝突が起こると、一方
のポートか待たされることになる。データ・キャッシュ
・メモリ140はFPモジュールと同じコネクタを使用
するメモリ・ボードに搭載されたキャッシュ・メモリ拡
張モジュールで拡張可能である(第43図に図示)。し
かし、使用するメモリのタイプによっては、キャッシュ
拡張モジュールへのアクセスが基本キャッシュ140へ
のアクセスより遅くなる場合がある。かかる場合には、
待ち状態をクロック発生機構に入力すれば、サイクル期
間の長さは自動的に延長される。この機能を使用すれは
、はるかに低速で安価なメモリを拡張モジュル4310
で使用でき、しかも性能の低下をわずかに抑えることか
できる。
ポス1−はVMliバス・インタフェースを通してクロ
ック発生機構を制御できる。この制御にJ:す、ポス1
−はクロック発生機構250を自走ざ仕るか、停止させ
るかを選択できる。停止状態にあるとぎは、ホス1〜は
クロックを1ステツプたり進めることができる。制御プ
ロセッサ・モジュール110とデータ転送ブロツセッサ
・千ジュール120は共に1ステツプたけ一緒に進めら
れる。
クロック発生機構に最後に入力される制御は、パイプラ
イン・クロック(これは正割動作する)を除くすべての
クロックを禁止する制御である。
これは、WO2のロード(または読取り)時に使用され
るが、これらの処置をとっても、制御プロセッサ・モジ
ュール110やデータ転送プロセッサ・モジュール12
0の内部状態が壊されることかない。これの使用例とし
ては、マイクロコード・デバッグ・セツションで中断点
がWO2に設定された場合がある。
デバッグ ハートつj−ア 制御ブロセソセ・モジコール110に含まれるデバッグ
・ハードウェアの殆どはすでに本明細書の各所て触れた
通りである。以下では、主要機能を要約する。
ホストは、読取り時と書込み時にマイクロアドレス・バ
ス211の制御権を受は取ることができる。
ポストはWO5220をロートし、再びそれを読み戻す
ことができる。
制御プロセッサ・モジュール110はVME発生割込み
(つまり、ホストからの割込み)を高優先度割込みとし
て受り取る。
ハードウェアによる中断点がサポートされており、中断
点は無制限にいつでも設定できる。
クロー・ロジックにより、ユーザのタスクはモニタ・タ
スクを1ステップ進めないでlステップ進むことができ
る。
すべてのレジスタは読み書きであるので、多くの通電デ
ータ流れを診断時に反転させることかできる。
クロック制御入力によりマイクロコ−]〜を1ステツプ
進めることがで鮒る。
ずへての割込みは選択的にイネーブル(;’;IJ込み
可能)またはディスエーブル(zす込み禁止)させるこ
とができる。
重要なロジック群の内部状態がアクセスできるので、制
御プロセッサ・モジュール+10ハードウエアの状態を
完全な形で格納し復元することかできる。
マイクロコード語の形式 第2B図は、FPモモジュール上置かれているWC52
20とWC5拡張部分に格納されているマイクロ命令の
構造を示した概略図である。傘印のついた項目はWC5
から直接に取り出され、これらが制御する装置内部にパ
イプライン化されている。他の項目はWC5220の出
力側のレジスタに格納される。
**印の付いたフィールドは物理的にはFPモジュル上
のWC5拡張部分に保管されているが、CPマイクロコ
ード語の一部になっている。これらのマイクロコ−1・
によるlA置の大部分はモジコール選択ロジックによっ
て修1+liされるので、FP干レジコール選択されな
かった場合はなにも作用しない。
利用できるマイクロコード・ビットの総数は導入された
FPモジュコー当たり96ビントに追加の32ヒツトを
加えたビット数である。これらのビットは大部分が使用
されるが、いくつかのビットは予イ荀ビットとして用意
されている。
rpu M算コート(32)* コ(7)7 イーjL
、ドはlPt1240整数プロセツサのデータ経路指定
と算術または論理演算を制御する。フィールド内のビッ
ト割振りはコーディングされる。すべての命令は下位2
4ビツトがコーディングされる。上位8ビツトはデータ
をIPII 240のレジスタ・ファイルに転送すると
きたり使用される。(このフィールドの詳細はIPUに
関するメーカのデータ資料に記載されている。) シーケンサ演算コート(7)中このフィールドは八〇S
P 1401 による次のアドレス生成を制御する。
(このフィールドの詳細はその部分のメーカのデタ資粗
に記11ルされている。) 定数/次アドレス・フィールド(16)幸このフィルト
は主にシーケンスにアドレス情報を与えるために使用さ
れるが、16ビツト定数値をデータ・バス」二に送り出
すためにも使用できる。そのあと、これはこのバス上の
任意のレジスタにロートできる。
アドレス生成機構演算コード(10)◆このフィルドは
ADSP +410アドレス生成機構を制御する。
(このフィールドの詳細はこの部分のメーカのデータ資
料に記載されている。) サイクル長さ(2)このビットは選択された命令とデー
タの経路指定に合ったサイクル長さを選択する。
データ・キャッシュ・アクセス(1)*このビットはデ
ータ・キャッシュ・メモリへのアクセスが自身で使用す
るために、あるいはFPとの間でデータをやりとりする
ために、制御プロセッサ・モシュルから要求されると、
活動化する。アクセス・フラグはパイプライン化されて
いないので、デタリ1云送プロセッサ 士ジュール12
0からのデータ・キャッシコ要求との仲裁は要求が出さ
れたサイクルの開始前に解決される。
データ・キャンシュ書込みイネーブル(1)このピッ1
〜はデータ・キャッシュ・メモリでの書込みサイクルを
発生させる。
データ・キャンシュ書込みオール(1) このビットは
通常の書込みイネーブル・ゲート操作を無視して、デー
タ・キャッシュ・メモリ内の語の選択的更新を可能にし
、それらをすべて強制的に書き出させる。
データ・キャッシュ・ポート選択(1) このビットは
FPモジュールの保持レジスタまたは制御プロセッサ・
モジュール110の保持レジスタのどちらかを、データ
・キャッシュ転送のソースまたは宛先として選択する。
データ・キャッシュ・メモリ長さ(3)これらのビット
はFPP持レジスタから取り出して、データ・キャッシ
ュ・メモリに書き込まれる語の個数を指定する。保持レ
ジスタ内の最初の語はデータ・キャッシュ メ干り 】
制・レスの最下位3ヒツトて指定される。
条件コート選11<(3) このフィール1−は条件イ
」き命令の実行時にシーケンサによってデス1〜される
次に示した条件コー1〜の1つを選択する。条Nコート
とは、IPU 240条件コート出力、Fl’状況(別
のフイールドによって選択された実際の状況)、Fl’
中断点、マイクロコード・ループ、フラグ(2項目)、
保留状況である。
CDバス・ソース(3)このフィールドは以下に挙げた
レジスタ、バッファまたは装置の1つを選択して、CD
バスを駆動する。つまり、IPII 240、コマンド
・メモリ190、データ・キャッシュ・メモリの保持レ
ジスタ561の1つ*、モート・レジスタ、FPモモジ
ュール、アドレス生成機構アドレス・ポート、アドレス
生成機構データ・ポート、シーケンサ・データ・ポート
、定数/次アドレス・フィルドである。(*ソースとし
て使用する特定レジスタまたはバッファが別のフィール
ドで指定されることを意味する。) CDバス宛先(3)このフィール1〜は以下に挙げたレ
ジスタ、バッファまたは装置の1つをCDバス上のデー
タの宛先として選択する。つまり、コマン1−・メそり
、データ・キヤツシユ、・メモリ保持レジスタ、モート
・レジスタ、FPモジュール(ソスとして使用する特定
モジコ、−ルは別のフィールドで指定される)、71−
レス生成機構アドレス・ポート、アドレス生成機構デー
タ ポート、シーケンサ・データ・ポートである。
IPIJ 240が含まれていないのは、これはCDバ
ス上のデータをいつでも「取得」できるからである(こ
の機能はIPU命令フィールドによって制御される)。
アドレス・レジスタ制御(2)これらの制御ビ・ントの
一方はアドレス・レジスタのローディングをイネーブル
し、他方のビットは診断とデバッグ・モニタが使用でき
るようにレジスタの読み戻しをイネーブルする。
モジュール選択(3)最上位ビット(同報選択)は残り
の2ビツト(モジュール10)をどのように解釈するか
を制御する。同報選択か00とき番−1、モジュール(
ID)はデータ キヤツシユ・メそりかCDバスのどち
らかとのデータ転送に応答させるilモジュールを選択
する。同報選択が1のとかは、モジュールIDはどちら
のグループのFT’(またはアルゴリズム高速化機構)
をデータ転送に応答させるかを選択する。これにより、
同じデータを複数の宛先に同時に転送できるので、個々
の書き込みよりも高速化される。これはモジュールへ転
送するとぎだけ有効であることに注意されたい。
というのは、複数の転送をモジュールから行なうと、デ
ータ・バスで競合が起こるからである。
モジュール選択モート(1)選択するモジュールがマイ
クロコード・モジュール・フィールドによって定義され
ているか、モート・レジスタによって定義されているか
を指定する。これにより、モジュールをサイクル単位で
も、あるいはグローバルにも選択できる。グローバル法
は存在するFPモジュールのいずれかで作業が行なえる
とぎ使用され、制御プロセッサ・モジュール110は転
送/3]算サイクルを開゛始する前に使用すべきIiT
’を選択する。グローバル機能が使用可能でない場合は
、個々のFPモジュールに対応して異なる制御プロセッ
サ・モジュール110のルーチンが存在することになる
中断点(1)  (”デバッグ専用←)命令に中断点を
設けるためにデバッグ・モニタによって設定される。命
令の実行中に割込みが起こると、その命令の実行が終っ
たあと、制御権がデバッグ・モニタ・マイクロコードに
渡される。
クロー(1)  (”デバッグ専用峙)ユーザ・タスク
を1ステツプ進めるとき、クロー・ロジックを始動する
ように設定される。次の命令の実行中に割込みが起こる
と、あるユーザ・タスクの命令が実行されたあと、制御
権がデバッグ・モニタ・マイクロコードに渡される。こ
れにより、ユーザ・タスクはクロックを物理的にオン、
オフに切り替えなくても、1ステツプ進めることができ
る。
割込みDTP (1)これは、16ビツト幅レジスタま
たは装置が読み取られるときのみ効力をもつ。この信号
はデータかゼロ拡張されているかぐピッ)〜11i−3
1かセロにセント)、符号拡張されているか(ピッl−
16−31がビット15と同じにセット)を選択する。
保留状況(1)このビットは、通フ:′;はシーケンシ
210内部のFLAGレジスタの状態に従って更新され
る疑似状況レジスタの更新を禁止する。通常、この疑似
ビットは内部レジスタの状態に従うか、割込みサービス
中は、この疑似ビットは更新されることから禁止される
。これにより、FLAGし、ジスタは割込みルーチンか
ら出たとき、正しく復元されることになる。
pp条件コート選択(3)**これらのビットは制御プ
ロセッサ・モジュール110のシーケンサにつながる共
通条件コード線を内部FPモジュール信号のうちのどれ
で駆動させるかを選択する。選択できるものには、cp
w八Iへ、 FPWAIT、バンク選択、直列ループ、
CP待ち割込み、FP待ち割込み、FP中断点、FPエ
ラーがある。
ル」二の内部レジスタ44/lのどれをCDバス経由で
言J、み■:きするかを選択する(]−位16ビツトの
み)。レジスタとバッファには、転送制御レジスタ、F
P制御レジスタ、開始アドレス・レジスタ、命令レジス
タ(8ビツト)、状況レジスタ(ソースのみ)がある。
レジスタ方向(1)*Φこのビットはレジスタを読取る
か、書き込むかを選択する。
FP中断点クリア(1)峙このビットはFP中断点をク
リアして、FPクロックが動作するようにする。
開始アドレス・ジャンプ(1) 争*このビットはFP
シーケンサに開始アドレス・レジスタ(制御プロセッサ
・モジュール+10によってロードされた)を次に実行
する命令のアドレスとして使用させる。これは「ワンシ
ョット」動作で行なわれるので、FPが開始アドレスに
ある命令の実行を終えると、FPシーケンサはその通常
動作モードに戻る。
転送制御(2Q)**このフィールドは保持レジスタ1
120(FPモモジュール上)とFPモジュールの高速
レジスタ・ファイル430間のデータ転送を制御する。
ここでは各ヅブフィール]−がt;j単に説明されてい
るが、これは転送メカニズム全体が明らかになれは、そ
れらの使い方が分かるはすであるからである。
方向(1)このビットは保持レジスタ420 とレジス
タ・ファイル430間の転送方向を判定する。方向は保
持レジスタからレジスタ・ファイルへと、レジスタ・フ
ァイルから保持レジスタへのどちらかである。
転送イネーブル(1) このピッ1−は他のマイクロコ
ード・ビットとレジスタ格納制御ビット(転送制御レジ
スタ内の)で定義されている通りに、転送サイクルを開
始する。
レジスタ・ファイル・アドレス(6)ここで指定される
アドレスはデータがそこから読み書きされるレジスタ・
ファイル内の最初の語のアドレスである。
レジスタ・ファイル・アドレス修飾子(2)これらはレ
ジスタ・ファイル・アドレスをどのように修飾して、物
理的、論理的またはプレビュー・ア1−レス指定モー1
・(これらはずへて、レジスタ・ファイルを制御プロセ
ッサ・モジュールllOとFP間でどのように共用させ
るかと係わりがある)をとり入れるかを指定する。
保持レジスタ開始アドレス(3)これは転送で最初に使
用する保持レジスタを指定する。
保持レジスタ開始アドレス・モート(2)保持レジスタ
開始アドレスは次の3ソースのいずれかから取り出され
るように指定できる。
1、前述したCPマイクロコー1〜・フィールドから。
2、FPモジュールの転送レジスタに保持されているフ
ィールドから。
3、キャッシュへの最後のアクセスで使用されたアドレ
スの最下位3ビツトから。
ハンドシェイク・モード(3)ハントシェイク・モート
は制御プロセッサ・モジュール110とFPとのハント
シェイクをFPWAITとCPWAITの仕組とバンク
選択を通して制御する。これらのモードのいくつかは通
常のハントシェイキング・プロシージャを無効にするの
て、主要信号をデバッグ目的に初期設定したり、セラ1
−シたりできる。モー1−に1dcpt+o旧ミセツト
、レジスターファイル・スワップ要求、CPU)ONE
セットとスワップ要求、CI’DON+−クリア、テス
ト・モー1へ(診断たりに使R])、ノーオペレーショ
ンかある。
2重書と込みイネーブル(1)2重書き込みイネーブル
は、長さや開始パラメータで要求するものを転送する代
わりに、2語をレジスタ・ファイルに転送させる。これ
により、有効なデータにはデータ有効主張フラグが付り
られ、無効データにはデータ有効拒否フラグが付番プら
れる。これらのフラグはどのデータ項目が有効であるか
を確かめるために、FPによってテストされる。
全保持レジスタ・クロックこのビットは、データをレジ
スタ・ファイルから保持レジスタに転送するとき、通常
の保持レジスタのクロ・ツク順序付けを無視する。この
ビットが活動しているときは、すへてのレジスタは順次
にではなく、−緒にクロックがとられて、レジスタ・フ
ァイル・データが4コピーされてずぺての保持レジスタ
に格納される。
データ転送プロセッサ・モジュール120第3図はデー
タ転送プロセッサ・モジコーール120のブロック図で
ある。同図に示i−ように、DTPモジュール120に
アドレス生成機構230のような独立のアドレス生成機
構110が含まれてし)ない点を除けは、制御プロセッ
サ・モジュール+10と非常によく似ている。各ブロモ
・ンサ内の特殊目的機能か使用されない場合は、原理的
には、同じマイクロコード(ソース・レベルの)を両プ
ロセッサで実行させることが可能である。
データ転送プロセッサ・モジュール120は16ビツト
・シーケンサ310で制御される32ビット整数プロセ
ッサ機構(IPII) 340をヘースとした32ビツ
ト・マイクロコード・プロセッサである。データ転送プ
ロセッサ・モジュール120内の主データ通路は転送デ
ータ・バス(TDババス122である。
本実施例によるDTPモジュール+20構成部分の多く
は制御プロセッサ・モジュール110構成部分と非常に
J:<似ている。これら類似部分は同じ参照符号て示し
である。従って、シーケンサ310は書込み可能制御機
構320に苅してマイクロ命令j′1−レス311の列
を提供1−る。シーケンサ3][1はレジスタ314を
経由して]Dバス122 とのインタフェースになるた
りて11 <、マルヂブレクザ312を通して条件コー
)・を受は取り、マルヂブレクザ313を通して割込み
を受は取る。制御記憶機構320からアクセスされたマ
イクロ命令は出力321 として得られ、レジスタ格納
出力もレジスタ332を通して得られる。線3111と
225はポストからこの書込み可能制御記憶機構320
へのアドレスとデータのインタフェースとなる(これは
下達する)。(線324は直列アクセスで使用される書
込みイネーブル線である。)直列/並列シフト・レジス
タは非レジスタ格納入力を受は取る装置の内部状態を格
納するシャドウ・レジスタである。16ビツト・シーケ
ンサ・バス35からも、16ビツト入力がシーケンサ3
10に送られる。この入力はバッファされた入力であり
、これは例えば、リテラル値を入力するために使用でき
る。
マイクロ命令:121 はレジスタ格納入力としてデコ
ー1〜・ロジフク:lnDに送られる(シQ トウ・レ
ジスタ322紅出で)。このデコート・ロジ・ツクの出
力36]は制御入力して整数処理機構340、シーケン
サ310、各種インタフェース150.1liO1+7
0に入力される。特に、デコーダ360の出力はTDバ
バス22へのアクセスを制御する。TDババス22は外
部インタフェースと、キャッシュ・メモリ140とのデ
ータ・インタフェースとなっている。デコーダ260の
場合と同様に、デコーダ360の出力が別に示されてい
ないのは、これらの出力が広範にわたるからである。
整数処理機構340は制御プロセッサの場合と同様に、
Weitek XL8137を使用するのが好ましい。
(ただし、データ転送プロセッサでは、アドレス生成は
それ程重要でないので、アドレス生成機構を別に設ける
必要がない。)整数処理機構340はTDババス22と
の2ウエイ・インタフェースをもっており、レジスタ3
41を通してTババス121 にアドレス出力を送り出
すこともてきる。
データ転送の制御 ソース・ポートと宛先ポートとの間゛CCザクルごとに
1転送ができるようにするためには、いくつかの要因を
考慮する必要がある。
1、転送のソースまたは宛先はFIFOてバッファリン
グされることがあるので、転送制御はFIFO上の満杯
と空のフラグに応答する必要がある。これらの信号のタ
イミングをシーケンサへの条件コーi−入力のパイプラ
イン化と併用すると、転送が1つだけオーバランするこ
とがある。FIFOへの転送の場合は、半満杯フラグが
使用されるので、これは問題でない。半満杯フラグを使
用すると、FIFOに予備容量が十分にあるので、オー
バランした1語または2語を受は入れることができる。
FIFOから読み取るときは、他の方式を使用する必要
がある。”empty+1”フラグをもつFIFOを使
用したり、FIFOデータをパイプライン段で遅らせる
オプションは本好適実施例では使用されていないが、こ
れはコスト上の理由とスペース要求量の理由によるもの
である。
この起こり得る問題を解決するために、2つの方法か用
なされている。これらの2方法のどちらを使用するかは
、宛先がメモリであるか、FIFOであるかによって決
まる。違いは、書込み操作がメモリでは元に戻せるか、
FIFOではできないことである。つまり、FIFOか
らメモリへのデータ転送がFIFOか空になったあとで
1語または2語に対して続けられると、エラー・データ
がメモリに書き込まれることになる。しかし、このデー
タは正しいデータが使用可能になった時点で直ちに重ね
書きすることができる。
a、FIFOを読み取るときは、読取り信号は論理的に
FIFO空信号によって修飾される。この結果、空のF
IFOを読み取ろうとしても、実際には読取り操作は行
なわれない。これにより、FIFO読取りがオーバラン
しても問題は起こらない。FIFOは空のときは自身を
読取りから保護するが、この余分の制御が必要なのは、
オーバラン読取り時にFIFOの他側に書込みが行なわ
れるおそれがあり、そのためにデータが壊されるからで
ある。従フて、データ転送プロセッサ・千ジュール+2
0かデータをメそりに転送するときは、FIFOが空に
なるとイ9止する。この時点でオーバランがすでに起こ
っている。この場合は、 DTPモジュール+20がア
ドレスを追跡できるので、データがFIFOで使用可能
になったとき、なにもなかったかのように転送が再開さ
れる。
b、FIFOに書き込むときは、書込み操作は元に戻す
ことができない。従って、異なる方法が用いられている
。マイクロコードは、転送を始める前にソースFIFO
(と宛先FIFO)からの状況をテストする。このモー
ドでは、転送速度は低下する。しかし、ソースFIFO
が半満杯以上になった場合は、マイクロコードは高速転
送モードに切り替わる。この状態が起こフたときは、ソ
ースFIFOの深さの半分までが空マークを通り過ぎな
いで読み出すことができる。従って、このモードでは、
 DTPモジュール120は状況検査のために停止しな
くても、このサイズのブロックを転送することができる
。受入れ側FIFOの状況は、それが半満杯以下てなけ
れは、なお検:i!fか必要である。低速転送モードと
高速転送モート間を切り替えるこれと同じ手法をメ千り
にも使用することができることは勿論である。
2シーケンサ310 内の3ウ工イ分岐命令(Ill/
lNClと呼ばれる)を使用すると、転送された語数を
記録しておき、FIFO状況信号をテストすることがで
きる。この方法によると、条件付ぎ経路でIP口340
を使用しないで済むので、サイクル長さを短縮すること
ができる。
3、データ・キャッシュ・メモリとの間のデータ転送を
最適化するために、TDババス22どのデータ・インタ
フェースは、32ビツト・レジスタが8個用意されてい
るレジスタ・バンク560B (第5図参照)にバッフ
ァされる。これにより、 DCMから見たとき、読取り
と書込みを完全に並列に行なうことができる。この経路
には2重バッファリングがないので、長い転送(〉8浮
動小数点語)は自動的に中断されることになる。データ
転送プロセッサ・モジュール+20は従って、メモリ・
サイクルが現れるまで転送を一時中止することに7.(
る。この中断は連続転送か使用されないで、より多くの
メモリ・アクセス・サイクルか必要であるとぎ、頻繁に
行なわれることになる。
4データ・キャッシュ・メモリの仲裁はCI’モジュー
ルのサイクルの始まりて決定される。データ転送プロセ
ッサ・モジュール120か制御プロセッサ・モジュール
110と非同期に稼動していた場合(命令依存サイクル
時間を可能にするために)は、データ転送プロセッサ・
モジュール120は同期時間が100nsまで、さらに
アクセス時間か100nsまで待たされる場合がある(
アクセス時間は、制御プロセッサ・モジュール110に
優先権があるので、さらに長くなる可能性があり、DT
Pモジコール120は空きメモリ・サイクルを待たなり
ねばならない。)さらに、シーケンサに対するマイクロ
コード命令とFLAG入力をバイブライン化すると、さ
らに別の遅延か起こり、その間DTPモジコ−ルは転送
か終ったかを確かめるためにループすることになる。
これらの遅延を最小にするために、制御プリセツタ モ
ジコール11〔1とデータ転送プロセッサ・モジコール
120は同じマイクロコード・クロック発生機構を共用
している。両プロセッサはそれぞれの最適サイクル時間
を要求し、クロック発生機構は最も長いサイクル時間を
選択する。これによってどちらかのプロセッサの平均速
度が大幅に低下しないのは、命令の大部分が最短サイク
ル時間で実行されるからである。ループ時の遅延を克服
するために、仲裁は非しジスタ格納マイクロコト要求ビ
ットを用いて行なわれる。
この解決手法の唯一の欠点は、ハードウェアによる単一
ステップを用いるときは、両プロセッサに景三響を与え
ることである。
5、従って、FIFOがソースまたは宛先であるときは
、FIFO状況信号(場合によっては、データ・キャッ
シュ・メモリ仲裁信号)を転送時にモニタする必要があ
る。これらの4個の状況信号(FIFO満杯、FIFO
半満杯、FIFO空、キャッシュ・アクセス許可)が−
回のサイクル内てモニタできるようにするために、デー
タ転送プロセッサ モジ:l−ル120は多重ウェイ分
岐機能をもっている。これにより、デス1〜ずへき状況
がジャンプ・ア1−レスに挿入されるので、ジャンプす
る先の71〜レスはそのサイクル時の状況によって決ま
る。3つのF I F O状況状態は2ビツトにコート
化され、仲裁信号は3番目のビットを構成する。これに
より、8ウ工イ分岐が得られる。FIFO状況たりに関
心があるときは、仲裁信号はディスエーブルできるので
、多重ウェイ分岐は4ウエイに減らされる。
6、制御プロセッサ・モジュール110  (またはF
’Pモジュール130)が各サイクルでデータ・キャッ
シュ・メモリ140を使用中のときデータ転送プロセッ
サ・モジュール120がキャッシュ・メモリからロック
アウトされるのを防止するために、割込みが用意されて
いる。データ転送プロセッサ・モジュールがアクセスを
拒否されると、転送承認信号でループを開始する。この
状態におけるタイムアウトは簡単にテストして調べるこ
とができる。タイムアウトが起こると、データ転送プロ
セッサ 0 G モジ;1−−ル120は制御プロセッサ・モジュール1
10に割込みをかりることかて鮒る。これによりデータ
転送プロセッサ モジュール120はメモリ・アクセス
・モートから出て、再びデータ転送プロセッサ・モジュ
ール120はこのモートに入る。
整数プロセッサ機構340 IPU 340は、本好適実施例では、すでに述べた制
御プロセッサ・モジュール110のIPU 240とほ
ぼ同じである。
シーケンサ310と関連支援ロジック シーケンサ310は、本好適実施例では、すでに述べた
制御プロセッサ・モジュール110のシーケンサ210
とほぼ同じである。
シーケンサ支援ロジックには、割込み、条件コード選択
、マイクロアドレス・バス、定数/次アドレス・フィー
ルドの4種類がある。
」族i シーケンサは4つの割込み入力ビンをもっているだけで
ある。従って、この数を8に拡張するために、外部マル
チプレクサ313が使用される。割込みは主に連絡とデ
バッグ・ツールのサボー1−のために使用される。
割込み発生源(優先度類)は次の通りである。
クロー・ロジックと中断点・この剖込みレベルはクロー
・ロジックと中断点ロジックの間で共用される。これら
の2割込みタイプの機能は、制御プロセッサ・モジュー
ル110内のシーケンサ210の機能と関連づけて上述
した通りである。
VMEバス(デバッグ):VMEバス割込みは通常デバ
ッグ・モニタをサポートする目的たりに使用されるので
、正常動作時には使用されない。
VMEバス(コマンド): この割込みレベルは、コマンドがコマンド・レジスタに
保管されるとセットされる。
制御プロセッサ(コマンド)、この割込みが起こると、
制御プロセッサ・モジュール110はコマンドがDTP
コマンドFIFOにあることをデータ転送プロセッサ・
モジュール120に通知することができる。*幸 VMEデータFIFO:この割込みレベルは、ある種の
データを受り取ったか(入力FIFO) 、データがな
くなったので(出力FIFO) 、 VMEインタフニ
ス内のデータFIFOにアテンションが必要であること
をデータ転送プロセッサ・モジュール+20に通知する
ために使用される。Φ G11’インタ7!−ス:GIP割込みはGIP FI
FO状況信号によって引き起される。* データ・パイプ・インタフェース この割込みレベルは
、ある種のデータを受は取ったのでデータ・パイプ・イ
ンタフェース内のFIFOの1つにアテンションが必要
になったとき、データ転送プロセッサ・モジュール12
0に通知するために使用される。* マイクロコード拡張インタフェース:この割込みは拡張
カード(例えば、大容量メモリ・カードやネットワーク
・カード)のいずれかで使用するために予約されている
注意:*印の付いた割込みは通常の条件コード・ロジッ
クでテストできるので、それが望ましい場合はポーリン
グが可能である。
※*印の付いた割込みの場合は、割込み状態を弓き起し
た事象は、ソフトウェアI+IFOデータ構造内の制御
情報を調へることで検出することができる。割込みを使
用しない場合は、これをポーリングすることが可能であ
る。
割込み数を拡張するためにマルチプレクサ313を使用
する場合は、4つの高優先度割込みレベルと4つの低優
先度割込みとの間でタイミング条件が異なることになる
。高優先度割込みであることを認識するためには、割込
みをマイクロコード・クロックの立上がり縁の25ns
前に引き起す必要がある。低優先度割込みの場合は、そ
の期限は立下がり縁の15ns前である。
割込みを引き起すために、対応する割込み入力は1クロ
ック期間高に保持される。ハードウェアによる割込み承
認サイクルは必要ないので、割込みを引き起すハードウ
ェアは非常に単純である。
条件コード・ロジック シーケンサはFLAGと名付りた条件コート入力端を1
つもっているので、すべてのテスト可能状況信号は多重
化されてこのビンに入力される。これは内部レジスタに
格納され、通常セラ1−アップ時間はIRQにマスクが
かけられているときは(カウンタ・アンダフロー割込み
) Ionsであり、イネーブルされたときは26ns
である。FLAG入力端の極性はシーケンサ内部で変更
することが可能である。
(以下余白) +11’ +1モジユールはCPモジュールと四扛に、
第40八図に示すような疑似レジスタ・ロジックを(N
fiえている。(これは割込み処理から戻るときの問題
を避りるためのものである。) テスト可能な状況信号には、次のものがある。
IPU 340条件コート出力((,0ND) :この
13号は現命令の状況を中継する。IPII 340か
このビンから出力する特定条件はマイクロ命令でコーデ
ィングされる。
マイクロコード・ループ:これはVM[iインタフェー
ス制御レジスタ内の状況ビットであり、診断ソフトウェ
アでイ吏用されるものである。
以下に挙げたFIFOに対するFIFO状況信号 ブタ
・パイプ入力IN(半満杯と空)、データ・パイプ入力
#2(半満杯と空)、データ・パイプ出力#l(満杯)
*、データ・パイプ出力#2(満杯)*、VMEデータ
入力(半満杯と空) 、VMEデータ出力(半満杯と空
)、GIPインタフェース(入力)(半満杯と空) 、
 GIPインタフェース(出力)(満杯、半満杯と空)
。*印の付いた信号は別サブシステム上の受入れFIF
Oから出されるものである。
データ・キャッシュ・メモリ・サイクル承認これはデー
タ・キャッシュ・メモリへのアクセスが許可されたこと
を示す。
マイクロコード拡張インタフェース条件コート信号・こ
れは状況をデータ転送プロセッサ・モジュールのシーケ
ンサ310に返却するためにいずれかの拡張インタフェ
ース18oによって使用される。
DklA バス・エラー、この状況ヒラ1−は、VME
バス上のDMA転送がバス・エラー発生が原因で途中で
打ち切られたとき活動化する。このエラーが最も起こり
得る原因としては、存在しないメモリがアドレス指定さ
れた場合がある。
書込みフラグ0と1=これらの2信号はデータ・キャッ
シュ・メモリ書込みロジックの内部状態をアクセスしや
すくする。これらは、デバッグ・モニタにある状態スレ
ーブと復元マイクロコードだけによって使用される。
保留状況・これは、割込みから戻るとぎテス1−され、
その結果、条件イ」きジャンプなとか、9j込みサービ
ス・ルーチンへのジャンプによってディスエーブルされ
ていても、正しく実行される。
11’U 340からのC0ND出力は、100nsで
サイクルするときは、シーケンサのセットアツプ時間に
間に合わない程近れて有効化される(特に、マルチプレ
サクサによって遅延されたとき)。この条件をテス1−
するときは、クロックを125nsまで延長する必要が
ある。
“for 1oops”は、シーケンサ内部のカウンタ
の1つを使用すると、とり入れやすくなり、IPL13
40をアドレス言4算から解放することができる。勿論
IPU 340を使用しても可能であるが、サイクル時
間が長くなり、それだけ余分のオーバヘッドが生しるこ
とになる。
条件コードは24・lマルヂブレクサ312を通して多
重化されて、シーケンサ310のFLAG入力端に入力
される。シーケンサは選択した条件コート信号の極性を
内部レジスタに格納して、それを選択する。
マイクロアドレス・バス311 マイクロア1−レス・バス31)は、2つのソースつま
り、正常プログラム実行時にはシーケンサ310から、
マイクロコードのロート時にはVMEバスから駆動させ
ることができる。VMEバスはマイクロアドレス・バス
311の内容を読み取って、シケンサ310がどのアド
レスにあるかを確かめることもできる。これはシーケン
サ動作と非同期に行なわれ、主に診断で使用される。こ
のバスの拡張部分は311B線で示されているように、
ホスト・インタフェース・ロジック160に結ばれてい
る。
定数/次アドレス・フィールド これは、シーケンサ210に関連して上述したもとのは
全く異なる方法で使用される。DTPモジュール+20
では、マルチウェイ分岐機能を向上するためにいくつか
の新規なロジックが使用されている。このロジック(お
よびマルチウェイ分岐でのその用法)について、以下説
明する。
マルチウェイ分岐 第3A図と第3B図に示す実施例では、マイクロコ−ド
・システムにおけるマルチウェイ分岐に新規な機能がい
くつか追加さ、hている。第30図は、アドレス境界の
制約を受りることなくマルチウェイ分岐を行なうために
本好適実施例で採用されているマイクロコード動作を概
略図で示したものである。
第3八図から明らかなように、定数/次アドレス・フィ
ールド(マイクロ命令フィールドからのもの)はバッフ
ァ317に対して設けられただけでなく、マルチウェイ
分岐ロジック318に対する入力ともなる。マルチウェ
イ分岐ロジックはマイクロコード・アーキテクチャに新
規な機能をもたせる仕方でこの信号を処理することがで
きる。このマルチウェイ分岐ロジックに対する他の入力
としては、PIF状況信号、およびシフト・コマンド(
これはシーケンサ310によって実行されるマルチウェ
イ分岐ステップにおいて、代替宛先間の増分を変えるた
めに使用される)がある。
第3B図は詳細図である。マイクロ命令バス311から
の定数フィールド(16ビツト)は分割されて+1A1
.3111とバッファ317に対する入力が得られる。
共通イネーブル信号は、マルチウェイ分岐操作が望まし
いとき、これらの両方を活動化するために使用される。
(勿論、シーケンサ・バス3+5は他にも用途が多数あ
るので、マルチウェイ分岐操作が必要になるのはまれで
ある。)さらに、定数/次ア1−レス・フィールドは、
単純なジャンプ操作でもよく使用され、そのような場合
には、マルチウェイ分岐操作が必要になる。
第30図は、マルチウェイ分岐ロジックの内部操作をさ
らに詳しく示している。条件選択/コード化ロジックに
は、各種条件および状況信号が用意されている。これは
これらの条件を選択し、コード化して、分岐で使用でき
る3ビット信号を得るものである。
マルチウェイ分岐ロジックは以下で詳しく説明するよう
に、いくつかのマイクロ命令ビットで制御される。
この種のマルチウェイ分岐ロジックをモジュール120
のようなデータ転送プロセッサで使用すると、特に利点
が得られる。その場合には、装置ろ”条件信号を選択/
コード化ロジック3010に対する条件入力として使用
できる。そうずれは、データ転送プロセッサはかなり複
雑なインタフェースに対して高度の制御を行なうことが
できる。関心のある状況信号が現れると、マルチウェイ
分岐ロジックはその条件を処理するのに相応しいルーチ
ンに直ちに穆ることができる。マルチウェイ分岐機能に
より、シーケンサは複数の装置の条件を1回のサイクル
でテストすることができる。つまり、DTPモジュール
120は各サイクルごとにデータ転送を行なうことがで
きる。この結果、1つだけの条件コード(FLAG)入
力端をもつシーケンサは複雑な制御を行なうこともでき
る。
本好適実施例では、選択/コード化ロジック3010に
対する入力には、下達するように4個のFIFOからの
状況ビットがある。しかし、他の様々な入力構成を使用
できることも勿論である。
シフト入力はシフトとマージ・ロジックに対するもので
ある。これは、マルチウェイ分岐の宛先間の増分を変え
ることを可能にする。
第30図の右側はシーケンサ310が相対アドレス指定
機能をもつことを概略図で示したものである。この機能
をマルチウェイ分岐機能と併用すると、アドレス境界の
制約を無視できる。これはデータ転送プロセッサでは特
に利点がある。この種のプロセッサはデータ転送を小刻
みに行なえる能力が要求されるので、マルチウェイ分岐
命令を多数含めておくことが望ましい場合がある。アド
レス境界の制約がなくなったので、この種の命令を大量
に使用できる。
本好適実施例では、プログラム・カウンタがジャンプ宛
先に対する入力として使用されている。
これは、従来の多数のマルチウェイ分岐では、宛先ベー
ス・アドレスを別のソースから得ていたものと異なるも
のである。
書込み制御記憶 構(WC5) 320WC5はマイク
ロコードSILモジ、ニールを用いて構成されている。
これらは8K x 32ビツト・メモリであり、マイク
ロコードと診断機能をロートするだめの直列走査バ〜r
ブライン・レジスタを(Iiofえている。このモジコ
ールは2種類のものか使用される。レジスタ格納出力と
非レジスタ格納出力である。IPo 340とシーケン
サ310は独自の内部ハイプライン・レジスタをもって
いるので、非しジスタ格納版を使用する。
WCSインタフェース・レジスタ322と323は制御
プロセッサ・モジュールの個所で上述したwcsインタ
フェース・レジスタ223と222と同じ働きをする。
DMAコントローラ DTPモジュール120の重要な機能は、VMEインタ
フェース160と、場合によっては、1つまたは2つ以
上の他のインタフェースにある1つまたは2つ以上のD
MAコントローラを制御することである。この機能は、
それぞれのインタフェースと共に、以下で詳しく説明す
る予定である。
モート・レジスタ303は、使用頻度が低く、マイクロ
コ−1〜・ヒツトを専用させるたりの理由かない制御信
号の値を保持するものである。モー1〜・ビットには、
読取り保持レジスタを通る流れとレジスタ制御、書込み
保持レジスタを通る流れとレジスタ制御、マイククコ−
1〜拡張インタフェスにおいて割込み承認信号を駆動す
る外部割込み承認信号、GIP割込み要求、保持レジス
タに対するループバック・モート、2個のLED制御信
号がある。
TDババスデコート このロジック(これはデコーダ360の最も重要な機能
の1つである)は、マイクロコードTDソースをデコー
ト化し、TDババス22を駆動できる装置の出力イネー
ブルをその結果に応じて制御する。
また、このロジックはTD宛先フィールド(クロック発
生機構250からの書込みゲート信号で修飾されている
)もデコート化して、スロープと書込みイネーブル信号
を発生ずる。TDババス22上のポートの大部分は読み
書きがてぎるので、IPo上の疑似レジスタは不要であ
る。
TDバス・ソースおよび宛先になり1′4るものとして
は、It’111110、VMEインタフェース  メ
モリ、コマン1−−メモリ、データ・ギャソシュ メモ
リ保持レジスタ55011、モート・レジスタ(8ビツ
ト)、シーケンサ・データ・ポート*¥、定数/次アド
レス・フィールド(ソースのみ)*中、VMl:データ
FIFO、データ・バイブ1、データ・バイブ2、GI
P F’lFO**、割込みベクトル・レジスタ(8ビ
ツト) 、DMA制御レジスタ、DMAコントローラア
ドレス・カウンタ*、DMAコントローラー語カウンタ
傘がある。*印の付いたソースはDMAコントローラ命
令によってデコートされる。通常のTDババス御フィー
ルドの一部としてはデコートされない。*中印の付いた
ソースは、下位16ビツトだけを駆動する。これらの1
つが選択されると、符号/ゼロ拡張PAL 218も活
動化されるので、データは32ビツトのバス幅まで符号
またはゼロで拡張される。
1つのソースと1つの宛先だけが選択可能であるので、
これらは異なっていなりればならない。
22 λ IPII 340 ヘ(Dデータ転送はIP(1340
t7)命令フィールドの制御を受りて行なわれるのて、
データが別の宛先にロー1〜されているのと並行してデ
ータをTDバス122から取り出ずことかできる。
クロック発生機構 上述したにうに、クロック発生機構250は、ブタ転送
プロセッサ・モジュール120全体を通して使用される
基本クロック信号を発生ずる。
デバッグ・ハードウェア データ転送プロセッサ・モジュール120に含まれるデ
バッグ・ハードウェアの大部分はいくつかの個所で前述
した。これらをここで要約して示すと、次の通りである
。マイクロアドレス・バス311(読み取りと書込みの
両方)のポスト制御、ホストによるwcsのローディン
グと読み戻し、DI’Tのアテンションを得るためのV
ME生成割込み、ハードウェアによる中断点サポート(
中断点は数に制限されずに、いつでも設定可能)、クロ
ー・ロジック(これにより、ユーザ・タスクはモ・タス
クを1ステップ進めないで1ステップ進むことができる
)、すべてのレジスタが読み−i+1とであること、マ
イクロコードを1スデツプ進めるためのハードウェアに
J:るクロック制御、ずへての割込みが選択的に割込み
可能または割込み禁止できること、重要なロジック群の
内部状態に対するアクセス(これにより、 DTPモジ
ュールのハトウェア状態を完全に格納し、復元すること
ができる)などである。
マイクロコード語の形式 マイクロコード語の形式の概要を示したのが第3C図で
あり、次のように定義されている。
*印の付いた項目は直接にWc5から取り出されて、こ
れらが制御する装置内部でパイプライン化される。
使用可能なマイクロコード・ビットの総数は96ビツト
である。これらのビットは大部分が使用されるが、その
いくつかは予備として以下のフィールドから除かれてい
る。
rpu演算コード(32)*  ・このフィールドはI
PU340整数プロセッサのデータ経路と算術または論
理演算を制御する。フィールド内のビットの割振りはコ
ード化されているか、詳細はWc1tekデータ資旧に
記載されている。ずへての命令は下位24ビツトがコー
ド化されており、上位8ビツトはデータをIPU 34
0のレジスタ・ファイルに転送するときだけ使用される
シーケンサ演算コード(7)*  このフィールドは八
DSI’ +401 による次のアドレス生成を制御す
る。
命令セットはデータ資料に記載されている。
定数7次フィールド(+6)*  :このフィールドは
主にアドレス情報をシーケンサに与えるために使用され
るが、16ビツト定数値をデータ・バス上に送出するた
めにも使用できる。その場合は、これはこのバス上のレ
ジスタのいずれかにロードすることが可能である。
マルチウェイ分岐選択(2)季:このフィールドはマル
チウェイ分岐操作時にFIFO状況信号のどちらのセッ
トを使用するかを選択する。選択できるもノニは、VM
E入力FIFO1GIP入力FIFO、データ・パイプ
1入力FIFO、データ・パイプ2入力FIFO1’)
−26 がある。
マルチウエイ・シフ1−制御(2):これはマルチウェ
イ分岐状況情報がビット位置O、ビット位置1、ビット
位置2から挿入されること、あるいは全く挿入されない
ことを選択する。シフト要因は多様化されているので、
マルチウェイ分岐内の各入口点をそれぞれ、1.2また
は4命令の長さにすることができる。
マルチウェイ分岐転送イネーブル(1)  ・このビッ
トはキャッシュ・メモリ・アクセス許可信号をFIFO
状況と結合するのを可能にしたり、禁止したりするもの
である。このビットが使用されないときは、マルチウェ
イ分岐は4ウエイであり、使用されるときは、8ウエイ
である。
サイクル長さ(2):このフィールドは選択された命令
とデータ経路に合ったサイクル長さを選択する。
データ・キヤ・ンシュ・アクセス(1)中・このヒ゛ッ
トは、データ・キャッシュ・メモリへのアクセスがデー
タ転送プロセッセ・モジュール120によって要求さす
ると活動化する。
データ・キャッシュ書込みイネーブル(1)・このピッ
1へはデータ・キャッシュ・メモリへのアクセスが許可
されると、データ・キャッシュ・メモリで書込みサイク
ルを発生させる。
データ・キャッシュ書込みオール(1):このビットは
通常の書込みイネーブル・ゲート操作を無効にして、デ
ータ・キャッシュ・メモリ内の語の選択的更新を可能に
し、すべての語が書き込まれるようにする。これは、ア
クセスが許可されたときだけ、データ・キャッシュ・メ
モリ書込みサイクルを発生させる。これはメモリ・ブロ
ックを定数値にセットするときに便利である。
条件コード選択(5):このフィールドは条件付き命令
の実行時にシーケンサにテストさせる以下に挙げた条件
コードの1つを選択する。つまり、IPU 340条件
コード出力、マイクロコード・ループ、書込みフラグ(
2項目)、データ・パイプ入力FIFO#I (半満杯
と空)、データ・パイプ入力FIFO#2 (半満杯と
空)、データ・パイプ出力PIFO#1(満杯)、デー
ターバイブ出力F l 1・0#ン(満4;I; )V
MEデータ入力FIFO(半tA杯とg’:) 、VM
I:データ出力FIFO(半γ14杯と空)、GI+’
インタフェース(入力)(半満杯と空)、GIPインタ
フェース(出力)(半満杯と空)、データ・ギャッシュ
メモリ・サイクル承認、マイクロコード拡張インタフェ
ース条件コート・インタフェース、DMAバス・エラー
、保留状況である。
保留状況(1)°このヒツトは通常はシーケンサ210
内のFLAGレジスタの状態に従う疑似状況レジスタの
更新を禁止する。通常、この疑似ビットは内部レジスタ
の状態に従うが、割込みサービスの実行中は、更新され
るのを禁止される。これにより、FLAGレジスタは割
込みルーチンから出たとき正しく復元される。
TDババスソース(4)  :このフィール1−はTD
ババス駆動させる以下に挙げたレジスタ、バッファ、ま
たは装置の中から1つを選択する。つまり、IPU 3
40、コマンド・メモリ、VMEMンタフェース・メモ
リ、データ・キャッシュ・メモリ保持レジスタ、モー1
− レジスタ、シーケンサ・データ・ホー1〜、定数7
次)′)・レス・フィール1へ、シーケンサ・データ・
ボー1〜、定数/次アドレス・フィルト、VMEデータ
Fl+・0データ・ポート、データ・バイブ2、GJP
 FIFO1割込みベクトル・レジスタ(8ヒ゛・ント
)、DM八開制御レジスタ DMAコントローラーア1
〜レス・カウンタまたはDMAコントローラー語カウン
タである。
TDババス先(4)   このフィールドは以下に挙げ
たレジスタ、バッファまたは装置の1つをTDババス上
データの宛先として選択する。つまり、コマンド・メモ
リ、VMEMンタフェース・メモリ、データ・キャッシ
ュ・メモリ保持レジスタ、モード・レジスタ、シーケン
サ・データ・ポート、定数/次アドレス・フィールド、
シーケンサ・データ・ポート、VMEデータFIFOデ
ータ・バイブ1、データ・バイブ2、GIP FIFO
1割込みベクトル・レジスタ(8ピッl−)、DM八開
制御レジスタ DMAコントローラーアドレス・カウン
タ、 DMAコントロラー語カウンタである。
11’ll ++40か上に挙げたものの中に含まれて
ぃノfいのは、これはTDバス−Lのデータをいっても
「取得」できるからである。この機能はIPl命令フィ
ールドによって制御される。
アドレス・レジスタ制御(2)   これらの制御ヒツ
トの一方はアドレス・レジスタのローディングを可能に
し、他方のビットはレジスタの読み戻しを可能にして、
診断とデバッグ・モニタで使用できるようにする。
中断点(1)  (+4デバツグ専用*÷)、命令に中
断点を設りるためにデバッグ・モニタによって設定され
る。この結果、命令の実行中に劃込みが起こると、その
命令の実行を終えたあと制御権がデバッグ・モニタ・マ
イクロコードに渡される。
クロー(11(**デバッグ専用**)・ユーザ・タス
クを1ステップ進めるときクロー・ロジックを始動する
ために設定される。この結果、次の命令の実行中に割込
みが起こると、ユーザ・タスクのある命令が実行された
あとで制御権がデバッグ・モニタ・マイクロコードに移
される。これにより、ユーザ・タスクはクロックを物理
的にオン、オフに切り長えなくても1ステップ進むこと
ができる。
割込みCP (2)  これは制御プロセッサ・モジュ
ルに3レベルのうちのルベルで割込みを引ぎ起ずもので
ある。これらのレベルは次のように割り振られている。
つまり、ホストから新しいコマンド受信、データ転送終
了、データ・キャンシュ・メモリへのアクセス権解放で
ある。
ゼロまたは符号拡張(1)・このビットは16ビツト幅
レジスタまたは装置が読み取られるときだけ効力をもつ
。その場合には、データをゼロで拡張するか(ビット1
6−31がゼロにセット)、符号で拡張するか(ビット
16−31がビット15と同じにセット)が選択される
DMAコントローラ命令(3)、このフィールドはDM
Aコントローラに対する命令を制御する。命令には、内
部レジスタの読み書か、レジスタの再初期設定、アドレ
スを増分(減分)または語カウンタを減分する通nのD
MA動作を扱うものがある。
マイクロコード拡張バス マクロコード拡張バスは基本マイクロ命令1−・サービ
スをオフボードで拡張するものである。これは、拡張周
辺ボード上のある種のインタフニスを制御したり、周辺
ボード全体を制御したりするために使用できる。これら
の使い方の代表例として、大容量メモリ・カードやネッ
トワーク・インタフェース・カートとのインタフェース
となることである。
拡張バス・インタフェースは電気的および機械的にG4
P上の拡張インタフェースと同じであるので、これらは
どの共通拡張カードでも共用することができる。
拡張コネクタは96ウエイDINコネクタであり、そこ
に現れる信号には、次のものがある。3ビツト・スライ
ス・クロック[注1]、バイブライン・レジスタ・クロ
ック[1コ、マイクロアドレス・バス311B(15ビ
ット)[2]、TDババス22(32ビツト)[3]、
リセット、WC5出力制御、バイブライン・レジスタ出
力制御イネーブル、WC5書込みイネーブル324、バ
イブライン・レジスタ・モト制御、直列クロック、直列
データ・イン、直列データ・アウト(マイクロコードの
ローディングで使用)、外部割込み[4]、割込み承認
、条件コート[4]。信号は上で注記したものを除きず
べてTTLレヘレベある。つまり、[1]これらの信号
は差分εCLレベルにある。[2]これらの信号は信号
コート化ECLレベルにある。[3]このバスは32ビ
ツト幅であるが、目的によっては、2個の16ビツト・
バス、つまり、−次データ・バスと二次データ・バスと
みなすことができる。
[4]これらの(8号はオーブンしているコレクタ・バ
ッファによって駆動される。
ある種のECL信号をこのインタフェースで使用すると
、ボード間のクロック・スキュー効果を最小にするので
好都合である。
数値プロセッサ・モジュール130 本好適実施例では、数値プロセッサ・モジュール130
は浮動小数点プロセッサである。従って、この千ジュー
ル+30は浮動小数点プロセッサ・モジュール(または
「FPモジュール」)ともo9ばれることがある。しか
し、このモジ:I−ルは他のブタ型(データ・タイプ)
用に、例えは、複素数算術演算モジュールとして、ある
いは広幅整数演算用モジュールとして構成することも可
能である。このモジュールが広い意味で数値プロセッサ
・モジュール130とも呼ばれるのはこのためである。
本好適実施例では、浮動小数点プロセッサ・モジュール
130は浮動小数点プロセッサとキャッシュ・メモリ間
のデータ転送を統御する制御/インタフェース・ロジッ
クと非常に密に結合されている。この制御/インタフェ
ース・ロジックは制御プロセッサのマイクロコード・ク
ロックによってクロックがとられるので、制御プロセッ
サのマイクロ命令の拡張部分で制御するのが好ましい。
本好適実施例では、浮動小数点プロセッサ・モジュール
130と制御/インタフェース・ロジック(CP拡張ロ
ジック)は主基本ポート(ここには、キャッシュ・メモ
リ140と制御プロセッサ・モジュル110の主要部分
が置かれている)に差し込まねる別個のサブボード上に
一部に搭載されている。
追加モジュール130が使用される場合は、その各々に
は制御/インタフェース・ロジックの一部が置かれるこ
とになる。
本実施例のアプリケーションでは、この制御/インタフ
ェース・ロジックは制御プロセッサ・モジュール110
の拡張と見られているが、この制御/インタフェース・
ロジックがモジュール+10の部であるか否かに関係な
く、本アプリケーションでは、このロジックのタイミン
グと制御特性に関して重要な新規事項がいくつかとり入
れられている。
本好適実施例では、32ビツト・データ構造が使用され
ている。各浮動小数点数は32ビツトで表されるので、
32ビツト単位は浮動小数点数(またはrF語」)とも
呼ばれる。本好適実施例では、数の形式は小数部が24
ビツト、指数部が8ビツトになっている。これは選択的
にIEEE形式にすることも、DEC形式にすることも
可能である。
浮動小数芦プロセッサ 士ジュールl:(0の内部動作
について、まず説明する。そのあとて、制御プロセッサ
・モジコール110およびキャンシフメモリ140との
インタフェースの機能についB’(しく説明する。
第4八図から第40図まては、数値処理モジュール13
0の主要部分を示したものである。本好適実施例では、
第4八図は制御フロセッサ・モジュール+30 とのイ
ンタフェースとなるために使用されるインタフェース・
ロジック410の概略図である。
第4B図はモジュール+30内のデータ通路の主要部分
の一部を示している。第4C図はマイクロコー1−のア
クセスとデコート化のとき本好適実施例で使用されるロ
ジックを示している。第4D図は本好適実施例で浮動小
数点モジュールに使用されるマイクロ命令形式を示して
いる。
実際の数値計算か高速で行なわれる浮動小数点算術演算
機構について最初に説明する。そのあと、FPモジュー
ル130 と低速モジュール間のクロック境界をまたい
てデータ転送か行なわれる2重バッファリングIff:
作について説明する。吹に、ブタ転送の追加段(その大
部分はCPモジュール110の拡張部分によって制御さ
れる)について説明する。最後に、算術演算機構を統御
するプログラムについて説明する。
浮動小数点算術が■算機構(Fl’tl)本好適実施例
の浮動小数点算術演算機構は非児に、!Ii純化されて
おり、高速で動作する。この通路には、浮動少e!1点
乗算機構、浮動小数点ALU  (算術および論理演算
機構)、高速多重ポート・レジスタ・ファイルが含まれ
、これらはすべて高速で単純化されたシーケンサによっ
て制御される。さらに、スクラッヂパッド・メモリが内
部データ通路と密結合されて、参照テーブルを保存し、
ヒストグラム記憶またはデータ・スタックとして動作す
る。
2レベル・データ通路のトポロジは第16図に分かりや
すいように示されている。低レベル・データ通路とその
構成要素は浮動小数点算術演算機構(1佳U)と呼ばれ
るものである。FPUは、高速レジスタ・ファイル4/
1O1All+ 450、スクラソヂパッ1〜メモリ1
610、局所バス431.432.433.434から
構成されている。
算術計算機構440と450 浮動小数点プロセッサ・モジュール130で使用される
浮動小数点計算機構には浮動小数点乗算機構FMPY)
 440と浮動小数点算術論理演算機構(FALII)
 450かある。両方とも、内部アーキテクチャは非常
によく似ている。唯一の違いはデータの扱い方であり(
演算操作が異なることを別として) 、 FALUに累
積演算のための余分のフィードバック通路が設けられて
いることである。
本好適実施例では、[1ipolar Integra
ted Technologies ([1IT)社提
供の集積回路(浮動小数点チップ・セットとレジスタ・
ファイル)が次のように使用されている。BITの部品
番号とこれらに準じるアナログ装置番号は、乗算機構4
40:82110または八DSP7110  ALII
 450:82120または八DSP7120、レジス
タ・ファイル430:82210またはADSP721
0である。乗算機構440とALU 450および高速
レジスタ・ファイルは、実際には、εCLケートを内部
に使用している。しかし、これらのインタフェースと電
源は1゛「シである。これらの算術演算チップは完全な
64ビツト・データ通路を内部にもち、外部に32ビツ
ト・インタフェースをもっている。従って、これらのチ
ップは高速61ビツト演算を行なう能力をもち、必要に
応して多重化データ転送を利用する。
FMPY 440とFALU 450はそれぞれ、オヘ
ラント用の2個の32ビツト幅入カポートXとY(それ
ぞれ局所オペランド・バス431 と432に結ばれて
いる)と、結実用の32ビツト幅両方向ポートT(局所
結果バス433に結ばれている)を備えている。
計算機構の入力ポートの各々はラッチとマルチプレクサ
を備え、出力ポートはマルチプレクサを備えているので
、64ビツト幅の数を出し人れして転送できるようにな
っている。
2計算機構の結実用ポートは並列に接続されている(結
実用バス433に、従って、レジスタ・ファイルの書込
みポート430Dに)。これにより、計算機構は外部マ
ルチプレクサを使用し!こり、ブタをレジスタ・ファイ
ルあてに送ったりしlt <でも、データを交換し合う
ことができる。これは、例えば、積の和を求める計算を
行なうとき便利である。また、この機能を利用すると、
スクラッヂパッド・メモリ1610との間で高速にデー
タをやりとりすることができる。しかし、この構成には
、FMPY 440とFALU 450の両方を同時に
活動化できないという制約がある(ただし、積の和を求
める演算は除く)。これは出力ポートが一緒に結合され
ているからである。これらのポートを別々にしたとして
も、両方の装置はレジスタ・ファイル430からの同じ
データ通路を共用するので、入力端に問題が起こること
になる。
実際に使用される算術演算機構は入出力ポートを柔軟に
構成できるので、これらのポートをレジスタしたり、透
過にしたりできる。しかし、本好適実施例では、この機
能は使用されていない。ポートはすべてレジスタされる
。両計算機構の内部データ通路と機能単位はすべて64
ビット幅であり、車積IR(!J P )と倍精度(D
PIのどちらの演算も行なうことができる。
FMI’Y 440での機能A1位は4個の算術演算命
令をサボー1〜している。最小サイクル時間(ナノ秒単
位)はどちらの精度の場合も、次の通りである。
見圓虜     鹿抗鷹 乗算       4059 除算      200     300平方根   
  300     600パス       405
0 整数乗算     45 FALLI 1150での機能単位は浮動小数点命令、
整数命令、変換命令といったように幅広くサポートして
いる。詳細については、メーカのデータ資料に記載され
ている。すべての浮動小数点命令(単精度と倍精度)は
最小実行サイクル時間は25nsであり、整数演算はす
へて12ns、変換はすべて25nsで行なわれる。
最もよく使用される命令には、次のものがある。
浮動小数点、加算と減算(符号付きまたは絶対値)、絶
対値、否定、スケール、マージ、正規化、比較。
変換 sp−>ビット整数、符号イ」きまたは79号な
し。SP−>64ビツト整数、符号イ」きまたは符号な
り。SP <−32ビツト整数、符号付ぎまたは符号な
し。SP <=64ビット整数、符号付きまたは符号ナ
シ。DP−>32ビツト整数、符号(−1きまたは符号
ナシ。op−>64ヒツト整数、符号付きまたは符号f
t L/。DP <−32ビツト整数、符号付きまたは
符号tt L/。DP <−64ヒツト整数、符号付き
または符号なし。SP −>DP、 DP −>SP。
整数:加算(0,1,桁上げ)、減算(0,11桁下げ
)、 最大値(符号付きまたは符号なし)、 最小値(
符号付ぎまたは符号なし)、論理、シフト(論理または
算術)、回転、ビット反転。
(以下余白) スクラッヂパソト・メモリ1lilO 第16図に示すように、スクラッヂパッド・メそり16
10はそのアドレス・カウンタ1611と共に、結実用
バス433につながっている。計算機構440と450
は両方向ポートでこのバスにつながっているので、マル
チプレクサ440、八LLI 450、またはレジスタ
・ファイル430によってデータを直接にこのメモリか
ら読み取ることができる。
アドレス・カウンタ1611を通して、いくつかのアク
セス・モードでこのメモリがアクセスできるようになっ
ている。2個のモード・ビットに応じて、アドレス・カ
ウンタは(読取りまたは書込みアクセスが行なわれるつ
と)アドレスを増分し、アドレスを減分し、アドレスを
保持し、あるいはアドレスを指定できるようにする。(
例えば、アドレス増分と減分をいく通りかに組み合わせ
て、スタックとして動作させることも可能である。)カ
ウンタ1611のアドレス生成機能を利用すると、ある
条件のときに、メモリ1610を1サイクル1回の書込
みの割合で機能させることができる。
このメモリをスタックとして動作さけると、上述したよ
うに、コンパイラでスカシ プログラミングするとき特
に好都合である。
ヒストグラム・アルゴリズムを実行させるとぎは、以前
のサブト−タル(追跡中のパラメータの)を結実用バス
433上に読み出すことかできる。この種の操作の1つ
の?、W−’l’−な例では、メモリ1610は結実用
バス433のデータ・ソースとして指定され、マルチプ
レクサ440が稼動中に、八1、υ450はコマンドを
受けてオペランド値を結実用バスから読み取るようにな
っている。マルチプレクサ440が終了すると、その結
果を結実用バス433上に送り出し、ALUはその値を
2番目のオヘラントとして読み込む。そのあと、ALI
Iはその和を結実用バス433に送り出し、その間にメ
モリ161Oはコマンドを受けてその結果を書き出す。
(その間に、追加のオペランドをマルチプレクサ440
にロトすることか可能である。) このテーブルかあると、データ依存ハラメータをそこに
置いておくことかできるので非常に便利である。これは
超関数を51算するときに特に便利である。
高速レジスタ・ファイル430 レジスタ・ファイル430はデータ・キヤ・ンシュメモ
リ140との主インタフェースとなるものである。レジ
スタ・ファイルの一方のバンクはCPモジュール110
 と部分的に同期して稼動して、局所転送バス422(
両方向ボーh430Aに結はれている(第16図))を
通してFP保持レジスタ420とのインタフェースとな
る。他方のバンクはFPモジュールと完全に同期して稼
動し、オペランド用バス431.432(読取りポート
430Bと430C) 、結実用バス433(読取りボ
ーh430D)、およびループバック接続434(書込
みポート430E)  とのインタフェースとなる。
第4[1図はモジュール130内のデータ通路の主要部
分を示している。主キャッシュ・バス144(これは2
56ビツト幅である)は直列の4個のFP保持レジスタ
420 と結はれている。(これらの保持レジスタは実
際には対になっており、読取りレジス夕は書込みレジス
タと並列になっている。従って、保持レジスタ420は
8個あり、各々かb4ビット幅であるのて、両方向25
6ヒソ1− インタフニスになっている。)これらの8
保持レジスタ420には別々のイネーブル信号が入力さ
れる。従って、このバンク側のレジスタにより、256
ビツト幅のキャッシュ・バス144を多重化して64ビ
ット幅の高速レジスタ・ファイル430に送り込むこと
ができる。
この多重化が行なわれるのは、主にコストが理由である
。高速レジスタ・ファイル430は非常に高価なチップ
である。これらの個数が4倍になると、システムのコス
トが大幅に高くなることになる。さらに、第38B図か
ら明らかなように、これらの機構の検証は非常に重要で
あり(ビン数が非常に多いので)これらのパッケージを
4個でなく16個使用すると、必要とするポート面積が
著しく増大することになる。
実際にはレジスタ430はりであり、2個だけではない
、物理的に分離したチップの各々は16ビノト幅である
ので、これらを4個並列で使用すると、64ピツ1〜・
インタフェースで局所転送バス422 と結ふことがて
きる(このインタフェースは2F語幅であることに注意
されたい)。
本好適実施例では、レジスタ・ファイル430は18ビ
ット幅xE4記憶位置奥行の5ポート装置から作られて
いる。従って、64ビツト側インタフエスで局所転送バ
ス422と結ぶためには、4個の装置を並列で使用する
必要がある。(説明を分かりやすくするために、第4B
図には、32ビット幅ファイルが2個あるものとしてレ
ジスタ・ファイルが示されている。これにより、下達す
る語アドレス奇数/偶数の状況構造が分かりやすくなる
。また同様に、第16図には、レジスタ・ファイル43
0が1個のファイルとして示されている。)本好適実施
例では、これらの装置は実際にはBIT社提供の822
10から作られている。
レジスタ・ファイルは256ビツト幅にして、キャッシ
ュ・バスと直接にインタフェースで結ぶのが理想的であ
るが、そうすると、付加ハードウェア費用が大幅に増加
することになる。木実施例で採用した代替方法では、F
P保持レジスタ420(関連制御ロジックと共に)を使
用して、キャッシュ・バス144との256ビツト・イ
ンタフェースを多重化して64ビット幅ポート43〇八
に結んでいる。多重化とデータ経路指定は、第4八図と
第4B図にその概要が示されている転送ロジックによっ
て制御される。これについては、詳しく下達する。
これらのファイル間の接続は次のようにするのが好まし
い。(ポートは第16図に個々に名前が付りられている
。) これらのファイル430の各々は両方向インタフェース
430Aをもっており、これは線422を通してレジス
タ420に結ばれている。
レジスタ・ファイル430の各々は2つの透過データ出
力端をもっている。これらの出力端は個別的にイネーブ
ルさせることができるので、レジスタ・ファイル430
内からの異なる語を表すことができる。これらの出力4
30Bと430Cは局所オペランド・バス431 と4
32を駆動させる。
レジスタ・ファイル430の各々は第3局所ブタ・バス
433に結ばれた人カポ−1−4300をもっており、
これは結実用バスと呼ぶことにする。この結実用バスは
計算機構440と450の出力側に結ばれている。
レジスタ・ファイル430の各々はもう1つ入カポ−1
−430Eをもっているが、これは第1オペランド・バ
ス431 につながるループバック接続によって読取り
ポート430Bと結ばれている。この書込みポートはそ
のアドレスを「結果」書込みポート430Dから受は取
る。これにより、ALU 450またはマルチプレクサ
440を通らなくてもデータをあるレジスタ・ファイル
のアドレスから別のアドレスにコピーできるので、2サ
イクルの遅れが節約されることになる。このことは、計
算機構440と450を使用しなくても、従ってこれら
の機構で起こる遅れなしで、データを望み通りに並べ替
えてやりとりできることを意味する。この機能はサブル
ーチンを扱うとき使用すると、特に利点が得られる。
従って、5ポート・レジスタ・ファイル430は2つの
読取りポートDとE、2つの書込みポートBと01およ
び1つの両方向ポートAをもっている。読取りポートか
らはオペランドがFMPY 440とFALLI 45
0に送られ、その結果が書込みボー1〜4300 <必
要ならば、書込みポート430El を用いて書き戻さ
れる。レジスタ・ファイルはF語を128語まで保管で
きる。
書込みポート430Dと430E (および両方向ポー
ト430Eの書込み部分)に対するデータ、アドレスお
よび書込みイネーブルはレジスタ・ファイル430の内
部に記録される。内部書込みパルスは自動釣に発生する
2つの読取りポートはそれぞれのデータ通路をレジスタ
またはラッチすることができ(共に同じであることが必
要)、それぞれのアドレスをレジスタまたはラッチする
ことができる。浮動小数点プロセッサ・モジュール13
0で使用されている構成では、アドレスがマイクロコー
ドから直接に駆動されたときアドレスをレジスタし、デ
ータ・うッヂを透過に保持するようになっている。デー
タは1・M1’Y 440とFALU 450の内部に
レジスタされる。
し/ジスタ・ファイルは、読取りと書込みアドレスが同
じであるときは、「ライト・スルー」モードで動作させ
ることかできる。このモードにあるときは、書込まれた
データは同じサイクルで読取りポートに現れるが、通常
読取り操作より約10ns遅れて現れる。これは、再帰
たはスカラ計算で使用すると便利であり、その場合には
、バイブライン段数が減少するという利点が得られる。
読取リポート430B、読取リポート430C1および
書込みポート430Dに対する個々のアドレスはFPマ
イクロコードのフィールドから与えられる。これにより
、バイブライン処理の制約の枠内でrl−r20P r
3型の計算を行なうことができる。
2重バッファリング 高度の多重ポート高速レジスタ・ファイル430は、制
御プロセッサ・モジュール110と浮動小数点プロセッ
サ・モジュール130とをクリーンなインタフェースで
結ぶ上で不可欠な要素である。このレジスタ・ファイル
のアドレス空間は2重パンファとしてlJJ+ <よう
に区画化されている。どの])馬点においても、このレ
ジスターファイルの一方のバンクは制御フロセッサ モ
ジュールとほぼ同期して稼動し、他方のバンクは浮動小
数点プロセッサ・モジュールと完全に同期して稼判する
。(C1)モジュールとほぼ同期して行なわれる操作に
ついては、下達する。この準同期操作は過渡的クロック
領域を提供するものと考えることができるか、高バント
幅インタフェースを得るときに役に立つものである。〉 2バンクの割当てはハンドシェイキング・ロジックの制
御を受けて、同期点て入れ替えられる。
従って、このクロック境界の配置により、境界の方の側
を他方の側に影響しないで変更することが可能である。
このクリーンなインタフェースを通して、より高速でよ
り集積化された浮動小数点ヂッフ・セットに容性できる
ので、浮動小数点機構に独立性をもたせることができる
。(ハントシェイキング・ロジックの機能と使い方につ
いては、に1)そジュルと11)モジュールとのやりと
りが説明されている個所で第22図を参照して、さらに
詳しく説明する予定である。) 従って、レジスタ・ファイル1130は通孔にデータと
結果をやりとりするときは、2重にバッファリングされ
る。しかし、第18図と第】9図に示すような従来シス
テムでは、この2重バッファリングに柔軟性がない。従
って、制御プロセッサ・千ジュール+10と浮動小数点
プロセッサ・モジュール130は共に、レジスタ・ファ
イル430のどちらかのバンクにあるアドレスのどれで
もアクセスかでざる。アドレスが反対側のバンクからロ
ックアウトされないということは、以下の説明で明らか
にされるように、非常に利点がある。
ハードウェアへのアクセスはカットオフされないので、
レジスタ・ファイルにアクセスするためには(あるレベ
ルて)アドレスの全7ビツト(AD:A6)を指定しな
かればならない。2重バッファリング操作か使用されて
いる場合は、実際には71〜レスの6ヒツ1〜か必要で
ある(現在使用ITJ能なバンク内のアドレスを指定す
る)こめに)。2重バッファリング操作は実際には、最
」ニ位ア[−レス・ヒツトを動的に修飾することによっ
て達成される。モード信号は最上位アドレス・ビットか
どのように修飾されるかを示している。
従って、マイクロコードで指定されたレジスタ・ファイ
ル・アドレスはハードウェアによって自動的に修飾され
る。2重バッファリングは、浮動小数点プロセッサ・モ
ジュール130がレジスタ・ファイルのどちらの半分に
アクセスできるか、制御プロセッサ・モジュール+10
がどちらの半分にアクセスできるかを判断する「バンク
選択」信号によって制御される。このバンク選択信号は
マイクロコード・フィールドによって直接制御されない
が、制御プロセッサ・モジュール+10と浮動小数点プ
ロセッサーモジュール130がスワップ(交換)を要求
したときだけ切り替えられる(別のロジックによって)
2重バッファリングは、最上位アドレス・ピット(AI
I)の区画化を使用している。(これと対1(6的に、
第10図には、ファイルのm語構造を示すために2フア
イルが並んで示されている。これは最下位ア1ヘレス・
ヒラl−(AO)に対応している。)各レジスタ・ファ
イル・71〜レス(7ビツト)には2ビツト修飾子かイ
づいており、これにより次のアドレス・モートの1つが
選択される。
物理アドレス、これは修飾なしで指定されたアドレスを
使用する。
論理アドレス、これは自動ソフト2重バッファリングが
使用されているとき選択され、アドレスの最上位ビット
はバンク選択ビットによって置き換えられる。制御プロ
セッサ・モジュール110のレジスタ・ファイル・アド
レスでは、このビットが反転したものが使用されること
になる。
プレビュー゛これにより、浮動小数点プロセッサ・モジ
ュール+30は、バンクを交換し合ったり物理アドレス
指定を使用しなくても、バンク°の他方の側にあるデー
タを調へることができる。同期点を横切るとき語算パイ
プラインを一杯に保っためには、新しいデータへのアク
セスが必要ムご12る(データが移入済みの場合)。し
かし、通名4はパイプライン化による遅延が起こるので
、現在のバンクに対するずへての結果が書き出されるま
ではバンクを交換し合うことはできない。このアクセス
・千−ドでは、読取りアクセスがレジスタ・ファイルの
反対側のバンクから行なわれてからバンクの交換が実際
に行なわれるので、この遅延は起こらない。これは、ア
ドレスの最上位ビットをバンク選択ビットを反転したも
ので置ぎ換えることによって行なわれる。
第20図は2重バッファリングでアドレス修飾を行なう
ために使用されるロジックの概要図である。この図の右
側はレジスタ・ファイル430とCPモジュール110
とのインタフェースを示しており、左側はFPモジュー
ル110の残り部分とのインタフェースを示している。
従って、右側のデータ接続個所はボ”−ト430A (
第16図に図示)に、従って、FP保持レジスタ42θ
とキャッシュ・バス144に対応している。左側のデー
タ接続個所はポートcon、c、 D、E(第1b図に
図示)に、従りて、マルヂフ“レクサ440、Fへ1.
U 450などに夕4応している。
右側の7トレス入力は、CPマイクロア1−レス・バス
211AによってWC5拡張部分490から呼び出され
たマイクロ命令から抽出されたデータ・フィールドに対
応している。左側のアドレス・フィールドはFPマイク
ロアドレス・バス473によってFPWC5470から
呼び出されたマイクロ命令から抽出されたデータ・フィ
ールドに対応している。(レジスタ・ファイル430は
アドレス入力に対する内部パイプライン・レジスタをも
っているので、マイクロ命令ビットはレジスタされない
で入力される。) 2つのアドレス修飾論理装置2010が示されている。
これらは、SELおよび5EL−barとの接続が反対
になっていることを除けば、はとんど同じである。従フ
て、CPとFPが同じアドレスを論理モードでアクセス
しようとすると、それぞれの論理装置201Oのアドレ
ス修飾操作が行なわれた結果として、反対のへ6ビツト
出力アドレスが得られるので、2重バッファリング機能
か実現される。ア!・レス論理装置はC11またはFl
’マイクロ=1−ト フィルトの1つから取り出した7
ビツ1−・アドレスの上位ビット(八6)も受は取る。
また、2ビン1〜・モート信号も受は取る。
本好適実施例によれば、実際には、−とj[のアドレス
修飾論理装置2010がFP側に実装されている(ポー
ト430B、430C1430Dに1つずつ)。
相補バンク選択信号SELと5EL−barはポート選
択ロジック2020から得られる。これらの2信号は、
FPとCPモジュールが肱四バンク交換を要求すると反
対になる。(これを行なうロジックは以下で詳しく説明
する。) 非レジスタ・ビットのセットアツプ時間短縮アドレス修
飾ロジック2020を実装する際に、第17図に示すよ
うに、ある種の追加ロジックが追加されている。この追
加ロジックは一般的問題を解決するもので、多くの分野
で使用するのに適したものになっている。
「ビット・スライス」の多くのメーカはそれぞれのIC
にパイプライン・レジスタを組み入れている。しかし、
チップに到達する前にマイクロ命令・ビットに対して行
なわれる処理をチップのセットアツプ時間に加える必要
がある。このような事態は、上述したソフト2重バファ
リング・システムを構築する際に起こっていた。その問
題とはアドレス修飾ロジック2010がレジスタ・ファ
イル・アドレスの最上位ビット(”八6”ビット)を処
理して論理的、物理的、およびプレビュー・モードでア
ドレス指定を行なうと、サイクル時間に余分のIons
が付加されることである。(本好適実施例におけるよう
に)サイクル時間を30ns以下にできるときは、これ
は非常に大きなオーバヘッドとなる。
従フて、第17図に示すようなある種の追加ロジックが
余分のfansをサイクル時間(多くのサイクルで)か
ら除くために採用された。これを行なうことができるの
は、アドレス指定モードがあるサイクルから次のサイク
ルまで同じままであるとぎである。その場合には、セッ
トアツプ時間はすでに前のサイクルて代価か支払われて
いる。しかし、マイクロコード・ア)・レスか変って、
新しいデータが書込み可能制御記憶機構(WcS)でア
クセスされると、非レジスタ・マイクロコー1〜・ビッ
トは不安定になる。従って、セットアッフ時間が必要以
上に再び発生することになる。
第17図に示すロジックは修飾アドレス・ビット定数を
別のレジスタ+740に格納している。マイクロコード
から得たものではなく、古いへ〇値(レジスタ1740
からフィードバックされたもの)を使用することを選択
するために(マルチプレクサ1739を制御するために
フリップフロップ172oを使用して)、特殊なマイク
ロコード・ビット(”useold八6“と呼へ)が使
用されている。(マイクロコト・アセンブラを使用する
ときは、”useold A6”マイクロコード・ビッ
トはマイクロコード・アセンブラが自動的にセットする
ので、プログラマはその最適化について気にする必要は
ない。)マルチプレクサ1730はアドレス修飾ロジッ
クと同じP八りに1答lll1iされているので、マル
ヂブレクサは余分の遅延を引き起すことがない。
キャッシュ・バス インタフェースと制御上述したよう
に、数値プロセッサ・モジュールの動作は多くの面で制
御プロセッサ・モジュール110の拡張部分によって制
御される。このロジックの大部分は物理的にFPモモジ
ュール上置かれているか、その制御は制御プロセッサ・
モジュール110 とCDバスとのインタフェースによ
って行なわれる。キャッシュ・バス・インタフェースは
、ブタ・キャッシュ・メモリ14Q 、FP保持レジス
タ420、およびレジスタ・ファイル430間のデータ
転送を管理するためにいくつかの部力に分かれている。
このインタフェースの主要部分は保持レジスタ420、
データ・キャッシュ転送ロジック、および局所転送バス
・ロジック211Oである。
保持レジスタ420 保持レジスタ420は8個の32ビツト・レジスタから
構成されている。(これらのレジスタは両方向であり、
各レジスタは読取り側と書込み側を備え、内部て並列に
なっている。)これらのレジスりは255ピッ1−かデ
ータ・キャッシュ・メモリ側に、64ビツトだりかレジ
スタ・ファイル側にl、(るJ:うに配置されている。
レジスタ・ファイル側の出力イネーブルは4グループの
レジスタから1つを選択して、レジスタ・ファイル43
0 につなかる64ビツト局所転送バス422を駆動す
る。(このインタフェースの動作については、あとて詳
しく説明する。) データ・キャッシュ転送ロジッ、ク データ・キャッシュ転送ロジックは主ポート上に置かれ
ており、CP転送ロジックの一部になっている。ここか
らは、モジュール選択アドレス(3ビツト)、出力イネ
ーブル、およびクロックか得られる。このロジックはキ
ャッシュ・メモリ+40と保持レジスタ420間の転送
を制御する。このモジュールが選択されると、出力イネ
ーブル信号は活動化されていると、保持レジスタ++2
0 t;イネプルしてデータがキャッシュ・バス144
を通って転送される。
局所転送バス制御ロジック 局所転送バス制御ロジック2110は第21図に示され
ている。このロジックは保持レジスタ420とレジスタ
・ファイル430間のデータ転送を受Cプ持つ。1つの
転送サイクルは、4つのマイナ・サイクルをもっており
、これらはレジスタ・ファイルとの間で転送できる4対
のF語に対応している。
これらのマイナ・サイクルは高速で動作する専用クロッ
クによって発生ずる。
転送りロック発生機構412 転送りロック発生機構412からは、主転送サイクル期
間の間だけ転送りロック出力が得られる。
これは、CPクロックと転送イネーブル・ビットが共に
「進行」条件を示しているときトリガされて動作する。
転送りロック発生機構はcpクロック発生機構250と
完全にではなく部分的に同期している。高周波数ECL
回路が70MHzオシレータに接続されており、CPク
ロック発生機構が「進行」条件を示すまでは、高周波数
回路はループを続けているだけである。従って、高周波
数クロックの縁が現れると、「進行」条件がチエツクさ
れる。つまり、「進行」条件が高周波数クリックの多く
て1期間以内に検出されることになる。
進行条件が検出されると、転送りロック発生機構は高周
波発振入力の分割を始めて、主転送サイクルに対する転
送りロック出力を発生ずる。どの主転送サイクルが行な
われているかに応して、2から5までのクロック・ビー
トは主転送サイクル期間に発生する。クロック・ビート
は8個の保持レジスタすべてに結ばれている。これらの
レジスタへの順次アクセスは、上述するように、オーバ
レイされた自走ゼロ・パターンによって「位相」がとら
れる。
第47図は転送りロック発生機構のタイミング関係の概
略図である。高速可変長クロック480は同図の下に示
されているが、これは計算機構440と450(レジス
タ・ファイル430のデータ・ポート43〇八、430
B、430C143H1430Eと共に)の動作のクロ
ックをとるものである。その上に示されているのは、転
送りロック412の高速ECLループである。さらにそ
の上は、主転送サイクルで転送りロック発生機構412
を始動させる(CPマイクロコード・クロックと共に)
イネーブル信号である。その上は転送りロックである。
その上はCPクロック発生機構250によって発生され
るCPマイクロコド・クロックである。
従って、転送りロック発生機構が働いているときは、中
間クロック・ゾーンが得られるので、ブタ・キャッシュ
・メモリ140(これはCPクロック発生機構250に
よ)て制御される)とレジスタ・ファイル430の内側
バンク(これはFPクロック発生機構480によって制
御される)間の転送が高速化される。
FPUとデータ・キャッシュ・メモリ間のクロック境界
は非常に重要な境界である。この境界はクロック位相境
界だけでなく、クロック周波数の大きな差にもまたがっ
ている。上述したように、さらに、この境界をまたぐ正
味転送バンド幅も非常に重要である。
本好適実施例セは、この境界は2つのスデッフでまたが
っている。
1・1)クロック領域から過渡的クロック領域への転送
はレジスタ・ファイル・インタフェースの2重バッファ
リングによって行なわれる。
保持レジスタ420かデータ・キャッシュ・メモリ14
0への転送は全体がCPクロック領域内で行なわれる。
次に、このクロック周・波数差に関して注目ずへぎいく
つかの一般的事項を挙げておく。
マイカ転送サイクル継続時間と最小FPサイクル時間と
の関係は偶然的なものではない。上述したように、ダイ
アシック演算のときにキャッシュ・バンド幅に最悪の負
担がかかることになる。例えば、ベクトル加算では、2
個のオペランドと1個の結果をレジスタ・ファイルとキ
ャッシュの間で転送しなければならない。レジスタ・フ
ァイルのFPU側では、2個のオペランドは並列に読み
出され、(これとパイプライン処理されて)その結果は
同時にレジスタ・ファイルに書き戻される。従って、最
悪の場合には、B1算機構のすべての計算サイクルごと
に、2語をレジスタ・ファイル430に書き込み、1語
を読み出さなLJればならない。
すへての演算がダイヤシックであるとは限らないが、多
くのアプリケーションでは、平均的にあまり有利とはい
えない。
過渡的クロック領域を使用する実施例では、上述したよ
うに、次のようにすることが最も好ましい。つまり、マ
イカ・サイクル継続時間をマイカ・サイクルごとに転送
される語数で分割して、FPUにおける計算サイクルの
最小継続時間の1/2ないし173倍の範囲にすること
が好ましい。しかし、2段インタフェースで過渡的クロ
ック領域を使用すると、この数値関係が満足されない場
合であっても、その利点が得られる。
過渡的クロック領域の利点は高速数値計算機構が使用さ
れているシステムに応用可能である。上述したクロック
・インタフェース・アーキテクチャによれは、この種の
機構をそれぞれのクロック領域に隔離できるので、可能
な限りの最大速度でクロックを動作させることがてきる
。例え(:I、このインクフェース アーキテクチヤは
、高価な高速テクノロジ(ジョセフソン接合やIII−
V装石テクノロジなと)における限られた数の計算機構
を大型コンピュータ・システムに組み入れるとぎに使用
可能である。
制御信号 制御信号の数を少なく抑えるためには(入力端と出力側
の両方で)8個のF RDを保持レジスタ420からレ
ジスタ・ファイル430に転送する仕方にいくつかの制
約がある。これがなぜ必要なのかは、アドレスのことを
考えれは明らかである。F語が8個のときは、全体の柔
軟性が必要である場合には、8個のアドレスが別々に必
要になる。各アドレスに9ビツトを指定する必要がある
ので、アドレス情報は合計で72ビツトになる。
入力制御信号には、次のものがある。
ル:データがレジスタ・ファイルから保持レジスタに転
送されるのか、あるいはその逆に転送されるのかを指定
する。
レジスタ・ア1−レス(6ビツ1−)  これは、ブタ
かそこからレジスタ・ファイルとの間で転送される開始
アI−レスを指定する。このアドレスはマイナ転送サイ
クルごとに増分され、64ビツトまで達すると、折り返
される。FPU側からは、レジスタ・ファイル・アドレ
スは、64ビツト語ではなく32ピッ1−語を参り、―
するので、7ビツトであることにt1目すへぎである。
論理/物理アドレス修飾子 これはアドレスを修飾して
ソフト2重バッファリングを行なうかどうかを選択する
転送長さ(3ビツト)・これは転送されたF語の個数(
18)を判断する。
転送開始(3ビツト):これは8語のうち最初に転送す
るF語を指定する。これらのビットはマイクロコード・
フィールドでも、レジスタ・フィールドでも定義できる
が、Cへバス111の最下位ビットにすることも可能で
ある。転送開始+転送長さ〉8ならば、F語の選択は折
り返される。
転送イネーブル・転送に関係する4つの浮動小数、占、
フ”ロセッサ・そジュールを1つ選1jくする。
レジスタ・ファイルと保持レジスタに対する制御信号に
は、次のものがある。
保持レジスタ群出力イネーブル(4):64ピツ]・・
データ・バスを駆動させるレジスタ2tfを選択する。
転送方向かレジスタ・ファイル430から保持レジスタ
420に向う場合は、これらのイネーブルはいずれも活
動化しない。
保持レジスタ群クロック(8):クロック・イネプルは
4つあり、これらはパターン1110.1101.10
11.011+ (r自走低パターン」)の順番になっ
ている。これらの4クロツク・イネーブルは64ビツト
・レジスタ群を選択する。静的8ビツト・クロック・マ
スクは32ビツト・レジスタのどの2つを実際にイネー
ブルさせて、局所転送バス422をアクセスするかを選
択する。(パターン内の開始位置は転送開始によって決
まり、パターンの数は転送開始と転送長さパラメータに
よって決まることに注意されたい。) ィクルごとに増分し、論理/物理アドレス修飾子に応し
て修0111される。
レジスタ・ファイル読取り/書込み制御(2)、各列の
レジスタ・ファイルごとに別の文字があるので、奇数個
の書込みが可能である。これらは転送長さとアI〜レス
からデコート化される。
(以下余白) 転送の制約条(’I(78語構造) 上述したインタフェースによると、転送にいくつかの制
約がある。これらの制約を分かりやすく説明するために
、データがデータ・キャッシュ・メモリ140、保持レ
ジスタ420、局所転送バス422、およびレジスタ・
ファイル430の間でどのようにマツピングされるかを
明らかにする。
レジスタ・ファイル430はある種の缶詰構造になって
いる。つまり、FPUからは32ビツト幅に見えるが、
局所転送バス422からはレジスタ・ファイル430は
64ビツト幅に見える。
レジスタ・ファイル430と局所転送バス422間を2
語幅のインタフェースを使用して結び、8個のレジスタ
420に印加される転送りロック(実効)を4マイナ・
サイクル以下にすると、転送速度が最大化するので(静
的クロック・マスクが使用できる)非常に有利である。
しかし、ある種の奇数/偶数構造がファイル・アト、レ
ス構造に組み込まれるという副作用が生じる。
これを図式化して示したのが第46図である。FP保持
レジスタの幅内の8個のF W!jは相反向ぎに陰影を
イ」りて、どれが偶数で、どれか奇数であるかを示して
いる。2イ8語が転送されると、転送された任意の偶数
F語(WO1W2、W4.W6)はレジスタ・ファイル
430の左側にマツピングされる。従りて、これらはF
PLIから見ると、偶数レジスタ・ファイル・アドレス
にマツピングされる。これに対応して、転送された任意
の奇数F語はレジスタ・ファイル430の右側にマツピ
ングされるので、FPLIから見たとき、奇数レジスタ
・ファイル・アドレスにマツピングされる。
このことは、それ程深刻ではないが、(キャッシュ・メ
モリ140からの一連の分散読取りアクセスにおいて)
すべての転送が偶数データ・キャッシュ・アドレスから
の場合には、レジスタ・ファイル430内のアドレスの
半分だけが使用できることを意味する。
もっと重要なことは、1個のF語(例えば)計算アドレ
スから転送される場合には、データがレジスタ・ファイ
ル内の偶数または奇数アドレスで終結する可能性がある
ので、このデータを正しい側から(FI’Llに)アク
セスさせるようなプログラム・ステップを使用する必要
があることである。
本好適実施例によれば、この種の問題を回避するために
ユーザが選択できる5つのオプションか用意されている
。つまり、 1、CP千ジュール110はDCMでデータを往復でき
るので、転送されるどのデータもDCM内の偶数アドレ
スから開始する。
2、転送ロジックは状況ビットをもっており、最後の転
送が偶数アドレスに対するものか、奇数アドレスに対す
るものであるかを示すようになりている。FPロジック
はこの状況ビットをテストできるが、これから得られる
のは、最後の転送に関する情報だけである。
3.2重書込みサイクルをデータ有効フラグと一緒に使
用できるので、語アドレスの偶数/奇数特性をある個所
で無視させることが可能である。つまり、本好適実施例
でレジスタ・ファイル430に実際に使用されているメ
モリには、データの16ビツトごとに2個のパリティ・
ビット記憶位置がある。本好適実施例では、パリティ検
査は採用されていないのて、これらの追加ビットは他の
目的に使用可能である。特に、これらのビットはデータ
と共に「データ有効」フラグを送るために使用できる。
従って、保持レジスタ420からの書込みはすべて対の
保持レジスタから対のF語をレジスタ・ファイル430
の両側に書き込むことになる。
4 、CPモジュール110によって書き込まれるレジ
スタ・ビットは現在の語記憶位置の偶数/奇数状況を示
すために使用できる。FPモジュールはこのレジスタ・
ビットをテストして、条件付ぎ分岐を実行することがで
きる。
5、CPモジュール110はレジスタ478にある開始
アドレスを変更することで、FPに正しい語の偶数/奇
数状況を知らせるようにFPプログラミングを変更する
ことができる。
別の方法としては、専用ハードウェアを追加して、語の
交換を即時に行なう方法がある。しかし、この方7去は
、専用へ−1−ウェアによって中云送′117に遅延が
増加するので(交換−・)−るか否かに関係なく>ti
了ましくなし\。
この転送制御では、非連続アドレスを1回の主転送サイ
クル内で転送することかできない。例えは、WOとW2
を保持レジスタからレジスタ・ファイルに転送するため
には、2つの主転送サイクルが必要になる。しかし、W
lも一緒に転送できるならば(それが使用されない場合
であっても)主転送サイクルは1つだけで十分である。
データをレジスタ・ファイル430からキャッシュ・メ
モリ140に転送するときも、分散書込みが行なわれる
ときと同じような考慮が必要になる。
この場合の好ましい方法は、レジスタ・ファイルの両側
にデータを同時に書き込むことである。つまり、第4B
図に示すように、2つの(物理的には別の)レジスタ・
ファイル部分430と403゛は北メイネーブルできる
ので、結実用バス433から書き込まれたデータは偶数
語と奇数話の両方に書き込まれることになる。この重複
データが保持レジスタ420に+iFぎ出されるとぎは
、これらの8個全部に同時に書各込むことかて各る。(
この機能はマイクロコード内の1lll [:Iock
 ALILビットによって活動化される。) 保持レジスタ/転送りロックの動作 上述したように、多くて4個のビートで転送イネーブル
を行なうクロックは保持レジスタ420 とレジスタ・
ファイル430間の転送で使用される。
(本好適実施例では、このクロックは実際には主転送サ
イクルごとに5個までのビートをもつことができる。そ
のうち4個のビートは保持レジスタ・バンクのそれぞれ
の対を活動化し、5個目の位相はバイブライン・オーバ
ヘッドの余裕分となっている。実際の動作では、このク
ロックの位相は約30nsである。従って、主サイクル
は約+50nsである。(勿論、これらの時間は変更が
可能である。) このクロック構造には、缶詰転送アーキテクチャをキャ
ッシュ・バス144 と保持レジスタ430間のインタ
フェースで使用すると、大きな利点が得られる。転送ロ
ジックには保留レジスタ=130は2語幅に見えるので
、転送1榮作を81多重化てはl。
く、41多重化として扱うことかてぎる。
FPプログラム制御 第4C図は本好適実施例において、FPマイクロコト・
アクセスとデコート化で使用されるロジックを示してい
る。
マイクロ命令の順序付け(シーケンシング)本好適実施
例では、数値処理モジュール130は高度に統合化され
た「シーケンサ」を使用していない。その代わり、実行
ずへきマイクロ命令のアドレスを定義し、マイクロ命令
をデコート化する機能が低レベルの統合化によって実装
されて、最大高速化を図っている。書込み可能制御記憶
機構は、マイクロ命令アドレス入力によってアクセスさ
れるマイクロ命令を格納している。マイクロ命令アドレ
スのソースは次アドレス・ロジック472によって選択
され、このロジックには条件コート入力がマイクロコー
ド語のデコートによって得た出力と共に入力される。
マイクロア1〜レスは、通常動作時には(つまり制御プ
ロセッサ・モジュールやホストによる介入とは別に)4
つのソースの1つから得られる。これらのソースとは、
「真」アドレス・レジスタ474、「偽」アドレス・レ
ジスタ475、スタック・レジスタ47B、開始アドレ
ス・レジスタ479である。
どの命令にも「真」アドレス・フィールドと「偽」アI
−レス・フィールドがある。これらの2アドレスを組み
合せることにより、条件付きジャンプが可能になる。「
真」アドレスだけが無条件ジャンプと命令「継続」を可
能にする。
これを行なうには、マイクロ命令471のある種のフィ
ールドが2つのレジスタ474 と475に送り込まれ
る。これらのレジスタは「真」と「偽」アドレスのバッ
ファとなるので、論理テストの結果に応じて、一方また
は他方のアドレスが次のマイクロ命令アドレスとして逆
ロードすることができる。
オンチップ・バイブライン・レジスタを使用しないマイ
クロコード・ビット用として、追加のしラスタ4フロが
用意されている。
スタック・レジスタ478 スタック・レジスタ478はFl+プログラム制御の機
能を強化するものである。これから得られる出力はマイ
クロアドレス・バス473に送出され、入力はマイクロ
命令バス471から得られる。これについては下達する
しかし、FPモジュールの高速マイクロコー1−・アー
キテクチャで使用されるスタックに要求される条件はい
く分通常とは異なりたものである。本好適実施例による
スタックは必要とする後入れ先出しくLIFO)操作を
高速に行なうだけでなく、デバッグに非常に役立つ柔軟
性を備えている。この機能を得るためには、第39図に
示すように、ある種の新規構造が要求される。
スタック機能を実装するのに都合のよい方法はレジスタ
・ファイルを使用し、その出力イネーブル信号と書込み
イネーブル信号をアドレス・カウンタに結び付けて、”
pop” (読取り)操作が行なわれるたびにカウンタ
を減分し、”push”(書込み)操作が行なわれるた
びにカウンタを増分することである。
中心部分3920は多段パイプライン・レジスタであり
、これはAM11社から市販されている(八MD295
20)。この部分は4個のバイブライン化されたレジス
タ3921と、出力を得るためにレジスタ3921の1
つを選択するために使用できる出力マルチプレクサ39
22とを備えている。(この種の装置の通常動作モード
はFIFOか、一定の遅延を得る動作モトのどちらかで
ある。) 図示の実施例では、このレジスタの制御機能はLIFO
操作を実現するために、PAL 3910の制御の下で
使用される。PALはコマンド信号を受けてスタックを
ポツプまたはブツシュする。読取りスタック入力も用意
されているので、(主に診断目的)スタックの状態を無
変更のまま読取ることができる。このモードで使用する
ために用意されたのがオフセット入力であり、これは最
上段レベルを基準にしたスタック・レベルを読み出すた
めに使用できる。
スタック・レジスタの出力はマイクロアI・レス・バス
1173に結ばれている。スタック・レジスタへの入力
は偽アドレスによって得られるが、その理由について以
下説明する。
サブルーチンの動作 スタック・レジスタ478はサブルーチン動作を強化す
る機能を備えている。サブルーチンを呼び出すマイクロ
コード命令はサブルーチン・アドレスを真フィールドに
、戻りアドレスを偽フィールドに記述する。この命令の
短フィールドには、フッシュ・コマンドも記述されるの
で、スタック・レジスタは「偽」アドレス出力を格納す
る。サブルーチンの実行が終ると、ポツプ・コマンドが
スタック・レジスタをイネーブルして、戻りアドレスを
マイクロ命令バス473上に出力させる。
従って、スタック・レジスタ478が4レベルであるの
で、サブルーチンを4レベルまでネストすることができ
る。
クロック発生機構48Q FMPYとFALUでのサイクル時間は命令が異なると
、サイクル時間も異なる。サイクル時間を命令に応して
調整するJ:うにすると、81算時間が最適化されるの
で都合がよい。FALU演算とA1精度乗算との間の差
が最大である(15ns)。
FMPYには除算や平方根のように実行時間が長い命令
があり、その場合には、実行時間はそれぞれ200nS
と300nsである。これらの実行速度の遅い命令用に
2つのオプションが用意されている。
1つは、サイクル長さを該当する量だけ延長するオプシ
ョンである。
もう1つは、実行時間の長い命令が進行中にFMPYに
対するクロック・イネーブルをディスエーブルするが、
その命令とデータ・ストリームを通常のデータ速度でF
ALUに送り続けるオプションである。これにより、い
くつかのFALU演算を除算演算の陰に隠すことができ
るので、ある種のアルゴリズムにとっては好都合である
クロック発生機構はマイクロコード・クロックとスクラ
ッチパッド・メモリに対する書込みゲートの2つの波形
を発生する。クロック発生機構が発生ずる最小サイクル
時間のJρざは21nsてあり、これは1′υ大サイク
ル時間の98nsまて711S刻みで変えることか回能
である。本好適実施例では、実際の最小サイクル時間の
長さは28nsである(これはWO3メそり・アクセス
時間か制約要因となっているためである)。FALU演
算のサイクル時間の長さは28nsであるか、単精度乗
算演算では4Insである。
クロック発生機構はECLステー1・・マシンとして実
装されており、入力周波数か140MIIzで動作して
タイミング分解能を得ている。このECLステト・マシ
ンをTTL順序付りロジックおよび高速計算機構と併用
すると、著しい利点が得られる。
(上述したように、レジスタ・ファイル430 と計算
機構440.450は内部にECLが実装され、周辺に
TTLが実装されている。) クロック発生機構は以下に挙げた制御入力を受は取るこ
とかできる。つまり、VMEインタフニスからでも(つ
まりホストから)、cpモジュールからでも受り取るこ
とかてぎる停止または開始コマンド、マイクロ命令バス
471からの長さ入力フィール1へ、「待ち状態」 (
またはCPが開始アドレス・レジスタを強制的に次のF
l’マイクロサイクルに対するマイクロア1〜レス・ソ
ースにするときはもっと長いサイクル)を指示するスト
レッヂ入力、およびクロック発生機構にも結ばれていて
、即時停止を指示する中断点ビットである。
上述したように、CP拡張ロジックにも転送りロック発
生機構412かある。このクロックはクロック発生機構
280とは無関係である。(しかし、これらのクロック
発生機構は共にTTLクロック発生機構内にTTLロジ
ック対を駆動するECLロジックを使用する利点を生か
している。) マイクロコード短縮 FPモジュール130の動作の注目すべき特徴の1つは
、短縮マイクロコードを使用していることである。つま
り、WO2470とのインタフェースにある種のロジッ
クが用意されており、マイクロ命令のあるフィールドを
以前にレジスタに格納された値で即時に置き換えられる
ようになっている。
本好適実施例では、この方法て置き換えられるフィール
1−は演算指定子である。しかし、他のシステムでは、
他のマイクロ命令フィール1〜をこの方法で置き換える
ことも可能である。
従フて、例えは、2個の配列を3個目の配列上にマツピ
ングする演算(例 C1・Ai + [li)の場合は
、この種の演算列が開始される前に命令レジスタに演算
指定子(例 ”八DD”)をロートすることが可能であ
る。この演算列はそのあと、演算を直接に指定していな
かったコートに記述されることになる。
このロジックは第45図に示されている。命令レジスタ
451Oには演算指定子(8ビツト)がロートされる。
この演算指定子はWO2470に保管されているマイク
ロ命令のフィールドの1つに対応している。
”Use IR”ビット(これはcpモジュール110
によってレジスタに書き込まれているので、あまり変更
されることがない)を受けると、PAL 5420は出
力コマンド470Bをイネーブルするか、命令レジスり
451Oをイネーブルするかを選択する。
” Us c l II ”ピッ1〜がマイクロ命令の
あるフィール1〜に割り当てられていた場合は、これは
サイクルごとに変わる可能性がある。しかし、この場合
には、どの指定子を使用するかをデコートするときに(
そのあとそれをイネーブルするときの)余分の遅れが生
しるので、変更が行なわれたサイクルではサイクル時間
が長くなる。
WO2470は、本好適実施例では、実際には各々か4
ビツト幅の26個の集積回路メモリから物理的に構成さ
れている。従って、これらの物理メモリの2つに演算指
定子フィールドの8ビツトが保管される。これらの2メ
モリは部分470Bで示され、WO2470の残りのフ
ィールドを保管するメモリは47〇八でボされている。
命令レジスタ451Oはそれを(CPマイクロコードの
中で)CDバスのソースまたは宛先と指定することによ
って、CDバス122から読み書きすることができる。
PAL 4520には入力の別ビットも送られるので、
そのバイパス操作をマイクロコードのローF lf4作
時にディスエーブルすることが可能である。
マイクロコードの並列ロート 第29図はWCS 1170がどのように幅広ギャッシ
ュ・バス1411 とのインタフェースとなっているか
を図式化して示したものである。64ビット局所バス4
22はFP保持レジスタ420とレジスタ・ファイル4
30のポート43〇八とをホ吉んでいるが、マイクロ命
令データ・バス471にふる下がっている直列シャドウ
・レジスタ481 にも接続されている。(他の個所で
詳しく説明されているが、これらの直列レジスタは制御
記憶機構470とマイクロ命令をホストから送るとき使
用される直列ループとを結ぶインタフェースになってい
る。) この追加の接続は、マイクロコードのオーバレイを非常
に高速に変更できるようにするので、数値プロセッサ・
モジュール130で特に利点が得られる。
本好適実施例では、直列シャドウ・レジスタ481は実
際には、物理的に分離された2つのレジスタ1181八
と48111からなる構成になっている。これらのレジ
スタは制御記憶機構470のデータ・ポートと両方向で
結ぶインタフェースになっているたりてなく、局所バス
422からのデータも受は取ることができる。上で触れ
たように、CP拡張ロジック内のマイクロ命令フィール
ドは、局所バス422のデータ宛先を示して、この読取
りを指示できるビットが人っている。
上述したように、各FPマイクロ命令は104ビツト幅
である。しかし、直列インタフェース・ループを巡回す
るデータの自動シフトに合わせるために、シフト・レジ
スタ481は112ビツト長になりている。つまり、命
令ビットの数は次の偶数の16の倍数に丸められて、イ
ンタフェースにあるシフト・レジスタの長さが定義され
ている。本好適実施例では、レジスタ481Aは64ビ
ット幅であり、レジスタ481Bは48ビット幅である
レジスタ481 にマイクロ命令がロードされると(局
所転送バス422の3マイナ転送サイクルで)これらは
命令をWCS 470に逆ロードするように駆2  Q
  n 動される。このためには、アミルレスな11)マイクロ
アドレス・バス473に送出する必要があり、また書込
みイネーブル信号をWCS 470に送る必要がある。
直列ローディングでは、ホストはCPマイクロアドレス
・レジスタを使用して、ロート(または読み取る)べき
FP WCSのアミルレスを格納し、このアドレスをF
P WCSあてに送る。(C1)マイクロアドレス・バ
ス211^からの入力は第4C図の上方に示されている
バッファからFPマイクロアドレス・バス473に送り
込まれる。) 並列ロード・モードでは、CPは目標アドレスを開始レ
ジスタ479に入れる。
ホストとのインタフェースとなる追加のロジックも用意
されている。このロジックにより、マイクロ命令を制御
記憶機構470に対して読み書きすることができる。こ
の機能は詳しく下述する予定である。
FPマイクロコード・ルーチン実行の始動FPモジュー
ルが起動するとき、これは下述するFI’W八[T/C
PWA11’ハンドシェイキング・ロジックにJ:す、
通常待ち状態に入る。FPモジュールで実行されるルー
チンを始動するには、CPマイクロコードのあるビット
を使用して、開始レジスタ479に保持されているマイ
クロ命令アドレスをFPマイクロ命令アドレス・バス4
73上の次のアイクロアドレスとして使用させることが
できる。この処置は下述するようにモジュール選択によ
りて修飾される。
FPモジュールの選択 最上位レベルでは、浮動小数点プロセッサ・モジュール
130を制御するためにはその前に選択しておかなけれ
ばならない。単一モジュール構成では、FPモジュール
は常時選択されているので、以下に述べることの中には
、適用されないものがある。しかし、複数モジュール構
成では、必要とするFPモジュール(またはアルゴリズ
ム高速化機構)を先に選んでおかないと、その制御を行
なうことができない。複数のFPモジュールを一度に選
んで、データまたは情報をFPモジュールのサブセット
に同報IJi1信することか可能である。[()モジ−
フルは次の3通りの方法で選択てぎる。1つは、以前に
制御レジスタに格納されている3ヒツ1〜値を使用する
方法である。2番目は、マイクロコ[−・フィールドを
使用する方法である。最後は、好ましさの点で劣るか、
異なるモジュールの各々にあるCP拡張ロジック部分に
独自のマイクロ命令・ストリームを同期して実行させ、
アクセス仲裁をマイクロコードで行なう方法である。使
用する方法はサイクル単位で変更することが可能である
あるFPモジュールが選択されると、それを制御する方
法は制御レジスタ(長期的な制御情報かロードされてい
る)と専用マイクロコード・ピッ1〜の間で分割されて
、サイクルごとに制御が行なわれる。サイクル別制御の
殆どは、下述するようにデータ・キャッシュ・メモリ・
インタフェースとそのモジュール上のレジスタ・ファイ
ル間のブタ転送を取り扱う。
モジュール選択は第23図に図式化して示されている。
マルチプレクサ2340はモジュール10に対してどの
入力を使用するかを選択する。デコー1−・ロジック2
310 (これはモジュール+30または130にある
CP拡張ロジックの一部である)はその特定モジュール
でのスイッヂ設定値と突き合せて、同報通信されたモジ
ュール・アドレスをテストする。修飾ロジック2320
はそのテスト結果に応して、下述するように、局所WC
5拡張部分からの各種マイクロ命令フィールドを修飾す
る。
制御レジスタ 制御プロセッサ・モジュール110は、次のレジスタに
読み書きすることができる。
転送制御レジスタ:転送制御レジスタは保持レジスタ4
20(データ・キャッシュ・メモリ・インタフェースに
ある)からレジスタ・ファイル430に転送されるデー
タ転送に影響を与える制御信号を一ケ所に収集するもの
である。ハードウェアの負担を軽くするために、他の信
号もいくつか収集される。
使用される制御信号には、次のものがある。
転送開始(3)、このフィールドは保持レジスタ71丁
の8レジスタのうちのどれを最初に中云送するかを選択
する。これはマイクロ命令の一部として指定することも
、データが取り出されたデータ・キャッシュ・メモリ・
アドレスに基ついて自動的に指定させることも可能であ
る。
転送長さ(3):このフィールドは、保持レジスタとレ
ジスタ・ファイル間で転送する詔の数を指定する。最大
8語まで転送が可能である。
転送タイプ(1):このビットは転送か保持レジスタと
レジスタ・ファイル間で行なわれるのか(0)、保持レ
ジスタからFPモジュールのWCSパイプライン・レジ
スタに行なわれるのか(1)を選択する。
後者の機能はFPモジュール・メモリの並列ロート時に
使用される。
ループバック制御(1):このビットは、書込み保持レ
ジスタ内のデータを、レジスタ・ファイルに先に書き込
むことなく、直接に読取り保持レジスタに複写すること
を可能にする。これの主な用途は診断および状態格納と
復元操作である。
1榮作選択[1)  このピッ1−はハート布線機能か
なく、FPのシーケンサに対してテストか可能である。
このビットを使うと、制御プロセッサ・モジュール11
0は、現在実行中のルーチン内の2つの152作の1つ
を実行するようにFPに通知することができる。例えは
、このビットは、偶数アドレスにあるデータ(奇数アド
レスにあるデータではなく)を計算て使用するように指
定するために使用できる。
命令レジスタ選択(1):このビットはWO2にあるマ
イクロ命令フィールドでなく命令レジスタ(後述)を使
用させて、浮動小数点ALUと乗算機構の動作を制御す
るものである。
マスク・エラー(1)、このビットはFPエラー条件(
FPマイクロコードによって判断される)が制御プロセ
ッサ・モジュール110のシーケンサに割込みを引き起
すのを禁止する。禁止されても、FPエラー状況は通常
条件コード選択プロシージャでテストすることが可能で
ある。
行なわれるときは、ホス1−・コンピュータは1・1)
のサブルーチン・スタックにアクセスする必要がある。
スタックへのアクセスが可能であるときは、このフィー
ルドがどのスタック項目を読み取るかを選択するために
使用される。アクセスされるスタック項目はスタック・
ポインタが指している位置を基準にしたものであること
にd−意されたい。
FP制御レジスタ:FP制御レジスタは並列マイクロコ
ード・ロード制御、割込みマスキング、クロック制御お
よびマイクロアドレス選択フィールドを一ケ所に収集す
る。
クロック制御(2):このフィールドを使用すると、制
御プロセッサ・モジュール110はFPのクロックを制
御することができる。FPクロックは動作させたままに
することも、停止させることも可能である。クロック制
御フィールドにある追加ビットは、FPマイクロコード
・クロックが制御プロセッサ・モジュール110のマイ
クロコード・クロックを使用して、FPを制御プロセッ
サ・モジュール110と同期して稼動させることを選択
するために使用されていたものである。
FPマイクロコード・71−レス・ソース(2)・この
フィールドにより、制御プロセッサ・モジュール+10
はFPに使用させるマイクロコード・アドレスを次のう
ちの1つにすることを選択でざる。
FPシーケンサ出カニこれはFPがマイクロコードを実
行させるとぎの通常のマイクロアドレス・ソースである
開始アドレス・レジスタ:これは並列マイクロコード・
ロード時に開始アドレス・レジスタを選択する。(CP
モジュール110またはホストがFPモジュール110
にマイクロコードの実行を特定のアドレスから開始させ
ることを指示するときは、別の仕組を用いて開始アドレ
ス・レジスタが選択される。) スタック出力強制:これは、診断とマイクロコード・デ
バッグ時にサブルーチン・スタックへのアクセス権を得
るために制御プロセッサ・モジュール110によって使
用される。
割込みマスク・これらの4ビツトは、FT’でどの事象
が起ぎたとき、[1)に割込みを引き起すかを制御プロ
セッサ・モジュール+10に選択させるものである。こ
れらの事象には、中断点、(:pWAI’r、FPWA
IT、レジスタ・ファイル交換、FPエラーがある。割
込みが引き起されると、対応するマスク・ビットは一時
的にクリアされて、割込み要求かリセットされる。
並 マイクロコード・ロード制御(5)このフィルドに
は、WC5書込みイネーブル、WC5出カイネーブル、
診断シフト・レジスタ・モード、および信号中のクロッ
クと直列データを制御する個別ビットがある。並列マイ
クロコード・ロートは以下で詳しく説明するように、制
御プロセッサ・モジュール110によって制御される。
浮 小数点直列アクセス・ループ(3)、浮動小数点A
LUと乗算機構を通して稼動する直列ループは両チップ
の内部状態をアクセスしたり、ある種の新しい状態情報
をロードしたりするとき使用できるものである。内部レ
ジスタとフラグはすべてこの方法てアクセスができる。
この直列ループを制御するために、制御プロセッサ・モ
ジュール110は直列そ一ト、直列データ・イン、直列
クロックの3つの制御信号をもっている。直列クロック
はこのレジスタ・ビットから直接に駆動されるので、必
要とする立上がり縁と立下がり縁を発生ずるためには制
御プロセッサ・千ジュール110に切り替えさせる必要
がある。
開始アドレス・レジスタ・制御プロセッサ・モジュール
110は、ジャンプ開始アドレス・マイクロコード・ビ
ットが使用されるときFPにその実行を開始させようと
するマイクロコード・ルーチンのアドレスを開始アドレ
ス・レジスタにロードする。このレジスタは並列マイク
ロコードの実行時にロードすべきWC5記憶位置のアド
レスを保持するためにも使用される。
命令レジスタ(8ビツト) 二制御プロセッサ・モジュ
ール110はWC5から取り出した浮動小数点ALUと
乗算機構の命令を無視して、独自の命令を代用すること
ができる。命令レジスタ4510 (第45図に図示)
はこの命令を保持する。これの利点は制御プロセッサ 
モジュール110か必要と−・j−る特定タイプの4所
に合わせて汎用マイクロツー1〜ルーヂンをカス1−マ
イズできるので、非児にに<似たアルゴリズムで使用さ
れるWCSスペース量を大幅に節減てぎることである。
状況レジスタ(ソースのみ):これはFPモシュルにあ
るある種の内部情報をアクセスするために診断とマイク
ロコード・デバッグでのみ使用される。アクセスできる
状況には、転送時に使用されるレジスタ・ファイル・ア
ドレスと保持レジスタ開始アドレスおよび問題状況があ
る。
マイクロコード語の形式 FPマイクロコード形式の主要フィール1−は第4D図
にその概要か示されている。マイクロコード語の詳しい
定義は上述する。*印の付いた項目はWO2470から
直接に取り出されるので、これらが制御する装置の内部
バイブライン・レジスタを使用する。フィールド別のビ
ット数はかっこ内に示されている。
真71〜レス(14): このフィールドは通祁の順次
プログラム実行時(例6命令継続)にジャンプする次の
アドレス、条イ9イ」きテストが真であるときジャンプ
するアドレス、およびジャンプ・サブルーン命令のサブ
ルーチン・アドレスを収容している。
偽アドレス(9)÷−このフィールドは条件付きテスト
が偽であるときジャンプする次のアドレスとジャンプ 
サブルーチン命令のサブルーチン・アドレスを収容して
いる。
読取りアドレスX (9) 牟このフィールドはデータ
が×”ポートから読み取られたり、そのポート上に送出
されるレジスタ・ファイル内のアドレスを指定する9ビ
ツトを保持している。物理アドレスは9ビツトのうちの
7ビツトに入れられ、他の2ビツトはアドレスをどのよ
うに修飾するかを選択する。オプションには、修飾なし
く物理)とソフト2重バッファリング(論理とプレビュ
ー)がある。
読取りアドレスY(9)*このフィールドはデータが”
Y”ポートから読み取られたり、そのポート上に送出さ
れたりするレジスタ・ファイル内のア1ヘレスを指定す
る9ビツトを保持している。物理アドレスは9ビツトの
うちの7ビツトに入れられ、他の2ビツトはアドレスを
どのように修飾するかを選択する。オプションには、修
飾なしく物理)とソフト2重バッファリング(論■里と
プレビュー)がある。
書込みアドレス(8)・このフィールドはデータか書き
込まれるレジスタ・ファイル内のアドレスを指定する8
ビツトを保持している。物理アドレスは8ビツトのうち
の6ビツトに入れられ、他の2ビツトはアドレスをどの
ように修飾するかを選択する。オプションには、修飾な
しく物理)、ソフト2重バッファリング(論理)、ソフ
ト2重バッファリング(プレビュー)がある。このアド
レスは偶数アドレスに1つ、奇数アドレスに1つの対の
レジスタを選択する。レジスタの書込みは2個の別々の
書込みイネーブル・ビットによって制御される。(この
機能を使用すると、上述したように、同じ結果をレジス
タ・ファイルの偶数側と奇敵側の両方に入れておくこと
かできる。)このアI〜レスは同じデータをレジスタ・
ファイルに入れるために使用される「ループバック」書
込みボ1〜でもイ吏用される。
偶数書込みイネーブル(1)このビットが活動している
とき、データは偶数レジスタ ファイル・アドレスに書
き込まれる。
奇数書込みイネーブル(1):このビットが活動してい
るとき、データは奇数レジスタ・ファイル・アドレスに
書き込まれる。
浮動小数点演算(8)中:これは実行したい浮動小数点
または整数演算を指定し、FMPY 440とFALU
450の両方で共用される。使用される特定部分別の命
令セットと命令コードの詳細はメーカのブタ資料に記載
されている。
FMPYイネーブル制御(4)、このフィールドはブタ
の内部多重化と、人出力レジスタのローディング、つま
り、Xポート・マルチプレクサ制御(”X”ポートは最
初のオペランド・バス431に結ばれたポートである)
、イネーブルXポート・しジスタ・データ・ロード、イ
ネーブルXポートレジスタ・データ・ロー1−(”Y”
ポートは第2のオペランド・バス432に結ばれたポー
トである)、イネーブルZレジスタ・ロード(”2”ポ
ートは結実用バス433に結ばれたポートである)を制
御する。
FALU 450イネーブル制御(5)・このフィール
ドはデータの内部多重化と人出力レジスタのローディン
グ、つまり、Xポート・マルチプレクサ制御、Yポート
・マルチプレクサ制御、イネーブルXポート・レジスタ
・データ・ロード、イネーブルXポート・レジスタ・デ
ータ・ロード、イネーブルZレジスタ・ロードを制御す
る。
サイクル長さ(4):命令のサイクル長ぎを定義する。
これらは28nsから98nsの範囲であり、7ns刻
みで定義できる。
(以下余白) 1: M P YまたはFAl、U状況選択(1)傘・
FMI’Y440またはFALUl150のどちらかを
選択して状況バスを駆動する。
条件コート選択(5)・テストすべき条件を次の中から
1つ選択する。つまり、真強制(省略時の条件) 、 
FPW八Iへ、桁上げ(FALU)、ゼロによる割り算
(FMPY)、問題状況(ゼロによる割り算)、問題状
況活動、CPオプション・ビット、Xデータ有効、Yデ
ータ有効、最後に転送されたデータのアドレス(つまり
、偶数か奇数)、マイクロコード・ループ、ゼロ、否定
、割込みフラグ、数字でない(NAN)、丸め、問題の
オーバフロー、問題のアンダフロー、問題の不正確、問
題の無効演算、問題の非正規化。これらのうち最後の1
0個はFMPY440またはFALU450から取り出
すことが可能である。
中断点(1):この命令に中断点が設定されていること
を示すために設定される。
FPDONE設定(+) :FPDONE状況フラグが
制御プロセッサ・モジュール110インタフエースで設
定されると、計算が完了したことが制御プロセッサ・モ
ジュール+10に通知される。
スワップ(1):レジスタ・ファイル内のソフト2重バ
ッファを交換することを要求する。この交換は、制御プ
ロセッサ・モジュール110と浮動小斂点プロセッサ・
モジュール130が共にスワップを要求するまでは行な
われない。
スクラッチパッド制御(3):このフィールドはスクラ
ッチバットとそのアドレス・カウンタの動作を制御する
。1つのビットはスクラッチバット・メモリの書込みイ
ネーブルであり、他の2ビツトはアドレス・カウンタ操
作をロード、増分、減分、保留の中から選択する。
結実用バス出力選択(2);このフィールドは結実用バ
ス433を駆動するソースを選択する。ソースとなり得
るものには、FALU、FMPY 440、スクラッチ
パッド・メモリ・データ、スクラッチパッド・メモリ・
アドレスがある。
スタック制御(2):このスタック制御フィールドは戻
りアドレスがブツシュ、ポツプまたは保留されるように
サブルーチン・スタック・ロジックを制御する。
ループバック書 みイネーブル(1):このビットはル
ープバック・ポート430Eを通してレジスタ・ファイ
ル430で書込みサイクルをイネーブルする。これによ
り、最初のオペランド・バスにあるデータが書込みポー
ト430Dで指定されているアドレスに複写される。奇
数と偶数の書込みイネーブルはレジスタ・ファイル43
0のどちらのバンクにデータを書き込むか、あるいはそ
れを両方に書き込むかどうかを選択する。
肌MatlHml (2) :このフィールドはこのサ
イクルで生成された状況を問題状況に組み入れるか、問
題状況をクリアするか、保留するかを選択する。
倍精度データ転送(2):これらの2ビツトはFALt
1450とFMPY 440内のXとYレジスタに送り
込まれるデータの多重化と2ポートから送り出される倍
精度結果の多重化を制御する。
旧へ6の使用 このビットはすべてのポートのレジスタ
・ファイルに対する最上位アドレス・ビットか隣接サイ
クルの間開しままであるときマイクロコード・アセンブ
ラにJ:ってセットされる。これはこのような場合のサ
イクル時間を短縮するために使用される。
プログラム流れの例 以下は疑似コートで書かれた簡単なプログラム例である
。この例は、新規な機能かどのように実行効率を向上さ
せるかを示したものである。
この例の動作図は第42図に示されている。この例で注
意すべきことは次の通りである。
大かっこで囲んでまとめて示されている命令は並列に実
行されるものである。
通常、乗算はルーチンを通るパスごとに行なわれる。し
かし、これはルーチンを簡略化するために4つに減らさ
れている。
2重バッファリングはマイクロコー1〜から見えない。
実行される計算式はC[n] −八[n]*[][n]
である。
ただし、nは0.3の範囲であり、8個のオペランドと
4個の結果はレジスタ・ファイル内の固有アドレスにお
かれる。これらの参照の1つにある′ (初期値)は対
応する要素の反対の要素、つまり、バッファが交換され
る前に2重バッファの反対側にある要素を示す。
乗算ルーチンは別表に示す通りである。
(以下余白) 310 A %’1   表 MULE: (R8nd A[1] and B[11
from register file。
Do      ’   result  O=   
O°  OV田L4: (Raad A[2] and
 B[21tram register me。
Do calculation、 result Ro
ll = N1] ” B[11゜Write val
ue or result    1nto   ’ 
   file at(Raad A[3] and 
B[3] rrom register file。
DocalctIlation、resultR[2]
=A[2]”B[2]。
Write value or result Rol
l 1nto register file at C
[ll。
Te5t FPWArr if true ’    
to      else conLf+ue ”(D
o calculation、 res+nt R[3
] −A[3] ” E[3]。
Write value or res+nt R[2
] 1nto register file at C
[2]Te5t FPW    K true ’  
  to MUL6 else continue ”
(Write value or result R[
3] 1nto raIHLmr file at C
[3]Set FPDONE and swap bu
ffersTest FPWArr flag、 if
 true jump to MUL2 else j
umpto MULI MUL5: (Raadに[0] and B’[0]
 rrom register file。
Do calculation、 result R[
3] = Af3] ” B[3]。
Write mue of result    1n
to   ’   file at(−に[1] an
d B’[1] &om register file
Do calctllation、 result R
’[O] = A’[O] ” B’[O]。
Write value ofresult R[3]
 1nto register file at C[
3]Set FPDONE and swnp buf
fers。
oMUL4 MULE: (−に[0] and B’[O] 11
rom register file。
Write value or result R[3
] 1nto register file at C
[3]Set FPDONE and 5Wnp bu
ffer4toM′[JL3 FPヘクトル乗算ルーチン(疑似コート)このルーチン
について?1目ずへき意力)いくつかある。
このルーチンはずへてのサイクルてFPUがイ吏用中で
あることを保つように最適化されている(たたし、その
ためのデータがあることが条件)。もっと単純で効率が
劣る版には、命令MI115とそれ以上が備わっていな
い。
8対の数を乗算するようにこれを拡張するために、MU
L4にある命令はレジスタ・アドレスが変わるたびに4
回繰り返される。
すべてのサイクルでFPUを動作状態に保つためには、
交換を行なわないで2重バッファの反対側からデータを
アクセスする必要がある。これは命令M U L 5と
それ以上で使用される。
次の組のデータが用意されている限り(つまり、FPW
AITが偽である)、制御プロセッサ・モジュール11
0と同期をとる時間の無駄がない。
デバッグ・ハードウェア 浮動小数点プロセッサ・モジュール130上のデバッグ
・ハードウェアは制御プロセッサ・モジュール110や
ブタ転送プロセッサ・モジュール120に含まれるもの
よりも機能に制約があるが、これはそこで実行されるマ
イクロコードが非常に単純化されているからである。
レジスタ・ファイルへのアクセスは局所転送バス422
を通して行なわれるので、モニタ・マイクロコードによ
って読み書きができるようになっている。FMl’Y 
440とFALU 450は直列走査ロジックが組み込
まれているので、このロジックによって内部バイブライ
ン・レジスタと状況/モード・レジスタがアクセスでき
る。次のマイクロコード・アドレスは開始アドレス・レ
ジスタ479をアクセスすることによって制御プロセッ
サ・モジュール110がアクセスできる。
中断点ロジックはマイクロコード語の中のあるビットを
使用して、中断点を定義する。中断点ビットが設定され
た命令が現れると、クロック発生機構は中止され、制御
プロセッサ・モジュール110のインタフェースにある
中断点状況信号がセットされる。中断点から継続するた
めに、制御プロセッサ・モジュール+10はクロック発
生機構に送り込まれた中断点入力をクリアする。中断点
直後に十分な内部状態が格納されると、制御プロセッサ
・モジュール110はある浮動小数点プロセッサ・モジ
ュール130のマイクロコードの実行を開始しく開始ア
ドレス・レジスタの仕組を通して)直接アクセス状況と
スクラッチパッド・メモリをアクセスする。
マイクロコードは、1ステツプ進めるルーチン内のすべ
ての命令で中断点ビットをセットすることによってのみ
1ステツプ進めることができる。
デバッグ機能をサポートするもう1つの特徴は、サブル
ーチン・スタックを読み取ることができることである。
(以下余白) アプリケージ:1ン向きプロセッサ・モジュール+30 第9八図はアプリケーション向ぎ数値処理モジュール1
30゛を備えた数値高速化サブシステムの概要図である
(これは「アルゴリズム高速化機構jとも呼ばれる)。
用意されている強力な制御ツールを使用すると、制御プ
ロセッサ110は1つまたは2つ以上の数値処理モジュ
ール110と1つまたは2つ以上のアルゴリズム高速化
機構130’とを任意に組み合せた形で制御することが
できる。
汎用浮動小数点機構130を1つまたは2つ以上のアル
ゴリズム高速化機構130’と組み合せると、特に利点
が得られる。この種の結合システムでは、汎用浮動小数
点演算を必要とするいう制約から解放されて、アルゴリ
ズム高速化機構130’を設計することができる。従っ
て、アルゴリズム高速化機構は必要ならば、高度にアプ
リケーション向きの設計にすることができる。
特に利点のある組合せは、複合演算モジュールをモジュ
ール130’の1つとして含めることである。
アプリケーション向ぎプロセッサはアプリケジョン向き
数値プロセッサであることが好ましい。しかし、アプリ
ケーション向きプロセッサは任意的に(好ましさの点で
は劣るが)、記号プロセッサ(つまり、Lr5p’*た
はPROLOGを高効率で実行させるとぎ必要になる追
加のデータ通路を備えたプロセッサ)や中立ネットワー
ク・マシンなどの特異なプロセッサにすることも可能で
ある。
複数の数値プロセッサ・モジュール130(アルゴリズ
ム高速化機構を含む)の制御について以下説明する。
FFT高速化モジュール 第9B図はアルゴリズム高速化機構130°の1例のア
ーキテクチャが汎用浮動小数点モジュール130のそれ
とどのように異なるかを図式化して示したものである。
図示のモジュールは離散的積分変換操作を行なうように
特に最適化されている。例えば、このモジュールは高速
フーリエ変換(FFT)アルゴリズムを高速に実行する
。このアルコソズl\の実行例についてり下栓h」する
ことにする。
第9B図の実施例では、レジスタ・ファイルq1゜はレ
ジスタ ファイル430よりも高度化された多重ポート
を備えている。レジスタ・ファイル910は4個の読取
りポートと4個の書込みポートのほかに、キャッシュ・
バス144 とのインタフェースとなる広幅両方向ボー
1〜910八を備えている。
読取りポート910Bとして示されている4木の線は実
際には折り返されている。実行される乗算は乱数乗算で
ないのが代表的であるか、係数(これはデータ語はどに
変化することが少ない)による乗算であるので、サイク
ルの大部分ではサイクル当たり1つだりの複合語の入力
が必要である。
(しかし、このことは最終サイクルでは該当しない。) 4つの乗算機構920は整数または浮動小数点機構にす
ることが可能である。これらは上述した乗算機構と同じ
にするのが最も好ましいか、勿論他の剖算機構の使用も
可能である。これらの機構は新しい係数の読取り指示が
あるまて、係数をレジスタに保持している。
従って、4つの乗算機構920と加算機構930で完全
な複合乗算機構911を構成することができる。複合乗
算機構911は2つの複合アi・レス912とパイプラ
イン化されている。
2つの複合加算機構912に対する入力には、複合乗算
機構911の出力だけでなく、遅延ブロック940経由
で送られてきた読取りポート910Cからのデータが含
まれる。(この遅延ブロックは任意的にレジスタ・ファ
イル910上のボー1−910Bと910 Cを共用す
るために使用することもできる。) 複合加算機構の出力は書込みポート9100に結ばれて
いる。
従って、この構造によると、バタフライ計算を非常に効
率よくバイブライン化することができる。
データ・キャッシュ・メモリ・モジュール1110デー
タ・キャッシュ・メモリは高ハンl”(IF域)幅の大
容量メ干りである。記憶器量は現在では2M口であり、
パン1−幅は毎秒320111である。このメそりは多
重ボー1〜を備えているので、外部世界とのデータ転送
を浮動小数点機構と並行に行なうことができる。tl’
 hv−か「調歩」式で行なわれて、浮動小数点プロセ
ッサーモジュール130か長時間アイドルになるのを防
止する。
第5図はデータ・キャッシュ・メモリ・モジュル140
の主要機能を示している。このモジュルの中心となるの
は、大きなメモリ・ブロック510である。本好適実施
例では、このメモリ・ブロック510は8個のシングル
・イン・ライン・モジュールで構成され、各々は8個の
32Kx8 SRAM5を備えているので、総計2メガ
バイトのメモリになっている。しかし、当業者ならば容
易に理解されるように、このメモリ構成は高度半導体部
品の供給変化や特定アプリケーションの要求に応して変
更することが可能である。
特に、ある種のアプリケーションでは、メモリ容量を犬
粗くすると利点が得られる。このメモリバンク51(l
てX256構成を使用すると、少なくとも完全な並列ア
クセスの場合には、アドレス空間の使用効率か向上する
。従って、本好適実施例では、2Ilピッ1−・アドレ
ス情報かアドレス入力511 にあるメモリ・バンク5
10に入力される。書込みイネーブル入力512は実際
には8ビット幅であるので、1つの256ビツト・メモ
リ・ブロック内の個々の32ビット語が書込みのために
選択できる。これは上述するような利点が得られる。ブ
タ・ポート513は256ビツト幅である。ブロックの
機能には、まだモジュール+40全体がもつような多重
ポート機能を備えていない。この多重機能を実装するた
めのロジックとメモリ・バンク510をアクセスするた
めのロジックについて、次に説明する。
第5図の下方に示したのは制御プロセッサ110に結ば
れた32ビット幅データ・バス(CDバス112)と、
データ転送プロセッサ120に結ばれた32ビット幅バ
ス(TDババス22)である。これらのバスの各々はま
ず保持レジスタ・バンク560に送り込まれる。レジス
タ・バンク560の各々は並列の8個の32ビット幅レ
ジスタ561を備えている。(木好適実施例では、これ
らのレジスタ561の各々は実際には、書込み保持レジ
スタ561゛が読取り保持レジスタ561°“と並列に
なるように構成された4個の74ALSIi52装置を
使用して構成されている。レジスタ・セット56〇八、
560B、420の構造は第42図に計則が示されてい
る。
メモリ・バンク510がアクセスされるには、アドレス
をポート511から得る必要がある。このアドレスはマ
ルチプレクサ520を通して、Cババス1ll(このバ
ス上には制御プロセッサから出されたアドレスが送られ
る)からか、Tババス121  (このバス上にはデー
タ転送プロセッサ・モジュール120から出されたアド
レスが送られる)から与えられる。選択入力521はこ
れらの入力のどちらをアドレス・ポート511 に送る
かを選択する。
マルチプレクサ520に対する選択入力521は仲裁ロ
ジック530によって生成される。この単純なロジック
は、DTI”がアクセスを要求し、CPがアクセスを要
求していない場合だけ、Dll)モジュール120への
アクセスを許可する。選択信号521はアドレス・マル
チプレクサ520にだけでなく、書込みマスク・マルチ
プレクサ530とDTP転送ロジック540にも送られ
る。
下達するように、書込みマスク入力512はTDババス
22またはCDバス122からの書込みのときに非常に
利点がある。書込みイネーブル入力512は分解能が8
ビツトであるので、各メモリ・ブロック510内の8個
の32ビット語は、1回の完全並列書込み操作時に個別
的に書込みイネーブルさせることができる。従って、例
えば、制御プロセッサ110が8未満の語をメモリ・バ
ンクのある行に書き込むことを要求したときは、必要と
する語位置のレジスタ561に必要とするデータ値がア
ップ・ロードされる。さらに、8ビツトが書込みマスク
線551に送出されて、レジスタのどちらにアドレス5
11  (CAババス11からの)で指定された行にあ
るメ干り・バンク510の対応する語に書き込むべぎか
を示している。(上述したように、CAババス11から
マルチプレクサ IPII 340め出力ににって制御される。)第25
図は書込みマスク・ロジックを別の見方で見たものであ
る。同図において、FP書込みマスク・ロジック251
O、CP書込みモニタ・ロジック2520、およびDT
P書込みモニタ・ロジック253oは3つの別ブロック
に分割されて、マルチプレクサ530に対する入力とな
っている。第26図は書込みモニタ・ロジック・ブロッ
クの動作をもっと詳しく示したものである。ロジック2
610に対する入力には、レジスタ選択、全部書込み、
DCM書込み、保留レジスタ・ロードなどがある。出力
は8個のフラグ・ビットであり、レジスタ2620に格
納されている。
転送ロジック540はデータ転送プロセッサ120内の
マイクロコード命令列の一部であるマイクロコード命令
フィールド542によって駆動される。
同様に、CD転送ロジック550は制御プロセッサ・千
ジュール110のシーケンサ210によって駆動さレル
マイクロコード命令の一部であるマイクロコ!・命令ピ
ッl−552にJ:って駆動される。(実際には、この
シーケンサによって駆動されるマイクロ命令1−の一部
は分散しておくのが好ましい。つまり、マイクロ命令の
フィールドの一部は制御記憶機構220から切り離して
保管されるが、シーケンサの出力である一連のマイクロ
命令アドレス211によってクロックがとられている。
これにより、システムから見て大幅な利点が得られるが
、これについては下達する。) 転送ロジック540と550の他の出力543と553
には、それぞれのレジスタ・バンク560の制御といっ
た制御機能があるが、この中にはクロッキングと出力イ
ネーブルが含まれる。(レジスタ・バンク560の各々
は、レジスタ・バンクの両側に2つの出力イネーブルと
、2組のクロックをもっている。また、CP転送ロジッ
ク550によって制御される機能の1つとして、メモリ
・バンク510の出力イネーブル線514がある。) キャッシュ・バンク510へのアクセスを要求するため
にFPモジュール130からの直接入力はないか、こ、
11は、この種のアクセスは制御フロセノヅ・モジコー
ル1lt1によって制御されるからである。こうすると
、l:述するように、大幅な利点か得られる。
メモリ構成 高速化サブシステムは広幅メモリ・アーギデクヂャを採
用している。データ・キャッシュ・メモリNOをアクセ
スするたびに、256ビツトか読み書きされる。これは
サイクル当たり8個の浮動小数点語に相当する。
データ・キャッシュ・メモリ140は3ポートて制御プ
ロセッサ・モジュール11O1浮動小数点プロセッサ・
モジュール130、およびデータ転送プロセッサ・モジ
ュール120に結ばれているが、制御プロセッサ・モジ
ュール110と浮動小数点プロセッサ・モジュール13
0によるアクセスは制御プロセッサ・モジュール110
のマイクロコードによって制御されるので、仲裁とアド
レス多重化は2通りの方法たりて行なわれる。
データ・ポート データ・キャッシュ・メモリと結ぶポートは3つある。
FPモジュールにつながるポートは256 ビット幅で
あり、制御プロセッサ・モジュール110とデータ転送
プロセッサ・モジュール120の各々からはそれぞれ3
2ビツト幅ポートとして見える。
32ヒッ1〜幅ボー]・に対するデータ経路と記憶装置
はデータ キャッシュ・ブロック+40の一部に含まれ
ている。
メモリ配列から32ビツト・バスの1つに送られる25
6ビツト・データの多重化は32個の両方向レジスタを
通して行なわれ、これらのレジスタは4個すつ8群に配
置されている。各群は読取り方向に32ビツト(つまり
、浮動小数点語の1語)を、書込み方向に32ビツトを
格納する。これは保持レジスタと呼ばれる。各レジスタ
を特定して名前を付けると、インタフェースのプロセッ
サ側から見て、読取り保持レジスタおよび書込み保持レ
ジスタとなる。
データがメモリ配列から読み取られるとぎは、32 /
1 256 ピッ1へ全部か保1、ルシスタに格納され、こ
J]らのレジスタの出力イネーブルは必要とする浮動小
数点語を選択して32ヒッ1−・ボー1−に送出するよ
うに制御される。
データがメモリ配列に書き込まれるときは、32ビツト
・ポートから更新されたレジスタだけか格納される。こ
れは書込みマスク・ロジックによって制御され、各群ご
とに1つの割合で8個の1i!−込みイネーブルを使用
して達成される。
32ビツト・ポートは両方ともデータ経路と記憶装置ロ
ジックか同じになっている。
浮動小数点プロセッサ・モジュール+30につながる2
56 ビット・ポートは32ビツト・ポートと同じよう
なロジックを備えているが、浮動小数点プロセッサ・モ
ジュール110上に置かれている。データ・キャッシュ
・メモリを、モジュールを使用して将来拡張できるよう
にするために、アドレス・バス(24ビツト)と書込み
イネーブル(8)はモジュール・コネクタ3810 (
第38八図と第311B図に図示)に結ばれている。
叶転送ロジック CP転送ロジックはCP保持レジスタ(または「P保持
レジスタ)とデータ・キャッジ:、−メモリ間のデータ
転送を担当する。
保持レジスタにあるデータはCDソース・マイクロコー
ド・フィール1−か読取り保持レジスタを選択したとき
アクセスされる。CPアドレス・バスの最下位3ビツト
は駆動すべき32ビツト語を選択してバス上に送り出す
。この過程では、データ・キャッシュ・メモリは使用さ
れないが、必要ならば次の組のデータをアクセスするこ
とが可能である。
データを書込み保持レジスタに書込むときは、CD宛先
マイクロコード・フィールドは保持レジスタをグループ
として選択し、CPアドレス・バスCへIIIの最下位
3ビツトは更新ずへき32ビツトを選択する。書込み保
持レジスタが更新されるときは、対応する書込みフラグ
がセットされる。従って、データ・キャッシュ・メモリ
に対する書込みが行なわれるときは、制御プロセッサ・
モジュル110によフて更新された保持レジスタたりか
実際にメモリ配列に書き込まれる。対応する保+i’i
レジスタが更新されていないメモリ配列内の詔は変更さ
れない。データ・キャッシュ・メモリに書込みが行なわ
れると(データ・ソースが制御プロセッサ・モジュール
+10である場合)、書込みフラグはすべてリセッ]−
される。制御プロセッサ・モジュール110がデータ・
キャッシュ・メモリへの書込みと同じサイクル時に書込
み保持レジスタの1つを更新していた場合は、その書込
みフラグはセットされたままである。
例えば、メモリをある定数値にクリアするときこの選択
的書込みメカニズムをバイパスすると好都合の場合があ
る。その場合には、制御プロセッサ・モジュール110
は選択的書込みを無視して、すべての語を更新させるこ
とができる。この選択的書込み機能を使用しないと、デ
ータ・キャッシュ・メモリの書込み動作は非常に遅くな
り、データ・ブロック(256ビツト)を読取り保持レ
ジスタに読み込み、変更すべきでない語を書込み保持レ
ジスタに転送し、書込み保持レジスタを新しいブタて更
新してから、データ・キャッシュ・書込みサイクルを実
行することになる。現アーキテクヂャでは、データを読
取り保持レジスタから書込み保持レジスタに複写するに
は、1語当たりlサイクルが必要である。
書込みフラグの状態はマイクロコードのデバッグ時に状
態格納のために、制御プロセッサ・モジュール!10に
状態を壊さないで抽出させることが可能である。
読取り保持レジスタは書込み保持レジスタとは別になっ
ているので、書込み保持レジスタの内容を壊さないで複
数の読取りサイクルを実行することができる(逆の場合
も同じ)。
保持レジスタ・セットとデータ・キャッシュ・メモリ間
のデータ転送を制御するときは、次のようなビットが使
用される。
データ・キャッシュ・アクセス(1)・このビットは制
御プロセッサ・モジュール110が自身で使用するため
に、あるいは浮動小数点プロセッサ・モジュール130
との間てデータをやりとりするためにデータ・キャッジ
:I・メモリへの】′クセスを要求すると、活動化する
。アクセス・フラグはパイプライン化されていない。従
フて、データ転送プロセッサ・モジュール120からの
要求との仲裁は要求が行なわれたサイクルが始まる前に
解決することができる。
データ・キャッシュ書込みイネーブル(1)このビット
はデータ・キャッシュ・メモリで書込みサイクルを生成
する。
データ・キャッシュ書込みオール(1)このビットはデ
ータ・キャッシュ・メモリ内の語を選択的に更新する通
常の書込みイネーブル・ゲート操作を無効にして、すべ
ての語を書き出すようにする。これは、メモリをブロッ
ク単位で定数値にセットするとき便利である。
データ・キャッシュ・ポート選択(1)・このビットは
データ・キャッシュ転送のソースまたは宛先として、F
Pモジュール保持レジスタか制御プロセッサ・モジュー
ル110保持レジスタのどちらかを彦択する。
モード・レジスタには保持レジスタを制御する3ビット
がある。2ビツトは保14レジスタを使用するか、バイ
パスするかを選択する。3番目のビットはデータ・キャ
ッシュ・メモリがDCMを駆動するのを禁止して、書込
み保持レジスタと読取り保持レジスタの間にループバッ
ク・データ通路がセットアツプされるようにする。これ
らの機能が存在するのは、状態格納および復元マイクロ
コードがデータ・キャッシュ・メそりの書込み操作を最
初に行なわないで書込み保持レジスタとさらにより正確
な診断情報をアクセスできるようにするためである。
制御プロセッサ・モジュール+10は次の2通りの方法
でデータ・キャッシュ・メ干りを使用することができる
最初の方法は広幅メモリ・アーキテクチャを無視して、
それが丁度32ビット幅であるものとして扱うことであ
る。この場合は、CP千ジュール110はすべての読取
りアクセスの前とすべての書込み】′クセスのあとでア
クセス・サイクルを要求するたりである。この方法を使
用すると、データ・キャッシュ・メモリをデータ・アク
セスかパイプライン化されたメモリと見ることかできる
。この方法はデータ・キャッシュ・メそすの使用を簡単
にするか、データ転送プロセッサ・モジコール120の
ポートにサービスできるメ干りの能力を効率よく使用で
きない。また、この方法によると、制御プロセッサ・モ
ジュール110か順次データをアクセスするときに非効
率か生しる。しかし、非順次データ・アクセスの場合は
、次の方法は使用できないので、この最初の方法を使用
せざるを得ない。
制御プロセッサ モジュール110か順次メモリ・アク
セスを行なうとき、メモリ・バンク510をアクセスす
るたびに、すべての保持レジスタ561に対する読み書
きに8サイクルが必要である。ブタ・キャッシュ・メ干
り・アクセスは保持レジスタ・アクセスとバイブライン
化できるので、8ヅイクルのうち7サイクルをデータ転
送プロセッサ・モジュールか自由に使用することかてき
る。
データーキャッジ;1.・メモリ・アクセスは自動的に
行なわれないので、マイクロコー1−て8サイクルごと
にアクセス・サイクルを指定できる。この種の転送は、
外部インタフェースとの間の入出力転送が性質上順次で
あるのか通常であるので、データ転送プロセッサ・モジ
ュール+20でよく行なわれる。
制御プロセッサ・モジュール110はデータ・キャッシ
ュ・メモリとFPモモジュール上保持レジスタ間のデー
タ転送も担当する。その場合には、基本制御はデータ・
キャッシュへの書込み時にあるブロック内のどの語を更
新するかを判断する場合以外は同じである。その場合、
上述したように書込みフラグに対シ、て別の方法が取ら
れる。
違いのいくつかの要因を挙げると、次の通りである。
FPのレジスタ・ファイルと保持レジスタ間のデータの
流れを制御する転送ロジックにはある種の制約があるの
で、制御プロセッサ・モジュール110で使用されてい
るより汎用的マスク生成機構は不要である。
Fi+のレジスタ ファイルからの通7:モのデータ中
云送はデータ・ブロック単位(つまり、ベクトルの部)
で行なわれ、これが1転送サイクルて行なわれるとぎは
、いくつかの書込みマスク・ビットを制御プロセッサ・
モジュール+10の場合のように個別的にではなく、並
列にセットしなりれ(Jならない。
1つのFP書込みマスク生成機構は複数のFPモジュー
ルと競合しなければならない。
FP書込みマスクは更新すべき語と最初の語からの連続
語の個数を指定することによって生成される。開始位置
はCPアドレスの最下位3ビツトによって与えられ、長
さはマイクロコード命令のフィールドとして保存されて
いる。
DPT転送ロジック540 データ転送プロセッサ・モジュール120の転送ロジッ
クはデータ転送プロセッサ・モジコール+20のデータ
・バス(TCバス122)とメモリ配列間のデータ転送
をiLJ当する。これは次の点を除りばCP転送ロジッ
クとほぼ同じである。
浮動小数点プロセッサ・モジュール120に関連する部
分かない。
出力信号は仲裁ロジックの結果によって修飾される。
仲裁ロジック535 仲裁ロジックはサイクル単位で誰にデータ・キャッシュ
・メモリをアクセスさせるかを判定する。競合する2ポ
ートには、CP/FPとデータ転送プロセッサ・モジュ
ール120かある。CP/FPはブタ転送プロセッサ・
モジュール120より優先権があるので、データ転送プ
ロセッサ・モジュール120が空とメモリ・サイクルを
待たされることになる。データ転送プロセッサ・モジュ
ール120は制御プロセッサ・モジュール110に割込
みをかけることによって、制御プロセッサ・モジュール
110に空きメモリ・サイクルを手放させることができ
る。
データ・キャッシュ・メモリの仲裁は両方のボトのアク
セス要求(CIl/Fl’の場合は要求)を同期化する
ことによって単純化されている。これは同じクロック生
成機構を制御プロセッサ・モジコール110とデータ転
送プロセッサ・モジュール120間で共用させることて
達成される。この程度の同期化がないと、データ転送プ
ロセッサ・モジュール120がアクセスを始めたばかり
の場合もあるので、制御プロセッサーモジュール+10
があるサイクル時にアクセス権があると想定できなくな
る。
サイクル単位の仲裁は仲裁ロジックで行なわれる。仲裁
ロジックはCP要求とDTP要求の2つの要求信号を受
は取る。これらは共に、そのポートがデータ・キャッシ
ュ・メモリをアクセスすると主弓長されるマイクロコー
ド・ヒ゛ットである。これらのマイクロコード・ビット
はレジスタに格納されないので、仲裁はアクセスが行な
われる前にそのサイクルで解決される。これにより、デ
ータ転送プロセッサ・モジュール120の許可信号は、
シーケンサのFL八八人入力バイブライン化によって起
こる余分のサイクル遅延を引か起さないで、十分な時間
的余裕をもってデータ転送プロセッサ・モジュール12
0にテストさせることがで参る。
2つの出力信号として、データ・キャッシュ・メモリへ
のアクセス権があることをデータ転送プロセッサ・モジ
ュール+20に知らせるDTP許可信号と、アクセスと
書込みイネーブル・マルチプレクサを制御する信号とが
ある。
CP/FPは、データ・キャッシュ・メモリをそれが1
ポート装置であるものとしてアクセスする。
しかし、データ転送プロセッサ・モジュール120はア
クセスを要求するたびに、以下のプロシージャに従わな
ければならない。このプロシージャは疑似コードで書か
れている。
(保持レジスタに書込みを実行) (アクセスがWAITへのジャンプに失敗したWAIT
:場合は、データ・キャッシュ・メモリへの書込みアク
セスを要求、そうでなければ、継続) (他の作業の実行) 33 に の例に関し°((1目ずへき点をいくつか挙げると、次
の通りである。
このロジックは大量の作業を並行に続行させることかで
きる。
アクセスが失敗すると、書込み(または読取りアクセス
での保持レジスタのローディング)は自動的に禁止され
る。
テスト結果には、アクセスが成功したか否かか示される
。失敗した場合は、データ転送プロセッサ・モジュール
120は、アクセスする命令をループさせることによっ
て再試行する。
この例から明らかなように、データ転送プロセッサ・モ
ジュール120はアクセスが許可されるまで待たされる
ことになる。しかし、通常はいくつかのサイクルの間だ
け待たされることになる。アクセスがそれでも許可され
ないと、DTPは制御プロセッサ・モジュール110に
割込みをかけることになる。制御プロセッサ・モジュー
ル110が割込みサービスを行なっている数サイクルの
期間、ブタ・キャッシュ・メモリは空きになるので、デ
ータ転送プロセッサ・モジュール】20がアクセスする
ことかできる。
コマンド・メモリ190 コマンド・メモリ+90を通して、制御プロセッサ・モ
ジュール+10とデータ転送プロセッサ・モジュール1
20は相互に連絡し合うことがでざる。
双方はこのメモリに対しては平等のアクセス権をもって
いる。本好適実施例では2重ポー1− RAMが使用さ
れている。コマンド・メモリは32ビット幅x  2に
奥行である。
第15図はこのメモリ構成の重要な機能のいくつかを示
したものである。コマンド待ち行列の動作について、以
下第15図を参照して詳しく説明するが、そこではCP
モジュールとDTPモジューコーのプロセッサ・インタ
フェースについても説明する。しかし、このメモリ構成
のいくつかの主要機能についてここで説明しておく。
これらの2重ポートIIAMは、2アドレスが異なると
きは、両ポートが無制約にアクセスできるようにする。
2アドレスが同じであり、両方の側が摺込みを行ノfつ
場合は、結果がとうなるか分からない。下述するように
、2プロセッサ間の通イ3プロトコルは、両方か同じ7
1〜レスに書き込むことかt2いようになっている。
制御プロセッサ・モジュール110とデータ転iXプロ
セッサ・モジュール120かコマン1−・メモリをとの
ように使用するかはラフ1〜ウエアで制御される。本好
適実施例ては、制振りは次のように1゜っている。つま
り、CPモジュール110に苅するコマンド待ち行列(
例・メ干り・スペースの約12*)DTPモジュール1
20に対するコマンド待ち行列(例 メモリ・スペース
の約38豹、状態格納と復元データ構造(例:メモリ・
スペースの約50君)。
状態格納と復元データ構造はマイクロコード・デバッグ
・モニタが制御プロセッサ・モジュール+10と浮動小
数点プロセッサ・モジュール+30の状態情報(ある種
のコマンド構造と共に)を保管しておくために使用する
ために予約されている。
ホス1−一インタフェース・ロジック+60第6図は、
第1図にその全体がブロック160て丁されているポス
1−・インタフェース・ロジックの主要構成要素を示し
ている。好適実施例では、システム・バスはVMEバス
であるのて、このインタフェース ロジックは本明細書
中ではrVMEインタフェース」と呼ぶ場合もある。し
かし、当業者なら明らかなように、他のシステム・バス
を幅広く使用することも可能であり、開示されている新
規事項はこの種のシステムに容易に適用することが可能
である。
バス・コントローラ650はVMEバス・サービス線と
のインタフェースとなって、バス許可、バス要求、リセ
ットといったインタフェース信号を出力する。
割込みロジック680は割込み処理で使用され、ホスト
に割込み通知を行なう。(これらの割込みはVMEバス
・サービス線600B上に送出される。)本好適実施例
では、これは下述するように、PALを用いて構築され
ている。
ざらに、IIM八コシコンーラ1140も月1をされて
いルコとがufましい。これはVMIi バスとF I
 F 067 G l’f!1のデータ処理を低レベル
て制御するものて、途中に介入するステップをデータ転
送プロセッサ・モジュール120に監視させる必要かな
い。本好適実施例では、DMAコントローラは下述する
ように、PALを用いて構築されている。
VMEインタフェースは主に、次の4つのサービスをポ
スト・プロセッサに提供する。
3種類のプロセッサ・千ジュールとの直列走査ループ・
インタフェース経由のマイクロコード・ローディング。
コマンド起動と状況監視 DMAによるホスト・メモリへのアクセスによりVME
アドレス空間との間のデータ転送(これにより、サブシ
ステムは独自のデータを転送できる)デバッグ(ハード
ウェアとソフトウェア)機能。
このインタフェース・ロジックの内部接続にはデータ用
のTOババス22 とアドレス情報用のTA8ス121
 、 C11マイクロアドレス・バス2118、DTP
マイクロアドレス・バス311B、直列マイクロ命令ル
ブ225、および多数の割込み線と状況線がある。
未実施例では、外部接続はV kl Eバスとの接続で
ある。このバスの線は第6図にアドレス線60〇八、デ
ータ線600B、およびバス・サービス線(状況線と制
御線を含む) 600Cとして別々に示されている。
本好適実施例はVMEインタフェース規格の電気的定義
に準拠している。この規格はIEEE標準P10141
01.2およびIEC821として知られている。
インタフェース・ブロック160は32または24ビツ
ト・アドレスと32または16ビツト・データを受は付
ける。本好適実施例では、アドレス指定とデータ・ルー
チンを単純化するために、使用できるアクセスのタイプ
に若干の制約がある。
別の方法によれば、他のバス構造を幅広く使用すること
も可能である。例えば、必要ならば、Versaliu
s  FutureBus、 Multibus II
  Nubusなどを簡単にシステムに組み入れる設計
にすることが可能である。高速コンピュータ・システム
の場合には、光ファイバに変調固体素子レーザを使用し
て光バスを使用すると利点か得られる。
物理バス線とのインタフェース VMEバスと直接インタフェースとなるロジック・ブロ
ックについて最初に説明する。そのあとて他のロジック
とメモリ・ブロックについて説明する。最後に、レジス
タ・ブロック612について説明する。このレジスタ・
ブロックは、他のブロックの動作を分かりやすくするた
めに、かなり詳しく説明されている。
バス・コントローラ650 バス・コントローラ650はバス・サービス線600G
とのインタフェースとなり、ポート・アドレス・デコー
ダ652からその特定ポートがアドレスされているかど
うかを示す出力を受は取る。
デコーダ652はvM Eバスのボード・アドレス線を
絶えず監視して、このデコード出力を送出する。ホスト
・システムによって指定されたサブシステムのアドレス
は、DILスイッチを用いて導入時にユーザによってセ
ットされる。ア1〜レスと機能コードの実際のデコート
はPALの中で行なわれるので、サブシステムは目標V
 M Eシステムに合った構成にすることができる。
バス・コントローラ650はVME制御プロトコルに従
って、両方向データ・バッファ620または両方向アド
レス・バッファ630にイネーブル信号を送る。
バス・コントローラ650はDMAコントローラ1i5
0とVME割込みロジック680(および以下で詳しく
説明するように他のロジック・ブロックからの)からの
状況情報を受は取るようにも接続されている。また、バ
ス・コントローラ650はDMAコントローラ640、
VME割込みロジック680、および他の多くブロック
(下達する)に制御信号を送るようにも接続されている
。バス・コントローラ650の状況と制御接続は広範囲
にわたっているので、混乱を避けるために個別的には示
されていない。
しかし、これらの接続は当業者には容易に理解されるは
すである。
木好適実施例では、これはVMIiバス・コントローラ
装fi¥(SigneLics 5CI16872)と
して構成されている。これはマスク・インタフェースと
バス・エラー・サイクルを含むすべてのバス・プロトコ
ルを取り扱う。
マスク・千−ドとスレーブ・モード VMEインタフェースは2つの別個のインタフェース、
つまり、スレーブ・インタフェースおよびマスタ・イン
タフェースと考えることができる。
マスク・モードでの動作について、 DMAコントロー
ラ640と関連づけて以下説明する。
スレーブ・モードはスレーブ・アドレス・デコーダ63
2を使用して行なわれる。高速化サブシステムがスレー
ブ・モード(これはバス・コントローラ650によって
デコードされたVMEコマンドで示される)で動作して
いるときは、コントローラ650は両方向バッファ63
0を通過モードに置いて、スレーブ・アドレス・デコー
ダをイネーブルする。そのあと、スレーブ・アドレス・
デコーダはVMEアドレス線60〇八から持ち込まれた
アドレスをデコードして、該当の装置をイネーブルする
この場合も、スレーブ・アドレス・デコーダの出力は広
範囲に渡って接続されているので、個別にはボされてい
ない。
スレーブ・アドレス・デコーダはVMEプロトコルに準
拠する必要なりTへGK生成ロジックも備えている。
VMEプロトコルの下では、現在のバス・マスクがボー
ドをアドレス指定し、そのボードはスレーブ・モードに
あるときだけ応答することができる。というのは、どの
時点でも活動マスクは1つだけが許されるからである。
(バスへのアクセスが許可されるまで、従って活動状態
になるまで待たされているマスクは多数存在することが
あり得る。)そのあと、マスクはスレーブがDT八へK
 (データ転送受領確認)で応答して、データを受は取
ったこと(書込み操作)またはデータを送ったこと(読
取り操作)をマスクに知らせるまで、待たされることに
なる。
データ・バッファ620 これは両刀向バッファであり、VM+Xデータ線600
11との直接インタフェースとなるものである。
アドレス・バッファ630 これは両方向バッファであり、VMEアドレス線600
Bとの直1妾インタフェースとなるものである。
VMEインタフェース・メモリ660 このメモリはインタフェース160内の大ぎな記憶ブロ
ックとなるものである。これのいくつかの用途は、DT
Pモジュール120の動作と関連づけて上述した通りで
ある。
メモリ・マツプ 各高速化サブシステムは8HのVMEアドレス空間を使
用する。このアドレス空間のへ−ス・アドレスは8個の
スイッチによって選択される。レジスタ・アドレスはこ
のベース・アドレスからのオフセットとして与えられる
。高速化サブシステム用のメモリ・マツプは2つの区域
に分割できる。
サイズが2K x 32ビツト語のメモリ区域。このメ
モリ区域の使用法はラフ1〜ウエアで制御される。この
区域に納められるデータ構造のいくつかはり下に挙げる
通りである。
メモリ・スペースの下方部分を占有するレシス1VIK
。この区域は、詳しく下達するように、多くの重要な機
能用に使用される。
メモリ区域はマイクロコード・デバッガと通苓の実行時
インタフェース間で共用される。
デバッガ区域には、モニタ・マイクロコードがメモリ、
FIFOなどを読み取れるようにするコマンド待ち行列
の他に、サブシステムの状態格納情報が11又容される
実行時インタフェースは主に装置ドライバがそこにコマ
ンドを追加して、Qlitzマイクロコードがそこから
コマンドを削除できるコマンド待ち行列から構成されて
いる。
ハードウェアをアクセスする仕方にはいくつかの制約が
ある。これらの制約は主にハードウェアを単純化して、
それてもなお、16または32ビツト・データ・バス・
インタフェースを可能にするためのものである。制約と
は、ハイド−アクセスかサボー1−されllいこと、ピ
ッ1−・アクセスは長話(32ビット)境界で行なう必
要かあることである。
メモリGOOとデータFll’fl 670は32ビツ
ト幅である。ホス1〜・システムが16ビツト・システ
ムである場合は、上位16ビツトはアクセスかできない
16ビツト・システムがメモリ内の連続アI〜レスに書
込みを行なう場合は、アドレスを4すつ増やして行りて
、次の記憶位置に移る必要がある。
好適なサブシステムで使用されるVMEメモリ・マツプ
は次のようになっている。
レジスタ      オフセット 制御レジスタ     0 ストローブ・バッファ 4 状況レジスタ     4 WCS制御レジスタ08 WCS制御レジスタ1  12 WCSデータ・レジスタ 16 CPマイクロアドレス  20 DTPマイクロアドレス 24 データPIF0       28 幅 16言売み書 き 16書込み 8読取り 16読み書き 8読み書詮 16読み書き 16読み書き 6読み書き 32読み書き ■トメモリ660      4096   32読み
書きデータFIFO[i70 データFIFO670はデータ転送操作における重要な
機能を備えている。
1iTiiの動作モートでは、DMAコントローラがブ
タFIFOを排他的に使用するのて、データFTFOが
ポストによってアクセスされることはない。ホストは制
御レジスタ内のFIFOアクセス・ビットをリセットす
ることでデータFIFOへのアクセスが可能になる。
PIFO670で示されたブロックは物理的に2個のF
IFOで構成され、両方向FIFOの機能をもっている
。これらのFIFOの一方はホストによって読み取られ
、他方はホストによって書込まれる。FIFOの他の終
端はDTPによってアクセスされる。(従って、−船釣
に、ポストがFIFOに書き出したあとでFIFOを読
み取る場合は、読み取られたデータは書と出されたデー
タと異なることになる。)ポストがFIFOをアクセス
するときは、FIFO状況をモニタして、FIFOが空
のときに読み取られたリ、−杯のとぎに9%込まれたり
しないようにしなければならない。(ポストはこれらの
P I F +1を診断目的で、あるいはDMAでなく
ポーリングされた人出力が必要である場合にアクセスす
る必要かあることがある。) VME割込みロジック680 VMEプロトコルはいくつかの割込みを用意している。
これらの割込みはDTPモジュール+20によフて引き
起ずことができる。
口TPモジュール120は割込みベクトルも定義してい
る。ベクトルは割込み理由に応じて変更することができ
るが、割込み原因をVMEインタフェース・メモリ66
0に格納しておけば、1つのベクトルを使用することも
可能である。
DMAコントローラ640 データFIFO670とVMEバス間の順次またはブロ
ック・モードの転送がDMAコントローラ640によっ
てサポートされている。(このコントローラはより通常
の単語転送もサポートしている。) DMAアドレスは
完全な32ビツトであり、転送時に使用されるVMEア
1ヘレス修飾子とLONG中信号はすへて転送が開始さ
れる前にDTPモジュール120によってレジスタにセ
ットアツプされる。
PIFo 670G反対側はDTP−EシュJlz12
0によって一杯または空にされる(通常はデータ・キャ
ッシュ・メ干り140の中に)。16ビツト転送が使用
されるとぎは、DTPマイクロコードは32ビツト内部
形式との間でデータをパックまたはアンパックする。
この部分がDMAコントローラとも呼ばれるのは、DT
Pモジュール120からの1個の高水準コマンドを受け
てPIFO870との間でブロック・データ転送を行な
うことができるからである。しかし、この機能がもつ機
能は商用化されているDMAコントローラ・チップの機
能とは同じでない。通常のDMAコントローラは、活動
時にDMAアクセスで使用するものと同じバスからデー
タとアドレス情報を受は取る。しかし、DMAコントロ
ーラ640はそのアドレス情報をDTPモジュール12
0から受は取り、この情報を使用してVMEバスとのア
ドレスおよびデータ・インタフェースを制御する。
本好適実施例では、DMAコントローラ640は実際に
は4個の八m29400M^ピッ1−・スライス・チッ
プに実装され、ある種の関連ロジックは下達するように
PALに実装されている。
DMAコントローラのセットアツプはDTPモジュール
120によって行なわれ、データはVMEバス線600
Bとデータ14F0670との間で転送される。
3つのアドレス指定モードが使用可能である。
これらのどれが使用されるかは、転送の種類またはシス
テム構成によって決まる。
アドレス定数保存。このアドレス指定モートはDMAが
VMEメモリにアクセスするとき同じVMEアドレスを
保存しておくもので、これは入出力ポートをアクセスす
るとき使用される。
アドレスを2ずつ増分(または減分)。このアドレス指
定モードはアクセスされるVMEメモリが16ビツト幅
だけのとき使用される。この場合は、DTPはデータを
内部で使用される32ビツト語と外部で使用される16
ビツト語の間で分割またはマジする。
アドレスを4ずつ増分(または減分)。このアドレス指
定モードはアクセスされるVMEメモリが32ビツト幅
であるとき使用される。
勿論、当業者によく知られているように、複数の状況信
号を使用すれば、FIFOに対するデータの扱い方を制
御することができる。例えば、この種の状況信号には、
FIFO空、FIFO半満杯などがある。
マイクロコード・ロード制御ロジック610このロジッ
クはマイクロアドレス・バス211Bと311Bおよび
直列ループ225とのインタフェースとなるものである
。(より正確には、第28図に示すように、このロジッ
クは1つの直列出力線225Aを備え、4つの帰還線2
258.225G、225D、 225Eを備えている
。)このブロックの構成要素とそれが実行する機能につ
いて、第27.28、および29図を参照して以下説明
する(直列ループ・インタフェースの動作と関連付なが
ら)。
このロジックはレジスタ・ブロック612にあるCPと
DTI’マイクロアドレス・レジスタをアクセスする必
要がある。さらに、WC5指定子制御レジスタもアクセ
スする。これらのレジスタはレジスタ・ブロック612
に示されているが、制御ロジックの一部と見ることも可
能である。
このロジックはフリップフロップ2720、ステト・マ
シン2740、マルヂブレクザ2710、およびWCS
データ・レジスタ2730 (これはシフ1−・レジス
タである)から構成されている。
レジスタ・ブロック612 多数の有用なレジスタがレジスタ・ブロック612に集
約されて示されている。このブロックに含まれる機能と
信号について以下説明する。
制御レジスタ・ビット ホストは制御レジスタを使用して、サブシステム・バー
1−ウェアの基本的動作を制御する。これらには主にハ
ードウェア・リセット機能とクロック制御が含まれる。
制御ビットは次の通りである。
CPシーケンサ・リセッ1−・このビットはセットされ
ると、CPシーケンザ210にアドレス0までジャンプ
させ、内部シーケンサ状態をリセットする。
DTI’シーケンザ・リセッ1−二このビットはセラ1
〜されると、DTPシーケンサ310にアドレスOまて
ジャンプさせ、内部シーケンサ状態をリセットする。
DTP リセット このビットはクリアされると、DT
Pを安全状態に置くので、すべてのバスは3状態になる
。これが主に使用されるのは、違法マイクロツー1−命
令でバス競合が起こるのを防止するマイクロコードをロ
ートするときである。
CPリセット このビットはクリアされると、CPを安
全状態に置くので、すべてのバスは3状態になる。これ
が主に使用されるのは、違法マイクロコード命令でバス
競合が起こるのを防止するマイクロコードをロードする
ときである。
FPリセット このビットはクリアされると、FPを安
全状態に置くのて、すべてのバスは3状態になる。これ
か主に使用されるのは、違法マイクロコード命令でバス
競合が起こるのを防止するマイクロコードをロートする
とぎである。
VME FIFOリセット このビットはクリアされる
と、VMEデータFIFOを空の状態にセットする。
データ・パイプFIFO・このビットはクリアされると
、データ・バイブFIFOを空の状態にセットする。
GIP FIFOリセット:このビットはクリアされる
と、GIPインタフェースFIFOを空の状態にセット
して、GIPインタフェースを初期設定する。
自走クロック:このビットはCPとDTPマイクロコー
ド・クロックを制御し、クロックを自走または停止させ
る。クロックが停止されたとぎは、ホストから1ステツ
プ進めることが可能である。
クロック・ディスエーブル このビットはバイブライン
・レジスタに対するクロックを除き、CPとDTPのす
べてのマイクロコード・クロックをディスエーブルする
。これが必要になるのは、例えば中断点を設定するとき
CPまたはDTPの状態を壊さないでマイクロコードが
読み書きされるようにするためである。
自走lX1)クロック、このビットはFPマイクロコ1
〜・クロックを制御し、クロックを自走または停止させ
る。
FIl’Oアクセス このビットはVMEデータFIF
Oへのアクセスを制御する。通苓のオプションは内部D
MAコントローラに排他的アクセス権と制御権をもたせ
るが、診断時またはVMEスレーブのみ環境では、ポス
トがこのビットをセットすることでこれらのFIFOの
制御権を受は取ることができる。
マイクロコード・ループ:このビットはテストをマイク
ロコード・レベルで繰り返すために診断機能だけが使用
する。
ストローブ・バッファ ホストはストローブ・バッファを使用して、サブシステ
ムを縁またはパルス面から制御する。ストローブ・バッ
ファに書き込みが行なわれる場合は、セットされている
すべてのビットについて対応するストローブ線にパルス
が現れる。この自動ストロービングにより、ホストはス
トローブ線のセットとリセットによるス1−ローブ線の
切替えから解放される。この操作は初込みモードのとぎ
たり使用される。ポストかこのバッファを読み取ると、
ある種の代替状況情報がポストに送り返されることにな
る。
ストローブ線には、次のものがある。
1ステツプ、これは1サイクルの間にCPとDTPマイ
クロコード・クロックを1ステツプ進めるものである。
これは、ハードウェアがWO2を1ステツプを進めてロ
ードしたり、読取りや変更するとき使用される。
FPバイブライン・クロック、FPバイブライン・クロ
ック信号は、FPのWO2の内容を読み戻すときだけ直
列マイクロコード・ループ制御の一部として使用される
。FP内の実行時パイプライン・クロックは通常FPマ
イクロコード・クロックと同じである。
cp wcs書込みイネーブル:この信号はCPマイク
ロアドレス・レジスタに指定されているアドレスから直
列ループに以前にロードされたデータでF、PのWO2
470に仕込みを行なう。CPマイクロアドレス・レジ
スタが使用されることに注意されたい。
WO2470への書込みはロートWCSマスクによって
修飾されるので、選択されたFPだけのWO2が更新さ
れる。
CPデバッグ制込み このストローブはCPに割込みを
引き起すものである。これは、DTPをデバッグ・モニ
タに戻すためにマイクロコード・デバッグ・モニタによ
って使用される。
DTP割込み:このストローブはDTPに割込みを引き
起すものである。これは、コマンドがそのコマンド待ち
行列にロードされたことをDTPに通知するために装置
ドライバによって使用される。
状況レジスタ 状況レジスタは読取専用であり、主にホストがVMEデ
ータFIFOをアクセスできるときにホストにVMEデ
ータFIFOを判断させるために使用される。
状況ビットには次のものがある。
VME出力FIFO状況:このFIFOから出される状
況ビットには、満杯、半満杯、空の3つがある。これら
の状況ビットは、ホストがそこから読取りを行なうFI
FOに対するものである(そのアクセスか可能である場
合)。
VME入力FIFO状況:このFIFOから出される状
況ビットには、満杯、半満杯、空の3つがある。これら
の状況ビットは、ホストがそこに書込みを行なうFIF
Oに対するものである(そのアクセスが可能である場合
)。
11ERE: この状況ビットはFPモジュールが存在
するかどうかをホストに判断させるものである。これを
行なうには、各モジュールのアドレスをWcs制御レジ
スタ1に書き込み、この状況ビットをテストする。その
アドレスにモジュールがあれば、この状況ビットはクリ
アされ、モジュールがなければ、セットされる。
WCS制御レジスタ WCSインタフェースは2つのレジスタを使用して制御
される。最初のレジスタはCP、DTP内およびFPモ
モジュール上ある各種マイクロコード・メモリの読み書
きを制御する。これらの信号の機能と用法の9Y細はマ
イクロコード・ローディングの個所で説明されている。
このレジスタにおける制御信号には次のものがある。
直列ループ出力信号、これは3ビツト・フィールドの最
上位ビットであり、直列ループの並列通路のどのブラン
チを戻り路として働かせるかを選択するものである。こ
のフィールドの他の2ビツトはWC5制御レジスタ1に
ある。
FP WC5出カイネーブル、このビット出力は、通常
のマイクロコード実行とマイクロコード読み戻し時にイ
ネーブルにする必要があるが、マイクロコードのロード
時にディスエーブルする必要があるデータをイネーブル
してFPマイクロコード・メモリから取り出すものであ
る。
FPパイプライン出力イネーブル二木好適実施例では、
FP WO2470はマイクロコード−ローディングを
最適化するために2つのバンクに分割されている(下達
する)。この信号はこれらの2パンクの出力とのインタ
フェースとなるパイプライン・レジスタ476を制御す
る。
FI’ WCSモート これは直列ループ・モートを制
御し、ループを回フてデータをシフトさゼるか、WO2
との間でデータを転送するかを選択する。
CPとDTPパイプライン・レジスタ出力イネーブル 
これはマイクロコード命令をディスエーブルして、すべ
てのビットを高レベルにするときたり使用される。
cp wcs出カイカイネーブルのビット出力は通常の
マイクロコード実行とマイクロコード読み戻し時にイネ
ーブルにする必要があるが、マイクロコドのローディン
グ時にディスエーブルする必要のあるデータなイネーブ
ルしてCPマイクロコード・メモリから取り出すもので
ある。類似の信号はDTP WC5320の出力イネー
ブルを制御する。
cp wcsモード:これは直列ループを制御し、ルー
プを回ってデータをシフトさせるか、WO2との間でデ
ータを転送するかを選択する。
DTP WCSモード・これは直列ループを制御し、ル
ープを回ってデータをシフトさせるか、WO2との間て
データを転送するかを選択する。
C11マイクロコード選択:これはCPのシーケンサに
そのアドレス・バスを3状態にさせて、その代わりにC
Pマイクロアドレス・レジスタをイネーブルしてバスを
駆動させるものである。
FPマイクロア1−レス選択 これはFPのWO2のア
ドレス・ソースとしてCPマイクロアドレス・バスを使
用させるものである。通常、CPマイクロアドレス選択
は、ポストがマイクロコード・アドレスをCPに、従っ
てFPに送るようにセットアツプされている。
FP WC5選択: FP WO2は並列ロート機能で
はデータ経路指定が必要になるので、読取り時は2半分
として扱う必要がある。このビットは下位64ビツトか
上位40ビツトを選択する。
直列ループ復帰選択(2):直列ループ戻り路は4つの
ソースの1つから選択できるe (これはWO2の内容
が直列ループを通して読取られるときそのソースを選択
するようにセットアツプされていなければならない。)
ソースとなり得るものには、l33 CP内部(ベース・ポートたりにある)、cp外部(ベ
ース・ホードとFPモジュールにある)、D刊】、およ
びFPがある。
直列ループ・モート(2)これらのビットはブタがWC
Sデータ・レジスタから読み書きされるとき直列ループ
をどのように振る舞わさせるかを制御する。オプション
には、データ保留、データ・シフト、データ・パルスが
ある。これらの効果については、直列マイクロコード・
ロードの個所で説明されている。
他方のレジスタはFPモモジュール上マイクロコードを
ロートし、読み取ることを制御するフィルトを保持する
。これを制御するフィールドには次の2つがある。
WCSロード・マスク・このマスクの各ビットはマイク
ロコードを対応するモジュールにロートすることをイネ
ーブルする。ビットはいくつでもセットできるので、類
似のモジュールに同じマイクロコードを並列にロードす
ることが可能である。
直列ループ出力イネーブル これらの残りのピッ1−は
WC5制御レジスタ0にある3番目のピッ]・と−紹に
使用されて、モジュールのどれに直列ルブのCP外部戻
り路とFP戻り路を駆動させるかを選択する。
WCSデータ・レジスタ WCSデータ・レジスタは直列ループ、従ってマイクロ
コード・メモリをアクセスするとぎホストが読み書きす
るレジスタである。マイクロコードのローディングを効
率化するために、このレジスタはWC5制御レジスタO
内の直列ループ・モード・フィールドがどのようにセッ
トアツプされているかに応して異なった振舞い方をする
直列ループ・モードが「保持」にセットされている場合
は、このレジスタは他のレジスタと同じように読み書き
される。
直列ループ・モードが「シフト」にセットされている場
合は、WCSデータ・レジスタに対し読み書き操作が行
なわれるたびに、レジスタは16桁だけシフトされ、書
き込まれたデータが直列ループに挿入されると共に、ル
ープ内の「最後の」語がデータ・レジスタにロートされ
る。
直列ループ・モードが「パルス」にセットされている場
合は、レジスタは他のレジスタと同じように読み書きさ
れるが、書込み操作が行なわれると、ある種の制御信号
が自動的に発生されて直列ループを制御する。
CPマイクロアドレス・レジスタ このレジスタはCPまたはFPモジュールのマイクロコ
ード・ロード時にマイクロコード・ロード制御ロジック
610によって駆動されて、CPマイクロコード・アド
レス′・バス211B上に送出されるデータを保持する
。CPマイクロアドレス選択ビットがwC5制御レジス
タOにセットされている場合は、このレジスタを読み取
ると、そこに最後に書き込まれたデータが返却される。
そうでない場合は、CPのシーケンサが出力中のアドレ
スの非同期スナップショットが返却される。
DTPマイクロアドレス・レジスタ このレジスタはDTPモジュールのマイクロコード・ロ
ード時にマイクロコード・ロード制御ロジック610に
よって駆動されて、DTPマイクロコト・アドレス・バ
ス31111上に送出されるデータを保持する。DTI
’マイクロアドレス選択ビットがWC5制御レジスタ0
にセットされている場合は、このレジスタを読み取ると
、そこに最後に書き込まれたデータが返却される。そう
でない場合は、DTPのシーケンサが出力中のアドレス
の非同期スナップショットが返却される。
(以下余白) データ・バイブ概念は複数の個別サブシステムを各種の
トポロジ形状に結合させるものである。
この結合は「データ・バイブ」と呼ばれる複数の局所バ
スを使用して行なわれる。また、この結合はバックプレ
ーンから独立しているので、相互に離して結合すること
が可能である。
本好適実施例では、各データ・バイブ局所バスは32ビ
ット幅で毎秒40MBの転送することをサボトし、受取
側はFIFOでバッファリングされる。各サブシステム
は2つの入力バイブと1つの出力バイブをもっている。
出力バイブは個別クロックをもっているので、2人カバ
イブにデーシイ接続されているときは、データは各入力
バイブに個別的にも、まとめても送ることができる。
データ・バイブ・インタフェース150は第7図にボさ
れている。データ・バイブ出力ポートは32ビット幅で
ある。このポートは別の高速化ボード4140上のデー
タ・バイブ・インタフェースの入力ポート(71Oまた
は720)に(またはある種のタイプの別の装置上のデ
ータ・バイブ・インタフェースに)接続することが可能
である。データ・バイブの受取り側はFIFOでバッフ
ァされている(FIFO740またケア50を使用して
)ので、出力側731は電気的にデータをバッファする
だけである。2つのストローブ760が用意されている
ので、一方のデータ・バイブ・インタフェースが他の2
つのサブシステムに書き込むことができるようになって
いる。受取り側サブシステムでデータ・オーバランが起
こるのを防止するために、受取り側システムからのFI
FO満杯フ満杯フラグセフ0側サブシテムが使用してモ
ニタリングができる。2つの入力PIFO740と75
0が2つの入力ポードア1Gと720にあるので、2つ
のサブシステムは1つのサブシステムにデータを送るこ
とができる。
FIFO出カイ出御イネーブルPマイクロコード内のT
Dソース・フィールドによって制御され、出力ストロー
ブはTO宛先フィールドによって制御される。入力FI
FO状況信号780は条件コード・ロジックでテストす
ることできるが、割込みを引き起すこともある。
このインタフェース構成を使用すると、複数のサブシス
テムを局所バスで各種トポロジ形状に結合することかで
きる。このようにサブシステムを柔軟に再構成できるこ
とは、アプリケーション向きマイクロスコピック・デー
タ転送アーキテクヂャを多くのアプリケーションで使用
すると大きな利点が得られるので、第1図に示すサブシ
テムの場合に特に有利である。トポロジ形状のいくつか
の例が第34.35.36.37図に示されている。
ある種のアルゴリズムやアプリケーションでは、複数の
サブシステムを並列またはバイブライン構成にすると、
計算作業負荷を分散できる利点が得られる。例えば、高
性能3次元図形ワークステーション構成の1例が第36
図に示されている。
複数のサブシステムをデーシイ構成で結合すると(第3
7図に図示)、データを共用することができ、その場合
、「マスタ」サブシステム11150Aは例えばポスト
・メモリからデータを入手し、それをデータ・バイブ結
合を通して他のすべてのサブシステム4150B、 l
1150C14150Dと共用することができる。この
結果、各サブシステムが独自のコピをもつのではなく、
1つのザブシステムだけがデータを取り出すことになる
ので、ホスト・バス411Oのパン1−幅か節約される
データ・パイプはリングに結合すれは(第35図)、ケ
ンブリッジ・リングと同じような設計構造のトークン・
パッシング・ネットワークを効果的に構築することが可
能である。
データ・パイプ経由で送られるデータの内容と意味はソ
フトウェアで制御されるが、通常はメツセージ・パケッ
トにするのが普通である。
データ・パイプはシステム間通信用に設計されているが
、これらは他の周辺装置と結ぶことも可能である。持続
入出力速度は毎秒40MBであるが、バースト入力速度
はもっと高速である。バースト入力速度は配線の電気的
特性によって制限されるが、データ・パイプ入力が1つ
のときは、毎秒laoMn  (両方の入力が並列化し
ているときは、適当なバッファ・カートを使用すれば最
高320MBまで)にすることか可能である。
このインタフェース機能の主要な利点は、使用できるサ
ブシステム相互接続1−ボロンか多汀化していることで
ある。従って、特にl主目ずへぎことは、図示の構成例
は大幅な柔軟性が得られることをボしている。
画像プロセッサ・インタフェース170このインタフェ
ースはアプリケーション向ぎバスとの接続を可能にする
。木好適実施例では、このバスは図形と画像データ向け
に特に最適化されている画像プロセッサと結ばれる。ま
た、木好適実施例では、この画像バスはrGISバス」
であり、このバスは180木のデータ線からなり、ブタ
・クロック期間が120−200nsで動作する。(従
って、このインタフェース・ロジックは木明細書の各所
でr GIPインタフェース」と呼ばれている。)しか
し、他の画像データ・バス標準(好ましさの点で劣るが
)を使用することも可能である。別の方法として、デー
タ転送要求条件(地震測定や実時間システムなど)が特
殊なアプリケジョンの場合には、他のアプリケーション
向きバスを使用することも可能である。
GIPインタフェースを通して、GIP とサブシステ
ムはデータとコマンドを相互に受渡しすることかてぎる
。このインタフェースは第8図にブロック図で示されて
いる。
GIPとサブシステム間の連絡はすべて16ビツト幅両
方向PIFO810を通して渡される。FIFDの一方
の側はDTPマイクロコードによって、他側はGIPマ
イクロコードによって制御される。GIPインタフェー
スはマイクロコード拡張ポート・インタフェースを備え
ているので、GIPは実際には、サブシステムに常駐し
ているマイクロコード(8ビツト)を実行する。GIP
マイクロコード拡張バスは前述したDTPマイクロコー
ド拡張インタフェースと同じである。
GIPインタフェースは、GIP図形プロセッサがある
種の分散マイクロコードをサブシステムで実行させるた
めに必要なサービスを提供する。これらのサービスには
、GIPマイクロコード・クロツり、GIPマイクロア
ドレスとデータ・バス、割込みと状況信号、および拡張
GIT’マイクロコードを直列にロードするだめの手段
がある。
GIPインタフェース内の周辺構成要素としては、WC
S 830、両方向FIFO(片方向FIFOから構成
)および状況ロジック820と割込みロジック840か
ある。
常駐GIPマイクロコードにより、GIPは次のような
機能を実行することがてきる。
PIFO810からデータを読み書きすること。
状況ロジック820を通してFIFO状況信号をテスト
して、開コレクタ条件コード・インタフェース信号に基
づいて結果を駆動すること。
割込みロジック840によってGIPに割込みを弓き起
す条件をセットアツプすること(例えば、FIFOが満
杯または空になったとき)。
DTPに割込みを引き起すこと。
DTP側からは、FIFOは32ビット幅でなく16ビ
ツト幅である場合を除き、他のFIFOのいずれかであ
るように見える。
連絡が行なわれるときの形式と、高速化サブシステムま
たはGIPがマスク装置であるかどうかの詳細はずへて
2プロセツサで稼動するマイクロコトによって決定され
る。3次元ワークステジョン環境では、第36図に示す
ように、ホストをマスクに、サブシステムをスレーブに
、数値高速化サブシステムをその中間にする階層が好ま
しい。
直列ループ・インタフェース 第1図(および他の図)に示す同時並行多重プロセッサ
・システムがもつ利点の1つは、3またはそれ以上のプ
ロセッサの書込み可能制御記憶機構(WCS)が直列ル
ープ・インタフェースを介して結ばれていることである
。本好適実施例によるこのループのトポロジ構造は第2
8図に示されている(第2A、3^、4G、および6図
に225で示されている線は、第28図では中断されて
、1つの出方線225八ト4ツノ帰還線225B、22
5c、225D、225Eが示されている)。
直列ループと結ぶインタフェースの実装構成は各種プロ
セッサを個別に取り上げて、またVMEインタフェース
と関連づりて上述した通りである。
しかし、これらの機能のいくつかを再びここで検討し直
して、直列ループの高度アーキテクチャを直列ループ・
インタフェースを通してホストは制御記憶機構のすべて
をアクセスしてデータを取り出すことができる。このル
ープの正味バンド幅を最大にするために、各個のwcs
 (wcs拡張部分490を含む)は直列/並列シャド
ウ・レジスタのバンクを通して直列ループとのインタフ
ェースとなっている。
FP WCS 470とのインタフェースとなるシャド
ウ・レジスタは第29図と第4c図にレジスタ481A
と481Bで示されている。CP WCS 220との
インタフェースとなるシャドウ・レジスタは第2A図に
レジスタ222 と223テ示されテいル。DJP W
CS 320 トノインタフェースとなるシャドウ・レ
ジスタは第3A図にレジスタ322 と323で示され
ている。cPWC5拡張部分490とのインタフェース
となるレジスタは第4八図にGP拡張部分の一部として
全体が示されているが、個別には示されていない。
これらのレジスタの各々は命令をそれぞれの制御記憶機
構にロードしムリ、命令ストリームを小刻みにクロック
をとったり、あるいは単純に命令ストリームを可能な限
り高速にクロックをとったりすることができる。従って
、この線のバンド幅は効率よく使用され、最小限の命令
だけで特定プロセッサの制御記憶機構をアクセスするこ
とができる。
ループ制御 本好適実施例では、直列ループの制御と経路指定のため
の機能がいくつか追加されているので、幅広い構成と拡
張オプションに適応させることができる。
本好適実施例では、各サブシステムはマイクロコード・
サブシステムを最高6つまで(制御プロセッサ1つ、デ
ータ転送プロセッサ1つ、浮動小数点プロセッサまたは
アルゴリズム高速化プロセッサ4つまで)をもっことで
きる。これらのブロセッサの各々は独自のWCSをもっ
ている。各WCsはマイクロコードのアップロートのと
きは書込みを行い、診断、中断点設定などのときは読み
取らなりればならない。
この機能を利用できるようにする主な機能には、次のも
のがある。
帰還マルチプレクサ これは2つの内部ソース(制御プ
ロセッサとデータ転送プロセッサ)からと、2つの外部
「帰還バス」 (制御プロセッサの拡張部分と複数の浮
動小数点プロセッサのマイクロコードに対する)からの
直列ループを収集する。
制御プロセッサと浮動小数点プロセッサのマイクロコー
ドが置かれている浮動小数点プロセッサ・モジュールか
らの直列ループを収集する帰還直列バス。帰還ループ・
アドレスはどちらのモジュルに直列帰還バスを駆動させ
るかを選択する。
各浮動小数点プロセッサ・モジュールはマイクロコード
・ロード・イネーブル・ビットをもっているので、モジ
ュールを任意に組み合せて同時にロー1・することかて
ぎる。
データ転送プロセッサの直列ループ拡張部分はジャンパ
とワイヤのリンクによって制御される。
この構成によると、直列ループを回ってデータを転送し
て、WCSにハックロートするプロトコルが詐称に複雑
になる。この種のプロトコルはソフトウェアで実行され
るのが通常である。本好適実施例では、こねらのプロト
コルのうち時間のかかる部分はハードウェアに実装され
ているので、マイクロコードのダウンロートが大幅に高
速化する。別の利点として、ソフトウェアのオーバヘッ
トも軽減される。
本好適実施例では、ホストはマイクロコードを1語ずつ
データ・レジスタに書き込む(または読み取る)。(木
実施例では、データ・レジスタは2つの汎用シフト・レ
ジスタから作られている。
直列ループの残り部分はADM社製のAm29818な
どの直列シャドウ・レジスタを使用している。)あらか
じめ選択された直列モートによって、次の3つのいずれ
かが行なわれる。
「保持」モートが選択された場合は、データ転送はメモ
リへの転送と同じように行なわ」する。
「シフト」モートか選択された場合は、読取りまたは書
込みサイクルが終ると直ちに、データか直列ループの中
に(または外から)シフl−される。これが行なわれて
いる間は、使用中信号によって、ホストによるデータ・
レジスタへの追加アクセスが先に延はされることになる
「パルス」モードか選択された場合は、書込みアクセス
が終った約500ns後に、直列データ・クロック・パ
ルスが発生して、シャドウ・レジスタが必要とするモー
トにセットされる。
ループ・トポロジ 第28図は直列ループの大規模接続関係を示したもので
ある。
信号出力線225肩士VMEインタフェース160にあ
るマイクロコード・ロード・ロジック610によって駆
動される。(これは1本の物理線だけにする必要はなく
、例えば、4ビット幅バスのようなバスにすることも可
能である。)この線は3つの書込み可能制御記憶機構2
20.320、および470の各々の周辺にあるシャド
ウ・レジスタの各々に適用される。(CIl WC5拡
張部分490は出力線225Aに直結されないで、−次
WC5220の下流側の線225Cに接続されているこ
とに7主意されたい。)4木の帰還線が設けられている
が、これらはマルチプレクサ2701によって選択が可
能である。これらの帰還線は主にデバッグのとき使用さ
れる。
「スネーキングJ (snaking)が殆どないこと
に注意されたい。つまり、一方のWCS側の直列シャド
ウ・レジスタの直列出力が他方のWCSのインタフェー
スへの入力として使用されるケースは2つしかない。こ
れらのどちらのケースの場合も、直列ループの下流側に
あるWCSは事実上上流側WCSの拡張部分である。つ
まり、独立プロセッサを直列ループ内に直列接続するこ
とは回避されている。これの利点は、異種プロセッサ・
モジュールに対する独立マイクロコード・プログラムを
1つに結合する必要がないことである。この結果、プロ
グラマは上述したアルゴリズムの分割をフルに利用する
ことがてきる。また、これはローディングを高速化する
上で役立つ。さらに、幅と奥行か異なるWCSを目標と
したプログラムをマージするときにも問題が起こらない
ループ・トポロジの並行性の利点は、並行ロドが簡単に
行なえることである。例えば、共通のマイクロコード列
をFPモジュール130の各々にロードしようとする場
合は、FPモジュールのすへでにあるシャドウ・レジス
タのすべてを同時にイネーブルさせることができるので
、各々は線225A上の直列データとバス211B上の
マイクロアドレスに従ってロードされることになる。
第28図から明らかなように、ループ・トポロジは複数
の並列分岐を備えている。
g分前:出力線255はcp−次WC5220側シヤド
ウ・レジスタ・インタフェースへの入力となるものであ
る。シ、ヤドゥ・レジスタ・インタフェースからCP 
WCS 220 (線225C)への帰還はマルチプレ
クサ2710にフィードバックされる。
タフエースの下流側には、CP WC5拡張部分490
のすへてにあるシャドウ・レジスタ・インタフニスへの
入力となる帰還線225Cも設けられている。
シャドウ・レジスタ・インタフェースからwcs拡張部
分490への帰還はすへて帰還線225Dに結ばれてい
るので、マルチプレクサ271Oにフィードバックされ
る。(帰還は並列に接続されているので、直列出力コマ
ンドは個々のモジュール・アドレスで修飾すれば、帰還
線225D上の競合が防止される。) DTP分岐:出力線225はDTP WCS 320 
L:あルシャトウ・レジスタ・インタフェースに直列入
力を送るようにも接続されている。シャドウ・レジスタ
・インタフェースからWCS 320(線225B)へ
の帰還はマルチプレクサ2710にフィードバックされ
る。
DTP拡張部分サブブランチ: DTP WCS 32
0とのインタフェースの下流側には、帰還線225Bが
オフボード出力として利用できるようになっている。
この接続は必要ならばユーザが開発してDTP拡張ロジ
ックを得ることかできる。かかるロジックの動作は以下
に詳しく説明する。
社光基:出力線225は数値プロセッサ・モジュール1
30または130°の各々にあるWCS 410側のシ
ャドウ・レジスタ・インタフェースへの直列入力として
も使用できる。シャドウ・レジスタ・インタフェースか
らの帰還はすべて線225Eに結ばれているので、マル
チプレクサ271Oにフィードバックされる。(帰還は
並列に接続されているので、直列出力コマンドを個々の
モジュール・アドレスで修飾すれば、帰還線225Eで
の競合が防止される。) 第27図はマイクロコード・ローディング制御ロジック
610の構成要素の詳細図である。重要な構成要素の1
つはフリップフロップ2720であり、これは帰還直列
データを再同期化するものである。
WCSが分散されているときは、シフト・レジスタ・ク
ロックとシャドウ・レジスタのDクロック間のクロック
・スキューを制御することは、直列ループ構成が多種類
であるので、非常に困難である。このフリップフロップ
が含まれていると、フリップフロップがクロック・スキ
ューの制御を担当する(スキューがR11J御ロジツク
を駆動する基本クロック期間を越えない限り)。ステー
ト・マシン2740はホストからデコート化信号を受け
るとDクロック出力を発生する。
ホストとのループ・インタフェース 第6図と第27図に関連させて上述したように、マイク
ロコード・ローディング制御ロジック610は直列ルー
プ225上のデータを読み書きできる。
また、CPとDTPマイクロアドレス・バス211Bと
311Bに対しても読み書きがで診る。
DTPマイクロコード拡張ループ 本好適実施例によれば、オフボードで拡張して別の直列
インタフェース・ループを構築することもできる。この
ループとの接続は第28図に2840で示されている。
任意的に、DTPモジュール120はcp wcs拡張
部分490と同じようなりTP WC5拡張部分を追加
の構成要素に組み入れることによって、オフボードで拡
張することか可能である。これらのWCS拡張部分から
は、DTPマイクロアドレス・バス3110で選択され
たマイクロ命令出力か得られる。これらのDTP拡張部
分の制御は、DTP拡張部分か比較的高範囲にわたる環
境で使用されることかあるので、CP拡張ロジックより
も若干ゆるくするのか好ましい。DTP拡張ロジックは
密結合高速入出力装置で利用されることを目的としてい
る。
この拡張オプションか使用される場合は、DTP拡張部
分(いずれかが使用される場合)はすへてDTP自身と
直列になっている。これは競合を防止するためである。
並列マイクロコード・ローディング 上述したように、本好適実施例では、マイクロコードは
λ通りの方法で浮動小数点プロセッサにロードされる。
1つはホストの制御の下で直列ルブによる方法であり、
もう1つは制御プロセッサの制御の下で並列に行なう方
法である。マイクロコードの並列ローディングは、浮動
小数点プロセッサで使用できる書込み可能制御記憶機構
(”wcs”)の数に制限かあるので(4Kまたは1l
iK命令)、好都合である。浮動小数点プロセッサのル
ヂンか多才きて、−度にWCSに収まらないとぎは、あ
る種のオーバレイ手法が必要になる。直列ループを使用
してオーバレイをロートすることはホストか命令をロー
トできる速度が遅いので(ディスクへのアクセスによっ
て、100m5から3m5)、実用的でない。
本好適実施例によって提供される並列ロート機能は広幅
データ・キャッシュ・メモリを使用してマイクロコード
命令全体(現在は104ビツト)を保管しておぎ、それ
を1サイクルで浮動小数点プロセッサ書込み保持レジス
タに転送する。そのあと、これは通常の出力ポートを通
って、直列ローディングで使用される診断シスト・レジ
スタ(例AMD 29818)に転送される。これらの
装置には、マイクロコード・ビットをバイブライン化す
る出力ポート(これは必要ならば、入力ポートとしても
使用できる)を備えている。しかし、本好適実施例では
、この機能は遅すぎるので使用されない。
チップの多くはマイクロコ−1・をなんらかの方法で内
部レジスタに格納している。)このことは、上述した並
列ロートのルートか直列並列レジスタがもつこの機能を
使用しても、速度や機能が犠牲にならないことを意味す
る。並列ロート時間は命令光たり約500nsであり、
これは直列ロート時間よりも大幅に向上している。
もう1つの重要な点は、浮動小数点プロセッサでマイク
ロコードをオーバレイすることがポストによる監視を必
要としてないで、完全に制御プロセッサによって制御さ
れることである。逆に、マイクロコード・オーバレイが
まだデータ・キャッシュ・メモリに存在しない場合は、
制御プロセッサはデータ転送プロセッサがホスト・メモ
リに移って、そこからそれを取り出すように指示するこ
とができる。
本好適実施−例では、各サブシステムはマイクロコード
・プロセッサを最高6つまでもつことができる(制御プ
ロセッサ1つ、データ転送プロセッサ1つ、浮動小数点
プロセッサまたはアルゴリズム高速化プロセッザ4つま
で)。これらのプロセッサの各々は独自のWCSをもっ
ている。各WC5はマイクロコードをアップロートする
ときは、書込みを行ない、診断や中断点を設定するとき
は、そこから読取りを行なう必要がある。
(以下余白) モジュール拡弓長オフ゛ジョン すでに上のいくつかの個所で説明したように、第1図に
図示のシステムをモジュール単位で拡張するためのオプ
ションがいくつか用意されている。以下では、これらの
オプションのいくつかを要約することにする。
キャッシュ・バス144に接続できるモジュールは次の
2種類がある。
算術演算処理型。これの代表例として、浮動小数点プロ
セッサ・モジュール130とアルゴリズムまたはアプリ
ケーション高速化機構130°がある。
高速データ(IIsD)モジュール。これはデータ・キ
ャッシュ・メモリまたは高速人出力チャネルを拡張する
ために使用されるのが代表例である。このメモリを拡張
する方法は、DTPマイクロコード拡張バス2824を
通して高速化サブシステムとのインタフェースとなる大
容量メモリ・サブシステムを使用することとは全く異な
る。H5D法はデータ・キャッシュ・メモリ140と同
じバンド幅をサポートするが、大容量メモリ・サブシス
テムはどの容量は1(lらねない。
多重モジュール構成にすると、浮動小数点プロセッサ・
モジュール+30型のモジュールを4つまで、ll5D
モジユールを2つまで使用できる。これらの数字はアー
キテクチャに制約要因があるからではなく、機械的およ
び電気的理由から選択されたものである。
FP 130モジユールはモジュール選択ビットによっ
て選択される。これらは通常制御プロセッサ・モジュー
ル110の制御下に置かれるが、VMEインタフェース
はこれらのビットを無視することができる。これが使用
されるのは、マイクロコードをダウンロートするときや
デバッグを行なうときだけである。モジュール選択ビッ
トはリセット(これはリセット信号で制御される)を除
き、千ジュールの動作をすべての面で制御する。
■SDモジュールはデータ・キャッシュ・アドレス・バ
スをデコートすることによって選択される。
モジュール接続 モジュールとの接続について以下要約して説明する。接
続を論理図域別に分類して挙げて、2種類のモジュール
のどちらがこれらの接続を使用するかを示しである。
接続は6個の96ウエイDINコネクタを使用して行な
われる。第40八図と第408図は本好適実施例の物理
的接続構成を示したものである。
本好適実施例では、モジュール接続には次のようなもの
がある。
データ・キャッシュ転送用、256ビツト・データ、2
3ビットDCMアドレス、8個の書込みイネプル、保持
レジスタOEビット、遅延アクセス信号(例えば、低速
メモリを受は入れるためのクロック・サイクル延長のた
め)、および保持レジスタGKビット。
CPゼインフェース用:3ビツト・アドレス、16ビツ
ト・デー夕、16ビツトCPシーケンサ・アドレス、C
Pマイクロコード・クロック、CPパイプライン・クロ
ック、CP書込みゲート・クロック、1つの割込み線、
および1つの条件コード。
マイクロコードのローディング用・cp wcs出カイ
ネーブル別の線、CPバイブライン出カイネーブル、c
p wcs書込みイネーブル、CPモード、cp直列デ
ータ・アウト、CP直列データ・イン、FP WにS出
カイネーブル、FPパイプライン出カイネーブル、FP
パイプライン・クロック、FP wcs書込みイネーブ
ル、FPモート、FPマイクロアドレス選択、FP上位
/下位WaS選択、FP直列データ・アウト、FP直列
イン、6個の直列クロック/WCSロード・マスク信号
、および3ビット直列ループ帰還選択。
汎用目的用:モジュール選択の3ビツト、リセット、シ
ングル・ステップ、自走、FP中断点、マイクロコード
・ループ、FPリセット、HERE用の制御信号。
DC線用二+5V電源線21本、−5V電源線6木、接
地線181本。
どのタイプのモジュールもすべての信号をアクセスする
ことができる。
多重数値処理モジュール 第10図に示すように、各種実施例のうちある非帛に有
用な実施例では、複数の数値処理モシュル130が使用
されている。この実施例では、モジ、:I−ル130は
すへて制御プロセッサ・モジュール110による高度の
監視下に置かれている。CPモジュール110は高度の
監視タスクを実行するたりでなく、数値プロセッサ・モ
ジュール130との間で行なわれるすべてのデータ転送
を直接に制御する。数値プロセッサ・モジュール130
はすへてキャッシュ・バス144 と並列に結ばれてい
る。数値プロセッサ・モジュール130の各々は上述し
たように、CP拡張ロジック410を備えている。デー
タ転送プロセッサ・モジュール120は上述したように
、キャッシュ140と外部との間のデータ転送を管理す
るものである。
データ・キャッシュ・メモリ140と数値プロセッサ・
モジュール130または130゛間は高メモリ・バンド
幅で結ばれているので、多くの場合、複数のモジュール
を並列に稼動できるので、データ欠乏が起こることはな
い。
数値プロセッサ・モジュールをいくつ使用して稼動さゼ
ることかできるかは、アプリケーションやアルゴリズム
かどのような混成になりでいるかよる所か大きい。本好
適実施例では、4つまでに制限されている。この制限を
設けたのは、主に電気的および機械的理由によるもので
ある。しかし、メモリ・バンド幅ずへてか使用されてい
れば、浮動小数点プロセッサ・モジュールの数を増やし
ても利点は得られない。
数値プロセッサは独立に稼動するので、モジュル・イン
タフェースに、浮動小数点プロセッサ同士の同期または
データ交換のためのプロトコルを含める必要はない。こ
の結果、仲裁の必要がなくなるので、インタフェースが
非常に単純化される。
命令書込みバスは数値またはアプリケーション向きプロ
セッサ(またはその両方)で共用させるのが好ましい。
また、最上位アドレス・ビットは数値またはアプリケー
ション向きプロセッサ(またはその両方)のいずれかが
個別的にアドレス指定されるように、あるいはこれらの
ブロサツサのすべてが一部にアドレス指定されるように
、あるいはこれらのプロセッサ群の一部(全部でなく)
が−緒にアドレス指定されるように、ロジックに従って
判断させるのが好ましい。
つまり、複数の浮動小数点プロセッサを制御するには、
アルゴリズムを存在する浮動小数点のいずれかて稼動す
ること、あるいはその一部が存在する浮動小数点プロセ
ッサの一部または全部で稼動することがあり得ることを
考慮に入れる必要がある。このためには、制御プロセッ
サと浮動小数点プロセッサとの長期的または短期的な関
係を明確化する必要がある。制御プロセッサはどの浮動
小数点プロセッサを制御すべぎか、あるいはどの浮動小
数点プロセッサとの間でデータを転送すべきかをサイク
ル単位で選択することができる。長期的関係の場合は、
これはもっと大局的に定義することも可能、である。
本好適実施例では、これはどの浮動小数点プロセッサを
使用すべきかを定義する制御メカニズムをサイクル単位
で選択するマイクロコード・ピッ1−を使用することに
よって達成される。この制御メカニズムは他のマイクロ
コード・ビットを使用することも、レジスタの内容(こ
れはマイクロコトによって事前にロートされている)を
使用することも可能である。マイクロコード命令フィー
ルド内のビットを使用して短期(つまり、サイクル単位
)の定義を行ない、レジスタで長期使用を定義すること
ができる。
これらの2モードの使用例を示すと、次の通りである。
短期−4つの浮動小数点プロセッサでFFTを行なうと
ぎは、制御プロセッサは1つの浮動小数点プロセッサに
数サイクルを使用して、次のバタフライのデータをロー
ドし、以前のバタフライの結果を収集してから、別のバ
タフライを扱う次の浮動小数点プロセッサに移ることに
なる。
長期−ベクトル加算を行なうときは、使用すべき浮動小
数点プロセッサはベクトル加算ルーチン(制御プロセッ
サにある)が呼び出される前に選択される。このことは
、制御プロセッサはこの計算にどの浮動小数点プロセッ
サ(またはどのタイプの浮動小数点プロセッサ)を使用
すべきかを知らなくてもよいことを意味する。
第23図はモジュール・アドレスがどのようにデコード
されるかを図式化して示したものである。
このデコードが実際にはどうような方法で行なわれるか
は、FPモジュール130と関連づけて上述した通りで
ある。
キャッシュ・メモリ拡張 上述したように、大容量の拡張メモリをキャッシュ・バ
ス144に直接接続することが可能である。このことは
、物理的構成と使用されるデータ転送プロトコルの別の
利点となっている。この種の構造例は第43図に示され
ている。
物理的および電 的 装ボード 第38A図と第38B図は本好適実施例の物理的レイア
ウトの主要特徴を示したものである。第38B図は子ボ
ードであり、第38八図の主ボードより小さくなってい
る。第38B図は浮動小数点プロツセサ・モジュール1
30のハードウェア(付属制御プロセッサ拡張ロジック
を含む)である。第38Δ図はデータ転送プロセッサ1
20、制御プロセッサ110の主要部分、データ・キャ
ッシュ・メモリ140、コマンド・メモリ190、およ
びインタフェース150.180.170.180から
なる構成を示している。2つのボードが一緒になって、
第1図に示すような完全なシステムが得られる。
2つのボードは6個のコネクタ381Oが同じパターン
になフている。これらのコネクタは雄型と雌型になって
いるので、追加のボードを積層することができる。例え
ば、第9図と第1θ図に示している構成は複数の浮動小
数点モジュール130またはアルゴリズム高速化モジュ
ール130“(またはその両方)を−緒に積層すること
によって得たものである(しかし、将来の改良に備えて
、これらの接続にバックブレーンを使用するとさらに利
点が得られる)。そうすれば、さらに都合のよい機械的
構成が得られる。
コネクタ3810はそれぞれ9δビン幅にするのが好ま
しい。そうすれば、キャッシュ・バス144の全幅がこ
れらのコネクタを通る場合であっても、十分なピン数を
予備として残しておくことができる。
データ・キャッシュ・メそり140を拡張するための拡
張メモリも、このパターンのコネクタを使用して積層す
ることが可能である。上述したように、キャッシュ・バ
ス144上に追加の拡張メモリを接続すると、高バンド
幅チャネルを利用する非常に短時間のアクセス遅延の間
に比較的大きなメモリ空間が得られる。本好適実施例で
は、100ns以内に240MB/秒の速度で最高12
MBまでアクセスができる。
第38A図は最大の個別構成要素の位置を示すと共に、
他の区域における一部の機能の全体的割振りを示してい
る。本実施例で使用されているボードは3段高さのEu
rocardである。VMEインタフェース・ロジッー
ク11i0は全体がボードの縁に置かれ、バックプレー
ンのスタブ長さを最小にしている。(VMEインタフェ
ース規格は短長のスタブを規定している。) メモリーバンク510は全体が図面の上方の左隅と右隅
にコネクタ381Oの近くに置かれている。コマンド・
メモリ190とVMεインタフェース・メモリ61i0
もこの区域に置かれている。
ポート中央部の大部分はCP保持レジスタ58(I八と
DTP保持レジスタ560Bが占有している。
DTP とCP IPo 340と240.DTPとC
Pシーケンサ310と210、およびCPアドレス生成
機構230はすべて別々に示されている。
DTPモジュールの書込み制御記憶機構320は全体が
図面の左下付近のコネクタ3810の下方に示されてお
り、CPモジュールの書込み可能制御記憶機構220は
全体が右下付近のコネクタ3810の下方に示されてい
る。GIPインタフェース170、およびDTPマイク
ロコード拡張インタフェース180は全体が左下隅に示
されている。(この区域には、部のDINコネクタ(図
示せず)が置かれており、このロジックを使用してサポ
ートできる物理的接続を提供している。)同様に、右下
隅には、データ・パイプ・インタフェース150だけで
なく、その関連コネクタか搭載されている。
′1KJ38B図に示ず子ボー1〜はもっと小形である
(第38八図と第380図は同じ縮尺で作図されていな
い。) 保持レジスタ420は右上と左上に示されているコネク
タ3810間に置かれている。これらのレジスタの間に
は、ECL周辺3820があり、ここにECL部品(こ
れらの部品は大量の発熱を放出する傾向かある)が置か
れている。(本好適実施例では、ECL部品としては、
転送りロック発生機構412 とFPマイクロコード・
クロック発生機構480がある。)これらの部品は隔離
されているので、TTLの雑音が雑音の少ないECL部
品に入り込むのを防止している。) 以上の説明から理解されるように、レジスタ・ファイル
430を作るために使用されるチップは、ALU 11
50および乗算機構440と同様に大形である(本好適
実施例では、これらのデツプの各々はビン格子パッケー
ジに納められている。)FPモジュールのWO2470
は全体が図面の左中間部に置かれている。そのすぐ下に
、FPモジュールの次アドレス・ロジック477が置か
れている。FPモジュールの制御ロジックがスタックと
しても使用できるスクラッチバット・メモリ160は物
理的に次アドレス・ロジック477に近接している。
CP拡張ロジックは子ポート130または130°の各
々の制御のためにCPマイクロコードを拡張するとき使
用されるものであるが、その大部分が図示のようにボー
ドの下縁に置かれている。特に、WC5拡張メモリ49
0は左下に示されている。
浮動小数点プロセッサ・モジュールを別々のサブボード
に分散して搭載させると特に好都合である。(また、複
数の浮動小数点プロセッサ・モジュールが使用される場
合は、各プロセッサ・モジュール130をそれぞれの独
自のサブボード上に置いて隔離するとよい。)数値プロ
セッサ・モジュール130は、高速ロジックがそこに含
まれているので雑音を発生しやすく、また、これらの線
と構成要素はECLレヘレベ使用するので、雑音の影響
を非常に受りやすい。
さらに、保持レジスタ420、局所転送バス422、レ
ジスタ・ファイル430、転送りロック412かすべて
サブボード」二に搭載されている。こうすると、最高周
波数線がずへて共通サブボード上で隔離されるので、利
点か得られる。高速ロジックの各部分をある程度隔離で
きるので、これは特に複数の数値プロセッサ・モジュー
ルを使用する実施例では有利である。
PAL実装 本好適実施例では、以下に挙げるP糺(プログラマブル
・ロジック・アレイ)が使用されている。
現在使用されているPALはすべてTTLである。大部
分は16および32シリーズからのものであるが、他に
もいくつかが使用されている。
しかし、当業者なら容易に理解されるように、他のPA
L実装を幅広く使用することも可能である。機能をハー
ドウェア・ブロックに分割することは変更可能であり、
ハードウェアで実装したある機能群を変更することも可
能である。PALに現在実装されている機能の多くはM
SIロジック部品を使用して実装することも、八S■C
またはセミカスタム集(rt回路にブロックとして実装
することも、VLSIロジック・チップをプログラミン
グすることによって実装することも可能である。しかし
、この実装をここで詳細に示したのは、米国特許法の規
定に従うように、本好適実施例の内容をすべて開示する
ためである。
CP PAL 以下は、制御プロセッサ・モジュール110に使用され
ている最も重要なPALのいくつかを簡単に説明したも
のである。
クロック波形生成PAL 250 このPALはCPとDTPによって使用されるタイミン
グ波形を生成する。上述したように、4つのクロックが
発生される。これらは各々4つの事前定義波形列の1つ
に従っている。4つの波形列は異なる期間、つまり、入
力クロック期間の4.5.6および7倍になっているこ
とが特徴である。これは、本好適実施例のように40M
IIzオシレータが使用されるときは、100.125
.150および175nsに変換される。マイクロコー
ド・クロックとパイプラインークロックは同じ波形をも
つが、マイクロコード・クロックはマイクロコードをロ
ートするときは、パイプライン・クロックを動作させた
ままにして禁止することが可能である。マイクロコード
・クロックは常に2サイクル(オシレータの)の間高で
あり、そのあと2.3.4またはサイクルの間借になる
(これらの選択はサイクル長入力によって行なわれる)
。サイクル長はCPから要求された最大長さ(2ビツト
)とDTPから要求された最大長さ(2ビツト)から選
択される。サイクル長はパイプライン・レジスタから駆
動されるので(非レジスタ設計にした方がよいが)、サ
イクル長は可能な限り最後の瞬時にサンプリングされて
、ループを回って伝播する最大時間が得られる。このタ
イミングは出力クロックが生成されたサイクルの直後の
サイクルで活動化するので、最初に現れるときよりも重
要である。
タイム2クロツクはマイクロコード・クロックが動作す
る周波数の2倍で動作し、その立上がり縁はマイクロコ
ード・クロックの縁と同じ時間に現れる。
書込みイネーブル・ゲート信号が低のときVMEインタ
フェース・メモリ660からの入力がサンプリングされ
る。この入力がメモリ使用中を示していた場合は、サイ
クル長はこの入力が変わるまで延長される。これにより
、メモリ・アクセス時間に余裕ができるので、アクセス
衝突、オフボード通信などによってアクセス時間を遅く
することができる。(この使用中信号は、PAL側から
見たときは、書込みゲートが低のとき余分のサイクルを
挿入したように見えるだけである。) クロックを自走させるか、1ステツプ進めるかの選択は
別の入力によって行なわれる。
CDバス・ソースPAL このPALはどのソースにCDバス112を駆動させ、
該当装置の出力イネーブル線を駆動させるかを選択する
CPマイクロコード・ビットをデコードするものである
。いずれかの16ビツト・ソースが選択されると(アド
レス生成機構230など)、このPALは符号/ゼロ拡
張PAL 216を活動化させる信号も出力する。リセ
ット13号が活動しているときは、どのソースも選択さ
れない。
TDババス22のデータ・ソース・フィールドのデコー
ドも同じ種類のPALを使用して行なわれる。
TDババスソースを選択するPALも、それぞれの対応
するFIFG空状況信号でFIFOMi取りをゲート操
作するロジックを備えているので、空のFIFOが読み
取られるのを防止する(FIFO内にエラーを起す原因
になる) 四T葺9(先力匹 このPALはCDバス112上のデータの宛先を選択す
るCPマイクロコードをデコードして、該当装置の読取
りイネーブル線を駆動するものである。
TDババス22のデータ宛先ビットのデコードも同じ種
類のPALを用いて行なわれる。
ソースまたは宛先装置が駆動する必要のあるチップ・イ
ネーブル線をもっていると(例えば、VMEインタフェ
ース160やコマンド・メモリ190におけるメモリ)
、それぞれのチップ・イネーブル線が駆動される。
符号/ゼロ拡張PAL 21に のPALはイネーブル信号およびソース・データの高ビ
ットに応じて、符号またはゼロ拡張機能を実行する。使
用するのが好ましいPALは8ビツト幅だけであるので
、すべての符号/ゼロ拡張操作にはこれらが対で使用さ
れる。このPALは2個所で使用されている。一方の対
(第2八図にブロック216で図示)はCDバス112
に、もう一方の対(第3A図にブロック316で図示)
はTOババス22につながっている。
バス・ソース・ロジックは、16ビツト・ソースがアク
セスされるとぎ、イネーブル・ビットを符号/ゼロ拡張
ロジック218に送るものである。
第14八図と第14B図はとのPALの構成と動作を示
している。さらに詳しくは、第14A図は若干異なる実
施例を示している。つまり、各符号/ゼロ拡張操作で3
個の8ビツト・マルチプレクサが使用されている。これ
により、本好適実施例では不可能である単一バイトの使
用が可能になった。第1411図は第目へ図のハードウ
ェアで使用されるコマン1−描造を示している。
マルヂウェイ分岐アドレス指定PAL 217このPA
Lはシーケンサ310のマルチウェイ分岐機能を実装す
るために使用される。このFAl、は3ビット条件コー
トを受は取り、それをマイクロコト定数フィールドの最
下位3ビツトに挿入する。修飾された定数フィールドは
シーケンサ315上にフィードバックされる。シフト・
フィールド入力は結果を左に0、■または2桁シフトす
るかどうか(つまり、1.2または4をかけるかどうか
)、あるいは入力定数フィールドを未変更のまま送るか
どうかを制御する。別の入力はこのPALの3状態出力
ドライバをイネーブルする。
第n図に示すように、このPALは3状態バツフア31
8 と並列に接続するのか好ましい。定数フィールドの
最下位8ビツトだけがPAL 317に送られる。最上
位8ビツトはバッファ318に送られる。
(好ましくは、修飾された定数フィールドは相対シーケ
ンサ命令で使用されるが、その使用に注意ずれは、絶対
または間接命令で使用することも可能である。)マルチ
ウェイ分岐機能は、第30図を参照して以下に詳しく説
明する。
データ入力条件コード選択PAL このFAI、(DTPモジュール120に置かれており
、第3図にマルチプレクサ312で示されている)はD
TPマイクロコード・シーケンサ310でテストできる
1組のFIFO状況コードを選択する。選択された組の
条件コートはデコートされ、シーケンサ310に送られ
て、これらの条件に基づくマルヂウェイ分岐が行なわれ
る。これらの条件信号のソースは、4つのバス入力イン
タフェース、つまり、GIPインタフェース170、デ
ータ・バイブ・インタフェース150の2つの入力ポー
ト、およびVMEインタフェース160の1つの中にあ
るものが選択される。
DTP とI/F PAL 以下は、データ転送プロセッサ・モジュール120 と
インタフェース機構160.170.180で使用され
ている最も重要な機能のいくつかを簡単に説/I 12 明したものである。
VMEアドレス・デコ−1−1)八L 1つのPALはVMEア1−レスの最下位ヒラ[−と5
アドレス修飾ビツトをデコー1−する。その出力はVM
Eアドレスとアドレス修飾子が以前に選択されたビット
と一致すると活動化する。(アドレスとアドレス修飾子
の組合わせは最高16までプログラミングでき、そのう
ちの1つは4ビット切替え信号によって選択される。)
 VME割込みPALからの入力もあり、これは割込み
承認サイクルがいつ進行中であるかを示している。これ
は出力を駆動するようにデコートされたアドレスとOR
がとられる。
VMEアドレス・バスの最上位アドレス・ビット(18
−31)も同じようなPALを使用してデコートされる
。このPALでは、アドレスの上位8ビツトを使用する
か無視するかが別の入力で選択される。
DMA FTFO状況とクロック制御PALこのP八り
はDMA FIFO670からのクロ・ツクと状況信号
の経路を制御する。また、このPALはこれらの1・I
FOのクロックをDMAコントローラ640の制御下に
置くか、VMEインタフェースからデコー1−するかを
制御する。
VMli読取りと書込みデコートPAL611読取りデ
コートPALはVMEバスからの8つの読取りソースを
デコートする。内部VMEアドレスはデータ・ストロー
ブ、書込みイネーブル、およびポート選択信号によって
デコートされ、修飾される。
書込みデコートPALはVMEバスからの9つの書込み
ソースをデコートする。内部VMEアドレスはブタ・ス
トローブ、書込みイネーブル、ボード選択、およびVM
ε書込みイネーブル信号によってデコードされ、修飾さ
れる。VME書込みイネーブル信号は各種書込みイネー
ブルまたはクロックのセットアツプと保持条件をVME
バスのタイミングから独立して制御するために使用でき
る。
VMEスレーブ・アクセス・タイミングPALこのPA
Lはバス・コントローラ650においてデータ転送確認
通知のタイミングを発生ずる。このタイミングは、デコ
ーダ611が受り取るのとほぼ同じア1−レスと修飾子
もこのPALへの入力となるので、読み書きされるレジ
スタまたはメモリに合わせて調整することが可能である
。2重ポートVMEメモリ660が使用中であれば、こ
のタイミングは別の入力によって遅延される。(これが
行なわれると、使用中信号が終了したあとで追加サイク
ルが挿入される。) 直列ループがデータのシフトに使用中であれば、タイミ
ングは別の入力によフて遅延される。
データが直列ループ・レジスタ680に書き込まれると
き、VME書込み信号が高になったあとで3サイクルの
遅延が挿入されるので、直列ループ・ステート・マシン
(別のPALにある)は余裕をもってデータをラッチ・
インすることができる。
このPALはVMEインタフェース・メモリ660がア
クセスされ゛るときは、イネーブル信号も発生する。
信号ループ制御PΔL このPALはマルチプレクサ2710とステート・マシ
ン2740を実装している。ステート・マシン機能は直
列ループ内の書込み可能制御記憶機構の各々とのインタ
フェースで818個の直列/並列レジスタを制御するよ
うに接続されている。(これらには、CP W[;S 
220とDTP WO2320のほかに、プロセッサ・
モジュール130の各々にあるFP WO2470とF
P WC5拡張部分490が含まれる。)ステート・マ
シンはシフト・レジスタと直列データ・クロックを制御
する。シフト・レジスタとの間でデータ転送が行なわれ
ているときは、シフト・レジスタと直列データ・クロッ
クはアクセスのタイプ(つまり、読取りか書込み)に応
じて、またモード信号に従って制御される。直列ループ
・モード信号は次の3モードの1つを指定している。
DATA HOLD (00) :  通常のレジスタ
と同じように読み書きを行なう。
DATA 5HrFT(lo):通常のレジスタと同じ
ように読み書きを行なうが、直列データ・クロックを切
り替えている間に直列ループを回フて16ビツトだリデ
ータをシフトする。
DATA PLILSE(Ill: A7i+Iルジス
タと同じように読み書きな行ない、直列データ・クロッ
ク・パルスを1回発生ずる。
DATASIIIFTモードでは、ステート・マシンは
あるサイクルでシフトし、次のサイクルで保持するよう
にシフト・レジスタを制御する。この2サイクル・パタ
ーンは16回繰り返され、その結果、シフト・レジスタ
の内容が直列ループ内に挿入される。保留サイクルでは
、直列データ・クロックが主張される。データがシフト
されている間、使用中信号は活動しており、゛そのシフ
トが終るまでシフト・レジスタへの以降のVMEアクセ
スを保留にする。
DATA PULSEモードでは、書込み操作(1)3
00−400ns後に、直列クロックは一度だけ高パル
スになる。このパル、スは”818”シャドウ・レジス
タ内部の内部フリップフロップをアップロードする。
(これらのシャドウ・レジスタの各々は内部フリップフ
ロップを備えており、これはデータをそれぞれに対応す
るWO2にバックロートするときその動作モードを制御
する。このDクロックがパルスを発生ずるときは、直列
ループを回ってデータはシフトされない、(この遅延に
より、データは安定化する。つまり、ループを回って伝
わっていく。)この操作時は、使用中信号は活動化され
て直列ループへのVMEアクセスを禁止する。
このPALは4個の直列ループ帰還路225B、 22
5G、2250.225E、および再同期化フリップフ
ロップ2720を収集するマルチプレクサ2710も備
えている。
DCM とDCM I/F 、PAL 以下は、キャッシュ・メモリ140と、FPモジュール
130上に置かれているが、キャッシュ・メモリ140
とのデータ・インタフェースを取り扱うCP拡張ロジッ
クで使用される最も重要なPALのいくつかを簡単に説
明したものである。
DCMアドレス・デコードPAL このPALはマルチプレクサと一緒に第5図にブロック
560で示されている。このPALはデータ・キャッシ
ュ・メモリ・アドレスをデコートする。
2つのアドレス入力か用意されている。入力51[iは
CΔバスIIIのピッ119−25に対応しており、入
力517はTへバス121のピッ119−25 に対応
している。仲裁ロジック535によって生成される制御
線521はどちらのアドレスをデコートするかを選択す
る。
DGM保持レジスタ制御PAL このPAL(CPとDTPマイクロコー1〜・ストリー
ムによって制御される)はデータ保持レジスタ560A
、 560B、および420の3つのバンクを制御する
ために使用される各種制御信号を発生する。マイクロコ
ード・ビットはクロックと出力イネーブル信号を駆動す
るようにデコードされる。バンク560Aを制御する信
号はCPアクセス信号536によって制御される。バン
ク560Bを制御する信号は、DTPポートの方が優先
度が低いので、CPアクセス信号536とDTPアクセ
ス信号537の両方によって制御される。
レジスタ・バンク420(浮動小数点モジュール」=の
1・P保持レジスタ)を制御する信号は該当のモジュー
ル選択信号とANDがとられる。クロック信号はすへて
正のクロック縁のタイミングを制御するために、書込み
イネーブル・ゲート・クロック信号によって修飾される
別の組の信号はアクセス・サイクルでメモリ出力をディ
スエーブルすることができる。これにより、保持レジス
タはデータ・キャッシュ・メモリに書き込まなくても読
み戻すことができる。(これらの信号は書込みマスク情
報をアクセスするために別のPALでも同じように使用
される。)(以 下 余 白) DCM 潜込みフラグ・レジスタ1)八1、書込みマス
ク・ロジック530(8ヒツト書込みマスク信号512
をメモリ・バンク510に送る)は複数のl’ALを使
用して実装されている。DT11インタフェース・レジ
スタ560Bに対応するFAl、を最初に説明する。C
Pモジュール110によってアクセスされる他のレジス
タ・セット560Aの状況の追跡は、同じようなPAL
を使用して行なわれる。
このPALの目的は、保持レジスタ560B内の8F語
のどれにDTPによって書き込まれたかを覚えているこ
とである。データ・キャッシュ・メモリ書込みが必要で
あるときは、このPALの出力はDTP保持レジスタか
らの並列書込みにマスクをかりる。更新されているF語
だけが実際にはデータ・キャッシュ・メモリ・バンク5
10に書き込まれる。保持レジスタに対する書込みが行
なわれると、対応するフラグ・ビットがPAL内にセッ
トされる。セットされるフラグ・ビットはこれらの条件
の下でDTPアドレスからデコードされる。フラグ・ビ
ットはデータ・キャッシュ書込みが行なわれるとクリア
される。しかし、操作はパイプライン化されているので
、DT+’は同じサイクルで保持レジスタ560Bに書
き込むことかできる。その場合には、フラグ・ビットは
セットされたままになる。
さらに、8フラグ・ビットずへてを同時にセットするこ
とも可能である(マイクロコード・コマンドを受けて)
。これにより、ブロックで書込みを行なうことができる
。リセット信号はフラグをクリアする。ロジックは完全
に同期しており、クロック発生機構250によって発生
したマイクロコード・クロックによってクロックがとら
れる。
別の入力信号は読み戻しモードをイネーブルする。この
モードでは、フラグ・レジスタの状態を下位2ビツトを
使用して直列に出力することができる。マイクロコード
はこの下位2ビツトにあるフラグ・ビットを読み取るこ
とができ、他のフラグ・ビットと入れ替えることにより
、マイクロコードはすべてのフラグ・ビットを読み取る
ことができる。DTPアドレスは、3フラグ・ビットの
どれを偶数フラグ・ビットと入れ替え、どれをく]数フ
ラグ・ビットと入れ替えるかを選択する。
Fpg込みマスクPAL このPALはFP保持レジスタとデータ・キャッシュ・
メモリ間の転送に対して書込みマスクを生成する。マス
ク生成を制御するパラメータには、書き込むべきF語の
個数と先頭のF語がある。
FP  PAL 以下は、本好適実施例においてFPモジュール130に
使用されているプログラマブル・アレイ・ロジック機構
(PAL)を簡単に説明したものである。
WCSロード・イネーブルPAL このPALはマイクロコードをFPモジュール自身のW
CS 470に、およびcpモジュールの拡張WCS4
90(つまり、FPモジュールに置かれているWC5部
分)またはそ、のどちらかに、モジュール選択信号でロ
ードするとき使用される一部を修飾する。
ホスト−ソース・モジュール選択PALこのPALはホ
ストからのモジュール・アドレス入力を局所スイッヂ設
定値と比較して、そのモジュールが選択されているかど
うかを確かめるものである。1組の入力てwCSロート
がイネーブルされて行なわれる。
千ジコール当たり1ビツト・アドレスが用意されている
ので、WC5書込みをモジュール130のすべてに対し
て独立して制御することができる。
(これと対照的に、上述したように、データ・アクセス
は最大モジュール数より少ないビットをもつモジュール
・アドレスを使用するので、モジュールのあらゆる組合
わせを選択することができない。) 第28図に示すように、直列コマンド・ループの好まし
いトポロジは、2つのループ部分2840が各数値処理
モジュール130に入るようになっている。一方の部分
225Aは入力をそのモジュール自身のWCS 470
に送り、もう一方の部分225Gは入力をそのモジュー
ル上のWC5拡張部分490に送るようになっている。
従って、2つの別個の出力コマンドが与えられるので(
しかもモジュール・アドレスによって修飾されて) 、
WCS 470とWC5拡張部分490はそれぞれの出
力を共通掃通バス225Lと2250 (それぞれ)に
送り出し、モジュールのどれかが選択されたとぎに、そ
のモジュールによって駆動させることができる。
CPモジュコー選択PAL このPALはCPによって選択されたモジュール・アド
レスを、局所保管値と突か合せて比較するものである。
一致するものが見付かると、4つの出力が主張される。
これらの出力のうちの2つは制御信号がクロックをとる
ようにイネーブルするか、保持レジスタ420を出力イ
ネーブルする。もう1つの出力信号はLEDを駆動して
、とのFPモジュールが選択されたかをビジュアルで表
示する。
最後の出力は主ボードに返される条件コード・ビット(
選択済み)をイネーブルする。この最後の出力はCP拡
張、マイクロコードで制御されるロジックに対する修飾
信号であり、マイクロコード・フィールド(またはレジ
スタ格納値)で定義された処置が行なわれるようにイネ
ーブルするものである。
FP−WC5制御PAL 2つのPALがWCS 470を制御するために使用さ
れる。これらの2つのPALは別々の区域に置かれてい
るが、両方ともWCSに影響を与えるので、相互にイン
タロックするようになっている。−数的には、最初のP
ALは命令レジスタ(これは上述したようにマイクロコ
ード短縮のために使用される)を制御するために使用さ
れる。もう1つは並列マイクロコード・ローディングを
制御するために使用される。
最初のPALはWCS 470にある2つのRAMチッ
プの出力イネーブルを制御する。本好適実施例では、W
GS 470は2つのRAMチップを使用して構成され
、インタフェース・レジスタ・セット420とマツチし
て並列ローディングが行なわれるようにしている。(本
好適実施例では)キャッシュ・バス144は64ビツト
・データ通路までに多重化されてFPモジュール130
に送り込まれるので、WCS470を2つの部分に分割
すると、マイクロ命令(未実施例では、104 ビット
長)の並列ローディングにマツチすることになる。
ホストがマイクロコー1〜をロートすると各GJ、命令
レジスタはディスエーブルされる。その場合には、命令
レジスタの出力は必ずディスエーブルされるので、RA
M出力はホストによって生成された信号によって制御さ
れる。
2番目のPALは2つの個別機能を実行する。これらは
ハードウェアによる短縮を実現するときたけ結合される
最初の機能はホストによるWC5の読取り時にパイプラ
イン・レジスタ476のどちらのバンクをイネーブルさ
せるかを制御するものである。
2番目の機能は転送の長さ、つまり、保持レジスタとレ
ジスタ・ファイル間で転送すべき語の数を調整するもの
である。
パイプライン・レジスタの出力イネーブル信号は2つあ
り、これらは同時に活動することはない。(これらの信
号はレジスタ476の2つのバンクをイネーブルするた
めに使用される。他の個所て説明したにうに、この構成
はWC547Gの2バンクに対応している。)バイブラ
イン・レジスタのどちらかを出力イネーブルさせるため
には、使用中信号が非活動に、モジュール選択とFl’
バイブライン・レジスタ出力制御(ホストからの)が活
動していなければならない。
転送長さフィールドは、1が転送すべき1語を、2が2
語を(以下同じ)を表すようにコーディングされる。8
語を転送することを指定するときは、0が使用される。
転送りロック発生機構(キャッシュ・バス・インタフェ
ース460の一部)は、転送サイクルの回数を知ってい
る必要があり、これはマイナ・サイクルに1を加えた数
である(バイブラインをセットアツプする場合)。
マイナ・サイクルの数は転送長さとその開始位置と共に
変化する。
ハンドシェイク・ロジックPAL 2つのPALがハンドシェイク・ロジックを制御するた
めに使用される。最初のPALは2つの独立機能を実行
する。最初の機能はCPとFPモジュコー130間のパ
ン1〜シエイキングを制御する。(この機能では、第2
2図に状態図を示すようなステート・マシンにこの機能
をもたせている。)もう1つの機能(最初の機能と独立
して)はレジスタ・ファイル420が2重バッファ・モ
ードで使用されるときバンク選択を制御する。(このモ
ートの動作原理は第20図に示されており、上述した通
りである。) ハンドシェイキング・ステート・マシンはCPがFP待
ちにあることを、CPWAIT出力HLを駆動すること
によって通知する。FPが待ちにある場合は、ハンドシ
ェイキング・ステート・マシンはFPW八Iへ+1Lを
駆動することによフてこれを知らせる。
CPWAITとFPWAITが共に旧であり、cpがそ
の完了信号を主張した最初のプロセッサである場合は、
次のような手順で行なわれる。
1、CPDONEがHlであることが見付かったときは
、FPWAITはLOに駆動される。
2、CPDONEが旧になるまでCPWAITは旧のま
まで、制御はその状態のままである。
3、FODONEh)IIIになると、CIIWAIT
はLOに駆動される。
4、にPWAITとFPWAIT信号は、対応するDO
NE信号が否定されるまで共にLOのままである。
上記手順は、FPがFPDONEを最初に主張した場合
にも行なわれるが、その役割は反対になる。
[;PDONEとFPDONEが共に同時に到来した場
合(つまり、共に同じクロック縁で最初にHlでサンプ
リングされる場合)は、cpw八IへとFPWAITが
共にLOになる。
このPALのバンク・スワップ側は上述したCP/FP
ハンドシェイキングが切り離されている。このステート
・マシンを制御する2入力信号は5CPBANKSEL
とFPSWAPである。5CPB八NKSELはFPが
スワップ点まできたときCPにバンクをどのように割振
らせるかを指定している。FPがスワップ点までくると
、そのスワップ点を通り過ぎるまでFPSWAPを活動
状態に駆動する。スワップ点はcp/ppハンドシェイ
キング・ロジックによって同期化される。FPSWAP
点では、5CPBANKSELの状態はBANKSEL
出力の新しい状態であり、スワップ点の外では、BAN
KSEL状態は未変更のままである。
最初のPALはFPと同期して動作するので、もう一方
のPALはCPモジュール110が終了したこと、また
はバンクの交換を望んでいることを示すCP同期信号を
捕捉するために使用される。
この第2のPALは3つのハンドシェイク・モト・ビッ
トによって制御される(モジュール選択信号による)。
3ハンドシエイク・モード・ビットは次のように割り振
られている。ビット0と1は0θがノー・オペレージコ
ン、01がCt’DCIMEをセット、10がGPDO
NEをクリア、11がテスト・モードの処置がとられる
ようにコード化されている。これとは独立して、ビット
2はレジスタ・バンクを交換することを要求実る。
CPDONE状態は命令がセットまたはクリア操作であ
る場合を除、き、マイクロコード・サイクルにまたがっ
て未変更のままである。
このP^しはモード・フィールドのビット2の正の縁を
、新しい入力を以前にレジスタ格納されたものと比較す
ることによって検出する。縁が検出されると、これによ
りバンク選択出力の状態が切り替えられる。
割込み捕捉PAL cpw八Iへ、FPWAIT 、およびいくつかの割込
み信号でクロック縁を捕捉するために別のPALが使用
される。エラー割込みは中断点割込みと同じ割込み出力
を共用するが、独自のマスク・ビットをもっている。出
力は対応するマスク・ビットがLOに駆動されるとリセ
ットされるが、このマスク・ビットは以後の割込み縁を
検出するために旧に戻しておかなければならない。
マイクロアドレスとクロック制御PALこのPALはF
Pマイクロアドレス・ソースの制御とFPクロックの制
御の2つの独立機能を実行する。
マイクロアドレス・ソースは2ビツトの入力によって選
択され、次のようになりている。(00)FP次アドレ
ス・ロジック4フ7.(01) CPマイクロアドレス
 211八;(10)開始アドレス・レジスタ479(
連続);(If)スタック478の出力。別の入力で2
ビツト選択コマンドを無視することも可能である。その
場合には、CPマイクロアドレスはモジュールがイネー
ブルされるとイネーブルされる。この入力を使用すると
、ホストはセットアツプやデバッグ時に1ee5470
をアクセスすることができる。
FPクロック生成機構480(これは本好適実施例では
ECLが使用されている)を制御する出力は次ように選
択ができる。(00)FPマイクロコード・クロックを
自走させる。 (Of)FPマイクロコード・クロック
を停止させる。別の論理条件はFPクロックを別の入力
によって制御させ、クロックがその主張があったとき自
走するようにする。
直11/並IJロード選択 このPALはマイクロコードをホストまたはCPからF
PモジュールのWC5470にロードすることを制御す
る。ホス゛トによってロードされるマイクロコードは直
列ループを使用する必要があるが、CPはマイクロコー
ドを並列にロードすることができる。注目すべき点をい
くつか挙げると、次の通りである。
1、Wc5470に使用されているパイプライン・レジ
スタは個別の出力イネーブルをもっていないので、これ
らはデータ・バスでの競合を防止するために別々に使用
される。
2.2つの直列データ・クロック信号の依存性はホスト
またはCPが選択されたかに応じて切り替えられる。
3、ホストが直列ループを制御する場合は、モード信号
は両方のデータ・クロックを一緒に駆動させるか(通常
データ・シフト)、一方だけを駆動させるか(別の信号
で選択されたもの)を選択する。直列データ・クロック
はWC5470からデータを読み戻すときもこれと同じ
ように制御される。
cp書込みデコードPAL このPALはWC5拡張部分490にあるマイクロコー
ド・フィールドをデコードして、レジスタ420のどち
らをアクセスするかを選択するものである。選択された
レジスタには、RCREGDIRがLOのときだけ書き
出される。XFREG、 FPREG、 LIAREG
またはMREGの中から1つ選んでそこに招=き込むこ
とのほかに、実行される機能には他に2つある。
1、CDバス・トランシーバ4114 に対する方向と
出力イネーブル制御か生成される。
2中断点をクリアするマイクロコーI・・ビットは書込
みゲート・クロックで書込みイネーブル・ゲートかとら
れる。ここで短パルスが使用されているのは、再始動直
後に現れる中断点を見失うのを防止するためである。(
これは、新しい中断点が現れたときCPがまだ前の中断
点をクリアする信号を低に維持していると問題を起すこ
とおそれがある。)従って、この信号はそれを短時間に
保つクロックでORをとるようにしている(活動−低A
ND)。
クロック/ストローブはすべてCPMCCKおよびCP
MCf:KWGによって修飾されて、マイクロコード・
サイクル内で一タイミングを設定するが、モジュールが
選択されていなければディスエーブルされる。
このPへ1、はGPマイクロコード・フィールドをデコ
ートして、レジスタ480のどちらをアクセスするかを
選択するものである。選択されたレジスタはR[;RE
GDIRがIIIのときだけ読み取られる。
保持レジスタ制御PAL 461 2つのPALが保持レジスタ420からの出力を制御す
るために使用される。
最初のPALは各列のレジスタ420に対するクロック
をイネーブルするために使用される転送シケンス波形を
発生するものである。各転送サイクルは転送長さで指定
された通りに、1〜4マイナ・サイクルの間持続する。
(「マイカ・サイクル」期間は上述したように、転送り
ロック412によって発生する。)各マイカ・サイクル
で対のF語が転送されるが、そのうちの1語は別のPA
Lによって禁止されることがある。転送シーケンス波形
は4つの線上に「遊歩LOJとして現れる。
循環列内で最初に主張される線はXFHR5T<1 :
 2>によって制御され、XFINITが旧のとぎだけ
現れる。XFINrTは最初のサイクル時だけ活動し、
後続のサイクルでは現在のシーケンス波形か次の線を制
御するために使用される。+ICXFDIRは転送方向
か保持レジスタ420からレジスタ・ファイル430へ
のとき、1.00PB八GKモードか働いてし)なりれ
ば、+11’lcにENI’キ<C1:3>をディスエ
ーブルする。11 RCH八しLは通常の開始および長
さ制御を無視して、ずへてのクロック・イネーブルを同
時に活動化させるので、1回のサイクルでデータを4コ
ピーしてすべてのレジスタ対に入れることができる。
XFTYPE入力は波形列が通常の転送サイクルに対す
るものか、並列マイクロコード・ロート・サイクルに対
するものかを選択する。後者の場合には、常に2つのマ
イカ転送サイクルがあり、そのタイミングが若干異なる
ことがある。この入力は保持レジスタに対するすべての
クロックを禁止することができる。
第2のPAL−は各レジスタ対を出力イネーブルするた
めに使用される転送シーケンス波形を生成するものであ
る。これらの2つのPALは相反する転送方向で使用さ
れる。
「クロック・マスクJ PALは、保持レジスタ420
を構成する8個の32ビツト・レジスタ(Fレジスタ)
に書キ込みを行なうことを制御するために使用される8
個のクロック・イネーブルを生成するものである。1回
の主転送サイクルで、8個までのF語をレジスタ・バン
ク420の8個の別々のレジスタに送り込むことができ
る。入力は更新する必要のある最初のレジスタ(0,、
,7)  と更新すべきFレジスタ(1,、,8)の個
数を示している。
PALはそれに応じて、更新すべきすべてのレジスタに
対してビットがセットされたマスクを生成する(主転送
サイクル内で)。転送方向が保持レジスタ420からレ
ジスタ・ファイル430へのときは、すべてのマスク・
ビットはHIにセットされるので、保持レジスタへの書
込みは一切防止される。同様に、マイクロコード・ロー
ド・サイクルが現れている場合は、クロックはディスエ
ーブルされる。すべての保持レジスタがクリアされる場
合(もう1つの信号によって指示された通りに)は、イ
ネーブルは低にセットされるので、すへての保持レジス
タが更新される。
保持レジスタ開始アドレスPAL このP八りは4:lマルチプレクサ くレジスタからなっている。マルチプレクサへの入力と
なるものには、レジスタからの保持レジスタ(HR)開
始アドレス、マイクロコード命令からのHR開始アドレ
ス、CPアドレス・バスからのFR開始アドレス、前の
)IR開始アドレスの4つがある。
モジュールが選択されない場合は、前のHR開始アドレ
スが残される。
レジスタ・ファイルWE制御 このPALはレジスタ・ファイル430に対する書込み
イネーブルを制御する。マイカ・サイクルで1個または
2個のF語がレジスタ・ファイルに書込むことができる
。開始位置と長さの6ビツトはクロック・イネーブル・
マスクが生成されるとき同じ方法で書込みイネーブル・
マスクを生成するために使用される。マスクからの該当
2ビツトはどちらのマイカ・サイクルが進行中であるか
に応じて、下半分書込み信号または上半分書込み信号か
ら順序付りられる。ループバック・モートが活動してい
るときは、書込みイネーブル・マスクはディスエーブル
される。別の信号はすべてのマイカ・サイクルで両方の
語を強制的に書き込むために使用できる。
下半分書込み信号と上半分書込み信号は転送方向が正し
くないか、転送タイプがマイクロコード・ロード機能で
あると、ディスエーブルされる。
入力信号はレジスタ・ファイルの読取りまたは書込みモ
ードを選択するためにもコード化される。
使用中信号線は保持レジスタ・データ・バス422が使
用中であることを指示するものである。
レジスタ・ファイル・アドレス 飾PALこのPALは
モジュールが選択されたときレジスタ・ファイル・アド
レスをレジスタに格納する。
そうでない場合は、前のアドレスが保持される。
アドレスの最上位ビットはソフト2重バッファリングが
行なわれるように修飾される。2ビット信号はどのタイ
プの修飾を最上位ビットに対して行なうかを選択する。
オプションには次のものかある。
1入力ビットの使用。これは物理アドレス指定モードで
ある。
2、8ANKSELの使用。これは2重バッファ・千ド
である。
3、8ANKSELの反転値の使用。これはプレビュー
・モートであり、CPまたはFPはバンクを交換し合わ
なくても2重バッファの反対側にあるデータがアクセス
できる。
レジス・ファイル・アクセス増分機構 このPAL  (イネーブルされているとき)はレジス
タ・ファイルのポインタを増分する。従って、アドレス
は各マイカ・サイクル(転送りロックの)ごとに増分し
て、レジスタ・ファイル430から次の対の番号を取り
出したり、次の対を書き込んだりすることができる。制
御入力は、保持レジスタ420からレジスタ・ファイル
430への転送の最初のマイカ・サイクル期間アドレス
定数を保持することを可能にする。これが必要なのは、
データ通路がパイプライン化されているからである。
データイ1効性制御PAL このPALはレジスタ・ファイル430の偶数側と奇数
側に対するデータ有効性信号を制御する。マイカ・サイ
クルで、1個または2個のF語をレジスタ・ファイルに
書き込むことができる。開始アドレスと長さに応じて、
データの1語または2語がとのマイカ・サイクルで有効
になる。2つの出力(EVENVALID赤 とODD
VALID*)はどちらの語が有効であるかを示してい
る。この機能はレジスタ・ファイルからの転送ではディ
スエーブルされる。
マイクロ命令アドレス選択PAL とのPALは次のマイクロ命令アドレスが真アドレス・
フィールドからのものか(つまり、レジスタ474の出
力)、偽アドレス・フィールドからのものか(つまり、
レジスタ475の出力)を選択する。内部の「常に真」
状況は無条件ジャンプのとき選択できる。両方共開始ア
ドレス・レジスタ479がマイクロアドレス・バス47
3を駆動できるように、あるいはSTACKPOPまた
はREADSTACK傘信号がスタック操作進行中を示
しているときディスエプルさ−υることかてきる。(5
1八CK 1101’は]・1)マイクロコードから待
られるか、1([八DSTACK Tj:f;Pによっ
て制御される。) 上述したように、FPモジコール130はCPモジ:I
ル110とDTI”モジュール120で言うような個別
のシーケンサをもっていない。事実、このモシュルは個
別のプログラム・カウンタでさえもっていない。その代
わりに、レジスタ474の真と偽の出力がこの機能を果
している。
ALII問題状況PAL このFAl、は浮動小数点状況ビットの1つがいつ「問
題状況」状態を示したかを記憶している。
(本好適実施例て「問題」状況が使用されているのは、
基本的エラー処理メカニズムから切り離しである種の障
害状態をモニタするためである。)例えば、オーバフロ
ーのテストは各要素の割算のたびてなく、ベクトル演算
の終了時に行なうことができる。乗算機構440と八L
υ440は各々問題状況を表すビットをいくつかもって
いる(オーバフロー、アンダフロー、無効演算、その他
の類似エラーを示ずヒツト)。2つのマイクロコー1〜
・ビットは問題状況レジスタの更新とクリアをサイクル
単位で制御する。
類似のPALはFMOY状況に対してこの機能を実行す
る。これらのPへ1.にあるロジ・ツクもコート化され
た出力で各種問題状況状態を示すようになっている。ク
ロック・タイミングの使用により、問題状況ピッ1〜が
存在するかどうかが1サイクルて検査される。
スタック制御PΔL 3910 このPへ1.は、サブル−チン・スタ・ツク・アドレス
指定の制御とテーブル・アドレス・カウンタの制御の2
つの別個の機能を実行する。
第39図は浮動小数点プロセッサ・モジュール130内
のスタック・レジスタ478の好適実施例を示している
。PAL 3910は多重レベル・パイプライン・レジ
スタ3920を制御する。(本好適実施例では、これは
AMD 29520が使用されている。)この多重レベ
ル・レジスタ3920は4つのパイプライン化レジスタ
3921を含んている。しかし、出力マルチプレクサ3
922にこれらのレジスタのいずれかを選択させて、直
接出力を得ることも可能である。
このマルチプレクサの出力は目)モジュール130のマ
イクロ命令アドレス・バス473に結はれている。
PAL 3910は制御入力を多重レベル・レジスタ3
920に提供して、このレジスタを1.IFO(後入れ
先出し)メモリとして機能させる。これにより、メモリ
はスタックとして動作する。PAL 3910はパイプ
ライン化レジスタ3921に対して転送信号3912(
これはマイクロコード・クロ・ツクとANDがとられる
)を供給する。また、選択信号3913をマルチプレク
サ3922に供給する。
PALは通常のブツシュとポツプ機能を備えているほか
に、コマンドを受けて読取りスタック・モードに入って
、スタック状況を壊すことなくどのスタック・レベルで
も読み取ることができる。
レジスタ・ファイル・アドレス修飾子PALこのPAL
はFPレジスタ・ファイル・アドレス・フィールドの最
上位ビットを、アドレス修飾コー1へと2重バッファの
現在選択されているバンクに応して修飾する。修fii
liずへぎアドレス・フィール1〜は3つあり(X、Y
、T)(これらは第1オペランド・バス431、第2オ
ペランド・バス432、および結実用バス433に対応
している)、ロジックはこれらの各々に対して同じであ
る。これらのアドレスの1つについてそのロジックを以
下説明する。
修飾最上位アドレス・ビットは入力アトレスの最上位ピ
ッ1〜.2ビツト修飾コート、およびバンク選択信号か
ら求められる。アドレス・ビットに対する修飾は次の通
りである。
1、修飾なし−これは物理アドレス指定モードである。
2バンク選択信号の反転−これは2重バッファ構成で通
常のアクセスに使用される「論理」モトである。バンク
選択は、データがレジスタ・ファイルと保持レジスタの
間で転送されるとき使用されるものと反対であることに
注意されたい。
3バンク選択信号と同等−これはプレビュモートである
。上述したように、このモー1−にあるとぎは、FPは
バンクを交換し合わなくても2重バッファの反対側にあ
るデータをアクセスできる。この機能は浮動小数点パイ
プラインを一杯に保つことかできる。
3つの修飾アドレス・ビットは外部レジスタに格納され
、「旧式6jビット(各アドレスに1ビツト)としてフ
ィードバックされる。これらは、[旧八6使用」コマン
ドが主張されたときこれらのビットのr計算で求めた値
」を置き換えるために使用される。この機能は、アドレ
ス・モードが数サイクルの間未変更のままであるとぎア
ドレス・セットアツプ時間を短縮する。
結実用バス制御PAL このPALは結実用ソース・マイクロコード・フィール
ドをデコードして、必要とする装置(例えば、第1図の
、構成では、FMPY 440、FALLI 450、
またはスクラッチパッド・メモリ1filO)を出力イ
ネーブルする。このPALは必要時にスクラッチパッド
・メモリにチップ・イネーブル信号も送る。
VM[割込みPAL このPAl、はVME割込みプロトコルをステート・マ
シンの形で実現している。GENVMEINTが活動状
態(高)になると、IIIQENは次の正のVCK縁で
高に駆動される。IRQENは割込みが受は付けられる
まで活動状態のままであるので、割込みの原因はCLR
IRQFFIを低に駆動することによって除かれる。V
IACK)とV1八へKIN*信号がモニタされ、割込
み受付はサイクルが引き起された割込みで検出されると
、内部割込み受付はサイクルが開始される。
正しいVME割込み受付はサイクルはこれらの信号が活
動状態になり(VIA(:KIN*はデイジ一連鎖の一
部である) 、 VMEIA<01:03>が割込みが
引き起されたとぎと同じレベルにセットされることによ
って識別される。内部割込み受付はサイクルはVMEI
DSが主張されるまで待ったあとで、数サイクルの間に
割込みベクトルをイネーブルしてデータ・バス(IVO
E*)上に送出し、IVDTACKをセットし、IRQ
ENを取り除く。しばらくしたあと、VMEIDSは非
活動状態になり、割込みベクトルとIVDTACKが除
かれる。割込み受(qリサイクルか現れると、VINT
八CKへ主張され、そのあと割込みベクトルをバス上に
送り出すスレーブ・サイクルでIIUscONを始動す
る(アドレス・デコートPALを通して)。
割込み受付はデイジ一連鎖は、未処理の制込み要求がな
いときこのPALに支障なく渡される。
DMへ/VMEステート・マシン このPALはVMEバスとデータFIFO間のデータ転
送だけを取り扱う。転送の方向はステート・マシンから
は見えないので、クロックと状況は外部で切り替えられ
る。DMARSTARTが活動状態になると、ステート
・マシンはDMA転送を開始する。まず、同期FIFO
状況(SDMAFSTATりがFIFOに1回の転送分
のデータまたは余地があることを示し、SDMADON
EがDM^カウンタが準備状態にあることを示すまで待
っている。DMAC:には低に駆動されて、データがあ
る一場合にFIFOを出力イネーブルする。
ステート・マシンはバス要求(LBUSREQりを出し
て、その要求が許可(SLBGRANT申)されるまで
待っている。バスが許可されると、Dll!八八Sへへ
DhlADS*がVMEバス・セットアツプ時間に従っ
て主張される。これらの2信号はVMEスレーブ装置が
データ転送受付け(SLDTIII;Kl)を返してく
るまで保留され、そのあとDMACKは高に駆動される
。1サイクルのあと、DMAAS傘とDMADS*は除
かれ、正の縁がDMAC0UNTテ駆動さレル。転送モ
ード(DM八へBLocg)が単一転送である場合は、
LBLISRELが主張されてバスが解放され、上で述
べた手順が繰り返される。転送モードがブロック(順次
)転送である場合は、バスは、ブロックの終りまできて
いるか(BLOCKENDで示される) 、 FIFO
が満杯/空であるか(SDMAFSTA丁◆)、DMA
カウントが尽きたか(SDMADONE)、あルイはD
MAがDMARSTART 17)否定によって途中で
打ち切られた場合以外は、解放されない。ブロック転送
のときは、DMAAS弓よりLOCKENDによフて解
放されるまで保留されている。
5LBUSERR*入力は、DMAアクセスの結果バス
にエラーが起こると、活動状態になる。このエラーが起
こると、現在の転送は打ち切られ、DMABERRが駆
動される。ステート・マシンはDMATST八RTが否
定されてDMAIIE旧(がクリアされるまでこの状態
のままである。最後の入力IIMATESTはとの11
4サイクルが現れなくてもDMAが行なわれることを可
能にする。これは、ステート・マシンの基本動作をテス
トするときに便利であり、またバス・エラーが起こった
ときにFIFOの入力を停止させる手段として利用で籾
る。
リセット状態はDMAR5T八RT、 DM八へBLO
cにおよびDMARTESTの未使用の組合わせを使用
することによって強行させることができる。
(以 下 余 白) DMAアドレス制御卸 アドレス・ビット(VIAEI八<01:07>は、2
56バイト境界までにいつ達する直前にあるかを検出す
るためにモニタされるので、ブロックDMA転送を瞬時
に中断させて、VME仲裁を可能にする。(これにより
、VME規格における最大ブロック転送長さの制約に準
拠することができる。)このことは11LOCKEND
で示される。PALの残り部分はDMAアドレス増分の
処理を担当する。転送サイズ(+6または32ビツト)
に応じて、 DMAアドレスはDMAINGが高になる
と、それぞれ1か2だけ増分される。
DMAアドレスの増分は、DMACNTEN*がマイク
ロコード・クロックの1または2サイクルの間活動して
いるかどうかを選択するDMARLONGINCによフ
て制御される。CLREF*は、DMAC0LINTの
縁を捕捉したフリップフロップをリセットする。VME
IR5T弓を必要ならばPALをリセットするために使
用できる。
割込み縁捕捉 コノPALはGIPIEMPTY*、VMEIFEMP
TY傘、DPIIEMPTYVTPINTDおよびVT
PINTテ正の縁を捕捉し、GII’OEMPTY*と
VMEOFEMPTY*で負の縁を捕捉する。
これにより、割込°み信号を縁でトリガさせ、そのあと
マイクロコード・クロックと同期させることができる。
縁が検出されると、対応する出力は低に駆動される。縁
捕捉フリップフロップは対でリセットされる。つまり、
TPINTGIP+は2つのGIP縁をリセットし、T
TIVMEF)lよ2つのVME iをリセットし、T
PINTVME牢は2つのVTP縁をリセットし、TP
INTDPIPE傘は2つのDP縁をリセットする。
GIPマイクロコード・デコート このPALは3つのマイクロコード信号uGIPlID
*UGIPWR*およびLIGIPFRをデコートして
、出力イネーブル、FIFO読取りおよび書込みクロッ
クおよびレジスタ・クロックを発生する。FIFO読取
りクロツタはFIFOの空の状況(GIPOE*)によ
ってケートされて、FIFO内の誤りを生じる空のFI
FOの読取りを租止する。クロックタイプの信号はGI
PCIまたはGIPFRDCにで資格づりされる。
GIP割込みマスク このllAl、は2つの機能を実行する。まず第1に7
つの割込み発生源となり得るものの中から4つを選択し
、必要な場合には選択的に反転して割込み処置が正の縁
になるようにする。4割込み発生源は2組が許され、G
II’5ELIはそのどちらかを選択する。第2の機能
は選択した組に4マスク・ビット(GII’1M <O
:3>)でマスクをかけてから、結果を駆動して(+I
PINT <0・3〉として出力するものである。GI
PI八CKへ信号は単純に反転されるだけで、GIPI
ACKが得られる。
(以下余白) GIP割込みステート・マシン このPALは割込み入力(GIPINT<O:3>l 
の正の縁を探し、1つまたは2つ以上が現れると、GI
PINIが駆動される。特定の割込みはマイクロコード
・フィールドUGIPCC5<0:1>でそれを選択し
て、UGIPCLAIを主張することによってクリアさ
れる。
すべてのフリップフロップはGIPRST*によるリセ
ットでクリアされる。縁は割込みを1サイクルだけ遅ら
せ、遅延されたものと遅延されなかったものを比較する
ことにより検出される。遅延されなかったものは、この
ステート・マシンがラン・オフしているGIPCIクロ
ックとすでに同期がとられている。
ホスト・コンピュータ 第1図に示すようなシステムは広範囲にわたるコンピュ
ータ・アーキテクチャで使用できる。本好適実施例では
、第1図のシステムは数値高速化サブシステムとして使
用されている。ホスト・コンピュータはVAX 880
Dを使用し、VMEオペレーティング・システムが稼動
して、VMEインタフェスとVM+:バス4110を通
して第1図のシステムと通信するようになっている。し
かし、他の構成も幅広く使用することも可能である。例
えは、使用できるUNIXマシンは、Sun Micr
osystems社提供の装置を含む様々なものがある
さらに、他のシステム・バス構造を使用することも可能
である。例えば、第1図のサブシステムをVMSが稼動
するVAXで使用し、インタフェース・ボックスを経由
してリンクで結ぶことができる。このサブシステムはM
S−005が稼動するパーソナル・コンピュータで使用
し、イーサネット(例えば)を経由して単純なVMEバ
ス・インタフェース・ボックスと通信させることさえ可
能である。
さらに注目すべきことは、第1図のサブシステムは32
ビツト・アーキテクチャが中心になフているが、このサ
ブシステムを64ビツト語や48ビツト語で使用で診る
という利点があることである。この機能を得る1つの要
因は、わずか2サイクルで64ビツト演算が行なえる浮
動小数点プロセッサ・モジュール130に内部データ通
路を使用したことである。もう1つの要因は、キャッジ
J・バス144を広幅にして、複数の64ビツト語を数
値プロセッサ・モジュール130と並行して転送できる
ようにしたことである。従って、64ビツト計算は語の
ほぼ半分の速度で(つまり、はぼ同じビット速度)32
ビツト演算として実行することができる。
さらに、本明細書に開示されている多数の新規事項を様
々なシステムに適応させることも可能である。これらの
新規事項は本好適実施例のバス標準と全く異なるバス標
準をもつシステムに適応させることも可能である。実際
には、VMEバス・インタフェースは特別には利点がな
いので(総バンド幅を妥当なものにすることとは別に)
、発明者の開示義務に従うために開示したにすぎない。
ホストとのバス・インタフェース 上述したように、本好適実施例では、ホストと結ぶ主要
インタフェースとしてVMEバスを使用している。この
バスは上述したようによく知られている。
他のバス構成を幅広く使用することも可能である。例え
ば、Vcrsallus、FuLureBus、または
Nullusを必要ならば、システムに組み入れる設9
1が簡単に実現できる。超高速計算システムの場合は、
光学バスを使用し、光ファイバに変調固体素子レーザを
使用すると利点が得られる。
画像プロセッサ・サブシステム 1つの実施例によるシステムは第1図(または9Aか1
0)に図示のような1または2以上のサブシステムと通
信するホストを使用しているだけでなく、特殊な図形プ
ロセッサである追加サブシステムを使用している。ここ
で使用されている好適画像プロセッサは”GIP”プロ
セッサとも呼ばれ、英国Kingston−upon−
Thames在のbenchMark Technol
gies Ltd  社から提供されているものである
第41図は1つの構成例であるが、勿論、広範囲にわた
る他のトポロジやシステム・アーキテクチャを使用する
ことも可能である。ホスト・コンピュータ4100は画
像プロセッサ・サブシステム4140および少なくとも
2つの数値高速化サブシステム415G (これは例え
ば、第1.9.10図に示すものと同じにすることかで
きる)と、Vλ111バス4170を経由して通イ8す
る。シMEバス4110を1¥山して、主メモ’J41
60、大容量記憶装置4170 (例 バー1〜デイス
ク)、43よひ任意的に、1つまたは2以上の装置イン
タフェース4180 (これは出力装置、ケートウェイ
、他の記憶装置などにすることができる)をアクセスす
ることも可能である。
本実施例ては、追加バスが2つ使用されている。画像デ
ータ・バス4130は図形プロセッサと結ぶアプリケー
ジジン仕様インタフェースとなる。
(これは広幅であり、画像または図形伝送で使用すると
特に便利である。)この実施例の構成例ては、これはr
GrPバスJ (benchMark Technol
ogies社提供)が使用されている。このアプリケー
ション向きバスは画像処理サブシステムの広バンド幅大
出力要求に非常にマツチしている。これは広幅バスであ
り、+60データ線からなっている。
もう一方のバックブレーン・バスはデータ・バイブ・バ
ス4120である。このバスを使用すると、複数の数値
高速化サブシステムを第34.35.36.37図に示
ずようなトポロジ構成で結ぶことかてぎる。この実施例
の構成例では、このバスは32デタ線からなっている。
システムの動作 本発明を色々な角度から見たいくつかの重要な使い方と
、開示されているシステム・アーキテクチャのいくつか
の使い方について以下説明する。
以下で説明するいくつかの方法はそれぞれ個別発明を構
成するものである。
サンプル動作の実現 アーキテクチャの簡単な使用例について以下説明する。
この例では、ポスト・プロセッサ4100は数値高速化
サブシステム4150 (第1.9または10図に示す
ものと同じ)に対してコマンドを出して2つの配列を一
緒に乗算して(配列要素単位で)その結果を第3の配列
に入れておくものである。
3つの配列はすべてVMEメモリ空間(例えば、主メモ
リ416G)に置かれている。コマンドが出される前は
、サブシステムは遊休状態にあり、コマンドが実行され
ると、再び遊休状態になる。これは図式化して第42図
に示されている。
コマンド・シリーリオは2種類か示されている。
最初のシナリオは使用されるメモリ空間か物理空間た番
プのシステムを詳しく説明している。(この種のアーキ
テクチャは、ホストか可能な限りの作業量を高速化サブ
システムにオフロートすることが望ましい場合に使用で
きる。)第2のシナリオはVMSが稼動するVへXやU
NIXコンピュータに見られるような仮想メモリをもつ
システムに対するものである。この第2シナリオでは、
動的メモリ割振りとディスクとのデータのページ・イン
とベジ・アウトがどのように処理操作で取り入れられて
いるかが示されている。
第15図はコマンド・メモリ190がどのような構成に
なっているかを示している。また、やりとりされるコマ
ンドと割込みタイプのいくつかも示されている。注−目
すべき重要点は、2つのコマンドFIFOが含まれるよ
うにコマンド・メモリ190をソフトウェアで分割する
と好ましいことである。CPコマンドFIFO1520
はCPモジュール11oにアドレス指定されたコマン1
〜をバッファするものであり、D1’Pコマン1〜FI
FO1510はDTPモジュール120にアドレス指定
されたコマンドをバッファするものである。
コマンド・インタフェース、やりとり、および作業のス
ケジューリングはソフトウェアによって制御されるが、
必要に応して変更することが可能である。従って、以下
の例はシステムをどのように使用する必要があるかを明
確化していない。システムが使用できる態様を示したに
すぎない。
物理メモリ・モデル([:P/DTP間のやりとり)こ
の例では、ポスト・プロセッサは高速化サブシステムに
対してコマンドを出して、2つの配列を一緒に乗算して
(配列要素単位で)、その結果を第3の配列に入れてお
くためのものである。3つの配列はすべてVMEメモリ
空間に置かれている。コマンドが出される前は、高速化
サブシステムは遊休状態にあり、コマンドが実行される
と、再び遊休状態になる。これは図式化して第42図に
バされている。
コマンドの実行時には、次のようなステップで行なわれ
る。
(1)ポストはベクトル乗算コマンドを高速化サブシス
テムのコマンド待ち行列(これはVMEインタフェース
・メモリに置かれている)に入れる。
その際、コマンドで配列内の要素の数、2つのソース配
列のアドレス、および結果配列のアドレスを指定しおく
。コマンドとそのパラメータが待ち行列に追加されると
、ホストはデータ転送プロセッサ・モジュール120に
割込みを引き起す。これにより、ホストは解放されるの
で、他の仕事を行なうために使用できる。
(2)ホストから割込みを受は取ると、データ転送プロ
セッサ・モジュール120はコマンドとそのパラメータ
のコピーをとって、コマンド・メモリにあるソフトウェ
ア管理のCPコマンドFIFOに入れておく。割込−み
が制御プロセッサ・モジュール110で引討起されて、
コマンドが存在するとの通知を受ける。データ転送プロ
セッサ・モジュール120は遊休状態に戻る。
(3)割込みを受けると、それに応えて制御プロセッサ
・モジュール11θは遊休状態から出で、コマンドとそ
のパラメータをコマンド・メモリ+90内のCPコマン
ドFIFO1520から読み取る。コマンドで指定され
たアドレスが検査され、オフボード(つまり、データ・
キャッシュ・メモリ140にではなく)に置かれている
ことが判明する。従って、この例では、2つのデータ取
出しコマンドと”INTERRUPT CP WIIE
N DONE”コマンドがコマンド・メモリ190内の
DTPコマンドPIF01510に書き出される。各デ
ータ取出しコマンドは配列のソース・アドレス、その長
さ、データ・キャッシュ・メモリ内のその宛先アドレス
を記述している。データ転送プロセッサ・モジュール1
20に割込みが起こり、制御プロセッサ・モジュール1
10は遊休状態に戻る。
(4)割込みを受けると、それに応えてデータ転送プロ
セッサ・モジュール120は遊休状態から出て、最初の
コマンド(とそのパラメータ)をDTI’コマンドPI
F01510から読み取る。データ転送プロセッサ・モ
ジュール+20はデータを取り出すべきアドレスをヂエ
ックして、それがVMEアドレス空間に置かれているこ
とを確認する。次に、ブタ転送プロセッサ・千ジュール
120はVMEインタフェース160内のDIAAコン
トローラが配列を取り出して、それをVMEインタフェ
ース160内のブタFIFO670を書き込むようにセ
ットアツプする。
(これは実際にはコマンド待ち行列FIFO1510お
よび1520と異なり、ハードウェアFIFOであり、
先入れ先出し機能はソフトウェアにもたせていることに
注意されたい。)このデータが到着すると、データ転送
プロセッサ・モジュール120はデータPIFO67G
からデータを読み取り、それをデータ・キャッシュ・メ
モリ14(lに書き込む。転送が完了すると、 DTP
コマンドFIFOが検査されて、次のコマンドはなにか
(もしあれば)が確かめられる。
この場合、別りデータ取出しコマンドが見付かると、最
初の取出しコマンドと同じ方法で実行される。これが終
ると、次のコマンドが読み取られ、実行される。このコ
マンドは制御プロセッサ・モジュール110に割込みを
引ぎ起ず。DTPコマンドPIF01510はこれで空
になり、データ転送プロセッサ・モジュールは遊休状態
に戻る。
(5) この割込みにより、制御プロセッサ・モジュー
ル110は、要求した2つの配列がデータ・キャッシュ
・メモリに格納されたことを知る。結果配列の宛先アド
レスはオフボードにあるので、制御プロセッサ・モジュ
ール110は結果を入れておく一時的配列をデータ・キ
ャッシュ・メモリ140内に割り振る。 cpモジュー
ル110は計算処理を開始する。計算処理のとき、中間
データ・セットがキャッシュ・メモリ140から取り出
されて、FPモジュール130(CPモジュール110
の制御下にある)のレジスタ・ファイルに移される。F
Pモジュール130は独自のマイクロコードを稼動させ
、同期点でCPモジュール110とインタフェースにな
って、数値演算を実行する。中間データ・セットはFP
モジュールのレジスタ・ファイルからキャッシュ・メモ
リ140(CPモジュール110の制御下にある)に移
される。従って、ベクトル乗算が完了したときは、結果
は、CPモジュール+10によって以前に、1,1つ振
られたキャッシュ目0内の配列に残っている。
(6)次に、制御プロセッサ・モジュール+10はデー
タ保管コマンドと”INTEl′IRUIIT ll0
5T WIIENDONE” ’:J マントをDTP
:171/トFIFO1510に書き出す。データ保管
コマンドは、データ・キャッシュ・メモリ内の結果配列
のソース・アドレス、宛先アドレス(下のコマンドで指
定されたもの)、および配列長さを指定している。デー
タ転送プロセッサ・モジュール+20に割込みが起こる
。CPコマンドFIFOが空ならば、制御プロセッサ・
モジュール110は遊休状態に戻る。
(7)割込みを受けると、それに応えてデータ転送プロ
セッサ・モジュール120はその遊休状態から出て、最
初のコマンド(とそのパラメータ)をDTPコマンドF
IFOから読み取る。データ転送プロセッサ・モジュー
ル120はデータを保管すべきアドレスを調べて、それ
がVMEアドレス空間に置かれていることを確認する。
次に、データ転送プロセッサ・モジュール120は、V
MEインタフェース160内のDMAコントローラ64
0が正しい個数のF語をデータFIFO670からVM
[i主メモリに転送するようにセットアツプする。デー
タ転送プロセッサ・モジュール120はデータをデータ
・キャッシュ・メモリから読み取り、それをデータFI
FOl170に書き込む。結果配列がデータFIFOに
転送されると、データ転送プロセッサ・モジュール12
0はDMAコントローラにそのことを通知し、 DMA
コントローラがVMEメモリへの転送を終えるまで待っ
ている。
(8) DTPコマンドFIFOが空でなければ、次の
コマンドが読み取られ、実行される。これは”INTE
RRUPT−HO5T−WHEN−FINISI(ED
”コマンドである。このコマンドを受けると、完了した
ばかりのコマンドの状況がVMEインタフェース・メモ
リ内のコマンド待ち行列に書き出され、ホスト割込みが
引き起される。この割込み通知を受けて、ポストはその
ベクトル乗算コマンドが終了し、その状況をVMEイン
タフェース160内の状況レジスタから読み取ることか
てぎることを知る。そのあと、データ転送プロセッサ・
モジュール+20は遊休状態に戻り、これで操作を終了
する。
上記処理の途中のいつでも、ホストは新しいコマンドと
そのパラメータをコマンド待ち行列に書き込んで、デー
タ転送プロセッサ・モジュール120に割り込むことが
可能である。そうすると、DTPモジュールは割込み要
求を制御プロセッサ・モジュール110に対して出して
、新しいコマンドを通知する。可能ならば、その実行は
上述したように開始されることが好ましい。これを行な
うと、制御プロセッサ・モジュール110とデータ転送
プロセッサ・モジュール120はコマンドの処理に専念
できるが、望ましくないやりとりがコマンド間で行なわ
れないようにする配慮が必要である。
データ・アートレス割当てはかなり柔軟性をもたせてい
る。インタフェース15o、IH117o(と局所デー
タ・キャッシュ・メモリ140)の各々には、そこを通
してアクセスできるアドレスが範囲で割り当てられてい
る。これにより、データ転送プロセッサ・モジュール1
20は異なるデータ・ソースや宛先の場所ごとに別コマ
ン1〜定義をしなくても、コマンドのデータ要件を満足
するように正しいインタフェースを制御することができ
る。
上述の例ては、コマンドはVMEバスを経由してホスト
から送られてきたが、これらのコマンドは前述の説明内
容に殆んど変更を加えないで、インタフェースのどれか
らでも簡単に出すことができる(あるいはコマンド・リ
ストの一部として保管しておくことができる) VME
ホストは1つの例として選ばれたものである。
コマンドに必要な総記列サイズがデータ・キャッシュ・
メモリ内の空き記憶域を越えるときは、IIJ御プロセ
ッサ・モジュール110はコマンドをいくつかの小さな
演算に分割することによって、使用可能な記憶スペース
内でコマンドを処理することを試みる。しかし、ある種
のコマンドの場合は、これは不可能であるので、ホスト
にコマンドが失敗したことが通知される。
ホストがコマンドを送るのが早ずきる場合は、内部ソフ
トウェアI・IFOが一杯になることがある。
これが全体の演算に影響するのを防止するために次のよ
うな配慮がなされている。第1は、DTI’コマンドF
IFO1510がCP:l V ンドFIFO1520
の奥行の少なくとも3倍になっていることである。1つ
のホスト・コマンドは3つ以上のデータ転送コマンドに
なることは稀にしかないので、DTPコマンドFIFO
がホスト・コマンドの結果として一杯になることはない
CPコマンドFIFOはほぼ満杯マークまでくると、V
MEインタフェース内の状況ビットがセットされる。
想メモリ・モデル 仮想メモリを採用する場合は、ホスト側の作業量が増加
するというやっかいな問題がいくつか生じる。これら−
の問題が起こるのは、アプリケーションが物理メモリよ
りはるかに大ぎい仮想アドレス空間をアクセスできるか
らである。仮想アドレス空間全体はディスク上にだ4J
存在し、活動中のソフトウェアがそのとき必要とするア
ドレス空間部分は実行時に必要に応して主メモリにペー
ジ・インされる。このことは、次のような種類の問題を
いくつか起こす原因になっている。
配列、または配列の部分がディスク上にだけ存在し、物
理メモリに存在しないことがある。さらに、高速化サブ
システムが必要とする配列部分がシステムで稼動中の他
のタスク用のスペースを作るために、スワップ・アウト
されることがある。
配列に割り当てられる物理アドレスは、コンピュータ始
動以後のすべての処理活動記録と共に変化するので、予
測ができない。
各仮想メモリ・アドレスは変換処理を受けて、特定のデ
ータ項目をアクセスするための物理アドレスが決まる。
この結果、配列がメモリ内で非連続になったり、分散し
たりする。
これらの問題を回避するには、データ転送プロセッサ・
モジュール120が配列をデータ・キャッシュ・メモリ
との間で転送している間、配列を物理メモリにロックし
ておく必要がある。理想的には、配列が連続しているの
が望ましい。配列を連続にできない場合は、データ転送
プロセッサ・モジュール120は転送の過程で分散/収
集操作を行なう必要がある。しかし、データが物理メモ
リのどこに分布しているかを知るには、分散/収集テー
ブルが必要になる。
高速化サブシステムとの間のデータ転送を組織化し、そ
れに伴なうメモリ管理機能を扱う仕事をアプリケーショ
ン・ソフトウェア(ポスト上で稼動する)にもたせるの
が好ましい。(実際には、アプリケーション・ソフトウ
ェアは、MATI+ライブラリ・ルーチンと装置ドライ
バがこれらの問題を扱うので、その大部分から解放され
ている。粟界標準配列プロセッサ・ライブラリ・ルーチ
ンはデータを配列プロセッサとの間で受は渡しすること
(ライブラリ・ルーチンを使用して)をユーザ側に任せ
ている;)ソフトウェア階層について以下説明するが、
ここではその違いについては触れないことにする。
上述した配列乗算例では、アプリケーション・ソフトウ
ェアは次の7ステツプを受は持っている。
l)配列Aを高速化サブシステムに転送し、それをアド
レス島に保管する(高速化機構によって実行)。
2)配列Bを高速化サブシステムに転送し、それをアド
レスB8に保管する(高速化機構によって実行)。
3)高速化サブシステムが転送を終えるまで待っている
(高速化機構によって実行)。
4)アドレスAAとBBにある配列を一緒に乗算してそ
の結果をCCに保管する(高速化機構によって実行)。
5)高速化サブシステムが乗算コマンドを終えるまで待
フている(ホストによって実行)。
6)アドレスCGにある配列をホスト・アドレス空間に
転送する(高速化機構によって実行)。
7)高速化サブシステムが転送を終えるまで待っている
(ホストによって実行)。
この処理順序に関して注目すべき点をいくつか挙げると
、次の通りである。
複数のコマンドを高速化ザブシスデムに送ることができ
る。これらのコマン1へは待ち行列に置かれてから、処
理される。
ホストは転送と乗算との間の同期点を出して、ずへての
データかデータ・キャッシュ・メモリに存、存するまで
乗算が開始されないように配慮する。
高速化サブシステムを待たなくても、ホストか解放され
ているので他の仕事ができる。しかし、ホストのオペレ
ーティング・システムは、高速化サブシステムとの同期
をとるためには明示の待ち操作が必要になるのが普通で
ある。
ステップCとeは、転送と計算操作の同期化がオプショ
ンとして高速化サブシステム内で簡単に行なえるので、
省略してもよい。しかし、そうすると、業界の事実上の
標準と互換性を失うことになる。
データ・キャッシュ・メモリのメモリ割振りはCPマイ
クロコード監視ルーチンよりも高いレベルで扱われる。
配列はメモリ内でロックされ、データ断片化の問題はア
プリケーションと高速化サブシステム間のインタフェー
ス・ソフトウェアによって取り扱われる。同期(待ち)
点が頻繁に現れると、メモリ・ブロックは短期間ロック
されるので、多重ユザや多重タスク処理環境に与えるス
トレスが軽減される。
コマン1〜の実行は次のようなステップで行なわれる。
(1)ホストは、コマンド・タイプと対応する数のパラ
メータを指定して、コマンド(転送または計算)を高速
化サブシステムのコマンド待ち行列(VMEインタフェ
ース・メモリに置かれている)に入れる。コマンドとそ
のパラメータが待ち行列に追加されると、ホストはデー
タ転送プロセッサ・モジュール120に割込みを引き起
す。これでホストは解放されるので、他の仕事に使用で
きる。
(2)ホストから割込みを受けると、データ転送プロセ
ッサ・モジュール120は現在の活動(遊体中かある種
の転送)を−時中止して、コマンドのタイプを調へる。
コマンドには次のようなタイプがある。
コマンドが制御プロセッサ・モジュール110に対する
ものならば(つまり、割算)、コマン)−とそのパラメ
ータはコピーされて、コマンド・メモリ+90内のCP
コマンドFIFO1520に入れられる。
制御プロセッサ・モジュール110で割込みが起こり、
そのコマンドが通知される。データ転送プロセッサ・モ
ジュール120は前の活動に復帰する。
コマンドが同期化コマンドならば、未処理のコマンドす
べてが完了するまで以後のコマンドは待ち行列から取り
出されない。これは、”WAIT FOR八Lへ八Nへ
 N0TIFY HO5T″コマンドをDTPコマンド
待ち行列に挿入することによって行なわれる。
(3)遊休状態にある間、データ転送プロセッサ・モジ
ュール、120は絶えずCPコマンドFIFOを調へて
いる。この待ち行列が「空でない」状態になると、コマ
ンドはそこから取り出され、操作が行なわれる。例えば
、ホストからデータ・キャッシュ・メモリへの転送の場
合には、データ転送プロセッサ・モジュール120はV
MEインタフェース内のDMΔコン1−ローラか配列を
取り出し、それをブタFIFOに書き込むJ:うにセッ
トアツプする。転送か終ると、DTPモジュール120
はコマンドをDTPコマンド待ち行列から取り除く。別
のコマンドがFIFOにあれば、そのコマンドが実行さ
れ、DTPコマンド待ち行列か空ならば、データ転送プ
ロセッサ・モジュール120は遊休状態に戻る。
(4)割込みを受けると、それに応して制御プロセッサ
・モジュール110は遊休状態から出て、コマンドとそ
のパラメータをコマンド・メモリ内のソフトウェアCP
コマンドFIFOから読み取る。アドレス静と圓にある
配列のベクトル乗算が完了すると、その結果の配列はデ
ータ・キャッシュ・メモリ内のアドレスCCに残されて
いる。コマンドの実行が終ると、そのコマンドはCPコ
マンドFIFO1520から除かれる。他にコマンドが
なければ、制御プロセッサ・モジュール110は遊休状
態に戻る。
上記説明において注目すべき点をいくつか挙げると、次
の通りである。
制御プロセッサ・モジュール11Oとデータ転送プロセ
ッサ・モジュール120間の内部制御と同期化が物理メ
千り・そデルに比べて大幅に減少する。データ転送プロ
セッサ・モジュール120は制御プロセッサ・モジュー
ル+10よりも制御機能(またはコマンド経路指定機能
)が強化されている。
待ち行列はホスト連絡用に1つ、DTPの作業用に1つ
、CPの作業用に1つの3つが活動している。
高速化サブシステム側でデータ・キャッシュ・メモリに
残っている以上の記憶域が必要になる計算の場合には、
その計算を小さな部分に分割する仕事はホストが行なう
cpとFP間のや゛りとり 制御プロセッサ・モジュール110と浮動小数点プロセ
ッサ・モジュール130はアルゴリズムを実行するため
に、非常に緊密な関係でやりとりする。制御プロセッサ
・モジュール+10はア1−レスを計算し、データ・キ
ャッシュ・メ干りと浮動小数点プロセッサ・モジュール
130間のデータ転送を取り扱うのに対し、浮動小数点
プロセッサ・モジュール130はデータ言1算を行なう
。このやりとりは制御プロセッサ・モジュール110、
データ転送プロセッサ・モジュール120およびホスト
・コンピュータ間のインタフェースのタイプから独立し
ている。
ベクトル乗算コマンドでは、浮動小数点プロセッサ・モ
ジュール130はベクトル乗算を一度に8個の要素ずつ
行なう。従フて、配列が大きいときは、制御プロセッサ
・モジュール110と浮動小数点プロセッサ・千ジュー
ル130との間でやりとり(同期点とも呼ばれる)が数
千回行なわれることもあり得る。同期点は、この例では
、400nsごとに現れるので、これらを効率よくする
ことは非常に重要である。
大抵の場合、制御プロセッサ・千ジュール110は浮動
小数点プロセッサ・モジュール130がブタ91算を行
なうより−も、アドレス割算とデータ転送を高速に行な
う能力をもっている。その逆の場合には、待たされる方
が反対になる。
2つのフラグ(cpw八IへとFPWAIT)が両フ゛
ロセ・フサ間の同期を制御することは上述した。FPW
A4Tフラグは次の組のデータを浮動小数点プロセッサ
・モジュール130との間で転送すると、制御プロセッ
サ・モジュール110によってクリアされる。このフラ
グをテストすることにより、浮動小数点プロセッサ・モ
ジュール130は同期点まで進むことができるか、制御
プロセッサ・モジュール110を待つ必要があるかを知
ることができる。CPWAITフラグはデータ計算を終
えると、浮動小数点プロセッサ・モジュール130によ
ってクリアされ、制御プロセッサパモジュール110に
よってモニタされる。ハードウェアは、フラグがクリア
されてプロセッサが同期点まで進むことが可能になると
、同期点を通過した直後にフラグが自動的にセットされ
る構成に24っている。
第22図はFPWAI’r、cpw屓T、FI’DON
E、およびCPDONEフラグがcpモジュコーllO
とFPモジュール130間のデータ・インタフェースを
調整するためにどのように使用されるかを状態図で示し
たものである。
プロセッサ間のハンドシエイキング・ロジックとセマフ
ォは多種類のものが実現されているが、第22図に示す
状態図が非常に利点があり、新規なものである。
制御プロセッサ・モジュール110と浮動小数点プロセ
ッサ・モジュール130間のデータ転送は2重バッファ
になっているので、浮動小数点プロセッサ・モジュール
130がある組のデータを処理している間、制御プロセ
ッサ・モジュール110は別の組のデータを処理するこ
とができる。2重バッファリングは上述したようにソフ
トウェアで行なわれる。両プロセッサはバッファの交換
を制御する信号をもっており、これらは“AND”がと
られて両プロセッサが活動しているときだけ交換が行な
われるにうにしている。
ベク)・ル乗算は以下のステツプで行なわわる。
(同じ番号をもつステップは並列に行なわれるものであ
る。)これらのステップを図式化してフローチャー1〜
で示したのが第33図である。
(1)制御プロセッサ モジュール110はFPWΔI
]フラグをセットして、ヘクトル乗算マイクロコトが実
行される浮動小数点プロセッサ・モジュル130を始動
する。浮動小数点プロセッサ・モジュール130はFP
W八Iへフラグがクリアされるまで待たされる。
(2)制御プロセッサ・モジュール110は最初の8要
素を両配列から2重バッファ(これは物理的には上述し
たように、レジスタ・ファイル430の2バンクから構
成されている)に転送する。CPモジュールは次に、2
重バッファを交換して、浮動小数点プロセッサ・モジュ
ール130がデータをアクセスできるようにして、FP
WAITフラグをクリアする。
(3)制御プロセッサ・モジュール110は次の8要素
を両配列から2重バッファに転送して、FI’WAIT
フラグをクリアする。そのあと、CPW八1へフラグが
クリアされるまで(浮動小数点プロセッサモジュール1
30によって)待たされる。
(3b)浮動小数点プロセッサ・モジュール130はF
PW八Iへフラグかクリアされていることを見つけると
、2重バッファの浮動小数点プロセッサ・モジュール1
30側に保管されている8対の要素に対するベクトル乗
算の計算を開始する。8個の結果は2重バッファに書き
戻され、FPWAITフラグがクリアされる。この例で
は、制御プロセッサ・モジュール110はすでに終えて
、FPW八Iへフラグをクリアしているので、浮動小数
点プロセッサ・モジュル130はバッファを交換して、
即時に次の組の計算を開始することができる。
(4a)制御プロセッサ・モジュール110は8個の結
果を2重バッファからデータ・キャッシュ・メモリに転
送し、そのあと次の8個の要素を両配列から2重バッフ
ァに転送して、FPWAITフラグをクリアする。その
あと、CPWAITフラグがクリアされるまで(浮動小
数点ブロセッヅ・モジコール130によって)待たされ
る。
(4b)浮動小数点プロセッサ・モジュール130はF
l’W八ITへラグがクリアされてし)るのを見つける
と、2重バッファの自分側に保管されている8対の要素
に対するベクトル乗算の計算を開始する。
8個の結果は2重バッファに書き戻され、CPWAIT
フラグがクリアされる。この例では、制御ブロモ・ンサ
・モジュール110はすでに終えて、FPW八Iへフラ
グをクリアしているので、浮動小数点プロセッサ・モジ
ュール130はバッファを交換して、次の組の計算を開
始することができる。
(5)ステップ(4a)と(4b)かヘクI〜ル謂算全
体か完了するまで繰り返される。
(6)ステップ(5)が終わったとき、最後の組の結果
はまだ2重バッファのFP側に残っているので、制御プ
ロセッサ・モジュール110はバッファを交換して、最
後の結果をデータ・キャッシュ・メモリに転送する。
第1図に示ずJ:うなシステムを動作させるときは、実
行時ソフトウェア環境全体をいくつかのレベルに分割す
ることが好ましい。これらのレベルのうちあるものは、
異なるプロセッサで実行される個々のコー1−・モジュ
ールとして存在し、他のレベルは必要とされるインタフ
ェースをいくつかのレベルに分割する形で存在している
。これらのレベルすべてとレベル間インタフェースはソ
フトウェア制御下に置かれ、アプリケーション要件に合
っていなければ、変更が可能である。
このソフトウェア構成は一般的に従来からあるものであ
る。しかし、本明細書に記載の新規事項の望ましい使い
方を分かりやすくするために、以下で説明しておくこと
にする。
第44A、44B、および44C図は第1図に示すよう
なシステムのプログラミング環境を示したものである。
図示の機能別ブロックの多くは他の図に示されているハ
ードウェア要素のそれと同じ番号で示されているが、第
44八、44B、および44C図はプログラマから見た
機能別ブロック間の関係を示すことを目的としている。
従って、これらのし1は必ずしも現実の電気的および論
理的接続に正Lteに対応していないことに性態された
い。
アプリケーションとライブラリ・ソフトウェア以下の説
明では、アプリケーション・ソフトウェアが例えば、F
ORTIIANやC°のような高水準言語で書かれてお
り、標準ライブラリ・ルーチンを呼び出して、高速化サ
ブシステムを使用するものと想定している。これらの呼
出しは業界の事実上の標準に準拠している(つまり、全
体的に浮動小数点システムからのプロダクト命令セット
と互換性がある)。これらには、アプリケーション・デ
ータ区域と高速化サブシステムのデータ・キャッシュ・
メモリ間でデータを転送するルーチン、広範囲にわたる
計算、ある種の同期化ルーチンが含まれている。
このレベルでのソフトウェアはホスト・コンピュータ・
システム上で稼動し、必要Fするアプリケーションを実
施する機能をもっている。これはライブラリとリンクさ
れて、高速化サブシステムをアクセスする。
ライブラリはアプリケーション・ソフトウェアから見て
、高速化サブシステムと結ぶインタフニスの働きをする
。ライブラリは数百に及ぶ共通算術演算/アルゴリズム
・ルーチン群と、高速化サブシステムを初期設定し、ア
プリケーションの配列やデータ・セットのデータ転送を
開始するルーチン群から構成されている。大部分のライ
ブラリ・ルーチンは入力パラメータと機能番号を装置ド
ライバに渡すだけの機能しかないが、ある種のパラメー
タ有効性検査が必要ならば組み入れることも可能である
。本好適実施例では、装置ドライバとのインタフェース
はシステム呼出しくSystemCalls)を経由す
る。しかし、ある種のオペレーティング・システムでは
、呼出しタスクが再スケジューリングのために受渡しさ
れるので、呼出しに大きなオーバヘッドがかかっている
装置ドライバ 装置ドライバはオペレーティング・システムの部と考え
ることかでき、アプリケーション・ソフ1−ウェアより
も高度の特権レベルで実行される。装置トライバの主な
役割は次の通りである。
■)コマンドとパラメータをライブラリ・ルーチンから
高速化サブシステムのVMEインタフェース・メモリに
置かれているコマンド待ち行列に転送すること。
2)転送すべきデータ(仮想メモリ・システムにある)
がメモリにロックされていることを確かめること。この
ためには、転送が連続ブロックに分割されていて、小さ
く分割した複数の転送が実際に行なわれているか、分散
/収集テーブルが作られていて、高速化サブシステムに
渡されてしすることか必要である。
3)マイクロコードを複数のプロセッサにロードし、−
船釣にはハードウェアとマイクロコードを既知の状態に
まですること(電源投入後か、新しいアプリケ−、ジョ
ンがそれを使用する準備状態に置くため) ライブラリと装置ドライバを新しいホスト上に移植する
最も困難な問題の1つは、装置ドライバである。これら
は非1;5にオペレーティング・システムに依存する傾
向があるので、ポスト・システムの詳しい知識が要求さ
れる。任意的には、この種の問題を避けるために、物理
メモリへのアクセスが許される場合には、ライブラリを
直接にハードウェアとのインタフェースにすることが可
能である。こうすれば、ドライバの必要性が回避される
。この方法で高速化サブシステムをアクセスすると、装
置ドライバを使用する場合よりも高速化される。しかし
、特に複数ユーザ環境では、安全保護が低下することに
なる。
マイクロコード監視ルーチン マイクロコード監視ルーチンは、高速化サブシステムに
おける転送と計算以外の残りのタスクを取り扱うもので
ある6その主なタスクは、ホストとの連絡、制御プロセ
ッサ・プロセッサ・モジュールllOとデータ転送プロ
セッサ・モジュール120間の作業分担、および内部と
外部の同期化である。
監視ルーチンは装置ドライバとは反対側の待ち行列の最
後に置かれており、作業を待ち行列から取り出す。(こ
れを行なうには、作業か空の待ち行列から取り出されな
いようにするためのある種の待ち行列管理が必要になる
。) どの程度複雑になるかは、どのプロセッサか使用される
かによって決まり、また、ボス1−にどれだけの仕事を
させるか、あるいは高速化サブシステムに負担させるか
に大きく左右される。物理メモリと仮想メモリ・モデル
の個所で行なったベクトル乗算コマンドの説明から明ら
かなように、監視ルーチンはいろいろな手法を採用する
ことがてきる。
物理メモリ・アーキテクチャでは、監視ルーチンはデー
タ転送プロセッサ・モジュール120と制御プロセッサ
・モジュール110の間で分割される。データ転送プロ
セッサ・モジュール120の部分は、ホスト−と制御プ
ロセッサ・モジュール110は直接にデータをやりとり
できないので、コマンドの経路指定を行なうたけである
。制御プロセッサ・モジュール110は作業の分散化と
ハントシェイキングを組織化する。
この分割は任意的である。別の(好ましさの点で劣るが
)アーキテクチャでは、制御プロセッサ・モジュール1
10をデータ転送ブロセ・ンサ・モジュール120のス
レーブ・プロセッサ(その反対でなく)として働かせる
ことも可能である。
仮想メモリ・モデルでは、データ転送プロセッサ・モジ
ュール120がマスクであり、制御プロセッサ・モジュ
ール110がスレーブになっていた。
制御はその殆どがホスト側で取り扱われるので、監視ル
ーチンのDPT部分はコマンドの経路指定だけを扱えば
よい。制御プロセッサ・モジュール110が待ち行列管
理に関与するのはわずかである。
マイクロコード転送ルーチン(DTP)これらのルーチ
ンは外部インタフェースの1つとデータ・キャッシュ・
メモリ間のデータ転送を取り扱う。インタフェースは主
にVMEバス(とホスト・メモリ)に対するものである
ホスト・メモリとデータ・キャッシュ・メモリ間の転送
の大部分は、連続ブロツク転送、分tf!(/+154
 !IL転送、n番目の語ごと、行/列2次元配列アク
セスといったように、転送の種類か狭い範囲に限られて
いる。
上記種類のいずれにも属さないタイプの転送はいずれも
、必要時に追加することができる。ここで注目すべき重
要な点は、ベクトル加算かベクトル乗算と同じ転送ルー
、チンを使用することである。これが便利なのは、上述
したように、データ転送ルーチン(計算ルーチンと異な
り)はベクトル加算とベクトル乗算を区別する必要がな
いからである。
マイクロコード転送ルーチン(cp) これらのルーチンはデータ・キャッシュ・メモリの1つ
と浮動小数点プロセッサ・モジュール130の高速レジ
スタ・ファイル間のデータの転送を取り扱う。
この場合も、データ・キャッシュ・メモリとレジスタ・
ファイル間の転送の大部分は、1ベクトル・インと1ベ
クトル・アウト、2ベクトル・インと1ヘクi−ル・ア
ウト、1ベクトル・インとスカシ・アラ1−といったよ
うに、転送の種類か狭い範囲に限られている。これらの
転送タイプはブタ型(タイプ)に応してさらに分類する
ことができる。ベクトルは単純または複素数データ型に
分けることかでと、もっと特殊化された転送タイプもい
くつかある(FFT、畳み込みなど)。これらは汎用ル
ーチンが使用されない場合に効率が向上する。
ここで注目すべき重要な点は、異なる演算で同じルーチ
ンが使用できることである。つまり、ベクトル加算は、
例えばベクトル乗算と同じ転送ルーチンを使用する。
マイクロコード計算ルーチン(FP) 各計算タイプごとに、(例えば)8つの加算、減算また
は必要な演算を行なうルーチンが用意されている。この
種のルーチンによって制御されるデータ転送は、高速レ
ジスタ・ファイル430、乗算機構450、加算機構4
40、およびスクラッチバット1610を含む密結合デ
ータ通路内で行なわれるものだけである。(このデータ
通路には、いくつかの局所バスもあり、その中には第1
オペラン1−局所バス431、第2オペランド局所バス
432、結実用局所バス431、ループバック接続43
4が含まれる。)この場合も、必要となるルーチンの多
くはいくつかの標準データ形式別に分類される。この分
類の1例として、ダイアシック・ベクトル演算(2ベク
トル−インと1ベクトル・アウト、例:ベクトル加算ま
たはベクトル乗算)がある。従って、標準テンプレート
をあるカテゴリ内の各計算タイプごとにセットアツプす
ることが可能である。これにより、FPマイクロコード
を高速に生成して、基本ベクトル演算の多くを取り入れ
ることができる。
上述したように、レジスタ格納演算指定子はマイクロコ
ード演算コマンドを補強するために使用できる。これに
より、ある計算タイプのカテゴリ内の個々のルーチンす
べてを、1つのルーチンとして書くことができる。その
場合は、制御プロセッサ・モジュール110は計算タイ
プを指定するために演算レジスタをロードしなりればな
らない。
短縮マイクロコード 上述したシステムは短縮マイクロコードを使用する機能
を備えているので、レジスタに格納されている演算指定
子をマイクロコード命令の残り部分と結合することがで
きる。これは実際には、本好適実施例では、上述したよ
うにFPモジュール130で使用されている。
この種の短縮マイクロコードは多重プロセッサ・システ
ムの数値処理部分で使用すると、特に利点が得られる。
その場合には、演算指定子短縮マイクロコードを使用す
ると、演算をオーバレイさせる必要がなくなる。
従って、例えば、2つの配列を3個目の配列上にマツピ
ングする演算の場合(例:Ci−^i + Bi)には
、命令レジスタに演算指定子(例:”ADD”)をロー
ドしてから、この種の演算列を開始させることができる
。この演算列は、演算を直接に指定しなかったコードで
記述されることになる。
従って、この機能を実時間拡張マイクロコードで使用す
ると、多重プロセッサ・システムにおける2つのマイク
ロコード・プロセッサ間のインタフェースにさらに高度
の柔軟性をもたせることができる。
また、命令を数値lA埋部分にロードするとき要求され
るバンド幅を単純化することも可能になる。従って、ア
ルゴリズム切替えやタスクの再分割がもフと効率よくな
る。
マルチウェイ分岐 第3^図および第3B図を参照して上述したように、本
発明はマイクロコード・システムのマルチウェイ分岐に
全く新しい機能をもたせている。第30図は、本好適実
施例においてアドレス境界の制約のないマルチウェイ分
岐を可能にするマイクロコード操作を示した概略図であ
る。
上述したように、本発明はマルチウェイ分岐をアドレス
境界−の制約なしで行なうマイクロコード・コンピュー
タ・システムのアーキテクチャを提供するものである。
さらに、代替宛先間の増分を可変にしている。相対アド
レス指定機能をもつシケンサが使用されている。
本好適実施例ては、プログラム・カウンタがジャンプ宛
先の入力として使用されている。これはマルチウェイ分
岐を取り入れて、ベース宛先アドレスが異なるソースか
ら求められる多くの公知システムとは異なるものである
離散フーリエ変換実装(ImplementaHon)
第31図は、新規な方法で実現した離散フーリエ変換の
主要機能のいくつかを示す概略図である。
この例では、実現しようとする変換は高速フーリエ変換
(FFT)である。
図示の例は16点基数2複素数FFTである。勿論実世
界のFFTはより多くのデータ点を使用して実現されて
いるが、この例では、いくつかの重要な点を示している
。n点FFTには、 log 2nステージが必要であ
るので、 1024点FFTにはlOステージが必要に
なる。各ステージでは、n/2バタフライ計算を行なう
必要がある。
バタフライ計算は次式で与えられる。
ro−r4+[(f6*r8)]+(r7*r9)]r
l  −r5  +  [(fNr8)]  −(r6
傘r9)]r2=r4−[(fIi声r8)]+(r7
*r9)]r3 −  r5 −  [(f7*r8)
]  −(r6*r9)]ただし、 「0と「1は結果Cの実数部と虚数部である。
rlとr3は結果りの実数部と虚数部である。
r4とr5は入力Aの実数部と虚数部である。
r6とrlは入力Bの実数部と虚数部である。
r8と「9は係数にの実数部と虚数部である。
(角かっこ[]内の式は形式的には同じであり、大かっ
こ()内の式も形式的には同じであることに注意された
い。) 第31図は4ステージFFT演算を図式化して示してお
り、各々の円は1つのバタフライ割算を表している。各
日の左側と結ばれている線はバタフライ計算に対する複
素数入力サンプル(AとB)がどこから得たものかを示
し、右側と結ばれている線は複素数の結果(CとD)が
どこに書き出されるかを示している。円内の数は複素数
フェーズ係数”k+である。
本方法の好適実施例では、F F ’rアルゴリズムは
第1図に示すようなアーキテクチャにおいて、制御7’
ロセツサ・モジコール110と浮動小数点プロセッサ・
モジュール130間で分割することによって実現されて
いる。第31図に示すように、アドレス84算は、特に
升席に多数のデータ点が必要になる場合は、意味がない
。制御プロセッサ・モジュル+10はアドレス計算を実
行して、バタフライ計算のための正しいデータ・サンプ
ルとフェーズ係数の流れを作り出す。バタフライ計算は
実際には浮動小数点プロセッサ・モジュール130によ
って実行される。
各ステージでデータ点のいくつかに付いている陰影バー
は、この実施例で得られる新規なデータ処理を示してい
る。各ステージで示されている陰影バーは1つの中間デ
ータ転送のセットを示している。従って、例えば、プロ
セスの開始時には、入力データの8複素数語(0語)が
ロート・インされている。このデータ量だけでも、4つ
のバタフライ計算を実行するのに十分な入力となる。
(係数も与える必贋かある。)1糧実売バーは最初の組
の4つのバタフライに対して、C話XQ、Xl、X2x
3、x/1.×8、X9、Xl01Xllが1:’−F
・−(ンされルコトを示している。4つのバタフライ計
算が実行され、8個の0語からなる結果が転送される。
さらに、正しい組のフェーズ係数をロートするには、追
加の転送かいくつか必要である。(最初のステラでは1
つだりのフェーズ係数が使用されているが、異なるフェ
ーズ係数の個数は各ステージごとに2倍になることに注
意されたい。従って、各組の4バタフライには少なくと
もバス144の4サイクルが必要になる。2サイクルは
8個の0語の入力を持ち込むためのものであり、2サイ
クルは0語の結果を再移動するためのものである。(さ
らに、係数を転送するために5番目の主サイクルが必要
になる。、) 8個の0語、は512 ビット、つまり、16個のF語
に相当するので、これは意味のあるデータ・ブロックと
なる。しかし、この方法は本好適実施例で提供される高
バンド幅を利用できるという利点かある。
ざらに、データをこのサイズのブロック単位で転送する
と、同Ift]点で使用されるCI’/FPハントシェ
イキング・ロジックにとって好都合であることか実証さ
れている。
従って、FFTは次の2つの部分に分割されている。
制御フロセッサ・モジュール110は複素数データのア
ドレスとテーブル・シーケンス内のフェーズ係数位置を
、ステージとバタフライ数を関数として計算するソフト
ウェアを実行させる。アドレスが計算されると、制御プ
ロセッサ・モジュールで稼動中のプロセスは浮動小数点
プロセッサ・モジュール130に送り込まれるデータの
転送も制御する。浮動小数点プロセッサ・モジュール1
30がバタフライ計算を完了するとくそして同期点にあ
ることを示すようにフラグをセットすると)、制御プロ
セッサ・モジュール110は結果を読み取って、それを
保管する。制御プロセッサ・モジュール110はバタフ
ライ計算が行なわれていることを知らない。同期点で浮
動小数、専プロセッサ・モジュール130とデータをや
りとりするたりである。
FPモジュール130は、式が上で定義したようにコー
ディングされている単純なリニア命令列によってバタフ
ラ1′を計算するソフトウェアを実行する。このルーチ
ンは正しい入力データと係数を得るために必要な複雑な
アドレス計算を知らなくてもよい。従って、このルーチ
ンはCPモジュール110で稼動するソフトウェアから
完全に切り離して書くことができる。
この分割が利点としてもつ特徴は、各ステージのFPプ
ロシージャが最後の2つのステージまでそっくり同じに
できることである。(最後の2ステージで実行されるバ
タフライ計算はより密に結合した0語入力を使用するの
で、ある種の中間結果を、レジスター430に保持され
ているデータとしてFP内で前送りできる。) この例は、プロセッサ間を独立にできることも示してい
る。FPモジュール130によって実行されるプロシー
ジャは非7i己にA1純に定義されているので、浮動小
数点プロセッサ・モジュール+30が異なる割算機構チ
ップ・セット上に再設側された場合は、この単純なバタ
フライ・ルーチンだけを変更すればよいことになる。こ
のことは再アセンブルする場合も同じである。
CPとFPのソフトウェアの実行は並列に行なわれ、ア
ルゴリズムが実行される速度が最も遅い部分で決まるよ
うにパイプライン化されている。
FP命令列はこのバタフライ計算を実行するに当たり、
FFTにおける最後の2つのバタフライを除くすべてに
ついて同じままである。従って、例えば、1024点の
複素数FFTでは、FPモジュールは最初の8ステージ
の計算を行なうために、同じ命令列512を実行するこ
とになる。そのあと、FFTが最後の2ステージに対し
て異なる命令列の実行を開始する。
重FPモジコール付きFFT もう1つの特に魅力のある構成は、4個のFPモジュー
ル130を備えた第1O図に示すようなシステムである
性能に洗卵を与える主要要因は、バタフライ81算時間
と「バタフライ・カルキュレータ」 (例えば、FPモ
ジュール130)に対するデータ転送バンド幅の2つが
ある。得られる性能はこれらのパラメータのどちらが満
足されなかったかによって決まる。以下の計算例は1に
複素数FFT、基数2に関するものである。
バタフライ計算スルーブツト 基数2のFFTバタフライ計算式は、部分結果が再使用
可能であるとき10回の演算(4回の乗算と6回の加算
/減算)からなっている。第1図(または第1θ図)に
示すようなシステムでは、この計算は、式が^LUと乗
算機構を並列に使用することに役立たないので、lOサ
イクルを要する。42nsサイクル時間を使用すると、
バタフライ計算には420nsが必要、になる。実際の
サイクル時間は6回のALU演算では52ns、4回の
乗算では421S (総計330ns )を必要とする
が、同期化、バイブライン始動、などのオーバヘッドを
含めると、4QOnsになる。従フて、FPモジュール
は400nsでバタフライを4算することができる。
転送バンド幅 各基数2のバタフライ計算には、2個の複素数サンプル
と複素数係数(または反復係数)が必要である。この計
算からは、2個の複素数結果が得られる。総計では、5
個の複素数または10個の浮動小数息詰をバタフライご
とにデータ・キャッシュ・メモリ140とFPUの間で
転送する必要がある。キャッシュ・メモリのバンド幅は
毎秒320MBつまり、80M浮動小数点語である。こ
のデータ速度は8個の連続する語が1つのメモリ・サイ
クル(100ns )で転送できるときだけ達成される
。しかし、FFTを実行させるときは、これは常に可能
である。メモリのバンド幅を最も効率よく使用する方法
は、メモリ・サイクル当たりに4バタフライのデータを
転送することである。従って、4回のバタフライ計算に
は5回のメモリ転送サイクルが必要になる。
1に複素数FFT(基数2)は5120個のバタフライ
からなっている。この1・FTに刻してデータ転送速度
てW’F容される最小01f間は、徒って、(5120
74)中5中1001s−640マイクロ秒によって与
えられる。
しかし、このスルーブッ]・見Krt値は、最後の2ス
テージの効果を考慮に人れると、修正する必要がある。
ステージn−2で4個のバタフライ言1算の組から得た
結果の各データ・セット(8個の0語)は、中間結果を
メモリに戻さなくても、ステツn−2の4バタフライと
ステージn+1の4バタフライを計算するのに十分であ
る。しかし、追加の組の係数が第2ステージで必要にな
る。この正味の結果は6メモリ・サイクルだけで8バタ
フライを計算することができる。(この手法はLRab
inerとB、Gold共著「デジタル信号処理の理論
と応用」のp、577〜p、599に詳しく説明されて
いる。) 1に複素数FFT(基数2)は5120個のバタフライ
からなるので、この2ステージFFTアルゴリズムてブ
タ転送速度によって規制される最小時間は次の通りであ
る。
(512078)+1lu100ns−384’フィク
ロ秒この時間は見積転送時間である400マイクロ秒以
下である。従って、使用可能なメモリのバンド幅は4つ
のFPモジュールを組として一緒に稼動させるのに通し
ており、400マイクロ秒でFFTが達成される。
必要とされるバンド幅を更に減少するために使用できる
手法は次のようにいくつかある。
(1)あるステージ内で使用される異なる係数の個数は
変化する。例えば、ステージ1はすべてのバタフライで
1つの係数値を使用し、ステージ2は2係数を使用し、
ステージ3は4係数を使用しく以下同じ)、ステージ1
0は512係数を使用する。
それより前のステージでは、ステージの開始時に(ずへ
てのバタフライででなく)係数を初期設定するので、メ
モリ幅が大幅に節約される。
(2)4つのFFTが並列に実行される場合は(その結
果、1つの高速化サブシステムにおける4つのFPモジ
ュール130の各々は、1つのFFTの174ではなく
個々の1:口を割砕するために使用される)、係数を4
つのFPずへてに同報通イ3することがてぎる。これに
より、転送の係数部分て使用されるメそりのバンド幅が
節約される。
(3)2ステージ・バタフライ割算は3または4ステー
ジに拡張することが可能であるが、制約要因として、新
しいデータ、現在のデータ、および中間記憶域を保存す
るFPのレジスタ・ファイルのサイズがある。例えば、
4ステージ・アルゴリズムには16個のサンプルと8個
の係数が必要であり、32回のバタフライ割算後16個
の結果が得られる。
この結果、比率は32バタフライ当たりIOメモリ・サ
イクルとなり、キャッシュ・メモリのバント幅で160
マイクロ秒ごとにFFT計算をサポートてきる。
これらの考え方はすべて、必要ならば基数4または基数
8OFFTで採用可能である。実際には、広幅キャッシ
ュ・バス・アーキテクチャは基数がもっと大きいアルゴ
リズムで採用すると特に利点が得られる。
ざらに7土目すべきことは、バタフライ定義とステージ
のIP、]係か異なるとしても、他の整数変換も同じ方
法で複数のバタフライ計算ステージに分割することがで
きることである。従って、データ操作に関して上述した
事柄は他の離散整数変換にも応用が可能である。
ヒストグラム・アルゴリズム実装 第32図は第16図に示すようなハードウェアでヒスト
グラム・アルゴリズムを実行させる方法を示したもので
ある。
第16図に示すように、数値プロセッサ・サブシステム
の計算部分におけるデータ通路は乗算機構440と加算
機構450だけでなく、データ通路のこの部分と密結合
しているスクラッチバット・メモリ1610も含んでい
ることが好ましい。(このメモリはアドレス・ロジック
1811を備えている。)このスクラッチバット・メモ
リ1611があると、モジュール110はアドレスを計
算して、データを局所的に取り出すことができる。この
メモリ1610がない場合は、FPモジュール130は
CP千ジュール+10にアドレスを与える必要があり、
(:1)モジ;1ル110の方は参照機能を実行して、
その結果を1・1)モジュール130に返してやる必要
かある。このためには、追加のハンドシェイキングが必
要になるので、効率が非常に低下することになる。従っ
て、この小規模のデータ通路部分のアーキテクチャを、
上述したように数値処理モジュールとのインタフェース
で使用される大規模のデータ処理アーキテクチャと協働
させると、利点が得られる。
本好適実施例では、スクラッチパッド・メモリ1610
は3通りの使い方が可能である。超関数の計算などのア
ルゴリズムの場合にテーブル・メモリとして使用する方
法、局所スタックとして使用する方法、結果を収集する
ためにヒストグラム・アルゴリズムで使用する方法であ
る。
このスクラッチパッド・メモリをスタックとして使用で
きることは、サブシステムの計算部分の縁にあるデータ
・インタフェースをアーキテクチャ全体にとフて非常に
有利な方法で定義でき、そのインタフェースにあるレジ
スタ・ファイルにスタックとして使用できる機能をもた
せる必要かなくなるので、非割に有利である。
共通高水準言語(FORTRANなど)で書いたルーチ
ンをマイクロコードにコンパイルすることは、マイクロ
コード・プログラムを生成する重要な手段である。ベク
トル演算を効率のよいマイクロコードにコンパイルする
ことは比較的容易である。
しかし、スカシ演算もかなりの部分が常にあるので、こ
れらをコンパイルすることは非常に厄介である。
スカシ・ルーチンをマイクロコードにコンパイルする作
業は、スタック・ベースのアーキテクチャが仮想計算機
として使用できる場合には特に行ないやすいことが明ら
かにされている。(従来のこれを行なうには、逆ボーラ
ンド・ロジックに変換する必要がある。) このスクラッチパッド・メモリを使用して結果を累積す
ることは、ヒストグラム・アルゴリズムにとっては好都
合である。ヒストグラム・アルゴリズムを実行させると
きは、ヒストグラム・デーりをテーブル・メモリに累積
することができる。
これにより、データ・キャッシュ・バスへのアクセス・
ロートを追加することから避りられる。
密結合局所メモリを使用してヒストグラム・データを収
集することは、画像処理アルゴリズムて特に利点がある
。多くの公知画像処理アルゴリズムはヒストグラム計算
を使用しているが、大量のデータを扱う必要があるので
、キャッシュのバンド幅に対する需要が非常に大きくな
る。本発明によれば、ヒストグラム・アルゴリズムを効
率よく使用することが可能になる。
第32図は、多数の画像処理問題に応用できる比較的代
表的なヒストグラム・プロシージャの簡単な例を示した
ものである。同図から明らかなように、ヒストグラム・
テーブルはこのプロシージャの内側ループが繰り返えさ
れるたびにアクセスされる。従ってミヒストグラム・テ
ーブル用に密結合記憶域を用意すると、この種のプロシ
ージャで要求されるバンド幅を大幅に節約することがで
きる。
プレビュー・モードのバイブライン方式アルゴリズム 木明MH書に記載されている重要な開示事項は、プレビ
ュー・そ−ドでソフトウェア制御の2重バッファを使用
、してパイプライン方式アルゴリズムを実行させて、同
期点を通過する平均スルーブツトを維持する方法である
第33図は第20図に示すようなソフトウェア制御2重
バッファを備えたハードウェアでパイプライン方式アル
ゴリズムを実行させる方法を示したものである。
上述したように、ソフトウェア制御の2重バッファを使
用すると、高速計算機構と高度の制御間のクロック境界
を越えるときに非常に好都合である。しかし、注目すべ
きことは、ソフトウェア制御の2重バッファの利点を広
範囲にわたるバイブライン方式のアルゴリズムにも生か
すことができることである。
2重バッファリング用の好ましいサブシステムはソフト
ウェアで分割された2重ポート・メモリを使用している
のて、メモリの上半分を一方のプロセッサに割り振り、
下半分を他方のプロセッサに割り振ることができる。(
この割振りは良方久プロセッサが切替え準備状態にある
ことを示すそれぞれのフラグをセットすると、切り替え
られる。) このメモリをアクセスすると、追加ビットはそのアクセ
スに「物理」、「論理」または「プレビュー」のタグを
付ける。物理アクセスは全メモリ内のリテラル・アクセ
スと解釈され、2重バッファリングは無視される。論理
アクセスは2重バッフアイリング切替え状態によって判
断される追加アドレス・ビットによって補充されている
プレビュー・アクセスは読取りだけに使用され論理アク
セスでアクセスされる側とはFt9Btvメモリ・バン
クに移る。プレビュー・アクセスを使用すると、パイプ
ライン方式アルゴリズムにおける同期点でのデータ流れ
の非効率が避けられるので非常に有利である。
例えば、標準2重バッファリング方式が第1図に示ずに
うなシステムて使用される場合は、スワソフを行なった
ひに、それが空になる前にデータ・パイプラインを再び
一杯にする必要かある。この実施例では、ザンプルのヘ
クトル演算は浮動小数点プロセッサが各バッファ分のデ
ータに対して8回の計算を行なう必要かある。このこと
は、3サイクル分のオーバヘットが使用されて、8語の
データごとにパイプラインを一杯にし、空にすることを
意味する。その結果、全体の平均処理時間に付加される
割合が高くなることは明らかである。
本明細書に記載されている新規事項の1つは、「ソフト
」2重バッファリングを使用してこの問題を解決したこ
とである。プレビュー・モードを使用すると、一方のポ
ートが他方の半分側にあるデータを調べてから、それを
交換することができる。このモートによると、制御プロ
セッサがその作業を終えて、続行前にバッファ交換を待
っているとき、浮動小数点プロセッサのパイプラインを
常に一杯にしておくことができる。
2重バッフ7リングは、多重プロセッサ・システムにお
い−C数値プロセッサと大容量キャッシュ・メモリ間の
インタフェースにあるレジスタ・ファイルで使用するの
が好ましい。レジスタ・ファイルを分割すると、キャッ
シュ・メモリ140てデータ衝突が起こるのを回避でき
る。
この実施例では、5ポート付きレジスタ・ファイル43
0が2重バッファのメモリとなるように使用されている
、しかし、他の実現方法の使用も可能である。
本発明によれば、ハードウェアで2重バッファリングを
行なう従来のシステムよりも柔軟性に冨んだシステムが
速度を損なうことなく得られる。
特に、「プレビュー」モードを使用すると、この2重バ
ッファリングを取り入れたシステムを多数のパイプライ
ン環境で汎用インタフェース・アーキテクチャ、として
使用することかできる。
塩腹皿股夏個 性能最大化の基本的制約要因となるものを挙げると、次
の6つかある。
人出カバン1−幅(これは本好適実施例では40M1.
7秒になっている)。
データ・キャッシュ・メモリ・バンド幅(これは本好適
実施例では320MB/秒になっている)。
浮動小数点プロセッサ・千ジュール130の保持レジス
タとレジスタ・ファイル間のデータ転送速度。これは現
在はデータ・キャッシュ・メモリ・バント幅以下になり
でいる。
アドレス側翼速度(これは本好適実施例では、毎秒10
0万回が代表例であるが、実行されるアルゴリズムに非
常に左右されやすい)。
持続浮動小数点計算速度。本好適実施例では、単精度「
加算」の場合、これは28nsサイクル時間以下である
(より高速の構成要素が利用可能になれば、向上の余地
がある)。単精度乗算の場合は42nsサイクル時間以
下である。
並列に使用される数値処理モジュールの数。
性能の評価 特定のアルゴリズムでその性能を決める要因は以下に挙
げる条件のどれが該当するかによって非常に左右される
ソース・データと結果がどこに保管されるか性能はデー
タがデータ・キャッシュ・メモリに保管されるとぎ最大
化される。データがオフポートに保管される場合は、デ
ータ入出力転送が制約要因となる可能性が大きい。達成
可能な入出力速度は通常、関与する周辺装置とサポート
される転送の種類(単一かブロックか)によって決まる
。入出力速度が毎秒40MBであると、計算速度は3個
の数がすべての計算に関係するような計算では、3.3
MFLOPSまでである。
データと算術演算との比率:浮動小数点計算速度または
データ転送速度がボトルネックとなるかどうかは、これ
によって決まる。計算量の割にデータが少ないアルゴリ
ズム(例: FFT )は浮動小数点プロセッサ・モジ
ュール130の速度が制約要因となる。データ転送に制
限されるアルゴリズムの例としては、1回の算術演算に
3個のデータ値を必要とするベクトル加算がある。
データ・キャッシュ・メモリ内のデータのレイアラ1〜
 データ・キャッシュ・メモリと浮動小数点プロセッサ
・モジュール130間の最大転送速度が得られるのは、
8個の連続するF語(つまり、各々が32ビツトからな
る浮動小数煮詰)が−緒に転送されるときだけである。
あるアルゴリズムでのデータがこのブロック転送機能を
利用できない場合は、正味データ転送速度は低下するこ
とになる。これを表にまとめると、次の通りである。
F語の個数   転送速度 8     80 MFF語秒 大部分のアルゴリズムはより高速の転送速度を利用する
ことができる(実際には、FFTでさえも上述したよう
に高速の転送速度を利用できる)。
操作の並行・これにより、オフボード入出力転送を浮動
小数点計算と並行に行なうことができる。アルゴリズム
(またはアルゴリズムの列)がこの機能を・使用できる
場合は、入出力転送速度が相対的に遅くても、全体の計
算速度は影響を受りることはない。
複数のFP:アルゴリズムが計算バウンド(束縛)であ
り、メ干りゃ入出力のバンド幅に制限されないときは、
FPを複数にすると、メモリ・ハンド幅を越えない限り
、1つの浮動小数点プロセッサ・千ジュール130の性
能は倍になる。例えば、FPが4つのときは、ベクトル
加算性能は向上しないが、FFTは4倍の速度で計算さ
れる。
以上説明したことから理解されるように、木明細書中に
開示した新規事項は広範囲にわたって応用することがで
きると共に、広範囲にわたって改良または変形が可能で
ある。従って、特許請求の範囲に記載された内容は上述
した各種実施例に制約されるものではなく、またこれら
の実施例に関する記載に制約されるものでもなく、特許
請求の範囲に明確化−された請求事項のみに制約される
ものである。
【図面の簡単な説明】
第1図は新規の3プロセツサ・アーキテクチャをもつ斂
値高速化サブシステムの概要を示すブロック図である。 第2八図は本発明の好適実施例における制御プロセッサ
・モジュール110のいくつかの主要部分の構成を示す
ブロック図であり、第2B図は本発明の好適実施例にお
ける制御プロセッサ・モジュール110で使用されてい
るマイクロ命令形式のフィールド割振りを示す概略図で
ある。 第3A図は本発明の好適実施例におけるデータ転送プロ
セッサ・モジュールのいくつかの主要部分の構成を示す
ブロック図であり、第3B図はデータ転送プロセッサ・
モジュールにおいて定数アドレスを選択的に駆動してシ
ーケンサ・バス315上に送出するために使用されるロ
ジックの詳細を示すブロック図であり、第3C図は本発
明の好適実施例におけるデータ転送プロセッサ・モジュ
ール120で使用されているマイクロ命令形式のフィー
ルド割振りを示す概略図である。 第11A、 411. ll[:おJ:ひ1O図は本発
明のクエ適実施例において浮動小数点プロセッサとし−
C使用される数値処理モジュール130のいくつかの主
要部分の構成を示す図であり、第4八図は制御プロセッ
サ・モジュール110とのインタフェースのいくつかの
主要部分を示すブロック図、第4B図は本発明の好適実
施例における浮動小数点プロセッサ内のブタ通路のいく
つかの主要部分を示すブロック図、第4C図は本発明の
好適実施例における浮動小数点プロセッサ内の制御ロジ
ックのいくつかの主要部分を示すブロック図、%4o図
は本発明の好適実施例における数値プロセッサ・モジュ
ール130に使用されているマイクロ命令形式のフィー
ルド割振りを示す概略図である。 第5図は本発明の好適実施例におけるデータ・キャッシ
ュ・メモリのいくつかの主要部分の構成を示すブロック
図である。 第6図は本発明の好適実施例におけるホスト・インタフ
ェース・ロジックの構成を示すブロック図である。 第7図は本発明の好適実施例におけるデータバイブ イ
ンタフェース・ロジックの構成を示すブロック図である
。 第8図は本発明の好適実施例におけるGll’インタフ
ェース・ロジックの構成を示すブロック図である。 第9八図はアブイケーション向き数値処理モジュール(
「アルゴリズム高速化機構J ) 130°を含む数値
高速化サブシステムの概要図であり、第9B図はアルゴ
リズム高速化機構130゛のアーキテクチャが汎用浮動
小数点モジュール130のそれとどのような違いがある
かを示す概略図である。 第1O図は複数の数値プロセッシング・サブ・サブシス
テムを含むサブシステムを示すブロック図である。 第11図は本発明の好適実施例における制御プロセッサ
・モジュール(とデータ転送プロセッサ)の一部である
整数プロセッサ機構(ユニット)のいくつかの主要部分
の構成を示すブロック図である。 第12図は本発明の好適実施例における制御プロセッサ
の一部であるアドレス生成機構のいくつかの主要部分を
示すブロック図である。 第13図は本発明の好適実施例における制御プロセッサ
(とデータ転送プロセッサ)の一部であるシーケンサの
いくつかの主要部分の構成を示すブロック図である。 第14八図は16ビツト・アドレス生成機構(または他
の低解像度サブプロセッサ)が32ビツト・システムで
使用されるようにするために、本発明の好適実施例で使
用されているハードウェアを示す概略図であり、第14
B図は低解像度データ・ソースを高速システムで使用す
るために、本発明の好適実施例で使用されているハード
ウェアの各種動作モードで使用される入力を示す表口で
ある。 第15図は本発明の好適実施例における制御プロセッサ
・モジュールとデータ転送プロセッサ・モジュール間の
インタフェースを示す概略図である。 第16図は本発明の好適実施例における浮動小数点プロ
セッサ内の数値演算用の一部データ通路のいくつかの主
要部分の構成を示すブロック図である。 第17図は非レジスタ格納マイクロコード・ビットのセ
ットアツプ時間を短縮するために、本発明の好適実施例
において浮動小数点プロセッサ内で使用されるロジック
を示すブロック図である。 第18図は慣例の二重バッファのハードウェア構成およ
び制御の形態を示すブロック図である。 第19図は外部で制御されるビットの1つで2重ポート
・レジスタ・ファイルが使用される別の公知2重バッフ
ァリング手法を示すブロック図である。 第20図は本発明の好適実施例の新規2重バッファリン
グがどのように構成され、どのようにソフトウェアで制
御されて、複数の任意選択アクセス・モードが得られる
かを示す概略図である。 第21図は256ビツト幅のキャッシュ・バスとのイン
タフェースとなる保持レジスタと64ビット幅であるレ
ジスタ・ファイル間をクロック境界にまたがって行なわ
れるデータ転送のために、本発明の好適実施例で使用さ
れるロジックを示す概略図である。 第22図はcpモジュール110とFPモジュール13
0間をインタフェースで結ぶために、本発明の好適実施
例で使用されるハンドシェイキング・ロジックの状態図
である。 第23図は第9図または第1θ図に示すようなシステム
において複数のFPまたは複数のアルゴリズム高速化機
構(またはその両方)から1つを選択するために、本発
明の好適実施例で使用される制御定義を示す概略図であ
る。 第24.25および26図はキャッシュ・メモリとのデ
ータ・インタフェースのアーキテクチャを示すブロック
図である。 第27図は複数の装置の書込み可能制御記憶機構とのイ
ンタフェースとなる直列ループにおいてマイクロコード
の転送とローディングの制御を効率化するために、本発
明の好適実施例で使用されるバー1−ウェア構成を示す
概略図である。 第28図は複数のプロセッサのいずれかに、あるいはあ
る特定のプロセッサ群にマイクロコードをロートするこ
とを可能にするために、本発明の好適実施例で使用され
る直列ループ構成を示す概略図である。 第29図は多重プロセッサ・システムにおける数値プロ
セッサの制御記憶機構に直列にまたは並列に書き込むこ
とを可能にするために、本発明の好適実施例で使用され
るロジックを示す概略図である。 第30図はアドレス境界の制約なしでマルチウェイ分岐
を可能にするために、本発明の好適実施例で使用される
マイクロコード動作を示す概略図である。 第31図は離散フーリエ変換アルゴリズムを実行させる
方法を示す概略図である。 第32図は第16図に示すようなハードウェアでヒスト
グラム・アルゴリズムを実行させる方法を示すフローチ
ャートである。 第33図は第20図に示したにうなソフトウェア制御2
重バッファを含むハードウェアでパイプライン・アルゴ
リズムを実行させる方法を示すフロチャートである。 第34.35.36および37図は、それぞれが第7図
に示すようなデータ・パイプ・インタフェースを備えて
いる第1図に示すような複数のサブシステムの構成を示
す概略図である。 第38A図は主ボードの好ましい物理的レイアウトを示
す配置図であり、第38B図は第38A図の主ボード上
にホストされた子ボードの好ましい物理的レイアウトを
示す配置図であり、第38B図のボードはFPモジュー
ル130の主要構成要素が搭載されており、これらの2
ボードが一緒になって、第1図に示すような完全なシス
テムが得られることを示している。 第39図は浮動小数点プロセッサ・モジュール内のスタ
ック・レジスタの好適実施例を示すブロック図である。 第40八図は制御プロセッサ・モジュール110(とデ
ータ転送モジュール120)内のシーケンサと共に本発
明の好適実施例で使用される一部の支援ロジックを示す
ブロック図であり、 yg4on図はマルチウェイ分岐
操作時に割込みを引き起こすマイクロ命令列を示す概略
図である。 第41図はホスト・コンピュータと、画像処理サブシス
テムと、少なくとも2つの数値高速化サブシステムとを
備え、これらが主バスと2つの高バンド幅バックレーン
・バスで結ばれているコンピュータ・システムを示す概
略図である。 第42図は第1図に示すようなシステムにおいて2つの
配列を一緒に(要素単位で)乗算し、その結果を第3の
配列に格納するステップの流れを示すフローチャートで
ある。 第43図は1つまたは2つ以上の数値処理モジュールと
同じ広幅データ・バス上に高速キャッシュ・メモリを備
えたサンプル・システムを示すブロック図である。 第44A、 44Bおよび44C図はCP、DTP、お
よびFPのそれぞれのプログラミング環境を示す概略図
であ第45図は制御記憶機構から取り出したマイクロコ
ードのフィールドに命令レジスタの内容を代入するロジ
ックを示すブロック図である。 第46図は語アドレスの偶数/奇数構造が缶詰転送操作
からどのようにして得られるかを示す説明図である。 第47図は語アドレスの偶数/奇数構造かイg語転送操
作から得るとき使用されるタイミング構成を示す信号波
形図である。 ぐ\ CD八へス112

Claims (1)

  1. 【特許請求の範囲】 1)マイクロコード化された命令を順次に検索するよう
    に接続されたシーケンシング・ロジック、および該シー
    ケンシング・ロジックにより検索された前記マイクロコ
    ード化された命令の少なくともいくつかの部分を実行す
    るように接続された算術ロジックを有する制御プロセッ
    サと、 前記制御プロセッサと同時にかつ非同期で動作可能であ
    って、各制御ストアからの命令を実行する数値プロセッ
    サとを具え、 前記制御プロセッサによって、前記数値プロセッサの前
    記制御ストアへの書き込みを制御し、前記制御プロセッ
    サの前記シーケンシング・ロジックによって受信された
    前記マイクロコード化された命令のフィールドであって
    、前記算術ロジックを制御するフィールドを含むいくつ
    かのフィールドを、前記算術ロジックと接近して集積さ
    れた第1の制御ストアにストアし、前記数値プロセッサ
    へのデータ・アクセスを制御するフィールドを含む、前
    記マイクロコード化された命令の残余のフィールドを、
    前記数値プロセッサと一層接近して集積された第2の制
    御ストアにストアさせるように構成したことを特徴とす
    るプロセシング・システム。 2)あらかじめ定めたクラスのオペレーションにおいて
    前記数値プロセッサより速く動作するが、一般には数値
    オペレーションにおいて前記数値プロセッサより速く動
    作しない、少なくとも1つのアプリケーション向きプロ
    セッサをさらに具え、前記制御プロセッサにより前記数
    値プロセッサおよび前記アプリケーション・カスタマイ
    ズド・プロセッサに選択的にコマンドを与えて、各命令
    シーケンスを実行するようにしたことを特徴とする請求
    項1記載のプロセシング・システム。 3)システム・バスを介して主メモリにアクセスするこ
    とがてき、少なくとも第1データ・インタフェースおよ
    び少なくとも2つの高帯域幅入力ポートおよび1つの高
    帯域幅出力ポートを有する第2データ・インタフェース
    を含む複数の外部データ・インタフェースと、 外部インタフェース・コントローラを制御して、前記制
    御プロセッサと同時に動作するデータ転送プロセッサと
    をさらに具えたことを特徴とする請求項1記載のプロセ
    シング・システム。 4)あらかじめ定めたパイプライン化および/または並
    列化の程度を有するデータ流れ構造において、少なくと
    も2つのローカル・データ・バスによってリンクされた
    請求項3による複数の他のシステムをさらに具え、前記
    少なくとも2つのローカル・データ・バスによって前記
    第2データ・インタフェースの各々の各ポートをリンク
    するようにしたことを特徴とする請求項3記載のプロセ
    シング・システム。 5)第1バスを介して、前記システムのうちの少なくと
    もひとつに高レベルの命令を供給するように接続された
    ホスト・コンピュータをさらに具え、前記システムのう
    ちの少なくともひとつによっても前記第1バスを介して
    主メモリ・バンクにアクセス可能に構成したことを特徴
    とする請求項4記載のプロセシング・システム。 6)前記制御プロセッサにおける前記第1制御ストアよ
    りも前記数値プロセッサにおける前記制御ストアに一層
    接近して、前記制御プロセッサにおける前記第2制御ス
    トアを前記制御ストアと集積したことを特徴とする請求
    項1記載のプロセシング・システム。 7)前記制御プロセッサにおける前記第2制御ストアと
    前記数値プロセッサにおける前記制御ストアとを1つの
    共用の回路ボードに含ませ、前記制御プロセッサにおけ
    る前記第1の制御ストアを別のサブボードに含ませたこ
    とを特徴とする請求項1記載のプロセシング・システム
    。 8)前記制御プロセッサおよび前記データ転送プロセッ
    サとそれぞれ非同期で動作可能である、少なくとも2つ
    の前記数値プロセッサをさらに具え、前記制御プロセッ
    サによって、前記キャッシュ・メモリ内のアドレスがア
    クセスされる時に、前記数値プロセッサの各々が個別に
    読み取りまたは書き込みイネイブルされるように構成し
    たことを特徴とする請求項1記載のプロセシング・シス
    テム。 9)前記制御プロセッサにより前記演算プロセッサに指
    令を与えて、該演算プロセッサが各命令シーケンスを実
    行するように、前記制御プロセッサを動作可能となした
    ことを特徴とする請求項8記載のシステム。 10)前記制御プロセッサにより、前記演算プロセッサ
    のうちの独立してアドレス可能なビット数よりも少ない
    ビット数のアドレス・ワードを用いて、前記データ演算
    プロセッサのうちの選択されたいずれか1つのプロセッ
    サまたは該プロセッサの可能な全グループではないがい
    くつかのグループに、コマンドをアドレスすることが可
    能であるように構成したことを特徴とする請求項8記載
    のシステム。 11)数値プロセッサと、 前記数値プロセッサにコマンドを与えて命令シーケンス
    を実行するように接続された制御プロセッサと、 データ・キャッシュメモリと を具え、前記制御プロセッサおよび数値プロセッサが非
    同期で同時に動作可能であり、前記数値プロセッサは前
    記制御プロセッサの最大速度より高速で動作する内部数
    値プロセシング・コンポーネントを有し、 前記データ・キャッシュ・メモリにデータ・インタフェ
    ースを与え、前記制御プロセッサと部分的に同期してク
    ロックされる第1ポート、および前記内部数値プロセシ
    ング・コンポーネントにデータ・インタフェースを与え
    、前記内部数値プロセシング・コンポーネントのうち少
    なくともひとつに同期してクロックされる少なくとも1
    つの他のポートを有するマルチポート・レジスタ・ファ
    イルを介して、前記数値プロセッサにより前記データ・
    キャッシュ・メモリにインタフェースするように構成し
    たことを特徴とするプロセシング・システム。 12)前記数値プロセッサは乗算器を有し、かつインタ
    フェース・ロジックおよびマルチポート・レジスタ・フ
    ァイルを介して前記データ・キャッシュ・メモリにイン
    タフェースし、前記インタフェース・ロジックは前記デ
    ータ・キャッシュ・メモリに直接にインタフェースして
    前記データ・キャッシュ・メモリとほぼ非同期で動作し
    、前記レジスタ・ファイルにおける1つのポートは前記
    インタフェース・ロジックにデータ・インタフェースを
    与え、前記レジスタ・ファイルにおける他のポートは前
    記乗算器にデータ・インタフェースを与えるように構成
    したことを特徴とする請求項11記載のプロセシング・
    システム。 13)前記レジスタ・ファイルにおける前記他のポート
    は、前記レジスタ・ファイルからの並列データ出力を前
    記内部数値プロセシング・コンポーネントのうち第1お
    よび第2コンポーネントに選択可能に与えるように接続
    された第2および第3ポートと、 前記内部数値プロセシング・コンポーネントの出力を選
    択可能に受信するように接続された第4ポートと、 前記レジスタ・ファイルからあらかじめイネイブルされ
    た出力を選択可能に読み取って、前記レジスタ・ファイ
    ルの所望の位置にもどす入力ポートを有する第5ポート
    と を具えたことを特徴とする請求項11記載のプロセシン
    グ・システム。 14)前記内部数値プロセシング・コンポーネントの出
    力を選択可能に受信するように前記レジスタ・ファイル
    における前記第2ポートを局所結果バスに接続し、前記
    数値プロセッサは、前記局所結果バスから読み取り、か
    つ該バスに書き込むように接続され、メモリとアドレス
    コントローラとを有する局所スタックをさらに具えたこ
    とを特徴とする請求項13記載のプロセシング・システ
    ム。 15)前記レジスタ・ファイルにおける前記第4ポート
    を、局所結果バスに接続して、前記内部数値プロセシン
    グ・コンポーネントの出力を選択的に受信させ、前記数
    値プロセッサは、前記局所結果バスにデータ従属アドレ
    ス出力を与えるように接続され、メモリとアドレス・コ
    ントローラとを有するテーブル・メモリをさらに具えた
    ことを特徴とする請求項13記載のプロセシング・シス
    テム。 16)請求項15記載の装置において、前記演算がなさ
    れる時に、ヒストグラム入力を前記ローカルメモリに反
    復して収集することを特徴とするヒストグラム演算を行
    う方法。 17)前記レジスタ・ファイルにおける第4ポートを局
    所結果バスに接続して、前記内部数値プロセシング・コ
    ンポーネントの出力を選択的に受信するようになし、前
    記数値プロセッサにおける第2および第3ポートを、そ
    れぞれ、第1および第2オペランド・バスに接続し、前
    記数値プロセッサにおける第2および第3ポートは個別
    にラッチ可能であって、個別のイネイブル制御装置を有
    することを特徴とする請求項13記載のプロセシング・
    システム。 18)前記レジスタ・ファイルにおける前記第1ポート
    をホールディング・レジスタのバンクを介して、前記キ
    ャッシュ・メモリに接続し、前記キャッシュ・メモリお
    よび前記ホールディング・レジスタを複数のワード幅に
    なるように構成し、および転送りロックによって、前記
    ホールディング・レジスタと前記レジスタ・ファイルと
    の間の転送をクロックするようにし、前記転送りロック
    によって、前記内部数値プロセシング・コンポーネント
    のクロック周波数とほぼ同じクロック周波数でパルスを
    与えてゲートして、当該パルスのバーストが前記制御プ
    ロセッサのクロックパルスと同期する時にのみ開始する
    ようになしたことを特徴とする請求項11記載のプロセ
    シング・システム。 19)前記バーストの個々のパルスをマスクするように
    前記転送りロックを制御することができるようになして
    、前記ホールディング・レジスタにおけるワードのサブ
    セットを、前記マルチポート・レジスタ・ファイルへの
    転送に選択可能になしたことを特徴とする請求項18記
    載のプロセシング・システム。 20)前記キャッシュ・メモリがホールディング・レジ
    スタのバンクおよびキャッシュ・バスを介して前記マル
    チポート・レジスタ・ファイルにインタフェースされ、
    前記マルチポート化されたレジスタ・ファイルが前記ホ
    ールディング・レジスタに2ワード幅で現れるように前
    記キャッシュ・メモリを接続し、および前記キャッシュ
    ・メモリが前記算術演算装置には1ワードだけの幅で現
    れるようになし、前記キャッシュ・バスが前記内部数値
    プロセシング・コンポーネントの標準ワードの長さの少
    なくとも4倍の長さのデータ・ラインを有し、および前
    記高速レジスタ・ファイルの2ワードの組へ前記ホール
    ディング・レジスタ内のデータを選択可能に多重するよ
    うに接続された転送ロジックをさらに具えたことを特徴
    とする請求項11記載のプロセシング・システム。 21)前記レジスタ・ファイルから前記ホールディング
    ・レジスタへデータを転送する時に、データのワードを
    複製する手段をさらに具えたことを特徴とする請求項2
    0記載のプロセシング・システム。 22)前記レジスタ・ファイルにおける未使用のフィー
    ルドのデータ・バリッド・ビットを挿入する手段をさら
    に具え、該手段を、1ワードを前記レジスタ・ファイル
    に書き込みたいときに、1組のワードを書き込み、およ
    び1ワードがデータ・バリッド・ビットでフラグづけさ
    れるように接続したことを特徴とする請求項20記載の
    プロセシング・システム。
JP6939589A 1988-03-23 1989-03-23 プロセシング・システム Pending JPH0228721A (ja)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
GB8806860 1988-03-23
GB8806851 1988-03-23
GB8806852 1988-03-23
GB8806871 1988-03-23
GB8806871A GB2215886A (en) 1988-03-23 1988-03-23 Data processing system
GB8806851A GB2215877A (en) 1988-03-23 1988-03-23 Data processing system
GB8806849A GB2215875A (en) 1988-03-23 1988-03-23 Data processing system
GB8806859 1988-03-23
GB8806859A GB2217059A (en) 1988-03-23 1988-03-23 Multiprocessor system
GB8806860A GB2217060A (en) 1988-03-23 1988-03-23 Multi-processor system
GB8806852A GB2215878A (en) 1988-03-23 1988-03-23 Chip-independant numeric subsystem
GB8806849 1988-03-23

Publications (1)

Publication Number Publication Date
JPH0228721A true JPH0228721A (ja) 1990-01-30

Family

ID=27547003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6939589A Pending JPH0228721A (ja) 1988-03-23 1989-03-23 プロセシング・システム

Country Status (2)

Country Link
EP (1) EP0334627A3 (ja)
JP (1) JPH0228721A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04247924A (ja) * 1991-01-25 1992-09-03 Meiki Co Ltd 射出成形機のスクリュー回転用駆動装置
US6495041B2 (en) 1999-04-20 2002-12-17 Asahi Kasei Kogyo Kabushiki Kaisha Method for purifying aqueous suspension
JP2006202268A (ja) * 2004-12-24 2006-08-03 Kawasaki Microelectronics Kk Cpu

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2678400B1 (fr) 1991-06-27 1995-08-04 Texas Instruments France Processeur de protocole destine a l'execution d'un ensemble d'instructions en un nombre reduit d'operation.
US7197623B1 (en) 1991-06-27 2007-03-27 Texas Instruments Incorporated Multiple processor cellular radio
US6000026A (en) * 1992-06-22 1999-12-07 Texas Instrument Incorporated Multiple processor apparatus having a protocol processor intended for the execution of a collection of instructions in a reduced number of operations
US5903906A (en) * 1996-06-05 1999-05-11 Compaq Computer Corporation Receiving a write request that allows less than one cache line of data to be written and issuing a subsequent write request that requires at least one cache line of data to be written
US6021480A (en) * 1996-06-05 2000-02-01 Compaq Computer Corporation Aligning a memory read request with a cache line boundary when the request is for data beginning at a location in the middle of the cache line
US6055590A (en) * 1996-06-05 2000-04-25 Compaq Computer Corporation Bridge circuit comprising independent transaction buffers with control logic adapted to store overflow data in second buffer when transaction size exceeds the first buffer size
US5987539A (en) * 1996-06-05 1999-11-16 Compaq Computer Corporation Method and apparatus for flushing a bridge device read buffer
US6035362A (en) * 1996-06-05 2000-03-07 Goodrum; Alan L. Storing data associated with one request while continuing to store data associated with a previous request from the same device
US6052513A (en) * 1996-06-05 2000-04-18 Compaq Computer Corporation Multi-threaded bus master
US6108741A (en) * 1996-06-05 2000-08-22 Maclaren; John M. Ordering transactions
US6075929A (en) * 1996-06-05 2000-06-13 Compaq Computer Corporation Prefetching data in response to a read transaction for which the requesting device relinquishes control of the data bus while awaiting data requested in the transaction
US5872939A (en) * 1996-06-05 1999-02-16 Compaq Computer Corporation Bus arbitration
US5872941A (en) * 1996-06-05 1999-02-16 Compaq Computer Corp. Providing data from a bridge to a requesting device while the bridge is receiving the data
US6138192A (en) * 1996-12-31 2000-10-24 Compaq Computer Corporation Delivering a request to write or read data before delivering an earlier write request

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852265B2 (ja) * 1977-01-12 1983-11-21 株式会社日立製作所 デ−タ処理装置
JPS58134357A (ja) * 1982-02-03 1983-08-10 Hitachi Ltd ベクトルプロセッサ
EP0223849B1 (en) * 1985-05-20 1990-09-26 SHEKELS, Howard D. Super-computer system architectures
US4722049A (en) * 1985-10-11 1988-01-26 Unisys Corporation Apparatus for out-of-order program execution

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04247924A (ja) * 1991-01-25 1992-09-03 Meiki Co Ltd 射出成形機のスクリュー回転用駆動装置
US6495041B2 (en) 1999-04-20 2002-12-17 Asahi Kasei Kogyo Kabushiki Kaisha Method for purifying aqueous suspension
JP2006202268A (ja) * 2004-12-24 2006-08-03 Kawasaki Microelectronics Kk Cpu

Also Published As

Publication number Publication date
EP0334627A3 (en) 1991-06-12
EP0334627A2 (en) 1989-09-27

Similar Documents

Publication Publication Date Title
US5428754A (en) Computer system with clock shared between processors executing separate instruction streams
JPH0228864A (ja) マルチプロセッサ・サブシステム
US5329630A (en) System and method using double-buffer preview mode
US5042000A (en) Integral transform method
JP2642039B2 (ja) アレイ・プロセッサ
Butts et al. A structural object programming model, architecture, chip and tools for reconfigurable computing
JPH0228721A (ja) プロセシング・システム
EP0910827A3 (en) Circuits, system, and methods for processing multiple data streams
KR19980018071A (ko) 멀티미디어 신호 프로세서의 단일 명령 다중 데이터 처리
JPH0236420A (ja) プロセシング・システムズ
GB2215883A (en) Data processing system
GB2217064A (en) Interfacing asynchronous processors
EP0334621A2 (en) System with improved instruction execution
GB2217056A (en) Double buffering in multi-processor
Bove Jr et al. Media processing with field-programmable gate arrays on a microprocessor's local bus
GB2215880A (en) Variable length data field processing
GB2217059A (en) Multiprocessor system
GB2217062A (en) Numeric processor with smart clock
GB2217061A (en) Data processing system debugging
GB2223609A (en) High-bandwidth numeric processing
GB2217063A (en) Lifo memory
JP2625628B2 (ja) 浮動小数点コンピュータ・システム
GB2217055A (en) Loading microcode
GB2215876A (en) Data processing system
GB2217057A (en) Microcoded computer system