JPH0622035B2

JPH0622035B2 - ベクトル処理装置

Info

Publication number: JPH0622035B2
Application number: JP60252798A
Authority: JP
Inventors: 智夫青山; 泰弘稲上; ▲浩▼ 村山
Original assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Priority date: 1985-11-13
Filing date: 1985-11-13
Publication date: 1994-03-23
Anticipated expiration: 2009-03-23
Also published as: JPS62114058A; DE3638572A1; US5073970A; DE3638572C2

Description

【発明の詳細な説明】〔発明の利用分野〕本発明はスカラ，ベクトルの２つの処理部から構成され
るベクトル処理装置に関する。

〔発明の背景〕

ベクトル処理装置では、スカラおよびベクトルの２つの
処理部から構成され、各々の処理部でスカラ命令，ベク
トル命令が実行される。この２系統の命令を実行するに
は、現在２種類の方式が提案されている。

第１はスカラ，ベクトル命令の混在形を単一のデコーダ
によって解読し、命令の実行を制御する方式である（例
えばＣＲＡＹ−１コンピュータ）。

第２はスカラとベクトルの２種類の命令を２つのデコー
ダで解読する方式である（日経エレクトロニクスNo.31
4，159〜184頁（1983年４月13日）。この方式によれ
ば、２つの論理ユニットで命令がデコードされる。

第１の方式はスカラ命令とベクトル命令が混在している
ため、スカラ処理とベクトル処理の順序性保証をはじめ
とする２種類の命令間の制御が容易に実現できる特徴が
ある。

第２の方式はスカラ命令とベクトル命令のデコード処理
部が分離されているので、２種類の命令は独立に実行で
き、並列処理が容易となる特徴がある。一方、スカラ処
理部，ベクトル処理部が分離されているため、スカラ処
理部によってベクトル処理部を起動する必要がある。こ
のベクトル処理部起動に際して、ベクトル処理開始に必
要な種々の情報は全てスカラ処理部がセットアップする
必要がある。このセットアップ処理によってベクトル計
算開始までの準備時間が長くなる傾向があり、ベクトル
長の短い計算ではベクトル処理装置固有の性能を発揮で
きない場合がある。

またこの方式では、ある有意な処理がベクトル処理部で
完了していることをスカラ処理部が任意のタイミングで
知るための手段も必要になる。

以上議論したように、第２の方式は第１の方式よりも処
理の並列度という点から見ると自由度が大きく、より高
度の並列計算を実現するために有効な方法である。しか
し第１の方式に比べて有利な点を処理装置の性能に結び
つけるには、ベクトル処理部の起動とスカラ処理部の同
期制御に十分な配慮を行わなければならない。

〔発明の目的〕

本発明の目的はベクトル処理部の起動を高速化するベク
トル処理装置を提供することにある。

〔発明の概要〕

本発明はベクトル命令をデコードするベクトル命令デコ
ーダがベクトル命令列のデコードを開始することにより
セットされ、ベクトル命令列の終端のベクトル命令のデ
コードによりリセットされる表示手段を備え、この表示
手段がリセット状態にあれば、スカラ処理部からベクト
ル処理部へベクトル命令列の処理開始を指示する。

〔発明の実施例〕

まず本発明の理解を容易にするため、具体的実施例を説
明する前に本発明の一般的説明を行う。

スカラ，ベクトル処理の性質を、時間と命令処理の相関
図によって表示すると第４図(a)，(b)のようになる。

第４図(a)では、スカラ命令群がスカラ処理部のバイプ
ライン制御によって逐次的に処理されていくことを示
す。第４図のデコードラインは、命令のデコードステー
ジを連結した線分を示す。同様に実行ラインは、命令の
実行完了部分を連結した線分で定義する。第４図(b)図
はベクトル命令の処理を示す。ベクトル命令の実行ライ
ンは最終ベクトル要素の処理ステージを連結した線分で
定義する。ベクトル命令処理とスカラ命令処理の相異
は、 (1) ベクトル処理においては先出の命令処理の完了が
後出の命令処理の完了よりも前であるとは限らず、 (2) ベクトル処理の命令デコードラインと実行ライン
がスカラ処理のそれよりも離れている点である。

上記の相異はベクトル処理を開始すること、およびベク
トル処理を制御することがスカラ処理と同じ概念によっ
て行うことが困難であることを示している。たとえばス
カラ処理では前出の命令の処理結果を条件コードで知る
ことができる。このことは、スカラ処理の命令実行ライ
ンが命令デコードラインと時間的に離れていないため、
また前出の命令実行が後出の命令実行よりも必ず先行す
るというスカラ処理部論理動作による。従ってベクトル
処理の如き制御では、ベクトル処理の実行ラインが先出
のベクトル命令の完了が後出のベクトル命令の完了より
も先行する保証はなく、条件コードの設定という概念で
はベクトル命令列の実行を制御し得ない。しかし、ベク
トル命令のデコードラインに注目すると、このラインは
スカラ命令のデコード処理と同様の制御方法となってい
る。この２様の相異る性格がベクトル処理部の命令処理
を特徴づけている。

ここでベクトル命令列を、スカラ処理部によってベクト
ル処理部に対し起動情報を与えることにより、ベクトル
処理を行う方式について考察する。従来のベクトル処理
装置では、ベクトル処理部の状態を「ベクトル処理を行
っているか否か」によって識別している。このような状
態の区別を採用すると、複数のベクトル命令列から構成
されるプログラムの処理の場合、或るベクトル命令列処
理中に他のベクトル命令列の処理を開始させようとする
場合、ベクトル処理の並列実行を詳細に制御する必要が
生じる。即ち、ベクトル処理部の状態を処理対象となる
ｎ個のベクトル命令ブロック対応に管理する必要があ
る。この制御は困難であり、ハードウエア量の大幅な増
大を招く可能性が大である。

一方ベクトル処理部の状態をベクトル命令デコードライ
ンと実行ラインの２点で管理すると、ベクトル命令デコ
ードラインはスカラ命令デコードラインと同じ性質を持
っているので、スカラ処理部で採用されて来た制御法を
利用することができる。たとえば、ベクトル命令をデコ
ードし、命令実行に必要な資源（以下リソースという）
を該命令処理に割当てることができればベクトル命令を
起動し、割当てることのできるリソースが無い場合ベク
トル命令のデコードをリソース空きまで中断させるよう
な制御をハードウエアで行うことにする。するとベクト
ル命令列のデコードが完了した直後に、後続する他のベ
クトル命令列のデコードを開始することができる。この
ため、ベクトル命令列のデコードが完了すれば、ベクト
ル命令列の実行が完了していない時であっても、他のベ
クトル命令列のデコードを開始でき、かつリソースが空
き次第当該ベクトル命令列の実行を開始できる。この制
御法では、ベクトル処理部の状態をベクトル命令デコー
ドと実行完了の２点で管理を行うだけで、ベクトル処理
部が複数のベクトル命令列を並列的に実行しているか否
か等の複雑な制御を採用することなく、自動的にベクト
ル処理部の具備しているリソースの数によって決定され
る並列処理を容易に実現できる。またこの制御を行うこ
とによって必要となるハードウエア量は、ベクトル長レ
ジスタ（以下レングスレジスタ）とアドレスレジスタの
バッファと、リソース内に上記２つの情報を保持するレ
ジスタ群のみとすることができる。この方式について以
下に詳細に説明する。

２個のベクトル命令列を処理する場合で、第１のベクト
ル命令列がすでにベクトル処理部で処理中である場合を
考える。第１のベクトル命令列はｎ個のベクトル命令か
ら構成されるとすると、ベクトル命令をデコードするの
に要する時間は約ｎマシンサイクル程度である。一方当
該ベクトル命令を実行するのに必要となる時間は、ベク
トル処理長をｌとすると、リソースが必要十分に存在し
ている場合でも、ｎ×ｌマシンサイクルとなる。一般に
ベクトル処理装置のリソースは高々数個であるから、ｎ
に比し小さいことが多い。それ故、ベクトル命令処理時間≫ベクトル命令デコード時間なる関係が成立する。このような条件で、実行中とは異
る他のベクトル命令列の実行要求がスカラ処理部から発
行されたとする。この場合、ベクトル処理部のデコード
部は空いている確率が高いので、スカラ処理部からのベ
クトル命令列のデコードを開始できる確率も高い。この
デコード開始時、ベクトル処理部のリソースは前のベク
トル命令列の処理を行している。

ベクトル処理では、ベクトル命令起動と同時にベクトル
長が当該ベクトル処理用にベクトル処理部に送られる。
この時、起動されたベクトル命令とは異る他のベクトル
処理がベクトル処理部で実行されていると、ベクトル長
が２つのベクトル処理で異る場合、ベクトル処理装置は
動作不正を起す。

第４図で示したベクトル処理の性質は、ベクトル命令デ
コード時に、命令を実行するリソースが割当てられ、ベ
クトル命令に規定されている処理をそのリソースが行う
ということである。この性質を利用して、ベクトル長を
命令起動時に、ベクトル長レジスタからリソースへ転写
する方式を採用する。この方式では、ベクトル長レジス
タ上の値は、ベクトル命令起動時にだけ確定していれ
ば、ベクトル処理装置の動作を保証するのに必要十分で
ある。全く同様のことがアドレスレジスタについても成
立する。

主記憶からのベクトル命令読出がバンクコンフリクト等
の要因により中断された状態と、ベクトル命令列のデコ
ードが完了した状態を識別するため、ベクトル命令列の
最後にベクトル命令デコード完了をベクトル処理部に報
告するベクトル命令を付加させる。当該命令は、他のベ
クトル命令列をベクトル処理部が受付可能となった状態
を生成する。

以上の如き制御法をベクトル処理装置で採用することに
より、複数のベクトル命令列を連続してベクトル処理装
置で実行することが著しいハードウエア量の増大をまね
くことなく可能になる。

第１図および第２図は本発明の一実施例を示す。

第１図において、１は主記憶装置、２はスカラ命令読出
リクエスタ、３はスカラ命令デコーダ、４はベクトル命
令読出リクエスタ、５はベクトル命令デコーダ、６はベ
クトル処理部状態語、７はベクトル長レジスタ、８はア
ドレスレジスタ、９はベクトル状態管理回路、10はベク
トルレジスタ制御部、11および12はスイッチング回路、
13はベクトル演算器（並列動作可能な複数の加算器、乗
算器等を含んでよい）、14はベクトルレジスタ、15はベ
クトルロードリクエスタ、16はベクトルストアリクエス
タである。図面の簡約化のため、ベクトルレジスタは複
数のベクトルレジスタを束ねて１ブロックとしている。

ベクトル処理装置が起動されると、スカラ命令リクエス
タはパス20を介してスカラ命令を主記憶装置１より読出
し、読出したスカラ命令をスカラ命令デコーダ３へ送
る。スカラ命令デコーダでは命令を解読し、当該命令実
行指示をスカラ処理部のリソースにパス21を通して送
る。スカラ命令読出リクエスタ２、スカラ命令デコーダ
３およびスカラ処理部のリソース（図示せず）でスカラ
処理部を構成し、他がベクトル処理部となる。スカラ命
令デコーダ４がベクトル命令列処理開始指示命令（以下
EXecute Vector Processing：EXVP命令という）をデ
コードすると、パス22，23を介してベクトル処理部状態
語６の中のベクトル処理部のデコーダの状態を示すビッ
ト（以下Ｗビットという）を調べる。ここでＷビットは
処理装置の起動時にリセットされ、ベクトル命令をデコ
ードしている時セットされ、ベクトル命令列の終端を示
す命令をベクトル命令デコーダ５が解読した時にリセッ
トされるものとする。またベクトル命令の読出が主記憶
装置１のバンクコンフリクト等で中断され、ベクトル命
令デコーダ５の処理がアイドリングしている時も、ベク
トル命令をデコードしているものとみなし、Ｗビットは
リセットしない。

Ｗビットがリセットされている時、スカラ命令デコーダ
４は、パス24を介してベクトル命令読出リクエスタ４を
起動する。次にEXVP命令のオペランドに示されているベ
クトル命令列の先頭アドレスをパス24を通してベクトル
命令読出リクエスタ４へ送信する。

ベクトル命令読出リクエスタ４は、指示された主記憶装
置１のアドレスから、ベクトル命令をパルス25経由でベ
クトル命令デコーダ５へ送出する。ベクトル命令デコー
ダ５はベクトル命令デコーダ処理を開始すると同時にベ
クトル処理部状態語６のＷビットをセットする。スララ
命令デコーダは、パス23を介してＷビットがセットされ
たことを知り、EXVP命令の完了とし、後続するスカラ命
令のデコードを開始する。

Ｗビットがセットされている場合、スカラ命令デコーダ
４はＷビットがリセットされるまで、EXVP処理継続とな
る。ベクトル命令には分岐がなく命令列が有限なので、
プログラムが正常な場合はＷビットは必ずリセットされ
る。プログラム異常でベクトル命令列の終端を示す命令
が存在しない場合、ベクトル命令読出リクエスタ４はベ
クトル命令列に続く主記憶上の番地を読み出し、ベクト
ル命令デコーダ５に送る。従ってベクトル命令デコーダ
はベクトル命令以外のデータを解読することになり、処
理装置は命令例外を検出しプログラムの処理は中断され
る。

スカラ命令デコーダ３がベクトル長をセットするための
スカラ命令又はアドレスレジスタに値をセットするため
のスカラ命令（以下上記の２つの命令を総称してセット
アップ命令という）を解読した場合、パス26，27を通し
て、それぞれベクトル長レジスタ７，アドレスレジスタ
８に値をセットする。このセッティングはEXVP命令に先
行して行われるものとする。

次にベクトル状態管理回路９の動作を第２図を用いて説
明する。EXVP命令の処理が完了する際、スカラ命令デコ
ーダ３はパス28上にコマンド信号を送出する。この信号
は第２図のレジスタ50，51のセット信号として作用し、
EXVP実行後のベクトル長、アドレスレジスタの値をレジ
スタ50，51に保持させる。従ってEXVP命令完了後、スカ
ラ処理部は起動したベクトル命令列の次のベクトル命令
列実行に必要なセットアップ処理を開始することができ
る。

起動されたベクトル処理部において、ベクトル命令は、
ベクトル命令デコーダ５からパス29、レジスタ57を通し
てリソース割付け回路52に送られる。リソース割付け回
路52では、命令のオペレーションコードを変換してベク
トル命令実行に必要なリソース番号を生成する。ここで
ベクトル処理装置では各リソースは一義的に番号付けら
れているものとする。生成したリソース番号はパス60上
に送出される。

各リソースに対応して、リソースの状態を示すラッチ53
をベクトル状態管理回路９内に設置し、ラッチの値が'
1'の時対応するリソースがベクトル処理を行っている状
態に対応させ、ラッチの値が'0'の時リソースが処理待
ち状態であることに対応させる。パス60上に送出された
リソース番号はリソース起動回路54に送られると同時に
セレクタ55に作用し、ベクトル命令実行に必要なリソー
スの状態を選定し、パス61を通して選定結果をリソース
起動回路54に送る。一方ベクトル命令の実行に必要なリ
ソースの起動に必要なオーダ情報は、生成回路56によっ
て生成され、リソース起動回路54に送られる。

リソース起動回路54において、リソースの状態が処理待
ちである場合、パス62を介して対応するラッチ53を'1'
にセットする。この時リソース割付け回路52で決定され
たリソース番号によって対応するラッチのみがセットさ
れる。同時にパス63を介して選択されたリソースへリソ
ース起動信号が、パス64を介してベクトルレジスタ制御
部10へ制御情報が、パス65，66を介してベクトル長とア
ドレス情報が各リソースに送出される。ただしアドレス
情報はリソースがベクトル演算器の場合送出値を保証し
ない。

割付けられたリソースの状態が処理中の場合、リソース
起動回路54からベクトル命令読出抑止信号がパス30上に
送出される。この抑止信号によって、ベクトル命令読出
し、デコード処理が中断される。これらの中断処理は、
パス67を介してリソースの処理の終了報告がラッチ53に
行われ、ベクトル状態管理回路９によって、中断処理解
除が行われるまで継続する。レジスタ57は毎マシンサイ
クルソースの状態を調べる処理を行うために設置されて
いる。

次にベクトル命令処理動作を第１図を用いて説明する。
ベクトル状態管理回路９によって、リソースが起動され
ると同時に、ベクトル長がパス65上に送出される。リソ
ースがメモリ・リクエスタの場合、このベクトル長はメ
モリ・リクエスタ内のレジスタ18にセットされ、当該リ
クエスタの処理中ベクトル長がレジスタ18上に保持され
る。メモリリクエスタ15は与えられた主記憶のアドレス
からベクトル長のベクトル要素の読出しを行う。リソー
スがベクトル演算器13の場合、ベクトル長はベクトルレ
ジスタ制御部10内のレジスタ19にセットされる。ベクト
ルレジスタ制御部10はスイッチング回路11，12指示を与
え、ベクトル演算器13へ演算に必要なオペランドを送出
しかつ結果をベクトルレジスタ14へ書込むデータパスを
生成する。同時にベクトルデータの最終要素をレジスタ
19上のベクトル長データを用いて識別する。即ちベクト
ルレジスタはベクトル長という属性を有する。ベクトル
長データと同様にアドレスデータもパス66を経由して、
メモリ・リクエスタ内のレジスタ17へ転写される。

以上の如きベクトル長，アドレスレジスタに関する制御
を行うことにより、EXVP命令によって起動されるベクト
ル命令列の処理動作の正当性が保証される。第１図，第
２図では図面の簡約化のため、アドレスレジスタ１個、
ベクトル演算器１個、メモリ・リクエスタ２個の構成の
ベクトル処理部としたが、レジスタ，リソースを複数具
備した場合も同様の処理方法で制御可能である。ただし
ベクトルレジスタに関して、異ったベクトル長のレジス
タ間でチェイニング動作を行うようなコードを実行した
場合、処理動作の正当性の保証はプログラマが負わなけ
ればならない。

本発明によれば、コンパライラの最適化機能により、複
数のDOループにまたがる処理の高速化、行列計算等に出
現する多重ループ処理を従来のベクトル処理装置で行う
以上に高速処理することが可能になる。たとえば２つの
DOループ； DO 100Ｉ＝１，ＮＡ(I)＝Ｂ(I)＋Ｃ(I) 100 CONTINUE DO 200Ｉ＝１，ＭＸ(I)＝Ｙ(I)＊Ｚ(I) 200 CONTINUE の如き処理は従来次のようにオブジェクトコードに変換
され、第３図(a)のタイムチャートのように処理されて
いた。

LABEL1：Vector load VR０←'B' Vector load VR１←'C' Vector Add VR２←VR０＋VR１ Vector StofeVR２→'A' Vector Processing END LABEL2：Vector load VR０←'Z' Vector load VR１←'Y' Vector MultiplyVR２←VR０＊VR１ Vector StoreVR２→'X' Vector ProcessingEND 本発明のベクトル処理装置によれば、ベクトル命令のデ
コード処理が完了すれば、次のベクトル命令のデコード
を開始できるから時点までDO'200'の処理を早めるこ
とができる。即ち第３図(a)の点線の如きタイムチャー
トとなる。

ここでベクトル命令列におけるベクトルレジスタ番号に
ついて考察する。ベクトル命令のオペランドに記載され
ているベクトルレジスタ番号はチェイニング動作を指示
するための一時的な記憶位置と複数のDOループにまたが
って保持すべき配列等の格納領域を意味している。この
２つの異る性格はプログラム、コンパイラでは識別する
ことが可能である。従ってコンパイラは複数のDOループ
で２種類のベクトルレジスタ番号の使用法を利用し、ベ
クトル処理装置のリソースを最大限に使用できるよう
に、ベクトルレジスタ番号の変換を行う必要がある。た
とえば前記のベクトル・オブジェクトコードを次のよう
に変換することにより、 Vector object： LABEL1：Vector loadVR０←'B' Vector load VR１←'C' Vector Add VR２←VR０＋VR１ Vector Store VR２→'A' Vector Processing END LABEL2：Vector load VR３←'Z' Vector load VR４←'Y' Vector Multiply VR５←VR３＊VR４ Vector Store VR５→'X' Vector Processing END 第３図(b)のようなタイムチャートの処理とすることが
できる。第３図(b)ではベクトル命令のデコード処理はD
O'100'，'200'の２つのループにまたがってとぎれるこ
となく行われ、ベクトル処理装置のリソース数に対応す
るだけの並列処理動作が自動的に達成されている。

以上の処理動作は多重ループ表現の行列計算の場合に特
に有効に働く。たとえば、 DO 100 Ｊ＝１，Ｎ DO 100 Ｉ＝Ｊ，ＮＡ（Ｉ，Ｊ）＝Ｂ（Ｉ，Ｊ）＋Ｃ（Ｉ，Ｊ） 100 CONTINUE，で示される下三角行列間の演算では、従来のベクトル処
理装置ではベクトル長が１からＮまで変化し、短ベクト
ル長の場合にベクトル処理装置の性能が著しい低下を起
し、行列計算全体としてベクトル処理装置の効果が期待
できない種類の計算となる。このようなタイプの演算も
本発明のベクトル処理装置によれば、内側のDOループの
ベクトル処理をベクトルレジスタ番号の変換操作を工夫
することにより、連続して行うことが可能となる。以下
にベクトルレジスタ番号変換操作結果の一例を示す。

Scalar object：'N'euen／add judgement ifＮ＝even then goto LABEL０ LABEL０：Setup instructions ｆｏｒ ’Ｊ＝２，
４，…’ EXVP Vector object＝’LABEL2' Setup instructions for’Ｊ＝３，５，…’ EXVP Vectorobject＝'LABEL3' BCT LABEL0 Vector object： LABEL1：Vector load VR０←'C'（Ｊ＝１） Vector load VR１←'B'（Ｊ＝１） Vector Add VR２←VR０＋VR１ Vector Store VR２→'A'（Ｊ＝１） Vector Processing END LABEL2：Vector load VR３←'C'（Ｊ＝２ｎ） Vector load VR４←'B'（Ｊ＝２ｎ） Vector Add VR５←VR３＋VR４ Vector Store VR５→'A'（Ｊ＝２ｎ） Vector Processing END LABEL3：Vector load VR０←'C'（Ｊ＝2n+1） Vector load VR１←'B'（Ｊ＝2n+1） Vector Add VR２←VR０＋VR１ Vector Store VR２→'A'（Ｊ＝2n+1） Vector Processing END．以上のようなベクトルレジスタ番号変換操作機能を持っ
たコンパイラと、本発明のベクトル処理装置を組合せる
ことにより、行列計算固有の並列性を最大限に生かした
処理が可能になる。

〔発明の効果〕

本発明によれば、前のベクトル命令列のデコード処理が
完了すれば、次のベクトル命令列の処理を開始できるの
で、ベクトル処理部の起動を高速化することができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図のベクトル状態管理回路のブロック図、第３図お
よび第４図は本発明を説明するためのタイムチャートで
ある。１……主記憶装置、２……スカラ命令読出リクエスタ、
３……スカラ命令デコーダ、４……ベクトル命令読出リ
クエスタ、５……ベクトル命令デコーダ、６……ベクト
ル処理部状態語、７……ベクトル長レジスタ、８……ア
ドレスレジスタ、９……ベクトル状態管理回路、１０…
…ベクトルレジスタ制御部、11，12……スイッチング回
路、13……ベクトル演算器、14……ベクトルレジスタ、
15，16……メモリ・リクエスタ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者村山 ▲浩▼ 神奈川県秦野市堀山下１番地株式会社日立製作所神奈川工場内

Claims

【特許請求の範囲】

【請求項１】スカラ命令デコーダを含むスカラ処理部お
よびベクトル命令デコーダを含むベクトル処理部から構
成され、ベクトル命令列の処理開始を指示するスカラ命
令によってベクトル命令列の処理をベクトル処理部に指
示するベクトル処理装置において、上記ベクトル命令デ
コーダが上記ベクトル命令列のデコードを開始すること
に応じてセットされ、上記ベクトル命令列の終端のベク
トル命令のデコードに応じてリセットされる表示手段を
備え、上記スカラ処理部は上記表示手段がリセット状態
時、上記スカラ命令によって上記ベクトル命令列の処理
開始を指示することを特徴とするベクトル処理装置。