JPH01155471A

JPH01155471A - ベクトル処理装置

Info

Publication number: JPH01155471A
Application number: JP31405887A
Authority: JP
Inventors: Masami Takahata; 高畑　正美; Yuji Aoki; 雄二青木
Original assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Priority date: 1987-12-14
Filing date: 1987-12-14
Publication date: 1989-06-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は科学技術計算に現れる行列計算などを高速処理
するベクトル処理装置に係シ、特に主記憶装置上の同一
アドレスに連続に複数回アクセスする場合、効率良くア
クセスするのに好適なベクトル処理装置に関する。

〔従来の技術〕

ベクトル処理装置は、主記憶（ＭＳ）と演算器との間に
ＭＳから読み出された一連のベクトル・データや演算の
中間結果であるベクトル・データを保持するベクトル・
レジスタ（ＶＲ）を有している。ＶＲ上のベクトル−デ
ータに対しては、１要素毎に有効・無効を示すマスク・
ビットが設けられ、ベクトル・マスク・レジスタ（ＶＭ
Ｒ）に保持されている。該マスク・ビットはベクトル・
データの比較等によって生成されＶＭＲに保持されてい
て、ＶＲの読み出し、書き込み時に並行して参照され、
ベクトル・データの演算、ロード、ストア等の処理を要
素対応に有効化もしくは無効化する制御に用いられる。

従来のベクトル処理装置においては、特開昭６１−１２
８５７１号に記載のように、ＭＳ上の同一アドレスに連
続して複数回アクセスする場合、ロードの場合には最初
のアクセスによるデータを保持しておき、後続のアクセ
スに対しては、ベクトル・アドレスの一部を修飾するこ
とによってバンク競合を回避しつつアクセスを行い、読
み出されたデータを無効化するという手段によってアク
セスを高速化している。

ところがマスクによって制御されるロードもしくはスト
アの場合には、最初の有効な要素もしくは最後の有効な
要素を認識する手段がない丸めに同一アドレスへの連続
するアクセスはバンク競合によるスループット低下を避
けられなかった。

〔発明が解決しようとする問題点〕

上記従来技術はマスクによって制御される同一アドレス
への連続するアクセスについては配慮されておらず、マ
スクによってスカシ・データを拡張してベクトル・デー
タとしてロードする処理やマスクによってベクトル・デ
ータを縮退させてストアする処理の場合にスループット
の低下が発生するという問題があった。

本発明の目的は、マスクによって制御されるロード・ス
トア処理について、ＭＳ上の同一アドレスに対する連続
する複数回のアクセスを一回のアクセスとすることによ
ってＭＳのバンク競合を回避し、効率の良いアクセスを
可能とするベクトル処理装置を実現することにある。

〔問題点を解決するための手段〕

上記目的は、ベクトル・データを要素対応に有効化もし
くは無効化するマスク・ビットから、最初の有効な要素
もしくは最後の有効な要素を認識し、該要素に関するＭ
８アクセスのみを実行するようにロード・ストア・パイ
プを構成することによって達成される。

このため、（１）ベクトル・ロード・ストア命令のアド
レッシング指定及びベクトル・アドレス・レジスタの内
容に基づきアクセスがＭＳ上の同一アドレスに対するも
のであることを認識する回路と、（２）マスク生成時に
最初の有効な要素もしくは最後の有効な要素の要素番号
を保持する回路と、（３）マスク参照時に保持された要
素番号以外のデータを無効化するように付加情報を変換
する回路と、（４）ロード処理において、最初の有効な
データを保持しておき、全ての要素に対して保持されて
いた同一のデータをＶＲに対して送出する回路と、（５
）ストア処理において、ＶＲから転送されてきた全ての
有効なデータの内、最後の有効なデータを選択してＭＳ
に書き込む回路とを設ける。

〔作用〕

ベクトル・ロード・ストア命令には、ベクトルアドレス
・レジスタ（ＶＲ几）とベクトルφインクリメント・レ
ジスタ（ＶＩ　Ｒ）との内容によって、ＭＳを線形にア
クセスする単純ａ−ド・ストア命令と、ＶＲ凡とインデ
ックス・レジスタ（任意のＶＲ）とによってＭＳを非線
形にアクセスするインデックス付ロード・ストア命令と
がめる。

アクセス種別を認識する回路は、線形アクセスの場合に
はＶＩ几−１０１、すなわち要素間隔値ｌｏ１の場合に
アクセスがＭＳ上の同一アドレスであることを２識する
。またインデックス付ロード・ストア命令の場合にはイ
ンデックスがスカシ、っまル、スカシ・レジスタ（ＳＲ
）、ま九はリテラル（ＬＩＴ）であることによってアク
セスがＭＳ上の同一アドレスであることを認識する。

マスク生成回路にはカウンタが設けられ、マスり・ビッ
トが１ビツト生成される毎にカウント・アップされる。

マスク・ビットが最初に１１１となった時、該カウンタ
の値は先頭有効要素番号レジスタ（ＦＶＥＲと称す。）
に取少込まれ、マスク参照時まで保持される。一方マス
ク・ビットがＩｌｌとなる毎に該カウンタの値は最終有
効要素番号レジスタ（ＬＶＥＲと称する。）に取プ込ま
れ、マスク生成が終了した時点で最後の有効な要素の番
号が残される。

マスク参照回路にはアクセス種別をｇＲする回路からコ
ードが転送されてきて、Ｍａ上の同一アドレスを連続し
てアクセスする場合には、ＭＳに対して、ＦＶＥＲもし
くはＬＶＥＲ，の示す要素のみを読み出したシ、書き込
むように制御がなされる。ａ−ド処理の場合にはｐｖｇ
ａの示す要素のみＭＳのアクセスを有効化する付加情報
が付加されて主記憶制御ユニット（ＳＣＵ）に送出され
る。

ＳＯＵでは該付加情報の付いた要素についてのみＭＳか
らデータを読み出し、レジスタに保持してお（。該デー
タはマスク・ビットと伴にＶＲに転送され、有効な要素
についてのみデータが書き込まれる。ストア処理の場合
にはＬＶｇＲの示す要素のみＭＳのアクセスを有効化す
る付加情報が付加されてＳＣＵに送出される。ＳＣＵで
は該付加情報の付いた要素についてのみＭＳへデータを
書き込む。該データはマスク・ビットと伴ＫｖｆＬから
送られてきたデータの内、有効な要素についてのみレジ
スタにセットされ、最後に残されたデータである。

ａ−ド・ストア・パイプにはロード処理の先頭有効要素
に対応するデータを保持するレジスタがメ）、上記ロー
ド処理においてマスク・ビット・１１′の要素に対して
は該データをＶＲに対して送出する。

また、ロード・ストア・バイブにはストア処理の最終有
効要素に対応するデータを保持するレジスタがあり、■
几から読み出されたデータに付随するマスク・ビットが
ｔ１＋の場合、ＶＲからの読み出しデータがセットされ
る。そして全ての要素についてＶＲｇｔ、み出しが終了
した時点で最終有効要素に対応するデータが残されるの
で、該データをＳＣＵに対して送出する。

〔実施例〕

第１図は本発明の適用されるベクトル処理装置のＶＲ，
周辺の構成を示す図である。第１図におい−（１８はＶ
Ｒ，１９はＶＭ几、２５は８ＣＵ、２４はＭＳでるる。

本実施例では要素並列制御方式のベクトル処理装置につ
いて述べる。従って、ＶＲ１８、ＶＭＲＩ　９はいずれ
も並列要素数４に対応して４分割されている。ＶＲ１８
，ＶＭＲＩ　９の分割された各単位は各々６４要素から
構成され全体で２５６要素を１括して処理可能である。

通常のベクトル・ａ−ド命令処理の場合、リクエスト制
御回路１０は６４個のメモリ・リクエストを５ＣＵ２５
に対して発行する。１個のメモリ・リクエストに対して
４個のマスク・ビットが７ＭＲ１９から読み出され、付
加情報変換回路２０を通って８ＣＵ２３に対してメモリ
・リクエスト付加情報として送出される。その際、マス
ク拳ビットｆｏｌの要素についてはメモリ・リクエスト
を無効化するオーダが付加される。８ＣＵ２５は１メモ
リ・リクエスト毎に４個のマスク・ビットの内１１１に
対応する要素についてのみ読み出し要求ｔ−Ｍｓ　２４
に送出する。Ｍａから読み出されたデータ（最大４個）
は５ＣＵ２３を通シ、レジスタ２５にセットされる。１
メモリ・リクエストに対応するデータが全てそろった時
点でレジスタ２３に保持していたデータは送出され、セ
レクタ１７を通＃）ＶＲ１８に書き込まれる。データの
書き込み位置は要素数カウンタ（Ｅ几）２によって示さ
れる。ｇＲ２は初期値１０１から始めて１メモリｅリク
エストごとにカウンタ３によって１ずつカウント・アッ
プされ、次のメモリ・リクエストで読み出したデータを
書き込むべきＶＲ１８上のエントリを示している。以上
の動作が６４回繰り返されて２５６要素のロード処理が
完了する。

通常のベクトル・ストア命令処理の場合、同様にリクエ
スト制御回路１０は６４個のメモリ・リクエストを５Ｃ
Ｕ２５に対して発行する。１個のメモリ自リクエストに
対して４個のマスク・ビツトがＶＭＲＩ９から読み出さ
れ、付加情報変換回路２０を通って８ＣＵ２３に送出さ
れる。その際、マスク・ビットＩｇｌの要素については
メモリ・リクエストを無効化するオーダが付加される。

一方ＥＲ，２の内容をデコーダ８によシブコードして得
られるＶＲＩ　ａ上のエントリからデータが読み出され
、レジスタ２１にセットされる。その後データはメモリ
・リクエストと同期して８ＣＵ２５に対して送出される
。５ＣＵ２３はメモリ・リクエストに基づき受は取った
データをＭＳ２４に書き込む。以上の動作が６４回繰シ
返されて２５６要素のストア処理が完了する。

検出回路９はベクトル・ロード・ストア命令がＭ８上の
同一アクセスする場合を検出する。単純ａ−ド・ストア
命令の場合、オペ２ンド・データのアドレスは、先頭要
素アドレスを示すＶＡ几と要素間隔値を示すＶＩ几との
和によって決定される。したがってＶ　Ｉ　Ｒ−’ｏ’
という条件によつてＭ８上の同一アドレスをアクセスす
るものと認識する。インデックス付ロード拳ストアの場
合、オペランド・アドレスは先頭要素アドレスを示すＶ
ＡＲと先頭要素からのオフセットを指すインデックスと
の和によって決定される。したがってインデックスとし
てＳＲ１たはり、ＩＴｔ−指定しているという条件によ
ってＭＳ上の同一アドレスをアクセスするものと認識す
る。

リクエスト制御回路１０は５ＣＵ２５に対して送出する
メモリ・リクエストの個数を検出回路９からの指示によ
フ変える。つまシ、ＭＳ上の同一アドレスをアクセスす
る場合には、６４個のリクエストを連続して送出するの
でなく、ただ１個のリクエストを送出するのでるる。ベ
クトル・ロード命令の場合には、ＶＭＲＩ９から送出さ
れてくるマスク拳ビット中に１１“が存在した場合に、
初めてメモリ・リクエストを５ＣＵ２３ｊＣ対して送出
する。先頭有効要１ｇに対応するメモリ・リクエストが
発行された後は、有効要素があってもメモリ・リクエス
トは送出しない。これに対してＶＲＩ８の誉き込み信号
１４は要素並列毎に６４回送出される。実際の曹さ込み
はＶＭＲＩ９の制御を受け、有効要素についてのみデー
タが書き込まれる。ベクトル・ストア命令の場合には、
ＶＭＲＩ９から送出されてくるマスク・ビットの内最後
の＋１＋に対応してメモリーリクエストを５ＣＵ２３に
対して送出する。したがって６４回のＶＭＲ，読み出し
く対してメモリ・リクエストが送出されるのは最終有効
要素並列の１回のみである。一方Ｖ几１８の読み出しは
要素並列毎に６４回行われる。ベクトル−ロード、ベク
トル・ストアいずれの場合に４Ｖ３１８上のアクセスす
るエントリを示すＥ′ＢＩ２は要素並列毎に１ずつカウ
ント・アクプされる。

すなわちＶＲ１８は全要素に対応してアクセスされるよ
うに制御信号２６がリクエスト制御回路１０から送出さ
れる。

付加情報変換回路２０は、通常のベクトル・ロード・ス
トア命令処理の場合には、マスク・ピッ）　１ｏ１の要
素に対してＭＳアクセスを無効化するオーダを付加する
。Ｍ８アクセスが同一アドレスに対するものである場合
には、この動作に加えて、ａ−ド処理では先頭有効要素
よ）後の有効要素に対してもＭＳアクセスするオーダを
付加する動作を行い、ストア処理では最終有効要素よシ
前の有効要素に対してもＭＳアクセスを無効化するオー
ダを付加する動作を行う。

マスク生成回路１は比較命令等のマスク生成命令実行時
に動作し、実行結果に基づいて得られたマスク・ビット
をＶＭＲＩ　９に格納する。該動作の際、先頭有効要素
と最終有効要素とを検出することが可能であるので先頭
有効要素番号ｔ−ＦＶＥＲ５Ｋ、最終有効要素番号をＬ
ＶＥＲ６にそれぞれ格納する。つまシ、最初にマスクφ
ビットが１１１となった時点で処理中の要素番号を示す
ＥＲ２の値をＦＶＥ几５に転送し、保持する。−坦ＦＶ
ＥＲ５がセットされた後は後続のマスク・ビット１１曹
に対してはセットを抑止する。マスク・ビットが１１１
となる毎にＥＲ１２の値をＬｖＥＲ１６に転送し、保持
する。すべての要素についてマスク生成処理が終了した
時点でＩ、ＶＥＲ６には最終有効要素の要素番号が残さ
れる。

以下、ベクトル・ロード・ストア命令がＭＳ上の同一ア
ドレスを複数回アクセスする場合の処理について説明す
る。

ベクトル・ロード・ストア命令に先行してマスク生成命
令が実行され、後続のロード・ストアにて使用するマス
クを生成すると伴に先頭有効要素番号をＦＶｆｆＲ５に
、最終有効要素番号をＬＹＥＲ６に格納する。

ベクトル・ａ−ド命令ではＦＶＥＲ５を便用する。ＦＶ
ＥＲ５の値がセレクタ７を通ってデコーダ８に与えられ
先頭有効要素を含む１要素差列分のマスク４ビツトがＶ
ＭＲ１９から読み出され、付加情報変換回路２０に転送
される。付加情報変換回路２０では、先頭有効要素以外
の要素に対してＭＳアクセスを無効化するオーダを付加
する。

例えば第２図のようにマスク・ビットが’０１１０１で
ＦＶＥＲ５の値が１１嘗の場合、付加すべきオーダは’
１０１１’となる。リクエスト制御回路１０は該要素並
列に対応して１回だけメ七り・リクエストを５ＣＵ２５
に対して発行する。８ＣＵ２５はオーダを参照し、無効
指示の付加されていない要素についてのみＭＳ２４をア
クセスし、先頭有効要素に対応するデータを読み出す。

読み出されたデータは５ＣＵ２３を通シレジスタ２５に
セットされる。その際データは要素並列の４要素に拡張
される。レジスタ２５はセット信号２Ｂによって該デー
タをセットされた後は該データを保持し続ける。この間
ＶＢ制御回路１１はセット信号２６によってＥ凡２を更
新し、書き込み信号１４によってＶＲのすべて有効な要
素に対して同一データをレジスタ２５よシ書き込む。書
き込みの際にはＶＭ几１９の値が反映され、マスク・ビ
ット１１１の要素についてのみＭ８上のアクセス・アド
レスにあるのと同一のデータが書き込まれる。

ベクトル・ストア命令ではＬＶＥＲ６を使用する。ＬＶ
ＥＲ６の直がセレクタ７を通ってデコーダ８に与えられ
最終有効要素を含む１要素差列分のマスク４ビツトがＶ
ＭＲ１９から読み出され、付加情報変換回路２０に転送
される。付加情報変換回路２０では、最終有効要素以外
の要素に対してＭ８アクセスを無効化するオーダを付加
する。

例えば第３図のようにマスク・ビットが’０１１０’の
場合、付加すべきオーダは’１１０１’となる。

リクエスト制御１０は該要素並列に対応して１回だけメ
モリ・リクエストを５ＣＵ２５に対して発行する。８Ｃ
Ｕ２３はオーダを参照し、無効指示の付加されていない
要素についてのみＭＳ２４をアクセスし、最終有効要素
に対応するデータを書き込む。該データはＶＭＲ１９の
読み出しと同期してＶＲＩ　８から読み出されレジスタ
２１にセットされた４個のデータの内、ＬＶＥＲ６の示
すデータである。以上により、ＭＳ上のアクセス・アド
レスにはすべての有効要素を書き込んだ場合と同一の結
果が残されることになる。

本実施例によれば、（！素番号０から要素番号２５５ま
でのＭ８上の同一アドレスへのマスク付の連続的なアク
セスをただ１回のアクセスとして処理することによって
マスク付のベクトル・ロード・ストア命令のスループッ
トの低下を回避可能である。

〔発明の効果〕

本発明によれば、マスク付のベクトル・ロード中ストア
命令の処理において、ＭＳ上の同一アドレスを連続して
複数回アクセスする場合、Ｍ８へのアクセスを一回とす
ることによって処理時間を短縮することが可能となシ、
命令処理性能が向上する。

【図面の簡単な説明】

第１図は本発明の一実施例の構成図、第２図および第５
図はマスク・ビットの一例を示す説明図である。１・−マスク生成回路、２・−要素数レジスタ、５−先
頭有効要素レジスタ、６・・・最終有効要素レジスタ、
９・・・検出回路、１０−リクエスト制御回路。１１・ＶＲ制御回路、１９　・・・ベクトル・マスク・
レジスタ、２０・−付加情報変換回路。第　１　図９　検本可落第　２　図　　　　　　箒　３　図手続補正書（自発）事件の表示昭和　６２　年特許願第　３１４０５８　　号発明の名
称ベクトル処理装置補正をする者餠と１係　特許出願人名　称　　Ｃｓ＋ｏ＋株式会社　日　立　製　作所（化
１石）代　　理　　人補正の対象　図面（全図）補正の内容　別紙のとおシ見１目９−０．検伝目発殆２図原綿７平素易５０！ｔｖｉｙｒｐ７ＴｆＴ＊素

Claims

【特許請求の範囲】

１、ベクトル・データを格納する主記憶と、複数の演算
器と、演算の中間結果を保持する複数のベクトル・レジ
スタと、ベクトル・データの主記憶からの読み出し、並
びに主記憶への書き込みを行う複数のロード・ストア・
パイプラインと、演算および主記憶アクセスの有効、無
効を指定する複数のマスク・レジスタと及びその生成・
参照制御回路から構成されるベクトル処理装置において
、ベクトル・ロード・ストア命令のアドレッシグ指定及
びベクトル・アドレス・レジスタの内容に基づきアクセ
スするデータが同一アドレスであることを検出する回路
と、マスク生成時に最初の有効なデータ、もしくは最後
の有効なデータを認識してその要素番号を保持する回路
と、マスク参照時に保持された要素番号以外のデータに
対して該データを無効化するように付加情報を変換する
回路と、主記憶から読み出された最初の有効なデータを
保持しておき、全ての要素に対して同一のデータをベク
トル・レジスタに対して送出する回路と、ベクトル・レ
ジスタから転送されてきた全ての要素の中から最後の有
効なデータを選択して主記憶に書き込む回路とによつて
構成され、マスク付のベクトル・ロード・ストア命令処
理における同一アドレスに対する連続した複数回の主記
憶読み出し、もしくは書き込みを一回にすることにより
ベクトル・ロード・ストア処理を高速化することを特徴
とするベクトル処理装置。