WO1987005419A1

WO1987005419A1 - Concurrently processing computer

Info

Publication number: WO1987005419A1
Application number: PCT/JP1987/000117
Authority: WO
Inventors: Fumio Takahashi; Yukio Nagaoka; Iwao Harada; Yoshihiro Nishihara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-02-26
Filing date: 1987-02-23
Publication date: 1987-09-11
Anticipated expiration: 1988-08-26
Also published as: JPH0424744B2; EP0273051A1; EP0273051B1; DE3789861T2; DE3789861D1; JPS62197859A; EP0273051A4

Description

(1) 明細書

発明の名称並列処理計算機

〔産業上の利用分野〕

本発明は並列処理計算機に係り、特に流体力学等の儒微分方程式の数値解を並列処理によリ求めるのに好適なミント' ( ulitiple Instruction Multiple Data ) 型並列処理計算機に関する。

〔従来の技術〕

従来、複数台の演算ユニットによって並列に処理する計算機が発表されている。特に偏微分方程式を解くために適した並列処理計算機がエイ · シ一 · ェムトランサクシヨンズオンコンピュータシステムズ 1 巻 3 号 1 9 8 3年 8 月 1 9 5頁一 2 2 1 頁（ A C M

Transactions on Computer , Vol. 1 , α 3， August 1 9 8 3 , ρ 1 9 5'— 2 2 1 ) に提案されている。この計算機は、演算ユニットを一次元格子に接続した MIMD型並列処理計算機であり、個々の演算ユニットに自身のプログラムを持たせているため、境界条件の処理等、演算ュニッ卜で異なる処理にも対応できる特徵を持っている。

一方、ミンド（ M I M D ) 型並列処理計算機では、共通の処理のため各演算ュニッ卜に共通のプログラムを持たせることが冗長であり、メモリ容量が多くなるという欠点がある。この問題点の一つの解決方法が、特開昭 58 — 14695 2号公報に記載されている。この計算機では、 ί寅算ュニットを制御する制御ュニッ卜に、各演算ュニットのプログラムを記憶し、演算ュニッ卜のプログラムの実行に合わせて、プログラムの 1 部分だけを制御ユニットから演算ユニットへ分配することにより、プログラム記憶の冗長を少なくし、メモリ容量の削減を意図している，また、ループ処理を分配する単位とし、分配の回数および時間を少なくしており、ループ内の演算が少なく、ループ内のくり返し数が多い問題に有効である。

〔発明が解決しょうとする問題点〕

上記、特開昭 58— 14695 2では、ループ内の演算量が多く、演算ユニットのプログラムメモリ容量を越えるような場合について配慮されておらず、また、くり返し数が少ないループが多数ある場合、頻繁に分配を行なう必要が有り、分配に関する時間が増える問題がある。

流体数値解析では、ループの個数が多く、またル一プ内の演算量も多い。第 2 図に、流体数値解析の例として、 2次元粘性流解析の流れ図を示す。

( 1 ) 各格子点で流速 u， V の初期値 u ）， V ( ° ) を設定する。

( 2 ) 終了判定

( 3 ) 各格子点で時刻 t + S t の u , V の中間値"^， ^"を計算する。 (4) 各格子点で質量残差 d を計算する。

(5) 各格子点の圧力 P を反復求解する。

(6) 時刻 t + S t の u ， _V の値 u (^v+ ， V (^v+ L)を補正計算する。

(1) , (3) , (4) ， (6) は 2 次元の各格子点について計算するため 2重のループ、また（5) については、反復求解のループが加わり 3 重のループとなっている。さらに、 (2)〜（6)は時刻を更新するループに含まれている。一方、格子状に接続した並列処理計算機では、一般に空間の部分領域を 1 台の演算ュニ 'ン卜へ分担させることにより並列処理する方法が行なおれる。計算時間の短縮は、演算ユニットの台数を増やし、 1 台の演算ユニットの分担する格子点を減らすことで実現される。すなわち、演算ュニットの台数の多い並列処理計算機では、（2)〜（6)のループのくり返し数は小さくなる。以上の理由により、上記特開昭 58— 146952の方法は、流体数値解析の並列処理には適していなレ、。

本発明の目的は、流体数値解析の上記例のように、複数のループ処理を頫次実行するアルゴリズムを少ないメモリ容量で並列処理するのに適した - VI I M D型並列処理計算機を提供することにある。

〔問題点を解決するための手段〕

本発明は、演算ユニット内に自身のプログラムを持つ M I M D型並列処理計算機において、流体数値解析を並列処理するとき、各演算ユニット間で共通の処理である基本計算部分の命令列（以下、共通命令）と個別の処理である境界値設定等の部分を'記述する命令列（以下、個別命令）を分離し、共通命令に関しては 1 命令毎に';寅算ユニットに放送することにより、ループの個数、くり返し回数、演算量にかかわらずメモリ容量を削減できるという点に着眼することにより生まれた。

演算ユニット内の演算装置は、ノイマン型の制御方法をとり命令が格鈉されているアドレスを示す、プログラムカウンタを持つ。この場合、共通命令と爾別命令のメモリバンクを分離し、 1酉別命令に閡しては、演算ュニット内のメモリに記憶させ、共通命令に間しては、命 ^キユーとしてフィフォ（ F I F 0 ： F ir s t In Fir st O u t Memo ry ) を用い、 F I F Oの出力を共通命令のアドレス空間へ対応させることにより、共通命令に関しては、演算ユニットの実行状態に合わせて、命令を放送すれば、共通命令のメモリ容量を少なくできる - 演算ユニットの実行状態に合わせて、共通命令を放送する方法として、制御ュニッ卜にその機能を分担する場合、制御ユニットでは、ループのくり返し回数のカウント等の演算ユニットの実行状態を監視する必要があり、そのため時間がかかる。発明者は、複数の演算ユニット 1

(5) を主演算ユニット（Master Processing Unit ； M P ) と複数の従演算ユニット（Slave Processing Unit ； S P ) に分け主演算ュニットに共通命令を記憶させるとともに、並列処理の一部分を分担させ、主演算ユニットの演算装置が共通命令が取り込む時に、従演算ュニジ卜へ放送すれば、制御ユニットによる演算ユニットの実行状態の監視が不要となるという点に着目し本発明に至った - 〔作用〕

主演算ユニットと従演算ユニットはともに、並列処理の一部分を分担し、主演算ユニットには、共通命令と個別命令を、従演算ユニット内には個別命令を記憶する。

主演算ユニットの演算装置は、共通命令の実行の前に、プログラムカウンタの示すァドレスから共通命令を取り込み、この時、取り込まれる命令を従演算ユニットへ放送し、命令キューへ格納する。従演算ユニットの演算装置は、命令キューから共通命令を取り込み、実行するので、各演算ユニットで共通の命令を記憶する必要がない。〔図面の簡単な説明〕

第 1 図は本発明の一次元配置した並列処理計算機の構成図、第 2 図は 2次元粘性流数値解析の流れ図、第 3 図は本発明の二次元配置した竝列処理計算機の構成図、第 4 図は第 1 図の演算ユニットの構成図、第 5 図は第 4 図の演算ユニット内のメモリマップ、第 S 図は第 4 図の演算ユニットの回路図、第 7 図は第 4 図の演算装置のタイミングチャート図、第 8 図は第 4 図の演算装置の命令の実行)頃を示す図、第 9 図は第 2 図の 2次元粘性流解析の圧力を並列計算する流れ図、第 1 0 図は本発明の一実施例の並列処理計算機の構成図である。

〔実施例〕

以下、本発明の一実施例を図面を用いて説明する。第 1 図は本発明の並列処理計算機の構成図であり、複数の演算ユニット每を一次元に接続した例を示す。第 1 図において、 1 は主演算ユニット（ M ? ) 、 2 は従 ·演算ユニット（ S P ) 、 3 はデータ転送ネットワーク、 1 2 は演算装置、 1 3 はメモリノンク、 1 4 はメモリノンク 1 5 は F I F 0 からなる命令キューであり、主演算ュニット 1 は演算装置 1 2 ，メモリノンク 1 3 , メモリノンク 1 4 で溝成する。従演算ユニット 2 は演算装置 1 2，メモリバンク 1 4 ，命令キュー 1 5 から搆成する。

主演算ュニット 1 と従演算ュニット 2 は单方向の命令放送バス 1 0 2 で接続される。また、主演算ユニット 1 と従演算ュニット 2 はデータ転送ネットワーク 3 のデータ信号 1 1 3 により接続される。

第 3 図は M X 台の演算ユニットを二次元格子に配置し、行毎と列毎にデータ転送ネットワーク 3 に接続した実施例を示す。主演算ユニット 1 からは、 -M X N— 1 台の従演算ュニット 2へ命令放送バス 1 0 2 が接続される。演算ユニットを二次元配置する実施例においても、主演算ュニット 1 と従演算ュニット 2 の構成は一次元配置と同様である。

第 4図は演算ユニット内の構成図である。主演算ュニット 1 と従演算ュニット 2 はハ一ドウエアの多くを共通の設計で作ることができるので、スィッチの切換により、主演算ュニット 1 から従演算ュニット 2へ変更できる実施例を示す。

演算ユニットは演算装置 1 2 ，メモリバンク 1 3 ，メモリバンク 1 4 , 命令キュー 1 5 ，スィッチ回路 1 6 力、ら構成され、演算装置 1 2 とメモリバンク 1 4はァドレスデータ信号 1 0 1 により接続され、演算装置 1 2 とスイッチ回路 1 6 はアドレスデータ信号 1 0 4 により、スイッチ回路 1 6 とメモリノ Sンク 1 3 はアドレスデータ信号 1 0 5 により接続される。また、命令キュー 1 5 とスイッチ回路 1 6 は、データ信号線 1 0 3 により接続され、また、演算ユニットの外にはスィッチ回路 1 6 より、命令放送バス 1 0 2 が出力され、命令キュー 1 5 には命令放送バス 1 0 2 が入力される。

スィッチ回路 1 6 がアドレスデータ線 1 0 5 と命令放送バス 1 0 2 を選択し、メモリバンク 1 3 を実装することにより、主演算ユニットとして動作し、スィッチ回路 1 6 がデータ線 1 0 3 を選択することにより従演算ュニットとして動作する。

第 5図は、主演算ユニット 1 と従演算ユニット 2のァドレスマップを示し、メモリノンク丄 3 にアドレス 0〜 2¹⁶ - 1 , メモリノンク 1 4 にアドレス 2^1S〜 2¹⁷— 1 を割り当てている。従演算ュニット 2の命令キュー 1 5 には F I F O を用い、 F I F Oの出力ポートを演算装置 1 2のアドレスの 0〜 2¹⁸— 1 に割り当てている。演算装置 1 2 には、命令列をメモリ上に記憶し、命令の実行時に命令をメモリから取り込むノイマン型の演算装置を用いる。一般に、ノイマン型の演算装置は、プログラムカウンタを持ち、プログラムカウンタの示すアドレス力、ら、命令を取り込む。プログラムカウンタの値は、命列の実行の璦歴により唯一定まる。したがって、従演算ユニット 2 の命令キュー 1 5 に F I F Oを用い、主滾算ュニット 1 の演算装置 1 2 が取り込んだ共通命令を頗に命令キュー 1 5 に書き込み、従演算ユニット 2の演算装置 1 2では、プログラムカウンタが共通命令のアドレスを示し、命令キュー 1 5 から命令を敢リ込むことにより、従演算ュニット 2は共通命令の実行を主演算ュニット 1 を追尾して実行することができる。

第 6図は、演算ユニット内の回路図であり、 6 1 は遅延回路、 1 0 2 Aはデータ信号、 1 0 2 B は書き込み制御信号（命令放送バス 1 0 2 ) ; 1 0 3 Aはデータ信号、 1 0 3 B は読み込み制御信号（データ信号線 1 0 3 ) ； 1 0 4 Aはデータ信号、 1 0 4 B はアドレス信号、 104C は読み込み制御信号（アドレスデータ信号 1 0 4 ) ； 1 〇 5 Aはデータ信号、 1 0 5 Bはアドレス信号、 105C は読み込み制御信号（アドレス信号 1 0 5 ) である。スイッチ回路 1 S 内には、主演算ユニット 1 が従演算ュニッ卜 2 を選択するスィッチがあり、接点 Uと接点 M Pの接続により、主演算ユニット 1 が選択され、接点 Uと接点 S Pの接続によリ従演算ュニット 2 が選択される，

以下、第 6図を用い主演算ユニット 1 の動作を示す。メモリバンク 1 3 には、演算ユニット間で共通となる命令を記憶し、メモリノンク 1 4 には個別の命令とデータを記憶させる。ただし、命令とデータのメモリバンクを分離することも可能であり、その場合、データ用のメモリバンクを別に設けメモリバンク 1 4 には個別の命令だけを記憶する。書き込み制御信号 1 0 2 Bは書き込み許可信号と書き込み信号からなり、書き込み許可信号は、全ての従演算ュニット 2の命令キュー 1 5 が満杯でなく、命令の書き込みが可能の時に全ての従演算ュニットで論理積をとることによリ生成され、読み込み制御信号 105C、読み込み制御信号 1 0 4 C をへて、演算装置 1 2へ読み込み許可信号として入力される。演算装置 1 2は読み込み許可信号が発行されている間、アドレス信号 1 0 4 B に共通の命令の格鈉されるアドレスを出力し、読み込み制御信号 1 0 4 Cへ読み込み信号を出力し、読み込み制御信号 1 0 5 Cをへて、メモリバンク 1 3へ読み込み信号として入力される。メモリノンク 1 3 からは、読み込み信号に同期して、データ信号 1 0 5 Aに、共通の命令が出力され、データ信号 1 0 4 Aをへて演算ユニット 1 2へ、データ信号 1 0 2 Aをへて従滾算ユニット 2へ送られる。従演算ユニットへは、命令の他に書き込み制御信号 1 0 2 B を通して、演算装置 1 2 が、読み込み制御信号 1 0 4 Cへ出力した読込み信号を遅延回路 6 1 により遅延させ、書き込み信号とし.て出力する。したがつて、主演算ユニット 1 は従演算ユニット 2 の命令キュ一 1 5 が満杯でない間、共通の命令を取り込み、従演算ュニット 2へ同一の命令を放送する。

次に、第 6図を用い、従演算ユニット 2 の動作を示す。読み込み制御信号 1 0 3 Bは読み込み許可信号と読み込み信号からなり、読み込み許可信号は、命令キュー 1 5 に命令が入っている間出力され、読み込み制御信号 104C をへて、演算装置 1 2へ読み込み許可信号として入力される。演算装置 1 2は、読み込み許可信号が入力される間主演算ユニット 1 の演算装置 1 2 と同様に、アドレス信号 1 0 4 B に、共通命令のアドレスを出力し、読み込み制御信号 1 0 4 C に読み込み信号を出力する。読み込み信号は読み込み制御信号 1 0 3 B を経て、命令キュー

1 5 へ出力され、命令キュー 1 5 から、主演算ユニット

1 が放送した命令が出力され、演算装置 1 2 へ読み込まれる。したがって、従演算ユニット 2 は主演算ユニット

1 の共通命令の実行を追尾して共通命令を取り込み、実行することができる。

第 7 図は、主演算ユニット 1 と従演算ユニット 2 の共通命令の取り込みと実行のタイムチャートであり、演算装置 1 2 として命令の先取り機構を有するものを用いた実施例である。主演算ユニット 1 では主演算ユニットと従演算ユニット共通の命令①，命令，命令③を頌次取り込み、取り込むと同時に命令放送バス 1 0 2 へ放送する。従演算ユニットでは、命令キューに命令が入った後で命令を取り込む。従って、共通命令の取り込みと実行の時刻は、従演算ユニット 2 が主演算ュニジト 1 に対して遅れている。しかし、この遅れている時間は、命令の実行にともない累積することがなく、遅れ時間は高々命令放送バス 1 0 2 の信号の伝播時間と命令キュー 1 5 のアクセス時間であり、従来の全ての命令を演算ュニットに記憶する M I M D型並列処理計算機と比べ、命令の取り込みに要する時間に差はほとんどない。

第 8 図は、共通命令列と涸別命令列を交互に実行するときのプログラムを示す。主演算ユニット 1 のメモリノンク 1 3 はアドレス 0 から 2 ^{1 S} - 1 が割り当てられ共通命令と分岐命令が記憶され、主演算ユニット 1 と従演算ュニッ卜 2 のメモリノンク 1 4 にはアドレス 2 ^{1 0}から 2 ^{1 7} — 1 が割り当てられ個別命令と分岐命令が記億される。この例において、分岐命令は演算装置 1 2.のプログラムカウンタの値を、異なるメモリノンクを指し示すように変える命令であり、分岐命令①は、演算装置 1 2 のプログラムカウンタを個別命令①を指し示すように変え、分岐命令②は、プログラムカウンタを共通命令 Γ Γπ) を指し示すように変える。従演算ユニット 2 は、共通命令と分岐命令' I)を命令キュー 1 5 から読み込むことによリ、主演算ユニット 1 を追尾し共通命令を実行できる。以下、共通命令と個別命令を分難する方法を述べる。現在計算機プログラムとして、搆造化プ□ グラムが主流となっている。搆造化プログラムは、 3 つの基本形

( ( a ) 処理の頗序を示す連接，（ b ) ある条件の成立する間は処理をくリ返す反復、（ c ) ある条件に徒って二つの処理の一方を選ぶ選択）から構成される。' 構造化プログラムにおいては、プログラムの論理構成が明確となるため、共通命令と個別命令を分離することが容易となる。本実旅例の並列処理計算機で、流体数値解析を行なう時、演算ユニットは、解析する領域の部分領域を受 87/00117

(13) け持つ。部分領域を受け持つ格子点が複数の場合、格子点毎の演算は同一のため、この部分は（ b ) 反復により記述される。各演算ユニットが受け持つ部分領域の格子点数を互いに等しくする制限すれば、反復回数を演算ュニットで等しくでき、この部分を共通命令として取り扱う。境界値の設定は、格子点が境界に含まれるかどうかによって異なるため、（ c ) 選択によって記述され、これは、演算ユニット毎に異なるため、個別命令として取り扱う。

以下、並列計算例を説明する。計算^として、第 2 図に示した 2 次元粘性解析のうち、圧を反復求解する部分を並列処理する場合を示す。解析する領域は、 1 6 X 8 の格子点を持つ長方形領域を考え、周囲を境界とする。圧力の境界条件として法線方向の微係数が 0 となる

Neumann 条件を与え、また、反復法として Jaeobi法を用いる。演算ユニットが 4 X 4 の 1 6台が 1 次元に配列されているものを用い、 1 台の演算ユニットには 4 X 2 の格子点が分担される。

1 台の演算ュニットでは、圧力 P のデ一タエリアとして配列 P i （ i = 0， 1 ， 2， 3， 4， 5 ; j - 0，

1， 2， 3 ) をとる。 1 = 0 , 5 または i = 0， 3 は演算ュニッ卜によって境界値か隣の演算ュニッ卜で計算された値が格納される。第 9 図に処理の流れを示す。 (1) Kの更新

(2) 各格子点で次ステップの圧力値 P i，（^k+つを計算する。

(3) 隣に演算ユニットが有れば、隣の演算ユニットに接する格子点の圧力値を送出する。

(4) 鹩に演算ユニットが有れば、饑から送られた圧力値を配列へ格納する。

(5) 境界に接していれば、境界の値を境界要素に代入する。

(6) 演算ユニット内の格子点について、収束したかを判定し、' さらに全ての演算ュニッ卜で収束したかを判定する。

ここで、（1)，（2)については、共通命令として取り扱う。 (3) , (4)，（5)については演算ユニットで処理が異なるため個別命令として取り扱う。（6) についても、収束したかどうかは、演算ユニットにより異なるため個別命令として取り扱う。第 2図の他の部分に対しても、同様に共通命令と個別命令が分離できる。したがって、本発明の並列処理計算機では、プログラムを各演算ュニッ卜で共通の命令と個別の命令に分離し、共通の命令を 1 台の主演算ユニット 1 に記憶し、命令の実行に合わせて従演算ュニットへ送るので従演算ュニット 2 には記憶させる必要なく、流体数値解析等を少ないメモリ容量で並列処理できる。

なお、並列処理計算機では、解く問題の規模に対応して、演算ユニットの台数を増減できることが必要である。そのために、第 1 図の実施例によれば、主演算ユニット 1 は複数の従演算ュニット 2 の命令キュー L 5 へ共通命令を書き込むため、命令放送バス 1 0 2 への出力レベルを、従演算ユニット 2 の台数の上限に合わせて大きくとつておく必要がある。命令キュー 1 5 として、アクセス時間の短かい F I F 0 を使えば、第 1 0 図の構成が可能となり、主演算ユニット 1 の命令放送バス 1 0 2 への出カレベルを小さくし、かつ演算ュニノ卜の台数を任意に変えることが可能となる。

第 1 0 図において 1 は主演算ユニット、 2 は従';寅算ュニット、 3 はデータ転送ネットワーク、 1 2 は演算装蠹、 1 3 はメモリノくンク、 1 4 はメモリノくンク、 1 5 は命合キュー、 1 0 2 は命令放送バス、 1 2 0 はデータ；' であり、命令キュー 1 5 をデータ信号 1 2 0 で連結している。主演算ユニット 1 の演算装置 1 2 はメモリノくンク

1 3 から共通命令を取り込む時、同時に命令放送バス

1 〇 2 へ共通命令を放送する。従演算ユニット 2 の演算装置 1 2 が、命令キュー 1 5 から命令を取り込む時、同時に隣の命令キュー 1 5 へ書き込む第 1 図の実施例との違いは、第 1 図の実施例では共通命令を各従演算ュニットへ同時刻に放送するのに対し、第 1 0 図の実施例では、主演算ユニットから離れるのに従がい、従演算ュニット 2 へは、命令キュー 1 5 のアクセス時間分の遅れが累積され命令が取り込まれる。しかし、命令キュー 1 5 にアクセス時間の短かい F I F 0 を用いれば、主演算ュニット 1 から離れることによる、従演算ユニット 2 の命令の取り込み時刻の遅れの累積は無視できるため、第 1 図の実施例と同様の性能を得、かつ主演算ユニット 1 の命令放送バス 1 0 2への出力を小さくし、演算ユニットの台数も任意に変更できる。

〔発明の効果〕

本発明によ .れば、 M I M D型並列処理計算機で各演算ュニット間で共通の命令を 1 台の演算ュニッ卜に記億し、他の演算ユニットで共用できるので、総メモリ容量をさくできる効果がある。

Claims

請求の範囲

1 . 主演算ユニットと複数の従演算ユニットから構成される並列処理計算機において、主演算ユニットは、命令をメモリから取り込む演算装置、共通命令用メモリバンク、猫別命令用メモリバンクを持ち、従演算ュニットは、上記演算装置、 F I F 〇からなる命令キュー、個別命令用メモリバンクからなり、主演算ユニットの共通命令用メモリバンクを従演算ュニッ卜の命含キュ一に接続することを特徵とする並列処理計算機。

2 . 特許請求の範囲第 1項記載の並列処理計算機おいて、主演算ュニッ卜と従演算ュニッ卜は並列処 '理の一部を分担し、主演算ユニットの演算装證が命令を共通命令用メモリバンクから取り込むとき、同命令を従演算ュニットへ放送し、従演算ユニットでは演算装置が、放送された命令を命令キューから取 '' J込むことを徵とする並列処理計算機。