JPH06309285A

JPH06309285A - 並列計算機における通信処理回路

Info

Publication number: JPH06309285A
Application number: JP5099901A
Authority: JP
Inventors: Shinichi Ichikawa; 眞一市川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-04-27
Filing date: 1993-04-27
Publication date: 1994-11-04
Anticipated expiration: 2020-08-17
Also published as: JP3684579B2

Abstract

(57)【要約】【目的】本発明は、並列計算機における通信処理回路
に関し、プロセッサエレメント間の通信処理に伴うプロ
セッサエレメントでのオーバヘッドを削減する。【構成】プロセッサエレメント内に、計算処理部とは
別に、プロセッサエレメントの論理アドレスと，全プ
ロセッサエレメントの数と、通信データとを格納す
るレジスタ，バッファと、各種の演算器と、通信制御を
行うコントロールシーケンサとからなる通信処理部を設
け、計算処理部で実行されるソフトウェアからの指示
で、上記レジスタにプロセッサエレメントの論理アドレ
ス、プロセッサエレメントの数を設定した後、該設
定された論理アドレスと，プロセッサエレメント数
と，第何回目の通信であるかを指示しているコントロー
ルシーケンサのシーケンス番号とで定まるバイナリー
ツリー方法による大域的な通信処理（データの送信，デ
ータ受信，演算，又は、演算結果の送信）を、計算処理
部での動作とは独立に実行するように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、分散型メモリを備えた
並列計算機における通信処理方法に関し、特に、並列計
算機を構成している複数個の全プロセッサエレメント(P
E1, 〜) 上でのデータを参照して行う大域的な処理を行
う際の通信処理回路に関する。

【０００２】あらゆる工業分野、技術開発分野で設計を
行う際には、偏微分方程式を解いたり、構造を解析した
りして、実験によらずに数値シミュレーションにより、
製品の特性、性能を予測することが重要となってきてい
る。しかも、この数値シミュレーションには、年々より
高速のコンピュータが必要となってきており、中央処理
装置(CPU) を数多く連ねた並列コンピュータは、計算能
力に対する増大する要求に答える手段として、その利用
が検討されはじめている。

【０００３】分散メモリ型並列計算機上で、このような
数値シミュレーションの並列処理を行う時には、ホスト
からデータ用の配列を、各プロセッサエレメント(PE1,P
E2,〜) に分割配置してデータの更新を行う。

【０００４】このような並列処理で必要な通信処理は、
数値モデル上で相互作用の及ぶ範囲のデータを持つプロ
セッサエレメント(PE1,PE2, 〜) から参照すべきデータ
のコピーを受け取る局部的な処理と、全プロセッサエレ
メント(PE1,PE2, 〜) 上のデータを参照して演算を行
う、大域的な処理とがある。

【０００５】このような、大域的な処理においては、プ
ロセッサエレメント(PE1,PE2, 〜)の数が多くなると、
処理時間も大きくなるが、該処理時間に含まれる通信処
理時間も無視できなくなること、又、該大域的な処理に
おいては、他のプロセッサエレメントからデータをもら
って、所定の演算をした後、別のプロセッサエレメント
に送信するといった処理であるにも関わらず、データを
受信する毎に、該プロセッサエレメント内のソフトウェ
ア (即ち、アプリケーション) に割り込みが発生して、
該アプリケーションが擾乱され、該並列計算機全体とし
ての処理能力が低下することから、上記プロセッサエレ
メント内で実行されているアプリケーション等に対する
影響の少ない通信処理回路が要求される。

【０００６】

【従来の技術】図３は、並列計算機での従来の通信処理
方法を説明する図であり、図３(a) はメモリ分散型並列
計算機の構成例を示し、図３(b) は、プロセッサエレメ
ント間で送受信されるデータのフオーマット例を示して
いる。

【０００７】先ず、図３(b) に示したデータフオーマッ
トにおいて、先頭のヘッダ部は、通信先のプロセッサエ
レメント(PE1, 〜) 1 のアドレス(SA)と、該通信先のプ
ロセッサエレメント(PE1, 〜) 1 に対する割り込み(IN
T) の有無と、データのクラス(アプリケーションが優先
して処理する必要のあるデータか否かを識別するクラ
ス) 等の制御情報で構成されている。

【０００８】送信側のプロセッサエレメント(PEn) 1 の
アプリケーション、例えば、通信ライブラリが、プロセ
ッサエレメント(PE1) 1 にデータの送信を行う場合、所
定のデータを、主記憶装置 12 上に用意した後、所定の
条件を指示して、通信処理部11 内の、例えば、ダイレ
クトメモリアクセス機構(DMA) 110 を起動する。

【０００９】該ダイレクトメモリアクセス機構(DMA) 11
0 は、指示された条件の元で、プロセッサエレメント(P
En) 1 の主記憶装置 12 の所定のアドレスから、所定の
データ長のデータを読み取り、通信ネットワーク 3を介
して、プロセッサエレメント(PE1) 1 にデータを転送す
る。

【００１０】プロセッサエレメント(PE1) 1 の通信処理
部 11 では、送信されてきた通信データのヘッダ部を
参照して、自己のプロセッサエレメント(PE1) 1 に対す
る送信データであって、且つ、割り込みフラグ(INT) が
“１”になっていると、本体部 (計算処理部) 10で実行
されているオペレーションシステム(OS)に割り込みを発
生する。

【００１１】本体部 10 で実行されるオペレーションシ
ステム(OS)では、上記割り込みを受け付けると、通信デ
ータの、上記ヘッダ部を取り込み、通信先のチェック
をした後、データ長等を参照して、ダイレクトメモリア
クセス機構(DMA) 110 を起動する。

【００１２】起動されたダイレクトメモリアクセス機構
(DMA) 110 では、指示されたデータ転送条件の元で、通
信ネットワーク 3から通信データのデータ部を読み取
り、主記憶装置 12 に転送する。

【００１３】このように、従来の通信処理では、所定の
プロセッサエレメント(PEi) 1 からのデータ転送がある
毎に、通信先のプロセッサエレメント(PEj) 1 の本体部
10で実行されているオペレーションシステム(OS)に割
り込まれ、少なくとも、ヘッダ部を読み取る為に、通信
データを通信処理部 11 から本体部 10 まで転送する
動作が実行される。

【００１４】

【発明が解決しようとする課題】従って、現在の並列計
算機では、主記憶装置 12 に対するメモリアクセスに比
べて、通信処理のスループットが格段に遅いため、並列
処理の効果を得るためには、出来るだけ通信処理, 及
び、通信に関連する処理の時間を短くする工夫が必要で
ある。

【００１５】前記数値シミュレーションを並列処理する
際に必要な、通信を要する大域的処理の例は、次のよう
なものである。ａ）最大最小値探索（大小比較）ｂ）大域的論理演算（論理和，排他的論理和等）ｃ）総和計算（浮動少数点，整数の加算）ｄ）処理要素に分割された全てのデータの共有（合同）これらの複合的な通信処理を、従来の計算処理部 10 と
通信処理部 11 とから成り立つプロセッサエレメント(P
Ei) 1 で、上記の如きメッセージパッシング (メッセー
ジ受け渡し) 機構、例えば、ダイレクトメモリアクセス
機構(DMA) 110,割り込み機構等により行う際には、通信
そのものよりも、通信を起動するソフトウェアや、通信
データ、例えば、ヘッダ部、の受け取り、送出に関わ
るプロセッサエレメント(PEi) 1 内の処理に時間を多く
費やされる。

【００１６】上記の如き、大域的処理では、受け取った
データに一つの演算を施した後、直ちに、再び、通信ネ
ットワーク 3へ送出する決まった処理であるにもかかわ
らず、メッセージパッシング (データの受け渡し) によ
る一般的な通信機構を用いることは、通信ソフトウェア
(上記通信ライブラリ) 内の通信先チェックなどの処理
の重複や、本体部 10 と通信処理部 11 との間のデータ
の移動などのオーバーヘッドを被りやすい。しかも、こ
れらの大域的処理で、最も有効な、バイナリツリーアル
ゴリズム（後述の図２参照）では、演算処理が必要なの
は、全てのプロセッサエレメント(PEi) 1 ではなく、一
部のプロセッサエレメントである。このため、これらの
処理を頻繁に行う数値シミュレーションでは、演算処理
を行わない他のプロセッサエレメント(PEj) に待ちが生
じて稼動率が下がり、並列処理の効果が出にくい。

【００１７】本発明は上記従来の欠点に鑑み、並列計算
機で行われる数値シミュレーション等の並列処理に必要
であるが、数値シミュレーションの並列処理効果を下げ
る、複合通信処理を、高速に行うことができる通信処理
の方法を提供することを目的とするものである。

【００１８】

【課題を解決するための手段】図１は、本発明の一実施
例を模式的に示した図であり、図２はバイナリーツリー
による大域的処理を説明する図である。上記の問題点は
下記の如くに構成した並列計算機における通信処理方法
によって解決される。

【００１９】(1) 分散型メモリ (主記憶装置) 12を備え
た複数個のプロセッサエレメント 1が、通信ネットワー
ク 3を介して接続されている並列計算機におけるプロセ
ッサエレメント 1での通信処理回路であって、各プロセ
ッサエレメント 1内に、計算処理部 10 とは別に、プロ
セッサエレメントの論理アドレスと，全プロセッサエ
レメントの数と、計算処理部 10 からゆローカルデー
タ, と, 通信ネットワーク 3から受信した通信デー
タとを格納するレジスタ 110,111,112,120,113，バッ
ファ 116,117と、各種の演算器114,115と、通信制御を
行うコントロールシーケンサ 118と、通信ネットワーク
インタフェーサ 119とからなる通信処理部 11 を設け、
計算処理部 10 で実行されるソフトウェアからの指示
で、上記レジスタ 110,111にプロセッサエレメントの論
理アドレス、プロセッサエレメントの数を設定した
後、該設定された論理アドレスと，プロセッサエレメ
ント数と，第何回目の通信であるかを指示しているコ
ントロールシーケンサ 118のシーケンス番号とで定ま
る通信処理（データの送信, 又は、データ受信，演算，
又は、演算結果の送信）を、選択的に、上記計算処理部
10 での動作とは独立に実行するように構成する。

【００２０】(2) 上記通信処理として、バイナリーツリ
ー手順により、大域的な演算を行うように構成する。

【００２１】

【作用】前述のように、分散メモリ型並列計算機で、例
えば、数値シミュレーションを並列処理する際に必要
な、プロセッサエレメント(PEi) 間の通信を必要とする
大域的な処理の例として、 a) 最大最小値探索（大小比
較）、 b) 大域的論理演算(論理和, 排他的論理和等)
、 c) 総和計算（浮動少数点，整数の加算）、 d)デー
タ列の合同 (繋ぎ合わせ) 等があるが、この大域的処理
で最も有効な通信手段として、図２に示したバイナリー
ツリーアルゴリズムが知られている。

【００２２】図２から明らかなように、バイナリーツリ
ーによる通信処理では、該並列計算機を構成しているプ
ロセッサエレメント(PE1,PE2, 〜) の数によって、該バ
イナリーツリーの構成が決められ、図２の構成例では、
例えば、奇数番号のプロセッサエレメント(PE1,PE3,PE
5, 〜) 1 では、通信ネットワーク 3から通信データ
を受信して、予め、定められている演算処理(OPRで示
す) を実行するか、更に、実行した演算結果を、１つ，
又は、２つ，又は、４つ若番のプロセッサエレメント(P
Ej) 1 に転送するかに定形化されており、どの通信処理
を行うかは、上記バイナリーツリーの第何番目の通信で
あるかによって決まっている。

【００２３】例えば、プロセッサエレメント(PE1) 1
は、データを受信して、所定の演算を繰り返すのみであ
るが、プロセッサエレメント(PE3,PE7, 〜) 1 では、第
１回目の通信処理で、演算処理を行い、演算結果を他の
プロセッサエレメント(PE1) 1に送信するのみであり、
プロセッサエレメント(PE5, 〜) 1 では、第１回目の通
信処理では演算処理のみであり、第２回目の通信処理で
は、演算した結果を他のプロセッサエレメント(PE1) 1
に送信するといったように、プロセッサエレメント(PE
i) のプロセッサエレメントアドレス (番号) と、第
何回目の通信処理（これは、コントロールシーケンサ番
号で決まる）であるかにより、通信処理の内容が定形
化されている。

【００２４】又、偶数番号のプロセッサエレメント(PE
2,PE4, 〜) 1 では、自己の持っているデータ (即ち、
ホストから配分されているデータ、ローカルデータ)
を他のプロセッサエレメント(PE1,PE3, 〜) 1 に送信す
るのみである。

【００２５】本発明は、この点に着目して、各プロセッ
サエレメント 1内に、本体部である計算処理部 10 とは
別に、プロセッサエレメントの論理アドレスと，全プ
ロセッサエレメントの数と、自己の持っているローカ
ルデータ, と、通信ネットワーク 3から受信した通
信データとを格納するレジスタ 110,111,112,120,11
3，バッファ 116,117と、各種の演算器 114,115と、通
信制御を行うコントロールシーケンサ 118と、通信ネッ
トワークインタフェーサ(119) とからなる通信処理部 1
1 を設け、該計算処理部 10 で実行されるソフトウェア
からの指示で、上記レジスタ 110,111にプロセッサエレ
メントの論理アドレス、プロセッサエレメントの数
を設定した後、該設定された論理アドレスと，プロセ
ッサエレメント数と，第何回目の通信であるかを指示
しているコントロールシーケンサ 118のシーケンス番号
とで定まる通信処理（データの送信, 又は、データ受
信，演算，又は、演算結果の送信）を、選択的に、上記
計算処理部 10 での動作とは独立に実行するように構成
したものである。

【００２６】従って、従来のように、汎用的なメッセー
ジパッシング（メッセージの受け渡し）の通信ソフトウ
ェアを多数回実行することによるオーバヘッドを少なく
でき、又、定形的な処理となるバイナリーツリーアルゴ
リズムを、簡単なハードウェア機構で実行することによ
り、プロセッサエレメント(PEi) の本体部である計算処
理部でのメモリアクセス, 入出力処理と競合することな
く、演算処理を実行でき、又、通信ネットワークの通信
データを、各プロセッサエレメント(PEi) の計算処理
部へ移動させずに済む為、通信処理を高速化できる。こ
の結果、複合通信処理の時間を短縮することができ、全
プロセッサエレメント(PEi) の稼働率を向上させること
ができる効果が得られる。

【００２７】

【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図１は、本発明の一実施例を模式的に示した
図であり、図２は、バイナリーツリーによる大域的処理
を説明する図である。

【００２８】本発明においては、各プロセッサエレメン
ト 1内に、本体部である計算処理部10 とは別に、プロ
セッサエレメントの論理アドレスと，全プロセッサエ
レメントの数と、ローカルデータ, と、通信ネッ
トワークから受信した通信データとを格納するレジス
タ 110,111,112,120,113，バッファ 116,117と、各種の
演算器 114,115と、通信制御を行うコントロールシーケ
ンサ 118と、通信ネットワークインタフェーサ(119) と
からなる通信処理部 11 を設け、該計算処理部10 で実
行されるソフトウェアからの指示で、上記レジスタ 11
0,111にプロセッサエレメントの論理アドレス、プロ
セッサエレメントの数を設定した後、該設定された論
理アドレスと，プロセッサエレメント数と，第何回
目の通信であるかを指示しているコントロールシーケン
サ 118のシーケンス番号とで定まる通信処理（データ
の送信, 又は、データ受信，演算，又は、演算結果の送
信）を、選択的に、上記計算処理部 10 での動作とは独
立に実行する手段が、本発明を実施するのに必要な手段
である。尚、全図を通して同じ符号は同じ対象物を示し
ている。

【００２９】以下、図１，図２によって、本発明の分散
メモリ型並列計算機における通信処理回路の構成と動作
を説明する。分散メモリ型並列計算機のプロセッサエレ
メント(PE1,PE2, 〜) 1 は、図１に示されているよう
に、計算処理部 10 と通信処理部 11 とから成り、通信
処理部11 に、大域的処理を行う専用のハードウェア機
構として、プロセッサエレメントの論理アドレスと，
全プロセッサエレメントの数と、ローカルデータ,
と、通信ネットワーク 3から受信した通信データと
を格納するレジスタ 110,111,112,120,113，バッファ 1
16,117と、各種の演算器 114,115と、通信制御を行うコ
ントロールシーケンサ 118と、通信ネットワークインタ
フェーサ 119を設け、計算処理部 10 で実行されるソフ
トウェア命令により起動された後は、全てハードウェア
により、計算処理部 10 とは独立に、大域的な通信処理
が、以下に説明するハードウェア機構１，２で実行され
る。

【００３０】「ハードウェア機構１」：バイナリーツリ
ーによる通信先の決定と，送受信を制御する機構とし
て、プロセッサエレメントの論理アドレスを設定する
レジスタ(R1) 110と、バイナリーツリーによる通信処理
の定形化に関与する全プロセッサエレメントの数を設
定するレジスタ(R2) 111と、主記憶装置 12 上のデー
タ、即ち、ローカルデータを格納しておくレジスタ(R
3) 112, 及び、バッファ(BUF) 116 と、ローカルデータ
のデータ長を格納しておくレジスタ(R5) 120と、通信
ネットワーク 3からの通信データを格納するレジスタ
(R3) 113, 及び、バッファ(BUF) 117 と、現在の通信処
理が、上記バイナリーツリーによる通信処理における第
何回目の通信処理であるか、即ち、シーケンス番号を
指示して、所定の制御信号を出力するコントロールシー
ケンサ 118とを通信処理部 11 内に設ける。

【００３１】コントロールシーケンサ 118は、レジスタ
(R1) 110にあるプロセッサエレメントアドレス, 及
び、レジスタ(R2) 111に設定されている全プロセッサエ
レメントの数をもとに通信処理を制御する。

【００３２】バイナリーツリーによる通信先の決定方法
を図２示す。図２から明らかなように、バイナリーツリ
ーによる通信処理では、例えば、奇数番号のプロセッサ
エレメント(PE1,PE3,PE5, 〜) 1 では、通信ネットワー
ク 3から通信データを受信して、予め、定められてい
る演算処理(OPRで示す) を実行するか、更に、実行した
演算結果を、１つ，又は、２つ，又は、４つ若番のプロ
セッサエレメント(PEj) 1 に転送するかに定形化されて
おり、どの通信処理を行うかは、上記バイナリーツリー
の第何番目の通信であるか、即ち、上記シーケンス番号
によって決まっている。

【００３３】例えば、プロセッサエレメント(PE1) 1
は、データを受信して、所定の演算を繰り返すのみであ
るが、プロセッサエレメント(PE3,PE7, 〜) 1 では、第
１回目の通信処理で、演算処理を行い、演算結果を他の
プロセッサエレメント(PE1) 1に送信するのみであり、
プロセッサエレメント(PE5, 〜) 1 では、第１回目の通
信処理では演算処理のみであり、第２回目の通信処理で
は、演算した結果を他のプロセッサエレメント(PE1) 1
に送信するといったように、プロセッサエレメント(PE
i) のプロセッサエレメントアドレス (番号) と、第
何回目の通信処理であるかを示すシーケンス番号によ
り、通信処理の内容が定形化されている。

【００３４】又、偶数番号のプロセッサエレメント(PE
2,PE4, 〜) 1 では、自己の持っているデータ (即ち、
ホストから配分されているローカルデータ) を他のプ
ロセッサエレメント(PE1,PE3, 〜) 1 に送信するのみで
ある。

【００３５】そこで、本発明においては、上記レジスタ
(R1) 110に設定されている自己のプロセッサエレメント
アドレス (プロセッサエレメント番号) と、レジスタ
(R2)111に設定されている、バイナリーツリーの全体の
構成を決定する全プロセッサエレメントの数と、該バ
イナリーツリーによる通信処理において、第何回目の通
信処理であるかを指示するコントロールシーケンサ 118
のシーケンス番号とによって、自己の処理する通信処
理の形態を決定する。

【００３６】「ハードウェア機構２」: 上記ハードウェ
ア機構１の制御により動作する浮動小数点加算器(FLOA
T) 114 、整数加算器(INT) 115 、又は、演算処理時に
アクセスされる、前述のレジスタ(R3) 112, レジスタ(R
4) 113, レジスタ(R5) 120、及び、バッファ(BUF) 116,
117 を通信処理部 11 に設ける。

【００３７】上記レジスタ(R4) 113, 及びバッファ(BU
F) 117 は、通信ネットワーク 3から直接通信データ
を受け取り、又、通信ネットワーク 3へ直接、ホストか
ら配分されているローカルデータ, 或いは、自己の通
信処理部 11 内の上記浮動小数点加算器(FLOAT) 114 、
整数加算器(INT) 115 での演算結果データを通信ネット
ワーク 3に送出させる。これらのハードウェア機構は、
次の実施例のように動作して大域的処理を行う。

【００３８】「段階１」：計算処理部 10 で実行される
ソフトウェア、例えば、前述の通信ライブラリの指示に
より、上記「ハードウェア機構１」が動作を開始する。
この時、ソフトウェアからプロセッサエレメントの論理
アドレスを受け取り、上記レジスタ(R1) 110に設定す
る。又、ソフトウェアから大域的処理を行う対象である
ローカルデータを、前述の大域的処理ａ）、ｂ）、
ｃ）の場合は、ローカルデータ用のレジスタ(R3) 112に
受け取り、大域的処理ｄ）の場合は、バッファ(BUF) 11
6 に受け取る。又、前述の大域的処理ｄ）の場合は、ロ
ーカルデータの長さを、データ長用のレジスタ(R5) 1
20に受け取る。

【００３９】「段階２」：演算を担当するプロセッサエ
レメント(PEi) 1 は、バイナリツリーアルゴリズムに従
って、他のプロセッサ演算(PEj) 1 から通信データを
受信し、次の処理を行う。

【００４０】1）大域的処理ａ）、ｂ）、ｃ）｛大小比
較, 論理和, 排他的論理和, 論理演算等｝の場合、レジ
スタ(R3) 112にあるローカルデータと、通信ネットワ
ーク3から転送され、レジスタ(R4) 113に格納されてい
る通信データとの間で、それぞれの演算を行い、結果
は、バイナリツリーアルゴリズムに従って、ローカルデ
ータ用レジスタ(R3) 112に格納するか、又は、他のプロ
セッサエレメント(PEj) 1 に送信する。

【００４１】2) 大域的処理ｄ）｛合同、即ち、データ
の結合｝の場合、ネットワーク 3から転送され、バッフ
ァ(BUF) 117 に格納されている通信データを、上記デ
ータ長用のレジスタ(R5) 120を参照して、バッファ(BU
F) 116 にあるローカルデータの最後尾に追加して書
き込み、合計したデータ長を、上記データ長用のレジス
タ(R5) 120に書き込む。

【００４２】上記「段階１，２」での処理をバイナリー
ツリーが収束するまで繰り返す。「段階３」：バイナリーツリーの頂点に立つプロセッサ
エレメント (例えば、図１に示したバイナリーツリー構
成では、PE1) 1は、最終結果を他の全てのプロセッサエ
レメントに放送し、次の処理に備える。

【００４３】このように、本発明においては、並列計算
機における通信処理回路において、プロセッサエレメン
ト内に、計算処理部とは別に、プロセッサエレメントの
論理アドレスと，全プロセッサエレメントの数と、
ローカルデータと、通信データとを格納するレジス
タ，バッファと、各種の演算器と、通信制御を行うコン
トロールシーケンサとからなる通信処理部を設け、計算
処理部で実行されるソフトウェアからの指示で、上記レ
ジスタにプロセッサエレメントの論理アドレス、プロ
セッサエレメントの数を設定した後、該設定された論
理アドレスと，プロセッサエレメント数と，第何回
目の通信であるかを指示しているコントロールシーケン
サのシーケンス番号とで定まるバイナリーツリー方法
による大域的な通信処理（データの送信，又は、データ
受信，演算，又は、演算結果の送信）を、選択的に、計
算処理部 (本体部) での動作とは独立に実行するように
構成したところに特徴がある。

【００４４】

【発明の効果】以上、詳細に説明したように、本発明の
並列計算機における通信処理回路によれば、汎用的なメ
ッセージパッシング (メッセージの受け渡し) の通信ソ
フトウェアを多数回実行することによるオーバーヘッド
を避けることができ、又、定形的処理である、バイナリ
ツリーアルゴリズムをハードウェア機構で実行すること
により、プロセッサエレメント(PE1,PE2, 〜) の他の入
出力やメモリアクセスと競合せずに、演算処理の制御を
行わせることができ、また通信ネットワークからの通信
データをプロセッサエレメント(PE1,PE2, 〜) の計算
処理部 (本体部)へ移動せずに済むため、処理が高速化
できる。この結果、複合通信処理の時間を短縮でき、全
プロセッサエレメントの稼動率を向上させることができ
る効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例を模式的に示した図

【図２】バイナリーツリーによる大域的処理を説明する
図

【図３】並列計算機での従来の通信処理方法を説明する
図

【符号の説明】

1 プロセッサエレメント(PE1,PE2, 〜) 10 計算処理部 (本体部) 11 通信処理部 110 レジスタ(R1) 111 レジスタ(R
2) 112 レジスタ(R3) 113 レジスタ(R
4) 114 浮動小数点加算器(FLOAT) 115 整数加算器(INT) 116,117 バッ
ファ(BUF) 118 コントロールシーケンサ 119 通信ネットワークインタフェーサ 120 レジスタ(R5) 12 分散型メモリ (主記憶装置) 3 通信ネット
ワークプロセッサエレメントアドレス (プロセッサエレ
メントの番号) プロセッサエレメントの数通信データシーケンス番号ローカルデータローカルデータ (データ長)

Claims

【特許請求の範囲】

【請求項１】分散型メモリ(12)を備えた複数個のプロセ
ッサエレメント(1) が、通信ネットワーク(3) を介して
接続されている並列計算機におけるプロセッサエレメン
ト(1) での通信処理回路であって、各プロセッサエレメント(1) 内に、計算処理部(10)とは
別に、プロセッサエレメントの論理アドレス () と，
全プロセッサエレメントの数 () と、計算処理部(10)
からのローカルデータ (，）と、通信ネットワーク
(3) から受信した通信データ () とを格納するレジス
タ(110,111,112,120,113) ，バッファ(116,117) と、各
種の演算器(114,115) と、通信制御を行うコントロール
シーケンサ(118) と、通信ネットワークインタフェーサ
(119) とからなる通信処理部(11)を設け、計算処理部(10)で実行されるソフトウェアからの指示
で、上記レジスタ(110,111) にプロセッサエレメントの
論理アドレス () 、プロセッサエレメントの数()
を設定した後、該設定された論理アドレス () と，プ
ロセッサエレメント数 () と，第何回目の通信である
かを指示しているコントロールシーケンサ(118) のシー
ケンス番号 () とで定まる通信処理（データの送信,
又は、データ受信，演算，又は、演算結果の送信）
を、選択的に、上記計算処理部(10)での動作とは独立に
実行することを特徴とする並列計算機における通信処理
回路。
【請求項２】上記通信処理として、バイナリーツリー手
順により、大域的な演算を行うことを特徴とする請求項
１に記載の並列計算機における通信処理回路。