JPH1091601A - クラスタ結合並列計算機 - Google Patents
クラスタ結合並列計算機Info
- Publication number
- JPH1091601A JPH1091601A JP24197896A JP24197896A JPH1091601A JP H1091601 A JPH1091601 A JP H1091601A JP 24197896 A JP24197896 A JP 24197896A JP 24197896 A JP24197896 A JP 24197896A JP H1091601 A JPH1091601 A JP H1091601A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- block
- data
- reply
- interconnection network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012546 transfer Methods 0.000 claims abstract description 70
- 239000000872 buffer Substances 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Multi Processors (AREA)
Abstract
(57)【要約】
【課題】 クラスタ結合並列計算機において、クラスタ
間結合網が書き込みデータブロックの転送完了を要求元
に生成することにより、性能を向上させる。 【解決手段】 入力ポートからのデータブロックは、ブ
ロック分解部410〜41n−1で、データ部とコマン
ド部とに分解される。データ部は、入力バッファ部42
0〜42n−1に一時格納される。コマンド部が書き込
みであると、リプライブロック生成部470でリプライ
ブロック部が作成され、入力バッファ部42nに格納さ
れる。クロスバ制御部470では、コマンド部を元に、
n+1ウェイセレクタ440〜44n−1の切り替えを
制御し、入力バッファ部420〜42n−1からのデー
タ部、または、リプライブロック部を出力ポート450
〜45n−1に出力させる。
間結合網が書き込みデータブロックの転送完了を要求元
に生成することにより、性能を向上させる。 【解決手段】 入力ポートからのデータブロックは、ブ
ロック分解部410〜41n−1で、データ部とコマン
ド部とに分解される。データ部は、入力バッファ部42
0〜42n−1に一時格納される。コマンド部が書き込
みであると、リプライブロック生成部470でリプライ
ブロック部が作成され、入力バッファ部42nに格納さ
れる。クロスバ制御部470では、コマンド部を元に、
n+1ウェイセレクタ440〜44n−1の切り替えを
制御し、入力バッファ部420〜42n−1からのデー
タ部、または、リプライブロック部を出力ポート450
〜45n−1に出力させる。
Description
【0001】
【発明の属する技術分野】本発明は並列計算機に関し、
特に、クラスタ間結合網を介して結合されたクラスタ結
合並列計算機に関する。
特に、クラスタ間結合網を介して結合されたクラスタ結
合並列計算機に関する。
【0002】
【従来の技術】クラスタ結合並列計算機は、複数個のク
ラスタと、それらを結合するクラスタ間相互結合網とか
ら構成されている。クラスタとは、複数個のプロセッサ
と、主記憶装置と、リモートアクセス制御装置と、それ
らを接続するクラスタ内相互結合網とより構成される並
列計算機ノードのことを言う。たとえば、「特開平7−
39545号公報」にクラスタ結合の並列計算機の構成
が示されている。以下、この従来技術について説明す
る。
ラスタと、それらを結合するクラスタ間相互結合網とか
ら構成されている。クラスタとは、複数個のプロセッサ
と、主記憶装置と、リモートアクセス制御装置と、それ
らを接続するクラスタ内相互結合網とより構成される並
列計算機ノードのことを言う。たとえば、「特開平7−
39545号公報」にクラスタ結合の並列計算機の構成
が示されている。以下、この従来技術について説明す
る。
【0003】クラスタ間のデータ転送とは、あるクラス
タ内の主記憶装置から、一方のクラスタ内の主記憶装置
へのデータ転送である。そのデータ転送を指示するのは
クラスタ内のプロセッサであり、そのデータ転送命令を
発行するプロセッサが属しているクラスタのことをロー
カルクラスタ、そのデータの転送先クラスタのことをリ
モートクラスタと呼ぶ。
タ内の主記憶装置から、一方のクラスタ内の主記憶装置
へのデータ転送である。そのデータ転送を指示するのは
クラスタ内のプロセッサであり、そのデータ転送命令を
発行するプロセッサが属しているクラスタのことをロー
カルクラスタ、そのデータの転送先クラスタのことをリ
モートクラスタと呼ぶ。
【0004】データ転送はロード転送タイプとストア転
送タイプの2種類ある。ロード転送とは、データ転送の
方向がリモートクラスタからローカルクラスタ、すなわ
ち、リモートクラスタ内の主記憶内に格納されているデ
ータを読み出し、これをローカルクラスタへ転送した
後、ローカルクラスタ内の主記憶へ書き込む転送であ
る。ストア転送は、ロード転送の逆でローカルクラスタ
からリモートクラスタへの転送となる。
送タイプの2種類ある。ロード転送とは、データ転送の
方向がリモートクラスタからローカルクラスタ、すなわ
ち、リモートクラスタ内の主記憶内に格納されているデ
ータを読み出し、これをローカルクラスタへ転送した
後、ローカルクラスタ内の主記憶へ書き込む転送であ
る。ストア転送は、ロード転送の逆でローカルクラスタ
からリモートクラスタへの転送となる。
【0005】ロード転送の場合、ローカルクラスタから
リモートクラスタへ、リモートクラスタ内主記憶の読み
出しアドレスを送出する。このアドレス送出のことをロ
ードリクエストと呼ぶ。ロードリクエスト到着後、リモ
ートクラスタにおいて、そのアドレスで示された番地か
らリモート主記憶装置の格納データの読み出し処理を行
い、このデータをローカルクラスタへ送出する。このデ
ータ送出のことをロードリプライと呼ぶ。ロードリプラ
イがローカルクラスタへ送出され、そのデータがローカ
ルクラスタの主記憶へ書き込まれる。最後に、このデー
タ転送命令を発行したプロセッサに対し、データ転送の
完了通知が行われる。
リモートクラスタへ、リモートクラスタ内主記憶の読み
出しアドレスを送出する。このアドレス送出のことをロ
ードリクエストと呼ぶ。ロードリクエスト到着後、リモ
ートクラスタにおいて、そのアドレスで示された番地か
らリモート主記憶装置の格納データの読み出し処理を行
い、このデータをローカルクラスタへ送出する。このデ
ータ送出のことをロードリプライと呼ぶ。ロードリプラ
イがローカルクラスタへ送出され、そのデータがローカ
ルクラスタの主記憶へ書き込まれる。最後に、このデー
タ転送命令を発行したプロセッサに対し、データ転送の
完了通知が行われる。
【0006】ストア転送の場合、まず、ローカルクラス
タ内の主記憶装置から読み出し処理が行われた後、その
データと、リモートクラスタ内で主記憶へデータを書き
込み処理をするための書き込みアドレスとが送出され
る。この書き込みアドレスとデータを1つの転送単位と
見なし、ストアリクエストと呼ぶ。リモートクラスタで
書き込み処理が完了したならば、その完了通知をローカ
ルクラスタ内のデータ転送命令を発行したプロセッサへ
送出する必要がある。その完了通知のことをストアリプ
ライと呼ぶ。
タ内の主記憶装置から読み出し処理が行われた後、その
データと、リモートクラスタ内で主記憶へデータを書き
込み処理をするための書き込みアドレスとが送出され
る。この書き込みアドレスとデータを1つの転送単位と
見なし、ストアリクエストと呼ぶ。リモートクラスタで
書き込み処理が完了したならば、その完了通知をローカ
ルクラスタ内のデータ転送命令を発行したプロセッサへ
送出する必要がある。その完了通知のことをストアリプ
ライと呼ぶ。
【0007】また、ロードリクエスト、ロードリプラ
イ、ストアリクエスト、ストアリプライがクラスタ間ネ
ットワークを転送される場合、それら1つ1つの転送単
位のことを総称してブロックと呼ぶ。したがって、ブロ
ック転送とはこれら4つのいずれかのリクエスト、リプ
ライ転送を意味する。
イ、ストアリクエスト、ストアリプライがクラスタ間ネ
ットワークを転送される場合、それら1つ1つの転送単
位のことを総称してブロックと呼ぶ。したがって、ブロ
ック転送とはこれら4つのいずれかのリクエスト、リプ
ライ転送を意味する。
【0008】クラスタ間のブロック転送は、プロセッサ
が直接に処理を実行するのではなく、クラスタ内のリモ
ートアクセス制御装置が代行する。すなわち、プロセッ
サはデータ転送命令を発行したならば、このデータ転送
要求を、クラスタ内のリモートアクセス制御装置に通知
する。プロセッサが発行するデータ転送命令のフォーマ
ットは、ロード転送かストア転送なのかの区別を示すコ
ード、ローカルクラスタ内主記憶に対する書き込み・読
み出し先頭アドレス、リモートクラスタ内主記憶に対す
る読み出し・書き込みアドレス、転送長の4つのフィー
ルドより構成される。これら全フィールドの値はリモー
トアクセス制御装置へ転送される。
が直接に処理を実行するのではなく、クラスタ内のリモ
ートアクセス制御装置が代行する。すなわち、プロセッ
サはデータ転送命令を発行したならば、このデータ転送
要求を、クラスタ内のリモートアクセス制御装置に通知
する。プロセッサが発行するデータ転送命令のフォーマ
ットは、ロード転送かストア転送なのかの区別を示すコ
ード、ローカルクラスタ内主記憶に対する書き込み・読
み出し先頭アドレス、リモートクラスタ内主記憶に対す
る読み出し・書き込みアドレス、転送長の4つのフィー
ルドより構成される。これら全フィールドの値はリモー
トアクセス制御装置へ転送される。
【0009】リモートアクセス制御装置がこの要求を受
理すると、ロード転送ならばロードリクエストブロック
を生成した後、リモートクラスタへ送出する。ストア転
送ならば自クラスタ内主記憶に対しデータ読み出し処理
を行った後、この読み出しデータとリモートクラスタで
の書き込みアドレスを一緒にしてストアリクエストブロ
ックを生成した後、リモートクラスタへ送出する。
理すると、ロード転送ならばロードリクエストブロック
を生成した後、リモートクラスタへ送出する。ストア転
送ならば自クラスタ内主記憶に対しデータ読み出し処理
を行った後、この読み出しデータとリモートクラスタで
の書き込みアドレスを一緒にしてストアリクエストブロ
ックを生成した後、リモートクラスタへ送出する。
【0010】リモートクラスタ内のリモートアクセス制
御装置はローカルクラスタより転送された上記ロードリ
クエストを受理すると、ブロック内に格納されているア
ドレスにしたがい、リモートクラスタ内主記憶からの読
み出し処理を行い、読み出しデータをロードリプライブ
ロックとして生成し、これをローカルクラスタへ送出す
る。ストアリクエストであれば、ブロック内に格納され
ているアドレスにしたがい、ブロック内のデータをリモ
ートクラスタ内主記憶へ書き込み処理を行う。書き込み
処理完了後、完了通知をストアリプライとして生成し、
ローカルクラスタへ送出する。
御装置はローカルクラスタより転送された上記ロードリ
クエストを受理すると、ブロック内に格納されているア
ドレスにしたがい、リモートクラスタ内主記憶からの読
み出し処理を行い、読み出しデータをロードリプライブ
ロックとして生成し、これをローカルクラスタへ送出す
る。ストアリクエストであれば、ブロック内に格納され
ているアドレスにしたがい、ブロック内のデータをリモ
ートクラスタ内主記憶へ書き込み処理を行う。書き込み
処理完了後、完了通知をストアリプライとして生成し、
ローカルクラスタへ送出する。
【0011】ロードリプライがローカルクラスタへ転送
されると、リモートアクセス制御装置は、ブロック内に
格納されているデータをローカルクラスタ内主記憶へ書
き込む。なお、この時の書き込みアドレスはローカルク
ラスタ内リモートアクセス制御装置で保持している。書
き込み処理終了後、リモートアクセス制御装置は、デー
タ転送命令を発行したプロセッサに対し完了報告通知を
行う。ストアリプライがローカルクラスタへ転送される
と、リモートアクセス制御装置は、データ転送命令を発
行したプロセッサに対し完了報告通知を行う。
されると、リモートアクセス制御装置は、ブロック内に
格納されているデータをローカルクラスタ内主記憶へ書
き込む。なお、この時の書き込みアドレスはローカルク
ラスタ内リモートアクセス制御装置で保持している。書
き込み処理終了後、リモートアクセス制御装置は、デー
タ転送命令を発行したプロセッサに対し完了報告通知を
行う。ストアリプライがローカルクラスタへ転送される
と、リモートアクセス制御装置は、データ転送命令を発
行したプロセッサに対し完了報告通知を行う。
【0012】一般に、クラスタ内の複数個のプロセッサ
と主記憶装置を接続する結合網は、比較的速いアクセス
タイムと高いメモリスループットが得られるように密に
結合されるよう構成される。一方、複数個のクラスタを
接続する結合網は、実装技術および回路技術等の制約よ
り、比較的遅いアクセスタイムと低い通信スループット
で結合される。したがって、クラスタ間のデータ転送は
クラスタ内主記憶アクセスに対し、データ転送性能が低
く、これがクラスタ構成の並列計算機の性能のネックに
なっている。
と主記憶装置を接続する結合網は、比較的速いアクセス
タイムと高いメモリスループットが得られるように密に
結合されるよう構成される。一方、複数個のクラスタを
接続する結合網は、実装技術および回路技術等の制約よ
り、比較的遅いアクセスタイムと低い通信スループット
で結合される。したがって、クラスタ間のデータ転送は
クラスタ内主記憶アクセスに対し、データ転送性能が低
く、これがクラスタ構成の並列計算機の性能のネックに
なっている。
【0013】
【発明が解決しようとする課題】クラスタ間データ転送
の処理時間は一般的に遅い。すなわち、プロセッサがデ
ータ転送命令を発行し、クラスタ間を渡るデータ転送が
処理され、データ転送完了後に完了通知をプロセッサに
通知するまでの時間、このクラスタ間データ転送命令の
処理時間が非常に大きい。その理由は、クラスタ間の物
理的距離の遠さによるデータ転送遅延時間と、リモート
アクセス先クラスタ内でのクラスタ内アクセスとの競合
による遅延時間があるからである。したがって、クラス
タ転送データ転送の処理時間の長大化により、クラスタ
型並列計算機の性能低下を引き起こすという問題があ
る。
の処理時間は一般的に遅い。すなわち、プロセッサがデ
ータ転送命令を発行し、クラスタ間を渡るデータ転送が
処理され、データ転送完了後に完了通知をプロセッサに
通知するまでの時間、このクラスタ間データ転送命令の
処理時間が非常に大きい。その理由は、クラスタ間の物
理的距離の遠さによるデータ転送遅延時間と、リモート
アクセス先クラスタ内でのクラスタ内アクセスとの競合
による遅延時間があるからである。したがって、クラス
タ転送データ転送の処理時間の長大化により、クラスタ
型並列計算機の性能低下を引き起こすという問題があ
る。
【0014】本発明の目的は、データ転送完了通知まで
の時間を短縮し、性能を向上させることである。
の時間を短縮し、性能を向上させることである。
【0015】
【課題を解決するための手段】本発明の第1のクラスタ
結合並列計算機は、複数個のプロセッサと主記憶装置と
クラスタ内相互結合網とを有する複数のクラスタをクラ
スタ間相互結合網により結合するクラスタ結合並列計算
機であって、前記クラスタ間相互結合網が、ストアデー
タに対するリプライを生成する機能を備える。
結合並列計算機は、複数個のプロセッサと主記憶装置と
クラスタ内相互結合網とを有する複数のクラスタをクラ
スタ間相互結合網により結合するクラスタ結合並列計算
機であって、前記クラスタ間相互結合網が、ストアデー
タに対するリプライを生成する機能を備える。
【0016】本発明の第2のクラスタ結合並列計算機
は、第1のクラスタ結合並列計算機であって、前記クラ
スタ間相互結合網が、(a)前記クラスタからのデータ
ブロックをコマンド部とデータ部に分解するブロック分
解手段と、(b)前記データ部を出力ポートに対して切
り替え・転送するクロスバ手段と、(c)前記コマンド
部を元に複数個の前記データブロックの競合調停を行
い、前記クロスバ手段の制御を行うクロスバ制御手段
と、(d)前記コマンド部が書き込みである場合に、要
求元に対するリプライブロック部を生成するリプライブ
ロック生成手段と、を備える。
は、第1のクラスタ結合並列計算機であって、前記クラ
スタ間相互結合網が、(a)前記クラスタからのデータ
ブロックをコマンド部とデータ部に分解するブロック分
解手段と、(b)前記データ部を出力ポートに対して切
り替え・転送するクロスバ手段と、(c)前記コマンド
部を元に複数個の前記データブロックの競合調停を行
い、前記クロスバ手段の制御を行うクロスバ制御手段
と、(d)前記コマンド部が書き込みである場合に、要
求元に対するリプライブロック部を生成するリプライブ
ロック生成手段と、を備える。
【0017】本発明の第3のクラスタ結合並列計算機
は、第2のクラスタ結合並列計算機であって、前記クロ
スバ手段が、(a)前記データ部を一時的に蓄える複数
の入力バッファ手段と、(b)前記入力バッファ部から
のデータ部、あるいは前記リプライブロック部を出力ポ
ートに対して選択・転送するセレクタ部と、を備える。
は、第2のクラスタ結合並列計算機であって、前記クロ
スバ手段が、(a)前記データ部を一時的に蓄える複数
の入力バッファ手段と、(b)前記入力バッファ部から
のデータ部、あるいは前記リプライブロック部を出力ポ
ートに対して選択・転送するセレクタ部と、を備える。
【0018】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。図2は本発明のクラスタ結
合並列計算機のシステム構成を示すブロック図である。
図2を参照すると、本発明のクラスタ結合並列計算機
は、n個のクラスタ100〜10n−1とこれらを結合
するクラスタ間相互結合網110とから構成される。各
クラスタ100〜10n−1はクラスタ間相互結合網1
10に対し1ポート分用意され、このポートとクラスタ
間相互結合網110とはリンクで結合される。したがっ
て、クラスタ間相互結合網110はクラスタの個数をn
とするならば、n入力、n出力のネットワーク構成とな
る。
て図面を参照して説明する。図2は本発明のクラスタ結
合並列計算機のシステム構成を示すブロック図である。
図2を参照すると、本発明のクラスタ結合並列計算機
は、n個のクラスタ100〜10n−1とこれらを結合
するクラスタ間相互結合網110とから構成される。各
クラスタ100〜10n−1はクラスタ間相互結合網1
10に対し1ポート分用意され、このポートとクラスタ
間相互結合網110とはリンクで結合される。したがっ
て、クラスタ間相互結合網110はクラスタの個数をn
とするならば、n入力、n出力のネットワーク構成とな
る。
【0019】クラスタ間のリクエストの通信は全て、ク
ラスタ間相互結合網110を経由することになる。クラ
スタ間相互結合網110は、同一のクラスタへリクエス
ト要求をする複数個のリクエストが同時に到着した場合
に、これの競合を調停し、リクエストを入力側から出力
側へ転送する機能を有している。
ラスタ間相互結合網110を経由することになる。クラ
スタ間相互結合網110は、同一のクラスタへリクエス
ト要求をする複数個のリクエストが同時に到着した場合
に、これの競合を調停し、リクエストを入力側から出力
側へ転送する機能を有している。
【0020】図3は図2のクラスタの構成を示すブロッ
ク図である。図3を参照すると、各クラスタ100〜1
0n−1は、m個のプロセッサ200〜20m−1と主
記憶装置210とリモートアクセス制御装置230とこ
れらを結合するクラスタ内相互結合網220とから構成
される。n個のクラスタで各クラスタにm個のプロセッ
サを有するならば、並列計算機全体でn×m個のプロセ
ッサを持っていることになる。主記憶装置210をアク
セスすることができるのは、自クラスタ内のプロセッサ
と、他クラスタのプロセッサ両方である。自クラスタ内
のプロセッサが自クラスタ内の主記憶装置をアクセスす
ることをローカルアクセス、他クラスタの主記憶装置を
アクセスすることをリモートアクセスと言う。
ク図である。図3を参照すると、各クラスタ100〜1
0n−1は、m個のプロセッサ200〜20m−1と主
記憶装置210とリモートアクセス制御装置230とこ
れらを結合するクラスタ内相互結合網220とから構成
される。n個のクラスタで各クラスタにm個のプロセッ
サを有するならば、並列計算機全体でn×m個のプロセ
ッサを持っていることになる。主記憶装置210をアク
セスすることができるのは、自クラスタ内のプロセッサ
と、他クラスタのプロセッサ両方である。自クラスタ内
のプロセッサが自クラスタ内の主記憶装置をアクセスす
ることをローカルアクセス、他クラスタの主記憶装置を
アクセスすることをリモートアクセスと言う。
【0021】クラスタ内相互結合網220は、1ポート
分がリモートアクセス制御装置を介するクラスタ間相互
結合網110へのアクセスパスとして用意されている。
クラスタ内相互結合網220は、自クラスタ内の複数個
のプロセッサから送られるローカルアクセスと、クラス
タ間相互結合網110より送られるリモートアクセスに
対して、リクエストの競合調停を行い、各リクエストを
所望の主記憶装置、プロセッサ、クラスタ間相互結合網
に転送する機能を有している。
分がリモートアクセス制御装置を介するクラスタ間相互
結合網110へのアクセスパスとして用意されている。
クラスタ内相互結合網220は、自クラスタ内の複数個
のプロセッサから送られるローカルアクセスと、クラス
タ間相互結合網110より送られるリモートアクセスに
対して、リクエストの競合調停を行い、各リクエストを
所望の主記憶装置、プロセッサ、クラスタ間相互結合網
に転送する機能を有している。
【0022】したがって、他クラスタの主記憶装置へリ
モートアクセスを行う場合には、リクエストの経路は、
自プロセッサを起点として、自クラスタ内相互結合網、
クラスタ間相互結合網を経由し、他クラスタの相互結合
網を経て、他クラスタの主記憶装置へ至ることになる。
アクセス後のリプライは、上記パスの逆向きにアクセス
が経由されることになる。
モートアクセスを行う場合には、リクエストの経路は、
自プロセッサを起点として、自クラスタ内相互結合網、
クラスタ間相互結合網を経由し、他クラスタの相互結合
網を経て、他クラスタの主記憶装置へ至ることになる。
アクセス後のリプライは、上記パスの逆向きにアクセス
が経由されることになる。
【0023】図1は、図3のクラスタ間相互結合網11
0の構成を示すブロック図である。本例では相互結合網
110の基本構成としてフルクロスバスイッチを用いて
いる。クラスタ間相互結合網110の構成としては、多
くのネットワーク構成が本発明に適応できるが、たとえ
ばクラスタ100からクラスタ1011へのリクエスト
と、それとは別のクラスタ102からクラスタ103へ
のリクエストとが同時に到達した時に、競合(ブロッキ
ング)が発生しないネットワーク構成が望ましい。フル
クロスバは全くブロッキングが生じないネットワークで
ある。フルクロスバスイッチ構成のクラスタ間相互結合
網110は、n入力n出力であり、各々クラスタに接続
される。図1を参照すると、クラスタ間相互結合網11
0は、入力ポート400〜40n−1にそれぞれ接続さ
れるブロック分解部410〜41n−1と、クロスバス
イッチ部480と、クロスバ制御部460と、リプライ
ブロック生成部470とから構成される。また、クロス
バスイッチ部480は、入力バッファ部420〜42n
−1と、リプライブロック生成部470からのリプライ
ブロックを格納する入力バッファ部42nと、入力バッ
ファ部420〜42nからのブロックを選択し、それぞ
れ出力ポート450〜45n−1に出力するn+1ウェ
イのセレクタ440〜44n−1と、とから構成され
る。
0の構成を示すブロック図である。本例では相互結合網
110の基本構成としてフルクロスバスイッチを用いて
いる。クラスタ間相互結合網110の構成としては、多
くのネットワーク構成が本発明に適応できるが、たとえ
ばクラスタ100からクラスタ1011へのリクエスト
と、それとは別のクラスタ102からクラスタ103へ
のリクエストとが同時に到達した時に、競合(ブロッキ
ング)が発生しないネットワーク構成が望ましい。フル
クロスバは全くブロッキングが生じないネットワークで
ある。フルクロスバスイッチ構成のクラスタ間相互結合
網110は、n入力n出力であり、各々クラスタに接続
される。図1を参照すると、クラスタ間相互結合網11
0は、入力ポート400〜40n−1にそれぞれ接続さ
れるブロック分解部410〜41n−1と、クロスバス
イッチ部480と、クロスバ制御部460と、リプライ
ブロック生成部470とから構成される。また、クロス
バスイッチ部480は、入力バッファ部420〜42n
−1と、リプライブロック生成部470からのリプライ
ブロックを格納する入力バッファ部42nと、入力バッ
ファ部420〜42nからのブロックを選択し、それぞ
れ出力ポート450〜45n−1に出力するn+1ウェ
イのセレクタ440〜44n−1と、とから構成され
る。
【0024】各入力バッファ部420〜42n−1は出
力ポート個数分のバッファより構成される。このような
バッファ構成のクロスバスイッチのことをクロスポイン
ト型クロスバスイッチと呼ぶ。本実施例においては、出
力ポート数はn個であるので、各入力バッファはn個の
バッファより構成される。したがって、入力ポート数が
n個であるので、バッファ数は総計n×n個となる。4
3xyの入力バッファは入力ポートxの出力ポートy対
応のバッファである。
力ポート個数分のバッファより構成される。このような
バッファ構成のクロスバスイッチのことをクロスポイン
ト型クロスバスイッチと呼ぶ。本実施例においては、出
力ポート数はn個であるので、各入力バッファはn個の
バッファより構成される。したがって、入力ポート数が
n個であるので、バッファ数は総計n×n個となる。4
3xyの入力バッファは入力ポートxの出力ポートy対
応のバッファである。
【0025】図4は各種別のブロック部の構成を示すブ
ロック図である。このブロック単位にクラスタ間をクラ
スタ間相互結合網110を介して転送される。各ブロッ
クは複数個のラインより構成される。ブロックを構成す
るラインのうち、先頭のライン(コマンドラインと呼
ぶ)のみ各ブロック種別とも共通に付加されている。
ロック図である。このブロック単位にクラスタ間をクラ
スタ間相互結合網110を介して転送される。各ブロッ
クは複数個のラインより構成される。ブロックを構成す
るラインのうち、先頭のライン(コマンドラインと呼
ぶ)のみ各ブロック種別とも共通に付加されている。
【0026】コマンドライン300、コマンドライン3
10、コマンドライン320、コマンドライン330
は、VALIDフィールド350、行き先クラスタ番号
フィールド351、ブロック種別フィールド352、デ
ータ転送長フィールド353とから構成される。VAL
IDEフィールド350は、このブロックが有効である
か否かを示しており、有効であれば“1”値が、無効、
すなわち、ブロック転送されないアイドル状態の時は
“0”値が入っている。行き先クラスタ番号フィールド
351には、このブロックの行き先クラスタ番号が入っ
ており、クラスタ間相互結合網110は、このフィール
ドを見てこのブロックのルーティングを行う。ブロック
種別フィールド352には、このブロックの「ロードリ
クエスト」、「ロードリプライ」、「ストアリクエス
ト」、「ストアリプライ」を区別する識別子が入ってい
る。データ転送長フィールド353には、転送するデー
タの転送長がバイト単位で入っている。ロードリクエス
ト、ストアリプライの場合は転送するデータは無いが、
このフィールドの値は転送先クラスタにおいて転送すべ
きデータ転送長が入っている。
10、コマンドライン320、コマンドライン330
は、VALIDフィールド350、行き先クラスタ番号
フィールド351、ブロック種別フィールド352、デ
ータ転送長フィールド353とから構成される。VAL
IDEフィールド350は、このブロックが有効である
か否かを示しており、有効であれば“1”値が、無効、
すなわち、ブロック転送されないアイドル状態の時は
“0”値が入っている。行き先クラスタ番号フィールド
351には、このブロックの行き先クラスタ番号が入っ
ており、クラスタ間相互結合網110は、このフィール
ドを見てこのブロックのルーティングを行う。ブロック
種別フィールド352には、このブロックの「ロードリ
クエスト」、「ロードリプライ」、「ストアリクエス
ト」、「ストアリプライ」を区別する識別子が入ってい
る。データ転送長フィールド353には、転送するデー
タの転送長がバイト単位で入っている。ロードリクエス
ト、ストアリプライの場合は転送するデータは無いが、
このフィールドの値は転送先クラスタにおいて転送すべ
きデータ転送長が入っている。
【0027】ロードリクエストはコマンドライン320
とアドレスライン321の2つのラインとにより構成さ
れる。アドレスライン321には、リモートクラスタで
リモートクラスタ内主記憶から読み出しを行う時の先頭
アドレスが入っている。ロードリプライはコマンドライ
ン330とデータライン331〜33nとにより構成さ
れる。データライン331〜33nはリモートクラスタ
から読み出されたデータが入っている。ストアリクエス
トはコマンドライン300とアドレスライン301、お
よびデータライン302〜30n+1とにより構成され
る。アドレスライン301には、リモートクラスタでリ
モートクラスタ内主記憶へ書き込みを行う時に先頭アド
レスが入っている。データライン302〜30n+1に
はリモートクラスタの主記憶へ書き込むデータが入って
いる。ストアリプライはコマンドライン310のみから
構成される。
とアドレスライン321の2つのラインとにより構成さ
れる。アドレスライン321には、リモートクラスタで
リモートクラスタ内主記憶から読み出しを行う時の先頭
アドレスが入っている。ロードリプライはコマンドライ
ン330とデータライン331〜33nとにより構成さ
れる。データライン331〜33nはリモートクラスタ
から読み出されたデータが入っている。ストアリクエス
トはコマンドライン300とアドレスライン301、お
よびデータライン302〜30n+1とにより構成され
る。アドレスライン301には、リモートクラスタでリ
モートクラスタ内主記憶へ書き込みを行う時に先頭アド
レスが入っている。データライン302〜30n+1に
はリモートクラスタの主記憶へ書き込むデータが入って
いる。ストアリプライはコマンドライン310のみから
構成される。
【0028】次に本発明の動作について図面を参照して
説明する。入力ポート400〜40n−1より有効なブ
ロックが到着すると、これはそれぞれブロック分解部4
10〜41n−1に送られる。ブロック分解部410〜
41n−1はブロックを構成するコマンドラインのコピ
ーを生成し、これをクロスバ制御部460に送出する。
また、コマンドラインを含む全ラインは、そのままクロ
スバスイッチ部480の入力バッファ部420〜42n
−1に送出される。入力バッファ部420〜42n−1
は、各々、さらに出力ポート450〜45n−1に対応
して、出力ポート数分の複数個の入力バッファより構成
されており、入力バッファ部420〜42n−1に到着
したブロックは、行き先のクラスタ番号、すなわち、出
力ポート番号に対応する入力バッファに格納される。
説明する。入力ポート400〜40n−1より有効なブ
ロックが到着すると、これはそれぞれブロック分解部4
10〜41n−1に送られる。ブロック分解部410〜
41n−1はブロックを構成するコマンドラインのコピ
ーを生成し、これをクロスバ制御部460に送出する。
また、コマンドラインを含む全ラインは、そのままクロ
スバスイッチ部480の入力バッファ部420〜42n
−1に送出される。入力バッファ部420〜42n−1
は、各々、さらに出力ポート450〜45n−1に対応
して、出力ポート数分の複数個の入力バッファより構成
されており、入力バッファ部420〜42n−1に到着
したブロックは、行き先のクラスタ番号、すなわち、出
力ポート番号に対応する入力バッファに格納される。
【0029】クロスバ制御部460においては、ブロッ
ク分解部410〜41n−1よりコマンドラインが受け
取られると、コマンドラインを構成する行き先クラスタ
番号フィールドが選び出される。このフィールドにはn
個の出力ポートのうち、どの出力ポートに通過すべきか
が書かれている。
ク分解部410〜41n−1よりコマンドラインが受け
取られると、コマンドラインを構成する行き先クラスタ
番号フィールドが選び出される。このフィールドにはn
個の出力ポートのうち、どの出力ポートに通過すべきか
が書かれている。
【0030】クロスバ制御部460は同一の出力ポート
に対し、同時に通過要求を出している複数個のブロック
のうち、ポートの優先度に従い選択を行う。選択された
入力ポート番号は、その出力ポート対応のn+1ウェイ
セレクタのセレクト信号として送られ、選択されたブロ
ックはn+1ウェイセレクタ440〜44n−1を通過
し、出力ポート450〜45n−1に達する。選択され
なかったブロックは、入力バッファ420〜42n−1
に一時的に格納され、次のタイミングで再度クロスバ制
御部に対し通過要求が出される。
に対し、同時に通過要求を出している複数個のブロック
のうち、ポートの優先度に従い選択を行う。選択された
入力ポート番号は、その出力ポート対応のn+1ウェイ
セレクタのセレクト信号として送られ、選択されたブロ
ックはn+1ウェイセレクタ440〜44n−1を通過
し、出力ポート450〜45n−1に達する。選択され
なかったブロックは、入力バッファ420〜42n−1
に一時的に格納され、次のタイミングで再度クロスバ制
御部に対し通過要求が出される。
【0031】ブロックが先頭のラインから、終端のライ
ンまでn+1ウェイセレクタ440〜44n−1を通過
するには、ライン数分の時間が必要になる。この制御も
クロスバ制御部460が行い、これは通過するブロック
のコマンドラインに記述されているブロック長をもとに
通過ライン数を算出して実施する。クロスバ制御部46
0は、故意にあるポートのブロック通過を遅らせること
がないように、公平なポート優先度の制御を行う。クロ
スバ制御部460は各出力ポート450〜45n−1へ
の接続要求に対し、独立かつ同時に競合調停制御可能な
構成をとる。たとえば、あるタイミングにおいて、入力
ポート400からのリクエストが出力ポート451の通
過要求し、入力ポート4011からのリクエストが出力
ポート450の通過要求を同時に出したとしても、クロ
スバ制御部460はこの2つのを同時に通過させる。し
たがって、各n+1ウェイセレクタ440〜44n−1
も独立に同時動作可能な構成となっている。
ンまでn+1ウェイセレクタ440〜44n−1を通過
するには、ライン数分の時間が必要になる。この制御も
クロスバ制御部460が行い、これは通過するブロック
のコマンドラインに記述されているブロック長をもとに
通過ライン数を算出して実施する。クロスバ制御部46
0は、故意にあるポートのブロック通過を遅らせること
がないように、公平なポート優先度の制御を行う。クロ
スバ制御部460は各出力ポート450〜45n−1へ
の接続要求に対し、独立かつ同時に競合調停制御可能な
構成をとる。たとえば、あるタイミングにおいて、入力
ポート400からのリクエストが出力ポート451の通
過要求し、入力ポート4011からのリクエストが出力
ポート450の通過要求を同時に出したとしても、クロ
スバ制御部460はこの2つのを同時に通過させる。し
たがって、各n+1ウェイセレクタ440〜44n−1
も独立に同時動作可能な構成となっている。
【0032】任意の入力ポート400〜40n−1から
入力したブロックの順番で、出力ポート450〜45n
−1へ出力されるとは限らないことがある。すなわち、
入力バッファ部420〜42n−1が出力ポートに応じ
て複数個のバッファより構成されるため、異なる出力ポ
ート行き先の2つのブロックにおいて、先に到着したブ
ロックがポート競合により待たされたならば、後から到
着したブロックが、これを追い越して(異なる)出力ポ
ートへ出力されることもある。したがって、1つのプロ
セッサに着目した時、このプロセッサが発行した命令の
順番にデータ転送がされるかは、それらのデータ転送命
令が同一のリモートクラスタへの転送ならば、データ転
送順は保証されるが、異なるリモートクラスタへの転送
ならば、データ転送順は保証されるとは限らない。すな
わち、データ転送完了確認は、最後のデータ転送を確認
しても、それ以前に発行されたデータ転送の終了を確認
はできず、個々のデータ転送の完了確認を行う必要があ
る。また、データ転送の完了とは、完了後の確認を取っ
た後に、自プロセッサ、およびローカルクラスタ内他プ
ロセッサ、および、リモートクラスタ内他プロセッサの
いずれからもデータ転送を行っても、そのデータ転送は
完了したデータ転送の後にアクセスされるということで
ある。したがって、データ転送の完了が決定付けられる
位置は、クラスタ間相互結合網内110のn+1ウェイ
セレクタ440〜44n−1通過の位置であり、それ以
前の箇所でデータ転送の完了か否かの判断はできない。
入力したブロックの順番で、出力ポート450〜45n
−1へ出力されるとは限らないことがある。すなわち、
入力バッファ部420〜42n−1が出力ポートに応じ
て複数個のバッファより構成されるため、異なる出力ポ
ート行き先の2つのブロックにおいて、先に到着したブ
ロックがポート競合により待たされたならば、後から到
着したブロックが、これを追い越して(異なる)出力ポ
ートへ出力されることもある。したがって、1つのプロ
セッサに着目した時、このプロセッサが発行した命令の
順番にデータ転送がされるかは、それらのデータ転送命
令が同一のリモートクラスタへの転送ならば、データ転
送順は保証されるが、異なるリモートクラスタへの転送
ならば、データ転送順は保証されるとは限らない。すな
わち、データ転送完了確認は、最後のデータ転送を確認
しても、それ以前に発行されたデータ転送の終了を確認
はできず、個々のデータ転送の完了確認を行う必要があ
る。また、データ転送の完了とは、完了後の確認を取っ
た後に、自プロセッサ、およびローカルクラスタ内他プ
ロセッサ、および、リモートクラスタ内他プロセッサの
いずれからもデータ転送を行っても、そのデータ転送は
完了したデータ転送の後にアクセスされるということで
ある。したがって、データ転送の完了が決定付けられる
位置は、クラスタ間相互結合網内110のn+1ウェイ
セレクタ440〜44n−1通過の位置であり、それ以
前の箇所でデータ転送の完了か否かの判断はできない。
【0033】また、クロスバ制御部460は上記に示し
た競合調停制御の他に、以下の処理も行う。クロスバ制
御部460は、n+1ウェイセレクタ440〜44n−
1を通過するブロックがストアリクエストならば、リプ
ライブロック生成部470にこの旨を通知する。リプラ
イブロック生成部470は、クロスバ制御部460から
ストアリクエスト通過の通知を受けると、ストアリプラ
イブロックを生成する。これを生成後、ストアリプライ
ブロックを入力バッファ42nへ送出する。ストアリプ
ライはn+1ウェイセレクタ440〜44n−1を経由
して、ストアリクエストを発行したクラスタへ転送され
る。
た競合調停制御の他に、以下の処理も行う。クロスバ制
御部460は、n+1ウェイセレクタ440〜44n−
1を通過するブロックがストアリクエストならば、リプ
ライブロック生成部470にこの旨を通知する。リプラ
イブロック生成部470は、クロスバ制御部460から
ストアリクエスト通過の通知を受けると、ストアリプラ
イブロックを生成する。これを生成後、ストアリプライ
ブロックを入力バッファ42nへ送出する。ストアリプ
ライはn+1ウェイセレクタ440〜44n−1を経由
して、ストアリクエストを発行したクラスタへ転送され
る。
【0034】リモート側クラスタのリモートアクセス制
御装置230は、ローカルクラスタより受け取ったブロ
ックがストアリクエストならば、主記憶装置210に書
き込みを行う。ただし、書き込み処理完了後には、スト
アリプライをローカルクラスタに返却しない。なぜなら
ば、クラスタ間相互結合網110が既にストアリプライ
を返却しているからである。
御装置230は、ローカルクラスタより受け取ったブロ
ックがストアリクエストならば、主記憶装置210に書
き込みを行う。ただし、書き込み処理完了後には、スト
アリプライをローカルクラスタに返却しない。なぜなら
ば、クラスタ間相互結合網110が既にストアリプライ
を返却しているからである。
【0035】
【発明の効果】以上説明したように本発明の効果は、ク
ラスタ間のストア転送処理の処理時間が短縮されること
である。その理由は、ストア処理の完了通知が、リモー
トクラスタでの書き込み完了後に、リモートクラスタか
ら返却されるのではなく、ストアリクエストがクラスタ
間相互結合網を通過した時点で、ストアリプライが生成
され、この相互結合網より返却されるので、完了通知を
速く通知することが可能であるからである。
ラスタ間のストア転送処理の処理時間が短縮されること
である。その理由は、ストア処理の完了通知が、リモー
トクラスタでの書き込み完了後に、リモートクラスタか
ら返却されるのではなく、ストアリクエストがクラスタ
間相互結合網を通過した時点で、ストアリプライが生成
され、この相互結合網より返却されるので、完了通知を
速く通知することが可能であるからである。
【図1】図3のクラスタ間相互結合網の構成を示すブロ
ック図である。
ック図である。
【図2】クラスタ結合並列計算機のシステム構成を示す
ブロック図である。
ブロック図である。
【図3】図2のクラスタの構成を示すブロック図であ
る。
る。
【図4】各リクエスト種別のブロック部の構成を示す説
明図である。
明図である。
100〜10n−1 クラスタ 110 クラスタ間相互結合網 200〜20m−1 プロセッサ 220 クラスタ内相互結合網 210 主記憶装置 230 リモートアクセス制御装置 302〜30n+1 データライン 300 コマンドライン 301、321 アドレスライン 310 コマンドライン 320 コマンドライン 330 コマンドライン 331〜33n データライン 350 VALIDフィールド 351 行き先クラスタ番号フィールド 352 ブロック種別フィールド 353 データ転送長フィールド 400〜40n−1 入力ポート 410〜41n−1 ブロック分解部 420〜42n 入力バッファ 440〜44n−1 n+1ウェイセレクタ 450〜45n−1 出力ポート 460 クロスバ制御部 470 リプライブロック生成部 480 クロスバスイッチ部
Claims (3)
- 【請求項1】 複数個のプロセッサと主記憶装置とクラ
スタ内相互結合網とを有する複数のクラスタをクラスタ
間相互結合網により結合するクラスタ結合並列計算機に
おいて、前記クラスタ間相互結合網が、ストアデータに
対するリプライを生成することを特徴とするクラスタ結
合並列計算機。 - 【請求項2】 前記クラスタ間相互結合網が、(a)前
記クラスタからのデータブロックをコマンド部とデータ
部に分解するブロック分解手段と、(b)前記データ部
を出力ポートに対して切り替え・転送するクロスバ手段
と、(c)前記コマンド部を元に複数個の前記データブ
ロックの競合調停を行い、前記クロスバ手段の制御を行
うクロスバ制御手段と、(d)前記コマンド部が書き込
みである場合に、要求元に対する転送完了のリプライブ
ロック部を生成するリプライブロック生成手段と、を有
することを特徴とする請求項1記載のクラスタ結合並列
計算機。 - 【請求項3】 前記クロスバ手段が、(a)前記データ
部を一時的に蓄える複数の入力バッファ手段と、(b)
前記入力バッファ部からのデータ部、あるいは前記リプ
ライブロック部を出力ポートに対して選択・転送するセ
レクタ部と、を有することを特徴とする請求項2記載の
クラスタ結合計算機。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24197896A JPH1091601A (ja) | 1996-09-12 | 1996-09-12 | クラスタ結合並列計算機 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24197896A JPH1091601A (ja) | 1996-09-12 | 1996-09-12 | クラスタ結合並列計算機 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1091601A true JPH1091601A (ja) | 1998-04-10 |
Family
ID=17082427
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP24197896A Pending JPH1091601A (ja) | 1996-09-12 | 1996-09-12 | クラスタ結合並列計算機 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1091601A (ja) |
-
1996
- 1996-09-12 JP JP24197896A patent/JPH1091601A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6874053B2 (en) | Shared memory multiprocessor performing cache coherence control and node controller therefor | |
| KR102803151B1 (ko) | 시스템 온 칩의 인터커넥트 패브릭 내에서 소스 기반 라우팅을 구현하기 위한 절차 | |
| KR900006791B1 (ko) | 패킷 스위치식 다중포트 메모리 n×m 스위치 노드 및 처리 방법 | |
| US5822605A (en) | Parallel processor system with a broadcast message serializing circuit provided within a network | |
| EP0334954B1 (en) | Layered network | |
| JPH08185380A (ja) | 並列計算機 | |
| JPS61214694A (ja) | データ伝送のスイッチング装置 | |
| JP2010218364A (ja) | 情報処理システム、通信制御装置および方法 | |
| US5754792A (en) | Switch circuit comprised of logically split switches for parallel transfer of messages and a parallel processor system using the same | |
| JP2731742B2 (ja) | クラスタ構成の並列計算機 | |
| US6597692B1 (en) | Scalable, re-configurable crossbar switch architecture for multi-processor system interconnection networks | |
| JPS63501663A (ja) | マルチプロセッサ通信装置 | |
| CA2117506C (en) | Return address adding mechanism for use in parallel processing system | |
| US6701407B1 (en) | Multiprocessor system with system modules each having processors, and a data transfer method therefor | |
| JPH05151183A (ja) | 並列演算装置 | |
| JPH1091601A (ja) | クラスタ結合並列計算機 | |
| US5774463A (en) | Switching matrix with contention arbitration | |
| JP2976700B2 (ja) | プロセッサ間同期制御方式 | |
| JPH07262155A (ja) | 並列計算機およびメッセージ放送方法 | |
| JP3609908B2 (ja) | 計算機接続装置 | |
| JP3659345B2 (ja) | バス・システム及び信号伝送方法 | |
| JP2589828B2 (ja) | 複数のプロセッサと複数のメモリとを備えるデータ処理システム用中央処理ユニット | |
| JPH09190418A (ja) | ネットワーク制御方法 | |
| JP2731738B2 (ja) | マルチプロセッサシステム | |
| JPH11212927A (ja) | 競合調停方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000118 |