JPH06507744A

JPH06507744A - 大量並列プロセッサ間の、階層的プロセッサ相互間通信ネットワークのための手順決定技術

Info

Publication number: JPH06507744A
Application number: JP4511818A
Authority: JP
Inventors: リー，スー−キヨング; チン，ダニー
Original assignee: デヴイツド・サーンオフ・リサーチ・センター，インコーポレーテツド
Priority date: 1991-05-09
Filing date: 1992-04-09
Publication date: 1994-09-01
Also published as: EP0583400A1; US5224100A; WO1992020177A1; EP0583400A4

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】１プロセ・す日の・プロセ・・サ　日゛　−・　−り Ω友かγＩす部且歪本発明は、国防省高等プロジェクト局により与えられた契約第ＭＤＡ９７２−９０−Ｃ−００２２の下に、政府の支持でなされた。政府は本発明に一定の権利を有する。

大量並列コンピュータ・プロセッサ間の、プロセッサ相互間通信（ＩＰＣ）のための数多くの型の相互連結ネットワークが当該技術において公知である。これらの内には、トリー樺構造に構成し得る階層型通信ネットワークがあり、その中では個別プロセッサが階層の最低レベル（）まり、レベルＯ）に位置し、木の葉を表している。この個別プロセッサは、レベル０クラスタのグループに編成され、各個別レベル０クラスタの各単独プロセッサが、それ自身の通信チャンネルを通し、階層トリーのレベル１に位置しているレベル０クラスタのためのノードに相互連結されている。同様な手法で、レベル１ノードは、レベル１クラスタのグループに編成されていても良く、その各個別レベル１クラスタの各単−ノーロよ、それ自身の通信チャンネルを通し、階層トリーのレベル２に位置しているレベル１クラスタのためのノードと相互連結されている０階層トリーの最高レベル（レベルｎ）は、少なくとも二つの相互連結ノードを含み、それは、個別通信チャンネルを通じ（ｎ−１）レベルのノードの各車−の一つを相互連結している。このノードの各々は、適当なネットワーク・ルータまたはスイッチを含み、任意の選択された送信レベルＯプロセッサが、任意の選択された受信レベルＯプロセッサに相互連結されて、地球的ＩＰＣ能力を備えるようにする。

公知の様に、大量並列プロセッサ群を採用したコンピュータは、多数命令・多数データ（ＭＩＭＤ）機の形を採るか、または単一命令・多数データ（ＳＩＭＤ）機の形を採っても良い、ＭＩＭＤコンピュータにおいては、ネットワーク中のパケットは、多くのプロセッサの一つにより独立に発生させられたｒｓｅｎｄｊまたはｒｇｅｔＪ命令からである。成るＭＩＭＤコンピュータは、若し平均の手順決定待ち時間またはパケットの遅れ時間が低ければ最適に稼働する。成るＳｌＭＤ機は、一時に只一つの未決ｒｓｅｎｄＩＬか許容しない。ネットワーク中の全てのパケットは、同一のｒｓｅｎｄ１命令に起源している。このｒｓｅｎｄｌは、全てのパケットが配達されるまで完結しない。それ故、ＳＩＭＤＩｌは、ｒＳｅｎｄＪの全てのパケットに対し、低い最悪ケースの待ち時間を要する。この特性は、ＳＩＭＤコンピコンピュータの手順決定プロトコルが、それらの寿命またはネットワーク中で過ごした時間に従ってパケットの優先順位決定をする必要がないことを含蓄している。これに加えて、このネットワークは、何時でも限定された数のパケットを有することを予期することが出来る。

ＳＩＭＤおよびＭＩＭＤプロセッサ相互間通信は又、期待パケット・サイズにおいても異なる。成るＭＩＭＤシステムにおいては、プロセス同期情報を含むものの様な成るパケットは、もはや数バイト長さを越えるものでない、データを含む他のものは、数キロバイト長さでも良い、ＳＩＭＤシステムにおけるパケットは、しばしば只１語長であるように短い、それらは、隣接している画素またはマトリックス係数の値を含むことがある。

高い帯域幅の相互連結ネットワークは、高価で構築に複雑であるので、スケラビイテイ（達成可能性）の問題が、全ての設計の中心となる。この相互連結ネットワークの速度は、取り分けＳｌＭＤ機の様なＩＰＣ遅れを良くマスクしないコンピュータにとって、性能の主要なファクタである０本発明は、ＳｌＭＤ機の階層プロセッサ相互間通信のための改良された手順決定技術に向けられ、それはローコストおよび低い待ち時間（つまり、低いＩＰＣ遅れを挿入すること）の両観点から、ネットワークの動作を改良するのに効率的である。

発朋■概要本発明は、単一命令・多数データ（ＳＩＭＤ）並列プロセッサ・コンピュータにおいて、アドレス情報を含むデータのパケットを、コンピュータの引き続く手順決定サイクルの間、コンピュータの並列プロセッサの任意の一つとコンピュータの並列プロセッサの他の任意の一つとの間で手順決定するための手順決定方法に向けられている。この並列プロセッサ群は、ノードの少なくとも二つの階層レベルと一つの相互連結チャンネルのネットワークとを有する階層プロセッサ相互連結トリー構造の葉を形成している。この階層プロセッサ相互連結トリー構造の最高レベルは、少なくとも二つのノードを含み、且つノードの第一の階層レベルの上位の階層レベルの各ノードは、次に低い階層レベルの複数の子孫ノードの親ノードである。第一レベル・ノードの各々は、ネットワークのチャンネルによって、並列プロセッサ群の別々の一つと個別に相互連結されており、且つ各子孫ノードは、ネットワークのチャンネルによって、その親ノードと相互連結されている。加えて、成る共通の親ノードの各子孫ノードは、ネットワークのチャンネルによって、その共通の親ノードの少なくとも一つの他の子孫ノードと相互連結されており、且つ最高階層レベルの各ノードは、ネットワークのチャンネルによって、最高階層レベルの他のノードの少なくとも一つと相互連結されている。更に全てのネットワーク・チャンネルは二重の単方向性リンクで、二つのパケットの反対方向への同時伝送を可能としており、且つ、各ノードは、（１）そのレベルにおけるネットワーク・チャンネルの合計数より一つ多いパケットを記憶する記憶容量を有するバッファ、および（２）前記並列プロセッサ群の送信する一つでそのノードから起源し、ネットワーク・チャンネルを通じ前記並列プロセッサ群の受信する一つに向かう接続を、そのノードのバッファに記憶されたパケットに含まれたアドレス情報に従って、延長するためのルータ−を含むものである。

本発明の手順決定方法は、コンピュータの引き続く手順決定サイクルの間に、次のステップを含む：（ａ）階層プロセッサ相互連結トリー構造の各親ノードにおいて、その親ノードのバッファに記憶され、送信プロセッサから受信プロセッサに向かう接続を延長するために、その子孫ノードに送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・ダウン・リンクを通じ、その子孫ノードの各々に、その親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなる迄、伝送するステップ；（ｂ）成る親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなることに応じて、その子孫ノードにその親ノードから、その子孫ノードの各々がそれに、その子孫ノードのバッファに前原て記憶されていた、そのパケットが送信プロセッサから受信プロセッサに向かう接続を延長するために、その親ノードから送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・アップ・リンクを通し、送ることを試みても良いと合図するステップ；および（ｃ）ステップ（ｂ）に述べられた試みが、その親ノードの子孫ノードの与えられた一つによる現行手順決定サイクルの間に、成るパケットがその時、その親ノードにその子孫ノードの他のバッファから送られてきたために、達成出来ない場合、その現行手順決定サイクルの間、その親ノードの子孫ノードの、その与えられた一つのバッファからのパケットを、その親ノードの子孫ノードのその他のバッファに記憶させるために伝送するステップ。

区血少旦単猛説所図１は、４０９６個のプロセッサ群間のプロセッサ相互間通信のための階層間接ネットワークを示すダイヤグラム表示；図２は、８個のキャビネットに収められ、各キャビネットあたり８枚の回路ボード、各回路ボードあたり６４個のプロセッサがある、４０９６個のプロセッサ群の相互連結に所要の各数を、相互連結ネットワークの幾つかの異なる型に対して示す表；および図３は、本発明の手順決定技術を図解する簡単化した機能ダイヤグラム図である。

しい　の　な量゛本発明の記述における図解の目的だけに限るが、４０９６個のプロセッサ群は、図１に示すように、６４個のプロセッサの各クラスタが、８個のキャビネットの別々の一つに収められた８枚の回路ボードの別々の一つに置かれて、成る階層プロセッサ相互間通信ネットワーク中に相互連結されているものと仮定する。この階層のレベルＯのクラスタの６４個のプロセッサの各々が、この階層のレベルｌのそれ自身の個別ノードに相互連結され、そのクラスタの回路ボードに位置している６４個のレベル１ノードをもたらしている。各個別キャビネット内に収められた８枚の回路ボードに対応する、この階層の６４個のレベル１ノードの８個の各クラスタが、この階層のレベル２における個別ノードに相互連結され、合計で８レベル２ノードをもたらしている。８個の個別キャビネットに対応する、この階層のレベル２ノードの全８個はこの階層のレベル３において他の一つと相互連結されている。

合計して６４枚の回路ボードの各々は、６４個のプロセッサの関連するクラスタを含むことに加えて、その関連したクラスタの個別のレベル１ノードを含むオンボード・ルータ集積回路も含んでいて良い、８個のキャビネットの任意の与えられた一つに収められた８枚の回路ボードに関連するレベル２ノードは、それが関連しているキャビネットの背面に配置されたルータ集積回路を設けられていて良い、これは、８個のキャビネットのクラスタに関連し、集積回路だけに限らない手段で装備されるべき、単一レベル３ノード・ルータのみを与える。

上述の４０９６便のプロセッサ群のための階層プロセンサ相互間通信ネットワークが、より精巧な地球的通信を必要とする応用を裏付けることが出来ることは望ましい。例えば、急速フーリエ変換（ＦＦＴｓ）、ラスタ・マツピング、およびパラレル・データ・シフトの様なコンパイラ作業は、全て不規則なパターンにある遠隔プロセッサ間で、データを移動させることを必要とする。また、多くの応用は、手順決定パターンが実行時まで知られていない通信のための裏付けを必要とする。かような必要性が、手順決定制御のためにプロセッサ群自身に依存せず、少しの空間的局在性で、手順決定パターンを扱うことの出来るＩＶＣシステムへの研究を促進した。更に、階層ネットワークは、ネットワーク・レベルの数に加えて、各レベルにおけるクラスタのトポロジー（位相幾何学）の様に、無数のパラメータを有している。実際上、これらのパラメータの最適な選択は、自然または予期した手順決定パターンに依存する。

地球的［ＰＣのための相互連結ネットワークは、かなりの研究活動の話題であって来た。相互連結ネットワークの二つの主要なりラス：直接および間接、が提案されている０間接ネットワークの例は、オメガ（Ｏｍｅｇａ）、ベネス（Ｂｅｎｅｓ）およびパーフェクト・シ＋７フル（ｐｅｒｆｅｃｔ　５ｈｕｆｆ　ｌｅ）矛ノドワークである０間接ネットワークは、ＢＢＮバタフライ（Ｂｕｔｔｅｒｆｌｙ）およびＩＢＭ　ＲＰ３に装備されて来た。直接またはスタティック・ネットワークは、リング、二次元的メツシュまたはトーラス（円形隆起）、直接ケーーアレー（ｋ−ａｒｙ）、ハイパーキューブに例示されるｎ−キューブ、および完全接続またはクロスバ−の様な種々のトポロジーを用いる。テラ（Ｔｅｒａ）コンピユーテイング・システム、アイワープ（ｉＷａｒｐ）およびコスミック・キューブ（Ｃｏｓｍｉｃ　Ｃｕｂｅ）は二次元的トーラスを用いる。十三次元的ハイパーキューブはコネクション・マシーン（Ｃｏｎｎｅｃｔｉｏｎ　Ｍａｃｈｉｎｅ）に装備されている。

これらの相互連結ネットワークの各々の記述および議論の中心には、ネットワーク装備のコストおよび、そのコストが性能をもって発揮する機能がある。コストは、コントローラの複雑性、接続の長さ、または接続の数で測定出来る。大きなＳＩＭＤシステムに関して、接続の数は、そのシステムが数千のプロセッサ群に成長し、多数のボードおよびキャビネットにおよぶので、臨界的なコストである。接続の数またはコストを制限することはシステム性能を制限することになり得る。

階層ネットワーク（それ自身は新規でない）は、このコスト・パーフォーマンス・トレイドオフ（かねあい）問題に一つの解決を提供する０例えば、階層ネットワークは、過去においてヘクター（Ｈｅｃｔｏｒ）、シーエム（Ｃｍ＊）およびシダー（Ｃｅｄａｒ）システムに装備されて来た。大量並列システムの着実な成長および成熟とともに、階層ネットワークは、高速通信に特別の嘱望を維持している。

再び図１を参照すると、上で議論した仮定の４０９６個のプロセッサ階層ネットワークの機能的ブロック・ダイヤグラムが示されている０図１に示すように、この階層ネットワークは、トリ一様構造を有している。木の葉はプロセッサで、内部ノードはネットワーク・ルータまたはスイッチである。共通の親を有するノードのグループはクラスタと呼ばれ、成るクラスタの各ノードは、その共通の親の子孫と呼ばれる。成るトリー・レベル内の全てのクラスタは、同一のトポロジーで相互連結されるが、異なるトリー・レベルは、場合により、二次元的トリ、ハイパーキューブまたはクロスバ−の欅な異なるトポロジーを存し得る。

ネットワーク・レベルの数、およびクラスタのサイズおよびトポロジーは、ハードウェアの複雑性およびネットワーク性能の両者に深い影響を及ぼす、これらのパラメータは、ボード間およびキャビネット間接続の様なオフチップ・ハードウェアの量を最小限にするように選ぶべきである。これらの接続は、インボードまたはインチツブ接続より高価で低速なので、避けるべきである。

この点に関し、図２は、上述の４０９６個のプロセッサ相互連結ネットワークのためのオフチップ・ハードウェア・コストにおける差を示す表で、そこでは、完成コンピュータが１枚に６４個のプロセッサを有する８枚の回路ボードを８個のキャビネットに収められているものと仮定し、採用した特定のトポロジーに依存している。試験したトポロジーは、バイナリ−・ハイパーキューブ、二次元的トーラス、および二つの階層ネットワークである。この階層ネットワークのためのクラスタ・サイズの選択は、先に示したハードウェア・レイアウトに直接対応する。各最低レベル・クラスタは、単一のＩＣに装備されたルータを用いてボードの６４個のプロセッサを相互連結する。第２レベル・クラスタは、共通のキャビネ、トの８枚のボードを相互連結し、第３レベルの単一のクラスタは、８個のキャビネット全てを相互連結する。

図２は、この階層トポロジーが、単一レベル・トポロジーよりかなり低い接続の数を有することを示している。取り分は重要なことは、この階層ネットワークのキャビネット間接続の数における節約である。

ＳＩＭＤ階層ネ階層ラントワークの本発明の新規な手順決定技術を徒示する前に、この手順決定技術により利用されてるＳＩＭＤコンピコントローラるＩＰＣの幾つかの特徴を指摘することは価値がある。この手順決定技術において、パケットは、送信プロセッサから受信プロセッサへ、一連のｒホップ１により中間のノードを通して発送される。このパケットは、各ノードにおいて「ホラ１１間でバッファされる。この「ホップＪは、ネットワークを通しるパケットの経路を構成する。この経路は、伝統的なトリー横断アルゴリズムを用いて発生させられる、成るパケットは、その転送先に達するのに必要な最低限可能なりラスタまで上昇し、そのクラスタを横断し、その後、その転送先プロセッサまで下降する。

加えて、当該技術において公知の強制または自棄的手順決定のバージョンがクラスタ横断のために使用される。各クラスタ・ノードは、そのイン・クラスタ・チャンネルの各々のためのバッファ・スペースを有している。各手順決定サイクルにおいて、全てのバケ７）は、これらのチャンネルの一つに送り出され、「古いｊパケットのバッファ欠所を残す、各パケットは、それが必要としているチャンネル上に伝送されるべき他のものと競い合う、若し成るパケットが、それが必要としているチャンネルを得られないならば、それは強制的に、使用されていないイン・クラスタ・チャンネルに発送される。成るパケツトは、１サイクル間に各イン・クラスタ・チャンネルに達し得るので、入って来るパケットの最大数は、チャンネルの数に等しいか、或いはノードのバッファ・スペースと同等である、バッファのオーバーフローの可能性は無い。

強制的手順決定は、そこに恐ら（その長さが変化しており、ノードの各対の間に存在しているクロスバ−またはハイパーキューブの様な多数の経路があるトポロジーについて効果的である。かような場合において、成る特定のチャンネルのために並んで待っているパケットは、より長い経路を採ることによりより早く進行出来る。クロスバ−の場合、その転送先までのバケット経路は、若しそれが強制的に発送されるならば、長くなることは無い０代わりの経路を使用することにより、強制的手順決定は、ホット・スボント・トラフィック混雑を軽減し、それ故、手順決定時間を低下させる。

ここで、本発明の手順決定技術により採用された手順決定経路の型の単純化したダイヤグラムである図３を参照する０図解の目的で、三しベル階層構造が図３に仮定されており、そのレベル３は、クラスタ・ノードＮ３１１およびＮ３１２を含んでいる。レベル２は、親ノードＮ３１１の子孫であるクラスタ・ノードＮ２１１およびＮ２１２並びに親ノードＮ３１２の子孫であるクラスタ・ノードＮ２２１およびＮ２２２を含んでいる。レベル１は、親ノードＮ２１１の子孫であるクラスタ・ノードＮ１１１、Ｎ１１２およびＮ１１３ｉ親ノードＮ２１２の子孫であるクラスタ・ノードＮ１２１．Ｎ１２２およびＮ１２３；親ノードＮ２２１の子孫であるクラスタ・ノードＮ１３１、Ｎ１３２およびＮ１３３ｉ並びに親ノードＮ２２２の子孫であるクラスタ・ノードＮ１４１．、Ｎ１４２およびＮ１４３を含んでいる。

図３に示した樺に、レベル１ノードの各々は、個別の専用チャンネルを通してレベルＯプロセッサの対応する一つと相互連結されている。取り分け、プロセッサＰＯ１２はノードＮｌ　１２と、それ自身の専用チャンネルＣＩ２を通して相互連結され、且つ、プロセッサＰＯ４３は）〜ドＮ１１２と、それ自身の専用チャンネルＣ４３を通して相互連結されている。更に、図３に示した様に、発送されたデータ・パケットに割当られたネットワーク・チャンネルは、次に高しルベルにおける共通の親ノードの子孫であり、且つこれらの子孫ノードの各々をその共通の親ノードに相互連結している、同一レベルの全てのクラスタ・ノードに相互連結されている。

図３に示した階層構造は、全てのネットワーク・チャンネルが、二つのパケットの反対方向への同時伝送を可能とする二重の一方向性リンクであることを仮定している。それは又、各リンクが、クラスタ内またはレベル間のいずれにあっても、コンピュータ・マシーンの１サイクルにつき正確に１個のパケットを配送出来ることも仮定している。更に、各クラスタ・ノードが、パケット・データ（手順決定アドレス情報を含む）を記憶するための与えられたサイズのバッファ、および各コンピュータ・マシーン・サイクルの間、そのコンピュータ・マシーン・サイクルの間、チャンネルを通じる接続を延長する目的で、その手順決定アドレス情報により制御される適当なスイッチング手段を含む。

本発明の手順決定技術の次の説明において、ｒｎｏｃｈａｎｓ）は、与えられた階層レベルにおける与えられたクラスタのノードを、その与えられた階層レベルの直ぐ上または下の階層レベルにおけるクラスタ・ノードに、または、レベル１の場合、レベル０における個別プロセッサに相互連結するチャンネルの合計数を指示するものである。各バッファのサイズは、ｒｎｏｃｈａｎｓ＋ＩＪに等しい。

本発明の手順決定技術によれば、各手順決定サイクルの間、各クラスタ・ノードにおいて、送信プロセッサがら、手順決定アドレス情報により同定された受信プロセッサに向かう接続を延長する為に、次のプロセス・ステップが起こる：（１）各クラスタの親ノードの各々につき、チャンネル・ダウン・リンクにわたりその子孫ノードに、その親ノードのバッファに記憶されていた、そのパケットが、送信プロセッサがら受信プロセッサに向かう接続を、その親ノードのバッファが一つの空きの記憶空間を有するようになるが、又はその子孫ノードがそこに送られるべきパケットをもはや持たなくなるまで、延長するために、そのパケットがその子孫ノードに送られるべきことを要求するアドレス情報を含むパケットが送られる。

（２）成る親ノードのバッファが一つの空きの記憶空間を有するようになるか又はその子孫ノードがそこに送られるべきパケットをもはや持たなくなった時は何時でも、その親ノードはその子孫ノードに、その子孫ノードの各々が、そこに「古い１送信プロセンサから受信プロセンサに向かう接続を延長するために、そのパケットがその親ノードから伝送されるべきことを要求するアドレス情報を含むパケット（つまり、現行の手順決定サイクルの開始に先立ってその子孫ノードのバッファに記憶されていたパケット）を、チャンネル・アップ・リンクにわたり送るように試みても良いと合図する。

（３）ステップ（２）に述べられた試みが、成るパケットがその時、その親ノードにその子孫ノードの他のバッファから送られてきたために、その親ノードの子孫ノードの与えられた一つによる現行手順決定サイクルの間に達成出来ない場合、その現行手順決定サイクルの間、その親ノードの子孫ノードの、その与えられた一つのバッファからのパケットを、その親ノードの子孫ノードのその他のバッファに記憶させるように伝送する（つまり、これらの場合には、強制的または自棄的手順決定が鯨りにされる）。

図３に戻ると、そこには、送信プロセッサＰ０１２が受信プロセッサＰＯ４３と、図３に実線で示した相互連結チャンネルを通じ相互連結されるべきこと、一方、−以上の他の送信プロセッサが一以上の他の受信プロセッサと、図３に破線で示した相互連結チャンネルを通じ相互連結されることをめていて良いことが仮定されている。最初の手順決定サイクルの間、所望の手順決定アドレス情報とともに受信プロセッサＰＯ４３により使われるためのデータを含む与えられたパケットが、ノードＮｌＩ２まで、その間の相互連結専用チャンネルＣＩ２を通じ上昇し、そのバッファ内に記憶される。第２の手順決定サイクルの間、その親ノードＮ２１１が、それにその子孫ノードＮ１１２からそのチャンネルを割当るのに成る理由、例えば親ノードＮ２１１のバッファがその時完全に満たされ、あるいは親ノードＮ２１１のルータ−がその時他のパケットで塞がっていたと言う様なことで、自由でないと仮定すると、その与えられたパケットをノードＮ１１２のバッファからノードＮ１１ｌのバッファに移送するために強制的手順決定が採用される。再び、強制的手順決定が、第３の手順決定サイクルの間に必要であると仮定され、そしてノードＮ１１１のバッファからのその与えられたパケットは、ノードＮ１１３のバッファに移送される。しかしながら、第４の手順決定サイクルに際しては、親ノードＮ２１１は最終的に、それをその子孫ノードＮ１１３に相互連結するチャンネルを割当て、そしてその与えられたパケットは、ノードＮ２１１のバッファまで上昇し、そこで記憶される。同様な手法で、パケットは、第５ないし第８の各手順決定サイクルの間、引き続いて、子孫ノードＮ２１１からその親ノードＮ３１１に上向きに動がされ、ノードＮ３１２を横切り、次いで、親ノードＮ３１２の子孫ノードＮ２２２を通過し、親ノードＮ２２２の子孫ノードＮ】４３に下る、そして第９の手順決定サイクルの間に、最終的に、受信プロセッサＰＯ４３まで専用のチャンネルＣ４３を通じて下る。

上述の手順決定プロセスにおいて、上向きの動きは明示のフロー制御を必要とする。上昇を望む各パケットは、その親が占有されていないバッファ・スペースを持つ迄待たなければならない、他方、下向きの動きは、何らのフロー制御を必要としない。下降を望むパケットは、若しそのノードにある他のパケットが、そのチャンネルに対する権利を与えられているならば、進行を許されない、この下向きの動きに対する制約は、下向きプロッヶージと呼ばれる。ある与えられたレベルのクラスタを横断することを望むか、あるいはより高いレベルへの上昇またはより低いレベルへの下降を待っている全てのパケットは、強制的手順決定を用いて発送される。

かように、上述の手順決定プロセスは、レベル間のデッドロック及びバッファ・オーバーフローの防止を保証している。成るレベルは常に成る固定された数のパケットをより低いレベルへ送ることを許されている。それ故、成るレベルにおけるパケツトは、決して完全にはトラップされることは無い、それらが去った時、それらは、より低いレベルから上昇するパケットのためのスペースを作る。

各ノード・バッファが、ｒｎｏｃｈａｎｓ＋１１パケットのためのスペースを有している条件で、バッファ・オーバーフローが無いように保証されている。クラスタ内で使用される強制的手順決定プロトコルは、クラスタ内で動いているパケラトがｒｎｏｃｈａｎｓＪバッファ・スペース以上を消費しないことを保証している。余分のスペースが、成るパケットが次に高いレベルから下降してくる場合のためにリザーブされている０次の手順決定サイクルの間のその下向きの動きは、若しクラスタからの他のパケットにより阻止されるならば、損なわれる。若しそのパケットが阻止されるならば、それは、それを損なったパケットのバッファ・スペースを取ることが出来る。いずれの場合でも、サイクルの終わりではこの特別のバッファ・スペースは常に空いている。それ故、クラスタを横断し下向きに動くパケットは、決してバッファ・オーバーフローを生じることは無い。

更に、上述の手順決定プロセスは、フロー制御ラインの数を殆ど除去することによりハードウェア？３［９１１１性を減少させる。それは、合計の手順決定待ち時間を、ネットワーク内に存在しているパケットの数を常に最大限にすることにより、最小化するように試みる。バッファを出来るだけ満たすように維持することにより、パケットの多数のものが進行出来る。かような戦略は、クラスタ・ノードが、冗長な経路を僅かだけしか含まない場合に限り失敗に終わる。この場合において、若し強制（自棄）的手順決定が大量に生じるならば、前向きの進行の量は、必ずしもかような強制的手順決定により失われた進行を越えることは無い。

前述の事柄から、手順決定順列における局在性の量が知られているなら、コスト・エフエクテイブなネットワークを見出し得ることは明らかである。成る手順決定順列およびレベルに対しては、高いピーク帯域幅およびそれに対応する高いハードウェア・コストを有するトポロジーは、成る経済的なより遅いトポロジーより良い性能を与えないことがある。成る三レベル階層に対して、レベル１のためのリング（トロイド）トポロジー構造、およびレベル２および３の各々のためのクロスバ−・トポロジー構造が、レベル１．２および３の全てのためのクロスバ −・トポロジー構造に殆ど匹敵する性能を発揮するが、装備するのは有意により容易である０期待された手順決定パターンが、その性質において一般的に地球的であるような場合においては、最高のトポロジーが、クロスバ−のように高い程度の接続性を有する一つであるべきである。より低いトポロジーも、性能に有意に影響するものでないので、リング、バイナリ−・ハイパーキューブおよびクロスバ−・トポロジー構造が、各階層レベル１．２および３に対する良い候補である。

上述の手順決定プロセスを採用した階層ネットワークは、ＳＩＭＤコンピュータに対する高速、低コストのプロセッサ相互間通信を提供する。シミュレーションは、この階層ネットワークがハードウェアのために仕立てられた時、このコスト潜在製品は成る単一レベル・トポロジーに匹敵するが、成る場合にはより低いことを示している。

一旦ネノドワーク構造が決定されると、クラスタ・トポロジーは、各レベルの実際の処理能力がそのトラフィック負荷とバランスするように選ばれなければならない。適切なバランスをもって、ネットワークのチャンネルは高い利用率で動作し、ネットワーク性能がネットワーク・コストを正当化することを保証する。

ｌ：Ｉｏ　Ｏｃ’−ｔ　寸へや−へ　寸

Claims

【特許請求の範囲】

１．単一命令・多数データ（ＳＩＭＤ）並列プロセッサ・コンピュータにおいて、アドレス情報を含むデータのパケットを、前記コンピュータの引き続く手順決定サイクルの間、前記コンピュータの並列プロセッサの任意の一つと前記コンピュータの並列プロセッサの他の任意の一つとの間で手順決定するための手順決定方法であって；そこでは前記並列プロセッサ群が、ノードの少なくとも二つの階層レベルと一つの相互連結チャンネルのネットワークとを有する階層プロセッサ相互連結トリ−構造の葉を形成しており；前記階層プロセッサ相互連結トリ−構造の前記最高レベルは、少なくとも二つのノードを含み、そこで、ノードの第一の階層レベルの上位の階層レベルのノードの各々は、次に低い階層レベルの複数の子孫ノードの親ノードであり；前記第一レベル・ノードの各々は、前記ネットワークのチャンネルによって、前記並列プロセッサ群の別々の一つと個別に相互連結されており、各子孫ノードは、前記ネットワークのチャンネルによって、その親ノードと相互連結されており、或る共通の親ノードの各子孫ノードは、前記ネットワークのチャンネルによって、その共通の親ノードの少なくとも一つの他の子孫ノードと相互連結されており、且つ最高階層レベルの各ノードは、前記ネットワークのチャンネルによって、最高階層レベルの少なくとも一つの他のノードと相互連結されており；更に、全ての前記ネットワーク・チャンネルは二重の単方向性リンクで、二つのパケットの反対方向への同時伝送を可能としており；且つ各ノードは、（１）そのレベルにおけるネットワーク・チャンネルの合計数より一多いパケットを記憶する記憶容量を有するバッファ、および（２）前記並列プロセッサ群の送信する一つでそのノードから起源し、前記ネットワーク・チャンネルを通じ前記並列プロセッサ群の受信する一つに向かう接続を、そのノードのバッファに記憶されたパケットに含まれたアドレス情報に従って、延長するためのルーターを含むものであり；更に前記手順決定方法は、前記コンピュータの前記引き続く手順決定サイクルの各々の間に、次のステップを含んでいる：（ａ）階層プロセッサ相互連結トリ−構造の名親ノードにおいて、その親ノードのバッファに記憶され、送信プロセッサから受信プロセッサに向かう接続を延長するために、その子孫ノードに送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・ダウン・リンクを通じ、その子孫ノードの各々に、その親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなる迄、伝送するステップ；（ｂ）或る親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなることに応じて、その子孫ノードにその親ノードから、その子孫ノードの各々がそれに、その子孫ノードのバッファに前以て記憶されていた、そのパケットが送信プロセッサから受信プロセッサに向かう接続を延長するために、その親ノードから送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・アップ・リンクを通じ、送ることを試みても良いと合図するステップ；および（ｃ）ステップ（ｂ）に述べられた試みが、その親ノードの子孫ノードの与えられた一つによる現行手順決定サイクルの間に、或るパケットがその時、その親ノードにその子孫ノードの他のバッファから送られてきたために、達成出来ない場合、その現行手順決定サイクルの間、その親ノードの子孫ノードの、その与えられた一つのバッファからのパケットを、その親ノードの前記子孫ノードのその他のバッファに記憶させるために伝送するステップ。
２．単一命令・多数データ（ＳＩＭＤ）大量並列プロセッサ・コンピュータにおいて、アドレス情報を含むデータのパケットを、前記コンピュータの引き続く手順決定サイクルの間、前記コンピュータの並列プロセッサの任意の一つと前記コンピュータの並列プロセッサの他の任意の一つとの間で手順決定するための手順決定方法であって；そこでは前記コンピュータが、４０９６個の並列プロセッサ群を含み、それらが、ノードの三つの階層レベルと一つの相互連結チャンネルのネットワークとを有する、階層プロセッサ相互連結トリ−構造の葉を形成しており；前記階層プロセッサ相互連結トリ−構造の前記第三レベルは、８個のノードを含み、そこで前記第三階層レベルの前記８個のノードの各々は、第二階層レベルにおける８個の子孫ノードのクラスタの親ノードであり、且つ前記第二階層レベルにおける８個の子孫ノードの前記クラスタの各々は、第一階層レベルにおける６４個の子孫ノードのクラスタの親ノードであり；前記第一レベル・ノードの各々は、前記ネットワークのチャンネルによって、前記４０９６個の並列プロセッサ群の別々の一つと個別に相互連結されており、第一階層レベルにおける子孫ノードの各クラスタは、前記ネットワークのチャンネルによって、第二階層レベルにあるその親ノードと相互連結されており、第二階層レベルにおける子孫ノードの各クラスタは、前記ネットワークのチャンネルによって、第三階層レベルにあるその親ノードと相互連結されており、且つ第三階層レベルのノードの各々は、前記ネットワークのチャンネルによって、第三階層レベルの他のノードと相互連結されている；更に、全ての前記ネットワーク・チャンネルは二重の単方向性リンクで、二つのパケットの反対方向への同時伝送を可能としており；且つ各ノードは、（１）そのノードで終結するネットワーク・チャンネルの合計数より一多いパケットを記憶する記憶容量を有するバッファ、および（２）前記並列プロセッサ群の送信する一つでそのノードから起源し、前記ネットワーク・チャンネルを通じ前記並列プロセッサ群の受信する一つに向かう接続を、そのノードのバッファに記憶されたパケットに含まれたアドレス情報に従って、延長するためのルーターを含むものであり；更に前記手順決定方法は、前記コンピュータの前記引き続く手順決定サイクルの各々の間に、次のステップを含んでいる：（ａ）階層プロセッサ相互連結トリ−構造の各親ノードにおいて、その親ノードのバッファに記憶され、送信プロセッサから受信プロセッサに向かう接続を延長するために、その子孫ノードに送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・ダウン・リンクを通じ、その子孫ノードの各々に、その親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなる迄、伝送するステップ；（ｂ）或る親ノードのバッファが、一つの空き記憶スペースを有するようになるか、その子孫ノードがそれに送られるべきパケットを有しなくなることに応じて、その子孫ノードにその親ノードから、その子孫ノードの各々がそれに、その子孫ノードのバッファに前以て記憶されていた、そのパケットが送信プロセッサから受信プロセッサに向かう接続を延長するために、その親ノードから送られるべきことを要求するアドレス情報を含むパケットを、チャンネル・アップ・リンクを通じ、送ることを試みても良いと合図するステップ；および（ｃ）ステップ（ｂ）に述べられた試みが、その親ノードの子孫ノードの与えらたに一つによる現行手順決定サイクルの間に、或るパケットがその時、その親ノードにその子孫ノードの他のバッファから送られてきたために、達成出来ない場合、その現行手順決定サイクルの間、その親ノードの子孫ノードの、その与えられた一つのバッファからのパケットを、その親ノードの前記子孫ノードのその他のバッファに記憶させるために伝送するステップ。