JPH05216848A

JPH05216848A - 方程式セットを解くための多重プロセッサコンピュータ

Info

Publication number: JPH05216848A
Application number: JP4270671A
Authority: JP
Inventors: Prathima Agrawal; アグラワルプラシマ; Ricardo Telichevesky; テリチェヴスキーリカード; John A Trotter; エー．トロッタージョン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1991-10-11
Filing date: 1992-10-09
Publication date: 1993-08-27
Also published as: US5392429A; EP0536946A2; CA2076293A1; EP0536946A3

Abstract

(57)【要約】【目的】マトリックスで表わされる方程式のセットを
解く多重インストラクションのストリーム多重データス
トリームコンピュータシステムと方法を提供する。【構成】マトリックスとして表わされる方程式セット
を解く新規の方法とその方法でつくられた並列性を利用
することのできる新規なマルチプロセッサコンピュータ
構成とが組合される。マトリックスを解くタスクを準個
別化タスクに区分することで準個別化タスクの数だけ並
列に実行され得る。マルチプロセッサ構成は、特殊目的
ネットワークプロセッサで制御されている相互プロセッ
サ通信ネットワークを介して相互結合された多数のフォ
ンノイマンコンピュータからなる。ネットワークプロセ
ッサは、各フォンノイマンコンピュータが準個別化タス
クを効率的に実行するようにし、そして夫々のコンピュ
ータ間で通信されるべき情報をルーティングする。

Description

【発明の詳細な説明】

【産業上の利用分野】本発明は、一般的には、コンピュ
ータシステム、より詳細には、マトリックス形式にて表
わすことができるセットの方程式を解くためのコンピュ
ータによる方法及びシステムに関する。

【０００２】

【従来の技術】セットの方程式を解くことは、特に、メ
カニクス、経済学、流体力学及び電気回路シミュレーシ
ョンの分野において有効である。例えば、回路シミュレ
ーションは、典型的には、電気回路の挙動をモデル化す
るセットの方程式を組み立て、次に、このセットの方程
式を解くことによって回路内の未知の電圧及び電流の値
について知ることからなる。シミュレートされる回路を
記述する方程式は、通常、非線型であり、このために、
反復的技法、例えば、典型的には、ニュートン・ラフソ
ン（Newton Raphson）法がこのようなセットの方程式を
解くために使用される。ニュートン・ラフソン法を含む
様々な反復的技法が当業者においては周知である。

【０００３】ニュートン・ラフソン法の一部はセットの
線型方程式を解くことを含む。経験的に、セットの方程
式を解くための時間が大きな回路をシミュレートするた
めに必要される時間の大部分を占める。従来の回路シミ
ュレーション技法を使用する場合、最も強力なスーパー
コンピュータでもシミュレーションを完結するために幾
時間も必要であり、従って、大きな集積回路のシミュレ
ーションは、現実的に不可能である。

【０００４】セットの線型方程式を解くために多くの方
法を使用することができるが、当業者に周知の下限上限
分解（Lower Upper Decomposition 、ＬＵＤ）という方
法が一般的にはこの精度及び安定性のために好まれる。

【０００５】ＬＵＤを並列化するための幾つかの努力が
なされている。Ｊ．ヒュング（Huang ）及びＯ．ウィン
グ（Wing）によって回路及びシステムに関する米国電気
電子学会議事録（I.E.E.E.Trans.on Circuits and Syst
ems ）、Ｖｏｌ．ＣＡＳ−２６、ページ７２６−７３２
（１９７９年９月）に掲載の論文『希薄マトリックスの
最適並列三角測量（Optimal Parallel Traiangulation
of Sparse Matrix ）；Ｎ．カルマルカ（Karmarkar ）
によって離散数学に関するシャム会議（Siam Conferenc
e on Discrete Mathematics ）、アトランタ（１９９０
年６月）において発表の論文『希薄マトリックス計算の
ための新たなパラレルコンピュータ（ANew Parallel Co
mputer for Sparse Matrix Computation ）』；及び
Ｏ．ウィング（Wing）及びＪ．ヒュング（Huang ）によ
ってコンピュータに関する米国電気電子学会議事録『I.
E.E.E. Trans. on Computers）、Ｖｏｌ．Ｃ−２９、ペ
ージ６３２−６３８（１９８０年７月）に掲載の論文
『線型方程式の並列解決の計算モデル（A Computation
Model of Parallel Solution of Linear Equations）に
おいてこれらが見られる。これら方法は、ＬＵＤにおい
て要求される各ステップをリコンパイルし、タスクグラ
フを構築することに集中するが、このタスクグラフが次
にマルチプロセッサ上でランするようにスケジュールさ
れる。これら手順はスケジュールされるべき多数のタス
クを与え、現実的な回路に対してはあまりにも多くのメ
モリを必要とする。

【０００６】Ｐ．サダヤパン（Sadayappan）及びＶ．ビ
スバナサン（Visvanathan ）によってコンピュータに関
する米国電気電子学会議事録（I.E.E.E, Transactions
on Computers）、Ｖｏｌ．Ｃ−３７、ページ１６３４−
１６４２（１９８８年１２月）に発表の論文『共有メモ
リ多重プロセッサ上での回路シミュレーション（Ciruit
Simulation on Shared Memory Multiprocessor ）』に
おいて提案されるもう一つのアプローチは部分的コンパ
イルアプローチを使用するが、これは、希薄マトリック
スのＬＵＤから高い程度の平行動作を抽出するのに非常
に有効的である一方、スケジュールされるべきタスクグ
ラフの複雑さが最小限にされることを示す。このアプロ
ーチは一般ＬＵＤアプローチとコンパイルアプローチと
の間の良好な妥協である。

【０００７】サダヤパン・ビスバナサンアプローチは最
初は共有メモリ多重プロセッサのために開発されたが、
後に、Ｊ．トロッター（Trotter ）及びＰ．アグラワル
（Agrawal ）によって米国電気電子学会議事録ＩＣＣＡ
Ｄ、サンタクララ、ページ４３８−４４１（１９９０年
１１月）に掲載の論文『分散メモリ多重プロセッサシス
テム上での回路シミュレーション法（Circuit Simulati
on Methods on a Distributed Memory Multiprocessor
System）』において分散メモリ多重プロセッサ上での使
用に対して拡張されている。この論文がここでは参照の
ために本明細書に編入されている。

【０００８】Ｔ．ナカタ（Nakata）、Ｎ．タナベ（Tana
be）、Ｈ．オノズカ（Onozuka ）、Ｔ．クロベ（Kurob
e）及びＮ．コイケ（Koike ）らによって米国電気電子
学会議事録ＩＣＣＡＤ（I.E.E.E. ICCAD）、ページ３６
４−３６７（１９８７年）に発表の論文『モジュラ回路
シミュレーションのための多重プロセッサシステム（AM
ultiprocessor System for Modular Circuit Simulatio
n）』によって提案されるもう一つのアプローチは分散
メモリ多重プロセッサ上へのコンパイルなしにＬＵＤを
使用する。ナカタらのシステムにおいては、各プロセッ
サは共有バスを使用して他のプロセッサのメモリにアク
セスする。

【０００９】

【発明が解決しようとする課題】本発明は先行技術とは
異なるアプローチを使用してマトリックス形式にて表わ
されるセットの方程式を解くためのメカニズムを提供す
る。セットの方程式は、本発明によって以前のメカニズ
ムよりも素早く解くことができる。

【００１０】

【課題を解決するための手段】本発明の一つの実施例に
おいては、通信網を介して相互接続される複数の処理要
素が含まれる。プロセッサ間の通信のスケジューリング
は専用の網プロセッサによって指令される。

【００１１】

【具体的説明】

１．イントロダクション本発明はモデリング或はシミュケーションのためのコン
ピュータシステム及び方法を提供する。以降に説明され
る本発明の実施例は一例としての問題を解決するという
背景において最も簡単に理解できる。この一例としての
実施例は多様な分野から発生する問題を解決することが
できるが、一例としての問題は電気工学分野における問
題である。次のセクションにおいては、一例としての問
題が示される。次に本発明の実施例が示され、最後に、
この一例としての問題がこの実施例に従っていかに解か
れるかが示される。

【００１２】２．一例としての問題２．１電気回路の設計電気回路、例えば、図１の略図によって示されるような
回路は、典型的には、特定の機能を遂行するように設計
される。電気回路の設計に関しては多くのことが知られ
ているが、これは、実質的に経験的であり、製造された
回路は、しばしば、設計者によって意図されたような性
能を示さない。製造及びテストのコストが低い場合は、
望ましい性能が示されるまで、回路を設計、製造、テス
トし、また再設計することもできる。但し、製造及び／
或はテストのコストが高くなると、製造する前に回路設
計が意図された性能を示すかを検証することが有利にな
る。

【００１３】設計の電気特性を予測する一つの手段は”
回路シミュレーション（circuit simulation）”として
知られる技術を通じてである。回路シミュレーションは
回路要素の数学的モデル及び回路のトポロジーに基づい
て回路の数学的モデルを構築することから成る。回路の
モデルをいったん構築できれば、周知の技術を通じてこ
の振る舞いを正確に予測することができる。

【００１４】２．２一例としての電気回路当業者においては周知の通り、図１の略図によって表わ
される電気回路は一つの電圧源及び５つの抵抗を含む。
説明の目的上、この電圧源は１０ボルトであり、回路の
設計者は製造された回路のＶ₂ における電圧が２．０ボ
ルト、そしてＶ₃ における電圧が０．１７５ボルトを示
すことを意図するものと想定する。この設計が要求され
るような性能を示すことを確保するためには、これをシ
ミュレートすることが必要である。

【００１５】２．３一例としての電気回路のモデリン
グ当業者においては周知の通り、図１に表わされる電気回
路は、キルヒホッフの電流則及びキルヒホッフの電圧
則、並びに修正接続点解析（Modified Nodal Analysis
）に従って、図２に示されるようなセットの５つの方
程式に従ってモデル化することができることが分かる。
一般に、回路シミュレーションは回路をモデル化するこ
れらの方程式が集中的にシミュレートされることを要求
する。これらが、特に、コンピュータによってより簡単
にシミュレートできるようにするために、これらの方程
式は典型的にはマトリックス形式にて表わされる。当業
者においては周知のとおり、図２のセットの方程式は図
３に示されるようなマトリックス形式にて表わすことが
できる。

【００１６】２．４回路のシミュレーション当業者において周知のように、図３のマトリックスは幾
つかの周知の技術を使用して解くことができる。Ｊ．バ
ルチ（Vlach ）及びＫ．シングハル（Singhal）らによ
る文献『回路解析及び設計のためのコンピュータによる
方法（ComputerMethods for Circuit Analysis and Des
ign）』、ヴァン・ノストランド・レインホールド（Van
Nostrand Reinhold ）、１９８３年、及びＰ．Ｃ．シ
ールド（Shields ）による初級線型代数（Elementary L
inear Algebra ）、第三版、１９８０年が本明細書の参
考のためにここに編入される。回路シミュレーションに
おいては、高度の精度が要求され、従って、厳密な解を
与える技法が好ましい。このような技法の一つは、下限
上限分解（Lower Upper Decomposition 、ＬＵＤ）に続
く順方向削除（Forward Elimination 、ＦＥ）及び逆方
向置換（Back Substitution 、ＢＳ）である。

【００１７】当業者においては周知のように、ＬＵＤは
正規化（normalization ）及び更新（updating）の二つ
の動作を含む。要約すると、正規化はロウの各アフタ対
角線要素（after-diagonal element）をその対角線要素
で割る操作を含み、更新は最も最近正規化されたロウの
対角線要素以下のロウを操作する動作を含む。この手順
は左側の最も上の対角線要素から開始され、対角線を下
の方向に進む。ＬＵＤは全ての対角線要素が正規化され
た時点で完了する。ある技法によると、ＬＵＤが完結さ
れた後に、Ｖ₂ 及びＶ₃ に対する解を得るためにＦＥ及
びＢＳが遂行される。

【００１８】経験上から、幾つかのマトリックスは高い
パーセントのゼロ要素を含み、従って、”希薄（spars
e）”であると呼ばれる。これとは対象的に、低いパー
セントのゼロ要素を持つマトリックスは”密（dense
）”であると呼ばれる。希薄マトリックスのＬＵＤは
密マトリックスのＬＵＤと同一であるが、希薄マトリッ
クス内の多数のゼロ要素の存在はＬＵＤを遂行するため
に実行される多くの動作が不必要であることを意味す
る。

【００１９】好ましい実施例においては、順方向削除が
ＬＵＤと同時に当業者に周知な方法にて遂行される。要
約すると、係数を表わすマトリックスが図３の方程式の
右側を表わすベクトル分だけ増大される。図４は図３の
マトリックスに対応する増大されたマトリックスを表わ
す。

【００２０】図５は図４のマトリックス表現（represen
tation）を示すが、ここで、”Ｘ”はマトリックス内の
非ゼロ値の位置を表わす。当業者において周知の通り、
ＬＵＤの際に、追加の非ゼロ要素がマトリックス内の決
定可能な位置内に導入される。これらは図５内のＦによ
って表わされる。

【００２１】２．５マトリックスを解くためのタスク
グラフ一般に、ＬＵＤ、ＦＥ及びＢＳは各ロウが連続的に正規
化され、正規化されたロウの対角線下の非ゼロ要素（つ
まり、”Ｘ”或は”Ｆ”）が更新されるべきことを要求
する。当業者において周知のように、マトリックス内の
Ｘ及びＦの位置のみに基づいて、そのマトリックスによ
って表わされるセットの方程式を解くために必要とされ
る操作のスケジュールを生成することができる。遂行さ
れるべき操作及びこれらの相互依存の表現を描くことが
できる。このような表現は”タスクグラフ（task grap
h）”として知られている。

【００２２】マトリックスからのタスクグラフの構築は
当業者においては周知である。Ｏ．ウイング（Wing）及
びＪ．ヒュング（Huang ）によってコンピュータに関す
る米国電気電子学会議事録（I.E.E.E. Trans. on Compu
ters）、Ｖｏｌ．Ｃ−２９、ページ６３２−６３８（１
９８０年７月）に掲載の論文『線型方程式のパラレル解
決の計算モデル（A Computation Model of Parallel So
lution of Linear Equation ）』、及びＰ．サダヤパン
（Sadayappan）及びＶ．ビスバナサン（V.Visvanathan
）によってコンピュータに関する米国電気電子学会議
事録（I.E.E.E. Trans. on Computers）、Ｖｏｌ．Ｃ−
３７、ページ１６３４−１６４２（１９８８年１２月）
に掲載の論文『共有メモリ多重プロセッサ上での回路シ
ミュレーション（Circuit Simulation on Shared Memor
y Multiprocessors ）がここに本明細書の参考のために
編入される。タスクグラフはマトリックス内の非ゼロ及
び充填要素（fill-in element ）のパターンから誘導す
ることができる。図６は図５に示されるマトリックスと
関連するタスクグラフを表わす。このタスクグラフは各
ロウ正規化、ロウ更新及び逆方向置換（back-substitut
ion ）操作を一つのタスクとして表わし、これらタスク
の相互依存を示すことによって得ることができる。タス
クはタスクグラフ内において遂行されるべき操作の記述
を包囲する円によって表わされる。”Ｎ”を接頭語とす
る記述は正規化操作を表わす。”Ｕ”を接頭語とする記
述は更新操作を表わし、そして”Ｂ”を接頭語とする記
述は逆方向置換操作を表わす。接頭語”Ｎ”及び”Ｕ”
に続く数は操作されるべきロウを示す。例えば、記述”
Ｎ１”を含むタスクはロウ１を正規化することを意味
し、記述”Ｕ２Ｗ１”を含むタクスはロウ１からの情報
にてロウ２を更新することを意味する。接頭語”Ｂ”に
続くペアの数は、それぞれ、逆方向置換に関与するマト
リックス内の要素のロウ及びカラムである。あるタスク
はそれに情報を供給する全ての先行するタスクが終了し
てからのみ遂行できる。

【００２３】３．実施例３．１概要図６に示されるように、タスクグラフが二つ或はそれ以
上のタスクが独立していることを示す場合、タスクグラ
フはこれらタスクをパラレルにて遂行することによって
より速く完結することができる。図７に表わされる本発
明の実施例はススクがほぼパラレルに遂行されることを
許す。

【００２４】３．２実施例の編成図７は本発明の実施例の全体の様子を示す。これは分散
メモリマルチプロセッサシステムに基づき、３つの処理
要素７０７（”ＰＥ”）、通信網コントローラ７０
５（”ＣＮＣ”）によって制御される一つの通信網７０
３（”ＣＮ”）及び一つのホストプロセッサ７０１から
成る。この実施例においては、３つのＰＥが存在する
が、当業者においては、いかにして異なる数のＰＥを持
つように設計を修正したら良いかは周知である。この実
施例においては、ＣＮＣはホストに対するインターフェ
ースを提供するが、他の実施例においては、ホストが直
接にＰＥ或はＣＮの一部とインターフェースすることも
できる。この実施例においては、ＣＮＣはＣＮ及び各Ｐ
Ｅ内の通信プロセッサ８０９を制御する。

【００２５】各ＰＥは通信網にインターフェースを提供
する一つの通信プロセッサ、アドレス計算の任務を持つ
整数ユニット、浮動小数点ユニット、正規化されたばか
りのロウを保持するためのキャッシュ、及びマトリック
スの一部を保持するためのランダムアクセスメモリを持
つ。ホストプロセッサはタスクグラフ及びタスクスケジ
ュールを構築するために必要な前処理を遂行する。

【００２６】３．３操作初期値設定プログラムはホスト上で実行される。システ
ム内の各処理要素は初期値設定制御信号を持つが、これ
によって通信網からメモリ内にデータが読み込まれる。
処理要素内にプログラム及びデータがいったんロードさ
れると、これらはタスクの遂行を開始することができ
る。

【００２７】３．４通信網コントローラ（ＣＮＣ）図９に示されるように、ＣＮＣ９０３はホスト９０９と
処理要素９０５との間の通信を扱い、またシーケンシン
グユニットを制御する。シーケンシングユニットはＣＮ
Ｃ内に存在し、前処理の際に生成された通信スケジュー
ルを取り出す。通信スケジュールは処理要素間の通信を
制御するために使用される。

【００２８】３．５通信網（ＣＮ）前述したように、ロウ操作及び通信はタスクグラフの実
行の前に事前に決定される。処理要素９０５は、従っ
て、それが通信網９０１に送信する情報が通信網コント
ローラ９０３によって正しくルートされることを想定す
ることができる。より具体的には、処理要素９０５内の
通信プロセッサ９０７は通信網コントローラがこれを通
信網上に置くことができることを示すまで情報を保持す
る。

【００２９】通信網を実現する方法は幾通りもある。一
つのオプションはクロスバースイッチの使用を伴う。他
の幾つかのオプションでは環状通信システム或はバスが
使用される。Ｒ．テリチェフスキー（Telichevesky）、
Ｐ．アグラワル（Agrawal ）及びＪ．トロッタ（Trotte
r ）らによって米国電気電子学会議事録ＩＣＣＤ９１
（I.E.E.E. Proceedings ICCD 91）、ボストン（１９９
１）に発表の論文『多重プロセッサ上のでの効率的な希
薄マトリックス因子化のための高速シケジューリングス
キーム（Fast Scheduling Schemes for Efficient Spar
se Matrix Factorization on Multiprocessors）』は処
理要素の速度の半分の速度でランするバスシステムで本
発明の一つの実施例における場合のように処理要素内の
プロセッサとしてインテル１８６０マイクロプロセッサ
が使用された場合、１６のプロセッサに十分に対応でき
ることを示す。バススキームは実現が容易であり、また
複数のプロセッサユニットに同報通信できるという長所
を持つ。

【００３０】３．６処理要素（ＰＥ）処理要素７０７はタスクを遂行するための主計算エンジ
ンである。従って、これは通信するため及び様々な機能
を評価するために使用される複数の資源を含む。これは
倍精度浮動小数点値を迅速に読むことを可能にする広い
データバス（６４ビット）を持つ。これはまた８Ｋデー
タキャッシュを含むが、これは、ソースロウ及びそのイ
ンデックス値を保持するのに十分な容量である。正規化
及び更新のためのコードを保持するためにインストラク
ションキャッシュを使用することもできる。主メモリは
プロセッサにどのロウを正規化及び更新すべきかを告げ
る事前にコンパイルされたインストラクションリストの
みを保持する。整数ユニットはアドレス計算のために浮
動小数点ユニットとパラレルに動作できる。浮動小数点
ユニットは、パイプライン連結された掛け算加算モード
（これは更新のコア操作である）にて使用し、スループ
ットを向上させることができる。ＰＥはデータ構造内の
様々な要素のアドレスを計算するために整数を操作でき
なければならない。マトリックスのロウ及びこれらのイ
ンデックスを格納するために高速メモリ或はキャッシュ
が使用される。これらタスクのためにカスタムＶＬＳＩ
集積回路を特別に設計することもできる。別の実施例に
おいては、専用プロセッサがマイクロコントローラ及び
高速専用浮動小数点ユニットと共に使用される。別の方
法として、キャッシュメモリ及び浮動小数点ユニットを
持つ任意の汎用マイクロプロセッサを使用することもで
きる。

【００３１】３．７．１整数ユニット整数ユニット８０３はメモリシステムに対するアドレス
を計算し、プロセッサの基本分岐及び制御インストラク
ションを実現する。様々なアドレスを計算するための整
数ユニットの使用が浮動小数点プロセッサの速度に悪影
響を与えないように配慮すべきである。

【００３２】３．７．２キャッシュ処理要素は一つ或は複数のマトリックスのロウを表わす
データを保持するのに十分な大きさのキャッシュ８０５
を持つ。これはマトリックスの他のロウをより高いロウ
番号にて更新するために使用されるソースロウを効率的
に格納することを可能にする。

【００３３】３．７．３浮動小数点ユニット処理要素は全ての必要な演算計算を扱うための高速浮動
小数点ユニット８０７を含む。正確な回路シミュレーシ
ョンのために倍精度が好ましい。

【００３４】３．７．４メモリメモリシステム８１１はマトリックス内のロウを表わす
データへのランダムアクセスを許す。メモリがランダム
及び高速度にてアクセスされるため、可能な限りの高速
度を達成するために静的メモリが好ましい。

【００３５】３．７．５通信プロセッサ（ＣＰ）通信プロセッサ８０９は処理要素７０７の通信網７０３
にインターフェースを提供する部分である。通信プロセ
ッサは処理要素がデータを通信プロセッサに送ること或
はこの逆を可能にする双方向データバッファを含む。こ
のバッファの利点はデータを通信網に伝送するために待
ち行列に待たせている間に、及びデータが受信されてい
る間に処理要素が計算を遂行できることである。マトリ
ックス内の要素を表わすデータは通信網上をアンタッグ
形式（untagged form ）にて伝送される。従って、処理
要素はその意味を示すためにデータの文脈に依存する。
こうして、バッファは図１０に示されるような先入先だ
し（ＦＩＦＯ）待ち行列として実現される。高速通信を
達成するため、通信バスは９６ビット幅とされる。他の
幾つかの実施例においては、通信バスは異なる幅を持つ
ことも考えられる。処理要素の内部バスは６４ビット幅
であるが、但し、通信バスの幅と等しい或は等しくない
他の幅であっても良い。

【００３６】４．スケジューリング技法上に説明のコンピュータはマトリックスを解くために使
用できる。このコンピュータは、３つの処理要素を持
ち、各々が自体のメモリを持つため、マトリックスのロ
ウはこれら処理要素の間で分散される。各ロウに関する
操作はある程度まで独立しているが、処理要素間で交信
を必要とする幾らかの情報がある。このため、プロセッ
サが他のプロセッサによって遂行された計算の結果を必
要とする場合、通信が起こる。

【００３７】図１３は異なるプロセッサ上で異なるタス
クが実行されることを示すタスクグラフを表わす。第一
の処理要素によって遂行されるタスクは円によって表わ
される。第二の処理要素によって遂行されるタスクは四
角によって表わされ、第三の処理要素によって遂行され
るタスクは三角によって表わされる。通信網を通じての
処理要素間通信は図１３においてタスク間の点線によっ
て表わされる。タスクはそれが依存する全てのタクスが
完結した時実行することができる。従って、各処理要素
によって遂行されるべき下位セットのタスクをスケジュ
ールすることが可能である。加えて、処理要素間で起こ
るべき通信のリストをスケジュールすることができる。
セットの方程式は各プロセッサにそれが実行すべきタス
クのリストを提供し、スケジューラに通信のリストを提
供することによって解くことができるが、これらの両者
ともタスクグラフから得ることができる。図１４は図１
３のタスクグラフから得られるスケジュールを示す。本
セクションの残りの部分では図１３のタスクグラフ及び
図１４のタスクスケジュールが一例としての問題及び図
７のコンピュータを与えられた時、いかにして構築され
るかを詳細に説明する。

【００３８】４．１表記法及び定義

【外１】

【００３９】マトリックスＡのＬＵ分解（decompositio
n ）は以下の３つの基本タイプの一連の動作として表わ
すことができる。

【００４０】Ｄｋとして表記される除法は以下のように
定義される。つまり、ｋ＝１、２、．．．、ｎに対し
て：

【数１】

【００４１】Ｎｋとして表記されるロウに関する正規化
（row-wise normalization）は以下のように定義され
る。つまり、全ての非ゼロａ_kjに対して、

【数２】

【００４２】ロウｋにて更新されているロウｉに対応す
るｋ→ｉにて表記されるロウに関する更新（row-wise u
pdate ）は以下のように定義される。つまり、全ての非
ゼロａ_kjに対して、

【数３】

【００４３】我々は方程式３内のｋをソースロウと呼
び、ｉを宛先（destination)、目標（target）或は出力
（fanout）ロウと呼ぶものとする。この文献内におい
て、除法は通常正規化の初期フェーズであると見なされ
る。但し、最新鋭のハードウエアは浮動小数点除法（通
常非常にコストの高い操作）を背景プロセスとして乗法
−加法操作（multiply-add operation）と同時に遂行す
ることを可能にし、この別個のタスクとしての扱いを正
当化する。各ロウに関する正規化或は更新は、通常、最
大性能を達成するためにパイプライン連結された一連の
要素乗法−加法操作としてリアルプロセッサ内で実現さ
れる。

【００４４】これら操作は以下の規則に従う限り任意の
シーケンスにて実行することができる。Ｉ．ＮｋはＤｋが完結するまで開始できない。ＩＩ．Ｄｋはａ_kkを修正する全ての更新操作が完結する
まで開始できない。ＩＩＩ．ｋ→ｉはａ_ikを修正する全ての更新が完結する
まで開始できない。ＩＶ．ｋ→ｉ内の要素ａ_ijはａ_kjの正規化が完結するま
で更新できない。

【００４５】規則（Ｉ）から（ＩＩＩ）は強い意味にお
いてロウに関する操作との関連で依存性を確立する。つ
まり、ある操作は他が全ての結果の格納を完了するまで
オペランドを取りに行く動作を開始できない。これは、
通常、パイプライン連結されたシステムに対しては悪い
特性である。但し、規則（ＩＶ）は、ロウ更新タスク
が、両方のパイプラインが同一速度にてランするという
前提で、正規化操作の第一の結果が入手されると直ちに
開始されることを許す。この規則は新しいタイプの依存
性を確立するが、我々はこれを穏やかな依存（mild dep
endency ）と呼ぶ。

【００４６】これらタスク及びこれらの間の依存は一つ
のノードセットＶ及び（強い及び穏やかな依存に対応す
る）２つの弧セットＥ^s 及びＥ^m から成る一般マルチタ
スクグラフＧ（Ｖ、Ｅ^s 、Ｅ^m ）として便宜的に表わす
ことができる。このタスクグラフはサイクルを持たず、
直接循環グラフ（Direct Acyclic Graph、ＤＡＧ）であ
る。多重プロセッサベクトルマシーン内のパイプライン
連結を正しく活用するために、我々は以下のタスクモデ
ルを提案する。

【００４７】各ノードυ_i ∈Ｖは図１４に示されるよう
にパイプライン連結されたタスクに対応する。図１４は
リアルプロセッサ内でのタスクの実行を示す。第一のピ
ースのデータはこのパイプラインにｔ＝ｔ_ifにおいて入
る。パイプライン遅延に対応する時間遅延ｐ_i （ｔ＝ｔ
_of＝ｔ_if＋ｐ_i ）の後に、第一の要素の演算の結果が入
手可能となる。パイプラインのスループット時間に要素
操作の数を掛けた値に対応する時間ｃ_i の後に、最後の
ピースのデータがパイプライン内に供給され、プロセッ
サはパイプラインに新たなタスクに対応する幾つかのデ
ータの供給を開始する準備が整う。ｔ＝ｔ_ol＝ｔ_if＋ｃ
_i ＋ｐ_i において、最後の要素演算の結果が得られ、タ
スクυ_i は終了する。タスクυ_j がυ_i に強く依存する
場合は、これは、ｔ＝ｔ_olにおいて開始できるが、穏や
かな依存の場合は、これは別のプロセッサ内においてｔ
＝ｔ_ofとなると直ちに、或は同一プロセッサ内でｔ−ｔ
_ilにおいて開始することができる。強い依存はｅ_ij ^s に
よって表わされ、穏やかな依存はｅ_ij ^m によって表わさ
れる。

【００４８】図６は図５に示される希薄マトリックスの
ＬＵ分解を表わすタスクグラフを示す。我々は、このケ
ースにおいては、パイプライン遅延は１サイクル、乗法
−加法演算に対するこのスループットは１サイクル、そ
して除法（非パイプライン）は１サイクルを要するもの
と仮定する。

【００４９】

【外２】

【００５０】

【数４】

【００５１】タスクグラフの高さＨは最も高いレベルの
所の頂点のレベルであると定義される。つまり、

【００５２】

【数５】

【００５３】タスクグラフの高さがマトリックス分解の
最小完結時間と関連することは明らかである。短くて太
いタスクグラフは長くて細いタスクよりも良好なパラレ
ル性を活かすことができると期待できる。図６の例にお
いては、タスクグラフの高さは７である。但し、タスク
のレベルのみでは幾つかのハードウエア特徴及び異なる
タスクサイズを正しくモデル化するのには不十分である
ために、我々は、任意のタスクυ_i の完結時間ｄ_i につ
いての概念を導入するが、これは以下のように定義され
る。

【００５４】

【数６】

【００５５】

【外３】

【００５６】

【数７】

【００５７】

【外４】

【００５８】

【数８】

【００５９】残り完結時間は、実際には、タスクυ_i が
いったん終了すると、υ_i に依存する全てのタスクの完
結のための最小時間はδ_i であることが知られているた
めに、任意のタスクの早い実行がどれだけ重要であるか
の尺度である。β−タスクに対するδはゼロであること
は明らかである。以下においては、我々は、δ−技法に
基づく線型時間及び疑似線型時間（linear time and qu
asi-linear time ）スケジューリングスキームにおける
全タスクグラフに対する残り完結時間の計算を行なうた
めのアルゴリズムについて説明する。

【００６０】４．２スケジューリング技法多重プロセッサ環境においては、希薄マトリックスの因
子化（sparse matrixfactorization ）の際の計算資源
の活用に大きな影響を与える２つの主な要因が存在す
る。第一はプロセッサへのデータの割り当てであり、第
二は各プロセッサ内及び通信網内でのタスクスケジュー
リングである。以前、Ｒ．テリチェフスキー（Telichev
esky）、Ｐ．アグラワル（Agrawal ）及びＪ．トロッタ
ー（Trotter ）によって１９９１年９月にスペインのバ
ルセロナで開催されたアプリケーションスペシフィック
アレイプロセッサに関する国際会議（Int.Conf. on App
lications Specific Array Processors ）に発表の論文
『多重プロセッサ上での回路シミュレーションマトリッ
クスの因子化のための効率的な区分化法（EfficientPar
titioning Schemes for Circuit Simulation Matrix Fa
ctorization on Multiprocessors ）』において、我々
は幾つかの区分化アルゴリズムについて研究し、負荷均
衡技法が全体としての効率の点からほぼ最適な区画を与
えることを経験的に示した。２つのスケジューリング技
法が様々な区分化技法と組合わせて使用された。一つは
Ｊ．トロッタ（Trotter ）及びＰ．アグラワル（Agrawa
l ）によってコンピュータ支援設計に関する米国電気電
子学会主催の国際会議（I.E.E.E.Int. Conf. on Comput
er Aided Design）、サンタクララ、ＣＡ、ページ４３
８−４１１（１９９０年１１月）に発表の論文『分散メ
モリ多重プロセッサシステム上での回路シミュレーショ
ンアルゴリズム（Circuit Simulation Algorithmson a
Distributed Memory Multiprocessor System ）におい
て説明される単純なレベルをベースとする技法であり、
もう一つは貪欲スケジューリング技法（greedy schedul
ing technique ）である。レベルをベースとする技法に
おいては、あるレベルにおいてスケジュールされた全て
のタスクが次のレベルのタスクの実行の前に完結され
る。プロセッサは固定ステップ（lock-step ）様式にて
動作する。実行のために準備できたタスクが存在するの
にプロセッサが待たなければならないことがあるために
性能がある程度失われることは明らかである。後に説明
される単純な貪欲スケジューリングメカニズムはレベル
に基づく技法よりは良い結果を与える。但し、これは区
分化アルゴリズムによって課せられる理論上の最大性能
よりははるかに落ちる。

【００６１】システムの利用率を向上させるためには、
良好と呼ばれるスケジューリングアルゴリズムは、起動
されたタスク間で最も重要なタスクを選択し、これを最
初に実行するようにスケジュールする能力がなければな
らない。Ｖ．シャーカ（Sarkar）は、ＭＩＴプレス（Th
e MIT Press ）、１９８９年に掲載の論文『多重コンピ
ュータ上での実行のための区分化及びスケジューリング
並列プログラム（Partitioning and Scheduling Parall
el Programs for Execution on Multicomputers ）』に
おいてクリティカルパススケジューリングに基づくアル
ゴリズムを提案するが、これは非常に良好な結果を与え
る。このスキームにおいては、第一にスケジュールされ
るタスクはクリティカルパス内に存在するタスクであ
る。次に、各ブランチが分析され、ローカルクリティカ
ルパスが反復的にスケジュールされる。不幸にして、こ
のアルゴリズムの時間に関する複雑さ（time complexit
y ）はＯ（Ｅ（Ｖ＋Ｅ））である。ここで、Ｅ及びＶ
は、それぞれ、タスクグラフ内のエッジの数及び頂点の
数を表わす。Ｅは依存を表わし、Ｖはタスクグラフ内に
存在するロウに関する操作の数を表わす。大きなタスク
グラフに対しては、スケジューリング時間が法外なもの
になる。

【００６２】２つの新しいスケジューリング技法は残り
完結時間（δ）に基づく。これらスキームにおいては、
クリティカルパス内或は密集ブランチ内のタスクが他よ
りも大きなδ持つ傾向があるために、大きなδを持つタ
スクがその他のタスクの前に実行されるようにスケジュ
ールされる。このスケジューリング技法の正味効果はシ
ーカ技法ほど良好ではないが、δが全タスクグラフに対
して線型時間にて計算できるために、より小さなコスト
にて実現できる。以下では、我々は、いかにしてδを計
算するかを示し、次に、δ−技法に基づく２つのスケジ
ューリング技法を紹介し、最後に、実験的な結果を示
す。比較のために、我々は、Ｒ．テリチェフスキー（Te
lichevesky）、Ｐ．アグラワル（Agrawal ）及びＪ．ト
ロッター（Trotter ）によって１９９１年９月にスペイ
ンのバルセロナで開催されたアプリケーションスペシフ
ィックアレイプロセッサに関する国際会議（Int.Conf.
on Applications Specific Array Processors ）に発表
の論文『多重プロセッサ上での回路シミュレーションマ
トリックスの因子化のための効率的な区分化技法（Effi
cient Partitioning Schemes for Circuit Simulation
Matrix Factorizationon Multiprocessors ）』に記述
される貪欲スケジューリング技法の説明から開始する。

【００６３】４．２．１貪欲Ｏ（Ｅ）＋Ｏ（Ｖ）スケ
ジューリング発見的方法貪欲技法（greedy technique）は以下のように動作す
る。各プロセッサは実行のために準備ができた全ての割
り当てられたタスクを実行する。つまり、それが依存す
る全てのタスクは既に完結されている。完結されてない
時は、プロセッサは停止することとなる。この技法は非
常に高速であり、殆どのケースにおいて、レベルに基づ
くアプローチよりも良好な結果を与える。但し、これ
は、プロセッサ間のより複雑な同期機構を必要とする。
以下では、この技法についての簡単な説明が行なわれ
る。

【００６４】我々は各タスクυ_j にυ_j が起動される前
に満たされなければならない依存ｄ_j の数を関連付け
る。初期タスクでは、明らかに、ｄ_j ＝０である。我々
はまたυ_j をそのデータ依存及びプロセッサ割り当てを
考慮したときタスクが実行できる最も早い時間を表わす
時間スタンプｔ_j と関連付ける。この技法の開始におい
ては、全てのｔ_j は０である。この技法が終了した時、
各ｔ_j はタスクυ_j の実行に対する開始時間を含む。各
プロセッサｐはローカルタイマｆ_p を持つが、これは、
最後のスケジュールされたタスクが完結した時の時間を
保持する。この技法は、タスクグラフが構築され、全て
のｄ_j が正しくセットされ、全てのｆ_p がゼロとされ、
そしてデータがＲ．テリチェフスキー（Telichevesk
y）、Ｐ．アグラワル（Agrawal ）及びＪ．トロッター
（Trotter ）によって１９９１年９月にスペインのバル
セロナで開催されたアプリケーションスペシフィックア
レイプロセッサに関する国際会議（Int.Conf. on Appli
cations Specific Array Processors ）に発表の論文
『多重プロセッサ上での回路シミュレーションマトリッ
クスの因子化のための効率的な区分化技法（Efficient
Partitioning Schemes for Circuit Simulation Matrix
Factorization on Multiprocessors ）』において説明
される負荷均衡区分化技法を使用して正しく分配された
後に開始する。

【００６５】１．各プロセッサｐについて、ｄ_j ＝０と
なるように全てのタスクυ_j ∈Ｑ_p に訪れる。各訪れた
タスクυ_j に対して以下を遂行する。ａ．υ_j を時間ｔ_j ＝ｍａｘ（ｔ_j 、ｆ_p ）にスケジュ
ールする。ｂ．プロセッサｐ内のローカルタイマをｆ_p ＝ｔ_j ＋Ｃ
（υ_j ）にセットする。ｃ．υ_j の完了、つまり、∃ｅ_ijに依存する全てのタス
クυ_i に訪れる。個々の訪れたυ_i に対して以下を遂行
する。ｉ．ｔ_i をｍａｘ（ｔ_i 、ｆ_p ）にセットする。ｉｉ．ｄ_i ＝ｄ_i −１にセットする。

【００６６】２．セット１を全てのタスクが全てのプロ
セッサ内でスケジュールされるまで反復する。我々は、貪欲アルゴリズムに対する完結時間ｔ_G をスケ
ジューリングが完結した時のｆ_p の最大値であると定義
する。我々はまた貪欲スケジューリング利用率（greedy
scheduling utilization ）η_G を以下のように定義す
る。

【００６７】

【数９】

【００６８】４．２．２Ｏ（Ｖ）＋Ｏ（Ｅ）での残り
完結時間の計算この技法の開始において、我々は、タスクグラフがレベ
ル化され、個々のノードυ_i はそれが依存するタスクの
リストυ_j を含むものと想定する。この依存は図６に示
されるのとは反対のアーク方向に対応する。最初、我々
は、Ｄ＝０にセットし、このため個々のノードυ_i はδ
_i ＝０を含む。タスクグラフ内のレベルは１からＨまで
のレンジに及ぶが、ここで、Ｈは最高レベルである。こ
の技法は以下のように進行する。

【００６９】１．各レベルｋの所で、ｋ＝Ｈから開始し
ｋ＝１に向って、ｈ_i ＝ｋとなるように全てのノードυ
_i に訪れる。訪れた各ノードυ_i に対して以下を遂行す
る。ａ．δ_s ＝δ_i ＋ｃ_i ＋ｐ_i にセットする。ｂ．反対方向に全てのアークｅ_ji ^s を横断し、δ_j ＝ｍ
ａｘ（δ_j 、δ_s ）にセットする。ｃ．全てのアークｅ_ji ^m を反対方向に横断し、以下を遂
行する。ｉ．δ_m ＝δ_s −ｃ_j にセットする。ｉｉ．δ_j ＝ｍａｘ（δ_m 、δ_i 、δ_j ）にセットす
る。

【００７０】２．Ｄ＝ｍａｘ（Ｄ、δ_s ）にセットす
る。この技法の実行の終端において、全てのノードυ_i はδ
_i にセットされ、Ｄは最早完結時間にセットされる。必
要であれば、我々は、１（ｂ）及び１（ｃ）内にδ_j を
最大となるようにさせたエッジをクリティカルエッジ
（critical edge）ｅ_j ^cとして注釈を付けることもでき
る。このセットのクリティカルエッジはクリティカルパ
ス及びその分岐を形成する。

【００７１】４．２．３垂直Ｏ（ＶｌｏｇＶ）ス
ケジューリング発見的方法我々は各タスクυ_i をセクション４．２．２において計
算された残り完結時間δ_i と関連付ける。我々はまた各
υ_i をそのデータ依存及びプロセッサ割り当てを考慮し
たときタスクを実行することができる最も早い時間を表
わすタイムスタンプｔ_i と関連付ける。最後に、各ノー
ドはυ_i が起動される前に満たされなければならない依
存の数ｎｄ_i に関する情報を含む。各プロセッサｐは最
後のスケジュールされたタスクが完了した時間を保持す
るローカルタイマｆ_p を持つ。補助ｔ_V レジスタは分解
を完結するために必要な合計時間を含む。ここに説明さ
れる技法は２つのフェーズに分割される。第一のフェー
ズは実際のスケジューリングであり、第二のフェーズは
シミュレーションのみを目的としたスイムスタンプの計
算である。この技法は、ある区分化技法に従ってタスク
グラフが構築され、全てのδ_i 及びｎｄ_i が正しくセッ
トされ、全てのｆ_p ＝０、全てのｔ_i ＝０、ｔ_V ＝０及
びデータが分配された後に開始される。

【００７２】１．各プロセッサ内でタスクをδの減少順
（decreasing order）に分類する（Ｏ（Ｖｌｏｇ
Ｖ）ステップ）。定理１は結果としてのスケジュールが
デッドロックを持たないことを示す。

【００７３】２．各プロセッサｐについて、次のスケジ
ュールされたタスクυ_i に訪れる。各訪れたタスクυ_i
に対して以下を実行する。ａ．ｎｄ_i ≠０ならば別のプロセッサに進み、そうでな
い時は、進行する。ｂ．ｔ_i ＝ｔ_if＝ｍａｘ（ｔ_i 、ｆ_p ）にセットする。ｃ．ｔ_ol＝ｔ_if＋ｃ_i ＋ｐ_i にセットする。ｄ．ｔ_of＝ｔ_if＋ｃ_i ＋ｐ_i にセットする。ｅ．ｆ_p ＝ｔ_il＝ｔ_if＋ｃ_i にセットする。ｆ．全てのアークｅ_ij ^s を横断し、υ_i に強く依存する
各訪れられたυ_j に対して以下を遂行する。ｉ．ｎｄ_j ＝ｎｄ_j −１にセットする。ｉｉ．ｔ_j ＝ｍａｘ（ｔ_j 、ｔ_ol）にセットする。ｇ．全てのアークｅ_ij ^m を横断し、υ_i に穏やかに依存
する各訪れらたυ_j に対して以下を実行する。ｉｎｄ_j ＝ｎｄ_j −１にセットする。ｉｉ．ｔ_j ＝ｍａｘ（ｔ_j 、ｔ_of）にセットする。ｈ．ｔ_V ＝ｍａｘ（ｔ_ol、ｔ_V ）にセットする。

【００７４】３．ステップ２を全てのタスクが訪れられ
るまで反復する。

【００７５】ステップ１に提案されるスケジューリング
スキームはあまりにも単純であり、デッドロック無しの
コードを生成することが明らかでないためこれが正しい
かどうか疑問に思われるかもしれない。ところがこれに
反して、以下の証明はデッドロック無しのコードに対す
る必要で十分な条件を与える。

【００７６】定理１この証明は３つの部分に分けられ
る。第一の部分は単一プロセッサのケースに対応し、残
りの二つの部分は、プロセッサ間デッドロックを扱う。ａ．２つのタスクυ_i 及びυ_j が同一プロセッサ内に存
在し、υ_i がυ_j に依存するものと想定する。すると、
デッドロックはυ_i がυ_j の前に実行されるようにスケ
ジュールされた時にのみ起こる。然しながら、υ_i がυ
_j に依存する場合、少なくとも１つの直接経路Ｒ_k ^j,iが
存在するはずであり、従って、υ_p ∈Ｒ_k ^j,i及びυ_p ≠
υ_j という条件下で、δ_j ＝δ_i ＋Σ_k=j ⁱコスト（υ
_p ）である。コスト（υ_p ）＞０と想定すると、他は物
理的に可能でないために、δ_j ＞δ_i であり、υ_j はυ
_i よりも前に実行されるようにスケジュールされること
となり、これは、初期デッドロック仮説に反する。ｂ．υ_i 及びυ_j がプロセッサｐ_r 内に存在し、υ_m が
プロセッサｐ_s 内に存在するものと想定する。プロセッ
サ間デッドロックはυ_m がυ_j に依存し、υ_iがυ_m に
依存する時にのみ発生するが、但し、υ_i はυ_j の前に
起こるようにスケジュールされている。パート（ａ）と
同一の議論を用いて、我々は、δ_j ＞δ_m 及びδ_m ＞δ
_i ということができる。推移関係δ_j ＞δ_i を用いる
と、（ａ）の場合と同一議論によってこの定理の証明を
完結することができる。ｃ．（ｂ）からの帰納的結論により、我々は、いかなる
数のプロセッサ内にもデッドロックが存在しないことを
証明することができる。

【００７７】上の技法はデッドロックの無いスケジュー
ルを生成するが、ひつとの明らかな短所を持つ。これは
起動されたタスクが存在するのにもかかわらず幾つかの
プロセッサがアイドル状態で他のプロセッサからのデー
タの到着を待つ可能性があるためである。次にセクショ
ンにおいては、幾つかの貪欲さ（greediness）を導入す
ることによってプロセッサアイドル時間を低減する垂直
スケジューリング技法の修正バージョンが示される。

【００７８】４．２．４ δ−貪欲Ｏ（Ｖｌｏｇ
Ｖ）スケジューリングスキームこの技法はセクション４．２．３において我々が考えた
のと同一の想定に基づくが、但し、我々はこのスキーム
においては貪欲要素（greedy element）を加える。貪欲
技法とδ技法は衝突するものであるために、我々はこれ
らの間の妥協をスケジューリング弾性（scheduling ela
sticity ）кの形式にて定量的に生成しなければならな
いが、次にこれについて議論する。セクション４．２．
３のステップ２（ｂ）において、我々は、ｔ_if＝ｍａｘ
（ｔ_i 、ｆ_p ）にセットした。このコードはυ_i それが
依存するタスクの完結によって起動される前（ｔ_i ）、
或はプロセッサがそれを実行する準備が整う前（f_p）の
いずれか遅い方が起こる前に開始できないことを意味す
る。ｔ_i ＞ｆ_p ならば、プロセッサは停止する。但し、
他のタスクυ_j が存在し、ｔ_j ＜ｔ_i であるが、但し、
δ_j ＜δ_i 及びｎｄ_j ＝０である状況が考えられる。こ
のケースにおいては、我々はスラック（slack ）を低減
するためにυ_i の前にυ_j を実行することができる。図
１２は我々がυ_i の前にυ_j を挿入しようと試みたとき
発生する可能性のある４つの可能なタイミング状態を示
す。（ａ）及び（ｃ）においては、ｔ_j ＞ｆ_p であり、
従って、少しのスラックが残されるが、（ｂ）及び
（ｄ）ではυ_j はスラックを起こさない。（ａ）及び
（ｂ）においては、υ_j の挿入はυ_i の開始を遅延する
が、一方、（ｃ）及び（ｄ）においては、挿入されたタ
スクがυ_i が起動される前に終了するために、遅延は起
こらない。タスクυ_j を挿入するか否かを決定するのに
使用される技法はкに依存し、このため、条件

【００７９】

【数１０】

【００８０】が満たされる場合、我々はυ_j をυ_i の前
に挿入する。к≦０の場合は、挿入は許されず、この技
法は垂直スケジューリングと同一の結果を与える。к≦
１の場合は、δ−技法と貪欲技法との間に矛盾は起こら
ない。このケースにおいては、図１２の部分（ａ）及び
（ｂ）に示される挿入は許されない。к＞１の場合は、
貪欲技法とδ−に基づくスキームとの間に妥協が存在す
る。

【００８１】この技法は、以下の手順によって置換され
るライン２（ｂ）を除いては、セクション４．２．３に
説明されたものと基本的に等しい。１．ｔ_i ≦ｆ_p の場合、ｔ_if＝ｆ_p にセットし、リター
ンする。２．υ_s ＝υ_i 、スラック_s ＝スラック_i ＝ｔ_i −ｆ_p
にセットする。３．プロセッサｐ内で起動されている（ｎｄ_j ＝０）全
てのタスクυ_j に訪れ、訪れた各タスクに対して以下を
遂行する。ａ．スラック_j ＝ｍａｘ（ｔ_j −ｆ_p 、０）にセットす
る。ｂ．（スラック_j ＜スラック_s ）及び（スラック_j ＋ｃ
_j ＜к・スラック_i ）の場合は、以下を遂行する。ｉ．スラック_s ＝スラック_j にセットする。ｉｉ．υ_s ＝υ_j にセットする。ｉｉｉ．スラック_s ＝０の場合は、サーチを終了する。４．υ_s ＝υ_i の場合は、ｔ_if＝ｔ_i にセットし、リタ
ーンする（サーチは失敗）５．υ_s をυ_i の前にスケジュールし、ｔ_if＝ｆ_p ＋ス
ラック_s にセットする。

【００８２】４．２．５シミュレーションの結果及び
解説セクション４．２．３において、我々は、垂直技法に対
する完結時間ｔ_v を計算した。同様な手順を用いてδ−
貪欲技法に対するｔを計算することができる。Ｐをプ
ロセッサの数、Ｔを逐次実行時間とすると、我々は、垂
直及びδ−貪欲技法、並びに最適区分化（optimal part
itioning）に対するスケジューリング利用率（scheduli
ng utilization）をそれぞれη_v 、η並びにη_opt によ
って以下のように表わすことができる。

【００８３】

【数１１】

【００８４】

【数１２】

【００８５】

【数１３】

【００８６】

【数１４】

【００８７】ここで、Σ_j Ｃ（υ_j ）はロウｉを宛先と
して持つタスクυ_j の総実行時間を表わす。ｔ_opt はＬ
Ｕ分解（decomposition ）の際に実現が可能パラレル量
に対する障壁を表わし、区分化動作に起因する最小完結
時間に対応する。これはマトリックスの各ロウに対して
依存及び任意のロウを更新するために必要とされる操作
の数を決定することによって簡単に計算することができ
る。

【００８８】テーブル１は前に説明の技法を使用しての
ＬＵ分解に対するシミュレーション結果を示す。レベル
に基づくスケジューリング及び貪欲スケジューリングの
ケースについては、我々は、我々の先の研究、つまり、
Ｒ．テリチェフスキー（Telichevesky）、Ｐ．アグラワ
ル（Agrawal ）及びＪ．トロッター（Trotter ）によっ
て１９９１年９月にスペインのバルセロナで開催された
アプリケーションスペシフィックアレイプロセッサに関
する国際会議（Int.Conf. on Applications Specific A
rray Processors ）に発表の論文『多重プロセッサ上で
の回路シミュレーションマトリックスの因子化のための
効率的な区分化技法（Efficient Partitioning Schemes
for Circuit Simulation Matrix Factorization on Mu
ltiprocessors ）』に報告の結果をここでも示す。これ
ら技法間の正当な比較を達成するために、我々は、各要
素操作が１サイクルを取る非常に単純なコスト関数を使
用し、非パイプライン連結（全てのｉに対してｐ_i ＝
０）を想定する。

【００８９】垂直スケジューリングは、殆どのケースに
おいて、生成されたコードが結果としてタスク間に多く
のスラックを与えるために、貧しい結果を与える。但
し、我々が多くのプロセッサを使用することにより最小
完結時間の境界に接近すると（このケースにおいては、
多くのスラックが存在する）、この技法は、８個以上の
プロセッサに対するｆｅｂ及びｏｍｅｇａに対してテー
ブルに示されるように、ほぼ最適な結果を生成する傾向
を示す。

【００９０】対比的に、δ−貪欲スケジューリング法は
８０％のケースにおいて、より良い結果を与える。これ
は垂直及び貪欲スキームの両方の長所を結合する。単純
な貪欲技法がδ−貪欲技法よりも良好な性能を示すのは
２つのケースにおいてのみ見られるが、これは、適度の
数のプロセッサを使用した場合のｉｉｒ１２及びｍｆｒ
に対してである。これらケースにおいては、効率が最小
スラックを持つタスクの貪欲割り当てによって支配され
るために、クリティカルパスは重要な役割を果さない。
全てのケースにおいて、我々は、Кを以下に従って計算
した。

【００９１】

【数１５】

【００９２】Ｐが増加すると、我々は、より多くの利用
可能なスラックを持ち、従って、垂直順位の変更の可能
性はあまり許されなくなる。総コストとクリティカルパ
スのサイズとの間の比が増加すると、垂直順位にあまり
注意が払われなくなり、そして挿入のチャンスが増大す
る。

【００９３】本セクションにおいて示された結果は異な
る技法の比較のためには有益である。但し、これらが表
わすコスト関数は現実的でない。次のセクションにおい
ては、我々は、高バンド幅網を通じて接続された最新の
マイクロプロセッサの性能を比較するために現実的なコ
スト関数を伴う複数のシミュレーションの結果を提出す
る。

【００９４】４．３アーキテクチャの評価プロセッサが高速バスを通じて接続される場合は、我々
のタスクグラフの単純な修正によってこのシミュレーシ
ョンを行なうことができる。最初に、我々は、バスのス
ループットが正規化されたパイプラインと同一であると
いう前提の下で正規化に穏やかに依存する同報通信タス
クＢｉを加える。次に、我々は、更新の依存を変える。
つまり、適当なソースのロウ正規化への依存が適当なソ
ースのロウ同報通信への依存と置換される。最後に、我
々は問題のロウに割れ当てられたプロセッサがバスを使
用してロウを同報通信するようにする。このモデルの使
用には複数の長所が存在する。第一に、これは一般タス
クモデルと一貫する。従って、任意のスケジューリング
技法を修正することなく実行することができる。第二
に、バストランザクションを、これらが他のタスクと同
様に残り完結時間に関する情報を持つため、これらの重
要性に従って自動的にスケジュールすることができる。
最後に、システムが注意深く設計された場合、我々はバ
スをパイプラインデバイスとして使用し、複雑なバッフ
ァリングスキーム及びこれらがシステム内に導入するオ
ーバヘッドを回避することができる。この概念をより良
く理解するために、図１５に示されるタイミング図を考
察する。プロセッサｐ₁ が正規化Ｎｉを実行しており、
一方、プロセッサｐ₂ がロウ更新ｉ→ｊを遂行するため
にＮｉによって生成されるデータを必要とするものと想
定する。これらタスクがクリティカルである場合は、バ
スをこれら２つのタスク間のパイプとして動作するよう
にスケジュールし、プロセッサｐ₁ 上のパイプラインか
らデータを取り出し、プロセッサｐ₂ 上のパイプライン
にこれを供給することができる。このモデルは我々にシ
ステムの性能に関する正しい情報を提供するのみでな
く、通信資源の利用率を向上させる。

【００９５】仮想上のアーキテクチュアの特性をこうし
てモデル化した上で、我々は、ダイナミックラムメモリ
の一部を表わすベンチマーク回路マトリックスを使用し
てこれらの性能の比較を行なった。

【００９６】

【表１】

【００９７】

【表２】

【００９８】テーブル２は異なるハードウエア構成に対
する結果をミリ秒にて示す。ｉ８６０は４０Ｍｈｚにて
ランするインテルｉ８６０にて構築されたシステムを表
わす。Ｗ_g 及びＷ_s は２０Ｍｈｚにてランするウエイテ
ック（Weitek）ＦＰＵ及び汎用コントローラ或は専用コ
ントローラにて構築されたシステムを表わす。Ｂ_g 及び
Ｂ_s は構築が可能な場合１００Ｍｈｚにてランするビッ
トＦＰＵ及び汎用或は専用コントローラを含むシステム
を表わす。ビット（Bit ）ＦＰＵに対しては、我々は、
チップ内に利用可能な分割ユニット（Division Unit ）
を正しくモデル化するためにスケジューリングアルゴリ
ズムを変更した。全てのケースにおいて、我々はバスを
プロセッサ内の浮動小数点パイプラインと同一のスルー
プットを持つものとしてモデル化する。比較の目的から
は、クレイＸ−ＭＰスーパーコンピュータ（Cray X-MP
Supercomputer ）上での同じマトリックスの因子化は５
９．８ｍｓを要し、一方、サン４ワークステーション
（Sun 4 Workstation ）内では１９４２０ｍｓを要す
る。ここで得られた結果は、このようなマシーンの設計
及び構築を奨励する。

【００９９】５．一例としての問題の解決図１の回路は図２に示されるセットの方程式にてモデル
化することができるが、これら方程式はまた図３に示さ
れるようなマトリックス形式にて表わすこともできる。
図５に示されるマトリックスのゼロ／非ゼロ構造はマト
リックスによって表わされるセットの方程式を解くため
に必要な正規化、更新及び逆方向置換タスクを決定する
ために使用される。これらタスクは多重処理システム内
の一つ以上の処理要素がこれらタスクを並列に実行でき
ることが許されるようにスケジュールされる。前述のよ
うに、これらタスクはロウレベルの操作に基づき、従っ
て、マトリックスの全ロウが対応する処理要素間で分配
される。

【０１００】この区分化は、Ｒ．テリチェフスキー（Te
lichevesky）、Ｐ．アグラワル（Agrawal ）及びＪ．ト
ロッター（Trotter ）によって１９９１年９月にスペイ
ンのバルセロナで開催されたアプリケーションスペシフ
ィックアレイプロセッサに関する国際会議（Int.Conf.
on Applications Specific Array Processors ）に発表
の論文『多重プロセッサ上での回路シミュレーションマ
トリックスの因子化のための効率的な区分化技法（Effi
cient Partitioning Schemes for Circuit Simulation
Matrix Factorization on Multiprocessors ）』におい
て教示される方法に基づく。この方法は、個々の処理要
素によって実行されるべきセットのタスクを固定する。
いったんこのタスクの区分化が行なわれると、これらタ
スクをコンピュータ上でスケジュールすることができ
る。図１３のタスクグラフにおいて、タスク間の点線は
対応する処理要素間で通信網を通じてデータ通信が起こ
るべきであることを示す。

【０１０１】本発明の実施例の一例においては、（”ス
ケジューラ”）は最初にタスクグラフ内の個々のタスク
にコストを割り当てる。図１３は個々のタスクに関連す
るｐ及びｃのコスト値を持つタスクグラフを示す。例え
ば、Ｎ１タスクのコストｐは、タスクＮ１の結果が１時
間ユニットの後に他のタスクによって使用が可能となる
ために１である。タスクの総コストはｐ＋ｃであり、こ
れは、図１４に示されるように関連する長方形の時間の
長さによって表わされる。これらコストに基づいて、”
最早完結時間（earliest completion time）”と呼ばれ
るメトリックδを計算することが可能である。このメト
リックは、無限量の処理資源が存在すると仮定したとき
残りのタスクグラフを計算することができる最少量の時
間を示す。δの値はグラフ内の個々のタスクに対して終
端タスク（例えば、タスクＢ２、３）から開始して、初
期タスク（例えば、タスクＮ１及びタスクＮ４）に向か
って進行する。任意のタスクに対するδの値は任意のタ
スクのコストに任意のタスクに依存するタスクの最大δ
値を加えることによって決定される。例えば、図１３に
示されるように、タスクＵ５Ｗ２に対するδはこのコス
ト（ｃ＋ｐ＝３＋０＝３）をこれに依存するタスク、つ
まり、Ｕ５Ｗ３タスクの最大δ値を加えることによって
計算される。

【０１０２】タスクＮ１のδはタスクＵ２Ｗ１（δ＝１
０）、Ｕ５Ｗ１（δ＝８）、Ｂ１、４（δ＝０）及びＢ
１、２（δ＝０）に対してδの最大を取り、ここでは、
最大は１０に等しいが、これを、Ｎ１タスクのコストに
加えることによって決定することができる。Ｎ１のコス
トは、タスクＵ５Ｗ１及びＵ２Ｗ１がＮ１に穏やかに依
存するために１であり、結果として、Ｎ１に対するδと
して１１が与えられる。タスクグラフ内の全てのタスク
に対してδ_s が計算されたら、これらはδの値の減少順
に格納される。スケジュールが次に各処理要素上で実行
されるべきセットのタスクを取り、この処理要素に対し
て、実行されるべきタスクをδの逆順にスケジュールす
ることによって誘導される。任意のタスクの完了と、ス
ケジュールされるべき次のタスクとの間に時間がある時
は、この間に実行されるべき別のタスクをスケジュール
することを試みる。この手順が全ての処理要素上の全て
のタスクがスケジュールされるまで継続される。加え
て、通信網コントローラによって通信網上の通信の順序
付けをするために使用される通信のスケジュールが決定
される。図１４は３つのプロセッサの各々に対する実行
されるべきタスクのスケジュール及び処理要素間でデー
タを交信するために必要とされる通信のシーケンスを示
す。

【０１０３】各プロセッサに対していったんタスクスケ
ジュールが生成されると、方程式を解くためにコンピュ
ータが使用される。タスクのリスト及びこれらタスクを
実行するために必要とされるインストラクションがホス
トから各処理要素に送られる。マトリックスのロウがホ
ストからそのロウの操作に責務を持つ対応する処理要素
に送られる。通信網によって運ばれるべき通信のシーケ
ンスを表わすリストがホストから通信網コントローラに
送られる。

【０１０４】図１４に示されるように、実行される最初
のタスクは処理要素Ｐ１（円によって表わされる）上の
Ｎ１（つまり、ロウ１の正規化）である。このタスクが
完結した後のマトリックス内の値が図１６に示される。
Ｎ１タスクの結果はＰ１によって四角によって表わされ
る処理要素Ｐ２に送られる。送信のスケジュールは通信
網コントローラによって監督されることに注意する。次
に、タスクＵ２Ｗ１はタスク１によって生成されたデー
タに依存し、このデータが入手できるようになると実行
を開始できる。タスクＵ５Ｗ１が次にＰ２上で実行され
るが、これは前にＰ１から送られたのと同じデータを使
用する。これら３つのタスクが完結した後のマトリック
スの値が図１７に示される。

【０１０５】処理要素Ｐ１上で生成されたタスクＮ４か
らのデータはＰ２及びＰ３の両方によってタスクＢ２、
４、Ｂ３、４及びＵ５Ｗ４を実行するために必要とされ
ることに注意する。このケースにおいては、通信網コン
トローラによってデータが処理要素Ｐ２及びＰ３の両方
に同報通信される。終極的には、全てのタスクが完結さ
れ、処理要素のメモリは、集合として、解ベクトル（つ
まり、セットの方程式に対する解）を含む。図１８のマ
トリックスは全てのタスクが実行された後のマトリック
スを示すが、このときの解ベクトルはマトリックスの最
後のカラムにある。これはホストによってコンピュータ
から読み出される。

【０１０６】図１８の最後のカラム内に示されるよう
に、Ｖ₂ 及びＶ₃ に対する電圧は、それぞれ、１．９５
及び１．７７であると決定される。

【図面の簡単な説明】

【図１】本発明の一つの実施例によって分析されるべき
典型的な電気回路の略図である。

【図２】図１の電気回路の電気特性をモデル化するセッ
トの方程式を示す。

【図３】図２に示されるセットの方程式のマトリックス
表現を示す。

【図４】図３に示されるマトリックスに対応する増強マ
トリックスを示す。

【図５】図４に示される増強マトリックスのゼロ／非ゼ
ロ構造を示す。

【図６】図５の増強マトリックスを解くためのタスクグ
ラフを示す。

【図７】本発明の一つの実施例の概要を示す。

【図８】図７に示される処理要素の概要を示す。

【図９】図７に示される処理要素間の通信のためのメカ
ニズムを示す。

【図１０】図８に示される通信プロセッサの通信プロセ
ッサの概要を示す。

【図１１】一つの実施例によって遂行されるべきタスク
の時間的表現を示す。

【図１２】タスクをタスクスケジュール内に挿入するた
めのオプションを示す。

【図１３】図３の増強マトリックスを解くためのタスク
グラフを示す。

【図１４】図１３のタスクグラフに対応するタスク実行
のスケジュールを示す。

【図１５】一つの実施例におけるパイプラインバス動作
のタイミングを示す。

【図１６】最初のタスクが完結した後の図４のマトリッ
クスを示す。

【図１７】３つのタスクが完結した後の図４のマトリッ
クスを示す。

【図１８】図１の回路に対応する解マトリックスを示
す。

【符号の説明】

７０１ホスト７０３通信網７０５通信網コントローラ７０７処理要素

───────────────────────────────────────────────────── フロントページの続き (72)発明者プラシマアグラワルアメリカ合衆国 07974 ニュージャーシィ，ニュープロヴィデンス，コルチェスターロード 40 (72)発明者リカードテリチェヴスキーアメリカ合衆国 02139 マサチューセッツ，カンブリッジ，ナンバー339，アルバニーストリート 143 (72)発明者ジョンエー．トロッターアメリカ合衆国 08876 ニュージャーシィ，サマーヴィル，アパートメント 307, ニューストリート 11

Claims

【特許請求の範囲】

【請求項１】多重インストラクション流 −多重デー
タ流コンピュータシステムにおいて、該システムが：（１）複数の処理要素を接続するための通信手段を含
み；（２）該複数の処理要素が（ａ）セットのデータ信号、
セットのインストラクション信号及びセットの結果信号
を保持するためのメモリ、（ｂ）該セットのインストラ
クション信号に基づいて該セットのデータ信号を処理し
て該セットの結果信号を生成するための手段、及び
（ｃ）該通信手段から該セットのインストラクション信
号及び該セットのデータ信号を受信し、また通信網コン
トローラに応答して該通信手段を介して該セットの結果
信号を該処理要素の一つ或は複数に送るための通信プロ
セッサを含み；（３）該通信網コントローラが（ａ）該処理要素の各々
が該通信手段から該セットのインストラクション信号及
び該セットのデータ信号をいつ受信するかを制御するた
めの手段、及び（ｂ）該処理要素が該セットの結果を該
通信手段にいつ送るかを制御するための手段を含むこと
を特徴とするシステム。
【請求項２】複数の処理要素からなる多重インストラ
クション流 −多重データ流コンピュータ上で使用され
るセットの線型方程式の操作によって表わされる物理的
現象をモデル化するための方法において、該方法が：該
セットの線型方程式の操作を複数のタスクに分解するス
テップ；該タスクを該処理要素に分配するステップ、該タクスの各々に対して、該処理要素の一つによって該
タスクの処理に必要とされる時間の量に基づいて資源メ
トリックを計算するステップ；該タスクの各々に対し
て、該タスクの処理を終えた後該セットの線型方程式の
操作を完結するために該処理要素によって必要とされる
時間の量に基づいて完結メトリックを計算するステッ
プ；及び該タスクの各々を該資源メトリック及び完結メ
トリックに基づく順番に処理するステップを含むことを
特徴とする方法。【０００１】