JPS58159171A

JPS58159171A - 並列処理方式

Info

Publication number: JPS58159171A
Application number: JP4220882A
Authority: JP
Inventors: Hiroshi Hatsuda; 發田　弘
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1982-03-17
Filing date: 1982-03-17
Publication date: 1983-09-21
Also published as: JPS6259347B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の属する技術分野〕本発明は、並列処理方式、％に１データ処理装置におけ
る並列処理方式に関する。

一般に、演算処理を高速化する方法の１つとして並列処
理方式がある。

この並列処理方式は、処理すべきプログラムの中で並列
に実行できる部分を各々入なるプロセッサで実行し、ｈ
台のプロセッサで理想的にはへ倍の性能を得ようとする
ものである（実際には並列に実行できない部分や並列動
作を制御するための余分な時間・・・・・・オーバヘッ
ド・・・・・・のため、へ倍以下の性能しか得られない
。）〔、従来技術〕従来の並列処理方式は、制御プロセッサと、それぞれが
データを記憶する複数のデータメモリと、前記制御プロ
セッサに並列に接続された複数のプロセッサと、前記複
数のプロセッサと前記複数のデータメモリとを並行して
相互に接続するためのメモリ　スイッチとを含み、前記
複数のプロセッサのそれぞれはプロセッサエレメントと
、前６．プロセツサエレメントを前記制御プロセッサと
接続するための制御プロセッサインターフェースと、前
記プロセッサエレメントを前記メモリスイッチと接続す
るためのメモリスイッチインク・−フェースとを含んで
構成される。

次に、従来の並列処理方式について、図面を参照して詳
細に説明する。

ＩＰ、１図は従来の並列処理システムの一例を示すシス
テム構成図であり、第２図は第１図に示すプロセッサの
一例を示す詳細ブロック図である。

第１図に示す並列処理方式は、制御プロセッサＣＰと、
この制御プロセッサＣＰに専用の制御専用メモリＣ）’
Ｍｌ、Ｃ）’Ｎ２と、制御プロセッサＣＰに並列接続さ
れたプロセッサ）’）’１−）’）’１６と、プログラ
ムおよびデータを記憶したメモリＭＭＩ〜ＭＭ３２と、
１６台のプロセッサと３２台１リメモリとを相互に遊行
して接続するために１６刈３２＝５１２個の接続点をも
つメモリスイッチとを含んでいる。

プロセッサＰＰ１〜）’）’１６はいずれも同一の構成
をなし、第２図に示すように、プロセッサエレメントＰ
Ｅと、メモリスイッチインターフニースゲＭａｌと、制
御プロセッサインターフェースＣＰｌを含んでいる。メ
モリインターフェースＭａｌは、プロセッサエレメント
ＰＥからデータあるい、文プログラムの読出を行なうた
めのアクセス要求１ｒ５？モリスイッチＮ８を介してメ
モリＭＭＩ−ＮＭ３２に供給するとともにメモリｊｌｌ
１Ｍ　１−ＪＮ　３２から読み出したデータをプロセッ
サエレメントＰＥに供給するとともにプロセッサエレメ
ントＰＥでの演算結果などをメモリｊｖｌＮ　１−ＭＲ
４３２に記憶させるために供給する。制御プロセッサイ
ンターフェースＣＰｌはインターフェースａを介して制
御プロセッサＣＰと接続され、プログラム実行開始指示
ａＴＡＲＴやプログラム実行停止指示８Ｔ（Ｊ）’ｔ−
制御プロセッサＣＰから供給されて、プロセッサエレメ
ントＰＥに供給したシプロセッサエレメントＰＥからの
処理終了通知ＥＮＤを制御プロセッサＣＰに供給する０すなわち、メモリスイッチ′ＭＳを介して１６台のブロ
セ、す）’）’１．）’Ｐ１６が３２台のメモリＮＮＩ
＆、ＪＮ３２にアクセスできるようになっておシ、各プ
ロセッサＰＰ１〜）’Ｐ１６は各々独立にプログラムを
実行することが可能である０制御プロセツサＣＰはプロ
セッサＰＰ１〜）’）’１６とのインタフェース１を通
してプログラム実行開始指示５ＴＡＲＴ　ｔ−供給した
シ、プロセッサが実行を完了したときの処理終了通知Ｅ
ＮＤを受理するＯこの制御プロセッサＣＰの制御の干でプロセラｔＰＰ１
〜Ｐ）’１６は解くべきプログ？ム中の並列処理部分に
ついて分担して実行する。たとえば、町＋ｂｌ　＠　ａ
ｌ＋　ｂ、　Ｉ　・、Ｊｌｎ　＋ｂｔｓｓという計算で
あればｉ番目のプロセッサＰＰｉがａｌ＋ｂｌ　ｔｔｔ
算する。

このような従来の並列処理システムの性能ｔ−高めるに
は各プロセッサの性能を高くするかプロセッサの台数を
増やす必要がある。

しかしながら、プロセッサの性能を高めるとその装置寸
法が大きくなり多数並べることが困難になる。さらに、
プロセッサの台数を増やすとメモリを並行して使用でき
るようにするためにはメモリも増大する必要がありメモ
リスイッチはプロセッサの台数とメモリの台数との積で
増大して複雑・大規模になり、やは夛実現困難になる（
たとえばクロスバ・スイッチで考えるとプロセッサ台数
とメモリ台数を各々２倍にするとスイッチの規模Ｖｉ、
２Ｘ１共４倍になる）。こうしＡ、欠点のため大規模、
超高性能の並列処理システムはほとんど実用化されてい
ない。

すなわち、従来の並列処理方式は並列度を増大させるこ
とが困難であるという欠点があった。

〔発明の目的〕

本発明の目的は並列度を増大できる並列処理方式を提供
することにある。

すなわち、本発明の目的は並列処理を分担する各プロセ
ッサをさらに複数のプロセッサエレメントからなる並列
処理プロセッサとすることによシメモリスイッチの規模
を大きくすることなく並列度を高めて上記欠点を解決し
大規模、超高性能を有する並列処理システムを提供する
ことにある。

〔発明の構成〕

本発明の並列処理方式は、制御プロセッサと、それぞれ
がデータを記憶する複数のデータメモリと、前記制御プ
ロセッサに並列に接続された複数のプロセッサと、前記
複数のプロセッサと前記複数のデータメモリとを並行し
て相互に接続するためのメモリ　スイッチを含み、前記
複数のプロセッサのそれぞれは、並列に設けられた複数
のプロセッサエレメントと、各プロセッサエレメントに
共通に設けられプログラムを記憶するプログラムメモリ
と、前記複数のプロセッサエレメントを前記制御プロセ
ッサと接続する九めの制御プロセッサインターフェース
と、前記複数のプロセッサエレメントを前記メモリスイ
ッチと接続するためのメモリスイッチインターフェース
と、前記メモリスイッチインターフェースに接続され前
記データメモリに記憶したデータの一部の写しを記憶す
るデータ用キャッジΔ′メモリとを含んで構成される。

すなわち、本発明の並列処理方式は、複数のプロセッサ
エレメントと該複数のプロセッサエレメントで共有され
るプログラム用メモリと該複数のプロセッサエレメント
で共有されるデータ用キャッジ番メモリと、該複数のプ
ロセッサエレメントから発生するデータメモリへのアク
セス要求の中から各データメモリアクセスタイミング毎
に一つを選択して処理する回路とから構成される演算処
理装置複数台と複数のデータメモリと任意の上記演算処
理装置から任意の上記データメモリへのアクセスを可能
にするメモリ・スイッチとを備えて構成される。

さらに、本発明の並列処理方式は、上述の構成に加えて
、制御プロセッサと該制御プロセッサから上記全プロセ
ッサエレメントにプログラム実行開始を指示する通信手
段と上記各プロセッサエレメントからプログラム実行終
了を上記制御プロセッサに通知する手段とを備え、上記
制御プロセッサの制御下で一つのプログラム中の並列処
理部分を上記全プロセッサエレメントにより並列に実行
するように構成される。

すなわち、本発明の並列処理方式は並列処理を分担する
各プロセッサを並列に動作する複数のプロセッサエレメ
ントで構成することによｐ１メモリスイッチの規模を大
きくすることなく実質的な並列処理プロセッサ台数を増
やしている。

すなわち、本発明の並列処理システムは、ｎ台のプロセ
ッサと、ｍ台すなわち、ｎ台あるいば１台などｎ台以上
のデータメモリと、このｎ台のプロセッサとｍ台のデー
タメモリとをａｈするためのｍＸｎ個の接続点を有する
メモリスイッチとを含み、このｎ台のプロセッサのそれ
ぞれの１台のプロセッサの内部構造ｋ１台のプロセッサ
エレメントと、この１台のプロセッサエレメントで共通
的に使用される、（メモリで１台のプロセッサエレメン
トの実行すべきプログラムを格納した１台のプログラム
メモリと、１台のプロセッサエレメントのそれぞれから
前記ｍ台のデータメモリへのアクセス要求を受けて、処
理するメモリスイッチインターフェースとを含んでいる
。すなわち、このメモリスイッチインターフェースはメ
モリのアらのアクセス要求の中から１つを選択して選択
されたアクセス要求をメモリスイッチを介してデータ用
メモリへ送出する。このアクセス要求が読出要求であれ
ばデータメモリから送られてくるチータラ要求元のプロ
セッサエレメントに渡す。このように、メモリスイッチ
インターフェースで、データメモリへのアクセス・イン
ターフェースを１本に絞っているのでメモリスイッチの
規模（プロセッサを接続するためのインタフェース数）
を路にすることができる。この場合データ用メモリへの
アクセスが１台のプロセッサエレメント間で競合するの
でこれが性能上のボトルネックになる可能性がある。

しかし、この問題は第１に、プロセッサエレメントで共
用するプログラム専用のプログラムメモリｔ−持たせる
ことで軽減している。すなわち、通常のコンビエータで
はプログラムもデータも同じメモリに格納しているが本
発明に使用するプロセッサではプログラムは１台のプロ
セッサエレメントに共用される専用のプログラムメモリ
に格納されているのでメモリスイッチインターフェース
を介してのメモリへのアクセスはデータに対するものに
限られ、通常のコンピュータに比しアンセス頻度は最大
Ｈ位に低減される。

第２に、メモリスイッチインターフェースに接続された
データ用キャッシュメモリによりデータメモリへのアク
セス頻度をさらに軽減している。

すなわちデータ用キャッシュ・イモリにｒ／′ｉ１台の
プロセッサエレメントで共通に利用できるデータ（たと
えば定数など）や計算の途中結果などがならずしもデー
タメモリに格納しておかなくてもよいデータを格納して
、データメモリへアクセスする回数をへらす〇このため、メモリスイッチインターフェースはプロセッ
サエレメントからデータメモリへのアクセス要求があっ
た場合そのデータがすでにデータ用キャッシュメモリに
格納されていないかを調べそこに格納されていればそこ
から読み出し、ないときのみデータ用メモリへ要求を出
す。

〔実施例の説明〕

次に、本発明の実施例について、図面を参照して詳細に
説明する。

第３図は本発明の一実施例を示すシステム構成図、第４
図は第３図に示すプロセッサの詳細ブロック図である。

フロセラ？）’Ｐｌ’〜）’）’１６’は内部に８台の
プロセッサエレメントＰＥ１〜ＰＥ８を含む並列処理方
式のプロセッサで各々８個のプログラムを並タリに実行
する能力を有しているがプロセッサの台数やその中のプ
ロセッサエレメントの台数はこの例に限定されるもので
はない。

各プロセッサＰＰ　ｌ／へ）’）’１５／はメモリスイ
ッチＭ８ｔ−介して任意のデータ　メモリＤＮ　ｌ　、
ＤｈＡ　３２に対してデータの続出、書込ができる。デ
ータメモリの台数は第３図でｔｉ３２台としているが、
これはプロセッサの台数やデータメモリの性能、データ
メモリの使用Ｓ度によって定められこの例に限定される
ものではない。

また、メモリスイッチＮ８の構成については完全なりロ
スバ一方式をはじめとして多数の構成法があるがそのい
ずれかに限定されるものではない。

ここでは−例として完全クロスバ一方式を仮定しており
複数のプロセッサから同時にデータメモリへのアクセス
要求が発生しても同一のデータメモリへアクセスしでい
かぎシ競合は起らないとしている。他の構成のメモリス
イッチＭＳを用いたとしても本発明の効果には関係しな
い。

制御プロセッサＣＰは制御専用メモリＣ）’Ｎｌ。

Ｃｋ’Ｍ２を有しさらにメモリスイッチＭＳを介してデ
ータメモリＤＮｌ〜ＤＩＩＪ３２へもアクセスできる。

制御専用メモリの台数も本例では２・台とじ７いるがこ
れに限定される訳ではない。制御プロセッサＣ）’＃′
ｉインタフェース２を介して各プロセッサ）’）’１’
〜）’）’１６’のそれぞれの制御プロセッサインター
７エーｘｃ）’ｌ’を介して各プロセッサと通信するこ
とができる。

第４ＦＩＡＦｉ第３図に示すプロセッサの一例を示すブ
ロック図である。

プロセッサニレメン）　ＰＥＩ−Ｊ’Ｅ８は各々プログ
ラムを実行する能力を有するプロセッサエレメントでそ
のプログラムはプロセッサニレメン）　）’Ｅｌ〜）’
Ｅ８に共通に接続され九専用のプログラムメモリＰＭに
格納されている。プログラムメモリコントローラＰＭＣ
ｄプログラムメモリＰＭのアクセスを制御するもので、
プロセッサエレメントＰＥ１〜ＰＥ８からのアクセスの
交通會理などの制御を行なう。

メモリスイッチインターフェースＮ８１’ハ各ニア’ロ
セツサエレメント）’Ｅｌ〜ＰＥ８が第３図に示すデー
タメモリＤＭＩ〜Ｌ）Ｎ３２にアクセスするための制御
回路で複数のプロセッサエレメントＰＥ１〜ＰＥ８から
同時にアクセス要求があったときにはそれらの中から１
つを一定のアルゴリズムに従って選択し、選択されたア
クセス要求をメモリスイッチＭ８工１を経てデータメモＩＪＤＭ１〜ｌ）Ｎ３２のいずれか送
出する。読出動作であれば送ったアドレスに従って該当
するデータメモリから送られてくるデータを要求元のプ
ロセッサエレメントに引き渡す制御も行う。

データ用キャッシェメモリＤＣの動作は一般のコンビエ
ータ用キャッシュメモリと閤様である。

すなわち、プロセッサエレメｙ））’Ｅ１〜）’Ｅ８が
らデータメモリＤＮ１〜ＤＮ３２へのアクセス要求があ
るとメモリスイッチインターフェースＮＳＩ’はデータ
用キャッジ為メモリＤＣの内容を調べて求めるデータが
すてにそこに格納されているときはそこから読み出して
プロセッサエレメントＰＥｌ〜ＰＥ８　へ渡たす。ない
場合にはデータメモリＬ１ｖｌ〜ＤＮ　３２ヘアクセス
要求を出し、データメモリＤＮ１〜ＤＮ３２から送られ
てきたデータを要求元のプロセッサニレメン））’Ｅｌ
〜ＰＥｓへ引渡すと共にメモリスイッチインターフェー
スＭ８１’にモ格納しておき、同じデータが再び要求さ
れたときに備える（この要求は他のプロセッサエレメン
トからでもよい）。

また、データメモνＤＭ１〜ＤＮ３２への誉込みに際し
て紘同じデータをデータ用キャッシェメモリＤＣにも格
納しておき後で再びこれを読み出すときに備える。キャ
ッシユからの追出しアルゴリズムなども汎用コンビエー
タのキャッシユにおける一般的手法が適用できるが、本
コンビエータ・シスｆムが専用機的であることからプロ
セッサニレメン）ＰＥＩ〜ＰＥ８のプログラムによりそ
れを制御させるようにしてもよいであろう。すなわち、
キャッジ龜に格納しておきたい　データと格納する必要
のないデータをプログラムに指定させることや、キャッ
シュではなくアドレス指定可能なメモリとしてしまう方
法（この時はプロセッサエレメント）’Ｂ１．）’ＩＪ
からはデータメモリＤＮｘ〜ＤＮ３２と別のメモリとし
て見え、そこへ伺を格納するかはすべてプロセッサエレ
メントのプログラムで指定されることになる）などが考
えられる。

制卸プロセッサインターフェースＣ）’ｌ’−ｉ制御プ
ロセッブロＰと通信するための回路で各プロセッサエレ
メントＰＥｔ〜ｌ’Ｅ３と制御プロセッサＣＰ間の通信
およびそのプロセッサ）’Ｐ１’〜Ｐ）’１６’自身と
制御プロセッサＣＰ間の通信を制御する（本方式ではン
７トウェアから見えるのは各プロセッサエレメント）’
Ｅｌ〜ＰＥ８でありプロセッサ）’）’ｌ’〜Ｐ）’１
６’は物理的ながたｔカ（装置単位）としてしか意味が
ないので、制御プロセッサＣＰとの通信も論理的にはプ
ロセッサエレメントと制御ブロセ、すＣＰ間が主であ嶋
。

この通信の例としては各プロセッサエレメントＰＥ１〜
ＰＥ８にプログラム実行の開始を指示するプログラム実
行開始指示５ＴＡＲＴや、プログラム実行停止指示５Ｔ
（Ｊ）’などがある。プロセッサニレメン））’Ｅｌ〜
ＰＥ８はプログラム実行開始指示８　ＴＡＲ，Ｔを受け
てプログラムの実行ｔ−開始し、所定の条件を満した時
あるいはプログラム実行停止指示５１０Ｐを受けたとき
に動作を中止する。また、ＩＩＪ＃プロセブロインター
フェースＣＰ　ｌ’はプロセッサエレメント）’Ｅｌ、
）’Ｅ１３から制御プロセッサＣＰへインターフェース
ａｔ−介して情報を伝えるための制御も行い、たとえば
プログラム実行開始指示Ｓ’ＦＡＲＴを受けて実行開始
彼、特定のプロセッサエレメントＰＥ１−ＰＥ８が実行
を終了したなどある条件を満したらそれを制御プロセッ
サＣＰに伝えるものも制御プロセッサインターフェース
ｅ）’ｌ’である。

各プロセッサニレメン））’Ｅｌ〜）’Ｅ１３の構成は
−出す点が異なる。一般のコンビエータでは命令語とデ
ータは同一のメモリに格納されるが本発明を用いた並列
処理システムではデータメモリＤＭＩ〜ＤＭ３２へのア
クセス　バスの負荷を組滅するため命令語はプログラム
メモＩ）ＰＭｐミ噛４に格納している。これはデータに
ついては各プロセッサエレメント）’Ｅｌ−ＰＨ８の相
互間で受渡しする必要があるとともに各プロセッサＰＰ
ｌ′〜）’Ｐ１６’の相互間でも受渡しの必要があるの
で共通のデータメモリに格納せざるを得ないけれど、プ
ログラムはその必要性がなく、各プロセッサエレメント
ＰＥｘ−ＪＥｇ４に共有されるが、各プロセッサ）’）
’ｌ／〜）’）’１５／ごとに設けられている専用のメ
モリ中に格納しておけるという性質を利用している。

各プロセッサエレメント）’Ｅｌ〜ＰＥ８はプログラム
メモ＋）ＰＭに格納されたプログラムに従りてデータ用
キャッジ集メモリＤＣあるいはデータメモリＤＮＵ１〜
ＤＭ３２からデータを読み出して処理し、結果をデータ
メモリＤＭ１〜ＤＭ３２ならびにデータ用キャツシエメ
モリＤＣへ戻すという動作を繰り返すことになる。

第３図に示す並列処理システムにおいて、プログラムを
実行する時の動作は次のようになる。

をとりあげる。

演算開始前にデータＡｉ、Ｂｉを制御プロセッサＣＰが
データメモＩＪＤＭＩ〜１）Ｎ３２に入れるＯたとえば
、データＡ、〜Ａ、はデータメモ＋７ＤＭ１に、データ
Ａ９〜Ａ１・はデータメモリＤＭ２に格絡し、以下同様
にしてデータＡ　１１　＠　’＝　Ａ　Ｈ鵞畠　　はデ
ータメモリＤＭ１６に格納する。同様に、データ８１〜
Ｂ６はデータメモリＤＭ１７に、データＢ、〜ＢＩ６は
データメモリＤＭ１８に、データＢＳ！＋１〜Ｂ１１＠
　　はデータメモリＤＭ３２に格納する。

１２８台のプロセッサエレメントがあシ、１番目のプロ
セッサニレメン））’ＥｆはＡｉｘＨｉの計算をして演
算結果Ｃｉ　′ｔ−データメモリに格納する。この計算
をやるためのプログラムは各プロセッサエレメントＰＥ
１〜ＰＥｓに共通なプログラムＰＭの中に格納されてお
り、各プロセッサエレメントＰＥ１〜ＰＥ８の中の命令
アドレス　レジスタにはそのプロセッサニレメン））’
Ｅｌ〜ＰＥｓが実行すべき最初の命令語のプログラムメ
モリＰＭのアドレスが設定される二これは制御プロセッ
サＣＰの制御下でデータメモリＤＮＩ〜ＤＪ２からメモ
リスイッチＭＳおよびメモリスイッチインターフェース
ＭＳｌ’−ｆ通して行なわれるか、あるいはインターフ
ェースａおよび制御プロセッサインターフェースＣＰ１
′を通して行なわれる。

以上の準備は制御プロセッサＣＰが行い、完了するとイ
ンターフニースミｆ通して１２８台のすべてのプロセッ
サエレメント宛のプログラム実行開始指示５ＴＡＲＴを
プロセッサＰＰｌ／〜）’）’１６”に送出する。これ
によって、すべてのプロセッサエレメ７）ＰＥＩ〜ＰＥ
ｓは各々の命令アドレスレジスタの値に従ってプログラ
ムメモリＰＭから命令語ｔ−読み出し、解読して実行す
る。

いま、プロセッサ）’）’　ｌ’中のプロセッサエレメ
ントＰＥｌを例にとれは、データメモリＤＮｘから読み
出したデータ人、とデータメモリＤＭｘ７から読み出し
たデータＢ１に対しＡ、ｘＢ、のｉｔｔλ倉して演算結
果Ｃｒｔ−データメモリに格納する。

Ｍｅに、プロセッサエレメントＰ　Ｅ　２　ｉｌＡ、ｘ
Ｈｌの計算をして、演算結果Ｃ２を格納し、以下四様に
、プロセッサエレメント）’Ｅ８はＡＩＸＨ，→Ｃｓの
処理をする。これらの処理は各プロセッサニレメントム
を実行するとしているがそれは異なるプログラムであっ
てもよいしたとえ一一プログラムであっても条件分岐が
入る場合にＬ各プロセッサエレメントに途中から異なる
命令シーケンスを実行することＫなる可能性がある。

ここで、プログラムメモリＰＭに格納されているプログ
ラムについてすこし説明する。

プログラムメモリＰＭに記憶されたプログラムが各プ四
セッサエレメントＰＥ１〜ＰＥ８毎に異なるものである
場合Ｆｉ特に問題はないが唯一りのプログ２ムをすべて
のプロセッサニレメン））’Ｅｌ〜ＰＥＲが共用する場
合にはそれを可能にする丸めに特別の工夫が必袂である
。加算０乗算といった演算処理の動作やその順序は各プ
ロセッサニレメン））’Ｅｌ、）’ＩＩＪに共通であっ
ても使用するデータメモリＤＮｘ−ＤＮ３２に記憶され
ているデータはプロセッサニレメン））’Ｅｌ−）’Ｅ
８毎に異なるからである。このためにはたとえばインデ
ックス　レジスタなどを用いてプログラム中の命令語の
オペランド　アドレスを修正して使用するなどが考えら
れる。たとえば［Ａ番地のデータをアキュムレータに加
算せよ」という命令時の場合、各プロセッサニレメン）
）’Ｅｌ〜ＰＥ８は自分のインデックレジメタ中にプロ
セッサエレメント番号「目を記憶し、上記命令［ｆを実
行するときには該インデックスレジスタで番地Ａを修飾
し［Ａ−ＮＪ番地のデータをアキエムレータに加算する
ればよい。これによシ各プロセッサエレメントＰＥ１〜
ＰＥ８はすべて同じ加算動作をするが用いるデータは互
いに異なるようにできる。

各プロセッサエレメントＰＥ１〜ＰＥ８から各データメ
モリＤＮＩ〜ＤＭ３２へのアクセス要求（Ａｉ　、Ｂｉ
を読み出し九り、Ｃｉ　ｔ−格納するための景Ｓ）はメ
モリスイッチインターフェースＭ８１’で交通整理され
、競合した場合は１つだけ選択されて他は待たされるの
で、各プロセッサニレメン））’Ｅｌ〜ＰＥ８　の命令
実行のタイξングはずれてくる可能性がある。同様に、
プログラムメモリＰＭへのアクセスについてもプロセッ
サニレメン））’Ｅｌ〜ＰＥ８　の相互間で競合が発生
するが、これはプログラムメモリＰＭの制御部であるプ
ログ２ムメモリコントローラＰＭＣが交通整理する。し
たがって、たとえ同一のプログラムを実行していても、
すべてのプロセッサエレメントＰＥＩ、）’Ｅ８がまっ
たく同期して同時刻に同じ動作・処理をしている訳では
ない。

演算処理ＡｉｘＨｉ−＊Ｃｉの処理が完了すると制御プ
ロセッサインターフェースＣ）’１／およびインターフ
ェース麿を通って制御プロセッサＣＰにこの旨通知され
る。制御プロセッサＣＰは１２８台すＣ４はデータメモ
ＩＪＩ）Ｍｌ〜ＤＮ３２の中に格納されているからＩＩ
Ｉ御プロブロサＣＰはメモリスイッチＭ８を介してデー
タメモリＤＭＩ〜ｆ）ＭＢ２にアクセスして演算結果Ｃ
ｉ　を読出順に加算する。この動作バ一般的コンビエー
タにおける加算と同じで制御プロセッサＣＰ内のプログ
ラムによル、演算結果ＣＩ　＋　Ｃ１＋・・・Ｃ１□　
を逐−読み出して加算する。

この加算が終了すれは求める答となる。

各プロセッサエレメントＰＥＩ、）’Ｅ８から制御プロ
セッサＣＰへの通知は上記のように各プロセッサエレメ
ントＰＥ１〜ＰＥ８が終る毎に制御プロセッサＣＰに通
知してもよいが、プロセラ））’）’ｌ’〜）’）’１
５／　の内でまとめて通知することで制御プロセッサＣ
Ｐとの間の通信量を減らすことも考えられよう。

サエレメントＰＥ１〜ＰＥｓが途中まで行う方法も考え
られる。すなわち、たとえばＣ１＋　Ｃ意＋・・・＋Ｃ
ａはプロセッサ）’）’ｌ’の中で次のようにすればよ
い。

（Ｃ＋＋Ｃ＊）　、（ＣＩ＋Ｃ４）　、ＣＣｓ十Ｃ＠）
　、（Ｃｙ　＋ＣＩ）の４つの計算を４つのプロセッサ
エレメント）’Ｅｌ、）’Ｅ８を使って並列に行い、そ
０結米をそれぞれＤＩ　、Ｄｌ　ｅ　Ｄａ　＋　Ｄ４と
すると次に（ＩＪＩ＋Ｄり。

（Ｄａ　＋Ｄ４　）を並列に行い、その結果を各々Ｅ１
．　Ｅ。

とすると１＆後にＥ、＋Ｅ、　ｔ−計算する。これを各
プロセッサ）’）’１’〜）’）’１５／内でやれは制
御プロセッサＣ）’＃−１１６台のプロセッサ）’）’
　１’〜）’）’１６’の残した１６個の演算結果の総
和を計算するだけでよい（前の例では制御プロセラ？Ｃ
）’Ｆｉ１２７（ｇＩの加算をやることになるがこの方
法なら１５回の加算ですむ）。

この計算過程で演算結果ＣＭ−，−Ｃ，はデータメモＩ
ＪＤＮｌ−ＤＭ３’２から読み出してくる必要があるが
データＤ、〜Ｄ４．　Ｅ、　、　Ｅ、はいずれもデータ
用キャッシェメモリＤＣに格納しておけばよくデータメ
モｌｊＤＭｌ〜ＤＮ３２へ格納してまたそこから読み出
してくる必要はない（但し本実施例ではデータメモリＤ
Ｎｌ〜ＤＮ３２データ用キャッシュメモリＤＣの両方に
格納し、キャツシ二からＱｔＭみ出してくることになる
）ＯＥｌ＋Ｅ、の結果はかならずデータメモリＤＮｉ〜ＤＭ
３２に残さないと制御プロセッサＣＰが次の計算（１６
台のプロセッサ）’）’１’〜Ｐ）’１６’の演算結果
を合計する）を実行できない。

どこまでの計算をプロセッサがやシ、どこから制御プロ
セッサＣＰがやるかの制御はこのシステムを使用する人
のプログラムに・よってすべて行なわれるので制御プロ
セッサＣＰの性能ならびにプロセッサの台数と性能に応
じてクースノ（イケースで判断されることになろう。

このように、第３図に示す実施例では８台のプロセッサ
エレメントＰＥ１〜）’Ｅ８’ｅそれぞれ含んだ１６台
のプロセッサ）’）’ｌ’〜）’）’１６’で１２８の
並列演算ができるが実際に１２８台の独立し九プロセッ
サをおいたとするとメモリスイッチＭＳの規模は１２８
Ｘ３２になるのに比し本例では１６Ｘ３２で済み装置実
現上有利になる（コスト、装置の大きさ、性能などの面
で）。

〔発明の効果〕

本発明の並列処理方式は、制御プロセッサに並列接続さ
れ複数のデータメモリとメモリスイア・チを介して相互
に並行して接続されるプロセッサのそれぞれが、単一の
プロセッサエレメントからなる代りに、並列に動作する
複数のプロセッサエレメントを並列に設けることによフ
、メモリスイッチ側から見た場合には単一のプロセッサ
エレメントしか有していないように見えながら時分割で
複数のプロセッサエレメントをメモリスイッチに接続す
ることができる九め、並列度を増大できるという効果が
ある。

すなわち、本発明の並列処理方式は、複数のプロセッサ
を内蔵するプロセッサを並列におき、制御プロセッサの
制御下に並列動作されるように構成することで大きな並
列度の並列演算を実現容易にし、かつ並列演算できない
部分は制御プロセッサで処理することで融通性が増し応
用分野が拡大するという効果を有する。

【図面の簡単な説明】第１図は従来の一例を示すシステム構成図、第２図は第
１図に示すプロセッサの詳細ブロック図、第３図は本発
明の一実施例を示すシステム構成図、第４図は第３図に
示すプロセッサの詳細ブロック図である。ＣＰ・・・・・・制御プロセッサ、ＰＰｌ〜）’）’１
６　、　）’）’１’〜Ｐ）’１６’・・・・・・プロ
セッサ、Ｃ）’Ｍｌ、ＣＩ’Ｎ２・・・・・・制御専用
メモリ、Ｎ８・・印・メモリスイッチ、ＭＭ１〜ＮＮ３
２・・・・・・メモリ、　ＭＢ２．Ｎｆ９１’　・・・
・・・メモリスイッチインターフェース、ＣＰｌ、ＣＰ
１′・・・・・・制御Ｉ／’ロセッサインターフェース
、ＰＥ、ＰＥ１〜ＰＥ８　・・・°°°プロセッサエレ
メント、ＤＭｌ〜ＤＭ３２・・・・・・データメモリ、
ＤＣ・・・・・・データ用キャッシェメモリ、ＰＭ・・
・・・・プログラムメモリ、ｋ’Ｍｃ・・団・プログラ
ムメモリコントローラ、ａ・・・・・・インターフェース。＼−／第　７図ＣＰ第？聞

Claims

【特許請求の範囲】制御プロセッサと、それぞれがデータを記憶する複数の
データメモリと、前記制御プロセッサに並列に接続され
た複数のプロセッサと、前記複数のプロセッサと前記複
数のデータメ七りとを並行。して相互に接続するためのメモリ　スイッチとを含み、
前記複数のプロセッサのそれぞれは、並列に設けられた
複数のプロセッサエレメントと、各プロセッサエレメン
トに共通に設けられプログラムを記憶するプログラムメ
モリと、前記ａ数のプロセッサエレメントを前記制御プ
ロセッサと接続するための制御プロセッサインターフェ
ースと、前記複数のプロセッサエレメントを前記メモリ
スイッチと接続するためのメモリスイッチインターフェ
ースと、前記メモリスイッチインターフェースに接続さ
れ前記データメモリに記憶したデータの一部の写しを記
憶するデータ用キャッジ１′メモリとを含むことを特徴
とする並列処理方式。