JP2000339283A

JP2000339283A - 並列演算処理装置

Info

Publication number: JP2000339283A
Application number: JP11158480A
Authority: JP
Inventors: Masao Yoshida; 征夫吉田
Original assignee: YSD KK
Current assignee: YSD KK
Priority date: 1999-03-23
Filing date: 1999-04-27
Publication date: 2000-12-08

Abstract

(57)【要約】【課題】多数の演算プロセッサを効率的に高速並列演
算処理する装置【解決手段】この並列演算処理装置は、パイプライ
ン処理とフィードバック処理の並列処理構成を持ってい
る。パイプライン処理構成では、１演算ユニットの処理
レイテンシの数＋１が演算ユニットの個数Ｎに一致する
基本構成を持っている。この構成により、処理量が増え
たときには、それに比例して演算ユニットの個数Ｎを増
やすことで、実行効率を落とすこと無く対応出来る。フ
ィードバック処理構成では、各演算ユニットの出力結果
を複数の演算ユニットの入力バッファにブロードキャス
トでき、様々な形式の演算処理に対応できる。また、不
具合の演算ユニットを予備のものに切替えて実行の継続
が出来る機能を具備している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列演算処理装置
に関する。

【０００２】

【従来の技術】従来の高速並列演算処理装置は、スーパ
・コンピュータ、パソコン・ネットワークおよび専用機
がそれに該当する。スーパ・コンピュータは、価格、
使用環境、可鍛性に問題がある。パソコン・ネットワー
クは、スペース、使い勝手、可鍛性にやはり使い難さが
ある。一方、専用機は、特定用途に限定しているため、
多目的使用に対応出来ないという状況にある。

【０００３】

【発明が解決しようとする課題】マイクロ・プロセッサ
の進化、高速化は、ハードウエアであるランダム・ロジ
ックの置き換えから始まった。ソフトウエア・ロジッ
クおよびアルゴリズム化することによって、ハードウエ
アの画一化、汎用化が進み、ソフトウエアで記述される
機能はより高度化、多機能化することが出来るようにな
った。

【０００４】また物理的な対応では、プロセッサの高速
性は、オンライン・リアルタイム化を促進し、ハードウ
エアの介在の余地をより小さくする。演算速度のさら
なる超高速化はハードウエアのほとんど介在しないｆｕ
ｌｌｐｒｏｇｒａｍｍａｂｌｅの世界となる。

【０００５】即ち、演算処理の超高速化は、ｆｕｌｌ
ｐｒｏｇｒａｍｍａｂｌｅによる仮想環境（ｓｉｍｕｌ
ａｔｅｄｅｎｖｉｒｏｎｍｅｎｔ）を作り出し、現実の
装置、物理現象、動作、制御をオンライン・リアルタイ
ムで高速演算処理装置の上で実験出来るようになる。本
発明は多数の高性能演算プロセッサを並列処理すること
によって、高速演算処理装置を構成するものである。

【０００６】この方式では以下に示す項目が課題とな
る。効率が高く簡易な並列処理の構成データ入力方式により異なった並列処理の構成がとれ
る入出力の高速化に必要なバス・ネックの解消シミュレーションを含むソフトウエア開発の容易化周期的な演算実行では、演算処理がばらついても、周
期性を保証する。演算ユニットの故障等の不具合に対応出来る。

【０００７】

【課題を解決するための手段】本装置は、ｆｕｌｌｐ
ｒｏｇｒａｍｍａｂｌｅによる仮想環境（ｓｉｍｕｌａ
ｔｅｄｅｎｖｉｒｏｎｍｅｎｔ）を作り出し、オンラ
イン・リアルタイムでの現実の装置、物理現象、動作、
制御をシミュレーションし、ソフトウエアのアルゴリズ
ムの開発、検討、評価を行うものである。また、開発
完成後は、機器に組込み使用も可能となる。

【０００８】本発明では、効率が高く簡易な並列処理の
構成として、多数の演算ユニットを入力データとシステ
ム・バスでサンドイッチ状にバス結合し、入出力バスを
分離したことによって、バス・ネックを解消している。

【０００９】また、演算の種類によって、これらの演算
ユニットへのデータの供給の方法を変えて対応出来る。
本発明の並列演算処理装置では、次の２種類の演算処理
構成に対応している。パイプライン処理構成フィードバック処理構成

【００１０】（１）パイプライン処理構成パイプライン処理による並列処理を行うときには、入力
データの入力周期を単位として、１演算ユニットの処理
レイテンシの数＋１が演算ユニットの個数Ｎに一致する
基本構成にする。

【００１１】入力データは入力周期毎に順次異なった演
算ユニットに入力処理され、最初の演算ユニットの処理
が終った後は、各演算ユニットからの出力結果が入力周
期に同期して連続的に得られ、演算ユニット毎のパイプ
・ラインを構成している。この構成により、処理量が増
えたときには、それに比例して演算ユニットの個数Ｎを
増やすことで、実行効率を落とすこと無く対応出来る。

【００１２】また、ソフトウエアの開発は、処理が１個
の演算ユニットの中に閉じて独立していることが条件と
なるが、１個の演算ユニットの開発だけで済み、このた
め、処理の記述も容易である。１個の演算ユニットのソ
フトウエア開発とシミュレーションができれば、他の演
算ユニットも同一のソフトウエアによって実行されるの
で、ソフトウエアの開発はきわめて容易となり、ソフト
ウエア開発費の大幅な節減が可能となる。

【００１３】また、各演算ユニットが、入力データバス
あるいはシステム・バスからの入力データを周期的に入
力して実行する場合、演算処理の遅延あるいは演算ユニ
ットの故障時にはＣＰＵによってそれを検出し、その不
具合演算ユニットを予備の演算ユニット（Ｎ＋１、Ｎ＋
２…）に切替え、周期的実行を保証するように工夫され
ているため、装置の信頼性が大幅に向上する。

【００１４】（２）フィードバック処理構成この処理は外部入力データバスを使わず、バック・ドラ
イバから各演算ユニットにデータを供給する方式であ
る。通常、各演算ユニットの出力データ、およびＣＰＵ
のバッファメモリの内容をＣＰＵ経由でバック・ドライ
バから演算ユニットの入力にフィードバックする。ニュ
ーラル・ネットワークの学習や適応制御のシステム・パ
ラメータの計算に都合のよい構成となっている。

【００１５】各演算ユニットに別々にバック・データを
供給することができ、また複数の演算ユニットに同時に
ブロードキャストすることもできる。同時ブロードキャ
ストにより、演算ユニットに高速なデータ供給が可能と
なる。本発明によれば、同時ブロードキャストは、演算
ユニットの入力バッファのアドレスを同一に設定するこ
とにより、容易に実現することができる。

【００１６】高速伝送ポート（９）は、複数ポートを、
具備し、様々な周辺機器および装置に接続出来、演算ユ
ニットにデータを送信したり、演算結果を受信すること
が出来る。さらに、高速伝送ポートに接続された端末
（１１）により、並列演算処理装置のプログラム開発、
実行結果の記憶、表示等を行うことが出来るようになっ
ている。

【００１７】

【発明の実施の形態】発明の実施の形態を実施例に基づ
き図を参照して説明する。図１には、Ｎ個の演算ユニッ
トを持つ並列演算処理装置（１）の構成例を示す。

【００１８】（１）パイプライン処理の場合入力データバス（３）には、バック・ドライバ（１２）
および、外部入力データ・バッファ（１３）から外部入
力データが入力される。Ａ／Ｄ変換器等の外部入力デー
タ（２）は、入力データバス（３）を経由して、定めら
れたデータの周期毎に各演算ユニットに配布される。演
算ユニットには、入力データバス（３）あるいは演算ユ
ニット内の２ポートＲＡＭを経由して入力データを供給
することができる。

【００１９】（２）フィードバック処理の場合入力データバス（３）には、外部入力データ・バッファ
（１３）ではなく、バック・ドライバ（１２）を経由し
てＣＰＵ（６）からのデータが与えられる。供給される
データは、各演算ユニットの出力結果の場合もあれば、
ＣＰＵに付属するバッファ・メモリ（７）からの場合も
ある。

【００２０】入力データバス（３）には、アドレス、デ
ータ、制御信号を含んでいる。入力データバスに接続さ
れた各演算ユニットは、あらかじめ設定された自己のア
ドレスに一致したアドレス時の入力データを入力バッフ
ァ（２３）に取り込み、演算処理を行う。

【００２１】演算ユニットからの出力結果は、システム
・バス（５）を通してＣＰＵ（６）に回収される。
システム・バスにはＶＭＥバス，ＣｏｍｐａｃｔＰＣ
Ｉバス等の標準バスを用いる事も出来る。ＣＰＵで
は、後処理、データのバッファリング、端末（１１）と
のデータ転送、周辺機器（１０）とのデータアクセス等
の処理が行われる。

【００２２】ＣＰＵと端末および周辺機器との高速伝送
は、高速イーサネットを使用することもできるが、本例
では、ＩＥＥＥ１３９４シリアル・ポートの使用例を示
す。ＩＥＥＥ１３９４は現状では４００Ｍｂｐｓの伝送
速度があり、かつ、アイソクロノス転送と呼ばれる同期
伝送の機能もあるので、本例のような周辺機器を含めた
高速伝送には適している。ＩＥＥＥ１３９４のアクセス
のために、ＩＥＥＥ１３９４ポート３個（９）とＩＥＥ
Ｅ１３９４コントローラ（８）が設けられている。

【００２３】端末（１１）には通常、パソコンを用い
る。端末は、並列演算処理装置のプログラム開発、プロ
グラムの演算ユニットへのダウンロード、データ転送、
表示、監視、外部ネットワークとの通信等の役割を持
つ。

【００２４】端末をＬＡＮ，ＷＡＮ等の通信回線に接続
すると、並列演算処理装置のネットワーク多重使用も可
能となる。

【００２５】周辺機器接続にＩＥＥＥ１３９４を用いる
と、ＩＥＥＥ１３９４直結のディジタル・カメラ等の周
辺機器が使用出来、アイソクロノス同期伝送を用いた将
来のＡＶ高速周辺機器等の接続が期待出来る。

【００２６】図２には演算ユニットの内部構成例を示
す。演算ユニット（２１）は、演算処理を行う基本構成
ユニットであり、アドレス・デコーダ（２２）、入力バ
ファ（２３）、演算プロセッサ（２４）、メモリ（２
５）、２ポートＲＡＭ（２６）およびこれらのデバイス
を接続する内部バス（２７）からなる。

【００２７】メモリには、ＳＲＡＭ，ＳＤＲＡＭ，フラ
ッシュ・メモリ等が用いられる。演算プロセッサに接続
されるＣＰＵ側の入出力インタフェースには、２ポート
ＲＡＭ（２６）が用いられる。２ポートＲＡＭはＣ
ＰＵに接続され、演算プロセッサとの間で、プログラム
のダウン・ロード、演算結果の出力、割込み等の処理を
行う。さらに、２ポートＲＡＭを通して、プログラム
のダウン・ロードが出来るため、ソフトウエアの開発の
他に実行上、様々なコントロールが可能となる。

【００２８】アドレス・デコーダ（２２）の例を図３に
示す。入力バファとして、本例では、多数のＦＩＦＯを
機能的に使用する例を示す。ＦＩＦＯ群の番号付けおよ
びエネーブル／ディスエーブルは、ＣＰＵがシステム・
バスを経由するか、あるいは演算プロセッサ（２４）が
内部バス（２７）を経由して、Ｉ／Ｏラッチ（３０）に
そのデータを出力することによって行われる。入力デー
タバス（３）のアドレスとこのＩ／Ｏラッチの値が一致
した番号のＦＩＦＯが選択され、その時の入力データバ
スのデータがそこに入力される。

【００２９】本発明の特徴であるこのメカニズムによっ
て、複数の演算ユニットへの同時ブロードキャストが実
行でき、また演算ユニットの処理タイムオーバや故障発
生時に予備の演算ユニットに切替えて、予定された運転
を継続実行出来るようになる。割込みは、ＦＩＦＯのデ
ータ入力完了等の指示を演算プロセッサに与えるのに用
いられる。

【００３０】図４にはバック・ドライバ（１２）の構成
例を示す。バス・インタフェース（４１）はシステム・
バスに接続される。バス・インタフェースからアドレス
・ドライバ（４２）、データ・ドライバ（４３）そして
制御回路（４４）が生成され、それぞれ入力データバス
のアドレス、データ、制御信号に接続される。

【００３１】また、制御回路からは外部入力データバス
の選択信号／ＥＸＴＥＮが出力され、内部回路と外部入
力データ・バッファに接続されている。この信号によ
り、入力データバス（３）に接続されるバスのソース
が、外部入力データ・バッファかバック・ドライバかの
選択が行われる。

【００３２】図５には、パイプライン処理構成における
周期的なラン・タイム・データの並列演算処理の例を示
す。１個の演算ユニットは、１周期の入力データを入力
し、演算処理に３周期（レイテンシ３）かかっている。
演算処理は演算ユニット内に閉じられて独立しているも
のとする。請求項６に従い、この時の演算ユニットの基
本個数Ｎは４となる。３（レイテンシの数）＋１＝４デ
ータ入力は１周期づつずらして演算ユニット１から４に
順次行われ、レイテンシ３の後、演算結果が入力データ
に同期して周期毎に得られる。演算ユニット５は予備と
して、不測の事態に備えて設けられている。

【００３３】

【発明の効果】本発明によれば、演算ユニットという同
じハードウエアを多数並べる並列演算処理装置のため、
ハードウエアの画一化、汎用化が進み、装置の製造コス
トを大幅に下げることができる。また、パイプライン処
理とフィードバック処理という並列処理構成により、様
々な演算処理の応用にフレキシブルに対応することがで
きる。

【００３４】先ず、パイプライン処理では、ソフトウエ
アの開発は１演算ユニット分のみでよく、しかも、他の
演算ユニットに関係しないので、プログラムの記述も簡
単となる。これによって、シミュレーションを含むソ
フトウエアの開発が容易となり、ソフトウエアの開発期
間、コストを大幅に低下出来る。

【００３５】また、フィードバック処理構成では、演算
ユニットの出力結果やＣＰＵのバッファ・メモリの情報
を各演算ユニットの入力バッファに同時にブロードキャ
ストすることができ、高速な入力処理とともに、様々な
形式の演算処理に対応することができる。

【００３６】さらに、演算処理量が増えても、演算ユニ
ットの数：Ｎを増やすことによって、実行効率を落とす
ことなく容易に能力的な対応が出来る。

【００３７】ＣＰＵによる演算ユニットの不具合検出と
入力データバファのアドレス設定により、演算処理の遅
延、演算ユニットの故障時には、予備の演算ユニットに
切替えて、継続実行が出来ることで、装置の高信頼性運
転が出来る。

【００３８】また、本発明では、次の点で高速性に工夫
をこらしている。Ａ／Ｄ変換器等の外部入力データ用の
入力データバスとＣＰＵに接続されるシステム・バスを
分離してバス・ネックの解消し、スループットの向上を
図っている。周辺機器と端末に高速伝送ポートを設
け、並列演算処理装置との高速データ伝送ができる。

【００３９】このように、本発明によれば、経済的な並
列演算処理装置により、ｆｕｌｌｐｒｏｇｒａｍｍａｂ
ｌｅな仮想環境（ｓｉｍｕｌａｔｅｄｅｎｖｉｒｏｎ
ｍｅｎｔ）を作り出し、現実の装置、現象の動作、制御
をオンライン・リアルタイムで並列演算処理装置上で、
種々の条件をかえて簡単に実験出来るようになる。その
産業界におよぼす経済的なメリットは、計り知れない大
きなものがある。

【図面の簡単な説明】

【図１】並列演算処理装置の構成を示す図である。

【図２】演算ユニットの内部構成を示す図である。

【図３】アドレス・デコーダの内部構成を示す図であ
る。

【図４】バック・ドライバの内部構成を示す図である。

【図５】周期的なラン・タイム・データの並列演算処理
の例を示す図である。

【符号の説明】

１並列演算処理装置２Ａ／Ｄ変換器等の外部入力データ３入力データバス４演算ユニット５システム・バス６ＣＰＵ７バファ・メモリ８高速伝送コントローラ９高速伝送ポート１０周辺機器１１端末１２バック・ドライバ１３外部入力データ・バッファ

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１１年５月１０日（１９９９．５．１
０）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００３９

【補正方法】変更

【補正内容】

【００３９】

【発明の効果】このように、本発明によれば、経済的な
並列演算処理装置により、ｆｕｌｌｐｒｏｇｒａｍｍａ
ｂｌｅな仮想環境（ｓｉｍｕｌａｔｅｄｅｎｖｉｒｏ
ｎｍｅｎｔ）を作り出し、現実の装置、現象の動作、制
御をオンライン・リアルタイムで並列演算処理装置上
で、種々の条件をかえて簡単に実験出来るようになる。
その産業界におよぼす経済的なメリットは、計り知れな
い大きなものがある。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】追加

【補正内容】

【図面の簡単な説明】

【図１】並列演算処理装置の構成を示す図である。

【図２】演算ユニットの内部構成を示す図である。

【図３】アドレス・デコーダの内部構成を示す図であ
る。

【図４】バック・ドライバの内部構成を示す図である。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】符号の説明

【補正方法】追加

【補正内容】

【符号の説明】１並列演算処理装置２Ａ／Ｄ変換器等の外部入力データ３入力データバス４演算ユニット５システム・バス６ＣＰＵ７バファ・メモリ８高速伝送コントローラ９高速伝送ポート１０周辺機器１１端末１２バック・ドライバ１３外部入力データ・バッファ２１演算ユニット２２アドレス・デコーダ２３入力バッファ２４演算プロセッサ２５メモリ２６２ポートＲＡＭ２７内部バス３０Ｉ／Ｏラッチ３１コンパレータ４１バス・インタフェース４２アドレス・ドライバ４３データ・ドライバ４４制御回路

Claims

【特許請求の範囲】

【請求項１】並列演算処理装置（１）は、Ａ／Ｄ変換器
等の外部入力データ（２）を入力する外部入力データ・
バッファ（１３），入力データバス（３）、複数の演算
ユニット（４）、ＣＰＵ（６）、演算ユニットとＣＰＵ
を接続するシステム・バス（５）、バッファ・メモリ
（７）、高速伝送コントローラ（８），複数の高速伝送
ポート（９）それにバック・ドライバ（１２）で構成さ
れることを特徴とする装置であること。
【請求項２】入力データバス（３）は、Ａ／Ｄ変換器等
の外部入力データバス（２）に接続される外部入力デー
タ・バッファ（１３）あるいはバック・ドライバ（１
２）のいづれか一方によって駆動され、演算ユニットの
番号を指定するアドレス・バスとデータ・バスを持って
おり、アドレス・バスの指定した演算ユニットの入力バ
ファ（２３）に入力データを配布することができる機能
を備えた装置であること。
【請求項３】高速伝送ポート（９）は、複数ポートを持
ち、様々な周辺機器および装置に接続出来、演算ユニッ
トにデータを送信したり、演算結果を受信することが出
来る手段を備えた装置であること。
【請求項４】高速伝送ポートに接続された端末（１１）
により、並列演算処理装置（１）のプログラム開発、実
行結果の記憶、表示、外部ネットワークとの通信等を行
うことが出来る機能を具備する装置であること。
【請求項５】演算ユニット（２１）の内部には、演算プ
ロセッサ（２４）とメモリ（２５）の他に、入力データ
バスを通して入力する入力バッファ（２３）と、ＣＰＵ
とのデータ転送を行うための共有メモーリ（２６）を備
え、ＣＰＵとの間でプログラムのダウンロード、演算結
果およびステイタス・ワードの出力そして割込み等の処
理を行う手段を備えた装置であること。
【請求項６】入力データの入力周期を単位として、一つ
の演算ユニットの処理レイテンシの数＋１が演算ユニッ
トの個数Ｎに一致する基本構成を持ち、入力データは入
力周期毎に順次異なった演算ユニットに入力処理され、
最初の演算ユニットの処理が終った後は、各演算ユニッ
トからの出力結果が入力周期に同期して連続的に得られ
る並列演算処理方式を備えることを特徴とした装置であ
ること。
【請求項７】各演算ユニットは、入力データバスあるい
はシステム・バスからの入力データを周期的に入力し、
所定のレイテンシの後、正しい演算処理結果の時はシス
テム・バスにその結果を出力し、演算処理の遅延あるい
は演算ユニットの故障時にはＣＰＵによってそれを検出
し、その不具合演算ユニットを予備の演算ユニット（Ｎ
＋１、Ｎ＋２、…）に切替え、周期的実行を保証する手
段を備えた装置であること。
【請求項８】各演算ユニットからの出力データをシステ
ム・バス（５）を経由してＣＰＵ（６）に取込み、その
データをバック・ドライバ（１２）を経由して、選択さ
れた演算ユニットの入力バッファに入力できる手段、あ
るいは複数の演算ユニットの入力バッファに同時にブロ
ードキャストすることができる手段を備えることを特徴
とした装置であること。