JPH0440742B2

JPH0440742B2 -

Info

Publication number: JPH0440742B2
Application number: JP61302371A
Authority: JP
Inventors: Toshihiro Hirabayashi; Shinya Miura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-12-18
Filing date: 1986-12-18
Publication date: 1992-07-06
Also published as: JPS63155264A

Description

【発明の詳細な説明】〔概要〕コンパイラによつてベクトル演算命令が生成さ
れる原始プログラムについて、予めそのプログラ
ムの実行解析情報に基づき、ベクトル化により実
行性能が低下するループを自動検出し、そのルー
プのベクトル化を抑止する最適化制御行を組み入
れる手段を設けることにより、ベクトル化による
性能低下要因を除去し、FORTRANプログラム
等の原始プログラムをベクトル計算機向けに最適
チユーニングする。

〔産業上の利用分野〕

本発明は、FORTRANプログラム等の原始プ
ログラムをベクトル計算機向けに最適チユーニン
グするベクトル計算機用言語チユーニング処理方
式に関するものである。

データ処理装置による化学技術計算等では、大
量のデータを高速に演算するベクトル計算機が用
いられている。例えばFORTRAN言語等により
記述された原始（ソース）プログラムを、コンパ
イラによつて自動ベクトル化することが行われて
いるが、その目的（ブプジエクト）プログラムの
実行性能のに関する最適化が望まれる。

〔従来の技術〕

従来、FORTRANプログラム等の最適化を促
進するために、プログラム中の各文について、実
行回数や実行コスト等の実行解析情報を出力する
実行解析ツールが用いられている。また、ベクト
ル演算命令を生成可能であるコンパイラでは、自
動ベクトル化およびベクトル化された目的プログ
ラムの最適化を促進するため各種オプテイマイズ
処理が行われている。

しかし、ベクトル化により性能低下を招く要因
を検出し、それを除去する手段は、従来ないた
め、その最適化を行う場合には、人間が実行性能
を分析して、コンパイラに対し、いちいち最適化
を指示する必要があつた。

〔発明が解決しようとする問題点〕

例えばFORTRAN言語等により記述された原
始プログラムをコンパイルして、ベクトル計算機
用の目的プログラムを生成する場合、その性能を
向上させるためには、より多くのDOループを自
動ベクトル化する必要があると考えられる。しか
し、例えば短いベクトル長の演算の場合には、ベ
クトル命令によつて処理するよりも、通常のスカ
ラ命令によつて処理したほうが実行速度が上がる
場合がある。

コンパイラにおける自動ベクトル化において、
ベクトルコストとスカラコストとの比較ができれ
ば、コンパイラ内における最適化が可能である
が、例えば(a)DOループのループ回数が変数であ
る場合に、ベクトル長が不明であること、(b)動作
するベクトル計算機の機種によつてベクトルコス
トが変動することなどにより、コンパイラ内では
コスト比較ができない。

そのため従来、ベクトル化によつて、かえつて
部分的に性能低下を招くことがあるという問題が
あつた。

本発明は上記問題点の解決を図り、性能低下の
要因となる短ベクトル長の演算を認識し、自動的
に当該ループのベクトル化を抑止することによつ
て、性能低下の要因を除去する手段を提供するこ
とを目的としている。

〔問題点を解決するための手段〕

第１図は本発明の原理ブロツク図を示す。

第１図において、１０は原始プログラムのベク
トル化に関する最適チユーニングを行う最適チユ
ーニング処理部、１１は実行解析情報入力部、１
２はベクトルコストを分析するベクトルコスト分
析部、１３は最適化制御行を生成しベクトル化の
抑止を指示する最適化制御行生成部、１４は原始
プログラムを入力する原始プログラム入力部、１
５はチユーニングされた原始プログラムを出力す
るチユーニング原始プログラム出力部、１６はチ
ユーニング対象プログラムに関する実行解析情
報、１７はチユーニング対象となる原始プログラ
ム、１８はチユーニングされたチユーニング原始
プログラムを表す。

実行解析情報入力部１１は、実行解析ルーツの
出力である実行解析情報１６を入力する。この実
行解析情報１６は、実際のプログラムの走行また
は実行シミユレートによつて、各文毎の実行回数
等が出力されたものである。

ベクトルコスト分析部１２は、実行解析情報入
力部１１が入力した実行解析情報１６に基づき、
ベクトル化対象となるループ範囲について、ベク
トルコストとスカラコストとを計算する。

最適化制御行生成部１３は、ベクトルコストが
スカラコストよりも大きくなる場合に、ベクトル
化を抑止することをコンパイラに指示する最適化
制御行を生成する。そして、原始プログラム入力
部１４によつて入力された原始プログラム１７中
に、その最適化制御行を組み入れ、チユーニング
原始プログラム出力部１５を介して、チユーニン
グ原始プログラム１８を出力する。

〔作用〕

本発明によれば、ベクトルコスト分析部１２に
より、実行解析情報に基づくコスト計算が行わ
れ、ベクトル化されることによつて低能低下を招
く要因が自動検出される。そして、最適化制御行
生成部１３によつて、最適化制御行が原始プログ
ラム１７中に組み入れられるので、コンパイル時
には、その最適化制御行で指定されたループにつ
いてのベクトル化が抑止されることになる。

従つて、コンパイラでは、ベクトル化により実
際に性能が向上する部分だけ、ベクトル演算命令
の生成を行い、ベクトル化によつて性能が低下す
る部分については、通常のスカラ演算命令の生成
を行うので、実行性能が向上することになる。

〔実施例〕

第２図は本発明が適用されるシステムの例、第
３図は本発明の一実施例に係るベクトルコスト分
析を説明するための図、第４図は本発明の一実施
例に係る最適化制御行の生成を説明するための
図、第５図は本発明の一実施例処理説明図、第６
図は最適化による性能比較説明図を示す。

本発明は、例えば第２図に示すような
FORTRANのコンパイルを行う処理システムに
適用される。

第２図において、第１図と同符号のものは第１
図に示すものに対応し、２０はCPUおよびメモ
リなどからなる処理装置、２１はFORTRANプ
ログラムの実行解析ツールであるFORTRAN実
行解析部、２２はFORTRAN言語により記述さ
れたプログラムを計算機の機械語命令等からなる
目的プログラムに翻訳するFORTRANコンパイ
ラ、２３は最適化制御行の有無を判定する最適化
制御行判定部、２４はFORTRAN原始プログラ
ム、２５はチユーニングFORTRAN原始プログ
ラム、２６は目的プログラムを表す。

FROTRAN実行解析部２１は、例えば実行解
析対象となるFORTRAN原始プログラム２４中
における制御移行に関連する部分に、実行回数を
カウントする命令を埋め込むことなどにより、ル
ープの繰り返し回数や1F文の真率等の情報を含
む実行解析情報１６を出力する。なお、この
FORTRAN実行解析部２１は、従来からいわゆ
るFORTRANチユーニングルーツとして用いら
れているものを利用できる。

最適チユーニング処理部１０は、ベクトルコス
ト分析部１２および最適化制御行生成部１３によ
つて、実行解析情報１６に基づくコスト計算を行
い、チユーニング対象となるFORTRAN原始プ
ログラム２４中に、最適化制御行を組み込んだチ
ユーニングFORTRAN原始プログラム２５を出
力する。

FORTRANコンパイラ２２は、チユーニング
FORTRAN原始プログラム２５を機械語に翻訳
するにあたつて、最適化制御行判定部２３によ
り、ベクトル化を抑止する最適化制御行を検出す
ると、その指定範囲についてのベクトル化を抑止
する。

次に、第３図に従つて、ベクトルコスト分析部
１２によるベクトルコストの分析例について説明
する。

チユーニング対象となるFORTRAN原始プロ
グラムの各文のスカラコストがSiで、その実行回
数が第３図に示すようになつていたとする。例え
ば、ループ内の文１の実行回数は、ループ回数が
100回であり、このDOループが10回実行される
ので、1000回となる。この文１のループ当たりの
平均実行回数ex₁は、100回となる。また、この例
における1F文の真率、即ち、1F条件が成立する
確率が５％であるとすると、文の実行回数は50
回であり、そのループ当たりの平均実行回数ex₁
は５回となる。

このDOループについてベクトル化する場合、
ベクトル長はループ回数に対応し、例えは1F文
に続く部分については、いわゆるマスク演算によ
つて処理される。

従つて、ベクトルコストとスカラコストとの比
較を行う場合には、マスク演算によるベクトル長
が正しく反映されるように、スカラコストを補正
することが必要となる。

以上の考慮により、DOループのベクトルコス
トＶ−COSTは、次の式で求められる。

Ｖ−COST＝〓ⁱ S_i＊ex_L／ex_i＊α_L α_L＝ｆ（ex_L，cpu）ここで、S_iは各文のスカラコスト、 ex_iは各文のループ当たりの平均実行回数、 ex_Lはループ先頭の文のベクトルベクトル計算
機性能、 CPUはα_Lはex_Lおよびcpuにより求まるベクト
ル対スカラ性能比率である。

このα_Lは、予めベクトル計算機による標準プロ
グラムについての実測値に基づいて定められ、例
えばテーブル化されて保持される。

こうして求められたベクトルコストＶと、ルー
プ内のスラスコストS_iの和との比較により、性能
比較が行われる。

スカラコストが小さい場合には、第４図に示す
ように、最適化制御行の生成が行われる。第４図
において、３０は最適化制御行、３１はベクトル
化抑止範囲を表す。

即ち、FORTRAN原始プログラム２４のDO文
の前に、例えば「＊VOCL LOOP，SCALAR」
という最適化制御行３０が組み入れられ、チユー
ニングFORTRAN原始プログラム２５が生成さ
れる。コンパイラでは、この最適化制御行３０を
検出すると、これに続くDOループをベクトル化
抑止範囲３１として認識し、この部分については
ベクトル演算命令の出力を抑止する。

第５図は、本発明の主要部分についての処理例
を示している。以下、第５図に示す処理〜に
従つて説明する。

チユーニング対象の原始プログラムについて
ベクトル化可能なDOループを検出する。

DOループを検出したならば、実行解析情報
に基づきループ内のスカラコストの和Ｓ−
COSTを計算する。

次に、第３図で説明したDOループのベクト
ルコストＶ−COSTを、実行解析情報と所定の
ベクトル対スカラ性能比率α_Lとに基づき計算す
る。

Ｓ−COSTとＶ−COSTとの大小を比較し、
Ｖ−COSTがＳ−COSTより大きければ、次の
処理を実行する。なお、等しい場合には、ど
ちらでもよい。

第４図に示すようにベクトル化抑止の最適化
制御行を生成し、原始プログラム中に組み入れ
る。

第６図は、本発明の効果を説明するための性能
比較を示す図である。第６図において、Ｌ１はス
カラループ、Ｌ２はベクトル化によつて性能が低
下するループ、Ｌ３はベクトル化によつて性能が
向上するループを表している。

今、プログラムのベクトル化率が95％であると
仮定する。また、ベクトル化による性能向上比が
１０倍、ベクトル化による性能低下比が５倍、低
下部分（Ｌ２の部分）がベクトル化可能部分の10
％であるとする。第６図イに示すオリジナルの実
行時間、即ち、すべてスカラの演算命令により処
理した場合の実行時間を100とすると、第６図ロ
に示すベクトル化による実行時間T1は、次のよ
うになる。

T1＝95×０・９／10＋95×0.1×５＋５＝61.05 この実行時間T1は、従来方式によるベクトル
化の性能と考えてよい。

一方、本発明による最適チユーニングを行え
ば、その実行時間T2は、第６図ハに示すように
なり、次のようになる。

T2＝95×0.9／10＋95×0.1＋５＝23.05 対象性能比およびオリジナル比は、それぞれ次
のようになる。

相対性能比＝T1／T2＝61.05／23.05＝2.64（倍）オリジナル比＝100／23.05＝4.33（倍）〔発明の効果〕以上説明したように、本発明によれば、ベクト
ル化による性能低下要因が除去されるので、ベク
トル計算機向けの最適チユーニングが可能にな
る。

【図面の簡単な説明】

第１図は本発明の原理ブロツク図、第２図は本
発明が適用されるシステムの例、第３図は本発明
の一実施例に係るベクトルコスト分析を説明する
ための図、第４図は本発明の一実施例に係る最適
化制御行の生成を説明するための図、第５図は本
発明の一実施例処理説明図、第６図は最適化によ
る性能比較説明図を示す。図中、１０は最適チユーニング処理部、１１は
実行解析情報入力部、１２はベクトルコスト分析
部、１３は最適化制御行生成部、１４は原始プロ
グラム入力部、１５はチユーニング原始プログラ
ム出力部を表す。

Claims

【特許請求の範囲】１ベクトル計算機を持つ処理装置上で動作させ
るプログラムの原始プログラムをチユーニングす
るベクトル計算機用言語チユーニング処理方式で
あつて、チユーニングするプログラムの実行解析情報に
基づき、ベクトル化対象となるループ範囲につい
て、ベクトル化による実行性能に関連するベクト
ルコストを分析するベクトルコスト分析手段１２
と、ベクトルコストがベクトル化しない場合におけ
るスカラコストより大きい場合に、チユーニング
対象原始プログラム中に、上記ループ範囲につい
てベクトル化を抑止することを指示する最適化制
御行を組み入れる最適化制御行生成手段１３とを
備えたことを特徴とするベクトル計算機用言語チ
ユーニング処理方式。