JP2000507009A

JP2000507009A - 単一の命令に応答して演算を複数回実行する方法および装置

Info

Publication number: JP2000507009A
Application number: JP9532659A
Authority: JP
Inventors: ピーターソン，ジェームズ・アール; プール，グレン・シイ; スリティ，モハメド
Original assignee: マイクロン・テクノロジイ・インコーポレーテッド
Priority date: 1996-03-15
Filing date: 1997-03-04
Publication date: 2000-06-06
Anticipated expiration: 2017-03-04
Also published as: US6085310A; DE69716428T2; EP0909415A1; US5761524A; CA2249356A1; ATE226332T1; EP0909415A4; US6134648A; WO1997034224A1; CN1130625C; CN1220017A; JP3608797B2; AU2066297A; EP0909415B1; CA2249356C; DE69716428D1

Abstract

(57)【要約】通常ＲＩＳＣ命令および特殊ＲＩＳＣ命令を実行するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ、ＲＩＳＣプロセッサを動作させる方法。この方法は、各通常ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの単一の機能単位を使用して、単一の演算を実行するようにＲＩＳＣプロセッサを制御するステップ（２１２）を含む。この方法はまた、各特殊ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの複数の機能単位を並列に使用して、複数の演算を実行するようにＲＩＳＣプロセッサを制御するステップ（２１２）を含む。この方法はまた、特殊演算を繰り返し実行するようにＲＩＳＣプロセッサを制御するステップをさらに含み、第１の演算の後、各後続の演算が前の演算の結果に依存する。

Description

【発明の詳細な説明】単一の命令に応答して演算を複数回実行する方法および装置発明の分野本発明は、一般にプロセッサに関し、より詳細には単一の命令に応答して演算を複数回実行できるプロセッサに関する。背景グラフィックス・ワークステーションやパーソナル・コンピュータ（ＰＣ）など多数の現代のコンピュータ・システムは、二次元および三次元グラフィック・オブジェクトを陰極線管（ＣＲＴ）、プラズマ・フラットパネル、液晶ディスプレイ（ＬＣＤ）などディスプレイ装置上に表示する特殊化されたグラフィックス・サブシステムを含む。グラフィックス・サブシステムを使用すれば、かつてコンピュータ・システムのホスト・プロセッサが処理していたグラフィックス動作がグラフィックス・サブシステムによってホスト・プロセッサによって実行される他の演算と同時に（並列に）実行できるのでシステム性能が向上する。さらに、グラフィックス・サブシステムは、しばしば特殊化されたハードウェアおよびソフトウェアを備えており、一般にグラフィック・オブジェクトをより迅速に表示する。グラフィックス・サブシステム自体が実行するグラフィックス処理の量は、システム性能ならびにグラフィックス処理性能の向上を大きい程度まで決定する。例えば、ある従来のグラフィックス・サブシステムは、単にフレーム・バッファ・メモリおよび関連する制御ハードウェアを含み、汎用ホスト・プロセッサはまだグラフィックス処理機能の大部分を実行しなければならない。そのような手法は、ホスト・プロセッサが比較的大量のデータをフレーム・バッファに転送しなければならず、したがって他のシステム構成要素およびサブシステムがシステム相互接続を同時に使用することができなくなるので非効率的である。他の従来のグラフィックス・サブシステムは、ホスト・プロセッサと並列に動作し、必要なすべてのグラフィック処理機能を実行する特殊化されたグラフィックス・プロセッサを含むが、そのような手法は一部のユーザにとってコストが法外に高くなる。改善されたシステム性能およびグラフィックス処理性能を妥当なコストで与えるためにこの２つの極端な手法の間の釣り合いが必要である。１つの提案されたシステムではホスト・プロセッサが初期グラフィックス処理ステップを実行し、その後グラフィックス・コントローラが残りのグラフィックス処理ステップを実行する必要がある。そのような仕事の分割でホスト・プロセッサとグラフィックス・サブシステムとの間で交換されるデータの量が少なくでき、したがって従来技術の「ダム」グラフィックス・サブシステムと比較したときに全体的なシステム性能が改善される。グラフィックス処理性能を高めるために、グラフィックス・コントローラはグラフィック・オブジェクトが表示される速度を速くする性能向上機能を備えなければならないが、そのような性能向上機能は比較的低いコストで備えなければならない。グラフィックス処理性能が高められる１つの領域は出力プリミティブの補間である。グラフィックス・データを効率的に記憶するために、アプリケーション・プログラムは、グラフィック・オブジェクトを表す出力プリミティブを与え、使用する。各出力プリミティブは、グラフィック・オブジェクトに関する完全な情報がそこから暗示または補間される最小の情報を与える。例えば、あるタイプの出力プリミティブは、位置（二次元デカルト座標空間中、またはｘ対ｙ）および３つの頂点の属性（ｘおよびｒ．ｇ、およびｂなどカラー属性を含む）を指定する三角形であり、三角形中のすべての点の位置および属性が頂点に対して与えられた値から補間できる。他のタイプの出力プリミティブには、点、直線、曲線、円、三角形および他の多角形、三角形ストリップ、および三角形ファンがある。三角形など充填領域三角形用の補間の方法は一般に次のステップを含む。すなわち、１）セットアップ、２）エッジ・ウォーキング、および３）スパン生成。セットアップ中、各ピクセル・パラメータ（例えば位置および属性）のデルタ値を出力プリミティブの頂点のピクセル・パラメータ値に基づいて計算する。次いで、デルタ値を使用して、エッジ・ウォーキングを実行し、デルタ値を増分することによって水平でないエッジ（すなわち０でない勾配を有するエッジ）上のピクセルのピクセル・パラメータを計算する。多角形のエッジを決定した後、スパン生成を行い、多角形のエッジ間の水平走査線中に位置するピクセルのピクセル・パラメータを計算する。このようにして、多角形中の各ピクセルのピクセル・パラメータを出力プリミティブから計算する。スパン生成のステップは、特に性能を改善するために修正を施すことができる。例えば、スパン値の各ピクセルのｙ値は固定のままである。発明の概要および目的したがって、本発明の目的は、プロセッサの処理速度を改善することである。本発明の他の目的は、グラフィックス処理中に出力プリミティブを補間するためにスパンを生成するときにプロセッサの処理速度を改善することである。本発明の上記および他の目的は、通常ＲＩＳＣ命令および特殊ＲＩＳＣ命令を実行するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）プロセッサを動作させる方法によって与えられる。この方法は、各通常ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの単一の機能単位を使用して、単一の演算を実行するようにＲＩＳＣプロセッサを制御するステップを含む。この方法はまた、各特殊ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの複数の機能単位を並列に使用して、複数の演算を実行するようにＲＩＳＣプロセッサを制御するステップを含む。一実施例によれば、あるタイプの特殊ＲＩＳＣ命令は、ＲＩＳＣプロセッサが単一のピクセルに対して複数のピクセル・パラメータを処理する出力プリミティブを保管するドロー命令である。複数の機能単位を使用して、ＲＩＳＣプロセッサは複数の通常ＲＩＳＣ命令を並列に効率的に実行し、したがって出力プリミティブを補間するときに処理速度が速くなる。他の実施例によれば、ＲＩＳＣプロセッサはまた、ＲＩＳＣプロセッサがＲＩＳＣプロセッサの複数の機能単位を並列に使用して複数の演算を繰り返し実行するように制御され、第１の演算の後、各後続の演算が各特殊反復ＲＩＳＣ命令に応答して前の演算の結果に依存する特殊「反復」ＲＩＳＣ命令を処理することができる。あるタイプの特殊反復ＲＩＳＣ命令は、ＲＩＳＣプロセッサが反復ドロー命令に応答してピクセルのスパンに対して一連のピクセル・パラメータを処理する出力プリミティブを補間する反復ドロー命令である。反復ドロー命令を使用すれば、１つのＲＩＳＣ命令を有するピクセルのスパン全体を生成することができる。本発明の他の目的、特徴、および利点は、添付の図面および以下の詳細な説明から明らかになろう。図面の簡単な説明本発明を添付の図面の図に制限ではなく例として示す。図面中、同じ参照番号は同じ要素を示す。第１図は、一実施例のコンピュータ・システムを示す図である。第２図は、一実施例のグラフィックス・サブシステムを示す図である。第３図は、一実施例によるホストとグラフィックス・サブシステムの間の仕事の分割を示す流れ図である。第４図は、一実施例のＲＩＳＣプロセッサを示すブロック図である。第５図は、従来技術による通常ＲＩＳＣ命令の実行を示す流れ図である。第６図は、一実施例による特殊反復ＲＩＳＣ命令の実行を示す流れ図である。第７図は、一実施例による特殊反復命令のフォーマットを示す図である。第８図は、一実施例のデータ経路を示す図である。第９図は、反復ドロー命令を実行するときの第８図のデータ経路の演算を示す図である。詳細な説明スパン生成に特定の用途を有するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（「ＲＩＳＣ」）プロセッサ・アーキテクチャについて説明する。特に、説明するＲＩＳＣプロセッサ・アーキテクチャは、次の命令がフェッチされる前にドロー動作を特定の回数反復させる特殊「反復ドロー」命令をサポートし、初期ドロー動作の後の各ドロー動作は前のドロー動作の結果に依存する。単一の命令に応答してＲＩＳＣプロセッサにって複数の演算を実行すると、さもなければ同じ演算の性能を同じ回数必要とする命令のシーケンスを処理するときと比較して処理速度が速くなる。性能の改善は、所要のすべてのドロー動作を実行するために「反復ドロー」命令をフェッチし、デコードするだけで済むことを認識すれば理解できる。ドロー命令のシーケンスの各ドロー命令は一般に別々にフェッチされ、デコードされる。さらなる利点は、ＲＩＳＣプロセッサ・アーキテクチャのデータ経路を構成し、動作させる方法にある。例えば、ＲＩＳＣプロセッサは、通常、乗算器、減算器、および算術論理演算装置（ＡＬＵ）など複数の演算装置を含む汎用プロセッサとして動作する。通常命令は、実行のために単一の演算装置を必要とする単一の演算を指定する。「反復ドロー」命令など専用命令の場合、ＲＩＳＣプロセッサは、専用命令が複数の演算装置によって並列に効率的に実行される多数の演算動作を指定する。制御およびデコード論理回路は、ＲＩＳＣプロセッサが一般的な算術演算およびメモリ動作を実行する汎用プロセッサとして、ならびに特殊化された演算を効率的に実行する専用プロセッサとして動作するように汎用命令ならびに専用命令をサポートするように構成される。「反復ドロー」命令は、１）特定の走査線の多角形のエッジ間の距離が分かった後でドロー動作のシーケンスを実行する必要が予測できるため、および２）スパン生成プロセスでは、走査線の各プロセッサのピクセル・パラメータを同じ組のデルタ値によって増分される必要があるために、出力プリミティブによって指定された多角形を充填するときにスパンを生成するために有用である。命令ストリーム中の適度の予測可能性があるところはどこでも「反復」命令の他の用途がある。システム概要第１図に、ホスト・バス２５に結合されたホスト・プロセッサ１５および主メモリ２０を含むコンピュータ・システム１０を示す。ホスト・プロセッサ１５は、例えば、任意の市販のマイクロプロセッサである。コンピュータ・システム１０はまた、一実施例では、構成要素相互接続（ＰＣＩ）ローカル・バス仕様に従って動作する周辺バス３０を含む。グラフィックス・サブシステム３５は周辺バス３０に結合され、ホスト周辺バス・ブリッジ４５は周辺バス３０およびホスト・バス２５に結合され、ホストと周辺バスとの間でデータ・トランザクションをブリッジする。ホスト周辺バス・ブリッジ４５はまた主メモリ２０を制御するメモリ・コントローラとして動作する。代替システム構成も使用できる。これらの実施例によれば、ホスト・プロセッサ１５は、ディスプレイ装置４０上のグラフィック・オブジェクトの表示を必要とする主メモリ２０中に記憶されたアプリケーション・プログラム（図示せず）を実行する。各グラフィック・オブジェクトは１つまたは複数の出力プリミティブのセットから構成され、各出力プリミティブは、プリミティブによって表されるグラフィック・オブジェクトをどのようにまたどこに表示すべきかを指定または暗示する値のセットを含む。出力プリミティブのタイプには、点、直線、曲線、円、三角形および他の多角形、三角形ストリップ、および三角形ファンがある。グラフィック・オブジェクトおよびそれらの構成要素プリミティブの位置は、最初にアプリケーション・プログラムによってワールド座標系と呼ばれるデカルト基準系で指定される。グラフィック・オブジェクトを表示するためには、グラフィック・オブジェクトおよびそれらの構成要素プリミティブをディスプレイのデバイス座標空間で表すために座標変換が必要である。出力プリミティブがデバイス座標に変換された後、出力プリミティブは、表示用のピクセル値を生成するために補間され、他の形で処理される。これらの実施例によれば、ホスト・プロセッサ１５は、ワールド座標系の出力プリミティブを受け取り、出力プリミティブをデバイス座標に変換し、照明効果処理を実行し、変換された出力プリミティブをグラフィックス・サブシステム３５に送信し、これが出力プリミティブを補間し、表示用の最後のピクセル値を生成する。ホスト・プロセッサ１５は実際のプロセッサ処理を実行しないので、バス・トラフィックがかなり減少し、ホスト・プロセッサは他のタスクを自由に実行できるようになる。したがって、ホスト・プロセッサ１５とグラフィックス・サブシステム３５の間の仕事のこの分割で、ホスト・プロセッサがグラフィックス処理タスクの大部分を実行するシステムと比較したときにコンカレンシ（パラレリズム）がかなり増大する。第２図に、一般にグラフィックス・コントローラ５０、ＥＰＲＯＭ５５、ＤＲＡＭ６０、およびパレット／ＤＡＣ６５を含むグラフィックス・サブシステム３５を示す。グラフィックス・コントローラ５０は、周辺バス３０に結合され、ホスト・プロセッサ１５から変換された出力プリミティブを受け取り、そのときグラフィックス・コントローラ５０は表示用のピクセル値を生成するために適切な補間および処理を実行する。ＤＲＡＭ６０は、表示用のピクセル値を記憶するフレーム・バッファ・メモリおよびテクスチャ・マップを記憶するテクスチャ・マップ・メモリに分割される。パレット／ＤＡＣ６５は、ディスプレイ装置４０を操作するためにデジタル・ピクセル値をアナログ電圧に変換するデジタルアナログ変換器を含む。グラフィックス・コントローラ５０は、周辺バス・インタフェース７０、ＲＩＳＣプロセッサ７５、命令キャッシュ（Ｉ−キャッシュ）８０、データ・キャッシュ（Ｄ−キャッシュ）８５、ＤＲＡＭコントローラ９０、ピクセル・エンジン９５、ＶＧＡ回路１００、ビデオ・コントローラ（「ＣＲＴＣ」）１０５、およびビデオ先入れ先出し（ＦＩＦＯ）回路１１０を含むものとして示される。周辺バス・インタフェース７０はグラフィックス・コントローラ５０を周辺バス３０に結合するために備えられる。出力プリミティブは、ホスト・プロセッサ１５によってデータ・ストリームとしてグラフィックス・コントローラ５０に送信される。各出力プリミティブは、出力プリミティブのタイプを指定するタイプ部分、およびプリミティブの各点および頂点の位置および属性を指定するデータ部分を含む。例えば、出力プリミティブが三角形である場合、出力プリミティブは、三角形を指定するタイプ部分、および３つの頂点の位置および属性を指定するデータを含む。タイプ部分はまた、ＲＩＳＣプロセッサ７５がデータ・ストリーム中の次の出力プリミティブが始まる場所を決定できるように出力プリミティブのデータ部分の長さを指定する情報を含む。ＲＩＳＣプロセッサ７５は、出力プリミティブを正確に処理するためにＩ−キャッシュ８０からフェッチすべき命令を決定するためにデータ・ストリームを解釈する。ＲＩＳＣプロセッサ７５は、出力プリミティブによって画定された領域中に表示すべき各ピクセルごとにピクセル・パラメータを生成するために各出力プリミティブを補間する。ピクセル・エンジン９５は、ピクセル値を生成するためにピクセル・パラメータを使用して、フィルタリングおよび他の処理を実行する。各ピクセル値は、ディスプレイ装置のピクセルと直接対応し、ＤＲＡＭコントローラ９０によってＤＲＡＭ６０のフレーム・バッファ部分中に記億される。ＣＲＴＣ１０５は、ディスプレイ装置上でリフレッシュするためにビデオＦＩＦＯ１１０を充填するためにＤＲＡＭ６０からピクセル値をフェッチする。第３図に、グラフィックス処理がホスト・プロセッサ１５とグラフィックス・コントローラ５０の構成要素との間で分割される形を示す。一般に、ホスト・プロセッサ１５はアプリケーション・プロセッサから出力プリミティブを受け取り、出力プリミティブはワールド座標系１２５で指定される。ホスト・プロセッサ１５は、照明効果を実行するために座標変換およびグラフィックス処理を実行する（プロセス・ブロック１３０）。いまデジタル座標で表されている出力プリミティブはホスト・プロセッサ１５によってグラフィックス・コントローラ５０に転送される。ＲＩＳＣプロセッサ７５は、出力プリミティブによって暗示される中間点の位置および属性を計算するために出力プリミティブの点または頂点を補間し、ピクセル・エンジン９５は、フレーム・バッファ中に記憶され、その後表示用に使用されるピクセル値を生成するためにグラフィック・オブジェクトのすべての点の値を処理する。プロセス・ブロック１３５で、ＲＩＳＣプロセッサ７５は出力プリミティブによって暗示された領域を充填する補間プロセスをセットアップする。例えば、出力プリミティブが三角形である場合、三角形の３つの頂点は三角形状を暗示し、充填された三角形中の各ピクセルのピクセル・パラメータ（すなわち位置および属性）は３つの頂点の位置および属性から計算できる。補間プロセスをセットアップするために、ＲＩＳＣプロセッサ７５は指定された各ピクセル・パラメータのデルタ値（例えば、ｄｘ、ｄｙ、ｄｕ、ｄｖなど）を決定する。セットアップ・プロセス中、ＲＩＳＣプロセッサ７５は、実行用にプロセッサの最大１つの演算装置を必要とする単一の演算をそれぞれ指定する命令のシーケンスを処理する代表的な汎用ＲＩＳＣプロセッサとして動作する。プロセス・ブロック１４０で、ＲＩＳＣプロセッサ７５は、デルタ値を使用して、出力プリミティブによって暗示された多角形のエッジのピクセルのピクセル・パラメータを決定する「エッジ・ウォーク」を実行する。エッジ・ウォーク・プロセス中、ＲＩＳＣプロセッサ７５は代表的な汎用ＲＩＳＣプロセッサとして動作する。プロセス・ブロック１４５で、ＲＩＳＣプロセッサ７５は、デルタ値および計算したエッジを使用して、計算したエッジ間のピクセルのピクセル・パラメータの「スパン」を生成する。スパン生成プロセス中、ＲＩＳＣプロセッサ７５は、それぞれがスパンのピクセルのピクセル・パラメータの出力をもたらす１つまたは複数の「ドロー」命令をＲＩＳＣプロセッサが処理する、専用プロセッサとして動作する。あるいは、ＲＩＳＣプロセッサ７５は、スパンの各ピクセルに対するドロー動作の出力を指定する単一の「反復ドロー」命令を実行する。各「ドロー命令」および「反復ドロー」命令各ドロー動作ごとに、ＲＩＳＣプロセッサ７５は複数の演算装置を使用して複数の演算動作を並列に実行する。プロセス・ブロック１５０で、ピクセル・エンジン９５は、ＲＩＳＣプロセッサ７５によって計算されたピクセル・パラメータを使用して、ディスプレイ装置の適切なピクセルを励起するために使用されるピクセル値を生成する。グラフィックス・サブシステム−プロセッサ第４図に、ＲＩＳＣプロセッサ７５の内部または外部に備えられる、すべてクロック信号１８０によってクロックされる、命令メモリ１５５、プログラム・カウンタ１５７、デコードおよび制御ユニット１６０、およびデータ経路１６５を含むＲＩＳＣプロセッサ７５を示す。たいていの用途では、ＲＩＳＣプロセッサ７５は、命令当たり１つの演算を実行する代表的なパイプライン・プログラムとして動作する。したがって、データ経路１６５は、算術演算および論理演算を実行する多数の機能単位を含む（データ経路１６５の一実施例の例については第８図を参照）。さらに、ＲＩＳＣプロセッサ７５は、データ経路１６５の機能単位によって同時に並列に実行される多数の演算を含む特殊「ドロー」命令を実行することができる。デコードおよび制御ユニット１６０は、データ経路の機能単位を操作するために適切な制御信号を生成する論理回路を含む。データ経路１６５は、ＲＩＳＣプロセッサ７５が専用スパン発生器のように動作するように「ドロー」命令を効率的に実行するように構成される。ＲＩＳＣプロセッサ７５はまた、命令ストリームの次の命令がフェッチされる前に「反復」命令によって示された演算が指定された回数実行される特殊「反復」命令を実行することができる。反復命令は、それぞれ同じ演算を実行するよう指定する命令のシーケンスの代わりに使用され、したがって所望の演算を実行するのに要する時間が短縮される。例えば、それぞれピクセルをドローする４つの「ドロー」命令のシーケンスの代わりに単一の「反復ドロー」命令または「ｒｄｒａｗ」命令を使用することができる。特殊「反復」命令の利点は、従来技術の第５図から第６図を比較すれば理解できる。第５図に、命令フェッチ段２００、命令デコード段２０１、実行段２０２、書戻し段２０３を含む代表的な命令パイプの段を示す。プログラム・カウンタは段２０４でフェッチされ、それで次の命令がフェッチされる。パイプラインの各段が完了するのに１クロック・サイクルかかる場合、各命令は完了するのに５つのクロック・サイクルを必要とする。ドロー命令のシーケンスの場合、各ドロー命令はパイプラインの各段に従う。第６図に、特殊「反復」命令を実行する形を示す。第５図のパイプラインと同様に、第６図のパイプラインは、命令フェッチ段２１０、命令デコード段２１１、実行段２１２、書戻し段２１３を含むが、プログラム・カウンタは、反復命令によって指定された演算を再び実行すべき場合増分できない。演算を再び実行すべきかどうかの決定は、書戻し段２１３と同時になされ、したがって待ち時間がパイプラインに加わることはない。「反復」命令がただ１回フェッチされ、デコードされるので、同じ演算を指定する命令のシーケンスと比較したときに時間が節約される。次に、第４図に戻り、ＲＩＳＣプロセッサ７５の動作について説明する。命令メモリ１５５は命令キャッシュ８０から取り出された命令を記憶する。プログラム・カウンタ１５７が増分したとき、命令メモリ１５５は命令を出力し、これがデコードおよび制御ユニット１６０によってデコードされる。デコードおよび制御ユニット１６０は、必要な制御信号をアサートし、データ経路１６５が命令によって示された演算を実行できるようにデータ経路１６５の適切なレジスタをロードする。「ドロー」命令がデコードおよび制御ユニット１６０から取り出されたとき、デコードおよび制御ユニット１６０は、複数の機能単位が異なる演算を同時に実行するようにデータ経路１６５の機能単位を操作するために必要な制御信号を生成する。デコードおよび制御ユニット１６０は、ドロー命令のｏｐコードに応答して適切な制御信号を自動的に生成するプログラム可能論理アレイ（ＰＬＡ）など論理回路を含む。命令１５９がデコードおよび制御ユニット１６０によって受け取られ、命令１５９が反復命令である場合、デコードおよび制御ユニット１６０は、反復命令によって指定された演算が反復命令によって指定された回数実行されるまでプログラム・カウンタ１５７が増分するのを防ぐ。第７図に、ｏｐコード・フィールド２２０、宛先レジスタ・フィールド２２１．およびソース・レジスタ２２２および２２３を含む命令１５９の基本フォーマットを示す。「反復」命令の場合、ｏｐフィールド中に記憶された情報は、演算、演算を指定する情報２２４、演算を反復すべきかどうかを指定する反復情報２２５、および演算を反復すべき回数を指定する数情報を含むと考えられる。プロセッサ設計者は反復命令に対応する任意のｏｐコードを勝手に選択でき、明確なオペレーションフィールド、反復フィールド、および数フィールドを与える必要はない。さらに、別法として、別個の命令を使用して数情報を与えることもできる。例えば、命令を使用して、反復命令によって指定された演算を実行すべき回数を指定する値を前もってレジスタまたはカウンタにロードすることもできる。第８図および第９図に、スパンのピクセルに対するピクセル・パラメータを生成する「ドロー」および「反復ドロー」など専用命令、ならびに通常ＲＩＳＣ命令を実行することができるデータ経路１６５の特定の実施例を示す。データ経路１６５は、マルチプレクサ（「ＭＵＸ」）３００、偶数レジスタ・ファイル３０２、演算論理装置（「ＡＬＵ」）Ａ、およびレジスタ中に記億されるピクセル・エンジン命令３１５の上部データ部分３０８に１６ビットのデータを出力するレジスタ３０６を有する「偶数」パイプラインを含むものとして示されている。データ経路１６５はまた、マルチプレクサ（「ＭＵＸ」）３０１，奇数レジスタ・ファイル３０３、ＡＬＵＢ、およびピクセル・エンジン命令３１５の下部データ部分に１９ビットのデータを出力するレジスタ３０７を含む「奇数」パイプラインを含む。データ経路１６５の他の機能単位は、ＸＳＨＡＤＯＷレジスタ３１１、ＣＯＵＮＴレジスタ３１２、相互計算回路（「１／Ｑ」）３１３、マルチプレクサ３１４を含む。レジスタ３２０はまた、上部データ部分および下部データ部分中に記憶されたデータをどのように処理するかを決定するためにピクセル・エンジン９５が読み取るｏｐコード部分３２１を含む。ＡＬＵＡおよびＡＬＵＢはそれぞれ待ち時間の１つのクロック・サイクルを有し、相互計算回路３１３およびマルチプレクサ３１４はそれぞれ待ち時間の２つのクロック・サイクルを有するが、各クロック・サイクルごとに新しい動作の実行を開始するためにパイプラインされる。デコードおよび制御ユニット１６０の一部も示されている。具体的には、偶数レジスタ・ファイルおよび奇数レジスタ・ファイルをアサートするレジスタ・アドレスを与えるために結合されたデコード命令レジスタ（「デコード」ＩＲ）４０５およびＣＹＣＬＥレジスタ４１０が示されている。この実施例によれば、デコードＩＲ４０５は、命令の宛先フィールド、ソース・フィールド２、およびソース・フィールド１からデコードされたレジスタ・アドレスを記憶し、ＣＹＣＬＥレジスタ４２０は、反復命令の各動作ごとにクロック・サイクルの数を指定する３ビット・サイクル・カウント値を記憶する。この実施例によれば、各レジスタ・アドレスは６ビットであり、サイクル・カウントの最大値は反復命令のｏｐコードからデコードされる。デコードＩＲ４０５中に記憶された各６ビット・ソース・レジスタ・アドレスごとに、ソース・レジスタ・アドレスの３つの最小桁のビットおよび３ビット・サイクル・カウントを受け取る３つの２入力論理ＯＲゲート４１５のセットが与えられる。各論理ＯＲゲート４１５は、対応するレジスタ・アドレスの下位ビットの１つおよびサイクル・カウントのビットの１つを有する論理ＯＲ演算を実行する。サイクル・カウントは０から始まり、各クロック・サイクルごとに増分し、ついにはサイクル・カウントが所定の最大値に達し、その後サイクル・カウントは０にリセットされ、反復命令の次の演算の開始を示す。サイクル・カウントが各クロック・サイクルごとに増分するので、４つの新しいソース・オペランド（各パイプラインごとに２つ）のセットが各クロック・サイクルごとに自動的にアドレスされ、他の命令をデコードする必要はない。サイクル・カウントの最大値を大きくすることによって、より多くのピクセル・パラメータがドロー動作によって計算できる。宛先レジスタ・アドレスはデータとともにパイプライン中を移動する。パイプラインの最後に、宛先レジスタ・アドレスは決定され、データが示されたレジスタに書き込まれる。マルチプレクサ３２０〜３２５、３３０〜３３３、３４５〜３４６、３５２、および３６０〜３６１が図示にように機能単位の結果を転送するために備えられ、レジスタ３４０〜３４４、３５０〜３５１．および３７０〜３７１がパイプラインのために備えられる。偶数パイプラインならびに奇数パイプラインは次の４つの段、すなわちデコード、実行１（Ｘ１）、実行２（Ｘ２）、および書込み（ＷＲ）を含む。両方のパイプライン用のフェッチ段は、第４図に示される命令メモリ１５５、プログラム・カウンタ１５７、およびデコードおよび制御ユニット１６０によって実行される。適切な場合、マルチプレクサおよびレジスタは、命令に対してパイプラインの特定の段で新しいデータを出力するために制御信号によって制御／イネーブルされるものとして示される。例えば、レジスタ３４０は、Ｘ１段中に特定の命令に対してオペランドを送ることができるようになり、レジスタ３５０は、Ｘ２段中に特定の命令に対して結果を送ることができるようになり、およびレジスタ３５０はＷＲ段中に同じ結果を送ることができるようになる。すべての制御信号はデコードおよび制御ユニット１６０によって与えられる。偶数パイプラインおよび奇数パイプラインは、第１の命令が偶数パイプライン中に発射され、第２の命令が奇数パイプライン中に同時に発射されるスーパスカラー機能を与えるために使用される。さらに、偶数パイプラインおよび奇数パイプラインは、単一の機能単位によって単一の演算をそれぞれ指定する代表的なＲＩＳＣ命令を実行するために使用される。「ドロー」命令や「反復ドロー」命令など特殊な演算を実行する能力は、一部は、ＸＳＨＡＤＯＷレジスタ３１１、ＣＯＵＮＴレジスタ３１２、増分装置(「ＩＮＣ」）３８０〜３８１、および０検出器回路（ＺＤ）３９０によって与えられる。ＸＳＨＡＤＯＷレジスタ３１１はスパン生成中に水平位置パラメータ「ｘ」の現在の値を記憶し、増分装置３８０はスパンのデルタ値ｄｘを記憶するようにプログラムされる。ＣＯＵＮＴレジスタ３１２は、特定の「反復ドロー」命令に対して実行すべきドロー動作の回数を指定するカウンタの現在の値を記憶する。増分装置３８１は、ＣＹＣＬＥレジスタ４２０が０値に達したことによって示されるドロー動作が完了したときはいつでもＣＯＵＮＴの値を減分する。ＣＯＵＮＴレジスタ３１２が０値に達したとき、０検出器回路３９０は、デコードおよび制御ユニット１６０がプログラム・カウンタが増分し、かつ新しい命令がフェッチできるようにデコードおよび制御ユニット１６０にそのように示す。第９図に、ドロー動作当たり４つのピクセル・パラメータの新しい値を生成する「反復ドロー」命令（サイクル・カウントの最大値は２に等しい）を使用してパースペクティブ補正を実行するデータ経路１６５の演算を示す。第９図の「反復ドロー」命令は、各ドロー命令ごとに次式を解くことによってｕパラメータおよびｖパラメータのパースペクティブ補正を実行する。ｕ’＝ｑｒ×ｕ（２）ｖ’＝ｑｒ×ｖ（３）ｑ＝ｑ＋ｄｑ（４）ｕ＝ｕ＋ｄｕ（５）ｖ＝ｖ＋ｄｖ（６）ｘ＝ｘ＋ｄｘ（７）ｚ＝ｚ＋ｄｚ（８）各ドロー動作はピクセル・パラメータｘ、ｚ、ｕ’、およびｖ’を出力する。上式で、ｑはパースペクティブ値、ｄｑはセットアップ時に決定されるｑのデルタ値、ｕは水平テクスチャ座標、ｄｕはセットアップ時に決定されるｕのデルタ値、ｖは垂直テクスチャ座標、ｄｖはセットアップ時に決定されるｖのデルタ値、ｘは水平位置パラメータ、ｄｘはセットアップ時に決定されるｘのデルタ値、ｚは深さパラメータ、ｄｚはセットアップ時に決定されるｚのデルタ値、ｕ’はｕのパースペクティブ補正値、およびｖ’はｖのパースペクティブ補正値である。ＣＯＵＮＴの値はすべての式が解かれた後で減分される。ｑ、ｘ、ｚ、ｕ、ｖ、ｄｑ、ｄｘ、ｄｚ、ｄｕ、およびｄｖの値は、反復ドロー命令をフェッチし、デコードする前に計算され、レジスタ・ファイル中に記億される。この実施例によれば、ＸＳＨＡＤＯＷレジスタ３１１にはスパンの初期水平座標ｘがロードされ、増分装置３８０には値ｄｘがロードされる。ｑおよびｚの値はＳＩＡオペランドとしてアクセスするために偶数レジスタ・ファイル３０２中に記憶され、ｄｑおよびｄｚの値はＳ２Ａオペランドとしてアクセスするために偶数レジスタ・ファイル３０２中に記憶される。同様に、ｕおよびｖの値はＳ１Ｂオペランドとしてアクセスするために奇数レジスタ・ファイル３０３中に記憶され、ｄｕおよびｄｖの値はＳ２Ｂオペランドとしてアクセスするために奇数レジスタ・ファイル３０３中に記憶される。データ経路１６５は、マルチプレクサによって与えられる転送能力を使用して、所望の量のコンカレンシを与える。第９図に示すように、デコードおよび制御ユニット１６０は、それぞれＡＬＵＡおよびＡＬＵＢ、およびマルチプレクサ３１４を使用して第１のピクセル（ピクセル０）に対して式（２）、（４）、および（５）を並列に解くために時刻Ｔ１にデータ経路１６５を制御する。時刻Ｔ２で、ＸＳＨＡＤＯＷは増分し、式（７）を解き、ＡＬＵＡは式（８）を決定し、ＡＬＵＢは式（６）を決定し、マルチプレクサ３１４は式（３）を決定し、相互計算回路３１３は式（１）の決定を終了する。これは、時刻Ｔ３中に第２のピクセル（ピクセル１）の式（２）、（４）、および（５）の決定を可能にする。また時刻Ｔ３では、ピクセル０のｘおよびｕ’の値（ｘ₀およびｕ₀’）が出力される。時刻Ｔ４では、ピクセル０のｚおよびｖ’の値（ｚ₀およびｖ₀’）が出力される。また時刻Ｔ４で、式（１）、（３）、（６）〜（８）がピクセル１に対して完了し、その後、図示のように、時刻Ｔ５およびＴ６中にピクセル１のパラメータが出力される。このプロセスはＣＯＵＮＴが０に達するまで続く。以上、本発明についてその特定の例示的な実施例に関して説明した。しかしながら、本発明のより広い精神および範囲から逸脱することなく本発明に様々な修正および変更を加えることができることは明らかであろう。したがって、明細書および図面は限定的なものではなく例示的なものである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＣＺ，ＤＥ，ＤＥ，ＤＫ，ＤＫ，ＥＥ，ＥＥ，ＥＳ，ＦＩ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ (72)発明者プール，グレン・シイアメリカ合衆国・94555・カリフォルニア州・フレモント・ウェブフットループ・ 34039 (72)発明者スリティ，モハメドアメリカ合衆国・95035・カリフォルニア州・ミルピタス・グレイソンウェイ・ 590

Claims

【特許請求の範囲】１．通常ＲＩＳＣ命令および特殊ＲＩＳＣ命令を実行するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）プロセッサを動作させる方法であって、各通常ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの単一の機能単位を使用して、単一の演算を実行するようにＲＩＳＣプロセッサを制御するステップと、各特殊ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの複数の機能単位を並列に使用して、複数の演算を実行するようにＲＩＳＣプロセッサを制御するステップとを含む方法。２．あるタイプの特殊ＲＩＳＣ命令が出力プリミティブを補間するドロー命令であり、ＲＩＳＣプロセッサが単一のピクセルの複数のピクセル・パラメータを処理する、請求項１に記載の方法。３．ＲＩＳＣプロセッサの複数の機能単位を並列に使用して複数の演算を繰り返し実行するようにＲＩＳＣプロセッサを制御するステップをさらに含み、各後続の演算は、第１の演算の後、各特殊反復ＲＩＳＣ命令に応答した前の演算の結果に依存する、請求項１に記載の方法。４．あるタイプの特殊反復ＲＩＳＣ命令が出力プリミティブを補間する反復ドロー命令であり、ＲＩＳＣプロセッサが反復ドロー命令に応答してピクセルのスパンに対する一連のピクセル・パラメータを処理する、請求項３に記載の方法。５．命令を記憶する命令メモリと、命令メモリに結合されたプログラム・カウンタであって、プログラム・カウンタが増分されたときにプログラム・カウンタが命令を命令メモリから発行させるプログラム・カウンタと、それぞれ算術演算または論理演算を実行する複数の機能単位を含むデータ経路と、命令メモリ、プログラム・カウンタ、およびデータ経路に結合されたデコードおよび制御ユニットであって、各通常演算命令がデータ経路の単一の演算装置を使用しかつ各特殊命令がデータ経路の複数の演算装置を使用するように、各通常演算命令に対して単一の算術演算または論理演算を実行しかつ各特殊命令に対して複数の算術演算または論理演算を同時に実行するように、データ経路を制御するデコードおよび制御ユニットとを含むＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）プロセッサ。６．あるタイプの特殊命令が、ピクセルのスパンに対する複数のピクセル・パラメータの処理を指定する出力プリミティブを補間するドロー命令である、請求項５に記載のＲＩＳＣプロセッサ。７．あるタイプの特殊命令は、複数のピクセルの処理を指定する出力プリミティブを補間する反復ドロー命令であり、デコードおよび制御ユニットは、ＲＩＳＣプロセッサがピクセルのスパンを生成するように、反復ドロー命令によって指定された複数のピクセルが処理されるまでプログラム・カウンタが増分するのを防ぐ、請求項５に記載のＲＩＳＣプロセッサ。８．デコードおよび制御ユニットは、データ経路に供給された一組の制御信号を自動的に生成する論理装置を含み、前記データ経路は制御信号に応答して演算を実行するように構成された、請求項５に記載のＲＩＳＣプロセッサ。９．通常ＲＩＳＣ命令および特殊ＲＩＳＣ命令を実行するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）プロセッサを動作させる方法であって、各通常ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの単一の機能単位を使用して、単一の演算を実行するようにＲＩＳＣプロセッサを制御するステップと、ＲＩＳＣプロセッサの複数の機能単位を並列に使用して、複数の演算を繰り返し実行するようにＲＩＳＣプロセッサを制御するステップとを含み、各後続の演算は、第１の演算の後、各特殊反復ＲＩＳＣ命令に応答した前の演算の結果に依存する方法。１０．あるタイプの特殊反復ＲＩＳＣ命令が出力プリミティブを補間する反復ドロー命令であり、ＲＩＳＣプロセッサが反復ドロー命令に応答してピクセルのスパンに対する一連のピクセル・パラメータを処理する、請求項９に記載の方法。１１．通常ＲＩＳＣ命令および特殊ＲＩＳＣ命令を実行するＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）プロセッサであって、各通常ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの単一の機能単位を使用して、単一の演算を実行するようにＲＩＳＣプロセッサを制御する手段と、各特殊ＲＩＳＣ命令に応答して、ＲＩＳＣプロセッサの複数の機能単位を並列に使用して、複数の演算を実行するようにＲＩＳＣプロセッサを制御する手段とを含むＲＩＳＣプロセッサ。１２．あるタイプの特殊ＲＩＳＣ命令が出力プリミティブを補間するドロー命令であり、ＲＩＳＣプロセッサが単一のピクセルの複数のピクセル・パラメータを処理する、請求項１１に記載のＲＩＳＣプロセッサ。１３．ＲＩＳＣプロセッサの複数の機能単位を並列に使用して複数の演算を繰り返し実行するようにＲＩＳＣプロセッサを制御する手段をさらに含み、各後続の演算は、第１の演算の後、各特殊反復ＲＩＳＣ命令に応答して前の演算の結果に依存する、請求項１１に記載のＲＩＳＣプロセッサ。１４．あるタイプの特殊反復ＲＩＳＣ命令が出力プリミティブを補間する反復ドロー命令であり、ＲＩＳＣプロセッサが反復ドロー命令に応答してピクセルのスパンに対する一連のピクセル・パラメータを処理する請求項１３に記載のＲＩＳＣプロセッサ。