JP2000503151A

JP2000503151A - データの依存性に従って処理エレメントを動的に接続するように構成されたマイクロプセッサ

Info

Publication number: JP2000503151A
Application number: JP9525205A
Authority: JP
Inventors: アイアトン，マーク・エイ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1996-01-04
Filing date: 1996-12-11
Publication date: 2000-03-14
Also published as: US5790880A; EP0871934A1; WO1997025670A1

Abstract

(57)【要約】命令間の依存性を検出するマイクロプロセッサが提供される。マイクロプロセッサは、命令によって指定される演算を行なう１または複数の処理エレメントに各命令を割当てる。さらに、マイクロプロセッサは、依存する演算がそれが依存する演算からオペランドを受取るように処理エレメント間の相互接続を動的に変えるように構成される。特に、別の命令が依存する結果を計算する命令は結果をその命令に与えるように接続される。処理エレメント間のデータの経路制御は命令の実行前に決定される。相互接続の動的再構成を用いて、マイクロプロセッサは別の命令シーケンスのために最適化されるＤＳＰよりも効率的に命令シーケンスを実行する。接続が再構成可能であるので、マイクロプロセッサは（典型的なＤＳＰによって課せられる数制限に対して）多くの異なった命令シーケンスの効率的な実行のために構成され得る。

Description

【発明の詳細な説明】名称：データの依存性に従って処理エレメントを動的に接続するように構成されたマイクロプロセッサ発明の背景１．発明の背景この発明はマイクロプロセッサの分野に関し、特に、命令の実行前に命令間のデータの依存性を検出し、データの依存性に従って処理エレメント間の相互接続を構成するように構成されたマイクロプロセッサに関する。２．関連技術の説明コンピュータシステムは１つ以上のマイクロプロセッサを用い、しばしばデジタル信号プロセッサ（ＤＳＰ）を用いる。ＤＳＰは一般にサウンドカード、音声認識カード、ビデオキャプチャカード等のようなマルチメディアデバイス内に含まれる。ＤＳＰはコプロセッサとして機能し、マルチメディアデバイスおよび他の信号処理アプリケーションが要求する複雑かつ反復的な数学的計算を汎用マイクロプロセッサよりも効率的に行なう。マイクロプロセッサは一般にコンピュータシステムのメインメモリ内にストアされる値に対して整数演算を行なうように最適化される。ＤＳＰは多くのマルチメディア機能を行なうが、マイクロプロセッサはコンピュータシステムの動作を管理する。例示的なＤＳＰはマサチューセッツ州ノーウッド（Norwood，Massachusetts）のアナログ・デバイシィズ社（An alog Devices,Inc.）から入手可能なＡＤＳＰ２１７１である。マイクロプロセッサはしばしば基本的な算術演算／論理演算を行なうように構成された１つ以上の実行ユニットを含む。マイクロプロセッサが用いる命令セットは一般に、これらの基本的な算術演算／論理演算の１つが１つ以上のソースオペランドに対して行なわれ、その結果が特定の行先にストアされることを指定する命令を含む。ここで用いられる場合、用語「ソースオペランド」は命令に応答して演算される値を指す。この値は一般に演算への入力として用いられる。「行先オペランド」または「行先」は演算の結果をストアするための場所を示す。マイクロプロセッサは基本的な演算を行なうので、複雑な数学的アルゴリズムを実行するためには多数の命令が必要とされる。これらのタイプの演算はしたがってやや非効率的にマイクロプロセッサによって実行される。逆に、ＤＳＰは一般に、特に相関、畳込み、有限インパルス応答（ＦＩＲ）フィルタ、無限インパルス応答（ＩＩＲ）フィルタ、高速フーリエ変換（ＦＦＴ）、行列計算および内積のような数学的アルゴリズムのために最適化される。これらの数学的アルゴリズムの実現には長いシーケンスの系統的な算術演算／乗法演算が一般に含まれる。これらの系統的な算術／乗法アルゴリズムを効率的に行なうために、ＤＳＰはしばしばハードウェア算術演算／論理演算装置、乗算器、累算器等を含む。次いで、これらのハードウェアユニットはしばしば、１つのハードウェアユニットの出力が他のハードウェアユニットの入力を直接与えることができるように接続される。ＤＳＰの命令セット内の命令はしばしば演算を行なうために用いられる多数のこれらのハードウェアユニットを指定する。たとえば、特定の命令が、２つのソースオペランドの乗算と、その後のその積と第３のオペランドとの加算とを指定することがあり得る。しかしながら、演算の種々の組合せを指定する融通性は命令の長さによって制限される（すなわち、許される変形が多ければ多いほど、各変形を一意に符号化するために命令内に含まれなければならないビット数が増える）。より大きな命令はより多くのメモリを占有し、必ずしも十分に利用されるとは限られないかもしれないため、ＤＳＰ設計者は適度なサイズの命令を保持するために限られた数の使用可能な組合せを選択しなければならない。結果として、ある演算は特定のＤＳＰによって効率的に行なわれるが、他の演算はあまり効率的ではない。ＤＳＰに共通の命令長さの難点を招くことなしに多くの異なったタイプの複雑なアルゴリズムを効率的に実行できるマイクロプロセッサアーキテクチャが望まれる。発明の概要上述の問題は主としてこの発明に従うマイクロプロセッサによって解決される。マイクロプロセッサは命令間の依存性を検出するように構成される。マイクロプロセッサは、命令によって指定される演算を行なう単一または複数の処理エレメントに各命令を割当てる。さらに、マイクロプロセッサは、依存する演算がその依存先の演算からオペランドを受取るように、処理エレメント間の相互接続を動的に変えるように構成される。特に、別の命令が依存する結果を計算する命令がその命令を実行する処理エレメントに結果を与えるように接続される。有利なことに、処理エレメント間のデータの経路制御は命令の実行前に決定される。相互接続の動的再構成を用いて、このマイクロプロセッサは別の命令シーケンスのために最適化されるＤＳＰよりも効率的に命令シーケンスを実行する。相互接続が再構成可能であるので、マイクロプロセッサは（典型的なＤＳＰによって課せられる数制限に対して）多くの異なった命令シーケンスの効率的な実行のために構成され得る。さらに、命令の長さを最小にできる。命令は、多数の処理エレメントによって行なわれる多数の演算を指定する代わりに、特定の処理エレメントによって行なわれる演算を指定できる。命令は命令シーケンス内で他の命令に依存し得る。マイクロプロセッサは次に、命令シーケンスが効率的に行なわれるように処理エレメントを連結する。有利なことに、マイクロプロセッサは複雑なアルゴリズムを効率的に行なうことができるが、ＤＳＰに共通の大きな命令がない。概して、この発明は命令キャッシュ、制御ユニット、データ相互接続および複数個の処理エレメントを含むマイクロプロセッサを企図する。命令キャッシュは複数個の命令をストアするように構成される。命令キャッシュから複数個の命令を受取るように結合され、制御ユニットは複数個の命令の実行前にその複数個の命令のそれぞれの間の依存性を検出するように構成される。さらに、制御ユニットは複数個の制御信号を制御バス上で送信するように構成される。データ相互接続は制御バスに結合され、複数個のオペランドバスを含む。複数個のオペランドバスに結合され、複数個の処理エレメントは複数個の結果バスを含む。さらに、複数個の処理エレメントは、複数個のオペランドバス上で送信される値に対して少なくとも１つの処理演算を行ない、その処理演算の結果を複数個の結果バス上で送信するように構成される。データ相互接続は複数個の結果バスに結合され、複数個の命令の実行前に制御信号によって構成されて、複数個の結果バス上で送信された結果を複数個のオペランドバスで送る。経路制御は、複数個の命令の第１のものの結果が複数個の命令の第１のものに依存する複数個の命令の第２のもののソースオペランドに送られるように行なわれる。この発明はさらに、いくつかのステップを含む、複数個の命令を実行するために複数個の処理エレメントを動的に構成するための方法を企図する。複数個の命令は命令キャッシュからフェッチされる。複数個の命令の各々１つが複数個の処理エレメントの少なくとも１つに割当てられる。依存性は複数個の命令の第１のものと複数個の命令の第２のものとの間で検出される。データ相互接続が次に構成される。データ相互接続は複数個の処理エレメントの出力バスを複数個の処理エレメントの入力バスに接続する。データ相互接続の構成は、複数個の処理エレメントの第１のものの出力バスが処理エレメントの第２のものの入力バスに接続されるように行なわれる。第１の処理エレメントは複数個の命令の第１のものを受取り、複数個の処理エレメントの第２のものは複数個の命令の第２のものを受取る。最後に、複数個の命令が構成の後に実行される。図面の簡単な説明この発明の他の目的および利点は、以下の詳細な説明を読み、添付の図面を参照するとより明らかとなるであろう。図１は、データ依存性制御ユニットおよび動的データ相互接続を含むマイクロプロセッサのブロック図である。図２は、図１に示すデータ依存性制御ユニットの１つの実施例のブロック図である。図３は、図１に示す動的データ相互接続の１つの実施例のブロック図である。図４は、図１に示すマイクロプロセッサを含むコンピュータシステムのブロック図である。この発明はさまざまな変更および代替的な形態を取り得るが、その具体的な実施例は図面によって示され、ここに詳細に説明される。しかしながら、図面およびその詳細な説明はこの発明を開示される特定の形態に限定するとは意図されず、この発明は添付の請求の範囲によって規定されるようなこの発明の精神および範疇内のすべての変更、均等物および代替例に及ぶものであることが理解されるべきである。発明の詳細な説明ここで図１を参照すると、マイクロプロセッサ１０の１つの実施例のブロック図が示される。マイクロプロセッサ１０はコンピュータシステムの中央処理装置であってもよく、またはＤＳＰのようなコプロセッサとして用いられてもよい。マイクロプロセッサ１０は命令キャッシュ１２、データキャッシュ１４、データ依存性制御ユニット１６、動的データ相互接続１８、複数個の処理エレメント２０Ａ−２０Ｎ、レジスタファイル２２、およびバスインタフェースユニット２４を含む。複数個の処理エレメント２０Ａ−２０Ｎはここでまとめて処理エレメント２０と称される。バスインタフェースユニット２４はデータキャッシュ１４、命令キャッシュ１２およびシステムバス２６に結合される。命令キャッシュ１２はさらにデータ依存性制御ユニット１６に結合される。データ依存性制御ユニット１６はレジスタファイル２２、動的データ相互接続１８および複数個の結果バス２８Ａ−２８Ｎに結合される。結果バス２８には動的データ相互接続１８も結合され、これはさらにレジスタファイル２２と、複数個のソースオペランドバス３０ＡＡ−３０ＮＢを介して処理エレメント２０とに結合される。最後に、処理エレメント２０Ｎがデータキャッシュ１４に結合される。他の処理エレメント２０もまたデータキャッシュ１４に結合され得ることに注目されたい。概して、データ依存性制御ユニット１６は命令キャッシュ１２からフェッチされる命令間の依存性を検出するように構成される。「依存性」は、第１の命令を実行した結果が第２の命令のためのソースオペランドである場合に第１の命令と第２の命令との間に存在する。データ依存性制御ユニット１６は、命令によって指定される演算を行なう単一または複数の処理エレメント２０に各命令を割当てる。さらに、データ依存性制御ユニット１６は、その依存性が検出される命令を受取る処理エレメント２０間の接続を動的データ相互接続１８に形成させる。特に、別の命令が依存する命令の結果を送信する結果バス２８が適切なソースオペランドバス３０に接続される。このように、命令はそれが依存する別の命令からそのオペランドを受取る。有利なことに、処理エレメント間のデータの経路制御は対応の命令の実行前に決定される。処理エレメント２０は、処理エレメント２０間の接続の動的再構成によって、特定の命令シーケンス内のデータの依存性によって示唆されるように相互接続される。再構成は特定の命令シーケンスの実行前に行なわれる。命令シーケンスはしたがって、別の命令シーケンスのために最適化されるＤＳＰよりもマイクロプロセッサ１０によってより効率的に実行され得る。接続が再構成可能であるので、マイクロプロセッサ１０は、典型的なＤＳＰによって課せられる数制限に対して多くの異なった命令シーケンスの効率的な実行のために構成され得る。加えて、命令の長さが最小に保たれ得る。命令はある処理エレメント２０によって行なわれる演算を指定できる。命令は他の命令に依存し得る。データ依存性制御ユニット１６および動的データ相互接続１８は命令シーケンスが効率的に行なわれるように処理エレメント２０を連結する。ソースオペランドが命令シーケンス内の他の命令に依存しないならば、ソースオペランドはデータ依存性制御ユニット１６によってレジスタファイル２２から要求される。命令の実行結果は動的データ相互接続１８によって結果バス２８からレジスタファイル２２へと送られる。レジスタファイル２２はマイクロプロセッサ１０の命令セットによって規定されるレジスタのための記憶装置を含む。たとえば、ｘ８６マイクロプロセッサアーキテクチャはＥＡＸ、ＥＢＸ、ＥＣＸ、ＥＤＸ、ＥＳＰ、ＥＢＰ、ＥＳＩおよびＥＤＩレジスタを含む。処理エレメント２０は処理演算を行なうように構成される。処理演算は乗算、累算および算術演算／論理演算を含み得る。加えて、処理演算はメモリへ、またそこからの値の転送を含み得る。処理エレメント２０Ｎはロード・ストア演算のようなメモリアクセスを行なうためにデータキャッシュ１４に接続して示される。ロード演算結果は結果バス２８Ｎ上で動的データ相互接続１８に送られる。処理エレメント２０はソースオペランドバス３０でソースオペランドを受取り、結果は結果バス２８上で送信される。処理エレメント２０の各々が２つのソースオペランドバス３０と１つの結果バス２８とを備えて示されるが、処理エレメント２０の他の実施例はそれよりも多いか少ない各タイプのバスを含み得る。このような処理エレメントは、ＤＳＰアルゴリズムに典型的な乗算−累算機能のようなより複雑な演算を個々に行なうことができる。なお、さらなる処理エレメント２０がロード・ストアメモリ演算を行なうためにデータキャッシュ１４に結合されてもよい。ある実施例では、データ依存性制御ユニット１６は、命令キャッシュ１２からそれまでにフェッチされているが処理エレメント２０によってまだ実行されていない命令の表示をストアする。このように、データの依存性は異なるときにフェッチされる命令間で検出できる。データ依存性制御ユニット１６はいつ命令が実行されたのかを検出するために結果バス２８に結合される。したがって、対応の表示は命令が実行されるときに放棄される。命令キャッシュ１２は命令をストアするための高速キャッシュメモリである。命令は命令キャッシュ１２からフェッチされ、データ依存性ユニット１６へと実行のために送信される。命令キャッシュ１２はセットアソシティブまたはダイレクトマッピング構成に構成され得る。同様に、データキャッシュ１４はデータをストアするための高速キャッシュメモリであり、セットアソシアティブまたはダイレクトマッピング構成に構成され得る。バスインタフェースユニット２４はマイクロプロセッサ１０とシステムバス２６に結合される装置との間の通信を行なうように構成される。たとえば、命令キャッシュ１２でヒットしない命令フェッチはインタフェースユニット２４によってメインメモリから転送され得る。同様に、データキャッシュ１４でヒットしない、処理エレメント２０Ｎによって行なわれるデータ要求はインタフェースユニット２４によってメインメモリから転送され得る。さらに、データキャッシュ１４はマイクロプロセッサ１０によって変更されているデータのキャッシュラインを放棄できる。バスインタフェースユニット２４は変更されたラインをメインメモリに転送する。次に図２を参照すると、データ依存性制御ユニット１６の１つの実施例のブロック図が示される。データ依存性制御ユニット１６はデコーダ４０、依存性検査ユニット４２、相互接続制御ユニット４４、使用可能ユニット記憶装置４６、依存性記憶装置４８および現制御記憶装置５０を含む。デコーダ４０は命令キャッシュ１２からの命令バス５２および命令受入れバス５４に結合される。さらに、デコーダ４０は使用可能ユニット記憶装置４６、行先バス５６、オペランドバス５８、結果バス２８および実行エレメントバス６０に結合される。依存性検査ユニット４２は行先バス５６、オペランドバス５８、レジスタ読出バス６２、依存性バス６４、ソースエレメントバス６６、結果バス２８および依存性記憶装置４８に結合される。相互接続制御ユニット４４は現制御記憶装置５０、結果バス２８、実行エレメントバス６０、依存性バス６４、ソースエレメントバス６６および制御バス６８に結合される。デコーダ４０は命令キャッシュ１２から命令バス５２上で命令を受取る。各命令は、どの処理演算に命令が対応するのかを判断し、また、ソースオペランドおよび行先オペランドを決定するためにデコードされる。命令に対応する処理演算に依存して、１つ以上の処理エレメント２０が命令を実行するように構成され得る。処理エレメント２０が命令を実行するように構成され、まだ実行されていない前の命令に割当てられていなければ、デコーダ４０は対応の信号を命令受入れバス５４上でアサートするように構成され、その命令が受入れられたことを示す。特定の命令に対して命令受入れバス５４上でアサートされた信号が命令キャッシュ１２によって受取られなければ、その命令は命令キャッシュ１２によって再伝送される。なお、複数の命令を命令バス５２で同時に送ることができる。命令受入れバス５４は同時に送信され得る各命令に対する信号を含む。使用可能ユニット記憶装置４６は、割当てのために使用可能である（すなわち、まだ実行されていない前の命令に割当てられていない）それらの処理エレメントの表示をストアする。ある実施例では、使用可能ユニット記憶装置４６が各処理エレメント２０に対応するビットをストアする。そのビットがセットされれば、対応の処理エレメント２０が使用可能である。そのビットがクリアであれば、対応の処理エレメント２０は使用可能でない。図示する実施例では、最大で１つの命令が所与の時間に各処理エレメント２０に関連づけられる。デコーダ４０が命令を処理エレメントに割当てると、使用可能ユニット記憶装置４６の対応のビットがリセットされ、処理エレメント２０が結果を結果バス２８上で送るまでリセットされたままである。デコーダ４０は命令を実行するために使用可能な処理エレメント２０を選択し、選択された処理エレメントの表示を相互接続制御ユニット４４へと実行エレメントバス６０上で送る。実行エレメントバス６０は命令キャッシュ１２から同時に送られ得る命令の数と等しい処理エレメントの表示の数を同時に送るように構成される。命令を処理エレメント２０に割当てるのに加えて、デコーダ４０は命令のためのソースオペランドおよび行先オペランドを検出する。ソースオペランドはソースオペランドバス５８上で送信され、一方行先オペランドは行先オペランドバス５６で送信される。依存性検査ユニット４２はソースオペランドおよび行先オペランドを受取る。各命令のためのソースオペランドはプログラム順でその命令の前にある命令の行先オペランドと比較される。ソースオペランドが前の命令の行先であれば、依存性検査ユニット４２は対応の信号を依存性バス６４上で相互接続制御ユニット４４へとアサートする。結果としてソースオペランドを生ずる処理エレメントはソースエレメントバス６６上の値によって相互接続制御ユニット４４に表示される。依存性バス６４はデータ依存性制御ユニット１６に同時に送られ得る各命令の各ソースオペランドに対応する信号を含む。同様に、ソースエレメントバス６６は依存性バス６４で依存性信号の数と等しい数の値を送ることできる。各依存性信号はソースエレメントバス６６上の特定の値に対応する。プログラム順で特定の命令の前にある命令がその特定の命令の前にフェッチされ得るので、依存性検査ユニット４２はマイクロプロセッサ１０内でまだ行なわれていない命令に対する依存性検査も行なう。依存性記憶装置４８はこのような機能をもたらすために含まれる。データ依存性制御ユニット１６によって処理される命令ごとに、依存性記憶装置４８内の記憶場所が割当てられる。各、記憶場所内には、（命令が処理されるときに実行エレメントバス６０で受取られる）命令に割当てられる処理エレメントとその命令の行先オペランドとがある。依存性検査ユニット４２は依存性記憶装置４８内にストアされる指示の各々を処理される命令と比較する。依存性が検出されれば、依存性は同時にフェッチされた命令間の依存性に対する上の説明と同様に扱われる。依存性検査ユニット４２が特定のソースオペランドに対する依存性を検出しなければ、ソースオペランドはレジスタファイル２２にストアされる。レジスタの表示がレジスタファイル２２に結合されるレジスタ読出バス６２上で送信される。表示されたレジスタ内にストアされる値は次に動的データ相互接続１８に送られる。デアサートされる対応の依存性信号のため、相互接続制御ユニット４４はオペランド値がレジスタファイル２２によって与えられることを検出できる。相互接続制御ユニット４４によってアサートされる制御信号はレジスタ値を命令に割当てられる処理エレメント２０へと転送させる。依存性検査ユニット４２は、処理エレメント２０が結果を対応の結果バス２８上で送信するまで、行先と割当てられた処理エレメントとを依存性記憶装置４８にストアする。結果が結果バス２８上で送信されたことを検出すると、依存性検査ユニット４２は依存性記憶装置４８から処理エレメントに対応する情報を削除する。アサートされた依存性信号を受取ると、相互接続制御ユニット４４は処理エレメント２０を接続するために制御バス６８上に適切な制御信号を発生する。ソースエレメントバス６６上に表示される処理エレメント２０はソース処理エレメントと称される。実行エレメントバス６０上に表示される処理エレメント２０は受取り処理エレメントと称される。制御信号によって、ソース処理エレメントに対応する結果バス２８と受取り処理エレメントに対応するオペランドバス３０の１つとの間に接続が形成される。たとえば、処理エレメント２０Ｂは命令を実行するために選択されることができ、その命令は処理エレメント２０Ａの結果に依存し得る。処理エレメント２０Ｂの表示が実行エレメントバス６０で送られる。処理エレメント２０Ａの表示はソースエレメントバス６６上で送信され、対応の依存性信号が依存性バス６４上でアサートされる。したがって、相互接続制御ユニット４４は、どの命令のオペランドが処理エレメント２０Ａの結果に依存するかに基づいて、結果バス２８Ａをソースオペランドバス３０ＢＡまたは３０ＢＢに接続させ、制御信号を制御バス６８上でアサートする。特定の結果バス２８と特定のソースオペランドバス３０との間の接続を形成する制御信号は、特定の結果バス２８上で結果が送信されるまでアサートされたままである。現制御記憶装置５０は、１クロックサイクルの間、相互接続制御ユニット４４によってアサートされる制御信号のセットをストアする。相互接続制御ユニット４４は、制御信号に関連したソース処理エレメントが結果を結果バス２８上で送信するまで、前にアサートされた制御信号をアサートする。アサートされた制御信号を現制御記憶装置５０にストアすることによって、前に処理された命令に対応する制御信号が維持され得る。次に図３を参照すると、動的データ相互接続１８の１つの実施例の図が示される。図３に示すように、動的データ相互接続１８は相互接続ブロック７０と複数個のオペランド記憶装置７２ＡＡ−７２ＮＢとを含む。相互接続ブロック７０は制御バス６８と、処理エレメント２０からの結果バス２８と、レジスタファイル２２からの複数個のレジスタデータバス７４Ａ−７４Ｃとに結合される。さらに、相互接続ブロック７０はオペランド記憶装置７２の各々に結合される。オペランド記憶装置７２はさらに対応のソースオペランドバス３０に結合される。最後に、相互接続ブロック７０は複数個のレジスタ書込バス７６Ａ−７６Ｂに結合される。相互接続ブロック７０は結果バス２８またはレジスタデータバス７４のいずれかをオペランド記憶装置７２のいずれかに接続するように構成される。相互接続ブロック７０はスイッチ７８Ａ、７８Ｂおよび７８Ｃを含む複数個のスイッチを含む。各スイッチ７８は結果バス２８またはレジスタデータバス７４をオペランド記憶装置７２またはレジスタ書込バス７６に接続するように構成される。図示する実施例では、各スイッチ７８に対して１つの制御信号が制御バス６８内に含まれる。スイッチ７８が対応のアサートされた制御信号を受取れば、スイッチはそのスイッチに結合された２つのバスを接続する。たとえば、スイッチ７８Ａがアサートされた制御信号を受取れば、結果バス２８Ａがソースオペランド記憶装置７２ＢＡに結合されたバスに結合される。相互接続ブロック７０はしばしばクロスバー構造と称される。図示する構造は各「出力」（たとえば、オペランド記憶装置７２またはレジスタ書込バス７６）を１つまでの「入力」（たとえば、結果バス２８またはレジスタデータバス７４）に接続させる。このような相互接続は、図２に示すようなデータ依存性制御ユニット１６によって発生され得る起こり得る接続のいかなるものも支持する。他の相互接続は動的データ相互接続１８の他の実施例において用いられ得る。レジスタデータバス７４はレジスタファイル２２内にストアされるレジスタ値を送る。１つのレジスタデータバス７４が図２に示すレジスタ読出バス６２の各１つに対応する。レジスタ値が処理エレメント２０に与えられるのは、レジスタ読出バス６２上でレジスタ表示を送るデータ依存性制御ユニット１６と、レジスタ表示に関連したレジスタ値を対応のレジスタデータバス７４上で送信するレジスタファイル２２と、対応のレジスタデータバス７４を処理エレメント２０に対応するオペランド記憶装置７２と接続するスイッチ７８とによってである。結果バス２８をオペランド記憶装置７２に接続するのに加えて、スイッチ７８は結果バス２８をレジスタ書込バス７６に接続するために相互接続ブロック７０内に含まれる。典型的には、ある値がレジスタファイル２２からアクセスされ、しかも直ちにレジスタファイル２２へとストアバックされることはないので、レジスタデータバス７４をレジスタ書込バス７６に接続するためのスイッチ７８は含まれない。各レジスタ書込バス７６がストアされるべきレジスタの表示とストアされるべき値とを送る。明快にするために２つのレジスタ書込バス７６が図３に示されるが、処理エレメント２０によって同時に送られる各結果がレジスタファイル２２にストアされることを確実とするためにより多くのレジスタ書込バス７６が含まれてもよい。なお、あるレジスタから別のレジスタへの値の移動がレジスタファイル２２によって内部的に行なわれてもよい。このように、処理エレメント２０はデータ移動のみを含む演算に割当てられる必要はない。各オペランド記憶装置７２は対応の処理エレメント２０が用いるためのオペランドをストアするように構成される。ある実施例では有効表示もストアされる。オペランドは種々の時間に特定の命令のために与えられ得る。たとえば、特定の命令のためのあるオペランドはレジスタファイル２２内にストアされることができ、したがって、特定の命令が対応の処理エレメント２０に割当てられるそのクロックサイクルの間に与えられる。もう一方のオペランドは別の処理エレメント２０によって与えられることができ、したがって、対応の処理エレメント２０に割当てられる命令の後のクロックサイクルの間に到着できる。各オペランド記憶装置７２内に有効表示をストアすることによって、処理エレメント２０は、そのオペランドが与えられており、したがってその処理演算を行なって結果を生成できることを判断できる。ある実施例では、有効表示は、セットされると対応のオペランド値が有効であることを示すビットを含む。図２について与えられた例を続けると、この場合に歯処理エレメント２０Ｂが処理エレメント２０Ａに依存する命令を実行するために選択されているのだが、スイッチ７８Ａがアサートされた制御信号を受取る。スイッチ７８Ａが結果バス２８Ａをオペランド記憶装置７２ＢＡに接続する。処理エレメント２０Ａがそれに割当てられた命令を完了し、結果を結果バス２８Ａ上で送信すると、オペランド記憶装置７２ＢＡがその値を受取る。値が与えられると、オペランド記憶装置７２ＢＡ内の有効表示がセットされる。処理エレメント２０Ｂに割当てられた命令は、オペランド記億装置７２ＢＢが有効オペランド値をストアしていると想定すると、引き続いて実行され得る。代替的な実施例では、マイクロプロセッサ１０は検出される依存性に従って相互接続ブロック７０を構成するが、１クロックサイクルの間依存性命令を保持することができる。したがって第１の命令に依存する第２の命令は、データが第１の命令の実行から到着するまで、割当てられた処理エレメントを占有しない。この代替例は第１および第２の命令がループ内にある場合に特に有利であり得る。ループは、第１のクロックサイクルの間に第１の命令をディスパッチし、次に第２のクロックサイクルの間に（次のループ反復からの）第１の命令とともに第２の命令をディスパッチすることによってより円滑に実行することができる。後続するクロックサイクルが次に続行でき、第２のクロックサイクルと同様にパイプライン化された第１および第２の命令がさらに反復される。各命令の１つの反復が第２のクロックサイクル以降クロックサイクルごとに実行され、命令のスループットを増大する効果がある。効果的に、効率的なパイプラインがループ内の命令のために作られており、パイプラインへの命令の互い違いになったディスパッチによって各命令が遅延なしに実行される。マイクロプロセッサ１０の機能性をさらに説明するために、別の例を検討する。この例のために、ＤＳＰルーチンで用いられ得る２つアルゴリズムを示す。この例の目的のために、処理エレメント２０Ａは乗算器であり、処理エレメント２０ＢはＡＬＵユニットであり、処理エレメント２０Ｃ（図示せず）は累算器であると想定する。用いられ得る第１のアルゴリズムは以下の式（１）に示すような多数の項の和である。 Σ（ｘ−ｙ）² （１）式（１）に示す項の和を計算するために、最初にｘおよびｙの各値が減算される（ＡＬＵ演算）。ＡＬＵ演算によって生じる値は次に二乗され（両方のオペランドがＡＬＵ演算によって生じる値である乗算演算）、乗算の積が前に生成された結果に加えられる。この演算のために最適化されたＤＳＰはしたがって、ｘおよびｙオペランドを受取るように結合されたＡＬＵユニットを含み、ＡＬＵユニットの出力は乗算器の両方の入力に結合され、乗算器の出力は累算器の入力に結合されるであろう。しかしながら、このようなＤＳＰは以下の式（２）によって表わされる多数の項の和を効率的に計算することはできないであろう。 Σｘ²−ｙ（２）式（２）は、両方の入力オペランドとしてｘオペランドを受取るように結合され乗算器を含み、乗算器の出力はｙオペランドも受取るＡＬＵユニットに結合され、次にＡＬＵユニットの出力累算器に与えられる。マイクロプロセッサ１０は式（１）または式（２）のアルゴリズムを効率的に行なうためにそのユニットの接続を動的に再構成する。換言すると、マイクロプロセッサ１０はアルゴリズムを実行するためにその動的再構成能力を用いて、自然にデータの経路制御をするパイプラインをセットアップする。次に、各命令が上述の代替的な実施例と同様に遅延なしに実行されるようにパイプラインへと命令がディスパッチされ得る。式（１）のアルゴリズムを実行する命令が検出されると、ＡＬＵ結果と乗算演算の両方のオペランドとの間の依存性が検出され、結果バス２８Ｂ（ＡＬＵユニットの結果バス）がオペランド記憶装置７２ＡＡおよび７２ＡＢに接続させられる。さらに、乗算演算と累算演算との間の依存性が検出される。結果バス２８Ａはそれによって処理エレメント２０Ｃに対応するオペランド記憶装置に接続されるであろう。代替的に、式（２）のアルゴリズムを実行する命令が検出されると、マイクロプロセッサ１０は乗算演算の結果とＡＬＵ演算との間の依存性を検出する。結果バス２８Ａはしたがってオペランド記憶装置７２ＢＡに接続される。同様に、依存性がＡＬＵ演算と累算演算との間に検出される。結果バス２８Ｂはしたがって処理エレメント２０Ｃに対応するオペランド記憶装置７２に接続される。有利なことに、マイクロプロセッサ１０はいずれのアルゴリズムのためにも効率的な相互接続を生じる。式（１）および（２）に示すアルゴリズムの両方を用いるプログラムは、マイクロプロセッサ１０で実行されると、アルゴリズムのいずれか１つのために最適化されたＤＳＰと比較して、向上した性能を享受できる。上述の説明は処理エレメント間のデータ相互接続を連続的に更新するように構成されるマイクロプロセッサ１０についてであることが注目される。マイクロプロセッサ１０の他の実施例は命令の特定のブロック（たとえば、ループの本体部分を形成する命令）に従って相互接続を更新し、その相互接続をループの実行の持続時間の間維持するように構成され得る。マイクロプロセッサ１０のこのような実施例は相互接続を素早く更新するように構成される必要はない。そうではなく、相互接続は命令のブロックの実行を始める前に更新でき、その後に命令のブロックが実行される。さらに、相互接続の構成をストアしておくと、命令のブロックが後に再び実行されるならば、既に構成が決定できているということになる。その場合、依存性のために命令を処理する必要なしにこの構成を相互接続に与えることができるであろう。この記憶機構は分岐予測機構に類似しているかもしれない。分岐予測機構はしばしば、関連の分岐命令を含む命令のアドレスによって、予測されるターゲットアドレスが記憶装置から読出されるように、予測されたターゲットアドレスを記憶装置にストアする。相互接続の構成も同様に記憶装置にストアされ得る。その場合、構成を生じる命令のアドレスがその構成を記憶装置から読出すことができる。次に図４を参照すると、マイクロプロセッサ１０を含むコンピュータシステム１００が示される。コンピュータシステム１００はさらにバスブリッジ１０２、メインメモリ１０４および複数個の入力／出力（Ｉ／Ｏ）装置１０６Ａ−１０６Ｎを含む。複数個のＩ／Ｏ装置１０６Ａ−１０６ＮはまとめてＩ／Ｏ装置１０６と称される。マイクロプロセッサ１０、バスブリッジ１０２およびメインメモリ１０４はシステムバス２６に結合される。Ｉ／Ｏ装置１０６はバスブリッジ１０２との通信のためにＩ／Ｏバス１０８に結合される。バスブリッジ１０２は、Ｉ／Ｏ装置１０６とシステムバス２６に結合された装置との間の通信を助けるために設けられる。Ｉ／Ｏ装置１０６は一般にマイクロプロセッサ１０およびシステムバス２６に結合された他の装置よりも長いバスクロックサイクルを必要とする。したがって、バスブリッジ１０２はシステムバス２６と入力／出力バス１０８との間にバッファを与える。加えて、バスブリッジ１０２はあるバスプロトコルから別のものへとトランザクションを変換する。ある実施例では、入力／出力バス１０８はエンハンスド・インダストリー・スタンダード・アーキテクチャ（ＥＩＳＡ）バスであり、バスブリッジ１０２はシステムバスプロトコルからＥＩＳＡバスプロトコルへの変換を行なう。別の実施例では、入力／出力バス１０８は周辺コンポーネント相互接続（ＰＣＩ）バスであり、バスブリッジ１０２はシステムバスプロトコルからＰＣＩバスプロトコルへの変換行なう。なお、システムバスプロトコルには多くの変形例が存在する。マイクロプロセッサ１０はいかなる適切なシステムバスプロトコルをも用いることができる。Ｉ／Ｏ装置１０６はコンピュータシステム１００とコンピュータシステムの外部の他の装置との間のインタフェースを与える。例示的なＩ／Ｏ装置はモデム、直列または並列ポート、サウンドカード等を含む。Ｉ／Ｏ装置１０６は周辺装置としても称され得る。メインメモリ１０４はマイクロプロセッサ１０が用いるためのデータおよび命令をストアする。ある実施例では、メインメモリ１０４は少なくとも１つのダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）および１つのＤＲＡＭメモリ制御装置を含む。なお、図４に示すようなコンピュータシステム１００は１つのマイクロプロセッサを含むが、コンピュータシステム１００の他の実施例がマイクロプロセッサ１０と同様の多数のマイクロプロセッサを含み得る。同様に、コンピュータシステム１００は類似するしないにかかわらず多数のＩ／Ｏバスプロトコルを変換するための多数のバスブリッジ１０２を含んでもよい。さらに、マイクロプロセッサ１０によって参照される命令およびデータをより速い記憶装置にストアすることによってコンピュータシステム１００の性能を高めるためのキャッシュメモリが含まれ得る。キャッシュメモリはマイクロプロセッサ１０とシステムバス２６との間に挿入されてもよく、または、「ルックアサイド」構成でシステムバス２６上にあってもよい。この説明がさまざまな信号のアサートにあてはまり得ることにもさらに注目される。ここでは、信号が「アサート」されるのはそれが特定の条件を示す値を有する場合であるとして使用されている。逆に、信号が「デアサート」されるのはそれが特定の条件がないことを示す値を有する場合である。信号は、論理０値を有する場合または逆に論理１値を有する場合にアサートされるように規定され得る。上の開示に従って、その処理エレメント間に動的に再構成可能な相互接続を含むマイクロプロセッサが説明された。相互接続は、実行される命令シーケンスに従って、ある処理エレメントをその結果に依存する別の処理エレメントに効率的に送るように構成され得る。別の命令シーケンスが発生すると、異なった相互接続が発生され得る。有利なことに、マイクロプロセッサは、処理エレメント間の相互結線接続を有するＤＳＰよりも効率的に命令シーケンスを実行できる。上の開示が十分に認識されると数多くの変形および変更が当業者には明らかになるであろう。以下の請求の範囲はこのようなすべての変形および変更を含むように解釈されることが意図される。

Claims

【特許請求の範囲】１．マイクロプロセッサであって、複数個の命令をストアするように構成された命令キャッシュと、前記命令キャッシュから前記複数個の命令を受取るように結合された制御ユニットとを含み、前記制御ユニットは、前記複数個の命令の実行前に前記複数個の命令のそれぞれの間の依存性を検出し、複数個の制御信号を制御バスに与えるように構成され、さらに、前記制御バスに結合されたデータ相互接続を含み、前記データ相互接続は複数個のオペランドバスを含み、さらに、前記複数個のオペランドバスに結合された複数個の処理エレメントを含み、前記複数個の処理エレメントは複数個の結果バスを含み、前記複数個の処理エレメントは、前記複数個のオペランドバス上で送信された値に対して少なくとも１つの処理演算を行ない、前記処理演算の結果を前記複数個の結果バスで送るように構成され、前記データ相互接続は前記複数個の結果バスに結合され、前記データ相互接続は、前記複数個の命令の第１のものの結果が、前記複数個の命令の前記第１のものに依存する前記複数個の命令の第２のもののソースオペランドに送信されるように、前記複数個の結果バス上で送信された結果を前記複数個のオペランドバス上で送信するように前記複数個の命令の実行前に前記制御信号によって構成される、マイクロプロセッサ。２．処理演算は乗算、累算および算術演算／論理演算を含む、請求項１に記載のマイクロプロセッサ。３．前記データ相互接続は前記複数個の結果バスの各々を前記複数個のオペランドバスの各々に接続するように結合されたクロスバーを含み、特定の接続が前記複数個の制御信号に従って作られる、請求項１に記載のマイクロプロセッサ。４．前記制御ユニットおよび前記データ相互接続に結合されたレジスタファイルをさらに含み、前記レジスタファイルは複数個のレジスタに対応する結果をストアするように構成される、請求項３に記載のマイクロプロセッサ。５．前記制御ユニットは前記レジスタファイルに結合された複数個のレジスタ読出バスをさらに含み、前記制御ユニットは前記複数個のレジスタの特定のものを示す値を前記複数個のレジスタ読出バス上で送信するように構成され、前記複数個のレジスタの前記特定のものは前記複数個の命令のソースオペランドに対応する、請求項４に記載のマイクロプロセッサ。６．前記レジスタファイルは前記データ相互接続に結合された複数個のレジスタデータバスをさらに含み、前記レジスタデータバスは前記複数個のレジスタの前記特定のものの中にストアされる値を送信し、前記データ相互接続は前記レジスタデータバスで送信された前記値を前記複数個の制御信号に従って前記複数個のオペランドバス上で送信するように構成される、請求項５に記載のマイクロプロセッサ。７．前記データ相互接続は前記レジスタファイルに結合された複数個のレジスタ書込バスをさらに含み、前記データ相互接続は前記複数個の結果バス上で送信された結果を前記複数個の制御信号に従って前記複数個のレジスタ書込バス上で伝送するように構成される、請求項４に記載のマイクロプロセッサ。８．前記レジスタファイルは前記複数個のレジスタ書込バスで送られた結果を前記複数個のレジスタのあるものへとストアするように構成される、請求項７に記載のマイクロプロセッサ。９．前記制御ユニットは、前記命令キャッシュから前記複数個の命令を受取るように結合されたデコーダを含み、前記デコーダは前記複数個の命令の各々を実行するために前記複数個の処理エレメントの少なくとも１つを識別するように構成され、前記デコーダは前記複数個の命令の各々に対応するソースオペランドおよび行先オペランドを識別するようにさらに構成され、さらに、前記複数個の命令間の依存性を識別するように構成された依存性検査ユニットを含み、前記依存性検査ユニットは前記デコーダから前記ソースオペランドおよび前記行先オペランドを受取るように結合され、さらに、前記制御バス、前記依存性検査ユニットおよび前記デコーダに結合された相互接続制御ユニットを含み、前記相互接続制御ユニットは、前記デコーダからの識別された処理エレメントの表示と前記依存性検査ユニットからの依存性の表示とに従って制御信号を発生する、請求項１に記載のマイクロプロセッサ。１０．前記依存性検査ユニットは、前記複数個の命令の１つのソースオペランドと等しい行先を有する結果を生じる前記複数個の処理エレメントの１つを識別することによって依存性を識別する、請求項９に記載のマイクロプロセッサ。１１．複数個の命令を実行するように複数個の処理エレメントを動的に構成するための方法であって、命令キャッシュから前記複数個の命令をフェッチするステップと、前記複数個の命令の各々を前記複数個の処理エレメントの少なくとも１つに割当てるステップと、前記複数個の命令の第１のものと前記複数個の命令の第２のものとの間の依存性を検出するステップと、前記複数個の命令の前記第１のものを受取る前記複数個の処理エレメントの１つの出力バスが前記複数個の命令の前記第２のものを受取る前記複数個の処理エレメントの別のものの入力バスに接続されるように、前記複数個の処理エレメントの出力バスを前記複数個の処理エレメントの入力バスに接続するデータ相互接続を構成するステップと、前記構成の後に前記複数個の命令を実行するステップとを含む、方法。１２．前記割当てるステップは、前記複数個の命令のそれぞれが割当てられる前記複数個の処理エレメントのそれぞれを記録するステップを含む、請求項１１に記載の方法。１３．第２の複数個の命令をフェッチするステップをさらに含む、請求項１２に記載の方法。１４．前記第２の複数個の命令の各々を、第１の複数個の命令の１つに割当てられていない前記複数個の処理エレメントの１つに割当てるステップをさらに含む、請求項１３に記載の方法。１５．前記複数個の命令の各々の行先を記録するステップをさらに含む、請求項１４に記載の方法。１６．前記記録された行先を用いて前記複数個の命令と前記第２の複数個の命令との間の依存性を検出するステップをさらに含む、請求項１５に記載の方法。