JP2000515275A

JP2000515275A - 高速命令整列ユニットを含むスーパースカラマイクロプロセッサ

Info

Publication number: JP2000515275A
Application number: JP10505952A
Authority: JP
Inventors: トラン，タング・エム; ウィット，デイビッド・ビィ; ジョンソン，ウィリアム・エム
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1996-07-16
Filing date: 1996-07-16
Publication date: 2000-11-14
Also published as: WO1998002798A1; EP0912924A1

Abstract

(57)【要約】命令整列ユニット、命令キャッシュ、複数のデコードユニットおよびプリデコードユニットを有するスーパースカラマイクロプロセッサが提供される。命令整列ユニットは命令キャッシュから固定数の命令を複数のデコードユニットの各々に転送する。命令はプリデコードユニットによってもたらされたプリデコードタグに従って複数バイトから選択される。プリデコードタグは複数バイトのうちいずれのバイトが命令の第１のバイトであるかを示ず開始バイトビットを含む。命令整列ユニットは複数のグループの命令バイトを個別にスキャンし、複数の発行位置の各々に関する開始バイトおよび複数の連続バイトを選択する。命令整列ユニットはまず、複数のグルーブの命令の各々に関する発行位置のグループを選択する。次に、命令整列ユニットは個別にもたらされた発行位置をシフトしてマージし、最終組の発行位置をもたらし、複数のデコードユニットに転送する。

Description

【発明の詳細な説明】名称：高速命令整列ユニットを含むスーパースカラマイクロプロセッサ発明の背景１．発明の分野この発明はスーパースカラマイクロプロセッサに関し、特に、可変バイト長の命令をスーパースカラマイクロプロセッサ内の複数個の命令デコードユニットへとディスパッチするための高速命令整列ユニットに関する。２．関連技術の説明スーパースカラマイクロプロセッサは、多命令の並列実行を可能にすることによって従来のスカラプロセッサをしのぐ性能を達成することができる。ｘ８６系マイクロプロセッサが広く受入れられているために、マイクロプロセッサ製造業者はｘ８６命令を実行するスーパースカラマイクロプロセッサを開発する努力を行なっている。このようなスーパースカラマイクロプロセッサは、比較的高い性能を達成しつつ、８０８６、８０２８６、８０３８６および８０４８６のような前世代のマイクロプロセッサのために開発された非常に多量の既存のソフトウェアとの旧版互換性を有利に保つ。ｘ８６命令セットは比較的複雑であり、複数個の可変バイト長命令によって特徴付けられる。ｘ８６命令セットを示す一般的なフォーマットが図１に示される。図に示すように、ｘ８６命令は１個から５個のオプションのプリフィックスバイト１０２と、それに続くオペレーションコード（opcoad）フィールド１０４と、オプションのアドレスモード（ＭｏｄＲ／Ｍ）バイト１０６と、オプションのスケールーインデックスーベース（ＳＩＢ）バイト１０８と、オプションの変位フィールド１１０と、オプションの即値データ１１２とからなる。 opcoadフィールド１０４はある特定の命令のための基本動作を規定する。ある特定のopcoadのデフォルト動作は１または２以上のプリフィックスバイトによって変更され得る。たとえば、プリフィックスバイトは、命令のためのアドレスまたはオペランドサイズを変更し、メモリアドレスにおいて用いられるデフォルトセグメントをオーバライドし、または、一続きの動作を何回か繰返すようにプロセッサに命令するために用いられ得る。opcoadフィールド１０４にはもしあればプリフィックスバイト１０２が従い、opcoadフィールド１０４は１バイトまたは２バイトの長さであり得る。アドレスモード（ＭｏｄＲ／Ｍ）バイト１０６は使用されるレジスタおよびメモリアドレスモードを特定する。スケール−インデックス−ベース（ＳＩＢ）バイト１０８はスケール係数およびインデックス係数を用いる３２ビットのベース相対アドレシングにおいてのみ用いられる。ＳＩＢバイトのベースフィールドはどのレジスタがアドレス計算のための基底値を含むかを特定し、インデックスフィールドはどのレジスタがインデックス値を含むかを特定する。スケールフィールドは、インデックス値フィールドがどの変位とも共に基底値に付加される前にそれによって乗算される２の累乗を特定する。次の命令フィールドはオプションの変位フィールド１１０であり、これは１バイトから４バイトの長さであり得る。変位フィールド１１０はアドレス計算において用いられる定数を含む。オプションの即値フィールド１１２もまた１バイトから４バイトの長さであってもよく、命令オペランドとして用いられる定数を含む。最短のｘ８６命令はわずか１バイトの長さであり、単一のopcoadバイトを含む。８０２８６は命令のための最大長を１０バイトに設定するが、８０３８６および３０４８６は共に１５バイトまでの命令長を可能にする。ｘ８６命令セットが複雑であるために高性能なｘ８６互換スーパースカラマイクロプロセッサの実現が困難になる。難点の１つは、適切なデコードが実行され得るまでにこのようなプロセッサの並列接続命令デコーダに対して命令が整列させられなければならないという事実から生じる。ほとんどのＲＩＳＣ命令フォーマットとは対照的に、ｘ８６命令セットが可変バイト長の命令からなるので、１ライン内の連続的な命令の開始バイトが必ずしも等しく間隔をあけられず、１ライン当りの命令の数が固定されない。結果として、簡潔で固定した長さのシフトロジックの採用はそれ自体では命令整列の問題を解決できない。スキャンロジックがプロセッサの単数（複数）のデコードパイプライン段の間に命令の境界を動的およびシーケンシャルに求めるために提案されているが、このような解決法は一般に、プロセッサのデコードパイプライン段が、スキャン動作を行なうために比較的多数のカスケード接続された論理ゲートのレベルおよび／または数クロックサイクルの割当てを伴って実現されることを必要とする。ｘ８６互換スーパースカラマイクロプロセッサ内の命令整列およびデコードに対するさらなる解決法が、同時係属中であり、共通の譲受人に譲渡された特許出願、すなわち、ウイット他（witt et al.）により１９９３年１０月２９日に出願され、その開示全体が引用によりここに援用される連続番号第０８／１４６，３８３号「スーパースカラ命令デコーダ」(“Supersca1ar Instruction Decoder ”)内に説明されている。このような解決法は、命令が命令キャッシュ内にストアされるときに各可変バイト長命令のためのプリデコード情報が引出されるプリデコード技術を用いる。プリデコード情報は特に各命令の境界を示す。プロセッサのデコード段にディスパッチする前に、（バイトキューと称される）整列機構がシーケンシャルに各命令を配置する。命令を配置する際、整列機構は命令を「ＲＯＰ」と称される１以上の固定長のＲＩＳＣ的命令に変換する。次にこれら固定長のＲＯＰが割当てられた命令デコーダへと与えられる。後の命令も同様に扱われる。この解決法はかなり成功しているが、これもまた一般にカスケード接続された比論理ゲートの比較的多数のレベルおよび／またはパイプライン段を必要とする。これはしたがってスーパースカラマイクロプロセッサの最大の全体クロック周波数および性能を制限する。発明の概要上に概要を述べた問題はこの発明に従うスーパースカラマイクロプロセッサによって大部分が解決される。ある実施例においては、スーパースカラマイクロプロセッサは固定数のバイトを命令キャッシュから複数個のデコードユニットの各々に転送する命令整列ユニットを用いる。これらバイトは、プリデコードユニットによって発生されるプリデコードタグに従って、予め定められたバイトグループから選択される。プリデコードタグ（各バイトに異なる１つが関連付けられる）は予め定められたグループ内のどのバイトが命令のための開始バイトであるかを示す。ある具体的な実施例において、命令整列ユニットは８バイトの連続する命令コードの３つの異なったグループの中で開始バイトを同時に独立して検出する。命令コードの各グループ内で予め定められた数の開始バイトを独立して求めると、命令整列ユニットは開始バイトを各開始バイトに従う隣接した７バイトと共に各グループに関連したそれぞれの「仮の」発行チャネルへと独立して送る。仮の発行チャネルは次に上述の複数個のデコードユニットと結合される１組の「最終的な」発行チャネルへとシフトおよび／またはマージされる。別の実施例において、命令バイトのグループが１対の命令チャネリングユニットへと転送されるスーパースカラマイクロプロセッサが提供されろ。命令チャネリングユニットは独立して命令バイトから最大４バイトまでの開始バイトを選択し、選択された開始バイトと、開始バイトに隣接し、かつその後に続く多数のバイトとを仮の発行位置に配置する。２組の仮の発行位置を通してチャネリングされた命令バイトは次に、第１の命令チャネリングユニットの発行位置内に含まれる有効命令の数の表示と共に、第３の命令チャネリングユニットへと転送される。第２の命令チャネリングユニットによって転送された発行位置は次に、第１の命令チャネリングユニットによって表示された有効命令の数だけシフトされる。次に、最終的な発行位置が第１の命令チャネリングユニットからの発行位置において転送される対応する有効命令から選択される。残りの最終的な発行位置はいずれも第２のチャネリングユニットからのシフトされた組の発行位置の対応の発行位置から選択される。最終的な発行位置が１組のデコードユニットに結合され、これは命令をデコードし、それらを実行のために機能ユニットへとディスパッチする。別の実施例においては、命令整列ユニットが選択するバイト数は２４であり、その最後の８バイトは前にフェッチされた命令キャッシュラインのものであり、１６バイトは現在の命令キャッシュラインのものであるスーパースカラマイクロプロセッサが提供される。開始バイトがディスパッチのために選択されるとき、対応の開始ビットは無効にされる。この実施例において、１クロックサイクル当り４つまでの命令がディスパッチされ得る。前にフェッチされたキャッシュラインの最後の８バイトと現在のキャッシュラインの最初の８バイトとが有効開始バイトを含まない場合、現在のキャッシュラインが前にフェッチされた命令キャッシュライン位置へと移動され、次の命令キャッシュがフェッチされる。各８バイト部分が開始バイトを見つけるため独立して調べられ、見つけられた開始バイトおよびその後の７バイトが発行位置に割当てられる。第１のレベルの多重化がこれを達成するために実装される。３組の発行グループ（ここでは、前のキャッシュラインの最後の８バイトに対しては発行グループ１、現在のキャッシュラインの最初の８バイトに対しては発行グループ２と、現在のキャッシュラインの最後の８バイトに対しては発行グループ３と呼ぶ）が次に第２のレベルの多重化へと導かれる。このレベルで、発行グループ１に含まれる有効命令の数だけ発行グループ２をシフトすることによって発行グループ１および発行グループ２がマージされる。発行グループ３における命令もまたこのレベルでの発行グループ１内の有効命令の数だけシフトされる。マージおよびシフトされた発行グループは次に第３のレベルの多重化へと導かれる。前にシフトされた発行グループ３はさらに発行グループ２に含まれる有効命令の数だけシフトされる。二重にシフトされた発行グループ３は次に前にマージされた発行グループ１および２とマージされる。結果として生じる発行グループは命令デコードユニットへと転送され、転送された命令に対する対応の開始ビットがリセットされる。第３の多重化レベルにはＭＲＯＭユニットおよびプリデコードユニットからの入力も含まれる。この発明に従うスーパースカラマイクロプロセッサは命令整列ユニットを用いることができる。命令整列ユニットは、開始バイトを見つけるために同時にバイトのいくつかの小さいフィールドをスキャンし、次に、小さいフィールド内に見つけられた開始バイトの数だけ、見つけれた命令を独立してシフトすることによって、少数のカスケード接続されたゲートで実現され得る。計算値を組合せることは必要ではなく、実装がさらに速やかとなる。概して、この発明は、命令キャッシュと、複数個のデコードユニットと、第１、第２および第３の命令チャネリングユニットを含む命令整列ユニットとを用いるスーパースカラマイクロプロセッサを目指している。第１および第２の命令チャネリングユニットは入力ポートに結合される。入力ポートは命令キャッシュからの命令バイトの複数個のグループを含む。第１の命令チャネリングユニットは第１の複数個の命令バイトを選択し、第２の命令チャネリングユニットはディスパッチのために複数個のグループの命令から第２の複数個の命令バイトを選択する。第１の複数個の命令バイトは次に第３の命令チャネルリングユニットによって第２の複数個の命令バイトとマージされ、マージされた複数個の命令バイトを形成する。このマージされた複数個の命令バイトは次に出力ポートを介して複数個の命令デコードユニットへとディスパッチされる。図面の簡単な説明この発明の他の目的および利点は、以下の詳細な説明を読み、添付の図面を参照することによって明らかとなるであろう。図１は、一般的なｘ８６命令フォーマットのブロック図である。図２は、この発明に従う命令整列ユニットを含むスーパースカラマイクロプロセッサのブロック図である。図３Ａは、この発明に従う命令整列ユニットの１つの実施例のブロック図である。図３Ｂは、この発明に従う命令整列ユニットの別の実施例の図であり、第１のレベルの多重化への開始バイトの接続のみを示す。図４は、隣接した１５命令バイトと、１５命令バイトの組内の隣接した８バイトを選択するために必要な多重化接続とを示す図である。この発明はさまざまに変更され、代替的な形をとり得るが、その具体的な実施例は例としてのみ示され、ここに詳細に説明される。しかしながら、その図面および詳細な説明はこの発明を開示される特定の形態に限定せず、逆に、添付の請求項によって規定されるようなこの発明の趣旨および範疇内に含まれるすべての変更、均等物および代替例に及ぶことが理解されるべきである。発明の詳細な説明ここで図２を参照すると、この発明に従う命令整列ユニット２０６を含んだスーパースカラマイクロプロセッサ２００のブロック図が示される。図２の実施例に示すように、スーパースカラマイクロプロセッサ２００はプリフェッチ／プリデコードユニット２０２と命令キャッシュ２０４に結合された分岐予測ユニット２２０とを含む。命令整列ユニット２０６は命令キャッシュ２０４と（デコードユニット２０８と総称される）複数個のデコードユニット２０８Ａ−２０８Ｄとの間に結合される。デコードユニット２０８Ａ−２０８Ｄの各々は（リザベーションステーション２１０と総称される）それぞれのリザベーションステーションユニット２１０Ａ−２１０Ｄに結合され、リザベーションステーション２１０Ａ −２１０Ｄの各々は（機能ユニット２１２と総称される）それぞれの機能ユニット２１２Ａ−２１２Ｄに結合される。デコードユニット２０８、リザベーションステーション２１０および機能ユニット２１２はリオーダバッファ２１６、レジスタファイル２１８およびロード／ストアユニット２２２にさらに結合される。データキャッシュ２２４は最後にロード／ストアユニット２２２に結合されて示され、ＭＲＯＭユニット２０９は命令整列ユニット２０６に結合されて示される。概して、命令キャッシュ２０４はデコードユニット２０８へのディスパッチの前に命令を一時的にストアするために設けられる高速キャッシュメモリである。１つの実施例では、命令キャッシュ２０４が最大で３２キロバイトの、各々が１６バイトのラインで編成される（ここで各バイトは８ビットからなる）、命令コードをキャッシュするように構成される。動作の間、命令コードはメインメモリ（図示せず）からプリフェッチ／プリデコードユニット２０２を介してコードをプリフェッチすることによって命令キャッシュ２０４に与えられる。命令キャッシュ２０４がセットアソシアティブ構成、フルアソシアティブ構成またはダイレクトマップ構成に実現され得ることに注目されたい。プリフェッチ／プリデコードユニット２０２はメインメモリから命令コードをプリフェッチして命令キャッシュ２０４内にストアするために設けられる。１つの実施例では、プリフェッチ／プリデコードユニット２０２はメインメモリから命令キャッシュ２０４へと６４ビット幅のコードをバーストするように構成される。さまざまな具体的なコードプリフェッチ技術およびアルゴリズムがプリフェッチ／プリデコードユニット２０２によって用いられ得ることが理解される。プリフェッチ／プリデコードユニット２０２がメインメモリから命令をフェッチするとき、これは命令コードの各バイトに関連した３つのプリデコードビット、すなわち、開始ビット、終了ビットおよび「機能」ビットを発生する。プリデコードビットは各命令の境界を示すタグを形成する。以下により詳細に説明するように、プリデコードタグはまた、所与の命令がデコードユニット２０８によって直接的にデコードされ得るか、または命令がＭＲＯＭユニット２０９によって制御されるマイクロコード手順を起動することによって実行されなければならないかのような付加的な情報を伝えることができる。表１はプリデコードタグのエンコード一例を示ず。表に示すように、所与のバイトが命令の最初のバイトであれば、そのバイトの開始ビットがセットされる。そのバイトが命令の最後のバイトであれば、そのバイトの終了ビットがセットされる。ある特定の命令がデコードユニット２０８によって直接デコードできなければ、その命令の最初のビットに関連した機能ビットがセットされる。他方、その命令がデコードユニット２０８によって直接デコードできれば、その命令の最初のビットに関連した機能ビットがクリアされる。ある特定の命令の２番目のバイトのための機能ビットは、opcoadが第１のバイトである場合にクリアされ、op coadが第２のバイトである場合にセットされる。opcoadが第２のバイトである状況では最初のバイトがプリフィックスバイトであることに注目される。命令バイト番号３−８に対する機能ビット値は、そのバイトがＭＯＤＲＮバイトまたはＳＩＢバイトであるか、またはそのバイトが変位データまたは即値データを含むかを示す。表１開始ビット、終了ビットおよび機能ビットのエンコード上述のように、１つの実施例ではｘ８６命令セット内のある命令がデコードユニット２０８によって直接デコードされ得る。これらの命令は「ファストパス」命令と称される。ｘ８６命令セットの残りの命令は「ＭＲＯＭ命令」と称される。ＭＲＯＭ命令はＭＲＯＭユニット２０９を起動することによって実行される。より具体的には、ＭＲＯＭ命令に遭遇すると、ＭＲＯＭユニット２０９はその命令を規定されたファストパス命令のサブセットへと構文解析し、逐次化して所望の動作を実行する。ファストパス命令として分類される例示的なｘ８６命令の例と、ファストパス命令およびＭＲＯＭ命令の両方を扱う方法の説明とが以下に示される。可変バイト長命令を命令キャッシュ２０４からデコードユニット２０８Ａ−２０８Ｄによって形成される固定した発行位置へとチャネリングするために命令整列ユニット２０６が設けられている。図２−４に関連して説明するように、命令整列ユニット２０６は指定されたデコードユニット２０８Ａ−２０８Ｄに命令バイトをチャネリングするように構成される。命令整列ユニット２０６は独立してかつ並行して、命令キャッシュ２０４によって与えられる３つのグループの命令バイトから命令を選択し、これらのバイトを３つのグループの仮の発行位置へと配列する。発行位置の各グループは３つのグループの命令バイトの１つと関連付けられる。仮の発行位置は次に共にマージされて最終的な発行位置を形成し、その各々がデコードユニット２０８の１つに結合される。命令キャッシュ２０４からデコードユニット２０８への命令整列の詳細な説明を行なう前に、図２の例示的なスーパースカラマイクロプロセッサ２００内で用いられる他のサブシステムに関した一般的な局面を説明する。図２の実施例では、デコードユニット２０８の各々が上述の予め定められたファストパス命令をデコードするためのデコード回路を含む。さらに、各デコードユニット２０８Ａ− ２０８Ｄが変位データおよび即値データを対応のリザベーションステーションユニット２１０Ａ−２１０Ｄへと経路付ける。デコードユニット２０８からの出力信号は機能ユニット２１２のためのビット−エンコード実行命令と、オペランドアドレス情報と、即値データおよび／または変位データとを含む。図２のスーパースカラマイクロプロセッサは追越し実行を支持し、したがって、レジスタの読出動作および書込動作のためのもともとのプログラムシーケンスを守るために、レジスタのリネームを実現するために、投機的な命令実行および分岐予測の誤りからの回復を行なうために、そして正確な例外を容易にするために、リオーダバッファ２１６を含む。当業者には認識されるように、リオーダバッファ２１６内の一時的な記憶場所はレジスタの更新を含む命令のデコード時に予約されてそれによって投機的なレジスタの状態をストアする。リオーダバッファ２１６は先入れ先出し構成に実現でき、ここで、投機的な結果は有効にされレジスタファイルに書込まれるときバッファの「最後部」に移動し、こうしてバッファの「頭部」に新たなエントリのための余地を与える。リオーダバッファ２１６の他の具体的な構成も以下にさらに説明するように可能である。分岐予測が正確でなければ、予測誤り経路に沿う投機的に実行された命令の結果がレジスタファイル２１８に書込まれる前にバッファにおいて無効にされ得る。デコードユニット２０８Ａ−２０８Ｄの出力で与えられるビット−エンコード実行命令および即値データはそれぞれのリザベーションステーションユニット２１０Ａ−２１０Ｄへと直接経路付け（route）られる。１つの実施例では、各リザベーションステーションユニット２１０Ａ−２１０Ｄが、対応の機能ユニットへの発行を待つ３つまでの未決（pending）命令に対して命令情報（すなわち、ビットエンコード化実行ビットならびにオペランド値、オペランドタグおよび／または即値データ）を保持することができる。図２の実施例では、各デコードユニット２０８Ａ−２０８Ｄが専用のリザベーションステーションユニット２１０Ａ−２１０Ｄと関連付けられ、各リザベーションステーションユニット２１０Ａ −２１０Ｄが専用の機能ユニット２１２Ａ−２１２Ｄに同様に関連付けられることが注目される。したがって、４つの専用の「発行位置」がデコードユニット２０８、リザベーションステーションユニット２１０および機能ユニット２１２によって形成される。デコードユニット２０８Ａを介して整列させられ、発行位置０にディスパッチされた命令がリザベーションステーションユニット２１０Ａに送られ、続いて実行のために機能ユニット２１２Ａに送られる。同様に、デコードユニット２０８Ｂに整列させられ、ディスパッチされた命令がリザベーションステーションユニット２１０Ｂ、機能ユニット２１２Ｂに送られ、以下同様である。ある特定の命令のデコード時に、要求されたオペランドがレジスタ場所であればレジスタアドレス情報が同時にリオーダバッファ２１６およびレジスタファイル２１８へと経路付けられる。当業者はｘ８６レジスタファイルが８個の３２ビットリアルレジスタ（すなわち、典型的にはＥＡＸ、ＥＢＸ、ＥＣＸ、ＥＤＸ、ＥＢＰ、ＥＳＩ、ＥＤＩおよびＥＳＰと称される）を含むことを認識するであろう。リオーダバッファ２１６はこれらのレジスタの内容を変更する結果のための一時的な記憶場所を含み、それによって追越し実行を可能にする。リオーダバッファ２１６の一時的な記憶場所は各命令に対して予約されており、これはデコード時にリアルレジスタの１つの内容を変更する。したがって、特定のプログラムの実行中のさまざまな点で、リオーダバッファ２１６は所与のレジスタの投機的に実行された内容を含む１または２以上の場所を含み得る。所与の命令のデコードに続いて、リオーダバッファ２１６が所与の命令におけるオペランドとして用いられるレジスタに割当てられた前の単数または複数の場所を有すると判断されれば、リオーダバッファ２１６は対応のリザベーションステーションに、１）最も最近に割当てられた場所の値か、２）最終的に前の命令を実施する機能ユニットによって値がまだ生み出されていなければ最も最近に割当てられた場所のためのタグを送る。リオーダバッファが所与のレジスタのために予約された場所を有していれば、オペランド値（またはタグ）がレジスタファイル２１８ではなくリオーダバッファ２１６から与えられる。リオーダバッファ２１６に要求されるレジスタのために予約された場所がなければ、その値はレジスタファイル２１８から直接取出される。オペランドがメモリ場所に対応すれば、オペランド値がロード／ストアユニット２２２を介してリザベーションステーションユニットへと与えられる。適切なリオーダバッファの実現に関する詳細は、マイク・ジョンソン（Mike J ohnson）による出版物「スーパースカラマイクロプロセッサ設計」（“Supersca lar Microprocessor Design”)、Prentice-Hall,Englewood Cliffs，New Jersey ，1991と、同時係属中であり、共通に譲渡された特許出願、すなわち、ウイット他（ｗitt，etal.）によって１９９３年１０月２９日に出願された連続番号第０８／１４６，３８２号「高性能スーパースカラマイクロプロセッサ」（“High Performance Superscalar Microprocessor”）とに見られる。これらの文書は引用によりその全体をここに援用する。リザベーションステーションユニット２１０Ａ−２１０Ｄは対応の機能ユニット２１２Ａ−２１２Ｄによって投機的に実行されるべき命令情報を一時的にストアするために設けられる。上述のように、各リザベーションステーションユニット２１０Ａ−２１０Ｄが３つまでの未決命令について命令情報をストアできる。４つの命令ステーション２１０Ａ−２１０Ｄの各々が対応の機能ユニットによって投機的に実行されるべきビットエンコード化実行命令とオペランドの値とをストアするための場所を含む。特定のオペランドが利用可能でなければ、そのオペランドのためのタグがリオーダバッファ２１６から与えられ、結果が発生される（すなわち、前の命令の実行を完了することによって）まで対応のリザベーションステーション内にストアされる。命令が機能ユニット２１２Ａ−２１２Ｄの１つによって実行されるとき、その命令の結果がその結果を待っているリザベーションステーションユニット２１０Ａ−２１０Ｄへと直接渡され、同時にその結果がリオーダバッファ２１６を更新するために送られることに注目される（この技術は通常「結果フォワーディング」と称される）。命令は、いずれかの要求されるオペランドの値が利用可能とされた後に実行のために機能ユニットへと発行される。すなわち、リザベーションステーションユニット２１０Ａ−２１０Ｄの１つの中の未決命令と関連したオペランドが、要求されるオペランドを変更する命令に対応するリオーダバッファ２１６内の前の結果値の場所のタグを付けられていれば、前の命令のためのオペランド結果が得られるまで命令は対応の機能ユニット２１２に発行されない。したがって、命令が実行される順序は元のプログラム命令シーケンスの順序とは同じではないかもしれない。リオーダバッファ２１６は書込後読出の依存が起こる状況でデータの一貫性が維持されることを確実とする。１つの実施例では、機能ユニット２１２の各々が加算および減算の整数算術演算ならびにシフト、回転、論理演算および分岐演算を行なうように構成される。浮動小数点に対処するために浮動小数点ユニット（図示せず）も用いられ得ることに注目される。機能ユニット２１２の各々はまた条件付分岐命令の実行に関する情報を分岐予測ユニット２２０に与える。分岐予測が正確でなければ、分岐予測ユニット２２０は予測誤り分岐に後の命令処理パイプラインに入っている命令をフラッシュし、プリフェッチ／プリデコードユニット２０２に必要とされる命令を命令キャッシュ２０４またはメインメモリからフェッチさせる。このような状況では、投機的に実行され、ロード／ストアユニット２２２およびリオーダバッファ２１６に一時的に記憶されたものを含め、予測誤り分岐命令の後に生じる、元のプログラムシーケンスが廃棄されることに注目される。適切な分岐予測機構の例示的構成は周知である。機能ユニット２１２によって生じる結果は、レジスタ値が更新されていればリオーダバッファ２１６に送られ、メモリ場所の内容が変更されていればロード／ストアユニット２２２に送られる。結果がレジスタに記憶されるべきであれば、リオーダバッファ２１６は命令がデコードされたときのレジスタの値のために予約された場所に結果をストアする。上述のように、結果は、未決命令が要求されるオペランド値を得るために前の命令実行の結果を待っている場合、リザベーションステーションユニット２１０Ａ−２１０Ｄにブロードキャストされる。一般に、ロード／ストアユニット２２２は機能ユニット２１２Ａ−２１２Ｄとデータキャッシュ２２４との間にインターフェイスを与える。１つの実施例では、ロード／ストアユニット２２２は未決のロードまたはストアのためのデータおよびアドレス情報に対する８つの記憶場所を有するストアバッファを伴って構成される。機能ユニット２１２はロード／ストアユニット２２２へのアクセスの調停を行なう。バッファが一杯であれば（full）、機能ユニットはロード／ストアユニット２２２が未決のロードまたはストア要求情報のためのあきを有するようになるまで待たなければならない。ロード／ストアユニット２２２はまた未決のストア情報に対してロード命令のための依存性チェックを行なって、データの一貫性が保たれることを確実とする。データキャッシュ２２４は、ロード／ストアユニット２２２とメインメモリサブシステムとの間で転送されるデータを一時的にストアするために与えられる高速キャッシュメモリである。１つの実施例では、データキャッシュ２２４は８キロバイトまでのデータをストアする容量を有する。データキャッシュ２２４がセットアソシアティブ構成を含むさまざまな具体的メモリ構成で実現され得ることが理解される。命令キャッシュ２０４から命令整列ユニット２０６を介してデコードユニット２０８に至る命令のディスパッチに関する詳細を以下に検討する。図３Ａは、命令整列ユニット２０６の一実施例の内部とデコードユニット２０８への入力レジスタとを示すブロック図である。この実施例は（命令バイトバス２５０と総称される）２つの命令バイトバス２５０Ａおよび２５０Ｂを用いて構成される。命令バイトは命令キャッシュ２０４によって命令バイトバス２５０上に出力され、各命令バイトバスは８バイトを転送する。命令バイトバス２５０Ａは命令チャネリングユニット２５１に結合され、命令バイトバス２５０Ｂは命令チャネリングユニット２５２に結合される。図３Ａには、プリデコードタグバス２５４上の入力情報を受取り、制御出力バス２５６、２５７および２５８を有する制御ユニ２５５も示される。制御出力バス２５６は命令チャネリングユニット２５２に結合される。同様に、制御出力バス２５７は命令チャネリングユニット２５１に結合され、制御出力バス２５８は命令チャネリングユニット２５３に結合される。命令チャネリングユニット２５１は４つの仮の発行位置、すなわち、仮の発行位置Ａ、仮の発行位置Ｂ、仮の発行位置Ｃ、仮の発行位置Ｄを生じる。同様に、命令チャネリングユニット２５２は仮の発行位置Ａ'、仮の発行位置Ｂ'、発行位置Ｃ' および仮の発行位置Ｄ'を生じる。発行位置Ａ−ＤおよびＡ'−Ｄ'の各々は命令チャネリングユニット２５３に結合される。命令チャネリングユニット２５３は４つの最終的な発行位置２６７，２６８，２６９および２７０を生じ、これらはデコードユニット２０８Ａ、２０８Ｂ、２０８Ｃおよび２０８Ｄにそれぞれ結合される。この実施例では、仮の発行位置または最終的な発行位置が最大で１つの有効命令を伝え、有効命令を含む固定数のバイトを伝える。一般に、命令チャネリングユニット２５１および２５２は独立してかつ並行してそれぞれ命令バイトバス２５０Ａおよび２５０Ｂから命令を選択する。選択された命令は命令チャネリングユニット２５１および２５２に接続された仮の発行位置を占める。命令チャネリングユニット２５３は仮の発行位置Ａ−Ｄにおいて伝えられる命令数だけ仮の発行位置Ａ'−Ｄ'において伝えられる命令をシフトする。命令チャネリングユニット２５３は次に２組の仮の発行位置からの命令を最終的な発行位置２６７−２７０へとマージする。命令選択およびシフティングプロセスは以下の段落でより詳細に説明される。この実施例では、制御ユニット２５５が命令バイトバス２５０上で転送される命令バイトと関連した開始バイトビットを（バス２５４によって）受取る。制御ユニット２５５は命令バイトバス２５０Ａのために開始バイト情報をスキャンし、セットされた開始バイトを探す。開始バイトビットがセットされていると、命令バイトバス２５０Ａ上の対応のバイトが命令の始まりである。制御ユニット２５５は（制御出力バス２５７上の信号によって）、入力命令バイトバス２５０Ａ上の対応のバイトとそれに続く７バイトとを選択するように命令チャネリングユニット２５１に指示する。選択されたバイトが次の利用可能な仮の発行位置を占める。仮の発行位置Ａが最初に使われ、次に仮の発行位置Ｂが続き、以下同様である。制御ユニット２５５は、命令チャネリングユニット２５１の発行位置が占められるか命令バイトバス２５０Ａに関連した開始バイトビットがなくなるまで、命令バイトバス２５０Ａに関連した開始バイトビットをスキャンし続ける。同様に、並行して、制御ユニット２５５は命令バイトバス２５０Ｂに関連した開始バイトビットを処理し、制御出力バス２５６上で命令チャネリングユニット２５２へと発行位置選択情報を伝える。図３Ａの実施例では、命令バイトビット２５０Ａ上で転送される命令が命令バイトバス２５０Ｂ上で転送される命令よりも優先される。したがって、仮の発行位置Ａ−Ｄにおいて伝えられる有効命令が制御ユニット２５５の指示のもと命令チャネリングユニット２５３によって最終的な発行位置２６７−２７０へと向けられる。有効命令を伝えるとき、仮の発行位置Ａは発行位置２６７に向けられる。同様に、仮の発行位置Ｂは有効命令を伝えるときに発行位置２６８に向けられ、以下同様である。さらに、命令チャネリングユニット２５３は命令チャネリングユニット２５１によって選択される有効命令の数（すなわち、発行位置Ａ−Ｄにおいて伝えられる有効命令の数）だけ仮の発行位置Ａ'−Ｄ'をシフトする。その後、シフトされた仮の発行位置は仮の発行位置Ａ−Ｄからの命令で占められていなかったこれらの最終的な発行位置２６７−２７０を占める。したがって、デコードユニット２０８は命令バイトバス２５０内で配置され得る最大数の命令（４まで）を受取る。この実施例の動作を例を用いてさらに説明する。命令バイトバス２５０Ａがあるクロックサイクルで２つの有効命令を転送し、命令バイトバス２５０Ｂもまた同じクロックサイクルで２つの有効命令を転送すると仮定する。制御ユニット２５５の指示の下、命令チャネリングユニット２５１は命令バイトバス２５０Ａから最初の開始バイトとそれに続く７バイトとを選択し、選択されたバイトを仮の発行位置Ａに与える。制御ユニット２５５は次に命令バイトバス２５０Ａの第２の開始バイトを検出し、第２の開始バイトとそれに続く７バイトとが仮の発行位置Ｂを占めるように命令チャネリングユニット２５１に指示を出す。独立してかつ上と並行して、制御ユニット２５５が命令バイトバス２５０Ｂ上に与えられた命令バイトと関連した開始バイトビットをスキャンし、第１の開始バイトを検出する。検出された開始バイトとそれに続く７バイトとが仮の発行位置Ａ'を占める。スキャンプロセスを続け、制御ユニット２５５は命令バイトバス２５０Ｂ上で伝えられる第２の開始バイトを検出する。第２の開始バイトとそれに続く７バイトとが命令チャネリングユニット２５２によって仮の発行位置Ｂ'へと選択される。なお制御ユニット２５５のスキャン機構もまた仮の発行位置Ｃ'およびＤ' に送られる命令バイトバス２５０Ｂ上の後の命令を見つけることができる。しかしながら、上から明らかであるように、発行位置Ｃ'およびＤ'は命令チャネリングユニット２５３によって実質的に無視されるであろう。次に、制御ユニット２５５は制御出力２５８によって命令チャネリングユニット２５３に指示する。２つの有効命令が仮の発行位置Ａ−Ｂに存在するので、仮の発行位置Ａおよび仮の発行位置Ｂがそれぞれ最終的な発行位置２６７および２６８を占める。また、２つの有効命令が命令チャネリングユニット２５１において選択されたので、仮の発行位置Ａ'−Ｄ'が２つ分位置をシフトされる。このシフトによって、発行位置Ａ'において伝えられる命令が最終的な発行位置２６９と整列させられる。同様に、発行位置Ｂ'が最終的な発行位置２７０と整列させられる。したがって、もともとは仮の発行位置Ａ'およびＢ'におけるものである２つの有効命令がそれぞれ発行位置２６９および２７０を占めろ。デコードユニット２０８の各々がこのサイクルで命令を受取る。別の実施例では、命令チャネリングユニット２５１および２５２の出力で１つの仮の発行位置を占めるように選択されたバイトが別の仮の発行位置を占めるように選択されたバイトと重複する。仮の発行位置または最終的な発行位置を占めるバイト数は固定されており、いくつかの命令は発行位置内のバイト数全部を占めることができないかも知れない。したがって、後続の命令の開始バイトと恐らくは他のバイトとが現在の命令位置内のバイト位置を占める。デコードユニット２０８の各々がデコードユニットに転送された命令と関連した開始バイトおよび終了バイトビットを受取る。デコードユニット２０８は転送されたどのバイトが完全な有効命令を含むかを判断するために開始バイトビットおよび終了バイトビットを検出する。他の実施例では、異なった数の発行位置およびデコードユニットを用いることができることは言うまでもない。図３Ａと関連して説明される実施例は少数のカスケード接続された論理レベルで実現でき、したがってこの実施例は高速で動作が可能となる。この実施例はさまざまな理由のため少数のカスケード接続された論理レベルで実現できる。第１に、命令バイトバス２５０上を転送される多数の命令が互いに独立した小さいグループごとに処理される。この多数の命令と関連した開始ビット情報中を線形的にスキャンする代わりに小さいグループが並行に処理され得る。第２に、小さいグループがそのうちの１つで見つけられた有効命令の数に基づいて共に組合せられる（この実施例では命令バイトバス２５０Ａ）。ここで図３Ｂを参照すると、命令整列ユニット２０６の別の実施例が示される。この実施例の命令チャネリングユニットはマルチプレクサを含み、マルチプレクサ制御バス３１１、３１２および３１３を介して出力制御ユニット３０２によって制御される。（ここでは命令バイトバス３００と総称される）３つの命令バイトバス３００Ａ、３００Ｂおよび３００Ｃがさらに示される。命令バイトバス３００Ａは「前に」フェッチされた命令キャッシュラインから最後の８命令バイトバスを伝える。入力命令バイトバス３００Ｂは「最も最近の」命令キャッシュラインの最初の８バイトを伝え、命令バイトバス３００Ｃは「最も最近の」命令キャッシュラインの最後の８バイトを伝える。前にフェッチされたキャッシュの最後の８バイトと最も最近のキャッシュラインの最初の８バイトとからの命令がデコードユニット２０８に転送されると、最も最近のキャッシュラインの最後の８バイトが前にフェッチされた命令キャッシュラインの最後の８バイトへと（すなわち、命令バイトバス３００Ａへと）移動され、新しいキャッシュラインがフェッチされる（そして、命令バイトバス３００Ｂおよび３００Ｃ上を伝えられる）。図３Ｂを参照すると、入力命令バイトバス３００と第１のレベルのマルチプレクサ３０１Ａ、３０１Ｂ、３０１Ｃ、３０１Ｄ、３０４Ａ、３０４Ｂ、３０４Ｃ、３０４Ｄ、３０５Ａ、３０５Ｂ、３０５Ｃおよび３０５Ｄ（それぞれマルチプレクサ３０１，３０４および３０５と総称される）との間の信号経路が示される。２つの第１のレベルの命令チャネリングユニットを有する前の実施例に対して、この実施例はそれぞれマルチプレクサ３０１，３０４および３０５によって表わされるように３つの第１レベルの命令チャネリングユニットを有する。第１のレベルの命令チャネリングユニットはそれらと関連した発行位置１Ａ−１Ｄ、１Ａ'−１Ｄ'、および１Ａ"−１Ｄ"を有する。図３Ｂはまた第１のレベルのマルチプレクサ３０１，３０４および３０５と第２のレベルのマルチプレクサ３０６Ａ、３０６Ｂ、３０６Ｃ、３０６Ｄ、３０７Ａ、３０７Ｂ、３０７Ｃおよび３０７Ｄ（それぞれマルチプレクサ３０６および３０７とここで総称される）との間の信号経路を示す。マルチプレクサ３０６および３０７は２つの第２のレベルの命令チャネリングユニットを形成する。第２のレベルの命令チャネリングユニットはそれらと関連した発行位置２Ａ−２Ｄおよび２Ａ’−２Ｄ’を有する。最後に、第２のレベルのマルチプレクサ３０６および３０７と第３のレベルのマルチプレクサ３０８Ａ、３０８Ｂ、３０８Ｃおよび３０８Ｄ（マルチプレクサ３０８とここで総称される）との間の信号経路が示される。マルチプレクサ３０８は第３のレベルの命令チャネリングユニットを形成する。第３のレベルの命令チャネリングユニットがそれと関連した発行位置３Ａ−３Ｄを有する。大まかに言うと、マルチプレクサ３０１、３０４および３０５によって形成された第１のレベルの命令チャネリングユニットの各々は、関連したそれらの命令バイトバス３００Ａ−３００Ｃから個別にかつ並行して命令を選択し、発行位置１Ａ−１Ｄ、ＩＡ’−１Ｄ’および１Ａ”−１Ｄ”にそれぞれ送る。マルチプレクサ３０６および３０７によって形成された第２のレベルの命令チャネリングユニットは、発行位置１Ａ−１Ｄ内の有効命令の数だけ発行位置１Ａ’−１Ｄ’および１Ａ”−１Ｄ”をそれぞれシフトする。さらに、マルチブレクサ３０６は、発行位置１Ａ−１Ｄと、発行位置１Ａ’−１Ｄ’に関連したシフトされた発行位置とをマージする。マルチプレクサ３０８によって形成された第３のレベルの命令チャネリングユニットは、発行位置１Ａ’−１Ｄ’における命令数だけ発行位置２Ａ’−２Ｄ’をシフトする。マルチプレクサ３０８はさらに、発行位置２Ａ −２Ｄと、発行位置２Ａ’−２Ｄ’に関連したシフトされた発行位置とをマージする。次に、この実施例をさらに完全に説明する。図３Ｂには開始バイトを多重化するための信号経路しか示されていない。しかしながら、第１のレベルのマルチプレクサの出力上のスラッシュで示されるように、各マルチプレクサによって複数バイトが選択される。所与のマルチプレクサに対して選択される他のバイトの多重化を以下に図４に関して記載する。第１のレベルのマルチプレクサは、それらが結合された命令バイトバス３００に従ってグループ化される。したがって、マルチプレクサ３０１は命令バイトバス３００Ａに結合され、マルチプレクサ３０４は命令バイトバス３００Ｂに結合され、マルチプレクサ３０５は命令バイトバス３００Ｃに結合される。１つの実施例において、マルチプレクサ３０１Ａは命令バイトバス３００Ａの８つの命令バイトに結合される。これにより、命令バイトバス３００Ａ内に伝えられたすべてのバイトから開始バイトが選択できるようになる。マルチプレクサ３０１Ｂは、最初のバイトを除く、命令バイトバス３００Ａのバイトの各々に結合される。マルチプレクサ３０１Ｂは最初のバイトに結合される必要はなく、そのバイトが開始バイトであれば、それはマルチプレクサ３０１Ａによって選択されることとなる。同様に、マルチプレクサ３０１Ｃは最初の２つのバイトに結合される必要はない。両方のバイトが開始バイトである場合、第１のバイトはマルチプレクサ３０１Ａによって選択され、第２のバイトはマルチプレクサ３０１Ｂによって選択されることとなる。最後に、マルチプレクサ３０１Ｄは、最初の３バイトを除く、命令バイトバス３００Ａのバイトの各々に結合して示される。したがって、マルチプレクサ３０１Ａ、３０１Ｂ、３０１Ｃおよび３０１Ｄと、命令バイトバス３００Ａからの対応する信号経路との組合せにより、４つまでの開始バイトが命令バス３００Ａから選択できるようになる。図３Ｂにさらに示されるように、命令バイトバス３００Ａからマルチプレクサ３０１までに描かれる。同様の信号経路が入力命令バイトバス３００Ｂとマルチプレクサ３０４との間に示される。これらのマルチプレクサはマルチプレクサ３０１に似た構成であり、マルチプレクサ３０４Ａは３０１Ａに似ており、３０４Ｂは３０１Ｂに似ており、３０４Ｃは３０１Ｃに似ており、３０４Ｄは３０１Ｄに似ている。また、マルチプレクサ３０４の動作はマルチプレクサ３０１の動作からは独立しており、かつそれと並行して行なわれる。命令バイトバス３００Ｃとマルチプレクサ３０５との間の信号経路も、命令バイトバス３００Ａとマルチプレクサ３０１との間のものに似ている。制御ユニット３０２はマルチプレクサ制御バス３１１を介してマルチプレクサ３０１、３０４および３０５に結合される。制御ユニット３０２はプリデコードタグ入力ポート３００をさらに備えた構成である。入力ポート３００は制御ユニット３０２が使用する情報を伝え、命令バイトバス３００からの命令バイトをマルチプレクサ３０１、３０４および３０５が選択するようにする。１つの実施例において、入力ポート３０３に伝えられた情報は、命令バイトバス３００に与えられたバイトに関連した開始バイトビットを含む。開始バイト情報は制御ユニット３０２によってスキャンされ、マルチプレクサ制御バス３１１に伝えられる信号を生成するために用いられる。命令バイトバス３００Ａ上に伝えられる命令バイトに関連した開始バイトビットをスキャンすることにより検出された第１の開始バイトが、その後に続く７バイトとともにマルチプレクサ３０１Ａによって選択される。マルチプレクサ３０１Ａによって選択されたバイトは、必要に応じて、命令バイトバス３００Ｂで伝えられた命令バイトにまで食い込むこともある。同様に、検出された第２の開始バイトは、後に続く７バイトとともにマルチプレクサ３０１Ｂによって選択される。ここでもまた、マルチプレクサ３０１Ｂによって選択されたバイトは、必要に応じて、命令バイトバス３００Ｂで伝えられた命令バイトまでに食い込むことがある。制御ユニット３０２は、４つの開始バイトが検出されるか、または命令バイトバス３００Ａに伝えられた命令バイトに関連した開始バイトビットがなくなるまでスキャンを続ける。制御ユニット３０２は、前述のスキャンと並行して、かつそれからは独立して、命令バイトバス３００Ｂに伝えられた命令バイトに関連した開始バイトビットと、命令バイトバス３００Ｃに伝えられた命令バイトに関連した開始バイトビットとをスキャンする。その後、それぞれマルチプレクサ３０４および３０５を用いて命令バイトバス３００Ｂおよび命令バイトバス３００Ｃからバイトを選択する類似した手順が行なわれる。先に規定した発行位置を用いて、第２のレベルのマルチプレクサ３０６および３０７の機能を説明することができる。大まかに言えば、マルチプレクサ３０６は、制御ユニット３０２の指示下で発行位置１Ａ−１Ｄと発行位置１Ａ’−１Ｄ ’とをマージして、発行位置２Ａ−２Ｄを形成するように構成される。マージ機能は、発行位置１Ａ−１Ｄにおける有効命令数だけ発行位置１Ａ’−１Ｄ’をシフトし、発行位置２Ａ−２Ｄを発行位置１Ａ−１Ｄからの任意の有効命令で埋め、発行位置１Ａ’−１Ｄ’からもたらされたシフトされた発行命令によって残りの発行位置２Ａ−２Ｄを埋めることによって行なわれる。マルチプレクサ３０７は制御ユニット３０２の指示下で発行位置１Ａ−１Ｄにおける有効命令の数だけ発行位置１Ａ”−１Ｄ”をシフトし、それにより発行位置２Ａ’−２Ｄ’を埋める。ここで述べたとおり、マルチプレクサ３０６および３０７に対するマルチプレクサ制御バス３１２は発行位置１Ａ−１Ｄにおける有効命令数に依存する。マルチプレクサ３０８は、制御ユニット３０２の指示下で発行位置２Ａ−２Ｄと２Ａ’−２Ｄ’とをマージして発行位置３Ａ−３Ｄにするように構成される。マルチプレクサ３０８によって行なわれるマージ機能は、発行位置１Ａ’−１Ｄ ’における有効命令数だけ発行位置２Ａ’−２Ｄ’をシフトし、発行位置２Ａ− ２Ｄにおける任意の有効命令によって発行位置３Ａ−３Ｄを埋め、発行位置２Ａ ’−２Ｄ’からもたらされたシフトされた発行位置によって残りの発行位置３Ａ −３Ｄを埋めることによって行なわれる。発行位置３Ａ−３Ｄに含まれる命令はデコードユニット２０８に転送される。デコードユニット２０８に転送された命令に対応する開始バイトビットがリセットされ、これによりさらなる命令を次のサイクルにおいて処理することができる。別の実施例において、テークンと予測された分岐命令に続く命令の開始ビットが分岐予測ユニット２２０によってリセットされる。このため、１つの場合においては（命令がデコードユニット２０８にディスパッチ済のため）命令バイトバス３００Ａに伝えられた命令バイトに関連した開始ビットがリセットされ、（命令バイトバス３００Ｂに伝えられた命令バイトが、テークンと予測された分岐命令を含むため）命令バイトバス３００Ｃに伝えられた命令バイトに関連した開始ビットがリセットされる。この場合、命令バイトバス３００Ｂに伝えられた命令バイトは命令バイトバス３００Ａまで移動され、新しいキャッシュラインが、予測された分岐命令のターゲットからフェッチされる。１つの実施例において、マルチプレクサ３０８はプリデコードユニット２０２およびＭＲＯＭユニット２０９からの入力をさらに有する。プリデコードユニット２０２からの入力は図３Ｂに３０９として示される。ＭＲＯＭユニット２０９からの入力は図３Ｂに３１０として示される。ＭＲＯＭ入力３１０は、ＭＲＯＭユニット２０９によってＭＲＯＭ命令をデコードユニット２０８に転送することができるようにするために用いられる。プリデコード入力３０９は、命令キャッシュ２０４において命令フェッチのミスが発生した場合に用いられる。この場合、命令はメインメモリから読出され、（１つのクロックサイクルにつき１つの命令が）プリデコードユニット２０２によってプリデコードされる。マイクロプロセッサ２００は、命令キャッシュラインがプリデコードを終え、命令キャッシュにストアされるまで待機するのではなく、プリデコード入力３０９を用いてプリデコード命令をデコードユニット２０８に経路付ける。有効命令は、任意のグループの発行命令内で、Ａで示される位置が最初に埋められ、次にＢで示される位置が埋められるという具合になるような態様で発行位置を埋める。たとえば、発行位置１Ｂは発行位置１Ａが有効命令を含まないならば有効命令を含まない。さらに、発行位置２Ｂ’は発行位置２Ａ’が有効命令を含まないならば有効命令を含まない。一例によって、マルチプレクサ３０６、３０７および３０８によって行なわれるマージおよびシフト動作をさらに明らかにする。この例では、発行位置１Ａおよび１Ｂは有効命令を伝え、発行位置１Ｃおよび１Ｄは有効命令を伝えない。さらに、発行位置１Ａ’は有効命令を伝え、発行位置１Ｂ’，１Ｃ’および１Ｄ’ は有効命令を伝えない。最後に、発行位置１Ａ”は有効命令を伝え、発行位置１Ｂ”、１Ｃ”および１Ｄ”は有効命令を伝えない。この例において、発行位置１Ａ’−１Ｄ’および１Ａ”−１Ｄ”は、発行位置１Ａ−１Ｄにおける有効命令数である２だけシフトされる。発行位置１Ａ’−１Ｄ’および１Ａ”−１Ｄ”に対するシフトはそれぞれマルチブレクサ３０６および３０７によって行なわれる。したがって、制御ユニット３０２は、マルチプレクサ制御バス３１２を介して、マルチブレクサ３０６Ａがマルチプレクサ３０１Ａ（発行位置１Ａ）からのバイトを選択し、マルチプレクサ３０６Ｂがマルチプレクサ３０１Ｂ（発行位置１Ｂ）からのバイトを選択し、かつマルチプレクサ３０６Ｃがマルチプレクサ３０４Ａ（発行位置１Ａ’）からのバイトを選択するようにする。マルチプレクサ３０６Ｄはこの例では有効命令を選択しない。こうして、発行位置１Ａ−１Ｄおよび１Ａ’−１Ｄ’がマージされる。発行位置２Ａ− ２Ｄには３つの有効命令が存在する。さらに、制御ユニット３０２はマルチプレクサ３０７Ａ、３０７Ｂおよび３０７Ｄが有効命令を選択しないようにする。制御ユニット３０２はマルチプレクサ３０７Ｃがマルチプレクサ３０５Ａ（発行位置１Ａ”）からのバイトを選択するようにする。この態様で、発行位置２Ａ’− ２Ｄ’は、発行位置１Ａ−１Ｄにおける有効命令数だけシフトされた発行位置１Ａ”−１Ｄ”を含む。例を続けると、制御ユニット３０２はさらに、マルチプレクサ３０８Ａ、３０８Ｂ、３０８Ｃおよび３０８Ｄがそれぞれマルチプレクサ３０６Ａ（発行位置２Ａ）、３０６Ｂ（発行位置２Ｂ）、３０６Ｃ（発行位置２Ｃ）および３０７Ｃ（発行位置２Ｃ’）からのバイトを選択するようにする。この態様で、発行位置２Ａ’−２Ｄ’は、発行位置１Ａ’−１Ｄ’における有効命令数だけ（すなわち１だけ）シフトされる。最後の組のデコード位置３Ａ−３Ｄがもたらされている。この例からわかるように、異なった３組の命令バイトからの４つの有効命令がこのサイクルのデコードのために選択された。有利なことに、４つのデコード位置が用いられた。さまざまなマルチプレクサ３０１、３０４および３０５によって選択されたバイトは重複し得ることに留意されたい。たとえば、マルチプレクサ３０１Ａは制御ユニット３０２によって、命令バイトバス３００Ａで伝えられる８バイトを選択するようにされてもよい。しかしながら、命令バイトバス３００Ａの第２のバイトが開始バイトであることもあり得る。この場合、制御ユニット３０２は、マルチプレクサ３０１Ｂが命令バイトバス３００Ａの第２バイトから第８バイトまでと、命令バイトバス３００Ｂの第１のバイトとを選択するようにする。したがって、命令バイトバス３００Ａの第２バイトから第８バイトまではマルチプレクサ３０１Ａおよび３０１Ｂの両方によって選択される。開始バイトおよび終了バイト情報がデコードユニット２０８に伝えられ、これによりそれらは受取られた８つのバイトのうちいずれが命令を表わすかを決定し得る。開始バイトと終了バイトとの間（両端を含む）に含まれるバイトは、選択されたバイトを受取るデコードユニットよってデコードされることとなる。デコードユニット２０８によって開始バイトおよび／または終了バイトが検出されない場合、バイトはプリデコードユニット２０２（図２）まで転送されて戻され、プリデコードされる。先に規定した機能ビットが当該命令がＭＲＯＭ命令であることを示す場合、このバイトはＭＲＯＭユニット２０９（図２）に転送されてさらに処理される。シフトの効果は、入力がマルチプレクサのグループに結合される態様と、マルチプレクサ制御バスに伝えられる選択信号が発生する態様とによってもたらされることに留意されたい。たとえば、図３Ｂに示されるようなマルチプレクサ３０６Ｂを想定する。マルチプレクサ３０６Ｂは３つの入力、すなわちマルチプレクサ３０１Ｂ、３０４Ａおよび３０４Ｂの出力を有する構成である。したがって、マルチプレクサ３０６Ｂは発行位置１Ｂと、１Ａ’と１Ｂ’から選択する。発行位置１Ａ−１Ｄにおいて１つの命令が有効である場合、マルチプレクサ３０６Ｂは発行位置１Ａ’を選択するようにされる。したがって、マルチプレクサ３０４の第１の発行位置はマルチプレクサ３０６の第２の発行位置までシフトされている。図３Ｂの実施例はまず、命令バイトバス３００Ａから有効命令を選択し、次に命令バイトバス３００Ｂから選択し、最後に命令バイトバス３００Ｃから選択して最後の発行位置３Ａ−３Ｄに送る。この方法論が採用されたのは、入力命令バイトバス３００Ａが最も古い未決命令を含むために、新しい命令をデコード機構が認識できるようになるようにこれらの命令を最初にデコードする（かつ後に実行する）ことが一般的に有利だからである。他の実施例において、入力命令バイトバス３００は異なった構成を有してもよく、命令を選択するために種々の機構が採用され得る。入力命令バイトのグループの数およびサイズは実施例によっても異なるが、必ずしも命令キャッシュラインに関連することは必ずしもない。実際に、入力命令バイトバス３００には、関係のないグループの命令バイトを与えてもよい。他の実施例では、異なった数の命令チャネリングユニットが設けられてもよいことを理解されたい。さらに、命令バイトバスから選択された開始バイト数（および命令数）が実施例によって異なり得ることを理解されたい。次に図４を参照して、命令バイトバス３００（図４）からの１組の隣接したバイトをデコードユニットに転送する信号経路が示される。上述のとおり、図３Ｂには開始バイト信号経路のみが示された。図３Ｂの場合と同様に、図４には３つのレベルのマルチプレクサが示される。第１のレベルのマルチプレクサ４００Ａ、４００Ｂ、４００Ｃ、４００Ｄ、４００Ｅ、４００Ｆ、４００Ｇおよび４００Ｈ（ここで包括的にマルチプレクサ４００と呼ぶ）が１組の連続した命令バイト４０１に結合される。命令バイト４０１は命令バス３００上で発生する。マルチプレクサ制御バス４０２（制御バス３１１のサブセット）はマルチプレクサ４００に結合される。マルチプレクサ４００Ａにおいて開始バイトが選択され、マルチプレクサ４００Ｂにおいて隣接した次のバイトが選択されるという具合に続く。たとえば、命令バイト１が開始バイトであれば、命令バイト１がマルチプレクサ４００Ａによって選択され、命令バイト２がマルチプレクサ４００Ｂによって選択されるという具合に続く。図４には、第２のレベルのマルチプレクサがマルチプレクサ４０３Ａ、４０３Ｂ、４０３Ｃ、４０３Ｄ、４０３Ｅ、４０３Ｆ、４０３Ｇおよび４０３Ｈ（ここで包括的にマルチプレクサ４０３と呼ぶ）として示される。マルチプレクサ４０３にはマルチプレクサ４００の出力が入力として結合される。さらに、マルチプレクサ４０３の入力として入力４０５が結合される。入力４０５はマルチプレクサ４００に似たマルチプレクサ回路（図示せず）に結合され、これらは制御バス４０２と似ているが、異なったバイトを命令バス３００から選択する種々の制御バスに結合される。たとえば、このような選択制御は、制御バス４０２で発生する開始バイトビットとは異なった開始バイトビットを見出すことによりもたらすことができる。マルチプレクサ４０３はマルチプレクサ制御バス４０４にさらに結合され、これは図３Ｂに示される制御バス３１２のサブセットである。マルチプレクサ４０３の出力は入力として４０７Ａ、４０７Ｂ、４０７Ｃ、４０７Ｄ、４０７Ｅ、４０７Ｆ、４０７Ｇおよび４０７Ｈ（ここでは包括的にマルチプレクサ４０７と呼ぶ）に結合される。マルチプレクサ４０７への入力として入力４０８がさらに結合される。入力４０８は、（制御バス４０４に似た種々の制御バスに結合された）マルチプレクサ４０３に似たマルチブレクサ回路（図示せず）に結合される。１つの実施例において、入力４０８はＭＲＯＭユニット２０９（図２）からのＭＲＯＭ入力と、プリデコードユニット２０２（図２）からの入力とをさらに含む。マルチプレクサ４０７にはマルチプレクサ制御バス４０６がさらに結合され、これは図３Ｂに示される制御バス３１３のサブセットである。マルチプレクサ４０７の出力はデコードユニット２０８のうちの１つの入力バイトに結合される。以上の説明により、高性能の命令整列ユニットを開示した。命令整列ユニットは独立した多数のスキャンおよびシフトユニット（命令チャネリングユニット）を採用して、命令を選択してディスパッチするようにする。ここに記載した方法および装置によりカスケード接続された少数のレベルの論理ゲートでの実装が可能になり、このユニットを高速設計において特に有用とする。さらに、命令整列ユニットは、実行すべき命令に関する広範囲のバイトをスキャンすることにより高性能を達成する。前掲の開示が十分に認められると当業者には多くの変形および修正が明らかとなるであろう。以下のクレームはこのような変形および修正のすべてを包含するものと解されるように意図される。

【手続補正書】【提出日】平成１１年１月２６日（１９９９．１．２６）【補正内容】（１）明細書第３頁第４行から第８行までの「同時係属中であり、共通の譲受人に譲渡された特許出願、すなわち、ウィット他(Witt et al.)により１９９３年１０月２９日に出願され、その開示全体が引用によりここに援用される連続番号第０８／１４６，３８３号「スーパースカラ命令デコーダ（“Superscalar Instruction Decoder”）」を「発明者らの同時係属中のＥＰ−Ａ−０６５１３２０「スーパースカラ命令デコーダ」(““Superscalar Instruction Decoder ”)」に補正する。（２）明細書第３頁第１８行と第１９行の間に下記の文章を挿入する。記ＧＢ−Ａ−２２６３９８７には、可変長さであり、命令間の区別なしに命令ストリーム内にシーケンシャルに現れる命令の長さを決定するための装置を説明しており、その装置は各命令の長さがその点で終了することを示すための終了ビットを与える。第１のチャネルはシーケンス内の第１の命令を処理し、第２のチャネルは第１の命令に続く命令を処理し、命令の終了ビットはその命令の終了点と次の命令の始まりとを命令ストリームから決定するために第１のチャネルによって処理される。（３）明細書第３頁第２０行から第４頁第５行までを下記のように補正する。記上に概要を述べた問題はこの発明に従うスーパースカラマイクロプロセッサによって大部分が解決される。この発明は、命令キャッシュから複数個のデコードユニットへと命令を転送するための命令整列ユニットであって、複数グループの命令バイトを転送するように構成された入力ポートと、前記入力ポートに結合された第１の命令チャネリングユニットとを含み、前記第１の命令チャネリングユニットは、前記入力ポートによって転送される第１の前記複数グループの命令バイトから第１の複数個の命令バイトを選択し、転送するように構成され、第１の複数個の命令バイトは開始バイトと固定数の連続バイトとを含み、さらに、前記入力ポートに結合された第２の命令チャネリングユニットを含み、前記第２の命令チャネリングユニットは、前記入力ポートによって転送される第２の前記複数グループの命令バイトから第２の複数個の命令バイトを選択し、転送するように構成され、第２の命令チャネリングユニットは第１の命令チャネリングによる第１の複数個の命令バイトの選択および転送と並行して第２の複数個の命令バイトを選択し、転送し、第２の複数個の命令バイトは開始バイトと固定数の連続バイトとを含み、さらに、前記第１の命令チャネリングユニットおよび前記第２の命令チャネリングユニットに結合された第３の命令チャネリングユニットを含み、前記第３の命令チャネリングユニットは前記第１の複数個の命令バイトと前記第２の複数個の命令バイトとをマージされた複数個の命令バイトへとマージするように構成され、さらに、前記第３の命令チャネリングユニットに結合された出力ポートを含み、前記出力ポートは前記複数個のデコードユニットに複数個の命令バイトを転送するように構成される、命令整列ユニットを提供する。この発明はまた、複数グループの命令バイトから可変長命令を選択するための方法であって、前記複数グループの命令の１つから開始バイトと固定数の連続バイトとを含む第１の複数個の命令バイトを選択するステップと、前記複数グループの命令の別のものから開始バイトと固定数の連続バイトとを含む第２の複数個の命令バイトを選択するステップとを含み、第２の複数個の命令バイトは第１の複数個の命令バイトの選択と並行して選択され、前記方法は、前記第２の複数個の命令バイトを前記第１の複数個の命令バイトにおけるバイト数だけシフトし、それによってシフトされた複数個の命令バイトを生じるステップと、前記第１の複数個の命令バイトを前記シフトされた複数個の命令バイトとマージし、それによってマージされた複数個の命令バイトを生じるステップとを含み、前記マージするステップは、前記シフトされた複数個の命令バイトが前記マージされた複数個の命令バイト内で前記第１の複数個の命令バイトに続くように行なわれることを特徴とする、方法を提供する。ある実施例において、スーパースカラマイクロプロセッサは固定数のバイトを命令キャッシュから複数個のデコードユニットの各々に転送する命令整列ユニットを用いる。これらバイトは、プリデコードユニットによって発生されるプリデコードタグに従って、予め定められたバイトグループから選択される。プリデコードタグ（各バイトに異なる１つが関連付けられる）は予め定められたグループ内のどのバイトが命令のための開始バイトであるかを示す。ある具体的な実施例において、命令整列ユニットは８バイトの連続する命令コードの３つの異なったグループの中で開始バイトを同時に独立して検出する。命令コードの各グループ内で予め定められた数の開始バイトを独立して求めると、命令整列ユニットは開始バイトを各開始バイトに従う連続した７バイトとともに各グループに関連したそれぞれの「仮の」発行チャネルへと独立して送る。仮の発行チャネルは次に上述の複数個のデコードユニットと結合される１組の「最終的な」発行チャネルへとシフトおよび／またはマージされる。（４）請求の範囲を別紙のとおり補正する。請求の範囲１．命令キャッシュからの命令を複数のデコードユニットに転送するための命令整列ユニットであって、複数のグループの命令バイトを転送するように構成された入力ポートと、前記入力ポートに結合された第１の命令チャネリングユニット（２５１，３０１Ａ−Ｄ）とを備え、前記第１の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第１のものから第１の複数の命令バイトを選択するように構成され、前記第１の複数の命令バイトは開始バイトと固定数の連続バイトとを含み、さらに前記入力ポートに結合された第２の命令チャネリングユニット（２５２，３０４Ａ−Ｄ）を備え、前記第２の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第２のものから第２の複数の命令バイトを選択して転送するように構成され、前記第２の命令チャネリングユニットは、前記第１の複数の命令バイトを選択して転送する前記第１の命令チャネリングユニットと並行して前記第２の複数の命令バイトを選択して転送し、前記第２の複数の命令バイトは開始バイトと固定数の連続バイトとを含み、さらに前記第１の命令チャネリングユニットおよび前記第２の命令チャネリングユニットに結合された第３の命令チャネリングユニット（２５３，３０６Ａ−Ｄ）を備え、前記第３の命令チャネリングユニットは、前記第１の複数の命令バイトと前記第２の複数の命令バイトとをマージして、マージされた複数の命令バイトをもたらすように構成され、さらに前記第３の命令チャネリングユニットに結合された出力ポートを備え、前記出力ポートは、複数の命令バイトを前記複数のデコードユニットに転送するように構成される、命令整列ユニット。２．前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットが複数のマルチプレクサをさらに含む、請求項１に記載の命令整列ユニット。３．前記第１の複数の命令バイト、前記第２の複数の命令バイトおよび前記出力ポートによって転送された前記複数の命令バイトの数が等しい、請求項２に記載の命令整列ユニット。４．前記マージされた複数の命令バイトが、後に前記第２の複数の命令バイトが続く前記第１の複数の命令バイトを含み、それにより前記第２の複数の命令バイトは、前記第１の複数の命令バイトにおけるバイト数だけシフトされている、請求項３に記載の命令整列ユニット。５．前記出力ポートによって転送された前記複数の命令バイトが、前記マージされた複数の命令バイトである、請求項４に記載の命令整列ユニット。６．前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに結合された制御ユニット（２５５）をさらに含み、前記制御ユニットは、前記第１の命令チャネリングユニットが前記第１の複数の命令バイトを選択するように構成される、請求項５に記載の命令整列ユニット。７．前記制御ユニットが、前記第２の命令チャネリングユニットに前記第２の複数の命令バイトを選択させるようにさらに構成される、請求項６に記載の命令整列ユニット。８．前記制御ユニットが、前記第３の命令チャネリングユニットに前記マージされた複数の命令バイトを選択させるようにさらに構成される、請求項７に記載の命令整列ユニット。９．前記制御ユニットが制御入力ポートをさらに含み、前記制御ユニットは、前記制御入力ポートに与えられる情報に従って前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに指示を与えるようにさらに構成される、請求項８に記載の命令整列ユニット。１０．前記制御入力ポートに与えられる前記情報が、前記入力ポートの前記複数のグループの命令バイト内にある開始命令バイトおよび終了命令バイトを特定する開始バイトおよび終了バイトビットである、請求項９に記載の命令整列ユニット。１１．スーパースカラマイクロプロセッサであって、請求項１から１０のいずれかに記載の命令整列ユニットを備え、前記マイクロプロセッサはさらに、前記命令整列ユニットに結合された既にフェッチ済みの命令ブロックをストアするための命令キャッシュ（２０４）を含み、前記命令キャッシュは複数のブロックのメモリを含み、前記マイクロプロセッサはさらに前記命令整列ユニットに結合された、前記命令整列ユニットから転送された前記複数の命令バイトをデコードするための複数のデコードユニット（２０８Ａ− ２０８Ｄ）を備える、スーパースカラマイクロプロセッサ。１２．前記命令キャッシュに結合され、メインメモリからの命令をプリフェッチしてプリデコードするためのプリフェッチ／プリデコードユニット（２０２）と、前記命令キャッシュに結合され、分岐命令のターゲットアドレスを予測するための分岐予測ユニット（２２０）と、前記命令整列ユニットに結合され、困難な命令をマイクロコード化するためのＭＲＯＭユニット（２０９）と、前記複数のデコードユニットに結合され、デコードされた命令を実行するために複数の機能ユニットのうちの１つが利用できるようになり、かつ前記デコードされた命令にそれらのオペランドが与えられるまで、前記デコードされた命令をストアするための複数のリザベーションステーション（２１０）と、前記複数のリザベーションステーションに結合され、前記複数のリザベーションステーションにストアされた前記デコードされた命令を実行するための前記複数の機能ユニット（２１２）と、前記複数の機能ユニットおよび前記複数のデコードユニットに結合され、ロード／ストア命令を実行するためのロード／ストアユニット（２２２）と、前記ロード／ストアユニットに結合され、既にフェッチされているデータメモリロケーションをストアするためのデータキャッシュ（２２４）と、前記複数の機能ユニット、前記ロード／ストアユニットおよび前記複数のデコードユニットに結合されたリオーダバッファ（２１６）とを含み、前記リオーダバッファは、結果が投機的でなくなるまで、投機的に実行された結果をストアし、さらに前記複数のデコードユニットおよび前記リオーダバッファに結合され、レジスタセットの非投機的な状態をストアするためのレジスタファイル（２１８）とを含む、請求項１１に記載のスーパースカラマイクロプロセッサ。１３．複数のグループの命令バイトから可変長命令を選択するための方法であって、開始バイトと固定数の連続バイトとを含む第1の複数の命令バイトを前記複数のグループの命令のうちの１つから選択するステップと、開始バイトと固定数の連続バイトとを含む第２の複数の命令バイトを前記複数のグループの命令のうちの別のものから選択するステップとを含み、前記第２の複数の命令バイトは前記第1の複数の命令バイトの選択と並行して選択され、前記第1の複数の命令バイトのバイト数だけ前記第２の複数の命令バイトをシフトして、シフトされた複数の命令バイトをもたらすようにするステップと、前記第１の複数の命令バイトと前記シフトされた複数の命令バイトとをマージし、マージされた複数の命令バイトをもたらすようにするステップとを含み、前記マージするステップは、前記シフトされた複数の命令バイトが前記マージされた複数の命令バイト内の前記第1の複数の命令バイトに続くように行なわれることを特徴とする、方法。１４．前記マージされた複数の命令バイトを複数のデコードユニットに転送するステップをさらに含む、請求項１３に記載の方法。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウィット，デイビッド・ビィアメリカ合衆国、78759 テキサス州、オースティン、パスフィンダー・ドライブ、 6318 (72)発明者ジョンソン，ウィリアム・エムアメリカ合衆国、78746 テキサス州、オースティン、コキーナ・レーン、606

Claims

【特許請求の範囲】１．スーパースカラマイクロプロセッサであって、命令キャッシュからの命令を複数のデコードユニットに転送するための命令整列ユニットを備え、前記命令整列ユニットは、前記命令キャッシュから複数グループの命令バイトを転送するように構成された入力ポートと、前記入力ポートに結合された第１の命令チャネリングユニットとを含み、前記第１の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第１のものから第１の複数の命令バイトを選択するように構成され、前記命令整列ユニットはさらに前記入力ポートに結合された第２の命令チャネリングユニットを含み、前記第２の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第２のものから第２の複数の命令バイトを選択するように構成され、前記命令整列ユニットはさらに前記第１の命令チャネリングユニットおよび前記第２の命令チャネリングユニット結合された第３の命令チャネリングユニットを含み、前記第３の命令チャネリングユニットは、前記第１の複数の命令バイトと前記第２の複数の命令バイトとをマージして、マージされた複数の命令バイトにずるように構成され、前記命令整列ユニットはさらに前記第３の命令チャネリングユニット結合された出力ポートを含み、前記出力ポートは、複数の命令バイトを前記複数のデコードユニットに転送するように構成され、前記スーパースカラマイクロプロセッサはさらに前記命令整列ユニットに結合された、既にフェッチされている命令ブロックをストアするための前記命令キャッシュを備え、前記命令キャッシュは複数のブロックのメモリを含み、前記スーパースカラマイクロプロセッサはさらに前記命令整列ユニットに結合された、前記命令整列ユニットから転送された前記複数の命令バイトをデコードするための前記複数のデコードユニットを備える、スーパースカラマイクロプロセッサ。２．前記入力ポートが、複数のブロックのメモリにストアされた複数のグループの命令バイトを転送するようにさらに構成され、前記複数のブロックのメモリのうちの第１のものおよび前記複数のブロックのメモリのうちの第２のものは連続する、請求項１に記載のスーパースカラマイクロプロセッサ。３．前記命令整列ユニットの前記第１の命令チャネリングユニットおよび前記命令整列ユニットの前記第２の命令チャネリングユニットが、前記第１の複数の命令バイトおよび前記第２の複数の命令バイトを個別に選択するようにさらに構成される、請求項１に記載のスーパースカラマイクロプロセッサ。４．前記命令整列ユニットの前記第１の命令チャネリングユニット、前記命令整列ユニットの前記第２の命令チャネリングユニットおよび前記命令整列ユニットの前記第３の命令チャネリングユニットが、複数のマルチプレクサをさらに含む、請求項３に記載のスーパースカラマイクロプロセッサ。５．前記マージされた複数の命令バイトが、前記第２の複数の命令バイトが後に設けられた前記第１の複数の命令バイトを含み、これにより前記第２の複数の命令バイトは前記第１の複数の命令バイトのバイト数だけシフトされる、請求項４に記載のスーパースカラマイクロプロセッサ。６．前記出力ポートによって転送された前記複数の命令バイトが、前記マージされた複数の命令バイトである、請求項５に記載のスーパースカラマイクロプロセッサ。７．前記命令整列ユニットが、前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに結合された制御ユニットをさらに含み、前記制御ユニットは、前記第１の命令チャネリングユニットが前記１対１の複数の命令バイトを選択するようにする構成である、請求項６に記載のスーパースカラマイクロプロセッサ。８．前記命令整列ユニットの前記制御ユニットが、前記第２の命令チャネリングユニットが前記第２の複数の命令バイトを選択するようにさらに構成される、請求項７に記載のスーパースカラマイクロプロセッサ。９．前記命令チャネリングユニットの前記制御ユニットが、前記第３の命令チャネリングユニットに前記マージされた複数の命令バイトを選択させるようにさらに構成される、請求項８に記載のスーパースカラマイクロプロセッサ。１０．前記制御ユニットが制御入力ポートをさらに含み、前記制御ユニットは、前記制御入力ポートに与えられる情報に従って前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに指示を与えるようにさらに構成される、請求項９に記載のスーパースカラマイクロプロセッサ。１１．前記制御入力ポートに与えられる情報が、前記入力ポートの前記複数のグループの入力バイト内の開始命令バイトおよび終了命令バイトを特定する開始バイトおよび終了バイトビットである、請求項１０に記載のスーパースカラマイクロプロセッサ。１２．前記制御ユニットが、前記第１の命令チャネリングユニットに前記第１の複数の命令バイトに含まれる前記複数のグループの命令バイトのうちの前記第１のものにあるバイトを選択させるようにさらに構成され、前記バイトは開始バイトである、請求項１１に記載のスーパースカラマイクロプロセッサ。１３．前記制御ユニットが、前記第１の命令チャネリングユニットに前記第１の複数の命令バイトに含まれる前記開始バイトに隣接した複数のバイトを選択させるようにさらに構成される、請求項１２に記載のスーパースカラマイクロプロセッサ。１４．前記命令整列ユニットの前記出力ポートが、前記複数のデコードユニットのうちの１つに前記バイトおよび前記隣接バイトを転送するように構成される、請求項１３に記載のスーパースカラマイクロプロセッサ。１５．前記命令整列ユニットが、前記入力ポートに結合された第４の命令チャネリングユニットをさらに含み、前記第４の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第３のものから第３の複数の命令バイトを選択するようにさらに構成される、請求項１に記載のスーパースカラマイクロプロセッサ。１６．前記命令整列ユニットが、前記第４の命令チャネリングユニットに結合された第５の命令チャネリングユニットをさらに含み、前記第５の命令チャネリングユニットは、前記第１の複数の命令バイトにおけるバイト数だけ前記第３の複数の命令バイトをシフトし、それによりシフトされた複数の命令バイトを形成するように構成される、請求項１５に記載のスーパースカラマイクロプロセッサ。１７．前記命令整列ユニットが、前記第５の命令チャネリングユニットに結合され、かつ前記第３の命令チャネリングユニットにさらに結合された第６の命令チャネリングユニットをさらに含み、前記第６の命令チャネリングユニットは、前記マージされた複数の命令バイトと前記シフトされた複数の命令バイトとをマージして第２のマージされた複数の命令バイトをもたらすように構成され、前記第２のマージされた複数の命令バイトは、後に前記第３の複数の命令バイトが続く前記マージされた複数の命令バイトであり、これにより前記シフトされた複数の命令バイトは、前記第２の複数の命令バイトにおけるバイト数だけさらにシフトされる、請求項１６に記載のスーパースカラマイクロプロセッサ。１８．前記出力ポートによって転送された前記複数の命令バイトが、前記マージされた第２の複数の命令バイトである、請求項１７に記載のスーパースカラマイクロプロセッサ。１９．前記命令キャッシュに結合され、メインメモリからの命令をプリフェッチしてプリデコードするためのプリフェッチ／プリデコードユニットと、前記命令キャッシュに結合され、分岐命令のターゲットアドレスを予測するための分岐予測ユニットと、前記命令整列ユニットに結合され、困難な命令をマイクロコード化するためのＭＲＯＭユニットと、前記複数のデコードユニットに結合され、デコードされた命令を実行するために複数の機能ユニットのうちの１つが利用できるようになり、かつ前記デコードされた命令にそれらのオペランドが与えられるまで、前記デコードされた命令をストアするための複数のリザベーションステーションと、前記複数のリザベーションステーションに結合され、前記複数のリザベーションステーションにストアされた前記デコードされた命令を実行するための前記複数の機能ユニットと、前記複数の機能ユニットおよび前記複数のデコードユニットに結合され、ロード／ストア命令を実行するためのロード／ストアユニットと、前記ロード／ストアユニットに結合され、既にフェッチされているデータメモリロケーションをストアするためのデータキャッシュと、前記複数の機能ユニット、前記ロード／ストアユニットおよび前記複数のデコードユニットに結合されたリオーダバッファとを含み、前記リオーダバッファは、結果が投機的でなくなるまで、投機的に実行された結果をストアし、さらに前記複数のデコードユニットおよび前記リオーダバッファに結合され、レジスタセットの非投機的な状態をストアするためのレジスタファイルとを含む、請求項１８に記載のスーパースカラマイクロプロセッサ。２０．命令キャッシュからの命令を複数のデコードユニット転送するための命令整列ユニットであって、複数のグループの命令バイトを転送するように構成された入力ポートと、前記入力ポートに結合された第１の命令チャネリングユニットとを備え、前記第１の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第１のものから第１の複数の命令バイトを選択するように構成され、さらに前記入力ポートに結合された第２の命令チャネリングユニットを備え、前記第２の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第２のものから第２の複数の命令バイトを選択するように構成され、さらに前記第３の命令チャネリングユニットおよび前記第２の命令チャネリングユニットに結合された第３の命令チャネリングユニットを備え、前記第３の命令チャネリングユニットは、前記第１の複数の命令バイトと前記第２の複数の命令バイトとをマージして、マージされた複数の命令バイトをもたらすように構成され、さらに前記第３の命令チャネリングユニットに結合された出力ポートを備え、前記出力ポートは、複数の命令バイトを前記複数のデコードユニットに転送するように構成される、命令整列ユニット。２１．前記入力ポートが、複数のブロックのメモリにストアされた複数のグループの命令バイトを転送するようにさらに構成され、前記複数のブロックのメモリは前記命令キャッシュにストアされる、請求項２０に記載の命令整列ユニット。２２．前記入力ポートが、複数のブロックのメモリにストアされた複数のグループの命令を転送するようにさらに構成され、前記複数のブロックのメモリのうちの第１のものおよび前記複数のブロックのメモリのうちの第２のものは連続する、請求項２１に記載の命令整列ユニット。２３．前記第１の命令チャネリングユニットおよび前記第２の命令チャネリングユニットが、前記第１の複数の命令バイトおよび前記第２の複数の命令バイトを個別に選択するようにさらに構成される、請求項２０に記載の命令整列ユニット。２４．前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットが、複数のマルチプレクサをさらに含む、請求項２３に記載の命令整列ユニット。２５．および前記出力ポートによって転送された前記第１の複数の命令バイト、前記第２の複数の命令バイト前記複数の命令バイトの数が等しい、請求項２４に記載の命令整列ユニット。２６．前記マージされた複数の命令バイトが、後に前記第２の複数の命令バイトが続く前記第１の複数の命令バイトを含み、それにより前記第２の複数の命令バイトは、前記第１の複数の命令バイトにおけるバイト数だけシフトされている、請求項２５に記載の命令整列ユニット。２７．前記出力ポートによって転送された前記複数の命令バイトが、前記マージされた複数の命令バイトである、請求項２６に記載の命令整列ユニット。２８．前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに結合された制御ユニットをさらに含み、前記制御ユニットは、前記第１の命令チャネリングユニットが前記第１の複数の命令バイトを選択するように構成される、請求項２７に記載の命令整列ユニット。２９．前記制御ユニットが、前記第２の命令チャネリングユニットに前記第２の複数の命令バイトを選択させるようにさらに構成される、請求項２８に記載の命令整列ユニット。３０．前記制御ユニットが、前記第３の命令チャネリングユニットに前記マージされた複数の命令バイトを選択させるようにさらに構成される、請求項２９に記載の命令整列ユニット。３１．前記制御ユニットが制御入力ポートをさらに含み、前記制御ユニットは、前記制御入力ポートに与えられる情報に従って前記第１の命令チャネリングユニット、前記第２の命令チャネリングユニットおよび前記第３の命令チャネリングユニットに指示を与えるようにさらに構成される、請求項３０に記載の命令整列ユニット。３２．前記制御入力ポートに与えられる前記情報が、前記入力ポートの前記複数のグループの命令バイト内にある開始命令バイトおよび終了命令バイトを特定する開始バイトおよび終了バイトビットである、請求項３１に記載の命令整列ユニット。３３．前記制御ユニットが、前記第１の命令チャネリングユニットに前記第１の複数の命令バイトに含まれる前記複数のグループの命令バイトのうちの前記第１のものの中にあるバイトを選択させるようにさらに構成される、請求項３２に記載の命令整列ユニット。３４．前記制御ユニットが、前記第１の命令チャネリングユニットに前記第１の複数の命令バイトに含まれる前記開始バイトに隣接した複数のバイトを選択させるようにさらに構成される、請求項３３に記載の命令整列ユニット。３５．前記出力ポートが、前記バイトおよび前記隣接バイトを前記複数のデコードユニットのうちの１つに転送するように構成される、請求項３４に記載の命令整列ユニット。３６．前記入力ポートに結合された第４の命令チャネリングユニットをさらに含み、前記第４の命令チャネリングユニットは、前記入力ポートによって転送された前記複数のグループの命令バイトのうちの第３のものから第３の複数の命令バイトを選択するようにさらに構成される、請求項２０に記載の命令整列ユニット。３７．前記第４の命令チャネリングユニットに結合された第５の命令チャネリングユニットをさらに含み、前記第５の命令チャネリングユニットは、前記第１の複数の命令バイトにおけるバイト数だけ前記第３の複数の命令バイトをシフトし、それによりシフトされた複数の命令バイトを形成するように構成される、請求項３６に記載の命令整列ユニット。３８．前記第５の命令チャネリングユニットに結合され、かつ前記第３の命令チャネリングユニットにさらに結合された第６の命令チャネリングユニットをさらに含み、前記第６の命令チャネリングユニットは、前記マージされた複数の命令バイトと前記シフトされた複数の命令バイトとをマージして第２のマージされた複数の命令バイトをもたらすように構成され、前記第２のマージされた複数の命令バイトは、後に前記第３の複数の命令バイトが続く前記マージされた複数の命令バイトであり、それにより前記シフトされた複数の命令バイトは前記第２の複数の命令バイトのバイト数だけさらにシフトされる、請求項３７に記載の命令整列ユニット。３９．前記出力ポートによって転送された前記複数の命令バイトが、前記マージされた第２の複数の命令バイトである、請求項３８に記載の命令整列ユニット。４０．複数のグループの命令バイトから可変長命令を選択するための方法であって、開始バイトと固定数の連続バイトとを含む第１の複数の命令バイトを前記複数のグループの命令のうちの１つから選択するステップと、開始バイトと固定数の連続バイトとを含む第２の複数の命令バイトを前記複数のグループの命令のうちの別のものから選択するステップと、前記第１の複数の命令バイトのバイト数だけ前記第２の複数の命令バイトをシフトして、シフトされた複数の命令バイトをもたらすようにするステップと、前記第１の複数の命令バイトと前記シフトされた複数の命令バイトとをマージし、マージされた複数の命令バイトをもたらすようにするステップとを含み、前記マージするステップは、前記シフトされた複数の命令バイトが前記マージされた複数の命令バイト内の前記第１の複数の命令バイトに続くように行なわれる、方法。４１．第１を選択する前記ステップおよび第２を選択する前記ステップが独立して並行に行なわれる、請求項４０に記載の方法。４２．前記マージされた複数の命令バイトを複数のデコードユニットに転送するステップをさらに含む、請求項４０に記載の方法。４３．命令キャッシュからの命令を複数のデコードユニットに転送するための命令整列ユニットであって、複数のグループの命令バイトのうちの第１のものから第１の複数の命令バイトを選択するように構成された第１の命令チャネリングユニットと、前記複数のグループの命令バイトのうちの第２のものから第２の複数の命令バイトを選択するように構成された第２の命令チャネリングユニットとを含む、命令整列ユニット。