JP2025537101A

JP2025537101A - ２つのレベルのリザベーションステーション

Info

Publication number: JP2025537101A
Application number: JP2025523915A
Authority: JP
Inventors: プリヤダルシ，シバム; エスパー，ジョン・マイケル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2025-11-14
Also published as: KR20250073385A; TW202420080A; EP4599327A1; CN120051766A; WO2024102118A1

Abstract

コンピューティングデバイスのための方法、システム、及び装置は、複数の処理コアと、複数の処理コア上でのアウトオブオーダ実行のための命令の選択を調整するように構成された回路を備えるリザベーションステーションと、を備え、リザベーションステーションは、待機バッファ及び複数のクラスタを備え、ロード命令がキャッシュミスをもたらすとリザベーションステーションが予測した際に、リザベーションステーションは、複数のクラスタのうちの１つのクラスタを使用してロード命令を実行することと、ロード命令の１つまたは複数の依存命令を待機バッファに格納することと、を行うように構成され、ロード命令の実行が完了した際に、リザベーションステーションは、依存命令を待機バッファから取得することと、複数のクラスタを使用して依存命令を実行することと、を行うように構成される。

Description

本明細書は、コンピューティングデバイスでのアウトオブオーダ（ＯｏＯ）命令実行を支援可能な１つまたは複数のリザベーションステーション（ＲＳＶ）を含むデバイスに関する。

最新のアウトオブオーダ（ＯｏＯ）プロセッサでは、命令スループット（例えば、１サイクルあたりの命令数（ＩＰＣ））が、通常ＯｏＯウィンドウのサイズを大きくすることで改善する。リザベーションステーション（ＲＳＶ）は、通常このウィンドウサイズを制約するコンポーネントの１つである。より大きなＲＳＶは、命令及びメモリレベルの並列性を抽出でき、これはＩＰＣの改善に役立つ。

しかしながら、ＲＳＶのサイズが大きくなると、サイクル時間の課題が生じ、周波数が制約される。ＲＳＶサイズに関係するウェイクアップ－セレクトタイミングパスは、最新のＯｏＯＣＰＵにおける最もタイトなタイミングパスの１つであり、通常、ＣＰＵ全体の周波数を制約する。ＲＳＶのサイズを大きくすると、ウェイクアップセレクトのパス上の各コンポーネントに負荷がかかる。例えば、ＲＳＶのサイズが大きくなると、ウェイクアップ遅延が増加するが、これは、タグブロードキャスト配線のロードが増加するためである。選択遅延の増加は、選択プロセスに多くの命令が参加し、それらの間で選択優先順位を決定するのに時間がかかるためである。ＩＰＣ及び周波数の両方が全体的な性能に寄与するため、単純にＲＳＶサイズを大きくしても、全体的な性能が向上するわけではない。

本明細書では、サイクル時間に適した方式で「有効容量」を増加させるために複数のレベルを有するＲＳＶを実装するためのシステム及び方法を説明する。

「ＲＳＶクラスタリング」は、ＲＳＶが、特定のタイプの命令を処理するようにそれぞれ設計されたより小さな「クラスタ」または「グルーピング」に分割されるプロセスである。すべての命令がすべてのクラスタに供給される場合、この構造は、「完全統合型」または「モノリシック」ＲＳＶと呼ばれる。一方、「完全分散型」または「フラグメント化」ＲＳＶは、命令が指定されたクラスタにのみ供給される場合である。ＩＰＣ及びサイクル時間に関して、どちらの構造にも長所及び短所がある。本明細書に提示されている２レベルＲＳＶ編成は、各構造によって提供される同様の性能の利点を得るために、「完全分散型」または「完全統合型」設計に頼らないデバイスを概説する。

この２レベルＲＳＶ設計は、ＲＳＶが最終レベルキャッシュ（ＬＬＣ）でミスした命令とそれらの依存命令で満たされることが多いという事実を活用している。ＬＬＣは、ＣＰＵがメモリにアクセスする前の最後のキャッシュとして定義される。一般的に、ＬＬＣをミスした命令またはその依存命令に対応するためには、多くのサイクル（例えば、１００超）が必要となり得る。これは、ＲＳＶがより新たな命令を受け付けることを妨げる連鎖反応を引き起こす可能性がある。換言すれば、ＲＳＶの「キュー」はＬＬＣをミスした命令とそれらの依存命令によって占有され、その結果、ＲＳＶはより効率的に処理できる可能性のある命令を格納できなくなる。

この問題を克服するために、本システムは、どの命令がＬＬＣをミスするかを積極的に予測し、これらの命令の依存命令を別のサイクル効率のよい構造に誘導することを試みる。いくつかの実施態様では、この構造は、待機バッファ（ＷＢ）と呼んでもよい。このＷＢは、通常のＲＳＶクラスタリングとは別個の構造である。いくつかの実施態様では、ＲＳＶは、２つのレベルに分割される。１つ目はＷＢで構成され、２つ目は１つまたは複数のＲＳＶクラスタを含む。いくつかの実施態様では、ＬＬＣをミスすると予測される命令は、それらの依存命令をレベル２のＲＳＶクラスタに直接渡すのではなく、レベル１のＷＢへ送る。

例示的なシステム実施態様の概要図である。例示的なシステム実施態様の詳細図である。命令が例示的なシステムの実施態様によって処理される例示的なプロセスの図である。ＬＬＣ予測器の推定ロジックが改良される例示的なプロセスの図である。

図１は、例示的なシステムの概要図である。システム１００は、フェッチモジュール１０２、デコードモジュール１０４、待機バッファ（ＷＢ）１０５、ディスパッチモジュール１０６、１つまたは複数のＲＳＶ１０８、リオーダバッファ１１０、コミットモジュール１１２、及びストアバッファ１１４を有する。上記の様々な「モジュール」は、ＡＮＤ、ＯＲ、ＮＯＴ、ＮＡＮＤ、またはＸＯＲゲートを含むために、様々な論理回路コンポーネントを使用して実装され得る。他の実施態様は、他の回路コンポーネントを使用することを選択する場合がある。

フェッチモジュール１０２は、デコードするために、入力される命令を読み出す。デコードモジュール１０４は、受け取った機能を分析して、それらのコンシューマを決定する。いくつかの実施態様では、デコードモジュール１０４の出力を使用して、デコードされた命令が、ＬＬＣをミスする可能性が高い命令に対応するかどうかを決定する。命令がＬＬＣをミスする可能性が高いと決定すると、ＷＢ１０５内のバンクがその命令の依存命令に割り当てられる。命令がＬＬＣをミスする可能性がない場合、または命令がＷＢ１０５を出る要件を満たしている場合は、命令はディスパッチモジュール１０６に送信され、ディスパッチモジュール１０６は、ＲＳＶ１０８に命令を送信する。ＲＳＶ１０８は、完全分散型システムと完全統合型システムとの間の様々な形態をとることができる。ＲＳＶ１０８はまた、様々な形態のクラスタリングを使用し得、命令タイプのグループが特定の数のＲＳＶ１０８に割り当てられ得る。ＲＳＶ１０８から呼び出された後、命令は、ストアバッファ１１４に到達する前に、リオーダバッファ１１０及びコミットモジュール１１２によって処理される。

図２は、例示的なシステム実施態様２００の詳細図である。システム２００は、デコードモジュール２０２、ＬＬＣ予測器２０４、ＷＢフリーリスト２０６、リネームモジュール２０８、ＷＢ２１０、ＷＢバンク２１２、「ＷＢバンクＩＤ」２１４、ＷＢマルチプレクサ２１６、１つまたは複数のＲＳＶマルチプレクサ２１８、１つまたは複数のＲＳＶクラスタ２２０、及び１つまたは複数の実行レーン２２２を含む。

ＬＬＣ予測器２０４は、どの命令がＬＬＣをミスする可能性が高いかを決定するために使用される。いくつかの実施態様では、この予測は、ＲＳＶのデコードモジュール２０２中に行われ得る。使用前に、ＬＬＣ予測器２０４は、どの命令がＬＬＣをミスする確率が高いかに関する初期トレーニングを受ける場合がある。ＬＬＣ予測器２０４が、ある命令がＬＬＣをミスすることを検出した場合、ＷＢフリーリスト２０６によって空きバンクＩＤ２１４が利用可能であると特定されれば、その命令はＷＢ２１０内のバンク２１２を確保する。この時点で、追加の識別子、例えば、物理レジスタ番号（ＰＲＮ）のタグ及び「ＢａｎｋＩＤＶａｌｉｄ」が命令に割り当てられてもよい。いくつかの実施態様では、このプロセスは、リネームモジュール２０８によって処理され得る。

いくつかの実施態様では、ＷＢ２１０は、特定の数のバンク２１２に分割され得る。バンク２１２の数は、さらに、複数のエントリに分割され得、各々が単一の命令によって占有され得、その結果先入れ先出し（ＦＩＦＯ）構造となる。ＦＩＦＯ構造は、バンクレベルのウェイクアップ（すなわち、同じバンク２１２内のすべての命令）を可能にし、設計の複雑さを軽減する。特許請求の範囲内の他の実施態様は、他のＷＢ２１０構造またはプロセスを使用し得る。

ＷＢ２１０を出るとき、命令チェーンは特定のフォーマット、例えば、ＦＩＦＯに基づいた割り当て順序で送出される。いくつかの実施態様では、このプロセスは、ＷＢマルチプレクサ２１６によって処理され得る。次に、ＷＢ２１０から離れた命令は、ＲＳＶクラスタ２２０に供給され得る。複数の命令タイプが同じＲＳＶクラスタ２２０によって処理される実施態様では、ＲＳＶマルチプレクサ２１８を使用して、命令が適切なＲＳＶに分散され得る。次に、実行準備ができた命令は、ＲＳＶによって実行レーン２２２を割り当てられる。いくつかの実施態様では、個々のＲＳＶクラスタ２２０は、異なる命令タイプを処理するように構成される。例えば、各ＲＳＶクラスタは、異なるタイプの命令または命令クラスを処理するように構成され得る。例えば、異なるＲＳＶクラスタ２２０は、ロード、ストア、機能的操作、基本的な数学的演算、及び複雑な数学的演算をそれぞれ処理するために割り当てられ得る。他の代替実施態様は、命令タイプまたはクラスに対してＲＳＶクラスタの任意の適切な配置を使用することができる。

図３は、予測されるロードミスに対して待機バッファを使用するための例示的な処理のフローチャートである。例示的なプロセスは、本明細書に従って動作するように構成された任意の適切なプロセッサによって実行され得る。

ＬＬＣ予測器は、どの命令がＬＬＣをミスする確率が高いかに関する初期トレーニングを受ける場合がある（３１０）。いくつかの実施態様では、このトレーニングは、公知のプログラムカウンタ（ＰＣ）データに基づき得る。トレーニングを、図４を参照しながら以下でさらに詳しく説明する。ＲＳＶが動作する中で、ＬＬＣ予測器２０４によって使用される予測は、どの命令がＬＬＣをミスするかをより正確に予測できるように洗練されていく場合もある。いくつかの実施態様では、ＬＬＣ予測器２０４は、複数のエントリを有するテーブルを含み得、複数のエントリの各々は、Ｎビットの飽和カウンタを有する。このテーブルは、ロード命令アドレス、ロード命令アドレスのハッシュ値、グローバルなロードのヒット／ミス履歴（ＧＬＨＲ）、ロードパス履歴、またはＰＣから容易に取得可能な他のパラメータを含む、様々な手段によってインデックス化され得る。このテーブルは、上記のパラメータの組み合わせでインデックス化され得る。

ＧＬＨＲが使用される実施態様では、ＧＬＨＲは、命令ＬＬＣミス予測時間に更新される「Ｎ」ビットシフトレジスタを含み得る。命令がＬＬＣをミスすると予測される場合、「１」がＧＬＨＲに割り当てられる。あるいは、命令がＬＬＣでヒットすると予想される場合、「０」がＧＬＨＲに割り当てられる。ロードパス履歴を使用してＬＬＣ予測器２０４を更新する他の実施態様では、この動作は、以前の「Ｎ」個のロード命令からのＰＣビットのハッシュを含み得る。

さらに、ＬＬＣヒット／ミス情報が容易に利用可能ではないマルチコアシステムでは、プロキシを使用してＬＬＣ予測器２０４がトレーニングされ得る。この場合、リオーダバッファ（ＲＯＢ）の先頭にある命令によって費やされたサイクル数が、ＬＬＣ予測器２０４をトレーニングするために使用され得る。サイクル数が、例えば５０で割り当てられ、サイクル数がそれを超えると、命令はミスと見なされ、それぞれのカウンタが増加し得る。そうではない場合、命令はヒットと見なされ、それぞれのカウンタが減少することになる。

初期トレーニングの後、ＬＬＣ予測器２０４は、動作中に命令をデコードし、どの命令がＬＬＣをミスするかについて予測を行う（３２０）。ＬＬＣ予測器２０４によってある命令がＬＬＣをミスすると予測された場合、その命令の依存命令は、ＷＢ２１０内のバンク２１２に移動される（３３０）。ＷＢ２１０へのエントリ時に、依存命令には、その宛先論理レジスタ番号（ＬＲＮ）に対応する「バンクＩＤ」２１４が割り当てられ得る。この情報は、参照しやすいフォーマット、例えば、ルックアップテーブルに配置され得る。同じＬＲＮに対応する依存命令が検出されると、バンクＩＤ２１４を使用して、依存命令が先行する命令と同じＷＢ２１０内のバンクに配置され得る。依存命令が、ＷＢ内に一意のバンクを割り当てた複数の先行命令を有する場合、システムは、例えば、依存命令を、占有率が最も低いＷＢ２１０内のバンク２１２に割り当てるなど、所定の応答に従ってよい。

各命令のバンクＩＤ２１４もまた、ロードストアユニット（ＬＳＵ）と共有され得る。例えば、ロード命令が完了したので、命令がＷＢ２１０を離れる準備ができていることを検出すると、「ウェイクアップ」が、ＬＳＵによって同じバンク２１２内のすべての依存命令に送信される（３４０）。さらに、ＬＳＵは他のアクションを実行し得る。例えば、ＬＳＵは、ウェイクアップが進行中であるという事前の警告をＬＲＮまたは他のコンポーネントに送信することが可能である。ＬＳＵはまた、ＷＢ２１０からの命令チェーンの早期離脱をトリガし得る。ＷＢ２１０を出るとき、命令チェーンは、特定のフォーマットで、例えば、ＦＩＦＯに基づいた割り当て順序で離れる（３５０）。本方法では、１サイクルあたりにウェイクアップされ得る命令チェーンの数に制限はない。特許請求の範囲内の他の実施態様は、異なるウェイクアップ方法を利用し得るか、またはＬＳＵに異なるアクションを実行させ得る。

複数の命令チェーンが同じサイクルでウェイクアップされる場合、システムは、特定のアービトレーションプロセスに従って、命令がＷＢ２１０からどのように出るかを制御することができる（３６０）。いくつかの実施態様では、順序を決定するためにラウンドロビンが実施され得る。他の実施態様では、より古い命令バンク２１２が優先される経過時間ベース方法が好ましい場合がある。さらに、この経過時間による優先順位付けは、ＷＢ２１０に割り当てられていない他の命令にも拡張され得、その結果、ＷＢ２１０から出ていく命令チェーンは、デコード２０２から直接出ていく命令よりも優先される。

図４は、ＬＬＣ予測器の精度を改良するための例示的なプロセス４００のフローチャートである。例示的なプロセスは、本明細書に従って構成された任意の適切なプロセッサによって実施され得る。例えば、プロセッサは、ＬＬＣ予測器を継続的に改良するために、命令実行中に例示的なプロセスを実施することができる。

図３に説明されているＬＬＣ予測器の初期トレーニングに続いて（４１０）、問題のある命令をより正確に特定するために、ＬＬＣ予測器の推定ロジックの態様を改良することが望ましい場合がある。いくつかの実施態様では、カウンタが各ロード命令に割り当てられて、エントリテーブルを形成し得る（４２０）。場合によっては、このテーブルは、ロード命令のＰＣのハッシュに基づいて独自にインデックス化され得る。他の実施態様は、ロード命令タグの比較を実施する連想メモリ（ＣＡＭ）構造を利用する「タグ付き」ＬＬＣ予測器の使用を選択することができる。実行中、ロード命令は、ミスするＬＬＣがあるかどうかを決定するために監視される（４３０）。

ロード命令がＬＬＣをミスしたことを検出すると（４３０）、ロード命令に割り当てられたカウンタは、定数だけ増加する（４４０）。いくつかの実施態様では、この数は整数（例えば「１」）であってもよい。ロード命令がＬＬＣミスを起こさなかった場合、そのロード命令に割り当てられたカウンタは、定数だけ下げられる（４５０）。いくつかの実施態様では、この数は整数（例えば「１」）であってもよい。ロード命令のカウンタが更新された後、システムは、更新されたカウンタを使用して実行を続ける（４６０）。

上記は、ＬＬＣ予測器ロジックを更新するための実施態様の一例である。他の実施態様は、説明されているプロセスの異なる変形例、例えば、異なる様式でカウンタを増加させることを選択する場合がある。他の実施態様は、コンピューティングシステムからＬＬＣ予測器２０４に利用可能な他のデータを使用することを含むために、他のプロセスを完全に使用することを選択する場合がある。

本明細書で説明する主題及び機能動作の実施形態は、本明細書で開示される構造及びその構造的同等物、またはそれらの１つまたは複数の組み合わせなど、デジタル電子回路、有形に具現化されたコンピュータソフトウェアまたはファームウェア、コンピュータハードウェアに実装できる。本明細書で説明されている主題の実施形態は、１つまたは複数のコンピュータプログラム、すなわち、データ処理装置によって実行されるか、またはデータ処理装置の動作を制御する、有形の非一時的な記憶媒体にエンコードされたコンピュータプログラム命令の１つまたは複数のモジュールとして実装され得る。コンピュータ記憶媒体は、機械可読ストレージデバイス、機械可読記憶基板、ランダムアクセスメモリデバイスもしくはシリアルアクセスメモリデバイス、またはそれらの１つまたは複数の組み合わせである場合がある。代わりに、または、加えて、プログラム命令は、人工的に生成された伝達された信号にエンコードすることができ、例えば、データ処理装置による実行のための適切な受信機装置に伝送するための情報をエンコードするために生成される、機械生成の電気、光学または電磁信号がある。

「データ処理装置」という用語は、データ処理ハードウェアを指し、例としてプログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくは複数のコンピュータを含む、データ処理のためのあらゆる種類の装置、デバイス、及び機械を包含する。装置は、特殊用途の論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）である場合があるか、またはそれらをさらに含むことができる。装置はまた、ハードウェアに加えて、コンピュータプログラムの実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれら１つまたは複数の組み合わせを構成するコードを任意選択で含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれるか、または説明される場合があるコンピュータプログラムは、コンパイル型言語もしくはインタプリタ型言語、宣言型言語もしくは手続き型言語を含む、任意の形態のプログラム言語で書くことができ、また、それは、独立型プログラムとしての形態、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に好適な他のユニットとしての形態を含む、任意の形態で展開することができる。プログラムは、ファイルシステムのファイルに相当し得るが、そうである必要はない。プログラムは、他のプログラムまたはデータ、例えば、マークアップ言語の文書に格納される１つまたは複数のスクリプトを保持するファイルの一部分に、目的のプログラム専用の単一のファイルに、または複数の連携ファイル、例えば、１つまたは複数のモジュール、サブプログラム、またはコードの一部分を格納するファイルに格納することができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの場所に位置するかもしくは複数の場所にわたって分散され、データ通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開され得る。

１つまたは複数のコンピュータのシステムが特定の動作またはアクションを行うように構成されているということは、稼働中、システムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせがシステムにインストールされていることを意味する。１つまたは複数のコンピュータプログラムが特定の動作またはアクションを行うように構成されているということは、１つまたは複数のプログラムが、データ処理装置によって実行されたとき、装置に動作またはアクションを実行させる命令を含むことを意味する。

本明細書で使用される場合、「エンジン」、または「ソフトウェアエンジン」は、入力とは異なる出力を提供するソフトウェア実装された入力／出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット（「ＳＤＫ」）、またはオブジェクトなどの機能のエンコードされたブロックであり得る。各エンジンは、任意の適切なタイプのコンピューティングデバイス、例えば、サーバ、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤー、電子ブックリーダ、ラップトップもしくはデスクトップコンピュータ、ＰＤＡ、スマートフォン、または他の固定もしくは携帯デバイスに実装され得る。これは、１つまたは複数のプロセッサ及びコンピュータ可読媒体を含む。さらに、エンジンのうちの２つ以上は、同じコンピューティングデバイスまたは異なるコンピューティングデバイスに実装されてもよい。

本明細書に説明するプロセス及び論理フローは、１つまたは複数のプログラマブルコンピュータが１つまたは複数のコンピュータプログラムを実行して、入力データに作用し、出力を生成することにより機能を実行することによって実行できる。また、プロセス及び論理フローは、特殊用途の論理回路、例えばＦＰＧＡまたはＡＳＩＣによって、または特殊用途の論理回路と１つまたは複数のプログラムされたコンピュータとの組み合わせによって、行われ得る。

コンピュータプログラムの実行に適したコンピュータは、汎用もしくは専用マイクロプロセッサ、あるいはその両方、またはその他の任意の種類の中央処理ユニットに基づくことができる。一般に、中央処理ユニットは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令及びデータを受信する。コンピュータの基本的な要素は、命令を実施及び実行するための中央処理装置と、命令及びデータを記憶するための１つまたは複数のメモリデバイスである。中央処理ユニット及びメモリは、特殊用途の論理回路によって補完される、または組み込まれることができる。一般に、コンピュータはまた、例えば、磁気ディスク、光磁気ディスク、または光ディスクなど、データを格納するための１つまたは複数の大容量記憶デバイスを含むか、またはそれらからデータを受信する、またはそれらにデータを転送する、あるいはその両方のために演算可能に結合される。しかし、コンピュータにそのようなデバイスは必要ではない。さらに、例をいくつか挙げるならば、コンピュータは、他のデバイス、例えば携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオプレーヤーまたはビデオプレーヤー、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはポータブルストレージデバイス、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに埋め込むことができる。

コンピュータプログラム命令及びデータを格納するのに適したコンピュータ可読媒体には、あらゆる形式の不揮発性メモリ、メディア、及びメモリデバイスが含まれ、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、及びＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭディスクが含まれる。

ユーザとの相互作用を行うために、本明細書に説明する主題の実施形態は、ユーザに情報を表示するためのディスプレイ装置、例えばＣＲＴ（ブラウン管）またはＬＣＤ（液晶画面）モニタ、及びユーザがコンピュータへの入力を行うことができるキーボード及びポインティングデバイス、例えばマウス、トラックボール、または感圧式ディスプレイもしくはその他の入力面を有するコンピュータに実装することができる。他の種類のデバイスもまた、ユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力など、あらゆる形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信した要求に応答して、ユーザのデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。また、コンピュータは、テキストメッセージまたは他の形式のメッセージをパーソナルデバイス（例えば、メッセージングアプリケーションを実行しているスマートフォン）に送信し、次いでユーザから応答メッセージを受信することによって、ユーザとインタラクトしてもよい。

上記の実施形態に加えて、以下の実施形態もまた革新的である。

実施形態１は、コンピューティングデバイスであって、
複数の処理コアと、
待機バッファ、複数のクラスタ、及び前記複数の処理コアでのアウトオブオーダ実行のための命令の選択を調整するように構成された回路を備えるリザベーションステーションと、を備え、前記リザベーションステーションは、
ロード命令がキャッシュミスをもたらすと予測することと、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）前記複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行すること、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を前記待機バッファに格納することと、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得すること、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行することと、
を行うように構成される、コンピューティングデバイスである。

実施形態２は、前記待機バッファは複数のバンクを備え、前記ロード命令の前記１つまたは複数の依存命令を格納することは、前記ロード命令のすべての依存命令を前記待機バッファの同じバンクに格納することを含む、実施形態１に記載のコンピューティングデバイスである。

実施形態３は、前記待機バッファの各バンクエントリは、論理レジスタ番号、物理レジスタ番号、バンクＩＤ、及び有効値を備える、実施形態２に記載のコンピューティングデバイスである。

実施形態４は、各バンクが先入れ先出しのキューとして編成される、実施形態３に記載のコンピューティングデバイスである。

実施形態５は、前記リザベーションステーションが、前記ロード命令がキャッシュミスをもたらすかどうかの予測を生成するように構成された予測回路をさらに備える、実施形態１～４のいずれか１つに記載のコンピューティングデバイスである。

実施形態６は、前記予測回路が、グローバルなロードのヒット／ミス履歴によってインクリメントされるカウンタを備える、実施形態５に記載のコンピューティングデバイスである。

実施形態７は、前記予測回路が、リオーダバッファの先頭にある命令によって費やされたサイクル数を備える、実施形態５に記載のコンピューティングデバイスである。

実施形態８は、前記予測回路がハッシュロードを備える、実施形態５に記載のコンピューティングデバイスである。

実施形態９は、前記キャッシュミスが、前記コンピューティングデバイスの最終レベルキャッシュにおけるミスである、実施形態１～８のいずれか１つに記載のコンピューティングデバイスである。

実施形態１０は、前記複数のクラスタのうちの２つ以上のクラスタが、命令のタイプの異なる組み合わせを実行するように専用化されている、実施形態１～９のいずれか１つに記載のコンピューティングデバイスである。

実施形態１１は、第１のクラスタが、単一サイクルで実行される単純命令及び分岐命令を実行するように専用化されている、実施形態１０に記載のコンピューティングデバイスである。

実施形態１２は、第２のクラスタが、単純命令及び複数サイクル命令を実行するように専用化されている、実施形態１１に記載のコンピューティングデバイスである。

実施形態１３は、複数のバンクが同じクロックサイクルでアクティブ化される場合、前記リザベーションステーションが、バンクレベルのアービトレーションを実施するように構成される、実施形態１～１２のいずれか１つに記載のコンピューティングデバイスである。

実施形態１４は、複数の処理コアと、待機バッファ、複数のクラスタ、及び前記複数の処理コアでのアウトオブオーダ実行のための命令の選択を調整するように構成された回路を備えるリザベーションステーションと、を備えるコンピューティングデバイスによって実行される方法であって、前記方法は、
前記リザベーションステーションによって、ロード命令がキャッシュミスをもたらすと予測することと、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）前記複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行すること、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を前記待機バッファに格納することと、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得すること、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行することと、
を含む。

実施形態１５は、前記待機バッファは複数のバンクを備え、前記ロード命令の前記１つまたは複数の依存命令を格納することは、前記ロード命令のすべての依存命令を前記待機バッファの同じバンクに格納することを含む、実施形態１４に記載の方法である。

実施形態１６は、前記待機バッファの各バンクエントリは、論理レジスタ番号、物理レジスタ番号、バンクＩＤ、及び有効値を備える、実施形態１５に記載の方法である。

実施形態１７は、各バンクが先入れ先出しのキューとして編成される、実施形態１６に記載の方法である。

実施形態１８は、前記リザベーションステーションが、前記ロード命令がキャッシュミスをもたらすかどうかの予測を生成するように構成された予測回路をさらに備える、実施形態１４～１７のいずれか１つに記載の方法である。

実施形態１９は、前記予測回路が、グローバルなロードのヒット／ミス履歴によってインクリメントされるカウンタを備える、実施形態１８に記載の方法である。

実施形態２０は、コンピュータプログラム命令がエンコードされた１つまたは複数の非一時的なコンピュータ記憶媒体であって、前記コンピュータプログラム命令は、１つまたは複数のコンピュータによって実行されると、前記１つ以上のコンピュータに、
リザベーションステーションによって、ロード命令がキャッシュミスをもたらすと予測することと、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行すること、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を待機バッファに格納することと、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得すること、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行することと、
を含む動作を実施させる、１つまたは複数の非一時的なコンピュータ記憶媒体である。

本明細書は多くの具体的な実施態様の詳細を含むが、これらはいずれかの発明の範囲または特許請求可能な内容の範囲を制限するものとして解釈すべきではなく、むしろ、特定の発明の特定の実施形態に固有であり得る特徴の説明として解釈すべきである。本明細書において個別の実施形態の文脈で説明された特定の特徴はまた、単一の実施形態において組み合わせて実装され得る。逆に、単一の実施形態の文脈において説明される本発明の様々な特徴を、別々に、または任意の好適なサブコンビネーションで複数の実施形態において実装することもできる。さらに、特徴が特定の組み合わせで機能すると上記で説明されている場合があり、当初はそのように特許請求されていたとしても、特許請求された組み合わせからの１つまたは複数の特徴が、場合によっては組み合わせから削除される場合があり、特許請求された組み合わせが、サブコンビネーションまたはサブコンビネーションのバリエーションを対象とする場合がある。

同様に、図面で動作が特定の順序で示されているが、このことは、望ましい結果を得るために、そのような動作が示された特定の順序または連続した順序で実行されること、または示されたすべての動作が実行されることを必要とするものとして理解されるべきではない。特定の状況では、マルチタスクと並列処理が有利になる場合がある。さらに、上記の実施形態における様々なシステムモジュール及びコンポーネントの分離は、すべての実施形態でのそのような分離を要求しているものと理解されるべきではなく、また記載のプログラムコンポーネント及びシステムは、概して、単一のソフトウェア製品に統合すること、または複数のソフトウェア製品にパッケージ化することができると理解されるべきである。

主題の特定の実施形態が説明されてきた。他の実施形態は、以下の特許請求の範囲内である。例えば、特許請求の範囲に記載されたアクションを異なる順序で実行しても、依然として望ましい結果を得ることができる。一例として、添付の図に示されたプロセスは、望ましい結果を得るために、示された特定の順序、または連続した順序にすることを必ずしも要求してはいない。特定のケースでは、マルチタスクと並列処理が有利になる場合がある。

Claims

複数の処理コアと、
待機バッファ、複数のクラスタ、及び前記複数の処理コアでのアウトオブオーダ実行のための命令の選択を調整するように構成された回路を備えるリザベーションステーションと、を備え、前記リザベーションステーションは、
ロード命令がキャッシュミスをもたらすと予測し、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）前記複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行し、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を前記待機バッファに格納し、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得し、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行するように構成される、コンピューティングデバイス。
前記待機バッファは複数のバンクを備え、前記ロード命令の前記１つまたは複数の依存命令を格納することは、前記ロード命令のすべての依存命令を前記待機バッファの同じバンクに格納することを含む、請求項１に記載のコンピューティングデバイス。
前記待機バッファの各バンクエントリは、論理レジスタ番号、物理レジスタ番号、バンクＩＤ、及び有効値を備える、請求項２に記載のコンピューティングデバイス。
各バンクは、先入れ先出しのキューとして編成される、請求項３に記載のコンピューティングデバイス。
前記リザベーションステーションは、前記ロード命令がキャッシュミスをもたらすか否かの予測を生成するように構成された予測回路をさらに備える、請求項１～４のいずれか１項に記載のコンピューティングデバイス。
前記予測回路は、グローバルなロードのヒット／ミス履歴によってインクリメントされるカウンタを備える、請求項５に記載のコンピューティングデバイス。
前記予測回路は、リオーダバッファの先頭にある命令によって費やされたサイクル数を備える、請求項５に記載のコンピューティングデバイス。
前記予測回路はハッシュロードを備える、請求項５に記載のコンピューティングデバイス。
前記キャッシュミスは、前記コンピューティングデバイスの最終レベルキャッシュにおけるミスである、請求項１～８のいずれか１項に記載のコンピューティングデバイス。
前記複数のクラスタのうちの２つ以上のクラスタは、命令のタイプの異なる組み合わせを実行するように専用化されている、請求項１～９のいずれか１項に記載のコンピューティングデバイス。
第１のクラスタは、単一サイクルで実行される単純命令及び分岐命令を実行するように専用化されている、請求項１０に記載のコンピューティングデバイス。
第２のクラスタは、単純命令及び複数サイクル命令を実行するように専用化されている、請求項１１に記載のコンピューティングデバイス。
複数のバンクが同じクロックサイクルでアクティブ化された場合、前記リザベーションステーションは、バンクレベルのアービトレーションを実施するように構成される、請求項１～１２のいずれか１項に記載のコンピューティングデバイス。
複数の処理コアと、待機バッファ、複数のクラスタ、及び前記複数の処理コアでのアウトオブオーダ実行のための命令の選択を調整するように構成された回路を備えるリザベーションステーションと、を備えるコンピューティングデバイスによって実行される方法であって、
前記リザベーションステーションによって、ロード命令がキャッシュミスをもたらすと予測することと、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）前記複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行すること、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を前記待機バッファに格納することと、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得すること、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行することと、
を含む、方法。
前記待機バッファは複数のバンクを備え、前記ロード命令の前記１つまたは複数の依存命令を格納することは、前記ロード命令のすべての依存命令を前記待機バッファの同じバンクに格納することを含む、請求項１４に記載の方法。
前記待機バッファの各バンクエントリは、論理レジスタ番号、物理レジスタ番号、バンクＩＤ、及び有効値を備える、請求項１５に記載の方法。
各バンクは、先入れ先出しのキューとして編成される、請求項１６に記載の方法。
前記リザベーションステーションは、前記ロード命令がキャッシュミスをもたらすか否かの予測を生成するように構成された予測回路をさらに備える、請求項１４～１７のいずれか１項に記載の方法。
前記予測回路は、グローバルなロードのヒット／ミス履歴によってインクリメントされるカウンタを備える、請求項１８に記載の方法。
コンピュータプログラム命令がエンコードされた１つまたは複数の非一時的なコンピュータ記憶媒体であって、前記コンピュータプログラム命令は、１つまたは複数のコンピュータによって実行されると、前記１つまたは複数のコンピュータに、
リザベーションステーションによって、ロード命令がキャッシュミスをもたらすと予測することと、
ロード命令がキャッシュミスをもたらすと予測した際に、ｉ）複数のクラスタのうちの１つのクラスタを使用して前記ロード命令を実行すること、及びｉｉ）前記ロード命令の１つまたは複数の依存命令を待機バッファに格納することと、
前記ロード命令の実行が完了した際に、ｉ）前記依存命令のうちの１つまたは複数を前記待機バッファから取得すること、及びｉｉ）前記複数のクラスタを使用して前記１つまたは複数の依存命令を実行することと、
を含む動作を実施させる、１つまたは複数の非一時的なコンピュータ記憶媒体。