JP2010146550A

JP2010146550A - 実行中の命令に基づいてコア機能を構成するマルチコア・プロセッサおよび使用の方法

Info

Publication number: JP2010146550A
Application number: JP2009243223A
Authority: JP
Inventors: Louis Capps; ルイス・キャップス; Michael Shapiro; マイケル・シャピロ; Jr Rob Bell; ロブ・ベル・ジュニア; Thomas Cook; トーマス・クック; William E Burky; ウィリアム・イー・バーキー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-12-16
Filing date: 2009-10-22
Publication date: 2010-07-01
Anticipated expiration: 2029-10-22
Also published as: KR101137215B1; KR20100069551A; JP5473530B2; US8495342B2; US20100153700A1

Abstract

【課題】実行中のソフトウェアの特性に基づいて、最適性能のためにプロセッサを自動的、動的、かつ繰り返して再構成する。
【解決手段】プロセッサの複数のコアが、改善された効率を伴って複雑な動作を実行する、より大きいコアへと動的に組み合わされる。集積回路の複数のコアは、第１コアが作業負荷の実行を助ける副コアを管理するようにするために、機能グループのコアの間の高速通信パスによって機能グループへと選択的に組み合わされる。第１コアは、複雑な機能がコアの組合せで単一コアについて使用されるものより少数のサイクルで実行されるようにするために、単一コアとして機能するコアの組合せを作成するために副コアを占有する。複雑な作業負荷は、単純化されたプロセッサ設計を用いる効率的処理を提供するために単純なコアを用いて効率的に管理される。
【選択図】図３

Description

本発明は、現在実行中のソフトウェアの特性に基づいて、最適性能のためにプロセッサを自動的、動的、かつ繰り返して再構成する方法に関する。

サーバおよびワークステーションで見られるものなどの汎用作業負荷用のマイクロプロセッサは、サーバまたはワークステーションで期待される作業負荷を平衡化するように設計される。これは、しばしば、浮動小数点集中型動作または整数集中型動作など、あるタイプの動作を別のタイプの動作より多く使用する作業負荷を実行するためにトレードオフが行われることを意味する。このトレードオフは、通常、期待される動作を実行するために特殊化されたより多くの回路と、より低い頻度で期待される動作のために特殊化されたより少ない回路とをデザイン・インすることを伴う。キャッシュは、プロセッサの熱パラメータおよびコスト・パラメータを高めずに、ワーキング・セットとして知られる作業負荷のクリティカル・セクションを保持するように設計される。一般化された動作を実行するように設計されたプロセッサは、さまざまな作業負荷について良好に働くが、どの１つの特定のタスクについても最適ではない。

ディジタル信号プロセッサ・デバイス（ＤＳＰ）などのタスク固有プロセッサは、その特殊化された作業負荷を実行するときに、汎用プロセッサの性能を何倍も上回ることができる。しかし、特定の作業負荷のためにチューニングされたＤＳＰが、わずかに変化する特性を有するものであっても、任意の他の作業負荷に出会うときに、ＤＳＰは、不十分に動作する傾向がある。

今日の汎用プロセッサは、しばしば、設計された動作について最もありそうな作業負荷を表すと称するベンチマークを中心にして設計される。しかし、汎用プロセッサが、ある動作を別の動作より多く実行する傾向がある動作環境に置かれる場合に、動作効率は、悪くなる。同様に、特殊化されたプロセッサが、その特殊化された環境とは異なる動作環境に置かれる場合に、動作効率は、悪くなる。プロセッサ設計の現状は、プロセッサが、現在実行されているソフトウェア命令の特性に一致するようにそれ自体を再構成することによって作業負荷に動的に適応することを可能にしない。

本発明の目的は、現在実行中のソフトウェアの特性に基づいて、最適性能のためにプロセッサを自動的、動的、かつ繰り返して再構成する方法を提供することである。

本発明の実施形態によれば、プロセッサによって実行される機能は、プロセッサによって実行される機能がより高い効率を伴って実行されるようにするためにプロセッサを再構成することによって、動作環境に動的に適合される。マルチコア特性を有する命令を実行するコアは、複数のコアが共通のコアとして働くようにするために、命令について助けるように他のコアを割り当てる。この手法は、コアが処理の必要に一致するように再構成されるので、複数の作業負荷をより効率的に実行することを可能にする。マルチコア・システムの全体的な設計の複雑さは、より大きくより複雑な単一コアではなく、複雑な動作を実行するための動的割当てに使用可能な単純なコアの使用によって減らされる。

添付図面を参照することによって、本開示をよりよく理解でき、その多数の目的、特徴、および利益を、当業者に明白にすることができる。複数の図面を通じた同一の符号の使用は、類似する要素または同様の要素を示す。

本開示の選択された実施形態を実施できるマルチプロセッサ・コンピュータ・アーキテクチャを示す図である。本開示の選択された実施形態を実施できるマルチコア・プロセッサ・アーキテクチャを示す図である。本開示の選択された実施形態を実施できるプロセスを示す流れ図である。

本開示は、現在実行中のソフトウェアの特性に基づいて、最適性能のためにプロセッサを自動的、動的、かつ繰り返して再構成する方法および装置を説明する。プロセッサの複数のコアが、改善された効率を伴って複雑な動作を実行する、より大きいコアへと動的に組み合わされる。集積回路の複数のコアは、第１コアが作業負荷の実行を助ける副コアを管理するようにするために、機能グループのコアの間の高速通信パスによって機能グループへと選択的に組み合わされる。第１コアは、複雑な機能がコアの組合せで単一コアについて使用されるものより少数のサイクルで実行されるようにするために、単一コアとして機能するコアの組合せを作成するために副コアを占有する。複雑な作業負荷は、単純化されたプロセッサ設計を用いる効率的処理を提供するために単純なコアを用いて効率的に管理される。

ここで図１を参照すると、本開示の選択された実施形態に従って単一スレッド・プログラムの改善された実行を提供するマルチプロセッサ（ＭＰ）データ処理システム１００の高水準ブロック図が示されている。データ処理システム１００は、１つまたは複数のプロセッサ・グループに配置された１つまたは複数の処理ユニットを有し、図示のように、プロセッサ・グループ１１０内の４つの処理ユニット１１１、１２１、１３１、および１４１を含む。対称型マルチプロセッサ（ＳＭＰ）実施形態では、処理ユニット１１１、１２１、１３１、および１４１のすべてが、全般的に同一である、すなわち、これらのすべてが、動作するのに命令およびプロトコルの共通のセットまたはサブセットを使用し、一般に、同一のアーキテクチャを有する。処理ユニット１１１と共に示されているように、各処理ユニットは、１つまたは複数のプロセッサ・コア１１６ａおよび１１６ｂを含み、プロセッサ・コア１１６ａおよび１１６ｂは、コンピュータを動作させるためにプログラム命令を実行する。例示的な処理ユニットは、すべてが集積回路によって形成される、さまざまな実行ユニット、レジスタ、バッファ、メモリ、および他の機能ユニットを有する単一の集積回路スーパースカラ・マイクロプロセッサを含む、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ（Ｒ）によって販売されるＰＯＷＥＲ５（商標）プロセッサである。プロセッサ・コアは、縮小命令セット・コンピューティング（ＲＩＳＣ）技法に従って動作することができ、スーパースカラ・アーキテクチャの性能をさらに改善するために命令のパイプライン化とアウトオブオーダーの実行との両方を使用することができる。

図１にさらに示されているように、各プロセッサ・コア１１６ａおよび１１６ｂは、高速メモリ・デバイスから構成されるオンボード（Ｌ１）キャッシュ・メモリ１１９ａおよび１１９ｂ（通常は、別々の命令キャッシュおよびデータ・キャッシュ）を含む。キャッシュは、一般に、値をシステム・メモリ・デバイス１６１からロードするというより長いステップを回避することによって処理を高速化するために、プロセッサによって繰り返してアクセスされる値を一時的に格納するのに使用される。処理ユニットは、第２レベル（Ｌ２）キャッシュ１１２などの別のキャッシュを含むことができ、Ｌ２キャッシュ１１２は、キャッシュ・メモリ・コントローラ（図示せず）と一緒に、プロセッサ・コア１１６ａおよび１１６ｂのめいめいの部分であるＬ１キャッシュ１１９ａと１１９ｂとの両方をサポートする。Ｌ３キャッシュ１６６などの追加のキャッシュ・レベルを設けることができ、Ｌ３キャッシュ１６６は、ファブリック・バス１５０を介してアクセス可能である。最上位（Ｌ１）から最下位（Ｌ３）までの各キャッシュ・レベルは、連続的に、より多くの情報を、より長いアクセス・ペナルティで格納することができる。たとえば、プロセッサ・コア（たとえば１１６ａ）内のオンボードＬ１キャッシュ（たとえば、１１９ａ）は、１２８キロバイトのメモリというストレージ容量を有することができ、Ｌ２キャッシュ１１２は、４メガバイトのストレージ容量を有することができ、Ｌ３キャッシュ１６６は、１３２メガバイトのストレージ容量を有することができる。欠陥のある処理ユニット・コンポーネントの修理／交換を容易にするために、各処理ユニット１１１、１２１、１３１、および１４１を、モジュラの形で簡単に交換でき、インストールでき、またはデータ処理システム１００からスワップ・アウトできる、交換可能回路基盤、プラグ可能モジュール、または類似する現場交換可能ユニット（ＦＲＵ）の形で構成することができる。

処理ユニットは、システム相互接続またはファブリック・バス１５０を介してデータ処理システム１００の他のコンポーネントと通信する。ファブリック・バス１５０は、１つまたは複数のサービス・プロセッサ１６０、システム・メモリ・デバイス１６１、メモリ・コントローラ１６２、共用またはＬ３キャッシュ１６６、またはさまざまな周辺デバイス１６９あるいはこれらの組合せに接続される。プロセッサ・ブリッジ１７０を、任意選択で、追加のプロセッサ・グループを相互接続するのに使用することができる。図示されてはいないが、データ処理システム１００が、システムの基本入出力論理を格納し、コンピュータ・システムが始めて電源を入れられる（ブートされる）時に必ずオペレーティング・システムを探し、周辺機器の１つからロードする、ファームウェアをも含むことができることを理解されたい。

図１に示されているように、データ処理システム１００は、複数のスレッドの間で共用される複数のシステム・リソース（たとえば、キャッシュ・メモリ、メモリ・コントローラ、相互接続、入出力コントローラなど）を含む。

システム・メモリ・デバイス１６１（ランダム・アクセス・メモリすなわちＲＡＭ）は、オペレーティング・システム１６１Ａおよびアプリケーション・プログラム１６１Ｂを含む、処理ユニットによって使用されるプログラム命令およびオペランド・データを揮発性（一時的）状態で格納する。単一スレッド最適化モジュール１６１Ｃは、オペレーティング・システム・モジュール、ハイパーバイザ・コンポーネントなど、任意の所望の形でシステム・メモリ内に格納され得、プロセッサ・ユニットの複数コアにまたがる単一スレッド式プログラムの実行を最適化するのに使用される。システム・メモリ内のファシリティとして図示されているが、当業者は、単一スレッド最適化モジュール１６１Ｃを、その代わりにデータ処理システム１００の別のコンポーネント内で実施できることを了解するであろう。単一スレッド最適化モジュール１６１Ｃは、プログラマブル・レジスタを含む実行可能命令、コード、または制御論理あるいはこれらの組合せとして実施され、このプログラマブル・レジスタは、下でより十分に説明するように、データ処理システム１００上で動作するコードの性能モニタ情報をチェックし、所定のポリシを使用してコードに優先順位値を割り当て、優先順位値がデータ処理システム１００にまたがって命令と共に分配されるようにするために各命令にそれに割り当てられた優先順位値を用いてタグ付けするように動作可能である。

ここで図２を参照すると、情報を処理するために協力する４つのコア２０２と共に、マルチコア・プロセッサの集積回路２００が示されている。集積回路２００の複数のコアは、集積回路２００内に作られた高速のコア・インターフェース２０４を介して通信する。図２によって示される実施形態では、４つのコア２０２のそれぞれが、集積回路２００の縁に沿った、外部デバイスと通信する６４ビットの外部インターフェース２０６を有する。代替実施形態では、より多数のコア２０２を、外部インターフェースが集積回路２００の下側または上側の表面に沿って確立された状態で、集積回路２００に集積することができる。各コア２０２を、特殊化された機能を実行するように設計することができる。たとえば、コアを、整数ベクトル・ユニットであるコアなど、整数機能を実行することに、または浮動小数点機能を実行することに特殊化することができる。相対的な関係で、各コア２０２は、設計の複雑さを減らすために単純化された設計を有するが、コア２０２の組合せは、下で示すように相対的に複雑なタスクを実行するのに使用される。

マルチコア・プロセッサの集積回路２００は、コアのグループが単一コアとして有効に動作する、コア・インターフェース２０４を介して通信する共通のユニットとして働くようにするために、コア２０２を組合せに選択的にグループ化することによって動作を実行する。コア２０２の組合せは、あるスレッドに割り当てられる複数のコアを含み、割り当てられるコアの個数は、そのスレッドを効率的な形で実行するために管理される。各コア２０２で動作する運営モジュール２０８は、他のコア２０２と組み合わされて実行すべき動作を識別するために、そのコア２０２での動作を監視する。たとえば、あるコア２０２でのスレッドの実行中に、そのコア２０２に関連する運営モジュール２０８は、複数のコアの間での実行のための分割に従う複雑な命令など、１つまたは複数のマルチコア特性を有する作業負荷を識別するために、スレッドの来るべき命令を先読みする。マルチコア特性が検出される場合に、運営モジュール２０８は、マルチコア・マネージャ２１０を開始して、命令の実行のために組み合わせるために１つまたは複数の他のコア２０２を突き止め、割り当てる。図２によって示される実施形態では、運営モジュール２０８およびマルチコア・マネージャ２１０は、各コア２０２に分散されるが、代替実施形態では、マルチコア組合せの運営および管理を、集積回路２００の別々の部分のより集中化された論理を用いて、またはさまざまなコア２０２を介するさまざまな度合の論理の分散を用いて、管理することができる。図２によって示される実施形態では、マルチコア特性を識別する第１コア２０２内の運営モジュール２０８は、副コアの運営モジュール２０８およびマルチコア・マネージャ２１０との通信によって命令の実行を手伝うために副コア２０２を割り当て、管理する。副コア２０２は、アイドル状態である場合、または主コアの位置および用いられる機能のタイプに基づいて動作が優先権を有する場合に、選択される。たとえば、整数機能を実行する第１コアは、手元にある作業負荷を実行するために、コア・インターフェース２０４上で適当な速度を有する、整数機能に特殊化された副コアを選択する。

複数のコア２０２のうちの第１コアが、１つまたは複数の副コア２０２を命令に割り当てたならば、副コア２０２のマルチコア・マネージャ２１０は、第１コア２０２の現在の状態をコピーし、第１コアと副コアとの間で命令実行を同期化することを試みて第１コア２０２から提供されるスレッドの投機実行を開始する。コア２０２が同期化される時に、作業負荷は、減らされたサイクル数など、減らされた時間でタスクを達成するためにコア２０２の間で分担される。たとえば、第１および副コア２０２は、ベクトル化の対象である共通の同一の命令に達する。次に、それらの命令は、スレッド・データの対向するセクションに対して作業を実行するコアを用いてベクトル化される。各コア２０２がそのめいめいの機能を完了する時に、各コアからの結果が、スレッドを継続するために第１コアに戻って組み合わされる。

ここで図３を参照すると、流れ図に、より大きいベクトル化されたユニットを作成するために整数ベクトル・ユニットを一緒に動的に結び付けるための複数のコアの割当ての例が示されている。このプロセスは、ステップ２１２で、複数のコアのうちの第１コアを使用するスレッドの実行と共に開始される。スレッドの実行中に、命令が、ステップ２１４で実行されて、１つまたは複数のマルチコア特性が検出される。マルチコア特性が検出されない場合には、このプロセスは、ステップ２１２に戻って、単一コアを用いてスレッド命令を継続する。マルチコア特性が検出される場合に、このプロセスは、下で説明するステップ２１６に継続する。現在の例において、ベース・コア設計は、単一の６４ビットからなるベクトル・ユニットを有するが、スレッドの命令セットおよびレジスタ・セットは、１２８ビット・データ・サイズを中心として設計される。この例では、単一のコア・ベクトル・ユニットが、８つの８ビット動作、４つの１６ビット動作、２つの３２ビット動作、または単一の６４ビット動作でデータにまたがって動作することができる。したがって、単一のコア・ベクトル・ユニットが、他のベクトル・ユニットと組み合わされずにスレッドを実行する場合に、２サイクルという最小値が、１２８ビット・データ・サイズに対する動作を実行するのに必要になるはずである。この場合に、コアに関連する運営モジュールは、マルチコア特性を識別する。というのは、スレッドの命令セットまたはレジスタ・セットあるいはその両方が、１２８ビットの幅すなわちベクトル・ユニットの幅の２倍を有するからである。代替実施形態では、スレッドに割り当てられるベクトル・ユニットの個数は、ベクトル・ユニット幅と比較した命令セット幅またはレジスタ・セット幅もしくはその両方の倍数の数に基づく。代替実施形態では、他のタイプのマルチコア特性を、複数のコアをスレッドまたは命令に割り当てるための基礎として使用することができる。たとえば、コード・シーケンスに追加されるコンパイラ・ヒントまたはインジケータを使用して、コアが複数のコアの間で作業負荷を分割できるときを予測するのを助けることができる。

マルチコア特性がステップ２１４で検出される場合に、このプロセスは、ステップ２１６に継続して、第１コアによる動作を手伝うために１つまたは複数の副コアをスレッドに割り当てる。１つまたは複数の副コアは、それらが動作を自由に実行できる場合に、または動作が副コアに関連する動作より高い優先順位を有する場合に、割り当てられる。ステップ２１８で、第１コアの状態を副コアにコピーし、ステップ２２０で、コアは、第１コアおよび副コアを共通の命令で同期化するために投機実行を実行する。ステップ２２２で、同期化された実行が検出され、その結果、ステップ２２４で、コアは、ベクトル・データの対向するセクションに対して命令を実行するためにベクトル化される。上の例を使用すると、１２８ビット命令が２つのベクトル・ユニット・コアを用いて実行されるときには、各コアがデータのうちの６４ビットを操作するので、１つのサイクルだけが必要である。順序通りの複数ベクトル動作は、データを第１コアに戻ってマージする必要が生じるまで、別々のコアで実行され続ける。ステップ２２６で、結果が、動作の完了時に、ベクトル化されたコアから第１コアに戻って組み合わされ、このプロセスは、ステップ２１２に戻る。

この開示は、現在実行中の命令の特性の分析に基づいて、最適性能のためにプロセッサを自動的、動的、かつ繰り返して再構成する方法およびシステムを提供する。単純なコアが、複雑な命令をより効率的に実行すると同時に設計の複雑さおよびプロセッサのコストを低く保つために、より大きいコアへと動的に組み合わされる。管理するコアによる他のコアの命令セットへの選択的割り当ては、プロセッサがさまざまな命令セットによりたやすく適合するようにするための命令実行の柔軟性を改善する。

その結果、本開示は、すべての面における同等物への十分な認識を与える添付の特許請求の範囲の趣旨および範囲によってのみ限定されることが意図されている。

１００データ処理システム
１１０プロセッサ・グループ
１１１処理ユニット
１１２第２レベル（Ｌ２）キャッシュ
１１６ａプロセッサ・コア
１１６ｂプロセッサ・コア
１１９ａオンボード（Ｌ１）キャッシュ・メモリ
１１９ｂオンボード（Ｌ１）キャッシュ・メモリ
１２１処理ユニット
１３１処理ユニット
１４１処理ユニット
１５０ファブリック・バス
１６０サービス・プロセッサ
１６１システム・メモリ・デバイス
１６１Ａオペレーティング・システム
１６１Ｂアプリケーション・プログラム
１６１Ｃ単一スレッド最適化モジュール
１６２メモリ・コントローラ
１６６Ｌ３キャッシュ
１６９周辺デバイス
１７０プロセッサ・ブリッジ
２００集積回路
２０２コア
２０４コア・インターフェース
２０６外部インターフェース
２０８運営モジュール
２１０マルチコア・マネージャ

Claims

複数のコアを有するプロセッサの再構成の方法であって、
前記複数のコアのうちの第１コアで機能を実行することと、
前記機能の所定のマルチコア特性を検出することと、
複数のコアに前記機能を実行させるために前記プロセッサを再構成することと
を含む方法。
前記機能が、浮動小数点機能を含む、請求項１に記載の方法。
前記機能が、整数機能を含む、請求項１に記載の方法。
前記複数のコアが、複数の整数ベクトル・ユニットを含み、前記プロセッサを再構成することが、前記整数機能を実行するために動作可能な共通のベクトル化されたユニットを作成するために複数の整数ベクトル・ユニットを一緒に結び付けることを含む、請求項３に記載の方法。
所定のマルチコア特性を検出することが、前記コアのベクトル・ユニット・サイズより大きいデータ・サイズを有する命令セットを検出することを含む、請求項１に記載の方法。
所定のマルチコア特性を検出することが、コンパイラによって挿入されたインジケータを検出することを含む、請求項５に記載の方法。
複数のコアに前記機能を実行させるために前記プロセッサを再構成することが、
前記機能を実行するために１つまたは複数の副コアを割り当てることと、
前記第１コアの命令状態を前記副コアにコピーすることと、
前記第１コアおよび前記副コアを用いて前記機能を実行することと
をさらに含む、請求項１に記載の方法。
前記第１コアおよび前記副コアを用いて前記機能を実行することが、
命令実行を同期化するために前記命令の投機実行を実行することと、
ベクトル化の対象である共通命令を前記第１コアおよび前記副コア上で見つけることと、
データの１つまたは複数のセクションを有する命令を前記第１コアおよび前記副コア上で実行することと、
前記実行することからの結果を前記第１コア上で組み合わせることと
をさらに含む、請求項７に記載の方法。
プロセッサであって、
互いとインターフェースされた複数のコアであって、各々が、所定の機能を実行するように動作可能である、複数のコアと、
前記複数のコアのうちの第１コアに関連する運営モジュールであって、前記第１コア上で実行される機能のマルチコア特性を検出するように動作可能である、運営モジュールと、
前記第１コアに関連し、前記運営モジュールとインターフェースされるマルチコア・マネージャであって、前記マルチコア特性の前記検出に応答して、前記複数のコアのうちの副コアに前記機能を実行させるために前記プロセッサを再構成するように動作可能である、マルチコア・マネージャと
を含むプロセッサ。
前記マルチコア・マネージャが、
前記機能を実行するために１つまたは複数の副コアを割り当てることと、
前記第１コアの命令状態を前記副コアにコピーすることと、
前記第１コアおよび前記副コアを用いて前記機能を実行することと
によって前記プロセッサを再構成する、請求項９に記載のプロセッサ。
前記第１コアおよび前記副コアを用いて前記機能を実行することが、
命令実行を同期化するために前記命令の投機実行を実行することと、
ベクトル化の対象である共通命令を前記第１コアおよび前記副コア上で見つけることと、
データの１つまたは複数のセクションを有する命令を前記第１コアおよび前記副コア上で実行することと、
前記実行することからの結果を前記第１コア上で組み合わせることと
をさらに含む、請求項１０に記載のプロセッサ。
複数のコアを有するプロセッサの構成の方法であって、
前記コアの幅より大きい動作幅を有する命令を第１コアで検出することと、
前記検出に応答して前記命令を実行するために複数の副コアを割り当てることと、
前記複数のコア上で前記命令を実行することと、
前記複数のコアからの結果を前記第１コアで組み合わせることと
を含む方法。
前記コアが、ｎビットの幅を有し、前記命令が、ｎ×ｍビットの動作幅を有する、請求項１２に記載の方法。
前記第１コアおよび前記副コアが、整数ベクトル・ユニットを含み、前記複数のコア上で前記命令を実行することが、複数のベクトル動作を実行することを含む、請求項１２に記載の方法。
前記複数のコア上で前記命令を実行することが、
前記第１コアの実行状態を１つまたは複数の副コアにコピーすることと、
前記第１コアと前記１つまたは複数の副コアとを同期化するために投機実行を実行することと
をさらに含む、請求項１２に記載の方法。