JP6836065B2 - 情報処理装置、pld管理プログラム及びpld管理方法 - Google Patents

情報処理装置、pld管理プログラム及びpld管理方法 Download PDF

Info

Publication number
JP6836065B2
JP6836065B2 JP2017034302A JP2017034302A JP6836065B2 JP 6836065 B2 JP6836065 B2 JP 6836065B2 JP 2017034302 A JP2017034302 A JP 2017034302A JP 2017034302 A JP2017034302 A JP 2017034302A JP 6836065 B2 JP6836065 B2 JP 6836065B2
Authority
JP
Japan
Prior art keywords
parallelism
circuit
degree
execution time
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017034302A
Other languages
English (en)
Other versions
JP2018142046A (ja
Inventor
デビッド タシ
デビッド タシ
久典 藤澤
久典 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017034302A priority Critical patent/JP6836065B2/ja
Priority to US15/901,931 priority patent/US10534621B2/en
Publication of JP2018142046A publication Critical patent/JP2018142046A/ja
Application granted granted Critical
Publication of JP6836065B2 publication Critical patent/JP6836065B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/34Circuit design for reconfigurable circuits, e.g. field programmable gate arrays [FPGA] or programmable logic devices [PLD]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • G06F15/7871Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/327Logic synthesis; Behaviour synthesis, e.g. mapping logic, HDL to netlist, high-level language to RTL or netlist
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/34Circuit design for reconfigurable circuits, e.g. field programmable gate arrays [FPGA] or programmable logic devices [PLD]
    • G06F30/343Logical level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Stored Programmes (AREA)
  • Logic Circuits (AREA)

Description

本発明は,情報処理装置、PLD管理プログラム及びPLD管理方法に関する。
プログラマブルロジックデバイス(Programmable Logic Device, 以下PLDと称する。)は、予め複数の論理回路要素、メモリ回路要素、配線、スイッチ等が形成された集積回路に、所定の処理を実行可能な回路をコンフィグレーションするためのコンフィグレーションデータが設定または書込まれると、所定の処理を実行可能な回路をリコンフィグレーションする。このようなPLDは、例えばFPGA(Field Programmable Gate Array)などであり、コンフィグレーションデータを書き換えることで内部の回路を様々な論理回路にリコンフィグレーション可能なLSIである。以下、PLDの1つであるFPAGを例にして説明する。
プロセッサは、ソフトウエアの所定の処理(例えばジョブ)をハードウエアの専用回路で実行するとき、その専用回路をコンフィグレーションするためのコンフィグレーションデータをFPGAに設定または書込んでFPGA内に専用回路をコンフィグレーションし、その専用回路に所定の処理を実行させる。また、専用回路が所定の処理を終了すると、異なる処理を実行する別の専用回路のコンフィグレーションデータをFPGAに設定または書き込んでFPGA内に別の専用回路をコンフィグレーションし、別の専用回路に異なる処理を実行させる。プロセッサがソフトウエアの所定の処理をFPGAの専用回路に実行させることで、FPGAをプロセッサのアクセラレータとして利用する。これにより、プロセッサを有する情報処理装置(コンピュータ)を省電力化、高機能化できる。
FPGAの大規模化に伴い、FPGA内に複数の論理回路をコンフィグレーションし、複数の論理回路を並行して動作させることができる。また、FPGA内にコンフィグレーションした複数の論理回路を動作させながら、一部の論理回路をリコンフィグレーションして新たな論理回路の動作を開始するなど、複数の論理回路を非同期で動的にリコンフィグレーションし、非同期で並列に動作させることが可能になる。
FPGAに複数の回路をコンフィグレーションすることについては以下の特許文献に開示されている。特許文献5は先願であるが公知例ではない。
特開2015−154417号公報 特開2004−32043号公報 特開2016−76867号公報 特開2015−231205号公報 特願2016−248297
一方で、複数のユーザが、プロセッサとFPGAを搭載した情報処理装置を使用する場合、複数のユーザのプログラムの特定の処理を、FPGAにコンフィグレーションした複数の論理回路がそれぞれ処理することがある。その場合、複数のユーザのプログラムは、互いの論理回路を意識せず、それぞれの論理回路をFPGA内にコンフィグレーションし、コンフィグレーションされた複数の論理回路がFPGAを部分的に且つ動的に共用する。その結果、FPGAとメモリとの間のバスの使用帯域がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。
バス帯域にボトルネックが発生した場合、所定の論理回路の並列度を低下させ、代わりに別の論理回路の並列度を上昇させ、全体の実行時間の悪化を抑制することが考えられる。並列度を上昇した場合の実行時間の短縮は論理回路の種類によって異なる。
そこで,本発明の目的は,PLDの回路リソースの使用効率を向上する情報処理装置、PLD管理プログラム及びPLD管理方法を提供することにある。
実施の形態の第1の側面は,プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、情報処理装置である。
第1の側面によれば,PLDの回路リソースの使用効率を向上することができる。
本実施の形態における情報処理装置の構成例を示す図である。 FPGAのコンフィグレーション例を示す図である。 FPGAのリコンフィグレーション領域の一例を示す図である。 複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。 FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。 FPGAにおけるバス帯域のボトルネックを説明する図である。 第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。 CI処理回路の場合の実行時間について説明する図である。 並列度Piを変化させた場合の、CI処理回路の実行時間の違いを示す図である。 第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。 プロセッサが管理するユーザ回路のパラメータを示す図表である。 ユーザ回路の並列度調整処理S8のフローチャート図である。 工程S13Aの並列度を増加する処理を示すフローチャート図である。 図12の工程S15,S15B,S15C,S15Dの詳細なフローチャートを示す図である。 工程S17の処理を示すフローチャート図である。 第1の具体例を示す図である。 第2の具体例を示す図である。
図1は、本実施の形態における情報処理装置の構成例を示す図である。情報処理装置であるサーバ10は、OSやアプリケーションプログラムやミドルウエアプログラムを実行するプロセッサまたはCPU(Central Processing Unit)11と、DRAMなどのメインメモリ12を接続するCPUバスなどの第1のバスBUS_1を有する。さらに、サーバ10は、マウス、キーボード、表示パネルなどのI/Oデバイス(13)、ネットワークNETに接続されるNIC(Network Interface Card)14、そして、OS、アプリケーションプログラムAPL、データDATAなどを記憶するHDD(Hard Disk Drive)やSSD(Solid State Drive)などの補助記憶装置17などを有する。そして、それらと第1のバスBUS_1がPCIバスなどの第2のバスBUS_2を介して接続される。
さらに、サーバ10は、任意の論理回路をリコンフィグレーション可能なPLD(Programmable Logic Drive)15と、PLDのコンフィグレーションデータなどを記憶するメモリ16と、それらを接続するバスである第3のバスBUS_3を有する。PLDは例えばFPGAなどであり、メモリ16はFPGA用メモリ、第3のバスはFPGAバスである。
たとえば、CPU11が実行するOSのジョブ管理プログラムが、実行中のアプリケーションプログラム中にFPGA内の論理回路により処理可能なジョブを検出した場合、CPUがその論理回路をコンフィグレーションするためのコンフィグレーションデータをFPGA内に書き込んで(または設定して)論理回路をコンフィグレーションし、その論理回路を実行する。
補助記憶装置17には、FPGAを管理するFPGA管理プログラムと、論理回路をコンフィグレーションするコンフィグレーションデータC_DATAが記憶される。サーバ10が起動する時、補助記憶装置内のOS、アプリケーションAPL、FPGA管理プログラムがメインメモリ12に展開され、プロセッサ11により実行される。また、補助記憶装置内のコンフィグレーションデータC_DATAはFPGA用メモリに展開される。
FPGA15は、コンフィグレーションデータを変更することで様々な論理回路をコンフィグレーションすることができるので、サーバ10が製造された後でも、コンフィグレーションデータを変更することで、様々なジョブの処理をFPGA内にコンフィグレーションした論理回路で高速に処理することができる。
クラウドサービス等において、複数のユーザがそれぞれのアプリケーションプログラムをサーバ10に実行させる。その結果、サーバ10のプロセッサ11は、複数のユーザのアプリケーションプログラムを並列に実行する。そして、それぞれのアプリケーションプログラムの所定の処理(ジョブ)を実行する論理回路が、FPGA15内に非同期で構築され、構築された複数の論理回路(ユーザ回路)が並列に動作してそれぞれの所定の処理(ジョブ)を実行する。
図2は、FPGAのコンフィグレーション例を示す図である。図2のFPGA15は、FPGAの第3のバスBUS_3とのバスインターフェース回路BUS_IFと、コンフィグレーションデータの書込み制御及びその他の制御を行う制御回路151と、コンフィグレーションデータが書き込まれるコンフィグレーションデータメモリC_RAMと、書き込まれたコンフィグレーションデータにより種々の論理回路がリコンフィグレーションされるリコンフィグレーション領域RC_REGと、内部バスI_BUSを有する。
リコンフィグレーション領域RC_REGには、図示しないが、複数の論理回路要素、メモリ回路要素、配線、スイッチ等が予め形成される。また、リコンフィグレーション領域RC_REGは、論理的にまたは物理的に区分された複数の部分リコンフィグレーションブロックPBに区分される。そして、リコンフィグレーションされる論理回路は、各部分リコンフィグレーションブロックPBに収容できる回路ブロックをコンフィグレーション単位として、単数または複数の各部分リコンフィグレーションブロック内にコンフィグレーションされる。したがって、例えば、コンフィグレーションデータメモリC_RAMは、複数の部分リコンフィグレーションブロックPBに対応する複数の記憶領域に区分され、各記憶領域にコンフィグレーションデータC_DATAが書き込まれると、その記憶領域に対応する部分リコンフィグレーションブロックPBにそれぞれの論理回路がコンフィグレーションされる。
さらに、あるジョブを実行する論理回路(ユーザ回路)が複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合がある。その場合は、複数の機能ブロック領域に対応する記憶領域に論理回路をコンフィグレーションするためのコンフィグレーションデータがそれぞれ書き込まれ、各部分リコンフィグレーションブロックにコンフィグレーションされた複数の回路により前述のジョブの処理を実行する論理回路(ユーザ回路)がコンフィグレーションされる。
上記のとおり、FPGA内のリコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPBでコンフィグレーションされる。そして、各ユーザのアプリケーションプログラム内の所定の処理(ジョブ)を実行する論理回路は、単一の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合と、複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合とがある。
リコンフィグレーション領域RC_REG内にコンフィグレーションされた論理回路には、バスインターフェースBUS_IFを介して、CPUから入力データが入力され、入力データの処理結果がCPUに出力される。また、リコンフィグレーション領域RC_REG内にコンフィグレーションされた複数の論理回路は、内部バスI_BUS、バスインターフェースBUS_IF、及びFPGAバスBUS_3を介して、FPGA用メモリ16と動作中のデータの送受信を行う。
図3は、FPGAのリコンフィグレーション領域の一例を示す図である。図2に示したとおり、リコンフィグレーション領域RC_REGは、マトリクス状に配置された複数の部分リコンフィグレーションブロックPBに区分される。また、リコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPB内に構成される複数の論理回路間のデータ転送や、図2のバスインターフェースBUS_IFと部分リコンフィグレーションブロックPB内にコンフィグレーションされる論理回路との間のデータ転送のための運用回路OCを有する。運用回路OCは、ネットワーク配線と、ネットワークスイッチと、ルーティング回路など含む。
図3の例では、複数の部分リコンフィグレーションブロックPBのうち、左側の3×3の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザAの論理回路UC_Aがコンフィグレーションされ、右側の2×4の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザBの論理回路UC_Bがコンフィグレーションされる。また、回路がコンフィグレーションされていない8個の部分リコンフィグレーションブロックPBが無色で示されている。
図4は、複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。時間T1では、FPGA内のリコンフィグレーション領域RC_REGには論理回路はコンフィグレーションされていない。次に、時間T2で、ユーザAの論理回路が2つの部分リコンフィグレーションブロックにコンフィグレーションされジョブの実行を開始する。その後、時間T3で、ユーザBの論理回路が6個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。時間T3の後でユーザAの論理回路が処理を完了し、時間T4で、ユーザCの論理回路が4個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。その後、時間T5でユーザBの論理回路が処理を終了し、時間T6でユーザDの論理回路が4個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。それぞれコンフィグレーションされた論理回路は、処理が完了すると、例えば、論理回路をコンフィグレーションしていた部分リコンフィグレーションブロックが開放され、他の論理回路をコンフィグレーション可能な状態に開放される。その場合、例えば、解放された部分リコンフィグレーションブロックに他の論理回路がコンフィグレーションされるまでは、コンフィグレーションデータメモリC_RAM内のコンフィグレーションデータは削除されず、再度同じ論理回路のコンフィグレーション要求が発生すると、コンフィグレーション済みの論理回路が有効化される。
図4に示すとおり、FPGAのリコンフィグレーション領域内には、同じユーザのまたは異なるユーザの異なる論理回路が非同期でコンフィグレーションされ、コンフィグレーションされた論理回路がジョブの実行を行う。そして、前述のサーバ10内のFPGA管理プログラムが、FPGA内に論理回路をリコンフィグレーションする制御を行う。
図5は、FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。PLDの1つであるFPGAには、コンフィグレーションデータを設定することで論理回路がコンフィグレーションされ、その論理回路がジョブを実行し、CPUのアクセラレータの機能を有する。しかし、FPGA内の論理回路は、コンフィグレーションデータでリコンフィグレーションされたルックアップテーブルやスイッチング回路でコンフィグレーションされるため、通常のカスタム集積回路よりも動作速度が低い。そのため、FPGA内の論理回路をCPUのアクセラレータとして利用するための1つの方法として、FPGA内に同じ論理回路を複数個コンフィグレーションし、複数個の論理回路で並列動作することが考えられる。
例えば、FPGA管理プログラムを実行するプロセッサは、あるジョブの処理を実行する論理回路をFPGA内にコンフィグレーションする場合、リコンフィグレーション領域RC_REGに空きがあれば、同じ論理回路を複数個コンフィグレーションするようにFPGAを制御し、複数個の同じ論理回路に並列にジョブの実行を行わせる。
図5の例では、時間T11で、FPGA管理プログラムを実行するプロセッサは、ユーザAの論理回路UC_Aを6個の部分リコンフィグレーションブロックにコンフィグレーションし、ユーザBの論理回路UC_Bを2個の部分リコンフィグレーションブロックにコンフィグレーションする。そして、その後の時間T12では、プロセッサは、2つ目のユーザBの論理回路UC_B2を2個の部分リコンフィグレーションブロックにコンフィグレーションし、2個の論理回路UC_B, UC_B2に並列動作を行わせる。同様に、時間T13では、プロセッサは、2つ目のユーザAの論理回路UC_A2を6個の部分リコンフィグレーションブロックにコンフィグレーションし、2個の論理回路UC_A, UC_A2に並列動作を行わせる。これにより、FPGA内の論理回路の動作速度を高速化することができる。
例えば、ユーザの論理回路が加算器であり、1個の加算器がNサイクルで演算を完了する場合、2個の加算器をコンフィグレーションして並列に加算演算すれば、N/2サイクルで演算を完了する。これが論理回路の並列度を増加してジョブの実行時間を短縮する例である。
[バス帯域のボトルネック]
図6は、FPGAにおけるバス帯域のボトルネックを説明する図である。FPGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3を介して図1、2に示したFPGA用メモリ16にアクセスする。FPGA用メモリ16には、リコンフィグレーションされる論理回路のコンフィグレーションデータと、コンフィグレーションされた論理回路がアクセスするデータとが格納される。したがって、FPGA管理プログラムを実行するプロセッサが、FPGAにある論理回路のコンフィグレーションを要求したとき、FPGA内の制御回路がFPGA用メモリにアクセスし、論理回路のコンフィグレーションデータをダウンロードする。さらに、FPGA内にコンフィグレーションされた論理回路がそれぞれのジョブを実行すると、各論理回路がFPGA用メモリ内に格納されているデータにアクセスする。したがって、PFGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3が提供可能な帯域のうち、それぞれのデータ転送量に対応する帯域を使用する。
図6の例では、時間T21で、FPGAのリコンフィグレーション領域RC_REG内に、ユーザ1,3,4のユーザ回路UC_1、UC_3、UC_4が並列度1でコンフィグレーションされ、ユーザ2のユーザ回路UC2が並列度2でコンフィグレーションされている。FPGAバスBUS_3の提供可能な帯域(データ転送量の上限値)が例えば1350MB/Sであり、ユーザ1,2,3,4のユーザ回路UC_1, UC_2、UC_3, UC_4の平均データ転送量がそれぞれ100MB/S、200MB/S、200MB/S、300MB/Sとする。図6の状態では、コンフィグレーションされたユーザ回路UC_1〜UC_4の平均データ転送量の合計値が100+200*2+200+300=1000MB/Sである。したがって、合計値1000MB/Sは上限値1350MB/Sに達していない。この状態では、FPGAバスBUS_3にボトルネックは発生しておらず、各ユーザ回路は予測されたデータ転送量で動作し、ジョブの実行時間も予測された実行時間になる。
一方、時間T22では、FPGA管理プログラムを実行するプロセッサが、FPGAの制御回路にユーザ2の論理回路UC_2の並列度を4に増加する要求を行い、論理回路UC_2の並列度が4に増加されている。この場合、プロセッサは、リコンフィグレーション領域内に論理回路UC_2の並列度を4に増加するために必要な部分リコンフィグレーションブロックの空きがあり、且つ論理回路UC_2のデータ転送量の予測が低くかったため、並列度を4に増加してもバス帯域の上限値を超えることはないと予測されていたと考えられる。
しかしながら、実際には、動作中の論理回路のデータ転送量の合計値が100+200*4+200+300=1400MB/Sとなり、FPGAバスの上限値1350MB/Sを超えてしまい、PFGAバスの帯域にボトルネックが発生する場合がある。その結果、並列度を4に増加されたユーザ2の論理回路UC_2は、ジョブの実行に必要な帯域を使用することができず、ユーザ2の論理回路UC_2による1つのジョブの実行時間は、予測した実行時間より長くなる。
上記のとおり、FPGA内のリコンフィグレーション領域RC_REG内の部分リコンフィグレーションブロックに空きがある場合、論理回路の並列度を増加させたとしても、FPGAバスの帯域が足りず論理回路のデータ転送量の合計値がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。その結果、並列度を増加した論理回路の性能は上がらず、リコンフィグレーション領域内の部分リコンフィグレーションブロックを無駄に使用することになる。
[第1の実施の形態]
図7は、第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。このFPGA管理方法では、ユーザの論理回路に、1つのジョブを実行するのに要する実行時間を測定する実行時間測定回路と、FPGAバスへのアクセスを監視しバスアクセスの単位時間当たりのデータ転送量の平均値を測定するデータ転送量測定回路とが含まれる。これらの測定回路は、FPGAのコンフィグレーションデータによりコンフィグレーション可能である。そして、FPGAの制御回路は、ユーザの論理回路をコンフィグレーションデータでコンフィグレーションするときに同時に測定回路もコンフィグレーションデータでコンフィグレーションする。または、測定回路を予め部分リコンフィグレーションブロックに形成しておき、部分リコンフィグレーションブロックにコンフィグレーションされる論理回路の測定回路として使用してもよい。
そして、FPGA管理プログラムを実行するプロセッサは、FPGA内のリコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値を超えない範囲で、リコンフィグレーション領域内にコンフィグレーションする複数の論理回路それぞれの並列数を増加する。
また、第1の実施の形態では、プロセッサは、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値に達した場合、複数の論理回路のうち、所定の条件を満たす論理回路の並列度を減少する。そして、プロセッサは、並列度を減少させた論理回路以外の別の論理回路のいずれかの並列度を、FPGAバスのデータ転送量の上限値を超えない範囲で、増加する。これにより、並列度を増加した論理回路の動作が予測より短い時間で終了することが期待できる。プロセッサは、並列度を増加した別の論理回路の動作終了後、上限値を超えない範囲で、並列度を減少した論理回路の並列度を増加する。これにより、当該論理回路の動作が予測より短い時間で終了することが期待できる。
図7の例で説明すると、プロセッサが、図6の時間T22の状態で動作中の論理回路のデータ転送量の測定値を取得し、その合計値がFPGAバスの限界値に達していることを検出する。これにより、図7の時間T23に示すとおり、プロセッサは、バスのボトルネックの原因と考えられるユーザ2の論理回路UC_2の並列度を4から2に減らす。その後、論理回路のデータ転送量が低いユーザ1の論理回路UC_1の並列度を1から4に増加する。この結果、動作中の論理回路のデータ転送量の測定値の合計が、100*4+200*2+200+300=1300MB/SとなりFPGAバスの上限値1350MB/S未満になり、バス帯域のボトルネックは解消される。
これにより、ユーザ1の論理回路UC_1の動作時間が短くなり短時間で動作完了することが予測される。そして、時間T24に示すとおり、ユーザ1の論理回路UC_1の動作が完了すると、プロセッサは、並列度を減少したユーザ2の論理回路UC_2を優先的に並列度2から4に増やす。そして、プロセッサは、動作中の論理回路のデータ転送量の測定値を取得し、測定値の合計200*4+200+300=1300MB/SがFPGAバスの上限値1350MB/S未満であることを検出する。この状態でも、バス帯域のボトルネックが解消され、論理回路が十分な動作を行うことができる。
[データ処理タイプCIとDI]
図7の時間T23でユーザ回路UC_1の並列度を増やした場合、ユーザ回路UC_1のデータ処理パターンによって、実行時間の短縮度が異なる。例えば、データ処理パターンには、データ・インテンシブ(DI:Data Intensive)と、コンピュテーション・インテンシブ(CI:Computation Intensive)とがある。一般に、DI処理回路の場合は、並列度を増やすと実行時間がそれに比例して短くなるが、CI処理回路の場合は、並列度を増やしても実行時間の短縮は少ない場合がある。
DI処理回路の場合、回路が動作中、データの読み出し(ロード)とデータの書込み(ストア)が常時発生し、ユーザ回路内のメモリアクセスを行うロードストアユニット(LSU)の稼働率が高く、バスの使用帯域も高くなる。したがって、バスボトルネックの原因となる。バスボトルネックが発生した場合、DI処理回路の性能が悪化し、ジョブの実行時間は長くなる傾向にある。また、DI処理回路は、一般に、並列度をN倍にすると実行時間は1/N倍に短縮する。
一方、CI処理回路の場合、メモリアクセスが回路動作の最初と最後に発生する。つまり、回路動作の最初にデータ処理に必要な入力データがメモリから読み出され、回路動作の最後にデータ処理後の出力データがメモリに書込まれる。データ処理中メモリアクセスはほとんど発生しない。したがって、CI処理回路は、バス帯域を使用しない時間が比較的長く、バスの使用帯域は小さく、バスボトルネックが発生してもCI処理回路の性能は悪化せず、ジョブの実行時間はあまり変わらない。また、CI処理回路は、一般に、並列度を増やしても実行時間の短縮は少ない。
図7の場合、時間T23でユーザ1の論理回路UC_1がDI処理回路の場合、その並列度を増やすと、ジョブの実行時間は増加率に応じて短くなるが、一方、論理回路UC_1がCI処理回路の場合、その並列度を増やしてもジョブの実行時間はあまり短縮されない。この理由は、通常、ユーザ回路はパイプライン構造を有し、パイプライン構造では既にデータ処理が並列化されるからである。そのため、CI処理回路の場合は、回路の並列度を増やしても、パイプラインのイニシエーション・インターバル(Initiation Interval)しか実行時間が短縮されない。一方、DI処理回路の場合は、回路の並列度を増やすと、データ処理中のメモリアクセスも並列化され、通常、並列度をN倍にすると実行時間は1/Nに短縮される。
図8は、CI処理回路の場合の実行時間について説明する図である。CI処理回路の実行時間は、前述の実行回数Nと、1回の実行で処理されるデータセットSと、入力データのロード(読み出し)時間TLDと、出力データのストア(書込み)時間TSTと、1つのデータセットの処理時間TCOMP_SINGLEと、複数のデータの処理開始間隔であるイニシエーション・インターバルTIIとで予測することができる。
図8に示されるとおり、CI処理回路は、実行開始時に入力データをメモリからロードする処理LDを行い、入力データの計算処理COMPをS回パイプライン処理し、最後に出力データをメモリにストアする処理STを実行する。そして、S回のパイプライン処理は、それぞれイニシエーション・インターバルTIIの間隔で処理開始される。1つのデータセットの計算処理COMPの実行時間はTCOMP_SINGLEであり、データセットS回のイニシエーション・インターバルTIIはΔiである。前述のとおり、CI処理回路では、データ処理の最初と最後にデータロードLDとデータストアSTが発生し、データ処理中COMPはメモリアクセスはほとんど発生しない。
そこで、1つのジョブに含まれるN回の実行回数のうちi番目の1回の実行時間Tiは、次のとおりである。
Ti=TLD+Δi+TCOMP_SINGLE+TST 式1
ここで、Δiは、TIIの(S-1)倍であるので、次のとおりである。
Δi=TII * (S-1)
さらに、CI処理回路の並列度をPiとすると、Δiは、次のとおり並列度Piに応じて短縮される。
Δi=TII * {(S/Pi)-1}
図9は、並列度Piを変化させた場合の、CI処理回路の実行時間の違いを示す図である。図9の例では、データセットSがS=4である。そして、並列度PiがPi=1、Pi=2、Pi=S=4の場合のΔが示される。Pi=1の場合は、Δi=3 * TII、Pi=2の場合は、Δi=TII、そして、Pi=S=4の場合は、Δi=0となる。
以上、CI処理回路の場合のi番目の実行時間Tiは、並列度Piとすると、上記の式1により次のとおりとなる。
Figure 0006836065
そして、データ処理時間に比較してメモリアクセス時間TLD、TSTは十分に小さいので、式1からTLD、TSTを省略すると、実行時間Tiは次のとおりとなる。
Figure 0006836065
そこで、回路の並列度PiをPjに変更した場合の実行時間の差分(Pi<Pjの場合の短縮時間)は、次のとおりとなる。
Figure 0006836065
更に、式2において、CI処理回路の並列度を最大のPi=Sにすると、実行時間Tiは次のとおり最短実行時間Tminとなる。
Figure 0006836065
そして、CI処理回路の実行回数Nのトータル実行時間TCI_totalは、i回目の実行時の並列度をPiとすると、次のとおりである。
Figure 0006836065
上記の式5において、並列度PiからPjに変更した場合の変更前のトータル実行時間TCI_total_beforeと、変更後のトータル実行時間TCI_total_afterはそれぞれ、式5の並列度をPiとPjにした式になる。
さらに、N回の実行全てで並列度Piが最大値S(Pi=S)になる場合([1:N]の全ての要素iにおいて、Pi=S)、トータル実行時間は以下の最小値TCI_total_minになる。
Figure 0006836065
次に、DI処理回路の並列度と実行時間について説明する。DI処理回路は、データロードLDとデータストアSTが、各データセットのデータ処理COMP中にも発生する。したがって、DI処理回路は、CI処理回路のように実行時間Tiの大半が演算処理時間TCOMP_SINGLとはならない。そこで、本実施の形態では、DI処理回路は、並列度をN倍にすれば実行時間は1/N倍に短縮されると仮定して、実行時間の計算を行う。
本実施の形態では、バスボトルネックが発生して、所定のユーザ回路の並列度を減らしてバスボトルネックを解消し、その代わりに所定のユーザ回路とは別のユーザ回路の並列度を増やす。但し、並列度調整前の全ユーザ回路の実行時間の合計Ttotal_beforeと、並列調整後の全ユーザ回路の実行時間の合計Ttotal_afterとを比較して、並列度の調整を実行するか否か判断する。すなわち、調整後のTtotal_afterが調整前のTtotal_beforeより短くなる場合、ボトルネック解消のための並列度の調整を実行し、短くならない場合、並列度の調整を実行しない。
上記のTtotal_beforeとTtotal_afterは、次のとおり、いずれもCI処理回路及びDI処理回路の実行時間の合計である。
Ttotal_before=TDI_total_before+TCI_total_before
Ttotal_after=TDI_total_after+TCI_total_after
CI処理回路の並列度の調整後の実行時間は、前述の式5、6により予測される。一方、DI処理回路の並列度の調整後の実行時間は、調整前の実行時間の測定値を並列度N倍の逆数1/N倍して予測される。また、CI処理回路とDI処理回路の区別は、例えば、処理プログラムのコンパイル時に判定することができる。または、使用帯域の測定値から、帯域の使用がデータ処理の最初と最後だけ発生する回路をCI処理回路、それ以外をDI処理回路と判定できる。
[FPGA管理プログラムの概略処理]
図10は、第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。例えば、OS(Operating System)のジョブ管理プログラムは、プロセッサが実行するユーザのアプリケーションプログラムのジョブを監視し、ジョブの処理がFPGA内の論理回路で実行可能な場合、プロセッサに新ユーザ回路のコンフィグレーション要求の割込みを発生する。
FPGA管理プログラムを実行するプロセッサは、OS(Operating System)から新たなユーザ回路をコンフィグレーションする要求を受信すると(S1のYES)、次のように要求を処理する。まず、プロセッサは、FPGAのリコンフィグレーション領域の総面積から動作中のユーザ回路の総面積を減じた値が、新たなユーザ回路の面積より大きいか否か判定する(S2)。FPGAのリコンフィグレーション領域の総面積は、例えば部分リコンフィグレーションブロックPBの数であり、動作中のユーザ回路の総面積は、例えば動作中のユーザ回路がコンフィグレーションされている部分リコンフィグレーションブロックの数である。
工程S2の判定がYESの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求する(S3)。そして、FPGAから新ユーザ回路のコンフィグレーション完了通知があると(S4のYES)、プロセッサはFPGAにユーザ回路によるジョブ開始を通知する(S5)。一方、工程S2の判定がNOの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求せず、新たに回路コンフィグレーション要求を要求キュー(要求の待ち行列)に格納する(S9)。要求キュー内の要求は、次のサイクルで前述の工程S1で新ユーザ回路構築要求としてチェックされる。
さらに、プロセッサは、FPGAからユーザ回路のジョブの実行完了通知を受信すると(S6)、FPGAにジョブの実行が完了したユーザ回路の開放通知を行う(S7)。これにより、FPGA内の制御回路は、リコンフィグレーション領域内にコンフィグレーションされたユーザ回路を解放状態にする。
さらに、プロセッサは、ユーザ回路の並列度調整処理S8を実行する。ユーザ回路の並列度調整処理については後述する。そして、プロセッサは、上記の工程S1〜S8を繰り返し実行する。
[ユーザ回路のパラメータ]
並列度調整処理S8の説明をする前に、まず、プロセッサが管理するユーザ回路の各種パラメータの例について説明する。
図11は、プロセッサが管理するユーザ回路のパラメータを示す図表である。図11の図表に、FPGAのリコンフィグレーション領域内にコンフィグレーションされているユーザ回路UC_1, UC_2, UC_3, UC_4それぞれについて、論理回路の並列度P、予測コンフィグレーション時間CT_E、予測実行時間ET_E、予測使用帯域BD_E、測定実行時間ET_M、測定使用帯域BD_Mの値が示されている。
予測コンフィグレーション時間CT_Eは、論理回路のコンフィグレーションデータをFPGAメモリからダウンロードしてFPGA内のコンフィグレーションデータメモリC_RAMに設定するのに要する時間の予測値である。予測実行時間ET_Eは、論理回路による1つのジョブの実行完了までの時間の予測値である。予測使用帯域BD_Eは、論理回路がジョブ実行中に使用する単位時間当たりのバス帯域(データ転送量)の予測値であり、単位はMB/Sである。
一方、測定実行時間ET_M、測定使用帯域BD_Mは、論理回路に設けられた実行時間測定回路とデータ転送量測定回路それぞれの測定値である。
また、FPGAバスの帯域の上限値をBD_Lとする。この帯域上限値BD_Lは、FPGAバスの帯域であり、リコンフィグレーション領域にコンフィグレーションされた論理回路のFPGAバスへのデータ転送量の合計がこの帯域上限値BD_Lを超えることはできない。したがって、リコンフィグレーション領域にコンフィグレーションされた論理回路のデータ転送量の合計が帯域上限値BD_Lに達している場合、バス帯域にボトルネックが発生しているとみなすことができる。
さらに、図11のパラメータは、ユーザ回路UC_1, UC_2, UC_3, UC_4それぞれについて、回路の処理パターンを示す回路タイプCI(Computation Intensive,コンピュテーション・インテンシブ)、DI(Data Intensive,データ・インテンシブ)と、ジョブに対するユーザ回路の実行回数Nと、1回の実行で処理されるデータセット数Sと、入力データの読み取り時間TLDと、出力データの書込み時間TSTと、1個のデータセットの処理時間TCOMP_SINGLEと、パイプライン回路のイニシエーション・インターバル(Initiation interval)時間TIIを有する。
ユーザの論理回路の並列度調整処理S8では、プロセッサは、図11に示した値に基づいてFPGAのリコンフィグレーション領域内のユーザの論理回路の並列度を制御する。
図12は、ユーザ回路の並列度調整処理S8のフローチャート図である。FPGA管理プログラムを実行するプロセッサは、一定時間待機するたびに(S10のYES)、FPGA内にコンフィグレーションされているユーザ回路の実行時間測定回路と使用帯域測定回路が測定中の測定実行時間ET_Mと測定使用帯域BD_Mを、両回路から読み出すまたはFPGA内の制御回路151から受信する(S11)。
[並列度の増加制御(1)]
そして、プロセッサは、FPGAバスの帯域上限BD_Lからユーザ回路の測定使用帯域の合計値を減じた値が、FPGA内にコンフィグレーション中のユーザ回路のいずれかの並列度を増加するために必要な最小帯域より大きいか否かを判定する(S12)。工程S12の判定がYESであれば、プロセッサは、以下に示す式1、式2を満たす範囲で、ユーザ回路の並列度を増加する(S13A)。
図13は、工程S13Aの並列度を増加する処理を示すフローチャート図である。まず、プロセッサは、複数(n個)のユーザ回路を所定の順(例えば測定使用帯域BD_Mが小さい順)にソートする(S131)。このソートされたユーザ回路の順番を係数i= 1〜nとする。そして、プロセッサは、ソートされた順番で、つまり係数順に、係数i= 1〜nの各iついて(S132-S135)、処理対象のi番目のユーザ回路の並列度Piを1つ増加した後の並列度PXi(=Pi + 1)で以下の式1,式2を満たすか否か判定する(S133)。
式1、式2は図11に示されるが以下のとおりである。
Σ(BD_Mj/Pj)*PXj < BD_L 式1
Σ (Aj*PXj) ≦ A_L 式2
ここで、Σは全ユーザ回路j=1〜nの合計である。また、式1、式2のPXjは、j=iならPXj=Pj + 1、j≠iならPXj=Pjとなり、処理対象のi番目のユーザ回路だけ並列度Pjを+1増加し、i番目ではない他のユーザ回路は増加しない並列度Pjのままである。
つまり、n=4,i=2の場合の式1は次の通りである。
(BD_M1/P1)*P1 + (BD_M2/P2)*PX2 + (BD_M3/P3)*P3 + (BD_M4/P4)*P4 < BD_L
上記の左辺の第1項は(BD_M1/P1)*P1=BD_M1であり、第3,4項も同様であるから、よって、
BD_M1 + (BD_M2/P2)*PX2 + BD_M3 + BD_M4 < BD_L
さらに、式2のAjは並列度1のユーザ回路の回路面積(例えば、部分リコンフィグレーションブロックの数)、A_Lはリコンフィグレーション領域の総回路面積(例えば、部分リコンフィグレーションブロックの総数)である。n=4,i=2の場合の式2は次の通りである。
A1*P1 + A2*PX2 +A3*P3 + A4*P4 ≦ A_L
式1を満たす場合、処理対象のi番目のユーザ回路だけその並列度Piを1つ増加した後の全ユーザ回路の使用帯域の合計が、FPGAバスの帯域上限値BD_Lより小さいことを意味する。式1において(BD_M2/P2)*PX2は、測定使用帯域は並列度に比例することを意味する。一方、式2を満たす場合、処理対象のi番目のユーザ回路だけその並列度Piを1つ増加した後の全ユーザ回路の使用面積の合計が、FPGAの総回路面積A_L以下であることを意味する。
工程S133の判定がYESなら(S133のYES)、プロセッサは、増加後の並列度PXiをそのユーザ回路UC_iの並列度Piに設定する(S134)。係数i=1〜nの全てにおいて工程S133がYESの場合、全てのユーザ回路の並列度Piが+1されたことを意味する。
一方、係数iが1〜nのいずれかで工程S133の判定がNOなら(S133のNO)、S132〜S135のループを抜ける。すなわち、ユーザ回路の順に並列度を+1増加し、あるユーザ回路で工程S133の判定がNOになると、ループS132〜S135の処理を終了する。
そして、CPUは、ユーザ回路UC_iを新しく設定した並列度Piでリコンフィグレーションする要求をFPGAに行い、そのユーザ回路のリコンフィグレーション完了通知受信後、そのユーザ回路のジョブの実行再開を通知する(S137)。
図13において、測定使用帯域が小さい順にソートし、測定使用帯域が小さいユーザ回路を優先的に並列度を増加させ、あるユーザ回路で式1を満たさない場合、再度、測定使用帯域が小さい回路の並列度を増加できるか否か判定するようにしてもよい。その場合、一般的に測定使用帯域が小さいほど並列度を+1増加したときの使用帯域の増加量も小さい傾向にあるので、バス帯域の上限未満に抑えることができる。そこで、かかるユーザ回路の並列度をより増加させてジョブの実行時間をより短縮させ、より早くジョブの実行を完了させるためである。ユーザ回路のジョブ実行が完了すれば、その後他のユーザ回路の並列度を増加させてそれらのジョブの実行時間も短縮できる場合がある。
[バス帯域のボトルネックの原因と推定されるユーザ回路の並列度の低下と、他のユーザ回路の並列度の増加]
図12に戻り、工程S12での判定がNOの場合、プロセッサは、測定使用帯域の合計がFPGAバスの帯域上限に達しているか否か判定する(S14)。この工程S14の判定がYESの場合、FPGAバスの帯域にボトルネックが発生していることを意味する。
そこで、プロセッサは、使用帯域が帯域上限未満になるよう、所定のユーザ回路UC_MAXの並列度を低下させる(S15)。所定のユーザ回路UC_MAXとして、第1の例として、測定使用帯域が最も大きいユーザ回路が選択される。プロセッサは、並列度の低下量として、所定のユーザ回路UC_MAXの予測使用帯域を算出し、他のユーザ回路の測定使用帯域との合計が帯域上限に満たないような値を選択する。測定使用帯域が大きいユーザ回路は、一般にDI処理回路が選択される場合が多い。
第2の例として、所定のユーザ回路UC_MAXとして、実行時間ET_Eと測定実行時間ET_Mの差分が最も大きいユーザ回路が選択される。このようなユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていない蓋然性が高い。したがって、かかるユーザ回路の並列度を低下させることで、バスボトルネックによりユーザ回路の一部が十分に動作せずFPGA内に無駄にコンフィグレーションされている状況を改善することができる。
並列度を低下させるターゲットのユーザ回路の選択は、第3の例として、予測使用帯域BD_Eと測定使用帯域BD_Mの差分が最大のユーザ回路を選択してもよい。この場合、差分が最大のユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていないユーザ回路であるため、かかるユーザ回路を、並列度を減少させるターゲットに選択する。
さらに、第4の例として、並列度が最大のユーザ回路を選択して並列度を減少させてもよい。この場合、並列度が最大に制御されているユーザ回路は、他のユーザ回路よりもより優遇されているユーザ回路といえるので、かかるユーザ回路を、並列度を減少させるターゲットに選択する。
プロセッサは、所定のユーザ回路UC_MAXの並列度を低下させると共に、所定のユーザ回路UC_MAX以外の他のユーザ回路の並列度を増加する(S15)。並列度を増加させるユーザ回路の選択は、様々な例が考えられる。第1の例では、図13と同様に、任意の順に他のユーザ回路をソートし、式1,式2を満たす範囲で順番に並列度を増加するようにする。つまり、FPGA内の所定のユーザ回路UC_MAX以外の他のユーザ回路のうち、DI処理回路とCI処理回路の区別をせず、任意のユーザ回路の並列度を増加する。
第2の例では、CI処理回路を優先的に選択して並列度を増加する。CI処理回路は使用帯域が小さいので、帯域上限未満を満たしつつ実行時間を短縮できる可能性がある。但し、CI処理回路の実行時間の短縮は、前述の通りあまり大きくない場合がある。
第3の例では、CI処理回路のうち並列度の増加による実行時間の短縮の程度が大きい回路を選択し、さらに、一部のDI処理回路を選択し、選択した両CI処理回路とDI処理回路の並列度を増加する。この場合、並列度が増加された回路の実行時間が短縮され、実行完了後にバスボトルネック解消のために並列度を低下した所定のユーザ回路の並列度を増加して、合計実行時間を短縮できれば望ましい。
次に、プロセッサは、工程S15での並列度の増加及び低下の調整を行わない場合の全てのユーザ回路のジョブ完了までの実行時間の合計、調整前(未調整)合計実行時間Ttotal_beforeと、前記調整を行った場合の同実行時間の合計、調整後(調整済)合計実行時間Ttotal_afterとを計算し、Ttotal_after<Ttotal_beforeか否かを判定する(S15B)。
判定結果がYESの場合、プロセッサは、並列度の調整を実行する(S15C)。判定結果がNOの場合、プロセッサは、並列度の調整を実行しない(S15D)。つまり、バスボトルネック状態を許容したまま、ユーザ回路の並列度の調整を行わず、未調整のままにする。FPGA内のユーザ回路は、処理実行中FPGA内にコンフィグレーションされる。したがって、全てのユーザ回路のジョブ完了までの実行時間の合計が短くなると、FPGAの回路リソースの使用効率が高くなることを意味する。プロセッサが工程S15Bの判定を行うことで、バスボトルネック状態の解消を行うか否かを、FPGAの回路リソースの使用効率が高くなるか否かの観点で判断することができる。
図14は、図12の工程S15,S15B,S15C,S15Dの詳細なフローチャートを示す図である。プロセッサは、所定のユーザ回路UC_MAXの並列度を下げる処理として、測定使用帯域が最大のユーザ回路UC_MAXを抽出し(S151)、そのユーザ回路UC_MAXの並列度を下げて、新たな使用帯域を計算により予測する。新たな使用帯域の予測は、例えば、並列度を1/Nに下げれば、使用帯域も1/N倍に下がると見積もる。
そして、プロセッサは、予測使用帯域が上限未満になるか否か判定し(S153)、未満にならない場合は、再度工程S152を実行し更に並列度を低下させる。未満になる場合、プロセッサは、帯域上限と全ユーザ回路の予測使用帯域の合計との差分が、所定の基準値Vthを超えているか否か判定する(S154)。この所定の基準値Vthを超えている場合は、ユーザ回路UC_MAX以外の他のユーザ回路の並列度を増加し、そのユーザ回路の新たな使用帯域を予測する(S155)。
そして、プロセッサは、並列度を低下及び上昇する調整前の並列度(旧並列度)での全ユーザ回路の実行時間の合計値Ttotal_beforeを予測し、同時に、並列度を低下及び上昇する調整後の並列度(新並列度)での全ユーザ回路の実行時間の合計値Ttotal_afterを予測する(S156)。さらに、プロセッサは、予測値を比較して、Ttotal_after<Ttotal_beforeか否かを判定する(S157)。
この判定結果がYESであれば(S157のYES)、プロセッサは、ユーザ回路の新並列度をFPGAに要求し、回路リコンフィグレーション完了通知受信後、並列度を更新されたユーザ回路のジョブの再開を通知する(S161)。前述の工程S154の判定結果がNOの場合も、プロセッサは工程S161を実行する。そして、プロセッサは、ユーザ回路UC_MAXを並列度低下リストに記憶する(S162)。
一方、Ttotal_after<Ttotal_beforeの判定結果がNOであれば(S157のNO)、プロセッサは、並列度を低下したユーザ回路UC_MAX以外のユーザ回路に並列度未調整のDI処理回路が含まれているか否かを判定する(S158)。含まれている場合(S158のYES)、CI処理回路の代わりにDI処理回路の並列度を上げることで、工程S157の判定結果がYESになる可能性がある。そこで、プロセッサは、並列度を増加する第1のユーザ回路のDI処理回路とCI処理回路の組み合わせを変更し(S160)、再度工程S155,S156,S157を実行する。
例えば、第1のユーザ回路について、あるCI処理回路の並列度を増加する代わりに、あるDI処理回路の並列度を増加したほうが、調整後の実行時間Ttotal_afterを調整後の実行時間Ttotal_beforeより短くできる可能性がある。例えば、並列度を増やした第1のユーザ回路のうち、回路規模が大きなCI処理回路であって、並列度増加による実行時間の短縮が少ないCI処理回路について、並列度の増加を中止し、利用可能な回路リソースを確保し、そのCI処理回路代わりにDI処理回路を選択して並列度を増加することが望ましい。
そして、工程S157の判定がYESになれば、プロセッサは、工程S161,S162を実行し、並列度の調整処理を実行する。
一方、第1のユーザ回路のDI処理回路とCI処理回路の組み合わせの変更をK回行っても工程S157の判定がNOになる場合は(S159のNO)、所定のユーザ回路UC_MAXの並列度の低下と第1のユーザ回路の並列度の増加の調整を行わない(S15D)。前述の工程S158の判定がNOの場合も、工程S157の判定結果が逆転する可能性は小さいので、プロセッサは、ユーザ回路の並列度の調整を行わない(S15D)。
図14のフローチャートによれば、プロセッサは、バスボトルネックを解消するための所定のユーザ回路UC_MAXの並列度の低下と、他のユーザ回路(第1のユーザ回路)の並列度の増加の調整後の状態での全実行時間の合計が、調整前の状態での全実行時間の合計より短くなる第1のユーザ回路の組み合わせを探索する。これにより、バスボトルネックの解消と、FPAGの回路リソースの有効利用の両方を達成することができる。
[ユーザ回路UC_MAXの並列度を増加する制御]
図12に戻り、プロセッサは、一定時間待機中(S10のNO)、ユーザ回路のジョブ実行完了通知を受信すると(S16のYES)、式1、式2を満たす範囲で、ユーザ回路UC_MAXの並列度を増加する制御を行う(S17)。一定時間待機中にジョブ実行完了通知を受信しない場合、プロセッサは、ユーザ回路の並列度調整処理S8を終了する。
図15は、工程S17の処理を示すフローチャート図である。ユーザ回路のジョブ実行完了通知を受信すると(図12のS16のYES)、プロセッサは、並列度低下リストにユーザ回路UC_MAXが存在するか判定する(S171)。存在する場合(S171のYES)、プロセッサは、式1、式2を満たす範囲で、ユーザ回路UC_MAXの最大の新並列度PXを算出する(S172)。式1,式2は、図13の式1、式2と同じである。但し、ここでは、直前にあるユーザ回路がジョブ実行を完了して開放されるので、開放されたユーザ回路は式1,式2から除かれる。また、並列度増加対象は所定のユーザ回路UC_MAXである。
例えば、ユーザ2の回路UC_2が並列度低下リストに格納されていて、ユーザ1とユーザ3の回路UC_1, UC_3のジョブ実行が完了したとすると、式1、式2は次の通りになる。
(BD_M2/P2)*PX2 + BD_M4 < BD_L 式1
A2*PX2 + A4*P4 ≦ A_L 式2
プロセッサは、上記の式を満たす範囲で、最大の新並列度PX2を算出する。これにより、ユーザ回路UC_MAX(UC_2)は、他のユーザ回路の実行完了時に優先的に並列度を増加する制御を受けることができる。
そして、プロセッサは、ユーザ回路UC_MAXの新並列度PXでの論理回路のコンフィグレーションをFPGAに要求し、回路リコンフィグレーション完了通知を受信するとジョブの実行再開を通知する(S173)。また、プロセッサは、並列度を増加したユーザ回路UC_MAXを並列度低下リストから削除する(S173)。
図12に戻り、プロセッサによるユーザ回路の並列度調整制御をまとめると次のとおりである。プロセッサは、通常は一定時間ごとに測定実行時間ET_Mと測定使用帯域BD_MをFPGA内のユーザ回路の測定回路から取得する(S11)。そして、全ユーザ回路の測定使用帯域の合計と、FPGAバスの帯域上限値との差分が、並列度増加のために必要な帯域分より大きい場合(S12のYES)、プロセッサは、式1,式2を満たす範囲で、あるユーザ回路の並列度を増加する(S13A)。また、あるユーザ回路がジョブの実行を完了した場合(S16のYES)、並列度を低下したユーザ回路UC_MAXがなければ(S171のNO)、次の測定サイクルで取得した測定使用帯域BD_Mに基づいて工程S12の判定がYESになり、プロセッサは、再度、式1、式2を満たす範囲で所定のユーザ回路を優先して並列度を増加する(S13A)。
一方、測定使用帯域の合計値がFPGAバスの帯域上限値に達している場合(S14のYES)、プロセッサは、FPGAバス帯域のボトルネックの原因と疑われる所定のユーザ回路UC_MAXを選択し、その並列度をバスボトルネックが解消するように低下する(S15)。この並列度を下げるユーザ回路UC_MAXには、例えば使用帯域が大きいDI処理回路が選択される。さらに、プロセッサは、残りのユーザ回路について、ユーザ回路UC_MAX以外の他のユーザ回路を式1、式2を満たす範囲で並列度を増加する(S15)。この並列度を上げるユーザ回路は、例えば、使用帯域が小さいCI処理回路が選択される。
そして、並列度調整前の状態での全ユーザ回路の合計予測実行時間より、並列度調整後の状態での全ユーザ回路の合計予測実行時間が短い場合に、プロセッサは、並列度の変更を実行し(S15C)、短くない場合に、プロセッサは、並列度の変更を実行しない(S15D)。
さらに、あるユーザ回路のジョブの実行が完了したら(S16のYES)、プロセッサは、並列度を低下させたユーザ回路UC_MAXの並列度を、式1、式2を満たす範囲で最大の並列度に増加する(S17)。これにより、プロセッサは、バス帯域のボトルネックの原因と見なされたユーザ回路UC_MAXの並列度を一時的に低下するが、他のユーザ回路の並列度を増加した結果それらの合計実行時間が短くなる。そして、他のユーザ回路のジョブの実行が完了すると、一時的に並列度を低下させたユーザ回路UC_MAXの並列度を再度増加させる。その結果、バスボトルネック発生時の並列度の調整により、バスボトルネックが解消され、さらに全ユーザ回路の合計実行時間が短くなる可能性がある。
[並列度調整の具体例]
図16は、第1の具体例を示す図である。横軸が時間TIMEであり、縦方向に(1)バスボトルネックが発生しない場合の予測実行時間、(2)バスボトルネックが発生し並列度調整しない場合の予測実行時間、(3)バスボトルネックが発生し並列度調整した場合の予測実行時間をそれぞれ示す。第1の具体例は、FPAG内にユーザ回路UC-AとUC-Bがコンフィグレーションされ、ユーザ回路UC-AがDI処理回路、ユーザ回路UC-BがCI処理回路という、最も単純化した例である。
図16の(1)において、ユーザ回路UC-Aは、DI処理回路であり、並列度P=4、1回の実行時間が8で、実行回数5でジョブが完了する。一方、ユーザ回路UC-Bは、CI処理回路であり、並列度P=2、1回の実行時間が25(TLD=1、イニシエーション・インターバルΔ=2、TCOMP=21、TST=1)で、実行回数2でジョブが完了する。
(2)バスボトルネック発生、並列度調整しない場合、時刻t1でバスボトルネックが発生し、ユーザ回路UC-AとUC-Bでメモリアクセスに時間がかかっている。そして、バスボトルネックが発生しても両ユーザ回路の並列度を変更していない。その結果、ユーザ回路UC−Aは実行時間が6長くなり、ユーザ回路UC-Bは実行時間が3長くなっている。
(3)バスボトルネック発生、並列度調整する場合、ユーザ回路UC-Aの並列度Pを4から2に減らした結果、1回の実行時間が8から16に2倍になっている。そして、ユーザ回路UC-Bの並列度Pを2から4に2倍に増やしたが、CI処理回路のため、イニシエーション・インターバルΔが2から1に減少しただけであり、1回の実行時間は25から24にわずかに短くなっただけである。そして、ユーザ回路UC-Bの実行終了後に、ユーザ回路UC-Aの並列度Pを2から8に変更し、最後の実行時間が4と短くなった。
そこで、(2)と(3)の場合の2つのユーザ回路の実行時間の合計を比較すると、ユーザ回路UC-Aが22長くなり、ユーザ回路UC-Bが1短くなっているので、(2)の調整前の合計実行時間Ttotal_beforeより(3)の調整後の合計実行時間Ttotal_afterのほうが長くなる。したがって、バスボトルネックが発生したとき、プロセッサは、ユーザ回路の並列度の調整を行わないという判定を行う。
図17は、第2の具体例を示す図である。横軸と、(1)(2)(3)は図16と同様である。第2の具体例は、FPAG内にユーザ回路UC-AとUC-Bに加えて更にUC-Cがコンフィグレーションされ、ユーザ回路UC-A、UC-CがDI処理回路、ユーザ回路UC-BがCI処理回路である。
図17の(1)において、ユーザ回路UC-A、UC-Bは、図16と同じである。そして、ユーザ回路UC-Cは、DI処理回路であり、並列度P=3、1回の実行時間が12で、実行回数4でジョブが完了する。
(2)バスボトルネック発生、並列度調整を行わない場合、時刻t1でバスボトルネックが発生し、ユーザ回路UC-A、UC-B、UC-Cでメモリアクセスに時間がかかっている。そして、バスボトルネックが発生しても両ユーザ回路の並列度を変更していない。その結果、ユーザ回路UC−Aは実行時間が6長くなり、ユーザ回路UC-Bは実行時間が3長くなり、ユーザ回路UC-Cは実行時間が6長くなっている。
(3)バスボトルネック発生、並列度調整を行う場合、ユーザ回路UC-Aの並列度Pを4から2に減らした結果、1回の実行時間が8から16に2倍になっている。そして、具体例1で説明したとおりユーザ回路UC-Bの並列度を上げても実行時間の短縮は小さいため、ユーザ回路UC-Bの並列度Pは2から増加していない。その代わりに、ユーザ回路UC-Cの並列度Pを3から4に変更している。その結果、ユーザ回路UC-Bはリコンフィグレーション時間がなくなり1回の実行時間は(1)と同じ25であり、一方、ユーザ回路UC-Cは、実行時間が12から9に短くなっている。この例では、ユーザ回路UC-Cの使用帯域が小さかったため、帯域上限未満で並列度を増やすことができた例である。
そして、ユーザ回路UC-Cの実行終了後に、ユーザ回路UC-Aの並列度Pを2から8に変更し、最後の3回の実行時間がそれぞれ4と短くなった。
そこで、(2)と(3)の場合の2つのユーザ回路の実行時間の合計を比較すると、ユーザ回路UC-Aが14長くなり、一方、ユーザ回路UC-Bが3短くなり、ユーザ回路UC-Cが12短くなっている。その結果、(2)の調整前の合計実行時間Ttotal_beforeより(3)の調整後の合計実行時間Ttotal_afterのほうが短くなる。したがって、バスボトルネックが発生したとき、ユーザ回路の並列度の調整を行うという判定が行われる。
第2の具体例では、バスボトルネックが発生したとき、DI処理回路のユーザ回路UC-Aの並列度を下げてバスボトルネックを解消し、余ったバスの帯域とFPAG内の回路リソースを利用して、CI処理回路ではなくDI処理回路のユーザ回路UC-Cの並列度を上げた例である。この場合は、調整後の合計実行時間のほうが短くなったため、並列度の調整を行うという判定になっている。
以上のとおり、本実施の形態では、バスボトルネックが発生したときに、プロセッサが、バスボトルネック解消のために所定のユーザ回路の並列度を一時的に下げ、余裕ができた回路リソースを利用して別のユーザ回路の並列度を増加し、別のユーザ回路の実行完了後に、所定のユーザ回路の並列度を増加する。但し、上記のような並列度の調整を行うか否かを、調整前の状態での予測実行時間の合計と、調整後の状態での予測実行時間の合計とを比較して判定する。
通常は、バスボトルネックが発生すると、使用帯域が大きいDI処理回路の並列度を下げて、使用帯域が小さいCI処理回路の並列度を上げることで、バスボトルネックの解消と実行時間の悪化を抑制する。
しかし、CI処理回路は、並列度を下げても実行時間の短縮の度合いが小さく、並列度の調整を行っても実行時間の合計が短くならない場合がある。その場合は、並列度の調整を行わないという判定が行われる。
但し、CI処理回路でも、並列度の増加による実行時間の短縮の度合いに幅があり、短縮時間が長いCI処理回路を選択して並列度を増加し、さらにバスボトルネックにならない別のDI処理回路を選択して並列度を増加して実行時間を短縮させることで、バスボトルネックの解消と実行時間の悪化の抑制を達成できる場合がある。
上記の実施の形態では、バスボトルネックが発生したときに、一部のユーザ回路)並列度を低下し、他のユーザ回路の並列度を増加する並列度の調整を行うか否かを、調整前の状態と調整後の状態でそれぞれの実行時間の合計を比較して判定した。しかし、バスボトルネックの発生時だけでなく、例えばFPGAの消費電力の上限値に達した場合(消費電力のボトルネックの発生)でも、消費電力の大きいユーザ回路の並列度を低下し、消費電力の小さい他のユーザ回路の並列度を増加する並列度の調整を行うか否かを、調整前と調整後の実行時間の合計を比較して判定して行っても良い。
以上の実施の形態をまとめると,次の付記のとおりである。
(付記1)
プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、情報処理装置。
(付記2)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記データ転送量の合計が前記PLDのバスのデータ転送量の上限値に達した場合、前記比較を実行する、付記1に記載の情報処理装置。
(付記3)
前記比較では、前記複数の論理回路の前記第1の実行時間の合計と、前記第2の実行時間の合計とを比較し、
前記第1の実行時間の合計値が前記第2の実行時間の合計値より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、付記1に記載の情報処理装置。
(付記4)
前記プロセッサは、さらに、
前記複数の論理回路の前記第1の実行時間と、前記第2の実行時間とを計算する、付記1に記載の情報処理装置。
(付記5)
前記プロセッサは、
前記複数の論理回路の前記第1の実行時間として、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った後、前記第2の論理回路の実行が完了後に前記第1の論理回路の並列度を上げる場合に予測される前記複数の論理回路の実行時間を計算する、付記4に記載の情報処理装置。
(付記6)
前記複数の論理回路は、データ処理中にメモリアクセスが発生するデータ・インテンシブ処理回路と、データ処理の最初と最後にメモリアクセスが発生するコンピュテーション・インテンシブ処理回路のいずれか一方または両方を含み、
前記プロセッサは、
前記データ・インテンシブ処理回路の並列度をN倍にした場合、前記実行時間を1/N倍になるよう前記第1の実行時間を算出し、
前記コンピュテーション・インテンション処理回路の並列度をN倍にした場合、前記実行時間を、前記コンピュテーション・インテンション処理回路のパイプライン処理におけるイニシエーション・インターバル時間が1/N倍になるよう前記第1の実行時間を算出する、付記4に記載の情報処理装置。
(付記7)
前記複数の論理回路は、データ処理中にメモリアクセスが発生するデータ・インテンシブ処理回路と、データ処理の最初と最後にメモリアクセスが発生するコンピュテーション・インテンシブ処理回路の両方を含み、
前記プロセッサは、
前記第1の論理回路を前記データ・インテンシブ処理回路から選択し、前記第2の論理回路を前記コンピュテーション・インテンシブ処理回路から選択する、付記1に記載の情報処理装置。
(付記8)
前記プロセッサは、
前記第1の実行時間が前記第2の実行時間より短くない場合、前記第2の論理回路を変更して、前記比較を再度行う、付記7に記載の情報処理装置。
(付記9)
前記プロセッサは、
前記第2の論理回路の変更を、前記第2の論理回路のうち前記並列度を増やした場合の実行時間の短縮の程度が少ないコンピュテーション・インテンシブ処理回路に代えて、前記データ・インテンシブ処理回路を選択する、付記8に記載の情報処理装置。
(付記10)
プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)管理処理をプロセッサに実行させるPLD管理プログラムであって、
前記管理処理は、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、処理を有するPLD管理プログラム。
(付記11)
プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有する情報処理装置の前記PLD管理方法であって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、PLD管理方法。
10:情報処理装置
11:CPU、プロセッサ
12:メインメモリ
15:FPGA、PLD
16:補助記憶装置
17:FPGA用のデータメモリ
BUS_1:CPUバス
BUS_2:PCIバス
BUS_3:FPGAバス
I_BUS:FPGA内部バス
RC_REG:リコンフィグレーション領域
OC:FPGAの運用回路
PB:部分リコンフィグレーションブロック
UC_A, UC_B:ユーザ回路
151:C_DATA書き込み制御回路
C_RAM:コンフィグレーションデータメモリ
P:並列度
ET_E:予測実行時間
BD_E:予測帯域
ET_M:測定実行時間
BD_M:測定帯域、使用帯域
A1、A2:ユーザ回路面積
BD_L:上限帯域
A_L:総回路面積
Ttotal_after:第1の実行時間、第1の合計実行時間、並列度調整後の合計実行時間
Ttotal_before:第2の実行時間、第2の合計実行時間、並列度調整前の合計実行時間
CI:コンピュテーション・インテンシブ処理回路
DI:データ・インテンシブ処理回路

Claims (10)

  1. プログラムを実行するプロセッサと、
    前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有し、
    前記プロセッサは、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
    前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、情報処理装置。
  2. 前記プロセッサは、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
    前記データ転送量の合計が前記PLDのバスのデータ転送量の上限値に達した場合、前記比較を実行する、請求項1に記載の情報処理装置。
  3. 前記比較では、前記複数の論理回路の前記第1の実行時間の合計と、前記第2の実行時間の合計とを比較し、
    前記第1の実行時間の合計値が前記第2の実行時間の合計値より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、請求項1に記載の情報処理装置。
  4. 前記プロセッサは、さらに、
    前記複数の論理回路の前記第1の実行時間と、前記第2の実行時間とを計算する、請求項1に記載の情報処理装置。
  5. 前記プロセッサは、
    前記複数の論理回路の前記第1の実行時間として、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った後、前記第2の論理回路の実行が完了後に前記第1の論理回路の並列度を上げる場合に予測される前記複数の論理回路の実行時間を計算する、請求項4に記載の情報処理装置。
  6. 前記複数の論理回路は、データ処理中にメモリアクセスが発生するデータ・インテンシブ処理回路と、データ処理の最初と最後にメモリアクセスが発生するコンピュテーション・インテンシブ処理回路のいずれか一方または両方を含み、
    前記プロセッサは、
    前記データ・インテンシブ処理回路の並列度をN倍にした場合、前記実行時間を1/N倍になるよう前記第1の実行時間を算出し、
    前記コンピュテーション・インテンシブ処理回路の並列度をN倍にした場合、前記実行時間を、前記コンピュテーション・インテンシブ処理回路のパイプライン処理におけるイニシエーション・インターバル時間が1/N倍になるよう前記第1の実行時間を算出する、請求項4に記載の情報処理装置。
  7. 前記複数の論理回路は、データ処理中にメモリアクセスが発生するデータ・インテンシブ処理回路と、データ処理の最初と最後にメモリアクセスが発生するコンピュテーション・インテンシブ処理回路の両方を含み、
    前記プロセッサは、
    前記第1の論理回路を前記データ・インテンシブ処理回路から選択し、前記第2の論理回路を前記コンピュテーション・インテンシブ処理回路から選択する、請求項1に記載の情報処理装置。
  8. 前記プロセッサは、
    前記第1の実行時間が前記第2の実行時間より短くない場合、前記第2の論理回路を変更して、前記比較を再度行う、請求項7に記載の情報処理装置。
  9. プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)管理処理をプロセッサに実行させるPLD管理プログラムであって、
    前記管理処理は、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
    前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、処理を有するPLD管理プログラム。
  10. プログラムを実行するプロセッサと、
    前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有する情報処理装置の前記PLD管理方法であって、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のうち、第1の論理回路の並列度を下げて第2の論理回路の並列度を上げる並列度調整を行った場合の前記複数の論理回路の第1の実行時間と、前記並列度調整を行わない場合の前記複数の論理回路の第2の実行時間とを比較し、
    前記第1の実行時間が前記第2の実行時間より短い場合、前記PLDに前記並列度調整の要求を行い、短くない場合、前記PLDに前記並列度調整の要求を行わない、PLD管理方法。
JP2017034302A 2017-02-27 2017-02-27 情報処理装置、pld管理プログラム及びpld管理方法 Expired - Fee Related JP6836065B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017034302A JP6836065B2 (ja) 2017-02-27 2017-02-27 情報処理装置、pld管理プログラム及びpld管理方法
US15/901,931 US10534621B2 (en) 2017-02-27 2018-02-22 Information processing apparatus, PLD management program and PLD management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017034302A JP6836065B2 (ja) 2017-02-27 2017-02-27 情報処理装置、pld管理プログラム及びpld管理方法

Publications (2)

Publication Number Publication Date
JP2018142046A JP2018142046A (ja) 2018-09-13
JP6836065B2 true JP6836065B2 (ja) 2021-02-24

Family

ID=63246208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017034302A Expired - Fee Related JP6836065B2 (ja) 2017-02-27 2017-02-27 情報処理装置、pld管理プログラム及びpld管理方法

Country Status (2)

Country Link
US (1) US10534621B2 (ja)
JP (1) JP6836065B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020181105A (ja) * 2019-04-25 2020-11-05 キヤノン株式会社 投影装置およびその制御方法
CN112306574B (zh) * 2020-10-30 2022-05-31 联想(北京)有限公司 一种配置方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004032043A (ja) 2002-06-21 2004-01-29 Matsushita Electric Ind Co Ltd 半導体集積回路およびコンパイラ
JP4909588B2 (ja) * 2005-12-28 2012-04-04 日本電気株式会社 情報処理装置及び再構成デバイスの利用方法
JP5589479B2 (ja) * 2010-03-25 2014-09-17 富士ゼロックス株式会社 データ処理装置
WO2014120157A1 (en) * 2013-01-30 2014-08-07 Empire Technology Development Llc Dynamic reconfiguration of programmable hardware
KR102110812B1 (ko) * 2013-05-30 2020-05-14 삼성전자 주식회사 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법
US9286084B2 (en) * 2013-12-30 2016-03-15 Qualcomm Incorporated Adaptive hardware reconfiguration of configurable co-processor cores for hardware optimization of functionality blocks based on use case prediction, and related methods, circuits, and computer-readable media
JP6282482B2 (ja) 2014-02-18 2018-02-21 株式会社日立製作所 プログラマブル回路装置、コンフィギュレーション情報修復方法
JP2015231205A (ja) 2014-06-06 2015-12-21 国立大学法人静岡大学 フィールドプログラマブルゲートアレイ、フィールドプログラマブルゲートアレイ開発ツール、及び、フィールドプログラマブルゲートアレイ開発方法
JP2016076867A (ja) 2014-10-08 2016-05-12 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP6435826B2 (ja) * 2014-12-09 2018-12-12 株式会社リコー データ処理装置およびデータ処理方法
WO2017029743A1 (ja) * 2015-08-20 2017-02-23 株式会社日立製作所 情報処理装置および情報処理システム

Also Published As

Publication number Publication date
US20180246735A1 (en) 2018-08-30
JP2018142046A (ja) 2018-09-13
US10534621B2 (en) 2020-01-14

Similar Documents

Publication Publication Date Title
US20220414503A1 (en) Slo-aware artificial intelligence inference scheduler for heterogeneous processors in edge platforms
JP7313381B2 (ja) ハードウェアアクセラレーションのためのハードウェアリソースの埋込みスケジューリング
US8782657B2 (en) Dynamic creation and destruction of IO resources based on actual load and resource availability
US11093352B2 (en) Fault management in NVMe systems
US9342365B2 (en) Multi-core system for balancing tasks by simultaneously comparing at least three core loads in parallel
US9477532B1 (en) Graph-data partitioning for workload-balanced distributed computation with cost estimation functions
US11119932B2 (en) Operation of a multi-slice processor implementing adaptive prefetch control
USRE50734E1 (en) Apparatus for managing disaggregated memory and method thereof
CN111177984B (zh) 电子设计自动化中异构计算单元的资源利用
WO2013111022A1 (en) Branch prediction logic
KR102469927B1 (ko) 분할 메모리 관리장치 및 방법
JP2010009160A (ja) 性能値算出装置
CN113326140A (zh) 一种进程迁移方法、装置、计算设备以及存储介质
US20100057967A1 (en) Recording medium with load distribution program recorded therein and load distribution apparatus
US8756371B2 (en) Methods and apparatus for improved raid parity computation in a storage controller
JP6836065B2 (ja) 情報処理装置、pld管理プログラム及びpld管理方法
JP6849908B2 (ja) 情報処理装置、pld管理プログラム及びpld管理方法
US9740618B2 (en) Memory nest efficiency with cache demand generation
WO2018179873A1 (ja) アクセラレータを有する計算機のためのライブラリ、およびアクセラレータ
US20140013142A1 (en) Processing unit power management
US11954527B2 (en) Machine learning system and resource allocation method thereof
JP5704176B2 (ja) プロセッサ処理方法、およびプロセッサシステム
US11899551B1 (en) On-chip software-based activity monitor to configure throttling at a hardware-based activity monitor
US8024738B2 (en) Method and system for distributing unused processor cycles within a dispatch window
JP2024528421A (ja) ストールされたデータを処理するためのデータ処理装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210118

R150 Certificate of patent or registration of utility model

Ref document number: 6836065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees