WO2023218596A1

WO2023218596A1 - サーバ内遅延制御装置、サーバ内遅延制御方法およびプログラム

Info

Publication number: WO2023218596A1
Application number: PCT/JP2022/020051
Authority: WO
Inventors: 圭藤本; 廣名取
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-16
Anticipated expiration: 2024-11-12
Also published as: US20250328372A1; JPWO2023218596A1; JP7754299B2; EP4524737A1; CN119173855A; EP4524737A4

Abstract

サーバ内遅延制御装置（１００）は、OSのカーネル空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置であって、スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部（１６０）と、トラヒック頻度計測部（１６０）が計測したトラヒック流入頻度に基づいて、スレッドの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替えるモード切替制御部（１５０）と、を備える。

Description

サーバ内遅延制御装置、サーバ内遅延制御方法およびプログラム

　本発明は、サーバ内遅延制御装置、サーバ内遅延制御方法およびプログラムに関する。

　ＮＦＶ（Network Functions Virtualization：ネットワーク機能仮想化）による仮想化技術の進展などを背景に、サービス毎にシステムを構築して運用することが行われている。また、上記サービス毎にシステムを構築する形態から、サービス機能を再利用可能なモジュール単位に分割し、独立した仮想マシン（ＶＭ：Virtual Machineやコンテナなど）環境の上で動作させることで、部品のようにして必要に応じて利用し運用性を高めるといったＳＦＣ（Service Function Chaining）と呼ばれる形態が主流となりつつある。

　仮想マシンを構成する技術としてLinux（登録商標）とＫＶＭ（kernel-based virtual machine）で構成されたハイパーバイザー環境が知られている。この環境では、ＫＶＭモジュールが組み込まれたHost OS（物理サーバ上にインストールされたＯＳをHost OSと呼ぶ）がハイパーバイザーとしてカーネル空間と呼ばれるユーザ空間とは異なるメモリ領域で動作する。この環境においてユーザ空間にて仮想マシンが動作し、その仮想マシン内にGuest OS（仮想マシン上にインストールされたＯＳをGuest OSと呼ぶ）が動作する。

　Guest OSが動作する仮想マシンは、Host OSが動作する物理サーバとは異なり、（イーサーネットカードデバイスなどに代表される）ネットワークデバイスを含むすべてのＨＷ（hardware）が、ＨＷからGuest OSへの割込処理やGuest OSからハードウェアへの書き込みに必要なレジスタ制御となる。このようなレジスタ制御では、本来物理ハードウェアが実行すべき通知や処理がソフトウェアで擬似的に模倣されるため、性能がHost OS環境に比べ、低いことが一般的である。

　この性能劣化において、特にGuest OSから自仮想マシン外に存在するHost OSや外部プロセスに対して、ＨＷの模倣を削減し、高速かつ統一的なインターフェイスにより通信の性能と汎用性を向上させる技術がある。この技術として、virtioというデバイスの抽象化技術、つまり準仮想化技術が開発されており、すでにLinuxを始め、FreeBSD（登録商標）など多くの汎用ＯＳに組み込まれ、現在利用されている。

　virtioでは、コンソール、ファイル入出力、ネットワーク通信といったデータ入出力に関して、転送データの単一方向の転送用トランスポートとして、リングバッファで設計されたキューによるデータ交換をキューのオペレーションにより定義している。そして、virtioのキューの仕様を利用して、それぞれのデバイスに適したキューの個数と大きさをGuest OS起動時に用意することにより、Guest OSと自仮想マシン外部との通信を、ハードウェアエミュレーションを実行せずにキューによるオペレーションだけで実現することができる。

［ポーリングモデルによるパケット転送（DPDKの例）］
　複数の仮想マシンを接続、連携させる手法はInter-VM Communicationと呼ばれ、データセンタなどの大規模な環境では、ＶＭ間の接続に、仮想スイッチが標準的に利用されてきた。しかし、通信の遅延が大きい手法であることから、より高速な手法が新たに提案されている。例えば、SR-IOV（Single Root I/O Virtualization）と呼ばれる特別なハードウェアを用いる手法や、高速パケット処理ライブラリであるIntel DPDK（Intel Data Plane Development Kit）（以下、ＤＰＤＫという）を用いたソフトウェアによる手法などが提案されている。

　ＤＰＤＫは、従来Linux kernel（登録商標）が行っていたＮＩＣ（Network Interface Card）の制御をユーザ空間で行うためのフレームワークである。Linux kernelにおける処理との最大の違いは、ＰＭＤ（Pull Mode Driver）と呼ばれるポーリングベースの受信機構を持つことである。通常、Linux kernelでは、ＮＩＣへのデータの到達を受けて、割込が発生し、それを契機に受信処理が実行される。一方、ＰＭＤは、データ到達の確認や受信処理を専用のスレッドが継続的に行う。コンテキストスイッチや割込などのオーバーヘッドを排除することで高速なパケット処理を行うことができる。ＤＰＤＫは、パケット処理のパフォーマンスとスループットを大幅に高めて、データプレーン・アプリケーション処理に多くの時間を確保することを可能にする。

　ＤＰＤＫは、ＣＰＵ（Central Processing Unit）やＮＩＣなどのコンピュータ資源を占有的に使用する。このため、ＳＦＣのようにモジュール単位で柔軟につなぎ替える用途には適用しづらい。これを緩和するためのアプリケーションであるＳＰＰ（Soft Patch Panel）がある。ＳＰＰは、ＶＭ間に共有メモリを用意し、各ＶＭが同じメモリ空間を直接参照できる構成にすることで、仮想化層でのパケットコピーを省略する。また、物理ＮＩＣと共有メモリ間のパケットのやり取りには、ＤＰＤＫを用いて高速化を実現する。ＳＰＰは、各ＶＭのメモリ交換の参照先を制御することで、パケットの入力先、出力先をソフトウェア的に変更することができる。この処理によって、ＳＰＰは、ＶＭ間やＶＭと物理ＮＩＣ間の動的な接続切替を実現する。

［New API(NAPI)によるＲｘ側パケット処理］
　図１８は、Linux kernel 2.5/2.6より実装されているNew API(NAPI)によるＲｘ側パケット処理の概略図である（非特許文献１参照）。
　図１８に示すように、New API(NAPI)は、OS７０（例えば、Host OS）を備えるサーバ上で、ユーザが使用可能なUser space６０に配置されたパケット処理ＡＰＬ１を実行し、OS７０に接続されたＨＷ１０のＮＩＣ１１とパケット処理ＡＰＬ１との間でパケット転送を行う。

　OS７０は、kernel７１、Ring Buffer７２、およびDriver７３を有し、kernel７１は、プロトコル処理部７４を有する。
　Kernel７１は、OS７０（例えば、Host OS）の基幹部分の機能であり、ハードウェアの監視やプログラムの実行状態をプロセス単位で管理する。ここでは、kernel７１は、パケット処理ＡＰＬ１からの要求に応えるとともに、ＨＷ１０からの要求をパケット処理ＡＰＬ１に伝える。Kernel７１は、パケット処理ＡＰＬ１からの要求に対して、システムコール（「非特権モードで動作しているユーザプログラム」が「特権モードで動作しているカーネル」に処理を依頼）を介することで処理する。
　Kernel７１は、Socket７５を介して、パケット処理ＡＰＬ１へパケットを伝達する。Kernel７１は、Socket７５を介してパケット処理ＡＰＬ１からパケットを受信する。

　Ring Buffer７２は、Kernel７１が管理し、サーバ中のメモリ空間にある。Ring Buffer７２は、Kernel７１が出力するメッセージをログとして格納する一定サイズのバッファであり、上限サイズを超過すると先頭から上書きされる。

　Driver７３は、kernel７１でハードウェアの監視を行うためデバイスドライバである。なお、Driver７３は、kernel７１に依存し、作成された（ビルドされた）カーネルソースが変われば、別物になる。この場合、該当ドライバ・ソースを入手し、ドライバを使用するOS上で再ビルドし、ドライバを作成することになる。

　プロトコル処理部７４は、ＯＳＩ（Open Systems Interconnection）参照モデルが定義するＬ２（データリンク層）／Ｌ３（ネットワーク層）／Ｌ４（トランスポート層）のプロトコル処理を行う。

　Socket７５は、kernel７１がプロセス間通信を行うためのインターフェイスである。Socket７５は、ソケットバッファを有し、データのコピー処理を頻繁に発生させない。Socket７５を介しての通信確立までの流れは、下記の通りである。1.サーバ側がクライアントを受け付けるソケットファイルを作成する。2.受付用ソケットファイルに名前をつける。3.ソケット・キューを作成する。4.ソケット・キューに入っているクライアントからの接続の最初の1つを受け付ける。5.クライアント側ではソケットファイルを作成する。6.クライアント側からサーバへ接続要求を出す。7.サーバ側で、受付用ソケットファイルとは別に、接続用ソケットファイルを作成する。通信確立の結果、パケット処理ＡＰＬ１は、kernel７１に対してread()やwrite()などのシステムコールを呼び出せるようになる。

　以上の構成において、Kernel７１は、NIC１１からのパケット到着の知らせを、ハードウェア割込（hardIRQ）により受け取り、パケット処理のためのソフトウェア割込（softIRQ）をスケジューリングする。
　上記、Linux kernel 2.5/2.6より実装されているNew API(NAPI)は、パケットが到着するとハードウェア割込（hardIRQ）の後、ソフトウェア割込（softIRQ）により、パケット処理を行う。図１８に示すように、割込モデルによるパケット転送は、割込処理（図１８の符号ａ参照）によりパケットの転送を行うため、割込処理の待ち合わせが発生し、パケット転送の遅延が大きくなる。

　以下、NAPI Rx側パケット処理概要について説明する。
［New API(NAPI)によるＲｘ側パケット処理構成］
　図１９は、図１８の破線で囲んだ箇所におけるNew API(NAPI)によるＲｘ側パケット処理の概要を説明する図である。
<Device driver>
　図１９に示すように、Device driverには、ネットワークインターフェイスカードであるNIC１１（物理NIC）、NIC１１の処理要求の発生によって呼び出され要求された処理（ハードウェア割込）を実行するハンドラであるhardIRQ８１、およびソフトウェア割込の処理機能部であるnetif_rx８２が配置される。

<Networking layer>
　Networking layerには、netif_rx８２の処理要求の発生によって呼び出され要求された処理（ソフトウェア割込）を実行するハンドラであるsoftIRQ８３、ソフトウェア割込（softIRQ）の実体を行う制御機能部であるdo_softirq８４が配置される。また、ソフトウェア割込（softIRQ）を受けて実行するパケット処理機能部であるnet_rx_action８５、ＮＩＣ１１からのハードウェア割込がどのデバイスのものであるかを示すネットデバイス（net_device）の情報を登録するpoll_list８６、sk_buff構造体（Kernel７１が、パケットがどうなっているかを知覚できるようにするための構造体）を作成するnetif_receive_skb８７、Ring Buffer７２が配置される。

<Protocol layer>
　Protocol layerには、パケット処理機能部であるip_rcv８８、arp_rcv８９等が配置される。

　上記netif_rx８２、do_softirq８４、net_rx_action８５、netif_receive_skb８７、ip_rcv８８、およびarp_rcv８９は、Kernel７１の中でパケット処理のために用いられるプログラムの部品（関数の名称）である。

［New API(NAPI)によるＲｘ側パケット処理動作］
　図１９の矢印（符号）ｂ～ｍは、Ｒｘ側パケット処理の流れを示している。
　NIC１１のhardware機能部１１ａ（以下、NIC１１という）が、対向装置からフレーム内にパケット（またはフレーム）を受信すると、ＤＭＡ（Direct Memory Access）転送によりＣＰＵを使用せずに、Ring Buffer７２へ到着したパケットをコピーする（図１９の符号ｂ参照）。このRing Buffer７２は、サーバの中にあるメモリ空間で、Kernel７１（図１８参照）が管理している。

　しかし、NIC１１が、Ring Buffer７２へ到着したパケットをコピーしただけでは、Kernel７１は、そのパケットを認知できない。そこで、NIC１１は、パケットが到着すると、ハードウェア割込（hardIRQ）をhardIRQ８１に上げ（図１９の符号ｃ参照）、netif_rx８２が下記の処理を実行することで、Kernel７１は、当該パケットを認知する。なお、図１９の楕円で囲んで示すhardIRQ８１は、機能部ではなくハンドラを表記する。

　netif_rx８２は、実際に処理をする機能であり、hardIRQ８１（ハンドラ）が立ち上がると（図１９の符号ｄ参照）、poll_list８６に、ハードウェア割込（hardIRQ）の中身の情報の１つである、ＮＩＣ１１からのハードウェア割込がどのデバイスのものであるかを示すネットデバイス（net_device）の情報を保存する。そして、netif_rx８２は、キューの刈取り（バッファに溜まっているパケットの中身を参照して、そのパケットの処理を、次に行う処理を考慮してバッファから該当するキューのエントリを削除する）を登録する（図１９の符号ｅ参照）。具体的には、netif_rx８２は、Ring Buffer７２にパケットが詰め込まれたことを受けて、NIC１１のドライバを使って、以後のキューの刈取りをpoll_list８６に登録する。これにより、poll_list８６には、Ring Buffer７２にパケットが詰め込まれたことによる、キューの刈取り情報が登録される。

　このように、図１９の<Device driver>において、NIC１１は、パケットを受信すると、ＤＭＡ転送によりRing Buffer７２へ到着したパケットをコピーする。また、NIC１１は、hardIRQ８１（ハンドラ）を上げ、netif_rx８２は、poll_list８６にnet_deviceを登録し、ソフトウェア割込（softIRQ）をスケジューリングする。
　ここまでで、図１９の<Device driver>におけるハードウェア割込の処理は停止する。

　その後、netif_rx８２は、poll_list８６に積まれているキューに入っている情報（具体的にはポインタ）を用いて、Ring Buffer７２に格納されているデータを刈取ることを、ソフトウェア割込（softIRQ）でsoftIRQ８３（ハンドラ）に上げ（図１９の符号ｆ参照）、ソフトウェア割込の制御機能部であるdo_softirq８４に通知する（図１９の符号ｇ参照）。

　do_softirq８４は、ソフトウェア割込制御機能部であり、ソフトウェア割込の各機能を定義（パケット処理は各種あり、割込処理はそのうちの一つ。割込処理を定義する）している。do_softirq８４は、この定義をもとに、実際にソフトウェア割込処理を行うnet_rx_action８５に、今回の（該当の）ソフトウェア割込の依頼を通知する（図１９の符号ｈ参照）。

　net_rx_action８５は、softIRQの順番がまわってくると、poll_list８６に登録されたnet_deviceをもとに（図１９の符号ｉ参照）、Ring Buffer７２からパケットを刈取るためのポーリングルーチンを呼び出し、パケットを刈取る（図１９の符号ｊ参照）。このとき、net_rx_action８５は、poll_list８６が空になるまで刈取りを続ける。
　その後、net_rx_action８５は、netif_receive_skb８７に通達をする（図１９の符号ｋ参照）。

　netif_receive_skb８７は、sk_buff構造体を作り、パケットの内容を解析し、タイプ毎に後段のプロトコル処理部７４（図１８参照）へ処理をまわす。すなわち、netif_receive_skb８７は、パケットの中身を解析し、パケットの中身に応じて処理をする場合には、<Protocol layer>のip_rcv８８に処理を回し（図１９の符号ｌ）、また、例えばＬ２であればarp_rcv８９に処理をまわす（図１９の符号ｍ）。

　特許文献１には、サーバ内ネットワーク遅延制御装置（ＫＢＰ：Kernel Busy Poll）が記載されている。ＫＢＰは、kernel内でpollingモデルによりパケット到着を常時監視する。これにより、softIRQを抑止し、低遅延なパケット処理を実現する。

国際公開第２０２１／１３０８２８号

New API(NAPI),［online］,［令和４年４月４日検索］,インターネット〈 URL : http:// http://lwn.net/2002/0321/a/napi-howto.php3〉

　しかしながら、割込モデルとポーリングモデルによるパケット転送のいずれについても下記課題がある。
　割込モデルは、ＨＷからイベント（ハードウェア割込）を受けたkernelがパケット加工を行うためのソフトウェア割込処理によってパケット転送を行う。このため、割込モデルは、割込（ソフトウェア割込）処理によりパケット転送を行うので、他の割込との競合や、割込先ＣＰＵがより優先度の高いプロセスに使用されていると待ち合わせが発生し、パケット転送の遅延が大きくなるといった課題がある。この場合、割込処理が混雑すると、更に待ち合わせ遅延は大きくなる。

　割込モデルにおいて、遅延が発生するメカニズムについて補足する。
　一般的なkernelは、パケット転送処理はハードウェア割込処理の後、ソフトウェア割込処理にて伝達される。
　パケット転送処理のソフトウェア割込が発生した際に、下記条件（１）～（３）においては、前記ソフトウェア割込処理を即時に実行することができない。このため、ksoftirqd（ＣＰＵ毎のカーネルスレッドであり、ソフトウェア割込の負荷が高くなったときに実行される）等のスケジューラにより調停され、割込処理がスケジューリングされることにより、ｍｓオーダの待ち合わせが発生する。
（１）他のハードウェア割込処理と競合した場合
（２）他のソフトウェア割込処理と競合した場合
（３）優先度の高い他プロセスやkernel thread（migration thread等）、割込先ＣＰＵが使用されている場合
　上記条件では、前記ソフトウェア割込処理を即時に実行することができない。

　また、New API(NAPI)によるパケット処理についても同様に、図１９の破線囲みｎに示すように、割込処理（softIRQ）の競合に起因し、ｍｓオーダのＮＷ遅延が発生する。
　一方、特許文献１に記載の技術を用いると、パケット到着を常時監視することにより、ソフトウェア割込を抑止し、低遅延なパケット刈取を実現できる。しかしながら、パケット到着を監視するため、ＣＰＵコアを専有しＣＰＵタイムを使用するため、消費電力が高くなる。すなわち、パケット到着を常時監視するkernel threadがＣＰＵコアを専有し、常にＣＰＵタイムを使用するため、消費電力が大きくなる課題がある。図２０および図２１を参照して、ワークロードとＣＰＵ使用率の関係について説明する。

　図２０は、映像（３０ＦＰＳ）のデータ転送例である。図２０に示すワークロードは、転送レート３５０Ｍｂｐｓで、３０ｍｓごとに間欠的にデータ転送を行っている。

　図２１は、特許文献１に記載のＫＢＰにおける、busy poll threadが使用するＣＰＵ使用率を示す図である。
　図２１に示すように、ＫＢＰでは、kernel threadはbusy pollを行うために、ＣＰＵコアを専有する。図２０に示す間欠的なパケット受信であっても、ＫＢＰでは、パケット到着有無に関わらず常にＣＰＵを使用するため、消費電力が大きくなる課題がある。

　このような背景を鑑みて本発明がなされたのであり、本発明は、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することを課題とする。

　前記した課題を解決するため、OSのカーネル空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置であって、前記スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部と、前記トラヒック頻度計測部が計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるモード切替制御部と、前記常時busy pollモードの場合、インターフェイス部からのハードウェア割込がどのデバイスのものであるかを示すネットデバイスの情報を登録するポールリストを監視し、パケット到着有無を確認するパケット到着監視部と、を備えることを特徴とするサーバ内遅延制御装置とした。

　本発明によれば、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することができる。

本発明の実施形態に係るサーバ内遅延制御システムの概略構成図である。図１のpolling thread（サーバ内遅延制御装置）をkernel spaceに配置した構成例である。図１のpolling thread（サーバ内遅延制御装置）をUser spaceに配置した構成例である。図１のpolling thread（サーバ内遅延制御装置）のトラヒック頻度計測部の配置を説明する図である。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置のトラヒック流入頻度が「疎」の場合のpolling thread動作例を示す図である。本発明の実施形態に係るサーバ内遅延制御システムのトラヒック流入頻度が「密」の場合のデータ転送例である。図６のトラヒック流入頻度が「密」の場合のデータ転送例におけるpolling thread動作例を示す図である。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置の動作モード切替ポイントを説明する図である。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置の切り替え判断ロジックの例を表にして示す図である。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置のＮＩＣおよびＨＷ割込処理を示すフローチャートである。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置のモード切替制御部の動作モード切替処理を示すフローチャートである。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置のpolling threadの動作モード切替処理を示すフローチャートである。本発明の実施形態に係るサーバ内遅延制御システムのサーバ内遅延制御装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。汎用Linux kernel（登録商標）およびＶＭ構成のサーバ仮想化環境における割込モデルに、kernel内にpolling threadを配置するサーバ内遅延制御システムを適用した例を示す図である。コンテナ構成のサーバ仮想化環境における割込モデルに、kernel内にpolling threadを配置するサーバ内遅延制御システムを適用した例を示す図である。汎用Linux kernel（登録商標）およびＶＭ構成のサーバ仮想化環境における割込モデルに、user spaceにpolling threadを配置するサーバ内遅延制御システムを適用した例を示す図である。コンテナ構成のサーバ仮想化環境における割込モデルに、user spaceにpolling threadを配置するサーバ内遅延制御システムを適用した例を示す図である。 Linux kernel 2.5/2.6より実装されているNew API(NAPI)によるＲｘ側パケット処理の概略図である。図１８の破線で囲んだ箇所におけるNew API(NAPI)によるＲｘ側パケット処理の概要を説明する図である。映像（３０ＦＰＳ）のデータ転送例を示す図である。特許文献１に記載のＫＢＰにおける、busy poll threadが使用するＣＰＵ使用率を示す図である。

　以下、図面を参照して本発明を実施するための形態（以下、「本実施形態」という）におけるサーバ内遅延制御システム等について説明する。
［概要］
　図１は、本発明の実施形態に係るサーバ内遅延制御システムの概略構成図である。本実施形態は、Linux kernel 2.5/2.6より実装されているNew API(NAPI)によるＲｘ側パケット処理に適用した例である。図１８と同一構成部分には、同一符号を付している。
　図１に示すように、サーバ内遅延制御システム１０００は、OS（例えば、Host OS）を備えるサーバ上で、ユーザが使用可能なUser spaceに配置されたパケット処理ＡＰＬ１を実行し、OSに接続されたＨＷのNIC１１とパケット処理ＡＰＬ１との間でパケット転送を行う。

　サーバ内遅延制御システム１０００は、ネットワークインターフェイスカードであるNIC１１（物理NIC）、NIC１１の処理要求の発生によって呼び出され要求された処理（ハードウェア割込）を実行するハンドラであるhardIRQ８１、ＨＷ割込の処理機能部であるＨＷ割込処理部１８２、receive list１８６、Ring_Buffer７２、polling thread（サーバ内遅延制御装置１００）と、プロトコル処理部７４と、を備える。
　Ring Buffer７２は、サーバの中にあるメモリ空間においてkernelが管理する。Ring Buffer７２は、kernelが出力するメッセージをログとして格納する一定サイズのバッファであり、上限サイズを超過すると先頭から上書きされる。
　プロトコル処理部７４は、Ethernet，IP，TCP/UDP等である。プロトコル処理部７４は、例えばＯＳＩ参照モデルが定義するＬ２／Ｌ３／Ｌ４のプロトコル処理を行う。

<サーバ内遅延制御装置>
　サーバ内遅延制御装置１００は、kernel spaceまたはUser spaceのいずれかに配置されるpolling threadである。
　サーバ内遅延制御装置１００は、パケット到着監視部１１０と、パケット刈取部１２０と、sleep管理部１３０と、CPU周波数/CPU idle設定部１４０と、モード切替制御部１５０と、トラヒック頻度計測部１６０と、を備える。図１では、パケット到着監視部１１０が、トラヒック頻度計測部１６０を備えている。

　パケット到着監視部１１０は、パケットが到着していないかを監視するためのthreadである。パケット到着監視部１１０は、receive list１８６を監視（polling）する。

　パケット到着監視部１１０は、receive list１８６からRing_Buffer７２にパケットが存在するポインタ情報と、net_device情報とを取得し、パケット刈取部１２０へ当該情報（ポインタ情報およびnet_device情報）を伝達する。ここで、receive list１８６に複数パケット情報が存在する場合は、複数分当該情報を伝達する。

　パケット刈取部１２０は、パケットが到着している場合は、Ring Buffer７２に保持したパケットを参照し、次に行う処理に基づいて該当するキューのエントリをRing Buffer７２から削除する刈取りを実行する（以下、単にRing Buffer７２からパケットを刈取るという場合がある）。パケット刈取部１２０は、受信した情報をもとにRing_Buffer７２からパケットを取り出し、プロトコル処理部７４へパケットを伝達する。
　パケット刈取部１２０は、Ring_Buffer７２に複数のパケットが貯まっているときは、複数パケットをまとめて刈り取って、後続のプロトコル処理部７４へ渡す。なお、このまとめて刈り取る数をquotaと言い、バッチ処理という呼び方をすることも多い。プロトコル処理部７４は、プロトコル処理も複数パケットをまとめて処理するので高速である。

　sleep管理部１３０は、パケットが所定期間到着しない場合はスレッド（polling thread）をスリープ（sleep）させ、かつ、パケット到着時はこのスレッド（polling thread）のハードウェア割込（hardIRQ）によりスリープ解除を行う（詳細後記）。

　CPU周波数/CPU idle設定部１４０は、スリープ中に、スレッド（polling thread）が使用するＣＰＵコアのＣＰＵ動作周波数を低く設定する。CPU周波数/CPU idle設定部１４０は、スリープ中に、このスレッド（polling thread）が使用するＣＰＵコアのＣＰＵアイドル（CPU idle）状態を省電力モードに設定する（詳細後記）。

　モード切替制御部１５０は、トラヒック頻度計測部１６０が計測したトラヒック流入頻度に基づいて、polling threadの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替える。例えば、モード切替制御部１５０は、トラヒック頻度計測部１６０が計測したトラヒック流入頻度情報に応じて、polling threadの動作モードをトラヒック流入頻度（バケット流入頻度）が低い場合は、「sleep制御モード(polling threadをsleep可能なモード)」に、またトラヒック流入頻度が高い場合は、「常時busy pollモード(polling threadを常時busy pollingさせるモード)」に切り替えるモード切替制御を行う。

　ここで、polling threadの動作モードは、「sleep制御モード」と「常時busy pollモード」のいずれかであり、「sleep制御モード」でない場合は、「常時busy pollモード」に、また、「常時busy pollモード」でない場合は、「sleep制御モード」に切り替えられる。

　また、上記「トラヒック流入頻度が低い場合」とは、トラヒック流入頻度が「疎」(図２０)の場合のように、バケット流入頻度が閾値Ｔ（図８）より小さい場合をいい、上記「トラヒック流入頻度が高い場合」とは、トラヒック流入頻度が「密」(図６)の場合のように、トラヒック流入頻度が閾値Ｔ（図８）以上の場合をいう（後記）。

　トラヒック頻度計測部１６０は、トラヒック流入頻度を計測し、モード切替制御部１５０へ伝達する。トラヒック頻度計測部１６０は、ＨＷ割込回数（kernel内に統計情報として記録されている）等により近似的にトラヒック頻度を類推することで、トラヒック頻度を計測してもよい。

<サーバ内遅延制御装置の配置>
　図２および図３は、図１のpolling thread（サーバ内遅延制御装置１００）の配置を説明する図である。
・polling threadのkernel space配置
　図２は、図１のpolling thread（サーバ内遅延制御装置１００）をkernel spaceに配置した構成例である。
　図２に示すサーバ内遅延制御システム１０００は、kernel spaceにpolling thread（サーバ内遅延制御装置１００）、プロトコル処理部７４が配置される。このpolling thread（サーバ内遅延制御装置１００）は、kernel space内で動作する。サーバ内遅延制御システム１０００は、OSを備えるサーバ上で、User spaceに配置されたパケット処理ＡＰＬ１を実行し、OSに接続されたDevice driverを介してＨＷのNIC１１とパケット処理ＡＰＬ１との間でパケット転送を行う。
　なお、図２に示すように、Device driverには、hardIRQ８１、ＨＷ割込処理部１８２、receive list１８６、Ring_Buffer７２が配置される。
　Device driverは、ハードウェアの監視を行うためのドライバである。

　サーバ内遅延制御装置１００のモード切替制御部１５０は、kernel内にpolling threadを配置する形態では、スリープ時、定期的に当該スレッドを起床させる、または、パケット到着タイミングに合わせて当該パケット到着の直前に当該スレッドを起床させる。モード切替制御部１５０は、ＨＷ割込を管理し、hardIRQ８１に対し、polling threadのsleepやＨＷ割込許可／禁止を制御する（図２の符号ｘｘ参照）。

　本発明を、ＮＡＰＩやＫＢＰのように、kernel内部にpolling threadがある場合に適用することができる。

・polling threadのUser space配置
　図３は、図１のpolling thread（サーバ内遅延制御装置１００）をUser spaceに配置した構成例である。
　図３に示すサーバ内遅延制御システム１０００は、User spaceにpolling thread（サーバ内遅延制御装置１００）、プロトコル処理部７４が配置される。このpolling thread（サーバ内遅延制御装置１００）は、Kernel space内ではなく、User spaceで動作する。
　図３に示すサーバ内遅延制御システム１０００は、polling thread（サーバ内遅延制御装置１００）が、kernel spaceをバイパスして、Device driverおよびNIC１１とパケット処理ＡＰＬ１との間でパケット転送を行う。

　サーバ内遅延制御装置１００のモード切替制御部１５０は、user spaceにpolling threadを配置する形態では、スリープ時、定期的に当該スレッドを起床させる、または、パケット到着タイミングに合わせて当該パケット到着の直前に当該スレッドを起床させる。モード切替制御部１５０は、ＨＷ割込を管理し、ＨＷ割込処理部１８２に対しpolling threadのsleepやＨＷ割込許可／禁止を制御する（図３の符号ｙｙ参照）。

　本発明を、ＤＰＤＫのように、user spaceにpolling threadがある場合に適用することができる。

<トラヒック頻度計測部１６０の配置>
　図４は、図１のpolling thread（サーバ内遅延制御装置１００）のトラヒック頻度計測部１６０の配置を説明する図である。
　図４に示すように、サーバ内遅延制御装置１００のトラヒック頻度計測部１６０は、パケット到着監視部１１０から独立したスレッドとして配置し、トラヒック頻度を計測してもよい。この場合、トラヒック頻度計測部１６０は、直接トラヒック頻度を計測できなくなるが、ＨＷ割込回数（kernel内に統計情報として記録されている）等で近似的にトラヒック頻度を類推することで、トラヒック頻度を計測可能である。

　以下、上述のように構成されたサーバ内遅延制御システム１０００の動作を説明する。
　本発明は、ＮＡＰＩやＫＢＰのように、kernel内部にpolling threadがある場合、または、ＤＰＤＫのように、user spaceにpolling threadがある場合のいずれにも適用することができる。kernel内部にpolling threadがある場合への適用を例にとり説明する。

［本発明によるＲｘ側パケット処理動作］
　図１～図４の矢印（符号）ａａ～ｉｉは、Ｒｘ側パケット処理の流れを示している。
　NIC１１が、対向装置からフレーム内にパケット（またはフレーム）を受信すると、ＤＭＡ転送によりＣＰＵを使用せずに、Ring Buffer７２へ到着したパケットをコピーする（図１～図４の符号ａａ参照）。このRing Buffer７２は、<Device driver>で管理している。

　NIC１１は、パケットが到着すると、ハードウェア割込（hardIRQ）をhardIRQ８１（ハンドラ）に立ち上げ（図１～図４の符号ｂｂ参照）、ＨＷ割込処理部１８２が下記の処理を実行することで、当該パケットを認知する。

　ＨＷ割込処理部１８２は、hardwire８１（ハンドラ）が立ち上がると（図１の符号ｃｃ参照）、receive list１８６に、ハードウェア割込（hardIRQ）の中身の情報の１つである、ＮＩＣ１１からのハードウェア割込がどのデバイスのものであるかを示すネットデバイス（net_device）の情報を保存して、キューの刈取り情報を登録する。具体的には、ＨＷ割込処理部１８２は、Ring Buffer７２にパケットが詰め込まれたことを受けて、NIC１１のドライバを使って、以後のキューの刈取りをreceive list１８６に登録する（図１～図４の符号ｄｄ参照）。これにより、receive list１８６には、Ring Buffer７２にパケットが詰め込まれたことによる、キューの刈取りが登録される。

　ＨＷ割込処理部１８２は、receive list１８６にnet_deviceを登録するが、図１９のnetif_rx８２とは異なり、ソフトウェア割込（softIRQ）のスケジューリングは行わない。すなわち、ＨＷ割込処理部１８２は、ソフトウェア割込（softIRQ）のスケジューリングは行わない点で、図１９のnetif_rx８２とは異なる。

　また、ＨＷ割込処理部１８２は、sleepしているpolling threadを呼び起こすsleep解除を行う（図１～図４の符号ｅｅ参照）。
　ここまでで、図１～図４の<Device driver>におけるハードウェア割込の処理は停止する。

　本実施形態では、図１９に示す<Networking layer>において、softIRQ８３およびdo_softirq８４が削除され、これに伴い、図１９に示すnetif_rx８２が、softIRQ８３（ハンドラ）を立ち上げる通知（図１９の符号ｆ参照）も行わない。

　本実施形態では、サーバ内遅延制御システム１０００は、図１９に示すsoftIRQ８３およびdo_softirq８４を削除し、代わりに<kernel space>にpolling thread（サーバ内遅延制御装置１００）設ける（図２参照）。あるいは、サーバ内遅延制御システム１０００は、<User space>にpolling thread（サーバ内遅延制御装置１００）設ける（図３参照）。

　パケット到着監視部１１０は、receive list１８６を監視（polling）し（図１～図４の符号ｆｆ参照）、パケット到着有無を確認する。
　パケット到着監視部１１０は、receive list１８６から、Ring_Buffer７２にパケットが存在するポインタ情報と、net_device情報とを取得し、パケット刈取部１２０へ当該情報（ポインタ情報およびnet_device情報）を伝達する（図１～図４の符号ｇｇ参照）。ここで、receive list１８６に複数パケット情報が存在する場合は、複数分当該情報を伝達する。

　サーバ内遅延制御装置１００のパケット刈取部１２０は、パケットが到着している場合は、Ring Buffer７２からパケットを刈取る（図１～図４の符号ｈｈ参照）。
　パケット刈取部１２０は、受信した情報をもとにRing_Buffer７２からパケットを取り出し、プロトコル処理部７４へパケットを伝達する（図１～図４の符号ｉｉ参照）。

［polling threadのsleep動作］
　サーバ内遅延制御システム１０００は、ＮＷ遅延発生の主要因であるパケット処理のsoftIRQを停止し、サーバ内遅延制御装置１００のパケット到着監視部１１０がパケット到着を監視するpolling threadを実行する。そして、パケット刈取部１２０が、パケット到着時に、pollingモデル（softIRQなし）によりパケット処理を行う。

　パケット到着時は、ハード割込ハンドラでpolling threadを起こすことで、softIRQ競合を回避して、即時にパケット転送処理が可能となる。言い換えれば、パケット到着監視機能を待機させておき、ハード割込で起こすことで、NAPI等のソフト割込によるパケット転送処理よりも低遅延化が可能になる。

　パケット到着を監視するpolling thread（サーバ内遅延制御装置１００）は、パケット到着がない間はsleep可能とする。
　polling thread（サーバ内遅延制御装置１００）は、パケット到着有無に応じてsleepし、パケット到着時はhardIRQ８１によりsleep解除を行う。具体的には、サーバ内遅延制御装置１００のsleep管理部１３０は、パケット到着有無に応じて、すなわち所定期間パケットの到着がないと、polling threadをsleepさせる。sleep管理部１３０は、パケット到着時はhardIRQ８１によりsleep解除を行う。これにより、softIRQ競合を回避して、低遅延化を実現する。

　サーバ内遅延制御装置１００のCPU周波数/CPU idle設定部１４０は、パケット到着有無に応じてＣＰＵ動作周波数やidle設定を変更する。具体的には、CPU周波数/CPU idle設定部１４０は、sleep時はＣＰＵ周波数を下げ、再度起動時はＣＰＵ周波数を高める（ＣＰＵ動作周波数をもとに戻す）。また、CPU周波数/CPU idle設定部１４０は、sleep時はCPU idle設定を省電力に変更する。sleep時にＣＰＵ動作周波数を低く変更する、また、CPU idle設定を省電力に変更することで省電力化も達成する。

［トラヒック流入頻度およびpolling thread動作例］
<トラヒック流入頻度が「疎」の場合>
　まず、トラヒック流入頻度が「疎」の場合について説明する。
　図５は、サーバ内遅延制御装置１００のトラヒック流入頻度が「疎」の場合のpolling thread動作例を示す図である。縦軸は、polling threadが使用するＣＰＵコアのＣＰＵ使用率[％]を示し、横軸は、時間を示す。なお、図５は、図２０に示す間欠的にパケットが受信される映像（３０ＦＰＳ）のデータ転送例に対応するパケット到着によるpolling thread動作例を示している。

　図５は、図２０の映像（３０ＦＰＳ）のデータ転送例のように、トラヒック流入頻度が「疎」の場合の例である。なお、トラヒック流入頻度が「密」の場合の例は、図６で後記する。

　図５に示すように、サーバ内遅延制御装置１００のsleep管理部１３０は、所定期間パケットの到着がない場合（より詳細には、あるパケット到着してから、保守・運用者があらかじめ定めた固定値（一定期間）を経過しても次のパケット到着がない場合）に、polling threadをsleepさせる（図５の符号ｐ：sleep参照）。そして、sleep管理部１３０は、パケット到着のhardIRQ８１でpolling threadを起動させる（図５の符号ｑ：wake up参照）。

　なお、sleep 時には、kernelthreadがＣＰＵコアを専有していないため、polling threadが使用する以外にも、システム安定動作のためのタイマの割込みが該当ＣＰＵコアに入ったり、エラー処理等のためのmigration threadが該当ＣＰＵコアに入ったりすることで、polling threadが使用するＣＰＵコアのＣＰＵ使用率が変動する場合がある（図５の符号ｒ参照）。

　図５のpolling thread動作例に示すように、polling threadをsleepさせる方式は、トラヒック流入量が少ない場合は省電力効果を十分に得ることができる。

<トラヒック流入頻度が「密」の場合>
　次に、トラヒック流入頻度が「密」の場合について説明する。
　図６は、トラヒック流入頻度が「密」の場合のデータ転送例である。図６に示すワークロードは、図２０と対比して分かるように、トラヒック流入頻度が高い、すなわち時間軸方向にトラヒック流入頻度が「密」である。
　例えば、vRAN（virtual Radio Access Network） vDU（virtual Distributed Unit）システムにおけるnumerology=3or4のように、時間方向のsymbol間隔が短い（例えば、8.92us,4.46us間隔）でデータが到着する場合等が該当する。

　図７は、図６のトラヒック流入頻度が「密」の場合のデータ転送例におけるpolling thread動作例を示す図である。縦軸は、polling threadが使用するＣＰＵコアのＣＰＵ使用率[％]を示し、横軸は、時間を示す。図５と同じpolling thread動作には、同一符号を付している。
　図６に示すトラヒック流入量が多い、すなわちトラヒック流入頻度が「密」の場合は、図７に示すように、sleepできる時間が短くなり、sleepとwake upとが高頻度に繰り返される（図７の符号ｒ：sleep/ｑ：wake up参照）。

　トラヒック流入頻度が「密」の場合は、sleepとwake upとが高頻度に繰り返されることで、CPU使用率を低下させられない。このため、sleepすることによるCPU cycleの消費電力削減効果よりも、wake up時の割込オーバーヘッドによるCPU cycleの消費電力増加の方が大きくなり、結果としてsleepすることにより消費電力が高くなってしまう場合がある。

　このように、トラヒック流入頻度が「疎」の場合（図５参照）は、省電力効果を十分に得ることができるが、トラヒック流入頻度が「密」の場合は、polling threadをsleepさせずに、単純に常時busy pollさせた方が電力消費を小さくできる場合がある。

<「sleep制御モード」と「常時busy pollモード」の消費電力比較>
　次に、sleep/wake upを繰り返すよりも、単純busy pollの方が、消費電力が小さくなる理由について説明する。
　sleep/wake upを行う「sleep制御モード」では、sleep時にパケットを受信すると、下記処理が発生し、この処理の演算のためのCPU cycleを必要とする。
・ハードウェア割込発動
・ハードウェア割込ハンドラ処理（receive listへの登録、sleepしているスレッドの起床）
・polling threadがuser spaceに配置されている場合は、ハードウェア割込処理のkernel特権モードから、polling threadの起床処理のための一般モードへの切替に伴うコンテキストスイッチ

　これらの「sleep制御モード」における演算量（仕事量）と、単純にbusy pollを行う「常時busy pollモード」における演算量（仕事量）とを比較した場合、トラヒック流入頻度が「密」の場合には、「sleep制御モード」における演算量の方が、「常時busy pollモード」における演算量よりも増大する。このように、トラヒック流入頻度が「密」の場合には、polling threadをsleepさせずに、単純に常時busy pollさせた方が電力消費を小さくできる場合がある。

<モード切り替えまとめ>
　トラヒック流入頻度が「疎」の場合は、polling threadをsleepさせることによる省電力効果が見込めるため、sleep制御を行う。一方で、トラヒック流入頻度が「密」の場合は、polling threadをsleepさせると、高頻度にsleep/wake upを繰り返すことになる。この場合、sleepによる省電力効果よりも、割込オーバーヘッドの方が大きくなり、sleep制御を行うことで消費電力が悪化する場合がある。このため、「常時busy pollモード」とする（「sleep制御モード」としない）。

　トラヒック流入頻度が「疎」の場合は、polling threadのsleep制御を行う。
　トラヒック流入頻度が「密」の場合は、polling threadは常時busy pollする。トラヒック流入頻度が「密」の場合、常にbusy pollする方が、sleep/wake upを高頻度で繰り返すよりも、CPU cycle数を削減できる。

　このように、トラヒック流入頻度に応じて、これらの受信方式モードを切り替えることで、省電力と低遅延の両立を達成する。

［発明概要］
　　　・　低遅延
　polling thread（サーバ内遅延制御装置１００）は、パケット到着監視部１１０と、パケット刈取部１２０と、を備え、pollingモデルによりパケットの到着監視と受信処理を行うことで、低遅延なパケット受信処理を実現する。具体的には、polling thread（サーバ内遅延制御装置１００）は、低遅延pollingモデルによりパケットの到着監視および受信処理を行う（図１～図４の符号ｆｆ参照）。このため、softIRQ競合が発生せず、遅延が小さい効果がある。また、sleep時にパケットが到着した際は、高優先のhardIRQによりpolling threadを起こすため、sleepによるオーバーヘッドをできる限り抑制できる。

（２）省電力（その１）
　polling thread（サーバ内遅延制御装置１００）は、sleep管理部１３０を備え、sleep管理部１３０がパケットが到着していない間はpolling threadをsleepさせることで、polling threadによる無駄なbusy pollingによる消費電力の浪費を防ぐ。
　また、polling thread（サーバ内遅延制御装置１００）は、CPU周波数/CPU idle設定部１４０を備え、CPU周波数/CPU idle設定部１４０がCPU動作周波数の動的制御を行う。このCPU動作周波数の動的制御は、sleep制御と併用する。

　このように、省電力パケットが到着していない間は、polling threadがsleepし、CPU周波数を低く設定する制御をするので、busy pollingによる消費電力増加を抑制できる。

（３）省電力（その２）
　polling thread（サーバ内遅延制御装置１００）は、モード切替制御部１５０と、トラヒック頻度計測部１６０と、を備える。モード切替制御部１５０は、トラヒック流入頻度を計測し、モード切替制御部１５０に伝達する。モード切替制御部１５０は、トラヒック流入頻度に応じて、polling threadの動作モードを、「常時busy pollモード」と、「sleep制御モード」のいずれかに切り替える。具体的には、モード切替制御部１５０は、トラヒック流入頻度が「疎」の場合は、polling threadの動作モードを「sleep制御モード」に切り替え、トラヒック流入頻度が「密」の場合は、polling threadの動作モードを「常時busy pollモード」に切り替える。

［「sleep制御モード」と「常時busy pollモード」の切替制御の特徴］
　次に、sleep時間等の制御を行うのではなく、モードを分けることのメリットについて説明する。
　sleep/wake upを行う「sleep制御モード」と、単純busy pollを行う「常時busy pollモード」とで、モードを分ける。これにより、単純busy pollには必要のないsleep制御ロジック等を単純busy pollモードに実装する必要がない。このため、余計な制御ロジックの演算を省略することができ、余計な演算が減り、消費電力を削減できる可能性がある。逆に、動作モードを分けない場合は、単純busy pollを行うモードであっても、sleep制御時間等の判断ロジックを実装し、この演算コストを要することになる。

　また、モードごとに独立したプログラムを作りやすくなるため、各モードに特化した制御を導入しやすくなる。

［動作モード切替ポイント］
　図８は、動作モード切替ポイントを説明する図である。縦軸は、polling threadによる消費電力を示し、横軸は、パケット流入頻度（トラヒック流入頻度）を示す。
　図８に示すように、polling threadが常にbusy pollする場合、polling threadによる消費電力は一定である。sleep制御を行う場合、パケット流入頻度が高くなるに従ってpolling threadによる消費電力も上昇していく。パケット流入頻度がある閾値Ｔのところでpolling threadによる消費電力は等しくなり、パケット流入頻度が閾値Ｔを超えると、sleep制御を行うと、polling threadによる消費電力は却って増大する。polling threadによる消費電力の観点からは、パケット流入頻度低から閾値Ｔまでは、「sleep制御モードを使用すべき領域」（図８の符号ｊｊ参照）であり、閾値Ｔ以上は「常時busy pollモードを使用すべき領域」（図８の符号ｋｋ参照）となる。

　すなわち、パケット流入頻度が閾値Ｔに達すると、sleep制御をしても、sleepする時間が短く、割込オーバーヘッドの方が上回るため、常時busy pollよりも消費電力が高くなる（図８の双方向矢印ｌｌ参照）。したがって、閾値Ｔが「sleep制御モード」と「常時busy pollモード」との動作モード切替ポイントとなる。

　ところで、polling threadのsleepによる省電力効果や、割込オーバーヘッドは、使用するサーバスペックに依って異なる。つまり、上記閾値Ｔは使用するサーバ機種に依って異なることになる。一方で、流入するパケットサイズにはあまり相関は無いため、運用者が予めサービスに使用するサーバを用いて、閾値Ｔを実験により計測しておくことが考えられる。

［切り替え判断ロジックの例］
　図９は、切り替え判断ロジックの例を表にして示す図である。
　図９に示すように、切り替え判断ロジックは、カテゴリと、カテゴリごとのロジック概要からなる。

１．単純な閾値判定
　トラヒック流入量を計測しておき、単一時間当たりのトラヒック流入頻度が閾値Ｔを超えた際に動作モードを切り替える方式

２．時間帯と閾値による判定
　日中帯は人が活発に活動するため、夜間に比べてトラヒック量が多い傾向にある。このトラヒック量の特徴を考慮し、下記のように時間帯を考慮した動作モード切り替えを行う。
・日中帯：トラヒック流入頻度が閾値Ｔより高くなった場合、常時busy pollモードへ移行する。この場合、一時的に閾値Ｔを下回っても、sleep制御モードへは移行しないことで、閾値Ｔを境に動作モードが頻繁に切り替わるハンチングを防止する。
・夜間帯：トラヒック頻度が閾値Ｔより低くなった場合、sleep制御モードへ移行する。この場合、一時的に閾値Ｔを超えても、常時busy pollモードへは移行しないことで、閾値Ｔを境に動作モードが頻繁に切り替わるハンチングを防止する。

３．企画型イベント情報や立地情報と閾値による判定
　花火大会等のイベントや、店舗の営業時間等に依って、在圏内の人数が変動し、トラヒック量が特徴的な場合がある。このような企画型イベント情報や立地情報を入手しておき、そのイベントによって予想される時間帯別のトラヒック量に応じて、上記２．と同様の制御を行うことで、効果の高い動作モードの切り替えが可能である。

４．機械学習によるトラヒック予測による判定
　トラヒック量の推移を機械学習により学習しておき、流入するトラヒックパターンから、将来のトラヒック頻度を推論することによって予想し、適する動作モードへ切り替える。

［フローチャート］
<ＮＩＣおよびＨＷ割込処理>
　図１０は、polling thread（サーバ内遅延制御装置１００）のＮＩＣおよびＨＷ割込処理を示すフローチャートである。
　polling threadが起動している間は、本動作フローをループして実行する。
　NIC１１にパケットが到着すると、本フローがスタートする。ステップＳ１でNIC１１は、DMA(Direct Memory Access)により到着したパケットデータをメモリ領域へコピーする。

　ステップＳ２でpolling thread（サーバ内遅延制御装置１００）は、ＨＷ割込が許可されているか否かを判別する。ＨＷ割込が許可されている場合（Ｓ２：Ｙｅｓ）、ステップＳ３に進み、ＨＷ割込が許可されていない場合（Ｓ２：Ｎｏ）には本フローの処理を終了する。
　ステップＳ３でNIC１１は、ＨＷ割込（hardIRQ）をhardIRQ８１（ハンドラ）に立ち上げてＨＷ割込を起動し、receive list１８６にパケット到着情報（ＮＩＣデバイス情報等）を登録する。
　ステップＳ４でNIC１１は、polling thread（サーバ内遅延制御装置１００）がsleepしている場合、polling threadを起こして本フローの処理を終了する。

［polling thread（サーバ内遅延制御装置１００）の動作フロー］
<動作モード切替処理>
　図１１は、polling thread（サーバ内遅延制御装置１００）のモード切替制御部１５０の動作モード切替処理を示すフローチャートである。
　ステップＳ１１でモード切替制御部１５０は、トラヒック頻度計測部１６０からトラヒック流入頻度情報を受信する。
　ステップＳ１２でモード切替制御部１５０は、受信したトラヒック流入頻度情報をもとに、図９に記載した切替判断ロジックに従い、「sleep制御モード」と「常時busy pollモード」のどちらが適するかを判断する。モード切替制御部１５０は、現在の動作モードが判断後の動作モードと異なる場合は、各部（パケット到着監視部１１０、パケット刈取部１２０、sleep管理部１３０、およびCPU周波数/CPU idle設定部１４０）へ判断後の動作モードを指示する。現在の動作モードが判断後の動作モードと同じ場合は、各部への動作モードを指示は行わない。これにより、現在の動作モードが継続される。

<polling threadの動作フロー>
　図１２は、polling thread（サーバ内遅延制御装置１００）のpolling threadの動作モード切替処理を示すフローチャートである。
　polling threadがsleepしているときに、パケットが到着し、ＨＷ割込により起こされ、本フローがスタートする。
　ステップＳ２１でモード切替制御部１５０は、NIC１１によるＨＷ割込を禁止する。処理している最中にＨＷ割込されると、処理が中断されてしまうので、モード切替制御部１５０は、NIC１１によるＨＷ割込を一旦禁止する。

　ステップＳ２２でCPU周波数/CPU idle設定部１４０は、polling threadが動作するＣＰＵコアのCPU周波数を高く設定し、該当ＣＰＵをidle stateにしていた場合はidle stateを解除する。

　ステップＳ２３でpolling threadは、receive list１８６を参照する。polling threadは、どこのデバイスからＨＷ割込が起ったかを知り、次のステップＳ２４でreceive list１８６のパケット到着情報を確認する。
　なお、receive list１８６というControl Planeのlistを参照するのではなく、直接Ring Buffer７２を参照し、パケットの到着有無を確認してもよい。例えば、Linux kernelに実装されたNAPIでは、poll_listというControl Planeのlistを監視する。

　ステップＳ２４でパケット到着監視部１１０は、receive list１８６にパケット到着情報が存在するか否かを判別する。receive list１８６にパケット到着情報が存在する場合は（Ｓ２４：Ｙｅｓ）、ステップＳ２５に進み、receive list１８６にパケット到着情報が存在しない場合（Ｓ２４：Ｎｏ）、すなわち、処理すべきパケットがない場合には、以下の処理をスキップしてステップＳ３０に進む。

　ステップＳ２５でpolling threadは、ring buffer７２からパケットデータを参照し、該当データを後続のプロトコル処理部７４へ転送する。ここで、複数のデータがある時は、一括で受信処理してもよい。

　ステップＳ２６でトラヒック頻度計測部１６０は、トラヒック流入頻度を計測し、モード切替制御部１５０に伝達する。

　トラヒック頻度計測部１６０は、ＨＷ割込回数（kernel内に統計情報として記録されている）等により近似的にトラヒック頻度を類推することで、トラヒック頻度を計測してもよい。また、動作モード切替判断ロジックが、図９に記載の単純な閾値判定等の軽い処理の場合には、モード切替制御部１５０に判断を移譲せずに、トラヒック頻度計測部１６０が、動作モードを判断してもよい（その場合は、トラヒック頻度計測部１６０がモード切替制御部１５０の機能を兼ねる）。

　ステップＳ２７でsleep管理部１３０は、トラヒック流入頻度に適合するように、polling threadを短時間スリープ（sleep）させる。例えば、トラヒック流入頻度が５ｕｓであれば、３ｕｓ程度sleepさせる。

　ステップＳ２８でパケット到着監視部１１０は、モード切替制御部から指示された動作モードが「sleep制御モード」であるか否かを判別する。モード切替制御部から指示された動作モードが「sleep制御モード」でない場合（Ｓ２８：Ｎｏ）、上記ステップＳ２５に戻る。

　モード切替制御部から指示された動作モードが「sleep制御モード」である場合（Ｓ２８：Ｙｅｓ）、ステップＳ２９でパケット刈取部１２０は、ring buffer７２に未受信のパケットが存在する否かを判別する。ring buffer７２に未受信のパケットが存在する場合（Ｓ２９：Ｙｅｓ）、上記ステップＳ２５に戻る。

　ここで、上記ステップＳ２５乃至ステップＳ２８のループが常時busy pollのループとなる（図１２の破線囲みｍｍ参照）（これ以外のループは、sleep制御モードのループとなる）。

　ring buffer７２に未受信のパケットが存在しない場合（Ｓ２９：Ｎｏ）、ステップＳ３０でCPU周波数/CPU idle設定部１４０は、polling threadが動作するＣＰＵコアのＣＰＵ周波数を低く設定し、該当ＣＰＵをidle stateにする。

　ステップＳ３１でパケット到着監視部１１０は、receive list１８６から該当ＮＩＣ情報を削除する。

　ステップＳ３２でパケット到着監視部１１０は、該当NICによるＨＷ割込を許可する。

　ステップＳ３３でsleep管理部１３０は、polling threadをsleepさせて本フローの処理を終了する。

［ハードウェア構成］
　上記実施形態に係るサーバ内遅延制御装置１００は、例えば図１３に示すような構成のコンピュータ９００によって実現される。
　図１３は、サーバ内遅延制御装置１００の機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。
　コンピュータ９００は、ＣＰＵ９０１、ＲＯＭ９０２、ＲＡＭ９０３、ＨＤＤ９０４、通信インターフェイス（Ｉ／Ｆ：Interface）９０６、入出力インターフェイス（Ｉ／Ｆ）９０５、およびメディアインターフェイス（Ｉ／Ｆ）９０７を有する。

　ＣＰＵ９０１は、ＲＯＭ９０２またはＨＤＤ９０４に格納されたプログラムに基づいて動作し、図１乃至図４に示すサーバ内遅延制御装置１００の各部の制御を行う。ＲＯＭ９０２は、コンピュータ９００の起動時にＣＰＵ９０１によって実行されるブートプログラムや、コンピュータ９００のハードウェアに依存するプログラム等を格納する。

　ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、マウスやキーボード等の入力装置９１０、および、ディスプレイ等の出力装置９１１を制御する。ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、入力装置９１０からデータを取得するともに、生成したデータを出力装置９１１へ出力する。なお、プロセッサとしてＣＰＵ９０１とともに、ＧＰＵ（Graphics Processing Unit）等を用いてもよい。

　ＨＤＤ９０４は、ＣＰＵ９０１により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ９０６は、通信網（例えば、ＮＷ（Network）９２０）を介して他の装置からデータを受信してＣＰＵ９０１へ出力し、また、ＣＰＵ９０１が生成したデータを、通信網を介して他の装置へ送信する。

　メディアＩ／Ｆ９０７は、記録媒体９１２に格納されたプログラムまたはデータを読み取り、ＲＡＭ９０３を介してＣＰＵ９０１へ出力する。ＣＰＵ９０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ９０７を介して記録媒体９１２からＲＡＭ９０３上にロードし、ロードしたプログラムを実行する。記録媒体９１２は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

　例えば、コンピュータ９００が本実施形態に係る一装置として構成されるサーバ内遅延制御装置１００として機能する場合、コンピュータ９００のＣＰＵ９０１は、ＲＡＭ９０３上にロードされたプログラムを実行することによりサーバ内遅延制御装置１００の機能を実現する。また、ＨＤＤ９０４には、ＲＡＭ９０３内のデータが記憶される。ＣＰＵ９０１は、目的の処理に係るプログラムを記録媒体９１２から読み取って実行する。この他、ＣＰＵ９０１は、他の装置から通信網（ＮＷ９２０）を介して目的の処理に係るプログラムを読み込んでもよい。

［適用例］
（kernel内にpolling threadを配置する形態）
　図２に示すpolling thread（サーバ内遅延制御装置１００）のように、Kernel内に、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置に適用できる。この場合、ＯＳは限定されない。また、サーバ仮想化環境下であることも限定されない。したがって、サーバ内遅延制御システムは、図１４および図１５に示す各構成に適用が可能である。

<ＶＭ構成への適用例>
　図１４は、汎用Linux kernel（登録商標）およびＶＭ構成のサーバ仮想化環境における割込モデルに、サーバ内遅延制御システム１０００Ａを適用した例を示す図である。図１および図１８と同一構成部分には、同一符号を付している。
　図１４に示すように、サーバ内遅延制御システム１０００Ａは、Guest OS７０のKernel１７１内にサーバ内遅延制御装置１００が配置され、Host OS９０のKernel９１内にサーバ内遅延制御装置１００が配置される。

　詳細には、サーバは、仮想マシンおよび仮想マシン外に形成された外部プロセスが動作可能なHost OS９０と、仮想マシン内で動作するGuest OS７０と、を備える。
　HostOS９０は、Kernel９１と、HostOS９０を備えるサーバ中のメモリ空間で、Kernel９１が管理するRing Buffer２２と、NIC11からのハードウェア割込（hardIRQ）がどのデバイスのものであるかを示すネットデバイスの情報を登録するreceive list１８６（図２）と、kernel threadであるvhost-netモジュール２２１と、Kernel９１により作成される仮想インターフェイスであるtapデバイス２２２と、仮想スイッチ(br)２２３と、を有する。

　Kernel９１は、サーバ内遅延制御装置１００を備える。
　Kernel９１は、tapデバイス２２２を介して、Linux（登録商標）とＫＶＭ３０で構成された仮想マシン４０へパケットを伝達する。

　一方、GuestOS７０は、kernel１７１、Ring Buffer５２、およびDriver５３を有し、Driver５３は、virtio-driver５３１を備える。

　Kernel１７１は、サーバ内遅延制御装置１００と、刈取りが実行されたパケットのプロトコル処理を行うプロトコル処理部７４と、を備える。
　Kernel１７１は、プロトコル処理部７４を介して、パケット処理ＡＰＬ１へパケットを伝達する。

　このようにすることにより、ＶＭの仮想サーバ構成のシステムにおいて、HostOS９０とGuestOS７０とのいずれのOSにおいても、ＡＰＬを改変することなく、サーバ内の遅延を小さくしてパケット転送を行うことができる。

<コンテナ構成への適用例>
　図１５は、コンテナ構成のサーバ仮想化環境における割込モデルに、サーバ内遅延制御システム１０００Ｂを適用した例を示す図である。図１および図１４と同一構成部分には、同一符号を付している。
　図１５に示すように、サーバ内遅延制御システム１０００Ｂは、GuestOS７０をContainer２１１に代えた、コンテナ構成を備える。Container２１１は、vNIC（仮想NIC）２１２を有する。

　コンテナなどの仮想サーバ構成のシステムにおいて、ＡＰＬを改変することなく、サーバ内の遅延を小さくしてパケット転送を行うことができる。
　以上、kernel内にpolling threadを配置する形態について説明した。次に、user spaceにpolling threadを配置する形態について説明する。

（user spaceにpolling threadを配置する形態）
　図３に示すように、User spaceにpolling thread（サーバ内遅延制御装置１００）を配置した構成例に適用できる。この場合、ＯＳは限定されない。また、サーバ仮想化環境下であることも限定されない。したがって、サーバ内遅延制御システムは、図１６および図１７に示す各構成に適用が可能である。

<ＶＭ構成への適用例>
　図１６は、汎用Linux kernel（登録商標）およびＶＭ構成のサーバ仮想化環境における割込モデルに、サーバ内遅延制御システム１０００Ｃを適用した例を示す図である。図１および図１４と同一構成部分には、同一符号を付している。
　図１６に示すように、サーバ内遅延制御システム１０００Ｃは、仮想マシンおよび仮想マシン外に形成された外部プロセスが動作可能なHost OS２０を備え、Host OS２０は、Kernel２１およびDriver２３を有する。さらに、サーバ内遅延制御システム１０００Ｃは、Host OS２０に接続されたＨＷのNIC１１、User space６０に配置されたpolling thread（サーバ内遅延制御装置１００）、仮想スイッチ５３、仮想マシン内で動作するGuest OS５０、Host OS２０に接続されUser space６０に配置されたpolling thread（サーバ内遅延制御装置１００）を備える。

　このようにすることにより、ＶＭの仮想サーバ構成のシステムにおいて、HostOS２０とGuest OS1（５０）とのいずれのOSにおいても、ＡＰＬを改変することなく、サーバ内の遅延を小さくしてパケット転送を行うことができる。

<コンテナ構成への適用例>
　図１７は、コンテナ構成のサーバ仮想化環境における割込モデルに、サーバ内遅延制御システム１０００Ｄを適用した例を示す図である。図１、図１４、および図１６と同一構成部分には、同一符号を付している。
　図１７に示すように、サーバ内遅延制御システム１０００Ｄは、図１６のGuest OS５０をContainer２１１に代えた、コンテナ構成を備える。Container２１１は、vNIC（仮想NIC）２１２を有する。

　コンテナなどの仮想サーバ構成のシステムにおいて、ＡＰＬを改変することなく、サーバ内の遅延を小さくしてパケット転送を行うことができる。

<ベアメタル構成（非仮想化構成）への適用例>
　本発明は、ベアメタル構成のように非仮想化構成のシステムに適用できる。非仮想化構成のシステムにおいて、ＡＰＬを改変することなく、サーバ内の遅延を小さくしてパケット転送を行うことができる。

<スケールイン／アウト>
　トラヒック量が多く、複数のNICデバイスやNICポートを使用する場合に、これらと関連付けて複数のpolling threadを動作させることで、ＨＷ割込頻度制御を行いつつ、polling threadをスケールイン／アウトすることができる。

<拡張技術>
　本発明は、トラヒックフロー数が増えた場合に、インバウンドのネットワークトラヒックを複数ＣＰＵで処理可能なＲＳＳ（Receive-Side Scaling）と連携して、パケット到着監視threadに割り当てるＣＰＵ数を増やすことで、ネットワーク負荷に対するスケールアウトが可能になる。

<アクセラレータ等のＰＣＩデバイス I/Oへの適用>
　ＮＩＣ（Network interface Card）I/Oについて例示したが、本技術は、アクセラレータ（FPGA/GPU等）のＰＣＩデバイスのI/Oに対しても、適用可能である。特に、vRANにおけるＦＥＣ（Forward Error Correction）のアクセラレータへのオフロード結果の返答受信時のpolling等へ活用が可能である。

<ＣＰＵ以外のプロセッサへの適用>
　本発明は、ＣＰＵ以外にも、ＧＰＵ／ＦＰＧＡ／ＡＳＩＣ（application specific integrated circuit）等のプロセッサに、idle stateの機能がある場合には、同様に適用可能である。

［効果］
　以上説明したように、OSのカーネル空間（kernel space）に配置され、ポーリングモデルを用いてパケット到着を監視するスレッド（thread）を立ち上げるサーバ内遅延制御装置１００（図１および図２参照）であって、スレッド（polling thread）の動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部１６０と、トラヒック頻度計測部１６０が計測したトラヒック流入頻度に基づいて、スレッドの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替えるモード切替制御部１５０と、を備える。

　従来例では、図８の双方向矢印ｌｌに示すように、パケット流入頻度が閾値Ｔに達すると、sleep制御をしても、sleepする時間が短く、割込オーバーヘッドの方が上回るため、常時busy pollよりも消費電力が高くなる課題があった。

　サーバ内遅延制御装置１００は、モード切替制御部１５０が、トラヒック流入頻度に基づいて、例えばトラヒック流入頻度が所定閾値（図８の閾値Ｔ）の場合に、スレッド（polling thread）の動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替える。これにより、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することができる。具体的には、トラヒック流入頻度に応じて、適するパケット受信モード（sleep制御モード／常時busy pollモード）を動的に切り替えることで、トラヒック流入頻度が疎な間はsleepによる省電力効果を享受し、トラヒック流入頻度が「密」になると、sleepによる省電力効果よりも割込オーバーヘッドの方が大きくなる場合でも、常時busy pollを行うことで、消費電力の悪化を防ぐことができる。

　また、sleep制御内におけるsleep時間等の制御ではなく、「sleep制御モード」と「常時busy pollモード」のモードの切替であることで、下記効果を得ることができる。すなわち、単純busy pollには必要のないsleep制御ロジック等を単純busy pollモードに実装する必要がないので、余計な制御ロジックの演算を省略することができ、消費電力を削減できる可能性がある。また、モードごとに独立したプログラムを作りやすくなるため、各モードに特化した制御を導入しやすくなる。

　また、pollingモデルによりパケットの到着監視および受信処理を行うので、softIRQ競合が発生せず、遅延を小さくできる。また、sleep時にパケットが到着した際は、高優先のhardIRQによりpolling threadを起こすので、sleepによるオーバーヘッドをできる限り抑制することができる。

　また、パケットが到着していない間は、polling threadがsleepし、CPU周波数を低く設定する制御をするため、busy pollingによる消費電力増加を抑制することができる（省電力）。

　また、本発明を、ＮＡＰＩやＫＢＰのように、kernel内部にpolling threadがある場合に適用することができる。

　また、ユーザ空間（User space）に配置され、ポーリングモデルを用いてパケット到着を監視するスレッド（thread）を立ち上げるサーバ内遅延制御装置１００（図１および図３参照）であって、スレッド（polling thread）の動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部１６０と、トラヒック頻度計測部１６０が計測したトラヒック流入頻度に基づいて、スレッドの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替えるモード切替制御部１５０と、を備える。

　このようにすることで、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することができる。

　また、本発明を、ＤＰＤＫのように、user spaceにpolling threadがある場合に適用することができる。

　また、仮想マシン内で動作するGuest OS（GuestOS７０）（図１４参照）が、カーネル（Kernel１７１）と、Guest OSを備えるサーバ中のメモリ空間で、カーネルが管理するリングバッファ（Ring Buffer７２）（図１４参照）と、インターフェイス部（NIC１１）からのハードウェア割込がどのデバイスのものであるかを示すネットデバイスの情報を登録するポールリストを監視し、パケット到着有無を確認するパケット到着監視部１１０と、パケットが到着している場合は、リングバッファ（Ring Buffer７２）に保持したパケットを参照し、該当するキューのエントリをリングバッファから削除する刈取りを実行するパケット刈取部１２０と、刈取りが実行されたパケットのプロトコル処理を行うプロトコル処理部と、を有し、カーネル内に、ポーリングモデルを用いてパケット到着を監視するスレッド（thread）を立ち上げるサーバ内遅延制御装置１００を備えており、サーバ内遅延制御装置１００は、スレッド（polling thread）の動作モードが、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部１６０と、トラヒック頻度計測部１６０が計測したトラヒック流入頻度に基づいて、スレッドの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替えるモード切替制御部１５０と、を備える。

　このようにすることにより、ＶＭの仮想サーバ構成のシステムにおいて、Guest OS（GuestOS７０）を備えるサーバについて、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することができる。

　また、仮想マシンおよび仮想マシン外に形成された外部プロセスが動作可能なHost OS（HostOS９０）（図１４参照）（HostOS２０）（図１６および図１７参照）が、カーネル（Kernel９１）と、Host OSを備えるサーバ中のメモリ空間で、カーネルが管理するリングバッファ（Ring Buffer７２）（図１８参照）と、インターフェイス部（NIC１１）からのハードウェア割込がどのデバイスのものであるかを示すネットデバイスの情報を登録するポールリストを監視し、パケット到着有無を確認するパケット到着監視部１１０と、パケットが到着している場合は、リングバッファに保持したパケットを参照し、該当するキューのエントリをリングバッファから削除する刈取りを実行するパケット刈取部１２０と、カーネル（Kernel２１）により作成される仮想インターフェイスであるtapデバイス２２２（図１４参照）と、を備え、カーネル内に、ポーリングモデルを用いてパケット到着を監視するスレッド（thread）を立ち上げるサーバ内遅延制御装置１００を備えており、サーバ内遅延制御装置１００は、スレッドの動作モードが、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、トラヒック流入頻度を計測するトラヒック頻度計測部１６０と、トラヒック頻度計測部１６０が計測したトラヒック流入頻度に基づいて、スレッドの動作モードをsleep制御モードと常時busy pollモードとのいずれかに切り替えるモード切替制御部１５０と、を備える。

　このようにすることにより、ＶＭの仮想サーバ構成のシステムにおいて、カーネル（Kernel１７１）とHost OS（HostOS９０）とを備えるサーバについて、トラヒック流入頻度が「密」の場合における、スリープとスリープ解除の動作を抑制し、低遅延性を達成しつつ、省電力を達成することができる。

　サーバ内遅延制御装置１００（図１～図４参照）において、モード切替制御部１５０は、トラヒック流入頻度が低い領域から所定閾値（図８の閾値Ｔ）に達するまでは、スレッド（polling thread）の動作モードをsleep制御モードに切り替え、トラヒック流入頻度が所定閾値（図８の閾値Ｔ）以上になると常時busy pollモード切り替えることを特徴とする。

　このようにすることにより、図８に示すように、パケット流入頻度低から閾値Ｔまでは、「sleep制御モードを使用すべき領域」（図８の符号ｊｊ参照）では、スレッド（polling thread）の動作モードをsleep制御モードに切り替えるとともに、閾値Ｔ以上は「常時busy pollモードを使用すべき領域」（図８の符号ｋｋ参照）では、常時busy pollモード切り替えることができる。これにより、閾値Ｔ以上のトラヒック流入頻度が「密」の場合には、常時busy pollモード切り替えることで、消費電力を抑制することができる。なお、閾値Ｔは、図９の表に示す切り替え判断ロジックで最適値が選択される。

　サーバ内遅延制御装置１００（図１～図４参照）において、常時busy pollモードの場合、インターフェイス部（NIC１１）からのパケット到着を監視（polling）し、パケット到着有無を確認するパケット到着監視部１１０と、sleep制御モードの場合、パケットが所定期間到着しないときにスレッド（polling thread）をスリープ（sleep）させ、かつ、パケット到着時はハードウェア割込（hardIRQ）によりこのスレッド（polling thread）のスリープ解除を行うsleep管理部１３０と、を備える。

　このようにすることにより、常時busy pollモードの場合、パケット到着監視部１１０が、pollingモデルによりパケットの到着監視および受信処理を行うので、softIRQ競合が発生せず、遅延を小さくできる。また、sleep制御モードの場合、sleep管理部１３０が、sleep時にパケットが到着した際は、高優先のhardIRQによりpolling threadを起こすので、sleepによるオーバーヘッドをできる限り抑制することができる。

　なお、上記実施形態では、ＮＡＰＩやＫＢＰのように、kernel内部にpolling threadがある場合について説明したが、polling threadをＤＰＤＫのように、user spaceに配置した形態（図３、図１７参照）をとってもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中に示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行するためのソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣ（Integrated Circuit）カード、ＳＤ（Secure Digital）カード、光ディスク等の記録媒体に保持することができる。

　１　パケット処理ＡＰＬ（アプリケーション）
　１０　ＨＷ
　１１　NIC（物理NIC）(インターフェイス部)
　２０，９０　Host OS（OS）
　２２，５２，７２　Ring Buffer（リングバッファ）
　５０，７０　Guest OS（OS）
　６０　user space（ユーザスペース）
　７４　プロトコル処理部
　８６，１８６　receive list（ポールリスト）
　９１，１７１　Kernel（カーネル）
　１００　サーバ内遅延制御装置（polling thread）
　１１０　パケット到着監視部
　１２０　パケット刈取部
　１３０　sleep管理部（スリープ管理部）
　１４０　CPU周波数/CPU idle設定部
　１５０　モード切替制御部
　１６０　トラヒック頻度計測部
　２１１　Container
　１０００，１０００Ａ，１０００Ｂ，１０００Ｃ，１０００Ｄ　サーバ内遅延制御システム
　Ｔ　閾値

Claims

　OSのカーネル空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置であって、
　前記スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するトラヒック頻度計測部と、
　前記トラヒック頻度計測部が計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるモード切替制御部と、を備える
　ことを特徴とするサーバ内遅延制御装置。
　ユーザ空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置であって、
　前記スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するトラヒック頻度計測部と、
　前記トラヒック頻度計測部が計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるモード切替制御部と、を備える
　ことを特徴とするサーバ内遅延制御装置。
　サーバ内遅延制御装置であって、
　仮想マシン内で動作するGuest OSが、
　カーネルと、
　前記Guest OSを備えるサーバ中のメモリ空間で、前記カーネルが管理するリングバッファと、
　インターフェイス部からのハードウェア割込がどのデバイスのものであるかを示すネットデバイスの情報を登録するポールリストを監視し、パケット到着有無を確認するパケット到着監視部と、
　パケットが到着している場合は、リングバッファに保持したパケットを参照し、該当するキューのエントリを前記リングバッファから削除する刈取りを実行するパケット刈取部と、
　刈取りが実行されたパケットのプロトコル処理を行うプロトコル処理部と、を有し、
　前記カーネル内に、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げる前記サーバ内遅延制御装置を備えており、
　前記サーバ内遅延制御装置は、
　前記スレッドの動作モードが、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するトラヒック頻度計測部と、
　前記トラヒック頻度計測部が計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるモード切替制御部と、を備える
　ことを特徴とするサーバ内遅延制御装置。
　サーバ内遅延制御装置であって、
　仮想マシンおよび前記仮想マシン外に形成された外部プロセスが動作可能なHost OSが、
　カーネルと、
　前記Host OSを備えるサーバ中のメモリ空間で、前記カーネルが管理するリングバッファと、
　インターフェイス部からのパケット到着を監視し、パケット到着有無を確認するパケット到着監視部と、
　パケットが到着している場合は、リングバッファに保持したパケットを参照し、該当するキューのエントリを前記リングバッファから削除する刈取りを実行するパケット刈取部と、
　前記カーネルにより作成される仮想インターフェイスであるtapデバイスと、を備え、
　前記カーネル内に、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げる前記サーバ内遅延制御装置を備えており、
　前記サーバ内遅延制御装置は、
　前記スレッドの動作モードが、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するトラヒック頻度計測部と、
　前記トラヒック頻度計測部が計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるモード切替制御部と、を備える
　ことを特徴とするサーバ内遅延制御装置。
　前記モード切替制御部は、トラヒック流入頻度が低い領域から所定閾値に達するまでは、前記スレッドの動作モードを前記sleep制御モードに切り替え、トラヒック流入頻度が前記所定閾値以上になると前記常時busy pollモード切り替える
　ことを特徴とする請求項１乃至４のいずれか一項に記載のサーバ内遅延制御装置。
　前記常時busy pollモードの場合、インターフェイス部からのハードウェア割込がどのデバイスのものであるかを示すネットデバイスの情報を登録するポールリストを監視し、、パケット到着有無を確認するパケット到着監視部と、
　前記sleep制御モードの場合、パケットが所定期間到着しないときに前記スレッドをスリープさせ、かつ、パケット到着時はハードウェア割込により当該スレッドのスリープ解除を行うスリープ管理部と、を備える
　ことを特徴とする請求項１または請求項２に記載のサーバ内遅延制御装置。
　OSのカーネル空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置のサーバ内遅延制御方法であって、
　前記スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するステップと、
　計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるステップと、を実行する
　ことを特徴とするサーバ内遅延制御方法。
　ユーザ空間に配置され、ポーリングモデルを用いてパケット到着を監視するスレッドを立ち上げるサーバ内遅延制御装置のサーバ内遅延制御方法であって、
　前記スレッドの動作モードは、当該スレッドをsleep可能なsleep制御モードと、当該スレッドを常時busy pollingさせる常時busy pollモードと、を有しており、
　トラヒック流入頻度を計測するステップと、
　計測した前記トラヒック流入頻度に基づいて、前記スレッドの動作モードを前記sleep制御モードと前記常時busy pollモードとのいずれかに切り替えるステップと、を実行する
　ことを特徴とするサーバ内遅延制御方法。
　コンピュータを、請求項１乃至４のいずれか一項に記載のサーバ内遅延制御装置として機能させるためのプログラム。