WO2022064656A1

WO2022064656A1 - 処理システム、処理方法及び処理プログラム

Info

Publication number: WO2022064656A1
Application number: PCT/JP2020/036394
Authority: WO
Inventors: 旭史; 昇平榎本; 毅晴江田; 啓坂本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-03-31
Anticipated expiration: 2023-03-25
Also published as: EP4220498A1; EP4220498B1; CN116194933A; EP4220498B8; JP7452679B2; CN116194933B; JPWO2022064656A1; EP4220498A4; US20250292120A1

Abstract

処理システム（１００）は、エッジ装置（３０）とサーバ装置（２０）とを用いて行われる処理システムであって、エッジ装置（３０）は、第１のモデルを用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に処理対象データに対する推論処理を実行する推論部（３１）と、推論部（３１）による推論結果に対する信頼度が閾値を超えた場合には推論部（３１）による推論結果を出力し、信頼度が閾値以下である場合には処理対象データの特徴量をサーバ装置（２０）に出力する判定部（３２）と、を有し、サーバ装置（２０）は、第１のモデルよりも推論精度が高い第２のモデルを用いて、エッジ装置（３０）から出力された処理対象データの特徴量を基に処理対象データに対する推論処理を実行する推論部（２１）と、を有する。

Description

処理システム、処理方法及び処理プログラム

　本発明は、処理システム、処理方法及び処理プログラムに関する。

　センサに代表されるＩｏＴデバイスにより収集されたデータのデータ量は、膨大であるため、クラウドコンピューティングで収集されたデータを集約及び処理する際、膨大な通信量が発生する。このため、ユーザに近いエッジ装置でも、収集されたデータを処理するエッジコンピューティングに注目が集まっている。

　しかしながら、エッジ装置で用いられる装置の演算量やメモリ等のリソースは、エッジ装置よりもユーザから物理的及び論理的に遠くに配置されたエッジ装置以外の装置（以下、簡便のためクラウドと記載する）と比して、貧弱である。このため、演算負荷が大きい処理をエッジ装置で行うと、処理が完了するまでに多大な時間を要したり、演算量が大きくない他の処理が完了するまでにも時間を要したりする場合がある。例えば、演算量が大きな処理がエッジ装置で行われている間に、他の処理について処理待ちが発生してしまうような場合である。

　ここで、演算量が大きい処理の一つに機械学習に係る処理が挙げられる。非特許文献１には、いわゆるアダプティブラーニングのエッジ・クラウドへの適用が提案されている。すなわち、非特許文献１に記載の方法は、クラウドで汎用的な学習データを用いて学習を行った学習済みモデルをエッジ装置に展開し、エッジ装置で取得されたデータを用いて、クラウドで学習を行ったモデルに対して再度学習を行うことでクラウドとエッジ装置との利点を活かした運用を実現している。

：大越他,　"クラウド・エッジ連携によるDNNモデル運用方式の提案と評価",　第80回全国大会講演論文集　2018(1),　3-4,　2018-03-13.

　上記のエッジ・クラウドネットワークは、例えば、監視カメラ映像の自動分析、自動運転、スマートスピーカー等などのアプリケーションへの適用が期待されている。これらのアプリケーションでは、精度とともに、リアルタイム性が重要とされているものの、エッジ・クラウド間の、通信コストや遅延が問題となっていた。

　本発明は、上記に鑑みてなされたものであって、エッジ装置からサーバ装置に対するデータ転送量の低減及び低遅延化を図ることができる処理システム、処理方法及び処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る処理システムは、エッジ装置とサーバ装置とを用いて行われる処理システムであって、エッジ装置は、第１のモデルを用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に処理対象データに対する推論処理を実行する第１の推論部と、第１の推論部による推論結果に対する信頼度が閾値を超えた場合には第１の推論部による推論結果を出力し、信頼度が閾値以下である場合には処理対象データの特徴量をサーバ装置に出力する判定部と、を有し、サーバ装置は、第１のモデルよりも推論精度が高い第２のモデルを用いて、エッジ装置から出力された処理対象データの特徴量を基に処理対象データに対する推論処理を実行する第２の推論部と、を有することを特徴とする。

　本発明によれば、エッジ装置からサーバ装置に対するデータ転送量の低減及び低遅延化を図ることができる。

図１は、実施の形態に係る処理システムの処理方法の概要を説明する図である。図２－１は、ＤＮＮ１及びＤＮＮ２の一例を説明する図である。図２－２は、ＤＮＮ１及びＤＮＮ２の一例を説明する図である。図３は、実施の形態に係る処理システムの構成の一例を模式的に示す図である。図４は、ＤＮＮのベースモデルの選定例について説明する図である。図５は、YOLOv3の構造の概略を示す図である。図６－１は、ＤＮＮの構造の一例を説明する図である。図６－２は、ＤＮＮの構造の一例を説明する図である。図７は、実施の形態に係る処理システムの処理の流れを示すシーケンス図である。図８は、処理システムにおいて一例として選定した各ＤＮＮの処理時間を示す図である。図９は、ＤＮＮの推論結果を基に求めたテストデータのエントロピーの分布図である。図１０は、オフロード率と全体精度との関係を示す図である。図１１は、プログラムが実行されることにより、エッジ装置及びサーバ装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
［実施の形態の概要］
　本発明の実施の形態について説明する。本発明の実施の形態では、学習済みの高精度モデル及び軽量モデルを使って推論処理を行う処理システムについて説明する。なお、実施の形態の処理システムでは、推論処理において用いるモデルとして、ＤＮＮ（Deep　Neural　Network）を用いた場合を例に説明する。実施の形態の処理システムでは、どのようなニューラルネットワークを用いてもよいし、学習済みモデルに代えて低演算量の信号処理と高演算量の信号処理を用いてもよい。

　図１は、実施の形態に係る処理システムの処理方法の概要を説明する図である。実施の形態の処理システムは、高精度モデル及び軽量モデルは、モデルカスケードを構成する。実施の形態の処理システムでは、高速かつ低精度な軽量モデル（例えば、ＤＮＮ１（第１のモデル））を用いるエッジ装置と、低速かつ高精度な高精度モデル（例えば、ＤＮＮ２（第２のモデル））を用いるクラウド（サーバ装置）とのいずれにおいて処理を実行するかを、信頼度を用いて制御する。例えば、サーバ装置は、ユーザから物理的及び論理的に遠い場所に配置された装置である。エッジ装置は、ユーザから物理的及び論理的に近い場所に配置されたＩｏＴ機器及び各種端末装置であり、サーバ装置と比してリソースが少ない。

　ＤＮＮ１及びＤＮＮ２は、入力された処理対象データを基に推論結果を出力するモデルである。図１の例では、ＤＮＮ１は、画像を入力とし、画像から抽出した特徴量を基に、当該画像に写る物体のクラスごとの確率を推論する。ＤＮＮ２は、ＤＮＮ１が抽出した特徴量（所定の中間層の出力を意図する、以下、特徴マップという）を入力として、推論対象である画像に写る物体のクラスごとの確率を推論する。なお、ＤＮＮ１及びＤＮＮ２は、いずれも同じ画像に対する推論を行う。また、処理システムでは、エッジ装置において、信頼度（後述）と閾値との比較結果に基づいて、ＤＮＮ１及びＤＮＮ２のいずれにおける推論結果を採用するかを判定する。信頼度は、エッジ装置とサーバ装置とのいずれにおいて処理対象データを処理すべきかを判定するための値である。信頼度は、例えば、ＤＮＮ１による推論結果のエントロピーに基づいて求めてもよい。信頼度はＤＮＮ１の推論結果のエントロピーが高いほど小さくなる値とすればよい。具体例は後述する。

　図１に示すように、処理システムでは、入力画像に写る物体に対するＤＮＮ１のクラス分類の推論についての信頼度を取得する。そして、処理システムでは、取得した信頼度が所定の閾値を超える場合、ＤＮＮ１の推論結果が採用される。つまり、軽量モデルの推論結果が、モデルカスケードの最終的な推定結果として出力される。一方で、処理システムでは、信頼度が所定の閾値以下である場合、ＤＮＮ１が抽出した特徴マップをＤＮＮ２に入力して得られた推論結果が、最終的な推論結果として出力される。

　このように、実施の形態に係る処理システムは、エッジ装置とサーバ装置とのいずれにおいて処理対象データを処理すべきかを、信頼度と閾値との比較結果を基に、エッジ装置またはサーバ装置を選択して、処理対象データを処理する。このため、実施の形態に係る処理システムは、エッジ装置とクラウドとのいずれにおいて処理を実行するかを制御することができる。

［軽量モデル及び高精度モデル］
　次に、ＤＮＮ１、ＤＮＮ２について説明する。図２－１及び図２－２は、ＤＮＮ１及びＤＮＮ２の一例を説明する図である。ＤＮＮは、データが入る入力層、入力層から入力されたデータを様々に変換する複数の中間層、確率や尤度など、いわゆる推論した結果を出力する出力層を有する。各層から出力される出力値は、入力されるデータが匿名性を保つ必要がある場合は非可逆としてもよい。

　上述したように、処理システムは、クラウド側でＤＮＮ２を用い、エッジ側でＤＮＮ１を用いる。クラウド側に配置する前のＤＮＮ２´として、入力画像の特徴量を抽出して特徴マップとして出力する特徴抽出層Ｂｆ２と、抽出された特徴量を用いた処理を行う層（たとえば、入力画像に写る物体を検知したり、入力画像に写る物体のクラスごとの確率を推論したりする層（以下まとめて検知層Ｂｄ２という））検知層Ｂｄ２（第２の実行部）とを有する高精度モデルを採用する（図２－１参照）。処理システムでは、予め学習用データを用いて、配置前にＤＮＮ２´を訓練する。

　そして、処理システムでは、エッジ側に配置する前に、エッジ側に配置する前のＤＮＮ１´の特徴量抽出層Ｂｆ１に代えて、訓練済みのＤＮＮ２´の特徴抽出層Ｂｆ２を、そのままエッジ側の軽量な検知層Ｂｄ１の前段に配置し（図２－１の矢印Ｙ１参照）、特徴抽出層Ｂｆ２（第１の抽出部）と検知層Ｂｄ１（第１の実行部）とを組み合わせたＤＮＮを、エッジ側のＤＮＮ１とする（図２－２参照）。検知層Ｂｄ１は、ＤＮＮ１の特徴抽出層Ｂｆ２が抽出した特徴マップ（ある層の特徴量）を用いて、入力画像に写る物体のクラスごとの確率を推論する。ここで、エッジ側に配置したＤＮＮ１とクラウド側に配置したＤＮＮ２の構成について説明する。エッジ側に配置したＤＮＮ１は、当初のＤＮＮ１から特徴量抽出層Ｂｆ１（図２－１参照）を削除し、訓練済みのＤＮＮ２´の特徴量抽出層Ｂｆ２を代わりに配置する（図２－２参照）。すなわち、ＤＮＮ２´の特徴量抽出層Ｂｆ２と、ＤＮＮ１´の検知層Ｂｄ１との組合せからなるＤＮＮ１が、エッジ側に配置される。なお、図２－２に示すＤＮＮ１のうち、特徴量抽出層Ｂｆ２を固定し、再度学習を行ってもよい。また、サーバ側に配置するＤＮＮ２は、当初のＤＮＮ２´（図２－１参照）から、特徴量抽出層Ｂｆ２を削除した構成となる（図２－２参照）。

　ＤＮＮ１については、特徴抽出層Ｂｆ２のパラメータを当初のＤＮＮ２´の訓練後のパラメータに固定し、後段の検知層Ｂｄ１を、学習用データを用いて訓練する。或いは、ＤＮＮ１については、特徴抽出層Ｂｆ２及び検知層Ｂｄ１のいずれに対しても、学習用データを用いて訓練する。また、ＤＮＮ２とＤＮＮ１とで独立して学習を行う他、ＤＮＮ２とＤＮＮ１とで連携して学習を行ってもよい。例えば、ＤＮＮ１が用いた学習用データを用いてＤＮＮ２を再訓練してもよい。また、ＤＮＮ１とＤＮＮ２との相互で、共通する学習用データを用いて訓練を行ってもよい。

　本実施の形態に係る処理システムでは、当初のＤＮＮ２´における特徴抽出層Ｂｆ２を、エッジ側のＤＮＮ１の特徴抽出層Ｂｆ２として配置する。このため、クラウド側のＤＮＮ２の検知層Ｂｄ２は、エッジ側のＤＮＮ１の特徴抽出層Ｂｆ２が出力した特徴マップを用いて推論処理を実行することが可能になる（図２－２の矢印Ｙ２参照）。したがって、本実施の形態に係る処理システムでは、エッジ・クラウド間で同じ特徴マップを共有して、エッジ側、クラウド側のそれぞれにおいて、推論処理が可能であるといえる。

　これによって、クラウド側で推論を行う場合に、特徴抽出処理の実行を省略できるため、計算時間を短縮することができ、低遅延化を図ることが可能になる。また、エッジ側からクラウド側に出力するデータは、処理対象の画像ではなく、画像から抽出した特徴マップであるため、エッジ側からクラウド側に対するデータ転送量を低減することが可能になる。なお、エッジ・クラウド間で同じ特徴マップを共有できればよいため、エッジ側に実際に配置されるＤＮＮ１の特徴抽出層Ｂｆ２と、当初のＤＮＮ２´の特徴抽出層Ｂｆ２とが満たすべき最小の条件は、接続する層のサイズが一致することである。これは、ＤＮＮ１の検知層については改めて再学習を行うためである。なお、ＤＮＮ１の特徴抽出層Ｂｆ２とＤＮＮ２´の特徴抽出層Ｂｆ２とでパラメータの値が異なっていてもよい。

［処理システム］
　次に、処理システムの構成について説明する。図３は、実施の形態に係る処理システムの構成の一例を模式的に示す図である。

　実施の形態に係る処理システム１００は、サーバ装置２０及びエッジ装置３０を有する。また、サーバ装置２０及びエッジ装置３０は、ネットワークＮを介して接続される。ネットワークＮは、例えばインターネットである。例えば、サーバ装置２０は、クラウド環境に設けられたサーバである。また、エッジ装置３０は、例えば、ＩｏＴ機器及び各種端末装置である。

　サーバ装置２０及びエッジ装置３０は、それぞれＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、ＧＰＵやＶＰＵ（Vision　Processing　Unit）、ＦＰＧＡ（Field　Programmable　Gate　Array）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）や専用のＡＩ（Artificial　Intelligence）チップに代表されるいわゆるアクセラレータも用いられる。サーバ装置２０及びエッジ装置３０は、それぞれ、ＮＩＣ（Network　Interface　Card）等を有し、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

　図３に示すように、サーバ装置２０は、学習済みの高精度モデルであるＤＮＮ２を用いて推論を行う推論部２１（第２の推論部）を有する。ＤＮＮ２は、モデルパラメータ等の情報を含む。ＤＮＮ２は、前述したように検知層Ｂｄ２を有する。

　推論部２１は、ＤＮＮ２を用いて、エッジ装置３０から出力された入力画像の特徴マップを基に、入力画像に対する推論処理を実行する。推論部２１は、エッジ装置３０から出力された、量子化された特徴マップを、FP32に戻して、ＤＮＮ２の検知層Ｂｄ２の入力とする。推論部２１は、ＤＮＮ２の出力として推論結果（例えば、画像に写る物体のクラスごとの確率）を取得する。推論部２１は、推論用データ、つまりＤＮＮ１の特徴抽出層のＢｆ２の出力値を受け付け、推論結果を出力する。特徴マップは、ラベルが未知のデータの特徴量であるものとする。例えば、推論用データは、画像である。また、推論結果をユーザに返す場合、推論部２１で得られた推論結果はエッジ装置３０に伝送され、エッジ装置３０からユーザに返してもよい。

　ここで、サーバ装置２０及びエッジ装置３０は、モデルカスケードを構成する。このため、推論部２１は、常に推論を行うわけではない。推論部２１は、推論処理をサーバ装置２０に実行させると判定された場合に、量子化された特徴マップの入力を受け付けて、ＤＮＮ２の検知層Ｂｄ２による推論を行う。

　エッジ装置３０は、学習済みの軽量モデルであるＤＮＮ１を有する推論部３１（第１の推論部）と、判定部３２と、量子化部３３を有する。

　推論部３１は、学習済みの軽量モデルであるＤＮＮ１を用いて推論を行う。ＤＮＮ１は、モデルパラメータ等の情報を含む。ＤＮＮ１は、前述したように訓練済みのＤＮＮ２´（図２－１参照）の特徴抽出層Ｂｆ２と、検知層Ｂｄ１とを有する。推論部３１は、ＤＮＮ１を用いて、入力画像の特徴量を特徴マップとして抽出し、抽出した特徴マップを基に入力画像に対する推論処理を実行する。

　推論部３１は、ＤＮＮ１に、処理対象の画像を入力して推論結果を取得する。推論部３１は、ＤＮＮ１を用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に前記処理対象データに対する推論処理を実行する。推論部３１は、処理対象の画像の入力を受け付け、処理対象の画像を処理し、推論結果（例えば、画像に写る物体のクラスごとの確率）を出力する。

　判定部３２は、エッジ装置３０とサーバ装置２０とのいずれの推論結果を採用するか否かを、信頼度と所定の閾値とを比較することで判定する。

　判定部３２は、信頼度が所定の閾値を超えた場合、推論部３１が推論した推論結果を出力する。判定部３２は、信頼度が所定の閾値以下である場合、エッジ側のＤＮＮ１につなげられた特徴抽出層Ｂｆ２の出力である特徴マップをサーバ装置２０に出力して、推論処理をサーバ装置２０に配置されたＤＮＮ２に実行させることを判定する。

　信頼度は、前述したようにＤＮＮ１の推論結果のエントロピーが大きいほど小さくなる値とすればよい。ＤＮＮ１の推論結果のエントロピーは、式（１）で求めればよい。Ｃは、ＤＮＮ１で出力される全てのラベルｃの集合であり、ｙはそれぞれのラベルの確率である。信頼度は、このように求めたエントロピーから、例えば信頼度＝1/エントロピーのように求めればよい。

　量子化部３３は、判定部３２が推論処理をサーバ装置２０に実行させることを判定した場合、ＤＮＮ１の特徴抽出層Ｂｆ２によって抽出された特徴マップを量子化し、量子化した特徴マップをサーバ装置２０に出力する。

［ＤＮＮ１、ＤＮＮ２のモデル選定例］
　図４は、ＤＮＮ１、ＤＮＮ２のベースモデルの選定例について説明する図である。本実施の形態では、物体のクラスごとの確率を推論するモデルとして、図４に示すように、比較的軽量かつ高速であるYOLOv2のバックエンドモデルであるdarknet19（以下、YOLOv2と記載する。）を、エッジ装置３０のベースモデルとして選定し、比較的高精度であるYOLOv3のバックエンドモデルであるdarknet53（以下、YOLOv3と記載する。）を、サーバ装置２０のベースモデルとして選定した。選定したＮＮは例であり、高精度なＮＮと、高速であるＮＮであって高精度なＮＮよりも精度は落ちるＮＮとであって、特徴量抽出層を共有できるＮＮであればどのように選択をしてもよい。簡単な例では、同一のＮＮで、エッジ装置３０とサーバ装置２０とで深さが異なるように構成してもよい。

　図５は、YOLOv3の構造の概略を示す図である。ＤＮＮ１、ＤＮＮ２のベースモデルの選定例について説明する図である。YOLOv3は、Residual　block　Ｂｆ－１を有する特徴抽出を行う畳み込み層（特徴抽出層）Ｂｆ－１と、物体検知用のネットワーク（ＦＰＮ）である検知部Ｂｄ２－１とを有する。ここで、エッジ・クラウド間で特徴マップを共有するために、以下に注目した。

　まず、Residual　block　Ｂｆ－１が入ることで、YOLOv3では、高精度を保持する。このため、Residual　block　Ｂｆ－１内の構成を損なうことを避けることが望ましい。続いて、YOLOv3では、検知部Ｂｄ２－１が特徴マップをそのまま用いて検知を実行できるように、検知部Ｂｄ２－１の前段で特徴マップを受けつける構成とすることが望ましい。なお、層が深くなるほど（多くなるほど）、モデルの計算が重くなり、使用するパラメータ数も多くなる。このため、エッジ装置３０のＤＮＮ１は、軽量かつ高速とするために、層が浅いモデルであることが望ましい。

［ＤＮＮ１，ＤＮＮ２の構造の一例］
　図６－１及び図６－２は、ＤＮＮ１，ＤＮＮ２の構造の一例を説明する図である。YOLOv3のResidual　block　Ｂｆ－１内の構成を損なうことを避けるため、Residual　block　Ｂｆ－１を保持する学習済みの特徴抽出層Ｂｆ２－１を、そのまま、エッジ装置３０のベースモデルとして選定したYOLOv2の前段に配置し（図６－１の矢印Ｙ１１）、エッジ装置３０のＤＮＮ１とした。したがって、エッジ装置３０では、このように再構築したYOLOv2を用いて、特徴抽出層Ｂｆ２－１において画像から特徴マップを抽出し、抽出した特徴マップを用いて、検知層Ｂｄ１－１において、入力画像に写る物体のクラスごとの確率を推論する。

　そして、エッジ装置３０では、検知層Ｂｄ１－１の結果（Result1）の信頼度が所定の閾値を超える場合には、Result1が信頼できるとして、Result1を出力して（図６－２の矢印Ｙ１１参照）処理を終了する。ここで、前述したように、エッジ装置３０における特徴抽出層Ｂｆ２－１は、サーバ装置２０のベースモデルであるYOLOv3の特徴抽出層Ｂｆ２－１と共通の構造を有するため、特徴抽出層Ｂｆ２－１から出力された特徴マップは、サーバ装置２０の検知部Ｂｄ２－１においても共有が可能である。なお、サーバ装置２０では、YOLOv3から特徴抽出層Ｂｆ２－１を削除した構成のYOLOv3を、ＤＮＮ２として適用する。

　そこで、エッジ装置３０では、Result1が閾値以下である場合には、Result1が信頼できないとして、特徴抽出層Ｂｆ２－１の特徴マップをエッジ装置３０に量子化後に出力する（図６－２の矢印Ｙ１２参照）。そして、サーバ装置２０では、この特徴マップをFP32に戻して、特徴マップを、再構築後のYOLOv3の検知部Ｂｄ２－１に入力し、検知部Ｂｄ２－１の推論結果（Result2）を出力する（図６－２の矢印Ｙ１３参照）。したがって、サーバ装置２０での計算範囲は、検知部Ｂｄ２－１での計算範囲となる。言い換えると、サーバ装置２０では、特徴抽出層Ｂｆ２－１での計算を省略できる。

［処理システムの処理手順］
　図７は、実施の形態に係る処理システムの処理の流れを示すシーケンス図である。図７に示すように、まず、エッジ装置３０において、推論部３１は、画像の入力を受け付けると（ステップＳ１）、入力画像をＤＮＮ１に入力する。ＤＮＮ１では、特徴抽出層Ｂｆ２が、入力画像の特徴量を特徴マップとして抽出し（ステップＳ２）、判定部３２に出力する（ステップＳ３）。ＤＮＮ１では、検知層Ｂｄ１が、特徴マップを基に入力画像に対する推論処理、例えば、検知処理を実行し（ステップＳ４）、判定部３２に出力する（ステップＳ５）。

　判定部３２は、推論部３１が推論結果に基づいて信頼度を計算し（ステップＳ６）、計算した信頼度と所定の閾値とを比較し信頼度が所定の閾値以下であるか否かを判定する（ステップＳ７）。

　信頼度が閾値以下でない場合（ステップＳ７：Ｎｏ）、すなわち、信頼度が閾値を超える場合、判定部３２は、推論部３１のＤＮＮ１が推論した推論結果を出力する（ステップＳ８）。

　一方、信頼度が閾値以下である場合（ステップＳ７：Ｙｅｓ）、判定部３２は、特徴マップを量子化部３３に出力し（ステップＳ９）、量子化部３３は、特徴マップを量子化し（ステップＳ１０）、サーバ装置２０に送信する（ステップＳ１１）。

　サーバ装置２０では、推論部２１が、エッジ装置３０から出力された、量子化された特徴マップを、FP32に戻して、ＤＮＮ２の検知層Ｂｄ２の入力とする。検知層Ｂｄ２が、エッジ装置３０から出力された特徴マップを基に、入力画像に対する推論処理、例えば、検知処理を実行する（ステップＳ１２）。サーバ装置２０は、ＤＮＮ２の推論結果をエッジ装置３０に送信し（ステップＳ１３）、エッジ装置３０から出力される（ステップＳ１４）。なお、本実の形態では、ユーザに推論結果を返す構成を想定し、エッジ装置３０から最終的な推論結果を出力する構成としているが、サーバ装置２０側で最終的な推論結果を用いる場合は、ＤＮＮ２の推論結果をサーバ装置２０から出力する、或いは、サーバ装置２０でそのまま保持するよう構成してもよい。ＤＮＮ１の推論結果を使用する場合には、エッジ装置３０は、サーバ装置２０側で当該推論結果を用いる場合、推論結果をサーバ装置２０に送信すればよい。

［評価実験１］
　エッジ装置３０のＤＮＮ１の処理時間と、サーバ装置のＤＮＮ２の処理時間とを評価した。タスクは、分類であり、テストデータは、ImageNet（各クラス300枚、計3000画像）であり、HWは、Platform:　NVIDIA　GeForceRTX2070+AMD　3600である。図８は、処理システム１００において一例として選定した各ＤＮＮの処理時間を示す図である。

　図８において、エッジ装置のＤＮＮ１は、Residual　block　Ｂｆ－１を保持する学習済みの特徴抽出層Ｂｆ２－１を、YOLOv2の前段に配置し、訓練を行ったモデルである。サーバ装置２０のＤＮＮ２は、学習済みのYOLOv3である。比較のために、エッジ装置３０のベースモデルであるYOLOv2についても処理時間を示す。

　図８に示すように、エッジ装置のＤＮＮ１は、YOLOv2よりも特徴抽出層Ｂｆ２－１分、層を深くしたため、YOLOv2よりも処理時間が長くなっているものの、YOLOv2よりも推論精度の改善が見られた。そして、エッジ装置のＤＮＮ１は、サーバ装置２０のＤＮＮ２であるYOLOv3よりも、画像１枚当たりの処理時間が約２倍速い。このように、エッジ装置のＤＮＮ１は、YOLOv3の特徴抽出層Ｂｆ２－１を、YOLOv2の特徴抽出層に代えて配置した場合であっても、推論精度を上げつつ、処理の高速化についても維持が可能である。

［評価実験２］
　エッジ装置３０のＤＮＮ１を用いて、テストデータのエントロピーの分布を可視化した。タスク、テストデータ、HWは、図８と同じ条件である。図９は、ＤＮＮ１の推論結果を基に求めたテストデータのエントロピーの分布図である。

　エントロピーが高いほど、ＤＮＮ１の推論結果が信頼できない。このため、モデルカスケードにおいてエッジ装置とサーバ装置とのいずれにおいて処理を実行するかを判定するための評価値として、信頼度を採用することは適切であることといえる。そして、ほとんどのデータのエントロピーが０．５以下であるため、エッジ装置とサーバ装置とのいずれにおいて処理を実行するかを判定する際に使用するエントロピーの閾値は、０．５を目安として設定すればよいと考えられる。

［評価実験３］
　そこで、エントロピーの閾値（オフロード率）の変動に伴う推論結果の全体精度の変動を求める評価実験３を行った。なお、閾値は、オフロード率に連動し、オフロード率を下げる場合には閾値を上げる。この評価実験では、int4、int6、int8で、エッジ装置３０の特徴抽出層Ｂｆ２によって抽出された特徴マップに対する量子化を行った。なお、タスク、テストデータ、HWは、図８と同じ条件である。図１０は、オフロード率と全体精度との関係を示す図である。図１０において、「Offload　rate　0」は、全てのデータがエッジ装置３０により処理され、量子化しない場合のオリジナル精度（acc_origin）が低い状態であり、「Offload　rate　1」は、すべてのデータがサーバ装置２０により処理され、量子化しない場合のオリジナル精度（acc_origin）が高い状態である。エッジ装置３０の特徴抽出層Ｂｆ２による特徴マップに対しては、int4量子化、int6量子化、int8量子化を行っている。

　このうち、図１０に示すように、int4量子化、int6量子化、int8量子化のうち、エッジ装置３０の特徴抽出層Ｂｆ２による特徴マップに対してint8量子化を行った場合には、精度をほぼ落とさずに、転送データ量を、量子化しない場合と比して７５％削減できた。したがって、特徴マップの量子化には、int8量子化を適用することが望ましい。

　なお、特徴抽出層Ｂｆ２が出力する特徴マップが、よりスパースになるようなコスト項を設けてもよい。その結果、int6及び／またはint4が図１０におけるint8と近しいオフロード率及び／または全体精度を示すようになった場合、int6またはint4のうち、int8と近しいオフロード率及び／または全体精度を示す量子化ビットレートのうちより小さい方を選択すればよい。

　また、量子化された特徴マップを圧縮してもよい。圧縮しようとする場合、特徴マップも量子化された特徴マップも対象の画像に含まれる、自然画像と同様の性質を有するため、HEVCやVVCなどの画像符号化方式を採用してもいいし、ZIPなどの汎用的な圧縮方式を採用してもいい。なお、前述した自然画像と同様の性質とは、隣接する画素間の相関は高い場合が多い、というような画像符号化に取り入れられている一般的な性質を意図する。また、量子化を行う場合は逆量子化を、圧縮を行う場合は復号を行えばよい。量子化及び／または圧縮はエッジ装置で行ってもいいし物理的若しくは論理的に（サーバ装置よりも）エッジ装置の近くに配置された別の装置で行ってもいい。逆量子化及び／または復号化は、サーバ装置で行ってもいいし、物理的若しくは論理的に（エッジ装置よりも）サーバ装置の近くに配置された別の装置で行ってもよい。

　また、オフロード率が０．４（エントロピー閾値が０．５）を超えると、オフロード率を上げても、すなわち、エントロピー閾値を下げても、精度の向上が少なくなっている。このため、閾値を０．５に設定すると、オフロード率と精度のバランスが取れるものと考えられる。このように、オフロード率と精度とのバランスに応じて閾値を設定することで、それぞれのユースケースに応じたオフロード率や全体精度の調整が可能になる。

　ここで、エントロピーの閾値を決める理由についてさらに説明する。エントロピーの閾値を下げるということは、オフロード率が高くなるということを意味する。つまり、エントロピーの閾値を下げることで、サーバ装置側で推論するデータ数が増えるといいかえてもよい。

　ここで、エッジ装置側で推論するかサーバ装置側で推論するかを決めるための閾値について考える。一例として、全体としての精度を基準とすることが考えられる。エッジ装置側で推論してもサーバ装置側で推論しても精度があまりかわらない程度であればエッジ装置側で処理でき、エッジ装置側で処理をしたときに精度が下がる場合にサーバ装置側で処理できるような閾値が望ましい。例えば図１０の場合、量子化ビットレートを8(acc_int8)とした場合にオフロード率の閾値を０．４にすればよいことがわかる。そして、オフロード率が０．４となるようにエッジ側の推論結果のエントロピーの閾値を決定すればよい。図１０の場合、エントロピー閾値は、０．５程度とすればよい。

［実施の形態の効果］
　このように、実施の形態では、サーバ装置２０に配置する前のＤＮＮ２´における特徴抽出層Ｂｆ２を、エッジ装置３０のＤＮＮ１の特徴抽出層Ｂｆ２として配置することで、エッジ装置３０が出力した特徴マップを、サーバ装置２０においても共有することができる。すなわち、サーバ装置２０のＤＮＮ２の検知層Ｂｄ２は、エッジ装置３０のＤＮＮ１の特徴抽出層Ｂｆ２が出力した特徴マップを用いて推論処理を実行することが可能になる。

　したがって、サーバ装置２０側で推論を行う場合に特徴抽出処理の実行を省略できるため、システム全体の計算時間を短縮することができ、低遅延化を図ることが可能になる。また、エッジ装置３０からサーバ装置２０への出力データは、処理対象の画像ではなく、画像から抽出した特徴マップであるため、エッジ装置３０からサーバ装置２０に対するデータ転送量を低減することが可能になる。また、エッジ装置は、処理対象の画像や符号化された画像でも、周波数信号のような一般的に用いられる特徴量でもない特徴マップを、サーバ装置に送信しているため、第三者に対する秘密性の向上を図ることもできる。秘密性を確実に担保しようとする場合、学習を行う際に、さらに特徴マップと入力データ（対象の画像）との関係を非可逆とする制約を課せばよい。

　実施の形態では、サーバ装置２０に配置する前のＤＮＮ２´における特徴抽出層Ｂｆ２を、エッジ装置３０の検知層Ｂｄ１の前段に配置したＤＮＮ１を提案した。このＤＮＮ１については、実際に分類タスクを行い、精度及び速さともに軽量モデルとして有効であることを評価できた。

　また、本実施の形態では、エッジ装置３０とサーバ装置２０とのいずれの推論結果を採用するかを判定する際に使用する信頼度を、ＤＮＮ１の推論結果のエントロピーとして定式化し、閾値を設定することによって、実際の運用時におけるユースケースに応じたオフロード率や全体精度の調整を可能とした。

　なお、本実施の形態では、処理対象データとして画像を例に説明したが、画像に限らず、各種センサが検知した検知結果でもよい。また、本実施の形態では、ＤＮＮ１，ＤＮＮ２のベースモデルとして、YOLOv2，YOLOv3を適用した場合を例に説明したが、ＤＮＮ１，ＤＮＮ２のベースモデルは、タスクに応じて適宜設定すればよい。

　また、本実施の形態では、エッジ装置３０またはサーバ装置２０が複数であってもよく、また、エッジ装置３０とサーバ装置２０とがいずれも複数であってもよい。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１１は、プログラムが実行されることにより、エッジ装置３０及びサーバ装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、演算を補助するために前述したアクセラレータを備えてもよい。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、エッジ装置３０及びサーバ装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、エッジ装置３０及びサーバ装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　２０　サーバ装置
　２１，３１　推論部
　３０　エッジ装置
　３２　判定部
　３３　量子化部
　１００　処理システム

Claims

　エッジ装置とサーバ装置とを用いて行われる処理システムであって、
　前記エッジ装置は、
　第１のモデルを用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に前記処理対象データに対する推論処理を実行する第１の推論部と、
　前記第１の推論部による推論結果に対する信頼度が閾値を超えた場合には前記第１の推論部による推論結果を出力し、前記信頼度が閾値以下である場合には前記処理対象データの特徴量を前記サーバ装置に出力する判定部と、
　を有し、
　前記サーバ装置は、
　前記第１のモデルよりも推論精度が高い第２のモデルを用いて、前記エッジ装置から出力された前記処理対象データの特徴量を基に前記処理対象データに対する推論処理を実行する第２の推論部と、
　を有することを特徴とする処理システム。
　前記第１のモデルは、
　前記処理対象データの特徴量を抽出する第１の抽出部と、
　前記処理対象データの特徴量を基に第１の推論処理を実行する第１の実行部と、
　を有し、
　前記第２のモデルは、
　前記処理対象データの特徴量を基に第２の推論処理を実行する第２の実行部
　を有し、
　前記第２の実行部は、前記第１の抽出部によって抽出された前記処理対象データの特徴量を基に、前記第２の推論処理を実行することを特徴とする請求項１に記載の処理システム。
　前記判定部は、量子化した前記処理対象データの特徴量を前記サーバ装置に出力することを特徴とする請求項１または２に記載の処理システム。
　前記信頼度は、前記第１の推論部による推論結果のエントロピーに基づくことを特徴とする請求項１～３のいずれか一つに記載の処理システム。
　エッジ装置とサーバ装置とを用いて行われる処理システムが実行する処理方法であって、
　前記エッジ装置が、第１のモデルを用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に前記処理対象データに対する推論処理を実行する第１の推論工程と、
　前記エッジ装置が、前記第１の推論工程における推論結果に対する信頼度が閾値を超えた場合には前記第１の推論工程における推論結果を出力し、前記信頼度が閾値以下である場合には前記処理対象データの特徴量を前記サーバ装置に出力する判定工程と、
　前記サーバ装置が、前記第１のモデルよりも推論精度が高い第２のモデルを用いて、前記エッジ装置から出力された前記処理対象データの特徴量を基に前記処理対象データに対する推論処理を実行する第２の推論工程と、
　を含んだことを特徴とする処理方法。
　方法をコンピュータに実行させる処理プログラムであって、
　エッジ装置としてのコンピュータに、
　第１のモデルを用いて、処理対象データの特徴量を抽出し、抽出した特徴量を基に前記処理対象データに対する推論処理を実行する第１の推論ステップと、
　前記第１の推論ステップにおける推論結果に対する信頼度が閾値を超えた場合には前記第１の推論ステップにおける推論結果を出力し、前記信頼度が閾値以下である場合には前記処理対象データの特徴量を出力する判定ステップと、
　を実行させ、
　サーバ装置としてのコンピュータに、
　前記第１のモデルよりも推論制度が高い第２のモデルを用いて、前記エッジ装置から出力された前記処理対象データの特徴量を基に前記処理対象データに対する推論処理を実行する第２の推論ステップ、
　を実行させることを特徴とする処理プログラム。