WO2022074796A1

WO2022074796A1 - 評価方法、評価装置、および評価プログラム

Info

Publication number: WO2022074796A1
Application number: PCT/JP2020/038178
Authority: WO
Inventors: 俊也清水; 裕二樋口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2022-04-14
Anticipated expiration: 2023-04-08
Also published as: EP4227864A4; CN116097285A; JP7517448B2; JPWO2022074796A1; US20230222385A1; EP4227864A1

Abstract

ポイズニング攻撃に対する機械学習モデルの従来の耐性評価方法には、評価に膨大な時間を要するという問題やデータの準備が困難となる問題がある。コンピュータが、第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、推論精度を低下させる第２の訓練データを生成し、第２の訓練データを用いて機械学習モデルを訓練し、訓練された機械学習モデルの評価を行う処理を実行する。これにより、一つの側面では、機械学習モデルの推論精度を低下させる訓練データに対する機械学習モデルの耐性評価をより効率的に行うことができる。

Description

評価方法、評価装置、および評価プログラム

　本発明は、評価方法、評価装置、および評価プログラムに関する。

　機械学習固有のセキュリティ問題の１つであるポイズニング攻撃は、機械学習モデルの訓練データに異常データを混入させることにより、機械学習モデルを意図的に改変し、その推論精度を著しく低下させる攻撃である。

　そのため、機械学習モデルがポイズニング攻撃によりどの程度汚染され、推論精度が低下するかを予め評価することが重要とされている。ポイズニング攻撃に対する機械学習モデルの耐性評価として、例えば、実際に、機械学習モデルにポイズニング攻撃をしかけて、推論精度を低下させ、その度合いを評価する方法がある。また、別の評価方法として、個々の訓練データが機械学習モデルの推論に与える影響を定量化する影響関数を用いて、ポイズニング攻撃による異常データの影響度合いを評価する方法がある。

"Towards　Poisoning　of　Deep　Learning　Algorithms　with　Backgradient　Optimization",L.　Munoz-Gonzalez,　B.　Biggio,　A.　Demontis,　A.　Paudice,　V.　Wongrassamee,　E.C.　Lupu,　and　F.　Roli "Understanding　Black-box　Predictions　via　Influence　Functions",　K.　W.　Pang,　L.　Percy

　しかしながら、ポイズニング攻撃を実際にしかける評価方法は、大量の異常データを用いて機械学習モデルの訓練と、推論精度の低下度合いの評価とを繰り返す必要があり、膨大な時間を要するという問題がある。また、影響関数を用いる評価方法は、影響度合いを評価するための訓練データを具体的に準備する必要があるが、データの入力空間が広い場合は特にデータの準備が困難となる問題がある。

　一つの側面では、機械学習モデルの推論精度を低下させる訓練データに対する機械学習モデルの耐性評価をより効率的に行うことができる評価方法、評価装置、および評価プログラムを提供することを目的とする。

　第１の案では、コンピュータが、第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、推論精度を低下させる第２の訓練データを生成し、第２の訓練データを用いて機械学習モデルを訓練し、訓練された機械学習モデルの評価を行う処理を実行する。

　一つの側面では、機械学習モデルの推論精度を低下させる訓練データに対する機械学習モデルの耐性評価をより効率的に行うことができる。

図１は、実施例１にかかる評価装置１０の機能構成を示す機能ブロック図である。図２は、実施例１にかかる訓練データ空間の例を示す図である。図３は、実施例１にかかる機械学習モデルの耐性評価処理の流れを示すフローチャートである。図４は、実施例１にかかる訓練データの更新処理の流れを示すフローチャートである。図５は、実施例２にかかる機械学習モデルの耐性評価処理の流れを示すフローチャートである。図６は、評価装置１０のハードウェア構成例を説明する図である。

　以下に、本願の開示する評価方法、評価装置、および評価プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［評価装置１０の機能構成］
　まず、本願の開示する評価方法の実行主体となる評価装置１０の機能構成について説明する。図１は、実施例１にかかる評価装置１０の機能構成を示す機能ブロック図である。図１に示すように、評価装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

　通信部２０は、他の装置との間の通信を制御する処理部であり、例えば、通信インタフェースである。

　記憶部３０は、各種データや、制御部４０が実行するプログラムを記憶する記憶装置の一例であり、例えば、メモリやハードディスクなどである。記憶部３０は、例えば、機械学習モデルを構築するためのモデルパラメータや、機械学習モデルのための訓練データも記憶できる。なお、記憶部３０には、上記具体例以外にも様々なデータを記憶できる。

　制御部４０は、評価装置１０全体を司る処理部であり、例えば、プロセッサなどである。制御部４０は、生成部４１、訓練部４２、評価部４３、および算出部４４を有する。なお、各処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

　生成部４１は、訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、機械学習モデルのポイズニングデータに対する耐性評価を行うために、推論精度を低下させる訓練データを生成する。推論精度を低下させる訓練データは、機械学習モデルの訓練に用いた訓練データに対して、機械学習モデルの推論精度を低下させるようなポイズニングデータを生成し、訓練に用いた訓練データにポイズニングデータを追加することで生成される。

　ポイズニングデータ生成について説明する。図２は、実施例１にかかる訓練データ空間の例を示す図である。図２の例では、訓練データ空間に、ラベル１～３の３つのラベルがあるものとして説明する。まず、生成部４１は、機械学習モデルの訓練に用いた訓練データの全てのラベルのクラスタからデータを初期点としてランダムに選択する。図２の例では、（データＡ，ラベル１）、（データＢ，ラベル２）、（データＣ，ラベル３）が、それぞれ、ラベル１～３のクラスタからの初期点としてランダムに選択される。なお、初期点は、例えば、勾配上昇法を用いて汚染度のより高いデータを探索するための基となるデータおよびラベルの組み合わせである。初期点に基づいて探索されたデータおよびラベルの組み合わせが、最終的にポイズニングデータとなる。

　また、生成部４１は、各クラスタから選択されたデータの各々に対し元のラベルと異なるラベルを１つまたは複数付与したデータを初期点に追加する。図２を用いて説明すると、例えば、データＡの元のラベルはラベル１であるので、データＡに対し、元のラベルと異なるラベルであるラベル２やラベル３を付与したデータを初期点に追加する。図２の例では、元のラベルを付与したデータの３点に対し、異なるラベルを付与したデータが、３点×異なるラベル分の２点の計６点あるため、この時点では、最多で９点の初期点ができあがることになる。

　さらに、生成部４１は、ラベルの異なるデータ同士を対合させたデータを初期点に追加する。ここで、対合とは、データ変換であり、２つのデータを用いて１つのデータを生成する変換である。例えば、訓練データにデータx_1、x_2があり、それぞれのラベルがy_1、y_2であった場合、データ（x_1,y_1）と（x_2,y_2）との対合は、次の式によって算出できる。なお、対合によって、ラベルの異なる１組のデータから２つのデータを生成できる。１つ目の対合は、データx_1およびx_2が数値として、ないしベクトル値であってそれぞれの数値がa～bの範囲をとり、λを０～１の実数として、対合１=（λ（b-x_1）+（1-λ）（x_2-a）,y_1）、２つ目の対合は、対合２=（λ（x_1-a）+（1-λ）（b-x_2）,y_2）を用いて算出できる。また、図２の例では、ラベルが３つあるため、異なるラベルの組み合わせは、ラベル１－ラベル２、ラベル２－ラベル３、ラベル３－ラベル１の３つあり、それぞれに対して、２点の対合データが生成できる。そのため、対合により、異なるラベルの組み合わせ３つ×対合データ２点の計６点がさらに初期点として追加される。

　以上のようにして生成された初期点は、例えば、算出部４４によって勾配上昇法を用いて汚染度のより高いデータに更新される。そして、所定条件を満たすまでデータの更新が繰り返され、機械学習モデルの推論精度をより低下させるポイズニングデータが算出される。なお、ポイズニングデータは初期点の各々に対して算出され、生成部４１は、機械学習モデルの訓練に用いた訓練データに各ポイズニングデータを追加することで、推論精度を低下させる複数の訓練データを生成する。

　訓練部４２は、機械学習モデルのポイズニングデータに対する耐性評価を行うために、生成部４１によって生成された推論精度を低下させる訓練データを用いて機械学習モデルを訓練する。なお、上述したように、生成部４１によって複数の訓練データが生成されるが、各々の訓練データを用いて訓練した場合の機械学習モデルの推論精度を評価するため、複数の訓練データの各々を用いて機械学習モデルを訓練する。すなわち、複数の訓練済み機械学習モデルができあがることになる。

　評価部４３は、推論精度を低下させる訓練データを用いて訓練部４２によって訓練された機械学習モデルのポイズニングデータに対する耐性評価を行う。当該評価も、複数の訓練済み機械学習モデルの各々に対して行われる。また、当該評価は、予め評価用に生成された訓練データを用いて、評価用の訓練データを用いて訓練された機械学習モデルと、訓練部４２によって訓練された機械学習モデルとの推論精度の精度差を、損失関数を用いて算出することにより行われる。すなわち、評価用の訓練データを用いて訓練された機械学習モデルに対して、推論精度を低下させる訓練データを用いて訓練部４２によって訓練された機械学習モデルの推論精度がどれだけ低下したかを精度差として算出し、評価する。

　算出部４４は、生成部４１によって生成された初期点を、勾配上昇法を用いて更新し、機械学習モデルの推論精度をより低下させるポイズニングデータを算出する。なお、勾配上昇法で用いる関数も算出部４４によって算出される。当該関数は、既存技術を用いる、または訓練を実施することにより算出でき、訓練データX_tに、（データx，ラベルy）を追加した際の損失関数の変化量Δのデータxに関する勾配を計算するための関数dΔ/dx(X_v,y)である。

　ここで、X_vは、評価部４３の説明の際の“予め評価用に生成された訓練データ”であり、ポイズニングデータに対して機械学習モデルの推論精度がどれだけ低下したかを評価するための基準となるデータである。また、損失関数の変化量Δは、評価用の訓練データX_tを用いて訓練された機械学習モデルと、訓練データX_tに（データx，ラベルy）を追加した訓練データX_t∪｛(x,y)｝を用いて訓練された機械学習モデルとの推論精度の精度差である。評価用の訓練データX_tを用いて訓練された機械学習モデルをM、訓練データX_t∪｛(x,y)｝を用いて訓練された機械学習モデルをM´、損失関数をLとすると、算出部４４は、損失関数Lの変化量Δを、Δ=L(M´,X_v)－L(M,X_v)の式で算出できる。すなわち、関数dΔ/dx(X_v,y)は、損失関数Lの変化量Δに対するデータxの勾配を測る関数であり、これにより、ラベルyに対してデータxをどのように更新すれば、機械学習モデルの推論精度が良く、または悪くなるかを測ることができる。

　また、詳細については図４を用いて後述するが、算出部４４は、推論精度を低下させる訓練データを用いた訓練前後の機械学習モデルの推論精度の精度差を算出する。

［処理の流れ］
　次に、機械学習モデルの耐性評価処理について、処理の流れに沿って説明する。図３は、実施例１にかかる機械学習モデルの耐性評価処理の流れを示すフローチャートである。耐性評価処理を実行するにあたり、ポイズニングデータに対して機械学習モデルの推論精度がどれだけ低下したかを評価するための基準となる評価用の訓練データX_vを予め生成しておく。また、評価データX_vを用いて、対象となる機械学習モデルの推論精度を、損失関数を用いて予め算出しておいてもよい。

　まず、図３に示すように、評価装置１０は、訓練データX_tおよび評価データX_vを用いて関数dΔ/dx(X_v,y)を算出する（ステップＳ１０１）。

　次に、評価装置１０は、訓練データX_tの全ラベルのクラスタからデータを初期点として選択する（ステップＳ１０２）。各クラスタからのデータ選択は、例えば、ランダムに行われる。

　次に、評価装置１０は、ステップＳ１０２で選択されたデータに元のラベルと異なるラベルを付与したデータを初期点に追加する（ステップＳ１０３）。なお、異なるラベルの付与は、元のラベルに対して異なる全てのラベルに対して行われてもよいし、異なる一部のラベルに対して行われてもよい。

　次に、評価装置１０は、ラベルの異なるデータ同士を対合させたデータを初期点に追加する（ステップＳ１０４）。対合データは、上述したように、最大で異なるラベルの組み合わせの数×２点分生成され、初期点として追加される。なお、ステップＳ１０３およびＳ１０４の実行順序は逆であってもよい。

　次に、評価装置１０は、ラベルが固定された時の関数dΔ/dx(X_v,y)を用いて、ステップＳ１０２～Ｓ１０４で生成した初期点の各々を更新し、複数のポイズニングデータを算出する（ステップＳ１０５）。初期点の更新は、例えば、勾配上昇法を用いて行われる。より具体的には、例えば、更新前のデータを（データx_i，ラベルy）、更新後のデータを（データx_i+1，ラベルy）とすると、更新後のデータx_i+1は、x_i+1=x_i+εdΔ/dx(X_v,y)の式で算出できる。ラベルyは固定であるため、変更はない。iは、0を初期値として更新の度にカウントアップされる数値である。そのため、x₀が初期点のデータを示す。また、εは、学習率と呼ばれる、データxを動かす量を示すパラメータで、例えば、小さい正の数が設定される。このような式を用いて、初期点の各データの更新を、ラベルを固定したまま所定条件を満たすまで繰り返すことで、汚染度のより高いポイズニングデータを算出する。ここで、所定条件とは、例えば、更新処理の実行回数が所定の閾値に達した、更新前後のデータの差が無くなり更新が止まった、更新後のデータが初期点のデータから一定以上離れた、などである。

　次に、評価装置１０は、ステップＳ１０５で算出されたポイズニングデータを追加した訓練データX_tを用いて、機械学習モデルを訓練する（ステップＳ１０６）。なお、ステップＳ１０５では複数のポイズニングデータが算出されるため、算出されたポイズニングデータの各々を用いて機械学習モデルが訓練され、複数の訓練済みの機械学習モデルが生成されることになる。

　そして、評価装置１０は、ステップＳ１０６で、ポイズニングデータを追加した訓練データX_tを用いて訓練された機械学習モデルを評価する（ステップＳ１０７）。ここでも、ステップＳ１０６では、複数の訓練済みの機械学習モデルが生成されるため、訓練済みの機械学習モデルの各々に対して評価が行われる。具体的には、ステップＳ１０６で生成された訓練済みの機械学習モデルの各々と、評価データX_vを用いて訓練された機械学習モデルとの推論精度の精度差を、損失関数を用いて算出することにより、対象の機械学習モデルを評価する。算出された精度差が大きいほど、対象の機械学習モデルはポイズニングデータによってより汚染されていることを示し、ポイズニングデータに対する耐性が低いことになる。Ｓ１０７の実行後、図３に示す機械学習モデルの耐性評価処理は終了する。

　次に、訓練データの更新処理について、処理の流れに沿って説明する。図４は、実施例１にかかる訓練データの更新処理の流れを示すフローチャートである。本処理では、複数のポイズニングデータの影響をよく近似させるために、ポイズニングデータを用いた訓練前後の機械学習モデルの推論精度の精度差が一定以上になる度に、ポイズニングデータを用いて関数dΔ/dx(X_v,y)を更新し、図３の耐性評価処理を繰り返す。そのため、本処理は、図３に示す機械学習モデルの耐性評価処理のステップＳ１０６の実行後に実行される。

　まず、図４に示すように、評価装置１０は、評価データX_vと、ポイズニングデータを追加した訓練データX_tを用いて訓練した機械学習モデルM´と、損失関数の変化量を算出する関数Δを用いて第１の精度差を算出する（ステップＳ２０１）。第１の精度差はポイズニングデータを含まない訓練データに対する評価データX_vにおける損失関数の値との変化量を表す関数をΔとした場合に、ポイズングデータを含む訓練データをX_tとして、Δ(X_t,X_v)の式で算出できる。

　次に、評価装置１０は、訓練データX_tを用いて訓練された機械学習モデルMと、ステップＳ１０６で、ポイズニングデータを追加した訓練データX_tを用いて訓練された機械学習モデルM´との第２の精度差を算出する（ステップＳ２０２）。第１の精度差と同様に、第２の精度差も損失関数Lを用いて、L(M´,X_v)-L(M,X_v)の式で算出できる。

　次に、評価装置１０は、ステップＳ２０１で算出された第１の精度差と、ステップＳ２０２で算出された第２の精度差との差を算出する（ステップＳ２０３）。両精度差の差が所定の閾値以上である場合（ステップＳ２０４：Ｙｅｓ）、評価装置１０は、訓練データX_tを、ポイズニングデータを追加した訓練データX_t∪{(x,y)}に置き換え、ステップＳ１０１から処理を繰り返す（ステップＳ２０５）。

　一方、両精度差の差が所定の閾値以上でない場合（ステップＳ２０４：Ｎｏ）、評価装置１０は、訓練データX_tの更新は行わず、ステップＳ１０２から処理を繰り返す（ステップＳ２０６）。Ｓ２０５またはＳ２０６の実行後、図４に示す訓練データの更新処理は終了する。

　また、機械学習モデルの耐性評価処理は、図３を用いて説明した実施例１の他、実施例２として示す以下のような処理を採用できる。図５は、実施例２にかかる機械学習モデルの耐性評価処理の流れを示すフローチャートである。実施例２にかかる耐性評価処理では、実施例１にかかる耐性評価処理と異なり、損失の変化量Δに対しての勾配をデータxに対してのみでなくラベルyに対しても行う。そして、実施例２にかかる耐性評価処理ではさらに、データおよびラベルの両方を勾配上昇法によって更新し、最適化されたデータおよびラベルについて、さらにデータxを勾配上昇法によって更新してポイズニングデータを算出する。

　まず、図５に示すように、評価装置１０は、訓練データX_tおよび評価データX_vを用いて、X_tに(データx,ラベルy)を追加した際の損失関数の変化量Δのxとyに関する勾配を計算するための関数dΔ/dx(X_v)およびdΔ/dy(X_v)を算出する（ステップＳ３０１）。yに関する勾配を計算するための関数dΔ/dy(X_v)は、損失関数Lの変化量Δに対するデータyの勾配を測る関数であり、データyをどのように更新すれば、機械学習モデルの推論精度が良く、または悪くなるかを測ることができる。関数dΔ/dy(X_v)も、関数dΔ/dx(X_v)同様、既存技術を用いて算出できる。

　ステップＳ３０２～Ｓ３０４は、実施例１のステップＳ１０２～Ｓ１０４と同様である。しかしながら、ステップＳ３０３にて異なるラベルを付与したデータを初期点に追加する際は、元のラベルと異なる全てのラベルに対してではなく、異なる一部のラベルに対して行われる。

　次に、評価装置１０は、関数dΔ/dx(X_v)およびdΔ/dy(X_v)を用いて、ステップＳ３０２～Ｓ３０４で生成した初期点の各々を更新する（ステップＳ３０５）。初期点の更新は、例えば、勾配上昇法を用いて行われる。より具体的には、例えば、更新前のデータを（データx_i，ラベルy_i）、更新後のデータを（データx_i+1，ラベルy_i+1）とすると、更新後のデータx_i+1は、x_i+1=x_i+εdΔ/dx(X_v)の式、更新後のデータy_i+1は、y_i+1=x_i+εdΔ/dy(X_v)の式で算出できる。iは、0を初期値として更新の度にカウントアップされる数値である。そのため、x₀およびy₀が初期点のデータを示す。また、εは、学習率と呼ばれる、データxを動かす量を示すパラメータで、例えば、小さい正の数が設定される。このような式を用いて、初期点の各データの更新を、所定条件を満たすまで繰り返す。ここで、所定条件とは、例えば、更新処理の実行回数が所定の閾値に達した、更新前後のデータの差が無くなり更新が止まった、更新後のデータが初期点のデータから一定以上離れた、などである。なお、算出されるラベルyは小数値である場合があり、その場合は、整数値に変換される。

　次に、評価装置１０は、更新されたラベルyについてyの値に一番近しいラベルの値にyを更新し固定した上で関数dΔ/dx(X_v)を用いて、ステップＳ３０２～Ｓ３０４で生成した初期点の各々を更新し、複数のポイズニングデータを算出する（ステップＳ３０６）。ステップＳ３０６の初期点の更新も、ステップＳ１０５同様、例えば、勾配上昇法を用いて所定条件を満たすまで繰り返される。

　ステップＳ３０７およびＳ３０８は、実施例１のステップＳ１０６およびＳ１０７と同様である。Ｓ３０８の実行後、図５に示す機械学習モデルの耐性評価処理は終了する。

［効果］
　上述したように、評価装置１０は、第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、推論精度を低下させる第２の訓練データを生成し、第２の訓練データを用いて機械学習モデルを訓練し、訓練された機械学習モデルの評価を行う。

　これにより、対象の機械学習モデルに対してより汚染度の高いポイズニングデータを探索および生成し、生成されたポイズニングデータを用いて機械学習モデルを訓練することにより、ポイズニングデータに対する機械学習モデルの耐性評価を行うことができる。したがって、機械学習モデルの推論精度を低下させる訓練データに対する機械学習モデルの耐性評価をより効率的に行うことができる。

　また、評価装置１０によって実行される、第２の訓練データを生成する処理は、第１の訓練データの全てのラベルのクラスタからデータを初期点としてランダムに選択し、選択されたデータの各々に対し元のラベルと異なるラベルを１つまたは複数付与したデータを初期点に追加し、ラベルの異なるデータ同士を対合させたデータを初期点に追加し、初期点に基づいて、第２の訓練データを生成する処理を含む。

　これにより、より汚染度の高いポイズニングデータを生成できる。

　また、評価装置１０によって実行される、第２の訓練データを生成する処理は、複数の初期点に基づいて、複数の第２の訓練データを生成する処理を含み、機械学習モデルを訓練する処理は、複数の第２の訓練データの各々を用いて機械学習モデルを訓練する処理を含み、訓練された機械学習モデルの評価を行う処理は、複数の第２の訓練データの各々を用いて訓練された複数の訓練された機械学習モデルの各々の評価を行う処理を含む。

　これにより、より汚染度の高いポイズニングデータを効率的に生成できる。

　また、評価装置１０によって実行される、初期点に基づいて、第２の訓練データを生成する処理は、初期点を勾配上昇法によって更新し、更新された初期点に基づいて、第２の訓練データを生成する処理を含む。

　また、評価装置１０によって実行される、初期点に基づいて、第２の訓練データを生成する処理は、初期点に付与されたラベルを勾配上昇法によって更新し、更新された初期点およびラベルに基づいて、第２の訓練データを生成する処理を含む。

　また、評価装置１０によって実行される、訓練された機械学習モデルの評価を行う処理は、損失関数の変化量を算出する関数を用いて、第２の訓練データを用いて訓練された機械学習モデルと、機械学習モデルを評価するための第１の訓練データを用いて訓練された機械学習モデルとの推論精度の第１の精度差を算出し、第１の精度差に基づいて、訓練された機械学習モデルの評価を行う処理を含む。

　これにより、ポイズニングデータに対する機械学習モデルの耐性評価をより効率的に行うことができる。

　また、評価装置１０は、損失関数を用いて、第１の訓練データを用いて訓練された機械学習モデルと、第２の訓練データを用いて訓練された機械学習モデルとの推論精度の第２の精度差を算出し、第１の精度差と第２の精度差との差が所定の閾値以上の場合、第１の訓練データを第２の訓練データに置き換えて、推論精度を低下させる第４の訓練データを生成し、第４の訓練データを用いて機械学習モデルを訓練し、第４の訓練データを用いて訓練された機械学習モデルの評価を行う処理をさらに実行する。

　これにより、複数のポイズニングデータの影響をよく近似させることができる。

　さて、これまで本発明の実施例１および２について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［システム］
　上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更できる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更できる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成できる。例えば、評価装置１０の生成部４１と算出部４４とを統合できる。

　さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
　上述した評価装置１０のハードウェア構成を説明する。図６は、評価装置１０のハードウェア構成例を示す図である。図６に示すように、評価装置１０は、通信部１０ａ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１０ｂ、メモリ１０ｃ、およびプロセッサ１０ｄを有する。また、図６に示した各部は、バスなどで相互に接続される。

　通信部１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図１に示した機能を動作させるプログラムやデータを記憶する。

　プロセッサ１０ｄは、図１に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂなどから読み出してメモリ１０ｃに展開することで、図１で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、評価装置１０が有する各処理部と同様の機能を実行する。具体的には、例えば、プロセッサ１０ｄは、生成部４１や訓練部４２などと同様の機能を有するプログラムをＨＤＤ１０ｂなどから読み出す。そして、プロセッサ１０ｄは、生成部４１や訓練部４２などと同様の処理を実行するプロセスを実行する。

　このように、評価装置１０は、プログラムを読み出して実行することで各処理を実行する情報処理装置として動作する。また、評価装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、評価装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用できる。

　なお、このプログラムは、インターネットなどのネットワークを介して配布できる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行できる。

　１０　　評価装置
　１０ａ　通信部
　１０ｂ　ＨＤＤ
　１０ｃ　メモリ
　１０ｄ　プロセッサ
　２０　　通信部
　３０　　記憶部
　４０　　制御部
　４１　　生成部
　４２　　訓練部
　４３　　評価部
　４４　　算出部

Claims

　コンピュータが、
　第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、前記推論精度を低下させる第２の訓練データを生成し、
　前記第２の訓練データを用いて前記機械学習モデルを訓練し、
　訓練された前記機械学習モデルの評価を行う
　処理を実行することを特徴とする評価方法。
　前記第２の訓練データを生成する処理は、
　前記第１の訓練データの全てのラベルのクラスタからデータを初期点としてランダムに選択し、
　前記選択されたデータの各々に対し元のラベルと異なるラベルを１つまたは複数付与したデータを前記初期点に追加し、
　前記ラベルの異なるデータ同士を対合させたデータを前記初期点に追加し、
　前記初期点に基づいて、前記第２の訓練データを生成する
　処理を含むことを特徴とする請求項１に記載の評価方法。
　前記第２の訓練データを生成する処理は、複数の前記初期点に基づいて、複数の前記第２の訓練データを生成する処理を含み、
　前記機械学習モデルを訓練する処理は、前記複数の第２の訓練データの各々を用いて前記機械学習モデルを訓練する処理を含み、
　前記訓練された機械学習モデルの評価を行う処理は、前記複数の第２の訓練データの各々を用いて訓練された複数の前記訓練された機械学習モデルの各々の評価を行う処理を含むことを特徴とする請求項２に記載の評価方法。
　前記初期点に基づいて、前記第２の訓練データを生成する処理は、
　前記初期点を勾配上昇法によって更新し、
　前記更新された初期点に基づいて、前記第２の訓練データを生成する
　処理を含むことを特徴とする請求項２または３に記載の評価方法。
　前記初期点に基づいて、前記第２の訓練データを生成する処理は、
　前記初期点に付与されたラベルを前記勾配上昇法によって更新し、
　前記更新された初期点およびラベルに基づいて、前記第２の訓練データを生成する
　処理を含むことを特徴とする請求項４に記載の評価方法。
　前記訓練された機械学習モデルの評価を行う処理は、
　損失関数の変化量を算出する関数を用いて、前記第２の訓練データを用いて訓練された前記機械学習モデルと、前記第１の訓練データを用いて訓練された前記機械学習モデルとの前記推論精度の第１の精度差を算出し、
　前記第１の精度差に基づいて、前記訓練された機械学習モデルの評価を行う
　処理を含むことを特徴とする請求項１に記載の評価方法。
　前記コンピュータが、
　前記損失関数を用いて、前記第１の訓練データを用いて訓練された前記機械学習モデルと、前記第２の訓練データを用いて訓練された前記機械学習モデルとの前記推論精度の第２の精度差を算出し、
　前記第１の精度差と前記第２の精度差との差が所定の閾値以上の場合、前記第１の訓練データを前記第２の訓練データに置き換えて、前記推論精度を低下させる第４の訓練データを生成し、
　前記第４の訓練データを用いて前記機械学習モデルを訓練し、
　前記第４の訓練データを用いて訓練された前記機械学習モデルの評価を行う
　処理をさらに実行することを特徴とする請求項６に記載の評価方法。
　第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、前記推論精度を低下させる第２の訓練データを生成する生成部と、
　前記第２の訓練データを用いて前記機械学習モデルを訓練する訓練部と、
　訓練された前記機械学習モデルの評価を行う評価部と
　を有することを特徴とする評価装置。
　コンピュータに、
　第１の訓練データの変化に対する機械学習モデルの推論精度の低下の度合いを示す情報に基づいて、前記推論精度を低下させる第２の訓練データを生成し、
　前記第２の訓練データを用いて前記機械学習モデルを訓練し、
　訓練された前記機械学習モデルの評価を行う
　処理を実行させることを特徴とする評価プログラム。