WO2022097709A1

WO2022097709A1 - データ拡張方法、学習装置およびプログラム

Info

Publication number: WO2022097709A1
Application number: PCT/JP2021/040736
Authority: WO
Inventors: 隼石坂; 和紀小塚; 宗太郎築澤; デニスグドフスキー
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2020-11-06
Filing date: 2021-11-05
Publication date: 2022-05-12
Anticipated expiration: 2023-05-06
Also published as: US12412374B2; EP4242928A4; JP7744923B2; JPWO2022097709A1; US20230267713A1; EP4242928A1

Abstract

ＤＮＮの複数のパラメータの最適化を行う第１最適化処理（Ｓ１１）と、データ拡張処理のためのサンプル毎のハイパーパラメータの最適化を行う第２最適化処理（Ｓ１２）とを交互に行う。第１最適化処理では、学習用データセットに含まれる第１サンプルにデータ拡張処理を行った第１拡張サンプルから、第１拡張ラベルをＤＮＮに予測させ、第１拡張ラベルと、第１サンプルの第１正解ラベルとについての第１誤差関数を算出し、第１誤差関数に基づき、複数のパラメータを更新する。第２最適化処理では、テスト用データセットの分布に類似する評価用データセットから、第２サンプルを取得し、複数のパラメータが更新されたＤＮＮに、第２サンプルから第２ラベルを予測させ、第２ラベルと、第２サンプルの第２正解ラベルとの第２誤差関数を算出し、第２誤差関数をハイパーパラメータについて微分して得た勾配に基づいて、ハイパーパラメータを更新する。

Description

データ拡張方法、学習装置およびプログラム

　本開示は、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法、学習装置およびプログラムに関する。

　画像認識を応用したシステムの開発において、高精度なＡＩモデルを獲得するために、学習用の画像データを多く集める必要がある。

　人物など汎用的な対象については画像データなどのサンプルを大規模に集めやすい一方で、ベビーカーなど汎用的でない対象についてサンプルを大規模には集められない。また、特定の製品、異常サンプルなどそもそも少量しか存在しない対象もサンプルを大規模に集められない。

　これに対して、学習用のサンプル数が少ない場合でも、サンプル数を増加させることができるデータ拡張という手法がある。データ拡張は、画像データなどの学習用のサンプルに対して変換処理を行うことでサンプルを水増しする手法であるが、種々のデータ拡張が提案されている（例えば非特許文献１）。

　非特許文献１には、画像の一部を別の値で塗りつぶしてデータ拡張する技術が開示されている。

Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan,and Quoc V Le. AutoAugment: Learning augmentation policies from data. arXiv:1805.09501, 2018. Sungbin Lim, Ildoo Kim, Taesup Kim, Chiheon Kim, and Sungwoong Kim. Fast AutoAugment. In Advances in Neural Information Processing Systems, 2019.

　しかしながら、非特許文献１で開示された技術では、学習用のサンプル数を増やすことができるものの、高精度なＡＩモデルを獲得できない場合がある。換言すると、学習用のサンプルに対して適切に変換処理を行わないと、学習による識別面（識別線）の生成が理想的な境界線から大きく外れてしまい、予測精度の向上に寄与しないばかりか予測精度を低下させてしまう場合も生じる。

　本開示は、上述の事情を鑑みてなされたもので、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができるデータ拡張方法等を提供することを目的とする。

　上記課題を解決するために、本開示の一形態に係るデータ拡張方法は、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法であって、前記ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、前記第１最適化処理では、前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、前記第２最適化処理では、前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新する。

　なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示のデータ拡張方法等によれば、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

図１は、実施の形態に係る学習装置の構成の一例を示すブロック図である。図２は、実施の形態に係る学習装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。図３は、実施の形態に係る学習装置の動作概要を示すフローチャートである。図４は、図３に示す第１最適化処理の詳細動作を示すフローチャートである。図５は、図３に示す第２最適化処理の詳細動作を示すフローチャートである。図６は、実施例１に係る第１最適化処理及び第２最適化処理を交互に行う処理例を概念的に説明するための図である。図７Ａは、実施例１に係る評価用データセットの一例を示す図である。図７Ｂは、実施例１に係る学習用データセットの一例を示す図である。図８Ａは、実施例１に係る第１最適化処理を行うための機能例を概念的に説明するための図である。図８Ｂは、図８Ａに示すLOSS機能の具体的な機能を説明するための図である。図９は、実施例１に係る第１最適化処理及び第２最適化処理を交互に行う最適化処理手順の一例を示すアルゴリズム１の擬似コードを示す図である。図１０は、比較例に係るすべてのデータ間で共有するハイパーパラメータを用いてデータ拡張を行った場合の問題点を説明するための図である。図１１は、学習処理による識別面の生成を概念的に説明するための図である。図１２Ａは、データ拡張処理を概念的に説明するための図である。図１２Ｂは、学習用データセットに含まれるデータ数が少ない場合における学習処理による識別面の生成の問題点を概念的に説明するための図である。図１２Ｃは、データ拡張処理によりデータ拡張された学習用データセットを用いた学習処理による識別面の生成の一例を概念的に説明するための図である。図１３は、比較例に係るデータ拡張処理における問題点を説明するための図である。図１４は、本開示に係るデータ拡張処理によりデータ拡張された学習用データセットを用いて生成した識別面を概念的に説明するための図である。図１５は、実験例に係る学習用データセットを用いて学習後に、テスト用データセットでエラー率を評価した検証結果を示す図である。図１６は、実験例に係る学習用データセットを用いて学習させたときの精度学習曲線を示す図である。

　本開示の一形態に係るデータ拡張方法は、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法であって、前記ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、前記第１最適化処理では、前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、前記第２最適化処理では、前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新する。

　これによれば、ハイパーパラメータを最適化できるので、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

　より具体的には、ニューラルネットワークの複数のパラメータの最適化を行うニューラルネットワークの学習の過程で、サンプル毎のハイパーパラメータについて偏微分して得た勾配を用いて、データ拡張された学習用データセットとテスト用データセットとの分布のずれを最小化することができる。よって、データ拡張処理によりデータ拡張された学習用データを用いて、ニューラルネットワークを学習させても、学習による識別面の生成を理想的な識別面に近づけることができるように、学習用データセットのサンプル数を増やすことができる。このようにして、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

　さらに、サンプル毎に、ニューラルネットワークの複数のパラメータとデータ拡張処理のハイパーパラメータを交互に最適化を行うことで、サンプル毎のハイパーパラメータの最適化をニューラルネットワークの複数のパラメータの学習とともに行える。よって、ニューラルネットワークの複数のパラメータの最適化とサンプル毎のハイパーパラメータの最適化に要する計算コストを抑制できる。

　ここで、例えば、前記ハイパーパラメータを更新する際、前記学習用データセットに前記データ拡張処理を行うことで得られるデータ拡張後の学習用データセットの分布と、前記評価用データセットの分布とのずれを減らすよう、前記勾配に基づいて前記ハイパーパラメータを更新する。

　これにより、データ拡張された学習用データセットとテスト用データセットとの分布のずれを最小化するように、ハイパーパラメータを更新できる。よって、データ拡張処理によりデータ拡張された学習用データを用いて、ニューラルネットワークを学習させても、学習による識別面の生成を理想的な識別面に近づけることができる。

　また、例えば、前記ハイパーパラメータは、前記データ拡張処理を示す関数において陰関数化され、前記ニューラルネットワークは、完全微分可能な関数であるとしてもよい。

　これにより、陰関数の微分手法を用いることで、ハイパーパラメータについての偏微分を計算することができる。

　また、例えば、前記第１誤差関数を算出する際、前記第１正解ラベルが示す正解値をソフトラベル化して得た第１正解ソフトラベルと、前記第１拡張ラベルとの誤差をカルバックライブラーダイバージェンスを用いて評価する前記第１誤差関数を算出してもよい。

　これにより、データ拡張後に含まれるサンプルに対する正解ラベルのノイズを抑制することができる。よって、サンプル毎のハイパーパラメータについて偏微分して得た勾配を用いて、データ拡張された学習用データセットとテスト用データセットとの分布のずれを最小化するように、サンプル毎のハイパーパラメータを最適化できる。

　また、例えば、前記第１誤差関数を算出する際、前記第１誤差関数に対して、さらに、サンプル毎に算出される重みづけを行ってもよい。

　これにより、サンプルのバイアスを捉えて抑制することができる。よって、サンプル毎のハイパーパラメータについて偏微分して得た勾配を用いて、データ拡張された学習用データセットとテスト用データセットとの分布のずれを最小化するように、サンプル毎のハイパーパラメータを最適化できる。

　また、本開示の一形態に係る学習装置は、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法を行うための学習装置であって、プロセッサと、メモリとを備え、前記プロセッサは、前記メモリを用いて、前記ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、前記第１最適化処理では、前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、前記第２最適化処理では、前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新する。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態）
　以下では、図面を参照しながら、実施の形態に係る学習装置１０の情報処理方法等の説明を行う。

　［１．１　学習装置１０の構成］
　図１は、実施の形態に係る学習装置１０の構成の一例を示すブロック図である。

　学習装置１０は、ニューラルネットワークの学習を行うとともに、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法を行うための装置である。学習装置１０は、ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行う。

　本実施の形態では、学習装置１０は、図１に示すように取得部１１と、データ拡張処理部１２と、ＤＮＮ１３と、誤差算出部１４と、最適化部１５とで構成されている。

　［１．１．１　取得部１１］
　取得部１１は、第１最適化処理において、学習用データセットから、第１サンプルを取得し、データ拡張処理部１２に入力する。ここで、学習用データセットは、例えば画像データなどの複数のサンプルとそれらの正解ラベルとからなる。なお、サンプルは、画像データである場合に限らない。

　また、取得部１１は、第１最適化処理において、学習用データセットから、第１サンプルの正解を示す第１正解ラベルを取得し、誤差算出部１４に入力する。

　また、取得部１１は、第２最適化処理において、評価用データセットから、第２サンプルを取得し、ＤＮＮ１３に入力する。ここで、評価用データセットは、学習済のＤＮＮ１３の性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである。なお、評価用データセットと、テスト用データセットとは異なる。評価用データセットは、既存のデータセットのテスト用データセットを分割することで生成することができる。

　また、取得部１１は、第２最適化処理において、評価用データセットから、第２サンプルの正解を示す第２正解ラベルを取得し、誤差算出部１４に入力する。

　なお、第２最適化処理において、取得部１１は、学習用データセットから、第３サンプルを取得し、データ拡張処理部１２に入力してもよい。この場合、取得部１１は、学習用データセットから、第３サンプルの正解を示す第３正解ラベルを取得し、誤差算出部１４に入力すればよい。第３サンプルは、第１サンプルと異なっていてもよいし同じであってもよい。

　［１．１．２　データ拡張処理部１２］
　データ拡張処理部１２は、第１最適化処理において、学習用データセットに含まれる第１サンプルに、データ拡張処理を行い、第１拡張サンプルを出力する。より具体的には、第１最適化処理において、データ拡張処理部１２は、サンプル毎のデータ変換処理を規定する変数であるハイパーパラメータを用いて、第１サンプルに、データ拡張処理を行う。ハイパーパラメータは、例えば回転処理、ズーム処理、並進処理、色変換処理といったデータの変換処理を規定する変数であり、サンプル毎に規定される。

　本実施の形態では、データ拡張処理部１２は、データ拡張処理を示す関数を、学習用データセットから取得されたサンプルに作用させることで、データ拡張処理を行う。ここで、ハイパーパラメータは、データ拡張処理を示す関数において陰関数化されている。

　ここで、データ拡張処理を示す関数をｇとし、第１サンプルに対するハイパーパラメータをλ_１とする。この場合、データ拡張処理部１２は、第１最適化処理において、ｇ（λ_１）を第１サンプルに作用させることで、第１サンプルのデータ拡張処理を行うことができ、第１拡張サンプルを出力することができる。したがって、データ拡張処理部１２は、第１最適化処理において、第ｉ（ｉは自然数）サンプルに対するハイパーパラメータをλ_ｉとする場合、ｇ（λ_ｉ）を第ｉサンプルに作用させることで、第ｉサンプルのデータ拡張処理を行うことができる。

　なお、第２最適化処理において、データ拡張処理部１２は、取得部１１により第３サンプルが入力される場合、第３サンプルに、データ拡張処理を行い、第３拡張サンプルを出力すればよい。この場合、データ拡張処理部１２は、第２最適化処理において、第３サンプルに対するハイパーパラメータをλ_３とするｇ（λ_３）を第３サンプルに作用させることで、第３サンプルのデータ拡張処理を行うことができるので、第３拡張サンプルを出力することができる。

　［１．１．３　ＤＮＮ１３］
　ＤＮＮ１３は、ＣＮＮなど、複数のパラメータを有するニューラルネットワークにより構成される。ＤＮＮ１３は、第１最適化処理において、取得部１１により入力された第１拡張サンプルから、第１拡張ラベルを予測する。複数のパラメータは、例えば重みであるが、重みに限らない。

　本実施の形態では、ＤＮＮ１３は、第１最適化処理において、ニューラルネットワークによる予測処理を示す関数を、第１拡張サンプルに作用させることで、第１拡張サンプルの正解としての第１拡張ラベルを予測する予測処理を行う。ここで、ニューラルネットワークによる予測処理を示す関数は、完全微分可能な関数である。また、複数のパラメータは、ニューラルネットワークによる予測処理を示す関数において陰関数化されている。

　ここで、ニューラルネットワークによる予測処理を示す関数をｆとし、重みを含む複数のパラメータをθとすると、ＤＮＮ１３は、第１最適化処理において、ｆ（θ）を第１拡張サンプルに作用させることで、第１拡張ラベルを予測することができる。

　また、ＤＮＮ１３は、第１最適化処理により複数のパラメータが更新された後、取得部１１により入力された、評価用データセットに含まれる第２サンプルから、第２ラベルを予測する。換言すると、本実施の形態では、第２最適化処理において、ＤＮＮ１３は、第１最適化処理により複数のパラメータが更新されたｆ（θ）を第２サンプルに作用させることで、第２ラベルを予測する。

　なお、ＤＮＮ１３は、第２最適化処理において、データ拡張処理部１２により第３拡張サンプルが入力された場合、第３拡張サンプルから、第３拡張サンプルの正解としての第３拡張ラベルを予測すればよい。

　［１．１．４　誤差算出部１４］
　誤差算出部１４は、第１最適化処理において、第１拡張ラベルと、学習用データセットに含まれる第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出する。ここでの第１誤差関数は、カルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）というロス関数である。第１誤差関数は、クロスエントロピー誤差関数であってもよい。

　なお、カルバック・ライブラー・ダイバージェンスは、確率論と情報理論とにおける２つの確率分布の差異を計る尺度として用いることができる。つまり、カルバック・ライブラー・ダイバージェンスは、正解分布である確率分布と推定分布である確率分布とがどのくらい似ているかを評価できるロス関数である。

　また、誤差算出部１４は、第１最適化処理において、第１正解ラベルが示す正解値をソフトラベル化して得た第１正解ソフトラベルと、第１拡張ラベルとの誤差をＫＬダイバージェンスを用いて評価する第１誤差関数を算出してもよい。ここで、ソフトラベルは、第１拡張サンプルと正解ラベルの類似度を離散値（ハードラベル）ではなく、割合で表すことを意味する。例えば、ソフトラベルとしては、ガンベルソフトマックス（gumbel-softmax）またはソフトマックス（softmax）を用いることができる。これにより、データ拡張後に含まれるサンプルに対する正解ラベルのノイズを抑制することができる。

　さらに、第１最適化処理では、誤差算出部１４は、算出した第１誤差関数に対して、さらに、サンプル毎に算出される重みづけを行ってもよい。

　また、誤差算出部１４は、第２最適化処理において、第２ラベルと、評価用データセットに含まれる第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出する。ここで、第２誤差関数は、第１誤差関数と同様に、ＫＬダイバージェンスというロス関数であってもよいし、クロスエントロピー誤差関数であってもよい。

　なお、第２最適化処理において、ＤＮＮ１３が、第３拡張サンプルから第３拡張ラベルを予測する場合、第１誤差関数を用いて、第３拡張ラベルと、学習用データセットに含まれる第３サンプルの正解を示す第３正解ラベルとについての誤差を評価すればよい。

　［１．１．５　最適化部１５］
　最適化部１５は、第１最適化処理において、誤差算出部１４により算出された第１誤差関数に基づき、複数のパラメータを更新する。これにより、最適化部１５は、ニューラルネットワークにおける複数のパラメータの最適化を行う第１最適化処理を行うことができる。

　また、最適化部１５は、第２最適化処理において、誤差算出部１４により算出された第２誤差関数を、ハイパーパラメータについて偏微分して得た勾配に基づいて、ハイパーパラメータを更新する。なお、ハイパーパラメータは、陰関数化されているので、陰関数の微分手法を用いることで、ハイパーパラメータについての偏微分を計算することができる。ここで、最適化部１５は、学習用データセットにデータ拡張処理を行うことで得られるデータ拡張後の学習用データセットの分布と、評価用データセットの分布とのずれを減らすよう、勾配に基づいてハイパーパラメータを更新する。これにより、最適化部１５は、第２最適化処理において、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うことができる。

　以上のように構成された学習装置１０は、ニューラルネットワークにおける複数のパラメータに対する第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のハイパーパラメータに対する第２最適化処理とを交互に行う。これにより、データ拡張処理がされた学習用データセットの分布を、テスト用データセットの分布に合わせることができるので、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

　より具体的には、上記のようにしてデータ拡張処理がされたサンプル数が増えた学習用データを用いて、ニューラルネットワークを学習させても、学習による識別面の生成を理想的な識別面に近づけることができるように、学習用データセットのサンプル数を増やすことができる。このようにして、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

　［１．２　学習装置１０のハードウェア構成］
　図２は、実施の形態に係る学習装置１０の機能をソフトウェアにより実現するコンピュータ１０００のハードウェア構成の一例を示す図である。

　コンピュータ１０００は、図２に示すように、入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７、送受信装置１００８およびバス１００９を備えるコンピュータである。入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７および送受信装置１００８は、バス１００９により接続される。

　入力装置１００１は、入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置１００１は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。

　出力装置１００２は、入力装置１００１と兼用されており、タッチパッドまたはタッチパネルディスプレイなどによって構成され、ユーザに知らすべき情報を通知する。

　内蔵ストレージ１００４は、フラッシュメモリなどである。また、内蔵ストレージ１００４は、学習装置１０の機能を実現するためのプログラム、複数のパラメータを有するニューラルネットワーク、ニューラルネットワークによる予測処理を示す関数ｆ及びデータ拡張処理を示す関数ｇなどが予め記憶されていてもよい。

　ＲＡＭ１００５は、ランダムアクセスメモリ（Random Access Memory）であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。

　読取装置１００７は、ＵＳＢ（Universal Serial Bus）メモリなどの記録媒体から情報を読み取る。読取装置１００７は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラム、アプリケーションを読み取り、内蔵ストレージ１００４に記憶させる。

　送受信装置１００８は、無線又は有線で通信を行うための通信回路である。送受信装置１００８は、例えばネットワークに接続されたサーバ装置またはクラウドと通信を行い、サーバ装置またはクラウドから上記のようなプログラム、アプリケーションをダウンロードして内蔵ストレージ１００４に記憶させてもよい。

　ＣＰＵ１００３は、中央演算処理装置（Central Processing Unit）であり、内蔵ストレージ１００４に記憶されたプログラム、アプリケーションをＲＡＭ１００５にコピーし、そのプログラムやアプリケーションに含まれる命令をＲＡＭ１００５から順次読み出して実行する。なお、内蔵ストレージ１００４から直接実行しても良い。

　［１．３　学習装置１０の動作］
　次に、上記のように構成された学習装置１０の動作について説明する。

　図３は、実施の形態に係る学習装置１０の動作概要を示すフローチャートである。

　まず、学習装置１０は、ニューラルネットワークにおける複数のパラメータの最適化を行う第１最適化処理を行う（Ｓ１１）。次に、学習装置１０は、データ拡張処理を行う際に用いるサンプル毎のハイパーパラメータの最適化を行う第２最適化処理を行う（Ｓ１２）。次に、学習装置１０は、処理を終了させるかを判定する（Ｓ１３）。学習装置１０は、例えば既定の回数（エポック回数）だけ第１最適化処理及び第２最適化処理を行った場合、処理を終了させると判定し（Ｓ１３でＹｅｓ）、本動作を終了させる。一方、学習装置１０は、例えば既定の回数（エポック回数）まで第１最適化処理及び第２最適化処理を行っていない場合、処理を終了させないと判定し（Ｓ１３でＮｏ）、ステップＳ１１の処理から繰り返す。

　図４は、図３に示す第１最適化処理の詳細動作を示すフローチャートである。

　第１最適化処理において、まず、学習装置１０は、学習用データセットに含まれる第１サンプルに、データ拡張処理を行い、第１拡張サンプルを取得する（Ｓ１１１）。ここで、学習装置１０は、サンプル毎のデータ変換処理を規定する変数であるハイパーパラメータを用いて、第１サンプルに、データ拡張処理を行う。例えば、データ拡張処理を示す関数をｇとし、第１サンプルに対するハイパーパラメータをλ_１とすると、学習装置１０は、ｇ（λ_１）を第１サンプルに作用させることで、第１サンプルに対してデータ拡張処理を行った第１拡張サンプルを取得する。

　次に、学習装置１０は、ニューラルネットワークに、ステップＳ１１１で取得した第１拡張サンプルから、第１拡張ラベルを予測させる（Ｓ１１２）。例えば、ニューラルネットワークによる予測処理を示す関数をｆとし、重みを含む複数のパラメータをθとすると、学習装置１０は、ｆ（θ）を第１拡張サンプルに作用させることで、ニューラルネットワークに、第１拡張ラベルを予測させる。

　次に、学習装置１０は、ステップＳ１１２で予測させた第１拡張ラベルと、学習用データセットに含まれる第１サンプルの第１正解ラベルとについての誤差を評価するための第１誤差関数を算出する（Ｓ１１３）。ここで、第１誤差関数は、例えばＫＬダイバージェンスというロス関数である。なお、上述したように、学習装置１０は、第１正解ラベルが示す正解値をソフトラベル化して得た第１正解ソフトラベルと、第１拡張ラベルとの誤差をＫＬダイバージェンスを用いて評価する第１誤差関数を算出してもよい。学習装置１０は、さらに、算出した第１誤差関数に対して、さらに、サンプル毎に算出される重みづけを行ってもよい。

　次に、学習装置１０は、ステップＳ１１３で算出した第１誤差関数に基づき、複数のパラメータを更新する（Ｓ１１４）。

　このようにして、学習装置１０は、初期または第２最適処理後のデータ拡張処理により水増しされた学習用データセットを用いて、ニューラルネットワークにおける重みなどの複数のパラメータの最適化を行う第１最適化処理を行うことができる。

　図５は、図３に示す第２最適化処理の詳細動作を示すフローチャートである。

　第２最適化処理において、まず、学習装置１０は、テスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得する（Ｓ１２１）。

　次に、学習装置１０は、第１最適化処理において複数のパラメータが更新されたニューラルネットワークに、第２サンプルから、第２ラベルを予測させる（Ｓ１２２）。例えば、ニューラルネットワークによる予測処理を示す関数をｆとし、重みを含む複数のパラメータをθとすると、学習装置１０は、ｆ（θ）を第２サンプルに作用させることで、ニューラルネットワークに、第２ラベルを予測させる。

　次に、学習装置１０は、ステップＳ１２２で予測させた第２ラベルと、評価用データセットに含まれる第２サンプルの第２正解ラベルとの誤差を評価するための第２誤差関数を算出する（Ｓ１２３）。ここで、第２誤差関数は、例えばＫＬダイバージェンスというロス関数であるが、クロスエントロピー誤差関数であってもよい。

　次に、学習装置１０は、ステップＳ１２３で算出した第２誤差関数を、ハイパーパラメータについて偏微分して得た勾配に基づいて、ハイパーパラメータを更新する（Ｓ１２４）。ここで、学習装置１０は、学習用データセットにデータ拡張処理を行うことで得られるデータ拡張後の学習用データセットの分布と、評価用データセットの分布とのずれを減らすよう、勾配に基づいてハイパーパラメータを更新する。

　このようにして、学習装置１０は、評価用データセットを用いて、データ拡張処理を行う際に用いるサンプル毎のハイパーパラメータの最適化を行う第２最適化処理を行うことができる。

　（実施例１）
　以下、本実施の形態の実施例１について説明する。

　図６は、実施例１に係る第１最適化処理及び第２最適化処理を交互に行う処理例を概念的に説明するための図である。

　Process１２ａは、データ拡張処理部１２が行うデータ拡張処理機能を示し、ｇ（λ_ｉ）は、当該データ拡張処理を示す関数であってハイパーパラメータλ_ｉが陰関数化された関数を示している。図６に示す例では、第１最適化処理において、Process１２ａは、学習用データセットからサンプル（ｘ_ｉ、ｙ_ｉ）を取得し、サンプル（ｘ_ｉ）に対して、ハイパーパラメータλ_ｉでデータ拡張処理を行う。そして、Process１２ａは、データ拡張処理により得た拡張サンプルｇ（ｘ_ｉ、ｙ_ｉ、λ_ｉ）をＤＮＮ１３ａに出力する。

　ＤＮＮ１３ａは、ＤＮＮ１３の複数のパラメータθを有するニューラルネットワークを示し、ｆ（θ）は、当該ニューラルネットワークによる予測処理を示す関数を示している。図６に示す例では、第１最適化処理において、Process１２ａから出力された拡張サンプルｇ（ｘ_ｉ、ｙ_ｉ、λ_ｉ）を用いて、ＤＮＮ１３ａのニューラルネットワークが学習されることが示されている。

　また、図６に示す例では、第２最適化処理において、評価用データセットからサンプル（ｘ_ｉ ^ｖ、ｙ_ｉ ^ｖ）を取得し、サンプル（ｘ_ｉ ^ｖ）をＤＮＮ１３ａに入力する。ＤＮＮ１３ａは、サンプル（ｘ_ｉ ^ｖ）に対して、関数ｆ（θ）を作用させて、予測処理を行う。そして、ＤＮＮ１３ａは、予測処理により得たサンプル（ｘ_ｉ ^ｖ）に対する正解ラベルを出力する。

　AutoDO１５ａは、最適化部１５が行う第２最適化処理機能を示し、∂L_v/∂λは、ＤＮＮ１３ａの予測処理の結果に基づき算出した誤差関数Ｌ_ｖのハイパーパラメータλについて微分（偏微分）して得た勾配を示す。より具体的には、第２最適化処理では、予測処理により得たサンプル（ｘ_ｉ ^ｖ）に対する正解ラベルと評価用データセットから取得したサンプル（ｘ_ｉ ^ｖ）の正解ラベル（ｙ_ｉ ^ｖ）とについての誤差関数Ｌ_ｖを算出する。そして、AutoDO１５ａは、算出した誤差関数Ｌ_ｖを、λ_ｉについて偏微分して得た勾配に基づいて、λ_ｉを更新することで、ハイパーパラメータλを最適化する。

　図７Ａは、実施例１に係る評価用データセットの一例を示す図である。図７Ｂは、実施例１に係る学習用データセットの一例を示す図である。

　図７Ａに示す評価用データセットのサンプルは、桁数１，６，７，９の画像データである。図７Ａには、学習済のＤＮＮ１３ａの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットのサンプルが例示されている。

　一方、図７Ｂに示す学習用データセットのサンプルは、桁数０，０，１，２、６、９等の画像データである。図７Ｂには、バイアスが含まれたサンプルと、サンプルに対する正解ラベルにノイズ（ラベルノイズ）が含まれていることが例示されている。

　図８Ａは、実施例１に係る第１最適化処理を行うための機能例を概念的に説明するための図である。図８Ｂは、図８Ａに示すLOSS１４ｂの具体的な機能を説明するための図である。

　Data Sampler１１ｂは、第１最適化処理において取得部１１が行う取得処理機能を示し、ｉ～Ｕ（１、Ｎ）で示される学習用データセットから、サンプルｘ_ｉを取得する。

　Augment１２ｂは、第１最適化処理においてデータ拡張処理部１２が行うデータ拡張処理機能を示し、ｇ^Ａ（λ^Ａ）は、当該データ拡張処理を示す関数であってハイパーパラメータλ^Ａが陰関数化された関数を示している。図８Ａに示す例では、Augment１２ｂにおけるｇ^Ａ（λ^Ａ）は、第２最適化処理において勾配∂L_v/∂λによりハイパーパラメータλ^Ａが更新されている。

　Augment１２ｂは、Data Sampler１１ｂにより取得されたサンプルｘ_ｉに対して、ｇ^Ａ（λ^Ａ）を作用させてデータ拡張処理を行う。そして、Data Sampler１１ｂは、データ拡張処理により得た拡張サンプルｘ_ｉ ^ＡをＤＮＮ１３ｂに出力する。

　ＤＮＮ１３ｂは、ＤＮＮ１３の複数のパラメータθを有するニューラルネットワークを示し、ｆ（θ）は、当該ニューラルネットワークによる予測処理を示す関数を示している。図８Ａに示す例では、第１最適化処理において、ＤＮＮ１３ｂは、Augment１２ｂから出力された拡張サンプルｘ_ｉ ^Ａに対して、ｆ（θ）を作用させてデータ予測処理を行う。そして、ＤＮＮ１３ｂは、予測処理により得た拡張サンプルｘ_ｉ ^Ａに対する正解ラベル

を出力する。

　LOSS１４ｂは、第１最適化処理における誤差関数（第１誤差関数）を算出する処理機能を示す。ｇ_ｓ,ｗ（λ^ｓ,ｗ）は、サンプルのバイアスを捉えるためのサンプル毎の重み（損失重み）と、ノイズの多い正解ラベルに対応するためのソフトラベルとを用いた第１最適化処理における誤差関数（第１誤差関数）を示す。λ^ｓ、ｗは、損失重みとソフトラベルのハイパーパラメータを示し、陰関数化されている。

　なお、ハイパーパラメータλ^ｓ、ｗは、第２最適化処理において勾配∂L_v/∂λにより更新されている。

　より詳細には、LOSS１４ｂは、図８Ｂに示すように、Soft-label１４１と、Weight KL Div１４２と、Reweight１４３との機能を有する。

　Soft-label１４１は、例えば、ガンベルソフトマックスまたはソフトマックスを用いて、入力された正解ラベルが示す正解値をソフトラベル化して、出力する。ｇ_ｓ（λ^ｓ）は、ノイズの多い正解ラベルに対応するためのソフトラベル化処理する関数を示し、ハイパーパラメータλ^ｓが陰関数化されている。

　図８Ｂに示す例では、Soft-label１４１は、ｉ～Ｕ（１、Ｎ）で示される学習用データセットから、サンプルｘ_ｉに対する正解ラベルｙ_ｉが入力され、入力された示す正解ラベルｙ_ｉをソフトラベル化する。Soft-label１４１は、ソフトラベル化したソフトラベルｙ_ｉ ^ｓをWeight KL Div１４２に出力する。ここで、例えば、Soft-label１４１は、y_i ^s ₌g_s(y_i、λ_i ^s)=softmax(λ_i ^S)の式を用いて正解ラベルｙ_ｉからサンプル毎のソフトラベルｙ_ｉ ^ｓを算出する。ここで、λ_ｉ ^Ｓは、サンプル毎のソフトラベルのハイパーパラメータであり、陰関数化されている。

　Weight KL Div１４２は、サンプル毎の重み（損失重み）と、ノイズの多い正解ラベルに対応するためのソフトラベルとを用いた第１最適化処理における誤差関数（第１誤差関数）を算出する。より具体的には、Weight KL Div１４２は、Soft-label１４１により出力されたソフトラベルｙ_ｉ ^ｓとＤＮＮ１３ｂにより出力された正解ラベル

との誤差を評価するＫＬダイバージェンスである第１誤差関数Ｌを算出する。そして、Weight KL Div１４２は、算出したReweight１４３により算出された重みｗ_ｉ（スカラ量）でかけることで、重み付けされた第１誤差関数

を算出する。

　Reweight１４３は、softplusなどの活性化関数を用いて、サンプルのバイアスを捉えるためのサンプル毎の重みｗ_ｉを算出する。ｇ_ｗ（λ^ｗ）は、サンプルのバイアスを捉えるための誤差関数Ｌに重み付けされるサンプル毎の重み（損失重み）を算出する関数を示す。

　図８Ｂに示す例では、Reweight１４３は、g_w(L_i、λ_i ^w)=w_iL_iの式における重みｗ_ｉを算出し、Weight KL Div１４２に出力する。例えばReweight１４３は、w_i=1.44×softplus（λ_i ^W）の式を用いてサンプル毎の重みｗ_ｉを算出する。ここで、λ_ｉ ^Ｗは、サンプル毎の重み（損失重み）のハイパーパラメータであり、陰関数化されている。

　第１最適化処理において、上記のように算出された重み付けされた第１誤差関数

を用いて、ＤＮＮ１３ｂの複数のパラメータθを更新することができる。

　続いて、図９を用いて、実施例１に係る第１最適化処理及び第２最適化処理を交互に行う最適化処理手順について説明する。

　図９は、実施例１に係る第１最適化処理及び第２最適化処理を交互に行う最適化処理手順の一例を示すアルゴリズム１の擬似コードを示す図である。なお、図９に示されるλなどの変数、ｆ（θ）などの関数は、図８Ａ及び図８Ｂで説明した通りである。図９では、上記における学習用データセットのサンプルをデータと称して表現されている。

　図９に示すアルゴリズム１は、例えば学習装置１０のプロセッサにより行われる。

　図９に示すように、１行目の手順では、パラメータθとハイパーパラメータλとの初期化が行われることが規定されている。

　２行目では、３行目～１９行目の手順すなわち第１最適化処理及び第２最適化処理がエポック回数まで繰り返されることが規定されている。

　３行目では、４行目～９行目の手順すなわち第１最適化処理がバッチ個数まで繰り返されることが規定されている。

　４行目では、学習用データセットD_trainからバッチがサンプリングされることが規定されている。なおバッチとは、学習用データセットを幾つかのサブセットに分けたときのサブセットに含まれるデータ（上記でのサンプル）に該当する。

　５行目では、サンプリングされたデータｘがデータ拡張処理されることが規定されている。

　６行目では、５行目においてデータ拡張処理されたデータｘ^Ａから正解ラベルが予測されることが規定されている。

　７行目では、４行目で学習用データセットD_trainからサンプリングされたデータｘに対する正解ラベルであって学習用データセットD_trainから取得された正解ラベルのソフトラベルが生成されることが規定されている。

　８行目では、重み付き誤差関数がＫＬダイバージェンスで計算され、パラメータθで微分（∇_θ）されることが規定されている。

　９行目では、ニューラルネットワークによる予測処理を示す関数ｆ（θ）のパラメータθが更新されることが規定されている。

　１０行目では、エポック回数がＥ回数を超えていたら、１１行目以降の処理を行われることが規定されている。

　１１行目では、１２行目～１９行目の手順すなわち第２最適化処理がバッチ個数まで繰り返されることが規定されている。

　１２行目では、学習用データセットD_trainからバッチがサンプリングされることが規定されている。

　１３行目では、評価用データセットD_valからバッチがサンプリングされることが規定されている。

　１４行目では、１３行目でサンプリングされた評価用データセットD_valのデータＸ^ｖから正解ラベルが予測されることが規定されている。

　１５行目では、１２行目でサンプリングされた学習用データセットD_trainのデータがデータ拡張処理されたデータＸ^Ａから正解ラベルが予測されることが規定されている。

　１６行目では、１２行目で学習用データセットD_trainからサンプリングされたデータｘに対する正解ラベルであって学習用データセットD_trainから取得された正解ラベルのソフトラベルが生成されることが規定されている。

　１７行目及び１８行目では、１８行目に示される誤差関数Ｌ_ｖと誤差関数Ｌとが計算され、誤差関数Ｌ_ｖをハイパーパラメータλで微分（∇_λ）されることが規定されている。ここで、誤差関数Ｌ_ｖは、評価用データセットD_valのデータと１４行目で予測されたその正解ラベルとの誤差を評価する誤差関数である。誤差関数Ｌは、１６行目において生成されたソフトラベルと１５行目において予測されたデータ拡張処理されたデータＸ^Ａの正解ラベルとの誤差を評価する誤差関数に重みが付されたものである。

　１８行目では、ハイパーパラメータλが更新されることが規定されている。なお、１９行目に示されるＨＯは、hyperparameter optimizationの略語である。

　このように規定されるアルゴリズム１を実行することで、第１最適化処理及び第２最適化処理を交互に行うことができる。

　［１．４　効果等］
　以上のように、本実施の形態に係る学習装置１０及びデータ拡張方法によれば、ハイパーパラメータを最適化できるので、高精度なＡＩモデルを獲得できるように学習用データセットのサンプル数を増やすことができる。

　ところで、従来、データ拡張処理を行うためには学習用データセットの変換方法を定める大規模なハイパーパラメータを調整する必要があった。また、データの分布の偏り及び正解ラベルの不正確さを含む不完全な学習用データセットを用いて、ニューラルネットワークの複数のパラメータを学習させても、高精度なＡＩモデルを獲得できないという問題もある。したがって、ニューラルネットワークの学習のための計算と、データ拡張処理を行うために学習用データセットの大規模なハイパーパラメータを最適化する計算といった２重の最適化計算が必要になる。このため、多大な計算コストを要しないとハイパーパラメータを最適化できなかった。

　これに対して、本実施の形態に係る学習装置１０及びデータ拡張方法によれば、サンプル毎に、ニューラルネットワークの複数のパラメータとデータ拡張処理のハイパーパラメータを交互に最適化を行うことで、サンプル毎のハイパーパラメータの最適化をニューラルネットワークの複数のパラメータの学習とともに行える。よって、ニューラルネットワークの複数のパラメータの最適化とサンプル毎のハイパーパラメータの最適化に要する計算コストを抑制できるという効果も奏する。

　ここで、本実施の形態に係る学習装置１０及びデータ拡張方法では、学習用データセットにデータ拡張処理を行うことで得られるデータ拡張後の学習用データセットの分布と、評価用データセットの分布とのずれを減らすよう、勾配に基づいてハイパーパラメータを更新する。

　また、本実施の形態に係る学習装置１０及びデータ拡張方法では、ハイパーパラメータは、少なくともデータ拡張処理を示す関数において陰関数化され、ニューラルネットワークは、完全微分可能な関数である。これにより、陰関数の微分手法を用いることで、ハイパーパラメータについての偏微分を計算することができる。

　また、本実施の形態に係る学習装置１０及びデータ拡張方法では、ノイズの多い正解ラベルに対応するためのソフトラベルを用いた第１最適化処理における第１誤差関数を算出する。これにより、データ拡張後に含まれるサンプルに対する正解ラベルのノイズを抑制することができる。よって、サンプル毎のハイパーパラメータについて偏微分して得た勾配を用いて、データ拡張された学習用データセットとテスト用データセットとの分布のずれを最小化するように、サンプル毎のハイパーパラメータを最適化できる。

　また、本実施の形態に係る学習装置１０及びデータ拡張方法では、算出した第１誤差関数に対して、サンプルのバイアスを捉えるためのサンプル毎の重みを用いて重み付けする。

　（比較例）
　以下、比較例に係るデータ拡張方法とその問題点について説明する。

　図１０は、比較例に係るすべてのデータ間で共有するハイパーパラメータを用いてデータ拡張を行った場合の問題点を説明するための図である。

　図１０では、すべてのデータ間で共有するハイパーパラメータλを用いたデータ拡張処理ｇ（λ）でデータ拡張された学習用データセットを用いて、ニューラルネットワークｆ（θ）を学習させたときの識別面（識別線）が示されている。また、図１０では、中心の点線四角の識別面より上方領域及び下方領域での一番小さい実線の円は、学習用データの分布を概念的に示している。また、上方領域及び下方領域での点線の円は、データ拡張処理ｇ（λ）でデータ拡張された学習用データセットの分布を概念的に示している。点線四角における大きい実線の円は、テスト用データセットの分布を概念的に示している。

　図１０に示す比較例に係るデータ拡張処理ｇ（λ）でデータ拡張された場合、学習用データセットのすべてのデータすなわち数字の分布が均等に増加される。このようにデータ拡張された学習用データセットを用いて学習されて得た識別面は、テスト用データセットの一部を横切っているため、テスト用データセットを正しく識別できないという問題がある。

　つまり、比較例に係るデータ拡張方法では、学習による識別面の生成が理想的な境界線から大きく外れてしまうという問題がある。なお、この問題は、学習用データセットの分布に応じてデータ拡張されるための生じていると考えられる。

　以下、比較例に係るデータ拡張の問題について具体的に説明する。

　図１１は、学習処理による識別面の生成を概念的に説明するための図である。図１１に示すように、分類問題において、ＡＩは、種々の犬または猫の画像とそれらの正解ラベルからなる学習用データセットを用いて学習処理が行われると、特徴抽出して識別面ｄ_１を生成する。識別面ｄ_１の生成は、図１１からわかるように、概念的には犬と猫とを見分ける境界線を引くことに該当する。

　図１２Ａは、データ拡張処理を概念的に説明するための図である。

　図１２Ａに示すように、学習用データセットのデータ拡張処理は、学習用データセットのデータに対して回転処理、ズーム処理、並進処理、色変換処理などの変換処理を行うことで、学習用データセットを構成するデータを擬似的に増加、水増しさせる処理である。

　図１２Ｂは、学習用データセットに含まれるデータ数が少ない場合における学習処理による識別面の生成の問題点を概念的に説明するための図である。図１２Ｃは、データ拡張処理によりデータ拡張された学習用データセットを用いた学習処理による識別面の生成の一例を概念的に説明するための図である。

　図１２Ｂに示すように、学習用データセットに含まれるデータ数が少ない場合には、犬と猫のデータ間の隙間が大きいため、ＡＩは、識別面ｄ_１、ｄ_２、ｄ_３で示されるように、犬と猫とを見分ける境界線をどこに引けばわからない。

　一方、図１２Ｃに示すように、データ拡張処理により適切にデータ拡張された場合、図１２Ｂに示される隙間をデータ拡張されたデータを擬似的に埋めることができるため、ＡＩは、識別面ｄ_１で示されるように、犬と猫とを見分ける境界線が引きやすくなる。

　続いて、データ拡張処理における課題について説明する。

　図１３は、比較例に係るデータ拡張処理における問題点を説明するための図である。図１３には、データ拡張をうまくしないと学習により生成される識別面の位置が理想的な識別面からずれてしまうことが示されている。

　すなわち、図１３では、猫のデータ５１をデータ拡張することで、データ拡張後の猫のデータに関する学習用データセットの分布が分布Ｑ_１となっている。同様に、犬のデータ５２をデータ拡張することで、データ拡張後の犬のデータに関する学習用データセットの分布が分布Ｑ_２となっている。このような場合、ＡＩは、データ拡張後の学習用データセットを学習することで、理想的な識別面ｄ_４での位置からずれた位置の識別面ｄ_５を生成してしまう。すると、テスト用データセットである犬の画像５０がデータ拡張後の犬のデータに関する学習用データセットの分布Ｑ_２から外れた位置にある場合、ＡＩは、テスト用データセットである犬の画像５０に対しては、猫と識別してしまうことになる。

　このように、学習用データセットの分布に応じてデータ拡張する場合、学習により生成される識別面の位置が理想的な識別面からずれてしまう場合がある。

　図１４は、本開示に係るデータ拡張処理によりデータ拡張された学習用データセットを用いて生成した識別面を概念的に説明するための図である。

　本開示では、テスト用データセットの分布に合わせるように、学習用データセットをデータ拡張処理する。より具体的には、猫のデータ５１を猫についてのテスト用データセットの分布Ｑ_ｔ１に合わせるようにデータ拡張することで、データ拡張後の猫のデータに関する学習用データセットの分布を、分布Ｑ_３となるようにすることができる。同様に、犬のデータ５２を猫についてのテスト用データセットの分布Ｑ_ｔ２に合わせるようにデータ拡張することで、データ拡張後の犬のデータに関する学習用データセットの分布を、分布Ｑ_４となるようにすることができる。

　これにより、ＡＩは、理想的な識別面ｄ_４での位置に近い位置の識別面ｄ_６を生成することができる。

　（実験例）
　本開示のデータ拡張方法の効果について、The Street View House Numbers (SVHN) Datasetを用いて検証を行ったので、その検証結果を実験例として説明する。

　図１５は、実験例に係る学習用データセットを用いて学習後に、テスト用データセットでエラー率を評価した検証結果を示す図である。

　ＳＶＨＮデータセットには、６００，０００桁を超える画像といった大量のラベル付きデータが組み込まれている。ＳＶＨＮデータセットは、７３，２５７桁の学習用データセットと、２６，０３２桁のテスト用データセットとで構成されている。また、ＳＶＨＮデータセットには、追加の学習用データとして使用できる５３１，１３１のやや難易度の低いサンプルが追加されている。

　なお、本実験例では、ＳＶＨＮデータセットの学習用データセットの３２％を分割して評価用データセットとした。

　また、本実験例では、学習用データセットとして、データの偏り及びラベルノイズのない学習用データセットと、データの偏りまたはラベルノイズのある学習用データセットを用いて検証した。図１５では、データの偏りを示すクラスインバランス比（ＩＲ）とラベルノイズ比（ＮＲ）とにより、データの偏りの有無、ラベルノイズの有無を示している。なお、ＳＶＨＮデータセットの学習用データセットは、データの偏り及びラベルノイズのない学習用データセットに該当する。

　例えば、ＩＲ－ＮＲが「１００－０．１」である場合、全画像データのうちのランダムな１０％（ＮＲ＝０．１）の画像データがランダムに反転され、ラベルノイズがあることを意味する。また、例えば｛０～４｝を示す画像データの数が｛５～９｝を示す画像データの数の１００倍となっており、クラスのサンプル数が不均一すなわちデータに偏りがあることを意味する。

　したがって、図１５において、ＩＲ－ＮＲが「１－０．０」である学習用データセットは、データの偏り及びラベルノイズのない学習用データセットに該当する。ＩＲ－ＮＲが「１００－０．０」である学習用データセットは、データの偏りはあるがラベルノイズのない学習用データセットに該当する。同様に、ＩＲ－ＮＲが「１－０．１」である学習用データセットは、データの偏りはないが、ラベルノイズがある学習用データセットに該当する。ＩＲ－ＮＲが「１００－０．１」である学習用データセットは、データの偏り及びラベルノイズのある学習用データセットに該当する。

　また、図１５において、λ^Ａ（ｏｕｒｓ）、λ^Ａ、Ｗ（ｏｕｒｓ）、λ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）は、本開示のデータ拡張方法を示す。本開示のデータ拡張方法としては、図９に示すアルゴリズム１を用いて学習処理すなわち第１最適化処理及び第２最適化処理が行われた。第２最適化処理は、５０回目のエポックの後に開始した。

　また、図１５において、λ^Ａ（ｏｕｒｓ）は、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータλ^Ａのみに対して最適化されたことを示している。また、λ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）は、データ拡張処理と損失重みとソフトラベルのハイパーパラメータに対して最適化されたことを示している。λ^Ａ、Ｗ（ｏｕｒｓ）は、データ拡張処理と損失重みとのハイパーパラメータに対して最適化されたことを示している。これらの最適化処理は、図９に示すアルゴリズム１を用いて行った。

　なお、図１５では、比較例としてのλ^ＡＳＨＡ（ｏｕｒｓ）の検証結果が示されている。図１５において、λ^ＡＳＨＡ（ｏｕｒｓ）は、データ毎ではなくすべてのデータ間で共有するハイパーパラメータλ^ＡＳＨＡに対して最適化されたことを示している。

　さらに、図１５では、比較例としてBaselineとＦＡＡとの検証結果も示されている。より具体的には、Baselineは、非特許文献１に記載される方法すなわちランダムクロッピング、水平反転、消去などの標準的な変換処理のみを用いてデータ拡張処理をする場合の検証結果を示している。FAA（Fast AutoAugment）は、非特許文献２に記載される方法でデータ拡張処理をする場合の検証結果を示している。

　図１５からわかるように、データの偏りまたはラベルノイズのある学習用データセットを用いる場合、λ^ＡＳＨＡ、Baseline、FAAの検証結果と比較すると、λ^Ａ（ｏｕｒｓ）及びλ^Ａ、Ｗ（ｏｕｒｓ）の検証結果は同等程度かそれ以下のエラー率（トップ１エラー率）を達成している。

　さらに、λ^ＡＳＨＡ、Baseline、FAAの検証結果と比較すると、λ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）の検証結果は、学習用データセットにデータの偏りの有無、ラベルノイズの有無に関わらず、改善されたエラー率（トップ１エラー率）を達成している。

　以上から、ハイパーパラメータλ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）に対して最適化だけでなくハイパーパラメータλ^Ａ（ｏｕｒｓ）に対して最適化も有効であることがわかる。

　図１６は、実験例に係る学習用データセットを用いて学習させたときの精度学習曲線を示す図である。図１６では、ＩＲ－ＮＲが「１－０．０」である学習用データセットを用いて学習させたときの精度学習曲線（ｃ）が示されている。なお、図１６において、上記のλ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）に対する最適化処理がAutoDOに該当し、上記のλ^{Ａ、Ｗ、Ｓ}（ｏｕｒｓ）に対する最適化処理（本開示のデータ拡張方法）のうち、第２最適化処理の開始がAutoDO startとして示されている。また、AutoDO startは、５０回目のエポックの後に開始されている。

　なお、図１６では、比較例として、上記のBaselineとFAAとを実験例に係る学習用データセットを用いて学習させたときの精度学習曲線（ａ）、（ｂ）も示されている。

　図１６からわかるように、本開示のデータ拡張方法は、AutoDOすなわち第２最適化処理を開始しないと性能向上しないのがわかる。また、本開示のデータ拡張方法は、AutoDOすなわち第２最適化処理を行うことにより、ハイパーパラメータλ^{Ａ、Ｗ、Ｓ}を有効に最適化でき、性能が急激に向上することがわかる。

　（他の実施態様の可能性）
　以上、実施の形態において本開示のデータ拡張方法及び学習装置について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなどによって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。

　なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

　また、本開示は、さらに、以下のような場合も含まれる。

　（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Blu-ray(登録商標) Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

　また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

　また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムに従って動作するとしてもよい。

　また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　本開示は、ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法、学習装置およびプログラムに利用でき、特に計算コストを抑制してニューラルネットワークの学習とサンプル毎のハイパーパラメータの最適化とを行うことができるデータ拡張方法、学習装置およびプログラムに利用できる。

　１０　　学習装置
　１１　　取得部
　１１ｂ　　Data Sampler
　１２　　データ拡張処理部
　１２ａ　　Process
　１２ｂ　　Augment
　１４　　誤差算出部
　１５　　最適化部
　１５ａ　　AutoDO
　１４１　　Soft-label
　１４２　　Weight KL Div
　１４３　　Reweight
　１０００　　コンピュータ
　１００１　　入力装置
　１００２　　出力装置
　１００４　　内蔵ストレージ
　１００７　　読取装置
　１００８　　送受信装置
　１００９　　バス

Claims

　ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法であって、
　前記ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、
　前記第１最適化処理では、
　前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、
　前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、
　前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、
　算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、
　前記第２最適化処理では、
　前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、
　前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、
　前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、
　算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新する、
　データ拡張方法。
　前記ハイパーパラメータを更新する際、
　前記学習用データセットに前記データ拡張処理を行うことで得られるデータ拡張後の学習用データセットの分布と、前記評価用データセットの分布とのずれを減らすよう、前記勾配に基づいて前記ハイパーパラメータを更新する、
　請求項１に記載のデータ拡張方法。
　前記ハイパーパラメータは、前記データ拡張処理を示す関数において陰関数化され、
　前記ニューラルネットワークは、完全微分可能な関数である、
　請求項１または２に記載のデータ拡張方法。
　前記第１誤差関数を算出する際、前記第１正解ラベルが示す正解値をソフトラベル化して得た第１正解ソフトラベルと、前記第１拡張ラベルとの誤差をカルバックライブラーダイバージェンスを用いて評価する前記第１誤差関数を算出する、
　請求項１～３のいずれか１項に記載のデータ拡張方法。
　前記第１誤差関数を算出する際、前記第１誤差関数に対して、さらに、サンプル毎に算出される重みづけを行う、
　請求項１～４のいずれか１項に記載のデータ拡張方法。
　ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法を行うための学習装置であって、
　プロセッサと、メモリとを備え、
　前記プロセッサは、前記メモリを用いて、
　前記ニューラルネットワークにおける、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、
　前記第１最適化処理では、
　前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、
　前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、
　前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、
　算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、
　前記第２最適化処理では、
　前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、
　前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、
　前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、
　算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新する、
　学習装置。
　ニューラルネットワークの学習に用いる学習用データセットのデータ拡張方法をコンピュータに実行させるプログラムであって、
　前記ニューラルネットワーク、重みを含む複数のパラメータの最適化を行うための第１最適化処理と、データ拡張処理を行う際に用いるサンプル毎のデータ変換処理を規定する変数であるハイパーパラメータの最適化を行うための第２最適化処理とを交互に行い、
　前記第１最適化処理では、
　前記学習用データセットに含まれる第１サンプルに、前記データ拡張処理を行わせることで、第１拡張サンプルを取得し、
　前記ニューラルネットワークに、前記第１拡張サンプルから、第１拡張ラベルを予測させ、
　前記第１拡張ラベルと、前記学習用データセットに含まれる前記第１サンプルの正解を示す第１正解ラベルとについての誤差を評価するための第１誤差関数を算出し、
　算出した前記第１誤差関数に基づき、前記複数のパラメータを更新し、
　前記第２最適化処理では、
　前記ニューラルネットワークの性能を評価するためのテスト用データセットの分布に類似した分布のデータセットである評価用データセットから、第２サンプルを取得し、
　前記複数のパラメータが更新された前記ニューラルネットワークに、前記第２サンプルから、第２ラベルを予測させ、
　前記第２ラベルと、前記評価用データセットに含まれる前記第２サンプルの正解を示す第２正解ラベルとの誤差を評価するための第２誤差関数を算出し、
　算出した前記第２誤差関数を、前記ハイパーパラメータについて偏微分して得た勾配に基づいて、前記ハイパーパラメータを更新することを、
　コンピュータに実行させるプログラム。