JP2020177582A - 学習装置、学習方法、プログラムおよび認識装置 - Google Patents

学習装置、学習方法、プログラムおよび認識装置 Download PDF

Info

Publication number
JP2020177582A
JP2020177582A JP2019081223A JP2019081223A JP2020177582A JP 2020177582 A JP2020177582 A JP 2020177582A JP 2019081223 A JP2019081223 A JP 2019081223A JP 2019081223 A JP2019081223 A JP 2019081223A JP 2020177582 A JP2020177582 A JP 2020177582A
Authority
JP
Japan
Prior art keywords
inference
input data
neural network
noise
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019081223A
Other languages
English (en)
Other versions
JP7106486B2 (ja
Inventor
修平 新田
Shuhei Nitta
修平 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2019081223A priority Critical patent/JP7106486B2/ja
Priority to US16/798,853 priority patent/US11640530B2/en
Publication of JP2020177582A publication Critical patent/JP2020177582A/ja
Application granted granted Critical
Publication of JP7106486B2 publication Critical patent/JP7106486B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットワークの過学習をより抑制する。【解決手段】学習装置は、取得部と、推論部と、更新部と、を備える。取得部は、入力データと、入力データによる推論の正解を示す対象ラベルと、を取得する。推論部は、入力データをニューラルネットワークに入力したときの推論結果に対する入力データに含まれる複数の要素の寄与度に基づいたノイズを、入力データ、および、ニューラルネットワークの中間層のデータの少なくとも一方に付加し、入力データに対するニューラルネットワークによる推論を実行する。更新部は、ニューラルネットワークによる推論結果と、対象ラベルと、が一致するようにニューラルネットワークのパラメータを更新する。【選択図】図1

Description

本発明の実施形態は、学習装置、学習方法、プログラムおよび認識装置に関する。
ニューラルネットワークの過学習を抑制する方法として、中間層のノード値の一部をランダムにゼロにしながら最適化する方法、および、入力データの一部をランダムに遮蔽しながら最適化する方法が提案されている。
国際公開第2014/105866号
G. Ghiasi, T. Lin, Q. V. Le, "DropBlock: A regularization method for convolutional networks," in arXiv:1810.12890v1, 2018. T. DeVries and G. W. Taylor, "Improved Regularization of Convolutional Neural Networks with Cutout", in arXiv:1708.04552, 2017. Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang, "Random Erasing Data Augmentation", in arXiv:1708.04896, 2017. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba, "Learning Deep Features for Discriminative Localization", In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2921-2929, 2016.
しかしながら、従来技術では、ノイズを付加する頻度、データ中でノイズを付加する位置(要素)、ノイズのサイズ、および、学習進捗に合わせたスケジュールなどの、ノイズの付加方法を調整するパラメータの設定が難しく、過学習を十分に抑制できない場合があった。
実施形態の学習装置は、取得部と、推論部と、更新部と、を備える。取得部は、入力データと、入力データによる推論の正解を示す対象ラベルと、を取得する。推論部は、入力データをニューラルネットワークに入力したときの推論結果に対する入力データに含まれる複数の要素の寄与度に基づいたノイズを、入力データ、および、ニューラルネットワークの中間層のデータの少なくとも一方に付加し、入力データに対するニューラルネットワークによる推論を実行する。更新部は、ニューラルネットワークによる推論結果と、対象ラベルと、が一致するようにニューラルネットワークのパラメータを更新する。
第1の実施形態にかかる学習装置のブロック図。 第1の実施形態における更新処理のフローチャート。 入力画像の一例を示す図。 注目度画像の一例を示す図。 ノイズおよびノイズを付加した画像の例を示す図。 変形例における更新処理のフローチャート。 第2の実施形態にかかる情報処理システムのブロック図。 第1または第2の実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる学習装置の好適な実施形態を詳細に説明する。
以下では、画像を入力データとして推論を行うニューラルネットワークを学習する学習装置を例に説明する。より具体的には、入力された画像(2次元画像)を、数字の0〜9のいずれかに分類する10クラスの画像分類問題を例に説明する。適用可能な処理はこれに限られるものではなく、その他の推論処理(認識処理、分類処理を含む)にも適用できる。例えば、1クラスの分類処理(異常検出など)などの10クラス以外の分類処理にも適用できる。また、3次元画像を用いた推論、音声データからの推論対象(特定の話者など)の推論、および、テキストデータを用いた推論などにも適用できる。
(第1の実施形態)
第1の実施形態は、ニューラルネットワークの推論(認識)の寄与度に基づいて、付加するノイズのパラメータを決定する。これにより、付加するノイズのパラメータが、学習の進捗および認識率に対して適応的に決定されるため、過学習をより安定して抑制できる。また、このように学習されたニューラルネットワークを用いれば、認識率を向上させることができる。
図1は、第1の実施形態にかかる学習装置100を示すブロック図である。学習装置100は、取得部101と、推論部102と、注目度画像算出部103と、ノイズ算出部104と、更新部105と、記憶部121と、を備える。
記憶部121は、学習装置100による各種処理に用いる各種データを記憶する。例えば記憶部121は、学習するニューラルネットワークを定めるパラメータ、および、学習のための訓練データを記憶する。ニューラルネットワークを定めるパラメータは、例えば重み係数およびバイアスである。
記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
取得部101は、学習装置100による各種処理で用いる各種情報を取得する。例えば取得部101は、入力画像(入力データの一例)、および、入力画像による推論の正解を示す対象ラベルを含む訓練データを取得する。取得部101が訓練データを取得する方法はどのような方法であってもよい。取得部101は、例えば、記憶部121に記憶された訓練データを読み出すことにより取得してもよいし、学習装置100の外部のサーバ装置などから訓練データを受信することにより取得してもよい。
推論部102は、入力画像に対するニューラルネットワークによる推論を実行する。例えば推論部102は、入力画像をニューラルネットワークに入力し、ニューラルネットワークから出力される推論結果を得る。
注目度画像算出部103は、入力画像をニューラルネットワークに入力したときの入力画像の推論に寄与した領域を示す注目度画像を生成する。注目度画像は、領域(画素など)ごとの推論時に注目(着眼)した度合い(注目度)を示す画像と解釈することができる。注目度画像は、顕著性マップ(saliency map)などと呼ばれる場合がある。注目度画像の生成方法の詳細は後述する。
ノイズ算出部104は、入力画像と、ニューラルネットワークの中間層のデータ(中間層データ)と、のうち少なくとも一方に付加するノイズを算出する。例えばノイズ算出部104は、対象ラベルと注目度画像とからノイズを算出する。なお、中間層データにノイズを付加することは、中間層データに対応する重み係数(中間層データに乗じられる重み係数)にノイズを付加することと等価である。
推論部102は、ノイズ算出部104により算出されたノイズを、入力画像および中間層データ(重み係数)の少なくとも一方に付加し、入力データに対するニューラルネットワークによる推論をさらに実行する。
更新部105は、ニューラルネットワークのパラメータを更新する。例えば更新部105は、入力画像および中間層データの少なくとも一方にノイズを付加した後のニューラルネットワークによる推論結果と、対象ラベルと、が一致するように、誤差逆伝搬法によりニューラルネットワークの重み係数を更新する。パラメータの更新方法は誤差逆伝播法に限られるものではなく、どのような方法であってもよい。
上記各部(取得部101、推論部102、注目度画像算出部103、ノイズ算出部104、更新部105)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる学習装置100による更新処理について説明する。図2は、第1の実施形態における更新処理の一例を示すフローチャートである。
まず、取得部101は、訓練データである入力画像およびラベルを取得する(ステップS101)。以下では、入力画像をx(i=1、2、・・・、N)、ラベルをtと表す。なお、iは訓練データを識別する識別情報(通し番号など)を表し、Nは訓練データの数を表す。
図3は、入力画像の一例を示す図である。入力画像xは、例えば横幅W、縦幅Hの画素集合であり、W×H次元のベクトルとする。図3に示すように、入力画像301は、x(u,v)と表される。uは水平方向の画素位置を表し、vは垂直方向の画素位置を表す。
ラベルtは、入力画像xによる推論の正解に該当する要素が1となり、それ以外の要素が0となる10次元ベクトルである。図3のように、正解が「5」である入力画像xiの場合は、ラベルtは、(0,0,0,0,0,1,0,0,0,0)のように表される。以下ではラベルtのうち、正解を示す要素を対象ラベルといい、それ以外の要素を非対象ラベルという場合がある。
図2に戻り、推論部102は、入力画像xをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力y1i(第1出力)を取得する(ステップS102)。出力y1iは、以下の(1)式により表される。
1i=f(w、x) ・・・(1)
fは、重み係数集合wを保持するニューラルネットワークの関数である。例えば関数fは、畳み込み層、全結合層、正規化層、および、プーリング層などの複数の層の処理を繰り返し、ラベルtと同じ次元数の10次元ベクトルを出力する。なお、関数fの出力ベクトルは、ソフトマックス処理後の値であって、すべて要素が非負の値であり、かつ、要素の総和が1に正規化されているものとする。
次に、注目度画像算出部103は、中間層データ(中間画像)およびパラメータ(重み係数)などに基づいて注目度画像を生成する(ステップS103)。注目度画像sは、例えば以下の(2)式により生成される。
=g(w、x) ・・・(2)
gは、ニューラルネットワークの重み係数集合w、および、入力画像xに基づいて注目度画像を出力する関数である。注目度画像は、例えば非特許文献4に示されるクラス・アクティベーション・マッピング(Class Activation Mapping)などを用いることができる。クラス・アクティベーション・マッピングを用いる場合は、入力画像xを推論したときのニューラルネットワークの中間画像を、対象ラベルに関連する重み係数集合wの値で線形合成する関数が、関数gとして使用して生成できる。中間画像は、ニューラルネットワークの中間層の出力に相当する画像である。
図4は、注目度画像の一例を示す図である。図4は、正解が「9」である入力画像401に対する推論結果をもとに算出される注目度画像402の例を示す。注目度画像402の上部の数値(0〜9)は、注目度画像402の10個の要素それぞれに対応する推論結果を表す。注目度画像402は、推論の寄与度に応じた画素値を有する画像である。図4では、ハッチングの種類の違いにより画素値(寄与度)の違いを表しているが、例えば非特許文献4と同様に、色により画素値(寄与度)を表すように構成してもよい。
図4の例では、「9」に対応する注目度画像の画素411、および、「4」に対応する注目度画像の一部の画素412が、寄与度が大きい画素となっている。
図4に示す注目度画像は一例であり、その他のどのような注目度画像を用いてもよい。多くの注目度画像の算出方法は、図4の例と同様に、出力y1iのそれぞれの要素ごとに寄与度を算出することが可能である。算出方法によって注目度画像の縦幅と横幅は異なるが、本実施形態では入力画像xと同じ縦幅および横幅で注目度画像を算出することとする。すなわち、本実施形態では、注目度画像sは、(W×H×C)次元ベクトルとなる。Cは、分類するクラスの個数に相当する。本実施形態ではC=10である。
以上のように、注目度画像は、入力画像をニューラルネットワークに入力したときの入力画像の推論に寄与した領域を示す画像である。推論に寄与した領域は、例えば、その領域の値が変わることによる推論結果への影響が大きい領域、出力のうち活性がある部分からニューラルネットワークの経路を逆にたどって得られる領域、などを含む。
図2に戻り、ノイズ算出部104は、入力画像xおよび重み係数集合w(中間層データ)に付加するノイズを、ラベルtと注目度画像sに基づいて算出する(ステップS104)。
以下では、対象ラベルcに対応する注目度画像sに基づいて、入力画像xにノイズを付加する方法を説明する。ノイズ算出部104は、以下の(3)式により付加するノイズnを算出する。Tは、閾値である。s(u、v、c)は、水平方向の画素位置u、垂直方向の画素位置v、対象ラベルcに対応する注目度画像の画素値を表す。
(u、v)=0 (s(u、v、c)≧Tのとき)、
(u、v)=1 (s(u、v、c)<Tのとき) ・・・(3)
後述するように、このノイズnは、入力画像xの画素(要素)ごとに画素値に乗じられることにより、入力画像xに付加される。従って(3)式のノイズは、寄与度が閾値T以上である画素をゼロにしながら最適化するためのノイズであると解釈することができる。
(3)式では、入力画像xの画素のうち、値が「0」の要素が乗じられた画素の画素値がゼロになり、値が「1」の要素が乗じられた画素の画素値は、元の値が維持される。従って、値が「0」の要素に対応する画素(要素)に対して、ノイズが付加されると解釈することもできる。
なお、(3)式に示すように、ノイズは、画素ごとの寄与度と閾値との比較結果に応じて求められる。ノイズを求めることができる情報(寄与度など)が得られれば、ステップS103で注目度画像を生成する必要はない。
次に、推論部102は、入力画像xにノイズnを付加した画像をニューラルネットワークに入力し、この入力に対する出力y2i(第2出力)を取得する(ステップS105)。出力y2iは、以下の(4)式により表される。記号「◎」は、ベクトルの要素ごとの積を算出するアダマール積を表す。
2i=f(w、x◎n) ・・・(4)
図5は、ノイズ、および、ノイズを付加した画像(x◎n)の例を示す図である。図5の入力画像501は、正解が「9」である入力画像である。注目度画像502は、入力画像501に対する推論結果をもとに算出される注目度画像の例である。入力画像501は、数字「9」の右上部が切れた画像となっている。このため、図4の入力画像401と比較して、入力画像501は、数字の「4」または「7」であると誤って推論される可能性が高い画像である。すなわち、図5の例では、「4」に対応する注目度画像の画素511、「7」に対応する注目度画像の一部の画素512、および、「9」に対応する注目度画像の一部の画素513が、寄与度が大きい画素となっている。
本実施形態では、図5に示すように、正解である「9」に対応する注目度画像に対して現時点で推論に寄与している画素の画素値をゼロとするように、入力画像501にノイズ503が付加され、新しい画像504が得られる。これにより、ニューラルネットワークは、画素値がゼロに変更された領域(注目度画像への寄与度が大きい領域)以外の領域を含む新しい画像から正しく推論が実行されるように学習が進められる。このため、入力画像のより広い範囲から特徴が抽出できるようになり、過学習の抑制が期待できる。
また、学習初期の段階では注目度画像の画素値は小さくランダムに近いが、学習が進むにつれて局所的な領域で画素値が大きくなる傾向にある。このため、学習が進むにつれて、寄与度が大きい領域、すなわち、画素値がゼロにされる領域の位置およびサイズが変更される。これは、閾値Tを調整するのみで、ノイズを付加する頻度、ノイズを付加する位置(要素)、および、ノイズのサイズが容易に調整可能となることを意味する。
図2に戻り、更新部105は、ラベルtおよび出力y2iに基づいて重み係数集合wの値を更新する(ステップS106)。例えば更新部105は、対象ラベルと出力y2iとの一致度が高いほど小さくなるようにロスLを算出し、誤差逆伝搬法などの方法により、ロスLを最小化するように、重み係数集合wを更新する。更新部105は、例えば、以下の(5)式によりロスLを算出する。
L=−Σi(t ln(y2i)) ・・・(5)
次に、更新部105は、学習が終了したか否かを判定する(ステップS107)。更新部105は、例えば、出力y1iまたは出力y2iと対象ラベルとの一致度、ロスLの絶対値、ロスLの減少幅、および、重み係数の更新回数(ステップS102からステップS106までの学習処理の回数)などにより、学習の終了を判定する。学習を継続する場合は(ステップS107:No)、ステップS102に戻り、処理が繰り返される。学習が終了したと判定された場合(ステップS107:Yes)、更新処理を終了する。
以上のように、本実施形態は、ニューラルネットワークの学習時に入力画像に付加するノイズの頻度、位置、サイズなどの調整パラメータを注目度画像に基づいて調整する。このため、適応的な正則化が実現でき、過学習をより抑制することが可能となる。
(変形例1)
上記実施形態では、通常は複数回実行される学習処理の各回で、入力画像に対するニューラルネットワークによる推論(第1推論、ステップS102)と、ノイズを付加した入力画像に対するニューラルネットワークによる推論(第2推論、ステップS103〜ステップS105)と、が実行される。すなわち、繰り返される学習処理の各回で、ニューラルネットワークによる推論が2回実行される。
学習装置100が、学習処理の各回で1回の推論を実行するように構成してもよい。例えば学習装置100は、学習処理のうちm回目(mは2以上の整数)の学習処理で付加するノイズを、(m−1)回目の学習処理でのニューラルネットワークによる推論の推論結果に対する寄与度に基づいて算出する。
図6は、このように構成される本変形例における更新処理の一例を示すフローチャートである。ステップS201は、図2のステップS101と同様であるため説明を省略する。
次に、推論部102は、入力画像xにノイズnを付加した画像をニューラルネットワークに入力し、この入力に対する出力y2iを取得する(ステップS202)。初回の学習処理では、例えばノイズを付加しない画像、または、ランダムに選択した画素の画素値をゼロにするようなノイズを加えた画像を用いる。
次に更新部105は、ラベルtおよび出力y2iに基づいて重み係数集合wの値を更新する(ステップS203)。この処理は、図2のステップS106と同様である。次に更新部105は、学習が終了したか否かを判定する(ステップS204)。この処理は、図2のステップS107と同様である。
次に、注目度画像算出部103は、中間層データ(中間画像)およびパラメータ(重み係数)などに基づいて注目度画像を生成する(ステップS205)。本変形例では、注目度画像算出部103は、ノイズが付加された入力画像の推論時の中間層データなどから、注目度画像を生成する。
次にノイズ算出部104は、次回の学習処理の入力画像xおよび重み係数集合w(中間層データ)の少なくとも一方に付加するノイズを、対象ラベルと注目度画像sに基づいて算出する(ステップS206)。この処理は、図2のステップS104と同様である。
ステップS206でノイズを算出した後、ステップS202に戻り、次回の学習処理が繰り返される。推論部102は、このときに入力画像に付加するノイズとして、ステップS206で算出されたノイズを用いる。すなわち推論部102は、(m−1)回目の学習処理で算出されたノイズnを、m回目の学習処理で入力画像xに付加して推論を行う。
このような構成により、ニューラルネットワークによる推論の回数を減らし、演算の負荷を削減することが可能となる。
(変形例2)
上記のように、ノイズは、中間層データに付加されてもよい。本変形例では、中間層データにノイズを付加する方法について説明する。
上記のように畳み込み層を含むようなニューラルネットワークを用い、畳み込み層のデータにノイズを付加する場合、推論部102は、中間層の画像サイズに合うように、注目度画像のサイズを変更(正規化)する。画像サイズの変更方法は、縦および横の画素数が一致するように画像を縮小または拡大する方法などの、従来から用いられているどのような方法を適用してもよい。
(3)式のように、画素(要素)ごとに寄与度に応じたノイズが付加されるようにノイズが算出される場合、中間層データは、注目度画像の画素の位置に対応する要素の位置を特定可能なデータである必要がある。例えば、上記のように畳み込み層、全結合層、正規化層、および、プーリング層などの複数の層を含む畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を対象とする場合、畳み込み層およびプーリング層などが、位置を特定可能な中間層データとして用いることができる。なお適用可能なニューラルネットワークはCNNに限られるものではない。
全結合層では画素(要素)の位置の情報が(全結合により)失われるため、例えば寄与度に対応する画素(要素)を定めることができない。このため全結合層のデータにノイズを付加する場合、ノイズを付加する位置(要素)ではなく、ノイズを付加する頻度が寄与度に応じて制御される。例えばノイズ算出部104は、ノイズを付加する頻度を、注目度画像に基づき算出される値で決定する。
例えばノイズ算出部104は、注目度画像の画素値の平均値、最頻値、および、最大値を算出する。また、ノイズ算出部104は、付加するノイズを算出する。例えばノイズ算出部104は、要素の一部をランダムにゼロにするようなノイズを算出する。
推論部102は、算出された値が閾値T以上である場合に、全結合層のデータにノイズを付加する。
ノイズ算出部104は、画素値の平均値、最頻値、および、最大値を算出するときに、注目度画像の各画素値をそのまま使用するのではなく、例えば、画像の中央を基準としたガウス分布に従う重みを加えた画素値を使用してもよい。例えばノイズ算出部104は、注目度画像の中央で最大値となるようなガウス分布に従う重みを各画素値に乗じて加重平均を算出してもよい。
ノイズ算出部104は、注目度画像の全画素の画素値を用いる代わりに、一部の画素の画素値のみを用いてもよい。例えば入力画像ごとに、注目すべき領域の位置を示すデータ(注目位置データ)が定められている場合、ノイズ算出部104は、この注目位置データが示す領域に対応する画素の画素値を用いて平均値等を算出してもよい。
入力画像および中間層データの両方にノイズを付加する場合は、上記実施形態と本変形例を組み合わせて適用すればよい。
(変形例3)
ノイズは、上記(3)式のように算出されるノイズに限られるものではない。例えば、ノイズ算出部104は、ゼロの代わりに、要素(画素)ごとに、または、全要素一括でランダム値を算出してもよい。ノイズ算出部104は、ゼロの代わりに、周辺画素の画素値の平均値を算出してもよい。
ノイズの付加方法は、上記(4)式のように入力画像とのアダマール積により付加する方法に限られるものではない。より一般的には、推論部102は、以下の(6)式のようにノイズを付加してもよい。x’は、例えば固定の画素値を有する画像(ベタ画像)、または、周辺画素の画素値の平均値を各画素値とする画像などである。
◎x+(1−n)◎x’ ・・・(6)
なお、x’の画素値がすべて0かつ、nが0または1の場合、(6)式は、(4)式のアダマール積(x◎n)と等価となる。x’がベタ画像の場合、(6)式は、このベタ画像を入力画像にブレンドするようにノイズを付加する式となる。x’が周辺画素の画素値の平均値を各画素値とする画像の場合、(6)式は、入力画像をぼかすようにノイズを付加する式となる。なお、nは1か0の2通りではなく、例えば0.5などの中間値を用いることもできる。その場合、nは注目度画像の画素値を閾値Tで二値化するのではなく、例えば、n=Clip(s(u、v、c)/T、MIN=0、MAX=1)などとしてもよい。
(変形例4)
閾値Tは、固定値であってもよいし、変更される値であってもよい。例えば推論部102は、ノイズを付加する要素(画素)の個数が上限値以下となるように、閾値Tを変更してもよい。上限値は、例えば、入力画像の画素数(または、中間層データの要素数)に予め定められた割合を乗じた値として決定されてもよい。
(変形例5)
上記実施形態では、ラベルtのうち対象ラベルcに対応する注目度画像sに基づいてノイズが付加された。ラベルtのうち対象ラベルc以外の非対象ラベルc’に対応する注目度画像sに基づいてノイズが付加されてもよい。例えば、ノイズ算出部104は、以下の(7)式により付加するノイズnを算出してもよい。T’は、非対象ラベルの注目度画像sに対して定められる閾値である。s(u、v、c’)は、水平方向の画素位置u、垂直方向の画素位置v、非対象ラベルc’に対応する注目度画像の画素値を表す。
(u、v)=0 (Max(s(u、v、c’))≧T’のとき)、
(u、v)=1 (それ以外) ・・・(7)
(7)式は、誤って注目している要素を考慮しないようにノイズを付加する式と解釈することができる。
ノイズ算出部104は、以下の(8)式により付加するノイズnを算出してもよい。
(u、v)=0 (s(u、v、c’)<T’のとき)、
(u、v)=1 (s(u、v、c’)≧T’のとき) ・・・(8)
(8)式は、誤って注目している要素を用いて正しく推論が実行されるように学習するためのノイズを付加する式と解釈することができる。
ノイズ算出部104は、対象ラベルcに対応する注目度画像と、非対象ラベルc’ に対応する注目度画像と、の両方を用いてノイズを付加してもよい。例えば、ノイズ算出部104は、以下の(9)式により付加するノイズnを算出してもよい。
(u、v)=0 (s(u、v、c)≧T、かつ、s(u、v、c’)≧T’のとき)、
(u、v)=1 (それ以外) ・・・(9)
(9)式は、対象ラベルおよび非対象ラベルの両方で注目されている領域(共通する画像特徴)を除外し、この領域以外の領域に注目するようにノイズを付加する式と解釈することができる。
例えば数字の「1」、「7」、「9」などは、下部(上下方向に延びる線)に相当する画素群が類似するが、それ以外の部分の画素群は類似しない場合が多い。また、トラックと乗用車とを分類するニューラルネットワークを学習する例では、車両の前部(ヘッドライト、フロントガラス、運転席などを含む部分)に相当する画素群が類似するが、それ以外の部分の画素群は類似しない場合が多い。本変形例を適用すれば、類似しない部分の情報から正しく推論が実行されるように学習を進めることが可能となる。
(第2の実施形態)
第2の実施形態では、学習装置で学習したニューラルネットワークを用いて認識処理を実行する認識装置を備える情報処理システムについて説明する。
図7は、第2の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図7に示すように、情報処理システムは、学習装置100−2と、認識装置200−2と、がネットワーク300−2により接続された構成となっている。
ネットワーク300−2は、インターネットなどであるが、その他のどのような形態のネットワークであってもよい。例えば、ネットワーク300−2は、有線ネットワークおよび無線ネットワークのいずれであってもよい。
学習装置100−2は、出力制御部106−2が追加されたことが、第1の実施形態の学習装置100と異なっている。その他の構成は第1の実施形態の学習装置100と同様であるため、同一の符号を付し説明を省略する。
出力制御部106−2は、学習装置100−2からの各種情報の出力を制御する。例えば出力制御部106−2は、更新部105により更新されたニューラルネットワークのパラメータを認識装置200−2に出力する。
認識装置200−2は、通信制御部201と、取得部202と、認識部203と、出力制御部204と、記憶部221と、を備えている。
記憶部221は、認識装置200−2で実行される各種処理で用いる各種データを記憶する。例えば記憶部221は、学習装置100−2から送信されたニューラルネットワークのパラメータを記憶する。記憶部221は、フラッシュメモリ、メモリカード、RAM、HDD、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
通信制御部201は、学習装置100−2などの外部装置との間の通信を制御する。例えば通信制御部201は、学習装置100−2から、学習済みのニューラルネットワークを定めるパラメータの情報などを受信する。
取得部202は、認識装置200−2による各種処理に用いる各種データを取得する。例えば取得部202は、認識処理の対象となる入力データ(画像など)を取得する。
認識部203は、取得された画像をニューラルネットワークに入力することにより、画像を認識する。
出力制御部204は、認識装置200−2からの各種情報の出力を制御する。例えば出力制御部204は、認識部203による認識結果を出力する。出力方法は、どのような方法であってもよいが、例えば、表示装置に表示する方法、外部のサーバ装置などに送信する方法などを用いることができる。
なお、図7に示す情報処理システムの構成は一例であり、これに限られるものではない。例えば、認識装置200−2の各部と学習装置100−2の各部とを1つの装置(認識装置)内に備える構成としてもよい。この場合、共通化できる機能(例えば、取得部101と取得部202、記憶部121と記憶部221)は共通化してもよい。また認識装置200−2は、物理的に1つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えば認識装置200−2は、クラウド環境上で構築されてもよい。
認識処理は、どのようなデータを用いて、どのような対象を認識する処理であってもよい。例えば認識処理は、会議室内で集音された音声から、特定の話者の音声を認識する処理であってもよい。また認識処理は、撮像装置(カメラ)により撮影された画像から、撮影した対象物の異常を検出(認識)する処理であってもよい。このような認識処理は、例えば、工場内の機器を画像により外観検査し異常を検出する処理、および、医療用画像から異常(患部)を検出する処理などに適用できる。
以上説明したとおり、第1および第2の実施形態によれば、ニューラルネットワークの過学習をより抑制することが可能となる。
次に、第1または第2の実施形態にかかる各装置(学習装置、認識装置)のハードウェア構成について図8を用いて説明する。図8は、第1または第2の実施形態にかかる装置のハードウェア構成例を示す説明図である。
第1または第2の実施形態にかかる装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施形態にかかる装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1または第2の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2 学習装置
101 取得部
102 推論部
103 注目度画像算出部
104 ノイズ算出部
105 更新部
106−2 出力制御部
121 記憶部
200−2 認識装置
201 通信制御部
202 取得部
203 認識部
204 出力制御部
221 記憶部
300−2 ネットワーク

Claims (12)

  1. 入力データと、前記入力データによる推論の正解を示す対象ラベルと、を取得する取得部と、
    前記入力データをニューラルネットワークに入力したときの推論結果に対する前記入力データに含まれる複数の要素の寄与度に基づいたノイズを、前記入力データ、および、前記ニューラルネットワークの中間層のデータの少なくとも一方に付加し、前記入力データに対する前記ニューラルネットワークによる推論を実行する推論部と、
    前記ニューラルネットワークによる推論結果と、前記対象ラベルと、が一致するように前記ニューラルネットワークのパラメータを更新する更新部と、
    を備える学習装置。
  2. 前記推論部は、前記対象ラベルと一致する推論結果に対する前記寄与度が閾値以上の要素に対して前記ノイズを付加する、
    請求項1に記載の学習装置。
  3. 前記推論部は、前記ノイズを付加する要素の個数が上限値以下となるように、前記閾値を変更する、
    請求項2に記載の学習装置。
  4. 前記推論部は、前記対象ラベルと一致しない推論結果に対する前記寄与度が閾値以上である要素に対して前記ノイズを付加する、
    請求項1に記載の学習装置。
  5. 前記推論部は、前記対象ラベルと一致しない推論結果に対する前記寄与度が閾値より小さい要素に対して前記ノイズを付加する、
    請求項1に記載の学習装置。
  6. 前記推論部は、前記対象ラベルと一致する推論結果に対する前記寄与度が第1閾値以上であり、かつ、前記対象ラベルと一致しない推論結果に対する前記寄与度が第2閾値以上である要素に対して前記ノイズを付加する、
    請求項1に記載の学習装置。
  7. 前記推論部は、前記寄与度に基づく頻度で、前記ノイズを前記入力データおよび前記中間層のデータの少なくとも一方に付加する、
    請求項1に記載の学習装置。
  8. 前記推論部は、
    複数回実行される学習処理の各回で、前記入力データに対する前記ニューラルネットワークによる第1推論を実行し、前記第1推論の推論結果に対する前記入力データに含まれる複数の要素の寄与度に基づいたノイズを算出し、前記入力データ、および、前記中間層のデータの少なくとも一方に、算出したノイズを付加し、前記入力データに対する前記ニューラルネットワークによる第2推論を実行する、
    請求項1に記載の学習装置。
  9. 前記推論部は、
    複数回実行される学習処理の各回で、前記入力データおよび前記中間層のデータの少なくとも一方に前記ノイズを付加し、前記入力データに対する前記ニューラルネットワークによる推論を実行し、
    複数回実行される学習処理のうちm回目(mは2以上の整数)の学習処理で付加する前記ノイズを、複数回実行される学習処理のうち(m−1)回目の学習処理での前記ニューラルネットワークによる推論の推論結果に対する前記入力データに含まれる複数の要素の寄与度に基づいて算出する、
    請求項1に記載の学習装置。
  10. 入力データと、前記入力データによる推論の正解を示す対象ラベルと、を取得する取得ステップと、
    前記入力データをニューラルネットワークに入力したときの推論結果に対する前記入力データに含まれる複数の要素の寄与度に基づいたノイズを、前記入力データ、および、前記ニューラルネットワークの中間層のデータの少なくとも一方に付加し、前記入力データに対する前記ニューラルネットワークによる推論を実行する推論ステップと、
    前記ニューラルネットワークによる推論結果と、前記対象ラベルと、が一致するように前記ニューラルネットワークのパラメータを更新する更新ステップと、
    を含む学習方法。
  11. コンピュータを、
    入力データと、前記入力データによる推論の正解を示す対象ラベルと、を取得する取得部と、
    前記入力データをニューラルネットワークに入力したときの推論結果に対する前記入力データに含まれる複数の要素の寄与度に基づいたノイズを、前記入力データ、および、前記ニューラルネットワークの中間層のデータの少なくとも一方に付加し、前記入力データに対する前記ニューラルネットワークによる推論を実行する推論部と、
    前記ニューラルネットワークによる推論結果と、前記対象ラベルと、が一致するように前記ニューラルネットワークのパラメータを更新する更新部と、
    として機能させるためのプログラム。
  12. 請求項1に記載の学習装置により学習された前記ニューラルネットワークを用いて、入力データの認識を実行する認識部と、
    前記認識部による認識結果を出力する出力制御部と、
    を備える認識装置。
JP2019081223A 2019-04-22 2019-04-22 学習装置、学習方法、プログラムおよび情報処理システム Active JP7106486B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019081223A JP7106486B2 (ja) 2019-04-22 2019-04-22 学習装置、学習方法、プログラムおよび情報処理システム
US16/798,853 US11640530B2 (en) 2019-04-22 2020-02-24 Learning device, learning method, computer program product, and recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019081223A JP7106486B2 (ja) 2019-04-22 2019-04-22 学習装置、学習方法、プログラムおよび情報処理システム

Publications (2)

Publication Number Publication Date
JP2020177582A true JP2020177582A (ja) 2020-10-29
JP7106486B2 JP7106486B2 (ja) 2022-07-26

Family

ID=72832545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019081223A Active JP7106486B2 (ja) 2019-04-22 2019-04-22 学習装置、学習方法、プログラムおよび情報処理システム

Country Status (2)

Country Link
US (1) US11640530B2 (ja)
JP (1) JP7106486B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023166940A1 (ja) * 2022-03-03 2023-09-07 パナソニックIpマネジメント株式会社 注視領域モデル生成システム及び推論装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7055769B2 (ja) * 2019-04-23 2022-04-18 株式会社東芝 データ生成装置、データ生成方法およびプログラム
DE112020007472T5 (de) * 2020-07-28 2023-05-11 Mitsubishi Electric Corporation Lernnutzungssystem, nutzungsvorrichtung, lernvorrichtung, programm und lernnutzungsverfahren
US11200497B1 (en) * 2021-03-16 2021-12-14 Moffett Technologies Co., Limited System and method for knowledge-preserving neural network pruning
CN115114845B (zh) * 2022-05-24 2025-11-21 杭州百子尖科技股份有限公司 一种用于数字孪生系统的平推流反应器建模的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015095212A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法
JP2016143354A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
WO2018167900A1 (ja) * 2017-03-16 2018-09-20 日本電気株式会社 ニューラルネットワーク学習装置、方法、およびプログラム
JP2018152000A (ja) * 2017-03-15 2018-09-27 株式会社島津製作所 分析データ解析装置及び分析データ解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406017B2 (en) 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
US10776692B2 (en) * 2015-07-24 2020-09-15 Deepmind Technologies Limited Continuous control with deep reinforcement learning
JP7079445B2 (ja) * 2018-09-25 2022-06-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP7086878B2 (ja) 2019-02-20 2022-06-20 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015095212A (ja) * 2013-11-14 2015-05-18 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法
JP2016143354A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
JP2018152000A (ja) * 2017-03-15 2018-09-27 株式会社島津製作所 分析データ解析装置及び分析データ解析方法
WO2018167900A1 (ja) * 2017-03-16 2018-09-20 日本電気株式会社 ニューラルネットワーク学習装置、方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023166940A1 (ja) * 2022-03-03 2023-09-07 パナソニックIpマネジメント株式会社 注視領域モデル生成システム及び推論装置

Also Published As

Publication number Publication date
JP7106486B2 (ja) 2022-07-26
US20200334529A1 (en) 2020-10-22
US11640530B2 (en) 2023-05-02

Similar Documents

Publication Publication Date Title
JP2020177582A (ja) 学習装置、学習方法、プログラムおよび認識装置
US11508038B2 (en) Image processing method, storage medium, image processing apparatus, learned model manufacturing method, and image processing system
US11195055B2 (en) Image processing method, image processing apparatus, storage medium, image processing system, and manufacturing method of learnt model
EP3745309A1 (en) Training a generative adversarial network
JP7055769B2 (ja) データ生成装置、データ生成方法およびプログラム
JP2017211939A (ja) 生成装置、生成方法、及び生成プログラム
US20190303746A1 (en) Multilayer neural network learning apparatus and method of controlling the same
JP6158882B2 (ja) 生成装置、生成方法、及び生成プログラム
JP2019197355A (ja) クラスタリング装置、クラスタリング方法およびプログラム
CN110895807B (zh) 用于评估图像的系统、运行辅助方法和工作设备
JP7086878B2 (ja) 学習装置、学習方法、プログラムおよび認識装置
US20250078448A1 (en) Image processing method and apparatus, training method and apparatus of machine learning model, and storage medium
US20210264235A1 (en) Projecting Images To A Generative Model Based On Gradient-free Latent Vector Determination
JP7395705B2 (ja) 推定装置、推定方法及びプログラム
JP2019164618A (ja) 信号処理装置、信号処理方法およびプログラム
CN119540518A (zh) 图像和视频中的实时显著目标检测
US20250173843A1 (en) Image processing method, image processing apparatus, image processing system, and memory medium
CN115496673A (zh) 图像处理方法、图像处理装置、图像处理系统、以及存储介质
US12586344B2 (en) Generative model for multi-modality outputs from a single input
US12592058B2 (en) Data generating method, learning method, estimating method, data generating device, and program
JP7054603B2 (ja) 判定装置、判定方法、及び判定プログラム
CN117893766B (zh) 物体检测分割方案
JP2023075764A (ja) 学習装置、学習方法及びプログラム
JP2021174070A (ja) 画像処理方法、学習済みモデルの製造方法、プログラム、および、画像処理装置
CN113191940B (zh) 图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220713

R151 Written notification of patent or utility model registration

Ref document number: 7106486

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151