JP7085158B2

JP7085158B2 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム

Info

Publication number: JP7085158B2
Application number: JP2020515482A
Authority: JP
Inventors: 崇史森谷; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2018-04-26
Filing date: 2019-04-23
Publication date: 2022-06-16
Anticipated expiration: 2039-04-23
Also published as: US12159222B2; US20210081792A1; WO2019208564A1; JPWO2019208564A1

Description

本発明はニューラルネットワークのモデルパラメタをスパースに学習するニューラルネットワーク学習装置、ニューラルネットワーク学習方法、およびプログラムに関する。

＜従来技術１＞
一般的なニューラルネットワーク学習方法の例として非特許文献１が開示されている。以下、この学習方法を従来技術１と呼称する。非特許文献１の“TRAINING DEEP NEURAL NETWORKS”の節には、音声認識用のニューラルネットワーク型音響モデル（以下、単に「音響モデル」または単に「モデル」とも呼称する）を学習する方法が開示されている。

従来技術１では、事前に学習データの各サンプルから抽出した特徴量（実数ベクトル）と各特徴量に対応する正解ユニット番号（正解ラベル）のペア（教師データ）、および適当な初期モデルを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。

以下、図１を参照して従来技術１のニューラルネットワーク学習方法を実行する、ニューラルネットワーク学習装置１００の構成について説明する。同図に示すように、ニューラルネットワーク学習装置１００は、中間特徴量抽出部１０１と、出力確率分布計算部１０２と、モデル更新部１０３を含む構成である。以下、図２を参照して、各構成要件の動作について説明する。

［中間特徴量抽出部１０１］
入力：特徴量
出力：中間特徴量
処理：
中間特徴量抽出部１０１は、入力された特徴量から、出力確率分布計算部１０２において正解ユニットを識別しやすくするための中間特徴量（非特許文献１の式(1)）を抽出する（Ｓ１０１）。この中間特徴量抽出部１０１は複数の層のニューラルネットワークで構築されており、層の数だけ中間特徴量を抽出する計算が行われる。

［出力確率分布計算部１０２］
入力：中間特徴量
出力：出力確率分布
処理：
出力確率分布計算部１０２は、中間特徴量抽出部１０１で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットの確率を並べた出力確率分布（非特許文献１の式(2)）を計算する（Ｓ１０２）。

この出力確率分布計算部１０２では、音声認識の場合、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル（音素状態）であるかを計算し、入力した音声の特徴量に対応した出力確率分布を得る。

［モデル更新部１０３］
入力：モデル（更新前）、出力確率分布、正解ユニット番号
出力：モデル（更新後）
処理：
モデル更新部１０３は、正解ユニット番号と出力確率分布計算部１０２より得られる出力確率分布から損失関数L(w)=E(w)（非特許文献１の式(3)）を計算し、損失関数L(w)=E(w)の値を減少させるように（非特許文献１の式(4)によって）モデルを更新する（Ｓ１０３）。

更新されるニューラルネットワークモデル内のパラメタ（以下、モデルパラメタと呼称する）は非特許文献１の式(1)の重みwとバイアスbである。学習データの特徴量と正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出→出力確率分布計算→モデル更新の処理を繰り返し、所定回数（通常、数千万～数億回）の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。

＜従来技術２＞
一方、非特許文献２には、ニューラルネットワークにおけるモデルサイズを削減しながら学習する方法が示されている。以下、この学習方法を従来技術２と呼称する。

一般的なニューラルネットワークの学習における損失関数は以下の式で表される。
L(w)=E(w)
このE(w)は非特許文献１の式（３）のCであり、wは従来技術１において中間特徴量抽出部１０１および出力確率計算部１０２が学習するモデルパラメタである。非特許文献２では上式に正則化を加えることでニューラルネットワークのモデルパラメタの一部がスパース（0に近い値）となるような学習を行う。従来技術２では、モデルパラメタの更新部をスパースモデル更新部と呼ぶ。スパースモデル更新部は一般的な損失関数に正則化項を加えた式
L(w)=E(w)+λR(w)
によりモデル更新を実行する。この式の第２項λR(w)は正則化項であり、非特許文献２ではRidge（L2）とGroup Lassoと呼ばれる正則化項が用いられる。λは正則化項の影響を調整するためのハイパーパラメタである。以下に各層lにおける重みパラメタwのみを更新する場合のL2（R_L2(w)）とGroup Lasso（R_group(w)）の正則化項を示す。

Group Lassoではパラメタ間で任意のグルーピングを行うことが可能であり、非特許文献２ではグループの単位をニューラルネットの素子（行列Wの行あるいは列ごと）としている。R_group(w)における

はl層の１つの素子とl-1層の全素子（j=1,…,N_l-1）間のパラメタである重みの和を表している。

正則化項は本来過学習を避ける技術であり、目的によって様々な正則化項が存在する。非特許文献２の式（２）ではGroup LassoやRidge（L2）を用いている。非特許文献２にはGroup Lassoを用いることで自分で決めたグループ（例：行列における１行ずつをグループとする）ごとにスパースとなるように学習し、学習後のモデルパラメタから利用者が決めた閾値よりも小さい値をもつグループのモデルパラメタを削除することでモデル全体のサイズを削減したことが開示されている。

以下、図３を参照して従来技術２のニューラルネットワーク学習方法を実行する、ニューラルネットワーク学習装置２００の構成について説明する。同図に示すように、ニューラルネットワーク学習装置２００は、中間特徴量抽出部１０１と、出力確率分布計算部１０２と、スパースモデル更新部２０１を含み、中間特徴量抽出部１０１と、出力確率分布計算部１０２については、従来技術１の同名の構成要件と同じ動作を実行する。以下、図４を参照して、スパースモデル更新部２０１の動作について説明する。

［スパースモデル更新部２０１］
入力：モデル（更新前）、出力確率分布、正解ユニット番号、ハイパーパラメタ
出力：スパースなモデル（更新後）
処理：
スパースモデル更新部２０１は、正則化項λR(w)を計算し、正解ユニット番号と出力確率分布と正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、正則化を行わないモデル更新部１０３で得られるモデルよりもスパースなモデルを出力する（Ｓ２０１）。正則化項を用いる場合の損失関数を以下に示す。
L(w)=E(w)+λR(w)
以下、図５を参照して、スパースモデル更新部２０１の詳細について説明する。同図に示すように、スパースモデル更新部２０１は、正則化項計算部２０２と、モデル更新部２０３を含む構成である。以下、図６を参照して、スパースモデル更新部２０１内の各構成要件の動作について説明する。

［正則化項計算部２０２］
入力：モデル（更新前）、ハイパーパラメタ
出力：正則化項
処理：
正則化項計算部２０２は、モデルパラメタと、損失関数への影響を調整するためのハイパーパラメタλに基づいて、正則化項λR(w)を計算する（Ｓ２０２）。R(w)は入力するモデルパラメタから算出され、非特許文献２ではL2

やGroup Lasso

が用いられている。正則化項には、損失関数への影響を調整するためのハイパーパラメタλを用いる。

[モデル更新部２０３]
入力：モデル（更新前）、出力確率分布、正解ユニット番号、正則化項
出力：モデル（更新後）
処理：
モデル更新部２０３は、正解ユニット番号（教師データにおける正解ラベル）と、正解ユニット番号（教師データにおける正解ラベル）に対応する中間特徴量をニューラルネットワークモデルに入力して得られる出力確率分布と、正則化項から損失関数を計算し、損失関数L(w)=E(w)+λR(w)の値を減少させるようにニューラルネットワークモデルを更新する（Ｓ２０３）。

Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. T. Ochiai, S. Matsuda, H. Watanabe, and S. Katagiri, "Automatic Node Selection for Deep Neural Networks Using Group Lasso Regularization."ICASSP, pp. 5485-48, 2017.

従来技術１では、ニューラルネットワークの学習は指定したパラメタ数をもとにモデルの構築が行われる。すなわち構築されたモデルのサイズは設計者に依存する。しかしながら、このモデルの内部には不要なパラメタが存在しており、ローカルで動作するための音声認識システムを構築するにはモデルサイズや計算量の面でコストがかかるという課題がある（課題１）。

この課題１に対して従来技術２ではモデルを従来通り学習しながら不要なモデルパラメタ（０に近い値）を削除することでモデルサイズを削減する方法が提案されている。通常のL2正則化（上述）ではパラメタ全体の値は小さくなる（行列の０に近い要素が増える）が、行あるいは列ごと削除できないためモデルサイズおよび計算量は削減できない。従来技術２ではグループごとのノルムの値を０に近づけるGroup Lasso（上述）を用いることで、行あるいは列をグループとし、学習後にノルムの値が０に近い行あるいは列を削除することでモデルサイズと計算量の削減を実現した。具体的にはGroup Lassoでは行あるいは列をグループとし、図１１の（ａ）に示すようにグループごとにノルムの値を計算したときの頻度を分布とみなし、分布間の境界にあたる値を閾値とし、その閾値よりも小さいノルムとなるグループに該当する行あるいは列に対応するモデルパラメタを削除することでモデルサイズの削減を行う。このとき、Group Lassoではこのノルムの値の頻度の分布を調整できないため、削減するモデルパラメタの数を調整できないという課題がある（課題２）。課題２により、現状のGroup Lassoを用いたニューラルネットワークのモデルサイズ削減方法ではモデルサイズの削減量を調整することは困難である。

そこで本発明では、モデルサイズの削減量を調整することができるニューラルネットワーク学習装置を提供することを目的とする。

本発明のニューラルネットワーク学習装置は、グループパラメタ生成部と、正則化項計算部と、モデル更新部を含む。

グループパラメタ生成部は、ニューラルネットワークモデルのモデルパラメタを、任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成する。

正則化項計算部は、グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する。

モデル更新部は、教師データにおける正解ラベルと、教師データにおける正解ラベルに対応する特徴量をニューラルネットワークモデルに入力して得られる出力確率分布と、正則化項から損失関数を計算し、損失関数の値を減少させるようにニューラルネットワークモデルを更新する。

本発明のニューラルネットワーク学習装置によれば、モデルサイズの削減量を調整することができる。

従来技術１のニューラルネットワーク学習装置の構成を示すブロック図。従来技術１のニューラルネットワーク学習装置の動作を示すフローチャート。従来技術２のニューラルネットワーク学習装置の構成を示すブロック図。従来技術２のニューラルネットワーク学習装置の動作を示すフローチャート。従来技術２のスパースモデル更新部の構成を示すブロック図。従来技術２のスパースモデル更新部の動作を示すフローチャート。実施例１のニューラルネットワーク学習装置の構成を示すブロック図。実施例１のニューラルネットワーク学習装置の動作を示すフローチャート。実施例１のスパースモデル更新部の構成を示すブロック図。実施例１のスパースモデル更新部の動作を示すフローチャート。従来技術２と実施例１のニューラルネットワーク学習装置の違いを説明する概念図であって、図１１（ａ）は、従来技術２のニューラルネットワーク学習装置のモデルパラメタ削除の概要を示す図、図１１（ｂ）は、実施例１のニューラルネットワーク学習装置のモデルパラメタ削除の概要を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施例１のニューラルネットワーク学習装置では、従来技術２における正則化技術を改善した。従来技術２ではモデルサイズの削減量を定義できなかったが、実施例１のニューラルネットワーク学習装置ではモデルサイズの削減量に影響するパラメタを導入することにより、モデルサイズの削減量を調整することができる。

以下、図７を参照して実施例１のニューラルネットワーク学習装置３００の構成について説明する。同図に示すように、ニューラルネットワーク学習装置３００は、中間特徴量抽出部１０１と、出力確率分布計算部１０２と、スパースモデル更新部３０１を含み、中間特徴量抽出部１０１と、出力確率分布計算部１０２については、従来技術１、従来技術２の同名の構成要件と同じ動作を実行する。以下、図８を参照して、スパースモデル更新部３０１の動作について説明する。

［スパースモデル更新部３０１］
入力：モデル（更新前）、出力確率分布、正解ユニット番号
出力：スパースなモデル（更新後）
処理：
スパースモデル更新部３０１は、グループパラメタと正則化項λR(w)を生成し、正解ユニット番号と出力確率分布とグループパラメタと正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、スパースなモデルを出力する（Ｓ３０１）。

以下、図９を参照して、スパースモデル更新部３０１の詳細について説明する。同図に示すように、スパースモデル更新部３０１は、グループパラメタ生成部３０２と、正則化項計算部３０３と、モデル更新部２０３を含む構成である。モデル更新部２０３は、従来技術２における同名の構成要件と同じ動作を実行する。以下、図１０を参照して、スパースモデル更新部３０１内の各構成要件の動作について説明する。

［グループパラメタ生成部３０２］
入力：モデル（更新前）、グループの定義（行、列といった具体的なグルーピングの方法）
出力：グループパラメタ
処理：
グループパラメタ生成部３０２は、入力したモデル（更新前）のモデルパラメタを、上記グループの定義（行、列といった具体的なグルーピングの方法）によって任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成する（Ｓ３０２）。別の表現では、グループパラメタ生成部３０２は、入力したモデルパラメタに対して、上記グループの定義によってグループを定義し、グループ空間における分布に基づくグループパラメタを取得する。グループパラメタの具体例としては、例えば、モデルパラメタを行列とし、グループの定義により、グループをモデルパラメタの行列のうちの行または列と定義したときに、行ベクトルまたは列ベクトルごとのノルムの値などである。

［正則化項計算部３０３］
入力：グループパラメタ、ハイパーパラメタ
出力：正則化項
処理：
正則化項計算部３０３は、グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する（Ｓ３０３）。正則化項計算部３０３は、以下に示すようなグループパラメタw_gが分布に従うことを仮定した正則化項R_proposed(w)を用いる点において、正則化項計算部２０２と異なる処理を実行する。

w_gは任意に決めることができるグループ（ベクトルあるいは行列）における任意のパラメタ（例えばノルム）であり、従来技術２に合わせるとモデルパラメタの行列の行ベクトルあるいは列ベクトルにおける任意のパラメタ（例えばノルム）を示す。上式の括弧｛＊｝内は混合ガウス分布を表しており、jおよびmはグループパラメタの分布を仮定した場合の分布の混合数を表す。混合重みα_j、平均μ_j、分散σ_jはグループパラメタの分布を調整するためのハイパーパラメタであり、これらのハイパーパラメタを調整（例：混合重みα_jの比を変えることで平均μ_jに属するパラメタの重要度を調整）することでモデルサイズの削減量を調整することが可能となる。また、上式では混合ガウス分布を仮定したが実際はガウス分布以外に任意の分布を組み合わせることが可能である。ラプラス分布とガウス分布を組み合わせた場合の正則化項を以下に示す。

第二項は混合ラプラス分布であり、混合重みβ_k，平均μ'_k，分散σ'_kも第一項のハイパーパラメタ同様にモデルサイズの削減量を調整するハイパーパラメタである。上式では微分不可能な点を持つラプラス分布を用いることも可能であることを示しているが実利用では全区間で微分可能であることが望ましい。最後に任意の分布関数F(*)を用いて一般化した場合を以下に示す。

混合重みα_j、平均μ_j、分散σ_jは任意の分布関数のハイパーパラメタを表す。

従来技術２におけるGroup Lassoによるグループ正則化は行や列をグループとしているがグループパラメタの分布は仮定しておらず、分布の形状などの調整はできない。従来技術２におけるGroup Lassoによるグループ正則化では、図１１（ａ）に示すように、モデルの更新に伴って分布の形状は一通りに収束していくため、削除対象となるグループと残すグループの区分の方法が１通りに限定される。そのため、Group Lassoはグループ空間上におけるモデルパラメタの正則化は可能であるが、グループパラメタの分布を調整するような仕組みが定義されていないため分布の大きさなどを調整できず、不要なモデルパラメタの量を調整することが不可能である。

一方、本実施例のニューラルネットワーク学習装置３００によるグループ正則化では、図１１（ｂ）に示すように、グループパラメタの分布の特徴を規定するハイパーパラメタ（例：混合重み、平均、分散など）を生成したため、削除対象となるグループ、残すグループの各分布の形状をカスタマイズすることができ、削除対象となるモデルパラメタの量を調整することができる。

＜効果＞
本実施例のニューラルネットワーク学習装置３００により作成したニューラルネットワークを用いることでモデルサイズの削減量を調整することができ、認識精度を維持しながらGroup Lassoよりもモデルのサイズを削減するといったカスタマイズが可能となるため、ニューラルネットワークを用いたモデルをローカルのシステムに組み込む上でモデルサイズおよび計算量の面で非常に効果的である。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するグループパラメタ生成部と、
前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する正則化項計算部と、
教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するモデル更新部を含む
ニューラルネットワーク学習装置。
請求項１に記載のニューラルネットワーク学習装置であって、
前記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
ニューラルネットワーク学習装置。
請求項１または２に記載のニューラルネットワーク学習装置であって、
前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
ニューラルネットワーク学習装置。
ニューラルネットワーク学習装置が実行するニューラルネットワーク学習方法であって、
行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するステップと、
前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算するステップと、
教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するステップを含む
ニューラルネットワーク学習方法。
請求項４に記載のニューラルネットワーク学習方法であって、
前記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
ニューラルネットワーク学習方法。
請求項４または５に記載のニューラルネットワーク学習方法であって、
前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
ニューラルネットワーク学習方法。
コンピュータを、請求項１から３の何れかに記載のニューラルネットワーク学習装置として機能させるプログラム。