JP7085158B2 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム - Google Patents

ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム Download PDF

Info

Publication number
JP7085158B2
JP7085158B2 JP2020515482A JP2020515482A JP7085158B2 JP 7085158 B2 JP7085158 B2 JP 7085158B2 JP 2020515482 A JP2020515482 A JP 2020515482A JP 2020515482 A JP2020515482 A JP 2020515482A JP 7085158 B2 JP7085158 B2 JP 7085158B2
Authority
JP
Japan
Prior art keywords
neural network
model
group
network learning
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020515482A
Other languages
English (en)
Other versions
JPWO2019208564A1 (ja
Inventor
崇史 森谷
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019208564A1 publication Critical patent/JPWO2019208564A1/ja
Application granted granted Critical
Publication of JP7085158B2 publication Critical patent/JP7085158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はニューラルネットワークのモデルパラメタをスパースに学習するニューラルネットワーク学習装置、ニューラルネットワーク学習方法、およびプログラムに関する。
<従来技術1>
一般的なニューラルネットワーク学習方法の例として非特許文献1が開示されている。以下、この学習方法を従来技術1と呼称する。非特許文献1の“TRAINING DEEP NEURAL NETWORKS”の節には、音声認識用のニューラルネットワーク型音響モデル(以下、単に「音響モデル」または単に「モデル」とも呼称する)を学習する方法が開示されている。
従来技術1では、事前に学習データの各サンプルから抽出した特徴量(実数ベクトル)と各特徴量に対応する正解ユニット番号(正解ラベル)のペア(教師データ)、および適当な初期モデルを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。
以下、図1を参照して従来技術1のニューラルネットワーク学習方法を実行する、ニューラルネットワーク学習装置100の構成について説明する。同図に示すように、ニューラルネットワーク学習装置100は、中間特徴量抽出部101と、出力確率分布計算部102と、モデル更新部103を含む構成である。以下、図2を参照して、各構成要件の動作について説明する。
[中間特徴量抽出部101]
入力:特徴量
出力:中間特徴量
処理:
中間特徴量抽出部101は、入力された特徴量から、出力確率分布計算部102において正解ユニットを識別しやすくするための中間特徴量(非特許文献1の式(1))を抽出する(S101)。この中間特徴量抽出部101は複数の層のニューラルネットワークで構築されており、層の数だけ中間特徴量を抽出する計算が行われる。
[出力確率分布計算部102]
入力:中間特徴量
出力:出力確率分布
処理:
出力確率分布計算部102は、中間特徴量抽出部101で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットの確率を並べた出力確率分布(非特許文献1の式(2))を計算する(S102)。
この出力確率分布計算部102では、音声認識の場合、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル(音素状態)であるかを計算し、入力した音声の特徴量に対応した出力確率分布を得る。
[モデル更新部103]
入力:モデル(更新前)、出力確率分布、正解ユニット番号
出力:モデル(更新後)
処理:
モデル更新部103は、正解ユニット番号と出力確率分布計算部102より得られる出力確率分布から損失関数L(w)=E(w)(非特許文献1の式(3))を計算し、損失関数L(w)=E(w)の値を減少させるように(非特許文献1の式(4)によって)モデルを更新する(S103)。
更新されるニューラルネットワークモデル内のパラメタ(以下、モデルパラメタと呼称する)は非特許文献1の式(1)の重みwとバイアスbである。学習データの特徴量と正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出→出力確率分布計算→モデル更新の処理を繰り返し、所定回数(通常、数千万~数億回)の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。
<従来技術2>
一方、非特許文献2には、ニューラルネットワークにおけるモデルサイズを削減しながら学習する方法が示されている。以下、この学習方法を従来技術2と呼称する。
一般的なニューラルネットワークの学習における損失関数は以下の式で表される。
L(w)=E(w)
このE(w)は非特許文献1の式(3)のCであり、wは従来技術1において中間特徴量抽出部101および出力確率計算部102が学習するモデルパラメタである。非特許文献2では上式に正則化を加えることでニューラルネットワークのモデルパラメタの一部がスパース(0に近い値)となるような学習を行う。従来技術2では、モデルパラメタの更新部をスパースモデル更新部と呼ぶ。スパースモデル更新部は一般的な損失関数に正則化項を加えた式
L(w)=E(w)+λR(w)
によりモデル更新を実行する。この式の第2項λR(w)は正則化項であり、非特許文献2ではRidge(L2)とGroup Lassoと呼ばれる正則化項が用いられる。λは正則化項の影響を調整するためのハイパーパラメタである。以下に各層lにおける重みパラメタwのみを更新する場合のL2(RL2(w))とGroup Lasso(Rgroup(w))の正則化項を示す。
Figure 0007085158000001
Group Lassoではパラメタ間で任意のグルーピングを行うことが可能であり、非特許文献2ではグループの単位をニューラルネットの素子(行列Wの行あるいは列ごと)としている。Rgroup(w)における
Figure 0007085158000002
はl層の1つの素子とl-1層の全素子(j=1,…,Nl-1)間のパラメタである重みの和を表している。
正則化項は本来過学習を避ける技術であり、目的によって様々な正則化項が存在する。非特許文献2の式(2)ではGroup LassoやRidge(L2)を用いている。非特許文献2にはGroup Lassoを用いることで自分で決めたグループ(例:行列における1行ずつをグループとする)ごとにスパースとなるように学習し、学習後のモデルパラメタから利用者が決めた閾値よりも小さい値をもつグループのモデルパラメタを削除することでモデル全体のサイズを削減したことが開示されている。
以下、図3を参照して従来技術2のニューラルネットワーク学習方法を実行する、ニューラルネットワーク学習装置200の構成について説明する。同図に示すように、ニューラルネットワーク学習装置200は、中間特徴量抽出部101と、出力確率分布計算部102と、スパースモデル更新部201を含み、中間特徴量抽出部101と、出力確率分布計算部102については、従来技術1の同名の構成要件と同じ動作を実行する。以下、図4を参照して、スパースモデル更新部201の動作について説明する。
[スパースモデル更新部201]
入力:モデル(更新前)、出力確率分布、正解ユニット番号、ハイパーパラメタ
出力:スパースなモデル(更新後)
処理:
スパースモデル更新部201は、正則化項λR(w)を計算し、正解ユニット番号と出力確率分布と正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、正則化を行わないモデル更新部103で得られるモデルよりもスパースなモデルを出力する(S201)。正則化項を用いる場合の損失関数を以下に示す。
L(w)=E(w)+λR(w)
以下、図5を参照して、スパースモデル更新部201の詳細について説明する。同図に示すように、スパースモデル更新部201は、正則化項計算部202と、モデル更新部203を含む構成である。以下、図6を参照して、スパースモデル更新部201内の各構成要件の動作について説明する。
[正則化項計算部202]
入力:モデル(更新前)、ハイパーパラメタ
出力:正則化項
処理:
正則化項計算部202は、モデルパラメタと、損失関数への影響を調整するためのハイパーパラメタλに基づいて、正則化項λR(w)を計算する(S202)。R(w)は入力するモデルパラメタから算出され、非特許文献2ではL2
Figure 0007085158000003
やGroup Lasso
Figure 0007085158000004
が用いられている。正則化項には、損失関数への影響を調整するためのハイパーパラメタλを用いる。
[モデル更新部203]
入力:モデル(更新前)、出力確率分布、正解ユニット番号、正則化項
出力:モデル(更新後)
処理:
モデル更新部203は、正解ユニット番号(教師データにおける正解ラベル)と、正解ユニット番号(教師データにおける正解ラベル)に対応する中間特徴量をニューラルネットワークモデルに入力して得られる出力確率分布と、正則化項から損失関数を計算し、損失関数L(w)=E(w)+λR(w)の値を減少させるようにニューラルネットワークモデルを更新する(S203)。
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. T. Ochiai, S. Matsuda, H. Watanabe, and S. Katagiri, "Automatic Node Selection for Deep Neural Networks Using Group Lasso Regularization."ICASSP, pp. 5485-48, 2017.
従来技術1では、ニューラルネットワークの学習は指定したパラメタ数をもとにモデルの構築が行われる。すなわち構築されたモデルのサイズは設計者に依存する。しかしながら、このモデルの内部には不要なパラメタが存在しており、ローカルで動作するための音声認識システムを構築するにはモデルサイズや計算量の面でコストがかかるという課題がある(課題1)。
この課題1に対して従来技術2ではモデルを従来通り学習しながら不要なモデルパラメタ(0に近い値)を削除することでモデルサイズを削減する方法が提案されている。通常のL2正則化(上述)ではパラメタ全体の値は小さくなる(行列の0に近い要素が増える)が、行あるいは列ごと削除できないためモデルサイズおよび計算量は削減できない。従来技術2ではグループごとのノルムの値を0に近づけるGroup Lasso(上述)を用いることで、行あるいは列をグループとし、学習後にノルムの値が0に近い行あるいは列を削除することでモデルサイズと計算量の削減を実現した。具体的にはGroup Lassoでは行あるいは列をグループとし、図11の(a)に示すようにグループごとにノルムの値を計算したときの頻度を分布とみなし、分布間の境界にあたる値を閾値とし、その閾値よりも小さいノルムとなるグループに該当する行あるいは列に対応するモデルパラメタを削除することでモデルサイズの削減を行う。このとき、Group Lassoではこのノルムの値の頻度の分布を調整できないため、削減するモデルパラメタの数を調整できないという課題がある(課題2)。課題2により、現状のGroup Lassoを用いたニューラルネットワークのモデルサイズ削減方法ではモデルサイズの削減量を調整することは困難である。
そこで本発明では、モデルサイズの削減量を調整することができるニューラルネットワーク学習装置を提供することを目的とする。
本発明のニューラルネットワーク学習装置は、グループパラメタ生成部と、正則化項計算部と、モデル更新部を含む。
グループパラメタ生成部は、ニューラルネットワークモデルのモデルパラメタを、任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成する。
正則化項計算部は、グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する。
モデル更新部は、教師データにおける正解ラベルと、教師データにおける正解ラベルに対応する特徴量をニューラルネットワークモデルに入力して得られる出力確率分布と、正則化項から損失関数を計算し、損失関数の値を減少させるようにニューラルネットワークモデルを更新する。
本発明のニューラルネットワーク学習装置によれば、モデルサイズの削減量を調整することができる。
従来技術1のニューラルネットワーク学習装置の構成を示すブロック図。 従来技術1のニューラルネットワーク学習装置の動作を示すフローチャート。 従来技術2のニューラルネットワーク学習装置の構成を示すブロック図。 従来技術2のニューラルネットワーク学習装置の動作を示すフローチャート。 従来技術2のスパースモデル更新部の構成を示すブロック図。 従来技術2のスパースモデル更新部の動作を示すフローチャート。 実施例1のニューラルネットワーク学習装置の構成を示すブロック図。 実施例1のニューラルネットワーク学習装置の動作を示すフローチャート。 実施例1のスパースモデル更新部の構成を示すブロック図。 実施例1のスパースモデル更新部の動作を示すフローチャート。 従来技術2と実施例1のニューラルネットワーク学習装置の違いを説明する概念図であって、図11(a)は、従来技術2のニューラルネットワーク学習装置のモデルパラメタ削除の概要を示す図、図11(b)は、実施例1のニューラルネットワーク学習装置のモデルパラメタ削除の概要を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施例1のニューラルネットワーク学習装置では、従来技術2における正則化技術を改善した。従来技術2ではモデルサイズの削減量を定義できなかったが、実施例1のニューラルネットワーク学習装置ではモデルサイズの削減量に影響するパラメタを導入することにより、モデルサイズの削減量を調整することができる。
以下、図7を参照して実施例1のニューラルネットワーク学習装置300の構成について説明する。同図に示すように、ニューラルネットワーク学習装置300は、中間特徴量抽出部101と、出力確率分布計算部102と、スパースモデル更新部301を含み、中間特徴量抽出部101と、出力確率分布計算部102については、従来技術1、従来技術2の同名の構成要件と同じ動作を実行する。以下、図8を参照して、スパースモデル更新部301の動作について説明する。
[スパースモデル更新部301]
入力:モデル(更新前)、出力確率分布、正解ユニット番号
出力:スパースなモデル(更新後)
処理:
スパースモデル更新部301は、グループパラメタと正則化項λR(w)を生成し、正解ユニット番号と出力確率分布とグループパラメタと正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、スパースなモデルを出力する(S301)。
以下、図9を参照して、スパースモデル更新部301の詳細について説明する。同図に示すように、スパースモデル更新部301は、グループパラメタ生成部302と、正則化項計算部303と、モデル更新部203を含む構成である。モデル更新部203は、従来技術2における同名の構成要件と同じ動作を実行する。以下、図10を参照して、スパースモデル更新部301内の各構成要件の動作について説明する。
[グループパラメタ生成部302]
入力:モデル(更新前)、グループの定義(行、列といった具体的なグルーピングの方法)
出力:グループパラメタ
処理:
グループパラメタ生成部302は、入力したモデル(更新前)のモデルパラメタを、上記グループの定義(行、列といった具体的なグルーピングの方法)によって任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成する(S302)。別の表現では、グループパラメタ生成部302は、入力したモデルパラメタに対して、上記グループの定義によってグループを定義し、グループ空間における分布に基づくグループパラメタを取得する。グループパラメタの具体例としては、例えば、モデルパラメタを行列とし、グループの定義により、グループをモデルパラメタの行列のうちの行または列と定義したときに、行ベクトルまたは列ベクトルごとのノルムの値などである。
[正則化項計算部303]
入力:グループパラメタ、ハイパーパラメタ
出力:正則化項
処理:
正則化項計算部303は、グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する(S303)。正則化項計算部303は、以下に示すようなグループパラメタwgが分布に従うことを仮定した正則化項Rproposed(w)を用いる点において、正則化項計算部202と異なる処理を実行する。
Figure 0007085158000005
wgは任意に決めることができるグループ(ベクトルあるいは行列)における任意のパラメタ(例えばノルム)であり、従来技術2に合わせるとモデルパラメタの行列の行ベクトルあるいは列ベクトルにおける任意のパラメタ(例えばノルム)を示す。上式の括弧{*}内は混合ガウス分布を表しており、jおよびmはグループパラメタの分布を仮定した場合の分布の混合数を表す。混合重みαj、平均μj、分散σjはグループパラメタの分布を調整するためのハイパーパラメタであり、これらのハイパーパラメタを調整(例:混合重みαjの比を変えることで平均μjに属するパラメタの重要度を調整)することでモデルサイズの削減量を調整することが可能となる。また、上式では混合ガウス分布を仮定したが実際はガウス分布以外に任意の分布を組み合わせることが可能である。ラプラス分布とガウス分布を組み合わせた場合の正則化項を以下に示す。
Figure 0007085158000006
第二項は混合ラプラス分布であり、混合重みβk,平均μ'k,分散σ'kも第一項のハイパーパラメタ同様にモデルサイズの削減量を調整するハイパーパラメタである。上式では微分不可能な点を持つラプラス分布を用いることも可能であることを示しているが実利用では全区間で微分可能であることが望ましい。最後に任意の分布関数F(*)を用いて一般化した場合を以下に示す。
Figure 0007085158000007
混合重みαj、平均μj、分散σjは任意の分布関数のハイパーパラメタを表す。
従来技術2におけるGroup Lassoによるグループ正則化は行や列をグループとしているがグループパラメタの分布は仮定しておらず、分布の形状などの調整はできない。従来技術2におけるGroup Lassoによるグループ正則化では、図11(a)に示すように、モデルの更新に伴って分布の形状は一通りに収束していくため、削除対象となるグループと残すグループの区分の方法が1通りに限定される。そのため、Group Lassoはグループ空間上におけるモデルパラメタの正則化は可能であるが、グループパラメタの分布を調整するような仕組みが定義されていないため分布の大きさなどを調整できず、不要なモデルパラメタの量を調整することが不可能である。
一方、本実施例のニューラルネットワーク学習装置300によるグループ正則化では、図11(b)に示すように、グループパラメタの分布の特徴を規定するハイパーパラメタ(例:混合重み、平均、分散など)を生成したため、削除対象となるグループ、残すグループの各分布の形状をカスタマイズすることができ、削除対象となるモデルパラメタの量を調整することができる。
<効果>
本実施例のニューラルネットワーク学習装置300により作成したニューラルネットワークを用いることでモデルサイズの削減量を調整することができ、認識精度を維持しながらGroup Lassoよりもモデルのサイズを削減するといったカスタマイズが可能となるため、ニューラルネットワークを用いたモデルをローカルのシステムに組み込む上でモデルサイズおよび計算量の面で非常に効果的である。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するグループパラメタ生成部と、
    前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する正則化項計算部と、
    教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するモデル更新部を含む
    ニューラルネットワーク学習装置。
  2. 請求項1に記載のニューラルネットワーク学習装置であって、
    記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
    ニューラルネットワーク学習装置。
  3. 請求項1または2に記載のニューラルネットワーク学習装置であって、
    前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
    ニューラルネットワーク学習装置。
  4. ニューラルネットワーク学習装置が実行するニューラルネットワーク学習方法であって、
    行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するステップと、
    前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算するステップと、
    教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するステップを含む
    ニューラルネットワーク学習方法。
  5. 請求項4に記載のニューラルネットワーク学習方法であって、
    記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
    ニューラルネットワーク学習方法。
  6. 請求項4または5に記載のニューラルネットワーク学習方法であって、
    前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
    ニューラルネットワーク学習方法。
  7. コンピュータを、請求項1から3の何れかに記載のニューラルネットワーク学習装置として機能させるプログラム。
JP2020515482A 2018-04-26 2019-04-23 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム Active JP7085158B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018084760 2018-04-26
JP2018084760 2018-04-26
PCT/JP2019/017216 WO2019208564A1 (ja) 2018-04-26 2019-04-23 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019208564A1 JPWO2019208564A1 (ja) 2021-04-22
JP7085158B2 true JP7085158B2 (ja) 2022-06-16

Family

ID=68295050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020515482A Active JP7085158B2 (ja) 2018-04-26 2019-04-23 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム

Country Status (3)

Country Link
US (1) US12159222B2 (ja)
JP (1) JP7085158B2 (ja)
WO (1) WO2019208564A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275183B (zh) * 2020-01-14 2023-06-16 北京迈格威科技有限公司 视觉任务的处理方法、装置和电子系统
TWI831016B (zh) * 2020-06-05 2024-02-01 宏達國際電子股份有限公司 機器學習方法、機器學習系統以及非暫態電腦可讀取媒體
CN111860834B (zh) * 2020-07-09 2024-05-24 中国科学院深圳先进技术研究院 一种神经网络调优方法、系统、终端以及存储介质
JP2025128532A (ja) * 2024-02-22 2025-09-03 国立大学法人 東京大学 タイムストレッチ分光装置及びタイムストレッチ分光法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014145203A2 (en) * 2013-03-15 2014-09-18 Biogen Idec Ma Inc. Systems and methods for characterization of multiple sclerosis
CN107341679A (zh) * 2016-04-29 2017-11-10 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
US20180121814A1 (en) * 2016-10-31 2018-05-03 Microsoft Technology Licensing, Llc Hyperparameter tuning
US10679129B2 (en) * 2017-09-28 2020-06-09 D5Ai Llc Stochastic categorical autoencoder network
WO2019079182A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION
US11295232B2 (en) * 2017-10-30 2022-04-05 Microsoft Technology Licensing, Llc Learning the structure of hierarchical extraction models

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SCARDAPANE, Simone et al.,"Group Sparse Regularization for Deep Neural Networks",arXiv.org,2016年07月02日,[online], [2021年10月15日検索], インターネット<URL: https://arxiv.org/pdf/1607.00485.pdf>,<DOI: 10.1016/j.neucom.2017.02.029>
XU, Xiaofan et al.,"Bayesian Variable Selection and Estimation for Group Lasso",arXiv.org,2015年12月03日,[online], [2021年10月15日検索], インターネット<URL: https://arxiv.org/pdf/1512.01013.pdf>,<DOI: 10.1214/14-BA929>

Also Published As

Publication number Publication date
US12159222B2 (en) 2024-12-03
US20210081792A1 (en) 2021-03-18
WO2019208564A1 (ja) 2019-10-31
JPWO2019208564A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
CN110366734B (zh) 优化神经网络架构
JP7085158B2 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
KR102410260B1 (ko) 인공지능 기반 광고 콘텐츠 자동 생성 및 확인 방법, 장치 및 시스템
CN112270547A (zh) 基于特征构造的金融风险评估方法、装置和电子设备
US20210303970A1 (en) Processing data using multiple neural networks
Salehinejad et al. Customer shopping pattern prediction: A recurrent neural network approach
WO2020226634A1 (en) Distributed synchronous training architecture using stale weights
JP6853955B2 (ja) 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム
US20220405639A1 (en) Information processing apparatus, information processing method and program
JP6827911B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US12182711B2 (en) Generation of neural network containing middle layer background
JPWO2019235283A1 (ja) モデル学習装置、方法及びプログラム
JP7624420B2 (ja) 情報処理システム、情報処理方法、及び情報処理プログラム
Folini et al. Cluster analysis: A comprehensive and versatile qgis plugin for pattern recognition in geospatial data
CN115936802A (zh) 基于用户画像和序列建模的个性化营销方法、装置、设备和存储介质
JP7425210B2 (ja) 情報処理システムおよび最適解探索処理方法
US12346804B2 (en) Acoustic model learning apparatus, model learning apparatus, method and program for the same
CN116304607A (zh) 用于使用深度强化学习进行预测建模的自动特征工程
US11281747B2 (en) Predicting variables where a portion are input by a user and a portion are predicted by a system
WO2019194128A1 (ja) モデル学習装置、モデル学習方法、プログラム
Lamons et al. Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems
EP4125001B1 (en) Machine learning program, information processing device, and machine learning method
Dehuri et al. A condensed polynomial neural network for classification using swarm intelligence
JP7470019B2 (ja) 情報処理システム
CN117112858A (zh) 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220506

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220519

R150 Certificate of patent or registration of utility model

Ref document number: 7085158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350