JP7085158B2 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム - Google Patents
ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム Download PDFInfo
- Publication number
- JP7085158B2 JP7085158B2 JP2020515482A JP2020515482A JP7085158B2 JP 7085158 B2 JP7085158 B2 JP 7085158B2 JP 2020515482 A JP2020515482 A JP 2020515482A JP 2020515482 A JP2020515482 A JP 2020515482A JP 7085158 B2 JP7085158 B2 JP 7085158B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- model
- group
- network learning
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一般的なニューラルネットワーク学習方法の例として非特許文献1が開示されている。以下、この学習方法を従来技術1と呼称する。非特許文献1の“TRAINING DEEP NEURAL NETWORKS”の節には、音声認識用のニューラルネットワーク型音響モデル(以下、単に「音響モデル」または単に「モデル」とも呼称する)を学習する方法が開示されている。
入力:特徴量
出力:中間特徴量
処理:
中間特徴量抽出部101は、入力された特徴量から、出力確率分布計算部102において正解ユニットを識別しやすくするための中間特徴量(非特許文献1の式(1))を抽出する(S101)。この中間特徴量抽出部101は複数の層のニューラルネットワークで構築されており、層の数だけ中間特徴量を抽出する計算が行われる。
入力:中間特徴量
出力:出力確率分布
処理:
出力確率分布計算部102は、中間特徴量抽出部101で抽出した中間特徴量を現在のモデルに入力して出力層の各ユニットの確率を並べた出力確率分布(非特許文献1の式(2))を計算する(S102)。
入力:モデル(更新前)、出力確率分布、正解ユニット番号
出力:モデル(更新後)
処理:
モデル更新部103は、正解ユニット番号と出力確率分布計算部102より得られる出力確率分布から損失関数L(w)=E(w)(非特許文献1の式(3))を計算し、損失関数L(w)=E(w)の値を減少させるように(非特許文献1の式(4)によって)モデルを更新する(S103)。
一方、非特許文献2には、ニューラルネットワークにおけるモデルサイズを削減しながら学習する方法が示されている。以下、この学習方法を従来技術2と呼称する。
L(w)=E(w)
このE(w)は非特許文献1の式(3)のCであり、wは従来技術1において中間特徴量抽出部101および出力確率計算部102が学習するモデルパラメタである。非特許文献2では上式に正則化を加えることでニューラルネットワークのモデルパラメタの一部がスパース(0に近い値)となるような学習を行う。従来技術2では、モデルパラメタの更新部をスパースモデル更新部と呼ぶ。スパースモデル更新部は一般的な損失関数に正則化項を加えた式
L(w)=E(w)+λR(w)
によりモデル更新を実行する。この式の第2項λR(w)は正則化項であり、非特許文献2ではRidge(L2)とGroup Lassoと呼ばれる正則化項が用いられる。λは正則化項の影響を調整するためのハイパーパラメタである。以下に各層lにおける重みパラメタwのみを更新する場合のL2(RL2(w))とGroup Lasso(Rgroup(w))の正則化項を示す。
入力:モデル(更新前)、出力確率分布、正解ユニット番号、ハイパーパラメタ
出力:スパースなモデル(更新後)
処理:
スパースモデル更新部201は、正則化項λR(w)を計算し、正解ユニット番号と出力確率分布と正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、正則化を行わないモデル更新部103で得られるモデルよりもスパースなモデルを出力する(S201)。正則化項を用いる場合の損失関数を以下に示す。
L(w)=E(w)+λR(w)
以下、図5を参照して、スパースモデル更新部201の詳細について説明する。同図に示すように、スパースモデル更新部201は、正則化項計算部202と、モデル更新部203を含む構成である。以下、図6を参照して、スパースモデル更新部201内の各構成要件の動作について説明する。
入力:モデル(更新前)、ハイパーパラメタ
出力:正則化項
処理:
正則化項計算部202は、モデルパラメタと、損失関数への影響を調整するためのハイパーパラメタλに基づいて、正則化項λR(w)を計算する(S202)。R(w)は入力するモデルパラメタから算出され、非特許文献2ではL2
入力:モデル(更新前)、出力確率分布、正解ユニット番号、正則化項
出力:モデル(更新後)
処理:
モデル更新部203は、正解ユニット番号(教師データにおける正解ラベル)と、正解ユニット番号(教師データにおける正解ラベル)に対応する中間特徴量をニューラルネットワークモデルに入力して得られる出力確率分布と、正則化項から損失関数を計算し、損失関数L(w)=E(w)+λR(w)の値を減少させるようにニューラルネットワークモデルを更新する(S203)。
入力:モデル(更新前)、出力確率分布、正解ユニット番号
出力:スパースなモデル(更新後)
処理:
スパースモデル更新部301は、グループパラメタと正則化項λR(w)を生成し、正解ユニット番号と出力確率分布とグループパラメタと正則化項λR(w)から損失関数を計算し、損失関数の値を減少させるようにモデルを更新し、スパースなモデルを出力する(S301)。
入力:モデル(更新前)、グループの定義(行、列といった具体的なグルーピングの方法)
出力:グループパラメタ
処理:
グループパラメタ生成部302は、入力したモデル(更新前)のモデルパラメタを、上記グループの定義(行、列といった具体的なグルーピングの方法)によって任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成する(S302)。別の表現では、グループパラメタ生成部302は、入力したモデルパラメタに対して、上記グループの定義によってグループを定義し、グループ空間における分布に基づくグループパラメタを取得する。グループパラメタの具体例としては、例えば、モデルパラメタを行列とし、グループの定義により、グループをモデルパラメタの行列のうちの行または列と定義したときに、行ベクトルまたは列ベクトルごとのノルムの値などである。
入力:グループパラメタ、ハイパーパラメタ
出力:正則化項
処理:
正則化項計算部303は、グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する(S303)。正則化項計算部303は、以下に示すようなグループパラメタwgが分布に従うことを仮定した正則化項Rproposed(w)を用いる点において、正則化項計算部202と異なる処理を実行する。
本実施例のニューラルネットワーク学習装置300により作成したニューラルネットワークを用いることでモデルサイズの削減量を調整することができ、認識精度を維持しながらGroup Lassoよりもモデルのサイズを削減するといったカスタマイズが可能となるため、ニューラルネットワークを用いたモデルをローカルのシステムに組み込む上でモデルサイズおよび計算量の面で非常に効果的である。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するグループパラメタ生成部と、
前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算する正則化項計算部と、
教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するモデル更新部を含む
ニューラルネットワーク学習装置。 - 請求項1に記載のニューラルネットワーク学習装置であって、
前記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
ニューラルネットワーク学習装置。 - 請求項1または2に記載のニューラルネットワーク学習装置であって、
前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
ニューラルネットワーク学習装置。 - ニューラルネットワーク学習装置が実行するニューラルネットワーク学習方法であって、
行列として定義したニューラルネットワークモデルのモデルパラメタを、行または列として任意に定義したグループにグループ分けし、各グループの特徴を表すグループパラメタを生成するステップと、
前記グループパラメタの分布が、分布の特徴を規定するパラメタであるハイパーパラメタによって規定される分布に従うことを仮定して正則化項を計算するステップと、
教師データにおける正解ラベルと、前記教師データにおける前記正解ラベルに対応する特徴量を前記ニューラルネットワークモデルに入力して得られる出力確率分布と、前記正則化項から損失関数を計算し、損失関数の値を減少させるように前記ニューラルネットワークモデルを更新するステップを含む
ニューラルネットワーク学習方法。 - 請求項4に記載のニューラルネットワーク学習方法であって、
前記グループパラメタを行ベクトルまたは列ベクトルのノルムとした
ニューラルネットワーク学習方法。 - 請求項4または5に記載のニューラルネットワーク学習方法であって、
前記ハイパーパラメタは、混合重み、平均、分散のうち少なくとも何れか一つを含む
ニューラルネットワーク学習方法。 - コンピュータを、請求項1から3の何れかに記載のニューラルネットワーク学習装置として機能させるプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018084760 | 2018-04-26 | ||
| JP2018084760 | 2018-04-26 | ||
| PCT/JP2019/017216 WO2019208564A1 (ja) | 2018-04-26 | 2019-04-23 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2019208564A1 JPWO2019208564A1 (ja) | 2021-04-22 |
| JP7085158B2 true JP7085158B2 (ja) | 2022-06-16 |
Family
ID=68295050
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020515482A Active JP7085158B2 (ja) | 2018-04-26 | 2019-04-23 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12159222B2 (ja) |
| JP (1) | JP7085158B2 (ja) |
| WO (1) | WO2019208564A1 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111275183B (zh) * | 2020-01-14 | 2023-06-16 | 北京迈格威科技有限公司 | 视觉任务的处理方法、装置和电子系统 |
| TWI831016B (zh) * | 2020-06-05 | 2024-02-01 | 宏達國際電子股份有限公司 | 機器學習方法、機器學習系統以及非暫態電腦可讀取媒體 |
| CN111860834B (zh) * | 2020-07-09 | 2024-05-24 | 中国科学院深圳先进技术研究院 | 一种神经网络调优方法、系统、终端以及存储介质 |
| JP2025128532A (ja) * | 2024-02-22 | 2025-09-03 | 国立大学法人 東京大学 | タイムストレッチ分光装置及びタイムストレッチ分光法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014145203A2 (en) * | 2013-03-15 | 2014-09-18 | Biogen Idec Ma Inc. | Systems and methods for characterization of multiple sclerosis |
| CN107341679A (zh) * | 2016-04-29 | 2017-11-10 | 腾讯科技(深圳)有限公司 | 获取用户画像的方法及装置 |
| US20180121814A1 (en) * | 2016-10-31 | 2018-05-03 | Microsoft Technology Licensing, Llc | Hyperparameter tuning |
| US10679129B2 (en) * | 2017-09-28 | 2020-06-09 | D5Ai Llc | Stochastic categorical autoencoder network |
| WO2019079182A1 (en) * | 2017-10-16 | 2019-04-25 | Illumina, Inc. | SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
| US11295232B2 (en) * | 2017-10-30 | 2022-04-05 | Microsoft Technology Licensing, Llc | Learning the structure of hierarchical extraction models |
-
2019
- 2019-04-23 JP JP2020515482A patent/JP7085158B2/ja active Active
- 2019-04-23 WO PCT/JP2019/017216 patent/WO2019208564A1/ja not_active Ceased
- 2019-04-23 US US17/050,265 patent/US12159222B2/en active Active
Non-Patent Citations (2)
| Title |
|---|
| SCARDAPANE, Simone et al.,"Group Sparse Regularization for Deep Neural Networks",arXiv.org,2016年07月02日,[online], [2021年10月15日検索], インターネット<URL: https://arxiv.org/pdf/1607.00485.pdf>,<DOI: 10.1016/j.neucom.2017.02.029> |
| XU, Xiaofan et al.,"Bayesian Variable Selection and Estimation for Group Lasso",arXiv.org,2015年12月03日,[online], [2021年10月15日検索], インターネット<URL: https://arxiv.org/pdf/1512.01013.pdf>,<DOI: 10.1214/14-BA929> |
Also Published As
| Publication number | Publication date |
|---|---|
| US12159222B2 (en) | 2024-12-03 |
| US20210081792A1 (en) | 2021-03-18 |
| WO2019208564A1 (ja) | 2019-10-31 |
| JPWO2019208564A1 (ja) | 2021-04-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110366734B (zh) | 优化神经网络架构 | |
| JP7085158B2 (ja) | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム | |
| KR102410260B1 (ko) | 인공지능 기반 광고 콘텐츠 자동 생성 및 확인 방법, 장치 및 시스템 | |
| CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
| US20210303970A1 (en) | Processing data using multiple neural networks | |
| Salehinejad et al. | Customer shopping pattern prediction: A recurrent neural network approach | |
| WO2020226634A1 (en) | Distributed synchronous training architecture using stale weights | |
| JP6853955B2 (ja) | 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム | |
| US20220405639A1 (en) | Information processing apparatus, information processing method and program | |
| JP6827911B2 (ja) | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム | |
| US12182711B2 (en) | Generation of neural network containing middle layer background | |
| JPWO2019235283A1 (ja) | モデル学習装置、方法及びプログラム | |
| JP7624420B2 (ja) | 情報処理システム、情報処理方法、及び情報処理プログラム | |
| Folini et al. | Cluster analysis: A comprehensive and versatile qgis plugin for pattern recognition in geospatial data | |
| CN115936802A (zh) | 基于用户画像和序列建模的个性化营销方法、装置、设备和存储介质 | |
| JP7425210B2 (ja) | 情報処理システムおよび最適解探索処理方法 | |
| US12346804B2 (en) | Acoustic model learning apparatus, model learning apparatus, method and program for the same | |
| CN116304607A (zh) | 用于使用深度强化学习进行预测建模的自动特征工程 | |
| US11281747B2 (en) | Predicting variables where a portion are input by a user and a portion are predicted by a system | |
| WO2019194128A1 (ja) | モデル学習装置、モデル学習方法、プログラム | |
| Lamons et al. | Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems | |
| EP4125001B1 (en) | Machine learning program, information processing device, and machine learning method | |
| Dehuri et al. | A condensed polynomial neural network for classification using swarm intelligence | |
| JP7470019B2 (ja) | 情報処理システム | |
| CN117112858A (zh) | 基于关联规则挖掘的对象筛选方法、处理器及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201012 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211026 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220506 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220519 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7085158 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |



