WO2017149722A1

WO2017149722A1 - 演算装置および演算方法

Info

Publication number: WO2017149722A1
Application number: PCT/JP2016/056583
Authority: WO
Inventors: 知宏成田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2017-09-08
Anticipated expiration: 2018-09-03

Abstract

演算装置（１）は、多層ニューラルネットワークの層ごとの重み行列を記憶している重み記憶部（１０１）と、重み記憶部（１０１）に記憶されている重み行列と、多層ニューラルネットワークの入力層に入力されたベクトルまたは一つ前の層から出力されたベクトルとの乗算を行う行列乗算部（１００）と、スカラ量子化を行う量子化範囲とその量子化値との対応関係を表したスカラ量子化テーブルを記憶しているスカラ量子化テーブル記憶部（１０４）と、スカラ量子化テーブルを参照して行列乗算部（１００）から出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化部（１０３）と、多層ニューラルネットワークの出力層においてスカラ量子化部（１０３）から出力されたベクトルを用いて尤度ベクトルを算出する尤度算出部（１０５）と、多層ニューラルネットワークの層ごとにスカラ量子化を実施するか否かを制御するスカラ量子化制御部（１０２）とを備える。

Description

演算装置および演算方法

　この発明は、多層ニューラルネットワーク（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＤＮＮ）の出力値を演算する演算装置および演算方法に関するものである。

　近年、パターン認識の分野において、ＤＮＮを使用することによる顕著な性能向上が報告されている。例えば音声認識の分野では、ＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）ベースの音響尤度計算をＤＮＮで行うＤＮＮ－ＨＭＭが提案されている。このＤＮＮ－ＨＭＭは、従来のＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）で音響尤度計算を行うＧＭＭ－ＨＭＭに比べ、性能が大幅に向上する（例えば、非特許文献１参照）。ＤＮＮ－ＨＭＭでは、ＤＮＮの入力層にフィルタバンク特徴量およびその動的特徴を複数フレーム連結したベクトルが入力され、出力層の出力値に対して学習データ数から算出される事前確率による正規化が行われ、音響尤度が算出される。

　ＤＮＮ－ＨＭＭは、一般的に、隠れ層のユニット数が多いほど高い認識性能が期待できる。しかし、ＤＮＮの各層の活性化関数適用前の出力の計算において積和演算が生じるため、演算時間は隠れ層のユニット数の２乗に比例する。よって、組み込み機器のような計算リソースに制限がある演算装置に対してＤＮＮ－ＨＭＭを適用した場合、ユニット数を増やせず、高い認識性能を得られない。

　非特許文献２には、特異値分解をＤＮＮに適用し、低ランク近似により隠れ層のユニット数を削減することが記載されている。ＤＮＮによる認識性能は低ランク近似の方法および近似後の再学習の方法に依存するため、非特許文献２記載の方法ではユニット数を削減することができても、安定した認識性能は得られ難い。

G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition." Signal Processing Magazine, IEEE, 2012, Vol. 29(6), p. 82-97 J. Xue, J. Li, and Y. Gong, "Restructuring of deep neural network acoustic models with singular value decomposition." Proceedings of INTERSPEECH, Aug., 2013, p. 2365-2369

　以上のように、従来は、組み込み機器のような計算リソースに制限がある演算装置に搭載された多層ニューラルネットワークでは高い認識性能を得られないという課題があった。

　この発明は、上記のような課題を解決するためになされたもので、組み込み機器のような計算リソースに制限がある演算装置に搭載された多層ニューラルネットワークの認識性能を向上させることを目的とする。

　この発明に係る演算装置は、多層ニューラルネットワークの層ごとの重み行列を記憶している重み記憶部と、重み記憶部に記憶されている重み行列と、多層ニューラルネットワークの入力層に入力されたベクトルまたは一つ前の層から出力されたベクトルとの乗算を行う行列乗算部と、スカラ量子化を行う量子化範囲とその量子化値との対応関係を表したスカラ量子化テーブルを記憶しているスカラ量子化テーブル記憶部と、スカラ量子化テーブルを参照して行列乗算部から出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化部と、多層ニューラルネットワークの出力層においてスカラ量子化部から出力されたベクトルを用いて尤度ベクトルを算出する尤度算出部と、多層ニューラルネットワークの層ごとに、スカラ量子化部によるスカラ量子化を実施するか否かを制御するスカラ量子化制御部とを備えるものである。

　この発明によれば、多層ニューラルネットワークのある層においてスカラ量子化を実施した場合、次の層ではスカラ量子化されたベクトルと重み行列との乗算を行うことになるので、スカラ量子化されていないベクトルと重み行列との乗算を行う場合に比べて演算量を削減することができる。従って、計算リソースに制限がある演算装置においてもユニット数の大きい多層ニューラルネットワークを搭載可能となり、認識性能を向上させることができる。

この発明の実施の形態１に係る演算装置の構成例を示すブロック図である。図２Ａおよび図２Ｂは、実施の形態１に係る演算装置のハードウェア構成図である。実施の形態１に係る演算装置の動作を示すフローチャートである。実施の形態１に係る演算装置におけるスカラ量子化部の動作を示すフローチャートである。実施の形態１に係る演算装置におけるスカラ量子化テーブル記憶部が記憶しているスカラ量子化テーブルの一例である。この発明の実施の形態２に係る演算装置の理解を助けるための図であり、多層ニューラルネットワークの各層の出力ベクトルの値を０．０１刻みでカウントしその頻度をグラフにしたものである。この発明の実施の形態３に係る演算装置の構成例を示すブロック図である。実施の形態３に係る演算装置における重み総和値記憶部が記憶しているインデックスの集合とその集合に対応する重みの総和値の一例である。この発明の実施の形態４に係る演算装置の構成例を示すブロック図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る演算装置１の構成例を示すブロック図である。この演算装置１は、多層ニューラルネットワークを用いて特徴ベクトルに対する尤度演算処理を行い、尤度ベクトルを出力する装置である。図示するように、実施の形態１に係る演算装置１は、行列乗算部１００、重み記憶部１０１、スカラ量子化制御部１０２、スカラ量子化部１０３、スカラ量子化テーブル記憶部１０４、および尤度算出部１０５を備えている。

　図２Ａは、実施の形態１に係る演算装置１のハードウェア構成図である。演算装置１は、プロセッサ２およびメモリ３を備えている。演算装置１における行列乗算部１００、スカラ量子化制御部１０２、スカラ量子化部１０３および尤度算出部１０５の各機能は、プロセッサ２がメモリ３に格納されているプログラムを実行することによって実現される。プロセッサ２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、処理装置、マイクロプロセッサ、マイクロコンピュータ、またはＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等ともいう。メモリ３は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　ＥＰＲＯＭ）、フラッシュメモリ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の光ディスクであってもよい。また、演算装置１における重み記憶部１０１およびスカラ量子化テーブル記憶部１０４は、メモリ３である。

　図２Ａに示すように、演算装置１がプロセッサ２を備える構成である場合、行列乗算部１００、スカラ量子化制御部１０２、スカラ量子化部１０３およびスカラ量子化テーブル記憶部１０４の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ３に格納される。プロセッサ２は、メモリ３に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。即ち、演算装置１は、プロセッサ２により実行されるときに、重み行列とベクトルとの乗算を行う行列乗算ステップと、行列乗算ステップで出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化ステップと、多層ニューラルネットワークの出力層においてスカラ量子化ステップで出力されたベクトルを用いて尤度ベクトルを算出する尤度算出ステップと、多層ニューラルネットワークの層ごとにスカラ量子化を実施するか否かを制御するスカラ量子化制御ステップとが実行されることになるプログラムを格納するためのメモリ３を備える。また、このプログラムは、行列乗算部１００、スカラ量子化制御部１０２、スカラ量子化部１０３および尤度算出部１０５の手順または方法をコンピュータに実行させるものであるともいえる。

　あるいは、図２Ｂに示すように、演算装置１を専用の処理回路４により実現してもよい。処理回路４は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、（Ａｐｐｌｉｃａｔｉｏｎ－Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、またはこれらを組み合わせたものが該当する。行列乗算部１００、スカラ量子化制御部１０２、スカラ量子化部１０３および尤度算出部１０５の機能を複数の処理回路４で実現してもよいし、これらの機能をまとめて１つの処理回路４で実現してもよい。また、行列乗算部１００、スカラ量子化制御部１０２、スカラ量子化部１０３および尤度算出部１０５の各機能について、一部を処理回路４で実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。

　次に、図３を参照し演算装置１の具体的な処理手順を述べる。図３は、実施の形態１に係る演算装置１の動作を示すフローチャートである。
　以下では演算装置１を音声認識に用いる例を説明するが、音声認識の用途に限定されるものではなく、画像認識およびセンサ情報からの物体認識など、パターン認識一般に適用可能である。

　ステップＳＴ１０１において、行列乗算部１００は、多層ニューラルネットワークの階層番号Ｌを１に初期化する。また、行列乗算部１００は、入力層に入力される入力ベクトルの各次元の値ｘ_ｉ（ｉ＝１～Ｉ）に、特徴ベクトルの各次元の値ｖ_ｉ（ｉ＝１～Ｉ）を代入する。
　ＤＮＮ－ＨＭＭでは一般的に、特徴ベクトルとして、フィルタバンク特徴量およびその動的特徴を複数フレーム連結したベクトルが用いられる。

　ステップＳＴ１０２において、行列乗算部１００は、重み記憶部１０１における階層Ｌの入力次元数ＤＩＮ_Ｌを参照してＩに代入すると共に、重み記憶部１０１における階層Ｌの出力次元数ＤＯＵＴ_Ｌを参照してＪに代入する。重み記憶部１０１は、階層別にＤＯＵＴ_Ｌ×ＤＩＮ_Ｌの重み行列ｗ_ｊｉを記憶している。
　なお、階層Ｌのユニット数は、その出力次元数ＤＯＵＴ_Ｌと一致する。

　ステップＳＴ１０３において、行列乗算部１００は、階層Ｌの一つ前の階層Ｌ－１でスカラ量子化が行われたかどうかの判定結果ＳＱＤｏ（Ｌ－１）をスカラ量子化制御部１０２から取得する。そして、行列乗算部１００は、判定結果ＳＱＤｏ（Ｌ－１）が１である場合（ステップＳＴ１０３“ＹＥＳ”）、つまりスカラ量子化が行われた場合、演算量を削減した行列乗算を行うためステップＳＴ１０５に進み、そうでない場合（ステップＳＴ１０３“ＮＯ”）は通常の行列乗算を行うためステップＳＴ１０４に進む。

　ステップＳＴ１０４において、行列乗算部１００は、通常の行列乗算として、以下の式（１）を用いて活性化関数適用前の出力ｕ_ｊ（ｊ＝１～Ｊ）の計算を行う。また、行列乗算部１００は、式（１）の計算に必要な重み行列ｗ_ｊｉを、重み記憶部１０１から取得する。

　ステップＳＴ１０５において、行列乗算部１００は、通常の行列乗算よりも演算量を削減した行列乗算として、以下の式（２）を用いて活性化関数適用前の出力ｕ_ｊ（ｊ＝１～Ｊ）の計算を行う。式（２）において、ａ_ｋは、スカラ量子化されたｘ_ｉであり、Ｉ_ｋは、ａ_ｋにスカラ量子化されたｘ_ｉのインデックスｉの集合である。また、行列乗算部１００は、式（２）の計算に必要な重み行列ｗ_ｊｉを、重み記憶部１０１から取得する。

　ステップＳＴ１０４またはステップＳＴ１０５で計算されたｕ_ｊは、行列乗算部１００からスカラ量子化部１０３に出力される。

　ステップＳＴ１０６において、スカラ量子化部１０３は、階層Ｌでスカラ量子化を行うかどうかの判定結果ＳＱＤｏ（Ｌ）をスカラ量子化制御部１０２から取得する。そして、スカラ量子化部１０３は、判定結果ＳＱＤｏ（Ｌ）が１である場合（ステップＳＴ１０６“ＹＥＳ”）、スカラ量子化を行うためステップＳＴ１０７に進み、そうでない場合（ステップＳＴ１０６“ＮＯ”）はステップＳＴ１１０に進む。
　なお、当該階層Ｌに対してスカラ量子化を行うかどうかは、事前にスカラ量子化を行うことによる認識性能の低下度合いおよび演算量削減効果のトレードオフを考慮して決定され、スカラ量子化制御部１０２に対して設定されているものとする。スカラ量子化制御部１０２は、その設定に従ってスカラ量子化部１０３を制御する。

　ステップＳＴ１０７において、スカラ量子化部１０３は、行列乗算部１００の出力ｕ_ｊをスカラ量子化する。

　ここで、図４を参照し、ステップＳＴ１０７におけるスカラ量子化の具体的な処理手順を述べる。図４は、実施の形態１に係る演算装置１におけるスカラ量子化部１０３の動作を示すフローチャートである。

　ステップＳＴ１０７Ａにおいて、スカラ量子化部１０３は、入力ベクトルの次元インデックスｉに１を入力し、スカラ量子化されたインデックスの集合Ｉ_ｋをクリアする。

　ステップＳＴ１０７Ｂにおいて、スカラ量子化部１０３は、スカラ量子化テーブルインデックスｋを１に初期化する。

　ステップＳＴ１０７Ｃにおいて、スカラ量子化部１０３は、スカラ量子化テーブル記憶部１０４に記憶されている、量子化範囲の下限値Ｌ_ｋと上限値Ｈ_ｋをｘ_ｉと比較する。そして、スカラ量子化部１０３は、ｘ_ｉがＬ_ｋよりも大きく、かつｘ_ｉがＨ_ｋ以下である場合（ステップＳＴ１０７Ｃ“ＹＥＳ”）、ステップＳＴ１０７Ｄに進み、そうでない場合（ステップＳＴ１０７Ｃ“ＮＯ”）はステップＳＴ１０７Ｅに進む。

　図５は、スカラ量子化テーブル記憶部１０４が記憶しているスカラ量子化テーブルの一例である。上述のスカラ量子化テーブルインデックスｋは、スカラ量子化テーブル記憶部１０４のスカラ量子化テーブルに記憶されている量子化値ａ_ｋのインデックスのことである。スカラ量子化テーブルサイズＫは、スカラ量子化テーブルに記憶されている量子化値のインデックスｋの最大値である。
　スカラ量子化テーブルは、事前に階層毎に認識性能の低下度合いおよび演算量削減効果のトレードオフを考慮して決定されたものである。また、スカラ量子化テーブルの量子化値として活性化関数適用後の値が格納されている。図４の例では、シグモイド関数適用後の量子化値が示されている。

　なお、スカラ量子化テーブル記憶部１０４には、階層の区別がない単一のスカラ量子化テーブルが記憶されていてもよいし、階層毎のスカラ量子化テーブルが記憶されていてもよい。ただし、スカラ量子化の量子化幅と量子化範囲は、最終的な認識性能に影響するため、例えばスカラ量子化により認識性能への影響が大きい層に対しては細かい量子化を行い、認識性能への影響が小さい層に対しては大雑把な量子化を行うことが望ましい。そのため、階層の区別がない単一のスカラ量子化テーブルを使用する場合と比較して、階層毎に用意されたスカラ量子化テーブルを使用する場合の方が認識性能を落とさずに全体の演算量を削減することが可能となる。

　ステップＳＴ１０７Ｄにおいて、スカラ量子化部１０３は、以下の式（３）と（４）を用いてｘ_ｉをａ_ｋに量子化する。式（４）において、ａｄｄ（Ｉ_ｋ，ｉ）は、量子化されたインデックスの集合Ｉ_ｋにｉを追加する関数である。スカラ量子化部１０３は、ステップＳＴ１０７Ｄの後、ステップＳＴ１０７Ｇに進む。
ｘ_ｉ＝ａ_ｋ　　　　　　　　　　　　　　　　　　　　（３）
ａｄｄ（Ｉ_ｋ，ｉ）　　　　　　　　　　　　　　　　（４）

　ステップＳＴ１０７Ｅにおいて、スカラ量子化部１０３は、スカラ量子化テーブルインデックスｋをインクリメントする。

　ステップＳＴ１０７Ｆにおいて、スカラ量子化部１０３は、スカラ量子化テーブルインデックスｋがスカラ量子化テーブルサイズＫ以下である場合（ステップＳＴ１０７Ｆ“ＹＥＳ”）、ステップＳＴ１０７Ｃに戻る。一方、スカラ量子化部１０３は、スカラ量子化テーブルインデックスｋがスカラ量子化テーブルサイズＫより大きい場合（ステップＳＴ１０７Ｆ“ＮＯ”）、ステップＳＴ１０７Ｇに進む。このようにして、スカラ量子化部１０３は、ｘ_ｉが該当する量子化範囲をｋ＝１からｋ＝Ｋへと探索していき、ｘ_ｉを該当する量子化範囲の量子化値ａ_ｋに置換する。

　ステップＳＴ１０７Ｇにおいて、スカラ量子化部１０３は、入力ベクトルの次元インデックスｉをインクリメントする。

　ステップＳＴ１０７Ｈにおいて、スカラ量子化部１０３は、入力ベクトルの次元インデックスｉが入力次元数Ｉ以下である場合（ステップＳＴ１０７Ｈ“ＹＥＳ”）、ステップＳＴ１０７Ｂに戻る。一方、スカラ量子化部１０３は、入力ベクトルの次元インデックスｉが入力次元数Ｉより大きい場合（ステップＳＴ１０７Ｈ“ＮＯ”）、スカラ量子化の処理を終了し、図３のステップＳＴ１０８に進む。

　続いて図３のステップＳＴ１０８に戻り、スカラ量子化後の処理を説明する。
　ステップＳＴ１０８において、スカラ量子化部１０３は、スカラ量子化した値がシグモイド関数などの活性化関数適用後の値である場合（ステップＳＴ１０８“ＹＥＳ”）、つまり入力ベクトルの各次元の値ｘ_ｉがスカラ量子化テーブルの量子化値ａ_ｋに変換された場合、ステップＳＴ１０９に進む。スカラ量子化した値が活性化関数適用後の値である場合とは、ステップＳＴ１０７において入力ベクトルの各次元の値ｘ_ｉがスカラ量子化テーブルの量子化値ａ_ｋに変換された場合である。そうでない場合（ステップＳＴ１０８“ＮＯ”）、スカラ量子化部１０３はステップＳＴ１１０に進む。

　ステップＳＴ１０９において、スカラ量子化部１０３は、活性化関数を適用する必要がないため、以下の式（５）に従い出力ｚ_ｊを算出する。
ｚ_ｊ＝ｕ_ｊ（ｊ＝１～Ｊ）　　　　　　　　　　　　　　　（５）

　ステップＳＴ１１０において、スカラ量子化部１０３は、活性化関数を適用する必要があるため、以下の式（６）に従い出力ｚ_ｊを算出する。式（６）において、ｆは活性化関数であり、一般的に中間層では式（７）のロジスティックシグモイド関数または式（８）の正規化線形関数が用いられ、出力層では式（９）のソフトマックス関数が用いられる。
ｚ_ｊ＝ｆ（ｕ_ｊ）（ｊ＝１～Ｊ）　　　　　　　　　　　　（６）
ｆ（ｕ_ｊ）＝１／（１＋ｅｘｐ（－ｕ_ｊ））　　　　　　　（７）
ｆ（ｕ_ｊ）＝ｍａｘ（０，ｕ_ｊ）　　　　　　　　　　　　（８）
ｆ（ｕ_ｊ）＝ｅｘｐ（ｕ_ｊ）／Σ_ｋ＝１ ^Ｋｅｘｐ（ｕ_ｋ）　　　（９）

　ステップＳＴ１１１において、スカラ量子化部１０３は、階層Ｌが多層ニューラルネットワークの出力層であるかどうかを判定する。そして、スカラ量子化部１０３は、階層Ｌが多層ニューラルネットワークの出力層である場合（ステップＳＴ１１１“ＹＥＳ”）、ステップＳＴ１１３に進み、出力層でない場合（ステップＳＴ１１１“ＮＯ”）、ステップＳＴ１１２に進む。

　ステップＳＴ１１２において、スカラ量子化部１０３は、ステップＳＴ１０９またはステップＳＴ１１０で計算された出力ｚ_ｊを行列乗算部１００に出力する。出力ｚ_ｊを受け取った行列乗算部１００は、階層番号Ｌをインクリメントし、以下の式（１０）を用いてインクリメント後の階層Ｌに対する入力ベクトルの各次元の値ｘｊに、階層Ｌ－１の出力ベクトルの各次元の値ｚ_ｊを代入する。その後、行列乗算部１００はステップＳＴ１０２に戻る。
ｘ_ｊ＝ｚ_ｊ（ｊ＝１～Ｊ）　　　　　　　　　　　　　　（１０）

　ステップＳＴ１１３において、スカラ量子化部１０３は、ステップＳＴ１０９またはステップＳＴ１１０で計算された出力ｚ_ｊを尤度算出部１０５に出力する。出力ｚ_ｊを受け取った尤度算出部１０５は、以下の式（１１）を用いて、出力層の出力ベクトルの各次元の値ｚ_ｊ（ｉ＝１～Ｊ）から尤度ｐ（ｖ｜ｊ）を算出する。式（１１）において、ｐ_０（ｊ）は、学習データの個数から算出される事前分布の確率である。
ｐ（ｖ｜ｊ）＝ｚ_ｊ／ｐ_０（ｊ）　　　　　　　　　　　（１１）

　以上のように、実施の形態１に係る演算装置１は、多層ニューラルネットワークの層ごとの重み行列を記憶している重み記憶部１０１と、重み記憶部１０１に記憶されている重み行列と多層ニューラルネットワークの入力層に入力されたベクトルまたは一つ前の層から出力されたベクトルとの乗算を行う行列乗算部１００と、スカラ量子化を行う量子化範囲とその量子化値との対応関係を表したスカラ量子化テーブルを記憶しているスカラ量子化テーブル記憶部１０４と、スカラ量子化テーブルを参照して行列乗算部１００から出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化部１０３と、多層ニューラルネットワークの出力層においてスカラ量子化部１０３から出力されたベクトルを用いて尤度ベクトルを算出する尤度算出部１０５と、多層ニューラルネットワークの層ごとに、スカラ量子化部１０３によるスカラ量子化を実施するか否かを制御するスカラ量子化制御部１０２とを備える構成である。スカラ量子化部１０３において階層Ｌの一つ前の階層Ｌ－１からの出力ベクトルの各次元の値に対してスカラ量子化を行った場合、行列乗算部１００は、階層Ｌにおいて活性化関数適用前の出力ｕ_ｊ（ｊ＝１～Ｊ）の計算を式（１）ではなく式（２）を用いて行うことになり、以下の式（１２）の行列表現で表されるＷｘの行列×ベクトル演算で生じる乗算回数をＫ／Ｉに削減することができる。従って、組み込み機器のような計算リソースに制限がある演算装置１においてもユニット数の大きい多層ニューラルネットワークを搭載可能となり、認識性能を向上させることができる。

　さらに、スカラ量子化制御部１０２により、スカラ量子化による認識性能の低下度合いおよび演算量削減効果のトレードオフを考慮して、多層ニューラルネットワークの層ごとにスカラ量子化の実施有無を制御すれば、演算装置１に要求される認識性能と計算リソースの両方を満たすことが容易となる。

　また、実施の形態１のスカラ量子化部１０３は、行列乗算部１００から出力されたベクトルの各次元の値をスカラ量子化する際に、活性化関数を適用した後の値にスカラ量子化する構成である。この構成により、活性化関数の適用処理自体を削減でき、組み込み機器のような計算リソースに制限がある演算装置１においてもユニット数の大きい多層ニューラルネットワークを搭載することができる。

　また、実施の形態１のスカラ量子化テーブル記憶部１０４は、多層ニューラルネットワークの層ごとのスカラ量子化テーブルを記憶しており、スカラ量子化部１０３は、スカラ量子化テーブル記憶部１０４に記憶されているスカラ量子化テーブルのうち、スカラ量子化を行う層に該当するスカラ量子化テーブルを参照する構成である。この構成により、単一のスカラ量子化テーブルを使用する場合と比較して、認識性能を落とさずに全体の演算量を削減することができる。

実施の形態２．
　実施の形態１のスカラ量子化部１０３において量子化値が０になった場合、その後の行列乗算部１００による乗算結果も０になるため、乗算自体が不要である。そこで、実施の形態２では、量子化値が０になった場合を考慮して、実施の形態１より乗算回数を削減すると共に加算回数も削減することを目的とする。

　ここで、図６は、多層ニューラルネットワークの各層の出力ベクトルの値を０．０１刻みでカウントし、その頻度をグラフにしたものである。この結果より、全ての層で０に近い値の頻度が高いことが分かる。よって、以下に説明するように、０にスカラ量子化する量子化範囲を適切に決定しておくことで、認識性能を低下させずに演算量を削減することが可能となる。

　実施の形態２に係る演算装置１の構成は、図１に示された実施の形態１に係る演算装置１の構成と図面上は同一であるため、図示を省略する。

　実施の形態２と実施の形態１の差異は、行列乗算部１００における演算量を削減した行列乗算の計算式である。実施の形態２の行列乗算部１００は、図３のステップＳＴ１０５において、上式（２）の代わりに以下の式（１３）を用いて、活性化関数適用前の出力ｕ_ｊ（ｊ＝１～Ｊ）の計算を行う。

　また、実施の形態２のスカラ量子化テーブル記憶部１０４は、ａ_１＝０を含むスカラ量子化テーブルを記憶している。これに対し、実施の形態２以外のスカラ量子化テーブルは、ａ_１＝０を含んでもよいし含まなくてもよい。

　以上のように、実施の形態２のスカラ量子化部１０３は、量子化値０に対応する量子化範囲を記憶している構成である。また、行列乗算部１００は、一つ前の層から出力されたスカラ量子化されたベクトルの各次元のうちの０以外の量子化値にスカラ量子化された次元に対応する重みの総和値を、重み記憶部１０１に記憶されている重み行列を用いて算出し、当該重みの総和値を０以外の量子化値と乗算する構成である。これにより、多層ニューラルネットワークの各層で生じるＷｘの行列×ベクトル演算の乗算回数を（Ｋ－１）／Ｉ、加算回数を（Ｉ－ｃｎｔ（Ｉ_０））／Ｉに削減することができる。ここで、ｃｎｔ（・）は要素数をカウントする関数である。従って、組み込み機器のような計算リソースに制限がある演算装置１においてもユニット数の大きな多層ニューラルネットワークを搭載することができる。

実施の形態３．
　実施の形態１および実施の形態２は、多層ニューラルネットワークの各層で生じるＷｘの行列×ベクトル演算の主に乗算回数を削減することを目的としているが、実施の形態３は、実施の形態１，２よりもさらに加算回数を削減することを目的としている。

　図７は、実施の形態３に係る演算装置１の構成を示すブロック図である。図７において図１と同一または相当する部分は、同一の符号を付し説明を省略する。

　実施の形態３と実施の形態１，２との差異は、図７に示すように、同一の量子化値にスカラ量子化されたインデックスの集合とその集合に属するインデックスに対応する重みの総和値とを記憶する重み総和値記憶部１０６を備えたことである。この重み総和値記憶部１０６は、例えば図２Ａに示されたメモリ３である。

　図８は、重み総和値記憶部１０６が記憶しているインデックスの集合と重みの総和値の一例である。この重み総和値記憶部１０６には、予め頻出するインデックスの集合Ｒ_ｎ（ｎ＝１～Ｎ）と対応する重みの総和値ｓ_ｊ（Ｒ_ｎ）とが格納されている。重みの総和値は以下の式（１４）で表される。
ｓ_ｊ（Ｒ_ｎ）＝Σ_ｉ∈Ｉｗ_ｊｉ（ｊ＝１～Ｊ）　　　　（１４）

　例えば、入力ベクトルの各次元の値ｘ_ｉをスカラ量子化したとき、量子化値ａ_ｋが同一になる次元インデックスｉの集合Ｉ_ｋ＝｛１，３，５，・・・，５１１｝が頻出することが事前に判明している場合、集合Ｉ_ｋに対応する各重みの総和値が、ｓ_ｊ（Ｒ_ｎ）として重み総和値記憶部１０６に格納される。なお、図８では総和値を求める前の各重みが示されているが、実際の重み総和値記憶部１０６には各重みから計算された総和値が格納されることになる。

　実施の形態３の行列乗算部１００は、図３のステップＳＴ１０５において、上式（２）の代わりに以下の式（１５）と（１６）を用いて、活性化関数適用前の出力ｕ_ｊ（ｊ＝１～Ｊ）の計算を行う。すなわち、行列乗算部１００は、量子化値が同一になる次元インデックスの集合Ｉ_ｋが重み総和値記憶部１０６に記憶されている集合Ｒｎに一致する場合、その集合Ｒｎに対応する重みの総和値ｓ_ｊを用いて式（１５）により出力ｕ_ｊを計算する。一方、集合Ｉ_ｋが重み総和値記憶部１０６に記憶されている集合Ｒｎに一致しない場合、行列乗算部１００は重み記憶部１０１に記憶されている重み行列ｗ_ｊｉを用いて式（１６）により出力ｕ_ｊを計算する。なお、式（１５）と（１６）では実施の形態２と同様に量子化値ａ_１＝０を除外しているが、実施の形態１のように量子化値ａ_１＝０を含めてもよい。

　以上のように、実施の形態３に係る演算装置１は、多層ニューラルネットワークの層ごとに、同一の量子化値にスカラ量子化されたベクトルの次元の集合とその集合に属する次元に対応する重みの総和値とを記憶している重み総和値記憶部１０６を備える構成である。また、行列乗算部１００は、一つ前の層から出力されたスカラ量子化されたベクトルの各次元のうちの同一の量子化値にスカラ量子化された次元の集合が、重み総和値記憶部１０６に記憶されている集合に該当する場合、当該集合に対応する重みの総和を重み総和値記憶部１０６から取得して量子化値と乗算する構成である。これにより、多層ニューラルネットワークの各層で生じるＷｘの行列×ベクトル演算の加算回数を削減することができる。従って、組み込み機器のような計算リソースに制限がある演算装置１においてもユニット数の大きな多層ニューラルネットワークを搭載することができる。

実施の形態４．
　実施の形態３の重み総和値記憶部１０６は、頻出するインデックスの集合Ｒ_ｎと対応する重みの総和値ｓ_ｊ（Ｒ_ｎ）を予め格納している構成であったが、実施の形態４では過去に算出されたスカラ量子化の結果に基づくインデックスの集合Ｒ_ｎと対応する重みの総和値ｓ_ｊ（Ｒ_ｎ）を格納する構成にする。

　図９は、実施の形態４に係る演算装置１の構成を示すブロック図である。図９において図３と同一または相当する部分は、同一の符号を付し説明を省略する。

　実施の形態４と実施の形態３との差異は、図９に示すように、スカラ量子化部１０３により同一の量子化値にスカラ量子化されたインデックスの集合およびその集合に属するインデックスに対応する重みの総和値を、重み総和値記憶部１０６に記憶するようにした点である。

　このように、実施の形態４では、Ｒ_ｎとｓ_ｊ（Ｒ_ｎ）をキャッシュとして重み総和値記憶部１０６に記憶しておくことが可能である。例えば、演算装置１は、過去のある時点での発話を音声認識したときのＲ_ｎとｓ_ｊ（Ｒ_ｎ）を重み総和値記憶部１０６に記憶させておき、これ以降の発話を音声認識するときには最新のＲ_ｎとｓ_ｊ（Ｒ_ｎ）を重み総和値記憶部１０６の最も参照されないＲ_ｎとｓ_ｊ（Ｒ_ｎ）と逐次入れ替えていく。これにより、頻度の高い発話に関しては重み総和値記憶部１０６に記憶されている値を使用することで加算回数を削減できるので、演算量削減効果が高くなることが期待できる。

　以上のように、実施の形態４の重み総和値記憶部１０６は、過去に算出された、同一の量子化値にスカラ量子化されたベクトルの次元の集合とその集合に属する次元に対応する重みの総和値とを記憶する構成である。これにより、実施の形態３と同様に、多層ニューラルネットワークの各層で生じるＷｘの行列×ベクトル演算の加算回数を削減することができる。従って、組み込み機器のような計算リソースに制限がある演算装置１においてもユニット数の大きな多層ニューラルネットワークを搭載することができる。

実施の形態５．
　実施の形態１～４は、スカラ量子化によりＷｘの行列×ベクトル演算で生じる乗算回数および加算回数を削減することを目的としている。しかし、スカラ量子化により、若干ではあるが認識性能が低下する可能性がある。そのため、演算装置１の計算リソースに余裕がある場合は、認識性能の低下が懸念される層のスカラ量子化を行わず、Ｗｘの行列×ベクトル演算を行うことが望ましい。そこで、実施の形態５のスカラ量子化制御部１０２は、演算装置１の負荷に応じて多層ニューラルネットワークの層ごとにスカラ量子化を実施するか否かを判定し、スカラ量子化部１０３を制御する。スカラ量子化制御部１０２は、演算装置１の負荷が大きい場合、スカラ量子化部１０３がスカラ量子化を実施する層を多くし、演算装置１の負荷が小さい場合、スカラ量子化部１０３がスカラ量子化を実施する層を少なくする。

　演算装置１がカーナビゲーションシステム、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）またはサーバなどに組み込まれている場合、図２Ａに示されたプロセッサ２は、実施の形態１～４で説明した音声認識機能だけでなくカーナビゲーションシステム等の機能も実行することになる。例えば演算装置１がカーナビゲーションシステムに組み込まれている構成では、プロセッサ２は、経路探索および音楽再生などのアプリケーションを実行しており、目的地を設定した場合などには経路探索のため一時的にプロセッサ２の計算リソースが占有されシステム負荷が上がる場合がある。このとき、プロセッサ２が多層ニューラルネットワークの演算に使用できる計算リソースが少なくなるため、スカラ量子化制御部１０２は、ある程度認識性能を犠牲にしてもスカラ量子化を実施させる層を多くして、多層ニューラルネットワークの演算量を削減する。一方、他のアプリケーションが動作しておらず、多層ニューラルネットワークの演算に使用できる計算リソースが余っている場合、スカラ量子化制御部１０２は、認識性能を最大限確保するためにスカラ量子化を行わせず通常の行列乗算を行わせる。

　なお、実施の形態５に係る演算装置１の構成は、図１、図７および図９に示された実施の形態１～４に係る演算装置１の構成と図面上は同一であるため、図示を省略する。

　以上のように、実施の形態５のスカラ量子化制御部１０２は、演算装置１の負荷に応じて、多層ニューラルネットワークの層ごとにスカラ量子化を実施するか否かを判定する構成である。これにより、組み込み機器である演算装置１の負荷が大きい場合はスカラ量子化により演算量を削減することで、多少の認識性能低下があっても音声認識を可能にし、負荷が小さい場合はスカラ量子化を行う階層数を最低限とすることで認識性能の低下を最低限に抑えることができる。

　なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

　この発明に係る演算装置は、多層ニューラルネットワークの認識性能を低下させずに演算量を削減するようにしたので、計算リソースが制限される組み込み機器などに用いるのに適している。

　１　演算装置、２　プロセッサ、３　メモリ、４　処理回路、１００　行列乗算部、１０１　重み記憶部、１０２　スカラ量子化制御部、１０３　スカラ量子化部、１０４　スカラ量子化テーブル記憶部、１０５　尤度算出部、１０６　重み総和値記憶部。

Claims

　多層ニューラルネットワークの層ごとの重み行列を記憶している重み記憶部と、
　前記重み記憶部に記憶されている重み行列と、前記多層ニューラルネットワークの入力層に入力されたベクトルまたは一つ前の層から出力されたベクトルとの乗算を行う行列乗算部と、
　スカラ量子化を行う量子化範囲とその量子化値との対応関係を表したスカラ量子化テーブルを記憶しているスカラ量子化テーブル記憶部と、
　前記スカラ量子化テーブルを参照して前記行列乗算部から出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化部と、
　前記多層ニューラルネットワークの出力層において前記スカラ量子化部から出力されたベクトルを用いて尤度ベクトルを算出する尤度算出部と、
　前記多層ニューラルネットワークの層ごとに、前記スカラ量子化部によるスカラ量子化を実施するか否かを制御するスカラ量子化制御部とを備える演算装置。
　前記行列乗算部は、一つ前の層から出力されたスカラ量子化されたベクトルの各次元のうちの同一の量子化値にスカラ量子化された次元に対応する重みの総和値を、前記重み記憶部に記憶されている重み行列を用いて算出し、当該重みの総和値を前記量子化値と乗算することを特徴とする請求項１記載の演算装置。
　前記スカラ量子化テーブル記憶部は、量子化値０に対応する量子化範囲が記憶されており、
　前記行列乗算部は、一つ前の層から出力されたスカラ量子化されたベクトルの各次元のうちの０以外の量子化値にスカラ量子化された次元に対応する重みの総和値を、前記重み記憶部に記憶されている重み行列を用いて算出し、当該重みの総和値を前記０以外の量子化値と乗算することを特徴とする請求項１記載の演算装置。
　前記スカラ量子化部は、前記行列乗算部から出力されたベクトルの各次元の値をスカラ量子化する際に、活性化関数を適用した後の値にスカラ量子化することを特徴とする請求項１記載の演算装置。
　前記多層ニューラルネットワークの層ごとに、同一の量子化値にスカラ量子化されたベクトルの次元の集合とその集合に属する次元に対応する重みの総和値とを記憶している重み総和値記憶部を備え、
　前記行列乗算部は、一つ前の層から出力されたスカラ量子化されたベクトルの各次元のうちの同一の量子化値にスカラ量子化された次元の集合が、前記重み総和値記憶部に記憶されている集合に該当する場合、当該集合に対応する重みの総和値を前記重み総和値記憶部から取得して前記量子化値と乗算することを特徴とする請求項１記載の演算装置。
　前記重み総和値記憶部は、過去に算出された、同一の量子化値にスカラ量子化されたベクトルの次元の集合とその集合に属する次元に対応する重みの総和値とを記憶することを特徴とする請求項５記載の演算装置。
　前記スカラ量子化制御部は、前記演算装置の負荷に応じて、前記多層ニューラルネットワークの層ごとにスカラ量子化を実施するか否かを判定することを特徴とする請求項１記載の演算装置。
　前記スカラ量子化テーブル記憶部は、前記多層ニューラルネットワークの層ごとのスカラ量子化テーブルを記憶しており、
　前記スカラ量子化部は、前記スカラ量子化テーブル記憶部に記憶されているスカラ量子化テーブルのうち、スカラ量子化を行う層に該当するスカラ量子化テーブルを参照することを特徴とする請求項１記載の演算装置。
　行列乗算部が、多層ニューラルネットワークの層ごとの重み行列を記憶している重み記憶部から取得した重み行列と、前記多層ニューラルネットワークの入力層に入力されたベクトルまたは一つ前の層から出力されたベクトルとの乗算を行う行列乗算ステップと、
　スカラ量子化部が、スカラ量子化を行う量子化範囲とその量子化値との対応関係を表したスカラ量子化テーブルを記憶しているスカラ量子化テーブル記憶を参照して、前記行列乗算ステップで出力されたベクトルの各次元の値をスカラ量子化するスカラ量子化ステップと、
　尤度算出部が、前記多層ニューラルネットワークの出力層において前記スカラ量子化ステップで出力されたベクトルを用いて尤度ベクトルを算出する尤度算出ステップと、
　スカラ量子化制御部が、前記多層ニューラルネットワークの層ごとに、前記スカラ量子化ステップのスカラ量子化を実施するか否かを制御するスカラ量子化制御ステップとを備える演算方法。