JP7614475B2

JP7614475B2 - 演算装置、及び演算方法

Info

Publication number: JP7614475B2
Application number: JP2020193718A
Authority: JP
Inventors: 真人木山; 太樹尼崎; 全広飯田
Original assignee: Kumamoto University NUC
Current assignee: Kumamoto University NUC
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2025-01-16
Anticipated expiration: 2040-11-20
Also published as: JP2022082257A

Description

本発明の実施形態は、演算装置、及び演算方法に関する。

エッジデバイスやＡＩ(artificial intelligence)チップは、ＧＰＵ(Graphics Processing Unit)を備えたコンピュータと比較すると資源が少ない。そのため、学習済ディープニューラルネットワークモデル（ＤＮＮ(Deep Neural Network）)の実行は、エッジデバイスでは困難となる。そこで、モデルの重みを軽量化するため、量子化が行われる。
通常、ＤＮＮの内部では、３２ビット演算精度の浮動小数点が演算で使われる。積和演算時の桁あふれ検出やＡＩチップでの動作検証のため、量子化ではその精度を８ビットなど、より少ないビット幅へ変換し、演算を行うことで重みを軽量化する。

ニューラルネットワークの重みを量子化する技術に関して、パラメータを量子化するとき、前段階、学習中、推論中でパラメータを変更可能にする技術が知られている（例えば、特許文献１参照）。この技術では、桁あふれなどはその都度調べられ、パラメータが更新される。
また、ＣＮＮ(Convolutional neural network)に対して重みを量子化し、実行する技術が知られている（例えば、特許文献２参照）。
また、浮動小数点で学習されたモデルの重みを固定小数点に変換する技術が知られている（例えば、特許文献３参照）。この技術では、統計に基づいてビット幅、シフト量などのパラメータの決定、ＣＮＮのチャンネルごとにパラメータの設定が可能である。

特開２０２０－６４６３５号公報特開２０２０－０６０９６７号公報特開２０１９－０３２８３３号公報

本発明は、前述した問題を解決すべくなされたもので、固定小数点の形式の入力値に対する学習モデルの出力値の精度を向上できる演算装置、及び演算方法を提供することを目的とする。

本発明の一実施形態は、ニューラルネットワーク形式の学習モデルのパラメータの小数点のシフト量を特定する情報を取得する取得部と、前記取得部が取得したパラメータの小数点のシフト量を特定する情報に基づいて、異なるビット幅で固定小数点の形式へ変換された複数の入力値に対する前記学習モデルの出力値を求め、求めた複数の前記出力値の各々と出力値の小数点のシフト量とに基づいて、求めた複数の前記出力値の各々の小数点をシフトさせる演算部と、複数の前記出力値の各々の小数点をシフトさせた結果の精度を導出する導出部と、を備え、前記入力値は、固定小数点の形式である、演算装置である。
本発明の一実施形態は、前述の演算装置において、前記パラメータには、複数の層の各々のパラメータが含まれる。
本発明の一実施形態は、前述の演算装置において、前記パラメータには、ウエイトおよび出力が含まれる。
本発明の一実施形態は、前述の演算装置において、前記パラメータには、バイアスがさらに含まれる。
本発明の一実施形態は、前述の演算装置において、前記パラメータは、固定小数点の形式である。
本発明の一実施形態は、前述の演算装置において、前記学習モデルは、ディープニューラルネットワーク形式の学習済モデルに基づいて、パラメータを固定小数点の形式に変換することによって作成されたものである。
本発明の一実施形態は、前述の演算装置において、前記演算部は、前記パラメータに基づいて、入力値に対して、ＭＡＣ（ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅ）演算を行う。

本発明の一実施形態は、ニューラルネットワーク形式の学習モデルのパラメータの小数点のシフト量を特定する情報を取得するステップと、取得する前記ステップで取得したパラメータの小数点のシフト量を特定する情報に基づいて、異なるビット幅で固定小数点の形式へ変換された複数の入力値に対する前記学習モデルの出力値を求め、求めた複数の前記出力値の各々と出力値の小数点のシフト量とに基づいて、求めた複数の前記出力値の各々の小数点をシフトさせるステップと、複数の前記出力値の各々の小数点をシフトさせた結果の精度を導出するステップと、を有し、前記入力値は、固定小数点の形式である、コンピュータが実行する演算方法である。

本発明の実施形態によれば、固定小数点の形式の入力値に対する学習モデルの出力値の精度を向上できる演算装置、及び演算方法を提供できる。

本発明の実施形態に係る演算装置の構成図である。本実施形態に係る演算装置が有する学習モデルの一例を示す図である。本実施形態に係る演算装置が処理する浮動小数点の形式の入力値の一例を説明するための図である。本実施形態に係る演算装置が処理する固定小数点の形式の入力値の一例を説明するための図である。本実施形態に係る演算装置が実行する演算の一例を説明するための図である。本実施形態に係る端末装置のパラメータの小数点のシフト量の導出を説明するための図である。本実施形態に係る端末装置が有する学習モデルの一例を示す図である。本実施形態に係る演算装置の動作の一例を示すフローチャートである。本実施形態に係る端末装置の動作の一例を示すフローチャートである。本実施形態に係る演算装置の精度を説明するための図である。実施形態の変形例に係る演算装置の構成図である。実施形態の変形例に係る演算装置の動作の一例を示すフローチャートである。本実施形態の変形例に係る演算装置の出力の精度の導出結果の一例を示す図である。

次に、本発明の実施形態に係る演算装置、及び演算方法を、図面を参照しつつ説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られない。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づく」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づく」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

（実施形態）
［全体構成］
図１は、本発明の実施形態に係る演算装置の構成図である。
演算装置１００に、入力値が入力される。入力値の一例は、浮動小数点の形式である。以下、入力値が、浮動小数点の形式である場合について説明を続ける。
演算装置１００は、入力された入力値を受け付ける。演算装置１００は、受け付けた入力値を浮動小数点の形式から固定小数点の形式へ変換する。固定小数点の形式へ変換するときの桁数（ビット幅）ｎは、予め設定されている。

演算装置１００は、学習モデルに基づいて、その学習モデルに含まれるパラメータの小数点のシフト量を特定する情報を取得する。学習モデルの一例は、ディープニューラルネットワークなどのニューラルネットワーク形式の学習モデルである。学習モデルの一例は、Ｐｙｔｏｎで記述されている。
演算装置１００は、固定小数点の形式へ変換後の入力値およびパラメータの小数点のシフト量を特定する情報に基づいて、入力値に対する学習モデルの出力値を演算する。
演算装置１００は、学習モデルの出力値の演算結果を導出する際に、出力値の小数点のシフト量ｏｓｆに基づいて、積和演算の結果の小数点をシフトさせることによって最終出力値を導出する。演算装置１００は、導出した最終出力値を出力する。
以下、演算装置１００について説明する。

［演算装置１００］
演算装置１００は、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。演算装置１００は、例えば、入力部１１０と、受付部１２０と、取得部１２５と、演算部１３０と、出力部１４０と、記憶部１５０とを備える。

入力部１１０は、入力デバイスを備える。入力部１１０には、入力値を特定する情報が入力される。入力部１１０は、入力された入力値を特定する情報を取得する。入力値の一例は、３２ビットの浮動小数点の形式の数である。以下、一例として、入力値が３２ビットの浮動小数点の形式の数である場合について説明を続ける。

記憶部１５０は、ＨＤＤ（Hard Disk Drive）やフラッシュメモリ、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などにより実現される。記憶部１５０は、学習モデル１５２とシフト量情報１５４とが記憶される。
学習モデル１５２の一例は、ディープニューラルネットワーク形式の学習モデルである。この学習モデル１５２は、量子化されている。学習モデルを量子化する方法については、後述する。以下、学習モデル１５２が、ディープニューラルネットワーク形式の量子化された学習モデルである場合について説明を続ける。

図２は、本実施形態に係る演算装置が有する学習モデルの一例を示す図である。図２は、学習モデル１５２の一例として、ディープニューラルネットワーク形式の量子化された学習モデル１５２を示す。
学習モデル１５２は、入力層１５１－１と、中間層１５１－２と、出力層１５１－３とを備える。入力層１５１－１は一または複数のユニットを有し、中間層１５１－２は一または複数のユニットを有し、出力層１５１－３は一または複数のユニットを有する。入力層１５１－１に含まれる一または複数のユニットの各々は、中間層１５１－２に含まれる一または複数のユニットの各々と、一または複数のリンクによって接続される。中間層１５１－２に含まれる一または複数のユニットの各々は、出力層１５１－３に含まれる一または複数のユニットの各々と、一または複数のリンクによって接続される。

一または複数のユニットの各々は、一または複数の他のユニットが出力した情報を取得し、取得した情報を処理する。一または複数のユニットの各々は、情報を処理した結果を出力する。具体的には、一または複数のユニットの各々は、一または複数の入力値を取得する。一または複数のユニットの各々は、取得した一または複数の入力値とパラメータとに基づいて、出力を導出する。ここで、パラメータには、ウエイトが含まれる。
さらに、パラメータには、バイアスが含まれてもよい。一例として、パラメータには、ウエイトとバイアスとが含まれる場合について説明を続ける。一または複数のユニットの各々は、一または複数の入力値と一または複数のウエイトとをそれぞれ乗算した結果の和とバイアスとを加算する。

シフト量情報１５４は、学習モデル１５２に含まれる入力層１５１－１と中間層１５１－２と出力層１５１－３との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量を特定する情報と、入力層１５１－１と中間層１５１－２と出力層１５１－３との各々の出力の小数点のシフト量を特定する情報とを記憶する。パラメータには、ウエイトとバイアスとが含まれる。
つまり、パラメータの小数点のシフト量を特定する情報には、ウエイトの小数点のシフト量ｗｓｆを特定する情報とバイアスの小数点のシフト量を特定する情報とが含まれる。入力層１５１－１と中間層１５１－２と出力層１５１－３との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量と、入力層１５１－１と中間層１５１－２と出力層１５１－３との各々の出力の小数点のシフト量とを導出する方法については、後述する。

受付部１２０は、入力部１１０に入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。受付部１２０が受け付けた入力値を特定する情報は、演算部１３０へ出力される。
取得部１２５は、受付部１２０が入力値を特定する情報を受け付けた場合に、記憶部１５０のシフト量情報１５４に記憶されている入力層と中間層と出力層との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。取得部１２５が取得した入力層と中間層と出力層との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とは、演算部１３０へ出力される。

演算部１３０は、受付部１２０が受け付けた入力値を特定する情報を取得する。演算部１３０は、取得した入力値を特定する情報と、入力値の小数点のシフト量を特定する情報とに基づいて、式（１）を演算することによって入力値を固定小数点の形式へ変換する。

式（１）において、「ｘｉｎｔ」は浮動小数点の形式の数値を固定小数点の形式の数値へ変換したものである。「ｘ」は浮動小数点の形式の数値である。「ｓｆ」は小数点のシフト量である。「ｘｑ」は、浮動小数点の形式の数値を固定小数点の形式の数値へ変換したものを浮動小数点の形式の数値へ変換したものである。「ｃｌａｍｐ（－２^ｎ－１，２^ｎ－１－１，ｘｉｎｔ）」は、ｘｉｎｔが－２^ｎ－１以下である場合には－２^ｎ－１とし、ｘｉｎｔが２^ｎ－１－１以上である場合には２^ｎ－１－１とすることを表す。
例えば、演算部１３０は、ビット幅ｎを８とした場合には、３２ビットの浮動小数点の形式の入力値を、８ビットの固定小数点の形式に変換する。

図３は、本実施形態に係る演算装置が処理する浮動小数点の形式の入力値の一例を説明するための図である。
図３に示すように、浮動小数点形式の入力値２００は、符号ビット２１０、指数部２２０および仮数部２３０を含む。浮動小数点は、１つの数を、小数点部分を示す部分と小数点位置を示す部分とに分けて表現する表記法である。仮数部２３０は、小数点部分を示す部分であり、指数部２２０は小数点位置を示す部分である。符号ビット２１０は、入力値２００の符号を決定する部分である。

図４は、本実施形態に係る演算装置が処理する固定小数点の形式の入力値の一例を説明するための図である。
図４に示すように、固定小数点形式の入力値２０５は、符号ビット２１５、整数部２２５、小数部２３５および小数点２４５を含む。固定小数点は、小数点を使用して固定された桁数の小数を示す表記法を意味する。符号ビット２１５は入力値２０５の符号を決定し、整数部２２５は入力値２０５の整数を示す部分に対応し、小数部２３５は入力値２０５の小数を示す部分に対応する。小数点２４５は、入力値２０５の整数部２２５および小数部２３５を区分する基準になる点を示す。

演算部１３０は、取得部１２５が取得した入力層と中間層と出力層との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。
演算部１３０は、取得した入力層と中間層と出力層との各々の入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とに基づいて、入力値に対する学習モデル１５２の出力値を演算する。

図５は、本実施形態に係る演算装置が実行する演算の一例を説明するための図である。図５は、演算部１３０が実行するＭＡＣ(multiply-and-accumulate)演算を示す。
演算部１３０は、乗算器１０と加算器２０と加算器３０とを備え、積和演算を行う。演算部１３０は、入力値ｉｎとパラメータの小数点のシフト量を特定する情報とを取得する。ここで、入力値ｉｎは、入力値の小数点のシフト量ｉｓｆを特定する情報に基づいて、固定小数点の形式に変換されたものである。
演算部１３０は、パラメータの小数点のシフト量を特定する情報に基づいて、ウエイトＷＥの小数点をシフトさせる。
演算部１３０において、乗算器１０は、入力値ｉｎと小数点をシフトさせたウエイトＷＥとを乗算する。加算器２０は、入力値ｉｎと小数点をシフトさせたウエイトＷＥとを乗算した結果とを加算する。加算器３０は、加算器２０の出力値ＯＵと出力の小数点のシフト量ｏｓｆとに基づいて、出力値ＯＵの小数点をシフトさせることによって、最終出力を導出する。具体的には、加算器３０は、出力値ＯＵに０．５を加算する。出力値ＯＵの小数点をシフトさせることによって、出力値ＯＵの精度を向上させることができる。

ここで、入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量の導出する処理について説明する。
入力値の小数点のシフト量を特定する情報と、パラメータの小数点のシフト量との導出は、端末装置によって実行される。
端末装置は、記憶している学習モデルから入力層を取得し、取得した入力層に含まれるウエイトとバイアスとに基づいて、入力層のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。端末装置は、導出した入力層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶する。
端末装置は、ウエイトとバイアスとを固定小数点の形式に変換する。端末装置は、固定小数点の形式に変換したウエイトとバイアスとを含む入力層を新たに作成する。端末装置は、記憶している学習モデルの入力層を、新たに作成した入力層に交換する。

端末装置は、記憶している学習モデルから中間層を取得し、取得した中間層に含まれるウエイトとバイアスとに基づいて、中間層のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。端末装置は、導出した中間層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶する。
端末装置は、ウエイトとバイアスとを固定小数点の形式に変換する。端末装置は、固定小数点の形式に変換したウエイトとバイアスとを含む中間層を新たに作成する。端末装置は、記憶している学習モデルの中間層を、新たに作成した中間層に交換する。

端末装置は、記憶している学習モデルから出力層を取得し、取得した出力層に含まれるウエイトとバイアスとに基づいて、出力層のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。端末装置は、導出した出力層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶する。
端末装置は、ウエイトとバイアスとを固定小数点の形式に変換する。端末装置は、固定小数点の形式に変換したウエイトとバイアスとを含む出力層を新たに作成する。端末装置は、記憶している学習モデルの出力層を、新たに作成した出力層に交換する。以上で、量子化した学習モデルが完成する。

量子化した学習モデルに含まれるウエイトとバイアスとは、浮動小数点の形式から固定小数点の形式へ変換されている。量子化した学習モデルを使用することによって、積和演算などを固定小数点の形式で実行できる。このため、エッジデバイスやＡＩチップでそのまま実行できる。
ただし、このままでは、学習モデルの演算結果の精度が低下する。この学習モデルの演算結果の精度の低下は、演算精度の減少だけが原因ではない。浮動小数点の形式の学習モデルでは、出力部分で（式１）の演算を行っている。
しかし、量子化された学習モデルの出力部分では（式１）と同等の処理をしてない。そのため、すべての層において、入力値、ウエイト、出力のシフト量から、整数でも実行できるようにすることによって、量子化された学習モデルの各層において、出力ＯＵに、出力の小数点のシフト量を適用する。このように構成することによって、演算結果の精度の低下を防止できる。

端末装置は、入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。端末装置は、記憶している入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報を取得する。端末装置は、取得した入力値を特定する情報に基づいて、入力値を固定小数点の形式に変換する。
端末装置は、取得した入力層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、固定小数点の形式に変換した入力値に対する量子化した学習モデルの入力層の出力を導出する。端末装置は、導出した入力層の出力に基づいて、入力層の出力の小数点のシフト量を導出する。このように構成することによって、仮に入力層の出力が量子化されていない場合でも、量子化を行うことができる。端末装置は、導出した入力層の出力の小数点のシフト量、換言すれば中間層の入力値の小数点のシフト量を特定する情報を記憶する。

端末装置は、取得した中間層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、量子化した学習モデルの入力層の出力値に対する量子化した学習モデルの中間層の出力を導出する。端末装置は、導出した中間層の出力に基づいて、中間層の出力の小数点のシフト量を導出する。
このように構成することによって、仮に中間層の出力が量子化されていない場合でも、量子化を行うことができる。端末装置は、導出した中間層の出力の小数点のシフト量、換言すれば出力層の入力値の小数点のシフト量を特定する情報を記憶する。

端末装置は、取得した出力層のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、量子化した学習モデルの中間層の出力値に対する量子化した学習モデルの出力層の出力を導出する。
端末装置は、導出した出力層の出力に基づいて、分散などの演算を行うことによって、出力層の出力の小数点のシフト量を導出する。このように構成することによって、仮に出力層の出力が量子化されていない場合でも、量子化を行うことができる。端末装置は、導出した出力層の出力の小数点のシフト量を特定する情報を記憶する。
以下、端末装置３００について説明する。
図６は、本実施形態に係る端末装置のパラメータの小数点のシフト量の導出を説明するための図である。

［端末装置３００］
端末装置３００は、パーソナルコンピュータ、サーバー、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。端末装置３００は、例えば、入力部３１０と、受付部３２０と、取得部３２５と、演算部３３０と、出力部３４０と、記憶部３５０とを備える。

記憶部３５０は、ＨＤＤやフラッシュメモリ、ＲＡＭ、ＲＯＭなどにより実現される。記憶部３５０は、学習モデル３５２とシフト量情報３５４とが記憶される。
学習モデル３５２の一例は、ディープニューラルネットワーク形式の学習済の学習モデルである。以下、学習モデル３５２が、ディープニューラルネットワーク形式の学習済の学習モデルである場合について説明を続ける。

図７は、本実施形態に係る端末装置が有する学習モデルの一例を示す図である。
学習モデル３５２は、入力層３５１－１と、中間層３５１－２と、出力層３５１－３とを備える。入力層３５１－１は一または複数のユニットを有し、中間層３５１－２は一または複数のユニットを有し、出力層３５１－３は一または複数のユニットを有する。
入力層３５１－１に含まれる一または複数のユニットの各々は、中間層３５１－２に含まれる一または複数のユニットの各々と、一または複数のリンクによって接続される。中間層３５１－２に含まれる一または複数のユニットの各々は、出力層３５１－３に含まれる一または複数のユニットの各々と、一または複数のリンクによって接続される。

一または複数のユニットの各々は、一または複数の他のユニットが出力した情報を取得し、取得した情報を処理する。一または複数のユニットの各々は、情報を処理した結果を出力する。具体的には、一または複数のユニットの各々は、一または複数の入力値を取得する。一または複数のユニットの各々は、取得した一または複数の入力値とパラメータとに基づいて、出力を導出する。ここで、パラメータには、ウエイトとバイアスとが含まれる。一または複数のユニットの各々は、一または複数の入力値と一または複数のウエイトとをそれぞれ乗算した結果の和とバイアスとを加算する。

演算部３３０は、記憶部３５０の学習モデル３５２から入力層３５１－１を取得する（１）。演算部３３０は、取得した入力層３５１－１に含まれるウエイトとバイアスとに基づいて、分散などの演算を行うことによって、入力層３５１－１のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。演算部３３０は、導出した入力層３５１－１のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶部３５０のシフト量情報３５４に記憶させる。
演算部３３０は、ウエイトとバイアスとを固定小数点の形式に変換する。演算部３３０は、固定小数点の形式に変換したウエイトとバイアスとを含む入力層３５１ａ－１を作成する（２）。演算部３３０は、記憶部３５０の学習モデル３５２の入力層３５１－１を、作成した入力層３５１ａ－１に交換する（３）。

演算部３３０は、中間層３５１－２を取得する。演算部３３０は、取得した中間層３５１－２に含まれるウエイトとバイアスとに基づいて、分散などの演算を行うことによって、中間層３５１－２のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。演算部３３０は、導出した中間層３５１－２のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを、記憶部３５０のシフト量情報３５４に記憶させる。
演算部３３０は、ウエイトとバイアスとを固定小数点の形式に変換する。演算部１３０は、固定小数点の形式に変換したウエイトとバイアスとを含む中間層３５１ａ－２を作成する。演算部３３０は、学習モデル３５２の中間層３５１－２を、作成した中間層３５１ａ－２に交換する。

演算部３３０は、出力層３５１－３を取得する。演算部３３０は、取得した出力層３５１－３に含まれるウエイトとバイアスとに基づいて、分散などの演算を行うことによって、出力層３５１－３のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。
演算部３３０は、導出した出力層３５１－３のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを、記憶部３５０のシフト量情報３５４に記憶させる。
演算部３３０は、ウエイトとバイアスとを固定小数点の形式に変換する。演算部３３０は、固定小数点の形式に変換したウエイトとバイアスとを含む出力層３５１ａ－３を作成する。演算部３３０は、学習モデル３５２の出力層３５１－３を、作成した出力層３５１ａ－３に交換する（４）。
前述した処理を行うことによって、演算部３３０は、学習モデル３５２から、量子化した学習モデル３５２ａを作成する。
演算部３３０は、入力層３５１－１のウエイトの小数点のシフト量とバイアスの小数点のシフト量と、中間層３５１－２のウエイトの小数点のシフト量とバイアスの小数点のシフト量と、出力層３５１－３のウエイトの小数点のシフト量ｗｓｆとバイアスの小数点のシフト量とを導出できる。

入力部３１０は、入力デバイスを備える。例えば、この入力デバイスには、キーボード等の文字情報を入力するデバイス、マウス、タッチパネル等のポインティングデバイス、釦、ダイヤル、ジョイスティック、タッチセンサ、タッチパッド等が含まれる。入力部３１０に入力値を特定する情報が入力される。入力部３１０は、入力された入力値を特定する情報を取得する。入力値の一例は、３２ビットの浮動小数点の形式の数である。以下、一例として、入力値が３２ビットの浮動小数点の形式の数である場合について説明を続ける。

受付部３２０は、入力部３１０に入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。受付部３２０が受け付けた入力値を特定する情報は、演算部３３０へ出力される。

取得部３２５は、受付部３２０が入力値を特定する情報を受け付けた場合に、記憶部３５０のシフト量情報３５４に記憶されている入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報を取得する。取得部３２５が取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報は、演算部３３０へ出力される。

演算部３３０は、受付部３２０が受け付けた入力値を特定する情報を取得する。演算部３３０は、取得した入力値を特定する情報に基づいて、入力値を固定小数点の形式に変換する。
演算部３３０は、取得部３２５から入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報を取得する。演算部３３０は、取得した入力層３５１－１のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、固定小数点の形式に変換した入力値に対する量子化した学習モデル３５２ａの入力層３５１ａ－１の出力を導出する。
演算部３３０は、導出した入力層３５１ａ－１の出力に基づいて、分散などの演算を行うことによって、入力層３５１ａ－１の出力の小数点のシフト量を導出する。このように構成することによって、仮に入力層３５１ａ－１の出力が量子化されていない場合でも、量子化を行うことができる。演算部３３０は、導出した入力層３５１ａ－１の出力の小数点のシフト量、換言すれば中間層３５１ａ－２の入力の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。

演算部３３０は、取得した中間層３５１ａ－２のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、学習モデル３５２ａの入力層３５１ａ－１の出力値に対する量子化した学習モデル３５２ａの中間層３５１ａ－２の出力を導出する。
演算部３３０は、導出した中間層３５１ａ－２の出力に基づいて、分散などの演算を行うことによって、中間層３５１ａ－２の出力の小数点のシフト量を導出する。このように構成することによって、仮に中間層３５１ａ－２の出力が量子化されていない場合でも、量子化を行うことができる。演算部３３０は、導出した中間層３５１ａ－２の出力の小数点のシフト量、換言すれば出力層３５１ａ－３の入力の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。
演算部３３０は、取得した出力層３５１ａ－３のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報に基づいて、学習モデル３５２ａの中間層３５１ａ－２の出力値に対する量子化した学習モデル３５２ａの出力層３５１ａ－３の出力を導出する。

演算部３３０は、導出した出力層３５１ａ－３の出力に基づいて、分散などの演算を行うことによって、出力層３５１ａ－３の出力の小数点のシフト量を導出する。このように構成することによって、仮に出力層３５１ａ－３の出力が量子化されていない場合でも、量子化を行うことができる。演算部３３０は、導出した出力層３５１ａ－３の出力の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。
前述した処理を行うことによって、演算部３３０は、入力層３５１ａ－１の出力の小数点のシフト量、換言すれば中間層３５１ａ－２の入力の小数点のシフト量と、中間層３５１ａ－２の出力の小数点のシフト量、換言すれば出力層３５１ａ－３の入力の小数点のシフト量と、出力層３５１ａ－３の出力の小数点のシフト量とを導出する。
端末装置３００によって作成された量子化した学習モデル３５２ａが、演算装置１００において学習モデル１５２として使用される。端末装置３００によって作成されたシフト量情報３５４が、演算装置１００においてシフト量情報１５４として使用される。

（演算装置１００の動作）
図８は、本実施形態に係る演算装置の動作の一例を示すフローチャートである。
（ステップＳ１－１）
演算装置１００において、受付部１２０は、入力部１１０に入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。
（ステップＳ２－１）
演算装置１００において、取得部１２５は、記憶部１５０のシフト量情報１５４に記憶されている入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報には、入力層の入力値の小数点のシフト量を特定する情報と、中間層の入力値の小数点のシフト量を特定する情報と、出力層の入力値の小数点のシフト量を特定する情報とが含まれる。

（ステップＳ３－１）
演算装置１００において、演算部１３０は、受付部１２０が受け付けた入力値を特定する情報を取得する。演算部１３０は、取得した入力値を特定する情報と、入力値の小数点のシフト量を特定する情報とに基づいて、入力値を固定小数点の形式へ変換する。
（ステップＳ４－１）
演算装置１００において、演算部１３０は、取得部１２５が取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。演算部１３０は、取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とに基づいて、入力値に対する出力値ＯＵを演算する。
（ステップＳ５－１）
演算装置１００において、演算部１３０は、出力値ＯＵと出力の小数点のシフト量ｏｓｆとに基づいて、出力値ＯＵの小数点をシフトさせることによって、最終出力を導出する。

（端末装置３００の動作）
図９は、本実施形態に係る端末装置の動作の一例を示すフローチャートである。
（ステップＳ１－２）
端末装置３００において、演算部３３０は、記憶部３５０の学習モデル３５２から入力層３５１－１を取得する。演算部３３０は、取得した入力層３５１－１に含まれるウエイトとバイアスとに基づいて、入力層３５１－１のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。
演算部３３０は、導出した入力層３５１－１のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶部３５０のシフト量情報３５４に記憶させる。
（ステップＳ２－２）
端末装置３００において、演算部３３０は、入力層３５１－１のウエイトとバイアスとを固定小数点の形式に変換する。

（ステップＳ３－２）
端末装置３００において、演算部３３０は、固定小数点の形式に変換したウエイトとバイアスとを含む入力層３５１ａ－１を作成する。演算部３３０は、記憶部３５０の学習モデル３５２の入力層３５１－１を、作成した入力層３５１ａ－１に交換する。
（ステップＳ４－２）
端末装置３００において、演算部３３０は、記憶部３５０の学習モデル３５２から中間層３５１－２を取得する。演算部３３０は、取得した中間層３５１－２に含まれるウエイトとバイアスとに基づいて、中間層３５１－２のウエイトの小数点のシフト量とバイアスの小数点のシフト量とを導出する。演算部３３０は、導出した中間層３５１－２のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶部３５０のシフト量情報３５４に記憶させる。
（ステップＳ５－２）
端末装置３００において、演算部３３０は、中間層３５１－２のウエイトとバイアスとを固定小数点の形式に変換する。

（ステップＳ６－２）
端末装置３００において、演算部１３０は、固定小数点の形式に変換したウエイトとバイアスとを含む中間層３５１ａ－２を作成する。演算部３３０は、学習モデル３５２の中間層３５１－２を、作成した中間層３５１ａ－２に交換する。
（ステップＳ７－２）
端末装置３００において、演算部３３０は、記憶部３５０の学習モデル３５２から出力層３５１－３を取得する。演算部３３０は、取得した出力層３５１－３に含まれるウエイトとバイアスとに基づいて、出力層３５１－３のウエイトの小数点のシフト量を導出する。演算部３３０は、導出した出力層３５１－３のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とを記憶部３５０のシフト量情報３５４に記憶させる。

（ステップＳ８－２）
端末装置３００において、演算部３３０は、出力層３５１－３のウエイトとバイアスとを固定小数点の形式に変換する。
（ステップＳ９－２）
端末装置３００において、演算部３３０は、固定小数点の形式に変換したウエイトとバイアスとを含む出力層３５１ａ－３を作成する。演算部３３０は、学習モデル３５２の出力層３５１－３を、作成した出力層３５１ａ－３に交換する。
（ステップＳ１０－２）
端末装置３００において、受付部３２０は、入力部３１０に入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。

（ステップＳ１１－２）
端末装置３００において、取得部３２５は、記憶部３５０のシフト量情報３５４に記憶されている入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報を取得する。
（ステップＳ１２－２）
端末装置３００において、演算部３３０は、受付部３２０が受け付けた入力値を特定する情報を取得する。演算部３３０は、取得した入力値を特定する情報と、入力値の小数点のシフト量を特定する情報とに基づいて、入力値を固定小数点の形式に変換する。
（ステップＳ１３－２）
端末装置３００において、演算部３３０は、取得部３２５から入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報を取得する。演算部３３０は、取得した入力層３５１－１のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とに基づいて、固定小数点の形式に変換した入力値に対する量子化した学習モデル３５２ａの入力層３５１ａ－１の出力を導出する。
演算部３３０は、導出した入力層３５１ａ－１の出力に基づいて、入力層３５１ａ－１の出力の小数点のシフト量を導出する。演算部３３０は、導出した入力層３５１ａ－１の出力の小数点のシフト量、換言すれば中間層３５１ａ－２の入力値の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。

（ステップＳ１４－２）
端末装置３００において、演算部３３０は、取得した中間層３５１ａ－２のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とに基づいて、学習モデル３５２ａの入力層３５１ａ－１の出力値に対する量子化した学習モデル３５２ａの中間層３５１ａ－２の出力を導出する。
演算部３３０は、導出した中間層３５１ａ－２の出力に基づいて、中間層３５１ａ－２の出力の小数点のシフト量を導出する。演算部３３０は、導出した中間層３５１ａ－２の出力の小数点のシフト量、換言すれば出力層３５１ａ－３の入力値の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。
（ステップＳ１５－２）
端末装置３００において、演算部３３０は、取得した出力層３５１ａ－３のウエイトの小数点のシフト量を特定する情報とバイアスの小数点のシフト量を特定する情報とに基づいて、学習モデル３５２ａの中間層３５１ａ－２の出力値に対する量子化した学習モデル３５２ａの出力層３５１ａ－３の出力を導出する。
演算部３３０は、導出した出力層３５１ａ－３の出力に基づいて、分散などの演算を行うことによって、出力層３５１ａ－３の出力の小数点のシフト量を導出する。演算部３３０は、導出した出力層３５１ａ－３の出力の小数点のシフト量を特定する情報を記憶部３５０のシフト量情報３５４に記憶させる。

本実施形態に係る演算装置１００の最終的な出力値の精度について説明する。
図１０は、本実施形態に係る演算装置１００の精度の一例を説明するための図である。図１０は、入力値を固定小数点の形式へ変換するときの桁数（ビット幅）ｎを２から８とした場合の各々について、出力値ＯＵの小数点をシフトさせたものを最終出力値とした場合と、出力値ＯＵを最終出力値とした場合について、最終出力値の精度の一例を示す。
図１０によれば、ビット幅が６桁までは、出力値ＯＵの小数点をシフトさせたか否かにかかわらず、小数点第二位まで等しい精度が得られているのが分かる。ビット幅が５桁では、出力値ＯＵの小数点をシフトさせない場合と小数点をシフトさせた場合とでは、小数点第二位に差が生じている。ビット幅が４桁以下では、小数点をシフトさせない場合は、出力値ＯＵの小数点をシフトさせた場合と比較して、精度が大きく低下する。

前述した実施形態では、学習モデルの一例として、ディープニューラルネットワーク形式の学習モデルについて説明したがこの例に限られない。例えば、学習モデルに、畳み込みニューラルネットワーク形式の学習モデルが使用されてもよい。積和演算が含まれる層を有する学習モデルが使用可能である。
前述した実施形態では、学習モデルの一例が、Ｐｙｔｏｎで記述されている場合について説明したが、この例に限られない。例えば、学習モデルの一例が、Ｐｙｔｏｒｃｈ、Ｔｅｎｓｏｒｆｌｏｗなどのライブラリーで記述されていてもよい。
前述した実施形態では、入力値の一例として、３２ビットの浮動小数点の形式の数である場合について説明したが、この例に限られない。例えば、入力値として、１６ビットの浮動小数点の形式の数などの３２ビット以外の浮動小数点の形式の数を使用してもよい。
前述した実施形態において、学習モデル１５２と学習モデル３５２との各々は、複数の中間層を備えてもよい。複数の中間層を備える場合に、複数の中間層の各々について、ウエイトの小数点のシフト量とバイアスの小数点のシフト量と出力の小数点のシフト量（入力の小数点のシフト量）が導出される。
前述した実施形態において、演算装置１００は、出力値ＯＵと出力の小数点のシフト量ｏｓｆとに基づいて、出力値ＯＵの小数点をシフトさせるか否かを選択できるようにしてもよい。例えば、図１０に示すように、ビット幅ｎが６から８では、出力値ＯＵの小数点をシフトさせたものを最終出力値とした場合と、出力値ＯＵを最終出力値とした場合との間で精度の差が小さいため、出力値ＯＵの小数点をシフトさせる必要がないためである。このように構成することによって、出力値ＯＵの小数点をシフトさせるハードウェアを削減できる。

実施形態に係る演算装置によれば、演算装置１００は、ニューラルネットワーク形式の学習モデル１５２のパラメータの小数点のシフト量を特定する情報を取得する取得部１２５と、取得部１２５が取得したパラメータの小数点のシフト量を特定する情報に基づいて、入力値に対する学習モデル１５２の出力値を演算する演算部１３０と、出力値と出力値の小数点のシフト量とに基づいて、出力値の小数点をシフトさせ、小数点をシフトさせた出力値を出力する出力部１４０とを備え、入力値は、固定小数点の形式である。
このように構成することによって、演算装置１００は、学習モデル１５２のパラメータの小数点のシフト量を特定する情報に基づいて、固定小数点の形式の入力値に対する学習モデル１５２の出力値を演算し、出力値と出力値の小数点のシフト量とに基づいて、出力値の小数点をシフトさせ、小数点をシフトさせた出力値を出力する。
出力値と出力値の小数点のシフト量とに基づいて、出力値の小数点をシフトさせることができるため、入力値を固定小数点の形式に変換した場合に演算精度を向上できる。このため、ハードウェアに実装する前に正確な精度を求めることができる。ハードウェアと同等のエミュレーションができるため、ハードウェアのデバッグに使用できる。エミュレーションの段階で、桁あふれをチェックできる。通常使用されているディープニューラルネットワークフレームワークと併用して使用できる。

また、パラメータには、複数の層の各々のパラメータが含まれる。このように構成することによって、演算装置１００は、学習モデル１５２の複数の層の各々のパラメータに基づいて、入力値に対する学習モデル１５２の出力値を演算できるため、入力値を固定小数点の形式に変換した場合に、演算精度を向上できる。
また、パラメータには、ウエイトおよび出力が含まれる。このように構成することによって、演算装置１００は、学習モデル１５２の複数のウエイトの各々の小数点のシフト量と複数の層の各々の出力の小数点のシフト量とを特定する情報に基づいて、入力値に対する学習モデル１５２の出力値を演算できるため、入力値を固定小数点の形式に変換した場合に、演算精度を向上できる。
また、パラメータには、バイアスがさらに含まれる。このように構成することによって、演算装置１００は、学習モデル１５２の複数のバイアスの各々の小数点のシフト量を特定する情報にさらに基づいて、入力値に対する学習モデル１５２の出力値を演算できるため、入力値を固定小数点の形式に変換した場合に、演算精度を向上できる。

また、パラメータは、固定小数点の形式である。このように構成することによって、演算装置１００は、量子化された学習モデル１５２のパラメータの小数点のシフト量を特定する情報に基づいて、固定小数点の形式の入力値に対する学習モデル１５２の出力値を演算し、出力値と出力値の小数点のシフト量とに基づいて、出力値の小数点をシフトさせ、小数点をシフトさせた出力値を出力できる。このため、ハードウェアに実装する前に正確な精度を求めることができる。ハードウェアと同等のエミュレーションができるため、ハードウェアのデバッグに使用できる。通常使用されているディープニューラルネットワークフレームワークと併用して使用できる。
また、学習モデルは、ディープニューラルネットワーク形式の学習済モデルに基づいて、パラメータを固定小数点の形式に変換することによって作成されたものである。このように構成することによって、学習済モデルから学習モデルを用意できる。
また、演算部１３０は、パラメータに基づいて、入力値に対して、ＭＡＣ（ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅ）演算を行う。このように構成することによって、入力値に対してＭＡＣ演算を行うことによって、入力値に対する学習モデル１５２の出力値を演算できる。

ニューラルネットワークを用いたシステムは、その応用範囲の広さから、様々な用途で使われ、特にエッジデバイスでの使用がされている。しかし、ニューラルネットワークは大量の計算が必要であるため、エッジデバイスで実行するには、計算量を削減する量子化が必須となる。このため、実施形態に係る演算装置の応用先としては監視カメラ、組込みカメラなどで使われるニューラルネットワークの量子化が挙げられる。特に演算方法は実際のハードウェアをエミュレーションすることが可能であり、検証をすばやく行える。また、どのようなニューラルネットワークにも対応可能であり、新しいモデルに対しても量子化を試すことができる。

（実施形態の変形例）
［全体構成］
図１１は、実施形態の変形例に係る演算装置の構成図である。
ユーザーＵは、演算装置１００ａに、入力値を入力する操作を行う。入力値の一例は、浮動小数点の形式である。以下、入力値が、浮動小数点の形式である場合について説明を続ける。
演算装置１００ａは、ユーザーＵが入力した入力値を受け付ける。演算装置１００ａは、受け付けた入力値を浮動小数点の形式から固定小数点の形式へ変換する。固定小数点の形式へ変換するときの桁数（ビット幅）ｎは、予め設定されている。ここで、本実施形態の変形例に係る演算装置１００ａでは、複数のビット幅ｎが設定されている。具体的には、ｎ＝６、７、８、９、１０、１６などである。

演算装置１００ａは、ディープニューラルネットワーク形式の学習モデルに基づいて、その学習モデルに含まれるパラメータを取得する。パラメータの一例は、浮動小数点の形式である。以下、入力値が、浮動小数点の形式である場合について説明を続ける。演算装置１００ａは、取得したパラメータを固定小数点の形式へ変換する。固定小数点の形式へ変換するときの桁数（ビット幅）ｎは、予め設定されている。

演算装置１００ａは、固定小数点の形式へ変換後の複数の入力値およびパラメータに基づいて、複数の入力値の各々に対する出力値ｏｕを演算することによって導出する。演算装置１００ａは、導出した複数の出力値ｏｕと出力値の小数点のシフト量ｏｓｆとに基づいて、複数の出力値ｏｕの各々の小数点をシフトさせることによって最終出力値を導出する。
演算装置１００ａは、複数の最終出力値の各々について、最終出力値の精度を導出する。演算装置１００ａは、入力値を固定小数点の形式へ変換するときの複数のビット幅ｎの各々について、ビット幅と精度とを関連付けて出力する。
以下、演算装置１００ａについて説明する。

［演算装置１００ａ］
演算装置１００ａは、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。演算装置１００ａは、例えば、入力部１１０と、受付部１２０と、取得部１２５と、演算部１３０ａと、導出部１３５と、出力部１４０ａと、記憶部１５０とを備える。

演算部１３０ａは、取得部１２５が取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。演算部１３０ａは、取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とに基づいて、入力値に対する学習モデル１５２の出力値を演算する。

演算部１３０ａが実行するＭＡＣ演算は、図５を適用できる。演算部１３０ａは、乗算器１０と加算器２０と加算器３０とを備え、積和演算と加算演算とを行う。演算部１３０ａは、入力値ｉｎとパラメータの小数点のシフト量を特定する情報とを取得する。ここで、入力値ｉｎは、入力値の小数点のシフト量を特定する情報に基づいて、固定小数点の形式に変換されたものである。
演算部１３０ａは、パラメータの小数点のシフト量を特定する情報に基づいて、ウエイトＷＥの小数点をシフトさせる。演算部１３０ａにおいて、乗算器１０は、入力値ｉｎと小数点をシフトさせたウエイトＷＥとを乗算する。加算器２０は、入力値ｉｎと小数点をシフトさせたウエイトＷＥとを乗算した結果とを加算する。

加算器３０は、加算器２０の出力値ＯＵと出力の小数点のシフト量ｏｓｆとに基づいて、出力値ＯＵの小数点をシフトさせることによって、最終出力を導出する。具体的には、加算器３０は、出力値ＯＵに０．５を加算する。
導出部１３５は、演算部１３０ａから、複数のビット幅ｎの各々について、最終出力を取得する。導出部１３５は、取得した複数の最終出力に基づいて、最終出力の精度を導出する。
出力部１４０ａは、導出部１３５から、入力値を固定小数点の形式に変換したときの複数のビット幅の各々と、最終出力の精度とを関連付けた情報を取得する。出力部１４０ａは、取得した複数のビット幅の各々と、最終出力の精度とを関連付けた情報を出力する。

（演算装置１００ａの動作）
図１２は、実施形態の変形例に係る演算装置の動作の一例を示すフローチャートである。
（ステップＳ１－３）
演算装置１００ａにおいて、受付部１２０は、入力部１１０に入力された入力値を特定する情報を取得し、取得した入力値を特定する情報を受け付ける。
（ステップＳ２－３）
演算装置１００ａにおいて、取得部１２５は、記憶部１５０のシフト量情報１５４に記憶されている入力値の小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。
（ステップＳ３－３）
演算装置１００ａにおいて、演算部１３０ａは、ビット幅を設定する。

（ステップＳ４－３）
演算装置１００ａにおいて、演算部１３０ａは、受付部１２０が受け付けた入力値を特定する情報を取得する。演算部１３０ａは、取得した入力値を特定する情報と設定したビット幅とに基づいて、入力値を固定小数点の形式へ変換する。
（ステップＳ５－３）
演算装置１００ａにおいて、演算部１３０ａは、取得部１２５が取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とを取得する。演算部１３０ａは、取得した入力層と中間層と出力層との各々のパラメータの小数点のシフト量を特定する情報と、入力層と中間層と出力層との各々の出力の小数点のシフト量を特定する情報とに基づいて、入力値に対する学習モデル１５２の出力値を演算する。

（ステップＳ６－３）
演算装置１００ａにおいて、演算部１３０ａは、出力値と出力の小数点のシフト量ｏｓｆとに基づいて、出力値ＯＵの小数点をシフトさせることによって、最終出力を導出する。
（ステップＳ７－３）
演算装置１００ａにおいて、演算部１３０ａは、全てのビット幅で最終出力を導出したか否かを判定する。最終出力を導出していないビット幅がある場合には、ステップＳ３－３へ戻る。
（ステップＳ８－３）
演算装置１００ａにおいて、導出部１３５は、演算部１３０ａが全てのビット幅で最終出力を導出したと判定した場合に、演算部１３０ａから、複数のビット幅ｎの各々について、最終出力を取得する。導出部１３５は、取得した複数の最終出力に基づいて、最終出力の精度を導出する。

（ステップＳ９－３）
演算装置１００ａにおいて、出力部１４０ａは、導出部１３５から、入力値を固定小数点の形式に変換したときの複数のビット幅の各々と、最終出力の精度とを関連付けた情報を取得する。出力部１４０ａは、取得した複数のビット幅の各々と、最終出力の精度とを関連付けた情報を出力する。
図１２では、全てのビット幅で最終出力を導出した後に、最終出力の精度が導出される場合について説明したが、この例に限られない。例えば、最終出力が導出されるたびに、最終出力の精度が導出されるようにしてもよい。

実施形態の変形例に係る演算装置１００ａによれば、演算装置１００ａは、前述した演算装置１００において、演算部１３０ａは、異なるビット幅で固定小数点の形式へ変換された複数の入力値に対する学習モデルの出力値を求め、求めた複数の出力値の各々と出力値の小数点のシフト量とに基づいて、求めた複数の出力値の各々の小数点をシフトさせる。演算装置１００ａは、複数の出力値の各々の小数点をシフトさせた結果の精度を導出する導出部を備える。
このように構成することによって、演算装置１００ａは、複数のビット幅の各々について、学習モデルの出力値の小数点をシフトさせた結果の精度を導出できる。このため、仮に学習モデルに要求される精度が設定された場合に、その要求される精度を満足するビット幅を求めることができる。つまり、複数の学習モデルが用意された場合に、許容できるビット幅を求めることができる。また、エミュレーションの時点で、量子化によってどの程度精度が低下するかが分かる。

図１３は、本実施形態の変形例に係る演算装置の出力の精度の導出結果の一例を示す図である。図１３において、横軸は入力値の形式であり、縦軸は精度を示す。
「ＦＰ３２」は浮動小数点形式の３２ビットであり、「ＦＰ１６」は浮動小数点形式の１６ビットである。「ＩＮＴ１６」は固定小数点形式の１６ビットであり、「ＩＮＴ１０」は固定小数点形式の１０ビットであり、「ＩＮＴ９」は固定小数点形式の９ビットである。「ＩＮＴ８」は固定小数点形式の８ビットであり、「ＩＮＴ７」は固定小数点形式の７ビットであり、「ＩＮＴ６」は固定小数点形式の６ビットである。
ＩｍａｇｅＮｅｔとＣＩＦＡＲ１００とで学習された学習モデルを使用して、精度の評価を行った。ここでは、学習モデルの一例として、ＡｌｅｘＮｅｔと、ＶＧＧ１６と、ＭｏｂｉｌｅＮｅｔ－ｖ２とについて示す。

図１３によれば、ＩｍａｇｅＮｅｔで学習されたＡｌｅｘＮｅｔ（Ｉｎｎｅｔ＿ＡｌｅｘＮｅｔ）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９に比べて、ＩＮＴ８、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
ＩｍａｇｅＮｅｔで学習されたＶＧＧ１６（Ｉｎｎｅｔ＿ＶＧＧ１６）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９、ＩＮＴ８に比べて、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
ＩｍａｇｅＮｅｔで学習されたＭｏｂｉｌｅＮｅｔ－ｖ２（Ｉｎｎｅｔ＿ＭｏｂｉｌｅＮｅｔ－ｖ２）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０に比べて、ＩＮＴ９、ＩＮＴ８、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。

さらに、図１３によれば、ＣＩＦＡＲ１００で学習されたＡｌｅｘＮｅｔ（Ｃ１００＿ＡｌｅｘＮｅｔ）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９に比べて、ＩＮＴ８、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
ＣＩＦＡＲ１００で学習されたＶＧＧ１６（Ｃ１００＿ＶＧＧ１６）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９、ＩＮＴ８に比べて、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
ＣＩＦＡＲ１００で学習されたＭｏｂｉｌｅＮｅｔ－ｖ２（Ｃ１００＿ＭｏｂｉｌｅＮｅｔ－ｖ２）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９に比べて、ＩＮＴ８、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
さらに、図１３によれば、ＣＩＦＡＲ１００で学習されたＡｌｅｘＮｅｔにＧＡＰ（ＧｌｏｂａｌａｖｅｒａｇｅＰｏｏｌｉｎｇ）を適用（Ｃ１００＿ＡｌｅｘＮｅｔ＿ＧＡＰ）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９に比べて、ＩＮＴ８、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
ＣＩＦＡＲ１００で学習されたＶＧＧ１６にＧＡＰを適用（Ｃ１００＿ＶＧＧ１６＿ＧＡＰ）の場合には、ＦＰ３２、ＦＰ１６、ＩＮＴ１６、ＩＮＴ１０、ＩＮＴ９、ＩＮＴ８に比べて、ＩＮＴ７、ＩＮＴ６については精度が低下することが分かる。
図１３によれば、学習モデルが用意された場合に、許容される精度に基づいて、何ビットまで許容できるか求めることができる。

以上、本発明の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、組合わせを行うことができる。これら実施形態及びその変形例は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
なお、前述の演算装置１００、端末装置３００、演算装置１００ａは内部にコンピュータを有している。そして、前述した各装置の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリなどをいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１０…乗算器、２０、３０…加算器、１００、１００ａ…演算装置、１１０…入力部、１２０…受付部、１２５…取得部、１３０、１３０ａ…演算部、１３５…導出部、１４０、１４０ａ…出力部、１５０…記憶部、１５１－１…入力層、１５１－２…中間層、１５１－３…出力層、１５２…学習モデル、１５４…シフト量情報、２００、２０５…入力値、２１０、２１５…符号ビット、２２０…指数部、２２５…整数部、２３０…仮数部、２３５…小数部、２４５…小数点、３００…端末装置、３１０…入力部、３２０…受付部、３２５…取得部、３３０…演算部、３４０…出力部、３５０…記憶部、３５２、３５２ａ…学習モデル、３５４…シフト量情報、３５１－１、３５１ａ－１…入力層、３５１－２、３５１ａ－２…中間層、３５１－３、３５１ａ－３…出力層

Claims

ニューラルネットワーク形式の学習モデルのパラメータの小数点のシフト量を特定する情報を取得する取得部と、
前記取得部が取得したパラメータの小数点のシフト量を特定する情報に基づいて、異なるビット幅で固定小数点の形式へ変換された複数の入力値に対する前記学習モデルの出力値を求め、求めた複数の前記出力値の各々と出力値の小数点のシフト量とに基づいて、求めた複数の前記出力値の各々の小数点をシフトさせる演算部と、
複数の前記出力値の各々の小数点をシフトさせた結果の精度を導出する導出部と、
を備え、
前記入力値は、固定小数点の形式である、演算装置。
前記パラメータには、複数の層の各々のパラメータが含まれる、請求項１に記載の演算装置。
前記パラメータには、ウエイトおよび出力が含まれる、請求項２に記載の演算装置。
前記パラメータには、バイアスがさらに含まれる、請求項３に記載の演算装置。
前記パラメータは、固定小数点の形式である、請求項１から請求項４のいずれか一項に記載の演算装置。
前記学習モデルは、ディープニューラルネットワーク形式の学習済モデルに基づいて、パラメータを固定小数点の形式に変換することによって作成されたものである、請求項１から請求項５のいずれか一項に記載の演算装置。
前記演算部は、前記パラメータに基づいて、入力値に対して、ＭＡＣ（ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅ）演算を行う、請求項１から請求項６のいずれか一項に記載の演算装置。
ニューラルネットワーク形式の学習モデルのパラメータの小数点のシフト量を特定する情報を取得するステップと、
取得する前記ステップで取得したパラメータの小数点のシフト量を特定する情報に基づいて、異なるビット幅で固定小数点の形式へ変換された複数の入力値に対する前記学習モデルの出力値を求め、求めた複数の前記出力値の各々と出力値の小数点のシフト量とに基づいて、求めた複数の前記出力値の各々の小数点をシフトさせるステップと、
複数の前記出力値の各々の小数点をシフトさせた結果の精度を導出するステップと、
を有し、
前記入力値は、固定小数点の形式である、コンピュータが実行する演算方法。