JP7622351B2

JP7622351B2 - 演算装置、演算方法、およびコンピュータプログラム

Info

Publication number: JP7622351B2
Application number: JP2020074044A
Authority: JP
Inventors: 敏之藤嶋
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2025-01-28
Anticipated expiration: 2040-04-17
Also published as: JP2021170293A

Description

本開示は、ニューラルネットワークを使用した演算装置、演算方法、およびコンピュータプログラムに関する。

従来、データの内容に基づく学習の結果に従って認識を行うニューラルネットワークの構成が提案されている（例えば非特許文献１を参照）。

Andrew G. Howard et. al., "MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications," arXiv:1704.04861, 2017.

本開示にかかる演算装置は、入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行する演算処理部を有し、複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの所定範囲に含まれる個々の特徴に対し、チャネル方向および空間方向を含む複数の次元のうち少なくとも１つについて畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行する。

本開示にかかる演算方法は、コンピュータが、入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行する演算方法であって、複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの所定範囲に含まれる個々の特徴に対し、チャネル方向および空間方向を含む複数の次元のうち少なくとも１つについて畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行する。

本開示にかかるコンピュータプログラムは、コンピュータに、入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行させるコンピュータプログラムであって、複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの所定範囲に含まれる個々の特徴に対し、チャネル方向および空間方向を含む複数の次元のうち少なくとも１つについて畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行する。

コンピュータの概略構成を示す模式図である。プロセッサの機能ブロック図である。ニューラルネットワークの構造を示す模式図である。特徴マップの構造の例を示す模式図である。（ａ）はダイレートサイズが１のカーネルの構造の例を示す模式図であり、（ｂ）はダイレートサイズが２のカーネルの構造の例を示す模式図であり、（ｃ）はダイレートサイズが４のカーネルの構造の例を示す模式図である。演算処理部の処理フローチャートである。ニューラルネットワークの異なる構造を示す模式図である。ニューラルネットワークのさらに異なる構造を示す模式図である。ニューラルネットワークのさらに異なる構造を示す模式図である。（ａ）はダイレートサイズが１のカーネルの構造の他の例を示す模式図であり、（ｂ）はダイレートサイズが２のカーネルの構造の他の例を示す模式図であり、（ｃ）はダイレートサイズが４のカーネルの構造の他の例を示す模式図である。一実施形態にかかる演算装置を搭載するカメラの構成を示す模式図である。一実施形態にかかる演算装置を搭載するカメラの処理フローチャートである。一実施形態にかかるニューラルネットワークの構造を示す模式図である。ニューラルネットワークを用いた処理の例を説明する模式図である。ニューラルネットワークを用いた処理の他の例を説明する模式図である。

以下、図面を参照して演算装置、演算方法、およびコンピュータプログラムについて詳細に説明する。ただし、本発明は図面または以下に記載される実施形態には限定されないことを理解されたい。

図１は本開示の一実施形態にかかるコンピュータの概略構成を示す模式図であり、図２はプロセッサの機能ブロック図である。

本実施形態において、演算装置の一例であるコンピュータ１は、入力された所定のデータをニューラルネットワークに入力することで所定の処理を実行する。そのために、コンピュータ１は、入出力インタフェース１１と、メモリ１２と、プロセッサ１３とを備える。

入出力インタフェース１１は、コンピュータ１が処理すべきデータを受け付け、または、コンピュータ１により処理されたデータを出力するためのインタフェース回路を有する。入出力インタフェース１１は、例えばコンピュータ１を通信ネットワークに接続するための通信インタフェース回路、またはコンピュータ１をキーボード、ディスプレイといった各種周辺機器と接続するための周辺機器インタフェース回路を含む。入出力インタフェース１１は、所定のデータの入力を受け付けて、処理結果を出力する。

メモリ１２は記憶部の一例であり、例えば、半導体メモリ、磁気ディスク装置および光ディスク装置のうちの少なくとも１つを有する。メモリ１２は、プロセッサ１３による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。例えば、メモリ１２はアプリケーションプログラムとして、本開示の演算処理を実現するためのコンピュータプログラムを記憶する。また、メモリ１２はデータとして、ニューラルネットワークを規定するためのパラメータ群（層数、層構成、カーネル、重み係数等）を記憶する。各種プログラムは、コンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いてメモリ１２にインストールされてよい。コンピュータ読み取り可能な可搬型記録媒体とは、例えばＣＤ－ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ－ＲＯＭ（DVD Read-Only Memory）等である。

プロセッサ１３は、１以上のプロセッサおよびその周辺回路を備える。プロセッサ１３は、コンピュータ１の全体的な動作を統括的に制御する処理回路であり、例えば、ＣＰＵ（Central Processing Unit）である。プロセッサ１３は、大量の定型的演算を並列に処理可能なＧＰＵ（Graphics Processing Unit）を有してもよい。プロセッサ１３は、コンピュータ１の各種処理がメモリ１２に記憶されているプログラム等に基づいて適切な手段で実行されるように、入出力インタフェース１１等の動作を制御する。プロセッサ１３は、メモリ１２に記憶されているプログラム（オペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム等）に基づいて処理を実行する。また、プロセッサ１３は、複数のプログラム（アプリケーションプログラム等）を並列に実行することができる。

図２に示すように、プロセッサ１３は、ニューラルネットワークＮＮ１による演算を実行するための演算処理部１３１を有する。演算処理部１３１は、プロセッサ１３が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、演算処理部１３１は、独立した集積回路、マイクロプロセッサ、またはファームウェアとしてコンピュータ１に実装されてもよい。

演算処理部１３１は、ニューラルネットワークＮＮ１に所定のデータを入力することで所定の処理を実行する。所定の処理は、例えば画像に表わされる物体の種類および位置を特定する物体検出、画像の画素単位でクラス分類を行う領域分割等である。

ニューラルネットワークＮＮ１は、上流層ＵＬ１と、中流層ＭＬ１と、下流層ＤＬ１とを有する。

図３はニューラルネットワークＮＮ１の構造を示す模式図であり、図４は特徴マップの構造の例を示す模式図であり、図５はカーネル（またはフィルタ）の構造の例を示す模式図である。

ニューラルネットワークＮＮ１は、例えばＣＮＮ（Convolutional Neural Network）型のアーキテクチャを有するニューラルネットワークである。ニューラルネットワークＮＮ１は、例えば画像データの入力を受け付けて所定の演算を実行し、画像データに表わされる物体を検出する。ニューラルネットワークＮＮ１は、検出対象となる物体が表わされた複数の画像、および、各画像上における物体の位置、種類等を示す情報を教師データとして用いて、誤差逆伝搬法に従って予め学習される。

この場合、ニューラルネットワークＮＮ１は、上流層ＵＬ１において入力された画像データに対する畳み込み演算を実行し、画像データの解像度と同じ解像度の特徴マップを出力する。そして、上流層ＵＬ１は、その特徴マップに対してプーリング処理を行い、解像度を低下させた特徴マップを生成し、その特徴マップを中流層ＭＬ１に出力する。中流層ＭＬ１は、複数の畳み込み層により畳み込み演算を実行し、入力された特徴マップの解像度と同じ解像度の特徴マップを出力する。下流層ＤＬ１は、入力された特徴マップに対してプーリング処理を行い、解像度を低下させた特徴マップを生成する。最終的に得られた様々な解像度の特徴マップから複数のバウンディングボックスが出力され、複数のバウンディングボックスに対してＮＭＳ（Non-Maximum Suppression）処理が行われ、物体が検出される。

ニューラルネットワークＮＮ１は、上述の上流層ＵＬ１、中流層ＭＬ１、および下流層ＤＬ１のさらに下流側に、異なる上流層、中流層、および下流層を有していてもよい。この場合、異なる上流層は下流層ＤＬ１を含み、物体検出などの処理を行ってよい。

また、ニューラルネットワークＮＮ１は、セマンティックセグメンテーション用に学習されてもよい。この場合、上流層ＵＬ１は、物体検出の場合と同様に入力された画像データの畳み込み演算およびプーリング処理を行って解像度を低下させた特徴マップを生成し、中流層ＭＬ１に出力する。中流層ＭＬ１は、複数の畳み込み層により畳み込み演算を実行し、入力された特徴マップの解像度と同じ解像度の特徴マップを下流層ＤＬ１に出力する。下流層ＤＬ１は、上流層ＵＬ１と同様、入力された特徴マップに対してプーリング処理を行い、解像度を低下させた特徴マップを生成する。ニューラルネットワークＮＮ１から出力された特徴マップに対して、転置畳み込み演算（transposed convolution）を実行して解像度を上昇させた特徴マップを生成し、画像の各画素を複数のクラスに分類し、セマンティックセグメンテーションが実行される。

上流層ＵＬ１は、画像データの入力を受け付ける入力層、入力された画像データの畳み込み演算を実行する１以上の畳み込み層等を有し、複数の次元を有する特徴マップ１００を出力する。さらに、上流層ＵＬ１はプーリング層を有し、得られた特徴マップの解像度をそのプーリング層により低下させてから中流層ＭＬ１に出力してもよい。

図４は、上流層ＵＬ１から出力される特徴マップ１００の構造を示している。特徴マップ１００は、複数の特徴を複数の次元に配置した構造を有する。特徴マップ１００において、複数の特徴はＨ（高さ）方向およびＷ（幅）方向を少なくとも有する空間方向に配置され、さらにＣ（チャネル、深さ）方向に配置される。

本実施形態において、図３に示すノードは特徴マップ１００のチャネルに対応する。すなわち、特徴マップ１００は、上流層ＵＬ１の最も出力側に位置する最終層Ｌ１０に含まれるノード数に応じたチャネル数を有する。図３では、説明の簡単化のために、最終層Ｌ１０に含まれるノードのうちの８個（Ｎ１０１－Ｎ１０８）が図示される。なお、ノード数および畳み込まれる特徴の数は本実施形態に限定されない。

中流層ＭＬ１は、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ１１－Ｌ１３を有する。畳み込み層Ｌ１１－Ｌ１３は、特徴マップの複数の次元の少なくとも１つについて畳み込み演算を実行する。本実施形態では、畳み込み層Ｌ１１－Ｌ１３は、少なくともＣ方向についての畳み込み演算を実行して演算の結果を出力する。

複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される複数の次元を有する特徴マップの所定範囲に含まれる個々の特徴に対し、畳み込み演算を実行する。すなわち、各畳み込み層は、入力される特徴マップのチャネル数と同数のノードを有し、そのうちＮ１０１－Ｎ１０８に対応する８個が図３に示されている。畳み込み層Ｌ１１に含まれるノードＮ１１１－Ｎ１１８は、上流層ＵＬ１の最終層Ｌ１０に含まれるノードＮ１０１－Ｎ１０８がそれぞれ出力する特徴と、カーネルの対応する重み係数との積和演算を実行する。それぞれの畳み込み層における畳み込み演算には、複数の次元の少なくとも１つについて畳み込み層ごとに定められたダイレートサイズの異なるカーネルが用いられる。本実施形態では、Ｃ方向について、畳み込み層ごとにダイレートサイズの異なるカーネルが用いられる。

図３において、入力側の層（例えば畳み込み層Ｌ１１）のノードと出力側の層（例えば畳み込み層Ｌ１２）のノードとを接続する線は、入力側の層のノードが出力する特徴が出力側の層のノードの演算に用いられる（以下、「結合されている」ともいう）ことを示す。

畳み込み層Ｌ１１－Ｌ１３は、特徴マップのＣ方向について、所定範囲に含まれる個々の特徴に対する畳み込み演算を実行する。図３では、中流層かつ所定の範囲が、２重枠線で示されている。

畳み込み層Ｌ１１に含まれるノードＮ１１１－Ｎ１１８は、直前の層である上流層ＵＬ１の最終層Ｌ１０から出力される特徴マップのうちノードＮ１０１－Ｎ１０８から出力される個々の特徴に対し、ダイレートサイズが１のカーネルを用いた畳み込み演算を実行する。

図５（ａ）は、ダイレートサイズが１のカーネルＫ１１の構造の例を示す模式図である。図５（ａ）－（ｃ）において、各カーネルにおける斜線の施されたマス目は、重み係数が設定されていることを示す。また、各カーネルにおける斜線の施されていないマス目は、重み係数が設定されていない（または重み係数として０が設定されている）ことを示す。すなわち、斜線の施されたマス目に対応する重み係数のみが、畳み込み演算の入力として使用される。図５（ａ）に示すカーネルＫ１１は、対象ノードに対応する位置に重み係数Ｗ１１２が設定され、対象ノードから距離が１となる位置に重み係数Ｗ１１１、Ｗ１１３が設定されている。

直前の層である上流層ＵＬ１の最終層Ｌ１０から出力される特徴マップの所定範囲に含まれる個々の特徴に対し、対象ノードを順次変更して（ストライド＝１）カーネルＫ１１を適用することで、畳み込み層Ｌ１１における畳み込み演算が行われる。例えば、ノードＮ１１２は、ノードＮ１０１が出力する特徴と重み係数Ｗ１１１との積と、ノードＮ１０２が出力する特徴と重み係数Ｗ１１２との積と、ノードＮ１０３が出力する特徴と重み係数Ｗ１１３との積とを加算し、出力する。なお、本明細書においてストライドとは、中流層に入力される特徴マップを基準とした、カーネルを適用する位置の間隔をいう。

畳み込み層Ｌ１２では図５（ｂ）に示すダイレートサイズが２のカーネルＫ１２を用いた畳み込み演算が実行され、畳み込み層Ｌ１３では図５（ｃ）に示すダイレートサイズが４のカーネルＫ１３を用いた畳み込み演算が実行される。図５（ｂ）に示すカーネルＫ１２は、対象ノードに対応する位置に重み係数Ｗ１２２が設定され、対象ノードから距離が２となる位置に重み係数Ｗ１２１、Ｗ１２３が設定されている。カーネルＫ１２において、対象ノードから距離が１となる位置には重み係数が設定されていない。図５（ｃ）に示すカーネルＫ１３は、対象ノードに対応する位置に重み係数Ｗ１３２が設定され、対象ノードから距離が４となる位置に重み係数Ｗ１３１、Ｗ１３３が設定されている。カーネルＫ１３において、対象ノードから距離が１、２、３となる位置には重み係数が設定されていない。

このように、中流層ＭＬ１では、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ１１－Ｌ１３によって、畳み込み層ごとにダイレートサイズの異なるカーネルを用いた畳み込み演算が実行される。

最も出力側の畳み込み層Ｌ１３から出力される特徴マップのうち所定範囲に含まれるノードＮ１３１－Ｎ１３８から出力される各特徴には、最も入力側の畳み込み層Ｌ１１に入力された特徴マップのうち所定範囲に含まれる一部の特徴が結合される。一部の特徴とは、畳み込み層Ｌ１１－Ｌ１３のそれぞれに用いられるカーネルのダイレートサイズの合計（１＋２＋４＝７）だけ離間した範囲に含まれる特徴である。

図３において、例えば畳み込み層Ｌ１３のノードＮ１３５には、畳み込み層Ｌ１２のノードＮ１２１およびノードＮ１２５が結合される。

畳み込み層Ｌ１２において、ノードＮ１２１には、畳み込み層Ｌ１１のノードＮ１１１およびノードＮ１１３が結合される。ノードＮ１２５には、畳み込み層Ｌ１１のノードＮ１１３、ノードＮ１１４、およびノードＮ１１７が結合される。そのため、畳み込み層Ｌ１３のノードＮ１３５には、畳み込み層Ｌ１２のノードＮ１２１およびノードＮ１２５を介して、畳み込み層Ｌ１１のノードＮ１１１、Ｎ１１３、Ｎ１１４、Ｎ１１７が結合される。

畳み込み層Ｌ１１において、ノードＮ１１１には、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０１およびノードＮ１０２が結合される。ノードＮ１１３には、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０２、ノードＮ１０３およびノードＮ１０４が結合される。ノードＮ１１５には、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０４、ノードＮ１０５およびノードＮ１０６が結合される。ノードＮ１１７には、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０６、ノードＮ１０７およびノードＮ１０８が結合される。そのため、畳み込み層Ｌ１３のノード１３５には、畳み込み層Ｌ１２のノードＮ１２１およびノードＮ１２５および畳み込み層Ｌ１１のノードＮ１１１、Ｎ１１３、Ｎ１１４、Ｎ１１７を介して、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０１－Ｎ１０８が結合される。

このように、畳み込み層Ｌ１３のノードＮ１３１－Ｎ１３８から出力される各特徴には、上流層ＵＬ１の最終層Ｌ１０のノードＮ１０１－Ｎ１０８から出力されるすべてのＣ方向の特徴が結合される。

畳み込み層Ｌ１３から出力された特徴マップは、下流層ＤＬ１に入力される。下流層ＤＬ１は、最も出力側に、ニューラルネットワークＮＮ１による演算結果を出力する出力層を有する。出力層は、活性化関数としてソフトマックス関数を用いることにより、例えば画像上の着目する領域について検出対象の種類のうち最も確からしい種類を特定できる。また、出力層は、活性化関数としてシグモイド関数を用いることにより、種類ごとに確信度を出力することができる。下流層ＤＬ１は、出力層よりも入力側に、転置畳み込み演算を実行する転置畳み込み層、プーリング層などを含んでもよい。

図６は、演算処理部１３１の処理フローチャートである。演算処理部１３１は、ニューラルネットワークＮＮ１に所定のデータを入力し、以下の処理を実行する。

まず、演算処理部１３１は、ニューラルネットワークＮＮ１の上流層ＵＬ１に、所定のデータに対する所定の演算を実行させ、特徴マップ１００を出力させる（ステップＳ１）。特徴マップ１００は、畳み込み層Ｌ１１－Ｌ１３における畳み込み演算の対象となる所定範囲に対応する特徴を含む。

次に、演算処理部１３１は、ニューラルネットワークＮＮ１の中流層ＭＬ１に含まれる複数の畳み込み層Ｌ１１－Ｌ１３のうち、未処理かつ最も入力側の層に畳み込み演算を実行させる（ステップＳ２）。ステップＳ２での畳み込み演算では、畳み込み層ごとに予め設定されたダイレートサイズのカーネルが用いられる。本実施形態では、畳み込み層Ｌ１１においてダイレートサイズ＝１、畳み込み層Ｌ１２においてダイレートサイズ＝２、畳み込み層Ｌ１３においてダイレートサイズ＝４のカーネルが用いられる。

次に、演算処理部１３１は、中流層ＭＬ１に含まれるすべての畳み込み層Ｌ１１－Ｌ１３による畳み込み演算が終了したか否かを判定する（ステップＳ３）。

すべての畳み込み層による畳み込み演算が終了していないと判定された場合（ステップＳ３：Ｎ）、演算処理部１３１はステップＳ２の処理を実行する。未処理の畳み込み層には、処理済みの畳み込み層に関連づけられるダイレートサイズとは異なるダイレートサイズが関連づけられている。そのため、このようにステップＳ２の処理を繰り返し実行することにより、複数の畳み込み層のそれぞれにおいて、ダイレートサイズの異なるカーネルを用いた畳み込み演算が実行されることとなる。

すべての畳み込み層による畳み込み演算が終了したと判定された場合（ステップＳ３：Ｙ）、演算処理部１３１は中流層ＭＬ１の出力を下流層ＤＬ１に入力し、下流層ＤＬ１に所定の演算を実行させる（ステップＳ４）。演算処理部１３１は、下流層ＤＬ１の最終層から出力される演算結果を取得し、ニューラルネットワークＮＮ１による演算を終了する。

１チャネルあたりＨ×Ｗの特徴を２５６チャネル有する特徴マップ（C_in=C_out=256）に対し、３×３のカーネル（k_H=k_W=3）を用いた畳み込み演算を、非特許文献１に記載されたMobileNetsにより実行する場合の演算負荷は、以下の式１により求められる。

｛(k_H×k_W×C_in)+(1×1×C_in×C_out)｝×H×W = (2304+65536)×H×W = 67840×H×W
（式１）

一方、同じ特徴マップに対し同じカーネルを用いて本開示の演算装置が演算を実行する場合の演算負荷は、以下の式２により求められる。

C_in×log₂C_in×k_H×k_W×H×W = 256×8×3×3×H×W = 18432×H×W （式２）

このようにニューラルネットワークＮＮ１を用いて演算を行うことにより、演算装置は、演算対象の次元に多数の特徴を有する特徴マップの演算量を削減することができる。

なお、畳み込み層Ｌ１１－Ｌ１３で用いられるカーネルのダイレートサイズは、１（＝２⁰）、２（＝２¹）、４（＝２²）のように、２の累乗値となっている。このようにダイレートサイズを設定することで、より少ない畳み込み層によってより多くの特徴を結合する畳み込み演算が可能となる。

畳み込み層で用いられるカーネルのダイレートサイズは、２以上の自然数の累乗値であってもよい。例えば、ダイレートサイズが１（＝３⁰）、３（＝３¹）、９（＝３²）のような３の累乗値となるカーネルを使用してもよい。さらに、カーネルのダイレートサイズは２以上の自然数の累乗値に限定されず、所定数の畳み込み層によって必要な範囲の特徴が結合できるよう、適宜設定されてよい。

本開示において、ニューラルネットワークの構造は、図３に示す構造に限定されない。例えば、ニューラルネットワークの中流層に含まれる複数の畳み込み層での畳み込み演算に用いられるダイレートサイズは、１、２、４のように昇順に設定されていなくてもよい。図７はニューラルネットワークの異なる構造を説明する模式図である。

図７に示すニューラルネットワークＮＮ２は、上流層ＵＬ２と、中流層ＭＬ２と、下流層ＤＬ２とを有する。

上流層ＵＬ２はニューラルネットワークＮＮ１における上流層ＵＬ１と、下流層ＤＬ２は下流層ＤＬ１とそれぞれ同様であるので、詳細な説明を省略する。

中流層ＭＬ２は、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ２１－Ｌ２３を有する。畳み込み層Ｌ２１に含まれるノードＮ２１１－Ｎ２１８は、直前の層である上流層ＵＬ２の最終層Ｌ２０から出力される特徴マップのうちノードＮ２０１－Ｎ２０８から出力される個々の特徴に対し、ダイレートサイズが４のカーネルを用いた畳み込み演算を実行する。また、畳み込み層Ｌ２２に含まれるノードＮ２２１－Ｎ２２８は、直前の層である畳み込み層Ｌ２１から出力される特徴マップのうちノードＮ２１１－Ｎ２１８から出力される個々の特徴に対し、ダイレートサイズが１のカーネルを用いた畳み込み演算を実行する。また、畳み込み層Ｌ２３に含まれるノードＮ２３１－Ｎ２３８は、直前の層である畳み込み層Ｌ２２から出力される特徴マップのうちノードＮ２２１－Ｎ２２８から出力される個々の特徴に対し、ダイレートサイズが２のカーネルを用いた畳み込み演算を実行する。

このように、連続する複数の畳み込み層でダイレートサイズの異なるカーネルを用いた畳み込み演算を実行するにあたり、ダイレートサイズは入力側から出力側に向けて昇順または降順といった順序で変更される必要はなく、順序は任意である。

最も出力側の畳み込み層Ｌ２３のノードＮ２３１－Ｎ２３８から出力される各特徴には、上流層ＵＬ２の最終層Ｌ２０のノードＮ２０１－Ｎ２０８から畳み込み層Ｌ２１のノードＮ２１１－Ｎ２１８に入力されたすべてのＣ方向の特徴が結合される。

また、ニューラルネットワークの中流層に含まれる複数の畳み込み層は、ストライドが２以上の畳み込み演算を実行してもよい。図８は、ニューラルネットワークのさらに異なる構造を説明する模式図である。

図８に示すニューラルネットワークＮＮ３は、上流層ＵＬ３と、中流層ＭＬ３と、下流層ＤＬ３とを有する。

上流層ＵＬ３はニューラルネットワークＮＮ１における上流層ＵＬ１と同様であるので、詳細な説明を省略する。

中流層ＭＬ３は、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ３１－Ｌ３３を有する。畳み込み層Ｌ３１に含まれるノードＮ３１１－Ｎ３１８は、直前の層である上流層ＵＬ３の最終層Ｌ３０から出力される特徴マップのうちノードＮ３０１－Ｎ３０８から出力される個々の特徴に対し、ダイレートサイズが４のカーネルを用いた畳み込み演算を実行する。

畳み込み層Ｌ３２では、ダイレートサイズが１のカーネルを用いた畳み込み演算が実行される。このときの畳み込み演算のストライドは２である。すなわち、ノードＮ３２１で畳み込み演算が実行される場合、隣接するノードＮ３２２では畳み込み演算は実行されない。また、ノードＮ３２１から距離が２の位置にあるノードＮ３２３では畳み込み演算が実行される。

畳み込み層Ｌ３３では、ダイレートサイズが２のカーネルを用いた畳み込み演算が実行される。このとき、畳み込み演算のストライドは４である。すなわち、ノードＮ３３１およびＮ３３５で畳み込み演算が実行され、ノードＮ３３２－Ｎ３３４およびノードＮ３３６－Ｎ３３８では畳み込み演算は実行されない。

最も出力側の畳み込み層Ｌ３３のノードＮ３３１、Ｎ３３５から出力される各特徴には、上流層ＵＬ３の最終層Ｌ３０のノードＮ３０１－Ｎ３０８から畳み込み層Ｌ３１のノードＮ３１１－Ｎ３１８に入力されたすべてのＣ方向の特徴が結合される。

下流層ＤＬ３に含まれる層Ｌ３４は、ノードＮ３３１、Ｎ３３５から出力される各特徴を用いた転置畳み込み演算を実行する。

このように、ニューラルネットワークＮＮ３では、中流層ＭＬ３にはストライドが２以上の畳み込み演算を実行する畳み込み層Ｌ３２、Ｌ３３が含まれている。そのため、ニューラルネットワークＮＮ３では、ストライドが２以上の畳み込み演算を実行する畳み込み層よりも出力側における演算量が削減される。

畳み込み層Ｌ３１－Ｌ３３において、ストライドが１、２、４と設定される例を説明したが、本開示はこれに限定されない。すなわち、ストライドが２以上の畳み込み演算を実行する畳み込み層が、中流層ＭＬ３のいずれかの位置に配置されていればよい。なお、ストライドが２以上の畳み込み演算を実行する畳み込み層が、入力側に近い位置に配置されると、演算量の削減に効果的である。

また、中流層での畳み込み演算の対象となる所定範囲に含まれる個々の特徴が、所定範囲に含まれない特徴と結合されてもよい。図９はニューラルネットワークのさらに異なる構造を説明する模式図である。

図９に示すニューラルネットワークＮＮ４は、上流層ＵＬ４と、中流層ＭＬ４と、下流層ＤＬ４とを有する。下流層ＤＬ４はニューラルネットワークＮＮ１における下流層ＤＬ１と同様であるので、詳細な説明を省略する。

上流層ＵＬ４は、中流層ＭＬ４での畳み込み演算の対象となる所定範囲に対応するノードＮ４０１－Ｎ４０８に加えて、所定範囲の外側にノードＮ４００およびノードＮ４０９を有する。

中流層ＭＬ４は、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ４１－Ｌ４３を有する。畳み込み層Ｌ４１は、所定範囲に含まれるノードＮ４１１－Ｎ４１８に加えて、所定範囲の外側にノードＮ４１０およびノードＮ４１９を有する。畳み込み層Ｌ４２は、所定範囲に含まれるノードＮ４２１－Ｎ４２８に加えて、所定範囲の外側にノードＮ４２０およびノードＮ４２９を有する。畳み込み層Ｌ４３は、所定範囲に含まれるノードＮ４３１－Ｎ４３８に加えて、所定範囲の外側にノードＮ４３０およびノードＮ４３９を有する。

畳み込み層Ｌ４１において所定範囲の外側のノードＮ４１０には、上流層ＵＬ４の最終層Ｌ４０において所定範囲の外側のノードＮ４００と、所定範囲に含まれるノードＮ４０１とが結合される。畳み込み層Ｌ４２において所定範囲の外側のノードＮ４２０には、畳み込み層Ｌ４１において所定範囲の外側のノードＮ４１０と、所定範囲に含まれるノードＮ４１１とが結合される。畳み込み層Ｌ４３において所定範囲の外側のノードＮ４３０には、畳み込み層Ｌ４２において所定範囲の外側のノードＮ４２０と、所定範囲に含まれるノードＮ４２１とが結合される。

畳み込み層Ｌ４１において所定範囲の外側のノードＮ４１９には、所定範囲に含まれるノードＮ４０８と、上流層ＵＬ４の最終層Ｌ４０において所定範囲の外側のノードＮ４０９とが結合される。畳み込み層Ｌ４２において所定範囲の外側のノードＮ４２９には、所定範囲に含まれるノードＮ４１８と、畳み込み層Ｌ４１において所定範囲の外側のノードＮ４１９とが結合される。畳み込み層Ｌ４３において所定範囲の外側のノードＮ４３９には、所定範囲に含まれるノードＮ４２８と、畳み込み層Ｌ４２において所定範囲の外側のノードＮ４２９とが結合される。

このように、ニューラルネットワークＮＮ４では、所定範囲に含まれるノードが所定範囲の外側のノードに結合される。そのため、ニューラルネットワークＮＮ４では、所定範囲に含まれるノードでの演算により出力される特徴を、所定範囲の外側のノードでの演算に使用することができる。

また、中流層ＭＬ１における畳み込み演算は、Ｃ方向以外の次元、例えばＨＷ方向について実行されてもよい。ＨＷ方向（２次元）について実行される畳み込み演算では、２次元のカーネルが用いられる。図１０は、カーネルの構造の他の例を示す模式図である。図１０（ａ）－（ｃ）において、各カーネルにおける斜線の施されたマス目に重み係数が設定されていることを示している。図１０（ａ）－（ｃ）において、各カーネルにおける斜線の施されていないマス目には、重み係数が設定されていない。

図１０は、ＨＷ方向について実行される畳み込み演算に用いられるカーネルの例を示しており、図１０（ａ）、（ｂ）、（ｃ）はそれぞれダイレートサイズが１、２、４のカーネルＫ２１、Ｋ２２、Ｋ２３の構造の例である。なお、図１０（ａ）－（ｃ）に示すカーネルを用いて畳み込まれる２つの次元は、Ｈ方向およびＷ方向に限られず、例えばＨ方向およびＣ方向、Ｗ方向とＣ方向であってもよい。

また、本開示の演算装置では、演算処理部１３１は、３次元以上の構造を有するカーネル（不図示）を用いて、３以上の次元についての畳み込みを実行してもよい。

次に、一実施形態にかかる演算装置をカメラに搭載した例について説明する。図１１は、一実施形態にかかる演算装置を搭載するカメラの構成を示す模式図である。

本実施形態にかかる演算装置は、カメラ２に搭載されるマイクロコントローラ４である。カメラ２は、撮像装置の一例であり、イメージセンサ３、マイクロコントローラ４およびレンズ５を備える。イメージセンサ３は、撮像素子の一例であり、レンズ５で集光された被写体からの光を画像データに変換する。マイクロコントローラ４は、プロセッサ、メモリ、入出力インタフェースを集積した集積回路である。マイクロコントローラ４は、イメージセンサ３から入力された画像データに基づいて演算を実行し、オートフォーカスの対象とすべき画像データ中の領域を示す信号を出力する。また、マイクロコントローラ４は、合焦制御部として動作し、画像データに表される所定の領域に合焦するようレンズ５を制御する合焦制御信号を出力する。レンズ５は、光学系の一例であり、被写体からの光をイメージセンサ３に集光させる。レンズ５は、オートフォーカス機構５１を有し、オートフォーカス機構５１は、マイクロコントローラ４から出力される合焦制御信号に基づいてレンズ５を被写体に合焦させる。

図１２は、一実施形態にかかる演算装置を備えたカメラの処理フローチャートである。カメラ２は、ユーザによる不図示のシャッターボタンの半押しなどのオートフォーカス実行を指示する動作の検出に応じて、図１２の処理を開始する。カメラ２は、オートフォーカス実行を指示する動作が検出されている間、図１２の処理を繰り返し実行してもよい。

まず、イメージセンサ３は、集光された光に応じた画像データをマイクロコントローラ４に送信する（ステップＳ１０）。

次に、マイクロコントローラ４は、受信した画像データをニューラルネットワークに入力し、画像データに含まれる識別対象物に対応する領域を識別する演算を実行させる（ステップＳ２０）。ニューラルネットワークによる演算処理は、図６に示すニューラルネットワークによる演算のフローチャートと同様である。

続いて、マイクロコントローラ４は、演算により識別された識別対象物に対応する領域に合焦させるための合焦制御信号を生成し、オートフォーカス機構５１に送信する。オートフォーカス機構５１は、マイクロコントローラ４より受信した合焦制御信号に基づいて、レンズ５に含まれる合焦レンズの位置を変更する（ステップＳ３０）。画像の特定された領域に焦点が合っているか否かは、コントラストＡＦ方式、位相差ＡＦ方式などの方式により判定される。

マイクロコントローラ４は、ニューラルネットワークＮＮ１を有する演算処理部１３１に代えて、ニューラルネットワークＮＮ４を有する演算処理部４３１を備える。図１３は、カメラ２に搭載される演算装置が有するニューラルネットワークＮＮ５の構造を示す模式図である。

ニューラルネットワークＮＮ５は、上流層ＵＬ５と、中流層ＭＬ５と、下流層ＤＬ５とを有する。

上流層ＵＬ５は、それぞれ所定の演算を実行する第１上流層ＵＬ５Ａおよび第２上流層ＵＬ５Ｂを有する点がニューラルネットワークＮＮ１における上流層ＵＬ１と相違し、その他は同様である。

中流層ＭＬ５は、それぞれ所定の演算を実行する第１中流層ＭＬ５Ａおよび第２中流層ＭＬ５Ｂを有する。また、中流層ＭＬ５は、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ５１－Ｌ５２を有する。畳み込み層Ｌ５１に含まれるノードＮ５１１－Ｎ５１４は、直前の層である上流層ＵＬ５の最終層Ｌ５０から出力される特徴マップのうちノードＮ５０１－Ｎ５０４から出力される個々の特徴に対し、ダイレートサイズが１のカーネルを用いた畳み込み演算を実行する。また、畳み込み層Ｌ５１に含まれるノードＮ５１５－Ｎ５１８は、上流層ＵＬ５の最終層Ｌ５０から出力される特徴マップのうちノードＮ５０５－Ｎ５０８から出力される個々の特徴に対し、ダイレートサイズが１のカーネルを用いた畳み込み演算を実行する。なお、ノードＮ５１５－Ｎ５１８の畳み込み演算に用いられるカーネルは、ノードＮ５１１－Ｎ５１４の畳み込み演算に用いられるカーネルとは異なるパラメータを有してよい。

同様に、畳み込み層Ｌ５２ではダイレートサイズが２のカーネルを用いた畳み込み演算が実行される。

このように、中流層ＭＬ５では、入力側から出力側に向けて連続して設けられる複数の畳み込み層Ｌ５１－Ｌ５２によって、畳み込み層ごとにダイレートサイズの異なるカーネルを用いた畳み込み演算が実行される。

最も出力側の畳み込み層Ｌ５２から出力される特徴マップのうち所定範囲に含まれるノードＮ５２１－Ｎ５２４から出力される各特徴には、最も入力側の畳み込み層Ｌ５１に入力された特徴マップのうち所定範囲に含まれる一部の特徴が結合される。一部の特徴とは、畳み込み層Ｌ５１－Ｌ５２のそれぞれに用いられるカーネルのダイレートサイズの合計（１＋２＝３）だけ離間した範囲に含まれる特徴である。すなわち、畳み込み層Ｌ５２のノードＮ５２１－Ｎ５２４から出力される各特徴には、上流層ＵＬ５の最終層Ｌ５０の最終層のノードＮ５０１－Ｎ５０４から畳み込み層Ｌ５１のノードＮ５１１－Ｎ５１４に入力されたすべての特徴が結合される。畳み込み層Ｌ５２のノードＮ５２５－Ｎ５２８から出力される各特徴についても同様である。

ニューラルネットワークＮＮ５において、畳み込み層Ｌ５２のノードＮ５２４には、所定範囲外において距離が２となる畳み込み層Ｌ５１のノードＮ５１６が結合される。そのため、ノードＮ５２４には、ノードＮ５０５－Ｎ５０７からノードＮ５１６に入力された特徴も結合される。

下流層ＤＬ５は、それぞれ所定の演算を実行する第１下流層ＤＬ５Ａおよび第２下流層ＤＬ５Ｂを有する点がニューラルネットワークＮＮ１における下流層ＤＬ１と相違し、その他は同様である。

図１４は、ニューラルネットワークを用いた処理の例を説明する模式図である。

ニューラルネットワークＮＮ５の第１上流層ＵＬ５Ａ、第１中流層ＭＬ５Ａおよび第１下流層ＤＬ５Ａは、教師データを学習することで所定の識別対象物（例えば牛）を含む矩形領域を検出可能となる。第１上流層ＵＬ５Ａ、第１中流層ＭＬ５Ａおよび第１下流層ＤＬ５Ａは、例えばＳＳＤ（Single Shot MultiBox Detector）と同様のアーキテクチャとしてよい。この場合、第１上流層ＵＬ５Ａは、畳み込み演算を実行し、イメージセンサ３が出力する画像ＰＩＣの解像度と同じ解像度の特徴マップを出力する。そして、第１上流層ＵＬ５Ａは、その特徴マップに対してプーリング処理を行い、解像度を低下させた特徴マップを生成し、第１中流層ＭＬ５Ａに出力する。第１中流層ＭＬ４Ａは畳み込み演算を実行し、入力された特徴マップの解像度と同じ解像度の特徴マップを出力する。第１下流層ＤＬ５Ａは、プーリング処理を行い、解像度を低下させた特徴マップを生成する。マイクロコントローラ４は、最終的に得られた様々な解像度の特徴マップから複数のバウンディングボックスを検出し、複数のバウンディングボックスに対してＮＭＳ処理を行う。このように処理することで、ニューラルネットワークＮＮ５は画像ＰＩＣから識別対象物を含む矩形領域ＢＢ１を検出する。

矩形領域ＢＢ１に含まれる点は、カメラ２のユーザが注目している点である可能性が大きい。そのため、オートフォーカス機構５１は、矩形領域ＢＢ１に含まれる点に焦点が合うようにレンズ５を制御する。ここで、矩形領域ＢＢ１には、識別対象物に対応する点Ｐ１と対応しない点Ｐ２とが含まれる。識別対象物に対応しない点Ｐ２に焦点が合うようにオートフォーカス機構５１が制御された場合、ユーザの意図に即したオートフォーカス制御とならない可能性が大きい。

一方、第２上流層ＵＬ５Ｂ、第２中流層ＭＬ５Ｂおよび第２下流層ＤＬ５Ｂは、教師データを学習することで所定の特徴を有する（例えば識別対象物に対応する）領域を分割可能となる。第２上流層ＵＬ５Ｂ、第２中流層ＭＬ５Ｂおよび第２下流層ＤＬ５Ｂは、例えばＵ－Ｎｅｔと同様のアーキテクチャとしてよい。この場合、第２上流層ＵＬ５Ｂは、畳み込み演算およびプーリング処理を実行し、イメージセンサ３が出力する画像ＰＩＣの解像度よりも解像度の低い特徴マップを出力する。第２中流層ＭＬ５Ｂは畳み込み演算を実行し、入力された特徴マップの解像度と同じ解像度の特徴マップを第２下流層ＤＬ５Ｂに出力する。第２下流層ＤＬ５Ｂは転置畳み込み演算を実行する。また、第２下流層ＤＬ５Ｂは、転置畳み込み演算を実行してもよい。マイクロコントローラ４は、画像ＰＩＣの画素を複数のクラスに分類する。このように処理することで、ニューラルネットワークＮＮ５は画像ＰＩＣの領域を、識別対象物のクラスに対応する領域Ｒ１、Ｒ２と識別対象物以外のクラスに対応する領域Ｒ３とに分割する。

カメラ２に搭載されたマイクロコントローラ４は、ニューラルネットワークＮＮ５を用いることにより、上述の処理を実行するための演算量を削減することができる。

本実施形態のマイクロコントローラ４は、ニューラルネットワークＮＮ５を用いてさらに効率的な演算を実行することができる。図１５は、ニューラルネットワークＮＮ５を用いた処理の他の例を説明する模式図である。

本実施形態のニューラルネットワークＮＮ５では、第１中流層ＭＬ５Ａおよび第２中流層ＭＬ５Ｂに含まれる一部のノードは結合されている。このようなニューラルネットワークＮＮ５に対して上述の学習を行う。学習済みのニューラルネットワークＮＮ５では、第１中流層ＭＬ５Ａと第２中流層ＭＬ５Ｂとの結合により、物体検出を行う第１中流層ＭＬ５Ａ側の特徴量と領域分割を行う第２中流層ＭＬ５Ｂ側の特徴量とが混ざり合う。混ざり合う割合は、第１中流層ＭＬ５Ａと第２中流層ＭＬ５Ｂとの境界に近いほど大きい。

このようなニューラルネットワークＮＮ５に画像ＰＩＣを入力することで、矩形領域ＢＢ１と、識別対象物に対応する領域Ｒ１、Ｒ２との積集合となる領域が特定され、識別対象物のみが含まれる領域Ｒ４が識別される。領域Ｒ４には、識別対象物に対応しない点が含まれていないので、領域Ｒ４に含まれる点Ｐ３に焦点が合うようにオートフォーカス機構５１を制御することにより、ユーザの意図に即したオートフォーカス制御を実行することが可能となる。本開示の演算装置は、このようなオートフォーカス制御に好適な畳み込み演算を、少ない演算量で実行することができる。

当業者は、本開示の精神および範囲から外れることなく、種々の変更、置換および修正をこれに加えることが可能であることを理解されたい。

１コンピュータ
１３１演算処理部
ＮＮ１ニューラルネットワーク

Claims

入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行する演算処理部を有し、
前記複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの前記チャネル方向のすべての特徴に対し、前記チャネル方向について前記畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行し、
前記複数の畳み込み層ごとに異なる前記ダイレートサイズは、ｎ（ｎは２以上の自然数）の累乗値であって、最も出力側の畳み込み層から出力される特徴マップの個々の特徴に最も入力側の畳み込み層に入力された特徴マップの前記すべての特徴が結合されるよう設定される、
演算装置。
前記最も出力側の畳み込み層から出力される特徴マップの前記すべての特徴に、前記最も入力側の畳み込み層に入力された特徴マップの前記複数の畳み込み層のそれぞれに用いられるカーネルのダイレートサイズの合計だけ離間した範囲に含まれる特徴が結合される、請求項１に記載の演算装置。
前記最も入力側の畳み込み層に入力された特徴マップの所定範囲に含まれる個々の特徴は、前記最も出力側の畳み込み層から出力される特徴マップの前記所定範囲において前記複数の畳み込み層のそれぞれに用いられるカーネルの前記ダイレートサイズの合計だけ離間した範囲に含まれる特徴に結合される、請求項１または２に記載の演算装置。
前記複数の畳み込み層に含まれる一の畳み込み層は、ストライドが２以上の畳み込み演算を実行する、請求項１－３のいずれか一項に記載の演算装置。
前記複数の畳み込み層に含まれる一の畳み込み層は、前記ダイレートサイズに基づくストライドにより畳み込み演算を実行する、請求項４に記載の演算装置。
前記複数の畳み込み層に含まれる一の畳み込み層は、前記ダイレートサイズの２倍のストライドにより畳み込み演算を実行する、請求項４または５に記載の演算装置。
前記複数の畳み込み層に含まれる一の畳み込み層は、前記ダイレートサイズが２のときにストライドが４の畳み込み演算を実行する、請求項６に記載の演算装置。
前記ニューラルネットワークは、前記複数の畳み込み層に接続し、転置畳み込み演算を実行する転置畳み込み層をさらに備える、請求項２－７のいずれか一項に記載の演算装置。
光学系により集光された光に応じた画像データを出力する撮像素子と、
請求項１－８のいずれか一項に記載の演算装置であって、前記演算装置が有する前記演算処理部は、前記画像データを前記所定のデータとして前記ニューラルネットワークに入力することで、前記画像データに表される画像領域のうち識別対象物に対応する領域を識別する処理を実行する、演算装置と、
識別された前記識別対象物に対応する領域に合焦するよう前記光学系を制御する合焦制御部と、を備える撮像装置。
コンピュータが、入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行する演算方法であって、
前記複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの前記チャネル方向のすべての特徴に対し、前記チャネル方向について前記畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行し、
前記複数の畳み込み層ごとに異なる前記ダイレートサイズは、ｎ（ｎは２以上の自然数）の累乗値であって、最も出力側の畳み込み層から出力される特徴マップの個々の特徴に最も入力側の畳み込み層に入力された特徴マップの前記すべての特徴が結合されるよう設定される、
演算方法。
コンピュータに、入力側から出力側に向けて連続して設けられる複数の畳み込み層を有するニューラルネットワークに所定のデータを入力することで所定の処理を実行させるコンピュータプログラムであって、
前記複数の畳み込み層のそれぞれは、直前の層から出力されるとともに当該畳み込み層に入力される、チャネル方向および空間方向を含む複数の次元を有する特徴マップの前記チャネル方向のすべての特徴に対し、前記チャネル方向について前記畳み込み層ごとに定められたダイレートサイズの異なるカーネルを用いた畳み込み演算を実行し、
前記複数の畳み込み層ごとに異なる前記ダイレートサイズは、ｎ（ｎは２以上の自然数）の累乗値であって、最も出力側の畳み込み層から出力される特徴マップの個々の特徴に最も入力側の畳み込み層に入力された特徴マップの前記すべての特徴が結合されるよう設定される、
コンピュータプログラム。