JP2017004350A - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2017004350A
JP2017004350A JP2015119147A JP2015119147A JP2017004350A JP 2017004350 A JP2017004350 A JP 2017004350A JP 2015119147 A JP2015119147 A JP 2015119147A JP 2015119147 A JP2015119147 A JP 2015119147A JP 2017004350 A JP2017004350 A JP 2017004350A
Authority
JP
Japan
Prior art keywords
image data
data
image
candidate area
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015119147A
Other languages
English (en)
Inventor
聡 疋田
Satoshi Hikita
聡 疋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015119147A priority Critical patent/JP2017004350A/ja
Publication of JP2017004350A publication Critical patent/JP2017004350A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】認識処理の処理時間の削減を支援する。【解決手段】画像データが示す画像において対象が含まれる第1の領域と、該対象が分類されるカテゴリとを認識する画像処理装置であって、畳み込みニューラルネットワークを用いて、入力された前記画像データが分類されるカテゴリを認識する認識手段と、前記認識手段における前記畳み込みニューラルネットワークの所定の層の出力結果を示す第1の出力データに基づいて、前記画像データが示す画像に含まれる1以上の候補領域を示す1以上の候補領域画像データを作成する候補領域作成手段とを有し、前記認識手段は、前記候補領域作成手段により作成された前記1以上の候補領域画像データがそれぞれ分類されるカテゴリを認識する。【選択図】図2

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
デジタルカメラや携帯情報端末等の機器において、撮影された画像中の被写体が属するカテゴリ(例えば、「人」、「動物」、「車」等)を分類する技術が知られている。
また、画像中において、被写体が占める領域と、当該被写体が分類されるカテゴリとを認識する技術が知られている(例えば特許文献1及び非特許文献1参照)。このような技術では、被写体が占める領域の候補である候補領域に対して、カテゴリを分類するための処理を行うことで、被写体が占める領域と、当該被写体が分類されるカテゴリとを認識する。
しかしながら上記の従来技術では、被写体が占める領域と、当該被写体が分類されるカテゴリとの認識処理に多くの時間を要する場合があった。例えば、候補領域の数が多い場合には、それぞれの候補領域に対してカテゴリを分類するための処理を行うため、認識処理に多くの時間を要することがある。
本発明の実施形態は、認識処理の処理時間の削減を支援することを目的とする。
上記目的を達成するため、本発明の実施の形態では、画像データが示す画像において対象が含まれる第1の領域と、該対象が分類されるカテゴリとを認識する画像処理装置であって、畳み込みニューラルネットワークを用いて、入力された前記画像データが分類されるカテゴリを認識する認識手段と、前記認識手段における前記畳み込みニューラルネットワークの所定の層の出力結果を示す第1の出力データに基づいて、前記画像データが示す画像に含まれる1以上の候補領域を示す1以上の候補領域画像データを作成する候補領域作成手段とを有し、前記認識手段は、前記候補領域作成手段により作成された前記1以上の候補領域画像データがそれぞれ分類されるカテゴリを認識する。
本発明の実施形態によれば、認識処理の処理時間の削減を支援することができる。
本実施形態の画像処理装置のハードウェア構成の一例を示す図である。 本実施形態の画像処理装置の機能構成の一例を示す図である。 本実施形態の画像処理装置の認識処理のフローチャートの一例を示す図である。 本実施形態の畳み込みニューラルネットワーク処理のフローチャートの一例を示す図である。 本実施形態の入力画像データの加工処理の一例を示す図である。 本実施形態の第1層の畳み込み処理の一例を示す図である。 本実施形態の第1層のネットワークパラメータの一例を示す図である。 本実施形態の第1層のフィルタの一例を示す図である。 本実施形態の第1層のプーリング処理の一例を示す図である。 本実施形態の第2層の畳み込み処理の一例を示す図である。 本実施形態の第2層のネットワークパラメータの一例を示す図である。 本実施形態の第2層のフィルタの一例を示す図である。 本実施形態の候補領域の作成処理のフローチャートの一例を示す図である。 本実施形態の微分処理の一例を示す図である。 本実施形態の閾値処理の一例を示す図である。 本実施形態の領域分割の一例を示す図である。 本実施形態の最小矩形の一例を示す図である。 本実施形態のカテゴリ分類処理のフローチャートの一例を示す図である。 本実施形態の第3層の全結合処理の一例を示す図である。 本実施形態の第3層のネットワークパラメータの一例を示す図である。 本実施形態の正規化処理の一例を示す図である。
本実施形態は、画像データが示す画像において、当該画像の被写体を示す対象(例えば、人や物体等)を含む領域と、当該対象が分類されるカテゴリとを認識するものである。ここで、カテゴリとは、例えば、「人」、「動物」、「車」、「花」、「料理」等の対象が分類される種別のことである。
以降では、画像データに対して、上述した認識を行う処理(認識処理)を実行する画像処理装置10について説明する。なお、本実施形態の画像処理装置10は、例えば、デジタルカメラ、スマートフォン、タブレット端末、ゲーム機器、ノート型PC、デスクトップ型PC等である。
<ハードウェア構成>
まず、本実施形態の画像処理装置10のハードウェア構成について、図1を参照しながら説明する。図1は、本実施形態の画像処理装置のハードウェア構成の一例を示す図である。
本実施形態の画像処理装置10は、入力装置11、表示装置12、CPU(Central Processing Unit)13、及びROM(Read Only Memory)14を有する。また、本実施形態の画像処理装置10は、RAM(Random Access Memory)15、インタフェース装置16、記憶装置17、及び撮像装置18を有する。これら各ハードウェアは、バスBにより相互に接続されている。
入力装置11は、キーボードやマウス、タッチパネル、各種ボタン等を含み、画像処理装置10に各種信号を入力するのに用いられる。表示装置12は、ディスプレイ等を含み、各種の処理結果を表示する。特に、表示装置12には、本実施形態の認識処理の処理結果が表示される。すなわち、表示装置12には、入力された画像データが示す画像において、被写体等の対象が含まれる領域と、当該対象が分類されるカテゴリと示す処理結果が表示される。
CPU13は、例えば記憶装置17やROM14等からプログラムやデータをRAM15上に読み出して、各種処理を実行する演算装置である。ROM14は、電源を切ってもデータを保持することができる不揮発性の半導体メモリである。RAM15は、プログラムやデータを一時保存することができる揮発性の半導体メモリである。
インタフェース装置16は、外部装置とのインタフェースである。外部装置には、例えば、CD(Compact Disk)やDVD(Digital Versatile Disk)、SDメモリカード(SD memory card)、USBメモリ(Universal Serial Bus memory)等の記録媒体がある。画像処理装置10は、インタフェース装置16を介して、本実施形態の認識処理の処理対象となる画像データを記録媒体から読み取ることができる。
記憶装置17は、プログラムやデータを格納しているHDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のメモリである。記憶装置17に格納されるプログラムやデータには、本実施形態の認識処理を実行する画像処理プログラム20がある。また、本実施形態の認識処理の処理対象となる画像データが格納されても良い。
撮像装置18は、カメラ等であり、本実施形態の認識処理の処理対象となる画像データを作成する。
本実施形態の画像処理装置10は、上記ハードウェア構成により後述する各種処理を実現することができる。
<機能構成>
次に、本実施形態の画像処理装置10の機能構成について、図2を参照しながら説明する。図2は、本実施形態の画像処理装置の機能構成の一例を示す図である。
本実施形態の画像処理装置10は、CNN処理部110、候補領域作成処理部120、正規化処理部130、及び出力部140を有する。これら各部は、画像処理装置10にインストールされた画像処理プログラム20が、CPU13に実行させる処理により実現される。
CNN処理部110は、ネットワークパラメータ1000に基づいて、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)処理を行う。畳み込みニューラルネットワークは、一般に、nを3以上の任意の自然数として、畳み込み処理及びプーリング処理を行う第1層〜第n−2層と、畳み込み処理を行う第n−1層と、全結合処理を行う第n層とを含む。
ここで、ネットワークパラメータ1000は、教師あり学習の手法により、学習データに基づいて畳み込みニューラルネットワークの各層毎に予め学習されたデータである。教師あり学習の手法には、例えば誤差逆伝播法(Backpropagation)を用いれば良い。
このようなネットワークパラメータ1000は、例えば記憶装置17等に格納され、バイアスデータ1100及び重みデータ1200が含まれる。なお、以降では、第n層のネットワークパラメータ1000を「ネットワークパラメータ1000−n」と表す。したがって、第n層のバイアスデータ1100及び重みデータ1200はそれぞれ「バイアスデータ1100−n」及び「重みデータ1200−n」と表される。ネットワークパラメータ1000の詳細については後述する。
CNN処理部110は、入力画像を示す画像データ510に対して、畳み込みニューラルネットワーク処理を行い、予め設定された第N層における畳み込み処理の処理結果を示す出力データ520を出力する。
ここで、本実施形態では、N=2であるものとして説明する。N=2の場合、出力データ520は、例えば、28×28×64チャンネルの画像データとして表すことができる。換言すれば、出力データ520は、64個の28×28チャンネルの画像データの集合として表すことができる。なお、Nの値は、画像処理プログラム20の設計者等により予め設定される。Nの値は、例えば、2〜20程度が好ましい。
また、CNN処理部110は、後述する候補領域作成処理部120により作成された候補領域画像データ530に対して、畳み込みニューラルネットワーク処理を行い、出力結果を正規化処理部130に出力する。
さらに、CNN処理部110は、加工部111、畳み込み処理部112、プーリング処理部113、及び全結合処理部114を有する。加工部111は、CNN処理部110に入力された画像データの加工処理を行う。畳み込み処理部112は、畳み込みニューラルネットワークの各層において畳み込み処理を行う。プーリング処理部113は、畳み込みニューラルネットワークの各層においてプーリング処理を行う。全結合処理部114は、全結合処理を行う。
ここで、CNN処理部110は、全結合処理部114をカテゴリの組毎に有しているものとする。カテゴリの組とは、カテゴリと、当該カテゴリ以外を示すカテゴリとのペアである。具体的には、カテゴリの組は、「人」「人以外」、「車」「車以外」、「動物」「動物以外」等の、あるカテゴリと、当該カテゴリ以外を示すカテゴリとのペアである。なお、以降では、複数の全結合処理部114を区別して表す場合は、「全結合処理部114−1」、「全結合処理部114−2」等と表す。
候補領域作成処理部120は、出力データ520に基づいて、1以上の候補領域画像データ530を作成する。候補領域画像データ120とは、画像データ510が示す画像において、対象が含まれる領域の候補を示すデータである。なお、以降では、複数の候補領域画像データ530を区別して表す場合は、「候補領域画像データ530−1」、「候補領域画像データ530−2」等と表す。
ここで、候補領域作成処理部120は、データ決定部121、境界決定部122、閾値処理部123、領域分割部124、及び候補領域作成部125を有する。
データ決定部121は、例えば64個の28×28チャンネルのデータとして表される出力データ520から所定のM個の28×28チャンネルのデータを決定する。ここで、Mの値は、画像処理プログラム20の設計者等により予め設定される。Mの値は、例えば、3〜20程度が好ましい。
境界決定部122は、データ決定部121により決定されたそれぞれのデータに対して、所定の微分処理を行い、領域分割部124が分割する領域の境界を決定する。
閾値処理部123は、閾値処理を行う。閾値処理とは、予め設定された閾値以下のデータを削除(すなわち、「0」とする)する処理である。なお、このような閾値は、画像処理プログラム20の設計者等により予め設定される。閾値の値は、例えば、10〜50程度が好ましい。
領域分割部124は、境界決定部122により決定された境界に基づいて、データ決定部121により決定されたデータが示す画像を、複数の領域に分割する。
候補領域作成部125は、領域分割部124により分割された複数の領域に基づいて、候補領域を作成し、作成した候補領域を示す候補領域画像データ530を出力する。
例えば、候補領域作成部125は、領域分割部124により分割された複数の領域のうちの一の領域に基づいて、候補領域画像データ530−1を出力する。同様に、候補領域作成部125は、領域分割部124により分割された複数の領域のうちの他の領域に基づいて、候補領域画像データ530−2を出力する。
このように、本実施形態の候補領域作成処理部120は、出力データ520に基づいて候補領域画像データ530を作成する。これにより、本実施形態では、認識処理の精度の低下を防ぎつつ、候補領域を削減させることができる。したがって、本実施形態では、認識処理の処理時間を削減させることができる。
正規化処理部130は、CNN処理部110による処理結果を正規化する。CNN処理部110の各全結合処理部114による処理結果を比較することができる。以降では、正規化処理部130により正規化された、全結合処理部114の処理結果を「確信度」と表す。
例えば、カテゴリの組「人」「人以外」に対応する全結合処理部114の確信度は、CNN処理部110に入力された画像データが示す画像が、カテゴリ「人」に分類される度合いを示す第1の値と、カテゴリ「人以外」に分類される度合いを示す第2の値との組で表される。
同様に、カテゴリの組「車」「車以外」に対応する全結合処理部114の確信度は、CNN処理部110に入力された画像データが示す画像が、カテゴリ「車」に分類される度合いを示す第1の値と、カテゴリ「人以外」に分類される度合いを示す第2の値との組で表される。
出力部140は、認識結果540を出力する。ここで、認識結果540には、候補領域画像データ530から選択された結果画像データ541と、当該結果画像データ541のカテゴリを示すカテゴリ情報542とが含まれる。なお、出力部140は、候補領域画像データ530の確信度に基づいて、当該候補領域画像データ530から結果画像データ541を選択するとともに、当該結果画像データ541のカテゴリを決定してカテゴリ情報542を作成する。
これにより、画像データ510が示す画像において、対象が含まれる領域の画像と、当該対象が分類されるカテゴリとが出力される。
<処理の詳細>
次に、本実施形態の画像処理装置10の認識処理の詳細について、図3を参照しながら説明する。図3は、本実施形態の画像処理装置の認識処理のフローチャートの一例を示す図である。
画像処理装置10は、画像データ510を入力する(ステップS31)。画像処理装置10は、例えば、記憶装置17に格納されている画像データ510を入力しても良いし、撮像装置18により生成された画像データ510を入力しても良い。また、画像処理装置10は、例えば、ネットワーク経由でダウンロードした画像データ510を入力しても良い。
画像処理装置10は、CNN処理部110により、入力された画像データ510に対して、予め設定された第N層の畳み込み処理までの畳み込みニューラルネットワーク処理を行う(ステップS32)。この畳み込みニューラルネットワーク処理についての詳細については、後述する。ここでは、本ステップの畳み込みニューラルネットワーク処理において、第N層の畳み込み処理の処理結果を示す出力データ520が得られたものとして説明を続ける。
なお、上述したように、N=3である場合、出力データ520は、例えば64個の28×28チャンネルのデータとして表される。
画像処理装置10は、候補領域作成処理部120により、出力データ520を入力して候補領域の作成処理を行う(ステップS33)。この候補領域の作成処理において、候補領域作成処理部120は、出力データ520に基づいて、1以上の候補領域画像データ530を作成する。この候補領域の作成処理の詳細については、後述する。ここでは、本ステップの候補領域の作成処理において、1以上の候補領域画像データ530が得られたものとして説明を続ける。
画像処理装置10は、CNN処理部110及び正規化処理部130により、一の候補領域画像データ530を入力し、当該一の候補領域画像データ530のカテゴリを分類するカテゴリ分類処理を行う(ステップS34)。このカテゴリ分類処理により、入力された一の候補領域画像データ530の確信度が得られる。このカテゴリ分類処理の詳細については、後述する。ここでは、本ステップのカテゴリ分類処理において、一の候補領域画像データ530の確信度が得られたものとして説明を続ける。
画像処理装置10は、CNN処理部110及び正規化処理部130により、すべての候補領域画像データ530の確信度が得られたか否かを判定する(ステップS35)。確信度が得られていない(すなわち、カテゴリ分類処理を行っていない)候補領域画像データ530が存在する場合には、ステップS34に戻る。すなわち、画像処理装置10は、候補領域画像データ530−1、候補領域画像データ530−2、・・・等に対して、それぞれの確信度を順に取得する。
一方、すべての候補領域画像データ530の確信度が得られた場合には、ステップS36に進む。
画像処理装置10は、出力部140により、得られた確信度に基づいて候補領域画像データ530から結果画像データ541を選択するとともに、当該結果画像データ541のカテゴリを決定してカテゴリ情報542を作成する。(ステップS36)。すなわち、出力部140は、認識結果540を決定する。
出力部140は、すべての候補領域画像データ530を結果画像データ541と選択しても良いし、候補領域画像データ530のうちの一部を結果画像データ541と選択しても良い。
また、出力部140は、例えば、候補領域画像データ530が示す画像のうち、一部が重畳している画像が存在する場合に、当該重畳している画像が示す候補領域画像データ530のうち、最も確信度が高い候補領域画像データ530を結果画像データ541と選択しても良い。より具体的には、例えば、候補領域画像データ530−1が示す第1の画像と、候補領域画像データ530−2が示す第2の画像と、候補領域画像データ530−3が示す第3の画像とが、少なくとも一部の領域において重畳しているものとする。この場合、第1の画像の確信度の第1の値と、第2の画像の確信度の第1の値と、第3の画像の確信度の第1の値とを比較し、最も値が高い画像を示す候補領域画像データ530を結果画像データ541と選択すれば良い。
なお、ステップS36において、出力部140は、2以上の認識結果540を決定しても良い。すなわち、出力部140は、候補領域画像データ530から2以上の結果画像データ541を選択するとともに、当該2以上の結果画像データ541のそれぞれのカテゴリ情報542を作成しても良い。これにより、例えば、画像データ510が示す画像において、複数の対象(例えば、「人」と「車」等)が写っている場合にも、それぞれの対象が含まれる領域の画像と、それぞれの対象が分類されるカテゴリとを決定することができる。
画像処理装置10は、出力部140により、決定された認識結果540を出力する(ステップS37)。このとき、出力部140は、例えば表示装置12に認識結果540を出力すれば良い。これにより、画像データ510が示す画像において、対象が含まれる領域の画像と、当該対象が分類されるカテゴリとが表示装置12に表示される。
次に、図3のステップS32の畳み込みニューラルネットワーク処理について、図4を参照しながら説明する。図4は、本実施形態の畳み込みニューラルネットワーク処理のフローチャートの一例を示す図である。
加工部111は、入力された画像データ510の加工処理を行う(ステップS41)。この加工処理は、入力された画像データ510を、畳み込み処理部112が処理可能な形式とするための処理である。
ここで、加工処理について、図5を参照しながら説明する。図5は、本実施形態の入力画像データの加工処理の一例を示す図である。なお、入力された画像データ510の色空間がRGB色空間である(すなわち、画像データ510の色チャンネルが3チャンネルである)ものとして説明する。ただし、画像データ510の色空間は、RGB色空間に限られず、例えば、CMK色空間、HSV色空間、HLS色空間等であっても良い。
Step411)加工部111は、入力された画像データ510を64×64(ピクセル)となるように縮小する、このとき、加工部111は、画像データ510の長辺が64(ピクセル)となるように縮小を行う。また、加工部111は、短辺が縮小された結果64(ピクセル)に満たない部分については値0(すなわち、RGBの各色成分の値が0)でパディングして64(ピクセル)とする。なお、画像データ510を縮小するためのアルゴリズムには、例えば、バイリニア法を用いれば良い。
Step412)加工部111は、StepS411で得られた64×64の画像データの各画素値から、所定の値を減算した画像データを生成する。
ここで、所定の値は、各学習データに含まれる画像データ(以降、「学習画像データ」という)の各画素値の平均値である。すなわち、学習画像データの画素位置(i,j)における各学習画像データの画素値の平均値をM(i,j)とした場合、上記のStep411において得られた64×64の画像データの各画素位置(i,j)の画素値からM(i,j)を減算する。ここで、i,j=1,・・・,64である。
Step413)加工部111は、Step412で得られた画像データの中心の56×56(ピクセル)の画像データ以外を0クリアする。換言すれば、Step412において得られた画像データの周辺4ピクセル分を0クリアする。なお、図5において、網掛け部分が0クリアした部分である。
そして、加工部111は、図5のStep413で得られた64×64(ピクセル)の画像データ(この画像データを「画像データ511」とする。)を畳み込み処理部112に出力する。
CNN処理部110は、畳み込みニューラルネットワークの層を示す変数nを1とする(ステップS42)。
畳み込み処理部112は、画像データ511を入力して、第1層の畳み込み処理を行う(ステップS43)。
ここで、第1層の畳み込み処理について、図6を参照しながら説明する。図6は、本実施形態の第1層の畳み込み処理の一例を示す図である。
Step431)畳み込み処理部112は、画像データ511を入力する。ここで、入力した画像データ511の色空間はRGB色空間であるため、色チャンネルは64×64×3チャンネルである。
Step432)畳み込み処理部112は、重みデータ1200−1からフィルタを生成し、画像データ511の中心の56×56(ピクセル)の部分に対して、生成したフィルタを用いてフィルタ処理を行う。ここで、重みデータ1200−1のデータ構成及び当該重みデータ1200−1から生成されるフィルタ1300f−1(j=1,・・・,64)のデータ構成について説明する。
図7(b)は、第1層の重みデータ1200−1の一例を示す図である。図7(b)に示すように、第1層の重みデータ1200−1は、75×64の行列で表される。なお、重みデータ1200−1の各値w(i,j)は、上述したように、学習データに基づいて予め学習された値である。
次に、重みデータ1200−1から生成されるフィルタ1300f−1(j=1,・・・,64)について説明する。図8は、本実施形態の第1層のフィルタの一例を示す図である。
図8に示すように、各フィルタ1300f−1(j=1,・・・,64)は、5×5の行列の3つの組で表される。換言すれば、各フィルタ1300f−1(j=1,・・・,64)は、5×5×3で表される。
ここで、重みデータ1200−1のw(1,1)〜w(25,1)、w(26,1)〜w(50,1)、及びw(51,1)〜w(75,1)からフィルタ1300f−1が生成される。同様に、重みデータ1200−1のw(1,2)〜w(25,2)、w(26,2)〜w(50,2)、及びw(51,2)〜w(75,2)からフィルタ1300f−1が生成される。j=3,・・・,64の場合も同様である。
以上のように生成された各フィルタ1300f−1(j=1,・・・,64)を用いて、畳み込み処理部112は、画像データ511に対してフィルタ処理を行う。畳み込み処理部112は、例えば以下のようにしてフィルタ処理を行う。
(1)画像データ511の中心56×56×3の部分に対してフィルタ1300f−1をかける(すなわち、画像データ511とフィルタ1300f−1の対応する値の乗算を行う)。
これは、例えば、Rチャンネルを固定し、フィルタ1300f−1のRチャンネル用フィルタの中心を、画像データ511のRチャンネルの56×56の部分に対して、左上から5ずつ右にずらしながら行う。そして、フィルタ1300f−1のRチャンネル用フィルタの中心が画像データ511のRチャンネルの56×56の部分の右端まで辿り着いたら、当該Rチャンネル用フィルタの中心を下に5ずらして、再度、左端から行えば良い。
(2)次に、画像データ511のGチャンネルに対しても、上記(1)と同様の方法でフィルタ1300f−1のGチャンネル用フィルタをかける。画像データ511のBチャンネルに対しても同様である。
(3)フィルタ1300f−1〜フィルタ1300f64−1についても、上記と同様に、画像データ511のRGBの各チャンネルに対してフィルタ処理を順に行う。
以上のフィルタ処理により、画像データ511から64×64×3×64チャンネルの画像データが生成される。
Step433)畳み込み処理部112は、Step432で得られた64×64×3×64チャンネルの画像データの各RGB成分を加算する。この結果、64×64×64チャンネルの画像データが得られる。
Step434)畳み込み処理部112は、Step433で得られた64×64×64チャンネルの画像データの各画素値に対して、バイアスデータ1100−1を加算する。
ここで、図7(a)は、第1層のバイアスデータ1100−1の一例を示す図である。図7(a)に示すように、バイアスデータ1100−1は、1×64の行列により表される。そこで、畳み込み処理部112は、1つめの64×64チャンネルの画像データの各画素値に対してバイアスデータ1100−1のデータ値b(1)を加算する。同様に、2つ目の64×64チャンネルの画像データの各画素値に対してバイアスデータ1100−1のデータ値b(2)を加算する。以降、同様に、64個すべての64×64チャンネルの画像データの各画素値に対して、それぞれ、バイアスデータ1100−1のデータ値を加算する。
Step435)畳み込み処理部112は、Step434で得られた64×64×64チャンネルの画像データに対して、所定の活性化関数を適用して出力画像データを得る。所定の活性化関数としては、例えば、任意の画素値xに対して、f(x)=max(0,x)で定義される関数が挙げられる。
そして、64×64×64チャンネルの画像データに対して、活性化関数を適用した後、ステップS41の加工処理において0クリアした部分は取り除き、画像データの中心の56×56部分をプーリング処理部113に出力する。したがって、第1層において、畳み込み処理部112がプーリング処理部113に出力する画像データの色チャンネルは、56×56×64である。このようにして得られた56×56×64チャンネルの画像データを「画像データ512」と表す。なお、ステップS41の加工処理において0クリアした部分は、Step433又はStep434で取り除いても良い。
プーリング処理部113は、画像データ512を入力して、第1層のプーリング処理を行う(ステップS44)。
ここで、第1層のプーリング処理について、図9を参照しながら説明する。図9は、本実施形態の第1層のプーリング処理の一例を示す図である。
Step441)プーリング処理部113は、56×56×64チャンネルの画像データ512を入力する。
Step442)プーリング処理部113は、画像データ512の3×3の領域内の最大値を出力する処理を繰り返し行い、28×28×64の画像データ(この画像データを以降「画像データ513」とする)を生成する。これは、例えば、以下のようにして行う。
(1)画像データ513の1つの56×56の画像データ(1つのチャンネルを固定した56×56の画像データ)について、左上を中心とした3×3の領域における画素値の最大値を得る。そして、この最大値を、画像データ513の画素位置(1,1)の画素値とする。
(2)次に、3×3の領域を右に2ずつ移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ513の画素位置(1,2)〜(1,28)の画素値とする。
(3)続いて、3×3の領域の中心を下に2移動させ、左端から同様に2ずつ領域の中心を移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ513の画素位置(2,1)〜(2,28)の画素値とする。以降、同様に、(3,1)〜(28,28)の画素値を得る。
(4)上記の(1)〜(3)を、すべての56×56の画像データについて行う。すなわち、上記の(1)〜(3)を、64個の56×56の画像データについて行う。
Step443)プーリング処理部113は、画像データ513を第2層の畳み込み処理部112に出力する。
次に、CNN処理部110は、畳み込みニューラルネットワークの層を示す変数nに1を加算する(ステップS45)。
次に、CNN処理部110は、変数nが、予め設定されたNと等しいか否かを判定する(ステップS46)。変数nがNと等しい場合、CNN処理部110は、ステップS47に進む。
一方、変数nがNと等しくない場合(すなわち、変数nがNより小さい場合)、CNN処理部110は、ステップS43に戻る。すなわち、この場合、CNN処理部110は、畳み込みニューラルネットワークの次の層の畳み込み処理及びプーリング処理を行う。
本実施形態では、N=2であるため、CNN処理部110は、ステップS47に進むものとする。
畳み込み処理部112は、画像データ513を入力して、第2層の畳み込み処理を行う(ステップS47)。
ここで、第2層の畳み込み処理について、図10を参照しながら説明する。図10は、本実施形態の第2層の畳み込み処理の一例を示す図である。なお、第2層の畳み込み処理は、第1層の畳み込み処理と各データのチャンネル数が異なること以外は同様である。より一般には、第n層の畳み込み処理は、他の層の畳み込み処理と各データのチャンネル数が異なること以外は同様である。
Step471)畳み込み処理部112は、画像データ513を入力する。ここで、入力した画像データ513の色チャンネルは、上述した通り、28×28×64チャンネルである。
Step472)畳み込み処理部112は、重みデータ1200−2からフィルタを生成し、画像データ513に対して、生成したフィルタを用いてフィルタ処理を行う。ここで、重みデータ1200−2のデータ構成及び当該重みデータ1200−2から生成されるフィルタ1300f−2(j=1,・・・,64)のデータ構成について説明する。
図11(b)は、第2層の重みデータ1200−2の一例を示す図である。図11(b)に示すように、第2層の重みデータ1200−2は、1600×64の行列で表される。なお、重みデータ1200−2の各値w(i,j)は、上述したように、学習データに基づいて予め学習された値である。
次に、重みデータ1200−2から生成されるフィルタ1300f−2(j=1,・・・,64)について説明する。図12は、本実施形態の第2層のフィルタの一例を示す図である。
図12に示すように、各フィルタ1300f−2(j=1,・・・,64)は、5×5の行列の64個の組で表される。換言すれば、各フィルタ1300f−2(j=1,・・・,64)は、5×5×64で表される。
ここで、重みデータ1200−2のw(1,1)〜w(25,1)、・・・、w(1576,1)〜w(1600,1)からフィルタ1300f−2が生成される。同様に、重みデータ1200−2のw(1,2)〜w(25,2)、・・・、w(1576,2)〜w(1600,2)からフィルタ1300f−2が生成される。j=3,・・・,64の場合も同様である。
以上のように生成された各フィルタ1300f−2(j=1,・・・,64)を用いて、畳み込み処理部112は、画像データ513に対してフィルタ処理を行う。畳み込み処理部112は、例えば以下のようにしてフィルタ処理を行う。
(1)画像データ513に対してフィルタ1300f−2をかける(すなわち、画像データ513とフィルタ1300f−2の対応する値の乗算を行う)。
これは、例えば、1つのチャンネルを固定し、フィルタ1300f−2の中心を、画像データ513の28×28の部分の左上から5ずつ右にずらしながら行う。そして、フィルタ1300f−2の中心が画像データ513の28×28の部分の右端まで辿り着いたら、フィルタ1300f−2の中心を下に5ずらして、再度、左端から行えば良い。
(2)次に、画像データ513の他のチャンネルに対しても、上記(1)と同様の方法でフィルタ1300f−2をかける。この処理をすべてのチャンネル1〜64に対して繰り返す。
(3)フィルタ1300f−2〜フィルタ1300f64−2についても、上記と同様に、1〜64のチャンネル毎に、画像データ513の28×28の部分に対して、フィルタ処理を順に行う。
以上のフィルタ処理により、画像データ513から28×28×64×64チャンネルの画像データが生成される。
Step473)畳み込み処理部112は、Step472で得られた画像データの28×28の部分について、各画素値を1〜64チャンネルのそれぞれについて加算する。この結果、28×28×64チャンネルの画像データが得られる。
Step474)畳み込み処理部112は、Step473で得られた28×28×64チャンネルの画像データの各画素値に対して、バイアスデータ1100−2を加算する。
ここで、図11(a)は、第2層のバイアスデータ1100−2の一例を示す図である。図11(a)に示すように、バイアスデータ1100−2は、1×64の行列により表される。そこで、畳み込み処理部112は、1つめの28×28チャンネルの画像データの各画素値に対してバイアスデータ1100−2のデータ値b(1)を加算する。同様に、2つ目の28×28チャンネルの画像データの各画素値に対してバイアスデータ1100−2のデータ値b(2)を加算する。以降、同様に、64個すべての28×28チャンネルの画像データの各画素値に対して、それぞれ、バイアスデータ1100−2のデータ値を加算する。
Step475)畳み込み処理部112は、Step474で得られた28×28×64チャンネルの画像データに対して、所定の活性化関数を適用して出力画像データを得る。所定の活性化関数としては、例えば、任意の画素値xに対して、f(x)=max(0,x)で定義される関数が挙げられる。このようにして得られた出力画像データが、出力データ520である。このように本実施形態の出力データ520は、28×28×64チャンネルの画像データである。
なお、上記の説明で示されるように、出力データ520は、フィルタ1300f−2の各j(j=1,・・・,64)に対応する28×28の画像データ(出力データ)の集合と言うことができる。すなわち、出力データ520には、フィルタ1300f−2に対応する28×28の出力データ520−1,・・・、フィルタ1300f64−2に対応する28×28の出力データ520−64が含まれる。
次に、図3のステップS33の候補領域の作成処理について、図13を参照しながら説明する。図13は、本実施形態の候補領域の作成処理のフローチャートの一例を示す図である。
候補領域作成処理部120のデータ決定部121は、出力データ520に含まれる出力データ520−1,・・・,出力データ520−64のそれぞれについて代表値a,・・・a64を決定する(ステップS131)。
ここで、代表値a,・・・a64としては、出力データ520−1,・・・,出力データ520−64それぞれのデータ値の最大値とすれば良い。例えば、出力データ520−1に含まれるデータ値の最大値を代表値aとすれば良い。他の出力データ520−2,・・・,出力データ520−64についても同様である。ただし、代表値a,・・・a64は、最大値に限られず、例えば、平均値等を用いても良い。
候補領域作成処理部120のデータ決定部121は、代表値a,・・・a64に基づいて、出力データ520−1,・・・,出力データ520−64から所定のM個のデータを決定する(ステップS132)。ここで、データ決定部121は、代表値a,・・・a64の値が大きい順に(昇順に)、上位M個の代表値に対応する出力データを決定すれば良い。
以降では、M=3として、データ決定部121により、出力データ520−2、出力データ520−43、及び出力データ520−47が決定されたものとする。
なお、Mの値を大きくすることで、認識処理の精度を向上させることができるが、処理速度は低下する。一方で、Mの値を小さくすることで、認識処理の精度は低下するものの処理速度が向上する。したがって、Mは、画像処理プログラム20の設計者等により、認識対象の画像データ510の性質や、認識処理に求められる精度等に応じて適切な値が予め設定される。
候補領域作成処理部120は、データ決定部121により決定されたM個の出力データ520のうち一の出力データを取得する(ステップS133)。すなわち、本実施形態では、データ決定部121は、出力データ520−2、出力データ520−43、及び出力データ520−47から一の出力データを取得する。以降では、候補領域作成処理部120は、出力データ520−2を取得したものとして説明する。
候補領域作成処理部120の境界決定部122は、取得された出力データ520−2について、微分処理を行って、領域分割部124により分割される領域の境界を決定する(ステップS134)。
ここで、境界決定部122により決定される領域の境界について、図14を参照しながら説明する。図14は、本実施形態の微分処理の一例を示す図である。
図14では、一例として、出力データ520−2について、微分処理を行った場合を示している。図14に示すように、境界決定部122により微分処理を行い、微分値が負から正に変わる部分を、出力データ520−1の出力値の谷間として検出する。そして、境界決定部122は、検出された出力値の谷間を、境界D1及び境界D2として決定する。ここで、微分処理には、例えばSobelフィルタを用いれば良い。
候補領域作成処理部120の閾値処理部123は、閾値処理を行う(ステップS135)。すなわち、閾値処理部123は、予め設定された閾値(例えば、閾値=30)以下のデータを削除する。
ここで、閾値処理部123による閾値処理について、図15を参照しながら説明する。図15は、本実施形態の閾値処理の一例を示す図である。図15では、一例として、出力データ520−2に対して閾値処理を行った場合を示している。図15に示すように、閾値処理部123は、閾値処理を行って所定の閾値以下のデータ値を削除することにより、出力データ520−2から出力データ521−2を作成する。なお、図15に示す出力データ521において、網掛けで示した部分がデータ値を削除した部分である。
候補領域作成処理部120の領域分割部124は、境界決定部122により決定された境界に基づいて、ステップS133で取得された一の出力データが示す画像を複数の領域に分割する(ステップS136)。
ここで、領域分割部124により分割される領域について、図16を参照しながら説明する。図16は、本実施形態の領域分割の一例を示す図である。図16では、出力データ521−2が示す画像を境界D1及び境界D2に基づいて分割した例を示している。図16に示すように、出力データ521−2が示す画像は、境界D1及び境界D2に基づいて、領域S1、領域S2、領域S3、及び領域S4に分割される。
候補領域作成処理部120の候補領域作成部125は、領域分割部124により分割された領域S1〜S4について、各領域を含む最小矩形を特定し、当該特定された最小矩形に基づいて候補領域を示す候補領域画像データ530を作成する(ステップS137)。
ここで、一例として、領域S1を囲む最小矩形B1を図17に示す。このように最小矩形とは、領域分割部124により分割された領域された領域に外接する矩形のことである。したがって、候補領域作成部125は、各領域S1〜S4について、それぞれ最小矩形を特定する。
そして、候補領域作成部125は、画像データ510が示す画像において、当該特定された最小矩形によって囲まれる領域と対応する領域を候補領域として候補領域画像データ530を作成する。このとき、候補領域作成部125は、画像データ510が示す画像において、最小矩形によって囲まれる領域と対応する領域を、当該画像データ510の解像度を考慮した上で候補領域として候補領域画像データ530を作成する。
候補領域作成処理部120は、ステップS132で決定されたすべての出力データに対して、候補領域画像データ530を作成したか否かを判定する(ステップS138)。すなわち、候補領域作成処理部120は、出力データ520−2、出力データ520−43、及び出力データ520−47に対して、ステップS133〜ステップS138の処理が実行されたか否かを判定する。
ステップS132で決定されたすべての出力データに対して、候補領域画像データ530が作成された場合、候補領域作成処理部120は、処理を終了させる。一方、ステップS132で決定された出力データのうち、候補領域画像データ530が作成されていない出力データがある場合、候補領域作成処理部120は、ステップS133に戻る。
これにより、本実施形態の画像処理装置10では、入力された画像データ510が示す画像において、対象が含まれる領域の候補である候補領域を示す候補領域画像データ530が作成される。しかも、本実施形態の画像処理装置10では、畳み込みニューラルネットワークの第N層における出力データ520を用いて、候補領域画像データ530が作成される。このため、本実施形態の画像処理装置10では、認識処理の精度の低下を防ぎつつ、候補領域を削減させることができる。
次に、図3のステップS34のカテゴリ分類処理について、図18を参照しながら説明する。図18は、本実施形態のカテゴリ分類処理のフローチャートの一例を示す図である。
CNN処理部110は、1以上の候補領域画像データ530から一の候補領域画像データ530を入力し、入力された候補領域画像データ530に対して、畳み込みニューラルネットワーク処理を行う(ステップS181)。すなわち、CNN処理部110は、入力された候補領域画像データ530に対して、図4で示した畳み込みニューラルネットワーク処理を行う。
なお、ステップS181において、CNN処理部110は、予め設定された第N層までの畳み込みニュールラルネットワーク処理を行っても良いし、Nより大きい任意の自然数をLとして、第L層までの畳み込みニューラルネットワーク処理を行っても良い。
ここでは、ステップS181において、CNN処理部110は、第N層までの畳み込みニューラルネットワーク処理を行ったものとして説明する。したがって、ステップS181の処理結果として、CNN処理部110の畳み込み処理部112は、出力データ520と同じデータ構成である28×28×64チャンネルの出力データ531を全結合処理部114に出力する。
次に、CNN処理部110の全結合処理部114は、出力データ531を入力して、全結合処理を行う。なお、全結合処理部114は、上述したように、カテゴリの組毎に存在する。したがって、各全結合処理部114は、それぞれ、出力データ531を入力する。
例えば、カテゴリ数が「人」、「動物」、「車」の3つである場合、全結合処理部114は、カテゴリの組「人」「人以外」に対応する全結合処理部114−1、カテゴリの組「動物」「動物以外」に対応する全結合処理部114−2、及びカテゴリの組「車」「車以外」に対応する全結合処理部114−3の3つが存在する。
ここで、全結合処理について、図19を参照しながら説明する。図19は、本実施形態の第3層の全結合処理の一例を示す図である。
Step1821)全結合処理部114は、出力データ531を入力する。ここで、入力した出力データ531の色チャンネルは、上述したように、28×28×64である。
Step1822)全結合処理部114は、出力データ531の各データ値をベクトル値に変換する。すなわち、28×28×64チャンネルの出力データ531の各データ値を50176行1列のベクトル値に変換する。ここで、ベクトル値の各成分の値をx,・・・,x50176とする。
Step1823)全結合処理部114は、それぞれ、バイアスデータ1100−3及び重みデータ1200−3を用いて、積和演算を行う。
ここで、バイアスデータ1100−3及び重みデータ1200−3について、図20を参照しながら説明する。図20は、本実施形態の第3層のネットワークパラメータの一例を示す図である。
図20(a)は、第3層のバイアスデータ1100−3の一例を示す図である。図20(a)に示すように、第3層のバイアスデータ1100−3は、カテゴリ毎のバイアスデータ1100−3,バイアスデータ1100−3,・・・を含む。また、カテゴリ毎のバイアスデータ1100−3は、1行2列のベクトル値である。なお、ベクトルの各成分の値b(k,j)は、上述したように、学習データに基づいて予め学習された値である。
ここで、kは、カテゴリを示す数値であるとする。例えば、k=1のときカテゴリ「人」を示し、k=2のときカテゴリ「動物」を示し、k=3のときカテゴリ「車」を示す等である。また、jは、カテゴリに分類されるか否かを示す数値である。例えば、j=1のときは該当のカテゴリに分類される場合を示し、j=2のときは該当のカテゴリに分類されない場合(すなわち、該当のカテゴリ以外のカテゴリに分類される場合)を示す。
図20(b)は、第3層の重みデータ1200−3の一例を示す図である。図20(b)に示すように、第3層の重みデータ1200−3は、カテゴリ毎の重みデータ1200−3,重みデータ1200−3,・・・を含む。また、カテゴリ毎の重みデータ1200−3は、50176行2列の行列である。なお、この行列の各成分の値w(i,j,k)は、上述したように、学習データに基づいて予め学習された値である。
図19の説明に戻り、全結合処理部114は、それぞれ以下の積和演算を行う。すなわち、カテゴリkに対して、全結合処理部114−kは、以下の積和演算を行う。
ここで、j及びkの意味は上述した通りである。
Step1824)全結合処理部114は、Step1823で得られた2×1×|k|のデータを正規化処理部130に出力する。なお、|k|は、カテゴリ数である。
なお、上記の積和演算の結果が、入力された候補領域画像データ530がカテゴリkに分類される場合(j=1の場合)の算出結果と、当該候補領域画像データ530がカテゴリk以外のカテゴリに分類される場合(j=2の場合)の算出結果である。
これにより、候補領域画像データ530が、あるカテゴリkに分類されるか否かを数値として判定することができる。例えば、あるカテゴリkについて、y(k)の値が0.7、y(k)の値が0.3である場合、当該候補領域画像データ530は、カテゴリkに分類される場合が高いと判定することができる。換言すれば、あるカテゴリkについて、y(k)の値がy(k)の値より高い場合、入力された候補領域画像データ530はカテゴリkに分類される可能性が高いといえる。
ただし、上記の算出結果では、各全結合処理部114の出力結果同士の比較ができない場合があるため、次のステップS183において正規化処理を行う。
正規化処理部130は、全結合処理部114により出力された2×1×|k|のデータを入力して、正規化処理を行う(ステップS183)。
ここで、正規化処理について、図21を参照しながら説明する。図21は、本実施形態の正規化処理の一例を示す図である。
Step1831)正規化処理部130は、全結合処理部114により出力された2×1×|k|のデータを入力する。
Step1832)正規化処理部130は、(y(k),y(k))について、カテゴリ毎に以下の式により正規化を行う。
このようにして得られた2×1×|k|が確信度である、このように正規化処理を行うことにより、すべてのカテゴリにおける確信度は0以上1以下の値に正規化される。このため、異なるカテゴリ同士の確信度を比較することが可能となる。例えば、k=1をカテゴリ「人」、k=2をカテゴリ「動物」とした場合において、z(1)=0.8,z(1)=0.2,z(2)=0.6,z(2)=0.4であるとき、入力された候補領域画像データ530は、カテゴリ「人」に分類される可能性が高いと言える。
Step1833)正規化処理部130は、各カテゴリの確信度を出力部140に出力する。
以上により、本実施形態の画像処理装置10では、入力された画像データが示す画像において、被写体等を示す対象が含まれる領域の候補となる候補領域画像データを作成する。しかも、本実施形態の画像処理装置10では、畳み込みニューラルネットワークの予め設定された層の出力結果に基づいて、候補領域画像データを作成することにより、認識処理の精度の低下を防ぎつつ、候補領域画像データの数の削減を図ることができる。
したがって、本実施形態の画像処理装置10は、入力された画像データが示す画像において、対象が含まれる領域と、当該対象が分類されるカテゴリとを識別する識別処理の処理時間を削減することができる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 画像処理装置
20 画像処理プログラム
110 CNN処理部
111 加工部
112 畳み込み処理部
113 プーリング処理部
114 全結合処理部
120 候補領域作成処理部
121 データ決定部
122 境界決定部
123 閾値処理部
124 領域分割部
125 候補領域作成部
130 正規化処理部
140 出力部
特許第4322913号公報
Rich feature hierarchies for accurate object detection and semantic segmentation. Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. CVPR 2014.

Claims (9)

  1. 画像データが示す画像において対象が含まれる第1の領域と、該対象が分類されるカテゴリとを認識する画像処理装置であって、
    畳み込みニューラルネットワークを用いて、入力された前記画像データが分類されるカテゴリを認識する認識手段と、
    前記認識手段における前記畳み込みニューラルネットワークの所定の層の出力結果を示す第1の出力データに基づいて、前記画像データが示す画像に含まれる1以上の候補領域を示す1以上の候補領域画像データを作成する候補領域作成手段と
    を有し、
    前記認識手段は、
    前記候補領域作成手段により作成された前記1以上の候補領域画像データがそれぞれ分類されるカテゴリを認識する、画像処理装置。
  2. 前記第1の出力データは、前記畳み込みニューラルネットワークの前記所定の層のネットワークパラメータから特定されるフィルタ毎の第2の出力データを含み、
    前記第1の出力データから所定の個数の前記第2の出力データを決定する決定手段を有し、
    前記候補領域作成手段は、
    前記決定手段で決定された前記第2の出力データに基づいて、前記1以上の候補領域データを作成する、請求項1記載の画像処理装置。
  3. 前記決定手段は、
    前記第2の出力データの代表データ値の昇順に、前記所定の個数の前記第2の出力データを決定する、請求項2記載の画像処理装置。」
  4. 前記第2の出力データが示す画像を1以上の第2の領域に分割する分割手段を有し、
    前記候補領域作成手段は、
    前記分割手段により分割された前記1以上の第2の領域のそれぞれについて、該第2の領域を囲む最小の矩形領域を前記候補領域とする、請求項2又は3に記載の画像処理装置。
  5. 前記分割手段は、
    微分処理により前記1以上の第2の領域の境界を検出し、該検出された境界に基づいて分割する、請求項4記載の画像処理装置。
  6. 前記分割手段は、
    前記微分処理にSobelフィルタを用いる、請求項5記載の画像処理装置。
  7. 所定の閾値以下のデータ値を削除する閾値手段を有し、
    前記分割手段は、
    前記閾値手段により所定の閾値以下のデータ値を削除した前記第2の出力データが示す画像を1以上の領域に分割する、請求項4ないし6のいずれか1項に記載の画像処理装置。
  8. 画像データが示す画像において対象が含まれる第1の領域と、該対象が分類されるカテゴリとを認識する画像処理装置による画像処理方法であって、
    畳み込みニューラルネットワークを用いて、入力された前記画像データが分類されるカテゴリを認識する認識手順と、
    前記認識手順における前記畳み込みニューラルネットワークの所定の層の出力結果を示す第1の出力データに基づいて、前記画像データが示す画像に含まれる1以上の候補領域を示す1以上の候補領域画像データを作成する候補領域作成手順と
    を有し、
    前記認識手順は、
    前記候補領域作成手順により作成された前記1以上の候補領域画像データがそれぞれ分類されるカテゴリを認識する、画像処理方法。
  9. 画像データが示す画像において対象が含まれる第1の領域と、該対象が分類されるカテゴリとを認識する画像処理装置を、
    畳み込みニューラルネットワークを用いて、入力された前記画像データが分類されるカテゴリを認識する認識手段、
    前記認識手段における前記畳み込みニューラルネットワークの所定の層の出力結果を示す第1の出力データに基づいて、前記画像データが示す画像に含まれる1以上の候補領域を示す1以上の候補領域画像データを作成する候補領域作成手段
    として機能させ、
    前記認識手段は、
    前記候補領域作成手段により作成された前記1以上の候補領域画像データがそれぞれ分類されるカテゴリを認識する、プログラム。
JP2015119147A 2015-06-12 2015-06-12 画像処理装置、画像処理方法、及びプログラム Pending JP2017004350A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015119147A JP2017004350A (ja) 2015-06-12 2015-06-12 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015119147A JP2017004350A (ja) 2015-06-12 2015-06-12 画像処理装置、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017004350A true JP2017004350A (ja) 2017-01-05

Family

ID=57751837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015119147A Pending JP2017004350A (ja) 2015-06-12 2015-06-12 画像処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017004350A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018112550A (ja) * 2017-01-12 2018-07-19 清華大学Tsinghua University 検査機器および銃器検出方法
JP2018146587A (ja) * 2017-03-08 2018-09-20 清華大学Tsinghua University 検査機器と車両の画像を分割する方法
WO2018207334A1 (ja) * 2017-05-12 2018-11-15 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム
CN109117858A (zh) * 2017-06-26 2019-01-01 北京金风科创风电设备有限公司 监测风力发电机叶片结冰的方法及装置
JP2019028504A (ja) * 2017-07-25 2019-02-21 住友電気工業株式会社 判定装置、判定方法および判定プログラム
WO2019111840A1 (ja) * 2017-12-06 2019-06-13 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法、画像認識モデル生成プログラム記憶媒体、画像生成装置、画像生成方法および画像生成プログラム記憶媒体
JP2020038664A (ja) * 2018-09-04 2020-03-12 株式会社ストラドビジョン コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
US10762329B2 (en) 2017-12-06 2020-09-01 Toyota Jidosha Kabushiki Kaisha Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium
KR20210075955A (ko) * 2017-10-27 2021-06-23 주식회사 두잉랩 음식 영상을 이용한 영양관리 및 질병관리 방법
US11430137B2 (en) 2018-03-30 2022-08-30 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018112550A (ja) * 2017-01-12 2018-07-19 清華大学Tsinghua University 検査機器および銃器検出方法
US10796436B2 (en) 2017-03-08 2020-10-06 Nuctech Company Limited Inspection apparatuses and methods for segmenting an image of a vehicle
JP2018146587A (ja) * 2017-03-08 2018-09-20 清華大学Tsinghua University 検査機器と車両の画像を分割する方法
WO2018207334A1 (ja) * 2017-05-12 2018-11-15 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム
JPWO2018207334A1 (ja) * 2017-05-12 2019-11-21 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム
CN109117858A (zh) * 2017-06-26 2019-01-01 北京金风科创风电设备有限公司 监测风力发电机叶片结冰的方法及装置
CN109117858B (zh) * 2017-06-26 2024-02-13 北京金风科创风电设备有限公司 监测风力发电机叶片结冰的方法及装置
JP2019028504A (ja) * 2017-07-25 2019-02-21 住友電気工業株式会社 判定装置、判定方法および判定プログラム
KR102326540B1 (ko) * 2017-10-27 2021-11-16 주식회사 두잉랩 음식 영상을 이용한 영양관리 및 질병관리 방법
KR20210075955A (ko) * 2017-10-27 2021-06-23 주식회사 두잉랩 음식 영상을 이용한 영양관리 및 질병관리 방법
US10762329B2 (en) 2017-12-06 2020-09-01 Toyota Jidosha Kabushiki Kaisha Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium
JPWO2019111840A1 (ja) * 2017-12-06 2020-11-19 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法および画像認識モデル生成プログラム
US11501522B2 (en) 2017-12-06 2022-11-15 Nec Corporation Image recognition model generating device, image recognition model generating method, and image recognition model generating program storing medium
WO2019111840A1 (ja) * 2017-12-06 2019-06-13 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法、画像認識モデル生成プログラム記憶媒体、画像生成装置、画像生成方法および画像生成プログラム記憶媒体
US11430137B2 (en) 2018-03-30 2022-08-30 Samsung Electronics Co., Ltd. Electronic device and control method therefor
JP2020038664A (ja) * 2018-09-04 2020-03-12 株式会社ストラドビジョン コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}

Similar Documents

Publication Publication Date Title
JP2017004350A (ja) 画像処理装置、画像処理方法、及びプログラム
CN110689036B (zh) 用于自动染色体分类的方法和系统
US9697416B2 (en) Object detection using cascaded convolutional neural networks
JP6737776B2 (ja) センサ素子アレイにおける特徴計算
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
JP6351240B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR101831204B1 (ko) 문서 영역 분할 방법 및 장치
CN100405388C (zh) 特定被摄体检测装置
CN107209942B (zh) 对象检测方法和图像检索系统
WO2017190646A1 (zh) 一种人脸图像处理方法和装置、存储介质
US8811725B2 (en) Learning device, learning method, identification device, identification method, and program
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
CN110582783B (zh) 训练装置、图像识别装置、训练方法和计算机可读信息存储介质
JPWO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US10062007B2 (en) Apparatus and method for creating an image recognizing program having high positional recognition accuracy
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
CN101228552B (zh) 脸图像检测装置、脸图像检测方法
JP2005190400A (ja) 顔画像検出方法及び顔画像検出システム並びに顔画像検出プログラム
JP6937508B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
CN102713974A (zh) 学习装置、识别装置、学习识别系统和学习识别装置
KR101961462B1 (ko) 객체 인식 방법 및 장치
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
CN109961083B (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体
US20160078312A1 (en) Image processing method and apparatus using training dictionary