JP7820933B2

JP7820933B2 - 情報処理装置、方法及びプログラム

Info

Publication number: JP7820933B2
Application number: JP2021165650A
Authority: JP
Inventors: 茜井関
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-10-07
Filing date: 2021-10-07
Publication date: 2026-02-26
Anticipated expiration: 2041-10-07
Also published as: JP2023056349A; US20230111393A1

Description

本発明は、情報処理装置、方法及びプログラムに関する。

近年、画像内の特定の被写体を高精度に追尾するために、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（以下、ＤＮＮと呼称）のメタ学習を利用した技術が注目されている。メタ学習とは、少ないデータ及びパラメータ更新で新しいタスクに適応できるようなモデルを得る学習手法である。メタ学習を追尾タスクに応用することで、高精度な被写体の追尾を行うＤＮＮが実現される。

追尾タスクのメタ学習は、追尾対象が映っている参照画像からＤＮＮが抽出する特徴を用いて、物体検出ＤＮＮのパラメータを追尾対象の検出タスクに適合させる。例えば、Ｓｉａｍ手法は、参照画像と探索範囲画像からＤＮＮがそれぞれ抽出する特徴同士の相関演算を行う（非特許文献１）。オンライン追尾手法は、物体検出ＤＮＮのパラメータを、参照画像を用いて勾配法でファインチューニングする（非特許文献２、３）。これにより、追尾対象の情報が物体検出ＤＮＮに取り込まれ、物体検出ＤＮＮは新規画像から追尾対象を検出できる。

追尾対象の検出に適合させた物体検出ＤＮＮを用いて、新規画像から追尾対象を検出した結果を評価することで、特徴抽出ＤＮＮと物体検出ＤＮＮを学習させる。これにより、参照画像を用いた物体検出ＤＮＮのパラメータ適合を行うだけで、新規画像から追尾対象を検出する性能を最大化するＤＮＮが得られる。

ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＶｉｓｕａｌＴｒａｃｋｉｎｇｗｉｔｈＳｉａｍｅｓｅＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ，Ｌｉｅｔａｌ．，ＣＶＰＲ２０１８ＬｅａｒｎｉｎｇＤｉｓｃｒｉｍｉｎａｔｉｖｅＭｏｄｅｌＰｒｅｄｉｃｔｉｏｎｆｏｒＴｒａｃｋｉｎｇ，Ｂｈａｔｅｔａｌ．，ＩＣＣＶ２０１９ＴｒａｃｋｉｎｇｂｙＩｎｓｔａｎｃｅＤｅｔｅｃｔｉｏｎ：ＡＭｅｔａ－ＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ，Ｗａｎｇｅｔａｌ．，ＣＶＰＲ２０２０

しかしながら、非特許文献１～３の方法では、追尾対象を検出する際に類似物を誤検出しやすいという課題がある。

本発明は、追尾対象の検出精度を向上させることを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る情報処理装置は、以下の構成を備える。すなわち、情報処理装置は、追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得手段と、画像の各位置の特徴を抽出する抽出手段と、前記抽出手段が抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定手段と、前記推定手段により推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第１誤差を算出する第１誤差算出手段と、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である第１特徴と、前記抽出手段が前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第２特徴と、前記抽出手段が少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第３特徴と、を取得する特徴取得手段と、特徴空間における前記第１特徴と前記第２特徴との距離の、前記第１特徴又は前記第２特徴と前記第３特徴との距離に対する相対的な大きさを、第２誤差として算出する第２誤差算出手段と、前記第１誤差と前記第２誤差とに基づいて、前記抽出手段が前記特徴の抽出に用いるパラメータを更新する更新手段と、を備える。

本発明によれば、追尾対象の検出精度を向上させることができる。

情報処理装置の構成を示す図。情報処理装置の機能構成を示すブロック図。ニューラルネットワークの構成を示す図。参照画像と探索画像を示す図。ニューラルネットワークに与える各種画像等の一例を示す図。第１実施形態に係る、ニューラルネットワークの学習処理のフローチャート。オンライン追尾手法で用いるニューラルネットワークの構成の一例を示す図。第５実施形態に係る、ＮＮの事前学習の流れを示したフローチャート。オンライン追尾手法におけるパラメータ更新処理のフローチャート。オンライン追尾手法における推論処理のフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
第１実施形態は、参照画像と探索画像のそれぞれから抽出される追尾対象の特徴を相互相関し、探索画像内の追尾対象の位置の推定誤差（第１誤差）を求める。また、第１実施形態は、特徴抽出ＮＮを用いて抽出した、追尾対象同士の特徴間の距離に対する、追尾対象と類似物それぞれの特徴間の距離に対する相対的な大きさ（第２誤差）を求める。第１実施形態では、第１誤差と第２誤差とに基づいて、特徴抽出ＮＮのパラメータの更新を同時に行い、探索画像内の追尾対象の特徴を識別的にする。これにより、第１実施形態は、追尾対象と類似物それぞれの特徴間の類似度を下げることができ、探索画像内の追尾対象の検出精度を向上させることができる。なお、追尾対象と類似物は人物であるが、これに限定されず、例えば、動物、車両等であってもよい。

図１は、情報処理装置の構成を示す図である。情報処理装置１０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、記憶部１０４、入力部１０５、表示部１０６、通信部１０７を含む。情報処理装置１０は、ニューラルネットワークの学習を行う装置であり、例えば、パソコン等を含む。

ＣＰＵ１０１は、情報処理装置１０の各部を制御する装置であり、ＲＯＭ１０２及びＲＡＭ１０３に格納されたプログラム及びデータを実行することにより、各種処理を行う。

ＲＯＭ１０２は、各種データや起動プログラム等を記憶する記憶装置である。

ＲＡＭ１０３は、情報処理装置１０の各部の各種データを一時記憶する。ＲＡＭ１０３は、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリアを有する。

記憶部１０４は、処理対象のデータ及び学習用データを保存する記憶媒体であり、例えば、ＨＤＤ、フラッシュメモリ、各種光学メディア等を含む。

入力部１０５は、ユーザからの各種指示の入力を受け付ける受付手段であり、例えば、マウス、ジョイスティック、各種ＵＩを含む。

表示部１０６は、画面に各種情報を表示する装置であり、例えば、液晶（ＬＣＤ）画面、有機ＥＬ画面及びタッチパネル画面を含む。表示部１０６は、撮像装置（不図示）が撮像した撮像画像、各種の画面、サーバ（不図示）から受信したデータ等を表示する。表示部１０６がタッチパネル画面である場合、ユーザは表示部１０６の画面をタッチすることで、各種の指示をＣＰＵ１０１に入力する。

通信部１０７は、ネットワーク（不図示）に接続されているサーバ（不図示）との間のデータ通信を制御する装置である。通信部１０７は、各種端末装置との間でデータ通信を行う、例えば有線ＬＡＮ、無線ＬＡＮ等を含む。

図２は、情報処理装置の機能構成を示すブロック図である。情報処理装置１０は、学習データ記憶部２０１、学習データ取得部２０２、特徴抽出部２０３、パラメータ適合部２０４、追尾結果算出部２０５を含む。情報処理装置１０は、第一の誤差算出部２０６、特徴取得部２０７、第二の誤差算出部２０８、パラメータ更新部２０９、パラメータ記憶部２１０をさらに含む。

学習データ記憶部２０１は、後述の探索画像３０４と探索画像３０４内の追尾対象の位置及びサイズを示す正解データを記憶する。以下、正解データはＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ともいう。

学習データ取得部２０２は、学習データ記憶部２０１内の探索画像３０４と、探索画像３０４の正解データとを取得する。

特徴抽出部２０３は、探索画像３０４を、探索画像から追尾対象の特徴を抽出する後述の特徴抽出ＮＮ３０５に入力することで、１枚の探索画像につき１つの特徴マップ３０６を抽出する。特徴抽出部２０３は、後述の特徴抽出ＮＮ３０２と特徴抽出ＮＮ３０５を含み、両者のＮＮは同じものである。

パラメータ適合部２０４は、後述の追尾対象検出ＮＮ３１０内の相関演算層３０７のパラメータを更新する。具体的には、パラメータ適合部２０４は、特徴抽出部２０３の特徴抽出ＮＮ３０２により参照画像から抽出した、テンプレート特徴３０３内の追尾対象の周辺領域を切り出した第１特徴を生成する。パラメータ適合部２０４は、第１特徴を相関演算層３０７のパラメータに設定する。

追尾結果算出部２０５は、相関演算層３０７において、それのパラメータ及び特徴抽出部２０３が探索画像３０４から抽出した特徴マップ３０６との相関演算を行う。ここで、相関演算層３０７のパラメータとは、パラメータ適合部２０４によって得られたテンプレート特徴３０３から切り出した特徴のことである。探索画像３０４から抽出した特徴マップ３０６とは、特徴抽出ＮＮ３０５の最終層の出力のことである。追尾結果算出部２０５は、相関演算層３０７から得られた相関マップ３０８を、後述の追尾対象検出ＮＮ３１０内のＮＮ３０９に入力する。追尾結果算出部２０５は、ＮＮ３０９が出力する、追尾対象の位置に強く反応する尤度マップ３１１と、サイズの推定マップ（幅マップ３１２、高さマップ３１３）とを用いて追尾対象の位置とサイズを推定する。追尾結果算出部２０５は、後述の追尾対象検出ＮＮ３１０を含む。また、ＮＮ３０９が推定するマップの種類はこれらに限定せず、例えば非特許文献１のように、あらかじめ追尾対象のサイズの候補を決めて置き、サイズを微調整する量をマップとして推定しても良い。

第一の誤差算出部２０６は、追尾結果算出部２０５が探索画像３０４から推定した追尾対象の位置とサイズの推定結果と、探索画像３０４内の追尾対象のＧＴとに基づいて、第一の誤差を計算する。

特徴取得部２０７は、特徴抽出ＮＮ３０５の最終層より得られる特徴マップ３０６から、追尾対象と類似物のそれぞれが存在する領域に対応する特徴を取得する。ここで、類似物の領域は、追尾結果算出部２０５が出力する尤度マップ３１１内の画素値が閾値よりも高い領域である。

第二の誤差算出部２０８は、特徴空間において、特徴取得部２０７が取得した追尾対象と類似物のそれぞれの特徴に基づいて、第二の誤差を算出する。第二の誤差の算出目的は、追尾対象と類似物のそれぞれの特徴間の類似度を下げることにより、ＮＮ３０９により追尾対象の識別を容易化するためである。第二の誤差算出部２０８は、特徴空間において追尾対象同士のそれぞれの特徴は近く、追尾対象の特徴に対して類似物の特徴が遠くに配置される特徴表現を第二の誤差として算出する。第二の誤差の算出方法は後述する。

パラメータ更新部２０９は、第一の誤差算出部２０６と第二の誤差算出部２０８のそれぞれが算出する第一の誤差と第二の誤差の双方の重みづけ和である損失に基づいて、特徴抽出ＮＮ３０２とＮＮ３０９のパラメータを更新する。

パラメータ記憶部２１０は、パラメータ更新部２０９が更新した特徴抽出ＮＮ３０２とＮＮ３０９のパラメータを記憶する。

図３は、ニューラルネットワークの構成を示す図である。図中のＮＮは、ニューラルネットワークの略である。特徴抽出ＮＮ３０２は参照画像３０１から第１特徴を、特徴抽出ＮＮ３０５は探索画像３０４から第２特徴及び第３特徴の抽出を行う。特徴抽出ＮＮ３０２と特徴抽出ＮＮ３０５は互いに、画像から特徴を抽出するための多層構造を有し、パラメータを一部またはすべて共有する。追尾対象検出ＮＮ３１０は、追尾対象の位置とサイズを推定するニューラルネットワークであり、相関演算層３０７とＮＮ３０９とを含む。特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及び追尾対象検出ＮＮ３１０は、畳み込み層（Ｃｏｎｖｏｌｕｔｉｏｎ）を含む。上記のＮＮは、ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ（以下、ＲｅＬＵ）等の非線形変換を行うが、非線形変換の種類はＲｅＬｕに限定されない。

図４は、参照画像と探索画像を示す図である。図４（ａ）は、参照画像４０１の一例を示す。参照画像４０１は、学習データ取得部２０２によって取得された画像である。テンプレート画像４０２は、追尾対象４０３の領域周辺を切り出した画像である。学習データ取得部２０２は、追尾対象４０３の位置とサイズに基づいて、参照画像４０１内の追尾対象４０３の領域周辺の画像をテンプレートとして切り出して、その画像をリサイズすることでテンプレート画像４０２を得る。

学習データ取得部２０２は、追尾対象４０３の位置を中心として、そのサイズの定数倍で参照画像４０１からテンプレート画像４０２を切り出すことができる。追尾対象４０３は、参照画像４０１内の追尾対象となる物体であり、例えば、人物を含むが、動物及び車両等であってもよい。正解データ４０４は、追尾対象４０３の位置及びサイズの正解を表し、追尾対象４０３を囲むバウンディングボックスで示される。

図４（ｂ）は、探索画像４０５の一例を示す。探索画像４０５は、追尾対象４０７を探索するための画像である。探索範囲画像４０６は、探索画像４０５から追尾対象４０７の探索範囲となる画像を切り出した画像である。学習データ取得部２０２が、追尾対象４０７の位置とサイズに基づいて、探索画像４０５内の追尾対象４０７の周辺の画像を切り出し、その画像をリサイズする。学習データ取得部２０２は、例えば、追尾対象４０７の位置を中心として、追尾対象４０７のサイズの定数倍で探索画像４０５から探索範囲画像４０６を切り出す。

学習データ取得部２０２は、追尾対象４０７の探索画像４０５と、その画像内に存在する追尾対象４０７の位置とサイズの正解データ４０８のセットを取得する。学習データ取得部２０２は、例えば、参照画像４０１と同じシーケンスの別時刻の画像を、追尾対象４０７の探索画像４０５として取得する。追尾対象４０７は、追尾対象となる物体を示し、例えば、人物を含むが、動物及び車両等であってもよい。正解データ４０８は、追尾対象４０７の位置及びサイズの正解を表し、追尾対象４０７を囲むバウンディングボックスで示される。

図５は、ニューラルネットワークに与える各種画像等の一例を示す図である。図５（ａ）は、入力画像５０１を示す図である。入力画像５０１は、追尾対象５０２、類似物５１４を含む。入力画像５０１は、探索範囲画像４０６と同じである。追尾対象５０２は、追尾対象となる物体であり、例えば、人物を含む。類似物５１４は、追尾対象ではなく、追尾対象に類似する物体であり、例えば、人物を含む。

図５（ｂ）は、ＧＴマップ５０６を示す図である。ＧＴマップ５０６は、追尾対象５０７、類似物５０８を含む。ＧＴマップ５０６は、追尾対象５０７と類似物５０８の位置とサイズの正解データを示す画像である。

図５（ｃ）は、尤度マップ５０３を示す図である。尤度マップ５０３は、追尾結果算出部２０５が探索範囲画像４０６から推定した、追尾対象５０４と類似物５０５の位置の推定結果を示し、画素値０～１の実数値を取る画像である。尤度マップ５０３内の追尾対象５０４と類似物５０５とが存在する位置の画素値は、尤度マップ５０３内のその他の画素値と比べて相対的に大きく表示される。

サイズマップ（不図示）は、尤度マップ５０３と同じ大きさの２枚のマップである。２枚のマップのうち一つのマップは、追尾対象５０４と類似物５０５の幅を推定したマップであり、もう一つのマップは、両者の高さを推定したマップである。幅の推定マップ（不図示）では、追尾対象５０４又は類似物５０５の中心位置に対応する画素の値が、追尾対象５０４又は類似物５０５の幅の大きさとなればよい。高さの推定マップ（不図示）では、追尾対象５０４又は類似物５０５の中心位置に対応する画素値が、追尾対象５０４又は類似物５０５の高さに対応する。

図５（ｄ）は、特徴マップ５０９を示す図である。特徴マップ５０９は、追尾対象の特徴５１０と類似物の特徴５１１を含む。特徴マップ５０９は、探索範囲画像４０６から抽出された追尾対象と類似物のそれぞれの特徴を表す画像である。特徴取得部２０７は、特徴マップ５０９から、追尾対象の中心位置を含む画素（図５（ｂ）の追尾対象５０７）の特徴５１０を切り出す。特徴取得部２０７は、特徴マップ５０９の各画素に対して類似物の存在領域であるか否かを判定する。具体的には、特徴取得部２０７は、尤度マップ５０３において、尤度が閾値よりも高い画素を、類似物の存在領域であると判定する。そして、特徴取得部２０７は、特徴マップ５０９から、類似物の存在領域として特徴５１１を切り出す。ここで、特徴取得部２０７は、ＧＴが示す追尾対象が存在する近傍の画素を、類似物の領域であると判定しないものとする。

図５（ｅ）は、テンプレート特徴５１２を示す図である。テンプレート特徴５１２は、追尾対象の特徴５１３を含む。特徴取得部２０７は、テンプレート画像４０２から、追尾対象の中央の画素の特徴を切り出すことにより、１ｘ１ｘＣの特徴５１３を得る。

（処理のフロー）
図６は、第１実施形態に係る、ニューラルネットワークの学習処理のフローチャートである。以下、図１～図５を参照しつつ処理について説明する。

Ｓ６０１で学習データ取得部２０２は、記憶部１０４から、追尾対象４０３が映る参照画像４０１と、参照画像４０１内に存在する追尾対象４０３の中心位置とサイズ（幅、高さ）の正解データ４０４と、を取得する。

Ｓ６０２で学習データ取得部２０２は、追尾対象４０３の位置とサイズに基づいて、参照画像４０１内の追尾対象４０３の領域周辺の画像をテンプレートとして切り出し、その画像をリサイズすることでテンプレート画像４０２を得る。

Ｓ６０３で特徴抽出部２０３は、テンプレート画像４０２を特徴抽出ＮＮ３０２に入力し、追尾対象４０３の領域に対応するテンプレート特徴５１２を得る。ここで、テンプレート特徴５１２の幅・高さ・チャネル数は、５ｘ５ｘＣ（Ｃは任意の正の定数）とするが、これに限られない。

Ｓ６０４で学習データ取得部２０２は、追尾対象４０７が映る探索画像４０５と、その画像内に存在する追尾対象４０７の位置とサイズの正解データ４０８の組を取得する。学習データ取得部２０２は、例えば、Ｓ６０２で取得した参照画像４０１と同じシーケンスの別時刻の画像を、追尾対象４０７の探索画像４０５として取得する。

Ｓ６０５で学習データ取得部２０２は、追尾対象４０７の位置とサイズに基づいて、探索画像４０５内の追尾対象４０７の周辺の画像を切り出し、その画像をリサイズする。学習データ取得部２０２は、例えば、追尾対象４０７の位置を中心として、追尾対象４０７のサイズの定数倍で探索画像４０５から切り出すことで、探索範囲画像４０６を得る。

Ｓ６０６で特徴抽出部２０３は、Ｓ６０５で取得した探索範囲画像４０６を特徴抽出ＮＮ３０５に入力し、探索範囲画像４０６の特徴マップ５０９を得る。ここで、特徴マップ５０９の幅・高さ・チャネル数は、ＷｘＨｘＣとする。なお、図６におけるＳ６０１～６０３の処理及びＳ６０４～Ｓ６０６の処理は並行して行われるが、いずれかの処理が先に行われてもよい。

Ｓ６０７でパラメータ適合部２０４は、テンプレート特徴５１２を相関演算層３０７のパラメータに設定する。これにより、パラメータ適合部２０４は、追尾対象検出ＮＮ３１０内の相関演算層３０７に追尾対象４０７を追尾するように適合させる。追尾結果算出部２０５は、相関演算層３０７に、特徴マップ５０９とテンプレート特徴５１２との相互相関を計算させる。

Ｓ６０８で追尾結果算出部２０５は、相関演算層３０７により得られた計算結果を追尾対象検出ＮＮ３１０内のＮＮ３０９に入力し、尤度マップ５０３とサイズマップ（不図示）を出力する。追尾結果算出部２０５は、尤度マップ５０３とサイズマップ（不図示）とに基づいて、探索範囲画像４０６における追尾対象４０７の位置とサイズを推定する。

Ｓ６０９で第一の誤差算出部２０６は、追尾対象４０７の位置とサイズの推論結果（尤度マップ５０３とサイズマップ（不図示））と正解データ４０８とに基づいて、第一の誤差を計算する。第一の誤差の算出目的は、探索範囲画像４０６から追尾対象４０７を正しく検出できるようにＮＮ３０９を学習させるためである。第一の誤差算出部２０６は、推論された追尾対象５０４の位置の正解データ４０８に対する損失Ｌｏｓｓ_ｃ、及び、追尾対象５０４のサイズの正解データ４０８に対する損失Ｌｏｓｓ_ｓを計算する。

Ｌｏｓｓ_ｃは、以下の数１のように定義される。Ｓ６０８で取得した追尾対象５０４の位置の尤度マップ５０３をＣ_ｉｎｆ、ＧＴマップ５０６となるマップをＣ_ｇｔとする。第一の誤差算出部２０６は、マップＣ_ｉｎｆとマップＣ_ｇｔとの間で各画素の２乗誤差の和を算出する。Ｃ_ｇｔは、追尾対象５０７が存在する位置の値が１、それが存在しない位置の値が０となるマップである。

Ｌｏｓｓ_ｓは、以下の数２のように定義される。第一の誤差算出部２０６は、追尾対象５０４の幅と高さの出力マップＷ_ｉｎｆ、Ｈ_ｉｎｆと、正解データ（ＧＴ）となるマップＷ_ｇｔ、Ｈ_ｇｔとの間で各画素の２乗誤差の和を算出する。

ここで、Ｗ_ｇｔ及びＨ_ｇｔでは、追尾対象５０７の存在位置に追尾対象の幅及び高さの値がそれぞれ埋め込まれている。第一の誤差算出部２０６は、数２により損失を計算することにより、Ｗ_ｉｎｆ、Ｈ_ｉｎｆにおいても、追尾対象５０７の存在位置に追尾対象の幅及び高さが推論されるようにＮＮ３０９を学習させる。２つの損失（Ｌｏｓｓ_ｃ、Ｌｏｓｓ_ｓ）を合成すると、以下の数３が得られる。

損失は、ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ（以下、ＭＳＥ）で記述されたが、これに限定されることはなく、Ｓｍｏｏｔｈ－Ｌ１等でもよい。また、追尾対象の位置に関する損失関数とサイズに関する損失関数は異なってもよい。

Ｓ６１０で特徴取得部２０７は、参照画像４０１から第１特徴と、探索範囲画像４０６から第２特徴と第３特徴、とを含む計３種類の特徴を取得する。３種類の特徴とは、参照画像４０１に映る追尾対象４０３の領域の第１特徴と探索範囲画像４０６に映る追尾対象４０７の領域の第２特徴と類似物の領域の第３特徴のことをいう。特徴取得部２０７は、特徴マップ５０９をそのまま用いるのではなく、３種類の特徴が全て同じ幅・高さ・チャネル数を持つようにする。これにより、特徴取得部２０７は、特徴空間において３つの特徴を用いて後述する距離ｄ_１、ｄ_２の計算を行うことができる。

ここで、３種類の特徴の幅・高さ・チャネル数が、１ｘ１ｘＣとなるようにした場合について説明するが、これに限らない。また、特徴マップ５０９は、特徴抽出ＮＮ３０５の中間層の出力であってもよいが、以下の説明では相関演算層３０７で用いる特徴と同じ層の出力とする。

まず、探索範囲画像４０６に映る追尾対象４０７の領域の特徴の取得方法について、図５を用いて説明する。特徴取得部２０７は、特徴マップ５０９から、追尾対象４０７の中心位置を含む特徴５１０を切り出す。

次に、探索範囲画像４０６に映る類似物の領域の特徴の取得方法について、図５を用いて説明する。特徴取得部２０７は、特徴マップ５０９の各画素に対して類似物領域であるか否かを判定する。特徴取得部２０７は、尤度マップ５０３において、尤度が閾値よりも高い画素を、類似物の特徴であると判定する。特徴取得部２０７は、上記の判定基準に基づいて、特徴マップ５０９から、類似物の領域として特徴５１１を切り出す。ここで、特徴取得部２０７は、ＧＴマップ５０６が示す追尾対象５０７の近傍の画素を類似物の領域として判定しないようにする。特徴取得部２０７は、参照画像４０１に映る追尾対象４０３の第１特徴を得るために、テンプレート特徴５１２から、追尾対象４０３の中心位置を含む画素の特徴を切り出して、１ｘ１ｘＣの特徴５１３を得る。また、参照画像４０１に映る追尾対象４０３の第１特徴の取得方法はこれに限られない。テンプレート画像４０２に対してＳ６０６の処理を施し、探索範囲画像４０６と同じ特徴抽出ＮＮ３０２から特徴を抽出した後、追尾対象４０３の中心位置を含む画素の特徴を切り出して、１ｘ１ｘＣの特徴５１３を得ても良い。

Ｓ６１１で第二の誤差算出部２０８は、Ｓ６１０で取得した追尾対象４０７の第１特徴、第２特徴及び類似物の第３特徴が存在する特徴空間において、第二の誤差を算出する。追尾対象４０７の第１特徴と、追尾対象４０７の第２特徴又は類似物の第３特徴との特徴間の距離ｄは、例えば以下の数４のようなＬ１ノルムで計算される。

ここで、ｆ_１は追尾対象の第１特徴を表し、ｆ_２は追尾対象の第２特徴又は類似物の第３特徴を表す。第二の誤差は、例えば、トリプレットロス（ＴｒｉｐｌｅｔＬｏｓｓ）関数で得られる。ここで、ＤｅｅｐＭｅｔｒｉｃＬｅａｒｎｉｎｇ（深層距離学習）とは、データ間の関係性を考慮した特徴量空間を学習する手法のことをいう。深層距離学習では、２つの特徴量間の「距離」がデータの「類似度」を反映し、例えば、意味の近い入力画像同士の距離が近く、意味の遠い入力画像同士の距離が遠くになるような空間に、各画像を埋め込むような変換を行う。深層距離学習時の損失関数は、トリプレットロスの他に、例えば、ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ及びクラス分類誤差等を含む。第二の誤差算出部２０８は、数４に示すように、追尾対象の特徴５１０と追尾対象の特徴５１３との間の距離ｄ_１を計算する。ｄ_１の計算では、参照画像４０１内の追尾対象４０３の特徴５１３（第１特徴）と、探索画像４０５内の追尾対象４０７の特徴５１０（第２特徴）とが用いられる。また、第二の誤差算出部２０８は、数４に従って、追尾対象の特徴５１３（第１特徴）と類似物の特徴５１１（第３特徴）との間の距離ｄ_２を計算する。ここで、本実施形態のｄ_２の計算では、参照画像４０１内の追尾対象４０３の特徴５１３（第１特徴）と、探索画像４０５内の類似物の特徴５１１（第３特徴）とが用いられる。一方で、別の実施形態において、第二の誤差算出部２０８は、追尾対象の特徴５１０（第２特徴）と類似物の特徴５１１（第３特徴）との間の距離ｄ_２を算出してもよい。第二の誤差算出部２０８は、数５に示すように、特徴間距離ｄ_２に対する特徴間距離ｄ_１の相対的な大きさを誤差として算出する。

ここで、ｍはマージンを表す。数５では、特徴空間における追尾対象との距離がマージンよりも遠くにある物体については０になる。そのため、追尾対象との距離が近い紛らわしい物体を、追尾対象から遠ざけるようにＮＮ３０９の学習を進めることができる。ここで、第２の誤差の例としてＴｒｉｐｌｅｔＬｏｓｓ関数を説明したが、損失の計算はこれを用いることに限定されるものではない。また、特徴間距離の例としてＬ１ノルムを説明したが、コサイン距離などを用いてもよく、種類はこれらに限定されない。

Ｓ６１２でパラメータ更新部２０９は、第一の誤差Ｌｏｓｓ_ｉｎｆと第二の誤差Ｌｏｓｓ_ｆｅａｔの重みづけ和である損失Ｌｏｓｓを、以下の数６により求める。ここで、重みづけ係数λ_１、λ_２は０以上とする。

Ｓ６１３でパラメータ更新部２０９が、計算した損失に基づいて、誤差逆伝播法を用いて特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９のパラメータを更新する。ここで、パラメータとは、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及び追尾対象検出ＮＮ３１０を構成する畳み込み層の重み等をいう。なお、本実施形態でパラメータ更新部２０９は、第一の誤差Ｌｏｓｓ_ｉｎｆと第二の誤差Ｌｏｓｓ_ｆｅａｔとを含む損失に基づいて、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９のパラメータを更新する。一方、別の実施形態でパラメータ更新部２０９は、第一の誤差Ｌｏｓｓ_ｉｎｆと第二の誤差Ｌｏｓｓ_ｆｅａｔとを含む損失に基づいて、特徴抽出ＮＮ３０２及び特徴抽出ＮＮ３０５のパラメータを更新してもよい。この際、パラメータ更新部２０９は、ＮＮ３０９のパラメータを更新しないものとする。

Ｓ６１４でパラメータ記憶部２１０は、パラメータ更新部２０９が更新した特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９のパラメータを保存する。Ｓ６０１～Ｓ６１４までの処理は、１イテレーションの学習として定義する。

Ｓ６１５でパラメータ更新部２０９は、所定の終了条件に基づいて、ＮＮ３０９の学習を終了するか否かを判定する。学習の終了判定条件は、数６で得られた損失の値が所定の閾値未満である場合、及び、予め規定した回数の学習をＮＮ３０９が実行した場合のいずれかであってもよい。Ｓ６１５でパラメータ更新部２０９は、ＮＮ３０９の学習を終了すると判定した場合（Ｓ６１５でＹｅｓ）、処理を終了する。Ｓ６１５でパラメータ更新部２０９は、ＮＮ３０９の学習を終了しないと判定した場合（Ｓ６１５でＮｏ）、処理はＳ６０１に戻る。

パラメータ更新部２０９は、相関演算に用いる特徴について、特徴空間において追尾対象同士の特徴は近く、追尾対象の特徴に対して類似物の特徴が遠くに埋め込まれるよう、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９のパラメータを更新する。これにより、追尾対象と類似物の特徴が識別的になり、相関演算後に追尾対象を検出しやすくなる。また、パラメータ更新部２０９は、尤度マップ５０３において尤度が高い類似物を、相関演算に用いる特徴の距離学習に積極的に用いることで、追尾対象と類似物とを識別する学習を促進できる。

また、パラメータ更新部２０９は、Ｓ６１２の数６における損失の重みづけ係数λ_１、λ_２をともに正とする場合、第一の誤差と第二の誤差を同時にパラメータの更新に用いることができる。この場合、パラメータ更新部２０９は、相関演算に用いる追尾対象と類似物のそれぞれの特徴に係る距離学習と同時に、特徴抽出から追尾対象の検出までのエンドツーエンドなパラメータ最適化を行う。これにより、本実施形態は、追尾対象の検出を担うＮＮ３０９に対し探索画像内の背景領域から追尾対象の候補を検出する検出性能と、追尾対象と類似物とを識別する識別性能とを付与できる。また、特徴抽出ＮＮ３０２や特徴抽出ＮＮ３０５は、ＮＮ３０９にとって背景から追尾対象を検出しやすく、かつ追尾対象と類似物の識別しやすいような特徴が抽出できるようになる。

以上の通り、第１実施形態によれば、追尾対象の検出精度を向上させるために、探索画像から追尾対象検出ＮＮにより推定した追尾対象の位置の推定結果と、その正解データとの第１誤差を算出する。また、第１実施形態によれば、特徴空間における追尾対象同士の特徴間の距離の、追尾対象と類似物それぞれの特徴間の距離に対する相対的な大きさである第２誤差を算出する。また、第１実施形態は、第１誤差と第２誤差とに基づいて、特徴抽出ＮＮ３０２及び特徴抽出ＮＮ３０５のパラメータ更新を行う。これにより、第１実施形態は、追尾対象と類似物との特徴の類似度を下げることができ、探索画像内の追尾対象の検出精度を向上させることができる。

（第２実施形態）
第２実施形態では、特徴取得部２０７は、図６のＳ６１０において尤度マップ５０３内の類似物の領域の個数に応じて、尤度の閾値を変動させる。例えば、特徴取得部２０７が、尤度マップ５０３においてｋ個以上の類似物の領域を取得する場合に、尤度マップ５０３内の尤度の閾値を変動させる。Ｓ６０８で追尾結果算出部２０５が出力した尤度マップ５０３において、尤度が閾値以上である類似物の領域がｍ個あるとする。類似物の領域の個数がｋ＞ｍである場合、次のイテレーションで特徴取得部２０７が取得する類似物の領域の個数はｋ個よりも少なくなる。そこで、特徴取得部２０７は、次のイテレーションにおいて用いる尤度マップ５０３内の尤度の閾値をａ倍（０≦ａ＜１）する。これにより、特徴取得部２０７は、尤度マップ５０３内の類似物の領域の個数を増やすことができる。あるいは、特徴取得部２０７は、同一イテレーション内でｋ個以上の類似物の領域を取得できるよう、尤度マップ５０３内の尤度の閾値を下げることで、類似物の領域の取得をやり直してもよい。なお、尤度マップ５０３内の類似物の領域を増加させる方法は、これに限定されることはない。

特徴取得部２０７が、尤度マップ５０３において尤度が閾値以上である画素を類似物の領域として判定する場合、ＮＮ３０９の学習が進むにつれて、尤度マップ５０３内の類似物の領域の個数が減少する。すると、第二の誤差算出部２０８が第二の誤差を算出する際に用いる事例が減少するので、ＮＮ３０９に対する中間特徴の距離学習が進まなくなる。そこで、特徴取得部２０７は、類似物の領域判定に用いる尤度マップ５０３内の尤度の閾値を、ＮＮ３０９の学習の進行状況に応じて変動させる。

以上の通り、第２実施形態によれば、ＮＮ３０９の学習が進んだ段階において、類似物の領域の個数の減少を防止する。これにより、第２実施形態は、負事例と正事例の個数のバランスを保ちながら、追尾対象の第１特徴又は第２特徴と類似物の第３特徴を用いた距離学習をＮＮ３０９に行わせることができる。

（第３実施形態）
第３実施形態では、図６のＳ６０４において学習データ取得部２０２は、例えば、記憶部１０４等のデータベースから、追尾対象と同じカテゴリーの類似物が映る画像を取得する。第二の誤差算出部２０８は、上記の画像を用いて第二の誤差を算出する。まず、学習データ取得部２０２による類似物が映る画像の取得について説明する。予めデータベースに用意される各画像は、画像内に映る物体の位置及びサイズ（高さ、幅）の正解データ（ＧＴ）と、物体のカテゴリー（例えば、人物、動物、車両）の情報を有する。Ｓ６０４で学習データ取得部２０２は、追尾対象と同じカテゴリーの類似物の画像と、その画像内に存在する類似物の位置とサイズのＧＴの組を１組以上取得する。ここで、学習データ取得部２０２は、第１実施形態と同様に、Ｓ６０４で取得する追尾対象の探索範囲画像及び探索画像のＧＴを取得する。

次に、Ｓ６１０で特徴取得部２０７は、類似物が映る画像から、類似物の特徴を取得する。特徴取得部２０７は、図６のＳ６１０で説明したように、探索範囲画像からの追尾対象の第２特徴の取得と同様の手順で、類似物が映る画像から類似物の第３特徴を取得する。そして、Ｓ６１１で第二の誤差算出部２０８は、第二の誤差を算出する際に、上記で取得した類似物の第３特徴を用いる。Ｓ６１１で第二の誤差算出部２０８は、探索範囲画像に映る類似物の第３特徴と、類似物が映る画像から取得した類似物の第３特徴とを一緒に用いて、第二の誤差を算出しても良い。

以上の通り、第３実施形態によれば、類似物の第３特徴を、追尾対象の第２特徴を取得する探索画像とは異なる別の画像から取得することにより、中間特徴の距離学習に用いる負事例のバリエーションが増加する。これにより、新規の探索画像から追尾対象を識別するニューラルネットワーク（ＮＮ）の汎化性能が向上する。

（第４実施形態）
第４実施形態では、図６のＳ６１２においてパラメータ更新部２０９が、損失の重みづけ係数λ_１、λ_２を適応的に変動させる。パラメータ更新部２０９は、重みづけ係数λ_１、λ_２を勾配法によりニューラルネットワークのパラメータ（ＮＮ）とともに更新する。まず、損失Ｌｏｓｓは、数７のように定義される。

数７では、第１項と第２項において重みづけ係数λ_１、λ_２の２乗が用いられることにより、重みづけ係数が負になることを防ぐ。また、第３項と第４項は、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習時に、重みづけ係数λ_１、λ_２が０になることを防ぐ。これにより、次のステップでの損失の最小化が適切に行われる。損失の定義は、上記に限定されない。次に、Ｓ６１３でパラメータ更新部２０９は、数７で定義した損失に基づいて、重みづけ係数λ_１、λ_２も勾配法などにより、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９に学習させる。これにより、パラメータ更新部２０９は、特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習状況に応じて、第一の誤差Ｌｏｓｓ_Ｉｎｆと第二の誤差Ｌｏｓｓ_ｆｅａｔのそれぞれの重みづけ係数λ_１、λ_２を変動させる。ここで、パラメータ更新部２０９は、重みづけ係数λ_１、λ_２のいずれか一方の係数を固定して、係数を固定していない重みづけ係数λ_１、λ_２のいずれかを変動させても良い。

追尾対象を検出するために、探索範囲画像において、追尾対象と類似物との識別だけでなく、類似物以外の非追尾対象である背景と追尾対象との識別を行う必要がある。第二の誤差は、ＮＮによる追尾対象と類似物との識別に係る識別性能の向上を促進する。しかしながら、第一の誤差に対して第二の誤差の重みづけ係数が大きすぎる場合、ＮＮによる背景と追尾対象との識別に悪影響が生じる可能性がある。そこで、第４の実施形態によれば、第一の誤差と第二の誤差をバランスよくＮＮに学習させることで、追尾対象の検出性能と、追尾対象と類似物との識別性能を両立することができる。

（変形例）
パラメータ更新部２０９は、損失の大きさに応じて、学習の途中で第１の誤差によるパラメータ更新と、第２の誤差によるパラメータ更新とを切り替える。まず、パラメータ更新部２０９は、第１の誤差のみで特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習を行う。その後、パラメータ更新部２０９は、損失が下がらなくなったタイミングで、第２の誤差のみにより特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習に切り替える。パラメータ更新部２０９は、第１の誤差のみで特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習を行うために、図６のＳ６１２において損失中の重みづけ係数λ_２を０とする。また、パラメータ更新部２０９は、第２の誤差のみで特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習を行うために、図６のＳ６１２において損失中の重みづけ係数λ_１を０とする。また、パラメータ更新部２０９は、第２の誤差による特徴抽出ＮＮ３０２、特徴抽出ＮＮ３０５及びＮＮ３０９の学習で、損失が下がらなくなったタイミングで、第１の誤差によりこれらのＮＮの学習を行っても良い。

（第５実施形態）
第５実施形態では、上記の距離学習をオンライン追尾手法によるＮＮの学習に応用する例を説明する。ここで、オンライン追尾とは、ＮＮの推論時に、追尾対象と類似物とが映っている参照画像を用いて、学習済みの物体検出ＮＮをファインチューニングする追尾手法のことをいう。ファインチューニングとは、学習済みモデルの一部もしくは全ての層の重みを微調整する手法のことをいう。第５実施形態では、勾配法を用いて物体検出ＮＮを更新して追尾対象の情報を取り込むことで、新規の画像から追尾対象を検出できるようになる。オンライン追尾手法とＳｉａｍ手法との違いは２点ある。

オンライン追尾手法は、Ｓｉａｍ手法と比較して、参照画像から抽出した特徴の使用方法の観点で異なる。Ｓｉａｍ手法は、参照画像から抽出した追尾対象の領域の第１特徴だけをテンプレート特徴５１２として用いるが、オンライン追尾手法は参照画像内の追尾対象の第１特徴に加えて、類似物の領域の第３特徴も用いる。さらに、オンライン追尾手法は、追尾対象に対する追尾タスクにＮＮのパラメータを適合させる際に、テンプレート特徴５１２と探索画像の特徴との相関演算を行わずに、勾配法でＮＮの層の重みをファインチューニングする。

オンライン追尾手法は、推論時のファインチューニングによってＮＮの追尾性能を引き出すために、ＮＮの事前学習を行うことにより適切な層の重みをＮＮのパラメータとして設定する。オンライン追尾手法は、事前学習の際にＮＮによる中間特徴として追尾対象の第１特徴と類似物の第３特徴それぞれの特徴を用いた距離学習を行うことで、推論時にＮＮによる追尾対象と類似物との識別を容易化する。

第５実施形態は、第１実施形態と同様に、情報処理装置１０の構成、学習時の情報処理装置の機能構成を有するため、説明を省略する。図７は、オンライン追尾手法で用いるニューラルネットワークの構成の一例を示す図である。

特徴抽出ＮＮ７０２及び特徴抽出ＮＮ７０７は、図２の特徴抽出部２０３に対応する。パラメータ適合器７０４は、図２のパラメータ適合部２０４に対応する。追尾対象検出ＮＮ７０９は、追尾結果算出部２０５に対応する。各ＮＮは、畳み込み層及びＲｅＬＵ層等のように非線形変換を行う層を含むが、非線形変換を行う層の種類はこれらに限定されない。また、追尾対象検出ＮＮ７０９は、図７に示す尤度マップ７１０のみを推定するのではなく、追尾対象の幅・高さを推定してもよい（非特許文献２、３）。その際、パラメータ適合部２０４は、追尾対象の幅・高さを推定するためのＮＮのパラメータを、ＮＮに適合させるパラメータの対象として扱ってもよい。

図８は、第５実施形態に係る、ＮＮの事前学習の流れを示したフローチャートである。

Ｓ８０１で学習データ取得部２０２は、記憶部１０４から、参照画像４０１と参照画像４０１に映る追尾対象４０３と類似物の位置とサイズの正解データ４０４の組を取得する。ここで、学習データ取得部２０２は、参照画像４０１を１枚取得するが、参照画像４０１と同一の時系列で別時刻に撮像された複数の画像を取得してもよい。その際、学習データ取得部２０２は、同一の追尾対象４０３について、各画像から位置とサイズの正解データ４０４を取得する。また、学習データ取得部２０２は、データオーグメンテーション（データ拡張）により、同一の追尾対象４０３について複数の参照画像４０１と正解データ４０４の組を取得してもよい。

Ｓ８０２で学習データ取得部２０２は、参照画像４０１から追尾対象４０３と類似物を含む周辺の画像を切り出すことで、テンプレート画像４０２を取得する。

Ｓ８０３で特徴抽出部２０３は、テンプレート画像４０２を特徴抽出ＮＮ７０２に入力して、テンプレート特徴５１２を得る。ここで、テンプレート特徴５１２の幅・高さ・チャネル数は５ｘ５ｘＣとする。

Ｓ８０４で学習データ取得部２０２は、探索画像４０５と、探索画像４０５に映る追尾対象４０７の位置とサイズの正解データ４０８を取得する。

Ｓ８０５で学習データ取得部２０２は、探索画像４０５から、追尾対象４０７周辺の画像を切り出すことで、探索範囲画像４０６を取得する。

Ｓ８０６で特徴抽出部２０３は、探索範囲画像４０６を特徴抽出ＮＮ７０２に入力して、特徴マップ５０９を得る。ここで、特徴マップ５０９の幅・高さ・チャネル数はＷｘＨｘＣとする。学習データ取得部２０２は、探索画像４０５を１枚取得するが、同一の時系列で別時刻に撮像された複数の画像を取得してもよい。その場合、学習データ取得部２０２は、同一の追尾対象４０７について、各画像から位置とサイズの正解データ４０８を取得する。

Ｓ８０７でパラメータ適合部２０４は、追尾対象検出ＮＮ７０９を複製して、追尾対象検出ＮＮ７１１を生成する。パラメータ適合部２０４は、図９に示すような処理で追尾対象検出ＮＮ７１１のパラメータ更新を行い、更新後のパラメータの重みを追尾対象検出ＮＮ７０９のパラメータに代入する。ここで、図９は、オンライン追尾手法におけるパラメータ更新処理のフローチャートを示す。

Ｓ９０１でパラメータ適合器７０４は、学習データである特徴量とラベルの組を学習データ記憶部２０１から複数取得する。

Ｓ９０２でパラメータ適合器７０４は、特徴量を追尾対象検出ＮＮ７１１に入力し、尤度マップ７１０を得る。ここで、尤度マップ７１０は、図６のＳ６０８で算出される尤度マップと同じである（図５（ｃ）の尤度マップ５０３）。尤度マップ７１０の画素値は、０～１の実数値を取る。

Ｓ９０３でパラメータ適合器７０４は、尤度マップ７１０と追尾対象４０７の位置の正解を示すＧＴマップ５０６とを用いて、追尾対象４０７の位置の損失を計算する。パラメータ適合器７０４は、数８を用いて損失を計算するが、損失の計算式はこれに限定されない。パラメータ適合器７０４は、尤度マップ７１０をＣ_ｉｎｆ、追尾対象４０７の位置の正解を示すＧＴマップ５０６をＣ_ｇｔとし、Ｃ_ｉｎｆとＣ_ｇｔとの各画素の二乗誤差の和を算出する。ここで、Ｃ_ｇｔ（ＧＴマップ５０６）では、追尾対象４０７が存在する位置の画素値が１であり、追尾対象４０７が存在しない位置の画素値が０となることを示す。

Ｓ９０４でパラメータ適合器７０４は、損失に基づいて、確率的勾配降下法（ＳＧＤ）及びニュートン法等の勾配法を用いて、追尾対象検出ＮＮ７１１のパラメータを更新する。

Ｓ９０５でパラメータ適合器７０４は、追尾対象検出ＮＮ７１１のパラメータをパラメータ記憶部２１０に保存する。

Ｓ９０６でパラメータ更新部２０９は、追尾対象検出ＮＮ７１１の学習を終了するか否かを判定する。学習の終了判定条件は、数８で得られた損失値が所定の閾値未満である場合、又は、追尾対象検出ＮＮ７１１に対する規定回数の学習が完了した場合であってよい。

Ｓ９０６でパラメータ更新部２０９は、追尾対象検出ＮＮ７１１の学習を終了すると判定した場合（Ｓ９０６でＹｅｓ）、Ｓ９０７の処理に進む。Ｓ９０６でパラメータ更新部２０９は、追尾対象検出ＮＮ７１１の学習を終了しないと判定した場合（Ｓ９０６でＮｏ）、Ｓ９０２の処理に戻る。

Ｓ９０７でパラメータ更新部２０９は、追尾対象検出ＮＮ７１１に対する学習処理を終了する。

図８の説明に戻って、Ｓ９０７の処理が終了すると、Ｓ８０７における処理が終了する。パラメータ更新部２０９は、追尾対象検出ＮＮ７１１のパラメータをｋ回更新した後のパラメータをθ_ｋとし、このパラメータで追尾対象検出ＮＮ７１１を更新することでファインチューニングする。Ｓ９０７で、パラメータ更新部２０９は、追尾対象検出ＮＮ７１１のパラメータθ_ｋの値を追尾対象検出ＮＮ７０９のパラメータに代入し、Ｓ８０８以降の処理に用いる。このとき、追尾対象検出ＮＮ７０９の元のパラメータθ_０は、記憶部１０４に保存される。

Ｓ８０８で追尾結果算出部２０５は、探索画像４０５の特徴マップ５０９を、追尾対象検出ＮＮ７０９に入力することで、尤度マップ７１０を出力する。尤度マップ７１０は、図６のＳ６０８で算出した尤度マップ（図５（ｃ）の尤度マップ５０３）と同である。尤度マップ７１０の画素値、０～１の実数値を取る。尤度マップ７１０において追尾対象４０７（例えば、人物）が存在する位置の画素値が、そのマップ内の他の画素の値と比べて相対的に大きい場合、追尾対象検出ＮＮ７０９は追尾対象４０７を正しく追尾できる。

Ｓ８０９で第一の誤差算出部２０６は、追尾対象４０７の位置の正解データ４０８に対する推論結果の損失Ｌｏｓｓ_ｃを計算することで、第一の誤差Ｌｏｓｓ_ｉｎｆを得る。

Ｓ８１０～Ｓ８１５の処理は、図６のＳ６１０～Ｓ６１５と同様の処理であるので、説明を省略する。なお、Ｓ８１３でパラメータ更新部２０９は、Ｓ９０７でパラメータ更新する前の追尾対象検出ＮＮ７０９の元のパラメータθ_０について損失を最小化するようなθ_０を求める。

（オンライン追尾の推論）
図９～１０を用いて、ＮＮのオンライン追尾により時系列画像から追尾対象を検出する推論処理の流れを説明する。ここで、オンライン追尾に用いるＮＮは、前述のように、追尾対象４０７を追尾するように適合したパラメータの更新を行う事前学習を行っているものとする。図１０は、オンライン追尾手法における推論処理のフローチャートである。

Ｓ１００１で学習データ取得部２０２は、学習データ記憶部２０１から、追尾対象４０７が映る探索画像４０５を取得する。

Ｓ１００２で、入力部１０５は、探索画像４０５中の追尾対象の周辺領域を指定し、その領域を追尾対象４０７として設定する。追尾対象４０７の設定方法は、ユーザが表示部１０６に表示された探索画像４０５から追尾対象をタッチして指定する方法、又は、物体検出器（不図示）で物体を検出して追尾対象を指定する等の方法がある。そして、入力部１０５は、探索画像４０５内の追尾対象４０７の領域を囲むバウンディングボックスの位置とサイズを、追尾対象４０７のＧＴとして設定する。

Ｓ１００３で学習データ取得部２０２は、探索画像４０５から、追尾対象４０７周辺の画像を切り出すことで、探索範囲画像４０６を取得する。

Ｓ１００４で特徴抽出部２０３は、探索範囲画像４０６を特徴抽出ＮＮ７０２に入力することで、特徴マップ５０９を得る。ここで、特徴マップ５０９の幅・高さ・チャネル数はＷｘＨｘＣとする。

Ｓ１００５で、パラメータ適合部２０４は、追尾対象検出ＮＮ７０９を複製して、追尾対象検出ＮＮ７１１を生成する。パラメータ適合部２０４は、図９に示す処理を行い、追尾対象検出ＮＮ７１１のパラメータの更新を行い、更新後のパラメータの重みを追尾対象検出ＮＮ７０９のパラメータに代入する。

Ｓ１００６で学習データ取得部２０２は、追尾対象４０７を、撮像部（不図示）により撮像した画像を取得する。以降、追尾対象検出ＮＮ７０９は、Ｓ１００２で設定した追尾対象４０７を、取得した画像から探索する。

Ｓ１００７で学習データ取得部２０２は、画像から、追尾対象４０７の探索範囲となる画像を切り出すことで、探索範囲画像４０６を取得する。画像中の追尾対象４０７の探索範囲は、追尾を行った一つ前の画像から検出された追尾対象４０７の位置の周辺領域に基づいて、決定されてもよい。

Ｓ１００８で特徴抽出部２０３は、探索範囲画像４０６を特徴抽出ＮＮ７０２に入力することで、特徴マップ５０９を得る。ここで、特徴マップ５０９の幅・高さ・チャネル数はＷｘＨｘＣとする。特徴抽出部２０３は、特徴マップ５０９を記憶部１０４に保存する。

Ｓ１００９で追尾結果算出部２０５は、探索範囲画像４０６の特徴マップ５０９を、Ｓ１００５で更新されたパラメータを有する追尾対象検出ＮＮ７０９に入力することで、尤度マップ７１０を出力する。尤度マップ７１０は、図５（ｃ）の尤度マップ５０３に示すマップと同じであり、尤度マップ７１０の画素値は、０～１の実数値をとる。尤度マップ７１０では、追尾対象４０７（例えば、人物）が存在する位置の画素値が、追尾対象４０７が存在しない位置の画素の値と比べて相対的に大きい場合、追尾対象検出ＮＮ７０９は追尾対象４０７を正しく追尾できる。追尾対象４０７のサイズは、Ｓ１００２で得られた追尾対象４０７のサイズであってもよいし、追尾対象検出ＮＮ７０９によって推定されたサイズでもよい。また、追尾結果算出部２０５は、追尾結果を記憶部１０４に保存する。

Ｓ１０１０で、追尾結果算出部２０５は、追尾対象４０７の追尾を終了するか否かを判定する。追尾処理の終了条件は、ユーザが予め指定した条件であってもよい。追尾結果算出部２０５は、追尾処理を終了しないと判定した場合（Ｓ１０１０でＮｏ）、処理はＳ１０１１に戻って、追尾対象４０７に対する追尾を継続する。追尾結果算出部２０５は、追尾処理を終了すると判定した場合（Ｓ１０１０でＹｅｓ）、追尾対象４０７に対する追尾処理を終了する。

Ｓ１０１１で追尾結果算出部２０５は、追尾対象４０７の追尾結果に基づいて、追尾対象検出ＮＮ７０９のパラメータを更新する。パラメータ適合は、追尾対象検出ＮＮ７０９の事前学習時にＳ８０２で行ったパラメータ適合と同様（図９で図示）であるが、Ｓ１０１１の処理はＳ９０１の処理とは異なる。Ｓ１０１１で追尾結果算出部２０５は、予め与えられた追尾対象４０７の位置の正解データ（ＧＴ）を用いるのではなく、以前の探索範囲画像４０６からの追尾結果に基づいて、追尾対象４０７の位置のＧＴを生成してもよい。例えば、追尾結果算出部２０５は、Ｓ１００９で得られた追尾結果が示す追尾対象４０７の位置とサイズをＧＴとして取得してもよい。これにより、追尾結果算出部２０５は、刻々と変化する追尾対象４０７の見た目及び新規に出現した類似物の情報をパラメータに反映させることができる。

以上の通り、第５実施形態によれば、ＮＮの事前学習の際に中間特徴として追尾対象の第１特徴と類似物の第３特徴を用いた距離学習を行わせ、ＮＮのパラメータを追尾対象への追尾タスクにファインチューニングする。これにより、第５実施形態では、探索画像に新規に出現する類似物から、刻々と位置等が変化する追尾対象の識別を容易に行うことができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０：情報処理装置、１０１：ＣＰＵ、１０２：ＲＯＭ、１０３：ＲＡＭ、１０４：記憶部、１０５：入力部、１０６：表示部、１０７：通信部

Claims

追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得手段と、
画像の各位置の特徴を抽出する抽出手段と、
前記抽出手段が抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定手段と、
前記推定手段により推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第１誤差を算出する第１誤差算出手段と、
前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である第１特徴と、前記抽出手段が前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第２特徴と、前記抽出手段が少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第３特徴と、を取得する特徴取得手段と、
特徴空間における前記第１特徴と前記第２特徴との距離の、前記第１特徴又は前記第２特徴と前記第３特徴との距離に対する相対的な大きさを、第２誤差として算出する第２誤差算出手段と、
前記第１誤差と前記第２誤差とに基づいて、前記抽出手段が前記特徴の抽出に用いるパラメータを更新する更新手段と、
を備えることを特徴とする情報処理装置。
前記推定手段は、前記探索画像内の各位置について前記追尾対象が存在する尤度を推定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記特徴取得手段は、前記探索画像から抽出した、前記追尾対象が存在する尤度が閾値を超え、かつ、前記正解データが示す前記探索画像内の前記追尾対象の位置に該当しない位置における特徴を、前記追尾対象に類似する類似物の前記第３特徴として取得する、
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記更新手段が前記パラメータを繰り返し更新する間に、前記特徴取得手段は尤度の前記閾値を変動させる、
ことを特徴とする請求項３に記載の情報処理装置。
前記特徴取得手段は、予め用意された前記類似物が映る画像から前記抽出手段が抽出した前記第３特徴を取得する、
ことを特徴とする請求項１又は２のいずれか一項に記載の情報処理装置。
前記抽出手段は、ニューラルネットワークを用いて前記画像の各位置の特徴を抽出し、
前記推定手段は、ニューラルネットワークを用いて前記探索画像内で前記追尾対象が存在する位置を推定する、
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
前記更新手段は、前記第１誤差と前記第２誤差とに基づいて、前記推定手段が前記探索画像内で前記追尾対象が存在する位置の推定に用いるパラメータを更新する、
ことを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
第２誤差算出手段は、トリプレットロスを用いて、前記第２誤差を算出する、
ことを特徴とする請求項１から７のいずれか一項に記載の情報処理装置。
前記類似物は、前記追尾対象と同じ物体のカテゴリーに属する、
ことを特徴とする請求項１から８のいずれか一項に記載の情報処理装置。
前記更新手段は、前記第１誤差と前記第２誤差との双方に基づいて算出された損失に応じて前記パラメータを更新する、
ことを特徴とする請求項１から９のいずれか一項に記載の情報処理装置。
前記更新手段は、前記第１誤差と前記第２誤差のそれぞれの重み付けを変更しながら、前記第１誤差と前記第２誤差とを重み付けして合成することにより算出された損失に応じて前記パラメータを更新する、
ことを特徴とする請求項１から１０のいずれか一項に記載の情報処理装置。
前記推定手段は、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である前記第１特徴と、前記抽出手段が抽出した前記探索画像の各位置の特徴とに基づいて、前記探索画像内で前記追尾対象が存在する位置を推定する、
ことを特徴とする請求項１から１１のいずれか一項に記載の情報処理装置。
前記推定手段は、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である前記第１特徴と、前記抽出手段が抽出した前記探索画像の各位置の特徴と、の相互相関に基づいて、前記探索画像内で前記追尾対象が存在する位置を推定する、
ことを特徴とする請求項１２に記載の情報処理装置。
前記探索画像内の前記追尾対象の指定を受け付ける受付手段を更に備える、
ことを特徴とする請求項１から１３のいずれか一項に記載の情報処理装置。
前記推定手段は、前記抽出手段が抽出した前記探索画像の各位置の特徴に基づいて、前記探索画像内で前記追尾対象のサイズを更に推定する、
ことを特徴とする請求項１から１４のいずれか一項に記載の情報処理装置。
前記更新手段は、前記第１誤差と前記第２誤差との和が小さくなるように前記パラメータを更新することを特徴とする請求項１から請求項１５のいずれか一項に記載の情報処理装置。
前記第２誤差算出手段は、特徴空間における前記追尾対象の特徴と前記類似物の特徴との距離が前記追尾対象同士の特徴間の距離よりも大きくなるよう前記第２誤差を算出することを特徴とする請求項１から請求項１６のいずれか一項に記載の情報処理装置。
少なくとも一つのコンピュータによって実装され、
取得部が、追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得工程と、
特徴抽出部が、画像の各位置の特徴を抽出する抽出工程と、
推定部が、抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定工程と、
第１の誤差算出部が、推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第１誤差を算出する第１誤差算出工程と、
特徴取得部が、前記参照画像から抽出した前記追尾対象の特徴である第１特徴と、前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第２特徴と、少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第３特徴と、を取得する特徴取得工程と、
第２の誤差算出部が、特徴空間における前記第１特徴と前記第２特徴との距離の、前記第１特徴又は前記第２特徴と前記第３特徴との距離に対する相対的な大きさを、第２誤差として算出する第２誤差算出工程と、
更新部が、前記第１誤差と前記第２誤差とに基づいて、前記特徴の抽出に用いるパラメータを更新する更新工程と、
を備えることを特徴とする方法。
コンピュータを、請求項１から１７のいずれか一項に記載の情報処理装置の各手段として機能させるためのプログラム。