JP7820933B2 - 情報処理装置、方法及びプログラム - Google Patents

情報処理装置、方法及びプログラム

Info

Publication number
JP7820933B2
JP7820933B2 JP2021165650A JP2021165650A JP7820933B2 JP 7820933 B2 JP7820933 B2 JP 7820933B2 JP 2021165650 A JP2021165650 A JP 2021165650A JP 2021165650 A JP2021165650 A JP 2021165650A JP 7820933 B2 JP7820933 B2 JP 7820933B2
Authority
JP
Japan
Prior art keywords
feature
tracking target
error
image
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021165650A
Other languages
English (en)
Other versions
JP2023056349A (ja
Inventor
茜 井関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021165650A priority Critical patent/JP7820933B2/ja
Priority to US17/955,648 priority patent/US20230111393A1/en
Publication of JP2023056349A publication Critical patent/JP2023056349A/ja
Application granted granted Critical
Publication of JP7820933B2 publication Critical patent/JP7820933B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、方法及びプログラムに関する。
近年、画像内の特定の被写体を高精度に追尾するために、Deep Neural Network(以下、DNNと呼称)のメタ学習を利用した技術が注目されている。メタ学習とは、少ないデータ及びパラメータ更新で新しいタスクに適応できるようなモデルを得る学習手法である。メタ学習を追尾タスクに応用することで、高精度な被写体の追尾を行うDNNが実現される。
追尾タスクのメタ学習は、追尾対象が映っている参照画像からDNNが抽出する特徴を用いて、物体検出DNNのパラメータを追尾対象の検出タスクに適合させる。例えば、Siam手法は、参照画像と探索範囲画像からDNNがそれぞれ抽出する特徴同士の相関演算を行う(非特許文献1)。オンライン追尾手法は、物体検出DNNのパラメータを、参照画像を用いて勾配法でファインチューニングする(非特許文献2、3)。これにより、追尾対象の情報が物体検出DNNに取り込まれ、物体検出DNNは新規画像から追尾対象を検出できる。
追尾対象の検出に適合させた物体検出DNNを用いて、新規画像から追尾対象を検出した結果を評価することで、特徴抽出DNNと物体検出DNNを学習させる。これにより、参照画像を用いた物体検出DNNのパラメータ適合を行うだけで、新規画像から追尾対象を検出する性能を最大化するDNNが得られる。
High Performance Visual Tracking with Siamese Region Proposal Network, Li et al.,CVPR2018 Learning Discriminative Model Prediction for Tracking,Bhat et al.,ICCV2019 Tracking by Instance Detection: A Meta-Learning Approach,Wang et al.,CVPR2020
しかしながら、非特許文献1~3の方法では、追尾対象を検出する際に類似物を誤検出しやすいという課題がある。
本発明は、追尾対象の検出精度を向上させることを目的とする。
本発明の目的を達成するために、本発明の一実施形態に係る情報処理装置は、以下の構成を備える。すなわち、情報処理装置は、追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得手段と、画像の各位置の特徴を抽出する抽出手段と、前記抽出手段が抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定手段と、前記推定手段により推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第1誤差を算出する第1誤差算出手段と、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である第1特徴と、前記抽出手段が前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第2特徴と、前記抽出手段が少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第3特徴と、を取得する特徴取得手段と、特徴空間における前記第1特徴と前記第2特徴との距離の、前記第1特徴又は前記第2特徴と前記第3特徴との距離に対する相対的な大きさを、第2誤差として算出する第2誤差算出手段と、前記第1誤差と前記第2誤差とに基づいて、前記抽出手段が前記特徴の抽出に用いるパラメータを更新する更新手段と、を備える。
本発明によれば、追尾対象の検出精度を向上させることができる。
情報処理装置の構成を示す図。 情報処理装置の機能構成を示すブロック図。 ニューラルネットワークの構成を示す図。 参照画像と探索画像を示す図。 ニューラルネットワークに与える各種画像等の一例を示す図。 第1実施形態に係る、ニューラルネットワークの学習処理のフローチャート。 オンライン追尾手法で用いるニューラルネットワークの構成の一例を示す図。 第5実施形態に係る、NNの事前学習の流れを示したフローチャート。 オンライン追尾手法におけるパラメータ更新処理のフローチャート。 オンライン追尾手法における推論処理のフローチャート。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(第1実施形態)
第1実施形態は、参照画像と探索画像のそれぞれから抽出される追尾対象の特徴を相互相関し、探索画像内の追尾対象の位置の推定誤差(第1誤差)を求める。また、第1実施形態は、特徴抽出NNを用いて抽出した、追尾対象同士の特徴間の距離に対する、追尾対象と類似物それぞれの特徴間の距離に対する相対的な大きさ(第2誤差)を求める。第1実施形態では、第1誤差と第2誤差とに基づいて、特徴抽出NNのパラメータの更新を同時に行い、探索画像内の追尾対象の特徴を識別的にする。これにより、第1実施形態は、追尾対象と類似物それぞれの特徴間の類似度を下げることができ、探索画像内の追尾対象の検出精度を向上させることができる。なお、追尾対象と類似物は人物であるが、これに限定されず、例えば、動物、車両等であってもよい。
図1は、情報処理装置の構成を示す図である。情報処理装置10は、CPU101、ROM102、RAM103、記憶部104、入力部105、表示部106、通信部107を含む。情報処理装置10は、ニューラルネットワークの学習を行う装置であり、例えば、パソコン等を含む。
CPU101は、情報処理装置10の各部を制御する装置であり、ROM102及びRAM103に格納されたプログラム及びデータを実行することにより、各種処理を行う。
ROM102は、各種データや起動プログラム等を記憶する記憶装置である。
RAM103は、情報処理装置10の各部の各種データを一時記憶する。RAM103は、CPU101が各種の処理を実行する際に用いるワークエリアを有する。
記憶部104は、処理対象のデータ及び学習用データを保存する記憶媒体であり、例えば、HDD、フラッシュメモリ、各種光学メディア等を含む。
入力部105は、ユーザからの各種指示の入力を受け付ける受付手段であり、例えば、マウス、ジョイスティック、各種UIを含む。
表示部106は、画面に各種情報を表示する装置であり、例えば、液晶(LCD)画面、有機EL画面及びタッチパネル画面を含む。表示部106は、撮像装置(不図示)が撮像した撮像画像、各種の画面、サーバ(不図示)から受信したデータ等を表示する。表示部106がタッチパネル画面である場合、ユーザは表示部106の画面をタッチすることで、各種の指示をCPU101に入力する。
通信部107は、ネットワーク(不図示)に接続されているサーバ(不図示)との間のデータ通信を制御する装置である。通信部107は、各種端末装置との間でデータ通信を行う、例えば有線LAN、無線LAN等を含む。
図2は、情報処理装置の機能構成を示すブロック図である。情報処理装置10は、学習データ記憶部201、学習データ取得部202、特徴抽出部203、パラメータ適合部204、追尾結果算出部205を含む。情報処理装置10は、第一の誤差算出部206、特徴取得部207、第二の誤差算出部208、パラメータ更新部209、パラメータ記憶部210をさらに含む。
学習データ記憶部201は、後述の探索画像304と探索画像304内の追尾対象の位置及びサイズを示す正解データを記憶する。以下、正解データはGT(Ground Truth)ともいう。
学習データ取得部202は、学習データ記憶部201内の探索画像304と、探索画像304の正解データとを取得する。
特徴抽出部203は、探索画像304を、探索画像から追尾対象の特徴を抽出する後述の特徴抽出NN305に入力することで、1枚の探索画像につき1つの特徴マップ306を抽出する。特徴抽出部203は、後述の特徴抽出NN302と特徴抽出NN305を含み、両者のNNは同じものである。
パラメータ適合部204は、後述の追尾対象検出NN310内の相関演算層307のパラメータを更新する。具体的には、パラメータ適合部204は、特徴抽出部203の特徴抽出NN302により参照画像から抽出した、テンプレート特徴303内の追尾対象の周辺領域を切り出した第1特徴を生成する。パラメータ適合部204は、第1特徴を相関演算層307のパラメータに設定する。
追尾結果算出部205は、相関演算層307において、それのパラメータ及び特徴抽出部203が探索画像304から抽出した特徴マップ306との相関演算を行う。ここで、相関演算層307のパラメータとは、パラメータ適合部204によって得られたテンプレート特徴303から切り出した特徴のことである。探索画像304から抽出した特徴マップ306とは、特徴抽出NN305の最終層の出力のことである。追尾結果算出部205は、相関演算層307から得られた相関マップ308を、後述の追尾対象検出NN310内のNN309に入力する。追尾結果算出部205は、NN309が出力する、追尾対象の位置に強く反応する尤度マップ311と、サイズの推定マップ(幅マップ312、高さマップ313)とを用いて追尾対象の位置とサイズを推定する。追尾結果算出部205は、後述の追尾対象検出NN310を含む。また、NN309が推定するマップの種類はこれらに限定せず、例えば非特許文献1のように、あらかじめ追尾対象のサイズの候補を決めて置き、サイズを微調整する量をマップとして推定しても良い。
第一の誤差算出部206は、追尾結果算出部205が探索画像304から推定した追尾対象の位置とサイズの推定結果と、探索画像304内の追尾対象のGTとに基づいて、第一の誤差を計算する。
特徴取得部207は、特徴抽出NN305の最終層より得られる特徴マップ306から、追尾対象と類似物のそれぞれが存在する領域に対応する特徴を取得する。ここで、類似物の領域は、追尾結果算出部205が出力する尤度マップ311内の画素値が閾値よりも高い領域である。
第二の誤差算出部208は、特徴空間において、特徴取得部207が取得した追尾対象と類似物のそれぞれの特徴に基づいて、第二の誤差を算出する。第二の誤差の算出目的は、追尾対象と類似物のそれぞれの特徴間の類似度を下げることにより、NN309により追尾対象の識別を容易化するためである。第二の誤差算出部208は、特徴空間において追尾対象同士のそれぞれの特徴は近く、追尾対象の特徴に対して類似物の特徴が遠くに配置される特徴表現を第二の誤差として算出する。第二の誤差の算出方法は後述する。
パラメータ更新部209は、第一の誤差算出部206と第二の誤差算出部208のそれぞれが算出する第一の誤差と第二の誤差の双方の重みづけ和である損失に基づいて、特徴抽出NN302とNN309のパラメータを更新する。
パラメータ記憶部210は、パラメータ更新部209が更新した特徴抽出NN302とNN309のパラメータを記憶する。
図3は、ニューラルネットワークの構成を示す図である。図中のNNは、ニューラルネットワークの略である。特徴抽出NN302は参照画像301から第1特徴を、特徴抽出NN305は探索画像304から第2特徴及び第3特徴の抽出を行う。特徴抽出NN302と特徴抽出NN305は互いに、画像から特徴を抽出するための多層構造を有し、パラメータを一部またはすべて共有する。追尾対象検出NN310は、追尾対象の位置とサイズを推定するニューラルネットワークであり、相関演算層307とNN309とを含む。特徴抽出NN302、特徴抽出NN305及び追尾対象検出NN310は、畳み込み層(Convolution)を含む。上記のNNは、Rectified Linear Unit(以下、ReLU)等の非線形変換を行うが、非線形変換の種類はReLuに限定されない。
図4は、参照画像と探索画像を示す図である。図4(a)は、参照画像401の一例を示す。参照画像401は、学習データ取得部202によって取得された画像である。テンプレート画像402は、追尾対象403の領域周辺を切り出した画像である。学習データ取得部202は、追尾対象403の位置とサイズに基づいて、参照画像401内の追尾対象403の領域周辺の画像をテンプレートとして切り出して、その画像をリサイズすることでテンプレート画像402を得る。
学習データ取得部202は、追尾対象403の位置を中心として、そのサイズの定数倍で参照画像401からテンプレート画像402を切り出すことができる。追尾対象403は、参照画像401内の追尾対象となる物体であり、例えば、人物を含むが、動物及び車両等であってもよい。正解データ404は、追尾対象403の位置及びサイズの正解を表し、追尾対象403を囲むバウンディングボックスで示される。
図4(b)は、探索画像405の一例を示す。探索画像405は、追尾対象407を探索するための画像である。探索範囲画像406は、探索画像405から追尾対象407の探索範囲となる画像を切り出した画像である。学習データ取得部202が、追尾対象407の位置とサイズに基づいて、探索画像405内の追尾対象407の周辺の画像を切り出し、その画像をリサイズする。学習データ取得部202は、例えば、追尾対象407の位置を中心として、追尾対象407のサイズの定数倍で探索画像405から探索範囲画像406を切り出す。
学習データ取得部202は、追尾対象407の探索画像405と、その画像内に存在する追尾対象407の位置とサイズの正解データ408のセットを取得する。学習データ取得部202は、例えば、参照画像401と同じシーケンスの別時刻の画像を、追尾対象407の探索画像405として取得する。追尾対象407は、追尾対象となる物体を示し、例えば、人物を含むが、動物及び車両等であってもよい。正解データ408は、追尾対象407の位置及びサイズの正解を表し、追尾対象407を囲むバウンディングボックスで示される。
図5は、ニューラルネットワークに与える各種画像等の一例を示す図である。図5(a)は、入力画像501を示す図である。入力画像501は、追尾対象502、類似物514を含む。入力画像501は、探索範囲画像406と同じである。追尾対象502は、追尾対象となる物体であり、例えば、人物を含む。類似物514は、追尾対象ではなく、追尾対象に類似する物体であり、例えば、人物を含む。
図5(b)は、GTマップ506を示す図である。GTマップ506は、追尾対象507、類似物508を含む。GTマップ506は、追尾対象507と類似物508の位置とサイズの正解データを示す画像である。
図5(c)は、尤度マップ503を示す図である。尤度マップ503は、追尾結果算出部205が探索範囲画像406から推定した、追尾対象504と類似物505の位置の推定結果を示し、画素値0~1の実数値を取る画像である。尤度マップ503内の追尾対象504と類似物505とが存在する位置の画素値は、尤度マップ503内のその他の画素値と比べて相対的に大きく表示される。
サイズマップ(不図示)は、尤度マップ503と同じ大きさの2枚のマップである。2枚のマップのうち一つのマップは、追尾対象504と類似物505の幅を推定したマップであり、もう一つのマップは、両者の高さを推定したマップである。幅の推定マップ(不図示)では、追尾対象504又は類似物505の中心位置に対応する画素の値が、追尾対象504又は類似物505の幅の大きさとなればよい。高さの推定マップ(不図示)では、追尾対象504又は類似物505の中心位置に対応する画素値が、追尾対象504又は類似物505の高さに対応する。
図5(d)は、特徴マップ509を示す図である。特徴マップ509は、追尾対象の特徴510と類似物の特徴511を含む。特徴マップ509は、探索範囲画像406から抽出された追尾対象と類似物のそれぞれの特徴を表す画像である。特徴取得部207は、特徴マップ509から、追尾対象の中心位置を含む画素(図5(b)の追尾対象507)の特徴510を切り出す。特徴取得部207は、特徴マップ509の各画素に対して類似物の存在領域であるか否かを判定する。具体的には、特徴取得部207は、尤度マップ503において、尤度が閾値よりも高い画素を、類似物の存在領域であると判定する。そして、特徴取得部207は、特徴マップ509から、類似物の存在領域として特徴511を切り出す。ここで、特徴取得部207は、GTが示す追尾対象が存在する近傍の画素を、類似物の領域であると判定しないものとする。
図5(e)は、テンプレート特徴512を示す図である。テンプレート特徴512は、追尾対象の特徴513を含む。特徴取得部207は、テンプレート画像402から、追尾対象の中央の画素の特徴を切り出すことにより、1x1xCの特徴513を得る。
(処理のフロー)
図6は、第1実施形態に係る、ニューラルネットワークの学習処理のフローチャートである。以下、図1~図5を参照しつつ処理について説明する。
S601で学習データ取得部202は、記憶部104から、追尾対象403が映る参照画像401と、参照画像401内に存在する追尾対象403の中心位置とサイズ(幅、高さ)の正解データ404と、を取得する。
S602で学習データ取得部202は、追尾対象403の位置とサイズに基づいて、参照画像401内の追尾対象403の領域周辺の画像をテンプレートとして切り出し、その画像をリサイズすることでテンプレート画像402を得る。
S603で特徴抽出部203は、テンプレート画像402を特徴抽出NN302に入力し、追尾対象403の領域に対応するテンプレート特徴512を得る。ここで、テンプレート特徴512の幅・高さ・チャネル数は、5x5xC(Cは任意の正の定数)とするが、これに限られない。
S604で学習データ取得部202は、追尾対象407が映る探索画像405と、その画像内に存在する追尾対象407の位置とサイズの正解データ408の組を取得する。学習データ取得部202は、例えば、S602で取得した参照画像401と同じシーケンスの別時刻の画像を、追尾対象407の探索画像405として取得する。
S605で学習データ取得部202は、追尾対象407の位置とサイズに基づいて、探索画像405内の追尾対象407の周辺の画像を切り出し、その画像をリサイズする。学習データ取得部202は、例えば、追尾対象407の位置を中心として、追尾対象407のサイズの定数倍で探索画像405から切り出すことで、探索範囲画像406を得る。
S606で特徴抽出部203は、S605で取得した探索範囲画像406を特徴抽出NN305に入力し、探索範囲画像406の特徴マップ509を得る。ここで、特徴マップ509の幅・高さ・チャネル数は、WxHxCとする。なお、図6におけるS601~603の処理及びS604~S606の処理は並行して行われるが、いずれかの処理が先に行われてもよい。
S607でパラメータ適合部204は、テンプレート特徴512を相関演算層307のパラメータに設定する。これにより、パラメータ適合部204は、追尾対象検出NN310内の相関演算層307に追尾対象407を追尾するように適合させる。追尾結果算出部205は、相関演算層307に、特徴マップ509とテンプレート特徴512との相互相関を計算させる。
S608で追尾結果算出部205は、相関演算層307により得られた計算結果を追尾対象検出NN310内のNN309に入力し、尤度マップ503とサイズマップ(不図示)を出力する。追尾結果算出部205は、尤度マップ503とサイズマップ(不図示)とに基づいて、探索範囲画像406における追尾対象407の位置とサイズを推定する。
S609で第一の誤差算出部206は、追尾対象407の位置とサイズの推論結果(尤度マップ503とサイズマップ(不図示))と正解データ408とに基づいて、第一の誤差を計算する。第一の誤差の算出目的は、探索範囲画像406から追尾対象407を正しく検出できるようにNN309を学習させるためである。第一の誤差算出部206は、推論された追尾対象504の位置の正解データ408に対する損失Loss、及び、追尾対象504のサイズの正解データ408に対する損失Lossを計算する。
Lossは、以下の数1のように定義される。S608で取得した追尾対象504の位置の尤度マップ503をCinf、GTマップ506となるマップをCgtとする。第一の誤差算出部206は、マップCinfとマップCgtとの間で各画素の2乗誤差の和を算出する。Cgtは、追尾対象507が存在する位置の値が1、それが存在しない位置の値が0となるマップである。
Lossは、以下の数2のように定義される。第一の誤差算出部206は、追尾対象504の幅と高さの出力マップWinf、Hinfと、正解データ(GT)となるマップWgt、Hgtとの間で各画素の2乗誤差の和を算出する。
ここで、Wgt及びHgtでは、追尾対象507の存在位置に追尾対象の幅及び高さの値がそれぞれ埋め込まれている。第一の誤差算出部206は、数2により損失を計算することにより、Winf、Hinfにおいても、追尾対象507の存在位置に追尾対象の幅及び高さが推論されるようにNN309を学習させる。2つの損失(Loss、Loss)を合成すると、以下の数3が得られる。
損失は、Mean Squared Error(以下、MSE)で記述されたが、これに限定されることはなく、Smooth-L1等でもよい。また、追尾対象の位置に関する損失関数とサイズに関する損失関数は異なってもよい。
S610で特徴取得部207は、参照画像401から第1特徴と、探索範囲画像406から第2特徴と第3特徴、とを含む計3種類の特徴を取得する。3種類の特徴とは、参照画像401に映る追尾対象403の領域の第1特徴と探索範囲画像406に映る追尾対象407の領域の第2特徴と類似物の領域の第3特徴のことをいう。特徴取得部207は、特徴マップ509をそのまま用いるのではなく、3種類の特徴が全て同じ幅・高さ・チャネル数を持つようにする。これにより、特徴取得部207は、特徴空間において3つの特徴を用いて後述する距離d、dの計算を行うことができる。
ここで、3種類の特徴の幅・高さ・チャネル数が、1x1xCとなるようにした場合について説明するが、これに限らない。また、特徴マップ509は、特徴抽出NN305の中間層の出力であってもよいが、以下の説明では相関演算層307で用いる特徴と同じ層の出力とする。
まず、探索範囲画像406に映る追尾対象407の領域の特徴の取得方法について、図5を用いて説明する。特徴取得部207は、特徴マップ509から、追尾対象407の中心位置を含む特徴510を切り出す。
次に、探索範囲画像406に映る類似物の領域の特徴の取得方法について、図5を用いて説明する。特徴取得部207は、特徴マップ509の各画素に対して類似物領域であるか否かを判定する。特徴取得部207は、尤度マップ503において、尤度が閾値よりも高い画素を、類似物の特徴であると判定する。特徴取得部207は、上記の判定基準に基づいて、特徴マップ509から、類似物の領域として特徴511を切り出す。ここで、特徴取得部207は、GTマップ506が示す追尾対象507の近傍の画素を類似物の領域として判定しないようにする。特徴取得部207は、参照画像401に映る追尾対象403の第1特徴を得るために、テンプレート特徴512から、追尾対象403の中心位置を含む画素の特徴を切り出して、1x1xCの特徴513を得る。また、参照画像401に映る追尾対象403の第1特徴の取得方法はこれに限られない。テンプレート画像402に対してS606の処理を施し、探索範囲画像406と同じ特徴抽出NN302から特徴を抽出した後、追尾対象403の中心位置を含む画素の特徴を切り出して、1x1xCの特徴513を得ても良い。
S611で第二の誤差算出部208は、S610で取得した追尾対象407の第1特徴、第2特徴及び類似物の第3特徴が存在する特徴空間において、第二の誤差を算出する。追尾対象407の第1特徴と、追尾対象407の第2特徴又は類似物の第3特徴との特徴間の距離dは、例えば以下の数4のようなL1ノルムで計算される。
ここで、fは追尾対象の第1特徴を表し、fは追尾対象の第2特徴又は類似物の第3特徴を表す。第二の誤差は、例えば、トリプレットロス(Triplet Loss)関数で得られる。ここで、Deep Metric Learning(深層距離学習)とは、データ間の関係性を考慮した特徴量空間を学習する手法のことをいう。深層距離学習では、2つの特徴量間の「距離」がデータの「類似度」を反映し、例えば、意味の近い入力画像同士の距離が近く、意味の遠い入力画像同士の距離が遠くになるような空間に、各画像を埋め込むような変換を行う。深層距離学習時の損失関数は、トリプレットロスの他に、例えば、contrastive loss及びクラス分類誤差等を含む。第二の誤差算出部208は、数4に示すように、追尾対象の特徴510と追尾対象の特徴513との間の距離dを計算する。dの計算では、参照画像401内の追尾対象403の特徴513(第1特徴)と、探索画像405内の追尾対象407の特徴510(第2特徴)とが用いられる。また、第二の誤差算出部208は、数4に従って、追尾対象の特徴513(第1特徴)と類似物の特徴511(第3特徴)との間の距離dを計算する。ここで、本実施形態のdの計算では、参照画像401内の追尾対象403の特徴513(第1特徴)と、探索画像405内の類似物の特徴511(第3特徴)とが用いられる。一方で、別の実施形態において、第二の誤差算出部208は、追尾対象の特徴510(第2特徴)と類似物の特徴511(第3特徴)との間の距離dを算出してもよい。第二の誤差算出部208は、数5に示すように、特徴間距離dに対する特徴間距離dの相対的な大きさを誤差として算出する。
ここで、mはマージンを表す。数5では、特徴空間における追尾対象との距離がマージンよりも遠くにある物体については0になる。そのため、追尾対象との距離が近い紛らわしい物体を、追尾対象から遠ざけるようにNN309の学習を進めることができる。ここで、第2の誤差の例としてTriplet Loss関数を説明したが、損失の計算はこれを用いることに限定されるものではない。また、特徴間距離の例としてL1ノルムを説明したが、コサイン距離などを用いてもよく、種類はこれらに限定されない。
S612でパラメータ更新部209は、第一の誤差Lossinfと第二の誤差Lossfeatの重みづけ和である損失Lossを、以下の数6により求める。ここで、重みづけ係数λ、λは0以上とする。
S613でパラメータ更新部209が、計算した損失に基づいて、誤差逆伝播法を用いて特徴抽出NN302、特徴抽出NN305及びNN309のパラメータを更新する。ここで、パラメータとは、特徴抽出NN302、特徴抽出NN305及び追尾対象検出NN310を構成する畳み込み層の重み等をいう。なお、本実施形態でパラメータ更新部209は、第一の誤差Lossinfと第二の誤差Lossfeatとを含む損失に基づいて、特徴抽出NN302、特徴抽出NN305及びNN309のパラメータを更新する。一方、別の実施形態でパラメータ更新部209は、第一の誤差Lossinfと第二の誤差Lossfeatとを含む損失に基づいて、特徴抽出NN302及び特徴抽出NN305のパラメータを更新してもよい。この際、パラメータ更新部209は、NN309のパラメータを更新しないものとする。
S614でパラメータ記憶部210は、パラメータ更新部209が更新した特徴抽出NN302、特徴抽出NN305及びNN309のパラメータを保存する。S601~S614までの処理は、1イテレーションの学習として定義する。
S615でパラメータ更新部209は、所定の終了条件に基づいて、NN309の学習を終了するか否かを判定する。学習の終了判定条件は、数6で得られた損失の値が所定の閾値未満である場合、及び、予め規定した回数の学習をNN309が実行した場合のいずれかであってもよい。S615でパラメータ更新部209は、NN309の学習を終了すると判定した場合(S615でYes)、処理を終了する。S615でパラメータ更新部209は、NN309の学習を終了しないと判定した場合(S615でNo)、処理はS601に戻る。
パラメータ更新部209は、相関演算に用いる特徴について、特徴空間において追尾対象同士の特徴は近く、追尾対象の特徴に対して類似物の特徴が遠くに埋め込まれるよう、特徴抽出NN302、特徴抽出NN305及びNN309のパラメータを更新する。これにより、追尾対象と類似物の特徴が識別的になり、相関演算後に追尾対象を検出しやすくなる。また、パラメータ更新部209は、尤度マップ503において尤度が高い類似物を、相関演算に用いる特徴の距離学習に積極的に用いることで、追尾対象と類似物とを識別する学習を促進できる。
また、パラメータ更新部209は、S612の数6における損失の重みづけ係数λ、λをともに正とする場合、第一の誤差と第二の誤差を同時にパラメータの更新に用いることができる。この場合、パラメータ更新部209は、相関演算に用いる追尾対象と類似物のそれぞれの特徴に係る距離学習と同時に、特徴抽出から追尾対象の検出までのエンドツーエンドなパラメータ最適化を行う。これにより、本実施形態は、追尾対象の検出を担うNN309に対し探索画像内の背景領域から追尾対象の候補を検出する検出性能と、追尾対象と類似物とを識別する識別性能とを付与できる。また、特徴抽出NN302や特徴抽出NN305は、NN309にとって背景から追尾対象を検出しやすく、かつ追尾対象と類似物の識別しやすいような特徴が抽出できるようになる。
以上の通り、第1実施形態によれば、追尾対象の検出精度を向上させるために、探索画像から追尾対象検出NNにより推定した追尾対象の位置の推定結果と、その正解データとの第1誤差を算出する。また、第1実施形態によれば、特徴空間における追尾対象同士の特徴間の距離の、追尾対象と類似物それぞれの特徴間の距離に対する相対的な大きさである第2誤差を算出する。また、第1実施形態は、第1誤差と第2誤差とに基づいて、特徴抽出NN302及び特徴抽出NN305のパラメータ更新を行う。これにより、第1実施形態は、追尾対象と類似物との特徴の類似度を下げることができ、探索画像内の追尾対象の検出精度を向上させることができる。
(第2実施形態)
第2実施形態では、特徴取得部207は、図6のS610において尤度マップ503内の類似物の領域の個数に応じて、尤度の閾値を変動させる。例えば、特徴取得部207が、尤度マップ503においてk個以上の類似物の領域を取得する場合に、尤度マップ503内の尤度の閾値を変動させる。S608で追尾結果算出部205が出力した尤度マップ503において、尤度が閾値以上である類似物の領域がm個あるとする。類似物の領域の個数がk>mである場合、次のイテレーションで特徴取得部207が取得する類似物の領域の個数はk個よりも少なくなる。そこで、特徴取得部207は、次のイテレーションにおいて用いる尤度マップ503内の尤度の閾値をa倍(0≦a<1)する。これにより、特徴取得部207は、尤度マップ503内の類似物の領域の個数を増やすことができる。あるいは、特徴取得部207は、同一イテレーション内でk個以上の類似物の領域を取得できるよう、尤度マップ503内の尤度の閾値を下げることで、類似物の領域の取得をやり直してもよい。なお、尤度マップ503内の類似物の領域を増加させる方法は、これに限定されることはない。
特徴取得部207が、尤度マップ503において尤度が閾値以上である画素を類似物の領域として判定する場合、NN309の学習が進むにつれて、尤度マップ503内の類似物の領域の個数が減少する。すると、第二の誤差算出部208が第二の誤差を算出する際に用いる事例が減少するので、NN309に対する中間特徴の距離学習が進まなくなる。そこで、特徴取得部207は、類似物の領域判定に用いる尤度マップ503内の尤度の閾値を、NN309の学習の進行状況に応じて変動させる。
以上の通り、第2実施形態によれば、NN309の学習が進んだ段階において、類似物の領域の個数の減少を防止する。これにより、第2実施形態は、負事例と正事例の個数のバランスを保ちながら、追尾対象の第1特徴又は第2特徴と類似物の第3特徴を用いた距離学習をNN309に行わせることができる。
(第3実施形態)
第3実施形態では、図6のS604において学習データ取得部202は、例えば、記憶部104等のデータベースから、追尾対象と同じカテゴリーの類似物が映る画像を取得する。第二の誤差算出部208は、上記の画像を用いて第二の誤差を算出する。まず、学習データ取得部202による類似物が映る画像の取得について説明する。予めデータベースに用意される各画像は、画像内に映る物体の位置及びサイズ(高さ、幅)の正解データ(GT)と、物体のカテゴリー(例えば、人物、動物、車両)の情報を有する。S604で学習データ取得部202は、追尾対象と同じカテゴリーの類似物の画像と、その画像内に存在する類似物の位置とサイズのGTの組を1組以上取得する。ここで、学習データ取得部202は、第1実施形態と同様に、S604で取得する追尾対象の探索範囲画像及び探索画像のGTを取得する。
次に、S610で特徴取得部207は、類似物が映る画像から、類似物の特徴を取得する。特徴取得部207は、図6のS610で説明したように、探索範囲画像からの追尾対象の第2特徴の取得と同様の手順で、類似物が映る画像から類似物の第3特徴を取得する。そして、S611で第二の誤差算出部208は、第二の誤差を算出する際に、上記で取得した類似物の第3特徴を用いる。S611で第二の誤差算出部208は、探索範囲画像に映る類似物の第3特徴と、類似物が映る画像から取得した類似物の第3特徴とを一緒に用いて、第二の誤差を算出しても良い。
以上の通り、第3実施形態によれば、類似物の第3特徴を、追尾対象の第2特徴を取得する探索画像とは異なる別の画像から取得することにより、中間特徴の距離学習に用いる負事例のバリエーションが増加する。これにより、新規の探索画像から追尾対象を識別するニューラルネットワーク(NN)の汎化性能が向上する。
(第4実施形態)
第4実施形態では、図6のS612においてパラメータ更新部209が、損失の重みづけ係数λ、λを適応的に変動させる。パラメータ更新部209は、重みづけ係数λ、λを勾配法によりニューラルネットワークのパラメータ(NN)とともに更新する。まず、損失Lossは、数7のように定義される。
数7では、第1項と第2項において重みづけ係数λ、λの2乗が用いられることにより、重みづけ係数が負になることを防ぐ。また、第3項と第4項は、特徴抽出NN302、特徴抽出NN305及びNN309の学習時に、重みづけ係数λ、λが0になることを防ぐ。これにより、次のステップでの損失の最小化が適切に行われる。損失の定義は、上記に限定されない。次に、S613でパラメータ更新部209は、数7で定義した損失に基づいて、重みづけ係数λ、λも勾配法などにより、特徴抽出NN302、特徴抽出NN305及びNN309に学習させる。これにより、パラメータ更新部209は、特徴抽出NN302、特徴抽出NN305及びNN309の学習状況に応じて、第一の誤差LossInfと第二の誤差Lossfeatのそれぞれの重みづけ係数λ、λを変動させる。ここで、パラメータ更新部209は、重みづけ係数λ、λのいずれか一方の係数を固定して、係数を固定していない重みづけ係数λ、λのいずれかを変動させても良い。
追尾対象を検出するために、探索範囲画像において、追尾対象と類似物との識別だけでなく、類似物以外の非追尾対象である背景と追尾対象との識別を行う必要がある。第二の誤差は、NNによる追尾対象と類似物との識別に係る識別性能の向上を促進する。しかしながら、第一の誤差に対して第二の誤差の重みづけ係数が大きすぎる場合、NNによる背景と追尾対象との識別に悪影響が生じる可能性がある。そこで、第4の実施形態によれば、第一の誤差と第二の誤差をバランスよくNNに学習させることで、追尾対象の検出性能と、追尾対象と類似物との識別性能を両立することができる。
(変形例)
パラメータ更新部209は、損失の大きさに応じて、学習の途中で第1の誤差によるパラメータ更新と、第2の誤差によるパラメータ更新とを切り替える。まず、パラメータ更新部209は、第1の誤差のみで特徴抽出NN302、特徴抽出NN305及びNN309の学習を行う。その後、パラメータ更新部209は、損失が下がらなくなったタイミングで、第2の誤差のみにより特徴抽出NN302、特徴抽出NN305及びNN309の学習に切り替える。パラメータ更新部209は、第1の誤差のみで特徴抽出NN302、特徴抽出NN305及びNN309の学習を行うために、図6のS612において損失中の重みづけ係数λを0とする。また、パラメータ更新部209は、第2の誤差のみで特徴抽出NN302、特徴抽出NN305及びNN309の学習を行うために、図6のS612において損失中の重みづけ係数λを0とする。また、パラメータ更新部209は、第2の誤差による特徴抽出NN302、特徴抽出NN305及びNN309の学習で、損失が下がらなくなったタイミングで、第1の誤差によりこれらのNNの学習を行っても良い。
(第5実施形態)
第5実施形態では、上記の距離学習をオンライン追尾手法によるNNの学習に応用する例を説明する。ここで、オンライン追尾とは、NNの推論時に、追尾対象と類似物とが映っている参照画像を用いて、学習済みの物体検出NNをファインチューニングする追尾手法のことをいう。ファインチューニングとは、学習済みモデルの一部もしくは全ての層の重みを微調整する手法のことをいう。第5実施形態では、勾配法を用いて物体検出NNを更新して追尾対象の情報を取り込むことで、新規の画像から追尾対象を検出できるようになる。オンライン追尾手法とSiam手法との違いは2点ある。
オンライン追尾手法は、Siam手法と比較して、参照画像から抽出した特徴の使用方法の観点で異なる。Siam手法は、参照画像から抽出した追尾対象の領域の第1特徴だけをテンプレート特徴512として用いるが、オンライン追尾手法は参照画像内の追尾対象の第1特徴に加えて、類似物の領域の第3特徴も用いる。さらに、オンライン追尾手法は、追尾対象に対する追尾タスクにNNのパラメータを適合させる際に、テンプレート特徴512と探索画像の特徴との相関演算を行わずに、勾配法でNNの層の重みをファインチューニングする。
オンライン追尾手法は、推論時のファインチューニングによってNNの追尾性能を引き出すために、NNの事前学習を行うことにより適切な層の重みをNNのパラメータとして設定する。オンライン追尾手法は、事前学習の際にNNによる中間特徴として追尾対象の第1特徴と類似物の第3特徴それぞれの特徴を用いた距離学習を行うことで、推論時にNNによる追尾対象と類似物との識別を容易化する。
第5実施形態は、第1実施形態と同様に、情報処理装置10の構成、学習時の情報処理装置の機能構成を有するため、説明を省略する。図7は、オンライン追尾手法で用いるニューラルネットワークの構成の一例を示す図である。
特徴抽出NN702及び特徴抽出NN707は、図2の特徴抽出部203に対応する。パラメータ適合器704は、図2のパラメータ適合部204に対応する。追尾対象検出NN709は、追尾結果算出部205に対応する。各NNは、畳み込み層及びReLU層等のように非線形変換を行う層を含むが、非線形変換を行う層の種類はこれらに限定されない。また、追尾対象検出NN709は、図7に示す尤度マップ710のみを推定するのではなく、追尾対象の幅・高さを推定してもよい(非特許文献2、3)。その際、パラメータ適合部204は、追尾対象の幅・高さを推定するためのNNのパラメータを、NNに適合させるパラメータの対象として扱ってもよい。
図8は、第5実施形態に係る、NNの事前学習の流れを示したフローチャートである。
S801で学習データ取得部202は、記憶部104から、参照画像401と参照画像401に映る追尾対象403と類似物の位置とサイズの正解データ404の組を取得する。ここで、学習データ取得部202は、参照画像401を1枚取得するが、参照画像401と同一の時系列で別時刻に撮像された複数の画像を取得してもよい。その際、学習データ取得部202は、同一の追尾対象403について、各画像から位置とサイズの正解データ404を取得する。また、学習データ取得部202は、データオーグメンテーション(データ拡張)により、同一の追尾対象403について複数の参照画像401と正解データ404の組を取得してもよい。
S802で学習データ取得部202は、参照画像401から追尾対象403と類似物を含む周辺の画像を切り出すことで、テンプレート画像402を取得する。
S803で特徴抽出部203は、テンプレート画像402を特徴抽出NN702に入力して、テンプレート特徴512を得る。ここで、テンプレート特徴512の幅・高さ・チャネル数は5x5xCとする。
S804で学習データ取得部202は、探索画像405と、探索画像405に映る追尾対象407の位置とサイズの正解データ408を取得する。
S805で学習データ取得部202は、探索画像405から、追尾対象407周辺の画像を切り出すことで、探索範囲画像406を取得する。
S806で特徴抽出部203は、探索範囲画像406を特徴抽出NN702に入力して、特徴マップ509を得る。ここで、特徴マップ509の幅・高さ・チャネル数はWxHxCとする。学習データ取得部202は、探索画像405を1枚取得するが、同一の時系列で別時刻に撮像された複数の画像を取得してもよい。その場合、学習データ取得部202は、同一の追尾対象407について、各画像から位置とサイズの正解データ408を取得する。
S807でパラメータ適合部204は、追尾対象検出NN709を複製して、追尾対象検出NN711を生成する。パラメータ適合部204は、図9に示すような処理で追尾対象検出NN711のパラメータ更新を行い、更新後のパラメータの重みを追尾対象検出NN709のパラメータに代入する。ここで、図9は、オンライン追尾手法におけるパラメータ更新処理のフローチャートを示す。
S901でパラメータ適合器704は、学習データである特徴量とラベルの組を学習データ記憶部201から複数取得する。
S902でパラメータ適合器704は、特徴量を追尾対象検出NN711に入力し、尤度マップ710を得る。ここで、尤度マップ710は、図6のS608で算出される尤度マップと同じである(図5(c)の尤度マップ503)。尤度マップ710の画素値は、0~1の実数値を取る。
S903でパラメータ適合器704は、尤度マップ710と追尾対象407の位置の正解を示すGTマップ506とを用いて、追尾対象407の位置の損失を計算する。パラメータ適合器704は、数8を用いて損失を計算するが、損失の計算式はこれに限定されない。パラメータ適合器704は、尤度マップ710をCinf、追尾対象407の位置の正解を示すGTマップ506をCgtとし、CinfとCgtとの各画素の二乗誤差の和を算出する。ここで、Cgt(GTマップ506)では、追尾対象407が存在する位置の画素値が1であり、追尾対象407が存在しない位置の画素値が0となることを示す。
S904でパラメータ適合器704は、損失に基づいて、確率的勾配降下法(SGD)及びニュートン法等の勾配法を用いて、追尾対象検出NN711のパラメータを更新する。
S905でパラメータ適合器704は、追尾対象検出NN711のパラメータをパラメータ記憶部210に保存する。
S906でパラメータ更新部209は、追尾対象検出NN711の学習を終了するか否かを判定する。学習の終了判定条件は、数8で得られた損失値が所定の閾値未満である場合、又は、追尾対象検出NN711に対する規定回数の学習が完了した場合であってよい。
S906でパラメータ更新部209は、追尾対象検出NN711の学習を終了すると判定した場合(S906でYes)、S907の処理に進む。S906でパラメータ更新部209は、追尾対象検出NN711の学習を終了しないと判定した場合(S906でNo)、S902の処理に戻る。
S907でパラメータ更新部209は、追尾対象検出NN711に対する学習処理を終了する。
図8の説明に戻って、S907の処理が終了すると、S807における処理が終了する。パラメータ更新部209は、追尾対象検出NN711のパラメータをk回更新した後のパラメータをθとし、このパラメータで追尾対象検出NN711を更新することでファインチューニングする。S907で、パラメータ更新部209は、追尾対象検出NN711のパラメータθの値を追尾対象検出NN709のパラメータに代入し、S808以降の処理に用いる。このとき、追尾対象検出NN709の元のパラメータθは、記憶部104に保存される。
S808で追尾結果算出部205は、探索画像405の特徴マップ509を、追尾対象検出NN709に入力することで、尤度マップ710を出力する。尤度マップ710は、図6のS608で算出した尤度マップ(図5(c)の尤度マップ503)と同である。尤度マップ710の画素値、0~1の実数値を取る。尤度マップ710において追尾対象407(例えば、人物)が存在する位置の画素値が、そのマップ内の他の画素の値と比べて相対的に大きい場合、追尾対象検出NN709は追尾対象407を正しく追尾できる。
S809で第一の誤差算出部206は、追尾対象407の位置の正解データ408に対する推論結果の損失Lossを計算することで、第一の誤差Lossinfを得る。
S810~S815の処理は、図6のS610~S615と同様の処理であるので、説明を省略する。なお、S813でパラメータ更新部209は、S907でパラメータ更新する前の追尾対象検出NN709の元のパラメータθについて損失を最小化するようなθを求める。
(オンライン追尾の推論)
図9~10を用いて、NNのオンライン追尾により時系列画像から追尾対象を検出する推論処理の流れを説明する。ここで、オンライン追尾に用いるNNは、前述のように、追尾対象407を追尾するように適合したパラメータの更新を行う事前学習を行っているものとする。図10は、オンライン追尾手法における推論処理のフローチャートである。
S1001で学習データ取得部202は、学習データ記憶部201から、追尾対象407が映る探索画像405を取得する。
S1002で、入力部105は、探索画像405中の追尾対象の周辺領域を指定し、その領域を追尾対象407として設定する。追尾対象407の設定方法は、ユーザが表示部106に表示された探索画像405から追尾対象をタッチして指定する方法、又は、物体検出器(不図示)で物体を検出して追尾対象を指定する等の方法がある。そして、入力部105は、探索画像405内の追尾対象407の領域を囲むバウンディングボックスの位置とサイズを、追尾対象407のGTとして設定する。
S1003で学習データ取得部202は、探索画像405から、追尾対象407周辺の画像を切り出すことで、探索範囲画像406を取得する。
S1004で特徴抽出部203は、探索範囲画像406を特徴抽出NN702に入力することで、特徴マップ509を得る。ここで、特徴マップ509の幅・高さ・チャネル数はWxHxCとする。
S1005で、パラメータ適合部204は、追尾対象検出NN709を複製して、追尾対象検出NN711を生成する。パラメータ適合部204は、図9に示す処理を行い、追尾対象検出NN711のパラメータの更新を行い、更新後のパラメータの重みを追尾対象検出NN709のパラメータに代入する。
S1006で学習データ取得部202は、追尾対象407を、撮像部(不図示)により撮像した画像を取得する。以降、追尾対象検出NN709は、S1002で設定した追尾対象407を、取得した画像から探索する。
S1007で学習データ取得部202は、画像から、追尾対象407の探索範囲となる画像を切り出すことで、探索範囲画像406を取得する。画像中の追尾対象407の探索範囲は、追尾を行った一つ前の画像から検出された追尾対象407の位置の周辺領域に基づいて、決定されてもよい。
S1008で特徴抽出部203は、探索範囲画像406を特徴抽出NN702に入力することで、特徴マップ509を得る。ここで、特徴マップ509の幅・高さ・チャネル数はWxHxCとする。特徴抽出部203は、特徴マップ509を記憶部104に保存する。
S1009で追尾結果算出部205は、探索範囲画像406の特徴マップ509を、S1005で更新されたパラメータを有する追尾対象検出NN709に入力することで、尤度マップ710を出力する。尤度マップ710は、図5(c)の尤度マップ503に示すマップと同じであり、尤度マップ710の画素値は、0~1の実数値をとる。尤度マップ710では、追尾対象407(例えば、人物)が存在する位置の画素値が、追尾対象407が存在しない位置の画素の値と比べて相対的に大きい場合、追尾対象検出NN709は追尾対象407を正しく追尾できる。追尾対象407のサイズは、S1002で得られた追尾対象407のサイズであってもよいし、追尾対象検出NN709によって推定されたサイズでもよい。また、追尾結果算出部205は、追尾結果を記憶部104に保存する。
S1010で、追尾結果算出部205は、追尾対象407の追尾を終了するか否かを判定する。追尾処理の終了条件は、ユーザが予め指定した条件であってもよい。追尾結果算出部205は、追尾処理を終了しないと判定した場合(S1010でNo)、処理はS1011に戻って、追尾対象407に対する追尾を継続する。追尾結果算出部205は、追尾処理を終了すると判定した場合(S1010でYes)、追尾対象407に対する追尾処理を終了する。
S1011で追尾結果算出部205は、追尾対象407の追尾結果に基づいて、追尾対象検出NN709のパラメータを更新する。パラメータ適合は、追尾対象検出NN709の事前学習時にS802で行ったパラメータ適合と同様(図9で図示)であるが、S1011の処理はS901の処理とは異なる。S1011で追尾結果算出部205は、予め与えられた追尾対象407の位置の正解データ(GT)を用いるのではなく、以前の探索範囲画像406からの追尾結果に基づいて、追尾対象407の位置のGTを生成してもよい。例えば、追尾結果算出部205は、S1009で得られた追尾結果が示す追尾対象407の位置とサイズをGTとして取得してもよい。これにより、追尾結果算出部205は、刻々と変化する追尾対象407の見た目及び新規に出現した類似物の情報をパラメータに反映させることができる。
以上の通り、第5実施形態によれば、NNの事前学習の際に中間特徴として追尾対象の第1特徴と類似物の第3特徴を用いた距離学習を行わせ、NNのパラメータを追尾対象への追尾タスクにファインチューニングする。これにより、第5実施形態では、探索画像に新規に出現する類似物から、刻々と位置等が変化する追尾対象の識別を容易に行うことができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
10:情報処理装置、101:CPU、102:ROM、103:RAM、104:記憶部、105:入力部、106:表示部、107:通信部

Claims (19)

  1. 追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得手段と、
    画像の各位置の特徴を抽出する抽出手段と、
    前記抽出手段が抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定手段と、
    前記推定手段により推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第1誤差を算出する第1誤差算出手段と、
    前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である第1特徴と、前記抽出手段が前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第2特徴と、前記抽出手段が少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第3特徴と、を取得する特徴取得手段と、
    特徴空間における前記第1特徴と前記第2特徴との距離の、前記第1特徴又は前記第2特徴と前記第3特徴との距離に対する相対的な大きさを、第2誤差として算出する第2誤差算出手段と、
    前記第1誤差と前記第2誤差とに基づいて、前記抽出手段が前記特徴の抽出に用いるパラメータを更新する更新手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記推定手段は、前記探索画像内の各位置について前記追尾対象が存在する尤度を推定する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記特徴取得手段は、前記探索画像から抽出した、前記追尾対象が存在する尤度が閾値を超え、かつ、前記正解データが示す前記探索画像内の前記追尾対象の位置に該当しない位置における特徴を、前記追尾対象に類似する類似物の前記第3特徴として取得する、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記更新手段が前記パラメータを繰り返し更新する間に、前記特徴取得手段は尤度の前記閾値を変動させる、
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記特徴取得手段は、予め用意された前記類似物が映る画像から前記抽出手段が抽出した前記第3特徴を取得する、
    ことを特徴とする請求項1又は2のいずれか一項に記載の情報処理装置。
  6. 前記抽出手段は、ニューラルネットワークを用いて前記画像の各位置の特徴を抽出し、
    前記推定手段は、ニューラルネットワークを用いて前記探索画像内で前記追尾対象が存在する位置を推定する、
    ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記更新手段は、前記第1誤差と前記第2誤差とに基づいて、前記推定手段が前記探索画像内で前記追尾対象が存在する位置の推定に用いるパラメータを更新する、
    ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8. 第2誤差算出手段は、トリプレットロスを用いて、前記第2誤差を算出する、
    ことを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記類似物は、前記追尾対象と同じ物体のカテゴリーに属する、
    ことを特徴とする請求項1から8のいずれか一項に記載の情報処理装置。
  10. 前記更新手段は、前記第1誤差と前記第2誤差との双方に基づいて算出された損失に応じて前記パラメータを更新する、
    ことを特徴とする請求項1から9のいずれか一項に記載の情報処理装置。
  11. 前記更新手段は、前記第1誤差と前記第2誤差のそれぞれの重み付けを変更しながら、前記第1誤差と前記第2誤差とを重み付けして合成することにより算出された損失に応じて前記パラメータを更新する、
    ことを特徴とする請求項1から10のいずれか一項に記載の情報処理装置。
  12. 前記推定手段は、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である前記第1特徴と、前記抽出手段が抽出した前記探索画像の各位置の特徴とに基づいて、前記探索画像内で前記追尾対象が存在する位置を推定する、
    ことを特徴とする請求項1から11のいずれか一項に記載の情報処理装置。
  13. 前記推定手段は、前記抽出手段が前記参照画像から抽出した前記追尾対象の特徴である前記第1特徴と、前記抽出手段が抽出した前記探索画像の各位置の特徴と、の相互相関に基づいて、前記探索画像内で前記追尾対象が存在する位置を推定する、
    ことを特徴とする請求項12に記載の情報処理装置。
  14. 前記探索画像内の前記追尾対象の指定を受け付ける受付手段を更に備える、
    ことを特徴とする請求項1から13のいずれか一項に記載の情報処理装置。
  15. 前記推定手段は、前記抽出手段が抽出した前記探索画像の各位置の特徴に基づいて、前記探索画像内で前記追尾対象のサイズを更に推定する、
    ことを特徴とする請求項1から14のいずれか一項に記載の情報処理装置。
  16. 前記更新手段は、前記第1誤差と前記第2誤差との和が小さくなるように前記パラメータを更新することを特徴とする請求項1から請求項15のいずれか一項に記載の情報処理装置。
  17. 前記第2誤差算出手段は、特徴空間における前記追尾対象の特徴と前記類似物の特徴との距離が前記追尾対象同士の特徴間の距離よりも大きくなるよう前記第2誤差を算出することを特徴とする請求項1から請求項16のいずれか一項に記載の情報処理装置。
  18. 少なくとも一つのコンピュータによって実装され、
    取得部が、追尾対象が映る参照画像と、探索画像と、前記探索画像内の前記追尾対象の位置を示す正解データと、を取得する取得工程と、
    特徴抽出部が、画像の各位置の特徴を抽出する抽出工程と、
    推定部が、抽出した画像の各位置の特徴に基づいて、画像内で前記追尾対象が存在する位置を推定する推定工程と、
    第1の誤差算出部が、推定された前記探索画像内の前記追尾対象の位置と、前記正解データが示す前記探索画像内の前記追尾対象の位置と、の第1誤差を算出する第1誤差算出工程と、
    特徴取得部が、前記参照画像から抽出した前記追尾対象の特徴である第1特徴と、前記探索画像から抽出した、前記正解データが示す位置にある前記追尾対象の特徴である第2特徴と、少なくとも前記探索画像から抽出した前記追尾対象に類似する類似物の特徴である第3特徴と、を取得する特徴取得工程と、
    第2の誤差算出部が、特徴空間における前記第1特徴と前記第2特徴との距離の、前記第1特徴又は前記第2特徴と前記第3特徴との距離に対する相対的な大きさを、第2誤差として算出する第2誤差算出工程と、
    更新部が、前記第1誤差と前記第2誤差とに基づいて、前記特徴の抽出に用いるパラメータを更新する更新工程と、
    を備えることを特徴とする方法。
  19. コンピュータを、請求項1から17のいずれか一項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2021165650A 2021-10-07 2021-10-07 情報処理装置、方法及びプログラム Active JP7820933B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021165650A JP7820933B2 (ja) 2021-10-07 2021-10-07 情報処理装置、方法及びプログラム
US17/955,648 US20230111393A1 (en) 2021-10-07 2022-09-29 Information processing apparatus and method, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021165650A JP7820933B2 (ja) 2021-10-07 2021-10-07 情報処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2023056349A JP2023056349A (ja) 2023-04-19
JP7820933B2 true JP7820933B2 (ja) 2026-02-26

Family

ID=85798773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021165650A Active JP7820933B2 (ja) 2021-10-07 2021-10-07 情報処理装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US20230111393A1 (ja)
JP (1) JP7820933B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024081404A (ja) 2022-12-06 2024-06-18 キヤノン株式会社 情報処理装置およびその制御方法
JP7840911B2 (ja) * 2023-07-24 2026-04-06 株式会社東芝 情報処理装置、方法およびプログラム
CN119622388B (zh) * 2025-02-12 2025-06-06 中国电子科技集团有限公司电子科学研究院 一种基于深度度量的机载多模态协同目标检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156886A (ja) 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
CN110147836A (zh) 2019-05-13 2019-08-20 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140063237A1 (en) * 2012-09-03 2014-03-06 Transportation Security Enterprises, Inc.(TSE), a Delaware corporation System and method for anonymous object identifier generation and usage for tracking
JP6295122B2 (ja) * 2014-03-27 2018-03-14 株式会社メガチップス 状態推定装置、プログラムおよび集積回路
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US20210133474A1 (en) * 2018-05-18 2021-05-06 Nec Corporation Image processing apparatus, system, method, and non-transitory computer readable medium storing program
US11348339B2 (en) * 2019-08-13 2022-05-31 Uatc, Llc Association and tracking for autonomous devices
CN112767450A (zh) * 2021-01-25 2021-05-07 开放智能机器(上海)有限公司 一种基于多损失学习的相关滤波目标跟踪方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156886A (ja) 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
CN110147836A (zh) 2019-05-13 2019-08-20 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质

Also Published As

Publication number Publication date
JP2023056349A (ja) 2023-04-19
US20230111393A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
JP7681762B2 (ja) ブートストラッピングされた潜在表現を使用する自己教師付き表現学習
CN111914878B (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
JP7820933B2 (ja) 情報処理装置、方法及びプログラム
JP7131994B2 (ja) 自己位置推定装置、自己位置推定方法、自己位置推定プログラム、学習装置、学習方法及び学習プログラム
Xu et al. A scene-adaptive descriptor for visual SLAM-based locating applications in built environments
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN112580438B (zh) 一种三维场景下的点云识别方法
CN115482252B (zh) 基于运动约束的slam闭环检测和位姿图优化方法
CN116210030A (zh) 基于半监督关键点的模型
CN109697236A (zh) 一种多媒体数据匹配信息处理方法
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN116844185B (zh) 基于质量分数的多人姿态识别方法
CN119149856B (zh) 一种用于复杂背景下的无人机检测跟踪方法及装置
CN118786440A (zh) 使用自监督学习训练对象发现神经网络和特征表示神经网络
CN117115474A (zh) 一种基于多阶段特征提取的端到端单目标跟踪方法
WO2022177666A1 (en) Personalized local image features using bilevel optimization
CN114972437B (zh) 一种基于响应峰值的多特征融合目标跟踪定位方法
CN121147271A (zh) 一种面向部分重叠点云配准的改进utopic方法
US12547897B2 (en) Position determination by means of neural networks
CN113658218A (zh) 一种双模板密集孪生网络跟踪方法、装置及存储介质
CN111815677A (zh) 目标追踪方法、装置、终端设备和可读存储介质
CN119407789A (zh) 一种机械臂抓取目标检测方法和系统
CN121532805A (zh) 基于演示样例执行图像处理任务
De Giacomo et al. Guided sonar-to-satellite translation
JP2013073333A (ja) 画像マッチング装置及び画像マッチングプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20251031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260213

R150 Certificate of patent or registration of utility model

Ref document number: 7820933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150