JP2021056885A

JP2021056885A - 検出装置、検出方法、及びプログラム

Info

Publication number: JP2021056885A
Application number: JP2019180711A
Authority: JP
Inventors: 敬正角田; Norimasa Kadota
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-08

Abstract

【課題】検出装置の処理コストを抑え、及び検出精度を高める。【解決手段】撮像画像から１以上の被写体を検出する。第１の時刻における撮像画像から検出された１以上の被写体の位置に従って、検出手段によって参照される、第１の時刻に後続する第２の時刻における撮像画像に１以上の被写体の検出対象領域を設定する。【選択図】図６

Description

本発明は、検出装置、検出方法、及びプログラムに関する。

固定カメラを用いて被写体の位置を推定する技術がある。これらの技術の多くは、時間的に連続する複数の画像における被写体を検出してその同一性を判定することで、被写体の軌跡の推定を行う。例えば、特許文献１には、状態空間モデルを用いた追尾対象物体の動きの予測と更新に基づきパンチルトズームの制御と追尾を行う方法が開示されている。

また近年、畳み込みニューラルネットワーク（以降においてはＣＮＮと呼ぶ）を用いることにより、複数カテゴリの物体検出を高速に実行する技術が多数提案されている。例えば、非特許文献１に開示されている技術においては、３５２×３５２サイズの入力画像をニューラルネットワークに入力することにより、２０カテゴリの物体検出問題を、毎秒８１フレームで実行することができる。

一方、一般的な監視カメラによる撮像画像の解像度はより大きく、例えば１９２０×１０８０サイズである。このようなサイズの画像を小さくリサイズしてＣＮＮに入力すると、被写体の検出精度が低下する。非特許文献２は、元画像をリサイズして低解像度化した画像から、被写体の検出のために選択的にズームインする部分領域を選択する手法を開示している。

特許第５０１８３２１号公報ＪｏｓｅｐｈＲｅｄｍｏｎ，Ａｌｉ，Ｆａｒｈａｄｉ，"ＹＯＬＯ９０００：Ｂｅｔｔｅｒ，Ｆａｓｔｅｒ，Ｓｔｒｏｎｇｅｒ"，ＣＶＰＲ２０１７ＭｉｎｇｆｅｉＧａｏ，ＲｕｉｃｈｉＹｕ，ＡｎｇＬｉ，ＶｌａｄＩ．Ｍｏｒａｒｉｕ，ＬａｒｒｙＳ．Ｄａｖｉｓ，"ＤｙｎａｍｉｃＺｏｏｍ−ｉｎｎｅｔｗｏｒｋｆｏｒｆａｓｔｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｉｎｌａｒｇｅｉｍａｇｅｓ"，ａｒＸｉｖ：１７１１．０５１８７ｖ１

しかしながら、非特許文献２に記載の方法では、部分領域を決定するために、処理コストの大きいＣＮＮベースの検出器を用いた元画像に対する処理が毎時刻必ず行われ、これが処理のボトルネックとなっている。

本発明は、被写体検出処理の処理コストを下げることを目的とする。

本発明の目的を達成するために、例えば、一実施形態に係る検出装置は以下の構成を備える。すなわち、撮像画像から１以上の被写体を検出する検出手段と、前記検出手段によって第１の時刻における撮像画像から検出された１以上の被写体の位置に従って、前記検出手段によって参照される、前記第１の時刻に後続する第２の時刻における撮像画像に前記１以上の被写体の検出対象領域を設定する設定手段と、を備えることを特徴とする。

被写体検出処理の処理コストを下げることができる。

実施形態１に係る検出装置における撮像画像の一例を示す図。実施形態１〜３に係る検出装置の機能構成の一例を示す図。実施形態１〜３に係る検出方法における処理例のフローチャート。実施形態１に係る検出方法における候補領域の作成例を示す図。実施形態１に係る検出方法における候補領域の構成例を示す図。実施形態１に係る検出方法における検出対象領域の設定例を示す図。実施形態１に係る検出方法における候補領域リストの一例を示す図。実施形態３に係る検出装置の実施例を示す図。実施形態３に係る検出方法における設定例を示すフローチャート。実施形態３に係る検出方法における検出対象領域の設定例を示す図。実施形態３に係る検出方法における候補領域のリストの一例を示す図。実施形態３に係る検出方法における検出対象領域リストの一例を示す図。実施形態４に係る検出装置の機能構成の一例を示す図。実施形態４に係る検出方法における処理例のフローチャート。実施形態４に係る検出方法における設定例を示すフローチャート。実施形態１に係る撮像システムの構成の一例を示す図。実施形態１に係る検出装置の内部構成の一例を示す図。実施形態１に係るクライアント装置の内部構成の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
図１６は本実施形態に係る撮像システム１６００の構成の一例を示すブロック図である。図１６に示す撮像システム１６００は、検出装置１６０５、ネットワーク１６０１を介して相互に通信可能な状態で接続されるクライアント装置１６０２、入力装置１６０３、及び、表示装置１６０４から構成されている。検出装置１６０５は、例えば、動画像を撮像および画像処理する監視カメラ又はネットワークカメラであってもよい。

図１７は、本実施形態における検出装置１６０５の内部構成の一例を示すブロック図である。光学部１７０１はフォーカスレンズ、ブレ補正レンズ、絞り、シャッターから構成され被写体の光情報を集光する。撮像素子部１７０２は、光学部１７０１にて集光される光情報を電流値へと変換する素子で、カラーフィルタなどと組み合わせることで色情報を取得する。また、すべての画素に対して、任意の露光時間を設定可能な撮像センサーとする。ＣＰＵ１７０３は、各構成の処理すべてに関わり、ＲＯＭ（Read Only Memory）１７０４や、ＲＡＭ（Random Access Memory）１７０５に格納された命令を順次に読み込み、解釈し、その結果に従って処理を実行する。ＣＰＵ１７０３は、ＲＯＭ１７０４などに記憶された各種プログラムをＲＡＭ１７０５に読み出して実行することにより、本実施形態に係る各処理を実行すると共に、クライアント装置１６０２との間で各種情報の送受信を制御する。

また、撮像系制御部１７０６は光学部１７０１に対して、フォーカスを合わせる、シャッターを開く、及び絞りを調整するなどのＣＰＵ１７０３から指示された制御を行う。制御部１７０７は、クライアント装置１６０２からの指示に応じて、検出装置１６０５の撮像範囲を制御するなどの制御を行う。Ａ／Ｄ変換部１７０８は、光学部１７０１にて検知した被写体の光量をデジタル信号値に変換する。画像処理部１７０９は上記のデジタル信号の画像データに対して、画像処理を行う。エンコーダ部１７１０は、画像処理部１７０９にて処理した画像データをＭｏｔｉｏｎＪｐｅｇやＨ.２６４、Ｈ.２６５などのファイルフォーマットへと変換する処理を行う。エンコーダ部１７１０における変換処理により生成された静止画、或いは動画像のデータは、「配信画像」としてネットワーク１６０１を介してクライアント装置１６０２に提供される。ネットワークＩ／Ｆ１７１１は、クライアント装置１６０２等の外部の装置とのネットワーク１６０１を介した通信に利用されるインタフェースである。

ネットワーク１６０１は、検出装置１６０５と、クライアント装置１６０２を接続するネットワークである。ネットワーク１６０１は、例えばＥｔｈｅｒｎｅｔ（登録商標）等の通信規格を満足する複数のルータ、スイッチ、ケーブル等から構成される。本実施形態では、ネットワーク１６０１は、検出装置１６０５とクライアント装置１６０２との間の通信を行うことができるものであればよく、その通信規格、規模、構成を問わない。例えば、ネットワーク１６０１は、インターネットや有線ＬＡＮ（Local Area Network）、無線ＬＡＮ（Wireless LAN）、ＷＡＮ（Wide Area Network）等により構成されてもよい。

図１８は本実施形態に対応するクライアント装置１６０２の内部構成の一例を示すブロック図である。クライアント装置１６０２は、ＣＰＵ１８０１、主記憶装置１８０２、補助記憶装置１８０３、入力Ｉ／Ｆ１８０４、出力Ｉ／Ｆ１８０５、ネットワークＩ／Ｆ１８０６を含む。各要素は、システムバスを介して、相互に通信可能に接続されている。クライアント装置１６０２は、検出装置１６０５の各種設定を行うための設定装置として動作できる。

ＣＰＵ１８０１は、クライアント装置１６０２の動作を制御する。主記憶装置１８０２は、ＣＰＵ１８０１のデータの一時的な記憶場所として機能するＲＡＭ等の記憶装置である。補助記憶装置１８０３は、各種プログラム、各種設定データ等を記憶するＨＤＤ、ＲＯＭ、ＳＳＤ等の記憶装置である。入力Ｉ／Ｆ１８０４は、入力装置１６０３等からの入力を受付ける際に利用されるインタフェースである。出力Ｉ／Ｆ１８０５は、表示装置１６０４等への情報の出力に利用されるインタフェースである。ネットワークＩ／Ｆ１８０６は、検出装置１６０５等の外部の装置とのネットワーク１６０１を介した通信に利用されるインタフェースである。クライアント装置１６０２は、ネットワークＩ／Ｆ１８０６を介して、検出装置１６０５から撮像画像又は映像を取得し、格納することができる。クライアント装置１６０２は、このような画像を格納して提供するサーバとして機能してもよい。また、クライアント装置１６０２が各種プログラム、各種設定データ等を記憶するのは、補助記憶装置１８０３に限定されない。例えば、クライアント装置１６０２は、そのようなデータ等を、ネットワークＩ／Ｆ１８０６を介してサーバや記憶装置のような外部の格納部（不図示）に記憶していてもよい。

ＣＰＵ１８０１は、補助記憶装置１８０３に記憶された各種プログラムを主記憶装置１８０２に読み出して実行することにより、本実施形態に係る各処理を実行すると共に、検出装置１６０５との間で各種情報の送受信を制御する。また、入力Ｉ／Ｆ１８０４を介して入力装置１６０３からの入力を受付けると共に、出力Ｉ／Ｆ１８０５を介して表示装置１６０４における画像や各種情報の表示制御を行う。また、クライアント装置１６０２は、補助記憶装置１８０３、外部の格納部（不図示）を用いてもよい。

入力装置１６０３は、マウス、キーボード、タッチパネル、ボタン等から構成される入力装置である。表示装置１６０４は、クライアント装置１６０２が出力した画像を表示するディスプレイモニタ等の表示装置である。本実施形態では、クライアント装置１６０２と入力装置１６０３と表示装置１６０４とを、各々独立した装置とすることができる。この場合、例えばクライアント装置１６０２をパーソナルコンピュータ（ＰＣ）として構成し、入力装置１６０３を当該ＰＣに接続されたマウスやキーボード、表示装置１６０４を当該ＰＣに接続されたディスプレイとすることができる。また、当該構成以外にも、クライアント装置１６０２と表示装置１６０４とが一体化されていてもよいし、タッチパネルのように入力装置１６０３と表示装置１６０４とが一体化されていてもよい。また、スマートフォンやタブレット端末のようにクライアント装置１６０２と入力装置１６０３と表示装置１６０４とが、一体化されていてもよい。また、表示装置１６０４は、後述するモニタリング部１３００として機能してもよい。

本実施形態に係る検出装置は、第１の時刻における撮像画像から１以上の被写体を検出し、及び、検出された被写体の位置にしたがって、第１の時刻に後続する第２の時刻における被写体の検出対象領域を、撮像画像中に設定する。そのような処理のために、図２（ａ）に示す一実施形態に係る検出装置１０００は、撮像部１１００と処理部１２００とを有する。ここで、検出装置１０００は、図１６に示す検出装置１６０５であってもよい。この場合、処理部１２００の処理は、検出装置１６０５の制御部１７０７が実現することができる。また、本発明の一実施形態に係る検出装置は、ネットワークを介して接続された複数の装置によって構成されていてもよい。例えば、図１６に示す検出装置１０００の機能は、図１６に示す検出装置１６０５とクライアント装置１６０２とによって実現されてもよい。例えば、検出装置１６０５が撮像部１１００として用いられ、クライアント装置１６０２が処理部１２００として用いられてもよい。この場合、処理部１２００の処理は、クライアント装置１６０２のＣＰＵ１８０１が実現することができる。

図２は各実施形態に係る検出装置の機能構成の一例を示すブロック図であり、図２（ａ）は、実施形態１に係る検出装置の例を示している。撮像部１１００は動画取得部１００１を有する。動画取得部１００１は、撮像装置による撮像画像を取得する。本実施例において、動画取得部１００１は、例えば、被写体を含む所定のエリアの撮像画像を取得することができる。動画取得部１００１による撮像画像の解像度は特に限定されないが、本実施形態においては説明のため、動画取得部１００１は、解像度ＦＨＤ（１９２０×１０８０ピクセル）の撮像画像を取得するものとする。動画取得部１００１は、所定の時間間隔で撮像画像を取得することができる。例えば、動画取得部１００１は、秒間３０フレームの速度で撮像を行ってもよく、数１０ミリ秒程度の間隔で撮像を行ってもよく、又は、より広い間隔で撮像を行ってもよい。また、動画取得部１００１は、取得した撮像画像を処理部１２００へと出力することができる。また、撮像部１１００は、処理部１２００と接続されている。撮像部１１００と処理部１２００との接続手段は特に限定されない。撮像部１１００及び処理部１２００は、例えばローカルエリアネットワークなどの通信経路を介して接続されていてもよく、ＵＳＢケーブルなどを介して有線で接続されていてもよい。また例えば、撮像部１１００は、出力した撮像画像を不図示の記憶装置に格納し、及び、処理部１２００が、その記憶装置から所定のフレームを取得してもよい。

処理部１２００は、図２（ａ）の例においては、初期値設定部１００２、検出部１００３、対応付け部１００４、領域設定部１００５、及び可視化部１００６を有する。撮像部１１００による被写体の追尾処理を行うにあたり、処理部１２００が有する各部は、処理を繰り返し行うことができる。初期値設定部１００２は、検出部１００３が初めに被写体の検出を行う際に用いられ、撮像画像中に設定される、検出対象領域の初期設定を行う。検出部１００３は、撮像画像中の検出対象領域から１以上の被写体を検出する。対応付け部１００４は、前回の繰り返しで検出された被写体の像と今回検出された被写体の像とを対応付け、又は初回の場合は被写体に識別情報を割り振る。領域設定部１００５は、次の繰り返しの処理において検出部１００３が被写体の検出を行う際に用いる検出対象領域を撮像画像中に設定する。可視化部１００６は、被写体の軌跡の可視化を行う。これらの機能の詳細については、図３（ａ）のフローチャートと共に後述する。

モニタリング部１３００は、処理部１２００による処理の結果を表示することができる。例えば、モニタリング部１３００は、可視化部１００６によって可視化された被写体の軌跡を、モニタ内の撮像画像上に軌跡や点として重畳表示してもよい。また、モニタリング部１３００は、処理部１２００と接続されていてもよい。モニタリング部１３００と処理部１２００との接続方法は特に限定されない。例えば、モニタリング部１３００及び処理部１２００は、有線で接続されていてもよく、又は無線の通信を介して接続されていてもよい。

図１は、本実施形態に係る検出装置１０００による撮像画像取得の一例を説明するための図である。図１（ａ）の配置例１０４は、空間中に存在する人物群と、空間中に設置された撮像部１１００であるカメラ１０１と、の配置例を示す俯瞰図である。この例においては、カメラ１０１が、人物１、２、３及び４の撮像を行っている。そのようなカメラ１０１による撮像画像の例が、図１（ｂ）の画像例１１０に示されている。図１（ａ）並びに図１（ｂ）における人物１、２、３及び４はそれぞれ対応している。図１（ｂ）に示される検出対象領域１１１は、検出装置１０００が設定する検出対象領域の例である。また、１１２及び１１３は、人物１及び２にそれぞれ対応する、検出装置１０００による検出結果に相当するバウンディングボックスである。バウンディングボックスは、画像の縦方向（ｕ軸方向）並びに横方向（ｖ軸方向）について、それぞれ位置及び幅の計４次元の数値で表現される矩形であってもよい。この例では、検出装置１０００は、人体の頭部を囲むバウンディングボックスを、画像上に検出した頭部の数だけ出力するように学習されている。しかし、検出装置１０００が出力する検出結果は特に限定されず、例えば、被写体について対応付けられたＩＤ又はＩＤに対応する名前のような識別情報を表示してもよい。検出装置１０００は、そのようなバウンディングボックスに加え、検出結果の信頼度を表すスコアを出力することができる。

検出結果の信頼度を表すスコアとは、例えば、検出範囲内に含まれる被写体に対し、検出装置１０００がどの程度の精度でそのような被写体を検出したかを表すモデルであってもよい。実施形態１の例においては、検出装置１０００は、非特許文献１と同様の手法により被写体の検出を行ってもよい。例えば、後述する検出部１００３は、検出対象領域のそれぞれをＳ×Ｓ（Ｓは予め与えられる所定の数）のグリッドに分割することができる。また、検出部１００３は、被写体の存在する各グリッドから、所定の数のバウンディングボックス、及び各バウンディングボックスにおける信頼度のスコアを推定してもよい。次いで検出装置１０００は、検出対象領域内に設定された複数のバウンディングボックスの内から、任意の閾値を超えるスコアを有するバウンディングボックスを、被写体を囲むバウンディングボックスとして推定することができる。非特許文献１の例においては、バウンディングボックス及びスコアがニューラルネットワークを用いて推定される。この例では、被写体が存在する確率とＩｏＵ（正しい被写体の領域と被写体として誤検出した領域とを足した領域に対する、正しい被写体の領域の割合）の積を、スコアとして与えるように学習されたニューラルネットワークが用いられている。このように、スコアとは、推定された被写体領域の位置の正しさと、推定された被写体領域の大きさの正しさと、推定された被写体領域に被写体が存在する確率と、の少なくとも１つを示す値であってもよい。また、検出装置１０００は、複数の被写体を検出することができる。さらに、この例においては人物の頭部が検出されているが、検出装置１０００の検出対象はこれには限られない。検出装置１０００は、例えば犬若しくは馬のような動物を検出してもよく、又はサッカーボールを検出してもよい。

以下では図３（ａ）を参照して、本実施形態に係る検出装置１０００が行う検出方法の流れを説明する。図３（ａ）は、本実施形態における、被写体を認識した際の処理手順の一例を示すフローチャートである。本実施形態において、検出装置１０００は、複数の時刻１〜ｔのそれぞれにおいて撮像された撮像画像のそれぞれから被写体を検出し、その次の時刻に撮像された撮像画像に対して被写体の検出を行う検出対象領域を設定する。ループＬ４００１において、検出装置１０００は、時刻１からｔまでに撮像された撮像画像のそれぞれに対して、以下のステップＳ４００２〜Ｓ４００５の操作を順に繰り返し、及び次の時刻の撮像画像に進むことができる。以下においては、今回とはある時刻の撮像画像を処理する現時点のループを指し、前回とは前の時刻の撮像画像を処理するループを指し、次回とは後の時刻の撮像画像を処理するループを指すものとする。

ステップＳ４００１で初期値設定部１００２は、動画取得部１００１が取得した撮像画像について、最初に被写体の検出を行うための１つ以上の検出対象領域を設定する。検出対象領域としては、例えば、ＦＨＤ（１９２０×１０８０サイズ）の撮像画像に対し、６４０×３６０サイズの領域を用いてもよい。そのような場合、初期値設定部１００２は、例えば、まず検出対象領域を左上の隅に設定することができる。次いで初期値設定部１００２は、その検出対象領域を、横方向に６４０ピクセル、及び縦方向に３６０ピクセルずつ、それぞれの方向について最大２回ずつ任意の回数スライドさせることで、計９個の検出対象領域を設定してもよい。例えば、被写体が画像内のどこにいても検出できるようにするという観点から、初期値設定部１００２は、検出対象領域の集合が撮像画像のすべての領域を隙間なく被覆するように検出対象領域を設定してもよい。しかし、検出対象領域の設定方法は特にそのように限定されるわけではない。例えば、初期値設定部１００２は、被写体が存在し得る位置の範囲が予め与えられているような場合において、そのような範囲を隙間なく被覆するように検出対象領域を設定してもよい。また、初期値設定部１００２は、検出対象領域同士の境界線上に被写体が存在する可能性を考慮して、隣接する検出対象領域が重複する領域を持つように検出対象領域を設定してもよい。

ステップＳ４００２において、検出部１００３は、撮像画像内の、ステップＳ４００１で設定された、又は前回のループにおけるステップＳ４００４（後述する）で設定された検出対象領域から、被写体の検出を行う。また、ｔ＝１の場合、つまり初回の検出を行う場合においては、検出部１００３は、検出対象領域を用いることにより、被写体の検出を行ってもよい。検出部１００３は、検出された被写体について、その被写体を示すバウンディングボックス、及び検出結果の信頼度を表すスコアを出力することができる。また、検出部１００３が同一の被写体を複数の検出対象領域において検出した場合においては、それらの結果を統合してもよい。そのような場合、統合の仕方は特に限定されない。例えば、検出部１００３は、各検出対象領域における同一被写体のバウンディングボックスの中心座標（ｕ、ｖ）を算出し、及びそれらの平均を取る事により、検出結果を統合してもよい。また例えば、検出対象領域それぞれにおいてそのサイズに基づいた重みが設定されている場合、検出部１００３は、同一の被写体を有している検出対象領域それぞれの重みに基づいて、被写体の（ｕ、ｖ）の値の重み付き平均を取る事により結果を統合してもよい。

ステップＳ４００３において、対応付け部１００４は、前回のループにおいて検出された被写体に対応付けられた識別情報と、今回検出された被写体とを対応付ける。つまり、前回と今回とにおける同一の被写体の像を対応付ける。新たに検出された被写体が存在する場合には、対応付け部１００４は、その被写体に新たな識別情報を割り振る。また、ｔ＝１の場合には、対応付け部１００４は、検出された被写体についてそれぞれ識別情報を割り振る。対応付け部１００４は、例えば、各被写体のバウンディングボックスの中心座標（ｕ、ｖ）及び信頼度のスコア（ｑ）による３次元の値（ｕ、ｖ、ｑ）の、前回のものと今回のものとのユークリッド距離を、すべての組み合わせについて算出することができる。そのような場合において、対応付け部１００４は、例えば、線形計画法の割り当て問題として、被写体の像の対応付けを行ってもよい。つまり、例えば、対応付け部１００４は、ハンガリアン法のような公知の技術を用いることにより、上述のユークリッド距離を用いて、前回の像と今回の像との対応付けを行ってもよい。識別情報としては、本実施例においてはＩＤが用いられているが、被写体をそれぞれ識別できるものであれば特に限定はされない。

ステップＳ４００４で領域設定部１００５は、次回のステップＳ４００２において検出に用いる検出対象領域を設定する。本実施例においては、領域設定部１００５は、まず、検出対象領域の候補となる候補領域の、撮像画像内での座標を取得する。候補領域については後述する。領域設定部１００５は、複数の候補領域のうち、被写体を１以上含む候補領域を検出対象領域として選定することができる。また例えば、領域設定部１００５は、候補領域の内で被写体を１以上含むものの中から、被写体の検出結果の信頼度を表すスコアを用いて、所望の条件を満たす検出対象領域を選定してもよい。領域設定部１００５が行う処理についてはステップＳ４００５の後に詳述する。ステップＳ４００５において、可視化部１００６は、処理された撮像画像から検出された被写体を可視化して表示することができる。可視化部１００６による被写体の可視化の方法は特に限定されない。可視化部１００６は、例えば、被写体をモニタリング部１３００上に、バウンディングボックスとして表示してもよい。また、可視化部１００６は、被写体のＩＤ又は被写体に対応する名前のような識別情報を、被写体又は被写体の軌跡と共に表示してもよい。また例えば、可視化部１００６は、被写体として、異なる時刻の撮像画像から検出された、複数の時刻に渡るバウンディングボックスの中心点の遷移を示す線を、モニタリング部１３００上に表示してもよい。

以下、領域設定部１００５が行う処理について詳細な説明を行う。図４は、上述の候補領域の取得について説明するための図である。領域設定部１００５は、互いに異なる大きさ、つまりサイズを有する候補領域の内から、少なくとも一つ以上を検出対象領域として選定することができる。すなわち、選定される検出対象領域が、互いに異なるサイズを有していてもよい。図４の例においては、領域設定部１００５は、サイズ１から３までの３種類のサイズの候補領域の座標を取得し、及び、各サイズの候補領域に基づいて撮像画像から部分画像を作成する。候補領域は後述のステップＳ４００４で検出対象領域を選定する際の候補となる領域である。候補領域の位置及び形状は、例えば図４に示されるように、予め定めておくことができる。候補領域の形状は特に限定されず、例えば三角形又は円形であってもよいが、以下においては説明のため、候補領域は矩形の領域であるとする。領域設定部１００５は、例えば、矩形である候補領域の４隅の座標を取得してもよい。

４００は、領域設定部１００５がサイズ１の候補領域を撮像範囲内に作成している図であり、及び、Ｎｕ１×Ｎｖ１個の候補領域が作成されている。この４００において、候補領域４０１は１個目の候補領域（Ｃ_{１，１，１}）を示し、及び候補領域４０２はＮｕ１×Ｎｖ１個目の候補領域（Ｃ_{１，Ｎｕ１，Ｎｖ１}）を示す。つまり、例えばこの４００においては、領域設定部１００５は、まず（Ｃ_{１，１，１}）を作成し、及び、（Ｃ_{１，１，１}）から横方向にＮｕ１個（順番に（Ｃ_{１，Ｎｕ１，１}）まで）候補領域を作成することができる。次いで領域設定部１００５は、その横方向のＮｕ１個の候補領域それぞれから、縦方向にＮｖ１個（例えば、順番に（Ｃ_{１，１，Ｎｖ１}）まで）の候補領域を作成することができる。４１０及び４２０においても同様に、領域設定部１００５は、（Ｃ_{２，１，１}）から（Ｃ_{２，Ｎｕ２，Ｎｖ２}）までのＮｕ２×Ｎｖ２個、及び（Ｃ_{３，１，１}）から（Ｃ_{３，Ｎｕ３，Ｎｖ３}）までのＮｕ３×Ｎｖ３個の候補領域をそれぞれ作成することができる。

各候補領域は、それぞれ重複する範囲を有していてもよく、接していてもよく、又は所望の検出結果が得られる範囲で離れていてもよい。この例においては、同サイズの隣接する候補領域の間隔は、縦方向及び横方向それぞれについて、等間隔で設定されているものとしたが、特にそのようには限られない。例えば、撮像画像中に、候補領域が適宜狭い間隔で配置される（すなわち、例えば候補領域同士が広く重複する）範囲が存在していてもよい。そのような構成によれば、候補同士が重複している範囲において複数回の検出処理が行われるため、検出のロバスト性を向上させることができる。作成される候補領域の１パターンとして、Ｓ４００１で設定された検出対象領域と同様の領域が作成されていてもよい。

領域設定部１００５は、ステップＳ４００２において検出された被写体が、上述の候補領域の内のどの領域に含まれているかを確認することができる。領域設定部１００５は、例えば、候補領域それぞれにおいて、その候補領域が被覆している被写体について、その被写体の識別情報と、その被写体のスコアと、を対応付けてもよい。そのような対応付けをされた候補領域をリスト化した表の例が図７に示されている。図７に示される表は、候補領域それぞれについて、その候補領域が被覆している被写体の識別情報であるＩＤ及び候補領域のスコアを表示している。図７の例において、１つの候補領域が複数の被写体を被覆しているような場合には、その候補領域のスコアとして、被覆している被写体のスコアの内最も値が高いものが表示されている。このような設定によれば、後述する検出対象領域の選定において、スコアが高い、つまり検出しやすい被写体を被覆する候補領域が優先して選定される。

図５には、候補領域が被写体を被覆している状態を説明するための、候補領域の一例が示されている。この例において、候補領域５００は、被覆判定領域５０１及びバッファ幅５０２を有している。候補領域５００は、例えば、被覆判定領域５０１内に被写体を有している場合、その被写体を被覆しているとしてもよい。バッファ幅は、候補領域５００が次回の検出対象領域として選定される場合において、被写体が検出対象領域外に出にくくなるように、検出対象領域上に余裕を持たせて被覆判定領域の外側に設定されるバッファ領域の幅であってもよい。バッファ幅５０２の値は特に限定されない。バッファ幅５０２の値は、例えば、候補領域５００が次回の被写体の検出に用いられることを考えて、被写体が次回の時刻までに移動し得る移動距離と同じだけの値として設定されていてもよい。被写体のそのような移動距離は予め与えられていてもよく、検出途中に算出されてもよいが、そのような例については実施形態２において詳細に説明する。また、バッファ幅は、画像内での横方向の右端及び左端、並びに縦方向の上端及び下端において、それぞれ異なる値を取っていてもよい。つまり、例えば、被写体の進行方向が定まっているような場合に、バッファ幅による領域がその進行方向と同じ方向について大きくなるように、バッファ幅の値が設定されていてもよい。

図６は、検出された被写体のバウンディングボックス、候補領域、及びステップＳ４００４で得る検出対象領域について説明するための図である。領域を示す例６００は、バウンディングボックス６０１、６０２、６０３及び６０４、候補領域６０５、６０６、及び６０８、並びに検出対象領域６０７及び６０９を有している。ここで設定された検出対象領域は、次回のループにおけるステップＳ４００２での検出で、検出部１００３によって用いられる。

上述したように、領域設定部１００５は、候補領域の内の被写体を１以上含むものの中から、被写体の検出結果の信頼度を表すスコアを用いて、所望の条件を満たす検出対象領域を選定してもよい。そのような検出対象領域の選定例について、図７の表を参照しながら説明する。まず、例えば、領域設定部１００５は、候補領域の内から、例えば図７の（Ｃ_{１，１，１}）のような、被写体を被覆していない領域を取り除く。次いで、領域設定部１００５は、残った候補領域の内から、被覆している被写体の集合が等しく、及び候補領域のスコアが等しい複数の候補領域から、１つの候補領域、つまり検出対象領域を選定することができる。ここでの選定の条件は特に限定されない。例えば、領域設定部１００５は、同一の被写体を被覆し、及びそれらの候補領域のスコアが等しい領域の内、領域のサイズがより小さい領域を優先して選定してもよい。また例えば、領域設定部１００５は、同一の被写体を被覆し、同じスコア及びサイズを有する候補領域の内から、被覆している被写体の平均位置に対して、中心位置が最も近い候補領域を選定してもよい。このような処理により残った候補領域は、被覆している被写体の集合とスコアとの組み合わせが互いに異なっている。

さらに、撮像画像内のすべての被写体の追尾を行うことを考えて、領域設定部１００５は、複数の候補領域から、現時点におけるすべての被写体を被覆するように、上述の検出対象領域を１以上選定することができる。そのような場合、例えば、領域設定部１００５は、上記の処理により残っている、互いに異なる被写体の集合とスコアとの組み合わせを有する候補領域から、検出された被写体すべてを少なくとも一度被覆するように１以上の検出対象領域を選定してもよい。また、検出の精度を向上させるという観点から、領域設定部１００５は、検出対象領域に選定される候補領域のスコアの合計値が大きくなるように、検出対象領域を選定することができる。そのためには、集合被覆問題の最適化法を適用すればよく、つまり下記の条件付き最適化を解けばよい。

この式において、ｉは被写体に関するインデックスであり、及びｊは候補領域に関するインデックスである。ｊは、選定の対象となる候補領域、例えば、上記の処理により残っている互いに異なる被写体の集合とスコアとの組み合わせを有する候補領域、に付されたインデックスであり、ｎは選定の対象となる候補領域の数を表す。ｓ_ｊは候補領域ｊのスコアを示す。また、ｘ_ｊは、候補領域ｊが選定される場合にはｘ_ｊ＝１、そうでない場合にはｘ_ｊ＝０となる。さらに、ａ_ｉｊは、候補領域ｊが被写体ｉを被覆する場合にａ_ｉｊ＝１、そうでない場合にａ_ｉｊ＝０となる。

このような最適化問題は、特に上記の式に限定されるわけではない。つまり、領域設定部１００５は、所望の条件に応じて、適宜異なる式を用いてもよい。例えば、領域設定部１００５は、検出のロバスト性を向上させることを考えて、上記の式（１）のΣａ_ｉｊ≧１をΣａ_ｉｊ≧２とすることにより、全被写体を少なくとも２回以上被覆する検出対象領域を作成してもよい。

また、処理のコストを低減するという観点から、領域設定部１００５は、選定される検出対象領域の総数が少なくなるように、検出対象領域の選定を行うことができる。つまり、そのように上記の最適化問題を解くことができる。検出対象領域の総数が少なくなるように最適化問題を解く方法は特に限定されない。例えば、領域設定部１００５は、貪欲法又はラグランジュ緩和法などの公知の最適化法をこの問題に適用することにより、検出対象領域を選定してもよい。また例えば、領域設定部１００５は、検出対象領域の総数が予め定められた所定の数以下になるように、検出対象領域を選定してもよい。

次いで、次の時刻の撮像画像の処理に移り、ステップＳ４００２において、検出部１００３が、選定された検出対象領域から被写体を検出する。

このような構成によれば、撮像画像から１以上の対象物を検出し、その対象物の位置にしたがって後続する時刻での被写体の検出において使用することができる検出対象領域を設定する検出装置を得ることができる。したがって、単一の固定カメラの視野内を通過する被写体を、計算コストと検出精度を両立させ、少ない計算コストでより高精度に追尾することが可能になる。

［実施形態２］
実施形態２に係る検出装置は、次の時刻における被写体の位置を予測し、それに基づいた検出対象領域を設定することができる。特に、実施形態２に係る検出装置は、予測された被写体の位置、予測から生じ得るずれの量の幅に応じたバッファ幅を有する検出対象領域を設定することができる。したがって、本実施形態に係る検出装置は、例えば被写体が停止しているような場合においても、検出対象領域について余分なバッファ幅を取ることなく、少ない処理コストで検出処理を行うことができる。そのような処理のために、本実施形態に係る検出装置２０００は予測部２００１を有する。また、検出装置２０００は、予測部２００１を有することを除き実施形態１と同様であり、重複する説明は省略する。

図２（ｂ）は、実施形態２に係る検出装置２０００の機能構成の一例を示すブロック図である。予測部２００１は、各被写体について、次回に検出を行う時のその被写体の位置を予測する。領域設定部１００５は、予測部２００１が予測した被写体の位置を考慮に入れて検出対象領域を設定する。

以下では図３（ｂ）を参照して、本実施形態に係る検出装置２０００が行う検出方法の流れを説明する。図３（ｂ）は本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。本実施形態に係る検出装置２０００の処理手順は、ステップＳ５００１及びステップＳ５００２を除き、実施形態１と同様に行うことができる。

ステップＳ５００１で予測部２００１は、次の時刻において各被写体が検出される位置を予測する。予測部２００１が次回の被写体の位置の予測をするための方法は特に限定されない。ループＬ５００１において、被写体は、ステップＳ４００３で、前時刻で検出された同一の識別情報を持つ被写体の像と対応付けられている。つまり、予測部２００１は、特定の被写体について、現時点までの毎時刻の座標を取得することが可能である。例えば、予測部２００１は、被写体の前回の位置と現時点での位置の差分を取る事により、被写体の前回の検出から今回の検出までの移動距離及び移動方向を算出し、及びそれらに基づいて次回の検出時の被写体の位置を予測してもよい。また例えば、予測部２００１は、被写体の前回の位置と現時点の位置に加えて、前回より以前の任意の時刻における被写体の位置を適宜用いることにより、被写体の前回の検出から今回の検出までの移動距離及び移動方向についての情報を算出することができる。そのような処理によれば、予測部２００１は、被写体の前回の位置と今回の位置とのみを用いて被写体の前回から今回までの移動距離及び移動方向を算出する場合と比べて、より平滑化した情報を算出することができる。このような場合においても、予測部２００１は、算出した被写体の情報から、次回の被写体の位置を予測することができる。

ステップＳ５００２で領域設定部１００５は、次回のステップＳ４００２において検出に用いる検出対象領域を設定する。この例においては、領域設定部１００５は、検出対象領域の移動処理、及びバッファ幅の設定方法を除き実施形態１のステップＳ４００４と同様の処理を行うため、重複する説明は省略する。領域設定部１００５は、ステップＳ５００１で予測した次回の被写体の位置に基づいて、その被写体を被覆する検出対象領域の位置を移動させることができる。そのような場合、検出対象領域の移動のさせ方は特に限定されない。領域設定部１００５は、例えば、検出対象領域が一つの被写体を被覆している場合に、その被写体の予測位置への移動と同様に検出対象領域を移動させてもよい。また領域設定部１００５は、検出対象領域が複数の被写体を被覆している場合には、例えば、それらの中の最もスコアの高い被写体の移動に応じて検出対象領域を移動させてもよく、それらの被写体の予測される移動の平均に応じて検出対象領域を移動させてもよい。さらに、領域設定部１００５は、被写体の位置の予測時に生じるノイズ分（真値からのずれ量分）の幅を適宜算出し、及びそのようなノイズ分の値のバッファ幅を設定してもよい。そのような場合、領域設定部１００５は、例えば、ノイズ分の値を、被写体のトラッキングデータを用いて、被写体について、Ｓ５００１における方法と同様にして予測される予測位置と検出された位置とのずれ量の平均として算出してもよい。つまり、領域設定部１００５は、ノイズ分の値を、現時点までのループにおける、被写体の予測位置と検出された位置とのずれ量の平均として算出してもよい。

このような構成によれば、被写体の予測位置に基づいて、検出に適した検出対象領域を設定することができる。また、被写体の予測位置に基づいてバッファ領域を設定することができる。したがって、単一の固定カメラの視野内を通過する被写体を、より少ない計算コストで追尾することが可能となる。

［実施形態３］
実施形態３に係る検出装置は、複数のカメラにより得られた撮像画像のそれぞれから被写体を検出し、その結果を用いて被写体を追跡する。その際に、検出装置は、前回のループにおいて被写体の観測値から推定された被写体の３次元空間上の状態（つまり、位置、姿勢及び速度）の予測値に基づいて、現時点における被写体の状態を予測することができる。また、予測された現時点での被写体の状態に基づいて、被写体の撮像画像上における座標及びスコアの予測値をさらに取得し、その被写体の座標及びスコアに基づいて検出対象領域を設定し、及び被写体を検出することができる。さらに、次回の時刻において予測される被写体の検出のスコアを最大化させる検出対象領域を設定することができる。以下では、複数の固定カメラを用いて、フットサルと呼ばれる小スケールのサッカーの屋内ピッチの撮像を行う場合について説明するが、この用途には限定されない。つまり、本実施形態における被写体は、人物の頭部と、サッカーボール（以下ボールと呼ぶ）とであるとする。

図８は、本実施形態において想定される検出装置３０００の実施形態を説明するための図である。カメラ配置例８００は、本実施形態に係るカメラ配置及びピッチの俯瞰図であり、カメラ８０１〜８０６、３次元空間の原点８０７及び８０７を原点とした３次元座標のＸ軸、Ｙ軸及びＺ軸を示す８０８、８０９及び８１０、並びにピッチ８１１を有している。本実施形態において、各カメラは地面からある程度の高さの空間壁面に固定されており、及び、ピッチ上に存在する被写体を撮像するように設置されていてもよい。また、検出装置３０００の有する各カメラは、カメラキャリブレーションにより、それぞれ内部パラメータ及び外部パラメータが与えられている。よって、以下においては、検出装置３０００は、被写体の３次元座標から、被写体のピクセル座標を求めることができるものとする。カメラキャリブレーションについては公知の技術であるため、詳細な説明は省略する。またこの例において、Ｘ軸８０８とＺ軸８１０がなす平面が地面であり、及びＹ軸８０９が高さを表す方向である。

人物配置例８２０は、同空間中に存在する人物とボールのある時刻での配置の一例である。人物配置例８２０のピッチ８１１は、カメラ配置例８００のピッチ８１１と同じピッチである。８２１は同ピッチのハーフウェーラインであり、及び８２２はセンターマークである。Ａ０、Ａ１、Ａ２、Ａ３及びＡ４は、Ａチームの選手（人物）で、並びに、Ｂ０、Ｂ１、Ｂ２、Ｂ３及びＢ４は、Ｂチームの選手（人物）である。また、Ｓ０はボールである。

画像例８３０、８４０、８５０、８６０、８７０、及び８８０は、人物配置例８２０の人物及びボール配置を、それぞれカメラ８０１、８０２、８０３、８０４、８０５及び８０６で撮像した場合の画像例である。また、各画像例におけるＡ０、Ａ１、Ａ２、Ａ３、Ａ４、Ｂ０、Ｂ１、Ｂ２、Ｂ３、及びＢ４、並びにＳ０は人物及びボールであり、人物配置例８２０のＡ０、Ａ１、Ａ２、Ａ３、Ａ４、Ｂ０、Ｂ１、Ｂ２、Ｂ３、及びＢ４並びにＳ０にそれぞれ対応する。

図２（ｃ）は実施形態３に係る検出装置３０００の機能構成の一例を示すブロック図である。検出装置３０００は、撮像部３１００と処理部３２００とを有する。撮像部３１００は、第１の動画取得部３００１と、第Ｋの動画取得部３００２と、図中で省略されている動画取得部との、計Ｋ個の動画取得部を有している。例えば、図８の例においては、カメラの数は６台であるため、Ｋは６となる。本実施形態に係るこれらの動画取得部は、それぞれ実施形態１における動画取得部１００１と同様の構成を有する。処理部３２００は、図２（ｃ）の例においては、初期値設定部３００３、予測部３００４、領域設定部３００５、検出部３００６、対応付け部３００７、重み計算部３００８、更新部３００９、及び可視化部３０１０を有する。

初期値設定部３００３は、検出処理の初期時刻における、被写体の位置、姿勢、及び速度の値を設定する。予測部３００４は、各被写体の３次元空間上の位置、姿勢、及び速度の予測を行い、及び、カメラそれぞれについて被写体の観測値の予測を行う。詳しい説明は後述するが、観測値とは、被写体のピクセル座標上での位置及び検出のスコアである。領域設定部３００５は、現時点における検出対象領域を設定する。検出部３００６は、領域設定部３００５が設定した検出対象領域及び各カメラが取得する画像から、その画像における検出対象領域での被写体の検出を行い、及び、被写体の位置及びスコアを取得する。対応付け部３００７は、前回の被写体の像と今回の被写体の像とを対応付ける。重み計算部３００８は、各カメラのそれぞれの観測値の重みを計算する。更新部３００９は、各被写体について、前回のループにおける観測値と観測値の重みとを用いることにより、その被写体の状態、つまり位置、姿勢、及び速度を更新する。可視化部３０１０は、各被写体の、検出を行った時刻での位置の軌跡を可視化する。処理部３２００の有するこれらの機能部が行う処理の詳細については、図３（ｃ）のフローチャートと共に後述する。処理部３２００は、実施形態１の処理部１２００と同様にモニタリング部１３００と接続されていてもよい。

本実施形態に係る検出装置は、被写体の観測値から、被写体の状態を推定することができる。３次元空間上での被写体の追尾の枠組みを説明するにあたり、検出装置３０００により検出される被写体の観測値と、その観測値から推定される被写体の状態変数とについて説明する。検出装置３０００による被写体の観測値とは、被写体の、撮像画像のピクセル座標上での位置（ｕ、ｖ）及びスコア（ｑ）であり、計３次元の（ｕ、ｖ、ｑ）で表されてもよい。被写体の位置（ｕ、ｖ）は、被写体を囲むバウンディングボックスの中心の位置であり、そのバウンディングボックスの座標情報及びバウンディングボックスを含む検出対象領域の座標情報から、検出装置３０００が算出することができる。また、同一の被写体についてのスコア（ｑ）の値は、その被写体を含む検出対象領域のサイズによって異なり得る。

被写体の状態変数とは、被写体の３次元空間上の状態、つまり位置、姿勢及び速度を表す変数である。つまり、この状態変数を推定することにより、検出装置が、被写体の３次元空間上での位置を推定し、及び被写体の追尾を行うことができる。本実施形態に係る検出装置３０００は、被写体の状態変数を、その被写体の観測値から推定することができる。

予測部３００４は、前回のループにおける被写体の状態変数から、現時点における状態変数及び観測値の予測分布を取得することができる。本実施形態においては被写体が頭部又はボールであるので、それぞれについての状態変数を考慮する。頭部の状態変数は、被写体の３次元空間上の位置（ｘ、ｙ、ｚ）、姿勢（φ、θ、ψ）、及び速度（ｘ’、ｙ’、ｚ’）の計９次元の変数として与えられる。また、ボールの状態変数は、ボールが球形であり、その姿勢の変化によってもカメラから見た形状が不変であることから、被写体の３次元空間上の位置（ｘ、ｙ、ｚ）及び速度（ｘ’、ｙ’、ｚ’）の計６次元の変数として与えられる。つまり、観測値ｙ、頭部の状態変数ｘ^ｈｅａｄ、及びボールの状態変数ｘ^ｂａｌｌは、下記の式で記述されることができる。

上記の式において、添え字ｔは時刻を表す。また、ｋ_ｓｊは、カメラｋによる撮像画像内における、サイズｓの検出対象領域におけるｊ番目の検出対象領域の観測値を表す。Ｔは転置である。また、添え字ｎは人物を表し、本実施形態においては、その人物の、ＩＤのような識別情報の値であってもよい。

さらに、後述するステップＳ６００６の処理により、ｎとｋ_ｓｊの対応付けが行われる。結果として、ｙ_{ｔ，ｋｓｊ}はｙ_{ｔ、ｋ、ｓ、ｎ}＝［ｕ_{ｔ，ｋ，ｓ，ｎ，}、ｖ_{ｔ，ｋ，ｓ，ｎ，}、ｑ_{ｔ，ｋ，ｓ，ｎ，}］^Ｔと対応付けられる。ここで、ｙ_{ｔ、ｋ、ｓ、ｎ}は、カメラｋによる撮像画像内の、サイズｓの検出対象領域における時刻ｔの被写体ｎの観測値を表す。本実施形態においては、上述の観測値及び状態変数を持つ状態空間モデルを用いることにより、観測値から状態を推定する拡張カルマンフィルタを用いて、頭部とボールの検出及び追尾を行う。拡張カルマンフィルタについては公知であるため、詳細な説明は省略する。

図３（ｃ）は本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。ループＬ６００１において、検出装置３０００は、時刻１からｔまで、以下のステップＳ６００２〜Ｓ６００９の操作を順に繰り返し、及び次の時刻に進むことができる。ステップＳ６００１において初期値設定部３００３は、開始時刻（ｔ＝１）における被写体の初期の状態の取得を行う。開始時刻において、被写体の状態変数における速度及び姿勢は０とすることができる。また、被写体の状態変数における位置は、検出対象領域内の複数の被写体の観測値と被写体とを対応付けることを考えて、その被写体の３次元座標上の正しい位置の値に近い値であってもよい。

以下、被写体の３次元座標上の正しい位置の値（ｘ、ｙ、ｚ）に近い値を取得する方法について説明する。ステップＳ６００１において初期値設定部３００３は、各カメラの撮像画像内から被写体を検出し、及びそれぞれのカメラのピクセル座標上での被写体の位置（ｕ、ｖ）を取得する。次いで、初期値設定部３００３は、被写体の種類に応じて被写体の高さ方向の値ｙを仮定する。観測値と被写体の対応付けのためには被写体の高さｙの正確な値は必要ではないことから、初期値設定部３００３は、被写体の高さを、大まかな値として仮定してもよい。例えば、初期値設定部３００３は、頭部の高さを１．５ｍ、及びボールの高さを０．１ｍと仮定してもよい。以下においては、説明のため頭部の高さを１．５ｍ、及びボールの高さを０．１ｍであると仮定して説明を行うが、被写体の高さはそのように限定されるわけではない。次いで、初期値設定部３００３は、透視投影行列を用いることにより、そのような（ｕ、ｖ）から、被写体の３次元空間上の位置（ｘ、１．５、ｚ）又は（ｘ、０．１、ｚ）を取得する。

さらに初期値設定部３００３は、すべてのカメラにおいて取得された各被写体の３次元座標上の位置から、同一の被写体の像を対応付ける。初期値設定部３００３は、例えば、取得された各被写体の３次元座標上の位置を、例えば公知のｋ−ｍｅａｎｓ法のような手法によってクラスタリングし、及び、クラスタリングされた各クラスタに含まれる被写体を同一の被写体としてもよい。そのような場合、初期値設定部３００３は、各クラスタに含まれる位置の値の平均を取る事により、各被写体の初期の位置（ｘ、ｙ、ｚ）を取得してもよい。

このような処理により、初期値設定部３００３は、ボールの状態変数の初期値ｘ^ｂａｌｌ _０，ｎ＝（ｘ_０，ｎ、０．１、ｚ_０，ｎ、０、０、０）を取得することができる。また、初期値設定部３００３は、頭部の状態変数の初期値ｘ^ｈｅａｄ _０，ｎ＝（ｘ_０，ｎ、１．５、ｚ_０，ｎ、０、０、０、０、０、０）も取得することができる。これらの初期値は、状態変数の初期のフィルタ分布（事後分布）の１次モーメント（平均）ｘ_{０｜０，ｎ}とすることができる。そのような場合、状態変数の初期のフィルタ分布の２次モーメント（分散共分散行列）は、適当な大きさの半正定値行列であってもよい。

ステップＳ６００２において、予測部３００４は、各被写体の状態変数及び観測値の予測分布を取得する。予測部３００４は、例えば、下記のシステム方程式（３）を用いることにより、頭部である被写体についての予測分布を取得することができる。この式において、Δｔは、Ｌ６００１における前回から今回までの時間幅（秒）を表す。また、ｓ_ｔは、プロセスノイズと呼ばれる（すなわち、例えば予測プロセス中に発生するノイズである）白色ガウスノイズである。Ｑ_ｔはＳ_ｔの分散逆分散行列である。本実施形態においては、予測部は式（３）を用いて被写体の状態変数の予測分布を取得するものとして説明するが、その手法が特に限定されるわけではない。このシステム方程式において、被写体の位置（ｘ、ｙ、ｚ）の変化は、２次のマルコフ過程でモデル化した被写体の位置及び速度のトレンド成分モデルとして扱われている。さらに、姿勢（φ、θ、ψ）は、被写体の姿勢の１次のマルコフ過程としてモデル化されている。

また、被写体がボールである場合のシステム方程式は、式（３）から姿勢（φ、θ、ψ）に関する次元を無視した、下記のシステム方程式（４）を用いる。以降においては、簡単のため、頭部とボールを明確に区別する必要がある場合を除き、ｘ^ｈｅａｄ _ｔｎ及びｘ^ｂａｌｌ _ｔｎを、ｘ_ｔｎのように表記する。

予測部３００４は、後述する観測方程式（６）及び（７）、並びに（８）又は（８’）を用いることにより、被写体の観測値の予測分布を取得することができる。観測方程式（６）及び（７）は、下記の式（５）に基づいて導出される。式（５）は、３次元空間上の点をカメラのピクセル座標上に射影する式である。上述の通り、検出装置３０００の有するカメラの内部パラメータ及び外部パラメータは予め取得されているので、検出装置３０００は、３次元空間上の点をピクセル座標上に射影することができる。そのような射影は、下式（５）のように記述することができる。ここで、ｐ_ｘｘ，ｋは、カメラｋにおける透視投影行列の各要素である。γは、同時座標系のパラメータである。

予測部３００４は、式（５）に基づいて、下記の観測方程式（６）及び（７）を上述の通り導出することができる。これらの観測方程式により、予測部３００４は、被写体の３次元空間上の位置（ｘ、ｙ、ｚ）から、被写体の観測値である位置（ｕ、ｖ）を算出することができる。ｗ_ｔは、観測ノイズと呼ばれる白色ガウスノイズである。

式（６）及び（７）とはつまり、被写体の３次元空間上の位置（ｘ、ｙ、ｚ）がピクセル座標（ｕ、ｖ）として観測される過程をモデル化した式である。本実施形態においては、複数のカメラが非同期であることによるカメラそれぞれが取得する被写体の位置のずれ、及び一部カメラのコマ落ちによる被写体の位置のずれが発生する。また、検出装置３０００の処理過程で発生する被写体の位置のずれ、及びカメラキャリブレーションの誤差に伴う被写体の位置のずれも発生する。ｗ_ｔは、これらの要因により検出装置３０００に観測されると考えられる、３次元空間上の被写体の位置のずれをモデル化したものである。

また、下記の観測方程式（８）及び（８’）は被写体のスコアについての観測方程式であり、それぞれ被写体が頭部である場合とボールである場合とに対応する。

ここで、Ｃ_ｋはカメラｋの３次元空間上の位置を表す。また、||ｘ−Ｃ||_２は被写体とカメラとのユークリッド距離を表す。α_ｓ ^（０）、α_ｓ ^（１）、α_ｓ ^（２）、α_ｓ ^（３）、及びα_ｓ ^（４）はモデルパラメータである。θ_ｘ、θ_ｙ、及びθ_ｚは、カメラの外部パラメータの回転行列をＲとし、及び頭部の姿勢（φ、θ、ψ）から得られる回転行列をＲｏとしたときの行列（下記の式（９））の要素を用いて表現できる。例えばこの場合、θ_ｘはａｓｉｎ（ｒ_３２）、θ_ｙはａｔａｎ（−ｒ_３１／ｒ_３３）、及びθ_ｚはａｔａｎ（ｒ_２１／ｒ_１１）と表現することができる。

式（８）及び（８’）は、被写体のスコアを検出装置３０００が観測する過程をモデル化した重回帰モデルである。所定の被写体を検出する検出装置は、一般に、撮像された被写体の大きさ及び姿勢に基づいて出力するスコアを変化させ、及び、そのようなスコアに応じて被写体を検出することができる。また一般に、撮像画像中の被写体の大きさは、カメラと被写体との距離と相関関係にあることが多い。そのため、検出装置３０００は、カメラと被写体との距離に応じて被写体のスコアを変化させてもよい。また、検出のための学習データに偏りがない検出装置は、検出する被写体が撮像画像内において大きく映し出されている場合に、その被写体について、テクスチャなどの画像特徴量をロバストに取得し、及び検出のスコアも高くなる。また、特に検出する被写体が人物である場合、その人物がカメラに対して正面を向いている場合に、目、鼻及び口などの識別に関わる重要なパーツの見えが安定するため、検出のスコアが高くなる傾向がある。逆に人物がカメラに対して反対の方向を向いている場合には、識別の手がかりとなるそのようなパーツの見えが少なくなり、検出のスコアが低くなる傾向がある。一方で、ボールを被写体とする場合には、ボールは姿勢の変化による形状の変化が生じないため、被写体とカメラとの距離のみに応じて検出のスコアが変化してもよい。

式（８）の第１項は定数項である。また、式（８）の第２項は、カメラから被写体までの距離とその被写体のスコアとの関係を表す項である。式（８）の第３、４、及び５項は、カメラから見える頭部の姿勢とその被写体のスコアとの関係をコサイン関数でモデル化した項である。さらに、第６項はノイズ項である。これらの要素を要因とする被写体のスコアの変化は、検出対象領域のサイズに応じて異なってくると考えられるため、式（８）及び（８’）のモデルパラメータα_ｓ ^（０）〜_αｓ ^（４）は検出対象領域のサイズに基づいて異なる値を取ってもよい。また、上述の理由によりボールの検出には姿勢の変化が関わってこないため、ボールを検出する場合のスコアの観測方程式としては、式（３’）のモデル化が行われてもよい。

予測部３００４は、モデルパラメータα_ｓ ^（０）、α_ｓ ^（１）、α_ｓ ^（２）、α_ｓ ^（３）、及びα_ｓ ^（４）の推定を行うことができる。この推定の方法は特に限定されない。例えば、予測部３００４は、撮像画像中の複数の頭部に、それぞれ３次元空間上の向きの正解値を付与し、頭部それぞれについてのスコアを取得することができる。次いで、予測部３００４は、そのような向きの情報とスコアを持つ頭部のサンプルを複数用いて最小２乗法を行うことによりパラメータの推定を行ってもよい。最小２乗法は複数のデータの組（ｘ、ｙ）が与えられた場合にｘとｙの関係を表すもっともらしい関数を求める方法であるが、公知の技術であるため、詳細な説明は省略する。例えば、予測部３００４は、後述する式（１６）の尤度関数を用いることにより、被写体の観測値に対するモデルの尤度を計算してもよい。そのような場合、予測部３００４は、多数の観測値から式（１６）を用いて対数尤度を算出し、及び、グリッドサーチやベイズ最適化法のような公知のパラメータ探索手法を用いることによって、対数尤度を最大化させるモデルパラメータを推定することができる。例えば、尤度関数を用いる上記の方法を用いてモデルパラメータを推定することにより、予測部３００４は、ユーザ入力による正解値の付与を必要としない、効率的なモデルパラメータの推定を行うことができる。また、モデルパラメータを推定する方法はこれらには限られず、例えば、ＥＭ法を用いた再帰的な探索方法、又はモデルパラメータも状態空間に組み込んだ自己組織的なモデルとする方法などにより行われてもよい。上述の手法については、公知の技術であるため、詳細な説明は省略する。

以下においては、上述の式（６）、（７）、（８）及び（８’）をまとめ、下記の式（１０）のように表現する。ここで、観測ノイズｗ_ｔの分散共分散行列はＲであるとする。また、この式（１０）から、尤度関数Ｐ（ｙ_{ｔ，ｋｊ，ｓ}｜ｘ_ｔ，ｎ）が取得される。
ｙ_{ｔ，ｋ，ｊ，ｓ}＝ｈ_{ｔ，ｋ，ｓ}（ｘ_ｔ，ｎ）＋Ｗ_ｔ式（１０）

以上のシステム方程式及び観測方程式を用いた下記の式（１１）〜（１４）により、予測部３００４は、被写体（頭部）ｎの１時刻前（時刻ｔ−１）の状態から、被写体の現在（時刻ｔ）の状態及び観測値を予測することができる。ここで、ｘ_{ｔ｜ｔ−１，ｎ}及びＶ_{ｔ｜ｔ−１，ｎ}は状態変数の予測分布の１次モーメント及び２次モーメントをそれぞれ表す。また、ｙ_{ｔ｜ｔ−１，ｋ，ｓ，ｎ}及びＵ_{ｔ｜ｔ−１，ｋ，ｓ，ｎ}は観測値の予測分布の１次モーメント及び２次モーメントをそれぞれ表す。また、Ｑ_ｔはプロセスノイズの分散共分散行列を、Ｒ_ｔは観測ノイズｗ_ｔの分散共分散行列を表す。Ｈ_{ｔ，ｋ，ｓ}はｈ_{ｔ，ｋ，ｓ}（ｘ_ｔ，ｎ）のヤコビ行列である。

以降において、簡単のため、上述の式（１１）〜（１４）に示される１次モーメント及び２次モーメントを有するガウス分布に従う状態変数並びに観測値の予測分布を、Ｐ（ｘ_ｔ，ｎ｜Ｙ_ｔ−１）並びにＰ（ｙ_{ｔ，ｋ，ｓ，ｎ}｜Ｙ_ｔ−１）と表現する。ここで、Ｙ_ｔ−１は時刻ｔ−１までの被写体の観測値の集合である。また、ｙ_{ｔ，ｋ，ｓ，ｎ}は、時刻ｔの、カメラｋによる撮像画像中の、サイズｓの検出対象領域内の、被写体ｎの観測値である。なお、時刻ｔ＝１である場合、被写体の観測値及び状態変数は初期値であるものとする。

ステップＳ６００３において領域設定部３００５は、後述のステップＳ６００５において被写体の検出に用いる検出対象領域を設定する。図９は、ステップＳ６００３における検出対象領域の設定を行うための処理手順の一例を示すフローチャートである。

ステップＳ７００１で領域設定部３００５は、被写体を有する、前回のループで作成された第２候補領域のピクセル座標を取得する。ステップＳ７００１で用いられる第２候補領域は、後述のステップＳ７００４で検出対象領域を選定する際の候補であり、ステップＳ７００３で各被写体に対してそれぞれ異なる第２候補領域がそれぞれ１つずつ割り当てられるように作成される。そのように第２候補領域が割り当てられた被写体を、その第２候補領域における代表被覆要素と呼び、及び、その第２候補領域が有する他の被写体を、非代表被覆要素と呼ぶ。また、領域設定部３００５は、代表被覆要素である被写体の現時点における予測位置に基づいて、その被写体に割り当てられた第２候補領域を移動させることができる。各被写体の現時点におけるピクセル座標は、ステップＳ６００２において予測されている（つまり、観測値の予測分布の１次モーメント（式（６）））。例えば、領域設定部３００５は、代表被覆要素の前回の位置から現時点の位置への移動と同様に第２候補領域を移動させてもよく、又は、第２候補領域の中心座標が代表被覆要素の予測位置と一致するように、第２候補領域を移動させてもよい。また、第２候補領域に対して代表被覆要素が割り当てられていない場合、領域設定部３００５は、そのような第２候補領域を移動させなくてもよい。また、代表被覆要素が全てのカメラの視野から出ていった場合、領域設定部３００５は、対応する第２候補領域を削除してもよい。時刻ｔ＝１の場合には、第２候補領域が存在しないので、処理はステップＳ７００２へと移動する。

Ｂ７００１で領域設定部３００５は、全被写体の被覆をチェックする。例えば、領域設定部３００５は、前回のループで作成された第２候補領域と、Ｓ６００２において予測された被写体の位置に基づいて、全ての被写体が第２候補領域のどれかに被覆されているかどうかを判定することができる。全ての被写体が第２候補領域に被覆されていない場合、第２候補領域の割り当てを行うことができる。また、領域設定部３００５は、第２候補領域が割り当てられていない被写体が存在するかどうかを判定することができる。領域設定部３００５は、前回の検出から新たにいずれかのカメラの視野内に移動してきた被写体がいないかどうかを判定してもよい。第２候補領域が割り当てられていない被写体が存在する場合、第２候補領域の割り当てを行うことができる。また、時刻ｔ＝１の場合も、被写体に第２候補領域を割り当てることができる。第２候補領域の割り当てを行う場合、ステップＳ７００２へと移動する。そうでない場合は、ステップＳ７００４へと移動する。

ステップＳ７００２で領域設定部３００５は、各カメラ毎に、候補領域（実施形態１のステップＳ４００４と同様に作成される）の集合から、各撮像画像内に存在する被写体をすべて被覆するように１以上の第１候補領域を選定する。領域設定部３００５は、例えば、ステップＳ４００４と同様に、候補領域から、被写体を被覆していない領域を取り除いてもよい。次いでステップＳ７００３において、領域設定部３００５は、すべてのカメラについて選定された第１候補領域の集合から、すべての被写体に対してそれぞれ少なくとも１つずつの異なる領域が割り当てられるように、第２候補領域を選定する。そのためには、例えば、領域設定部３００５は、下記の整数計画問題（式（１５））を解くことにより、第２候補領域を選定することができる。ここで、ｉは被写体のインデックスであり、ｍは被写体の数の合計である。またｊは候補領域のインデックスであり、ｓ_ｊは候補領域のスコアである。ｘ_ｊは、候補領域が選定されればｘ_ｊ＝１となり、そうでない場合は０となる。またａ_ｉｊは、候補領域ｊが被写体ｉを被覆する場合は１、そうでない場合は０となる。この時、領域設定部３００５は、各被写体の検出のスコアの予測値から、実施形態１の図７の例のように、その領域の有する被写体のスコアの内の最も高いスコアの予測値を、その領域のスコアとして用いることができる。領域設定部３００５は、式（１５）について、貪欲法又はハンガリー法などを用いることにより、上述の割り当てを行うことができる。このように、被写体に対して第２候補領域を割り当てることができ、ある第２候補領域が割り当てられた被写体がこの第２候補領域についての代表被覆要素として扱われる。

ステップＳ７００４において領域設定部３００５は、第２候補領域から、後述のステップＳ６００５において用いる検出対象領域を選定する。領域設定部３００５は、例えば、そのような第２候補領域を候補領域として、実施形態１における式（１）を解くことにより、検出対象領域を求めてもよい。

図１０は、図８と同様の例であり、本実施形態において想定される検出装置３０００が撮像する６視点の画像を用いて、第２候補領域及び検出対象領域を説明するための図である。各視点の画像は図８における同一の参照番号がふられた視点のものと等しい。各画像には、図８の各画像と同様の被写体（Ａ１〜４、Ｂ１〜４及びＣ０）が映っている。図１０における画像例１４００、１４１０、１４２０、１４３０、１４４０、１４５０、及び１４６０は、それぞれカメラ（視点）８０１、８０２、８０３、８０４、８０５、及び８０６による撮像画像の例である。図１０において、領域１４０１は第２候補領域Ｃ１であり、最終的に検出対象領域として選定される。また、領域１４１１及び１４１２はそれぞれ第２候補領域Ｃ２及びＣ３であり、並びに、最終的に、Ｃ２は検出対象領域として選定されないが、Ｃ３は検出対象領域として選定される。領域１４２１は第２候補領域Ｃ４であり、最終的に検出対象領域として選定される。領域１４３１、１４３２、１４３３及び１４３４はそれぞれ第２候補領域Ｃ５、Ｃ６、Ｃ７及びＣ８であり、並びに、最終的に、Ｃ５及びＣ６は検出対象領域として選定されないが、Ｃ７及びＣ８は検出対象領域として選定される。領域１４４１、１４４２及び１４４３はそれぞれ第２候補領域Ｃ９、Ｃ１０及びＣ１１であり、並びに、最終的に、Ｃ９、Ｃ１０及びＣ１１は検出対象領域として選定される。画像例１４５０には第２候補領域は存在しない。

図１０に示される第２候補領域をリスト化した表の一例が、図１１に示されている。図１１において、上述のように、すべての被写体（この例では１１個）について１つずつ第２候補領域が割り当てられている。第２候補領域の数は、被写体それぞれに少なくとも１つずつ割り当てられるそれぞれ異なる第２候補領域が存在する限りは特に限定されない。例えば、各被写体に対して異なる第２候補領域が２つずつ、つまりこの例では計２２個の第２候補領域が存在していてもよい。

図１２には、図１１に示される第２候補領域から式（１）に基づいて選定された検出対象領域をリスト化した表の一例が示されている。ステップＳ７００４で領域設定部３００５は、第２候補領域のスコアに基づいて式（１）の条件付き最適化を実行することにより、スコアの合計が最大となる、図１２に示されるような最終的な検出対象領域を選定することができる。この例においては８つの検出対象領域が選定されており、及び、被写体毎に１つずつの検出対象領域を設定する場合と比較すると、計算コストが軽減されている。

このような処理によれば、第２候補領域と、現時点のループにおける検出を行うための検出対象領域と、を設定することができる。ステップＳ７００３で選定された第２候補領域は、次回のループにおけるステップＳ７００４においても用いるため、領域設定部３００５は、第２候補領域を記憶装置（不図示）に格納してもよい。また、Ｂ７００１において第２候補領域の割り当てが行われなかった場合には、ステップＳ７００１で移動させた第２候補領域を記憶装置に格納してもよい。ここにおける記憶装置は検出装置３０００の内部に存在していてもよく、また外部に存在していてもよい。また、検出装置３０００は、記憶装置に、ＵＳＢケーブルを介して保存を行ってもよく、ＳＤカードなどを介して保存を行ってもよく、又は無線の通信を介して保存を行ってもよい。

ステップＳ６００４において、撮像部３１００の有するＫ台の動画取得部が、ある時刻においてそれぞれ撮像画像を取得する。これらのＫ台の動画取得部が有するカメラの撮像は、どのように制御されていてもよい。例えば、Ｋ台のカメラのシャターは、トリガーパルス、同期信号のような電気的な信号によって同期された周期で撮像されてもよく、又はカメラ内部のマイクロコントローラのクロックによってそれぞれ自律的な周期によって撮像されてもよい。また、Ｋ台のカメラの内の同時刻に撮像する台数は特に限定されない。例えば、Ｋ台の内半数のカメラが同時に撮像を行い、その後に続いて残りの半数のカメラが同時に撮像を行ってもよい。また、撮像部３１００と処理部３２００との接続手段は特に限定されない。撮像部３１００及び処理部３２００は、例えばローカルエリアネットワークなどの通信経路を介して接続されていてもよく、ＵＳＢケーブルなどを介して有線で接続されていてもよい。例えば、撮像部３１００は、出力した撮像画像を不図示の記憶装置に格納し、及び、処理部３２００が、その記憶装置から所定のフレームを取得してもよい。

本実施形態においては、説明のため、撮像部と処理部は通信経路を介して接続されているとする。そのような構成によれば、撮像部３１００が取得及び送信し、並びに処理部３２００が受信する撮像フレームは、ネットワーク経路に存在するスイッチングハブなどの中継部のパフォーマンス又は帯域の制限などにより、コマ落ちを生じ得る。そのような観点から、本実施形態に係る処理装置は、撮像部３１００が取得したフレームを全ての時刻においてバッファリングしてもよい。そのような場合、コマ落ちが発生した際にその時刻で取得されるフレームは、前時刻に取得されたフレームと同じであってもよい。

ステップＳ６００５において検出部３００６は、ステップＳ６００４で取得された撮像画像のうち、ステップＳ６００３で設定した検出対象領域から、被写体を検出する。本実施形態においては、実施形態１で用いたものと同様の構成を有する検出装置を用いる。また、この例においては、被写体が人物の頭部又はサッカーボールであることから、特に頭部とボールとを検出するように学習された検出装置を用いてもよい。

ステップＳ６００６において対応付け部３００７は、各カメラにおいて、時刻ｔにおける撮像画像から得られる被写体の観測値と、３次元空間上の被写体との対応付けを行う。対応付け部３００７は、時刻ｔにおいて、カメラｋによる撮像画像中のサイズｓの検出対象領域中に誤検出を含んだＪ個の観測値｛ｙ_{ｔ，ｋｓ１}、ｙ_{ｔ，ｋｓ２}…ｙ_{ｔ，ｋｓＪ}｝を得ることができる。この時、式（１３）及び（１４）により予測部３００４が取得する観測値の予測分布の１次モーメント及び２次モーメントから、任意のｊ番目の観測値に対して、下記のガウス分布（式（１６））が記述される。この関数に観測値ｙ_{ｔ，ｋｓｊ}を因数として与えることにより、対応付け部３００７は、被写体ｎの観測値としての尤度ｌ_{ｋｓｊ，ｎ}を算出することができる。対応付け部３００７は、例えば、複数の観測値｛ｙ_{ｔ，ｋｓ１}、ｙ_{ｔ，ｋｓ２}…ｙ_{ｔ，ｋｓＪ}｝それぞれに式（１６）を適用し、及び、尤度の高い観測値を被写体ｎの観測値として対応付けることにより、観測値と被写体の対応付けを行うことができる。時刻ｔが１である場合、つまり初回のループである場合は、検出された被写体それぞれについて識別情報を割り振る。
ｌ_{ｋｓｊ，ｎ}＝Ｎ（ｙ_{ｔ，ｋｓｊ}；ｙ_{ｔ｜ｔ−１，ｋ，ｓ，ｎ}、Ｕ_{ｔ｜ｔ−１，ｋ，ｓ，ｎ}）式（１６）

ステップＳ６００６における対応付けの方法は特に限定されない。例えば、対応付け部３００７は、貪欲法に基づいて、被写体の複数の観測値の内の尤度が最大となる観測値を、その被写体の観測値として割り当てることができる。また例えば、対応付け部３００７は、線形計画法によって、それぞれの被写体の観測値の尤度の和が最大になるように、被写体と観測値を対応付けてもよい。そのような場合は、例えば、観測値並びに予測分布の１次モーメント及び２次モーメントに基づいて算出されるマハラノビス距離を用いて、マハラノビス距離の和が最小となる対応付けをハンガリアン法で計算することで、尤度の和が最大になる対応付けが取得できる。

ステップＳ６００７において重み計算部３００８は、時刻ｔにおける各観測値の重みを算出する。重み計算部３００８は、例えば、被写体が他の被写体によって隠蔽されている場合に、その隠蔽されている被写体の重みを低く計算することができる。本実施形態においては、対応付け部３００７は、そのような隠蔽の発生する確率、つまり予測隠蔽率を予測、及び定量化してもよい。また、対応付け部３００７は、そのような予測隠蔽率を、被写体と他の被写体との観測値の予測分布の類似度、及びカメラに対する被写体と他の被写体との前後関係に基づいて定量化することができる。

以下、本実施形態に係る、被写体の観測値の予測分布の１次モーメントのみを用いた、予測隠蔽率の軽量な定量化方法を説明する。この計算過程は特に限定されないが、この例においてはコサイン類似度を用いることにより観測値の予測分布の類似度を表現する。すなわち、重み計算部３００８は、被写体ｎと被写体ｍとの間の類似度を、ｃｏｓ^β（ｙ_{ｔ｜ｔ−１，ｋ，ｓ，ｍ}、ｙ_{ｔ｜ｔ−１，ｋ，ｓ，ｎ}）として表現することができる。ここで、βは予め与えられる所定のべき指数である。

また、重み計算部３００８は、カメラに対する被写体ｎと被写体ｍとの前後関係を、下記の式（１７）によって算出することができる。ここで、Ｃ_ｋは、カメラｋの３次元空間上の位置である。式（１７）の関数は、つまり、カメラｋから見て、被写体ｍが被写体ｎよりも近くに存在する場合には１を返し、そうでない場合には０を返す関数である。この式を用いることにより、重み計算部３００８は、下記の式（１８）から予測隠蔽率ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}を計算することができる。
ｍｉｎ（ｍａｘ（||ｘ_ｔ，ｎ−Ｃ_ｋ||_２−||ｘ_ｔ，ｍ−Ｃ_ｋ||_２、０）、１）式（１７）

ここで、Ｎ_{ｔ，ｋ，ｓ}は、時刻ｔにおける、カメラｋによる撮像画像中の、サイズｓの検出対象領域内に検出される被写体の数である。式（１８）は、カメラｋに対して、被写体の手前に別の被写体が存在し、及びカメラｋからそれらの被写体を結ぶ視線が類似しているときに、カメラｋから見て、その被写体がその被写体によって隠蔽されるという考え方に基づくものである。式（１７）とコサイン類似度とを乗算した値は、カメラｋに対して被写体ｍが被写体ｎよりも近い位置に存在し、及びそれらの被写体がピクセル座標上で近い位置に存在している場合に、１に近い値になる。式（１０）は、そのような計算を、ある被写体が他の被写体すべてに対して計算し及び正規化したものである。つまり、ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}が１である場合には被写体ｎが他の被写体に完全に隠蔽されており、ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}が０である場合には被写体ｎが全く隠蔽されていないことを示す。

式（１７）及び（１８）に渡って、重み計算部３００８は、観測値の予測分布の１次モーメントのみを用いることにより予測隠蔽率の定量化を行ったが、その方法は特にそれに制限されるものではない。例えば、重み計算部３００８は、観測値の予測分布の２次モーメントまでを考慮してＫＬダイバージェンス等で分布間の距離を、カメラから各被写体への視線の類似度として計量し、及びその値を用いることにより、予測隠蔽率の定量化を行ってもよい。また、本実施形態において重み計算部３００８は、被写体同士による予測隠蔽率を定量化したが、特にその条件に限るわけではない。例えば、重み計算部３００８は、被写体と、被写体以外の遮蔽物、例えば看板のような動かない遮蔽物と、の予測隠蔽率を定量化してもよい。ＫＬダイバージェンスは２つの確率分布がどの程度類似しているかを表す尺度であり、下記の式（２５）のように定義される。

ステップＳ６００８において、更新部３００９は、時刻ｔにおける観測値を用いることにより、被写体の状態変数の予測分布を更新し、及び、その被写体の状態変数のフィルタ分布の取得を行う。また、この際、本実施形態に係る状態空間モデルにおいて、特定の被写体に関する観測値の個数は、被写体の移動に伴ってその被写体を観測可能なカメラの数が変動することなどにより変化し得る。そのようなことを鑑みて、更新部３００９は、特定の被写体について、各カメラが出力する複数の観測値を統合することにより、その被写体の状態変数の予測分布を、その統合値として更新してもよい。以下において、フィルタ分布とは、被写体の状態変数のフィルタ分布を指してそう呼ぶものとする。

本実施形態においては、更新部３００９は、例えば、被写体について、予測隠蔽率ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}を考慮した観測値の統合を行うことができる。つまり、更新部３００９は、隠蔽が予測される観測値を、その予測隠蔽率に応じた重みを付与した上で、つまりその状態変数の更新への反映率を低下させて、他の観測値と統合することができる。また例えば、更新部３００９は、観測値ｑ_{ｔ，ｋ，ｓ，ｎ}のスコアを用いることにより、カメラに対する距離又は向きのような検出に好適な条件を有する可能性が高い被写体の観測値を、更新への反映率を増加させて、他の観測値と統合することができる。また、更新部３００９が観測値を統合する方法は特に限定されない。以下、そのような統合方法について、２つの方針を説明する。

［統合方法１］
更新部３００９は、例えば、各カメラの尤度関数Ｐ（ｙ_{ｔ，ｋｓｊ}｜ｘ_ｔ，ｎ）の観測ノイズ分散共分散行列Ｒ_ｔに、（１−ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}）とｑ_{ｔ，ｋ，ｓ，ｎ}の逆数をかけてもよい。続いて、更新部３００９は、各カメラが独立して観測値を取得しているという前提のもと、各カメラにおける観測値を同時分布として統合した統合尤度関数を、例えば下記の式（１９）のようにモデル化することができる。ここで、Ｙ_{ｔ，ＫＳｎ，ｎ}は、時刻ｔにおいて、複数のカメラの複数の検出対象領域内で観測される、被写体の観測値の集合である。また、Ｐ（ｙ_{ｔ，ｋ，ｓ，ｎ}｜ｘ_ｔ，ｎ、ｑ_{ｔ，ｋ，ｓ，ｎ}、ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}）の分散共分散行列は、（ｑ_{ｔ，ｋ，ｓ，ｎ}・（１−ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}））^−１・Ｒ_ｔであるとすることができる。つまり、この式は、被写体について、検出のスコアが小さいほど、及び予測隠蔽率が高いほど、その被写体の観測ノイズが大きくなるようにモデル化されることができる。

［統合方法１−１］
更新部３００９は、例えば、下記の式（２０）を用いて尤度関数の積の分布を計算することにより、通常の拡張カルマンフィルタの更新を適用することができる。つまり、更新部３００９は、尤度関数の積の分布から、状態変数の予測分布を推定することができる。ここで、Ｓ_ｋｎは、被写体ｎにおける、ある時刻でのカメラｋによる撮像画像中の検出対象領域の総数の値である。この方法によれば、更新部３００９は、用いられるカメラ数の値を与えられることにより、状態変数の予測分布を推定することができる。つまり、更新部３００９は、複数のガウス分布の積を予め計算し、及び１から所定数までの観測値についてガウス分布の積を関数として実装することにより、式（２０）の計算を行うことができる。

［統合方法１−２］
また、更新部３００９は、例えば下記の再帰的な式（２１）を用いることにより、尤度関数の積を算出することができる。このような方法によれば、例えば検出に用いられるカメラの総数が不明である場合にも、状態変数の予測分布を推定することができる。

［統合方法２］

更新部３００９は、例えば、統合尤度関数を、（１−ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}）とｑ_{ｔ，ｋ，ｓ，ｎ}の積を混合比として、各カメラの尤度関数Ｐ（ｙ_{ｔ，ｋｓｊ}｜ｘ_ｔ，ｎ）の混合分布で、下記の式（２２）のようにモデル化してもよい。この方針によれば、更新部３００９は、複数のカメラの視線（カメラの高額中心と被写体とを結ぶ直線）の交点以外の、各市洗浄にも尤度が分布する統合を行うことができる。

例えば、更新部３００９は、下記の式（２３）を用いて、それぞれ重みづけされたカルマンフィードバックの和を算出することにより、観測値の統合を行ってもよい。このような方法によれば、ガウス分布の積を用いたモデル化が行われないため、例えば検出に用いられるカメラの数が多い場合においても、分布の分散が縮退しない。つまり、すべてのカメラの観測値が除外されずに統合される。結果として、更新部３００９による、時間的変化が滑らかな状態変数の推定が可能になる。

これらの方法の何れかによれば、カメラ毎の観測値を統合し及び、そのような統合を反映させた更新を行うことにより、複数の観測値と予測の誤差を補正した状態変数のフィルタ分布の取得を実行することが可能となる。また、すべてのカメラにおいて、すべての被写体の予測隠蔽率ｐ^ｏｃｃ _{ｔ，ｋ，ｓ，ｎ}が１である場合、又はすべての観測値が欠損している場合には、更新部３００９は、フィルタ分布として、更新されていない状態変数の予測分布を取得してもよい。つまり、下記の式（２４）を実行すればよい。

ステップＳ６００９において可視化部３０１０は、被写体について、推定された３次元空間上の位置と、そのような推定位置の時系列と、の可視化を行う。つまり、被写体の推定位置を時系列に応じて可視化する。可視化部３０１０は、例えば、時系列に応じた被写体の推定位置を、仮想的な３次元空間上に描画することによって可視化を行ってもよく、又はカメラで取得した撮像画像上に軌跡や点として重畳表示させることによって可視化を行ってもよい。また、可視化部は、そのような可視化の結果をモニタリング部１３００へと送信することができる。次いで、次の時刻に映り、予測部３００４が、更新された状態変数を用いて、次の時刻における状態変数及び観測値の予測分布の取得を行う。

このような構成によれば、複数の撮像装置による複数の撮像画像から、少なくとも一つの撮像画像において、各被写体が検出対象領域に被覆される検出対象領域を設定することができる。つまり、前回のループにおける被写体の状態の予測値、及び複数のカメラで取得した画像による被写体の観測値に基づいて、被写体の３次元空間上の状態を予測することができる。また、予測された現時点での被写体の状態に基づいて、被写体の撮像画像上における座標及びスコアの予測値をさらに取得し、その被写体の座標及びスコアに基づいて検出対象領域を設定し、及び被写体を検出することができる。さらに、次回の時刻において予測される被写体の検出のスコアを最大化させる領域を設定することができる。したがって、３次元空間上に存在する複数の被写体、特にこの例では頭部とボールの、位置及び時系列に応じた軌跡の推定を、処理コストの軽減及び検出精度の向上を両立させながら実行することができる。

［実施形態４］
実施形態４に係る検出装置は、被写体の予測位置に応じて、撮像装置の姿勢を制御し、及び、そのような姿勢制御量に基づいて検出対象領域を設定する。図１３は、実施形態４に係る検出装置の機能構成の一例を示すブロック図である。本実施形態に係る検出装置８０００は、パン、チルト及びズーム操作（以下ＰＴＺ操作と呼ぶ）が可能なカメラを用いて、処理コストを抑制した被写体の追尾を行うことができる。そのために、検出装置８０００は、撮像部８１００及び処理部８２００を持つ。撮像部８１００及び撮像部８１００が有するＫ個の動画取得部（例えば、８００１及び８００２）は、ＰＴＺ操作が可能であることを除き、実施形態３における撮像部３１００及び撮像部３１００の有するＫ台の動画取得部と同様であるため、重複する説明は省略する。ＰＴＺ操作とは、水平方向の向き制御であるパニング操作、垂直方向の向き制御であるチルティング操作、及び被写体の拡大縮小を行うズーム操作のいずれか１つ以上を含む操作のことである。つまり、ＰＴＺ操作が可能である動画取得部はＰＴＺ操作によって撮像範囲を水平方向、垂直方向、又はこの２つの方向を組み合わせた方向に制御することができる。処理部８２００は、制御部８００３を有することを除き実施形態３における処理部３２００と同様の構成を有しており、重複する説明は省略する。制御部８００３は、各動画取得部を制御することによって、撮像部８１００の撮像範囲を制御する。例えば、制御部８００３は、各動画取得部をＰＴＺ操作することにより撮像部８１００の撮像範囲を制御することができる。

図１４は、本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。本実施形態に係る検出装置８０００の処理手順は、ステップＳ９００１、Ｓ９００３、Ｓ９００４を除き、実施形態３と同様に行うことができる。

ステップＳ９００１において初期値設定部３００３は、検出処理の初期時刻において、被写体の位置、姿勢、及び速度の値を設定し、並びに、カメラの各制御パラメータを初期化し及び初期値として設定する。被写体の位置、姿勢、及び速度の値の設定については、実施形態３と同様であるため説明は省略する。この例においては、カメラの時刻ｔにおけるパン角、チルト角、及びズーム量のそれぞれの状態は、Ｐ_ｔ、Ｔ_ｔ、及びＺ_ｔと表される。また、ＰＴＺ操作のそれぞれの可動範囲は、Ｐ_ｍｉｎ≦Ｐ_ｔ≦Ｐ_ｍａｘ、Ｔ_ｍｉｎ≦Ｔ_ｔ≦Ｔ_ｍａｘ、及びＺ_ｍｉｎ≦Ｚ_ｔ≦Ｚ_ｍａｘ、と表される。また、ＰＴＺ操作によって制御される、撮像範囲の制御量（以下、これをＰＴＺ制御量と呼ぶ）は、それぞれΔＰ_ｔ、ΔＴ_ｔ、及びΔＺ_ｔと表される。時刻ｔにおけるＰＴＺ制御の、１時刻における制御可能なＰＴＺ制御量の範囲は、Δ_ｍｉｎＰ_ｔ≦ΔＰ_ｔ≦Δ_ｍａｘＰ_ｔ、Δ_ｍｉｎＴ_ｔ≦ΔＴ_ｔ≦Δ_ｍａｘＴ_ｔ、及びΔ_ｍｉｎＺ_ｔ≦ΔＺ_ｔ≦Δ_ｍａｘＺ_ｔと表される。そのようなＰＴＺの制御に関わる値は、複数のカメラ間で同一であってもよく、カメラの位置及び種類などに応じて異なっていてもよい。例えば、複数のカメラの内の少なくとも１台は、被写体の動作に関わらずピッチの全範囲を撮像していてもよい。このような構成によれば、例えば検出装置の誤動作などによって一時的に追尾しそこねた被写体が存在する場合において、ピッチの全範囲を撮像する画像からの検出結果に基づいて、その被写体の追尾を再開しやすくなる。

また、ステップＳ９００１において初期値設定部３００３は、Ｐ_ｔ、Ｔ_ｔ、及びＺ_ｔの値を、それぞれ０に設定してもよい。しかしここで設定されるＰ_ｔ、Ｔ_ｔ、及びＺ_ｔの値は特に限定はされず、初期のカメラの状態に応じて適宜設定されてもよい。

ステップＳ９００３において領域設定部３００５は、ステップＳ６００６において被写体の検出に用いる検出対象領域を、カメラのＰＴＺ操作の制御量を考慮して設定する。また、領域設定部３００５は、そのような検出対象領域を撮像するために必要なＰＴＺ制御量を取得する。ステップＳ９００３における詳細な処理手順については、図１５のフローチャートと共に後述する。

ステップＳ９００４において制御部８００３は、ステップＳ９００３において取得されたＰＴＺ制御量に基づいて、撮像部８１００の有する各カメラの撮像範囲を取得する。この例においては、制御部８００３は、時刻ｔにおいて推定された各カメラのＰＴＺ制御量ΔＰ_ｔ、ΔＴ_ｔ、及びΔＺ_ｔに基づいて、そのカメラの撮像範囲を制御する。

以下、ステップＳ９００３において領域設定部３００５が行う設定処理について、図１５を参照しながら説明する。図１５はステップＳ９００３に係る設定を行うための処理手順の一例を示すフローチャートである。ステップＳ１５０２、Ｓ１５０３及びＳ１５０６以降の処理は、実施形態３の図９におけるステップＳ７００２、Ｓ７００３及びＳ７００４以降の処理とそれぞれ同様であるため、説明は省略する。

ステップＳ１５０１において領域設定部３００５は、実施形態３におけるステップＳ７００１と同様に、前ループで設定した第２候補領域を、現時点における代表被覆要素の位置に基づいて移動させる。この時、領域設定部３００５は、現時点における代表被覆要素の位置だけではなく、例えば、カメラのＰＴＺ制御量の制御範囲を考慮して第２候補領域を移動させてもよい。つまり、領域設定部３００５は、各カメラについて、撮像画像の範囲に加え、上下及び左右に、Δ_ｍａｘＰ_ｔの縦方向の制御量、及びΔ_ｍａｘＴ_ｔの横方向の制御量の値を、撮像画像の上下及び左右にそれぞれ足した範囲を算出してもよい。次いで、領域設定部３００５は、各カメラの撮像画像について、そのように算出された範囲の内で、第２候補領域を移動させてもよい。例えば、そのような移動により第２候補領域が元の撮像範囲を超えて移動した場合、後のステップＳ９００４において、制御部８００３が、第２候補領域の移動した位置に応じて、ＰＴＺ制御によって撮像範囲を移動させることができる。つまり、領域設定部３００５は、そのようなＰＴＺ制御量を取得することができる。複数の第２候補領域が元の撮像範囲を超えて移動する場合、領域設定部３００５は、そのような移動後の第２候補領域をすべてカメラが撮像できるようにＰＴＺ制御量を取得してもよい。さらに、ＰＴＺ制御によってもカメラが移動後の第２候補領域をすべて撮像できない場合において、領域設定部３００５は、第２候補領域のスコアに応じた優先度を設定し、及び、優先度の高い第２候補領域が撮像されるように、制御量を取得してもよい。そのような場合、領域設定部３００５は、優先度の低い第２候補領域は視野端の移動に応じて、撮像範囲外に出ないように移動させてもよい。また、領域設定部３００５は、代表被覆要素が存在しない第２候補領域を移動させなくてもよい。

Ｂ１５０１における処理は基本的には実施形態３のＢ７００１における処理と同様であるため、異なる部分についてのみ説明する。領域設定部３００５は、第２候補領域内に前回検出されていない被写体が存在する場合において、その時刻におけるＰＴＺの操作量の状態Ｐ_ｔ、Ｔ_ｔ、及びＺ_ｔを、初期値に戻すことができる。そのような場合、Ｚ_ｔの値の初期化は、Ｐ_ｔ及びＴ_ｔを初期値に戻した後に行われてもよい。

ステップＳ１５０４において領域設定部３００５は、第２候補領域のスコアを最大化するズーム量を推定する。領域設定部３００５は、例えば、被写体とカメラとの間の距離を説明変数として検出のスコアを推定する多項式回帰モデルを用いることにより、検出スコアを最大化するズーム制御量ΔＺｔ_ｍａｘを、ズーム操作による制御が可能な範囲内で推定してもよい。領域設定部３００５は、そのような多項式回帰モデルを、例えば、実施形態１における式（８）及び（８’）の回帰モデルと同様の方法で学習してもよい。また、スコアを最大化するズーム制御量の探索方法は特に限定されず、例えば、グリッドサーチのような公知の方法で行われてもよい。さらに領域設定部３００５は、そのようにして算出されたズーム制御量によるスコアの上昇幅が所定の閾値よりも小さい場合においては、ズーム制御量を０に設定する、つまりズーム操作を行わなくてもよい。そのような処理によれば、効果が微小なズーム操作を省略することにより、処理コストを低減することができる。

ステップＳ１５０５において領域設定部３００５は、ステップＳ１５０５において推定された量のズーム制御によって検出スコアが変化する場合に、既存のスコアを変化後のスコアへと更新する。

このような構成によれば、被写体の予測位置に対して、複数のカメラの姿勢を制御することができる。また、そのような姿勢の制御量に基づいて、検出対象領域を設定することができる。したがって、複数の被写体について、検出のコストを抑制した効率的な追尾が可能となる検出装置を提供することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。

１００１：動画取得部、１００２：初期値設定部、１００３：検出部、１００４：ＩＤ対応付け部、１００５：領域設定部、１００６：可視化部、１１００：撮像部、１２００：処理部、１３００：モニタリング部

Claims

撮像画像から１以上の被写体を検出する検出手段と、
前記検出手段によって第１の時刻における撮像画像から検出された１以上の被写体の位置に従って、前記検出手段によって参照される、前記第１の時刻に後続する第２の時刻における撮像画像に前記１以上の被写体の検出対象領域を設定する設定手段と、
を備えることを特徴とする検出装置。
前記設定手段は、予め定められた複数の候補領域から前記検出対象領域を選択することを特徴とする、請求項１に記載の検出装置。
前記設定手段は、互いに異なる大きさを有する複数の候補領域を前記検出対象領域として選択することを特徴とする、請求項２に記載の検出装置。
前記検出手段は、前記被写体の検出の信頼度を表すスコアを出力し、
前記設定手段は、前記候補領域に含まれる被写体のスコアに基づいて、前記複数の候補領域から前記検出対象領域を選択することを特徴とする、請求項２又は３に記載の検出装置。
前記設定手段は、少なくとも１つの前記検出対象領域が前記１以上の被写体の全てを被覆するように、前記検出対象領域を選択することを特徴とする、請求項１乃至４の何れか一項に記載の検出装置。
前記設定手段は、前記第１の時刻における前記被写体の位置、又は前記第２の時刻における前記被写体の予測位置を、前記検出対象領域が被覆するように、前記検出対象領域を設定することを特徴とする、請求項１乃至５の何れか一項に記載の検出装置。
前記設定手段は、前記第１の時刻における前記被写体の位置と、前記第１の時刻より前の時刻における前記被写体の位置と、に基づいて前記第２の時刻における被写体の位置を予測することを特徴とする、請求項６に記載の検出装置。
前記検出対象領域は、被覆判定領域と、前記被覆判定領域の外側に設定されたバッファ領域と、を含み、
前記設定手段は、前記被写体の位置又は前記予測位置を前記検出対象領域の前記被覆判定領域が被覆するように前記検出対象領域を設定することを特徴とする、請求項６又は７に記載の検出装置。
前記検出手段による前記被写体の検出結果を用いて、前記被写体の状態を予測する推定手段をさらに備え、
前記設定手段は、前記予測された被写体の状態に従って前記検出対象領域を設定することを特徴とする、請求項１乃至８の何れか一項に記載の検出装置。
前記推定手段は、前記予測した被写体の状態に従って、前記被写体の検出の信頼度を表すスコアを予測し、
前記設定手段は、前記予測されたスコアにさらに従って、前記被写体の前記検出対象領域を設定することを特徴とする、請求項９に記載の検出装置。
複数の撮像装置のそれぞれから撮像画像を取得することにより、複数の撮像画像を取得する取得手段をさらに備え、
前記設定手段は、少なくとも１つの撮像画像において前記被写体が前記検出対象領域に含まれるように、前記撮像画像ごとに前記被写体の検出対象領域を設定することを特徴とする、請求項１乃至１０の何れか一項に記載の検出装置。
前記設定手段は、
前記被写体のそれぞれに対応し、前記被写体を含む互いに異なる領域を、前記第１の時刻における少なくとも１つの撮像画像に設定し、
前記第２の時刻における被写体のそれぞれの予測位置に基づいて、前記被写体のそれぞれに対応する前記被写体を含む領域を移動させ、
前記移動後の、前記被写体のそれぞれに対応する前記被写体を含む領域のうち少なくとも１つを、前記検出対象領域として選択する
ことを特徴とする、請求項１１に記載の検出装置。
前記設定手段は、前記第１の時刻における複数の撮像画像で検出された被写体の各位置から、前記被写体の第２の時刻における３次元空間上の位置を予測し、
予測された前記被写体の第２の時刻における３次元空間上の位置から、前記第２の時刻における前記各撮像画像での被写体の位置を予測することを特徴とする、請求項１１又は１２に記載の検出装置。
前記設定手段は、
前記複数の撮像画像のそれぞれについて、前記第１の時刻における前記被写体の位置、又は前記第２の時刻における前記被写体の予測位置を被覆する、１以上の領域を設定し、
少なくとも１つの撮像画像において前記被写体が前記検出対象領域に含まれるように、前記複数の撮像画像についての前記１以上の領域から前記検出対象領域を選択する
ことを特徴とする、請求項１１乃至１３の何れか一項に記載の検出装置。
前記第２の時刻における前記１以上の被写体の予測位置に応じて、前記撮像画像を撮像する撮像装置の姿勢を制御する制御手段をさらに備え、
前記撮像装置の姿勢制御量にさらに基づいて前記検出対象領域を設定することを特徴とする、請求項１乃至１４の何れか一項に記載の検出装置。
時系列ごとの前記被写体の位置を可視化して出力する可視化手段をさらに備えることを特徴とする、請求項１乃至１５の何れか一項に記載の検出装置。
前記検出手段は、前記被写体の検出の信頼度を表すスコアを出力し、
前記可視化手段は、前記第１の時刻における前記被写体の位置及び前記スコア、並びに前記第２の時刻における前記被写体の位置及び前記スコアに基づいて、前記第１の時刻における前記被写体の位置と前記第２の時刻における前記被写体の位置とを対応付けることにより、時系列ごとの前記被写体の位置を可視化することを特徴とする、請求項１６に記載の検出装置。
検出装置が行う検出方法であって、
撮像画像から１以上の被写体を検出する工程と、
前記検出する工程において第１の時刻における撮像画像から検出された１以上の被写体の位置に従って、前記検出する工程において参照される、前記第１の時刻に後続する第２の時刻における撮像画像に前記１以上の被写体の検出対象領域を設定する工程と、
を備えることを特徴とする検出方法。
コンピュータを、請求項１乃至１７の何れか一項に記載の検出装置の各手段として機能させるためのプログラム。