JP7842819B2

JP7842819B2 - システム、制御装置、制御方法およびプログラム

Info

Publication number: JP7842819B2
Application number: JP2024131210A
Authority: JP
Inventors: 明日華松岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2023-09-07
Filing date: 2024-08-07
Publication date: 2026-04-08
Anticipated expiration: 2044-08-07
Also published as: JP2025038870A

Description

本発明は、撮影位置や撮影方向が異なる複数の撮像装置により特定の被写体を追尾するシステムに関する。

パン／チルト／ズーム（ＰＴＺ）を遠隔から自動制御可能な撮像装置により特定の被写体を追尾する技術がある。このような自動追尾制御では、追尾対象の被写体を撮影画角内の所望の位置に配置するようにＰＴＺを自動的に制御する。

特許文献１には、撮影画角が広角に固定された撮像装置（画角固定カメラ）と、ＰＴＺ機能を有する撮像装置（ＰＴＺカメラ）とを連携させて特定の被写体を追尾する技術が記載されている。特許文献１では、追尾対象の被写体が画角固定カメラの画角外に移動して捕捉できなくなった場合であっても追尾対象の被写体の移動予測を行うことによりＰＴＺカメラにより捕捉できるようにしている。

また、特許文献２には、第１の撮像装置の撮影範囲の境界付近に追尾対象の被写体が移動した場合に、第１の撮像装置で生成された追尾対象の被写体のテンプレートデータを第２の撮像装置に送信し、第２の撮像装置に追尾対象を引き継ぐ技術が記載されている。

特開２０１７－２０４７９５号公報特許第３８１４７７９号公報

しかしながら、特許文献１、２では、テンプレートマッチングにより追尾対象の被写体を判別しているため、複数の撮像装置により特定の被写体を追尾する場合、複数の撮像装置を撮影位置や撮影方向が近づくように配置する必要がある。そのため、複数の撮像装置の撮影位置や撮影方向を離して配置した場合、複数の撮像装置により特定の被写体を追尾することが困難となる。

本発明は、上記課題に鑑みてなされ、その目的は、撮影位置や撮影方向が異なる複数の撮像装置により特定の被写体を追尾することが可能となるシステムを実現することである。

上記課題を解決し、目的を達成するために、本発明は、撮影方向が異なる第１の撮像装置および第２の撮像装置と、前記第１の撮像装置により撮像された第１の画像または前記第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御装置および第２の制御装置と、を含むシステムであって、前記第１の制御装置は、前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成手段と、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御手段と、を有し、前記第２の制御装置は、前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成手段と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の制御手段と、を有し、前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、前記第１の制御装置により生成された前記第１の特徴情報と前記第２の生成手段により生成された前記第２の特徴情報とを比較する比較手段を有し、前記比較手段による比較の結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第１の制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の制御装置が前記第２の撮像装置を制御する第２の状態とを切り替え、前記第１の制御装置は、前記第１の特徴情報を前記第２の制御装置に送信し、前記第１の制御手段は、前記比較手段による比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は、前記第２の状態に切り替え、前記第１の特徴情報と前記第２の特徴情報とが前記所定の条件を満たさない場合は、前記第１の状態に切り替え、前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、前記比較手段は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較結果を出力する。

本発明によれば、撮影位置や撮影方向が異なる複数の撮像装置により特定の被写体を追尾すること可能となる。

実施形態１のシステム構成を例示する図。実施形態１のシステムを構成する装置のハードウェア構成を例示する図。実施形態１のシステムを構成する装置の機能構成を例示する図。実施形態１のシステムを構成する装置の基本動作を例示するフローチャート。実施形態１の撮影画像の座標変換方法を説明する図。実施形態１の被写体検出方法と座標変換方法を説明する図。実施形態１のパン制御を説明する図。実施形態１のチルト制御を説明する図。実施形態１の制御処理を例示するフローチャート。実施形態１の追尾対象の被写体の決定方法を説明する図。実施形態２のシステムを構成する装置の機能構成を例示する図。実施形態２の制御処理を例示するフローチャート。実施形態２の制御処理を例示するフローチャート。実施形態３のシステム構成を例示する図。実施形態３の撮像装置に設定可能な役割と内容を例示する図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
＜システム構成＞
まず、図１を参照して、実施形態１のシステム構成について説明する。

本実施形態のシステムは、第１の制御装置１００、第２の制御装置２００、第１の撮像装置３００および第２の撮像装置４００を含む。本実施形態のシステムは、第１の制御装置１００と第２の制御装置２００のいずれかにより第２の撮像装置４００を制御して特定の被写体の追尾を行う。本実施形態では、特定の被写体は、例えば人物であるが、動物や物体であってもよい。

第１の制御装置１００は、第１の撮像装置３００により撮影された俯瞰画像から追尾対象の被写体を検出し、検出結果に基づいて第２の撮像装置４００を制御する。第１の制御装置１００はワークステーションとも呼ばれる。追尾対象の被写体は、例えば、ユーザ操作または自動で設定される。

第２の制御装置２００は、第１の撮像装置３００により撮影された俯瞰画像による追尾対象の被写体認識結果と、第２の撮像装置３００により撮影されたサブ画像による追尾対象の被写体認識結果とに基づいて第２の撮像装置４００を制御する。第２の制御装置２００はエッジボックスとも呼ばれる。

第１の撮像装置３００は、撮影画角が広角に固定されており、被写体Ａ、被写体Ｂおよび被写体Ｃの全てを含む俯瞰画像を撮影可能である。第１の撮像装置３００は俯瞰カメラとも呼ばれる。第２の撮像装置４００は、撮影画角が可変であり、被写体Ａ、被写体Ｂ、被写体Ｃの少なくともいずれかを撮影可能である。第２の撮像装置４００はサブカメラと呼ばれる。第１の撮像装置３００と第２の撮像装置４００は、撮影位置および／または撮影方向が異なるように互いに離れた位置に配置される。

第１の制御装置１００、第２の制御装置２００、第１の撮像装置３００および第２の撮像装置４００は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク６００により通信可能に接続される。なお、本実施形態では、第１の制御装置１００、第２の制御装置２００、第１の撮像装置３００および第２の撮像装置４００がネットワーク６００により接続される例を説明するが、不図示の接続ケーブルにより接続された構成であってもよい。また、本実施形態では、第２の撮像装置４００が１台である例を説明するが、２台以上としてもよい。第２の撮像装置４００が複数台ある場合は、第２の撮像装置４００ごとに第２の制御装置２００が設けられる。

次に、本実施形態のシステムの基本的な機能について説明する。

第１の撮像装置３００は、俯瞰画像を撮影し、俯瞰画像をネットワーク６００を介して第１の制御装置１００に送信する。

第２の撮像装置４００は、追尾対象の被写体（追尾被写体）を含むサブ画像を撮影し、サブ画像をネットワーク６００を介して第２の制御装置２００に送信する。なお、第２の撮像装置４００はＰＴＺ機能を有している。ＰＴＺ機能は、撮像装置のパン、チルトおよびズームを制御できる機能である。ＰＴＺは、パン（Ｐａｎｏｒａｍｉｃ）、チルト（Ｔｉｌｔ）、ズーム（Ｚｏｏｍ）のそれぞれの頭文字の略である。パン（Ｐａｎｏｒａｍｉｃ）は撮像装置の光軸の水平方向への移動である。チルト（Ｔｉｌｔ）は撮像装置の光軸の垂直方方向への移動である。ズーム（Ｚｏｏｍ）はズームアップ（望遠）とズームアウト（広角）である。パンおよびチルトは撮像装置の撮影方向を変化させる機能である。ズームは撮像装置の撮影範囲（撮影画角）を変化させる機能である。

第１の制御装置１００は、第１の撮像装置３００から受信した俯瞰画像から検出した被写体から追尾被写体を決定し、俯瞰画像から追尾被写体の第１の特徴情報を算出する。第１の制御装置は、追尾被写体の第１の特徴情報に基づいて第２の撮像装置４００の撮影方向および撮影範囲を追尾被写体の撮影方向および撮影範囲に変更するように第２の撮像装置４００を制御する。

第２の撮像装置４００の撮影方向および撮影範囲を追尾被写体の撮影方向および撮影範囲に変更した後、第１の制御装置１００は俯瞰画像から算出した追尾被写体の第１の特徴情報を第２の制御装置２００に送信する。

第２の制御装置２００は、第２の撮像装置４００から受信したサブ画像から被写体を検出し、検出した被写体の第２の特徴情報を算出する。第２の制御装置２００は、サブ画像から検出した被写体の第２の特徴情報と、第１の制御装置１００から受信した追尾被写体の第１の特徴情報とを比較する。

追尾被写体の第１の特徴情報とサブ画像から検出された被写体の第２の特徴情報との類似度が低い場合は、第１の制御装置１００が、追尾被写体の第１の特徴情報に基づいて第２の撮像装置４００の撮影方向および撮影範囲を追尾被写体の撮影方向および撮影範囲に変更するように第２の撮像装置４００を制御する。

また、追尾被写体の第１の特徴情報とサブ画像から検出された被写体の第２の特徴情報との類似度が高い場合は、第２の制御装置２００が、追尾被写体の第１の特徴情報と類似度が高いサブ画像から検出された被写体の第２の特徴情報に基づいて第２の撮像装置４００の撮影方向および撮影範囲を追尾被写体の撮影方向および撮影範囲に変更するように第２の撮像装置４００を制御する。

特徴情報は、撮影位置および／または撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報である。特徴情報は、撮影位置および／または撮影方向が異なる複数の撮像装置により同一の被写体を撮影した複数の画像を入力として、学習済みモデルを用いた推論処理により画像認識を行って出力される推論結果である。同一の被写体であるという推論結果が得られた場合、撮影位置および／または撮影方向が異なる複数の撮像装置により撮影された複数の画像に含まれる被写体について同一の被写体であることを特定することができる。

以下では、第１の制御装置１００をワークステーション（ＷＳ）、第２の制御装置２００をエッジボックス（ＥＢ）、第１の撮像装置３００を俯瞰カメラ、第２の撮像装置４００をサブカメラと呼んで説明する。

＜装置構成＞
次に、図２を参照して、ＷＳ１００、ＥＢ２００、俯瞰カメラ３００およびサブカメラ４００のハードウェア構成について詳細に説明する。

まず、ＷＳ１００の構成を説明する。

ＷＳ１００は、制御部１０１、揮発性メモリ１０２、不揮発性メモリ１０３、推論部１０４、通信部１０５および操作部１０６を備え、各部が内部バス１１０を介してデータの送受信が可能に接続されている。

制御部１０１は、ＷＳ１００の演算処理および制御処理を行うプロセッサ（ＣＰＵ）を有し、不揮発性メモリ１０３に格納されている制御プログラムを実行することにより、ＷＳ１００の各構成要素を制御する。

揮発性メモリ１０２は、ＲＡＭ等の主記憶装置である。揮発性メモリ１０２は、制御部１０１の動作用の定数、変数、不揮発性メモリ１０３から読み出した制御プログラムや推論プログラム等がロードされる。また、揮発性メモリ１０２には、通信部１０５により外部装置から受信した画像データや推論プログラム等の情報を記憶する。また、揮発性メモリ１０２は、俯瞰カメラ３００から受信した俯瞰画像データを記憶する。揮発性メモリ１０２は、これらの情報を保持するために十分な記憶容量を備えている。

不揮発性メモリ１０３は、ＥＥＰＲＯＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、メモリーカード等の補助記憶装置である。不揮発性メモリ１０３には、制御部１０１が実行する基本的なソフトウェアであるＯＳ（オペレーティングシステム）や、このＯＳと協働して応用的な機能を実現するアプリケーションを含む制御プログラム等、推論部１０４が推論処理に用いる推論プログラム等が記憶される。

推論部１０４は、推論プログラムに従い、学習済みの推論モデルと推論パラメータを用いて推論処理を実行する。推論部１０４は、俯瞰カメラ３００から受信した俯瞰画像から特定の被写体の有無や位置、被写体の特徴情報を推定する推論処理を実行する。推論部１０４における推論処理は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の画像処理や推論処理に特化した演算処理装置により実行可能である。ＧＰＵは、多量の積和演算を行うことが可能なプロセッサであり、ニューラルネットワークの行列演算等を短時間に行う演算処理能力を有する。また、推論部１０４における推論処理は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の再構成可能な論理回路により実現してもよい。なお、推論処理は、制御部１０１のＣＰＵとＧＰＵが協働して演算を行ってもよいし、制御部１０１のＣＰＵとＧＰＵのいずれかで演算を行ってもよい。

通信部１０５は、Ｅｔｈｅｒｎｅｔ（登録商標）等の有線通信規格に準拠したインターフェース（Ｉ／Ｆ）またはＷｉ－Ｆｉ（登録商標）等の無線通信規格に準拠したインターフェースである。通信部１０５は、有線ＬＡＮや無線ＬＡＮ等のネットワーク６００を介して、ＥＢ２００、俯瞰カメラ３００およびサブカメラ４００等の外部装置と接続し、外部装置とデータの送受信を行うことができる。制御部１０１は、通信部１０５を制御することで外部装置との通信を実現する。なお、通信方式は、Ｅｔｈｅｒｎｅｔ（登録商標）やＷｉ－Ｆｉ（登録商標）に限定されるものではなく、ＩＥＥＥ１３９４等の通信規格を用いてもよい。

操作部１０６は、ユーザの各種操作を受け付けて、制御部１０１に操作情報を出力する各種スイッチ、ボタン、タッチパネル等の操作部材である。また、操作部１０６は、ユーザがＷＳ１００を操作するためのユーザインターフェースを提供する。

表示部１１１は、俯瞰画像や被写体認識結果の表示、対話的な操作のためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の表示等を行う。表示部１１１は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示デバイスである。表示部１１１は、ＷＳ１００の一体化された構成であっても、ＷＳ１００に接続された外部機器であってもよい。

次に、ＥＢ２００の構成を説明する。

ＥＢ２００は、制御部２０１、揮発性メモリ２０２、不揮発性メモリ２０３、推論部２０４および通信部２０５を備え、各部が内部バス２１０を介してデータの送受信が可能に接続されている。

制御部２０１は、ＥＢ２００の演算処理および制御処理を行うプロセッサ（ＣＰＵ）を有し、不揮発性メモリ２０３に格納されている制御プログラムを実行することにより、ＥＢ２００の各構成要素を制御する。

揮発性メモリ２０２は、ＲＡＭ等の主記憶装置である。揮発性メモリ２０２は、制御部２０１の動作用の定数、変数、不揮発性メモリ２０３から読み出した制御プログラムや推論プログラム等がロードされる。また、揮発性メモリ２０２には、通信部２０５により外部装置から受信した画像データや推論プログラム等の情報を記憶する。また、揮発性メモリ２０２は、サブカメラ４００から受信したサブ画像データを記憶する。揮発性メモリ２０２は、これらの情報を保持するために十分な記憶容量を備えている。

不揮発性メモリ２０３は、ＥＥＰＲＯＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、メモリーカード等の補助記憶装置である。不揮発性メモリ２０３には、制御部２０１が実行する基本的なソフトウェアであるＯＳ（オペレーティングシステム）や、このＯＳと協働して応用的な機能を実現するアプリケーションを含む制御プログラム等、推論部２０４が推論処理に用いる推論プログラム等が記憶される。

推論部２０４は、推論プログラムに従い、学習済みの推論モデルと推論パラメータを用いて推論処理を実行する。推論部２０４は、サブカメラ４００から受信したサブ画像から特定の被写体の有無や位置、被写体の特徴情報を推定する推論処理を実行する。推論部２０４における推論処理は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の画像処理や推論処理に特化した演算処理装置により実行可能である。ＧＰＵは、多量の積和演算を行うことが可能なプロセッサであり、ニューラルネットワークの行列演算等を短時間に行う演算処理能力を有する。また、推論部２０４における推論処理は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の再構成可能な論理回路により実現してもよい。なお、推論処理は、制御部２０１のＣＰＵとＧＰＵが協働して演算を行ってもよいし、制御部２０１のＣＰＵとＧＰＵのいずれかで演算を行ってもよい。

通信部２０５は、Ｅｔｈｅｒｎｅｔ（登録商標）等の有線通信規格に準拠したインターフェース（Ｉ／Ｆ）またはＷｉ－Ｆｉ（登録商標）等の無線通信規格に準拠したインターフェースである。通信部２０５は、有線ＬＡＮや無線ＬＡＮ等のネットワーク６００を介して、ＷＳ１００およびサブカメラ４００等の外部装置と接続し、外部装置とデータの送受信を行うことができる。制御部２０１は、通信部２０５を制御することで外部装置との通信を実現する。なお、通信方式は、Ｅｔｈｅｒｎｅｔ（登録商標）やＷｉ－Ｆｉ（登録商標）に限定されるものではなく、ＩＥＥＥ１３９４等の通信規格を用いてもよい。

次に、俯瞰カメラ３００の構成を説明する。

俯瞰カメラ３００は、制御部３０１、揮発性メモリ３０２、不揮発性メモリ３０３、通信部３０５、撮像部３０６および画像処理部３０７を備え、各部が内部バス３１０を介してデータの送受信が可能に接続されている。

制御部３０１は、ＷＳ１００の制御に従い、俯瞰カメラ３００の全体を統括して制御する。制御部３０１は、俯瞰カメラ３００の演算処理および制御処理を行うプロセッサ（ＣＰＵ）を有し、不揮発性メモリ３０３に格納されている制御プログラムを実行することにより、俯瞰カメラ３００の各構成要素を制御する。

揮発性メモリ３０２は、ＲＡＭ等の主記憶装置である。揮発性メモリ３０２は、制御部３０１の動作用の定数、変数、不揮発性メモリ３０３から読み出した制御プログラムや推論プログラム等がロードされる。また、揮発性メモリ３０２は、撮像部３０６により撮像され、画像処理部３０７により処理された俯瞰画像データを記憶する。揮発性メモリ３０２は、これらの情報を保持するために十分な記憶容量を備えている。

不揮発性メモリ３０３は、ＥＥＰＲＯＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、メモリーカード等の補助記憶装置である。不揮発性メモリ３０３には、制御部３０１が実行する基本的なソフトウェアであるＯＳ（オペレーティングシステム）や、このＯＳと協働して応用的な機能を実現するアプリケーションを含む制御プログラム等が記憶される。

撮像部３０６は、ＣＣＤ（電荷結合素子）、ＣＭＯＳ（相補型金属酸化膜半導体）素子等から構成されるイメージセンサを有し、被写体の光学像を電気信号に変換する。本実施形態では、俯瞰カメラ３００は、追尾被写体を含む複数の被写体を含む俯瞰画像を撮影可能なように撮影画角が固定されている。

画像処理部３０７は、撮像部３０６から出力される画像データ、又は、揮発性メモリ３０２から読み出された画像データに各種の画像処理を実行する。各種の画像処理は、例えば、ノイズ除去、エッジ強調、拡大・縮小等の画像加工処理、コントラスト補正、明るさ補正、色補正等の画像補正処理、画像データの一部を切り出すトリミング処理またはクロップ処理を含む。画像処理部３０７は、画像処理が施された画像データを、所定の形式（例えばＪＰＥＧ）の画像ファイルに変換して不揮発性メモリ３０３に記録する。また、画像処理部３０７は、画像データを用いて所定の演算処理を行い、制御部３０１は演算結果に基づいてＡＦ（オートフォーカス）処理およびＡＥ（自動露出）処理を行う。

通信部３０５は、Ｅｔｈｅｒｎｅｔ（登録商標）等の有線通信規格に準拠したインターフェース（Ｉ／Ｆ）またはＷｉ－Ｆｉ（登録商標）等の無線通信規格に準拠したインターフェースである。通信部３０５は、有線ＬＡＮや無線ＬＡＮ等のネットワーク６００を介して、ＷＳ１００等の外部装置と接続し、外部装置とデータの送受信を行うことができる。制御部３０１は、通信部３０５を制御することで外部装置との通信を実現する。なお、通信方式は、Ｅｔｈｅｒｎｅｔ（登録商標）やＷｉ－Ｆｉ（登録商標）に限定されるものではなく、ＩＥＥＥ１３９４等の通信規格を用いてもよい。

次に、サブカメラ４００の構成を説明する。

サブカメラ４００は、制御部４０１、揮発性メモリ４０２、不揮発性メモリ４０３、通信部４０５、撮像部４０６、画像処理部４０７、光学部４０８およびＰＴＺ駆動部４０９を備え、各部が内部バス４１０を介してデータの送受信が可能に接続されている。

制御部４０１は、ＷＳ１００またはＥＢ２００の制御に従い、サブカメラ４００の全体を統括して制御する。制御部４０１は、サブカメラ４００の演算処理および制御処理を行うプロセッサ（ＣＰＵ）を有し、不揮発性メモリ４０３に格納されている制御プログラムを実行することにより、サブカメラ４００の各構成要素を制御する。

揮発性メモリ４０２は、ＲＡＭ等の主記憶装置である。揮発性メモリ４０２は、制御部４０１の動作用の定数、変数、不揮発性メモリ４０３から読み出した制御プログラムや推論プログラム等がロードされる。また、揮発性メモリ４０２は、撮像部４０６により撮像され、画像処理部４０７により処理された俯瞰画像データを記憶する。揮発性メモリ４０２は、これらの情報を保持するために十分な記憶容量を備えている。

不揮発性メモリ４０３は、ＥＥＰＲＯＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、メモリーカード等の補助記憶装置である。不揮発性メモリ４０３には、制御部４０１が実行する基本的なソフトウェアであるＯＳ（オペレーティングシステム）や、このＯＳと協働して応用的な機能を実現するアプリケーションを含む制御プログラム等が記憶される。

撮像部４０６は、ＣＣＤ（電荷結合素子）、ＣＭＯＳ（相補型金属酸化膜半導体）素子等から構成されるイメージセンサを有し、被写体の光学像を電気信号に変換する。

画像処理部４０７は、撮像部４０６から出力される画像データ、又は、揮発性メモリ４０２から読み出された画像データに各種の画像処理を実行する。各種の画像処理は、例えば、ノイズ除去、エッジ強調、拡大・縮小等の画像加工処理、コントラスト補正、明るさ補正、色補正等の画像補正処理、画像データの一部を切り出すトリミング処理またはクロップ処理を含む。画像処理部４０７は、画像処理が施された画像データを、所定の形式（例えばＪＰＥＧ）の画像ファイルに変換して不揮発性メモリ４０３に記録する。また、画像処理部４０７は、画像データを用いて所定の演算処理を行い、制御部４０１は演算結果に基づいてＡＦ（オートフォーカス）処理およびＡＥ（自動露出）処理を行う。

通信部４０５は、Ｅｔｈｅｒｎｅｔ（登録商標）等の有線通信規格に準拠したインターフェース（Ｉ／Ｆ）またはＷｉ－Ｆｉ（登録商標）等の無線通信規格に準拠したインターフェースである。通信部４０５は、有線ＬＡＮや無線ＬＡＮ等のネットワーク６００を介して、ＥＢ２００等の外部装置と接続し、外部装置とデータの授受を行うことができる。制御部４０１は、通信部４０５を制御することで外部装置との通信を実現する。なお、通信方式は、Ｅｔｈｅｒｎｅｔ（登録商標）やＷｉ－Ｆｉ（登録商標）に限定されるものではなく、ＩＥＥＥ１３９４等の通信規格を用いてもよい。

光学部４０８は、ズームレンズやフォーカスレンズを含むレンズ群、絞り機能を備えるシャッター、これらの光学部材を駆動する機構を含む。光学部４０８は、光学部材を駆動して、サブカメラ４００の撮影方向をパン（Ｐ）軸（水平方向）またはチルト（Ｔ）軸（垂直方向）のまわりに回転させること、サブカメラ４００の撮影範囲（撮影画角）をズーム（Ｚ）軸（拡大・縮小方向）に沿って変化させることのうち少なくともいずれかを行う。

ＰＴＺ駆動部４０９は、光学部４０８をＰＴＺ方向に駆動するための機械要素やモータ等のアクチュエータを含み、制御部４０１の制御に従い、光学部４０８をＰＴＺ方向に駆動する。

なお、本実施形態のズーム機能は、ズームレンズを移動して焦点距離を変化させる光学ズームに限らず、撮影した画像データの一部を切り取って拡大するデジタルズームであってもよいし、光学ズームとデジタルズームの組み合わせてもよい。

［制御処理］
次に、図３から図１０を参照して、ＷＳ１００が俯瞰画像に基づいてサブカメラ４００を制御するモードと、ＥＢ２００がサブ画像に基づいてサブカメラ４００を制御するモードとを切り替えることにより追尾被写体の追尾を行う制御処理について説明する。

まず、図３および図４を参照して、本実施形態の制御処理を実現するためのＷＳ１００とＥＢ２００の機能構成について説明する。

ＷＳ１００とＥＢ２００の各機能は、ハードウェアおよび／またはソフトウェアにより実現される。なお、図３に示す各機能部をソフトウェアにより実現する代わりに、ハードウェアにより構成する場合には、図３の各機能部に対応する回路構成を備えていればよい。

ＷＳ１００は、画像認識部１２１、注目被写体決定部１２２、追尾対象決定部１２３、制御情報生成部１２４、特徴情報決定部１２５、追尾状態決定部１２６を含む。これらの機能を実現するソフトウェアは不揮発性メモリ１０３に格納され、制御部１０１が揮発性メモリ１０２にロードして実行する。

ＥＢ２００は、画像認識部２２１、追尾対象決定部２２２、制御情報生成部２２３を含む。これらソフトウェアは、不揮発性メモリ２０３に格納され、制御部２０１が揮発性メモリ２０２にロードして実行する。

図４（ａ）はＷＳ１００の基本動作を示すフローチャートである。図４（ｂ）はＥＢ２００の基本動作を示すフローチャートである。図４（ｃ）は俯瞰カメラ３００の動作を示すフローチャートである。図４（ｄ）はサブカメラ４００の動作示すフローチャートである。

まず、図３および図４（ａ）を参照して、ＷＳ１００のソフトウェアの機能および基本動作について説明する。

ステップＳ１０１では、制御部１０１は、通信部１０５により俯瞰カメラ３００に所定のプロトコルで撮影コマンドを送信し、俯瞰カメラ３００から俯瞰画像を受信し、揮発性メモリ１０２に保存し、処理をステップＳ１０２に進める。

ステップＳ１０２では、制御部１０１は、図３の画像認識部１２１の機能を実行し、処理をステップＳ１０３に進める。

画像認識部１２１は、推論部１０４と揮発性メモリ１０２と不揮発性メモリ１０３を制御し、以下の被写体認識処理を行う。

画像認識部１２１には、揮発性メモリ１０２から読み出した俯瞰カメラ３００の俯瞰画像ＩＭＧと、俯瞰カメラ３００の基準位置情報ＲＥＦ＿ＰＯＳＩが入力される。俯瞰カメラ３００の位置情報ＲＥＦ＿ＰＯＳＩは、俯瞰カメラ３００の位置およびマーカ座標の情報が含まれる。画像認識部１２１は、俯瞰カメラ３００の俯瞰画像ＩＭＧと基準位置情報ＲＥＦ＿ＰＯＳＩＲＥＦ＿ＰＯＳＩに基づいて被写体の検出および特徴情報の算出を行う。そして、画像認識部１２１は、検出された被写体の位置を示す座標情報ＰＯＳＩＴＩＯＮ［ｎ］と、検出された被写体の識別情報を示すＩＤ［ｎ］、検出された被写体の特徴情報を示すＳＴＡＴ［ｎ］を出力する。俯瞰カメラ３００の位置は、俯瞰カメラ３００の撮影領域を真上から見た座標空間における位置であり、予めユーザ操作または不図示のセンサを用いて計測されて既知である。マーカ座標は、後述するホモグラフィー変換行列を算出するために、俯瞰カメラ３００の撮影領域を真上から見た座標空間に設置されるマーカの位置情報であり、予め手動もしくは不図示のセンサを用いて計測された既知の値である。マーカは床や地面などの色と異なる色を持つ印のようなものであり、ユーザ操作または不図示のセンサによる計測が可能であればどのようなものでもよい。例えば、不図示のセンサがカメラである場合は、マーカを任意の色の印にして撮影した画像から、マーカの色を抽出することでマーカ位置を取得する。また、俯瞰カメラ３００の位置およびマーカ座標は、ＷＳ１００の操作部１０６を介して、ユーザが入力し、制御部１０１が揮発性メモリ１０２に保存してもよい。基準位置情報ＲＥＦ＿ＰＯＳＩと被写体の座標情報ＰＯＳＩＴＩＯＮ［ｎ］は、俯瞰カメラ３００の撮影領域を真上から見た座標空間に変換された座標系で表される。ｎは検出した被写体数を示すインデックスであり、例えば、推論部１０４が、３人の人物を検出した場合には、３人分のＰＯＳＩＴＩＯＮ、ＩＤ、ＳＴＡＴが推論結果として出力される。制御部１０１は、画像認識部１２１による被写体認識結果を揮発性メモリ１０２に保存する。被写体の検出処理や特徴情報の算出処理の詳細は後述する。

ここで、画像認識部１２１による被写体の座標情報ＰＯＳＩＴＩＯＮの算出方法について説明する。

まず、図５を参照して、俯瞰カメラ３００の俯瞰画像の座標系と、俯瞰カメラ３００の撮影領域を真上から見た座標系の関係について説明する。

サブカメラ４００の撮影方向が追尾被写体の方向となるようなパン値を算出するためには、サブカメラ４００がパン動作を行う軸に対して垂直な平面座標空間において角度を算出すると演算が簡易になる。例えば、サブカメラ４００が床や地面などの接地面（基準位置）に対して垂直に設置されている場合は、サブカメラ４００がパン動作を行う軸に対して垂直な座標空間は、図５（ｂ）に示す、基準位置に対して平行な座標空間（サブカメラ４００や被写体がいる空間を真上から見た座標空間）となる。本実施形態では、サブカメラ４００が基準位置に対して垂直に設置されているとし、俯瞰カメラ３００の撮影領域を真上から見た座標系でパン値の算出を行う。すなわち、図５（ａ）に示す俯瞰カメラ３００の俯瞰画像の座標系（以下、俯瞰カメラ座標系）で検出された被写体位置を、図５（ｂ）に示す俯瞰カメラ３００の撮影領域を真上から見た座標系（以下、平面座標系）に座標変換を行う。座標変換は、ホモグラフィー変換行列Ｈを用いて、以下の式１により行う。
（式１）
式１のｘ、ｙは俯瞰カメラ座標系の水平座標、垂直座標であり、Ｘ、Ｙは平面座標系の水平座標、及び垂直座標である。

制御部１０１は、揮発性メモリ１０２から基準位置情報ＲＥＦ＿ＰＯＳＩを読み出し、基準位置情報ＲＥＦ＿ＰＯＳＩに含まれる図５（ａ）、（ｂ）に示すマーカ座標Ｍａｒｋ＿Ａ～Ｍａｒｋ＿Ｄを式１に代入することで、ホモグラフィー変換行列Ｈが算出される。なお、マーカ座標は平面座標系における値である。式１を用いることで、図５（ａ）の俯瞰カメラ座標系の任意の座標は、図５（ｂ）の平面座標系の任意の座標系にマッピングすることが可能となる。図５の例では、制御部１０１は、俯瞰カメラ３００の俯瞰画像ＩＭＧに含まれる被写体Ａ、被写体Ｂおよび被写体Ｃの位置を図５（ｂ）の平面座標系において把握することが可能になる。制御部１０１は、上記式１により算出したホモグラフィー変換行列Ｈを揮発性メモリ１０２に保存する。

次に、被写体検出用の推論モデルによる被写体位置の検出方法と平面座標系への変換方法を説明する。

本実施形態では、ディープラーニング等の機械学習を行って作成された学習済みの被写体検出用の推論モデルを用いて画像認識処理を行うことにより被写体検出を行う。

被写体検出用の推論モデルは、俯瞰画像を入力とし、俯瞰画像に含まれる被写体の画像上の座標情報を出力する。

制御部１０１は、推論部１０４により、俯瞰カメラ３００の俯瞰画像ＩＭＧを入力として、被写体検出用の推論モデルを用いて画像認識処理を行うことにより被写体を検出する。図６（ａ）は、推論部１０４により検出された被写体を矩形の枠で表示した例を示している。図６（ａ）に示す。図６（ａ）に示すように、俯瞰画像から検出された被写体Ａ、被写体Ｂおよび被写体Ｃに外接する矩形部の座標が被写体位置として検出される。制御部１０１は、俯瞰画像から検出された被写体の座標情報を揮発性メモリ１０２に保存する。なお、本実施形態では、学習済みモデルを用いた推論処理により被写体検出を行う例を説明したが、これに限定されない。例えば、画像中の局所的な特徴点を照合して検出するＳＩＦＴ法という方法や、テンプレート画像との類似度を求めて検出するテンプレートマッチング法という方法を用いてもよい。

さらに、図６（ａ）に示す俯瞰カメラ座標系で検出した被写体の矩形部の下端を被写体検出位置（図６の例では人物の足元座標）として、制御部１０１が図６（ｂ）に示す平面座標系に変換する。例えば、制御部１０１が、揮発性メモリ１０２からホモグラフィー変換行列Ｈを読み出し、俯瞰カメラ座標系での被写体Ａの足元座標（ｘａ、ｙａ）を式１のｘ、ｙに代入することで、平面座標系での足元座標（ＸＡ、ＹＡ）に変換可能になる。被写体Ｂの足元座標（ｘｂ、ｙｂ）および被写体Ｃの足元座標（ｘｃ、ｙｃ）についても同様に、平面座標系の被写体Ｂの足元座標（ＸＢ、ＹＢ）および被写体Ｃの足元座標（ＸＣ、ＹＣ）を算出することが可能になる。制御部１０１は、足元座標を被写体の位置座標ＰＯＳＩＴＩＯＮとして揮発性メモリ１０２に書き込む。

次に、画像認識部１２１による被写体の識別情報ＩＤと特徴情報ＳＴＡＴの生成方法について説明する。

制御部１０１は、推論部１０４により、ディープラーニング等の機械学習を行って作成された学習済みの被写体特定用の推論モデルに、上記被写体検出用の推論モデルの推論結果である被写体の座標情報ＰＯＳＩＴＩＯＮと俯瞰カメラ３００の俯瞰画像とを入力して推論処理を行うことにより識別情報ＩＤと特徴情報ＳＴＡＴを出力する。被写体特定用の推論モデルは、被写体検出用の推論モデルとは異なる。

ここで、被写体特定用の推論モデルについて説明する。

本実施形態の被写体特定用の推論モデルは、特定の被写体を複数の異なる撮影方向から撮影した画像のセットと、特定の被写体を識別可能な情報とを関連付けたデータを複数の被写体の数だけ集めた学習用データを用いて、同じ被写体の画像に対しては特徴情報の類似度が高くなるように学習を行った学習済みモデルである。被写体特定用の推論モデルに、被写体検出用の推論モデルの出力である被写体の座標位置ＰＯＳＩＴＩＯＮに基づいて切り出した被写体の画像を入力することにより、特徴情報ＳＴＡＴが出力される。別のカメラで撮影された同じ被写体の画像を入力とすると、異なる被写体の画像を入力した場合に比べ、出力される特徴情報は特徴情報ＳＴＡＴとの類似度が高くなる。特徴情報は畳み込みニューラルネットワークの畳み込み層の応答の多次元ベクトル等が挙げられる。類似度については後述する。

被写体検出用の推論モデルと被写体特定用の推論モデルは本実施形態の制御処理を開始する前に不揮発性メモリ１０３に格納されている。

また、画像認識部１２１は、被写体特定用の推論モデルの推論結果である特徴情報に対応する被写体の識別情報ＩＤを付与する。さらに、画像認識部１２１は、現在のフレームと過去のフレームの各画像を入力として被写体検出用の推論モデルにより検出された各被写体の画像を、被写体特定用の推論モデルに入力して得られた各被写体の画像の特徴情報の類似度を算出する。類似度はコサイン類似度を用いて算出する。コサイン類似度は、各被写体画像の特徴情報である多次元ベクトルが類似しているほど１に近くなり、異なるほど０に近くなる。過去のフレームと現在のフレームの間で、類似度が最も近い被写体に同じＩＤを付与する。なお、類似度の算出方法は、これに限定されず、特徴情報が近いほど高い数値を出力し、特徴情報が遠いほど低い数値を出力する方法であればどのような方法でもよい。なお、本実施形態では、ＩＤの付与に特徴情報を用いたが、これに限定されない。現在のフレームと過去のフレームの間で、被写体検出用の推論モデルにより得られた被写体の矩形情報を用いて、検出される被写体の矩形情報の位置や大きさを比較し、最も近い被写体に同じＩＤを付与する方法でもよい。また、過去の数フレームの同じＩＤに対する矩形情報の位置の推移から現在のフレームの矩形情報の位置をカルマンフィルタ等により予測し、予測した矩形情報の位置に最も近い被写体に同じＩＤを付与する方法でもよい。また、これらの方法を組み合わせてＩＤを付与してもよい。このような方法を用いることにより、急に見た目が似ている被写体が撮影画角に入ってきた場合のＩＤ付与の正確性を向上させることができる。

以上のように、画像認識部１２１は、俯瞰画像３００の俯瞰画像を入力として、被写体検出用の推論モデルを用いて推論処理を行うことにより、被写体の座標位置ＰＯＳＩＴＩＯＮを出力し、揮発性メモリ１０２に保存する。また、画像認識部１２１は、被写体検出用の推論モデルの推論結果である被写体の座標情報ＰＯＳＩＴＩＯＮと俯瞰カメラ３００の俯瞰画像とを被写体特定用の推論モデルに入力して推論処理を行う。そして、画像認識部１２１は、推論処理の結果として識別情報ＩＤと特徴情報ＳＴＡＴを出力し、揮発性メモリ１０２に保存する。

図４の説明に戻り、ステップＳ１０３では、制御部１０１は、図３の注目被写体決定部１２２の機能を実行し、処理をステップＳ１０４に進める。

注目被写体決定部１２２は、ユーザが操作部１０６により入力した操作情報と、揮発性メモリ１０２から読み出した画像認識部１２１による被写体認識結果である被写体の座標情報とから注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴを決定する。

制御部１０１は、ＷＳ１００の表示部１１１に揮発性メモリ１０２に俯瞰カメラ３００の俯瞰画像および被写体認識結果を表示する。制御部１０１は、ユーザが操作部１０６を介して被写体認識結果として表示される被写体の中から注目被写体を選択する。例えば、操作部１０６がマウスである場合は、ユーザは表示部１１１に表示された被写体のいずれかをクリックして選択できる。制御部１０１は、ユーザが選択した注目被写体に対応する識別情報ＩＤを注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴとして揮発性メモリ１０２に保存する。

ステップＳ１０４では、制御部１０１は、図３の追尾対象決定部１２３の機能を実行し、処理をステップＳ１０５に進める。

追尾対象決定部１２３は、注目被写体決定部１２２により決定された注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴからサブカメラ４００の追尾被写体ＳＵＢＪＥＣＴ＿ＩＤを決定する。

ここで、サブカメラ４００の追尾被写体の決定方法を説明する。

制御部１０１は、揮発性メモリ１０２から注目被写体決定部１２２により決定された注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴを読み出し、注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴを、サブカメラ４００の追尾被写体ＳＵＢＪＥＣＴ＿ＩＤとして決定する。このように、ユーザが選択した注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴと同じ被写体をサブカメラ４００の追尾被写体ＳＵＢＪＥＣＴ＿ＩＤにすることにより、ユーザが選択した被写体を追尾対象としてサブカメラ４００を制御することができる。

追尾被写体の決定方法は、上記の方法に限定されず、例えば、揮発性メモリ１０２から読み出した、注目被写体ＭＡＩＮ＿ＳＵＢＪＥＣＴおよび識別情報ＩＤの情報を用いて決定してもよい。例えば、俯瞰カメラ３００の俯瞰画像に複数の被写体が含まれており、複数のサブカメラ４００が設置されている場合は、あるサブカメラは注目被写体と同じ被写体を追尾対象とし、別のサブカメラは注目被写体とは異なる被写体を追尾対象とする方法もある。このように追尾被写体を決定することで、サブカメラごとに、俯瞰カメラ３００の俯瞰画像に含まれる複数の被写体を網羅的に追尾することができる。また、揮発性メモリ１０２から被写体の座標情報ＰＯＳＩＴＩＯＮ、識別情報ＩＤ、サブカメラ位置を含むＲＥＦ＿ＰＯＳＩを読み出し、俯瞰カメラ３００の俯瞰画像から検出された被写体のうち、サブカメラに最も近い被写体を追尾被写体に決定する方法もある。このように追尾被写体を決定することで、サブカメラの位置から最も画角に収めやすい被写体を追尾対象にすることができる。制御部１０１は、上記のように決定された追尾被写体ＳＵＢＪＥＣＴ＿ＩＤを揮発性メモリ１０２に保存し、また、保存する前の追尾被写体の識別ＩＤを、過去の追尾被写体ＩＤとして揮発性メモリ１０２に保存する。

ステップＳ１０５では、制御部１０１は、特徴情報決定部１２５の機能を実行して、サブカメラ４００の追尾被写体に対応した特徴情報をＥＢ２００に送信する。また、制御部１０１は、追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを更新し、揮発性メモリ１０２に保存し、処理をステップＳ１０６に進める。

追尾状態情報ＳＴＡＴＥは、「ＷＳ１００による追尾中」、「ＥＢ２００による追尾中」のいずれかの情報を含む。「ＷＳ１００による追尾中」はＷＳ１００がサブカメラ４００を制御することにより追尾被写体を追尾している状態を示す。「ＥＢ２００による追尾中」はＥＢ２００がサブカメラ４００を制御することにより追尾被写体を追尾している状態を示す。ステップＳ１０５の処理の詳細は後述する。

ステップＳ１０６では、制御部１０１は、追尾状態情報ＳＴＡＴＥを揮発性メモリ１０２から読み出し、追尾状態情報ＳＴＡＴＥに基づいて「ＷＳ１００による追尾中」であるか「ＥＢ２００による追尾中」であるかを判定する。制御部１０１は、「ＷＳ１００による追尾中」であると判定した場合は、処理をステップＳ１０７に進め、「ＥＢ２００による追尾中」であると判定した場合は処理をステップＳ１０１に戻す。

ステップＳ１０７では、制御部１０１は、図３の制御情報生成部１２４の機能を実行し、処理をステップＳ１０８に進める。

制御情報生成部１２４は、追尾対象決定部１２３により決定された追尾被写体ＳＵＢＪＥＣＴ＿ＩＤをサブカメラ４００により追尾するためのサブカメラ４００のパン値／チルト値ＰＴ＿ＶＡＬＵＥを算出する。制御部１０１は、基準位置情報ＲＥＦ＿ＰＯＳＩに含まれる平面座標系におけるサブカメラ４００の座標情報と、検出された被写体の座標情報ＰＯＳＩＴＩＯＮを揮発性メモリ１０２から読み出す。そして、制御部１０１は、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤに対応した被写体の座標情報からサブカメラ４００の撮影方向が追尾被写体の方向となるようなパン値／チルト値を算出する。

ここで、図７を参照して、パン値の算出方法を説明する。

図７に示すように、サブカメラ４００の光軸中心を延長した線と、サブカメラ４００と追尾被写体ＳＵＢＪＥＣＴ＿ＩＤとを結ぶ線のなす角度θは、以下の式２により算出できる。
（式２）
式２のｐｘ、ｐｙは追尾被写体の位置の水平座標および垂直座標であり、ｓｕｂｘ、ｓｕｂｙはサブカメラ４００の位置の水平座標および垂直座標である。ｐｘ、ｐｙは検出された被写体の座標情報ＰＯＳＩＴＩＯＮから、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤに対応する座標情報を参照することで求められる。

制御情報生成部１２４は、角度θに基づいてサブカメラ４００のパン値を算出する。

次に、図８を参照して、チルト制御値の算出方法を説明する。

図８に示すように、サブカメラ４００の光軸の高さｈ１として、サブカメラ４００の光軸中心を延長した線と、追尾被写体の所定部位の高さ（人物の場合、顔の高さ）ｈ２に向けて延長した線のなす角度ρは、以下の式３と式４により算出できる。
（式３）
（式４）
式４のｈ１は、サブカメラ４００の接地面からの高さ、ｈ２は追尾被写体の接地面から所定部位（人物の場合、顔）までの高さである。ｈ１、ｈ２は予め揮発性メモリ１０２に保持されていてもよいし、不図示のセンサを用いてリアルタイムに測定するようにしてもよい。

制御情報生成部１２４は、角度ρに基づいてサブカメラ４００のチルト制御値を算出する。

なお、パン値／チルト値を、サブカメラ４００を追尾被写体に向けるための速度値としてもよい。パン値／チルト値の算出方法は、まず、制御部１０１がＥＢ２００からサブカメラ４００の現在のパン値／チルト値を取得する。次に、制御部１０１は揮発性メモリ１０２から読み出したパン値θとの差に比例したパンの角速度を求める。また、制御部１０１は、揮発性メモリ１０２から読み出したチルト制御値ρとの差に比例したチルトの角速度を求める。そして、制御部１０１は、算出された制御値を揮発性メモリ１０２に保存する。

ステップＳ１０８では、制御部１０１は、揮発性メモリ１０２からパン値／チルト値を読み出し、サブカメラ４００を制御するための所定のプロトコルに従って制御コマンドに変換して揮発性メモリ１０２に保存し、処理をステップＳ１０９に進める。

ステップＳ１０９では、制御部１０１は、ステップＳ１０８で算出したパン値／チルト値に応じた制御コマンドを通信部１０５を介してサブカメラ４００に送信し、処理をステップＳ１０１に戻す。

以上がＷＳ１００の基本動作である。

次に、図３および図４（ｂ）を参照して、ＥＢ２００の機能と基本動作について説明する。

ステップＳ２０１では、制御部２０１は、通信部２０５によりサブカメラ４００に撮影コマンドを送信し、撮影されたサブ画像をサブカメラ４００から受信し、揮発性メモリ２０２に保存し、処理をステップＳ２０２に進める。

ステップＳ２０２では、制御部２０１は、図３の画像認識部２２１の機能を実行し、処理をステップＳ２０３に進める。

画像認識部２２１は、ＷＳ１００の画像認識部１２１と同様の機能を有する。制御部２０１は、推論部２０４により、揮発性メモリ２０２から読み出したサブカメラ４００のサブ画像を、ディープラーニング等の機械学習を行って作成された学習済みモデルに入力し、推論処理を行う。推論結果は、サブカメラ４００のサブ画像から検出された被写体の座標情報ＰＯＳＩＴＩＯＮ、特徴情報ＳＴＡＴ＿ＳＵＢ［ｍ］、被写体ごとの識別情報ＩＤを含み、揮発性メモリ２０２に保存される。なお、画像認識部２２１の推論処理に用いる学習済みモデルはＷＳ１００の画像認識部１２１で用いる学習済みモデルと共通のモデル（被写体検出用の推論モデル、被写体特定用の推論モデル）である。

ステップＳ２０３では、制御部２０１は、通信部２０５によりＷＳ１００から被写体の特徴情報ＳＴＡＴを受信し、図３の追尾対象決定部２２２の機能を用いて、サブカメラ４００のサブ画像から算出した特徴情報ＳＴＡＴ＿ＳＵＢと照合する。制御部２０１は、
特徴情報ＳＴＡＴと特徴情報ＳＴＡＴ＿ＳＵＢの類似度が高い被写体がサブカメラ４００の撮影画角内に存在する場合は、その被写体の識別情報ＩＤをサブカメラ４００で追尾する被写体の識別情報ＩＤ＝ＳＵＢＪＥＣＴ＿ＩＤとして決定し、揮発性メモリ１０２に保存し、処理をステップＳ２０４に進める。類似度の算出方法の詳細は後述する。

ステップＳ２０４では、制御部２０１は、通信部２０５によりＷＳ１００に追尾停止処理や追尾継続のための通信状態の確認と、通信内容に応じた処理を行い、処理をステップＳ２０５に進める。ステップＳ２０４の処理の詳細は後述する。

ステップＳ２０５では、制御部２０１は、揮発性メモリ２０２に追尾被写体ＳＵＢＪＥＣＴ＿ＩＤの情報が保存されているか否かを判定する。制御部２０１は、揮発性メモリ２０２に追尾被写体ＳＵＢＪＥＣＴ＿ＩＤの情報が保存されている、すなわち揮発性メモリ１０２にサブカメラ４００の追尾被写体の識別情報ＩＤが保存されていると判定した場合は処理をステップＳ２０６に進める。制御部２０１は、揮発性メモリ２０２に追尾被写体ＳＵＢＪＥＣＴ＿ＩＤの情報が保存されていない、すなわち揮発性メモリ１０２にサブカメラ４００の追尾被写体の識別情報ＩＤが保存されていないと判定した場合はステップＳ２０１に戻す。

ステップＳ２０６では、制御部２０１は、揮発性メモリ２０２からステップＳ２０２の被写体認識結果である被写体ごとの識別情報ＩＤを読み出し、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤがサブカメラ４００のサブ画像中に存在するか否かを判定する。制御部２０１は、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤがサブ画像中に存在すると判定した場合は処理をステップＳ２０７に進め、存在しないと判定した場合は処理をステップＳ２０１に戻す。

ステップＳ２０７では、制御部１０１は、図３の制御情報生成部２２３の機能を実行し、ステップＳ２０８に進める。

制御情報生成部２２３は、サブカメラ４００のパン値／チルト値を算出する機能を有する。制御部２０１は、揮発性メモリ２０２から被写体の座標情報ＰＯＳＩＴＩＯＮと追尾被写体ＳＵＢＪＥＣＴ＿ＩＤを読み出し、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤに対応する、現在の追尾被写体の位置を特定する。制御部２０１は、揮発性メモリ２０２から、撮影画角内の過去の追尾被写体の位置を読み出し、現在の追尾被写体の位置と、過去の追尾被写体の位置の水平方向に差が多ければパンの角速度が大きくなるように算出し、垂直方向に差が多ければチルトの角速度が大きくなるように算出する。制御部２０１は、パン値／チルト値を揮発性メモリ２０２に保存する。

ステップＳ２０８では、制御部２０１は、揮発性メモリ２０２から読み出したパン値／チルト値を、サブカメラ４００を制御するための所定のプロトコルに従って制御コマンドに変換して揮発性メモリ２０２に保存し、処理をステップＳ２０９に進める。

ステップＳ２０９では、制御部２０１は、ステップＳ２０８で算出したパン値／チルト値に応じた制御コマンドを通信部２０５を介してサブカメラ４００に送信し、処理をステップＳ１０１へ戻す。

以上がＥＢ２００の基本動作である。

以上のように、ＷＳ１００は、俯瞰カメラ３００の俯瞰画像に対して画像認識処理を行い、追尾状態情報ＳＴＡＴＥが「ＷＳ１００による追尾中」である場合はサブカメラ４００のパン動作／チルト動作を制御する。「ＥＢ２００による追尾中」である場合はサブカメラ４００のパン動作／チルト動作を制御しない。ＥＢ２００はサブカメラ４００のサブ画像に対して画像認識処理を行い、追尾被写体が設定され、サブ画像から検出されている場合はサブカメラ４００のパン動作／チルト動作を制御する。追尾被写体が設定されていない場合はサブカメラ４００のパン動作／チルト動作を制御しない。また、図９で後述する制御処理によって、追尾状態情報ＳＴＡＴＥと、追尾被写体の設定を更新することによって、ＷＳ１００とＥＢ２００のいずれによりサブカメラ４００を制御するかを切り替えることが可能になる。なお、パン値／チルト値をサブカメラ４００を制御中の一方の機器だけが送信し、他方の機器が制御中の場合は送信しないことで、図４（ａ）、（ｂ）の処理ごとにパン値／チルト値を送信する場合と比べて、通信量を削減することができる。

次に、図４（ｃ）を参照して、ＷＳ１００から撮影コマンドを受信した場合の俯瞰カメラ３００の動作について説明する。

ステップＳ３０１では、制御部３０１は、通信部３０５によりＷＳ１００から撮影コマンドを受信し、処理をステップＳ３０２に進める。

ステップＳ３０２では、制御部３０１は、通信部３０５により撮影コマンドを受信したことに応じて撮影処理を開始し、処理をステップＳ３０３に進める。制御部３０１は、撮像部３０６により画像を撮像し、画像処理部３０７により所定の画像処理を施して生成された画像データを揮発性メモリ３０２に保存する。

ステップＳ３０３では、制御部３０１は、画像データを揮発性メモリ３０２から読み出し、通信部３０５によりＷＳ１００に送信する。

以上が俯瞰カメラ３００の動作である。

次に、図４（ｄ）を参照して、ＷＳ１００またはＥＢ２００から制御コマンドを受信したサブカメラ４００の動作について説明する。

ステップＳ４０１では、制御部４０１は、通信部４０５により制御コマンドを受信し、制御コマンドを揮発性メモリ４０２に保存し、処理をステップＳ４０２に進める。

ステップＳ４０２では、制御部４０１は、通信部４０５から制御コマンドを受信したことに応じて揮発性メモリ４０２からパン値／チルト値を読み出し、処理をステップＳ４０３に進める。

ステップＳ４０３では、制御部４０１は、不揮発性メモリ４０３から読み出したパン値／チルト値に基づいて所望の方向に所望の速度でパン動作／チルト動作を制御するための駆動パラメータを算出し、処理をステップＳ４０４に進める。駆動パラメータは、ＰＴＺ駆動部４０９に含まれるパン／チルト方向のそれぞれのアクチュエータを制御するためのパラメータであり、制御コマンドに含まれるパン値／チルト値が不揮発性メモリ４０３に格納されている変換テーブルを参照して駆動パラメータに変換される。

ステップＳ４０４では、制御部４０１は、ステップＳ４０３で求めた駆動パラメータに基づいてＰＴＺ駆動部４０９により光学部４０８を制御し、サブカメラ４００の撮影方向を変更する。ＰＴＺ駆動部４０９は駆動パラメータに基づいて光学部４０８をパン／チルト方向に駆動することでサブカメラ４００の撮影方向を変更する。

以上がサブカメラ４００の動作である。

次に、図９（ａ）を参照して、ＷＳ１００の制御処理について説明する。

図９（ａ）はＷＳ１００の制御処理を示し、図４（ａ）のステップＳ１０５の詳細な処理を示している。

図９（ａ）の処理の一部は、制御部１０１が図３の追尾状態決定部１２６の機能を実行することにより実現される。

追尾状態決定部１２６は、揮発性メモリ１０２に保存されている追尾状態情報ＳＴＡＴＥを更新する機能を有する。

ステップＳ１１０では、制御部１０１は、図４（ａ）のステップＳ１０４で算出したサブカメラ４００の追尾被写体ＳＵＢＪＥＣＴ＿ＩＤと過去の追尾被写体を示す識別情報ＩＤを揮発性メモリ１０２から読み出す。そして、制御部１０１は、揮発性メモリ１０２から読み出した識別情報と比較してサブカメラ４００の追尾被写体が変更されたか否かを判定する。制御部１０１は、サブカメラ４００の追尾被写体が変更されたと判定した場合は処理をステップＳ１１１に進め、変更されていないと判定した場合は処理をステップＳ１１３に進める。

ステップＳ１１１では、制御部１０１は、通信部１０５によりＥＢ２００に追尾停止コマンドを送信し、処理をステップＳ１１２に進める。

ステップＳ１１２では、制御部１０１は、図３の追尾状態決定部１２６の機能を実行し、追尾状態情報ＳＴＡＴＥを「ＷＳ１００による追尾中」に変更する。

サブカメラ４００の追尾被写体が変更された場合は、サブカメラ４００の撮影画角内に追尾被写体が存在しない可能性が高い。この場合は、ステップＳ１１１、Ｓ１１２の処理を行うことで、サブカメラ４００に代わって、ＷＳ１００が俯瞰カメラ３００の俯瞰画像に基づいてサブカメラ４００の制御を行う。

ステップＳ１１３では、制御部１０１は、揮発性メモリ１０２から追尾状態情報ＳＴＡＴＥを読み出し、追尾状態情報ＳＴＡＴＥに基づいて「ＷＳ１００による追尾中」であるか、「ＥＢ２００による追尾中」であるかを判定する。制御部１０１は、「ＷＳ１００による追尾中」であると判定した場合は処理をステップＳ１１７に進め、「ＥＢ２００による追尾中」であると判定した場合は処理をステップＳ１１４に進める。

ステップＳ１１４では、制御部１０１は、通信部１０５によりＥＢ２００に追尾継続確認要求を送信し、ＥＢ２００による追尾被写体の追尾継続が可能か否かを問い合わせる。ＥＢ２００からの応答は「追尾継続ＯＫ」または「追尾継続ＮＧ」である。制御部１０１は、ＥＢ２００から「追尾継続ＯＫ」の通知を受けた場合は処理をステップＳ１０１に戻し、ＥＢ２００から「追尾継続ＮＧ」の通知を受けた場合は処理をステップＳ１１５に進める。

ステップＳ１１５では、制御部１０１は、通信部１０５によりＥＢ２００に追尾停止コマンドを送信し、処理をステップＳ１１６に進める。

ステップＳ１１６では、制御部１０１は、図３の追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを「ＷＳ１００による追尾中」に更新し、処理を終了する。

ステップＳ１１４からＳ１１６の処理を行うことで、追尾状態が「ＥＢ２００による追尾中」の場合に、ＥＢ２００が追尾できない状態になった場合も、ＷＳ１００により追尾を継続することができる。

ステップＳ１１７では、制御部１０１は、サブカメラ４００の撮影画角内に追尾被写体が存在するか否かを判定する。制御部１０１は、サブカメラ４００の撮影画角内に追尾被写体が存在すると判定した場合は処理をステップＳ１１８に進める。制御部１０１は、サブカメラ４００の撮影画角内に追尾被写体が存在しないと判定した場合は処理を終了する。サブカメラ４００の撮影画角内に追尾被写体が存在するか否かは、制御部１０１がサブカメラ４００から取得した現在のパン値／チルト値と、図４（ａ）のステップＳ１０７で算出する新たなパン値／チルト値とを比較することで判定できる。現在のパン値／チルト値が新たなパン値／チルト値に十分に近い場合は、サブカメラ４００の撮影画角内に追尾被写体が存在すると判定できる。あるいは、ステップＳ１０８で算出するパン／チルトの速度値が十分小さい場合は、現在のパン値／チルト値が新たなパン値／チルト値に近づいているため、サブカメラ４００の撮影画角内に追尾被写体が存在すると判定できる。

ステップＳ１１８では、制御部１０１は、図３の特徴情報決定部１２５の機能を実行し、処理をステップＳ１１９に進める。

特徴情報決定部１２５は、サブカメラ４００の追尾被写体の特徴情報、すなわちＥＢ２００に送信する被写体の特徴情報を決定する機能を有する。特徴情報決定部１２５は、画像認識部１２１が俯瞰カメラ３００の俯瞰画像から検出した被写体の特徴情報ＳＴＡＴ［ｎ］を揮発性メモリ１０２から読み出す。また、特徴情報決定部１２５は、追尾対象決定部１２３が決定した追尾被写体の識別情報ＳＵＢＪＥＣＴ＿ＩＤを揮発性メモリ１０２から読み出す。そして、特徴情報決定部１２５は、特徴情報ＳＴＡＴ［ｎ］のうち、追尾被写体に対応する特徴情報ＳＴＡＴ［ｉ］を決定し、揮発性メモリ１０２に保存する。ｉは追尾被写体を示すインデックスである。

ステップＳ１１９では、制御部１０１は、通信部１０５によりＥＢ２００に追尾開始コマンドおよび追尾被写体の特徴情報ＳＴＡＴ［ｉ］を送信し、処理をステップＳ１２０に進める。

ステップＳ１１７からＳ１１９の処理により、サブカメラ４００の撮影画角内に追尾被写体が存在する可能性が高い場合にのみ、ＥＢ２００に追尾開始コマンドおよび追尾被写体の特徴情報を送信することができる。これにより、図４（ａ）と図９（ａ）の処理ごとに情報を送信する場合に比べて通信量を削減することができる。

ステップＳ１２０では、制御部１０１は、通信部１０５によりＥＢ２００から被写体の照合結果を受信する。制御部１０１は、ＥＢ２００から被写体が一致したことを示す一致情報を受信した場合は処理をステップＳ１２１に進め、被写体が一致しないことを示す不一致情報を受信した場合は処理を終了する。

ステップＳ１２１では、制御部１０１は、図３の追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを「ＥＢ２００による追尾中」に変更し、処理を終了する。

次に、図９（ｂ）、図９（ｃ）、図１０を参照して、ＥＢ２００の制御処理について説明する。

図９（ｂ）はＥＢ２００の制御処理を示し、図４（ｂ）のステップＳ２０３の詳細な処理を示している。

ステップＳ２１０では、制御部２０１は、通信部２０５によりＷＳ１００から追尾開始コマンドおよび俯瞰カメラ３００の俯瞰画像から得られた追尾被写体の特徴情報ＳＴＡＴ［ｉ］を受信したか否かを判定する。制御部２０１は、ＷＳ１００から追尾開始コマンドおよび追尾被写体の特徴情報ＳＴＡＴ［ｉ］を受信した場合は処理をステップＳ２１１に進め、受信していない場合は処理を終了する。

ステップＳ２１１～Ｓ２１４では、制御部２０１は、図３の追尾対象決定部２２２の機能を実行し、ＷＳ１００から受信した特徴情報ＳＴＡＴ［ｉ］と、サブカメラ４００のサブ画像から得られた特徴情報ＳＴＡＴ＿ＳＵＢ［ｍ］が所定の条件を満たすか否かを判定する。

追尾対象決定部２２２は、ＷＳ１００から受信した特徴情報ＳＴＡＴ［ｉ］と、サブカメラ４００のサブ画像から得られた特徴情報ＳＴＡＴ＿ＳＵＢ［ｍ］とから類似度を算出する機能を有する。また、追尾対象決定部２２２は、揮発性メモリ１０２に保存されている閾値と特徴情報の類似度とを比較し、比較結果を揮発性メモリ１０２に保存する機能を有する。追尾対象決定部２２２は、例えば、サブカメラ４００のサブ画像に２人の人物が存在している場合、２人分の特徴情報（ＳＴＡＴ＿ＳＵＢ［１］、ＳＴＡＴ＿ＳＵＢ［２］）と、ＷＳ１００から受信した特徴情報ＳＴＡＴ［ｉ］との類似度を算出する。類似度は、特徴情報ベクトル間のコサイン類似度として算出され、類似度として１～０の値が得られる。制御部２０１は、ｍ個の被写体について算出した類似度を揮発性メモリ２０２に保存する。

ステップＳ２１１では、制御部２０１は、図３の追尾対象決定部２２２の機能を実行して特徴情報の照合処理を行い、処理をステップＳ２１２に進める。

ステップＳ２１２では、制御部２０１は、ステップＳ２１１の照合結果に応じて、特徴情報の類似度が高い被写体が存在するか否かを判定する。特徴情報の類似度が高い被写体が存在するということは、俯瞰カメラ３００とサブカメラ４００で同一の被写体が撮影されていることを意味する。制御部２０１は、特徴情報の類似度が高い被写体が存在すると判定した場合は処理をステップＳ２１４に進め、特徴情報の類似度が高い被写体が存在しないと判定した場合は処理をステップＳ２１３に進める。

制御部２０１は、所定の閾値を揮発性メモリ２０２から読み出し、所定の条件として、類似度が閾値以上である場合、あるいは、より類似度が高い被写体が存在する場合、あるいは、被写体が一致する場合に、特徴情報の類似度が高い被写体が存在すると判定し、当該被写体の識別情報ＩＤを揮発性メモリ２０２に保存する。また、制御部２０１は、特徴情報の類似度が高い被写体が存在するか否かを示す情報ＭＡＴＣＨを更新し、揮発性メモリ２０２に保存する。本実施形態では、ＭＡＴＣＨの値が０であれば特徴情報の類似度が高い被写体が存在しない、すなわち俯瞰カメラ３００とサブカメラ４００で被写体が一致しない。ＭＡＴＣＨの値が１であれば特徴情報の類似度が高い被写体が存在、すなわち俯瞰カメラ３００とサブカメラ４００で被写体が一致する。制御部２０１は、特徴情報の類似度が高い被写体が存在する場合はＭＡＴＣＨ＝１を揮発性メモリ２０２に保存し、処理をステップＳ２１４に進める。制御部２０１は、特徴情報の類似度が高い被写体が存在しない場合は、ＭＡＴＣＨ＝０を揮発性メモリ２０２に保存し、処理をステップＳ２１３に進める。

ここで、図１０を参照して、俯瞰カメラ３００の俯瞰画像とサブカメラ４００のサブ画像から検出された被写体の特徴情報の類似度について説明する。

図１０（ａ）は、俯瞰カメラ３００の撮影位置と撮影方向とサブカメラ４００の撮影位置と撮影方向の位置関係を示している。図１０（ｂ）は、俯瞰カメラ３００の俯瞰画像から検出された被写体と追尾被写体を示している。

俯瞰カメラ３００の俯瞰画像から被写体Ａ、被写体Ｂおよび被写体Ｃが検出され、サブカメラ４００の追尾被写体が被写体Ｃであるとする。サブカメラ４００からＷＳ１００に送信されるサブカメラ４００の追尾被写体の特徴情報は被写体Ｃに対応する情報である。図１０（ｃ）、（ｅ）はサブカメラ４００のサブ画像、図１０（ｄ）、（ｆ）はサブカメラ４００の追尾被写体の特徴情報とサブ画像から検出された被写体の特徴情報の類似度を示している。

図１０（ｃ）に示すように、サブカメラ４００が被写体Ａと被写体Ｂを撮影している場合は、俯瞰カメラ３００の俯瞰画像の被写体Ｃの特徴情報と、サブカメラ４００のサブ画像の被写体Ａまたは被写体Ｂの各特徴情報との類似度が算出される。図１０（ｄ）に示すように、俯瞰カメラ３００の俯瞰画像の被写体Ｃの特徴情報と、サブカメラ４００のサブ画像の被写体Ａまたは被写体Ｂの特徴情報の類似度は低くなる。この場合、例えば、被写体の類似度の閾値が０．７である場合、被写体Ａと被写体Ｂはいずれも不一致という結果になる。

また、図１０（ｅ）に示すように、サブカメラ４００が被写体Ｂと被写体Ｃを撮影している場合は、俯瞰カメラ３００の俯瞰画像の被写体Ｃの特徴情報と、サブカメラ４００のサブ画像の被写体Ｂまたは被写体Ｃの特徴情報との類似度が算出される。俯瞰カメラ３００の俯瞰画像の被写体Ｃと、サブカメラ４００のサブ画像の被写体Ｃは、カメラの撮影位置や撮影方向が異なるため画像中の形態も異なる。例えば、被写体Ｃが俯瞰カメラ３００に顔や体を向けている場合、被写体Ｃは俯瞰カメラ３００の俯瞰画像では正面に向き、サブカメラ４００のサブ画像では横向きに近くなる。ＷＳ１００の画像認識部１２１とＥＢ２００の画像認識部２２１の被写体特定用の推論モデルは、同一の被写体を複数の異なる方向から撮影した画像を学習しているモデルである。このため、撮影位置や撮影方向が異なる複数のカメラで撮影した同一の被写体が、それぞれの撮影画像における形態は異なっていても特徴情報の類似度は高くなる。つまり、図１０（ｆ）に示すように、俯瞰カメラ３００の俯瞰画像の被写体Ｃの特徴情報とサブカメラ４００のサブ画像の被写体Ｃの特徴情報の類似度は高くなる。これにより、例えば、被写体の類似度の閾値が０．７である場合、被写体Ｂは不一致、被写体Ｃは一致という結果になり、被写体Ｃは同一の被写体と判定することができる。

図９（ｂ）の説明に戻り、ステップＳ２１３では、制御部２０１は、揮発性メモリ２０２からＭＡＴＣＨ＝０を読み出し、通信部２０５によりＷＳ１００に送信し、処理を終了する。

ステップＳ２１４では、制御部２０１は、最も高い類似度が算出された被写体の識別情報ＩＤを揮発性メモリ１０２から読み出し、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤとして揮発性メモリ１０２に保存し、処理をステップＳ２１５に進める。最も高い類似度が算出された被写体を選択することにより、例えば、服装が類似した被写体が存在したとしても、その中で最も確からしい被写体を追尾対象とすることができる。

ステップＳ２１５では、制御部２０１は、揮発性メモリ２０２からＭＡＴＣＨ＝１を読み出し、通信部２０５によりＷＳ１００に送信し、処理を終了する。

図９（ｃ）はＥＢ２００の制御処理を示し、図４（ｂ）のステップＳ２０４の詳細な処理を示している。

ステップＳ２２０では、制御部２０１は、通信部２０５によりＷＳ１００から追尾停止コマンドを受信したか否かを判定する。制御部２０１は、ＷＳ１００から追尾停止コマンドを受信した場合は処理をステップＳ２２１に進め、受信していない場合は処理をステップＳ２２３に進める。

ステップＳ２２１では、制御部２０１は、通信部２０５によりサブカメラ４００にパン動作／チルト動作を停止する制御コマンドを送信し、処理をステップＳ２２２に進める。

ステップＳ２２２では、制御部２０１は、揮発性メモリ２０２に保存されている追尾被写体ＳＵＢＪＥＣＴ＿ＩＤを削除し、処理をステップＳ２０１に進める。

ステップＳ２２３では、制御部２０１は、通信部２０５によりＷＳ１００から追尾継続確認要求を受信したか否かを判定する。制御部２０１は、ＷＳ１００から追尾継続確認要求を受信した場合は処理をステップＳ２２４に進め、受信していない場合は処理を終了する。

ステップＳ２２４では、制御部２０１は、画像認識部２２１による被写体認識結果を揮発性メモリ２０２から読み出し、追尾被写体ＳＵＢＪＥＣＴ＿ＩＤが検出されているか否かを判定する。制御部２０１は、画像認識部２２１により追尾被写体ＳＵＢＪＥＣＴ＿ＩＤが検出されていると判定した場合は処理をステップＳ２２６に進め、検出されていない場合は処理をステップＳ２２５に進める。

ステップＳ２２５では、制御部２０１は、通信部２０５によりＷＳ１００に「追尾継続ＮＧ」を送信し、処理をステップＳ２０１に戻す。

ステップＳ２２６では、制御部２０１は、通信部２０５によりＷＳ１００に「追尾継続ＯＫ」を送信し、処理を終了する。

以上がＥＢ２００の詳細な制御処理である。

上述した実施形態１によれば、撮影位置や撮影方向が異なる複数のカメラ３００、４００において同一の被写体を認識できる。よって、ＷＳ１００によるサブカメラ４００の制御と、ＥＢ２００によるサブカメラ４００の制御を適切に切り替えながら特定の被写体を追尾することができる。

サブカメラ４００のサブ画像に追尾被写体が存在しない場合は、ＷＳ１００によるサブカメラ４００の制御を行い、サブカメラ４００の撮影画角に追尾被写体が存在する場合は、ＷＳ１００からＥＢ２００にサブカメラ４００の制御を受け渡すことができる。また、追尾被写体が高速に動いてロストした場合や、追尾被写体を変更する場合には、ＷＳ１００によるサブカメラ４００の制御を行うことによって追尾を継続することができる。

なお、実施形態１では、ＷＳ１００とＥＢ２００がサブカメラ４００にパン値／チルト値を送信するか否かを切り替える例を説明したが、この例に限定されない。例えば、パン値／チルト値を追尾状態にかかわらず、ＷＳ１００とＥＢ２００からサブカメラ４００に送信し、サブカメラ４００がどちらの機器から受信したパン値／チルト値でパン動作／チルト動作を行うかを制御してもよい。この場合、ＷＳ１００の処理は図４（ａ）のステップＳ１０６の処理を省略し、図４（ａ）のステップＳ１０７の処理の前に、制御部１０１がサブカメラ４００に追尾状態情報ＳＴＡＴＥを送信する処理を追加すればよい。ＥＢ２００の処理は、図４（ｂ）のステップＳ２０５とＳ２０６、図９（ｃ）のステップＳ２２１の処理を省略すればよい。

サブカメラ４００は、ＷＳ１００から受信した追尾状態情報ＳＴＡＴＥが「ＥＢ２００による追尾中」である場合は、ＥＢ２００から受信する制御コマンドに応じてパン動作／チルト動作を行うように制御する。サブカメラ４００は、ＷＳ１００から受信した追尾状態情報ＳＴＡＴＥが「ＷＳ１００による追尾中」であれる場合は、ＷＳ１００から受信する制御コマンドに応じてパン動作／チルト動作を行うように制御する。

なお、エッジボックス（ＥＢ）２００はサブカメラ４００と一体化された構成でもよく、あるいはＥＢ２００の機能がサブカメラ４００に内蔵された構成であってもよい。

［実施形態２］
実施形態１では、ＷＳ１００とＥＢ２００のいずれかでサブカメラ４００を制御する例を説明した。実施形態２は、ＥＢ２００を省略し、ＷＳ１００が俯瞰カメラ３００の俯瞰画像とサブカメラ４００のサブ画像に基づいてサブカメラ４００を制御する例を説明する。

実施形態２では、俯瞰カメラ３００の俯瞰画像に基づいて算出されたパン値／チルト値と、サブカメラ４００のサブ画像に基づいて算出されたパン値／チルト値のいずれを用いてサブカメラ４００を制御する。

実施形態２のシステム構成は、図１のシステム構成からＥＢ２００を省略した構成であり、サブカメラ４００のサブ画像がＷＳ１００に入力されている点が、実施形態１と異なる。ＷＳ１００以外の動作は実施形態１と同様である。

基本的な動作としては、俯瞰カメラ３００は俯瞰画像をＷＳ１００に送信する。サブカメラ４００はサブ画像をＷＳ１００に送信する。また、サブカメラ４００はＰＴＺ機能を有する。

ＷＳ１００は、俯瞰カメラ３００の俯瞰画像と、サブカメラ４００のサブ画像から被写体を検出し、被写体認識結果に基づいてサブカメラ４００の撮像方向を追尾被写体の方向に変更する。サブカメラ４００の撮影方向が追尾被写体の方向となるまでは、ＷＳ１００は俯瞰カメラ３００の俯瞰画像の被写体認識結果に基づいてサブカメラ４００を制御する。サブカメラ４００の撮影方向が追尾被写体の方向となった後は、ＷＳ１００は俯瞰カメラ３００の俯瞰画像から追尾被写体の特徴情報を算出し、サブカメラ４００のサブ画像から被写体の特徴情報を算出する。そして、これらの特徴情報に基づき、ＷＳ１００はサブカメラ４００を制御する。特徴情報は、撮影位置および／または撮影方向が異なる複数のカメラにより同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報である。

実施形態２によれば、俯瞰カメラ３００の俯瞰画像とサブカメラ４００のサブ画像のいずれかの被写体認識結果に基づいてサブカメラ４００を制御し、追尾被写体を追尾することができる。

ＷＳ１００、俯瞰カメラ３００、サブカメラ４００のハードウェア構成は実施形態１の図２と同様である。

まず、図１１を参照して、本実施形態の制御処理を実現するためのＷＳ１００の機能構成について説明する。

ＷＳ１００の機能は、ハードウェアおよび／またはソフトウェアにより実現される。なお、図１１に示す各機能部をソフトウェアにより実現する代わりに、ハードウェアにより構成する場合には、図１１の各機能部に対応する回路構成を備えていればよい。

ＷＳ１００は、画像認識部１２１、注目被写体決定部１２２、追尾対象決定部１２３、制御情報生成部１２４、特徴情報決定部１２５、追尾状態決定部１２６、画像認識部１２７および追尾対象決定部１２８を含む。これらの機能を実現するソフトウェアは不揮発性メモリ１０３に格納され、制御部１０１が揮発性メモリ１０２にロードして実行する。

画像認識部１２１、注目被写体決定部１２２、追尾対象決定部１２３、特徴情報決定部１２５の機能は、実施形態１の図３と同様である。

図１１および図１２を参照して、ＷＳ１００の機能と基本動作について説明する。

ステップＳ５０１からステップＳ５０４の処理は、実施形態１の図４（ａ）のステップＳ１０１からＳ１０４と同様の処理である。

ステップＳ５０５では、制御部１０１は、通信部１０５によりサブカメラ４００に撮影コマンドを送信し、撮影されたサブ画像をサブカメラ４００から受信し、揮発性メモリ１０２に保存し、処理をステップＳ５０６に進める。

ステップＳ５０６では、制御部１０１は、図１１の画像認識部１２７の機能を実行し、処理をステップＳ５０７に進める。

画像認識部１２７の機能は、実施形態１のＥＢ２００の画像認識部２２１の説明において、制御部２０１を制御部１０１、揮発性メモリ２０２を揮発性メモリ１０２、不揮発性メモリ２０３を不揮発性メモリ１０３に置き換えればよい。

ステップＳ５０７では、制御部１０１は、図１１の追尾対象決定部１２８、追尾状態決定部１２６の機能を実行して、ステップＳ５０２とＳ５０６で算出された特徴情報を照合し、追尾状態情報ＳＴＡＴＥの更新を行う。また、制御部１０１は、追尾被写体ＳＥＬＥＣＴ＿ＩＤ、追尾状態情報ＳＴＡＴＥを揮発性メモリ１０２に保存し、処理をステップＳ５０８に進める。

追尾状態情報ＳＴＡＴＥは、「俯瞰画像による追尾中」、「サブ画像による追尾中」のいずれの情報を含む。「俯瞰画像による追尾中」は俯瞰カメラ３００の俯瞰画像の被写体認識結果に基づいてサブカメラ４００を制御することにより追尾被写体を追尾している状態を示す。「サブ画像による追尾中」はサブカメラ４００のサブ画像の被写体認識結果に基づいてサブカメラ４００を制御することにより追尾被写体を追尾している状態を示す。ステップＳ５０７の処理の詳細は後述する。

ステップＳ５０８からＳ５１０の処理は、図１１の制御情報生成部１２４の機能により実行される。

ステップＳ５０８では、制御部１０１は、追尾状態情報ＳＴＡＴＥを揮発性メモリ１０２から読み出し、追尾状態情報ＳＴＡＴＥに基づいて「俯瞰画像による追尾中」であるか、「サブ画像による追尾中」であるかを判定する。制御部１０１は、「俯瞰画像による追尾中」であると判定した場合は処理をステップＳ５１０に進め、「サブ画像による追尾中」であると判定した場合は処理をステップＳ５０９に進める。

ステップＳ５０９では、制御部１０１は、サブカメラ４００のサブ画像の被写体認識結果に基づいてサブカメラ４００のパン値／チルト値を算出し、処理をステップＳ５１１に進める。ステップＳ５０９の処理は、図３の制御情報生成部２２３の処理において、制御部２０１を制御部１０１、揮発性メモリ２０２を揮発性メモリ１０２に置き換えればよい。

ステップＳ５１０では、制御部１０１は、俯瞰カメラ３００の俯瞰画像の被写体認識結果に基づいてサブカメラ４００のパン値／チルト値を算出し、処理をステップＳ５１１に進める。ステップＳ５１０の処理は、図３の制御情報生成部２２３の処理において、制御部２０１を制御部１０１、揮発性メモリ２０２を揮発性メモリ１０２に置き換えればよい。

ステップＳ５１１では、制御部１０１は、図３の制御情報生成部１２４の機能を実行し、処理をステップＳ５１２に進める。

ステップＳ５１１およびＳ５１２の処理は、図４（ａ）のステップＳ１０８およびステップＳ１０９と同様の処理である。

以上がＷＳ１００の基本動作である。

次に、図１３を参照して、ＷＳ１００の制御処理について説明する。

図１３はＷＳ１００の制御処理を示し、図１２のステップＳ５０７の詳細な処理を示している。

ステップＳ５２０の処理は図９（ａ）のステップＳ１１０と同様の処理である。

ステップＳ５２１では、制御部１０１は、図１１の追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを「俯瞰カメラの画像による追尾中」に変更する。

ステップＳ５２２では、制御部１０１は、揮発性メモリ１０２から追尾状態情報ＳＴＡＴＥを読み出し、追尾状態情報ＳＴＡＴＥに基づいて「俯瞰画像による追尾中」であるか、「サブ画像による追尾中」であるかを判定する。制御部１０１は、「俯瞰画像による追尾中」であると判定した場合は処理をステップＳ５２５に進め、「サブ画像による追尾中」と判定した場合は処理をステップＳ５２３に進める。

ステップＳ５２３の処理は、図９（ｂ）のステップＳ２２４の処理において、制御部２０１を制御部１０１、揮発性メモリ２０２を揮発性メモリ１０２に置き換えればよい。

ステップＳ５２４では、制御部１０１は、図１１の追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを「俯瞰画像による追尾中」に変更する。

ステップＳ５２５およびＳ５２６の処理は、図９（ａ）のステップＳ１１７とＳ１１８と同様の処理である。

ステップＳ５２７からＳ５２９の処理は、図９（ｂ）のステップＳ２１１からＳ２１４の処理において、制御部２０１を制御部１０１、揮発性メモリ２０２を揮発性メモリ１０２に置き換えればよい。

ステップＳ５３０では、制御部１０１は、図１１の追尾状態決定部１２６の機能を実行して、追尾状態情報ＳＴＡＴＥを「サブ画像による追尾中」に変更し、処理を終了する。

上述した実施形態２によれば、ＷＳ１００が俯瞰カメラ３００の俯瞰画像とサブカメラ４００のサブ画像のどちらの被写体認識結果に基づいてサブカメラ４００を制御するかを切り替える。これにより、実施形態１のＥＢ２００が不要になり、システム構成を簡素化して実施形態１と同様の効果を得ることができる。

［実施形態３］
実施形態１、２では、俯瞰カメラ３００とサブカメラ４００を備えるシステムの例を説明した。

実施形態３では、俯瞰カメラ３００とサブカメラ４００に加え、メインカメラ５００を備えるシステムの例について説明する。

図１４は、実施形態３のシステム構成図である。

実施形態３は、メインカメラ５００を備え、サブカメラ４００の追尾被写体をメインカメラ５００で撮影されたメイン画像に基づいて決定する点が実施形態１と異なる。以下では、実施形態１と相違する点を中心に説明する。

実施形態３において、メインカメラ５００はＰＴＺ機能を有する。ＷＳ１００の注目被写体決定部１２２は、メインカメラ５００の撮影範囲から、メインカメラ５００の注目被写体を決定（推定）し、メインカメラ５００の注目被写体に基づいてサブカメラ４００の追尾被写体を決定する。サブカメラ４００の追尾被写体は、メインカメラ５００の注目被写体と同じ被写体としてもよいし、別の被写体としてもよい。

次に、サブカメラ４００に設定された役割（ＲＯＬＥ）に基づいてサブカメラ４００の追尾被写体を決定する例について説明をする。

サブカメラ４００の役割とは、メインカメラ５００における注目被写体、ズーム動作に関連付けられるサブカメラ４００の追尾被写体、およびズーム動作の制御内容を示すものである。サブカメラ４００の役割は、ＷＳ１００またはＥＢ２００に設けられた操作部を介してユーザが設定することができる。また、複数のサブカメラが設置されている場合は、複数のサブカメラのいずれかをメインカメラに設定することができ、メインカメラの設定をＷＳ１００またはＥＢ２００に設けられた操作部によりユーザが設定できるようにしてもよい。サブカメラ４００の役割やメインカメラの設定方法は、上記の方法に限定されず、どのような方法でもよい。

図１５は、サブカメラ４００に設定可能な役割と内容を例示している。

役割（ＲＯＬＥ）が「メインフォロー」の場合は、サブカメラ４００の役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）は、メインカメラ５００が注目している被写体と同じ被写体を追尾し、かつメインカメラ５００のズーム動作と同位相でズーム制御を行う。この役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）に基づいて、サブカメラ４００のズーム制御値が算出される。ここで、ズーム動作における同位相とは、メインカメラ５００とサブカメラ４００のズーム動作が同じ方向の制御となることを意味する。例えば、メインカメラ５００のズーム制御値が広角側から望遠側に変更された場合に、サブカメラ４００のズームも広角側から望遠側に変更される。

役割（ＲＯＬＥ）が「メインカウンター」の場合には、サブカメラ４００の役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）は、メインカメラ５００が注目している被写体と同じ被写体を追尾し、かつメインカメラ５００のズーム動作と逆位相でズーム制御を行う。この役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）に基づいて、サブカメラ４００のＰＴＺ値が算出される。ここで、ズーム動作における逆位相とは、メインカメラ５００とサブカメラ４００のズーム動作が逆方向の制御となることを意味する。例えば、メインカメラ５００のズーム制御値が広角側から望遠側に変更された場合に、サブカメラ４００のズームは望遠側から広角側に変更される。

役割（ＲＯＬＥ）が「アシストフォロー」の場合には、サブカメラ４００は、メインカメラ５００が注目している被写体と別の被写体を追尾し、かつメインカメラ５００のズーム動作と同位相でズーム制御を行う。この役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）に基づいて、サブカメラ４００のズーム制御値が算出される。

役割（ＲＯＬＥ）が「アシストカウンター」の場合には、サブカメラ４００は、メインカメラ５００が注目している被写体と別の被写体を追尾し、かつメインカメラ５００のズーム動作と逆位相でズーム制御を行う。この役割（ＣＡＭＥＲＡ＿ＲＯＬＥ）に基づいて、サブカメラ４００のズーム制御値が算出される。図１５の例では、「アシストフォロー」、「アシストカウンター」の追尾被写体の制御内容として「メインと別（左側）」が例示されているが、追尾被写体を「メインと別（右側）」とする「アシストフォロー」、「アシストカウンター」があってもよい。

また、追尾被写体を「メインと別」とする場合に左右以外（上下や前後）の位置の被写体とする役割があってもよい。

複数のサブカメラがある場合には、それぞれのサブカメラに対して役割を設定してもよい。

また、実施形態３では、追尾被写体とズームの制御内容を役割として設定する例を説明したが、追尾被写体のみの制御内容を役割として設定してもよいし、他の項目を追加してもよい。

また、実施形態３では、メインカメラ５００のメイン画像に基づいてサブカメラ４００の追尾被写体を設定し、実施形態１に実施形態３を組み合わせた例を説明したが、実施形態２に実施形態３を組み合わせてもよい。

さらに、実施形態１、２のように俯瞰カメラ３００とサブカメラ４００を備える構成において、各カメラで撮影された俯瞰画像とサブ画像の両方に基づいてサブカメラ４００が追尾被写体を追尾するように制御してもよい。

また、実施形態３のように俯瞰カメラ３００とサブカメラ４００に加えてメインカメラ５００を備える構成では、それぞれのカメラで撮影された俯瞰画像、メイン画像および、サブ画像のいずれか２つあるいはすべてに基づいてサブカメラ４００が追尾被写体を追尾するように制御してもよい。

［他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

本明細書の開示は、以下のシステム、制御装置、制御方法およびプログラムを含む。
［構成１］
撮影方向が異なる第１の撮像装置および第２の撮像装置と、前記第１の撮像装置により撮像された第１の画像または前記第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御装置および第２の制御装置と、を含むシステムであって、
前記第１の制御装置は、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成手段と、
前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御手段と、を有し、
前記第２の制御装置は、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成手段と、
前記第１の制御装置により生成された前記第１の特徴情報と前記第２の生成手段により生成された前記第２の特徴情報とを比較する比較手段と、
前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記比較手段による比較の結果に基づいて、前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記第１の制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の制御装置が前記第２の撮像装置を制御する第２の状態とを切り替えることを特徴とするシステム。
［構成２］
前記第１の制御装置は、前記第１の特徴情報を前記第２の制御装置に送信し、
前記第１の制御手段は、前記比較手段による比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は、前記第２の状態に切り替え、
前記第１の特徴情報と前記第２の特徴情報とが前記所定の条件を満たさない場合は、前記第１の状態に切り替えることを特徴とする構成１に記載のシステム。
［構成３］
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較手段は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較結果を出力することを特徴とする構成２に記載のシステム。
［構成４］
前記第２の制御手段は、前記所定の被写体が前記第２の撮像装置の撮影範囲に存在する場合に、前記所定の被写体を追尾するように前記第２の撮像装置を制御し、
前記所定の被写体が前記第２の撮像装置の撮影範囲に存在しなくなった場合は、前記所定の被写体の追尾を継続できないことを前記第１の制御装置に通知し、
前記第１の制御手段は、前記通知を受けて前記第２の状態から前記第１の状態に切り替えることを特徴とする構成１から３のいずれか１項に記載のシステム。
［構成５］
前記所定の被写体が変更された場合、前記第１の制御手段は、前記第２の状態から前記第１の状態に切り替えることを特徴とする構成１から４のいずれか１項に記載のシステム。
［構成６］
前記所定の被写体が変更された場合、前記第１の制御手段は、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は、前記第１の状態から前記第２の状態に切り替える構成５に記載のシステム。
［構成７］
前記第１の制御装置は、
前記第１の画像から検出された被写体から前記所定の被写体を決定する第１の追尾対象決定手段と、
前記所定の被写体の前記第１の特徴情報を決定し、前記第２の制御装置に送信する特徴情報決定手段と、
前記所定の被写体を追尾するように前記第２の制御装置の撮影方向を制御する第１の制御情報を生成する第１の制御情報生成手段と、を有し、
前記第２の制御装置は、
前記第２の画像から検出された被写体の前記第２の特徴情報と、前記第１の制御装置から受信した前記所定の被写体の前記第１の特徴情報とに基づいて前記第２の画像から検出された被写体から前記所定の被写体を決定する第２の追尾対象決定手段と、
前記所定の被写体を追尾するように前記第２の制御装置の撮影方向を制御する第２の制御情報を生成する第２の制御情報生成手段と、を有することを特徴とする構成１から６のいずれか１項に記載のシステム。
［構成８］
前記第２の撮像装置は、前記第１の制御装置または前記第２の制御装置から取得した制御情報に基づいて前記所定の被写体を追尾するように前記第２の制御装置の撮影方向を制御することを特徴とする構成７に記載のシステム。
［構成９］
前記第２の撮像装置は、前記第１の制御装置と前記第２の制御装置から取得した制御情報のいずれかに基づいて前記所定の被写体を追尾するように前記第２の制御装置の撮影方向を制御することを特徴とする構成７に記載のシステム。
［構成１０］
前記制御情報は、パン値とチルト値の少なくともいずれかを含むことを特徴とする構成７から９のいずれか１項に記載のシステム。
［構成１１］
前記第１の生成手段は、前記第１の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第１の特徴情報を生成し、
前記第２の生成手段は、前記第２の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第２の特徴情報を生成することを特徴とする構成１から１０のいずれか１項に記載のシステム。
［構成１２］
前記学習済みモデルは、被写体検出用の第１のモデルと被写体特定用の第２のモデルとを含み、
前記第１の生成手段は、前記第１の画像を入力として前記第１のモデルを用いた推論処理を行うことにより前記第１の画像に含まれる被写体の位置を示す第１の情報を生成し、
前記第１の画像と前記第１の情報を入力として前記第２のモデルを用いた推論処理を行うことにより前記第１の画像に含まれる被写体の特徴情報を生成し、
前記第２の生成手段は、前記第２の画像を入力として前記第１のモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の位置を示す第２の情報を生成し、
前記第２の画像と前記第２の情報を入力として前記第２のモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の特徴情報を生成することを特徴とする構成１１に記載のシステム。
［構成１３］
前記被写体特定用の第２のモデルは、複数の被写体について複数の異なる撮影方向から撮影した画像を学習用データとして、同じ被写体の画像に対しては特徴情報の類似度が高くなるように学習を行った学習済みモデルであることを特徴とする構成１２に記載のシステム。
［構成１４］
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する生成手段と、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記制御手段は、外部装置において、前記第２の画像に含まれる被写体の第２の特徴情報と前記第１の特徴情報とを比較した結果に基づいて、前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記外部装置が前記第２の撮像装置を制御する第２の状態とを切り替え、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であることを特徴とする制御装置。
［構成１５］
第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する生成手段と、
外部装置から取得した前記第１の撮像装置により撮像された第１の画像に含まれる前記所定の被写体の第１の特徴情報と、前記第２の特徴情報とを比較する比較手段と、
前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御手段は、前記比較手段による比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合に、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御することを特徴とする制御装置。
［構成１６］
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成手段と、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成手段と、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御手段は、前記第１の特徴情報と前記第２の特徴情報とを比較した結果に基づいて、前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の状態と、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の状態とを切り替えることを特徴とする制御装置。
［構成１７］
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する生成ステップと、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記制御ステップでは、外部装置において、前記第２の画像に含まれる被写体の第２の特徴情報と前記第１の特徴情報とを比較した結果に基づいて、前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記外部装置が前記第２の撮像装置を制御する第２の状態とを切り替え、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であることを特徴とする方法。
［構成１８］
第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する生成ステップと、
外部装置から取得した前記第１の撮像装置により撮像された第１の画像に含まれる所定の被写体の第１の特徴情報と、前記第２の特徴情報とを比較する比較ステップと、
前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御ステップでは、前記比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合に、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御することを特徴とする方法。
［構成１９］
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成ステップと、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成ステップと、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御ステップでは、前記第１の特徴情報と前記第２の特徴情報とを比較した結果に基づいて、前記第１の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の状態と、前記第２の特徴情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の状態とを切り替えることを特徴とする方法。
［構成２０］
コンピュータを、構成１４から１６のいずれか１項に記載された制御装置として機能させるためのプログラム。

１００…第１の制御装置（ワークステーション／ＷＳ）、２００…第２の制御装置（エッジボックス／ＥＢ）、３００…第１の撮像装置（俯瞰カメラ）、４００…第２の撮像装置（サブカメラ）、１０１、２０１、３０１、４０１…制御部

Claims

撮影方向が異なる第１の撮像装置および第２の撮像装置と、前記第１の撮像装置により撮像された第１の画像または前記第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御装置および第２の制御装置と、を含むシステムであって、
前記第１の制御装置は、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成手段と、
前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の制御手段と、を有し、
前記第２の制御装置は、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成手段と、
前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記第１の制御装置により生成された前記第１の特徴情報と前記第２の生成手段により生成された前記第２の特徴情報とを比較する比較手段を有し、
前記比較手段による比較の結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第１の制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の制御装置が前記第２の撮像装置を制御する第２の状態とを切り替え、
前記第１の制御装置は、前記第１の特徴情報を前記第２の制御装置に送信し、
前記第１の制御手段は、前記比較手段による比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は、前記第２の状態に切り替え、
前記第１の特徴情報と前記第２の特徴情報とが前記所定の条件を満たさない場合は、前記第１の状態に切り替え、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較手段は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較結果を出力することを特徴とするシステム。
前記第２の制御手段は、前記所定の被写体が前記第２の撮像装置の撮影範囲に存在する場合に、前記所定の被写体を追尾するように前記第２の撮像装置を制御し、
前記所定の被写体が前記第２の撮像装置の撮影範囲に存在しなくなった場合は、前記所定の被写体の追尾を継続できないことを前記第１の制御装置に通知し、
前記第１の制御手段は、前記通知を受けて前記第２の状態から前記第１の状態に切り替えることを特徴とする請求項１に記載のシステム。
前記所定の被写体が変更された場合、前記第１の制御手段は、前記第２の状態から前記第１の状態に切り替えることを特徴とする請求項１に記載のシステム。
前記所定の被写体が変更された場合、前記第１の制御手段は、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は、前記第１の状態から前記第２の状態に切り替える請求項３に記載のシステム。
前記第１の制御装置は、
前記第１の画像から検出された被写体から前記所定の被写体を決定する第１の追尾対象決定手段と、
前記所定の被写体の前記第１の特徴情報を決定し、前記第２の制御装置に送信する特徴情報決定手段と、
前記所定の被写体を追尾するように前記第２の撮像装置の撮影方向を制御する第１の制御情報を生成する第１の制御情報生成手段と、を有し、
前記第２の制御装置は、
前記第２の画像から検出された被写体の前記第２の特徴情報と、前記第１の制御装置から受信した前記所定の被写体の前記第１の特徴情報とに基づいて前記第２の画像から検出された被写体から前記所定の被写体を決定する第２の追尾対象決定手段と、
前記所定の被写体を追尾するように前記第２の撮像装置の撮影方向を制御する第２の制御情報を生成する第２の制御情報生成手段と、を有することを特徴とする請求項１に記載のシステム。
前記第２の撮像装置は、前記第１の制御装置または前記第２の制御装置から取得した制御情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置の撮影方向を制御することを特徴とする請求項５に記載のシステム。
前記第２の撮像装置は、前記第１の制御装置と前記第２の制御装置から取得した制御情報のいずれかに基づいて前記所定の被写体を追尾するように前記第２の撮像装置の撮影方向を制御することを特徴とする請求項５に記載のシステム。
前記第１の制御装置および前記第２の制御装置で生成される制御情報は、パン値とチルト値の少なくともいずれかを含むことを特徴とする請求項５に記載のシステム。
前記第１の生成手段は、前記第１の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第１の特徴情報を生成し、
前記第２の生成手段は、前記第２の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第２の特徴情報を生成することを特徴とする請求項１に記載のシステム。
前記学習済みモデルは、被写体検出用の第１のモデルと被写体特定用の第２のモデルとを含み、
前記第１の生成手段は、前記第１の画像を入力として前記第１のモデルを用いた推論処理を行うことにより前記第１の画像に含まれる被写体の位置を示す第１の情報を生成し、
前記第１の画像と前記第１の情報を入力として前記第２のモデルを用いた推論処理を行うことにより前記第１の画像に含まれる被写体の特徴情報を生成し、
前記第２の生成手段は、前記第２の画像を入力として前記第１のモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の位置を示す第２の情報を生成し、
前記第２の画像と前記第２の情報を入力として前記第２のモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の特徴情報を生成することを特徴とする請求項９に記載のシステム。
前記被写体特定用の第２のモデルは、複数の被写体について複数の異なる撮影方向から撮影した画像を学習用データとして、同じ被写体の画像に対しては特徴情報の類似度が高くなるように学習を行った学習済みモデルであることを特徴とする請求項１０に記載のシステム。
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する生成手段と、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記制御手段は、外部装置において、前記第２の画像に含まれる被写体の第２の特徴情報と前記第１の特徴情報とを比較した結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記外部装置が前記第２の撮像装置を制御する第２の状態とを切り替え、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御手段は、前記外部装置において、前記比較した結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は前記第２の状態に切り替え、前記所定の条件を満たさない場合は前記第１の状態に切り替え、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較した結果は、前記外部装置において、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較した結果であることを特徴とする制御装置。
第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第２の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の第２の特徴情報を生成する生成手段と、
外部装置から取得した前記第１の撮像装置により撮像された第１の画像に含まれる前記所定の被写体の第１の特徴情報と、前記第２の特徴情報とを比較する比較手段と、
前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御手段は、前記比較手段による比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合に、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御し、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較手段は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較結果を出力することを特徴とする制御装置。
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成手段と、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成手段と、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御手段と、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御手段は、前記第１の特徴情報と前記第２の特徴情報とを比較した結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の状態とを切り替え、
前記制御手段は、前記比較した結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は前記第２の状態に切り替え、前記所定の条件を満たさない場合は前記第１の状態に切り替え、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較した結果は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較した結果であることを特徴とする制御装置。
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する生成ステップと、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記制御ステップでは、外部装置において、前記第２の画像に含まれる被写体の第２の特徴情報と前記第１の特徴情報とを比較した結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記制御装置が前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記外部装置が前記第２の撮像装置を制御する第２の状態とを切り替え、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御ステップでは、前記外部装置において、前記比較した結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は前記第２の状態に切り替え、前記所定の条件を満たさない場合は前記第１の状態に切り替え、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較した結果は、前記外部装置において、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較した結果であることを特徴とする方法。
第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第２の画像を入力として学習済みモデルを用いた推論処理を行うことにより前記第２の画像に含まれる被写体の第２の特徴情報を生成する生成ステップと、
外部装置から取得した前記第１の撮像装置により撮像された第１の画像に含まれる所定の被写体の第１の特徴情報と、前記第２の特徴情報とを比較する比較ステップと、
前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御ステップでは、前記比較の結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合に、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御し、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較ステップでは、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較結果を出力することを特徴とする方法。
第１の撮像装置により撮像された第１の画像または前記第１の撮像装置とは撮影方向が異なる第２の撮像装置により撮像された第２の画像に基づいて所定の被写体を追尾するように前記第２の撮像装置を制御する制御装置の制御方法であって、
前記第１の画像に含まれる前記所定の被写体の第１の特徴情報を生成する第１の生成ステップと、
前記第２の画像に含まれる被写体の第２の特徴情報を生成する第２の生成ステップと、
前記所定の被写体を追尾するように前記第２の撮像装置を制御する制御ステップと、を有し、
前記第１の特徴情報および前記第２の特徴情報は、撮影方向が異なる複数の撮像装置により同一の被写体が撮影されている場合に、同一の被写体であることが特定可能な情報であり、
前記制御ステップでは、前記第１の特徴情報と前記第２の特徴情報とを比較した結果に基づいて、前記第１の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第１の状態と、前記第２の画像から検出された前記所定の被写体の位置を示す情報に基づいて前記所定の被写体を追尾するように前記第２の撮像装置を制御する第２の状態とを切り替え、
前記制御ステップでは、前記比較した結果に基づいて、前記第１の特徴情報と前記第２の特徴情報とが所定の条件を満たす場合は前記第２の状態に切り替え、前記所定の条件を満たさない場合は前記第１の状態に切り替え、
前記所定の条件は、前記第１の特徴情報と前記第２の特徴情報の類似度が閾値以上の場合であり、
前記比較した結果は、前記第１の特徴情報と前記第２の特徴情報の類似度を算出し、前記類似度と前記閾値との比較した結果であることを特徴とする方法。
コンピュータを、請求項１２から１４のいずれか１項に記載された制御装置として機能させるためのプログラム。