WO2014181726A1

WO2014181726A1 - 背景差分抽出装置及び背景差分抽出方法

Info

Publication number: WO2014181726A1
Application number: PCT/JP2014/061826
Authority: WO
Inventors: 寛雅奥; 恵子横山; 正俊石川
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2013-05-09
Filing date: 2014-04-28
Publication date: 2014-11-13
Anticipated expiration: 2015-11-09
Also published as: US20160088231A1; CN105210368A; JP6090786B2; JP2014219874A; CN105210368B; US9924104B2

Abstract

　視点が移動するカメラで取得した画像を用いた背景差分の取得を可能にするための技術が提供される。まず、カメラ１１により、対象物を含まない画像である背景画像を取得する。カメラ１１の視線方向及び視点位置の情報を用いて、背景画像における画素の位置情報を、固定座標系における極座標情報に変換する。背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録部３に記録する。つぎに、カメラ１１により、対象物を含む画像である実画像を取得する。カメラ１１の視線方向及び視点位置の情報を用いて、実画像における画素の位置情報を、固定座標系における極座標情報に変換する。実画像における画素の極座標情報を用いて、実画像に対応する角度領域での背景画像を対象背景として特定する。実画像と対象背景とを比較することによって、それらの間の差分を抽出する。

Description

背景差分抽出装置及び背景差分抽出方法

　本発明は、画像データどうしを比較することによって背景差分を抽出するための技術に関するものである。

　被写体を継続的に撮影するためには、カメラの視線を対象に向け続ける必要がある。多くの場合この作業は撮影者が手動で行うが、ボールの跳躍のような高速かつ不規則な運動に完璧に追従するのは難しい。このため、カメラの視線方向を機械で自動制御するシステム（いわゆるアクティブビジョン；下記非特許文献１参照）の研究は様々な分野で盛んとなっている。

　通常のアクティブビジョンの技術では、カメラ自体を駆動雲台に取り付けて動かしているため、視線方向の移動についての応答速度が遅い。これでは、急激な加速度変化を含む運動対象（例えば球技で用いられているボール）をトラッキングすることは難しい。高速カメラのフレームレートが、速いものでは１００万fpsに達する事や、ＧＰＵによって画像処理が高速化されている現状を考えると、視線制御速度は、様々なトラッキングシステムにおいて速度面でのボトルネックとなっていると言える。

　この問題を解決するために、カメラ前方に配置した小型駆動鏡面によって高速にカメラの視線変更を行うサッカードミラー（Saccade Mirror）と呼ばれる光学系が提案されている（下記非特許文献２参照）。この技術では、２軸のガルバノミラーを用いることによって、高速な視線変更ができるようになっている。もし、制御系において、常に画面中心で対象物をとらえるように視線の制御ができれば、他に類を見ないダイナミックな撮像が可能になると考えられる。

　ところで、対象物をトラッキングするには、画像中の対象物を抽出し、その方向にカメラの視線を向ける必要がある。画像中の対象物を抽出する方法としては、例えば：
（１）画像中の特徴量を抽出した後、事前学習で得た学習データとの比較によって画像中の対象物を特定する方法；
（２）背景画像をあらかじめ取得しておき、対象物を含む画像（実画像）との比較によって対象物を特定する方法（いわゆる背景差分法）
などが存在する。前記（１）の方法は、背景画像の取得が不要であるという利点はあるが、画像処理の時間が長くなるので、実時間での対象物特定には不向きである。また、この方法は、学習データの内容にもよるが、対象物の特定精度も不十分となりがちである。

　前記（２）の背景差分法は、高速な対象物特定が可能であるという利点がある。しかしながら、従来から提案されている背景差分法（例えば下記非特許文献３及び４）は、視点固定カメラで得られた画像を前提としている。これらの技術は、視点が動くカメラに直接適用することは難しいと考えられる。

J. Aloimonos, I. Weiss and A. Bandyopadhyay: "Active Vision", Int'l Journal of Computer Vision, vol. 1, no. 4, pp. 333.356 (1988). K. Okumura, H. Oku and M. Ishikawa: "High-Speed Gaze Controller for Millisecond-order Pan/tilt Camera", Proc. of IEEE Int'l Conf. on Robotics and Automation, pp. 6186. 6191 (2011). T. Wada and T. Matsuyama: "Appearance Sphere: Background model for pan-tilt-zoom camera", Proc. of 13th Int'l Conf. of Pattern Recognition, pp. A718.722 (1996). K. Yachi, T. Wada and T. Matsuyama: "Human Head Tracking using Adaptive Appearance Model with a Fixed-viewpoint Pan-tilt-zoom Camera", Proc. of IEEE Intl' Conf. on Automatic Face and Gesture Recognition, pp. 150.155 (2000).

　本発明は、前記の状況に鑑みてなされたものである。本発明は、視点が移動するカメラで取得した画像を用いた背景差分の取得を可能にするための技術を提供することを目的としている。

　前記した課題を解決する手段は、以下の項目のように記載できる。

　（項目１）
　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するための装置であって、
　撮像部と、極座標算出部と、記録部と、対象背景抽出部と、差分抽出部とを備えており、
　前記撮像部は、カメラと、駆動部とを備えており、
　前記カメラは、対象物を含まない画像である背景画像、あるいは、対象物を含む画像である実画像を取得できる構成となっており、
　前記駆動部は、前記カメラの視線方向及び視点位置を変更できる構成となっており、
　前記極座標算出部は、視線方向取得部と、視点位置取得部と、座標変換部とを備えており、
　前記視線方向取得部は、前記カメラにおける視線方向を取得する構成となっており、
　前記視点位置取得部は、前記カメラにおける視点位置を取得する構成となっており、
　前記座標変換部は、取得された前記視線方向及び視点位置を用いて、前記背景画像あるいは前記実画像における画素の位置情報を、固定座標系における極座標情報に変換する構成となっており、
　前記記録部は、前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録する構成となっており、
　前記対象背景抽出部は、前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定する構成となっており、
　前記差分抽出部は、前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出する構成となっている
　背景差分抽出装置。

　（項目２）
　前記座標変換部における、前記極座標情報への変換は、
　前記背景画像あるいは前記実画像における画素の位置情報を、視点が固定された仮想カメラにおける仮想画像上での、当該画素の位置情報である仮想位置情報に変換する処理と、
　前記仮想位置情報を、前記固定座標系における極座標情報に変換する処理と
　によって行われる構成となっている
　項目１に記載の背景差分抽出装置。

　（項目３）
　さらに量子化部を備えており、
　前記量子化部は、前記座標変換部で得られた前記極座標情報を量子化する構成とされており、
　さらに、前記量子化部は、前記カメラにおける視線方向が前記固定座標系における基準方向からずれるほど、量子化単位としての角度範囲を増やす構成とされており、
　前記記録部は、前記画素の極座標情報として、量子化された前記極座標情報を用いる構成とされている
　項目１又は２に記載の背景差分抽出装置。

　（項目４）
　さらに、ブラー生成部を備えており、
　前記ブラー生成部は、前記対象背景を、前記視線方向が移動する方向に沿って複数枚特定し、特定された複数枚の前記対象背景を合成することによって、ブラーを有する合成対象背景を生成する構成とされており、
　前記差分抽出部は、前記実画像と前記合成対象背景とを比較することによって、前記差分を抽出する構成とされている
　項目１～３のいずれか１項に記載の背景差分抽出装置。

　（項目５）
　前記カメラの視線方向は、パン方向角度とチルト方向角度とによってあらわされている
　項目１～４のいずれか１項に記載の背景差分抽出装置。

　（項目６）
　前記駆動部は、前記カメラの視線方向をパン方向とチルト方向とに変化させる鏡面光学系を備えている
　項目１～５のいずれか１項に記載の背景差分抽出装置。

　（項目７）
　さらに、背景更新部を備えており、
　前記背景更新部は、前記実画像のうち、前記差分抽出部において前記差分とされなかった部分を新たな背景画像として特定して、前記記録部における前記背景画像における画素の色情報を更新する構成とされている
　項目１～６のいずれか１項に記載の背景差分抽出装置。

　（項目８）
　前記駆動部は、前記差分抽出部によって差分として抽出された部分に前記カメラの視線方向を向ける構成とされている
　項目１～７のいずれか１項に記載の背景差分抽出装置。

　（項目９）
　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するための方法であって、
　前記カメラにより、対象物を含まない画像である背景画像を取得するステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記背景画像における画素の位置情報を、前記固定座標系における極座標情報に変換するステップと、
　前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録部に記録するステップと、
　前記カメラにより、対象物を含む画像である実画像を取得するステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記実画像における画素の位置情報を、固定座標系における極座標情報に変換するステップと、
　前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定するステップと、
　前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出するステップと
　を備えることを特徴とする背景差分抽出方法。

　（項目１０）
　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するためのコンピュータプログラムであって、
　対象物を含まない画像である背景画像をカメラに取得させるステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記背景画像における画素の位置情報を、固定座標系における極座標情報に変換するステップと、
　前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録部に記録するステップと、
　対象物を含む画像である実画像を前記カメラに取得させるステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記実画像における画素の位置情報を、前記固定座標系における極座標情報に変換するステップと、
　前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定するステップと、
　前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出するステップと
　をコンピュータに実行させるためのコンピュータプログラム。

　このコンピュータプログラムは、適宜な記録媒体（例えばＣＤ－ＲＯＭやＤＶＤディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはＭＯディスクのような光磁気記録媒体）に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。

　本発明によれば、視点が移動するカメラで取得した画像を用いた背景差分の取得が可能となる。したがって、例えば、取得した背景差分を対象物とみなして、この対象物を追跡するためにカメラの視線制御を行うことが可能となる。

本発明の第１実施形態における背景差分抽出装置の概略的な構成を示すブロック図である。撮像部の具体的な構成例を示す説明図である。図１の装置を含むトラッキングシステムの概略的な説明図である。図１の装置を用いた背景差分抽出方法の概略的な手順を示すフローチャートである。背景情報を登録する手順を示すフローチャートである。座標変換手順を説明するための前提となる座標系及び視点位置の説明図である。座標変換手順を説明するための前提となる座標系及び画素位置の説明図であって、図（ａ）は仮想カメラ座標系の説明図、図（ｂ）は固定座標系におけるパン角とチルト角の説明図である。極座標を算出する手順を示すフローチャートである。量子化された極座標情報を説明するための説明図である。実画像の情報を算出するための手順を示すフローチャートである。本発明の第２実施形態における背景差分抽出装置の概略的な構成を示すブロック図である。

　以下、添付図面を参照しながら、本発明の第１実施形態に係る背景差分抽出装置について説明する。本実施形態の装置は、後述する対象物トラッキングシステムにおいて用いられるものである。

　（第１実施形態の構成）
　本実施形態の背景差分抽出装置は、図１に示されるように、撮像部１と、極座標算出部２と、記録部３と、対象背景抽出部４と、差分抽出部５とを有している。さらに、この装置は、背景更新部６を有している。

　撮像部１は、カメラ１１と、駆動部１２とを備えている。さらに撮像部１は、瞳転送部１３を備えている。撮像部１の具体的構成例を図２に示す。

　カメラ１１は、対象物のトラッキングのために適切なフレームレートで画像を取得する構成となっている。例えば、対象物が高速に移動する場合は、１フレーム当たり１ｍｓのサイクルでデジタル画像を取得するものを用いることができるが、これはあくまで一例であり、用途に応じて異なるフレームレートを使用することができる。カメラ１１の画素数は、トラッキングの目的に即して決定することができ、原理的には特段の制約はない。カメラ１１の視線方向を、図２において矢印で示している。後述するように、カメラ１１は、対象物を含まない画像である背景画像、あるいは、対象物を含む画像である実画像を取得できる構成となっている。すなわち、カメラ１１は、背景画像情報の登録時には背景画像を撮影し、対象物のトラッキングの際には実画像（対象物を含む画像）を撮影するものである。もちろん、本実施形態において、背景画像撮影用のカメラと実画像撮影用のカメラとを別々に備えることも可能である。なお、カメラ１１としては、可視光カメラに限らず、赤外光やその他の波長域の電磁波（テラヘルツ波やミリ波を含む）を撮像するカメラであってもよい。要するに、カメラ１１としては、デジタル画像を取得できるものであればよく、いわゆるレンジファインダであってもよい。また、カメラ１１としては、単一波長の光を撮像するカメラ（モノクロカメラ）であってもよい。この場合、得られた画像の画素値は輝度値のみとなる。本明細書では、画素の輝度値自体も「画素の色情報」の一例に対応するものとする。

　駆動部１２は、カメラ１１の視線方向をパン方向とチルト方向とに変化させる鏡面光学系を備えている。より具体的には、図２に示されるように、駆動部１２は、パンミラー１２１とチルトミラー１２２とを備えている。パンミラー１２１及びチルトミラー１２２は、いずれも、図示しない駆動手段、例えば制御モータにより、所定の軸を中心として、パン方向あるいはチルト方向にそれぞれ回動できるようになっている。また、本実施形態では、図示しない制御部により、パン角度及びチルト角度を制御できるようになっている。さらに本実施形態では、実際のパン角度及びチルト角度を取得して、制御部側にフィードバックすることができるようになっている。

　後述するように、瞳転送部１３により転送された瞳の位置（つまり視点位置）は、パン角度あるいはチルト角度の変更に伴って変動する。これにより、駆動部１２は、カメラ１１の視線方向及び視点位置を変更できる構成となっている。なお、本明細書において、カメラ１１の視線方向は、パン方向角度とチルト方向角度とによって表されるものとする。

　さらに、本実施形態の駆動部１２は、差分抽出部５によって差分として抽出された部分にカメラ１１の視線方向を向けるように、図示しない制御部によって制御されるものである。

　瞳転送部１３は、図２に示す瞳転送光学系により構成されている。瞳転送部１３は、パンミラー１２１とチルトミラー１２２との間に、カメラ１１の瞳位置を転送するようになっている。

　極座標算出部２は、視線方向取得部２１と、視点位置取得部２２と、座標変換部２３とを備えている。さらに、本実施形態の極座標算出部２は、量子化部２４を備えている。

　視線方向取得部２１は、カメラ１１における視線方向を取得する構成となっている。具体的には、視線方向取得部２１は、駆動部１２におけるパンミラー１２１及びチルトミラー１２２の傾斜角度の情報（実際の角度であることが好ましいが制御指令値であってもよい）を撮像部１（又は図示しない制御部）から取得して、視線方向を算出するようになっている。

　視点位置取得部２２は、カメラ１１における視点位置を取得する構成となっている。具体的には、視点位置取得部２２は、視線方向取得部２１と同様に、駆動部１２におけるパンミラー１２１及びチルトミラー１２２の傾斜角度の情報を撮像部１から取得して、視点位置を算出するようになっている。

　座標変換部２３は、取得された視線方向及び視点位置を用いて、背景画像あるいは実画像における画素の位置情報を、固定座標系（いわゆるワールド座標系）における極座標情報に変換するものである。

　本実施形態では、座標変換部２３における極座標情報への変換が、
（１）背景画像あるいは実画像における画素の位置情報を、視点が固定された仮想カメラにおける仮想画像上での、当該画素の位置情報である仮想位置情報に変換する処理；及び
（２）仮想位置情報を、固定座標系における極座標情報に変換する処理
　によって実行されるようになっている。

　量子化部２４は、座標変換部２３で得られた極座標情報を量子化するものである。量子化部２４は、カメラ１１における視線方向が固定座標系における基準方向からずれるほど、量子化単位としての角度範囲を増やす構成とされている。

　極座標算出部２における詳しい処理は、本実施形態の動作の説明において詳しく述べる。極座標算出部２は、例えばコンピュータのハードウエア及びソフトウエアの組み合わせにより構成することができる。

　記録部３は、背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録する構成となっている。本実施形態の記録部３は、この記録部３に記録されるべき画素の極座標情報として、量子化部２４によって量子化された極座標情報を用いるものとなっている。

　記録部３は、例えばコンピュータで利用可能な揮発性あるいは不揮発性メモリであるが、具体的な記録媒体に制約はない。記録部３は、ネットワークを介してコンピュータにより利用可能な記録装置であってもよい。また、画素の色空間としては、特に制約はなく、ＲＧＢやＨＳＶなど、必要に応じて適切な色空間を用いることができる。また、色空間としては、輝度情報のみでもよく、また、必要に応じて、輝度情報以外の色彩情報のみであってもよい。

　対象背景抽出部４は、実画像における画素の極座標情報を用いて、実画像に対応する角度領域での背景画像を対象背景として特定するものである。

　差分抽出部５は、実画像と対象背景とを比較することによって、それらの間の差分を抽出するものである。

　背景更新部６は、実画像のうち、差分抽出部５において差分とされなかった部分を新たな背景画像として特定して、記録部３における背景画像の画素の色情報を更新する構成とされている。

　本実施形態の背景差分抽出装置におけるさらに具体的な構成は、後述の動作の説明において詳しく述べる。

　（第１実施形態の動作）
　以下、本実施形態の背景差分抽出装置の動作について説明する。以下の説明の前提として、本実施形態の背景差分抽出装置が組み込まれるトラッキングシステムの全体的な構成例を図３により説明する。このトラッキングシステムは、コンピュータ１００を備えており、このコンピュータ１００（すなわちハードウエア及びソフトウエアの組み合わせ）により、極座標算出部２、記録部３、対象背景抽出部４、差分抽出部５及び背景更新部６の機能が実現されている。また、コンピュータ１００の制御部（図示せず）から制御指令を駆動部１２に送ることでパンミラー１２１及びチルトミラー１２２の傾斜角度（パン角度及びチルト角度）を制御して、追跡対象物２００に視線を合わせる（つまり追跡する）ことができるようになっている。さらに、この装置では、パンミラー１２１及びチルトミラー１２２の実際の傾斜角度をセンサ（図示せず）により取得して、コンピュータ１００に戻し、例えば極座標算出部２により利用できるようになっている。

　以下、図４のフローチャートを参照しながら、本例の背景差分抽出方法を説明する。

　（図４のステップＳＡ－１）
　本実施形態の背景差分抽出方法では、まず、対象物を含まない画像である背景画像を登録する処理を行う。背景画像登録処理の具体例を、図５を参照して詳しく説明する。

　（図５のステップＳＢ－１）
　まず、カメラ１１により、背景画像を取得する。ここで、本実施形態では、カメラ１１で取得可能な全ての領域における背景の画像（本明細書では「全背景画像」と称する）を取得する。すなわち、本実施形態では、駆動部１２によりカメラ１１の視線方向を変更できるので、視線方向の最大可変範囲に対応して、カメラ１１で取得可能な全背景画像を取得する。ただし、全背景画像を一度に取得する必要はなく、所定の画角で撮影された背景画像ごとに、以降の極座標算出処理や登録処理を行うこととしてもよい。もちろん、全背景画像を取得した後に、以降の処理を行うことも可能である。また、全背景画像は、以降の背景差分抽出処理に使用されると予想される角度範囲（あるいは視線方向範囲）で取得されればよいので、全ての視線方向範囲に対応した背景画像を取得することは必須ではない。取得された背景画像の情報（画素情報及び画像上の画素位置情報）は、座標変換部２３に送られる。

　（図５のステップＳＢ－２）
　一方、パンミラー１２１及びチルトミラー１２２の実際の傾斜角度（背景画像取得時のもの）は、駆動部１２から視線方向取得部２１及び視点位置取得部２２に送られる。視線方向取得部２１及び視点位置取得部２２では、パンミラー１２１及びチルトミラー１２２の傾斜角度の情報を用いて、視線方向及び視点位置を算出する。なお、この算出において、パンミラー１２１及びチルトミラー１２２の実際の傾斜角度に代えて、これらへの傾斜角度の指示値を用いることも可能である。ただし、実際の傾斜角度を用いることによりトラッキング精度の向上を期待できる。以下において、視線方向取得部２１及び視点位置取得部２２における、パンミラー１２１及びチルトミラー１２２の傾斜角度の情報を用いた、視線方向及び視点位置の算出方法を説明する。

　（視線方向及び視点位置の算出）
　固定座標系（世界座標と呼ぶこともある）に対するカメラ１１、パンミラー１２１及びチルトミラー１２２の位置関係を図６に示す。前記した通り、パンミラー１２１及びチルトミラー１２２によって、カメラ１１の視線方向を制御できるようになっている。また、瞳転送部１３により、カメラ１１の瞳位置を光学的にこれらのミラーの中間に転送するようになっている。これにより充分な画角を保ちつつ、駆動部１２の小型化が可能となり、しかも高速な視線方向制御が可能となっている。瞳転送部１３によりパンミラー１２１とチルトミラー１２２との間に転送された瞳は、対象物から見れば、図６において符号ｐの位置（つまりパンミラー１２１により瞳の鏡像となる位置）に見える。この位置は、カメラ１１の視点位置と光学的に等価なので、以下の説明では視点として扱う。また、視点を原点として対象物に向く視線方向をｚ_ｃ軸とするカメラ座標系を（ｘ_ｃ，ｙ_ｃ，ｚ_ｃ）と定義する（図６参照）。カメラ座標（ｘ_ｃ，ｙ_ｃ，ｚ_ｃ）と固定座標（Ｘ，Ｙ，Ｚ）との変換は、下記式（１）のように表現できる。

　ここで、計算の便宜上、二つのミラー１２１及び１２２の中心間距離をｌ_ｍとし、瞳転送部１３によるカメラ１１の瞳の転送先を、チルトミラー１２２からの光軸上距離がｌ_ｍ／２となる位置とする（図６参照）。さらに、カメラ１１とパン・チルトミラー１２１・１２２とがなす平面（より具体的には、カメラ１１の元々の視点位置と両ミラーの中心点との三点を通る平面）とカメラ座標系上のｚ_ｃ軸とが直交する場合のカメラ座標は、世界座標と一致することになる。

　視線がパン・チルト方向にそれぞれθ_ｃ，φ_ｃだけ回転したとき（このときのパン・チルトミラー回転量はそれぞれθ_ｃ／２，φ_ｃ／２）における、両座標系の間の変換は前記式（１）と同様の形で表される。ここでＲはパンミラーおよびチルトミラーによる視線の回転行列Ｒ_ｔＲ_ｐを用いて
Ｒ＝Ｒ_ｔＲ_ｐ　　　　　　（２）
と書ける。

　ここで、各回転行列Ｒ_ｔＲ_ｐは以下のように表せる。

　また前記した視点位置ｐは、以下のように書ける。

　したがって、視点位置取得部２２では、この計算を用いて、パンミラー１２１及びチルトミラー１２２の傾斜角度の情報（すなわちカメラの視線方向θ_ｃとφ_ｃ）から、視点位置を算出できる。つまり、前記したように、瞳転送部１３で転送された瞳の位置（視点位置）は、パン角度あるいはチルト角度の変更に伴って変動する。なお、視線方向取得部２１は、パン・チルトミラーの回転角を用いて、カメラ１１の視線方向（つまりθ_ｃとφ_ｃ）を簡単に取得できる。

　（図５のステップＳＢ－３）
　ついで、座標変換部２３は、カメラ１１の視線方向及び視点位置の情報（つまりθ_ｃとφ_ｃ）を用いて、背景画像における画素の位置情報を、固定座標系（Ｘ，Ｙ，Ｚ）における極座標情報に変換する。以下、この変換手順の一例を説明する。

　（極座標情報の算出）
　前提として、カメラ１１の焦点距離をｆ、画像平面をπとおく。また図７（ａ）に示すように、視点移動における並進成分を０と仮定した場合の、下記のカメラ座標系（以下「仮想カメラ座標系」という）を考える。

　この仮想カメラ座標系に対応する画像平面（いわば仮想カメラ上の仮想画像）をπ'とする。背景上のある点をＰとおき、点Ｐを通り平面πおよびπ'に平行な平面をΠとおく（図７（ａ）参照）。

　（図８のステップＳＣ－１～ＳＣ－２）
　以下、極座標の算出手順を、図８のフローチャートを参照しながら説明する。点Ｐが平面π上に投影される点を（ｕ，ｖ）、平面π'上に投影される点を（ｕ'，ｖ'）とする。ただし（ｕ，ｖ）および（ｕ'，ｖ'）の原点はそれぞれｚ_ｃおよびｚ'_ｃ上にとる。Ｌを視点ｐから平面Πまでの距離とすると、｜ｚ'_ｃ－ｚ_ｃ｜はＬに対して充分に小さいと考えられるため、画像π上の画素位置（ｕ，ｖ）から、仮想画像π'上の画素位置（ｕ'，ｖ'）を、近似的に以下のように導くことができる。

　（図８のステップＳＣ－３）
　このように算出した点（ｕ'，ｖ'）を用いると、ＸＹＺ固定座標系における点Ｐの極座標表示角度（θ，φ）は以下のように表される（図７（ｂ））。

　以上より、距離Ｌが既知ならば式（５）および（６）を用いて、任意視線で得たカメラ画像における画素位置（ｕ，ｖ）を極座標角度（θ，φ）で表せる。以下、Ｌが既知であれば問題ないが、仮に既知でなくとも所定条件の下では支障がない。以下、並進成分の取り扱いについて補足して説明する。

　（並進成分の取り扱い）
　式（５）の右辺第二項に示された並進成分は、距離Ｌが充分に大きい場合には、無視出来る程小さい。つまり、背景が充分遠くにある場合には視点移動は問題にならない。具体的には、距離Ｌが下記条件を満たすならば、並進に伴う画素のずれはサブピクセル単位に収まる。

　ただしこの式においてｗ，ｈは画像の横／縦画素数、γ_ｗとγ_ｈはそれぞれ横／縦方向の画角を表す。

　一方、背景までの距離が、並進を無視できない程に小さい場合は、距離Ｌを既知として計算するために弱透視投影（Weak perspective projection）（参考文献：J. Aloimonos: "Perspective approximations", Image and Vision Computing, vol. 8, no. 3, pp. 179.192 (1990).）の仮定を用いることができる。弱透視投影の下では、全ての物体は距離Ｌの平面上に一度正投影される。言い方を変えれば、全ての物体は距離Ｌ￣の平面上にあると仮定される。この時、仮定による誤差がサブピクセル単位になるために実際の距離Ｌが満たすべき条件は以下のようになる。

　以上により、背景画像の各画素について、極座標情報を取得することができる。前記の処理は、全ての背景画像について同様に行うことができるので、全背景画像についての極座標情報を取得することができる。

　（図８のステップＳＣ－４）
　ついで、本実施形態では、量子化部２４が、座標変換部２３で得られた極座標情報を量子化する処理を行う。ここで、量子化部２４は、カメラ１１における視線方向が固定座標系における基準方向（本例ではＺ軸方向）から外れるほど、量子化単位としての角度範囲を増やすように量子化を行う。以下、量子化処理の具体例を説明する。

　（量子化処理）
　実際には、背景情報は連続的ではなく離散的な画素値として得られるため、極座標上に登録されるデータには密度的な偏りが生じ得る。つまり、極座標上において同じ角度幅であっても、パン角あるいはチルト角の大小によって、担うべき情報量（画素数）が違ってきてしまう。１画素に対応する（ｕ，ｖ）の単位変化量をΔｕおよびΔｖとすると、これらに相当する（θ，φ）の変化量は、式（６）より次のように求まる。

　極座標上のデータの密度分布は、可能な限り均一であることが望ましい。不均一であると、角度範囲ごとに担う情報量が異なってしまう。また、不均一であるということは、ある角度範囲においては不必要に多い情報量を保存するということでもあるので、メモリの利用効率が悪くなる。そのため、ΔｕおよびΔｖを、例えば以下のように定義することが出来るであろう。

　これらの定義に基づいて、背景情報登録のための量子化角度
θ_ｍｎ＝ｍΔθ（φ_ｎ），φ_ｎ＝ｎΔφ（ｍ，ｎは整数）
を決定することができる。

　ここで、ｍ，ｎは、基準方向（前記の例では固定座標系でのＺ方向）からのずれ量と考えることができる。したがって、量子化角度は、基準方向からの視線のずれが大きいほど広くなる。前記のようにして量子化した場合の量子化単位の概念図を図９に示す。チルト角が大きくなると、単位当たりのパン角が受け持つ画素量が多くなるので、量子化単位を一定幅で書けば、矩形の画像が「たる型」に変形することになる。なお、前記の式においてｍ，ｎは負の値をとることもできる。また、Δｕ，Δｖの定義によっては、背景情報登録時には、特定の量子化角度範囲に属するデータがないという可能性があるが、その場合は、適宜にデータを補間することにより、空データの参照を防ぐことが好ましい。

　（図５のステップＳＢ－４）
　ついで、記録部３は、背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録する。ここで、記録部３は、画素の極座標情報として、量子化部２４で量子化された極座標情報を用いる。

　（図４のステップＳＡ－２）
　ついで、実画像情報を算出する。実画像情報算出の手順を、図１０のフローチャートを参照しながら説明する。

　（図１０のステップＳＤ－１）
　まず、撮像部１により、対象物を含む画像である実画像を取得する。画像の取得方法自体は背景画像の場合と同様である。ただし、対象物を視線が追跡する場合は、１回の実画像取得ごとに以下の差分抽出処理を行うことが望ましい。

　（図１０のステップＳＤ－２）
　一方、視線方向取得部２１及び視点位置取得部２２により、カメラ１１の視線方向及び視点位置を取得する。これについても、背景画像の場合と同様でよい。

　（図１０のステップＳＤ－３）
　ついで、座標変換部２３により、カメラ１１の視線方向及び視点位置の情報を用いて、実画像における画素の位置情報を、固定座標系における極座標情報に変換する。この座標変換処理も、前記した背景画像と同様に行うことができる。得られた極座標情報は、対象背景抽出部４に送られる。

　（図４のステップＳＡ－３）
　次に、対象背景抽出部４は、実画像における画素の極座標情報を用いて、実画像に対応する角度領域での背景画像を対象背景として特定する。さらに具体的には、対象背景抽出部４は、実画像の極座標情報（実際には量子化されている）に基づいて、実画像が撮影した領域に対応する領域での背景画像を特定することができる。したがって、対象背景抽出部４は、実画像に対応する範囲を特定する極座標情報を記録部３に送り、その極座標情報に対応する対象背景の画像（つまり画素情報）を指定あるいは取得することができる。

　（図４のステップＳＡ－４）
　次に、差分抽出部５は、実画像と対象背景とを比較することによって、それらの間の差分を抽出する。実画像と対象背景とは、実空間（図７（ａ）における平面Πと言ってもよい）における同じ領域の画像となっているので、それらの画素どうしの情報（色情報）を比較することによって、背景差分を抽出することができる。

　ここで、背景差分の抽出においては、画像平面上での画素位置を基準とする方法（つまり画像空間内で行う方法）と、極座標上での画素位置を基準とする方法（つまり極座標空間内で行う方法）とがある。画像平面上での画素位置を基準とする場合は、極座標と画像平面上の画素位置との対応関係（この対応関係は極座標算出時に算出されている）を使って、画素位置を基準として、同一位置の画素どうしを比較することができる。一方、極座標上での画素位置を基準とする場合は、同じ極座標に対応する画素どうしを比較すればよい。なお、前記した通り、本実施形態においては、極座標情報を量子化したので、量子化された極座標ごとの比較が行われる。また、画像空間内で抽出を行う場合も、極座標が量子化されているので、結果的には位置情報が量子化されていることになる。

　なお、背景か対象物かを判定する場合、画素単位で比較するよりも、当該画素の周辺の画素情報を加味して判断することが妥当であると考えられる。これは、つぎの理由による：
・照明のフリッカやカメラのノイズによって画素値がある程度変動すると予想されること；
・実際の視線方向のブレ、量子化時の丸め誤差、あるいは各種の機械的誤差のために、全視野背景から抽出した背景画像と実際の背景との間には多少のずれが生じると予想されること。

　そのため、例えば極座標を基準として判定する場合、対象の画素位置に対応する極座標（θ_ｍｎ，φ_ｎ）を中心とする周辺、つまり
（θ_{（ｍ＋ｋ）（ｎ＋ｌ）}，φ_{（ｎ＋ｌ）}）（ここで｜ｋ｜，｜ｌ｜＜２～３程度）
に登録された画素値全てについて実画像と背景画像とを比較して、背景か否かを判断するのが妥当と考えられる。画像上の座標を基準とする場合は、これらの極座標に対応する画像座標を算出して、差分抽出を行うことができる。なお、本実施形態においては、前記した背景差分による対象抽出に加えて、画像特徴を利用した対象抽出を行うこともできる。つまり、背景差分による対象抽出と、画像特徴を利用した対象抽出のＡＮＤ条件により、対象の位置を精度よく特定することが可能である。

　（図４のステップＳＡ－５）
　ついで、差分抽出部５は、得られた差分情報（つまり対象物の位置情報）を、図示しない制御部に送る。制御部では、カメラ１１の視線方向が対象物の位置を向くように、駆動部１２を制御する。これにより、対象物をカメラ１１で追跡することができる。前記した各処理が十分高速であれば、移動する対象物をカメラ画像のほぼ中心に配置することが可能となる。

　（図４のステップＳＡ－６）
　差分抽出部５で抽出された差分以外の部分は、背景を表す情報（つまり背景情報）として利用可能である。そこで、本実施形態の差分抽出部５は、背景情報を背景更新部６に送る。背景情報は、背景に相当する部分の位置情報（この例では量子化された極座標情報）と、その位置における画素の色情報とを含む。背景更新部６は、背景情報を用いて、記録部３における背景画素情報を極座標情報により特定して更新することができる。これにより、背景情報を最新のものに更新できるので、背景差分の抽出精度を向上させることができる。なお、背景情報の更新は、背景差分が抽出されるたびに行う必要はなく、所定時間間隔ごとに行うことも可能である。あるいは、背景差分抽出による背景情報の更新処理を省略することもでき、例えば、所定時間ごとに、全背景情報を再取得して更新してもよい。

　（図４のステップＳＡ－７）
　ついで、カメラ１１により新しい実画像を取得した場合は、ステップＳＡ－２に戻り、前記した処理を繰り返す。そうでなければ処理を終了する。

　本実施形態によれば、視点が移動するカメラを用いた場合において、背景差分抽出を高速で、かつ精度よく行うことが可能となる。例えばリアルタイムでの球技の中継放送において、ボール自体を常に追跡する画像を提供することが可能となる。例えば、常にボールを中心においた動画（例えば、卓球において、あたかもボールの背後から常に周囲を見ているかのような動画）のように、新たな付加価値を持つ画像を提供できるという利点がある。また、本実施形態の装置は、医療やファクトリーオートメーションやロボットビジョンなど、各種の分野において応用可能であると考えられる。

　（第２実施形態）
　次に、本発明の第２実施形態に係る背景差分抽出装置を、主に図１１を参照しながら説明する。この第２実施形態の説明においては、前記した第１実施形態の背景差分抽出装置と基本的に共通する構成要素については、同一の符号を付すことにより、説明の煩雑を避ける。

　第２実施形態の装置は、ブラー生成部７を追加的に備えている点で、第１実施形態の装置と相違している。ブラー生成部７は、対象背景を、視線方向が移動する方向に沿って複数枚特定し、特定された複数枚の対象背景を合成することによって、ブラーを有する合成対象背景を生成する処理を行う機能要素である。また、第２実施形態の差分抽出部５は、実画像と合成対象背景とを比較することによって、差分を抽出する構成とされている。さらに、この第２実施形態では、背景更新部６を省略しており、逐次の背景更新は行わないものとされている。したがって、記録部３に記録されている背景画像は、初期に取得された全背景の画像（あるいはその後に再取得された全背景の画像）となっている。

　モーションブラー（この明細書においては単に「ブラー」と称する）とは、被写体もしくはカメラ自体が露光中に動くことによって生じる画像のぶれである。追跡対象が常に画像内の固定位置に撮影されるように撮影すると、対象の移動速度によっては、露光時間を短くしても風景部分に大きなぶれ（すなわちブラー）を生じることがある。一方、記録部３に記録されている背景画素情報は、通常、静止状態を前提としているので、背景画像にはブラーは存在しない。したがって、このようなぶれを生じると、背景差分を正確に抽出することが一般的には難しくなるという問題がある。そこで、背景画像にも画像処理によりブラーを生じさせることが考えられる。しかしながら、従来から提案されているブラーカーネルを用いたブラー除去（参考文献：P. Hansen and J. N. D. Oleary: "Deblurring Images: Matrices, Spectra, and Filtering", SIAM Press (2006).）は多くの計算量を要するため、実時間システムへの組み込みには適さない。そこで本実施形態では、カメラ１１の視線方向が既知という条件を利用して「ブラーを含んだ背景画像」を合成し、背景差分を行う。

　以下、ブラー生成処理の具体例について詳しく説明する。

　（ブラー生成処理）
　カメラから得られる映像は、露光中に各受像素子に入射する光の総和として得られる。つまり、時刻ｔからΔｔ秒間の露光によって得られる画像Ｉ（ｔ）は以下の式で表現できる。

　ここでｉ（θ_ｃ，φ_ｃ）は、視線方向（θ_ｃ，φ_ｃ）における静止時の画像を表す。ただし、システムの実装においてはｉ（θ_ｃ，φ_ｃ）は連続的ではなく離散的に取得されるため、露光中のサンプリング回数をｎとして、下記Ｉ＾を推定値として得ることができる。

　ここで（θ_ｃ［ｋ］，φ_ｃ［ｋ］）は、ｋ回目のサンプリング時（時刻ｔ＋（ｋ／ｎ）Δｔ）における視線方向を表す。この処理は、「対象背景を、視線方向が移動する方向に沿って複数枚特定し、特定された複数枚の対象背景を合成することによって、ブラーを有する合成対象背景Ｉ＾を生成する処理」に相当する。以上の説明から明らかなように、露光中の各時刻における視線方向を決定できれば、全視野背景に基づいて、モーションブラーを含んだ背景画像を合成することができる。

　背景画像にモーションブラーを生成できれば、差分抽出の精度を向上させることが期待できる。

　なお、前記のブラー生成処理において、ブラー生成のために合成する画像枚数は、基本的には、視線の移動速度によって決定することができる。すなわち、画像取得のサンプリング間隔とカメラの露光時間Δｔとは通常一定であるが、一定の露光時間Δｔ内で取得された画像のうち、何枚を用いてブラー生成を行うかを、視線の移動速度によって決めることができる。例えば、視線移動速度が低いときは、Δｔ内での全取得画像を用いるのではなく、ある程度の画像を間引いて合成することが考えられる。このように、視線移動速度に応じて、ブラー生成に用いる画像枚数を変更することができる。

　第２実施形態の装置における他の構成及び利点は、前記した第１実施形態と同様なので、これ以上詳しい説明は省略する。

　なお、本発明の内容は、前記各実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。

　例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。

　また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティング又はクラウドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。

　さらに、前記した実施形態においては、いわゆるサッカードミラーを用いてカメラの視点を動かす例を説明したが、これに限らず、視点が可動なカメラであれば、本発明を適用することが可能であると考えられる。

Claims

　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するための装置であって、
　撮像部と、極座標算出部と、記録部と、対象背景抽出部と、差分抽出部とを備えており、
　前記撮像部は、カメラと、駆動部とを備えており、
　前記カメラは、対象物を含まない画像である背景画像、あるいは、対象物を含む画像である実画像を取得できる構成となっており、
　前記駆動部は、前記カメラの視線方向及び視点位置を変更できる構成となっており、
　前記極座標算出部は、視線方向取得部と、視点位置取得部と、座標変換部とを備えており、
　前記視線方向取得部は、前記カメラにおける視線方向を取得する構成となっており、
　前記視点位置取得部は、前記カメラにおける視点位置を取得する構成となっており、
　前記座標変換部は、取得された前記視線方向及び視点位置を用いて、前記背景画像あるいは前記実画像における画素の位置情報を、固定座標系における極座標情報に変換する構成となっており、
　前記記録部は、前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録する構成となっており、
　前記対象背景抽出部は、前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定する構成となっており、
　前記差分抽出部は、前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出する構成となっている
　背景差分抽出装置。
　前記座標変換部における、前記極座標情報への変換は、
　前記背景画像あるいは前記実画像における画素の位置情報を、視点が固定された仮想カメラにおける仮想画像上での、当該画素の位置情報である仮想位置情報に変換する処理と、
　前記仮想位置情報を、前記固定座標系における極座標情報に変換する処理と
　によって行われる構成となっている
　請求項１に記載の背景差分抽出装置。
　さらに量子化部を備えており、
　前記量子化部は、前記座標変換部で得られた前記極座標情報を量子化する構成とされており、
　さらに、前記量子化部は、前記カメラにおける視線方向が前記固定座標系における基準方向からずれるほど、量子化単位としての角度範囲を増やす構成とされており、
　前記記録部は、前記画素の極座標情報として、量子化された前記極座標情報を用いる構成とされている
　請求項１又は２に記載の背景差分抽出装置。
　さらに、ブラー生成部を備えており、
　前記ブラー生成部は、前記対象背景を、前記視線方向が移動する方向に沿って複数枚特定し、特定された複数枚の前記対象背景を合成することによって、ブラーを有する合成対象背景を生成する構成とされており、
　前記差分抽出部は、前記実画像と前記合成対象背景とを比較することによって、前記差分を抽出する構成とされている
　請求項１～３のいずれか１項に記載の背景差分抽出装置。
　前記カメラの視線方向は、パン方向角度とチルト方向角度とによってあらわされている
　請求項１～４のいずれか１項に記載の背景差分抽出装置。
　前記駆動部は、前記カメラの視線方向をパン方向とチルト方向とに変化させる鏡面光学系を備えている
　請求項１～５のいずれか１項に記載の背景差分抽出装置。
　さらに、背景更新部を備えており、
　前記背景更新部は、前記実画像のうち、前記差分抽出部において前記差分とされなかった部分を新たな背景画像として特定して、前記記録部における前記背景画像における画素の色情報を更新する構成とされている
　請求項１～６のいずれか１項に記載の背景差分抽出装置。
　前記駆動部は、前記差分抽出部によって差分として抽出された部分に前記カメラの視線方向を向ける構成とされている
　請求項１～７のいずれか１項に記載の背景差分抽出装置。
　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するための方法であって、
　前記カメラにより、対象物を含まない画像である背景画像を取得するステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記背景画像における画素の位置情報を、前記固定座標系における極座標情報に変換するステップと、
　前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録部に記録するステップと、
　前記カメラにより、対象物を含む画像である実画像を取得するステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記実画像における画素の位置情報を、固定座標系における極座標情報に変換するステップと、
　前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定するステップと、
　前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出するステップと
　を備えることを特徴とする背景差分抽出方法。
　視線方向及び視点位置が移動可能なカメラで得られた画像を用いて背景差分を抽出するためのコンピュータプログラムであって、
　対象物を含まない画像である背景画像をカメラに取得させるステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記背景画像における画素の位置情報を、固定座標系における極座標情報に変換するステップと、
　前記背景画像における画素の色情報と、当該画素の極座標情報との対応関係を記録部に記録するステップと、
　対象物を含む画像である実画像を前記カメラに取得させるステップと、
　前記カメラの視線方向及び視点位置の情報を用いて、前記実画像における画素の位置情報を、前記固定座標系における極座標情報に変換するステップと、
　前記実画像における画素の極座標情報を用いて、前記実画像に対応する角度領域での前記背景画像を対象背景として特定するステップと、
　前記実画像と前記対象背景とを比較することによって、それらの間の差分を抽出するステップと
　をコンピュータに実行させるためのコンピュータプログラム。