JP5432677B2

JP5432677B2 - クラスタリングを使用したビデオ概要の生成方法とシステム

Info

Publication number: JP5432677B2
Application number: JP2009266870A
Authority: JP
Inventors: ペレグシュミュエル; プリッチヤエル; ラトヴィッチサリト; ヘンデルアヴィスハイ
Original assignee: Yissum Research Development Co of Hebrew University of Jerusalem
Current assignee: Yissum Research Development Co of Hebrew University of Jerusalem
Priority date: 2008-11-21
Filing date: 2009-11-24
Publication date: 2014-03-05
Anticipated expiration: 2029-11-24
Also published as: JP2010134923A; US20180042388A1

Description

本発明は、ビデオ要約とビデオ索引付け分野に関する。

＜先行技術＞
本発明の背景として関連があると思われる従来技術の参照文献を以下に示す。これら参照文献の内容は、参照により本明細書に組み込まれているものとする。その他の参照文献は上記米国仮出願番号第６１／１１６，６４６号に記載されており、それらの内容は参照により本明細書に組み込まれているものとする。本明細書における参照文献を承認することは、本明細書で開示される発明の特許性に何れの形でも関わることを示唆するものではない。それぞれの参照文献は角括弧内の番号で識別され、本明細書内ではこれら従来技術が角括弧に入れられた番号として参照される。

[１] E. Bennett and L. McMillan. Computational time-lapse video. SIGGRAPH'07, 2007
[２] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. CVPR, Anchorage, Alaska, 2008
[３] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20, 1995
[４] H. Kang, Y. Matsushita, X. Tang, and X. Chen. Space-time video montage. CVPR'06, pages 1331-1338, New-York, 2006
[５] D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 30(2):91-110, 2004
[６] D. Mount and S. Arya. Ann: A library for approximate nearest neighbor searching. University of Maryland, 1997
[７] N. Petrovic, N. Jojic, and T. Huang. Adaptive video fast forward. Multimedia Tools and Applications, 26(3):327-344, August 2005
[８] D. Simakv, Y. Caspi, E. Shechtman, and M. Irani. Summarizing visual data using bidirectional similarity. CVPR'08, Ancorage, 2008
[９] J. Sun, W. Zhang, X. Tang, and H. Shum. Background cut. ECCV'06, pp. 628-641, 2006
[１０] Y. Weiss. Segmentation using eigenvectors: a unifying view. ICCV'99, pp.
975-982, 1999
[１１] L. Wolf, M. Guttmann, and D. Cohen-Or. Non-homogeneous content-driven video-retargetings. ICCV'07, Rio de Janiero, 2007
[１２] R. Zass and A. Shashua. A unifying approach to hard and probabilistic clustering. ICCV'05, volume 1, pp. 294-301, 2005

＜背景技術＞
ビデオカメラやビデオ録画に用いられるディスク記憶装置の低価格化、また、ネットワークを通じて簡単にビデオ転送を行うことが可能なネットワークカメラの登場により、ビデオ監視カメラは非常に普及してきている。価格が手頃になってきたため、個人の家庭にさえ監視カメラが設置されている。ほとんどの監視カメラで生成されたビデオは、膨大なビデオアーカイブとして記録される。

設置されているビデオカメラのほとんどは、ＤＶＲ（デジタルビデオレコーダー）あるいはＮＶＲ（ネットワークビデオレコーダー）にビデオを記録する。記録されたビデオは、通常、誰にも閲覧されることがない。ビデオアーカイブの検索は、大変な困難を呈する
。興味のある動きを検索する自動ビデオ解析手法は継続的な進歩をみせているが、十分な解決策を与えるには未だ程遠い。要約法により、人によるビデオの閲覧が効率化されるが［８、１１］、長すぎたり複雑すぎたりといった要約が生成される。

監視ビデオの理解を目的としたビデオ解析システムは、単純に警告を提供するには有用である。立ち入り禁止区域への侵入の自動検知や、一つの画像領域から別の画像領域へ横断した際の自動検知といった方法では、ほとんどエラーもなく正確な警告を提供する。しかしながら、最も優れたビデオ解析システムでさえ、人による目視では迅速で正確な判断ができたであろう多くのケースにおいて、未だにかなり解析が難しい。疑わしい行為の検知に関する研究は多くされているにも関わらず、人による作業などのほうが自動的意思決定よりも未だはるかに優れている。

ビデオ要約に関しては多くのさまざまな手法が提案されてきた。ほとんどの方法では、通常、一連のキーフレームとして静的な記述を生成する。他の方法では、無関係の部分を飛ばす適応早送り［７、１］を用いる。

国際公開第０７／０５７８９３号（Ｒａｖ−Ａｃｈａら）は、ソースビデオから短いビデオ概要を生成する方法を開示している。そこでは、対象物は、ソースビデオの少なくとも３つの異なるフレームのピクセルを結合したサブセットであり、少なくとも一つの対象物の動きを示すソースシーケンスからビデオフレームのサブセットが取得される。少なくとも３つのソース対象物がソースシーケンスから選択され、選択されたソース対象物のそれぞれから、一つ以上の概要対象物が一時的にサンプリングされる。それぞれの概要対象物に対して、概要ビデオ中で表示を開始するための表示時間が決められる。そして、ソースシーケンス中のそれぞれ異なる時間から得られた少なくとも３ピクセルが概要ビデオ中に同時に表示されるように、撮影されたシーン中の対象物の空間的位置を変えることなく、選択された概要をそれぞれ所定の表示時間に表示することで、ビデオ概要が生成される。

国際公開第０８／００４２２２号は、この手法を拡張したもので、ビデオ監視カメラによって生成された実質的に無限のソースビデオストリームからの、ビデオ概要生成に適応させた手法を記述する。ソースビデオストリームから、少なくとも３つの異なるソース対象物のオブジェクトベースの記述がリアルタイムで受信される。それぞれのソース対象物は、ソースビデオストリームの少なくとも３つの異なるフレームの像点を結合したサブセットである。受信されたオブジェクトベースの記述は、次々とキューに保持される。キューにはそれぞれのソース対象物の継続時間と場所が含まれる。与えられた規準に基づいて、キューから少なくとも３つのソース対象物のサブセットが選択され、選択されたソースのそれぞれから一つ以上の概要対象物が一時的にサンプリングされる。概要対象物毎に、ビデオ概要で表示を開始する表示時間が決められ、そして、ソースビデオストリームの異なる時間から得られた少なくとも３点が概要ビデオで同時に表示され、同じ時間から得られた少なくとも２点がビデオ概要で異なる時間に表示されるように、選択された概要対象物または概要対象物から派生する対象物をそれぞれ所定の表示時間に表示することによってビデオ概要が生成される。

国際公開第０８／００４２２２号もまた、対象物を類似した対象物からなるクラスタにクラスタリングすることによるビデオ概要の索引付けを開示している。これによって、ビデオ概要の閲覧が容易になる。また、これは、例えば対象物の各ペア間の類似性尺度に基づいた類似度行列を構築するといったクラスタリング方法を使用してなされることがある。

＜発明の概要＞
本発明の広範囲の目的は、ビデオ概要が有限であるか実質的に無限であるかに関わらず、いかなる種類のビデオ概要方法でも使用されうる改善されたクラスタリング方法を提供することである。

本目的は、本発明の観点に従った、要約、検索、およびビデオ索引付けの方法によって実現される。前記方法は、選択された時間間隔でビデオ内において検知された対象物に関連するデータを受信し、各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、対象物をクラスタリングし、計算されたクラスタを基にビデオ要約を生成することを含んでなる。

本発明は、異なる時間に起きた動きを同時に表示するビデオ要約の手法を利用したものである。このようなビデオ要約の方法では、異なる動きが混同されることによって紛らわしい要約が生成されがちであるため、本発明では、これらの動きを予め類似したクラスタにクラスタリングすることを提案する。このような手法によって、（ｉ）同様の動きがより短いビデオ要約に効率よくまとめられる、（ｉｉ）複数の類似した動きを閲覧することができるので、これらの要約は非常に明確である、（ｉｉｉ）異常な動きを検知しやすい、といった３つの利点がビデオ要約にもたらされる。ビデオ要約そのものの作成に加え、クラスタ化された要約は、対象物の体系化された閲覧や、学習中の分類器が使用するサンプルの作成に役立たせることができる。分類器の正確性を数千の対象物について確認することも可能である。

本発明の理解と実際にどのように実施されうるかを示すため、制限されない例示としてのみ、添付の図面を参照して実施例を説明する。

（１−ａ）から（１−ｄ）は、ＰＥＴＳデータベースのビデオについて外観特徴を用いた教師なしスペクトルクラスタリングの結果を示す。（２−ａ）から（２−ｆ）は、外観と動作を用いた教師なしスペクトルクラスタリングの結果を示す。（３−ａ）から（３−ｊ）は、教師なしスペクトルクラスタリングの２工程を行った様子を示す。（４−ａ）から（４−ｄ）は、近傍法を用いた類似対象物の選択を示す。（５−ａ）から（５−ｄ）は、対象物の動作軌跡を示す。（６−ａ）から（６−ｅ）は、ＳＶＭによる分類法でクラスタ化した要約を示す。本発明におけるクラスタリング方法を使用した、コンパクトなビデオ概要の生成システムの機能を示すブロック図である。本発明における教師なしスペクトルクラスタリングに関する方法によって実施された、主要操作を示すフロー図である。

＜実施例の詳細な説明＞
動き
本発明が用いる基本的要素は、動き、端的に言えば動的な対象物である。対象物は一連のフレームのシーケンス内で検知されるため、それぞれの動きはこれらフレーム中のオブジェクトマスクのシーケンスとして表わされる。対象物は、各フレーム中のオブジェクトマスクに加えて、ＲＯＩ（関心領域）と呼ばれる指定された矩形領域を有する。各動きＡ_iは以下の情報を含む。

ここで、ｔ_sとｔ_eは、この動きの開始フレームと終了フレームで、Ｍ_tは、ピクセルカラーを含むフレームｔのオブジェクトマスクで、Ｒ_tはフレームｔのＲＯＩである。

動きの抽出
クラスタ化要約に適しているのは、式（１）のように、ビデオフレームに沿ってオブジェクトマスクの動きの記述を生成できる方法である。動く対象物をセグメント化する良い方法は多数ある。実施例の一つとして、［９］の簡素化法が動きの計算に用いられている。この方法は、動く対象物をセグメント化するのに最小カットとバックグラウンド除去法を組み合わせるが、動く対象物を検知するその他の方法でも適切である。

チューブレット：短い動きのセグメント
複数の動きを伴う対象物の解析を可能にするため、対象物を「チューブレット」と呼ばれるサブパーツに分解することができる。チューブレットは予め定められた最大長（発明者らは、５０フレームを使用）を有し、他のチューブレットと重なる（発明者らは、チューブレット間で５０％の重なりを使用）ことができる。チューブレットへの分割には以下の利点がある。
・それぞれの動きは長さにかなりのばらつきがある。チューブレットに分割することで、同程度の長さの動きを比較することができる。
・長い動きは、異なるダイナミクスを有した複数の部分により構成されることがある。チューブレットは一つの単純な動作を有する傾向が強い。
・異なる対象物がビデオフレームで交差することがあり、これによって異なる対象物からなる複雑な動きが作成される。チューブレットは短いため、ほとんどのチューブレットは一つの対象物しか含まない。

チューブレットをクラスタリングした後で、同じクラスタ内にクラスタリングされた重なり合うチューブレットは、より長い動きに統合される。

動きの特徴
クラスタリングに利用できる特徴には、外観（画像）特徴と動作特徴がある。ＳＩＦＴ（Ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ；スケール不変特徴変換）記述子［５］は、かなりの識別能力があり、実施例の一つでは、ＳＩＦＴ記述子を外観特徴として使用した。それぞれの対象物に対して、関連フレームのオブジェクトマスク内で複数のＳＩＦＴ特徴が計算される。このＳＩＦＴ特徴の膨大な集まりを使用して、対象物間の外観の類似性が予測できる。初めの教師なしクラスタリングには、効率化のため、所定数の特徴を無作為に選択することができる。実施したいくつかの実施例では、それぞれの動きから２００のＳＩＦＴ特徴を選択した。

対象物の中心の滑らかな軌跡を用いて、対象物の動作を表わせる。対象物の軌跡（動き）Ａ_iは、フレーム毎の特徴のシーケンスである。それぞれのフレームｔには少なくとも３つの特徴
が含まれる。
は対象物の中心のｘ−ｙ座標と、対象物の半径を表す。動きからサンプリングするフレームが少なければ、短い動作記述子が使用できる。

動き間の類似性
類似した動きをひとまとめにクラスタリングするには、動きの間の距離計算法が必要となる。３．３節で使用されるスペクトルクラスタリングを用いるには動きの間の対称距離が必要である。実施例の一つでは、本節で解説するように、２つの要素にもとづいた距離を使用した。（ｉ）対象物の外形に由来する特徴（式２）と、対象物の動作に由来する特徴である（式６）。

外観距離
２つの動きの外観距離として、これらのＳＩＦＴ記述子間の距離から計算されるＮＮ（近傍）推定を用いる。ＳＩＦＴ記述子間の距離として、ここでは単純な平方距離を使用するが、［５］に提案されるような他の距離も使用できる。
を、動きＡ_iのｋのＳＩＦＴ記述子とし、
を、Ａ_jにおける
に最も近いＳＩＦＴ記述子とする。同様に、
をＡ_iにおける
に最も近い記述子とする。

動きＡ_iとＡ_j間の外観距離Ｓｄ_ijは以下のように定義する：
ここで、Ｎはそれぞれの動きにおけるＳＩＦＴ記述子の数である。この測定方法は、［２］で提示された近傍距離に習ったもので、本実験においても非常に有効であると考えられる。

３．２．動作距離
２つの動きの間の動作の類似性は、同時に複数の対象物を表示する要約の作成において特に有用である。２つの動きＡ_i、Ａ_jにおいて、これらの間の動作距離を、Ａ_jのすべての一時的な変化ｋについて計算する。ｌ_xを、動きＡ_xの時間長さとし、Ｔ_ij（ｋ）を、Ａ_jが一時的にｋによって変化した後の、Ａ_iとＡ_jに共通の継続時間とする。そして、
を、一時的に変化した動きの、一時的な長時間の重なりを助長する重みとする。

各動きの間の分離度は以下のように定義する。

そして最終的にＡ_iと変化したＡ_jとの間の動作距離は以下のように定義する。

動作距離Ｍｄ_ij（ｋ）の要素は、動きの間の空間的分離度（４）を最小にし、ｗ（３）によって表される動きの間の一時的重なりを増加させる。一時的重なりＴ_ij（ｋ）で除すことで、「フレーム毎」の測定方法に正規化させる。

２つの動きの間の動作距離が画像内の対象物の位置に依存すべきでない場合は、２つに共通した時間周期Ｔ_ij（ｋ）におけるそれぞれの動きについて２つの中心を計算する。２つの対象物を、Ｍｄ_ij（ｋ）（式５）の計算前に空間的に共通の中心にシフトさせる。Ａ_iとＡ_j間の最終的な動作距離は、すべての一時的な変化ｋで最小となる。

３．３．教師なしクラスタリング
教師なしクラスタリングには、外観距離Ｓｄ_ij（式２）および動作距離Ｍｄ_ij（式６）から、動きＡ_iとＡ_j間で定義された距離測定式Ｄ_ijを使用する。

係数αは、動作と外観の間の優先度を制御する。Ｄ_ijから、類似度行列Ｍが生成される。
ここで、σは正規化に使用する定数である。類似度行列Ｍに与えられたデータのクラスタリングには規格化カット手法［１０］が使用される。発明者らは、［１２］で提案されているように、スペクトルクラスタリングの結果を向上させるため、入力される類似度行列に二重確率の正規化法を使用した。クラスタリングの結果例を図１と図２に示す。両方の図は、外観と動作を使用した教師なしスペクトルクラスタリングの結果を示す。

図１−ａから図１−ｄでは、人と車が２つのクラスタに上手く分割されている。一つは人のクラスタで、もう一つは車のクラスタである。図１−ａと図１−ｂは、それぞれ異なるクラスタから作成された２つの要約から得られた２つのフレームを示す。図１−ａのクラスタは、車から構成され、図１−ｂのクラスタは人から構成される。図１−ｃと図１−ｄは、表示されたクラスタにおける対象物の対応する動作経路を示す。それぞれの対象物はｘ−ｔ平面上の曲線で示される。

図２−ａから図２−ｆでは、左側の列が外観特徴のみを使用し、右側の列が動作特徴のみを使用する。図２−ａと図２−ｂは、２つのクラスにクラスタリングした後の類似度行列を示す。図２−ｃと図２−ｄは、それぞれ一つのクラスタから生成された要約からの画像を示す。図２−ｅと図２−ｆは、表示されたクラスタ中での対象物の動作経路を示す。それぞれの対象物はｘ−ｔ平面上の曲線で示される。形状のクラスタ（左）は、図２−ｃと図２−ｄに示されるように、均一な外観を有する対象物を拾い上げ、動作のクラスタ（右）は、図２−ｅと図２−ｆに示されるように、類似した動作を有する対象物を拾い上げる。

一つの特徴セットについて教師なしクラスタリングを行った後、その結果のクラスタを取り上げ、それぞれのクラスタについて異なる特徴セットを用いてクラスタリングを実施することができる。これは、図３に示される。２つのＳＩＦＴクラスタがまず生成され、そして、それぞれのＳＩＦＴクラスタの動作についてクラスタリングが適用されている。これによって、それぞれ異なる外観と動作を有した４つのクラスタが生成される。

図３−ａと図３−ｂは、男性と女性に上手く分割した２つのＳＩＦＴベースのクラスタを示す。図３−ｃと図３−ｄは、図３−ａと図３−ｂにおけるクラスタのそれぞれの動作経路をｘ−ｔ平面上の曲線として示す。図３−ｅから図３−ｈは、動作特徴を使用し、男性のクラスタに更なるクラスタリングを行っている。左側に歩く男性と右側に歩く男性が、２つの新しいクラスタとなる。図３−ｉから図３−ｌは、動作特徴を使用し、女性のクラスタに更なるクラスタリングを行っている。左側に歩く女性と右側に歩く女性が、新しい２つのクラスタとなる。

４．要約の作成
一式の対象物または動きについて、これら対象物を表示するできるだけ短くて、対象物間コリジョンを最低限に抑えた、要約ビデオを作成したい。これは、要約中でそれぞれの対象物に開始再生時間を付与することでなされる。この対象物から再生時間へのマッピングは３段階で行われる。
１．対象物を、４．１節で定義されるパッキングコスト（式１１）を基にしてクラスタ化する。
２．各クラスタ内で対象物に再生時間を与える。
３．各クラスタに再生時間を与える。

これらの工程は、本節で詳細に解説する。各対象物に再生時間が与えられると、出力としての要約は背景上で与えられた時間、対象物を再生することで生成できる。例えば、図１−ａと図１−ｂのビデオは、元々５分間だったが、クラスタ化した概要を使用することで、すべての動きを含む要約は２０秒になった。

監視ビデオの単純な閲覧に関する別の例を図４−ａから図４−ｃに示す。ここでは、近傍法を用いて類似した対象物が選択されている。ビデオを閲覧する際、ユーザは人のみあるいは車のみを見ることを選ぶ。最も迅速なのは、所望のクラスからいくつかの対象物を選択し、近傍法を用いて適切な類似対象物を抽出し、ビデオ要約に表示する手法である。

図４−ａは、２つの選択された車に最も近似していると思われる対象物を示し、図４−ｂは、２つの選択された人に最も近似していると思われる対象物を示す。図４−ｃは、要約中の車の動作軌跡を示し、図４−ｄは、要約中の人の動作軌跡を示す。

４．１．パッキングコスト
２つの動きの間のパッキングコストは、これらの動きがいかに効率的に一緒に再生されうるかを示唆する。これらの動きは類似した動作をもち、ある一時的な変化において、最小のコリジョンでビデオが長くなるのを最小限に抑えながら同時に再生されるべきである。

パッキングコストは３．２節の動作距離と非常に類似しているが、（ｉ）動きの空間的変化がない、（ｉｉ）コリジョンコストＣｏｌ_ij（ｋ）が対象物間に加えられる、といった相違がある。Ｃｏｌ_ij（ｋ）は以下のように定義される。
ここで、フレームｔにおける対象物Ａ_iの半径を
とし、フレームｔ＋ｋにおけるＡ_jの半径を
とする。Ｃｏｌ_ij（ｋ）は、一時的変化ｋのコリジョンの数を計算する。ここで、対象物の中心間の分離度が、２つの対象物の半径の合計よりも小さいときにコリジョンが起こる。

一時的変化ｋのパッキングコストは、動作距離（５）とコリジョンコスト（９）を使用して定義される。

最後に、２つの動きのパッキングコストはすべての一時的変化において最小となる。

２つの対象物間のパッキングコストＰｋ_ijは、ビデオ要約に配置される前のクラスタリングで使用される。図５は、一連の対象物をパッキングコストに基づいて３つのクラスタにクラスタリングした例である。

図５−ａは、すべての入力対象物の動作軌跡をｘ−ｔ平面上の曲線として示す。図５−ｂから図５−ｃは、パッキングコストを使用した２つのクラスタの動作軌跡を示す。図５−ｄは、完成した要約の動作軌跡を示す。なお、これらに紛らわしい交差はない。

４．２．クラスタ内の対象物の配置
対象物が式（１１）のパッキングコストに基づいてクラスタ化されると、各クラスタは効率的にパックされうる対象物を含む。このようなクラスタ内の対象物すべてから要約ビデオを作成するには、すべての対象物について開始再生時間を決定する必要がある。これら開始再生時間によって、短くて簡単に観られるビデオが生成されなければならない。クラスタ内のすべての対象物がすでに類似動作を有するため、総再生時間を最小にしつつ対象物間のコリジョンも最小にする再生時間を決めなければならない。これは、（１０）で定義されるパッキングコストを使用してなされる。最適のパッキングは難しい問題であるため、よい結果をもたらす以下の最適化を使用する。

まず、一時的マッピングを伴う対象物の空セットＧを用意できる。それぞれの対象物に再生時間のマッピングを決定する工程は、最長の継続時間を有する対象物から開始する。この対象物を任意の場所に置き、Ｇに加える。Ｇ以外の最長の対象物についても継続する。フレーム毎に現在の対象物とその対象物に最も近いＧ中の対象物の間のパッキングコストＰｋ_ij（ｋ）を求め、この対象物のフレームすべてのパッキングコストの合計を最小にする時間マッピングとして時間マッピングｋを定める。この計算において、一時的重なりＴ_ij（ｋ）は、セットＧとの一時的な重なりである。時間マッピングの決定後に、すべての対象物がＧに加えられる。この一時的マッピングは、すべての対象物が再生時間にマッピングされるまで続く。このような一時的配置の例を図５−ｂから図５−ｄに示す。

パッキングコストＰｋ_ij（ｋ）の計算には、［６］に記載された近似ｋ最近傍アルゴリズムとｋｄ木を用いて、ある対象物の最も近い対象物とのコリジョンを対象物の集まりから計算することを含む。ＮＮ探索の期待時間は、ｋｄ木に保存された要素の数の対数となる。

４．３．異なるクラスタの組み合わせ
異なるクラスタの組み合わせは、独立した対象物の組み合わせと同様に行われる。対象物はクラスタ内で相対的再生時間を有するが、それぞれのクラスタにグローバルな再生時間を与える必要がある。これは、それぞれの対象物に時間を与えるのと同様に行われる。最大数の対象物を有するクラスタに任意の再生時間を与える。続いて、再生時間の付与されていない最大クラスタを選出し、すでに時間が付与されたクラスタとのコリジョンを最小に抑えながら、グローバル時間を付与していく。

５．教師あり分類器の学習と試験
例えばＳＶＭ［３］の教師あり分類器の学習は、タグ付きサンプルの大きな学習セット
を必要とする。監視ビデオには分類する対象物が何千とあるため、そのような大きな学習セットを構築するのは時間がかかりすぎる。クラスタ化された要約を用いることで、迅速に効率よく学習セットを構築することができる。

学習セットを構築する手法として、教師なしクラスタリングを使用して近似クラスタを作成する手法がある。また、一つのサンプルにタグを付け、近傍法を使用して他のサンプルにタグを付けていく手法もある。これらの手法は、大きな学習セットを素早く作成できるが、訂正が必要なエラーも残る。クラスタ化された要約を使用すれば非常に短時間で作成したセットを表示でき、最小の労力と時間で大きく正確な学習セットを作成することができる。

稼動中の分類器の学習が完了したら、その性能を試験するにはクラスタ化された要約が最も効率が良い。分類結果を見るために何時間も費やすその他の方法は実用的ではない。

図６の例に用いた学習セットは、およそ１００のチューブレットを有する。１００のチューブレット一つ一つにタグを付けることはせず、教師なしクラスタリング後の、たった１０回のキークリックで学習セットを作成することができた。

図６−ａから図６−ｅは、動作特徴を用いて、ＳＶＭ分類で１００のチューブレットをクラスタ化した要約を示す。一つのチューブレットに１０秒とすると、分類結果を単純に表示するだけで２０分かかる。一方、クラスタ化された要約の長さは２分よりも短い。左側の列は、対象物の動作軌跡で、右側の列はクラスタ化された要約からの１フレームである。クラスは、図６−ａが左側への歩行、図６−ｂが右側への歩行、図６−ｃが左側への走行、図６−ｄが右側への走行、そして、図６−ｅが立って手を振っている、である。

次に、図７を参照すると、カメラ１１によって撮影されたソースビデオから概要ビデオを生成する、本発明のシステム１０のブロック図が示されている。システム１０は、第一のソースビデオにおけるビデオフレームのサブセットを保存するビデオメモリ１２を有する。第一のソースビデオは、少なくとも一つの対象物の動きを表示し、対象物はそれぞれのｘ−ｙ平面上の座標に複数のピクセルを有する。プリプロセッサ１３は、撮影したビデオをオンラインで処理する。プリプロセッサ１３は、ビデオフレームを予備整列させ、予備整列されたビデオフレームをビデオメモリ１２に保存するように構成されてもよい。

プリプロセッサ１３は、ソースビデオ内の対象物を検知し、検知した対象物を対象物用メモリ１６のキューにいれる。プリプロセッサ１３は、無限のソースビデオから概要ビデオを作成する際に使用される。無限ではないソースビデオから概要を作成する場合は、プリプロセッサ１３は省略することができ、システムは対象物用メモリ１６と連結し対象物キューを操作して、定義された基準に従って概要ビデオを作成するように構成されてもよい。

そこで、ユーザ定義の制約を定義できるように、ユーザインタフェース１７を対象物用メモリ１６に連結する。このような制約は、例えば、要約するソースビデオ内にタイムウィンドウを定義するのに使用されうる。あるいは、概要ビデオに必要な継続時間を定義するのにも使用されうる。ユーザインタフェース１７は、索引付けを行う対象物の選択や対象物のクラスの選択にも用いられる。当然のことながら、この制約は予め定義することもでき、その場合には本発明の実施例の一部ではユーザインタフェース１７は必要とされない。

ユーザ定義の制約またはシステムによって定義されたデフォルトの制約に従って、異なるソース対象物のサブセットから選択するために、ソース対象物セレクタ１８が対象物用
メモリ１６に連結されている。定義された基準に沿って対象物をクラスタリングするために、クラスタリング部１９がソース対象物セレクタ１８に連結されている。これは、ユーザインタフェース１７を使用してユーザが指定することもできる。各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、クラスタリング部１９が対象物をクラスタにクラスタリングする。選択された一部のフレームから得られた像点を用いた一時的選択によって、選択された各ソース対象物から一つ以上の概要対象物をサンプリングするため、概要対象物サンプラー２０がクラスタリング部１９に連結される。「サンプラー」は、一つ一つの対象物の速度を変えるのに使用することができる。フレーム生成器２１は、選択したクラスタのみを概要ビデオに含むことを可能にするクラスタセレクタ２２を含む。概要ビデオのフレームは、次の処理のため、または表示部２４による表示のため、概要フレームメモリ２３に保存される。表示部２４は、指定された時間変換と色変換で一時的に変化した対象物を表示する。

実際には、システム１０は、当該分野で周知のグラフィックカードまたはワークステーションおよび適切な周辺機器を備え、適切にプログラミングされたコンピュータによって実現されうる。

図８は、本発明の実施例に係わるシステム１０によって実施される主要操作のフロー図である。

結論
本発明に係わるクラスタ化された要約の手法は、監視ビデオの閲覧と検索に効率的な方法をもたらす。監視ビデオは非常に長く（実際のところ無限である）、何千もの対象物を含む。通常の閲覧は実質的に不可能である。クラスタ化された要約では、類似した動作を有する複数の対象物が同時に示される。これによって、異なる動きを区別する能力を失うことなく、かなり短い時間ですべての対象物を閲覧することができる。数千の対象物の要約は数分で作成することができる（対象物の抽出時間はカウントしていない）。

監視ビデオの対象物すべてについて効率的な閲覧を可能とすることに加え、クラスタ化された要約は、分類器用に用例を作成するのにも重要である。教師なしクラスタリングとクラスタ化された要約を使用することにより、複数の用例を作成し学習機構に与えることが非常に迅速に可能である。初めに使用するのは単純な近傍分類器でよく、クラスタ化された要約を使用して掃除をし、その結果は学習中の分類器に与えられる。

クラスタ化された要約は、ビデオの閲覧にも使用することができる。撮影したビデオを見るのに何時間も費やすかわりに、クラスタ化された要約の手法は、ビデオアーカイブの迅速で効率的な閲覧を可能にし、より小さな興味のある対象物のセットに焦点をあてることができる。閲覧はクラスタ化された要約を階層的に適用することで行われる。ユーザは、まず、興味のあるクラスタを選択する。次に、このクラスタ内の対象物を識別するためにこのクラスタをクローズアップする。あるいは、ユーザは無関連のクラスタを選択し、要約からその対象物を削除することも可能である。ユーザは、教師あり分類器を使ってクラスタを「掃除」することによって、あるいは、単純に一部の近傍を選択することによって、閲覧を続けることができる。

当然のことながら、本発明に係わるシステムは適切にプログラミングされたコンピュータでもよい。同様に、本発明は、本発明の方法を実行するコンピュータによって判読可能なコンピュータプログラムも考慮している。本発明は、更に、本発明の方法を実施する機械で実行可能な命令からなるプログラムを具現する、機械判読可能なメモリも考慮している。

Claims

コンピュータによって実行されるビデオの要約方法であって、前記方法は：
選択された時間間隔でビデオ内で検知された対象物に関連するデータを受信し；
各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、対象物をクラスタにクラスタリングし；
それぞれが一つのクラスタを含むより小さいビデオ要約において対象物の一時的配置を計算し；
計算されたクラスタを基にビデオ要約を生成する、
ビデオの要約方法。
前記ビデオ要約は、要約の閲覧またはクラスタのメンバである独立した対象物の選択のいずれかよって選択されたクラスタのサブセットを基にしている、請求項１に記載のビデオの要約方法。
前記生成されたビデオ要約は、以前に計算された各クラスタ内の対象物の一時的配置を保ちつつ、選択されたクラスタ間の一時的配置を再配置することによって作成される、請求項２に記載のビデオの要約方法。
前記生成された要約は、各クラスタから所定数あるいは所定割合の対象物を選択することによって作成される、請求項１に記載のビデオの要約方法。
選択された対象物の一つを含む前記クラスタ内にある対象物すべてを含む新しい要約を表示することを含む、請求項４に記載のビデオの要約方法。
特徴は対象物の画像外観あるいは対象物の時空間軌跡を含む、請求項１〜５のいずれか一項に記載のビデオの要約方法。
更に、自動対象物分類器の学習用に対象物を選択するために、前記ビデオ要約を使用することを含む、請求項１〜６のいずれか一項に記載のビデオの要約方法。
更に、自動対象物分類器の性能を試験するために、前記ビデオ要約を使用することを含
む、請求項１〜７のいずれか一項に記載のビデオの要約方法。
更に、前記クラスタリングの前に、ビデオ内の少なくともいくつかの対象物に対して追加の特徴を計算することを含む、請求項１〜８のいずれか一項に記載のビデオの要約方法。
コンピュータに請求項１〜９のいずれか１項に記載のビデオの要約方法の各ステップを実行させるためのコンピュータプログラム。
ソースビデオから概要ビデオを生成するシステム（１０）であって、
選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むクラスタに、対象物をクラスタ化するように構成されたクラスタリング部と、
それぞれが一つのクラスタを含むより小さいビデオ要約において対象物の一時的配置を計算する計算部と、
計算されたクラスタを基にビデオ要約を生成する生成部と、
を含んでなるシステム。