JP5432677B2 - クラスタリングを使用したビデオ概要の生成方法とシステム - Google Patents

クラスタリングを使用したビデオ概要の生成方法とシステム Download PDF

Info

Publication number
JP5432677B2
JP5432677B2 JP2009266870A JP2009266870A JP5432677B2 JP 5432677 B2 JP5432677 B2 JP 5432677B2 JP 2009266870 A JP2009266870 A JP 2009266870A JP 2009266870 A JP2009266870 A JP 2009266870A JP 5432677 B2 JP5432677 B2 JP 5432677B2
Authority
JP
Japan
Prior art keywords
video
objects
cluster
clustering
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009266870A
Other languages
English (en)
Other versions
JP2010134923A (ja
Inventor
ペレグ シュミュエル
プリッチ ヤエル
ラトヴィッチ サリト
ヘンデル アヴィスハイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yissum Research Development Co of Hebrew University of Jerusalem
Original Assignee
Yissum Research Development Co of Hebrew University of Jerusalem
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yissum Research Development Co of Hebrew University of Jerusalem filed Critical Yissum Research Development Co of Hebrew University of Jerusalem
Publication of JP2010134923A publication Critical patent/JP2010134923A/ja
Application granted granted Critical
Publication of JP5432677B2 publication Critical patent/JP5432677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47CCHAIRS; SOFAS; BEDS
    • A47C17/00Sofas; Couches; Beds
    • A47C17/38Wall beds
    • A47C17/48Wall beds characterised by two or more relatively-movable parts
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47CCHAIRS; SOFAS; BEDS
    • A47C17/00Sofas; Couches; Beds
    • A47C17/38Wall beds
    • A47C17/40Wall beds having balancing members, e.g. weights, springs
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/40Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight
    • G01G19/413Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means
    • G01G19/414Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means using electronic computing means only
    • G01G19/4142Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means using electronic computing means only for controlling activation of safety devices, e.g. airbag systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/44Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups for weighing persons

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Nursing (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Invalid Beds And Related Equipment (AREA)

Description

本発明は、ビデオ要約とビデオ索引付け分野に関する。
<先行技術>
本発明の背景として関連があると思われる従来技術の参照文献を以下に示す。これら参照文献の内容は、参照により本明細書に組み込まれているものとする。その他の参照文献は上記米国仮出願番号第61/116,646号に記載されており、それらの内容は参照により本明細書に組み込まれているものとする。本明細書における参照文献を承認することは、本明細書で開示される発明の特許性に何れの形でも関わることを示唆するものではない。それぞれの参照文献は角括弧内の番号で識別され、本明細書内ではこれら従来技術が角括弧に入れられた番号として参照される。
[1] E. Bennett and L. McMillan. Computational time-lapse video. SIGGRAPH'07, 2007
[2] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. CVPR, Anchorage, Alaska, 2008
[3] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20, 1995
[4] H. Kang, Y. Matsushita, X. Tang, and X. Chen. Space-time video montage. CVPR'06, pages 1331-1338, New-York, 2006
[5] D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 30(2):91-110, 2004
[6] D. Mount and S. Arya. Ann: A library for approximate nearest neighbor searching. University of Maryland, 1997
[7] N. Petrovic, N. Jojic, and T. Huang. Adaptive video fast forward. Multimedia Tools and Applications, 26(3):327-344, August 2005
[8] D. Simakv, Y. Caspi, E. Shechtman, and M. Irani. Summarizing visual data using bidirectional similarity. CVPR'08, Ancorage, 2008
[9] J. Sun, W. Zhang, X. Tang, and H. Shum. Background cut. ECCV'06, pp. 628-641, 2006
[10] Y. Weiss. Segmentation using eigenvectors: a unifying view. ICCV'99, pp.
975-982, 1999
[11] L. Wolf, M. Guttmann, and D. Cohen-Or. Non-homogeneous content-driven video-retargetings. ICCV'07, Rio de Janiero, 2007
[12] R. Zass and A. Shashua. A unifying approach to hard and probabilistic clustering. ICCV'05, volume 1, pp. 294-301, 2005
<背景技術>
ビデオカメラやビデオ録画に用いられるディスク記憶装置の低価格化、また、ネットワークを通じて簡単にビデオ転送を行うことが可能なネットワークカメラの登場により、ビデオ監視カメラは非常に普及してきている。価格が手頃になってきたため、個人の家庭にさえ監視カメラが設置されている。ほとんどの監視カメラで生成されたビデオは、膨大なビデオアーカイブとして記録される。
設置されているビデオカメラのほとんどは、DVR(デジタルビデオレコーダー)あるいはNVR(ネットワークビデオレコーダー)にビデオを記録する。記録されたビデオは、通常、誰にも閲覧されることがない。ビデオアーカイブの検索は、大変な困難を呈する
。興味のある動きを検索する自動ビデオ解析手法は継続的な進歩をみせているが、十分な解決策を与えるには未だ程遠い。要約法により、人によるビデオの閲覧が効率化されるが[8、11]、長すぎたり複雑すぎたりといった要約が生成される。
監視ビデオの理解を目的としたビデオ解析システムは、単純に警告を提供するには有用である。立ち入り禁止区域への侵入の自動検知や、一つの画像領域から別の画像領域へ横断した際の自動検知といった方法では、ほとんどエラーもなく正確な警告を提供する。しかしながら、最も優れたビデオ解析システムでさえ、人による目視では迅速で正確な判断ができたであろう多くのケースにおいて、未だにかなり解析が難しい。疑わしい行為の検知に関する研究は多くされているにも関わらず、人による作業などのほうが自動的意思決定よりも未だはるかに優れている。
ビデオ要約に関しては多くのさまざまな手法が提案されてきた。ほとんどの方法では、通常、一連のキーフレームとして静的な記述を生成する。他の方法では、無関係の部分を飛ばす適応早送り[7、1]を用いる。
国際公開第07/057893号(Rav−Achaら)は、ソースビデオから短いビデオ概要を生成する方法を開示している。そこでは、対象物は、ソースビデオの少なくとも3つの異なるフレームのピクセルを結合したサブセットであり、少なくとも一つの対象物の動きを示すソースシーケンスからビデオフレームのサブセットが取得される。少なくとも3つのソース対象物がソースシーケンスから選択され、選択されたソース対象物のそれぞれから、一つ以上の概要対象物が一時的にサンプリングされる。それぞれの概要対象物に対して、概要ビデオ中で表示を開始するための表示時間が決められる。そして、ソースシーケンス中のそれぞれ異なる時間から得られた少なくとも3ピクセルが概要ビデオ中に同時に表示されるように、撮影されたシーン中の対象物の空間的位置を変えることなく、選択された概要をそれぞれ所定の表示時間に表示することで、ビデオ概要が生成される。
国際公開第08/004222号は、この手法を拡張したもので、ビデオ監視カメラによって生成された実質的に無限のソースビデオストリームからの、ビデオ概要生成に適応させた手法を記述する。ソースビデオストリームから、少なくとも3つの異なるソース対象物のオブジェクトベースの記述がリアルタイムで受信される。それぞれのソース対象物は、ソースビデオストリームの少なくとも3つの異なるフレームの像点を結合したサブセットである。受信されたオブジェクトベースの記述は、次々とキューに保持される。キューにはそれぞれのソース対象物の継続時間と場所が含まれる。与えられた規準に基づいて、キューから少なくとも3つのソース対象物のサブセットが選択され、選択されたソースのそれぞれから一つ以上の概要対象物が一時的にサンプリングされる。概要対象物毎に、ビデオ概要で表示を開始する表示時間が決められ、そして、ソースビデオストリームの異なる時間から得られた少なくとも3点が概要ビデオで同時に表示され、同じ時間から得られた少なくとも2点がビデオ概要で異なる時間に表示されるように、選択された概要対象物または概要対象物から派生する対象物をそれぞれ所定の表示時間に表示することによってビデオ概要が生成される。
国際公開第08/004222号もまた、対象物を類似した対象物からなるクラスタにクラスタリングすることによるビデオ概要の索引付けを開示している。これによって、ビデオ概要の閲覧が容易になる。また、これは、例えば対象物の各ペア間の類似性尺度に基づいた類似度行列を構築するといったクラスタリング方法を使用してなされることがある。
<発明の概要>
本発明の広範囲の目的は、ビデオ概要が有限であるか実質的に無限であるかに関わらず、いかなる種類のビデオ概要方法でも使用されうる改善されたクラスタリング方法を提供することである。
本目的は、本発明の観点に従った、要約、検索、およびビデオ索引付けの方法によって実現される。前記方法は、選択された時間間隔でビデオ内において検知された対象物に関連するデータを受信し、各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、対象物をクラスタリングし、計算されたクラスタを基にビデオ要約を生成することを含んでなる。
本発明は、異なる時間に起きた動きを同時に表示するビデオ要約の手法を利用したものである。このようなビデオ要約の方法では、異なる動きが混同されることによって紛らわしい要約が生成されがちであるため、本発明では、これらの動きを予め類似したクラスタにクラスタリングすることを提案する。このような手法によって、(i)同様の動きがより短いビデオ要約に効率よくまとめられる、(ii)複数の類似した動きを閲覧することができるので、これらの要約は非常に明確である、(iii)異常な動きを検知しやすい、といった3つの利点がビデオ要約にもたらされる。ビデオ要約そのものの作成に加え、クラスタ化された要約は、対象物の体系化された閲覧や、学習中の分類器が使用するサンプルの作成に役立たせることができる。分類器の正確性を数千の対象物について確認することも可能である。
本発明の理解と実際にどのように実施されうるかを示すため、制限されない例示としてのみ、添付の図面を参照して実施例を説明する。
(1−a)から(1−d)は、PETSデータベースのビデオについて外観特徴を用いた教師なしスペクトルクラスタリングの結果を示す。 (2−a)から(2−f)は、外観と動作を用いた教師なしスペクトルクラスタリングの結果を示す。 (3−a)から(3−j)は、教師なしスペクトルクラスタリングの2工程を行った様子を示す。 (4−a)から(4−d)は、近傍法を用いた類似対象物の選択を示す。 (5−a)から(5−d)は、対象物の動作軌跡を示す。 (6−a)から(6−e)は、SVMによる分類法でクラスタ化した要約を示す。 本発明におけるクラスタリング方法を使用した、コンパクトなビデオ概要の生成システムの機能を示すブロック図である。 本発明における教師なしスペクトルクラスタリングに関する方法によって実施された、主要操作を示すフロー図である。
<実施例の詳細な説明>
動き
本発明が用いる基本的要素は、動き、端的に言えば動的な対象物である。対象物は一連のフレームのシーケンス内で検知されるため、それぞれの動きはこれらフレーム中のオブジェクトマスクのシーケンスとして表わされる。対象物は、各フレーム中のオブジェクトマスクに加えて、ROI(関心領域)と呼ばれる指定された矩形領域を有する。各動きAiは以下の情報を含む。
ここで、tsとteは、この動きの開始フレームと終了フレームで、Mtは、ピクセルカラーを含むフレームtのオブジェクトマスクで、RtはフレームtのROIである。
動きの抽出
クラスタ化要約に適しているのは、式(1)のように、ビデオフレームに沿ってオブジェクトマスクの動きの記述を生成できる方法である。動く対象物をセグメント化する良い方法は多数ある。実施例の一つとして、[9]の簡素化法が動きの計算に用いられている。この方法は、動く対象物をセグメント化するのに最小カットとバックグラウンド除去法を組み合わせるが、動く対象物を検知するその他の方法でも適切である。
チューブレット:短い動きのセグメント
複数の動きを伴う対象物の解析を可能にするため、対象物を「チューブレット」と呼ばれるサブパーツに分解することができる。チューブレットは予め定められた最大長(発明者らは、50フレームを使用)を有し、他のチューブレットと重なる(発明者らは、チューブレット間で50%の重なりを使用)ことができる。チューブレットへの分割には以下の利点がある。
・それぞれの動きは長さにかなりのばらつきがある。チューブレットに分割することで、同程度の長さの動きを比較することができる。
・長い動きは、異なるダイナミクスを有した複数の部分により構成されることがある。チューブレットは一つの単純な動作を有する傾向が強い。
・異なる対象物がビデオフレームで交差することがあり、これによって異なる対象物からなる複雑な動きが作成される。チューブレットは短いため、ほとんどのチューブレットは一つの対象物しか含まない。
チューブレットをクラスタリングした後で、同じクラスタ内にクラスタリングされた重なり合うチューブレットは、より長い動きに統合される。
動きの特徴
クラスタリングに利用できる特徴には、外観(画像)特徴と動作特徴がある。SIFT(Scale−invariant feature transform;スケール不変特徴変換)記述子[5]は、かなりの識別能力があり、実施例の一つでは、SIFT記述子を外観特徴として使用した。それぞれの対象物に対して、関連フレームのオブジェクトマスク内で複数のSIFT特徴が計算される。このSIFT特徴の膨大な集まりを使用して、対象物間の外観の類似性が予測できる。初めの教師なしクラスタリングには、効率化のため、所定数の特徴を無作為に選択することができる。実施したいくつかの実施例では、それぞれの動きから200のSIFT特徴を選択した。
対象物の中心の滑らかな軌跡を用いて、対象物の動作を表わせる。対象物の軌跡(動き)Aiは、フレーム毎の特徴のシーケンスである。それぞれのフレームtには少なくとも3つの特徴
が含まれる。
は対象物の中心のx−y座標と、対象物の半径を表す。動きからサンプリングするフレームが少なければ、短い動作記述子が使用できる。
動き間の類似性
類似した動きをひとまとめにクラスタリングするには、動きの間の距離計算法が必要となる。3.3節で使用されるスペクトルクラスタリングを用いるには動きの間の対称距離が必要である。実施例の一つでは、本節で解説するように、2つの要素にもとづいた距離を使用した。(i)対象物の外形に由来する特徴(式2)と、対象物の動作に由来する特徴である(式6)。
外観距離
2つの動きの外観距離として、これらのSIFT記述子間の距離から計算されるNN(近傍)推定を用いる。SIFT記述子間の距離として、ここでは単純な平方距離を使用するが、[5]に提案されるような他の距離も使用できる。
を、動きAiのkのSIFT記述子とし、
を、Ajにおける
に最も近いSIFT記述子とする。同様に、
をAiにおける
に最も近い記述子とする。
動きAiとAj間の外観距離Sdijは以下のように定義する:
ここで、Nはそれぞれの動きにおけるSIFT記述子の数である。この測定方法は、[2]で提示された近傍距離に習ったもので、本実験においても非常に有効であると考えられる。
3.2. 動作距離
2つの動きの間の動作の類似性は、同時に複数の対象物を表示する要約の作成において特に有用である。2つの動きAi、Ajにおいて、これらの間の動作距離を、Ajのすべての一時的な変化kについて計算する。lxを、動きAxの時間長さとし、Tij(k)を、Ajが一時的にkによって変化した後の、AiとAjに共通の継続時間とする。そして、
を、一時的に変化した動きの、一時的な長時間の重なりを助長する重みとする。
各動きの間の分離度は以下のように定義する。
そして最終的にAiと変化したAjとの間の動作距離は以下のように定義する。
動作距離Mdij(k)の要素は、動きの間の空間的分離度(4)を最小にし、w(3)によって表される動きの間の一時的重なりを増加させる。一時的重なりTij(k)で除すことで、「フレーム毎」の測定方法に正規化させる。
2つの動きの間の動作距離が画像内の対象物の位置に依存すべきでない場合は、2つに共通した時間周期Tij(k)におけるそれぞれの動きについて2つの中心を計算する。2つの対象物を、Mdij(k)(式5)の計算前に空間的に共通の中心にシフトさせる。AiとAj間の最終的な動作距離は、すべての一時的な変化kで最小となる。
3.3. 教師なしクラスタリング
教師なしクラスタリングには、外観距離Sdij(式2)および動作距離Mdij(式6)から、動きAiとAj間で定義された距離測定式Dijを使用する。
係数αは、動作と外観の間の優先度を制御する。Dijから、類似度行列Mが生成される。
ここで、σは正規化に使用する定数である。類似度行列Mに与えられたデータのクラスタリングには規格化カット手法[10]が使用される。発明者らは、[12]で提案されているように、スペクトルクラスタリングの結果を向上させるため、入力される類似度行列に二重確率の正規化法を使用した。クラスタリングの結果例を図1と図2に示す。両方の図は、外観と動作を使用した教師なしスペクトルクラスタリングの結果を示す。
図1−aから図1−dでは、人と車が2つのクラスタに上手く分割されている。一つは人のクラスタで、もう一つは車のクラスタである。図1−aと図1−bは、それぞれ異なるクラスタから作成された2つの要約から得られた2つのフレームを示す。図1−aのクラスタは、車から構成され、図1−bのクラスタは人から構成される。図1−cと図1−dは、表示されたクラスタにおける対象物の対応する動作経路を示す。それぞれの対象物はx−t平面上の曲線で示される。
図2−aから図2−fでは、左側の列が外観特徴のみを使用し、右側の列が動作特徴のみを使用する。図2−aと図2−bは、2つのクラスにクラスタリングした後の類似度行列を示す。図2−cと図2−dは、それぞれ一つのクラスタから生成された要約からの画像を示す。図2−eと図2−fは、表示されたクラスタ中での対象物の動作経路を示す。それぞれの対象物はx−t平面上の曲線で示される。形状のクラスタ(左)は、図2−cと図2−dに示されるように、均一な外観を有する対象物を拾い上げ、動作のクラスタ(右)は、図2−eと図2−fに示されるように、類似した動作を有する対象物を拾い上げる。
一つの特徴セットについて教師なしクラスタリングを行った後、その結果のクラスタを取り上げ、それぞれのクラスタについて異なる特徴セットを用いてクラスタリングを実施することができる。これは、図3に示される。2つのSIFTクラスタがまず生成され、そして、それぞれのSIFTクラスタの動作についてクラスタリングが適用されている。これによって、それぞれ異なる外観と動作を有した4つのクラスタが生成される。
図3−aと図3−bは、男性と女性に上手く分割した2つのSIFTベースのクラスタを示す。図3−cと図3−dは、図3−aと図3−bにおけるクラスタのそれぞれの動作経路をx−t平面上の曲線として示す。図3−eから図3−hは、動作特徴を使用し、男性のクラスタに更なるクラスタリングを行っている。左側に歩く男性と右側に歩く男性が、2つの新しいクラスタとなる。図3−iから図3−lは、動作特徴を使用し、女性のクラスタに更なるクラスタリングを行っている。左側に歩く女性と右側に歩く女性が、新しい2つのクラスタとなる。
4.要約の作成
一式の対象物または動きについて、これら対象物を表示するできるだけ短くて、対象物間コリジョンを最低限に抑えた、要約ビデオを作成したい。これは、要約中でそれぞれの対象物に開始再生時間を付与することでなされる。この対象物から再生時間へのマッピングは3段階で行われる。
1. 対象物を、4.1節で定義されるパッキングコスト(式11)を基にしてクラスタ化する。
2. 各クラスタ内で対象物に再生時間を与える。
3. 各クラスタに再生時間を与える。
これらの工程は、本節で詳細に解説する。各対象物に再生時間が与えられると、出力としての要約は背景上で与えられた時間、対象物を再生することで生成できる。例えば、図1−aと図1−bのビデオは、元々5分間だったが、クラスタ化した概要を使用することで、すべての動きを含む要約は20秒になった。
監視ビデオの単純な閲覧に関する別の例を図4−aから図4−cに示す。ここでは、近傍法を用いて類似した対象物が選択されている。ビデオを閲覧する際、ユーザは人のみあるいは車のみを見ることを選ぶ。最も迅速なのは、所望のクラスからいくつかの対象物を選択し、近傍法を用いて適切な類似対象物を抽出し、ビデオ要約に表示する手法である。
図4−aは、2つの選択された車に最も近似していると思われる対象物を示し、図4−bは、2つの選択された人に最も近似していると思われる対象物を示す。図4−cは、要約中の車の動作軌跡を示し、図4−dは、要約中の人の動作軌跡を示す。
4.1.パッキングコスト
2つの動きの間のパッキングコストは、これらの動きがいかに効率的に一緒に再生されうるかを示唆する。これらの動きは類似した動作をもち、ある一時的な変化において、最小のコリジョンでビデオが長くなるのを最小限に抑えながら同時に再生されるべきである。
パッキングコストは3.2節の動作距離と非常に類似しているが、(i)動きの空間的変化がない、(ii)コリジョンコストColij(k)が対象物間に加えられる、といった相違がある。Colij(k)は以下のように定義される。
ここで、フレームtにおける対象物Aiの半径を
とし、フレームt+kにおけるAjの半径を
とする。Colij(k)は、一時的変化kのコリジョンの数を計算する。ここで、対象物の中心間の分離度が、2つの対象物の半径の合計よりも小さいときにコリジョンが起こる。
一時的変化kのパッキングコストは、動作距離(5)とコリジョンコスト(9)を使用して定義される。
最後に、2つの動きのパッキングコストはすべての一時的変化において最小となる。
2つの対象物間のパッキングコストPkijは、ビデオ要約に配置される前のクラスタリングで使用される。図5は、一連の対象物をパッキングコストに基づいて3つのクラスタにクラスタリングした例である。
図5−aは、すべての入力対象物の動作軌跡をx−t平面上の曲線として示す。図5−bから図5−cは、パッキングコストを使用した2つのクラスタの動作軌跡を示す。図5−dは、完成した要約の動作軌跡を示す。なお、これらに紛らわしい交差はない。
4.2.クラスタ内の対象物の配置
対象物が式(11)のパッキングコストに基づいてクラスタ化されると、各クラスタは効率的にパックされうる対象物を含む。このようなクラスタ内の対象物すべてから要約ビデオを作成するには、すべての対象物について開始再生時間を決定する必要がある。これら開始再生時間によって、短くて簡単に観られるビデオが生成されなければならない。クラスタ内のすべての対象物がすでに類似動作を有するため、総再生時間を最小にしつつ対象物間のコリジョンも最小にする再生時間を決めなければならない。これは、(10)で定義されるパッキングコストを使用してなされる。最適のパッキングは難しい問題であるため、よい結果をもたらす以下の最適化を使用する。
まず、一時的マッピングを伴う対象物の空セットGを用意できる。それぞれの対象物に再生時間のマッピングを決定する工程は、最長の継続時間を有する対象物から開始する。この対象物を任意の場所に置き、Gに加える。G以外の最長の対象物についても継続する。フレーム毎に現在の対象物とその対象物に最も近いG中の対象物の間のパッキングコストPkij(k)を求め、この対象物のフレームすべてのパッキングコストの合計を最小にする時間マッピングとして時間マッピングkを定める。この計算において、一時的重なりTij(k)は、セットGとの一時的な重なりである。時間マッピングの決定後に、すべての対象物がGに加えられる。この一時的マッピングは、すべての対象物が再生時間にマッピングされるまで続く。このような一時的配置の例を図5−bから図5−dに示す。
パッキングコストPkij(k)の計算には、[6]に記載された近似k最近傍アルゴリズムとkd木を用いて、ある対象物の最も近い対象物とのコリジョンを対象物の集まりから計算することを含む。NN探索の期待時間は、kd木に保存された要素の数の対数となる。
4.3.異なるクラスタの組み合わせ
異なるクラスタの組み合わせは、独立した対象物の組み合わせと同様に行われる。対象物はクラスタ内で相対的再生時間を有するが、それぞれのクラスタにグローバルな再生時間を与える必要がある。これは、それぞれの対象物に時間を与えるのと同様に行われる。最大数の対象物を有するクラスタに任意の再生時間を与える。続いて、再生時間の付与されていない最大クラスタを選出し、すでに時間が付与されたクラスタとのコリジョンを最小に抑えながら、グローバル時間を付与していく。
5.教師あり分類器の学習と試験
例えばSVM[3]の教師あり分類器の学習は、タグ付きサンプルの大きな学習セット
を必要とする。監視ビデオには分類する対象物が何千とあるため、そのような大きな学習セットを構築するのは時間がかかりすぎる。クラスタ化された要約を用いることで、迅速に効率よく学習セットを構築することができる。
学習セットを構築する手法として、教師なしクラスタリングを使用して近似クラスタを作成する手法がある。また、一つのサンプルにタグを付け、近傍法を使用して他のサンプルにタグを付けていく手法もある。これらの手法は、大きな学習セットを素早く作成できるが、訂正が必要なエラーも残る。クラスタ化された要約を使用すれば非常に短時間で作成したセットを表示でき、最小の労力と時間で大きく正確な学習セットを作成することができる。
稼動中の分類器の学習が完了したら、その性能を試験するにはクラスタ化された要約が最も効率が良い。分類結果を見るために何時間も費やすその他の方法は実用的ではない。
図6の例に用いた学習セットは、およそ100のチューブレットを有する。100のチューブレット一つ一つにタグを付けることはせず、教師なしクラスタリング後の、たった10回のキークリックで学習セットを作成することができた。
図6−aから図6−eは、動作特徴を用いて、SVM分類で100のチューブレットをクラスタ化した要約を示す。一つのチューブレットに10秒とすると、分類結果を単純に表示するだけで20分かかる。一方、クラスタ化された要約の長さは2分よりも短い。左側の列は、対象物の動作軌跡で、右側の列はクラスタ化された要約からの1フレームである。クラスは、図6−aが左側への歩行、図6−bが右側への歩行、図6−cが左側への走行、図6−dが右側への走行、そして、図6−eが立って手を振っている、である。
次に、図7を参照すると、カメラ11によって撮影されたソースビデオから概要ビデオを生成する、本発明のシステム10のブロック図が示されている。システム10は、第一のソースビデオにおけるビデオフレームのサブセットを保存するビデオメモリ12を有する。第一のソースビデオは、少なくとも一つの対象物の動きを表示し、対象物はそれぞれのx−y平面上の座標に複数のピクセルを有する。プリプロセッサ13は、撮影したビデオをオンラインで処理する。プリプロセッサ13は、ビデオフレームを予備整列させ、予備整列されたビデオフレームをビデオメモリ12に保存するように構成されてもよい。
プリプロセッサ13は、ソースビデオ内の対象物を検知し、検知した対象物を対象物用メモリ16のキューにいれる。プリプロセッサ13は、無限のソースビデオから概要ビデオを作成する際に使用される。無限ではないソースビデオから概要を作成する場合は、プリプロセッサ13は省略することができ、システムは対象物用メモリ16と連結し対象物キューを操作して、定義された基準に従って概要ビデオを作成するように構成されてもよい。
そこで、ユーザ定義の制約を定義できるように、ユーザインタフェース17を対象物用メモリ16に連結する。このような制約は、例えば、要約するソースビデオ内にタイムウィンドウを定義するのに使用されうる。あるいは、概要ビデオに必要な継続時間を定義するのにも使用されうる。ユーザインタフェース17は、索引付けを行う対象物の選択や対象物のクラスの選択にも用いられる。当然のことながら、この制約は予め定義することもでき、その場合には本発明の実施例の一部ではユーザインタフェース17は必要とされない。
ユーザ定義の制約またはシステムによって定義されたデフォルトの制約に従って、異なるソース対象物のサブセットから選択するために、ソース対象物セレクタ18が対象物用
メモリ16に連結されている。定義された基準に沿って対象物をクラスタリングするために、クラスタリング部19がソース対象物セレクタ18に連結されている。これは、ユーザインタフェース17を使用してユーザが指定することもできる。各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、クラスタリング部19が対象物をクラスタにクラスタリングする。選択された一部のフレームから得られた像点を用いた一時的選択によって、選択された各ソース対象物から一つ以上の概要対象物をサンプリングするため、概要対象物サンプラー20がクラスタリング部19に連結される。「サンプラー」は、一つ一つの対象物の速度を変えるのに使用することができる。フレーム生成器21は、選択したクラスタのみを概要ビデオに含むことを可能にするクラスタセレクタ22を含む。概要ビデオのフレームは、次の処理のため、または表示部24による表示のため、概要フレームメモリ23に保存される。表示部24は、指定された時間変換と色変換で一時的に変化した対象物を表示する。
実際には、システム10は、当該分野で周知のグラフィックカードまたはワークステーションおよび適切な周辺機器を備え、適切にプログラミングされたコンピュータによって実現されうる。
図8は、本発明の実施例に係わるシステム10によって実施される主要操作のフロー図である。
結論
本発明に係わるクラスタ化された要約の手法は、監視ビデオの閲覧と検索に効率的な方法をもたらす。監視ビデオは非常に長く(実際のところ無限である)、何千もの対象物を含む。通常の閲覧は実質的に不可能である。クラスタ化された要約では、類似した動作を有する複数の対象物が同時に示される。これによって、異なる動きを区別する能力を失うことなく、かなり短い時間ですべての対象物を閲覧することができる。数千の対象物の要約は数分で作成することができる(対象物の抽出時間はカウントしていない)。
監視ビデオの対象物すべてについて効率的な閲覧を可能とすることに加え、クラスタ化された要約は、分類器用に用例を作成するのにも重要である。教師なしクラスタリングとクラスタ化された要約を使用することにより、複数の用例を作成し学習機構に与えることが非常に迅速に可能である。初めに使用するのは単純な近傍分類器でよく、クラスタ化された要約を使用して掃除をし、その結果は学習中の分類器に与えられる。
クラスタ化された要約は、ビデオの閲覧にも使用することができる。撮影したビデオを見るのに何時間も費やすかわりに、クラスタ化された要約の手法は、ビデオアーカイブの迅速で効率的な閲覧を可能にし、より小さな興味のある対象物のセットに焦点をあてることができる。閲覧はクラスタ化された要約を階層的に適用することで行われる。ユーザは、まず、興味のあるクラスタを選択する。次に、このクラスタ内の対象物を識別するためにこのクラスタをクローズアップする。あるいは、ユーザは無関連のクラスタを選択し、要約からその対象物を削除することも可能である。ユーザは、教師あり分類器を使ってクラスタを「掃除」することによって、あるいは、単純に一部の近傍を選択することによって、閲覧を続けることができる。
当然のことながら、本発明に係わるシステムは適切にプログラミングされたコンピュータでもよい。同様に、本発明は、本発明の方法を実行するコンピュータによって判読可能なコンピュータプログラムも考慮している。本発明は、更に、本発明の方法を実施する機械で実行可能な命令からなるプログラムを具現する、機械判読可能なメモリも考慮している。

Claims (11)

  1. コンピュータによって実行されるビデオの要約方法であって、前記方法は:
    選択された時間間隔でビデオ内で検知された対象物に関連するデータを受信し;
    各クラスタが選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むように、対象物をクラスタにクラスタリングし
    それぞれが一つのクラスタを含むより小さいビデオ要約において対象物の一時的配置を計算し;
    計算されたクラスタを基にビデオ要約を生成する、
    ビデオの要約方法。
  2. 前記ビデオ要約は、要約の閲覧またはクラスタのメンバである独立した対象物の選択のいずれかよって選択されたクラスタのサブセットを基にしている、請求項に記載のビデオの要約方法。
  3. 前記生成されたビデオ要約は、以前に計算された各クラスタ内の対象物の一時的配置を保ちつつ、選択されたクラスタ間の一時的配置を再配置することによって作成される、請求項に記載のビデオの要約方法。
  4. 前記生成された要約は、各クラスタから所定数あるいは所定割合の対象物を選択することによって作成される、請求項1に記載のビデオの要約方法。
  5. 選択された対象物の一つを含む前記クラスタ内にある対象物すべてを含む新しい要約を表示することを含む、請求項に記載のビデオの要約方法。
  6. 特徴は対象物の画像外観あるいは対象物の時空間軌跡を含む、請求項1〜のいずれか一項に記載のビデオの要約方法。
  7. 更に、自動対象物分類器の学習用に対象物を選択するために、前記ビデオ要約を使用することを含む、請求項1〜のいずれか一項に記載のビデオの要約方法。
  8. 更に、自動対象物分類器の性能を試験するために、前記ビデオ要約を使用することを含
    む、請求項1〜のいずれか一項に記載のビデオの要約方法。
  9. 更に、前記クラスタリングの前に、ビデオ内の少なくともいくつかの対象物に対して追加の特徴を計算することを含む、請求項1〜のいずれか一項に記載のビデオの要約方法。
  10. コンピュータに請求項1〜9のいずれか1項に記載のビデオの要約方法の各ステップを実行させるためのコンピュータプログラム。
  11. ソースビデオから概要ビデオを生成するシステム(10)であって、
    選択された特徴あるいは特徴の組み合わせについて類似した対象物を含むクラスタに、対象物をクラスタ化するように構成されたクラスタリング部と、
    それぞれが一つのクラスタを含むより小さいビデオ要約において対象物の一時的配置を計算する計算部と、
    計算されたクラスタを基にビデオ要約を生成する生成部と、
    を含んでなるシステム。
JP2009266870A 2008-11-21 2009-11-24 クラスタリングを使用したビデオ概要の生成方法とシステム Active JP5432677B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11664608P 2008-11-21 2008-11-21
US61/116,646 2015-02-16

Publications (2)

Publication Number Publication Date
JP2010134923A JP2010134923A (ja) 2010-06-17
JP5432677B2 true JP5432677B2 (ja) 2014-03-05

Family

ID=42346106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009266870A Active JP5432677B2 (ja) 2008-11-21 2009-11-24 クラスタリングを使用したビデオ概要の生成方法とシステム

Country Status (2)

Country Link
US (1) US20180042388A1 (ja)
JP (1) JP5432677B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11640712B2 (en) 2019-10-07 2023-05-02 Canon Kabushiki Kaisha Information processing apparatus, video image summarization method, and storage medium

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888768B (zh) * 2012-12-21 2016-02-10 浙江大华技术股份有限公司 一种视频图像帧序列的浓缩方法及装置
KR20160143108A (ko) * 2015-06-04 2016-12-14 에스케이텔레콤 주식회사 영상요약 장치와 그를 위한 컴퓨터로 읽을 수 있는 기록매체
CN111222476B (zh) * 2020-01-10 2023-06-06 北京百度网讯科技有限公司 视频时序动作的检测方法、装置、电子设备及存储介质
USD968931S1 (en) * 2021-03-04 2022-11-08 Van Murphy Bed LLC Bracket with removable support members
CN113173227B (zh) * 2021-04-30 2023-07-25 中船黄埔文冲船舶有限公司 一种翻板床的试验方法
US12579216B2 (en) * 2021-06-02 2026-03-17 Nvidia Corporation Techniques for classification with neural networks
CN114847703B (zh) * 2022-04-24 2024-04-05 广东诺奖健康科技有限公司 一种智能电动折叠震动型多功能沙发床

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3550167A (en) * 1968-02-28 1970-12-29 Hilliard D Bennett Wall bed structure
US3703735A (en) * 1970-09-02 1972-11-28 Stephen G Moore Retracting bed mechanism
US4766623A (en) * 1987-07-23 1988-08-30 Beihoffer William L Spring counterbalanced folding wall bed
US5299660A (en) * 1993-06-01 1994-04-05 Farmer Ervin H Stationary lift structure with sterile-type enclosure for pharmaceutical and medical applications
US5446932A (en) * 1994-05-18 1995-09-05 Voorhis; Donald P. Folding wall bed
EP1216633B1 (de) * 2000-12-15 2007-02-21 Gerhart W. Vilsmeier Liftbett
FR2867368B1 (fr) * 2004-03-09 2006-06-23 Alexis Paoutoff Dispositif de fixation et d'articulation pour chassis pivotant, notamment pour lit escamotable
US7426301B2 (en) * 2004-06-28 2008-09-16 Mitsubishi Electric Research Laboratories, Inc. Usual event detection in a video using object and frame features
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
US20060260045A1 (en) * 2005-05-23 2006-11-23 Stonier Russell W Tilting furniture system and infinitely variable lift tensioning mechansim therefor
CA2640834C (en) * 2005-11-15 2014-08-19 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for producing a video synopsis
IT1393825B1 (it) * 2009-04-21 2012-05-11 Clei S R L Struttura di rete abbattibile con dispositivo di bloccaggio automatico
US9084489B2 (en) * 2011-12-28 2015-07-21 Dirtt Environmental Solutions, Ltd. Modular walls incorporating recessed, extendable furniture
WO2014043796A1 (en) * 2012-09-24 2014-03-27 Guyvoronskiy Valeriy Electric wall bed and leg extender
US20160324326A1 (en) * 2015-05-06 2016-11-10 Chris McCoy Encased foldable wall bed
FR3049837B1 (fr) * 2016-04-08 2018-08-31 Ajyp Structure de lit relevable a support d'assise escamotable
NL2016872B1 (en) * 2016-06-01 2017-12-11 Blom Groep B V A bed, bed assembly method, and bed usage method.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11640712B2 (en) 2019-10-07 2023-05-02 Canon Kabushiki Kaisha Information processing apparatus, video image summarization method, and storage medium

Also Published As

Publication number Publication date
JP2010134923A (ja) 2010-06-17
US20180042388A1 (en) 2018-02-15

Similar Documents

Publication Publication Date Title
US9877086B2 (en) Method and system for producing relevance sorted video summary
JP5432677B2 (ja) クラスタリングを使用したビデオ概要の生成方法とシステム
CN101689394B (zh) 用于视频索引和视频概要的方法和系统
US8949235B2 (en) Methods and systems for producing a video synopsis using clustering
CN113196296B (zh) 使用几何上下文检测人群中的对象
US10140575B2 (en) Sports formation retrieval
US9298976B2 (en) Method, apparatus and computer readable recording medium for managing a reference face database to improve face recognition performance under a restricted memory environment
US9342785B2 (en) Tracking player role using non-rigid formation priors
Rota et al. Real-life violent social interaction detection
US9092699B2 (en) Method for searching for objects in video data received from a fixed camera
US20190035090A1 (en) Determining multiple camera positions from multiple videos
Sun et al. Salient montages from unconstrained videos
Li et al. Video synopsis in complex situations
Kar et al. Video shot-boundary detection: issues, challenges and solutions
EP3324307B1 (en) Retrieval device, retrieval method, and computer-readable medium
CN116797961A (zh) 运动球体的画面采集方法、装置、计算机设备和存储介质
Rallis et al. Hierarchical sparse modeling for representative selection in choreographic time series
Chao et al. Augmented 3-D keyframe extraction for surveillance videos
JP2006244424A (ja) 映像シーン分類方法及び装置及びプログラム
Zhang et al. VSSum: A Virtual Surveillance Dataset for Video Summary
Raheem et al. A review for video summarization based on trajectories features
Kanagaraj et al. A Framework for Multimedia Event Classification With Convoluted Texture Feature
Priya et al. A content based video retrieval analysis system with extensive features by using Kullback-Leibler
Afzal et al. K-Nearest Neighbours Based Classifiers for Moving Object Trajectories Reconstruction
Sangeetha et al. A Survey on Video Summarization using Face Recognition Methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130807

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130812

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130909

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131007

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5432677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250