JP4351994B2 - スケーラブルなビデオの要約化 - Google Patents
スケーラブルなビデオの要約化 Download PDFInfo
- Publication number
- JP4351994B2 JP4351994B2 JP2004504237A JP2004504237A JP4351994B2 JP 4351994 B2 JP4351994 B2 JP 4351994B2 JP 2004504237 A JP2004504237 A JP 2004504237A JP 2004504237 A JP2004504237 A JP 2004504237A JP 4351994 B2 JP4351994 B2 JP 4351994B2
- Authority
- JP
- Japan
- Prior art keywords
- scene
- scenes
- lattice space
- key frame
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
- G11B2220/2562—DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Television Signal Processing For Recording (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
本発明は、包括的にはビデオ材料の要約化に関し、詳細にはビデオ要約化プロセスの自動化およびカスタマイズに関する。
デジタルビデオは、コンピュータ業界および電気通信業界で急成長している要素である。
多くの企業、大学、さらには家庭がすでに、アナログフォーマットのビデオおよびデジタルフォーマットのビデオの両方を大量に収納している。
例としては、放送ニュースに使用されるビデオ、訓練・教育ビデオ、セキュリティ監視ビデオ、およびホームビデオが挙げられる。
デジタルビデオの急速な発達により、多くの人々がマルチメディアを取り込みマルチメディアと対話する方法が変化しつつあり、その過程の中で多くの新しいニーズおよび用途がもたらされた。
ビデオ要約は、名称が示すようにより長いビデオシーケンスの内容を短くまとめたものであり、オリジナルの本質的なメッセージを良い状態で保持しながら、ビデオシーケンスの内容についての簡潔な情報をユーザに提供する。
理論上、ビデオ要約は手動で、または自動的に生成することができる。
しかし、大量のビデオデータがすでに存在し、作成される新しいビデオデータの量が今後も増え続けることから、ビデオ要約を手動で生成することはますます困難になっている。
したがって、ビデオ要約プロセスにおいて人間の介入を減らすように、完全に自動化されたビデオ解析・処理ツールを開発することがますます重要になりつつある。
静止画像要約は、ビデオサマリとも呼ばれ、基礎となるビデオソースから抽出または生成された目立った画像(キーフレームとして知られる)の小さな集まりである。
動画像要約は、ビデオスキミングとも呼ばれ、画像シーケンスの集まり、ならびにオリジナルシーケンスから抽出された対応するオーディオ要約からなり、したがってそれ自体、長さのかなり短いビデオクリップである。
一般にビデオサマリは、視覚的情報のみが利用され、オーディオ情報またはテキスト情報を処理する必要がないため、スキミングよりもはるかに素早く構築することができる。
したがってビデオサマリは、タイミングすなわち同期の問題がないことからより容易に表示することができる。
さらに、抽出されたすべての代表フレームの時間順を空間順で表示することができ、したがって、ユーザはビデオの内容をより素早く把握することができる。
最後に、必要なときに、ビデオサマリ中の抽出静止画像をすべて非常に容易にプリントアウトすることができる。
DVDビデオは、人々がマルチメディア情報を利用する方法を劇的に変えつつある。
DVDビデオディスクの大きな記憶容量は、静止画像、テキスト、ビデオ、およびオーディオに対して理想的な記憶場所を提供する。
DVDビデオフォーマットによりサポートされるナビゲーション機能により、媒体の内容に対話的にアクセスすることができる。
DVDディスクに記憶することができる様々な媒体タイプに適応するために、DVDビデオフォーマット仕様に従って媒体を編成(organize)し、このように編成された媒体の内容をDVDディスクにエキスポートする技術に対するニーズが増している。
この技術は一般に「DVDオーサリング」と呼ばれ、DVDオーサリングの本質的な一タスクは、ビデオソースからDVDビデオタイトルおよびナビゲーション構造を作成することである。
DVDディスクのフォーマットにより、DVDディスクは最大で99個のタイトルを収容することが可能であり、1タイトルは最大で99個のチャプタを収容することが可能である。
したがってタイトルおよびチャプタは、全体のビデオシーケンスを意味のある部分に分け、各タイトルおよび/またはチャプタが1つの特定のビデオ部分の入口点である。
たとえば、Hewlett PackardのMyDVDアプリケーションでは、ユーザがビデオからDVDを自動的に作成することを選択すると、シーン検出アルゴリズムに基づいてシーンが検出されたときに新しいチャプタが作成される。
次に、検出された各シーンからキーフレームが抽出される。
キーフレームは、基礎となるシーンを表し、DVDナビゲーションボタンにリンクされ、したがってユーザは、キーフレームを閲覧してビデオシーケンスの内容を素早く把握し、関連するボタンをクリックして対応するシーンを見ることができる。
したがって、検出されたシーンを知的に併合する方法が必要である。
さらに、併合されたいくつかのオリジナルシーンがチャプタに含まれる場合、有意かつ有益なキーフレームを構築して基礎となる併合されたビデオの内容を表す方法が必要である。
ビデオシーケンスにおいて検出されたシーンを知的に併合し、キーフレームを構築して基礎となる併合されたビデオの内容を表す方法およびシステムを本明細書に記載する。
本発明による一実施形態では、ビデオシーケンスが一連の構成要素シーンに分解され、次に、構成要素シーン対が、所定数のシーンセットが残るまで併合される。
単一の構成要素シーンを含む各シーンセットからキーフレームが抽出され、複数の構成要素シーンを含む各シーンセットに新しいキーフレームが構築される。
以下の好ましい実施形態の詳細な説明では、本明細書の一部を成し、本発明を実施し得る特定の実施形態を例として示す添付図面を参照する。
他の実施形態も利用することができ、構造的または論理的な変更を本発明の範囲から逸脱することなく行い得ることを理解されたい。
したがって以下の詳細な説明は限定の意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって規定される。
本明細書での説明は、各ビデオシーケンスが1つのタイトルの下にあると想定すると共に、そのタイトルの下にあるシーンを表すチャプタをどのように作成するかに焦点をあてる。
同様の手法を用いて、ビデオシーケンス中のシーンを表す複数のタイトルを作成することができ、この場合、チャプタを使用して各シーンをさらに細分することができることを意図する。
さらに、本明細書に記載の本発明はDVDオーサリングとの併用に限定されないことが理解される。
むしろ本発明は、検出されたシーンの数が好ましい数または許可されている数を上回り、シーンの併合が望ましい、または必要ないずれのビデオ要約にも採用することが可能である。
本明細書で使用される場合、ショット14は連続した撮影期間中に取り込まれたビデオセグメントとして定義され、シーン12は意味的に関連するショット14のセットからなる。
ショット14は一連の個々のフレーム16からなる。
ショットおよびシーンを検出する様々なアルゴリズムが存在し、そのうちのいずれもビデオシーケンスをシーン、ショット、およびフレーム構造に分解するにあたって使用するのに適している場合がある。
解析されるビデオシーケンス10のタイプに応じて、或るアルゴリズムが別のアルゴリズムよりも好ましい場合がある。
1つまたは複数のキーフレーム18が、様々な特徴に基づいた基礎となるビデオの内容の複雑性に依存する均一サンプリング(uniform sampling、均等サンプリング)または適応的方式によって各シーン12から抽出される。
したがって、ビデオシーケンス10は、図2に示すように各シーン12(またはチャプタ)を1つのキーフレーム18を使用して表すことによって要約される。
シーン12(ひいては抽出されるキーフレーム18)の数が予め設定された(presentをpresetとして訳)限度を超える場合は、シーン12の数が予め設定された限度内になるまでいくつかのシーン12を併合しなければならない。
シーン、ショット、およびフレームの重要値を計算する様々な方法およびアルゴリズムが知られている。
たとえば、本明細書と同じ日に出願され、同一の譲受人に譲渡された「Scalable Video Summarization and Navigation System and Method」という名称の同時係属中の米国特許出願第10/140511号[HPファイル番号10019975−1]が参照により援用され、シーン、ショット、およびフレームの重要値を計算するアルゴリズムを記載している。
重要値の計算には、シーンおよびショットの長さ、シーンおよびショットのアクティビティレベル、シーンに含まれる構成要素ショットの数、検出されたカメラの動き、フレーム中の皮膚色のピクセルの割合、フレーム中の検出された人の顔の数、フレーム中のエッジエネルギーの分布、およびフレームに含まれる動きアクティビティ量等の要因を考慮することができる。
m_startFrameはシーンの開始フレームであり、
m_endFrameはシーンの終了フレームであり、
m_containedFrames[]はシーンに含まれるフレームのアレイであり、
m_keyframeはシーンから抽出された代表フレームであり、
m_importはシーンの重要値である。
アルゴリズムの説明を容易にするために、キーフレームも同様にこの重要値を有するものと想定することができる。
しかし、ビデオシーケンスのフレームは、シーン12中のすべてのフレーム16からのキーフレーム18の選択に使用される、計算されたそれぞれの重要値を有することができることが認識されよう。
図3は、本発明による対ごとの繰り返しシーン併合方法を示す。
構成要素シーンに分解されたビデオシーケンス10を考えると、N個のシーンが検出され、S[l],l=1,・・・,Nと表され、各シーンS[l]は上に定義したシーン構造を有するものと想定する。
さらに、好ましいシーン(またはチャプタ)の数はMであり、M<Nであると想定する。
次いで、以下の対ごとの繰り返しシーン併合方式を使用してM個のチャプタを作成することができる。
N個のシーンが、結果得られるシーン12の数が好ましい数であるM個のチャプタに見合うまで繰り返し併合される。
各最終シーンは、1つまたは複数のオリジナルシーンを含み得るため、本明細書ではシーンセットと呼ぶ。
したがって各繰り返し後、シーンの数は1だけ低減することになる。
併合するシーン12を選択する基準はそれぞれの重要値に基づく。
具体的には、重要値の和が最小になる隣接シーン12対が併合されることになる。
各対の重要値は、
I_pair[i]=S[i].m_import+S[i+1].m_import
として計算される。
但し、i=1,・・・,N−1である。
I_pair[i]を最小にする2つの隣接するシーン12が併合され、次の繰り返しでは、重要度が、和であるI_pair[i]である単一のシーンとしてみなされる。
隣接するシーンの繰り返し併合は、シーンをN−M回繰り返し併合した後、M個の最終シーンセットが残るまで続けられる。
1つのみのシーンを含むシーンセットごとに、シーンはチャプタに直接マッピングされる。
しかし、複数のシーンを含むシーンセットの場合は、シーンセットからチャプタを作成する方法が必要である。
図4は、シーンセットS'が複数の構成要素シーン12を含む場合に使用される本発明によるキーフレームのサイズ変更およびパッキング方法を示す。
S[l]〜S[l+m−1]のm個のシーンを含むシーンセットS'を考えると、以下の公式を使用してシーン構造に記憶される情報を更新する。
一方策は、シーンセット中で最も重要なシーンのキーフレーム18を抽出するというものである。
しかしこの方策は、シーンセットS'中の他の構成要素シーン12からの情報が失われることになる。
より良い方策は、シーンセット中のすべての構成要素シーンからできるだけ多くの情報を包含するというものであろう。
この目的を達成するために、キーフレームのサイズ変更およびパッキング方式を用いてシーンセットS'に新しいキーフレーム18を構築する。
重要値の大きなキーフレーム18ほど、重要値の低いキーフレームよりも基礎となるビデオの内容を良好に表しているものと想定される。
したがって、高い重要値を有するキーフレーム18ほど大きな表示サイズが割り当てられ、閲覧者はビデオシーケンスをより良く理解することができる。
しかし、既存の方法はDVDチャプタの作成には不適切である。
特に、一手法は抽出されたすべてのキーフレームをサイズ変更して表示エリアにパッキングする自動サイズ変更およびパッキングアルゴリズムである(S. Uchihashi およびJ. Foote著「Summarizing Video Using a Shot Importance Measure and a Frame-Packing Algorithm」ICASSP'99, vol. 6, 1999参照のこと)。
この方法は、構成要素キーフレームのサイズをもはや明確に認識することができない程度まで縮小する場合がある。
一方、比較的重要度の低いキーフレームの場合、より重要なキーフレームを認識できないほど小さくするということまでしてこういったフレームのために空間を設けることに価値はない。
別の手法では、いくつかのテンプレートが提供されて、抽出されたキーフレームをそれぞれの重要値に基づいて予め割り当てられた表示エリアにパッキングする(M. M. YeungおよびB. L. Yeo著「Video Visualization For Compact Presentation and Fast Browsing of Pictorial Content」IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 5, Oct. 1997を参照のこと)。
しかし、この手法におけるテンプレートレイアウトはすべて固定され、基礎となるシーンの構造に適合するように調整することができない。
第1の前提は、シーンセットS'中の構成要素キーフレームをすべて最終的に構築されるキーフレームに含める必要はないことである。
本明細書での説明では、9枚の最も重要な構成要素キーフレームに対応する最大で9枚のキーフレームが構築される、と想定される。
もちろん、本明細書に記載の方法を用いて他の任意の数の構成要素キーフレームを構築することができ、想定される9枚の構成要素キーフレームは例示のみを目的として使用され、本発明に対する限定と解釈されるべきではない。
第1のレベルにおけるあらゆる構成要素キーフレームの表示サイズは「非常によく見える」である一方で、第2のレベルの構成要素キーフレームの表示サイズは「見える」であり、第3のレベルの場合は「ようやく見える」である。
所望であればより多数または少数のレベルを使用してもよく、3レベルを使用することは単なる例示である。
「非常によく見える」、「見える」、および「ようやく見える」の表示エリア同士のサイズの区別は経験的に求めることができる。
たとえば、本明細書では、「見える」表示サイズには「非常によく見える」表示サイズの75%が割り当てられ、「ようやく見える」エリアには「非常によく見える」表示サイズの50%が割り当てられる。
予め定められた表示エリアのサイズは予期される表示装置に依存する。
たとえば、ラップトップコンピュータでは、「非常によく見える」表示エリアはおよそ1平方インチ(6.45平方cm)であるが、大画面テレビセットの場合、「非常によく見える」表示エリアはおよそ3平方インチ(19.35平方cm)以上であることができる。
第1に、選択された構成要素キーフレーム(この例では9枚の構成要素キーフレーム)が降順でそれぞれの重要値によりソートされ、s1,s2,・・・,s9として表される。
第2に、構築されたキーフレームの表示エリア30が3×3の格子に分割され、9枚の構成要素キーフレームが図5に示す順序に従って格子空間に割り当てられる。
返されるキーフレームが9枚よりも少ない場合、空いた格子空間は空のまま残される。
第3に、構成要素キーフレームが、それぞれの重要度順でそれぞれの予期される表示サイズ(すなわち、「非常によく見える」、「見える」、または「ようやく見える」)に拡張される。
特に、各構成要素キーフレームの量子化レベル「非常によく見える」、「見える」、または「ようやく見える」に基づいて、格子空間のエリアが予め割り当てられたサイズに拡張される。
拡張された格子空間が隣接する格子空間の1つに重複する場合、重複した格子空間は脇に「押しやられ」、拡張された格子空間を避ける。
格子空間が構築されたキーフレームの表示エリア30外に最終的に押しやられる場合、その格子空間および格子空間が含む構成要素キーフレームは単に破棄される。
図3に示す番号を有する格子空間は結果として、最高重要度の構成要素キーフレーム18が構築されたキーフレーム18に残される一方で、最低重要度の構成要素キーフレーム18がまず構築されたキーフレーム18の表示エリア30から押し出されることになる。
さらに、拡張プロセス後に表示エリア30にいくつかのエリアが空白のままである場合、構成要素キーフレーム18のサイズがそれぞれの重要値に基づいて調整されて、表示エリア30全体を充填する。
この方式を使用すると、シーンセットS'中の最も重要な構成要素キーフレーム18が、構築されたキーフレーム18の表示エリア30により高い可視性でもって常に保持されることになる。
本発明は所望数のチャプタを提供し、各チャプタに有意な代表キーフレームを構築する。
データ記憶システム104はDVDディスク、ハードディスクドライブ、もしくは他の永久記憶装置、または選択されたプラットフォームのランダムアクセスメモリであることができる。
表示装置108はたとえば、ビデオモニタやプリンタによって生成されたハードコピーであることができる。
コンピュータ分野および電気分野の当業者は、本発明を非常に広い範囲の実施形態で実施し得ることを容易に理解するであろう。
本願は、本明細書において説明した好ましい実施形態の適合形態および変形形態をいずれも包含することを意図する。
したがって、本発明は請求項および請求項の等価物によってのみ限定されることを明らかに意図する。
12・・・シーン1,
14・・・ショット1,
16・・・フレーム1,
18・・・キーフレーム1,
10・・・ビデオシーケンス,
102・・・データプロセッサ,
104・・・データ記憶装置,
108・・・表示装置
Claims (8)
- コンピュータにビデオシーケンス(10)を要約させる方法であって、
ビデオシーケンス(10)を一連の要素シーン(12)に分解するステップと、
前記一連の要素シーン(12)における要素シーンのそれぞれに、前記要素シーンのそれぞれが有する特徴に基づいて重要値を割り当てるステップと、
前記要素シーン(12)をシーンセットとして扱い、前記シーンセットが決められた数より多いときにのみ、2つの隣接するシーンセットの対全てにおいて、前記重要値を合算して重要値和を算出し、前記重要値和が最小である2つの隣接するシーンセットの対を併合して1つシーンセットとして扱い、前記併合を1回以上実行して予め決められた数以下のシーンセットを得るステップと、
前記シーンセットを得るステップにより得られたシーンセットのうち、1つの要素シーン(12)を含むシーンセットそれぞれにおいて、前記要素シーン(12)に含まれる複数のフレームからキーフレーム(18)を抽出するステップと、
前記シーンセットを得るステップにより得られたシーンセットのうち、複数の要素シーン(12)を含むシーンセットそれぞれに、新しいキーフレームを構築するステップであって、
それぞれ複数のフレームを有する要素シーン(12)を複数含むシーンセットから、予め決められた数のキーフレーム(18)を抽出するステップと、
前記抽出されたキーフレーム(18)の重要値に基づいて、前記抽出されたキーフレーム(18)を、割り当てられた表示エリア(30)に配置してサイズ変更することにより、前記割り当てられた表示エリア(30)に隙間なくパッキングするステップと
を含むステップと
を前記コンピュータに実行させる方法。 - 前記重要値和を算出することを、繰り返し行うステップと、
予め決められた数のシーンセットが残るまで、前記併合を繰り返し行うステップと
をさらに含む
請求項1に記載の方法。 - 前記パッキングするステップは、前記割り当てられた表示エリア(30)に配置してサイズ変更するために、
前記キーフレーム(18)を、前記割り当てられた表示エリア(30)をカバーする格子空間に割り当てるステップと、
前記割り当てられた前記キーフレーム(18)の前記重要値に基づいて、前記格子空間を所定のサイズに拡張するステップと
を含む
請求項1に記載の方法。 - 前記格子空間を所定のサイズに拡張するステップは、
拡張された格子空間を避けるように、拡張されない格子空間を押しやるステップと、
前記割り当てられた表示エリア(30)外に押しやられた格子空間を破棄するステップと
を含む
請求項3に記載の方法。 - 前記パッキングするステップは、前記キーフレーム(18)の構築のために、
前記キーフレーム(18)をそれぞれの重要値により順序付けるステップと、
前記キーフレーム(18)それぞれを、予め定められ、前記キーフレーム(18)の鮮明さを示す複数の可視レベルのうちの1つに量子化するステップと
を含み、
前記割り当てられた表示エリア(30)に配置してサイズ変更するために、
前記抽出されたキーフレーム(18)を、表示エリア(30)をカバーする格子空間に割り当てるステップと、
前記割り当てられたキーフレーム(18)の前記可視レベルに基づいて、前記格子空間を所定のサイズに順次拡張するステップと
を含み、
前記パッキングするステップは、
拡張された格子空間を避けるように、拡張されない格子空間を移すステップと、
前記表示エリア(30)外に移された格子空間を破棄するステップと
をさらに含む
請求項1に記載の方法。 - 9個のキーフレーム(18)が、前記シーンセットから抽出される
請求項1に記載の方法。 - 前記キーフレーム(18)は、それぞれ3つの可視レベルのうちの1つに量子化される
請求項5に記載の方法。 - 前記複数の可視レベルは、
それぞれ関連する表示サイズ
を有し、
最大表示サイズは、最小表示サイズの少なくとも2倍である
請求項5に記載の方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/140,794 US7047494B2 (en) | 2002-05-07 | 2002-05-07 | Scalable video summarization |
| PCT/US2003/014528 WO2003096350A2 (en) | 2002-05-07 | 2003-05-07 | Scalable video summarization |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005524916A JP2005524916A (ja) | 2005-08-18 |
| JP4351994B2 true JP4351994B2 (ja) | 2009-10-28 |
Family
ID=29399507
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004504237A Expired - Fee Related JP4351994B2 (ja) | 2002-05-07 | 2003-05-07 | スケーラブルなビデオの要約化 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US7047494B2 (ja) |
| EP (1) | EP1504454A2 (ja) |
| JP (1) | JP4351994B2 (ja) |
| AU (1) | AU2003230362A1 (ja) |
| WO (1) | WO2003096350A2 (ja) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW550507B (en) * | 2001-10-16 | 2003-09-01 | Ulead Systems Inc | System and method for establishing interactive video disk playing menu |
| US20040052505A1 (en) * | 2002-05-28 | 2004-03-18 | Yesvideo, Inc. | Summarization of a visual recording |
| US7676142B1 (en) * | 2002-06-07 | 2010-03-09 | Corel Inc. | Systems and methods for multimedia time stretching |
| US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
| US7546544B1 (en) * | 2003-01-06 | 2009-06-09 | Apple Inc. | Method and apparatus for creating multimedia presentations |
| US7694225B1 (en) * | 2003-01-06 | 2010-04-06 | Apple Inc. | Method and apparatus for producing a packaged presentation |
| US7840905B1 (en) | 2003-01-06 | 2010-11-23 | Apple Inc. | Creating a theme used by an authoring application to produce a multimedia presentation |
| US7483618B1 (en) | 2003-12-04 | 2009-01-27 | Yesvideo, Inc. | Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest |
| US20060284895A1 (en) * | 2005-06-15 | 2006-12-21 | Marcu Gabriel G | Dynamic gamma correction |
| US8085318B2 (en) * | 2005-10-11 | 2011-12-27 | Apple Inc. | Real-time image capture and manipulation based on streaming data |
| US7663691B2 (en) | 2005-10-11 | 2010-02-16 | Apple Inc. | Image capture using display device as light source |
| US8032840B2 (en) | 2006-01-10 | 2011-10-04 | Nokia Corporation | Apparatus, method and computer program product for generating a thumbnail representation of a video sequence |
| WO2007127695A2 (en) | 2006-04-25 | 2007-11-08 | Elmo Weber Frank | Prefernce based automatic media summarization |
| US20080031491A1 (en) * | 2006-08-03 | 2008-02-07 | Honeywell International Inc. | Anomaly detection in a video system |
| US20080303949A1 (en) * | 2007-06-08 | 2008-12-11 | Apple Inc. | Manipulating video streams |
| US8122378B2 (en) * | 2007-06-08 | 2012-02-21 | Apple Inc. | Image capture and manipulation |
| US8224087B2 (en) * | 2007-07-16 | 2012-07-17 | Michael Bronstein | Method and apparatus for video digest generation |
| US8494214B2 (en) * | 2008-10-30 | 2013-07-23 | Toshiba Global Commerce Solutions Holdings Corporation | Dynamically learning attributes of a point of sale operator |
| US8914826B2 (en) * | 2008-12-23 | 2014-12-16 | Verizon Patent And Licensing Inc. | Method and system for creating a chapter menu for a video program |
| JP2011124979A (ja) * | 2009-11-13 | 2011-06-23 | Jvc Kenwood Holdings Inc | 映像処理装置、映像処理方法、および映像処理プログラム |
| US8971651B2 (en) | 2010-11-08 | 2015-03-03 | Sony Corporation | Videolens media engine |
| US8938393B2 (en) | 2011-06-28 | 2015-01-20 | Sony Corporation | Extended videolens media engine for audio recognition |
| JP6378503B2 (ja) * | 2014-03-10 | 2018-08-22 | 国立大学法人 筑波大学 | 要約映像データ作成システム及び方法並びにコンピュータプログラム |
| CN104185090A (zh) * | 2014-08-14 | 2014-12-03 | 青岛大学 | 基于协作无线通信的视频摘要提取与传输方法 |
| US10176683B2 (en) | 2014-09-18 | 2019-01-08 | Honeywell International Inc. | Virtual panoramic thumbnail to summarize and visualize video content in video surveillance and in connected home business |
| KR101870761B1 (ko) * | 2016-10-18 | 2018-06-25 | 한국항공대학교산학협력단 | 항공통합시뮬레이션을 이용한 드론영상촬영 지원시스템 및 방법 |
| EP3968636A1 (en) | 2020-09-11 | 2022-03-16 | Axis AB | A method for providing prunable video |
| CN112291618B (zh) * | 2020-10-13 | 2023-04-07 | 北京沃东天骏信息技术有限公司 | 视频预览内容生成方法和装置、计算机装置和存储介质 |
| CN119815139B (zh) * | 2025-03-14 | 2025-06-03 | 上海岩芯数智人工智能科技有限公司 | 一种基于网格图的视频描述生成方法、系统及存储介质 |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5635982A (en) | 1994-06-27 | 1997-06-03 | Zhang; Hong J. | System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions |
| US5708767A (en) | 1995-02-03 | 1998-01-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
| US8107015B1 (en) * | 1996-06-07 | 2012-01-31 | Virage, Incorporated | Key frame selection |
| JPH09326990A (ja) | 1996-06-07 | 1997-12-16 | Matsushita Electric Ind Co Ltd | 映像編集装置 |
| JPH10232884A (ja) * | 1996-11-29 | 1998-09-02 | Media Rinku Syst:Kk | 映像ソフトウェア処理方法及び映像ソフトウェア処理装置 |
| US6340971B1 (en) | 1997-02-03 | 2002-01-22 | U.S. Philips Corporation | Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen |
| US6360234B2 (en) * | 1997-08-14 | 2002-03-19 | Virage, Inc. | Video cataloger system with synchronized encoders |
| JPH11239322A (ja) * | 1997-11-24 | 1999-08-31 | Hewlett Packard Co <Hp> | ビデオブラウジング/ビューイングシステム |
| US5956026A (en) | 1997-12-19 | 1999-09-21 | Sharp Laboratories Of America, Inc. | Method for hierarchical summarization and browsing of digital video |
| US6320669B1 (en) | 1998-04-08 | 2001-11-20 | Eastman Kodak Company | Method and apparatus for obtaining consumer video segments for the purpose of creating motion sequence cards |
| US6252975B1 (en) | 1998-12-17 | 2001-06-26 | Xerox Corporation | Method and system for real time feature based motion analysis for key frame selection from a video |
| US6342904B1 (en) | 1998-12-17 | 2002-01-29 | Newstakes, Inc. | Creating a slide presentation from full motion video |
| US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
| JP4227241B2 (ja) * | 1999-04-13 | 2009-02-18 | キヤノン株式会社 | 画像処理装置及び方法 |
| US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
| US7035435B2 (en) | 2002-05-07 | 2006-04-25 | Hewlett-Packard Development Company, L.P. | Scalable video summarization and navigation system and method |
-
2002
- 2002-05-07 US US10/140,794 patent/US7047494B2/en not_active Expired - Lifetime
-
2003
- 2003-05-07 AU AU2003230362A patent/AU2003230362A1/en not_active Abandoned
- 2003-05-07 WO PCT/US2003/014528 patent/WO2003096350A2/en not_active Ceased
- 2003-05-07 JP JP2004504237A patent/JP4351994B2/ja not_active Expired - Fee Related
- 2003-05-07 EP EP03724531A patent/EP1504454A2/en not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| US7047494B2 (en) | 2006-05-16 |
| US20030210261A1 (en) | 2003-11-13 |
| WO2003096350A3 (en) | 2004-04-01 |
| AU2003230362A1 (en) | 2003-11-11 |
| WO2003096350A2 (en) | 2003-11-20 |
| JP2005524916A (ja) | 2005-08-18 |
| EP1504454A2 (en) | 2005-02-09 |
| AU2003230362A8 (en) | 2003-11-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4351994B2 (ja) | スケーラブルなビデオの要約化 | |
| Boreczky et al. | An interactive comic book presentation for exploring video | |
| Yeung et al. | Video visualization for compact presentation and fast browsing of pictorial content | |
| EP2127368B1 (en) | Concurrent presentation of video segments enabling rapid video file comprehension | |
| Smith et al. | Video skimming and characterization through the combination of image and language understanding techniques | |
| US6865297B2 (en) | Method for automatically classifying images into events in a multimedia authoring application | |
| US8311277B2 (en) | Method and system for video indexing and video synopsis | |
| US9628673B2 (en) | Near-lossless video summarization | |
| JP5507386B2 (ja) | 画像セットからの動画コンテンツの生成 | |
| CN1538351B (zh) | 为视频序列生成视频缩略图的方法和计算机 | |
| US8391355B2 (en) | Method and device for online dynamic semantic video compression and video indexing | |
| EP2034487B1 (en) | Method and system for generating thumbnails for video files | |
| US20040181545A1 (en) | Generating and rendering annotated video files | |
| Yeo et al. | Classification, simplification, and dynamic visualization of scene transition graphs for video browsing | |
| WO2004013857A1 (en) | Method, system and program product for generating a content-based table of contents | |
| Ma et al. | Video snapshot: A bird view of video sequence | |
| KR20000064909A (ko) | 복수개의 키이-프레임 병렬 표시에 의한 비디오 물질을 통한 항법 및 항법 장치 | |
| WO2009044351A1 (en) | Generation of image data summarizing a sequence of video frames | |
| JP4667356B2 (ja) | 映像表示装置及びその制御方法、プログラム、記録媒体 | |
| WO2003105489A1 (en) | Method and device for online dynamic semantic video compression and video indexing | |
| Lux et al. | A novel tool for quick video summarization using keyframe extraction techniques | |
| KR20010037151A (ko) | 대표이미지를 이용한 요약비디오 생성 시스템 및 그 방법 | |
| Widiarto et al. | Shot segmentation of video animation to generate comic strip based on key frame selection | |
| WO2006092752A2 (en) | Creating a summarized overview of a video sequence | |
| Macer et al. | Transparent Access to Video Over the Web: a review of current approaches |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050824 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080828 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081126 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20081203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090227 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090330 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090721 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090727 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130731 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |
