JP4351994B2 - スケーラブルなビデオの要約化 - Google Patents

スケーラブルなビデオの要約化 Download PDF

Info

Publication number
JP4351994B2
JP4351994B2 JP2004504237A JP2004504237A JP4351994B2 JP 4351994 B2 JP4351994 B2 JP 4351994B2 JP 2004504237 A JP2004504237 A JP 2004504237A JP 2004504237 A JP2004504237 A JP 2004504237A JP 4351994 B2 JP4351994 B2 JP 4351994B2
Authority
JP
Japan
Prior art keywords
scene
scenes
lattice space
key frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004504237A
Other languages
English (en)
Other versions
JP2005524916A (ja
Inventor
ペン・ウー
イーン・リ
ダニエル・アール・トレッター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2005524916A publication Critical patent/JP2005524916A/ja
Application granted granted Critical
Publication of JP4351994B2 publication Critical patent/JP4351994B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

[発明の分野]
本発明は、包括的にはビデオ材料の要約化に関し、詳細にはビデオ要約化プロセスの自動化およびカスタマイズに関する。
[発明の背景]
デジタルビデオは、コンピュータ業界および電気通信業界で急成長している要素である。
多くの企業、大学、さらには家庭がすでに、アナログフォーマットのビデオおよびデジタルフォーマットのビデオの両方を大量に収納している。
例としては、放送ニュースに使用されるビデオ、訓練・教育ビデオ、セキュリティ監視ビデオ、およびホームビデオが挙げられる。
デジタルビデオの急速な発達により、多くの人々がマルチメディアを取り込みマルチメディアと対話する方法が変化しつつあり、その過程の中で多くの新しいニーズおよび用途がもたらされた。
このような一用途はビデオ要約である。
ビデオ要約は、名称が示すようにより長いビデオシーケンスの内容を短くまとめたものであり、オリジナルの本質的なメッセージを良い状態で保持しながら、ビデオシーケンスの内容についての簡潔な情報をユーザに提供する。
理論上、ビデオ要約は手動で、または自動的に生成することができる。
しかし、大量のビデオデータがすでに存在し、作成される新しいビデオデータの量が今後も増え続けることから、ビデオ要約を手動で生成することはますます困難になっている。
したがって、ビデオ要約プロセスにおいて人間の介入を減らすように、完全に自動化されたビデオ解析・処理ツールを開発することがますます重要になりつつある。
2つの基本的に異なる種類のビデオ要約、すなわち静止画像要約および動画像要約がある。
静止画像要約は、ビデオサマリとも呼ばれ、基礎となるビデオソースから抽出または生成された目立った画像(キーフレームとして知られる)の小さな集まりである。
動画像要約は、ビデオスキミングとも呼ばれ、画像シーケンスの集まり、ならびにオリジナルシーケンスから抽出された対応するオーディオ要約からなり、したがってそれ自体、長さのかなり短いビデオクリップである。
一般にビデオサマリは、視覚的情報のみが利用され、オーディオ情報またはテキスト情報を処理する必要がないため、スキミングよりもはるかに素早く構築することができる。
したがってビデオサマリは、タイミングすなわち同期の問題がないことからより容易に表示することができる。
さらに、抽出されたすべての代表フレームの時間順を空間順で表示することができ、したがって、ユーザはビデオの内容をより素早く把握することができる。
最後に、必要なときに、ビデオサマリ中の抽出静止画像をすべて非常に容易にプリントアウトすることができる。
ビデオ要約化は、いずれの記憶媒体(テープ、ディスク等)中のビデオシーケンスにも適用して使用することが可能であるが、対象となる一般的な一記憶媒体はDVDビデオディスクである。
DVDビデオは、人々がマルチメディア情報を利用する方法を劇的に変えつつある。
DVDビデオディスクの大きな記憶容量は、静止画像、テキスト、ビデオ、およびオーディオに対して理想的な記憶場所を提供する。
DVDビデオフォーマットによりサポートされるナビゲーション機能により、媒体の内容に対話的にアクセスすることができる。
DVDディスクに記憶することができる様々な媒体タイプに適応するために、DVDビデオフォーマット仕様に従って媒体を編成(organize)し、このように編成された媒体の内容をDVDディスクにエキスポートする技術に対するニーズが増している。
この技術は一般に「DVDオーサリング」と呼ばれ、DVDオーサリングの本質的な一タスクは、ビデオソースからDVDビデオタイトルおよびナビゲーション構造を作成することである。
DVDビデオタイトル構造は主に、対話型閲覧用にビデオの内容を編成するために使用される2つのエンティティ、すなわちタイトルおよびチャプタからなる。
DVDディスクのフォーマットにより、DVDディスクは最大で99個のタイトルを収容することが可能であり、1タイトルは最大で99個のチャプタを収容することが可能である。
したがってタイトルおよびチャプタは、全体のビデオシーケンスを意味のある部分に分け、各タイトルおよび/またはチャプタが1つの特定のビデオ部分の入口点である。
DVDオーサリングでは、ビデオシーケンスからタイトルおよびチャプタの構造を自動的に作成できることが非常に重要である。
たとえば、Hewlett PackardのMyDVDアプリケーションでは、ユーザがビデオからDVDを自動的に作成することを選択すると、シーン検出アルゴリズムに基づいてシーンが検出されたときに新しいチャプタが作成される。
次に、検出された各シーンからキーフレームが抽出される。
キーフレームは、基礎となるシーンを表し、DVDナビゲーションボタンにリンクされ、したがってユーザは、キーフレームを閲覧してビデオシーケンスの内容を素早く把握し、関連するボタンをクリックして対応するシーンを見ることができる。
米国特許第5995095号 欧州特許出願公開第1045316号 国際公開第03/096229号 Uchihashi S 他,「Summarizing Video Using a Shot Importance Measure and a Frame-Packing Algorithm」, ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 1999年会報, 1999 IEEE INTERNATIONAL CONFERENCE ON PHOENIX, AZ USA, 1999年3月15-19日, Piscatway NJ USA, IEEE, US, 1999年3月15日, p3041-3044 M. M. YeungおよびB. L. Yeo,「Video Visualization For Compact Presentation and Fast Browsing of Pictorial Content」, 1997年10月, IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 5
時には、検出されたシーンの数が好ましい、または許可されているチャプタの数を上回る場合がある。
したがって、検出されたシーンを知的に併合する方法が必要である。
さらに、併合されたいくつかのオリジナルシーンがチャプタに含まれる場合、有意かつ有益なキーフレームを構築して基礎となる併合されたビデオの内容を表す方法が必要である。
[発明の概要]
ビデオシーケンスにおいて検出されたシーンを知的に併合し、キーフレームを構築して基礎となる併合されたビデオの内容を表す方法およびシステムを本明細書に記載する。
本発明による一実施形態では、ビデオシーケンスが一連の構成要素シーンに分解され、次に、構成要素シーン対が、所定数のシーンセットが残るまで併合される。
単一の構成要素シーンを含む各シーンセットからキーフレームが抽出され、複数の構成要素シーンを含む各シーンセットに新しいキーフレームが構築される。
[好ましい実施形態の説明]
以下の好ましい実施形態の詳細な説明では、本明細書の一部を成し、本発明を実施し得る特定の実施形態を例として示す添付図面を参照する。
他の実施形態も利用することができ、構造的または論理的な変更を本発明の範囲から逸脱することなく行い得ることを理解されたい。
したがって以下の詳細な説明は限定の意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって規定される。
本明細書における本発明の説明では、ビデオシーケンスからDVDタイトル・チャプタ構造(本明細書ではビデオサマリと呼ぶこともある)をどのように自動的に作成するかという問題に対処する。
本明細書での説明は、各ビデオシーケンスが1つのタイトルの下にあると想定すると共に、そのタイトルの下にあるシーンを表すチャプタをどのように作成するかに焦点をあてる。
同様の手法を用いて、ビデオシーケンス中のシーンを表す複数のタイトルを作成することができ、この場合、チャプタを使用して各シーンをさらに細分することができることを意図する。
さらに、本明細書に記載の本発明はDVDオーサリングとの併用に限定されないことが理解される。
むしろ本発明は、検出されたシーンの数が好ましい数または許可されている数を上回り、シーンの併合が望ましい、または必要ないずれのビデオ要約にも採用することが可能である。
通常、図1に見られるように、ビデオシーケンス10は一連のシーン12、ショット14、およびフレーム16に基づいた階層ツリーとして表すことができる。
本明細書で使用される場合、ショット14は連続した撮影期間中に取り込まれたビデオセグメントとして定義され、シーン12は意味的に関連するショット14のセットからなる。
ショット14は一連の個々のフレーム16からなる。
ショットおよびシーンを検出する様々なアルゴリズムが存在し、そのうちのいずれもビデオシーケンスをシーン、ショット、およびフレーム構造に分解するにあたって使用するのに適している場合がある。
解析されるビデオシーケンス10のタイプに応じて、或るアルゴリズムが別のアルゴリズムよりも好ましい場合がある。
DVDディスクの文脈の中では、シーン12は意味的な基本単位とみなされ、DVDディスクのチャプタにマッピングされる。
1つまたは複数のキーフレーム18が、様々な特徴に基づいた基礎となるビデオの内容の複雑性に依存する均一サンプリング(uniform sampling、均等サンプリング)または適応的方式によって各シーン12から抽出される。
したがって、ビデオシーケンス10は、図2に示すように各シーン12(またはチャプタ)を1つのキーフレーム18を使用して表すことによって要約される。
シーン12(ひいては抽出されるキーフレーム18)の数が予め設定された(presentをpresetとして訳)限度を超える場合は、シーン12の数が予め設定された限度内になるまでいくつかのシーン12を併合しなければならない。
異なるシーン12は閲覧者に対して異なる視覚的インパクトを有する場合があるため、各シーン12に重要値が割り当てられる。
シーン、ショット、およびフレームの重要値を計算する様々な方法およびアルゴリズムが知られている。
たとえば、本明細書と同じ日に出願され、同一の譲受人に譲渡された「Scalable Video Summarization and Navigation System and Method」という名称の同時係属中の米国特許出願第10/140511号[HPファイル番号10019975−1]が参照により援用され、シーン、ショット、およびフレームの重要値を計算するアルゴリズムを記載している。
重要値の計算には、シーンおよびショットの長さ、シーンおよびショットのアクティビティレベル、シーンに含まれる構成要素ショットの数、検出されたカメラの動き、フレーム中の皮膚色のピクセルの割合、フレーム中の検出された人の顔の数、フレーム中のエッジエネルギーの分布、およびフレームに含まれる動きアクティビティ量等の要因を考慮することができる。
本明細書において本発明を説明するために、本説明全体を通して以下に定義するシーン構造を使用する。
m_startFrameはシーンの開始フレームであり、
m_endFrameはシーンの終了フレームであり、
m_containedFrames[]はシーンに含まれるフレームのアレイであり、
m_keyframeはシーンから抽出された代表フレームであり、
m_importはシーンの重要値である。
上に定義したように、値m_importはシーンの重要度である。
アルゴリズムの説明を容易にするために、キーフレームも同様にこの重要値を有するものと想定することができる。
しかし、ビデオシーケンスのフレームは、シーン12中のすべてのフレーム16からのキーフレーム18の選択に使用される、計算されたそれぞれの重要値を有することができることが認識されよう。
[対ごとの繰り返しシーン併合]
図3は、本発明による対ごとの繰り返しシーン併合方法を示す。
構成要素シーンに分解されたビデオシーケンス10を考えると、N個のシーンが検出され、S[l],l=1,・・・,Nと表され、各シーンS[l]は上に定義したシーン構造を有するものと想定する。
さらに、好ましいシーン(またはチャプタ)の数はMであり、M<Nであると想定する。
次いで、以下の対ごとの繰り返しシーン併合方式を使用してM個のチャプタを作成することができる。
本明細書に述べる対ごとの繰り返しシーン併合はシーンの重要値に基づく。
N個のシーンが、結果得られるシーン12の数が好ましい数であるM個のチャプタに見合うまで繰り返し併合される。
各最終シーンは、1つまたは複数のオリジナルシーンを含み得るため、本明細書ではシーンセットと呼ぶ。
各繰り返し中に、2つの隣接するシーン12が選択されて併合される。
したがって各繰り返し後、シーンの数は1だけ低減することになる。
併合するシーン12を選択する基準はそれぞれの重要値に基づく。
具体的には、重要値の和が最小になる隣接シーン12対が併合されることになる。
たとえば、第1の繰り返しでは、隣接するすべてのシーン対は{(S[1],S[2]),(S[2],S[3]),・・・,(S[N−1],S[N]}であり、総計でN−1個の対になる。
各対の重要値は、
I_pair[i]=S[i].m_import+S[i+1].m_import
として計算される。
但し、i=1,・・・,N−1である。
I_pair[i]を最小にする2つの隣接するシーン12が併合され、次の繰り返しでは、重要度が、和であるI_pair[i]である単一のシーンとしてみなされる。
隣接するシーンの繰り返し併合は、シーンをN−M回繰り返し併合した後、M個の最終シーンセットが残るまで続けられる。
1つのみのシーンを含むシーンセットごとに、シーンはチャプタに直接マッピングされる。
しかし、複数のシーンを含むシーンセットの場合は、シーンセットからチャプタを作成する方法が必要である。
キーフレームのサイズ変更およびパッキング
図4は、シーンセットS'が複数の構成要素シーン12を含む場合に使用される本発明によるキーフレームのサイズ変更およびパッキング方法を示す。
S[l]〜S[l+m−1]のm個のシーンを含むシーンセットS'を考えると、以下の公式を使用してシーン構造に記憶される情報を更新する。
Figure 0004351994
但し、
Figure 0004351994
は連結S'.m_import=S[l].m_import+…+S[l+m-1].m_importを表す。
最終操作は、シーンセットS'に含まれるすべてのシーンを表すことが望ましいキーフレーム18の更新である。
一方策は、シーンセット中で最も重要なシーンのキーフレーム18を抽出するというものである。
しかしこの方策は、シーンセットS'中の他の構成要素シーン12からの情報が失われることになる。
より良い方策は、シーンセット中のすべての構成要素シーンからできるだけ多くの情報を包含するというものであろう。
この目的を達成するために、キーフレームのサイズ変更およびパッキング方式を用いてシーンセットS'に新しいキーフレーム18を構築する。
ここに述べるキーフレームのサイズ変更およびパッキング方法は、それぞれの重要値に基づいてシーンS[l]、S[l+1],・・・,S[l+m−1]のすべてのキーフレーム18をサイズ変更し、予め割り当てられた表示エリアにパッキングする。
重要値の大きなキーフレーム18ほど、重要値の低いキーフレームよりも基礎となるビデオの内容を良好に表しているものと想定される。
したがって、高い重要値を有するキーフレーム18ほど大きな表示サイズが割り当てられ、閲覧者はビデオシーケンスをより良く理解することができる。
複数のフレームをサイズ変更してパッキングする方策が研究されてきた。
しかし、既存の方法はDVDチャプタの作成には不適切である。
特に、一手法は抽出されたすべてのキーフレームをサイズ変更して表示エリアにパッキングする自動サイズ変更およびパッキングアルゴリズムである(S. Uchihashi およびJ. Foote著「Summarizing Video Using a Shot Importance Measure and a Frame-Packing Algorithm」ICASSP'99, vol. 6, 1999参照のこと)。
この方法は、構成要素キーフレームのサイズをもはや明確に認識することができない程度まで縮小する場合がある。
一方、比較的重要度の低いキーフレームの場合、より重要なキーフレームを認識できないほど小さくするということまでしてこういったフレームのために空間を設けることに価値はない。
別の手法では、いくつかのテンプレートが提供されて、抽出されたキーフレームをそれぞれの重要値に基づいて予め割り当てられた表示エリアにパッキングする(M. M. YeungおよびB. L. Yeo著「Video Visualization For Compact Presentation and Fast Browsing of Pictorial Content」IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 5, Oct. 1997を参照のこと)。
しかし、この手法におけるテンプレートレイアウトはすべて固定され、基礎となるシーンの構造に適合するように調整することができない。
本発明によれば、最も重要なキーフレーム18の可視性を確実にしながらシーンセットS'のキーフレーム18を適応的にパッキングすることができるキーフレームのサイズ変更およびパッキング方法について説明する。
キーフレームのサイズ変更およびパッキング方法は以下の2つの前提に基づく。
第1の前提は、シーンセットS'中の構成要素キーフレームをすべて最終的に構築されるキーフレームに含める必要はないことである。
本明細書での説明では、9枚の最も重要な構成要素キーフレームに対応する最大で9枚のキーフレームが構築される、と想定される。
もちろん、本明細書に記載の方法を用いて他の任意の数の構成要素キーフレームを構築することができ、想定される9枚の構成要素キーフレームは例示のみを目的として使用され、本発明に対する限定と解釈されるべきではない。
第2の前提は、選択された構成要素キーフレームがそれぞれの重要値に基づいて3つの可視性レベルのうちの1つに量子化され、各可視性レベルには予め定められた表示サイズが割り当てられることである。
第1のレベルにおけるあらゆる構成要素キーフレームの表示サイズは「非常によく見える」である一方で、第2のレベルの構成要素キーフレームの表示サイズは「見える」であり、第3のレベルの場合は「ようやく見える」である。
所望であればより多数または少数のレベルを使用してもよく、3レベルを使用することは単なる例示である。
「非常によく見える」、「見える」、および「ようやく見える」の表示エリア同士のサイズの区別は経験的に求めることができる。
たとえば、本明細書では、「見える」表示サイズには「非常によく見える」表示サイズの75%が割り当てられ、「ようやく見える」エリアには「非常によく見える」表示サイズの50%が割り当てられる。
予め定められた表示エリアのサイズは予期される表示装置に依存する。
たとえば、ラップトップコンピュータでは、「非常によく見える」表示エリアはおよそ1平方インチ(6.45平方cm)であるが、大画面テレビセットの場合、「非常によく見える」表示エリアはおよそ3平方インチ(19.35平方cm)以上であることができる。
以下の3つのステップがサイズ変更およびパッキングプロセスに採用される。
第1に、選択された構成要素キーフレーム(この例では9枚の構成要素キーフレーム)が降順でそれぞれの重要値によりソートされ、s1,s2,・・・,s9として表される。
第2に、構築されたキーフレームの表示エリア30が3×3の格子に分割され、9枚の構成要素キーフレームが図5に示す順序に従って格子空間に割り当てられる。
返されるキーフレームが9枚よりも少ない場合、空いた格子空間は空のまま残される。
第3に、構成要素キーフレームが、それぞれの重要度順でそれぞれの予期される表示サイズ(すなわち、「非常によく見える」、「見える」、または「ようやく見える」)に拡張される。
特に、各構成要素キーフレームの量子化レベル「非常によく見える」、「見える」、または「ようやく見える」に基づいて、格子空間のエリアが予め割り当てられたサイズに拡張される。
拡張された格子空間が隣接する格子空間の1つに重複する場合、重複した格子空間は脇に「押しやられ」、拡張された格子空間を避ける。
格子空間が構築されたキーフレームの表示エリア30外に最終的に押しやられる場合、その格子空間および格子空間が含む構成要素キーフレームは単に破棄される。
図3に示す番号を有する格子空間は結果として、最高重要度の構成要素キーフレーム18が構築されたキーフレーム18に残される一方で、最低重要度の構成要素キーフレーム18がまず構築されたキーフレーム18の表示エリア30から押し出されることになる。
さらに、拡張プロセス後に表示エリア30にいくつかのエリアが空白のままである場合、構成要素キーフレーム18のサイズがそれぞれの重要値に基づいて調整されて、表示エリア30全体を充填する。
この方式を使用すると、シーンセットS'中の最も重要な構成要素キーフレーム18が、構築されたキーフレーム18の表示エリア30により高い可視性でもって常に保持されることになる。
したがって、本明細書に記載の本発明は、ビデオシーケンスのダイナミクスを考慮すると共に、基礎となる内容を良好に表す有意なDVDエンティティ(タイトルおよびチャプタ)を有するビデオサマリを自動的かつ知的に作成する。
本発明は所望数のチャプタを提供し、各チャプタに有意な代表キーフレームを構築する。
図6に概略的に示すように、本明細書に記載のシステムは、選択されたプラットフォームが十分な計算力を有するプロセッサ102、ビデオシーケンス10、アルゴリズム、およびビデオサマリを記憶するデータ記憶システム104、ならびにユーザがビデオサマリを見ることができる表示装置108を有する限り、家庭用コンピュータ100等の様々なコンピューティングプラットフォームで実施することができる。
データ記憶システム104はDVDディスク、ハードディスクドライブ、もしくは他の永久記憶装置、または選択されたプラットフォームのランダムアクセスメモリであることができる。
表示装置108はたとえば、ビデオモニタやプリンタによって生成されたハードコピーであることができる。
特定の実施形態を好ましい実施形態の説明を目的として本明細書に図示し説明したが、本発明の範囲から逸脱することなく、図示し説明した特定の実施形態に代えて広範な代替および/または等価の実施態様を用い得ることが当業者により理解されよう。
コンピュータ分野および電気分野の当業者は、本発明を非常に広い範囲の実施形態で実施し得ることを容易に理解するであろう。
本願は、本明細書において説明した好ましい実施形態の適合形態および変形形態をいずれも包含することを意図する。
したがって、本発明は請求項および請求項の等価物によってのみ限定されることを明らかに意図する。
ビデオ階層構造の概略図である。 DVDタイトル・チャプタ構造の概略図である。 本発明による対ごとに繰り返し行われるシーン併合を示すフローチャートである。 本発明によるキーフレームのサイズ変更およびパッキングを示すフローチャートである。 本発明による新しいキーフレームの構築に使用可能な1つの格子である。 本発明によるビデオサマリの作成に使用可能なコンピュータシステムの概略図である。
符号の説明
10・・・ビデオシーケンス,
12・・・シーン1,
14・・・ショット1,
16・・・フレーム1,
18・・・キーフレーム1,
10・・・ビデオシーケンス,
102・・・データプロセッサ,
104・・・データ記憶装置,
108・・・表示装置

Claims (8)

  1. コンピュータにビデオシーケンス(10)を要約させる方法であって、
    ビデオシーケンス(10)を一連の要素シーン(12)に分解するステップと、
    前記一連の要素シーン(12)における要素シーンのそれぞれに、前記要素シーンのそれぞれが有する特徴に基づいて重要値を割り当てるステップと、
    前記要素シーン(12)をシーンセットとして扱い、前記シーンセットが決められた数より多いときにのみ、2つの隣接するシーンセットの対全てにおいて、前記重要値を合算して重要値和を算出し、前記重要値和が最小である2つの隣接するシーンセットの対を併合して1つシーンセットとして扱い、前記併合を1回以上実行して予め決められた数以下のシーンセットを得るステップと、
    前記シーンセットを得るステップにより得られたシーンセットのうち、1つの要素シーン(12)を含むシーンセットそれぞれにおいて、前記要素シーン(12)に含まれる複数のフレームからキーフレーム(18)を抽出するステップと、
    前記シーンセットを得るステップにより得られたシーンセットのうち、複数の要素シーン(12)を含むシーンセットそれぞれに、新しいキーフレームを構築するステップであって、
    それぞれ複数のフレームを有する要素シーン(12)を複数含むシーンセットから、予め決められた数のキーフレーム(18)を抽出するステップと、
    前記抽出されたキーフレーム(18)の重要値に基づいて、前記抽出されたキーフレーム(18)を、割り当てられた表示エリア(30)に配置してサイズ変更することにより、前記割り当てられた表示エリア(30)に隙間なくパッキングするステップと
    を含むステップと
    を前記コンピュータに実行させる方法。
  2. 前記重要値和を算出することを、繰り返し行うステップと、
    予め決められた数のシーンセットが残るまで、前記併合を繰り返し行うステップと
    をさらに含む
    請求項に記載の方法。
  3. 前記パッキングするステップは、前記割り当てられた表示エリア(30)に配置してサイズ変更するために、
    前記キーフレーム(18)を、前記割り当てられた表示エリア(30)をカバーする格子空間に割り当てるステップと、
    前記割り当てられた前記キーフレーム(18)の前記重要値に基づいて、前記格子空間を所定のサイズに拡張するステップと
    を含む
    請求項1に記載の方法。
  4. 前記格子空間を所定のサイズに拡張するステップは、
    拡張された格子空間を避けるように、拡張されない格子空間を押しやるステップと、
    前記割り当てられた表示エリア(30)外に押しやられた格子空間を破棄するステップと
    を含む
    請求項に記載の方法。
  5. 前記パッキングするステップは、前記キーフレーム(18)の構築のために、
    前記キーフレーム(18)をそれぞれの重要値により順序付けるステップと、
    前記キーフレーム(18)それぞれを、予め定められ、前記キーフレーム(18)の鮮明さを示す複数の可視レベルのうちの1つに量子化するステップと
    を含み、
    前記割り当てられた表示エリア(30)に配置してサイズ変更するために、
    前記抽出されたキーフレーム(18)を、表示エリア(30)をカバーする格子空間に割り当てるステップと、
    前記割り当てられたキーフレーム(18)の前記可視レベルに基づいて、前記格子空間を所定のサイズに順次拡張するステップと
    を含み、
    前記パッキングするステップは、
    拡張された格子空間を避けるように、拡張されない格子空間を移すステップと、
    前記表示エリア(30)外に移された格子空間を破棄するステップと
    をさらに含む
    請求項1に記載の方法。
  6. 9個のキーフレーム(18)が、前記シーンセットから抽出される
    請求項1に記載の方法。
  7. 前記キーフレーム(18)は、それぞれ3つの可視レベルのうちの1つに量子化される
    請求項に記載の方法。
  8. 前記複数の可視レベルは、
    それぞれ関連する表示サイズ
    を有し、
    最大表示サイズは、最小表示サイズの少なくとも2倍である
    請求項に記載の方法。
JP2004504237A 2002-05-07 2003-05-07 スケーラブルなビデオの要約化 Expired - Fee Related JP4351994B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/140,794 US7047494B2 (en) 2002-05-07 2002-05-07 Scalable video summarization
PCT/US2003/014528 WO2003096350A2 (en) 2002-05-07 2003-05-07 Scalable video summarization

Publications (2)

Publication Number Publication Date
JP2005524916A JP2005524916A (ja) 2005-08-18
JP4351994B2 true JP4351994B2 (ja) 2009-10-28

Family

ID=29399507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004504237A Expired - Fee Related JP4351994B2 (ja) 2002-05-07 2003-05-07 スケーラブルなビデオの要約化

Country Status (5)

Country Link
US (1) US7047494B2 (ja)
EP (1) EP1504454A2 (ja)
JP (1) JP4351994B2 (ja)
AU (1) AU2003230362A1 (ja)
WO (1) WO2003096350A2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW550507B (en) * 2001-10-16 2003-09-01 Ulead Systems Inc System and method for establishing interactive video disk playing menu
US20040052505A1 (en) * 2002-05-28 2004-03-18 Yesvideo, Inc. Summarization of a visual recording
US7676142B1 (en) * 2002-06-07 2010-03-09 Corel Inc. Systems and methods for multimedia time stretching
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7546544B1 (en) * 2003-01-06 2009-06-09 Apple Inc. Method and apparatus for creating multimedia presentations
US7694225B1 (en) * 2003-01-06 2010-04-06 Apple Inc. Method and apparatus for producing a packaged presentation
US7840905B1 (en) 2003-01-06 2010-11-23 Apple Inc. Creating a theme used by an authoring application to produce a multimedia presentation
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
US20060284895A1 (en) * 2005-06-15 2006-12-21 Marcu Gabriel G Dynamic gamma correction
US8085318B2 (en) * 2005-10-11 2011-12-27 Apple Inc. Real-time image capture and manipulation based on streaming data
US7663691B2 (en) 2005-10-11 2010-02-16 Apple Inc. Image capture using display device as light source
US8032840B2 (en) 2006-01-10 2011-10-04 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US20080031491A1 (en) * 2006-08-03 2008-02-07 Honeywell International Inc. Anomaly detection in a video system
US20080303949A1 (en) * 2007-06-08 2008-12-11 Apple Inc. Manipulating video streams
US8122378B2 (en) * 2007-06-08 2012-02-21 Apple Inc. Image capture and manipulation
US8224087B2 (en) * 2007-07-16 2012-07-17 Michael Bronstein Method and apparatus for video digest generation
US8494214B2 (en) * 2008-10-30 2013-07-23 Toshiba Global Commerce Solutions Holdings Corporation Dynamically learning attributes of a point of sale operator
US8914826B2 (en) * 2008-12-23 2014-12-16 Verizon Patent And Licensing Inc. Method and system for creating a chapter menu for a video program
JP2011124979A (ja) * 2009-11-13 2011-06-23 Jvc Kenwood Holdings Inc 映像処理装置、映像処理方法、および映像処理プログラム
US8971651B2 (en) 2010-11-08 2015-03-03 Sony Corporation Videolens media engine
US8938393B2 (en) 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
JP6378503B2 (ja) * 2014-03-10 2018-08-22 国立大学法人 筑波大学 要約映像データ作成システム及び方法並びにコンピュータプログラム
CN104185090A (zh) * 2014-08-14 2014-12-03 青岛大学 基于协作无线通信的视频摘要提取与传输方法
US10176683B2 (en) 2014-09-18 2019-01-08 Honeywell International Inc. Virtual panoramic thumbnail to summarize and visualize video content in video surveillance and in connected home business
KR101870761B1 (ko) * 2016-10-18 2018-06-25 한국항공대학교산학협력단 항공통합시뮬레이션을 이용한 드론영상촬영 지원시스템 및 방법
EP3968636A1 (en) 2020-09-11 2022-03-16 Axis AB A method for providing prunable video
CN112291618B (zh) * 2020-10-13 2023-04-07 北京沃东天骏信息技术有限公司 视频预览内容生成方法和装置、计算机装置和存储介质
CN119815139B (zh) * 2025-03-14 2025-06-03 上海岩芯数智人工智能科技有限公司 一种基于网格图的视频描述生成方法、系统及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US5708767A (en) 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US8107015B1 (en) * 1996-06-07 2012-01-31 Virage, Incorporated Key frame selection
JPH09326990A (ja) 1996-06-07 1997-12-16 Matsushita Electric Ind Co Ltd 映像編集装置
JPH10232884A (ja) * 1996-11-29 1998-09-02 Media Rinku Syst:Kk 映像ソフトウェア処理方法及び映像ソフトウェア処理装置
US6340971B1 (en) 1997-02-03 2002-01-22 U.S. Philips Corporation Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
US6360234B2 (en) * 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
JPH11239322A (ja) * 1997-11-24 1999-08-31 Hewlett Packard Co <Hp> ビデオブラウジング/ビューイングシステム
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6320669B1 (en) 1998-04-08 2001-11-20 Eastman Kodak Company Method and apparatus for obtaining consumer video segments for the purpose of creating motion sequence cards
US6252975B1 (en) 1998-12-17 2001-06-26 Xerox Corporation Method and system for real time feature based motion analysis for key frame selection from a video
US6342904B1 (en) 1998-12-17 2002-01-29 Newstakes, Inc. Creating a slide presentation from full motion video
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
JP4227241B2 (ja) * 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US7035435B2 (en) 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method

Also Published As

Publication number Publication date
US7047494B2 (en) 2006-05-16
US20030210261A1 (en) 2003-11-13
WO2003096350A3 (en) 2004-04-01
AU2003230362A1 (en) 2003-11-11
WO2003096350A2 (en) 2003-11-20
JP2005524916A (ja) 2005-08-18
EP1504454A2 (en) 2005-02-09
AU2003230362A8 (en) 2003-11-11

Similar Documents

Publication Publication Date Title
JP4351994B2 (ja) スケーラブルなビデオの要約化
Boreczky et al. An interactive comic book presentation for exploring video
Yeung et al. Video visualization for compact presentation and fast browsing of pictorial content
EP2127368B1 (en) Concurrent presentation of video segments enabling rapid video file comprehension
Smith et al. Video skimming and characterization through the combination of image and language understanding techniques
US6865297B2 (en) Method for automatically classifying images into events in a multimedia authoring application
US8311277B2 (en) Method and system for video indexing and video synopsis
US9628673B2 (en) Near-lossless video summarization
JP5507386B2 (ja) 画像セットからの動画コンテンツの生成
CN1538351B (zh) 为视频序列生成视频缩略图的方法和计算机
US8391355B2 (en) Method and device for online dynamic semantic video compression and video indexing
EP2034487B1 (en) Method and system for generating thumbnails for video files
US20040181545A1 (en) Generating and rendering annotated video files
Yeo et al. Classification, simplification, and dynamic visualization of scene transition graphs for video browsing
WO2004013857A1 (en) Method, system and program product for generating a content-based table of contents
Ma et al. Video snapshot: A bird view of video sequence
KR20000064909A (ko) 복수개의 키이-프레임 병렬 표시에 의한 비디오 물질을 통한 항법 및 항법 장치
WO2009044351A1 (en) Generation of image data summarizing a sequence of video frames
JP4667356B2 (ja) 映像表示装置及びその制御方法、プログラム、記録媒体
WO2003105489A1 (en) Method and device for online dynamic semantic video compression and video indexing
Lux et al. A novel tool for quick video summarization using keyframe extraction techniques
KR20010037151A (ko) 대표이미지를 이용한 요약비디오 생성 시스템 및 그 방법
Widiarto et al. Shot segmentation of video animation to generate comic strip based on key frame selection
WO2006092752A2 (en) Creating a summarized overview of a video sequence
Macer et al. Transparent Access to Video Over the Web: a review of current approaches

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080828

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090721

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090727

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees