JP4351994B2

JP4351994B2 - スケーラブルなビデオの要約化

Info

Publication number: JP4351994B2
Application number: JP2004504237A
Authority: JP
Inventors: ペン・ウー; イーン・リ; ダニエル・アール・トレッター
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-05-07
Filing date: 2003-05-07
Publication date: 2009-10-28
Anticipated expiration: 2023-05-07
Also published as: US7047494B2; WO2003096350A2; US20030210261A1; AU2003230362A1; JP2005524916A; AU2003230362A8; EP1504454A2; WO2003096350A3

Description

［発明の分野］
本発明は、包括的にはビデオ材料の要約化に関し、詳細にはビデオ要約化プロセスの自動化およびカスタマイズに関する。

［発明の背景］
デジタルビデオは、コンピュータ業界および電気通信業界で急成長している要素である。
多くの企業、大学、さらには家庭がすでに、アナログフォーマットのビデオおよびデジタルフォーマットのビデオの両方を大量に収納している。
例としては、放送ニュースに使用されるビデオ、訓練・教育ビデオ、セキュリティ監視ビデオ、およびホームビデオが挙げられる。
デジタルビデオの急速な発達により、多くの人々がマルチメディアを取り込みマルチメディアと対話する方法が変化しつつあり、その過程の中で多くの新しいニーズおよび用途がもたらされた。

このような一用途はビデオ要約である。
ビデオ要約は、名称が示すようにより長いビデオシーケンスの内容を短くまとめたものであり、オリジナルの本質的なメッセージを良い状態で保持しながら、ビデオシーケンスの内容についての簡潔な情報をユーザに提供する。
理論上、ビデオ要約は手動で、または自動的に生成することができる。
しかし、大量のビデオデータがすでに存在し、作成される新しいビデオデータの量が今後も増え続けることから、ビデオ要約を手動で生成することはますます困難になっている。
したがって、ビデオ要約プロセスにおいて人間の介入を減らすように、完全に自動化されたビデオ解析・処理ツールを開発することがますます重要になりつつある。

２つの基本的に異なる種類のビデオ要約、すなわち静止画像要約および動画像要約がある。
静止画像要約は、ビデオサマリとも呼ばれ、基礎となるビデオソースから抽出または生成された目立った画像（キーフレームとして知られる）の小さな集まりである。
動画像要約は、ビデオスキミングとも呼ばれ、画像シーケンスの集まり、ならびにオリジナルシーケンスから抽出された対応するオーディオ要約からなり、したがってそれ自体、長さのかなり短いビデオクリップである。
一般にビデオサマリは、視覚的情報のみが利用され、オーディオ情報またはテキスト情報を処理する必要がないため、スキミングよりもはるかに素早く構築することができる。
したがってビデオサマリは、タイミングすなわち同期の問題がないことからより容易に表示することができる。
さらに、抽出されたすべての代表フレームの時間順を空間順で表示することができ、したがって、ユーザはビデオの内容をより素早く把握することができる。
最後に、必要なときに、ビデオサマリ中の抽出静止画像をすべて非常に容易にプリントアウトすることができる。

ビデオ要約化は、いずれの記憶媒体（テープ、ディスク等）中のビデオシーケンスにも適用して使用することが可能であるが、対象となる一般的な一記憶媒体はＤＶＤビデオディスクである。
ＤＶＤビデオは、人々がマルチメディア情報を利用する方法を劇的に変えつつある。
ＤＶＤビデオディスクの大きな記憶容量は、静止画像、テキスト、ビデオ、およびオーディオに対して理想的な記憶場所を提供する。
ＤＶＤビデオフォーマットによりサポートされるナビゲーション機能により、媒体の内容に対話的にアクセスすることができる。
ＤＶＤディスクに記憶することができる様々な媒体タイプに適応するために、ＤＶＤビデオフォーマット仕様に従って媒体を編成（organize）し、このように編成された媒体の内容をＤＶＤディスクにエキスポートする技術に対するニーズが増している。
この技術は一般に「ＤＶＤオーサリング」と呼ばれ、ＤＶＤオーサリングの本質的な一タスクは、ビデオソースからＤＶＤビデオタイトルおよびナビゲーション構造を作成することである。

ＤＶＤビデオタイトル構造は主に、対話型閲覧用にビデオの内容を編成するために使用される２つのエンティティ、すなわちタイトルおよびチャプタからなる。
ＤＶＤディスクのフォーマットにより、ＤＶＤディスクは最大で９９個のタイトルを収容することが可能であり、１タイトルは最大で９９個のチャプタを収容することが可能である。
したがってタイトルおよびチャプタは、全体のビデオシーケンスを意味のある部分に分け、各タイトルおよび／またはチャプタが１つの特定のビデオ部分の入口点である。

ＤＶＤオーサリングでは、ビデオシーケンスからタイトルおよびチャプタの構造を自動的に作成できることが非常に重要である。
たとえば、Hewlett PackardのＭｙＤＶＤアプリケーションでは、ユーザがビデオからＤＶＤを自動的に作成することを選択すると、シーン検出アルゴリズムに基づいてシーンが検出されたときに新しいチャプタが作成される。
次に、検出された各シーンからキーフレームが抽出される。
キーフレームは、基礎となるシーンを表し、ＤＶＤナビゲーションボタンにリンクされ、したがってユーザは、キーフレームを閲覧してビデオシーケンスの内容を素早く把握し、関連するボタンをクリックして対応するシーンを見ることができる。
米国特許第５９９５０９５号欧州特許出願公開第１０４５３１６号国際公開第０３／０９６２２９号 Uchihashi S 他,「Summarizing Video Using a Shot Importance Measure and a Frame-Packing Algorithm」, ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 1999年会報, 1999 IEEE INTERNATIONAL CONFERENCE ON PHOENIX, AZ USA, 1999年3月15-19日, Piscatway NJ USA, IEEE, US, 1999年3月15日, p3041-3044 M. M. YeungおよびB. L. Yeo,「Video Visualization For Compact Presentation and Fast Browsing of Pictorial Content」, 1997年10月, IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 5

時には、検出されたシーンの数が好ましい、または許可されているチャプタの数を上回る場合がある。
したがって、検出されたシーンを知的に併合する方法が必要である。
さらに、併合されたいくつかのオリジナルシーンがチャプタに含まれる場合、有意かつ有益なキーフレームを構築して基礎となる併合されたビデオの内容を表す方法が必要である。

［発明の概要］
ビデオシーケンスにおいて検出されたシーンを知的に併合し、キーフレームを構築して基礎となる併合されたビデオの内容を表す方法およびシステムを本明細書に記載する。
本発明による一実施形態では、ビデオシーケンスが一連の構成要素シーンに分解され、次に、構成要素シーン対が、所定数のシーンセットが残るまで併合される。
単一の構成要素シーンを含む各シーンセットからキーフレームが抽出され、複数の構成要素シーンを含む各シーンセットに新しいキーフレームが構築される。

［好ましい実施形態の説明］
以下の好ましい実施形態の詳細な説明では、本明細書の一部を成し、本発明を実施し得る特定の実施形態を例として示す添付図面を参照する。
他の実施形態も利用することができ、構造的または論理的な変更を本発明の範囲から逸脱することなく行い得ることを理解されたい。
したがって以下の詳細な説明は限定の意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって規定される。

本明細書における本発明の説明では、ビデオシーケンスからＤＶＤタイトル・チャプタ構造（本明細書ではビデオサマリと呼ぶこともある）をどのように自動的に作成するかという問題に対処する。
本明細書での説明は、各ビデオシーケンスが１つのタイトルの下にあると想定すると共に、そのタイトルの下にあるシーンを表すチャプタをどのように作成するかに焦点をあてる。
同様の手法を用いて、ビデオシーケンス中のシーンを表す複数のタイトルを作成することができ、この場合、チャプタを使用して各シーンをさらに細分することができることを意図する。
さらに、本明細書に記載の本発明はＤＶＤオーサリングとの併用に限定されないことが理解される。
むしろ本発明は、検出されたシーンの数が好ましい数または許可されている数を上回り、シーンの併合が望ましい、または必要ないずれのビデオ要約にも採用することが可能である。

通常、図１に見られるように、ビデオシーケンス１０は一連のシーン１２、ショット１４、およびフレーム１６に基づいた階層ツリーとして表すことができる。
本明細書で使用される場合、ショット１４は連続した撮影期間中に取り込まれたビデオセグメントとして定義され、シーン１２は意味的に関連するショット１４のセットからなる。
ショット１４は一連の個々のフレーム１６からなる。
ショットおよびシーンを検出する様々なアルゴリズムが存在し、そのうちのいずれもビデオシーケンスをシーン、ショット、およびフレーム構造に分解するにあたって使用するのに適している場合がある。
解析されるビデオシーケンス１０のタイプに応じて、或るアルゴリズムが別のアルゴリズムよりも好ましい場合がある。

ＤＶＤディスクの文脈の中では、シーン１２は意味的な基本単位とみなされ、ＤＶＤディスクのチャプタにマッピングされる。
１つまたは複数のキーフレーム１８が、様々な特徴に基づいた基礎となるビデオの内容の複雑性に依存する均一サンプリング（uniform sampling、均等サンプリング）または適応的方式によって各シーン１２から抽出される。
したがって、ビデオシーケンス１０は、図２に示すように各シーン１２（またはチャプタ）を１つのキーフレーム１８を使用して表すことによって要約される。
シーン１２（ひいては抽出されるキーフレーム１８）の数が予め設定された（presentをpresetとして訳）限度を超える場合は、シーン１２の数が予め設定された限度内になるまでいくつかのシーン１２を併合しなければならない。

異なるシーン１２は閲覧者に対して異なる視覚的インパクトを有する場合があるため、各シーン１２に重要値が割り当てられる。
シーン、ショット、およびフレームの重要値を計算する様々な方法およびアルゴリズムが知られている。
たとえば、本明細書と同じ日に出願され、同一の譲受人に譲渡された「Scalable Video Summarization and Navigation System and Method」という名称の同時係属中の米国特許出願第１０／１４０５１１号［ＨＰファイル番号１００１９９７５−１］が参照により援用され、シーン、ショット、およびフレームの重要値を計算するアルゴリズムを記載している。
重要値の計算には、シーンおよびショットの長さ、シーンおよびショットのアクティビティレベル、シーンに含まれる構成要素ショットの数、検出されたカメラの動き、フレーム中の皮膚色のピクセルの割合、フレーム中の検出された人の顔の数、フレーム中のエッジエネルギーの分布、およびフレームに含まれる動きアクティビティ量等の要因を考慮することができる。

本明細書において本発明を説明するために、本説明全体を通して以下に定義するシーン構造を使用する。
m_startFrameはシーンの開始フレームであり、
m_endFrameはシーンの終了フレームであり、
m_containedFrames[]はシーンに含まれるフレームのアレイであり、
m_keyframeはシーンから抽出された代表フレームであり、
m_importはシーンの重要値である。

上に定義したように、値m_importはシーンの重要度である。
アルゴリズムの説明を容易にするために、キーフレームも同様にこの重要値を有するものと想定することができる。
しかし、ビデオシーケンスのフレームは、シーン１２中のすべてのフレーム１６からのキーフレーム１８の選択に使用される、計算されたそれぞれの重要値を有することができることが認識されよう。

［対ごとの繰り返しシーン併合］
図３は、本発明による対ごとの繰り返しシーン併合方法を示す。
構成要素シーンに分解されたビデオシーケンス１０を考えると、Ｎ個のシーンが検出され、Ｓ［ｌ］，ｌ＝１，・・・，Ｎと表され、各シーンＳ［ｌ］は上に定義したシーン構造を有するものと想定する。
さらに、好ましいシーン（またはチャプタ）の数はＭであり、Ｍ＜Ｎであると想定する。
次いで、以下の対ごとの繰り返しシーン併合方式を使用してＭ個のチャプタを作成することができる。

本明細書に述べる対ごとの繰り返しシーン併合はシーンの重要値に基づく。
Ｎ個のシーンが、結果得られるシーン１２の数が好ましい数であるＭ個のチャプタに見合うまで繰り返し併合される。
各最終シーンは、１つまたは複数のオリジナルシーンを含み得るため、本明細書ではシーンセットと呼ぶ。

各繰り返し中に、２つの隣接するシーン１２が選択されて併合される。
したがって各繰り返し後、シーンの数は１だけ低減することになる。
併合するシーン１２を選択する基準はそれぞれの重要値に基づく。
具体的には、重要値の和が最小になる隣接シーン１２対が併合されることになる。

たとえば、第１の繰り返しでは、隣接するすべてのシーン対は｛（Ｓ［１］，Ｓ［２］），（Ｓ［２］，Ｓ［３］），・・・，（Ｓ［Ｎ−１］，Ｓ［Ｎ］｝であり、総計でＮ−１個の対になる。
各対の重要値は、
I_pair[i]=S[i].m_import+S[i+1].m_import
として計算される。
但し、ｉ＝１，・・・，Ｎ−１である。
Ｉ＿ｐａｉｒ［ｉ］を最小にする２つの隣接するシーン１２が併合され、次の繰り返しでは、重要度が、和であるI_pair[i]である単一のシーンとしてみなされる。
隣接するシーンの繰り返し併合は、シーンをＮ−Ｍ回繰り返し併合した後、Ｍ個の最終シーンセットが残るまで続けられる。
１つのみのシーンを含むシーンセットごとに、シーンはチャプタに直接マッピングされる。
しかし、複数のシーンを含むシーンセットの場合は、シーンセットからチャプタを作成する方法が必要である。

キーフレームのサイズ変更およびパッキング
図４は、シーンセットＳ'が複数の構成要素シーン１２を含む場合に使用される本発明によるキーフレームのサイズ変更およびパッキング方法を示す。
Ｓ［ｌ］〜Ｓ［ｌ＋ｍ−１］のｍ個のシーンを含むシーンセットＳ'を考えると、以下の公式を使用してシーン構造に記憶される情報を更新する。

但し、

は連結S'.m_import=S[l].m_import+…+S[l+m-1].m_importを表す。

最終操作は、シーンセットＳ'に含まれるすべてのシーンを表すことが望ましいキーフレーム１８の更新である。
一方策は、シーンセット中で最も重要なシーンのキーフレーム１８を抽出するというものである。
しかしこの方策は、シーンセットＳ'中の他の構成要素シーン１２からの情報が失われることになる。
より良い方策は、シーンセット中のすべての構成要素シーンからできるだけ多くの情報を包含するというものであろう。
この目的を達成するために、キーフレームのサイズ変更およびパッキング方式を用いてシーンセットＳ'に新しいキーフレーム１８を構築する。

ここに述べるキーフレームのサイズ変更およびパッキング方法は、それぞれの重要値に基づいてシーンＳ［ｌ］、Ｓ［ｌ＋１］，・・・，Ｓ［ｌ＋ｍ−１］のすべてのキーフレーム１８をサイズ変更し、予め割り当てられた表示エリアにパッキングする。
重要値の大きなキーフレーム１８ほど、重要値の低いキーフレームよりも基礎となるビデオの内容を良好に表しているものと想定される。
したがって、高い重要値を有するキーフレーム１８ほど大きな表示サイズが割り当てられ、閲覧者はビデオシーケンスをより良く理解することができる。

複数のフレームをサイズ変更してパッキングする方策が研究されてきた。
しかし、既存の方法はＤＶＤチャプタの作成には不適切である。
特に、一手法は抽出されたすべてのキーフレームをサイズ変更して表示エリアにパッキングする自動サイズ変更およびパッキングアルゴリズムである（S. Uchihashi およびJ. Foote著「Summarizing Video Using a Shot Importance Measure and a Frame-Packing Algorithm」ICASSP'99, vol. 6, 1999参照のこと）。
この方法は、構成要素キーフレームのサイズをもはや明確に認識することができない程度まで縮小する場合がある。
一方、比較的重要度の低いキーフレームの場合、より重要なキーフレームを認識できないほど小さくするということまでしてこういったフレームのために空間を設けることに価値はない。
別の手法では、いくつかのテンプレートが提供されて、抽出されたキーフレームをそれぞれの重要値に基づいて予め割り当てられた表示エリアにパッキングする（M. M. YeungおよびB. L. Yeo著「Video Visualization For Compact Presentation and Fast Browsing of Pictorial Content」IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 5, Oct. 1997を参照のこと）。
しかし、この手法におけるテンプレートレイアウトはすべて固定され、基礎となるシーンの構造に適合するように調整することができない。

本発明によれば、最も重要なキーフレーム１８の可視性を確実にしながらシーンセットＳ'のキーフレーム１８を適応的にパッキングすることができるキーフレームのサイズ変更およびパッキング方法について説明する。

キーフレームのサイズ変更およびパッキング方法は以下の２つの前提に基づく。
第１の前提は、シーンセットＳ'中の構成要素キーフレームをすべて最終的に構築されるキーフレームに含める必要はないことである。
本明細書での説明では、９枚の最も重要な構成要素キーフレームに対応する最大で９枚のキーフレームが構築される、と想定される。
もちろん、本明細書に記載の方法を用いて他の任意の数の構成要素キーフレームを構築することができ、想定される９枚の構成要素キーフレームは例示のみを目的として使用され、本発明に対する限定と解釈されるべきではない。

第２の前提は、選択された構成要素キーフレームがそれぞれの重要値に基づいて３つの可視性レベルのうちの１つに量子化され、各可視性レベルには予め定められた表示サイズが割り当てられることである。
第１のレベルにおけるあらゆる構成要素キーフレームの表示サイズは「非常によく見える」である一方で、第２のレベルの構成要素キーフレームの表示サイズは「見える」であり、第３のレベルの場合は「ようやく見える」である。
所望であればより多数または少数のレベルを使用してもよく、３レベルを使用することは単なる例示である。
「非常によく見える」、「見える」、および「ようやく見える」の表示エリア同士のサイズの区別は経験的に求めることができる。
たとえば、本明細書では、「見える」表示サイズには「非常によく見える」表示サイズの７５％が割り当てられ、「ようやく見える」エリアには「非常によく見える」表示サイズの５０％が割り当てられる。
予め定められた表示エリアのサイズは予期される表示装置に依存する。
たとえば、ラップトップコンピュータでは、「非常によく見える」表示エリアはおよそ１平方インチ（６．４５平方ｃｍ）であるが、大画面テレビセットの場合、「非常によく見える」表示エリアはおよそ３平方インチ（１９．３５平方ｃｍ）以上であることができる。

以下の３つのステップがサイズ変更およびパッキングプロセスに採用される。
第１に、選択された構成要素キーフレーム（この例では９枚の構成要素キーフレーム）が降順でそれぞれの重要値によりソートされ、ｓ１，ｓ２，・・・，ｓ９として表される。
第２に、構築されたキーフレームの表示エリア３０が３×３の格子に分割され、９枚の構成要素キーフレームが図５に示す順序に従って格子空間に割り当てられる。
返されるキーフレームが９枚よりも少ない場合、空いた格子空間は空のまま残される。
第３に、構成要素キーフレームが、それぞれの重要度順でそれぞれの予期される表示サイズ（すなわち、「非常によく見える」、「見える」、または「ようやく見える」）に拡張される。
特に、各構成要素キーフレームの量子化レベル「非常によく見える」、「見える」、または「ようやく見える」に基づいて、格子空間のエリアが予め割り当てられたサイズに拡張される。
拡張された格子空間が隣接する格子空間の１つに重複する場合、重複した格子空間は脇に「押しやられ」、拡張された格子空間を避ける。
格子空間が構築されたキーフレームの表示エリア３０外に最終的に押しやられる場合、その格子空間および格子空間が含む構成要素キーフレームは単に破棄される。
図３に示す番号を有する格子空間は結果として、最高重要度の構成要素キーフレーム１８が構築されたキーフレーム１８に残される一方で、最低重要度の構成要素キーフレーム１８がまず構築されたキーフレーム１８の表示エリア３０から押し出されることになる。
さらに、拡張プロセス後に表示エリア３０にいくつかのエリアが空白のままである場合、構成要素キーフレーム１８のサイズがそれぞれの重要値に基づいて調整されて、表示エリア３０全体を充填する。
この方式を使用すると、シーンセットＳ'中の最も重要な構成要素キーフレーム１８が、構築されたキーフレーム１８の表示エリア３０により高い可視性でもって常に保持されることになる。

したがって、本明細書に記載の本発明は、ビデオシーケンスのダイナミクスを考慮すると共に、基礎となる内容を良好に表す有意なＤＶＤエンティティ（タイトルおよびチャプタ）を有するビデオサマリを自動的かつ知的に作成する。
本発明は所望数のチャプタを提供し、各チャプタに有意な代表キーフレームを構築する。

図６に概略的に示すように、本明細書に記載のシステムは、選択されたプラットフォームが十分な計算力を有するプロセッサ１０２、ビデオシーケンス１０、アルゴリズム、およびビデオサマリを記憶するデータ記憶システム１０４、ならびにユーザがビデオサマリを見ることができる表示装置１０８を有する限り、家庭用コンピュータ１００等の様々なコンピューティングプラットフォームで実施することができる。
データ記憶システム１０４はＤＶＤディスク、ハードディスクドライブ、もしくは他の永久記憶装置、または選択されたプラットフォームのランダムアクセスメモリであることができる。
表示装置１０８はたとえば、ビデオモニタやプリンタによって生成されたハードコピーであることができる。

特定の実施形態を好ましい実施形態の説明を目的として本明細書に図示し説明したが、本発明の範囲から逸脱することなく、図示し説明した特定の実施形態に代えて広範な代替および／または等価の実施態様を用い得ることが当業者により理解されよう。
コンピュータ分野および電気分野の当業者は、本発明を非常に広い範囲の実施形態で実施し得ることを容易に理解するであろう。
本願は、本明細書において説明した好ましい実施形態の適合形態および変形形態をいずれも包含することを意図する。
したがって、本発明は請求項および請求項の等価物によってのみ限定されることを明らかに意図する。

ビデオ階層構造の概略図である。ＤＶＤタイトル・チャプタ構造の概略図である。本発明による対ごとに繰り返し行われるシーン併合を示すフローチャートである。本発明によるキーフレームのサイズ変更およびパッキングを示すフローチャートである。本発明による新しいキーフレームの構築に使用可能な１つの格子である。本発明によるビデオサマリの作成に使用可能なコンピュータシステムの概略図である。

符号の説明

１０・・・ビデオシーケンス，
１２・・・シーン１，
１４・・・ショット１，
１６・・・フレーム１，
１８・・・キーフレーム１，
１０・・・ビデオシーケンス，
１０２・・・データプロセッサ，
１０４・・・データ記憶装置，
１０８・・・表示装置

Claims

コンピュータにビデオシーケンス（１０）を要約させる方法であって、
ビデオシーケンス（１０）を一連の要素シーン（１２）に分解するステップと、
前記一連の要素シーン（１２）における要素シーンのそれぞれに、前記要素シーンのそれぞれが有する特徴に基づいて重要値を割り当てるステップと、
前記要素シーン（１２）をシーンセットとして扱い、前記シーンセットが決められた数より多いときにのみ、２つの隣接するシーンセットの対全てにおいて、前記重要値を合算して重要値和を算出し、前記重要値和が最小である２つの隣接するシーンセットの対を併合して１つシーンセットとして扱い、前記併合を１回以上実行して予め決められた数以下のシーンセットを得るステップと、
前記シーンセットを得るステップにより得られたシーンセットのうち、１つの要素シーン（１２）を含むシーンセットそれぞれにおいて、前記要素シーン（１２）に含まれる複数のフレームからキーフレーム（１８）を抽出するステップと、
前記シーンセットを得るステップにより得られたシーンセットのうち、複数の要素シーン（１２）を含むシーンセットそれぞれに、新しいキーフレームを構築するステップであって、
それぞれ複数のフレームを有する要素シーン（１２）を複数含むシーンセットから、予め決められた数のキーフレーム（１８）を抽出するステップと、
前記抽出されたキーフレーム（１８）の重要値に基づいて、前記抽出されたキーフレーム（１８）を、割り当てられた表示エリア（３０）に配置してサイズ変更することにより、前記割り当てられた表示エリア（３０）に隙間なくパッキングするステップと
を含むステップと
を前記コンピュータに実行させる方法。
前記重要値和を算出することを、繰り返し行うステップと、
予め決められた数のシーンセットが残るまで、前記併合を繰り返し行うステップと
をさらに含む
請求項１に記載の方法。
前記パッキングするステップは、前記割り当てられた表示エリア（３０）に配置してサイズ変更するために、
前記キーフレーム（１８）を、前記割り当てられた表示エリア（３０）をカバーする格子空間に割り当てるステップと、
前記割り当てられた前記キーフレーム（１８）の前記重要値に基づいて、前記格子空間を所定のサイズに拡張するステップと
を含む
請求項１に記載の方法。
前記格子空間を所定のサイズに拡張するステップは、
拡張された格子空間を避けるように、拡張されない格子空間を押しやるステップと、
前記割り当てられた表示エリア（３０）外に押しやられた格子空間を破棄するステップと
を含む
請求項３に記載の方法。
前記パッキングするステップは、前記キーフレーム（１８）の構築のために、
前記キーフレーム（１８）をそれぞれの重要値により順序付けるステップと、
前記キーフレーム（１８）それぞれを、予め定められ、前記キーフレーム（１８）の鮮明さを示す複数の可視レベルのうちの１つに量子化するステップと
を含み、
前記割り当てられた表示エリア（３０）に配置してサイズ変更するために、
前記抽出されたキーフレーム（１８）を、表示エリア（３０）をカバーする格子空間に割り当てるステップと、
前記割り当てられたキーフレーム（１８）の前記可視レベルに基づいて、前記格子空間を所定のサイズに順次拡張するステップと
を含み、
前記パッキングするステップは、
拡張された格子空間を避けるように、拡張されない格子空間を移すステップと、
前記表示エリア（３０）外に移された格子空間を破棄するステップと
をさらに含む
請求項１に記載の方法。
９個のキーフレーム（１８）が、前記シーンセットから抽出される
請求項１に記載の方法。
前記キーフレーム（１８）は、それぞれ３つの可視レベルのうちの１つに量子化される
請求項５に記載の方法。
前記複数の可視レベルは、
それぞれ関連する表示サイズ
を有し、
最大表示サイズは、最小表示サイズの少なくとも２倍である
請求項５に記載の方法。