JP2016111694A

JP2016111694A - フレームのシーケンスをビデオ符号化するための方法及びエンコーダ

Info

Publication number: JP2016111694A
Application number: JP2015221910A
Authority: JP
Inventors: チエンタンチェン，; Jiandan Chen; マルクススキャンス，; Skans Markus; ウィリーベシャート，; Betschart Willie; ミーケルペンゼ，; Pendse Mikael; アレクサンドルマルティンス，; Martins Alexandre
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2014-12-03
Filing date: 2015-11-12
Publication date: 2016-06-20
Anticipated expiration: 2035-11-12
Also published as: JP6119045B2; EP3029937B1; US20160165257A1; TW201631973A; CN105681795A; TWI613910B; CN105681795B; US9936217B2; EP3029937A1; KR101715833B1; KR20160067032A

Abstract

【課題】フレームのシーケンスをビデオ符号化するための方法及びエンコーダを提供する。【解決手段】方法は、移動する対象物を描写するフレームのシーケンスを受信することＳ０２と、第１時点と第２時点との間の複数のフレームのシーケンスにおける、移動する対象物の移動を予測することＳ０４と、移動する対象物の予測された移動に基づいて、第１時点と第２時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーする、複数のフレーム内の関心領域を画定することＳ０６と、関心領域のどの部分にどの符号化品質を使用するかを規定する共通の符号化品質パターンを使用して、関心領域において第１時点に対応する第１フレームを符号化し、関心領域の少なくとも１つのサブセットにおいて第１と第２の時点の中間にある時点に対応する一又は複数の中間フレームを符号化することＳ０８とを含む。【選択図】図３

Description

本発明はビデオ符号化の分野に関する。具体的には、本発明は、フレームのシーケンスを符号化するための方法及びエンコーダに関する。

Ｈ．２６４、又はより一般的にはＨ．２６ｘ標準に基づくビデオ符号化のような、既知のビデオ符号化方法は、ビデオフレームの領域における局所的な圧縮レベルの修正を可能にする。例えば、対象物を表現する関心領域（ＲＯＩ）のための圧縮レベルを調整することによって、画像品質が向上しうる。これは、移動している対象物が存在するビデオシーケンスにも適用されうる。

これが、例えば、移動する対象物を伴うビデオシーケンスについて、フレームごとに１つのＲＯＩが画定されうることを教示している、米国特許第８１５０１７３号のテーマである。代替的には、ＲＯＩの開始位置及びサイズが特定されてよく、特定されたＲＯＩは次いで、ビデオシーケンスにおける対象物の動きを追跡しうる。

関心対象物に対する、及びその周囲の圧縮アーチファクトを低減するために、ＲＯＩは通常、関心対象物だけでなく背景の一部も含む。背景のこの部分は、対象物が移動している時に、フレーム毎に変動する。その結果として、背景の特定の部分を符号化するために使用される圧縮レベルは、対象物が通り過ぎる時に変動し、対象物が揺れ動くように移動している場合には複数回にわたり変動することもある。これにより、背景の特定の部分が複数回にわたり異なる圧縮レベルで再符号化されなくてはならないことから、ビデオシーケンスを符号化するために必要なビットレートが著しく増大することになる。ゆえに、改善の必要性がある。

従って、上記を鑑みて、上述の問題を克服するか、又は、少なくとも軽減することが、本発明の一目的である。具体的には、対象物が通り過ぎる際に背景を何度も再符号化する必要性を低減する、符号化方法及びエンコーダを提供することが、一目的である。

本発明の第１態様により、フレームのシーケンスをビデオ符号化するための方法によって上記の目的が達成され、方法は、
移動する対象物を描写するフレームのシーケンスを受信することを含み、シーケンスは、第１時点に対応する第１フレーム、その後の第２時点に対応する第２フレーム、及び、第１と第２の時点の中間にある一又は複数の時点に対応する一又は複数の中間フレームを備え、
第１時点と第２時点との間の複数のフレームのシーケンスにおける、移動する対象物の移動を予測することと、
移動する対象物の予測された移動に基づいて、第１時点と第２時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーする、複数のフレーム内の関心領域を画定することと、
関心領域のどの部分にどの符号化品質を使用するかを規定する共通の符号化品質パターンを使用して、関心領域において第１フレームを符号化し、関心領域の少なくとも１つのサブセットにおいて一又は複数の中間フレームを符号化することとを含み、特定の中間フレームについて、関心領域のサブセットが、特定の中間画像フレームに対応する時点と第２時点との間の対象物の予測された移動中ずっと、対象物をカバーする。

上記の方法を用いると、対象物の移動は、第１フレームと一又は複数の中間フレームの各々を符号化する時に使用される単一のＲＯＩを画定するために、予測され、使用される。ゆえに、従来技術とは対照的に、ＲＯＩがフレーム間で変動することはない。

ＲＯＩは、第１時点と第２時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーするように画定される。換言すると、画定されたＲＯＩは、第１フレーム及び一又は複数の中間フレーム内で、対象物をカバーすることが予期される。ゆえに、移動する対象物、及び移動する対象物に近在する背景画素は、第１フレーム及び一又は複数の中間フレーム内のＲＯＩの中に見出されることが予期される。

第１フレーム及び一又は複数の中間フレームを符号化する時に、ＲＯＩに関して、又は、少なくともＲＯＩのサブセットに関して、共通の（つまり同一の）符号化品質パターンが使用される。これは、ＲＯＩの中に含まれる背景の特定部分については、常に同一の符号化品質が使用されるか、又は、対象物が通り過ぎる際に最大でも１回しか変更されず、それによって、再符号化の必要性が減少することを意味する。

例えば、第１フレームのＲＯＩ全体、並びに一又は複数の各中間フレームのＲＯＩ全体に関して共通の符号化品質パターンが使用される場合、ＲＯＩの背景部分の再符号化は必要なくなる。他の例によれば、一又は複数の中間フレームを符号化する時に、共通の符号化品質パターンがＲＯＩのサブセットに適用される。特定の中間フレームについては、サブセットはかかる状況において、第２時点までの対象物の予測された移動の残りの間、対象物をカバーしうる。すなわち、サブセットは、特定の中間フレーム、及び第２時点までの後続の各中間フレーム内で、対象物をカバーすることが予期される。かかる場合には、背景の特定部分は、対象物が通り過ぎる際に、最大でも１回しか再符号化される必要はない。

本書で使用する場合、フレームのシーケンスとは画像フレームのシーケンスを表す。フレームのシーケンスは、典型的には、例えばそれらがカメラによって捕捉される際に、連続的に受信されることに留意されたい。

本書で使用する場合、移動する対象物の移動の予測とは、一般的に、それまでに受信された複数のフレームに基づく移動の予測を表す。典型的には、これは、第１時点に先行する時点に対応する複数のフレームを含む。それは、第１フレームも含みうる。しかし、予測が実施される時において、一又は複数の中間フレームは、典型的には、まだ受信されていない。一又は複数の中間フレームの受信前に移動の予測を開始することによって、符号化プロセスにおける待ち時間が減少しうる。

本書で使用する場合、「第１時点と第２時点との間」という文言によって画定される時間間隔は、第１時点と、一又は複数の中間フレームに対応する時点とを含む。しかしそれは、必ずしも第２時点を含むわけではない。従って、この定義を用いると、第１時点と第２時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーする、画定されたＲＯＩは、第１フレーム及び一又は複数の各中間フレーム内で対象物をカバーすることが予期されるが、第２フレーム内ではその限りではない。

同様に、特定の中間画像フレームに対応する時点と第２時点との間の対象物の予測された移動中ずっと対象物をカバーする、関心領域のサブセットは、特定のフレーム及び後続の各中間フレーム内で対象物をカバーすることが予期されるが、第２フレーム内ではその限りではない、サブセットである。

関心領域は、一般的に、いくつかの画素であって、例えばそれらが対象物を表現していることから特に重要なものであると判断される、いくつかの画素を意味する。符号化応用において、フレームは、例えば１６×１６ピクセルの固定サイズを有する複数のマクロブロックに分割されうる。関心領域は、かかるマクロブロックであって、例えばそれらが対象物を表現していることから特に重要なものであると認められる、マクロブロックの組で構成されうる。

本書で使用する場合、符号化品質パターン（ｅｎｃｏｄｉｎｇｑｕａｌｉｔｙｐａｔｔｅｒｎ）とは、典型的には、符号化品質の空間パターン又は機能（ｓｐａｔｉａｌｐａｔｔｅｒｎｏｒｆｕｎｃｔｉｏｎ）を表す。具体的には、符号化品質パターンは、関心領域のどの部分にどの符号化品質を使用するかを規定する。

いくつかの実施形態では、符号化品質は、ＲＯＩ全体を通じて一定であるように設定される。換言すると、符号化品質パターンは、関心領域全体に使用される単一の符号化品質を規定しうる。符号化品質の変動が少ないことには、より多くのコーディングブロックをその他から予測することを可能にし、それによって、コーディング効率を向上させるという利点がある。

他の実施形態では、符号化品質パターンは、関心領域の別々の部分に使用される異なる符号化品質を規定しうる。これは、適応性の増大を可能にする。例えば、符号化品質は、フレームの一般的に画像品質が低いことが予期される部分、例えばフレームの周縁部に対応するＲＯＩの部分では、低くなるように設定されうる。

符号化品質は、一般的に、圧縮のレベルに対応しうる。圧縮のレベルが低いことにより、典型的には、高符号化品質が付与され、逆もまた同様である。Ｈ．２６４コーデックのようないくつかのコーデックでは、圧縮レベルは、量子化パラメータ（ＱＰ値）の観点から付与される。符号化品質は、従って、量子化パラメータにも対応しうる。

以下の項で更に記述するように、Ｈ−２６４標準のようないくつかのビデオ圧縮標準は、Ｉフレームなどのイントラフレーム、及び、Ｐフレーム又はＢフレームなどのインターフレームに関して実装される、経時的なビデオ圧縮を定めている。イントラフレームは、基本的に、符号化される１つの画像フレーム内の情報のみを使用して符号化される、１つの画像フレームである。更に、イントラフレームは、符号化される１つの画像フレームのために捕捉された全ての画像データから計算される。予測フレーム、又は差分フレームとも称されるインターフレームは、以前に符号化された画像フレームからの情報、並びに、現在符号化されるフレームの情報に基づく。すなわち、インターフレームは、以前の画像フレーム内の時間的冗長情報をうまく活用していると説明されうる。

実施形態によれば、第１フレームはイントラフレームとして符号化されうる。更に、一又は複数の中間フレームはインターフレームとして符号化されうる。典型的には、背景画素がフレーム間で著しく変化することはない。従って、中間フレームをインターフレームとして符号化することにより、背景画素は、典型的には、各フレームについて再符号化される必要はなく、具体的には、特定の背景画素について符号化品質パターンが経時的に一定であり続ける限り、その必要はない。

いくつかの実施形態では、一又は複数の中間フレームのうちの少なくともいくつかは、共通の符号化品質パターンを使用して、（関心領域のサブセットだけではなく）関心領域全体において符号化される。これは、一又は複数の中間フレームの各々が、共通の符号化品質パターンを使用して、関心領域全体において符号化される場合を含む。このことには、関心領域の中に含まれる背景の再符号化が完全に回避されうるという利点がある。

一般的に、ＲＯＩの内側の符号化品質が、フレームの残部と比較して（少なくともＲＯＩの周囲と比較して）、より高くなるように、フレームは符号化される。しかし、より高い符号化品質での符号化は、ビットレートの増大を代償に成立する。これは、ＲＯＩの領域が広い場合には、特に言えることである。従って、その視点から、符号化される各フレームについて、ＲＯＩを可能な限り狭く保つのが良い。しかし、対象物が通り過ぎる際の背景の再符号化を回避することによってビットレートを削減するという視点からは、上述のように、第１と第２の時点の間の対象物の移動中ずっと対象物をカバーするＲＯＩを有し、かつ、共通の符号化品質パターンを使用して、ＲＯＩ全体において各フレームを符号化するのが良い。従って、考慮すべき相反関係が存在する。

いくつかの実施形態では、共通の符号化品質パターンを使用して、（ＲＯＩ全体ではなく）ＲＯＩの１つのサブセットにおいて一又は複数の中間フレームを符号化することによって、この相反関係が考慮される。これは、符号化される各中間フレームについて、順次小さくなるＲＯＩのサブセットが共通の符号化品質パターンを使用して符号化される、縮小手順によって、達成されうる。このサブセットは、ＲＯＩの対象物が既に通り過ぎた部分に対応する、ＲＯＩの一部分を除去することによって決定されうる。具体的には、これは、各中間フレームについて、ＲＯＩ又はそのサブセットの、直前のフレームを符号化する時に使用された部分が除去される、反復手順に従って実施されうる。別の言い方をすると、第１中間フレーム（最初の中間フレーム）について、関心領域のサブセットは、関心領域から一部分を除去することによって決定されてよく、第１中間フレームに後続する各中間フレームについては、関心領域のサブセットは、サブセットから、直前の中間フレームを符号化する時に使用された部分を除去することによって決定される。

この手順を用いると、中間フレームは、順次小さくなるＲＯＩのサブセットにおいて、（ビットを相当消費すると考えられる）共通の符号化品質パターンを使用して符号化され、それによって、消費されるビットレートが低減される。同時に、結果としてもたらされるサブセットは、対象物の予測された移動の残りをカバーするようなものになる。これにより、結果として、ＲＯＩ内の背景は、最大でも１回しか再符号化される必要がなくなる。背景の特定部分の再符号化は、典型的には、対象物が既に通り過ぎ、背景の特定部分がＲＯＩから除去される部分の一部を形成する時に、行われる。

関心領域から除去された部分は、第１フレームにおいて対象物の少なくとも一部をカバーするが、第１中間フレームにおいてはそうではない領域に対応してよく、直前の中間フレームを符号化する時に使用されたサブセットから除去された部分は、直前の中間フレームにおいて対象物を少なくとも部分的にカバーするが、後続の中間フレームにおいてはそうではない領域に対応しうる。この方法では、特定の中間フレームについて、関心領域のサブセットが、特定の中間画像フレームに対応する時点と第２時点との間の対象物の予測された移動中ずっと、対象物をカバーすることが達成されうる。

一又は複数の中間フレームの各々について、中間フレームは、除去された部分において、除去された部分のための符号化品質パターンによって規定された符号化品質よりも低い符号化品質を用いて、符号化されうる。この方法では、結果としてもたらされる総ビットレートが低減しうる。

ＲＯＩは、一般的に、対象物の予測された移動に応じて任意の形状をとりうる。例えば、それは、長方形であって、長方形の第１の寸法が、フレーム内の第１方向に沿った第１時点と第２時点との間の移動する対象物の予測された移動をカバーし、かつ、長方形の他方の寸法が、フレーム内の第１方向に対して垂直である第２方向に沿った第１時点と第２時点との間の移動する対象物の予測された移動をカバーする、長方形を含みうる。このことには、単純な実行形態を提供すると同時に、２つの寸法における対象物の移動が勘案されるという利点がある。

長方形の「第１の寸法」とは一般的に、長方形の一方の辺を意味し、「他方の寸法」とは一般的に、一方の辺に対して垂直である長方形のもう一方の辺を意味する。

上述の方法は反復的な様態で実施されてよい。つまり、第２フレームが符号化されると、方法は繰り返されうる。より詳細には、方法は、第２時点と、第２時点よりも後の第３時点との間の複数のフレームのシーケンスにおける、移動する対象物の移動を予測することと、移動する対象物の予測された移動に基づいて、第２時点と第３時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーするように、更なる関心領域を画定することと、第２フレームを符号化する時に、更なる関心領域を使用することとを、更に含みうる。第２フレームは、典型的には、イントラフレームとして符号化される。

例えば対象物移動の予測におけるエラーにより、対象物が、中間フレーム内で観測される際にＲＯＩによってカバーされないということが、起こりうる。そのために、方法は更に、
少なくとも１つの中間フレームについて、移動する対象物が、少なくとも１つの中間フレーム内で描写される際に関心領域によってカバーされているか否かを確認することを含んでよく、もしカバーされていなければ、
少なくとも１つの中間フレームに対応する時点とその後の第４時点との間の複数のフレームのシーケンスにおける、移動する対象物の移動を予測することと、
移動する対象物の予測された移動に基づいて、一又は複数の中間フレームのうちの少なくとも１つに対応する時点と第４時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーするように、シーケンスの複数のフレーム内の関心領域を再画定することと、
少なくとも１つの中間フレームを符号化する時に、再画定された関心領域を使用することとを含みうる。

この手法を用いると、ＲＯＩは、従って、ある中間フレームから第４フレームまで対象物を再度カバーするように再画定される。この方法では、対象物移動の予測におけるエラーは補償されうる。再画定されたＲＯＩは、ある中間フレームに後続するフレームを符号化する時に使用されうる。この方法では、対象物移動の予測におけるエラーは補償されうる。

本発明の第２の態様によれば、上記の目的は、処理能力を有するデバイスによって実行されると第１態様の方法を実施するよう適合したコンピュータコード指令を伴うコンピュータ可読媒体を備える、コンピュータプログラム製品によって達成される。

第３態様により、上記の目的はフレームのシーケンスをビデオ符号化するためのエンコーダによって達成され、エンコーダは、
移動する対象物を描写するフレームのシーケンスを受信するよう構成された受信機を備え、シーケンスは、第１時点に対応する第１フレーム、その後の第２時点に対応する第２フレーム、及び、第１と第２の時点の中間にある一又は複数の時点に対応する一又は複数の中間フレームを含み、
第１時点と第２時点との間の複数のフレームのシーケンスにおける、移動する対象物の移動を予測するよう構成された、予測構成要素と、
移動する対象物の予測された移動に基づいて、第１時点と第２時点との間の移動する対象物の予測された移動中ずっと、移動する対象物をカバーする、複数のフレーム内の関心領域を画定するよう構成された、関心領域画定構成要素と、
符号化構成要素であって、
関心領域のどの部分にどの符号化品質を使用するかを規定する共通の符号化品質パターンを使用して、関心領域において第１フレームを符号化し、関心領域の少なくとも１つのサブセットにおいて一又は複数の中間フレームを符号化するよう構成され、特定の中間フレームについて、関心領域のサブセットが、特定の中間フレームに対応する時点と第２時点との間の対象物の予測された移動中ずっと、対象物をカバーする、符号化構成要素とを備える。

第２及び第３の態様は、一般的に、第１態様と同じ特徴及び利点を有しうる。本発明は、別途明示的に記載されない限り、特徴のありうる組み合わせ全てに関することが、更に留意される。

上記の、並びに追加的な、本発明の目的、特徴、及び利点は、付随する図面を参照しつつ、本発明の好ましい実施形態の、以下の例示的かつ非限定的な詳細説明を通して、より明確に理解されるであろう。図面では、同じ参照番号が類似要素に対して使用される。

実施形態による符号化システムを概略的に示す。図１の符号化システムのエンコーダをより詳細に示す。実施形態による、フレームのシーケンスのビデオ符号化のための方法のフロー図である。移動する対象物を描写するフレームのシーケンスを概略的に示す。

これより、本発明の実施形態を示す添付図面を参照して、本発明をより網羅的に説明する。作動中の、本書で開示されるシステム及びデバイスが、説明される。

図１は、ビデオエンコーダ１０４に動作可能に接続されたビデオカメラ１０２を備える、符号化システム１００を示している。ビデオカメラ１０２は、例えば、ここでは１人の人間として例示されている移動する対象物１１０を描写するフレームのビデオシーケンス１０６を捕捉するよう、配設されうる。フレームのビデオシーケンス１０６は、フレームのシーケンス１０６を符号化するよう配設されているエンコーダ１０４に送信されうる。エンコーダ１０４は、ビットストリームの形態で、符号化されたフレームのシーケンス１０８を出力しうる。

エンコーダ１０４は、ビデオカメラ１０２から物理的に分離されているユニットを形成しうるか、カメラ１０２に含まれうることを、理解されたい。

図２は、エンコーダ１０４をより詳細に示している。エンコーダ１０４は、受信機２０２と、予測構成要素２０４と、関心領域画定構成要素２０６と、符号化構成要素２０８と、送信機２１０とを備える。

受信機２０２は、ビデオカメラ１０２からフレームのシーケンス１０６を受信するよう配設される。受信機２０２は、フレームのシーケンスを、符号化構成要素２０８及び予測構成要素２０４に送りうる。予測構成要素２０４と符号化構成要素２０８は、少なくとも部分的に並行して、受信されたフレームのシーケンスを処理するよう構成されうる。

以下でより詳細に説明するように、予測構成要素２０４は、フレームのシーケンス１０６における対象物１１０の移動を予測するよう配設される。この後、予測された移動は、受信されたフレームのシーケンス１０６を符号化する時に符号化構成要素２０８によって使用されるＲＯＩを決定する時の、ＲＯＩ画定構成要素２０６のための基準になる。送信機２１０は、結果としてもたらされた、符号化されたフレームのビデオシーケンス１０８を、例えばネットワークを介して、外部エンティティに伝送するよう配設される。

図２に関して説明された構成要素２０２、２０４、２０６、２０８、２１０は、エンコーダ１０４の機能ブロックを表現することを、理解されたい。これらの機能ブロックは、ハードウェア又はソフトウェア、或いはそれらの組み合わせを用いて実装されうる。例えば、エンコーダ１０４は、構成要素２０２、２０４、２０６、２０８、２１０の機能を実装するよう構成された回路を含みうる。代替的又は追加的には、エンコーダ１０４は、（非一時的な）コンピュータ可読媒体又はデバイスと協働して、構成要素２０２、２０４、２０６、２０８、２１０の機能を実装するよう構成されている、プロセッサを含みうる。このために、コンピュータ可読媒体は、プロセッサによって実行される時に本書で開示されているどの方法も実装する、コンピュータコード指令を記憶するよう配設されうる。

これより、図１、図２、図４、及び図３のフロー図を参照して、エンコーダ１０４の動作を解説する。

ステップＳ０２において、受信機２０２は、ビデオカメラ１０２によって捕捉された、符号化されるべきフレームのシーケンス１０６を受信する。受信機２０２は、典型的には、連続的な様態で、かつリアルタイムに、フレームのシーケンス１０６を受信する。換言すると、受信機２０２は、フレームがカメラ１０２によって捕捉される際に、フレームを受信する。

フレームのシーケンス１０６は、図１の移動する対象物１１０のような移動する対象物を描写すると想定される。フレームのシーケンス１０６、又は少なくともそのサブシーケンスが、図４に更に示されている。

シーケンス１０６における各フレームは、一時点に対応している。具体的には、フレームのシーケンス１０６は、第１時点ｔ_１に対応する第１フレーム４０２、その後の第２時点ｔ_２に対応する第２フレーム４１２、及び、第１時点ｔ_１と第２時点ｔ_２との間の時点に対応する、ここでは４つのフレームで示されている、一又は複数の中間フレーム４０４、４０６、４０８、４１０を含む。中間フレーム４０４、４０６、４０８、４１０の数は変更しうることを理解されたい。

ビデオ符号化において、いくつかのフレームをイントラフレーム（いくつかのビデオ符号化方式ではＩフレームと称される）として符号化すること、つまり、フレームが、少なくとも本質的には、完全に符号化されること、及び、いくつかのフレームをインターフレーム（いくつかの符号化方式ではＰフレーム又はＢフレームと称される）として符号化すること、つまり、フレームが前のフレームと関連して符号化されることは、既知である。典型的には、イントラフレームの後に、複数のインターフレームが続く。図４の例では、第１と第２の時点は、典型的には、２つの続いて発生するイントラフレームに対応している。すなわち、第１と第２のフレームはイントラフレームとして符号化されることになる。更に、中間フレームは、典型的には、インターフレームとして符号化されることになる。

フレーム４０２から４１２は、移動する対象物４１４を描写している。実施例においては、対象物４１４は、（矢印で示すように）ほぼ下向き方向に（ただし揺れ動くように）移動する。つまり、対象物４１４は、前後に移動する傾向を有している。

ステップＳ０４において、予測構成要素２０４は、移動する対象物の移動を予測する。より詳細には、予測構成要素２０４は、第１時点ｔ_１から第２時点までの複数のフレームのシーケンスにおける、対象物４１４の移動を予測する。上述のように、フレームは、典型的には、連続的な様態で受信される。従って、予測は、それまでに受信されたフレームに基づく。これは、典型的には、第１時点に先行する、又は第１時点に等しい時点に対応するフレームを含みうる。例えば、ステップＳ０４が実施される時に、予測構成要素２０４は、中間フレーム４０４から４１０を、第１フレーム４０２でさえも、まだ受信していないことがある。第１時点から第２時点までの対象物４１４の動きを予測することによって、第１時点から第２時点までの時点に対応するフレーム４０２から４１０の受信を待つ代わりに、符号化プロセスにおける待ち時間が減少しうる。

予測構成要素２０４は、任意の既知の様態で、例えば動きベクトルを使用することによって、移動する対象物４１４の移動を予測しうる。これは、移動する対象物４１４が第１時点ｔ_１と第２時点ｔ_２との間に辿ることが予期される経路を予測することを含みうる。いくつかの実施形態では、予測構成要素２０４は、移動する対象物の速度ｖ、及び、移動する対象物４１４が第１時点ｔ_１と第２時点ｔ_２との間で移動することが予期される方向を予測することによって、移動を予測しうる。他の実施形態では、予測構成要素２０４は、第１時点ｔ_１と第２時点ｔ_２との間の対象物４１４の予測された経路が本質的にいかなる形態もとりうるように、経路のより複雑なモデルを適用しうる。予測構成要素２０４は、フレーム内のいくつかの寸法又は方向に沿った対象物４１４の移動も予測しうる。例えば、予測構成要素２０４は、フレーム内の第１方向、及び、第１方向に対して垂直であるフレーム内の第２方向への、対象物４１４の移動を予測しうる。第１方向は、例えば、対象物４１４が移動する主たる方向に対応しうる。図４では、これは、下向き方向に対応することになる。しかし、対象物４１４が、第１の主たる方向に沿って真っ直ぐには移動せずに、例えば図４の左右方向に沿って、揺れ動くように移動しうるという場合もある。従って、これを勘案するために、予測構成要素２０４は、第１方向に対して垂直でありうる第２方向に沿った対象物１１４の（揺れ動く）移動も予測しうる。図４では、これは、例示的なフレームの左右方向に対応することになる。

より一般的には、予測構成要素２０４が、第１時点ｔ_１と第２時点ｔ_２との間に対象物４１４が辿ることが予期される経路に関して対象物４１４の移動を予測する場合、予測構成要素２０４は、対象物４１４が移動する際のその揺動動作を勘案するように、対象物４１４が経路の周囲で（例えば経路に対して垂直に）揺動する動きも予測しうる。

ステップＳ０６において、ＲＯＩ画定構成要素２０６は、予測構成要素２０４からの予測された移動に基づいて、ＲＯＩ４１６を画定する。ＲＯＩ４１６は、第１時点ｔ_１と第２時点ｔ_２との間の移動する対象物４１４の予測された移動中ずっと、移動する対象物４１４をカバーするように画定される。第１時点ｔ_１と第２時点ｔ_２との間の移動する対象物４１４の予測された移動中ずっと、移動する対象物４１４をカバーすることは、ＲＯＩ４１６が、第１フレーム４０２及び各中間フレーム４０４から４１０内の移動する対象物をカバーする、すなわち含むことが予期されるように画定されることを、特に意味する（ただし第２フレーム４１２内ではその限りではない。新たなＲＯＩ４１８が、典型的には、下記で更に記述するように、第２フレーム４１２に関して画定されることになる）。注目すべきは、ＲＯＩ４１６は、後に第１フレーム４０２及び中間フレーム４０４から４１０を符号化する時に使用される、第１フレーム４０２及び中間フレーム４０４から４１０に関して画定された単一の領域である。これは、各フレームについて異なるＲＯＩを使用することを教示する従来技術とは対照的である。

ＲＯＩは一般的に、対象物４１４の予測された移動に応じて任意の形状を有しうる。例えば、対象物４１４が辿ることが予期される（一般的な形状の）経路として、対象物４１４の移動が既に予測されている場合、ＲＯＩはその経路の形状に従う形態をとりうるが、ただし、対象物の揺動移動を踏まえて対象物をカバーするように、ＲＯＩは各時点において経路に対して垂直な方向に延びる。

いくつかの実施形態では、ＲＯＩ４１６は、図４に更に示すような長方形を含むか、長方形の形状を有する。具体的には、長方形の第１の寸法は、フレーム内の第１方向（図４の下向き方向など）に沿った対象物４１４の予測された移動中に、対象物４１４をカバーするように画定されてよく、長方形の第２の寸法は、フレーム内の第２方向（図４の左右方向など）に沿った対象物４１４の予測された移動中に、対象物４１４をカバーするように画定されうる。

対象物の移動の主たる方向に沿った移動が、（時間依存である可能性がある）速度ｖに関して予測される場合、ＲＯＩの面積は、次の数式に従って計算されうる。

ここで、ｗは、予測された主たる経路に対して垂直な方向への、第１時点ｔ_１と第２時点ｔ_２との間の対象物４１４の予測された移動の範囲である。しかし、ＲＯＩ４１６は常に、少なくとも対象物のサイズをカバーする面積を有するように設定されることを、理解されたい。例えば、速度がゼロに等しくなると予測される（つまり、対象物は動かないと予測される）場合にも、ＲＯＩ４１６は、依然として、第１フレーム４０２内の（従って中間フレーム４０４から４１０内でも）対象物をカバーする領域に設定される。

ステップＳ０８において、符号化構成要素２０８は、第１フレーム４０２及び一又は複数の中間フレーム４０４から４１０を符号化する。このために、符号化構成要素２０８は、関心領域について符号化品質、すなわち圧縮のレベルが設定されることを可能にする任意の既知の標準を実装する、コーデックを含みうる。これは、Ｈ．２６４標準を含む、Ｈ．２６ｘファミリー中の標準を含む。Ｈ．２６４コーデックによって規定された圧縮のレベルは、多くの場合、量子化パラメータ（ＱＰ）と称される。

かかるビデオ圧縮標準は、Ｉフレームなどのイントラフレーム、及び、Ｐフレーム又はＢフレームなどのインターフレームに関して実装される、経時的なビデオ圧縮を定めている。イントラフレームは、基本的に、符号化される１つの画像フレーム内の情報のみを使用して符号化される、１つの画像フレームである。更に、イントラフレームは、符号化される１つの画像フレームのために捕捉された全ての画像データから計算される。従って、イントラフレームは時に、フルフレームと称される。予測フレーム、又は差分フレームとも称されるインターフレームは、以前に符号化された画像フレームからの情報、並びに、現在符号化されるフレームの情報に基づく。すなわち、インターフレームは、以前の画像フレーム内の時間的冗長情報をうまく活用していると説明されうる。この種のコーデックを実装する動画は、典型的には、イントラフレームとそれに続く既定の数のインターフレームを生成し、次いで新たなイントラフレームとそれに続く同じ数のインターフレームを、生成する。イントラフレームにいくつかのインターフレームが続くこのシーケンスの長さは、多くの場合、画像グループ長さ（ＧＯＰ長さ）と称される。

本例の場合、第１フレーム４０２、中間フレーム４０４から４１０、及び第２フレーム４１２が、ＧＯＰとして符号化されるシーケンスを形成しうる。従って、第１フレーム４０２はイントラフレームとして、中間フレーム４０４から４１０はインターフレームとして、第２フレーム４１２はイントラフレームとして、符号化されうる。

第１フレーム４０２及び中間フレーム４０４から４１０を符号化する前に、符号化構成要素２０８は、典型的には、ＲＯＩ４１６又はそのサブセットの符号化に関連して使用される、符号化品質パターンを設定する。符号化品質パターンは、ＲＯＩ４１６のどの部分にどの符号化品質、すなわち圧縮レベルを使用するかを規定する。典型的には、符号化品質パターンは、ＲＯＩの周囲の符号化品質と比較して、ＲＯＩの内側では符号化品質が高くなる（すなわち、より低い圧縮レベルが適用される）ように設定される。一般的には、ＲＯＩ４１６の外側の符号化品質は、フレーム間で、空間的にも、時間的にも変動しうる。

いくつかの実施形態では、符号化品質パターンは、ＲＯＩ４１６全体に使用される単一の符号化品質を規定する。換言すると、かかる実施形態では、符号化品質は、ＲＯＩ４１６全体を通じて一定である。しかし、他の実施形態では、符号化品質は、ＲＯＩ４１６の中で空間的に変動することが可能でありうる符号化品質パターンは、ゆえに、ＲＯＩの別々の部分に使用される異なる符号化品質を規定しうる。例えば、符号化品質パターンは、ＲＯＩ４１６の中の階調に従って符号化品質が変動するように規定しうる。

符号化構成要素２０８は、ＲＯＩ４１６に関して規定される符号化品質パターンを、第１時点ｔ_１と第２時点ｔ_２との間で時間的に一定になるように設定する。すなわち、符号化構成要素は、第１フレーム４０２及び中間フレーム４０４から４１０を符号化する時に、共通の符号化品質パターンを適用する。しかし典型的には、符号化品質パターンは、第２フレーム４１２を符号化する時に再設定されることになる。第１フレーム４０２及び中間フレーム４０４から４１０を符号化する時に、ＲＯＩ４１６内に同一の符号化品質パターンを適用することによって、背景のフレーム間の再符号化が、有利なことに、低減されうる。

ステップＳ０８は複数のサブステップを含みうる。ステップＳ０８ａにおいて、符号化構成要素２０８は、第１フレーム４０２を符号化する。第１フレーム４０２は、典型的には、イントラフレームとして符号化される。第１フレーム４０２を符号化する時に、符号化構成要素２０８は、ＲＯＩ４１６（の全体）に、選択された符号化品質パターンを適用する。

符号化構成要素２０８は次いで、中間フレーム４０４から４１０の符号化に進む。中間フレーム４０４から４１０は、典型的には、インターフレームとして符号化される。

いくつかの実施形態によれば、符号化構成要素２０８は、中間フレーム４０４から４１０を符号化する時に、ＲＯＩ４１６全体に、選択された符号化品質パターンを適用する。

他の実施形態では、符号化構成要素２０８は、中間フレーム４０４から４１０のうちの少なくともいくつかを符号化する時に、ＲＯＩ４１６の１つのサブセット内に、選択された符号化品質パターンを適用する。

より詳細には、方法は、サブステップＳ０８ｂを含んでよく、サブステップＳ０８ｂでは、符号化構成要素２０８は、各中間フレーム４０４から４１０について、選択された符号化品質パターンに従って符号化されるＲＯＩ４１６のサブセットを決定する。具体的には符号化構成要素２０８は、特定の中間フレームのＲＯＩのサブセットを、特定の中間フレームに対応する時点と第２時点ｔ_２との間の対象物４１４の予測された移動中に対象物４１４をカバーする、ＲＯＩのサブセットであると決定しうる。これは、ＲＯＩの対象物４１４が既に通り過ぎた画素に対応する部分を、縮小又は除去することであると考察しうる。

これは、第１フレーム４０２、第１中間フレーム４０４、及び第２中間フレーム４０６の拡大図を示す図４の下部に、更に図示されている。第１中間フレーム４０４に関して、符号化構成要素２０８は、第１中間フレームに対応する時点で対象物４１４が既に通り過ぎた画素に対応する部分４２２ａの除去によって、ＲＯＩ４１６のサブセット４２０ａを決定している。具体的には、除去された部分４２２ａは、第１フレーム４０２では対象物４１４を少なくとも部分的にカバーしているが、第１中間フレーム４０４においてはそうではない領域に、対応している。

第２中間フレーム４０６に関して、符号化構成要素２０８は、第２中間フレーム４０６に対応する時点で対象物４１４が既に通り過ぎた画素に対応する部分４２２ｂの除去によって、ＲＯＩ４１６のサブセット４２０ｂを決定している。具体的には、除去された部分４２２ｂは、第１フレーム４０２及び第１中間フレーム４０４において対象物４１４を少なくとも部分的にカバーしているが、第２中間フレーム４０６においてはそうではない領域に、対応している。

符号化構成要素２０８は、ＲＯＩ４１６のサブセット４２０ａ、４２０ｂを決定するために反復手順を適用しうる。より具体的には、第１中間フレーム４０４について、ＲＯＩ４１６から部分４２２ａを除去することにより、ＲＯＩ４１６のサブセット４２０ａが決定される。第２中間フレーム４０４については、第１中間フレーム４０４に関して決定されたサブセット４２０ａから一部分を除去することによって、ＲＯＩ４１６のサブセット４２０ｂが決定される。より一般的には、第１中間フレーム４０４に後続する各中間フレーム４０４から４１０について、直前の中間フレームに関して決定されたサブセットから一部分を除去することにより、ＲＯＩ４１６のサブセットが決定される。

第１フレームに対応する時点をｔ_１．０、中間フレームに対応する時点をｔ_１，ｉ、ＲＯＩの面積をＡ_０、ｉ番目の中間フレームに対応するＲＯＩのサブセットの面積をＡ_ｉにより表すと、サブセットの面積は、下記のように反復的に計算されうる。

しかし、より詳細に上述したように、ＲＯＩ４１６は常に、少なくとも対象物のサイズをカバーする面積を有するように設定されることを、理解されたい。

いくつかの実施形態によれば、符号化構成要素２０８は、サブステップＳ０８ｃで、中間フレーム４０４から４１０の各々を、共通の符号化品質パターンを使用して、決定されたサブセット４２０ａ、４２０ｂにおいて符号化する。除去された部分４２２ａ、４２２ｂにおいては、符号化構成要素２０８は、除去された部分に関する符号化品質パターンによって規定された符号化品質よりも低い（すなわちより高い圧縮レベルを有する）符号化品質を用いて、中間フレーム４０２から４１０を符号化しうる。

場合によっては、例えば、対象物移動の予測が真の対象物移動と一致しないために、対象物４１４がＲＯＩ４１６の外に移動するということが起こりうる。これが起こると、ＲＯＩ４１６が、（拡大される等）再画定されうるか、又は、対象物がＲＯＩ４１６の外に移動した時点を新たな開始時点として、方法が再度開始されうる。

その事例に当てはまるか否かを見出すために、符号化構成要素２０８は、符号化される各フレームについて、移動する対象物４１４が対象のフレーム内で描写される際に関心領域によってカバーされているか否かを更に確認しうる。その事例に当てはまらなければ、予測構成要素２０４は、対象のフレームに対応する時点と（第２時点と一致してもよいし、そうではなくてもよい）その後の時点との間の、対象物の移動を予測しうる。ＲＯＩ画定構成要素２０６は次いで、対象のフレームに対応する時点とその後の時点との間の予測された移動中にＲＯＩが対象物４１４をカバーするように、対象物４１４の新たに予測された移動に基づいてＲＯＩを再画定しうる。この後、符号化構成部品２０８は、対象のフレーム、及び、その後の時点以前のある時点に対応する後続の任意のフレームを符号化する時に、そのように再画定されたＲＯＩを使用しうる。

上記で開示された方法Ｓ０２−Ｓ０８は何度も繰り返されうることを理解されたい。具体的には、方法は時点ｔ_２に到達すると繰り返される。すなわち、時点ｔ_２が開始時点とされる。

当業者は上述の実施形態を多くの方法で修正し、かつ、上記の実施形態において示されている本発明の利点を依然として使用することが可能であると理解されるだろう。例えば、フレームのシーケンス内にはいくつかの移動する対象物が存在しうる。その場合、対象物ごとに１つのＲＯＩが画定されうる。別々のＲＯＩについては異なる符号化品質パターンが使用されうる。従って、本発明は、示された実施形態に限定されるべきではなく、付随する特許請求の範囲によってのみ限定されるべきである。加えて、当業者は理解するように、示された実施形態は組み合わされうる。

Claims

フレームのシーケンスをビデオ符号化するための方法であって、
移動する対象物（４１４）を描写するフレームのシーケンスを受信すること（Ｓ０２）を含み、前記シーケンスは、第１時点に対応する第１フレーム（４０２）、その後の第２時点に対応する第２フレーム（４１２）、及び、前記第１時点と前記第２時点との中間にある一又は複数の時点に対応する一又は複数の中間フレーム（４０４、４０６、４０８、４１０）を含み、前記方法は、
前記第１時点と前記第２時点との間の複数のフレームのシーケンスにおける、前記移動する対象物（４１４）の移動を予測すること（Ｓ０４）と、
前記移動する対象物（４１４）の予測された移動に基づいて、前記第１時点と前記第２時点との間の前記移動する対象物（４１４）の予測された移動中ずっと、前記移動する対象物（４１４）をカバーする、前記複数のフレーム内の関心領域（４１６）を画定すること（Ｓ０６）とを含み、前記関心領域は前記フレーム間で変動せず、前記方法は、
前記関心領域（４１６）のどの部分にどの符号化品質を使用するかを規定する共通かつ一定の符号化品質パターンを使用して、前記関心領域（４１６）において前記第１フレーム（４０２）を符号化し、前記関心領域（４１６）の少なくとも１つのサブセットにおいて前記一又は複数の中間フレーム（４０４、４０６、４０８、４１０）を符号化すること（Ｓ０８）を含み、特定の中間フレームについて、前記関心領域のサブセットが、前記特定の中間画像フレームに対応する時点と前記第２時点との間の前記対象物の予測された移動中ずっと、前記対象物をカバーし、
前記方法は更に、
第１中間フレーム（４０４）について、前記関心領域（４１６）から一部分（４２２ａ）を除去することにより、前記関心領域（４１６）のサブセット（４２０ａ）を決定することと、
前記第１中間フレーム（４０４）に後続する各中間フレーム（４０６、４０８、４１０）について、直前の中間フレームを符号化する時に使用された前記サブセット（４２０ａ）から一部分（４２２ｂ）を除去することにより、前記関心領域のサブセット（４２０ｂ）を決定することとを含む、方法。
前記符号化品質パターンは、前記関心領域（４１６）全体で使用される単一の符号化品質を規定する、請求項１に記載の方法。
前記符号化品質パターンは、前記関心領域（４１６）の別々の部分で使用される異なる符号化品質を規定する、請求項１に記載の方法。
各符号化品質は圧縮のレベルに対応する、請求項１から３のいずれか一項に記載の方法。
前記第１フレーム（４０２）はイントラフレームとして符号化される、請求項１から４のいずれか一項に記載の方法。
前記一又は複数の中間フレーム（４０４、４０６、４０８、４１０）はインターフレームとして符号化される、請求項１から５のいずれか一項に記載の方法。
前記一又は複数の中間フレーム（４０４、４０６、４０８、４１０）のうちの少なくともいくつかは、前記共通の符号化品質パターンを使用して、前記関心領域（４１６）全体において符号化される、請求項１から６のいずれか一項に記載の方法。
前記関心領域（４１６）から除去された前記部分（４２２ａ）は、前記第１フレーム（４０２）において前記対象物の少なくとも一部をカバーするが、前記第１中間フレーム（４０４）においてはそうではない領域に対応し、
前記直前の中間フレームを符号化する時に使用された前記サブセット（４２０ａ）から除去された前記部分（４２２ｂ）は、前記直前の中間フレームにおいて前記対象物を少なくとも部分的にカバーするが、後続の中間フレームにおいてはそうではない領域に対応する、請求項１から７のいずれか一項に記載の方法。
前記一又は複数の中間フレーム（４０４、４０６、４０８、４１０）の各々について、前記除去された部分のための前記符号化品質パターンによって規定された符号化品質よりも低い符号化品質を用いて、前記除去された部分（４２２ａ、４２２ｂ）において前記中間フレームを符号化することを更に含む、請求項１から８のいずれか一項に記載の方法。
前記関心領域は、長方形であって、前記長方形の第１の寸法が、前記フレーム内の第１方向に沿った前記第１時点と前記第２時点との間の前記移動する対象物の前記予測された移動をカバーし、かつ、前記長方形の他方の寸法が、前記フレーム内の前記第１方向に対して垂直である第２方向に沿った前記第１時点と前記第２時点との間の前記移動する対象物の前記予測された移動をカバーする、長方形を含む、請求項１から９のいずれか一項に記載の方法。
更に、
前記第２時点と、前記第２時点よりも後の第３時点との間の複数のフレームのシーケンスにおける、前記移動する対象物（４１６）の移動を予測することと、
前記移動する対象物の前記予測された移動に基づいて、前記第２時点と前記第３時点との間の前記移動する対象物（４１６）の予測された移動中ずっと、前記移動する対象物（４１６）をカバーするように、更なる関心領域（４１８）を画定することと、
前記第２フレーム（４１２）を符号化する時に、前記更なる関心領域（４１８）を使用することとを含む、請求項１から１０のいずれか一項に記載の方法。
更に、
少なくとも１つの中間フレームについて、前記移動する対象物が前記少なくとも１つの中間フレーム内で描写される際に前記関心領域によってカバーされているか否かを確認することを含み、もしカバーされていなければ、
前記少なくとも１つの中間フレームに対応する時点とその後の第４時点との間の複数のフレームのシーケンスにおける、前記移動する対象物の移動を予測することと、
前記移動する対象物の前記予測された移動に基づいて、前記一又は複数の中間フレームのうちの前記少なくとも１つに対応する前記時点と前記第４時点との間の前記移動する対象物の予測された移動中ずっと、前記移動する対象物をカバーするように、前記シーケンスの複数のフレーム内の前記関心領域を再画定することと、
前記少なくとも１つの中間フレームを符号化する時に、再画定された関心領域を使用することとを含む、請求項１から１１のいずれか一項に記載の方法。
処理能力を有するデバイスによって実行されると、請求項１から１２のいずれか一項に記載の前記方法を実施するよう適合したコンピュータコード指令を伴うコンピュータ可読媒体を備える、コンピュータプログラム製品。
フレームのシーケンスをビデオ符号化するためのエンコーダ（１０４）であって、
移動する対象物（４１４）を描写するフレームのシーケンスを受信するよう構成された受信機（２０２）を備え、前記シーケンスは、第１時点に対応する第１フレーム（４０２）、その後の第２時点に対応する第２フレーム、及び、前記第１時点と前記第２時点との中間にある一又は複数の時点に対応する一又は複数の中間フレーム（４０４、４０６、４０８、４１０）を含み、前記エンコーダは、
前記第１時点と前記第２時点との間の複数のフレームのシーケンスにおける、前記移動する対象物（４１４）の移動を予測するよう構成された、予測構成要素（２０４）と、
前記移動する対象物の予測された移動に基づいて、前記第１時点と前記第２時点との間の前記移動する対象物（４１４）の予測された移動中ずっと、前記移動する対象物（４１４）をカバーする、複数のフレーム内の関心領域（４１６）を画定するよう構成された、関心領域画定構成要素（２０６）とを備え、前記関心領域は前記フレーム間で変動せず、前記エンコーダは、
符号化構成要素（２０８）であって、
前記関心領域のどの部分にどの符号化品質を使用するかを規定する共通かつ一定の符号化品質パターンを使用して、前記関心領域（４１６）において前記第１フレーム（４０２）を符号化し、前記関心領域（４１６）の少なくとも１つのサブセットにおいて前記一又は複数の中間フレームを符号化するよう構成され、特定の中間フレームについて、前記関心領域の前記サブセットが、前記特定の中間フレームに対応する時点と前記第２時点との間の前記対象物の予測された移動中ずっと、前記対象物をカバーする、符号化構成要素を備え、
前記符号化構成要素は更に、
第１中間フレーム（４０４）について、前記関心領域（４１６）から一部分（４２２ａ）を除去することにより、前記関心領域のサブセット（４２０ａ）を決定し、
前記第１中間フレーム（４０４）に後続する各中間フレーム（４０６、４０８、４１０）について、直前の中間フレームを符号化する時に使用された前記サブセット（４２０ａ）から一部分（４２２ｂ）を除去することにより、前記関心領域のサブセット（４２０ｂ）を決定するよう構成されている、エンコーダ（１０４）。