JP7797675B2

JP7797675B2 - 動的メッシュ圧縮における動きフィールドのコーディング

Info

Publication number: JP7797675B2
Application number: JP2024547907A
Authority: JP
Inventors: チャオ・フアン; シャオジョン・シュ; ジュン・ティアン; シャン・ジャン; シャン・リュウ
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2022-08-12
Filing date: 2023-05-24
Publication date: 2026-01-13
Anticipated expiration: 2043-05-24
Also published as: WO2024035461A1; EP4569481A1; EP4569481A4; US12542926B2; JP2025507557A; KR20240108466A; US20240064334A1

Description

関連出願の相互参照
本出願は、２０２２年８月１２日に出願された米国仮特許出願第６３／３９７，７９５号、および２０２３年５月４日に出願された米国特許出願第１８／３１２，３２３号の優先権を主張し、これらの開示は、その全体が参照により本明細書に組み込まれる。

本開示は、動的メッシュ圧縮における動きフィールドの符号化を含む高度なビデオコーディング技術のセットを対象としている。

３Ｄキャプチャ、モデリング、およびレンダリングの進歩は、いくつかのプラットフォームおよびデバイスにわたって３Ｄコンテンツの普遍的な存在を促進している。今日では、ある大陸で赤ん坊の最初の一歩を捕らえ、祖父母が別の大陸で子供と十分に没入した体験を眺める（そして交流することができる）ことが可能である。このような臨場感を実現するために、３Ｄモデルは、これまで以上に洗練されてきており、かなりの量のデータがこれらのモデルの作成および消費に結び付けられる。

ＶＭｅｓｈは、静的および動的メッシュを圧縮するための進行中のＭＰＥＧ規格である。ＶＭｅｓｈは、入力メッシュを、単純化されたベースメッシュと残差メッシュとに分離する。ベースメッシュは高品質で符号化することができ、その一方で残りのメッシュは、部分表面フィッティングおよび変位符号化を用いて符号化されて局所的特性を利用してもよい。

しかしながら、複雑なメッシュは、テクスチャマップを関連付けるために複数のインスタンスに関する情報を含むことが多い。この情報は、符号化時に利用可能である。一方、メッシュは、その特性に基づいていくつかの部分に分割することができる。例えば、人間のメッシュの顔領域にはより多くの多角形が存在する。

このように、すべてのインスタンス、オブジェクト、メッシュ内の部分に適用される一定の量子化ステップサイズは大きな量子化誤差をもたらし、メッシュ領域は等しく重要ではない可能性があり、面の数はメッシュの異なる部分で大幅に変化する可能性があり、ベースメッシュは元のメッシュおよび変位よりも単純になる可能性があり、したがってビット深度の精度をあまり必要としない可能性がある。

また、動的メッシュシーケンスは、これが経時的に変化するかなりの量の情報で構成され得るので、大量のデータを必要とする場合がある。したがって、そのようなコンテンツを保存し、かつ送信するために効率的な圧縮技術が必要となる。メッシュ圧縮規格ＩＣ、ＭＥＳＨＧＲＩＤ、ＦＡＭＣは、常時接続性および時変ジオメトリおよび頂点属性を有する動的メッシュに対処するためにＭＰＥＧによって以前に開発された。しかしながら、これらの規格は、時変属性マップおよび接続性情報を考慮に入れない。ＤＣＣ（デジタルコンテンツ作成）ツールは、通常、そのような動的メッシュを生成する。これに対応して、特にリアルタイム制約下で、ボリューム取得技術が一定の接続性動的メッシュを生成することは困難である。この種のコンテンツは、既存の規格ではサポートされていない。ＭＰＥＧは、時変接続性情報および任意選択で時変属性マップを有する動的メッシュを直接扱うための新たなメッシュ圧縮規格を開発することを計画している。

したがって、それらの理由のいずれかのために、ビデオコーディング技術において生じたそのような問題に対する技術的解決策が望まれている。

コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されると動作するように構成された１つまたは複数のプロセッサと、を含む方法および装置が含まれる。コンピュータプログラムは、プロセッサに、少なくとも１つのプロセッサに、少なくとも１つの三次元（３Ｄ）視覚コンテンツのボリュームデータを取得させるように構成された取得コードを実施させ、少なくとも１つのプロセッサに、ボリュームデータからメッシュシーケンスのフレームを取得させるように構成されたさらなる取得コードであって、フレームはメッシュシーケンスのメッシュの複数の頂点を含むさらなる取得コードを実施させ、少なくとも１つのプロセッサに、メッシュの複数の頂点の動きベクトルを含む動きフィールドを決定させるように構成された決定コードを実施させ、少なくとも１つのプロセッサに、動きフィールドに基づいてボリュームデータを符号化させるように構成された符号化コードを実施させるように構成される。

例示的な実施形態によれば、ボリュームデータを符号化することは、メッシュの複数の頂点の動きベクトルの各々に一次元変換を適用することを含む。

例示的な実施形態によれば、一次元変換は、離散コサイン変換およびリフティングウェーブレット変換のいずれかを含む。

例示的な実施形態によれば、ボリュームデータを符号化することは、メッシュの複数の頂点の動きベクトルを順序付けられた動きベクトルに配置することと、順序付けられた動きベクトルを３チャネル画像にパッキングすることとを含む。

例示的な実施形態によれば、メッシュの複数の頂点の動きベクトルを順序付けられた動きベクトルに配置することは、所定の順序に基づいている。

例示的な実施形態によれば、３チャネル画像のチャネルは、動きベクトルの空間次元のそれぞれ１つを含む。

例示的な実施形態によれば、ボリュームデータを符号化することは、動きフィールドに主成分分析を適用することを含む。

例示的な実施形態によれば、主成分分析は、メッシュの複数の頂点の数に等しい数の行と、動きフィールドの空間次元の数に等しい数の列とを含む行列を構築することを含む。

例示的な実施形態によれば、主成分分析は、行列から共分散行列を取得することと、共分散行列に固有分解を適用することとをさらに含む。

例示的な実施形態によれば、ボリュームデータを符号化することは、共分散行列に固有分解を適用することから得られた少なくとも複数の固有値をシグナリングすることを含む。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

実施形態による線図の概略図である。実施形態による簡略化されたブロック図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化されたフロー図である。実施形態による簡略化されたフロー図である。実施形態による簡略化されたフロー図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化されたフロー図である。実施形態による簡略化された図である。実施形態による簡略化されたフロー図である。実施形態による簡略化されたフロー図である。実施形態による簡略化された図である。実施形態による簡略化されたフロー図である。実施形態による簡略化された図である。実施形態による簡略化された図である。実施形態による簡略化されたフロー図である。実施形態による簡略化された図である。

以下で説明する提案された特徴は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路（例えば、１つもしくは複数のプロセッサまたは１つもしくは複数の集積回路）によって実施されてもよい。一例では、１つまたは複数のプロセッサは、非一時的なコンピュータ可読媒体に格納されているプログラムを実行する。

図１は、本開示の一実施形態に係る通信システム１００の簡略化されたブロック図を例示する。通信システム１００は、ネットワーク１０５を介して相互接続された少なくとも２つの端末１０２、１０３を含み得る。データの単方向伝送のために、第１の端末１０３は、ネットワーク１０５を介して他方の端末１０２に伝送するためにローカル位置でビデオデータを符号化し得る。第２の端末１０２は、ネットワーク１０５から他方の端末のコーディング済みビデオデータを受信し、コーディング済みデータを復号し、復元されたビデオデータを表示し得る。単方向データ送信は、メディア提供用途などで一般的であり得る。

図１は、例えばビデオ会議中に発生する可能性があるコーディング済みビデオの双方向伝送をサポートするために提供される端末１０１および１０４の第２のペアを例示する。データの双方向伝送のために、各端末１０１および１０４は、ネットワーク１０５を介して他方の端末に送信するためにローカル位置で、取り込んだビデオデータを符号化し得る。各端末１０１および１０４は、他方の端末によって伝送されたコーディング済みビデオデータも受信し、コーディング済みデータを復号し、復元されたビデオデータをローカルの表示デバイスに表示し得る。

図１では、端末１０１、１０２、１０３および１０４は、サーバ、パーソナルコンピュータおよびスマートフォンとして例示され得るが、本開示の原理はそのように限定されるものではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および／または専用のビデオ会議機器を伴う用途を見出す。ネットワーク１０５は、例えば有線および／または無線通信ネットワークを含む、端末１０１、１０２、１０３および１０４の間で、コーディング済みビデオデータを伝達する、任意の数のネットワークを表す。通信ネットワーク１０５は、回路交換および／またはパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本考察の目的のために、ネットワーク１０５のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。

図２は、開示される主題の用途の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を例示する。本開示の主題は、例えば、ビデオ会議、デジタルテレビ、ＣＤ、ＤＶＤ、メモリスティック、などを含むデジタルメディアへの圧縮ビデオの格納、など、他のビデオ対応の用途に等しく適用することができる。

ストリーミングシステムは、例えば非圧縮ビデオ・サンプル・ストリーム２１３を作成する、例えばデジタルカメラなどのビデオソース２０１を含むことができるキャプチャサブシステム２０３を含み得る。そのサンプルストリーム２１３は、符号化されたビデオビットストリームと比較したときに高いデータボリュームとして強調されてもよく、ビデオソース２０１に結合されたエンコーダ２０２によって処理され得る。エンコーダ２０２は、以下でより詳細に説明するように、開示される主題の態様を可能にするか、または実施するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。符号化されたビデオビットストリーム２０４は、サンプルストリームと比較してより低いデータボリュームとして強調されてもよく、将来の使用のためにストリーミングサーバ２０５に格納することができる。１つまたは複数のストリーミングクライアント２１２および２０７は、ストリーミングサーバ２０５にアクセスして、符号化されたビデオビットストリーム２０４のコピー２０８および２０６を取り出すことができる。クライアント２１２は、符号化されたビデオビットストリームの着信コピー２０８を復号し、ディスプレイ２０９または他のレンダリング装置（図示せず）上にレンダリングすることができる送出ビデオ・サンプル・ストリーム２１０を作成するビデオデコーダ２１１を含むことができる。一部のストリーミングシステムでは、ビデオビットストリーム２０４、２０６および２０８は、特定のビデオコーディング／圧縮規格に従って符号化することができる。これらの規格の例は、上記で言及されており、本明細書でさらに説明される。

図３は、本発明の一実施形態によるビデオデコーダ３００の機能ブロック図であり得る。

受信器３０２は、デコーダ３００によって復号される１つまたは複数のコーデック・ビデオ・シーケンスを受信することができ、同じまたは別の実施形態では、一度に１つのコーディング済みビデオシーケンスであり、各コーディング済みビデオシーケンスの復号は、他のコーディング済みビデオシーケンスから独立している。コーディング済みビデオシーケンスは、チャネル３０１から受信され得、チャネルは、符号化されたビデオデータを格納する記憶装置へのハードウェア／ソフトウェアリンクであり得る。受信器３０２は、それぞれの使用エンティティ（図示せず）に転送され得る他のデータ、例えばコーディング済みの音声データおよび／または補助データストリームと共に、符号化されたビデオデータを受信し得る。受信器３０２は、コーディング済みビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ３０３が、受信器３０２とエントロピーデコーダ／パーサ３０４（以降、「パーサ」）との間に結合されてもよい。受信器３０２が十分な帯域幅と制御性を持つ記憶／転送装置から、またはアイソシンクロナスネットワークからデータを受信している場合、バッファ３０３は必要なくてもよい、または小さい場合もある。インターネットなどのベスト・エフォート・パケット・ネットワークで使用する場合、バッファ３０３が必要とされる場合があり、比較的大きくすることができ、有利には適応サイズとすることができる。

ビデオデコーダ３００は、エントロピーコーディング済みビデオシーケンスからシンボル３１３を再構築するためのパーサ３０４を含み得る。このようなシンボルの分類は、デコーダ３００の動作を管理するのに使用される情報、およびデコーダの一体部品ではないがこれに結合できるディスプレイ３１２などの、ディスプレイを制御するための潜在的な情報を含む。（複数の）ディスプレイのための制御情報は、補助拡張情報（ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）（ＳＥＩメッセージ）、又は映像有用性情報（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ、ＶＵＩ）パラメータ集合フラグメント（図示せず）の形態にされてもよい。パーサ３０４は、受信したコーディング済みビデオシーケンスを構文解析／エントロピー復号してもよい。コーディング済みビデオシーケンスのコーディングは、ビデオコーディング技術または標準規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存性を伴うまたは伴わない算術コーディングなどを含む、当業者に周知の原理に従うことができる。パーサ３０４は、コーディング済みビデオシーケンスから、そのグループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャのグループ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含むことができる。エントロピーデコーダ／パーサはまた、変換係数、量子化器パラメータ値、動きベクトルなどのコーディング済みビデオシーケンス情報から抽出し得る。

パーサ３０４は、シンボル３１３を作成するために、バッファ３０３から受信したビデオシーケンスに対してエントロピー復号／解析動作を行ってよい。パーサ３０４は、符号化されたデータを受信し、特定のシンボル３１３を選択的に復号してよい。さらに、パーサ３０４は、特定のシンボル３１３が、動き補償予測ユニット３０６、スケーラ／逆変換ユニット３０５、イントラ予測ユニット３０７、またはループフィルタ３１１に提供されるべきかどうかを決定してよい。

シンボル３１３の再構築には、コーディング済みビデオピクチャまたはその一部（インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど）のタイプ、ならびにその他の要因に応じて、複数の異なるユニットを関与させることができる。どのユニットがどのように関与しているかは、パーサ３０４によって、コーディング済みビデオシーケンスから解析されたサブグループ制御情報によって管理することができる。パーサ３０４と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示されていない。

既に言及した機能ブロックの他に、デコーダ３００は、以下で説明するように、いくつかの機能ユニットに概念的に細分化することができる。商業的な制約の下で動作する実際の実施態様では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合させることができる。しかしながら、開示される主題を説明する目的のためには、以下の機能ユニットに概念的に細分するのが適切である。

第１のユニットは、スケーラ／逆変換ユニット３０５である。スケーラ／逆変換ユニット３０５は、量子化された変換係数、および使用する変換、ブロックサイズ、量子化因子、量子化スケーリングマトリクスなどを含む制御情報をパーサ３０４からシンボル３１３として受け取る。それは、アグリゲータ３１０に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換３０５の出力サンプルは、イントラコーディング済みブロックに関係することがある。すなわち、以前に再構築されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構築された部分からの予測情報を使用することができるブロックである。そのような予測情報は、イントラピクチャ予測ユニット３０７によって提供することができる。場合によっては、イントラピクチャ予測ユニット３０７は、現在の（部分的に再構築された）ピクチャ３０９からフェッチされた周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ３１０は、場合によっては、サンプルごとに、イントラ予測ユニット３０７が生成した予測情報を、スケーラ／逆変換ユニット３０５によって提供される出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット３０５の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関係することがある。そのような場合、動き補償予測ユニット３０６は、参照ピクチャメモリ３０８にアクセスして、予測に使用されるサンプルをフェッチすることができる。フェッチされたサンプルをブロックに関係するシンボル３１３に従って動き補償した後に、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ３１０によってスケーラ／逆変換ユニットの出力に追加することができる（この場合、残差サンプルまたは残差信号と呼ばれる）。動き補償ユニットが予測サンプルをフェッチする参照ピクチャメモリ形式内のアドレスは、動きベクトルによって制御することができ、例えば、Ｘ、Ｙ、および参照ピクチャ成分を有することができるシンボル３１３の形式で動き補償ユニットに利用可能とすることができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

アグリゲータ３１０の出力サンプルは、ループフィルタユニット３１１における様々なループフィルタリング技術の適用を受けることができる。ビデオ圧縮技術は、コーディング済みビデオビットストリームに含まれるパラメータによって制御され、パーサ３０４からのシンボル３１３としてループフィルタユニット３１１で使用できるインループフィルタ技術を含むことができるが、コーディング済みピクチャまたはコーディング済みビデオシーケンスの（復号順で）以前の部分の復号中に取得されたメタ情報に応答したり、以前に再構築およびループフィルタされたサンプル値に応答したりすることもできる。

ループフィルタユニット３１１の出力は、レンダリング装置３１２に出力することができるだけでなく、将来のインターピクチャ予測で使用するために参照ピクチャメモリ５５７に格納することができるサンプルストリームとすることができる。

完全に再構築されると、特定のコーディング済みピクチャは、将来の予測のための参照ピクチャとして使用されることができる。コーディング済みピクチャが完全に再構築され、コーディング済みピクチャが（例えば、パーサ３０４によって）参照ピクチャとして識別されていると、現在の参照ピクチャ３０９は参照ピクチャバッファ３０８の一部になることができ、以下のコーディング済みピクチャの再構築を開始する前に、新しい現在のピクチャメモリを再配分することができる。

ビデオデコーダ３００は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの標準規格に文書化され得る所定のビデオ圧縮技術に従って復号動作を行ってよい。コーディング済みビデオシーケンスは、ビデオ圧縮技術文書または規格、具体的にはその中のプロファイル文書に指定されるように、ビデオ圧縮技術または標準規格のシンタックスに忠実であるという意味において、使用されているビデオ圧縮技術または標準規格によって指定されたシンタックスに準拠してよい。また、コンプライアンスのために必要なのは、コーディング済みビデオシーケンスの複雑さが、ビデオ圧縮技術または標準規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、（例えば、毎秒メガサンプル単位で測定された）最大再構成サンプルレート、最大参照ピクチャサイズなどを制限する。レベルによって設けられる限界は、いくつかの例では、ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ（ＨＲＤ）の仕様と、コーディング済みビデオシーケンスでシグナリングされるＨＲＤバッファ管理用のメタデータとにより、さらに制限される場合がある。

一実施形態では、受信器３０２は、符号化されたビデオと共に追加の（冗長な）データを受信し得る。追加のデータは、コーディング済みビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するため、および／または元のビデオデータをより正確に再構築するために、ビデオデコーダ３００によって使用され得る。追加のデータは、例えば、時間層、空間層、または信号対雑音比（ＳＮＲ）強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形式にすることができる。

図４は、本開示の一実施形態によるビデオエンコーダ４００の機能ブロック図であり得る。

エンコーダ４００は、エンコーダ４００によってコーディングされるべきビデオ画像を取り込み得るビデオソース４０１（エンコーダの一部ではない）からビデオサンプルを受信し得る。

ビデオソース４０１は、エンコーダ（３０３）によってコーディングされるソース・ビデオ・シーケンスを、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、…）であり得、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、…）および適切なサンプリング構造（例えば、ＹＣｒＣＢ４：２：０、ＹＣｒＣＢ４：４：４）であり得るデジタルビデオ・サンプル・ストリームの形態で提供し得る。メディア供給システムでは、ビデオソース４０１は、これまでに準備されたビデオを格納する記憶装置であり得る。ビデオ会議システムでは、ビデオソース４０１は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順番に見たときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、画素の空間配列として編成されてもよく、各画素は、使用中のサンプリング構造、色空間などに応じて、１つまたは複数のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によれば、エンコーダ４００は、リアルタイムで、または用途によって必要とされる他の任意の時間制約下で、ソース・ビデオ・シーケンスのピクチャをコーディング済みビデオシーケンス４１０にコーディングおよび圧縮し得る。適切なコーディング速度にすることが、コントローラ４０２の１つの機能である。コントローラは、以下に説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。分かりやすくするために、結合は描かれていない。コントローラによって設定されるパラメータには、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値など）、ピクチャサイズ、ピクチャのグループ（ＧＯＰ）レイアウト、最大動きベクトル検索範囲などを含めることができる。当業者であれば、コントローラ４０２の他の機能は、それらが特定のシステム設計のために最適化されたビデオエンコーダ４００に関係し得るため、容易に識別することができる。

一部のビデオエンコーダは、当業者が「コーディングループ」として容易に認識するものにおいて動作する。過度に簡略化した説明として、コーディングループは、エンコーダ４００（以降「ソースコーダ」）（コーディングされる入力ピクチャと、参照ピクチャとに基づいてシンボルを作成する役割を果たす）のエンコーディング部分、およびシンボルを再構築して（リモート）デコーダも作成するであろうサンプルデータを作成するエンコーダ４００に組み込まれた（ローカル）デコーダ４０６で構成され得る（シンボルとコーディング済みビデオビットストリームとの間の任意の圧縮は、開示された主題で考慮されているビデオ圧縮技術では無損失であるため）。再構築されたサンプルストリームは、参照ピクチャメモリ４０５に入力される。シンボルストリームの復号は、デコーダの場所（ローカルまたはリモート）に関係なくビットイグザクト結果をもたらすため、参照ピクチャバッファコンテンツもまた、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えると、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、例えばチャネル誤りのために同期性を維持できない場合に結果として生じるドリフト）のこの基本原理は、当業者には周知である。

「ローカル」デコーダ４０６の動作は、「リモート」デコーダ３００の動作と同じであってよく、これは、図３に関連して上記で詳細に既に説明されている。しかしながら、図４も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ４０８およびパーサ３０４によるコーディング済みビデオシーケンスへのシンボルの符号化／復号は可逆的であり得るため、チャネル３０１、受信器３０２、バッファ３０３およびパーサ３０４を含むデコーダ３００のエントロピー復号部分は、ローカルデコーダ４０６で完全には実施されない場合がある。

この時点で言えることは、デコーダ内に存在する解析／エントロピー復号を除く任意のデコーダ技術もまた必然的に、対応するエンコーダにおいて、実質的に同一の機能形態で存在する必要があるということである。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略することができる。特定のエリアにおいてのみ、より詳細な説明が必要であり、以下に示される。

その動作の一部として、ソースコーダ４０３は、動き補償予測コーディングを実行してよく、これは、「参照フレーム」として指定された、ビデオシーケンスからの１つ以上の以前にコーディングされたフレームを参照して入力フレームを予測的にコーディングする。この方法において、コーディングエンジン４０７は、入力フレームの画素ブロックと、入力フレームへの予測参照として選択され得る参照フレームの画素ブロックとの差をコーディングする。

ローカルビデオデコーダ４０６は、ソースコーダ４０３によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディング済みビデオデータを複合し得る。コーディングエンジン４０７の動作は、有利には、非可逆プロセスであり得る。コーディング済みビデオデータがビデオデコーダ（図４には示されていない）で復号され得るとき、再構築されたビデオシーケンスは、通常、多少の誤差を伴うソース・ビデオ・シーケンスの複製であり得る。ローカルビデオデコーダ４０６は、ビデオデコーダによって参照フレームに対して実行され得る複合処理を複製し、再構築された参照フレームを、例えばキャッシュであり得る参照ピクチャメモリ４０５に格納させてよい。このようにして、エンコーダ４００は、（伝送エラーのない）遠端のビデオデコーダによって取得されることになる再構築された参照フレームとして共通の内容を有する再構築された参照フレームのコピーをローカルに格納し得る。

予測器４０４は、コーディングエンジン４０７のための予測検索を行い得る。すなわち、コーディングすべき新しいフレームに対して、予測器４０４は、サンプルデータ（候補参照画素ブロックとして）または新しいピクチャの適切な予測参照として機能し得る、参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて参照ピクチャメモリ４０５を検索し得る。予測器４０４は、適切な予測参照を見出すために、画素ブロックごとのサンプルブロックに基づいて動作し得る。場合によっては、予測器４０４によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ４０５に格納された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ４０２は、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、例えば、ビデオコーダであり得る、ソースコーダ４０３のコーディング動作を管理し得る。

すべての前述の機能ユニットの出力は、エントロピーコーダ４０８でエントロピーコーディングを受け得る。エントロピーコーダは、例えばハフマンコーディング、可変長コーディング、算術コーディングなどの、当業者に既知の技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットによって生成されたシンボルをコーディング済みビデオシーケンスに変換する。

送信器４０９は、エントロピーコーダ４０８によって作成されたコーディング済みビデオシーケンスをバッファに入れて、符号化されたビデオデータを格納することになる記憶装置へのハードウェア／ソフトウェアリンクであり得る通信チャネル４１１を介した送信のためにそれを準備し得る。送信機４０９は、ソースコーダ４０３からのコーディング済みのビデオデータを、送信される他のデータ、例えば、コーディング済みの音声データおよび／または補助データストリーム（ソースは図示せず）とマージしてよい。

コントローラ４０２は、エンコーダ４００の動作を管理し得る。コーディング中に、コントローラ４０２は、コーディング済みピクチャのそれぞれにいくつかのコーディング済みピクチャタイプを割り当ててもよく、これは、各ピクチャに適用され得るコーディング技術に影響を及ぼす場合がある。例えば、ピクチャは、多くの場合、以下のフレームタイプのうちの１つとして割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、シーケンス内の任意の他のフレームを予測のソースとして使用せずにコーディングおよび復号され得るピクチャであり得る。いくつかのビデオコーデックは、例えば独立デコーダリフレッシュピクチャなどを含む、様々なタイプのイントラピクチャを可能にする。当業者であれば、Ｉピクチャのこれらの変形例およびそれらのそれぞれの用途および特徴を認識している。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために最大で１つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るピクチャであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために、最大で２つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構築のために３つ以上の参照ピクチャおよび関連メタデータを使用することができる。

ソースピクチャは、一般に、複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、または１６×１６サンプルのブロック）に空間的に細分化され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように、他の（既にコーディング済みの）ブロックを参照して予測的にコーディングされてもよい。例えば、Ｉピクチャのブロックは、非予測的にコーディングされてもよく、または同じピクチャの既にコーディング済みのブロックを参照して予測的にコーディングされてもよい（空間予測またはイントラ予測）。Ｐピクチャの画素ブロックは、空間予測を介して、または以前にコーディングされた１つの参照ピクチャを参照する時間予測を介して、非予測的にコーディングされ得る。Ｂピクチャの画素ブロックは、空間予測を介して、または以前にコーディングされた１つまたは２つの参照ピクチャを参照する時間予測を介して、非予測的にコーディングされ得る。

例えばビデオコーダであってもよいエンコーダ４００は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行することができる。その動作において、エンコーダ４００は様々な圧縮動作を実行してもよく、これには入力ビデオシーケンスで時間的および空間的冗長性を利用する予測コーディング動作が含まれる。したがって、コーディング済みのビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠することができる。

一実施形態では、送信器４０９は、符号化されたビデオと共に追加のデータを送信し得る。ソースコーダ４０３は、そのようなデータを、コーディング済みのビデオシーケンスの一部として含み得る。追加のデータは、時間層／空間層／ＳＮＲ強化層、冗長なピクチャおよびスライスなどの他の形式の冗長データ、補足拡張情報（ＳＥＩ）メッセージ、視覚ユーザビリティ情報（ＶＵＩ）パラメータセットフラグメントなどを含み得る。

図５は、ＯＭＡＦで記述された３６０度仮想現実（ＶＲ３６０）ストリーミングを可能にし得る全方向メディア・アプリケーション・フォーマット（ＯＭＡＦ）における例示的なビューポート依存処理の簡略化されたブロックスタイルワークフロー図５００を示している。

取得ブロック５０１において、画像データがＶＲ３６０内のシーンを表すことができる場合には、同じ時間インスタンスの複数の画像および音声のデータなどのビデオデータＡが取得される。処理ブロック５０３において、同じ時間インスタンスの画像Ｂ_ｉは、スティッチングされること、１つまたは複数の仮想現実（ＶＲ）角度または他の角度／視点に関して投影された画像にマッピングされること、および領域ごとにパックされることのうちの１つまたは複数によって処理される。さらに、そのような処理された情報および他の情報のいずれかを示すメタデータを作成して、配信およびレンダリング処理を支援することができる。

データＤに関して、画像符号化ブロック５０５において、投影されたピクチャはデータＥ_ｉに符号化され、メディアファイルに構成され、ビューポート非依存ストリーミングにおいて、ビデオ符号化ブロック５０４において、ビデオピクチャは、例えば単層ビットストリームとしてデータＥ_ｖとして符号化され、データＢ_ａに関して、音声データはまた、音声符号化ブロック５０２においてデータＥ_ａに符号化されてもよい。

データＥ_ａ、Ｅ_ｖ、およびＥ_ｉ、全コーディング済みビットストリームＦ_ｉおよび／またはＦは、（コンテンツ配信ネットワーク（ＣＤＮ）／クラウド）サーバに格納されてよく、典型的には、配信ブロック５０７などで、またはそうでなければＯＭＡＦプレーヤ５２０に完全に送信されてよく、デコーダによって完全に復号され得ることで、現在のビューポートに対応する復号されたピクチャの少なくとも特定の領域が、様々なメタデータ、ファイル再生、および配向／ビューポートメタデータ、例えば、そのデバイスのビューポート仕様に関してＶＲ画像デバイスを通してユーザが見ている可能性のある角度などに関して、ヘッド／アイトラッキングブロック５０８から、表示ブロック５１６においてユーザにレンダリングされる。ＶＲ３６０の明確な特徴は、任意の特定の時間にビューポートのみが表示され得ることであり、そのような特徴を利用して、ユーザのビューポート（または推奨されたビューポート時限メタデータなどの任意の他の基準）に応じた選択的配信により、全方向ビデオシステムの性能を向上させることができることである。例えば、ビューポート依存型配信は、例示的な実施形態によるタイルベースのビデオコーディングによって可能にすることができる。

上述した符号化ブロックでのように、例示的な実施形態によるＯＭＡＦプレーヤ５２０は、データＦ’および／またはＦ’_ｉならびにメタデータのうちの１つまたは複数のファイル／セグメントカプセル化解除に関してそのような符号化の１つまたは複数のファセットを同様に逆転させ、音声復号ブロック５１０において音声データＥ’_ｉ、ビデオ復号ブロック５１３においてビデオデータＥ’_ｖ、および画像復号ブロック５１４において画像データＥ’_ｉを復号して、音声レンダリングブロック５１１におけるデータＢ’_ａの音声レンダリングおよび画像レンダリングブロック５１５におけるデータＤ’の画像レンダリングを進めて、配向／ビューポートメタデータなどの様々なメタデータに従ってＶＲ３６０フォーマットで、表示ブロック５１６において表示データＡ’_ｉを出力し、スピーカ／ヘッドフォンブロック５１２において音声データＡ’_ｓを出力することができる。様々なメタデータは、ＯＭＡＦプレーヤ５２０のユーザによって、またはユーザのために選択され得る様々なトラック、言語、品質、ビューに応じてデータ復号およびレンダリングプロセスのうちの１つに影響を及ぼす可能性があり、本明細書に記載される処理の順序は、例示的な実施形態のために提示されており、他の例示的な実施形態による他の順序で実施される場合もあることを理解されたい。

図６は、６自由度メディアの取り込み／生成／（デ）コーディング／レンダリング／表示に関する点群データ（本明細書では「Ｖ－ＰＣＣ」）の視野位置および角度依存処理を有する（コーディング済み）点群データの簡略化されたブロックスタイルコンテンツフロープロセス図６００を示す。記載された特徴は、別々に使用されてもよく、または任意の順序で組み合わされてもよく、中でもとりわけ例示されるような符号化および復号などの要素は、処理回路（例えば、１つまたは複数のプロセッサ、あるいは１つまたは複数の集積回路）によって実装されてもよく、１つまたは複数のプロセッサは、例示的な実施形態による非一時的コンピュータ可読媒体に記憶されたプログラムを実行してもよいことを理解されたい。

図６００は、Ｖ－ＰＣＣによるコーディング済み点群データのストリーミングのための例示的な実施形態を示す。

ボリュームデータ取得ブロック６０１では、現実世界の視覚的シーンまたはコンピュータ生成の視覚的シーン（またはそれらの組み合わせ）が、一セットのカメラデバイスによって取り込まれてよい、あるいはコンピュータによってボリュームデータとして合成されてもよく、任意のフォーマットを有し得るボリュームデータは、点群ブロック６０２への変換における画像処理を介して、（量子化された）点群データフォーマットに変換されてよい。例えば、ボリュームデータからのデータは、例示的な実施形態によれば、ボリュームデータおよび任意の関連データから以下に説明する値の１つまたは複数を所望の点群フォーマットに引き寄せることによって点群の点の１つに変換された領域データによる領域データであってもよい。例示的な実施形態によれば、ボリュームデータは、例えば３Ｄデータセットの２Ｄ投影を投影され得るスライスなどの２Ｄ画像の３Ｄデータセットであってもよい。例示的な実施形態によれば、点群データフォーマットは、１つまたは複数の様々な空間内のデータ点の表現を含み、ボリュームデータを表すために使用されてよく、時間的冗長性などに関してサンプリングおよびデータ圧縮に関する改善を提供することができ、例えば、ｘ、ｙ、ｚのフォーマットの点群データは、クラウドデータの複数の点の各点において、色値（例えば、ＲＧＢなど）、輝度、強度などを表し、プログレッシブ復号、多角形メッシュ、直接レンダリング、２Ｄ四分木データの八分木３Ｄ表現と共に使用することができる。

画像への投影ブロック６０３において、取得された点群データは、２Ｄ画像上へ投影され、かつビデオベースの点群コーディング（Ｖ－ＰＣＣ）を用いて画像／ビデオピクチャとして符号化されてもよい。投影された点群データは、属性、ジオメトリ、占有マップ、および例えばとりわけ、ペインタのアルゴリズム、レイキャスティングアルゴリズム、（３Ｄ）二値空間パーティションアルゴリズムなどを用いた点群データ再構成に使用される他のメタデータで構成されてよい。

一方、シーン生成器ブロック６０９において、シーン生成器は、例えばディレクタの意図またはユーザの好みにより、６自由度（ＤｏＦ）メディアをレンダリングおよび表示するために使用されるべきいくつかのメタデータを生成してもよい。そのような６ＤｏＦメディアは、点群コーディング済みデータ内の、または少なくともそれに応じた仮想体験に対する前後、上下、および左右の移動を可能にする追加の次元に加えて、３Ｄ軸Ｘ、Ｙ、Ｚ上の回転変化からのシーンの３６０ＶＲのような３Ｄビューを含んでもよい。シーン記述メタデータは、コーディング済み点群データおよびＶＲ３６０、明視野、音声などを含む他のメディアデータから構成される１つまたは複数のシーンを定義し、図６および関連する記述に示すように、１つまたは複数のクラウドサーバおよび／またはファイル／セグメントカプセル化／カプセル化解除処理に提供されてよい。

上述した（また理解されるように、音声符号化も上述のように提供されてよい）ビデオ符号化および画像符号化と同様のビデオ符号化ブロック６０４および画像符号化ブロック６０５の後、ファイル／セグメントカプセル化ブロック６０６は、コーディング済み点群データが、ファイル再生のためのメディアファイルに、あるいは初期化セグメントと、１つまたは複数のビデオコンテナフォーマットなどの特定のメディアコンテナファイルフォーマットに従ってストリーミングするためのメディアセグメントとのシーケンスに構成されるように処理し、中でもとりわけそのような記述は例示的な実施形態を表すなど、後述するＤＡＳＨに関して使用されてよい。ファイルコンテナはまた、シーン生成器ブロック１１０９からなどのシーン記述メタデータをファイルまたはセグメントに含んでもよい。

例示的な実施形態によれば、ファイルは、そのようなファイルがユーザまたは作成者の入力に応じて要求に応じて送信され得るように、シーン記述メタデータに応じてカプセル化されて、少なくとも１つの視野位置およびその視野位置における少なくとも１つまたは複数の角度ビューをそれぞれ６ＤｏＦメディアのうちの１つまたは複数の時間に含む。さらに、例示的な実施形態によれば、そのようなファイルのセグメントは、そのようなファイルの１つまたは複数の部分、例えば、単一の視点および１つまたは複数の時点におけるその場所での角度を示す６ＤｏＦメディアの一部を含んでもよく、しかしながら、これらは単なる例示的な実施形態であり、ネットワーク、ユーザ、作成者の能力および入力などの様々な条件に応じて変更されてもよい。

例示的な実施形態によれば、点群データは、ビデオ符号化ブロック６０４およびビデオ符号化ブロック６０５のうちの１つまたは複数などにおいて独立してコーディングされる複数の２Ｄ／３Ｄ領域に分割される。次に、点群データの各独立してコーディングされたパーティションは、ファイルおよび／またはセグメント内のトラックとしてファイル／セグメントカプセル化ブロック６０６でカプセル化されてよい。例示的な実施形態によれば、各点群トラックおよび／またはメタデータトラックは、視野位置／角度依存処理のためのいくつかの有用なメタデータを含んでもよい。

例示的な実施形態によれば、視野位置／角度依存処理に有用な、ファイル／セグメントカプセル化ブロックに関してカプセル化されたファイルおよび／またはセグメントに含まれるなどのメタデータは、以下の、インデックスを有する２Ｄ／３Ｄパーティションのレイアウト情報、３Ｄボリュームパーティションを１つまたは複数の２Ｄパーティション（例えば、タイル／タイルグループ／スライス／サブピクチャのいずれか）に関連付ける（動的）マッピング情報、６ＤｏＦ座標系上の各３Ｄパーティションの３Ｄ位置、
３Ｄボリュームパーティションに対応する代表的視野位置／角度リスト、選択された視野位置／角度リストに対応する、２Ｄ／３Ｄパーティションのインデックス、各２Ｄ／３Ｄパーティションの品質（ランク）情報、および、例えば各視野位置／角度に応じた各２Ｄ／３Ｄパーティションのレンダリング情報のうちの１つまたは複数を含む。Ｖ－ＰＣＣプレーヤのユーザによって、またはＶ－ＰＣＣプレーヤのユーザのためにコンテンツ作成者によって指示されるなど、要求されたときにそのようなメタデータを呼び出すことにより、そのようなメタデータに関して所望される６ＤｏＦメディアの特定の部分に関してより効率的な処理を可能にすることができ、それにより、Ｖ－ＰＣＣプレーヤは、そのメディアの未使用部分を配信するのではなく、他の部分よりも６ＤｏＦメディアの部分にフォーカスされた高品質の画像を配信することができる。

ファイル／セグメントカプセル化ブロック６０６から、ファイルまたはファイルの１つまたは複数のセグメントは、配信機構（例えば、ＨＴＴＰ上のダイナミック・アダプティブ・ストリーミング（ＤＡＳＨ））を使用して、Ｖ－ＰＣＣプレーヤ６２５およびクラウドサーバブロック６０７などのクラウドサーバのいずれかに直接配信されてよく、クラウドサーバは、ファイルから１つまたは複数のトラックおよび／または１つまたは複数の特定の２Ｄ／３Ｄパーティションを抽出することができ、複数のコーディング済み点群データを１つのデータにマージしてもよい。

位置／視野角追跡ブロック６０８などのデータによれば、現在の視野位置および角度がクライアントシステムにおいて６ＤｏＦ座標系で定義されている場合、クラウドサーバブロック６０７において、視野位置／角度メタデータは、ファイル／セグメントカプセル化ブロック６０６から配信されるか、またはクラウドサーバに既にあるファイルまたはセグメントから他の方法で処理されてもよく、その結果、クラウドサーバは、例えばＶ－ＰＣＣプレーヤ６２５を有するクライアントシステムからのメタデータに応じて、適切なパーティションをストアファイルから抽出し、それらを（必要に応じて）マージすることができ、抽出されたデータは、ファイルまたはセグメントとしてクライアントに配信することができる。

そのようなデータに関して、ファイル／セグメントカプセル化解除ブロック６１５では、ファイル・デカプセル化器が、ファイルまたは受信されたセグメントを処理し、コーディング済みビットストリームを抽出し、メタデータを解析し、ビデオ復号および画像復号ブロック６１０および６１１では、コーディング済み点群データが、次いで、点群再構築ブロック６１２で点群データに復号および再構築され、再構築された点群データは、表示ブロック６１４で表示することができる、および／またはシーン生成器ブロック６０９に従って、シーン記述データに関してシーン構成ブロック６１３における１つまたは複数の様々なシーン記述に応じて最初に構成されてもよい。

上記を考慮して、そのような例示的なＶ－ＰＣＣフローは、複数の２Ｄ／３Ｄ領域についての記載された分割能力、単一の適合コーディング済みビデオビットストリームへのコーディング済み２Ｄ／３Ｄパーティションの圧縮ドメインアセンブリの能力、および適合コーディング済みビットストリームへのコーディング済みピクチャのコーディング済み２Ｄ／３Ｄのビットストリーム抽出能力のうちの１つまたは複数を含むＶ－ＰＣＣ規格に対する利点を表し、そのようなＶ－ＰＣＣシステムサポートは、上述のメタデータのうちの１つまたは複数を搬送するメタデータを収容する機構をサポートするためにＶＶＣビットストリームのためのコンテナ形成を含むことによってさらに改善される。

その観点から、および以下でさらに説明する例示的な実施形態によれば、「メッシュ」という用語は、体積測定対象物の表面を表す１つまたは複数の多角形の構成を示す。各多角形は、３Ｄ空間内のその頂点と、接続情報と呼ばれる、頂点がどのように接続されているかの情報とによって定義される。任意選択で、色、法線などの頂点属性をメッシュ頂点に関連付けることができる。属性はまた、メッシュを２Ｄ属性マップでパラメトライズするマッピング情報を利用することによって、メッシュの表面に関連付けられてよい。そのようなマッピングは、ＵＶ座標またはテクスチャ座標と呼ばれ、メッシュ頂点に関連付けられるパラメトリック座標のセットによって定義され得る。２Ｄ属性マップは、テクスチャ、法線、変位などの高解像度属性情報を記憶するために使用される。かかる情報は、例示の実施形態によるテクスチャマッピングおよびシェーディングなどの種々の目的のために使用され得る。

それにも関わらず、動的メッシュシーケンスは、これが経時的に変化するかなりの量の情報で構成され得るので、大量のデータを必要とする場合がある。例えば、そのメッシュの情報がフレームごとに変化しない「静的メッシュ」または「静的メッシュシーケンス」とは対照的に、「動的メッシュ」または「動的メッシュシーケンス」は、そのメッシュによって表される頂点のうちの１つがフレームごとに変化する動きを示す。したがって、そのようなコンテンツを保存し、かつ送信するために効率的な圧縮技術が必要となる。メッシュ圧縮標準ＩＣ、ＭＥＳＨＧＲＩＤ、ＦＡＭＣは、一定の接続性および時変ジオメトリおよび頂点属性を有する動的メッシュに対処するためにＭＰＥＧによって以前に開発された。しかしながら、これらの規格は、時変属性マップおよび接続性情報を考慮に入れない。ＤＣＣ（デジタルコンテンツ作成）ツールは、通常、そのような動的メッシュを生成する。これに対応して、特にリアルタイム制約下で、定量的取得技術が一定の接続性動的メッシュを生成することは困難である。この種のコンテンツは、既存の規格ではサポートされていない。本明細書の例示的な実施形態によれば、時変接続情報および任意選択的に時変属性マップを有する動的メッシュを直接処理するための新しいメッシュ圧縮規格の態様が記載されており、この規格は、リアルタイム通信、ストレージ、自由視点ビデオ、ＡＲおよびＶＲなどの様々なアプリケーションの非可逆および可逆圧縮を対象とする。ランダムアクセスやスケーラブル／プログレッシブコーディングなどの機能も考えられる。

図７は、２Ｄアトラスサンプリングベースの方法などのための１つの動的メッシュ圧縮の例示的なフレームワーク７００を表す。入力メッシュ７０１の各フレームは、追跡、再メッシュ化、パラメータ化、ボクセル化などの一連の動作によって前処理することができる。なお、これらの動作はエンコーダのみとすることができ、これは、それらが復号化プロセスの一部ではない可能性があることを意味し、そのような可能性は、エンコーダのみに０を示し、他に１を示すなどのフラグによってメタデータで通知することができる。その後、２ＤＵＶアトラス７０２を有するメッシュを取得することができ、メッシュの各頂点は、２Ｄアトラス上の１つまたは複数の関連するＵＶ座標を有する。次いで、メッシュは、２Ｄアトラス上でサンプリングすることによって、ジオメトリマップおよび属性マップを含む複数のマップに変換することができる。次に、これらの２Ｄマップは、ＨＥＶＣ、ＶＶＣ、ＡＶ１、ＡＶＳ３などのビデオ／画像コーデックによってコーディングすることができる。デコーダ７０３側では、復号された２Ｄマップからメッシュを再構築することができる。任意の後処理およびフィルタリングを再構築されたメッシュ７０４に適用することもできる。３Ｄメッシュ再構成の目的で、他のメタデータがデコーダ側にシグナリングされる場合があることに留意されたい。境界頂点のｕｖおよびｘｙｚ座標を含むチャート境界情報は、ビットストリーム内で予測、量子化、およびエントロピーコーディングすることができることに留意されたい。量子化ステップサイズは、品質とビットレートとの間のトレードオフのためにエンコーダ側で構成することができる。

いくつかの実装形態では、３Ｄメッシュはいくつかのセグメント（またはパッチ／チャート）に分割することができ、１つまたは複数の３Ｄメッシュセグメントは、例示的な実施形態による「３Ｄメッシュ」であるとみなされてよい。各セグメントは、それらのジオメトリ、属性、および接続性情報と関連付けられた接続頂点のセットから構成される。図８のボリュームデータの例８００に示すように、上述の２ＤＵＶアトラス７０２ブロックなどの、３Ｄメッシュセグメントから２ＤチャートにマッピングするＵＶパラメータ化プロセス８０２は、１つまたは複数のメッシュセグメント８０１を２ＤＵＶアトラス８０４内の２Ｄチャート８０３にマッピングする。メッシュセグメント内の各頂点（ｖ_ｎ）には、２ＤＵＶアトラス内の２ＤＵＶ座標が割り当てられる。２Ｄチャート内の頂点（ｖ_ｎ）は、それらの３Ｄ対応物として接続された成分を形成することに留意されたい。各頂点のジオメトリ、属性、および接続情報は、それらの３Ｄ対応物からも同様に継承され得る。例えば、頂点ｖ_４が頂点ｖ_０，ｖ_５，ｖ_１およびｖ_３に直接接続しているという情報を示してもよく、他の各頂点の各々の同様の情報もまた、同じように示してもよい。さらに、そのような２Ｄテクスチャメッシュは、例示的な実施形態によれば、色情報などの情報を、各三角形のパッチ、例えば１つの「パッチ」としてのｖ_２，ｖ_５，ｖ_３などによるパッチごとにさらに示す。

例えば、図８の例８００の特徴に加えて、３Ｄメッシュセグメント８０１を複数の別々の２Ｄチャート９０１および９０２にマッピングすることもできる図９の例９００を参照されたい。この場合、３Ｄの頂点は、２ＤＵＶアトラスの複数の頂点に対応することができる。図９に示すように、同じ３Ｄメッシュセグメントは、２ＤＵＶアトラスにおいて、図８のような単一のチャートの代わりに、複数の２Ｄチャートにマッピングされる。例えば、３Ｄ頂点ｖ_１およびｖ_４はそれぞれ、２つの２Ｄ対応関係ｖ_１，ｖ_１’およびｖ_４，ｖ_４’を有する。したがって、３Ｄメッシュの一般的な２ＤＵＶアトラスは、図１４に示されるように、複数のチャートで構成されてよく、各チャートは、それらの３Ｄジオメトリ、属性、および接続性情報に関連付けられた複数の（通常は３つ以上の）頂点を含んでもよい。

図９は、境界頂点Ｂ_０、Ｂ_１、Ｂ_２、Ｂ_３、Ｂ_４、Ｂ_５、Ｂ_６、Ｂ_７を有するチャート内の導出された三角測量を示す例９０３を示す。そのような情報が提示されると、任意の三角測量法を適用して（境界頂点およびサンプリングされた頂点を含む）頂点間の接続性を作成することができる。例えば、各頂点について、最も近い２つの頂点を見つける。または、すべての頂点について、設定された試行回数の後に最小数の三角形が達成されるまで、三角形を連続的に生成する。実施例９０３に示すように、一般に境界頂点に最も近く、他の三角形と共有されてもされなくてもよい独自の寸法を有する、様々な規則的に成形された繰り返し三角形および様々な異形三角形が存在する。接続性情報は、明示的なシグナリングによって再構築することもできる。暗黙的な規則によって多角形を復元することができない場合、エンコーダは、例示的な実施形態に従ってビットストリーム内の接続性情報をシグナリングすることができる。

境界頂点Ｂ_０、Ｂ_１、Ｂ_２、Ｂ_３、Ｂ_４、Ｂ_５、Ｂ_６、Ｂ_７は、２ＤＵＶ空間内に定義される。境界エッジは、そのエッジが１つの三角形にのみに現れるかどうかをチェックすることによって決定することができる。境界頂点の以下の情報、すなわちジオメトリ情報、例えば、現在は２ＤＵＶパラメトリック形式であるにもかかわらず３ＤＸＹＺ座標、および２ＤＵＶ座標は重要であり、例示的な実施形態によるビットストリームでシグナリングされるべきである。

図９に示すように、３Ｄの境界頂点が２ＤＵＶアトラスの複数の頂点に対応する場合、３ＤＸＵＺから２ＤＵＶへのマッピングは１対複数とすることができる。したがって、マッピング関数を示すためにＵＶ－ＸＹＺ（またはＵＶ２ＸＹＺと呼ばれる）インデックスをシグナリングすることができる。ＵＶ２ＸＹＺは、各２ＤＵＶ頂点を３ＤＸＹＺ頂点に対応させるインデックスの１Ｄ配列であってもよい。

例示的な実施形態によれば、メッシュ信号を効率的に表すために、メッシュ頂点のサブセットが、それらの間の接続性情報と共に最初にコーディングされてもよい。元のメッシュでは、元のメッシュからサブサンプリングされるため、これらの頂点間の接続は存在しない場合がある。頂点間の接続性情報をシグナリングする方法は様々であり、したがって、そのようなサブセットはベースメッシュまたはベース頂点と呼ばれる。

例示的な実施形態によれば、動的メッシュ圧縮のためにいくつかの方法が実施され、これらは、上述のエッジベースの頂点予測フレームワークの一部であり、この場合、ベースメッシュが最初にコーディングされ、次いでベースメッシュのエッジからの接続情報に基づいて、より多くの追加の頂点が予測される。方法は、個別に適用される、任意の形態の組み合わせによって適用される場合もあることに留意されたい。

例えば、図１０の予測モード例フローチャート１００１のための頂点グループ化を考える。Ｓ２０１において、メッシュ内の頂点を取得することができ、Ｓ２０２において、予測目的のために異なるグループに分けることができ、例えば、図９を参照されたい。一例では、分割は、Ｓ２０４においてパッチ／チャート分割を使用して行われる。別の例では、分割は各パッチ／チャートＳ２０５の下で行われる。Ｓ２０４に進むか、Ｓ２０５に進むかの決定Ｓ２０３は、フラグなどによってシグナリングされてもよい。Ｓ２０５の場合、同じパッチ／チャートのいくつかの頂点は予測グループを形成し、同じ予測モードを共有するが、同じパッチ／チャートのいくつかの他の頂点は別の予測モードを使用することができる。ここで、「予測モード」は、デコーダがパッチを含むビデオコンテンツの予測を行うために使用する特定のモードであるとみなされてよく、予測モードは、イントラ予測モードとインター予測モードとにカテゴリ分けすることができ、各カテゴリ内で、デコーダが選択する異なる特定のモードが存在し得る。例示的な実施形態によれば、各グループ、「予測グループ」は、例示的な実施形態による同じ特定のモード（例えば、特定の角度における角度モード）または同じカテゴリの予測モード（例えば、すべてのイントラ予測モードであるが、異なる角度で予測することができる）を共有することができる。Ｓ２０６におけるそのようなグループ化は、グループごとに含まれる頂点のそれぞれの数を決定することによって、異なるレベルで割り当てることができる。例えば、パッチ／チャート内の走査順序に従う６４、３２、または１６個の頂点ごとに、例示的な実施形態による同じ予測モードが割り当てられ、他の頂点は異なるように割り当てられてもよい。各グループについて、予測モードはイントラ予測モードまたはインター予測モードであり得る。これはシグナリングする、または割り当てることができる。例示的なフローチャート１０００によれば、メッシュフレームまたはメッシュスライスのフラグがイントラタイプを示すかどうかをチェックすることなどによって、Ｓ２０７においてメッシュフレームまたはメッシュスライスがイントラタイプであると判定された場合、そのメッシュフレームまたはメッシュスライス内のすべての頂点グループは、イントラ予測モードを使用するものとし、そうでない場合、Ｓ２０８において、イントラ予測モードまたはインター予測モードのいずれかが、その中のすべての頂点についてグループごとに選択されてよい。

さらに、イントラ予測モードを使用するメッシュ頂点のグループの場合、その頂点は、現在のメッシュの同じサブパーティション内の以前にコーディング済みの頂点を使用することによってのみ予測することができる。時として、サブパーティションは、例示的な実施形態によれば現在のメッシュ自体とすることができ、インター予測モードを使用するメッシュ頂点のグループの場合、その頂点は、例示的な実施形態によれば、別のメッシュフレームからの以前にコーディング済みの頂点を使用することによってのみ予測することができる。上記の各情報は、フラグなどによって決定およびシグナリングされ得る。前記予測特徴はＳ２１０で行われてもよく、前記予測およびシグナリングの結果はＳ２１１で発生してもよい。

例示的な実施形態によれば、例示的なフローチャート１０００、および後述するフローチャート１１００の頂点のグループ内の各頂点について、予測後、残差は、現在の頂点からその予測子へのシフトを示す３Ｄ変位ベクトルとなる。頂点のグループの残差は、さらに圧縮される必要がある。１つの例において、Ｓ２１１における変換は、そのシグナル伝達と共に、エントロピーコーディングの前に、頂点グループの残差に適用され得る。変位ベクトルのグループのコーディングを処理するために、以下の方法を実施することができる。例えば、１つの方法では、変位ベクトルのグループ、いくつかの変位ベクトル、またはその成分が０値のみを有する場合を適切に通知する。別の実施形態では、このベクトルが非ゼロ成分を有するかどうかのフラグが変位ベクトルごとにシグナリングされ、そうでない場合、この変位ベクトルのすべての成分のコーディングをスキップすることができる。さらに、別の実施形態では、変位ベクトルのグループごとに、このグループが非ゼロベクトルを有するかどうかフラグがシグナリングされ、そうでない場合、このグループのすべての変位ベクトルのコーディングをスキップすることができる。さらに、別の実施形態では、グループのこの成分が任意の非ゼロベクトルを有するかどうかのフラグが変位ベクトルのグループの各成分についてシグナリングされ、そうでない場合、このグループのすべての変位ベクトルのこの成分のコーディングをスキップすることができる。さらに、別の実施形態では、変位ベクトルのグループまたは変位ベクトルのグループの成分が変換を必要とする場合のシグナリングが存在する場合があり、そうでない場合、変換をスキップすることができ、量子化／エントロピーコーディングをグループまたはグループ成分に直接適用することができる。さらに、別の実施形態では、変位ベクトルのグループごとに、このグループが変換を経る必要があるかどうかのフラグがシグナリングされる場合があり、そうでない場合、このグループのすべての変位ベクトルの変換コーディングをスキップすることができる。さらに、別の実施形態では、群のこの成分が変換を経る必要があるかどうかのフラグが変位ベクトルの群の各成分についてシグナリングされ、そうでない場合、この群のすべての変位ベクトルのこの成分の変換コーディングをスキップすることができる。頂点予測残差の処理に関するこの段落の上述の実施形態はまた、それぞれ異なるパッチ上で組み合わせて並列に実施されてもよい。

図１１は、Ｓ２２１において、メッシュフレームをデータユニット全体としてコーディングして取得することができ、メッシュフレームのすべての頂点または属性がそれらの間に相関を有し得ることを意味する、例示的なフローチャート１１５０を示す。代替として、Ｓ２２２での判定に応じて、メッシュフレームは、Ｓ２２３で、２Ｄビデオまたは２Ｄ画像のスライスまたはタイルと同様の概念で、より小さな独立したサブパーティションに分けることができる。コーディング済みメッシュフレームまたはコーディング済みメッシュサブパーティションには、Ｓ２２４で予測タイプを割り当てることができる。可能な予測タイプは、イントラコーディングタイプおよびインターコーディングタイプを含む。イントラコーディングタイプの場合、同じフレームまたはスライスの再構築された部分からの予測のみがＳ２２５で許可される。一方、インター予測タイプは、Ｓ２２５において、メッシュフレーム内予測に加えて、以前にコーディング済みのメッシュフレームからの予測を可能にする。また、インター予測のタイプは、ＰタイプやＢタイプなど、より多くのサブタイプに分類されてもよい。Ｐタイプでは、予測目的のために１つの予測子のみを使用することができ、Ｂタイプでは、２つの以前にコーディング済みのメッシュフレームからの２つの予測子を使用して予測子を生成されてよい。２つの予測子の加重平均は一例であり得る。メッシュフレームが全体としてコーディングされる場合、フレームは、イントラコーディングまたはインターコーディングされたメッシュフレームとみなすことができる。インターメッシュフレームの場合、ＰタイプまたはＢタイプは、シグナリングを介してさらに識別されてよい。あるいは、メッシュフレームがフレーム内でさらに分割してコーディングされている場合、サブパーティションの各々のための予測割り当てはＳ２２４で発生する。上記の各情報は、フラグなどによって決定およびシグナリングされてもよく、図１０のＳ２１０およびＳ２１１と同様に、前記予測特徴はＳ２２６で発生してもよく、前記予測およびシグナリングの結果はＳ２２７で発生してもよい。

したがって、動的メッシュシーケンスは、時間と共に変化するかなりの量の情報から構成され得るため、大量のデータを必要とし得るが、そのようなコンテンツを保存し送信するために効率的な圧縮技術が必要とされ、図２０および図２１について上述した特徴は、同じメッシュフレーム内の以前に復号された頂点（イントラ予測）または以前にコーディング済みのメッシュフレームからの以前の復号された頂点（インター予測）のいずれかを使用することにより、少なくとも改善されたメッシュ頂点３Ｄ位置予測を可能にすることにより、そのような改善された効率を表す。

さらに、例示的な実施形態は、第２の層１３０２および第１の層１３０１などのその前の層の再構築された頂点のうちの１つまたは複数に基づいて、メッシュの第３の層１３０３の変位ベクトルを生成してもよい。第２の層１３０２のインデックスがＴであると仮定すると、第３の層１３０３Ｔ＋１の頂点の予測子は、少なくとも現在の層または第２の層１３０２の再構築された頂点に基づいて生成される。そのような層ベースの予測構造の一例が図１３の例１３００に示されており、これは再構成ベースの頂点予測、すなわちエッジベースの補間を使用するプログレッシブ頂点予測を示しており、予測子は予測子頂点ではなく以前に復号された頂点に基づいて生成される。第１の層１３０１は、その頂点として、その境界に復号された頂点と、それらの復号された頂点の間の線のうちの１つに沿って補間された頂点とを有する第１の多角形１３４０によって境界付けられたメッシュであってもよい。プログレッシブコーディングが第１の層１３０１から第２の層１３０２に進むにつれて、第１の層の補間された頂点のうちの１つから第２の層１３０２の追加の頂点までの変位ベクトルによって追加の多角形１３４１が形成されてもよく、したがって、第２の層１３０２の頂点の総数は第１の層１３０１の頂点の総数よりも多くてもよい。同様に、第３の層１３０３に進むと、第２の層１３０２の追加の頂点は、第１の層１３０１からの復号された頂点と共に、第１の層１３０１から第２の層１３０３に進む際に機能した復号された頂点と同様にコーディングにおいて機能し得る、すなわち、複数の追加の多角形が形成されてもよい。注目すべきことに、そのようなプログレッシブコーディングを示す図１４の例１４００を参照すると、図１３とは異なり、例１４００は、第１の層１４０１から第２の層１４０３、そして第３の層１４０３へと進む際に、追加的に形成された多角形の各々が完全に第１の層１４０１の境界によって形成される多角形の内部にあり得ることを示している。

そのような例１３００および／または１４００については、例示的な実施形態によれば、図１２の例示的なフローチャート１２００を参照されたく、ここでは、現在の層上の補間された頂点は予測値であるため、次の層上の頂点の予測子を生成するために使用される前に、そのような値を再構築する必要がある。これは、Ｓ２３１でベースメッシュをコーディングし、Ｓ２３２で頂点予測を実施し、次にＳ２３３で現在の層の復号された変位ベクトルを層１３０２などの頂点の予測子に追加することによって行われる。次に、この層２３０３の再構築された頂点は、Ｓ２３４でそのような層の追加の頂点値をチェックするなど、前の層のすべての復号された頂点と共に、Ｓ２３５で次の層１３０３の予測子頂点を生成およびシグナリングするために使用することができる。このプロセスは、以下のように要約することもでき、Ｐ［ｔ］（Ｖｉ）は、層ｔ上の頂点Ｖｉの予測子を表し、Ｒ［ｔ］（Ｖｉ）は層ｔ上の再構築された頂点Ｖｉを表し、Ｄ［ｔ］（Ｖｉ）は、層ｔ上の頂点Ｖｉの変位ベクトルを表し、ｆ（＊）は予測子生成器を表し、これは特に、２つの既存の頂点の平均とすることができる。次に、各層ｔについて、例示的な実施形態によれば以下が存在しており、
Ｐ［ｔ］（Ｖｉ）＝ｆ（Ｒ［ｓ｜ｓ＜ｔ］（Ｖｊ）、Ｒ［ｍ｜ｍ＜ｔ］（Ｖｋ））
式中、
ＶｊおよびＶｋは前の層の再構築された頂点である
Ｒ［ｔ］（Ｖｉ）＝Ｐ［ｔ］（Ｖｉ）＋Ｄ［ｔ］（Ｖｉ）－式（１）

次に、１つのメッシュフレーム内のすべての頂点について、それらを層０（ベースメッシュ）、層１、層２、．．．．などに分ける。このとき、１つの層上の頂点の再構成は、前の層上の頂点の再構成に依存する。上記では、Ｐ、ＲおよびＤのそれぞれは、３Ｄメッシュ表現のコンテキスト下の３Ｄベクトルを表す。Ｄは復号された変位ベクトルであり、量子化はこのベクトルに適用されても適用されなくてもよい。

例示的な実施形態によれば、再構築された頂点を使用する頂点予測は、特定の層にのみ適用することができる。例えば、層０および層１である。他の層の場合、頂点予測は、再構成のために変位ベクトルをそれらに追加することなく、隣接する予測子頂点を依然として使用することができる。したがって、これらの他の層は、１つ前の層が再構築するのを待つことなく同時に処理することができる。例示的な実施形態によれば、層ごとに、再構成ベースの頂点予測を選択するか、予測器ベースの頂点予測を選択するかをシグナリングすることができる、または再構成ベースの頂点予測を使用しない層（およびその後続の層）をシグナリングすることができる。

頂点予測子が再構築された頂点によって生成される変位ベクトルについては、ウェーブレット変換などの変換をさらに実行することなく、それらに量子化を適用することができる。頂点予測子が他の予測子頂点によって生成される変位ベクトルについては、変換が必要な場合があり、それらの変位ベクトルの変換係数に量子化を適用することができる。

したがって、動的メッシュシーケンスは、これが経時的に変化するかなりの量の情報から成る場合があるので、大量のデータを必要とする場合がある。したがって、そのようなコンテンツを保存し、かつ送信するために効率的な圧縮技術が必要となる。上述した補間ベースの頂点予測方法のフレームワークでは、変位ベクトルを圧縮することが重要な手順の１つであり、これはコーディング済みビットストリームの大部分を占め、本開示の焦点であり、例えば図１５の特徴は、そのような圧縮を提供することによってそのような問題を軽減する。

さらに、上述した他の例と同様に、それらの実施形態であっても、動的メッシュシーケンスは、時間と共に変化するかなりの量の情報から構成され得るため、大量のデータを必要とする場合があり、したがって、そのようなコンテンツを保存および送信するために効率的な圧縮技術が必要とされる。上記の２Ｄアトラスサンプリングベースの方法のフレームワークでは、デコーダ側でサンプリングされた頂点と境界頂点から接続性情報を推測することによって重要な利点が達成され得る。これは、復号プロセスにおける主要な部分であり、以下に説明するさらなる例の焦点である。

例示的な実施形態によれば、ベースメッシュの接続性情報は、エンコーダ側とデコーダ側の両方の各チャートについて復号された境界頂点およびサンプリングされた頂点から推測（導出）することができる。

上述したのと同様に、任意の三角測量法を適用して、（境界頂点およびサンプリングされた頂点を含む）頂点間の接続性を生み出すことができる。例示的な実施形態によれば、接続性タイプは、シーケンスヘッダ、スライスヘッダなどの高レベル構文でシグナリングすることができる。

上述したように、不規則な形状の三角形メッシュのように、明示的にシグナリングすることによって接続性情報を再構築することもできる。すなわち、暗黙のルールによって多角形を復元することができないと判定された場合、エンコーダはビットストリーム内の接続性情報をシグナリングすることができる。また、例示的な実施形態によれば、そのような明示的なシグナリングのオーバーヘッドは、多角形の境界に応じて低減され得る。

実施形態によれば、境界頂点とサンプリングされた位置との間の接続性情報のみがシグナリングされるように決定され、サンプリングされた位置自体の間の接続性情報が推測される。

また、実施形態のいずれかにおいて、接続性情報は、あるメッシュから別のメッシュへの（予測としての）推測された接続性との差のみがビットストリームでシグナリングされ得るように、予測によってシグナリングされてもよい。

注意として、推測された三角形の配向（三角形ごとに時計回りまたは反時計回りに推測されるなど）は、シーケンスヘッダ、スライスヘッダなどの高レベル構文ですべてのチャートに対してシグナリングされるか、または例示的な実施形態によるエンコーダおよびデコーダによって固定（想定）することができる。推測された三角形の配向は、各チャートに対して異なるようにシグナリングすることもできる。

さらなる注記として、任意の再構築されたメッシュは、元のメッシュとは異なる接続性を有する場合がある。例えば、元のメッシュは三角形メッシュであってもよく、再構築されたメッシュは多角形メッシュ（例えば、クワッドメッシュ）であってもよい。

例示的な実施形態によれば、任意の基本頂点の接続性情報はシグナリングされなくてもよく、代わりに、基本頂点間のエッジは、エンコーダ側とデコーダ側の両方で同じアルゴリズムを使用して導出されてもよい。また、例示的な実施形態によれば、追加のメッシュ頂点の予測された頂点の補間は、ベースメッシュの導出されたエッジに基づいてもよい。

例示的な実施形態によれば、基本頂点の接続性情報がシグナリングされるべきか、導出されるべきかをシグナリングするためにフラグを使用することができ、そのようなフラグは、シーケンスレベル、フレームレベルなど、ビットストリームの異なるレベルでシグナリングすることができる。

例示的な実施形態によれば、基本頂点間のエッジは、エンコーダ側とデコーダ側の両方で同じアルゴリズムを使用して最初に導出される。次いで、ベースメッシュ頂点の元の接続性と比較して、導出されたエッジと実際のエッジとの間の差が通知される。したがって、差分を復号した後、基本頂点の元の接続性を復元することができる。

一例では、導出されたエッジについて、元のエッジと比較したときに誤っていると判定された場合、そのような情報は、（このエッジを形成する頂点の対を示すことによって）ビットストリームでシグナリングされてよく、元のエッジについては、導出されない場合、（このエッジを形成する頂点の対を示すことによって）ビットストリームでシグナリングされてよい。さらに、境界エッジ上の接続性および境界エッジを含む頂点補間は、内部頂点およびエッジとは別に行われてもよい。

したがって、本明細書に記載の例示的な実施形態によって、上記で指摘した技術的問題は、これらの技術的解決策の１つまたは複数によって有利に改善され得る。例えば、動的メッシュシーケンスは、時間と共に変化するかなりの量の情報から構成され得るので、大量のデータを必要とし得るので、本明細書に記載の例示的な実施形態は、そのようなコンテンツを保存し送信するための少なくとも効率的な圧縮技術を表す。

上述の実施形態は、インスタンスベースのメッシュコーディングにさらに適用することができ、インスタンスは、オブジェクトのメッシュまたはオブジェクトの一部であってよい。例えば、図１６の図示例１６００は、様々なインスタンス１６０２（カップのメッシュを表す）、１６０３（スプーンのメッシュを表す）、および１６０４（プレートのメッシュを表す）が存在し、それぞれ分離されコーディングされ得るメッシュ例１６０１を示す。また、インスタンス１６０１、１６０２、１６０３、および１６０４のそれぞれは、以下でさらに説明するバウンディングボックスのそれぞれ１つの中に示されているが、注記として、インスタンス１６０１は「メッシュベースの境界グボックス」によって境界付けられて示されていると考えることができ、インスタンス１６０２、１６０３、および１６０４のそれぞれは、「インスタンスベースのバウンディングボックス」のそれぞれによって境界付けられていると考えることができる。

例示的な実施形態によれば、提案された方法は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。提案された方法は、任意の多角形メッシュに使用されてもよいが、様々な実施形態の実証には三角形メッシュのみが使用されてもよい。上述したように、入力メッシュは１つまたは複数のインスタンスを含むことができ、サブメッシュは１つまたは複数のインスタンスを有する入力メッシュの一部であり、複数のインスタンスをグループ化してサブメッシュを形成することができることが仮定される。

その観点から、図１５は、所与の入力ビット深度（そのビット深度は「ＱＰ」と呼ばれてもよい）で異なるオブジェクトまたは部分を別々に量子化することが提案されている例１５００を示す。例えば、Ｓ１５０１において、１つまたは複数の入力メッシュを取得し、各々を複数のサブメッシュに分離することができる。サブメッシュは、オブジェクト、オブジェクトのインスタンス、またはセグメント化された領域とすることができ、例示的な実施形態によれば、Ｓ１５０２で独立して量子化される。

例示的な実施形態によれば、（ｘ、ｙ、ｚ）座標にｍ個の点を有するメッシュＭは、Ｓ１５０２においてＱＰビット深度によって量子化され得る。すべての三次元（ｘ、ｙ、ｚ）の量子化ステップサイズは、すべての次元におけるバウンディングボックスの最大長さに基づいて決定することができ、ｄ_ｂｂｏｘ＞０である。また、Ｓ１５０３で識別されたメッシュ内のすべてのオブジェクトに対してＳ１５０４で同じ量子化ステップサイズが適用されてもよく、
そのスカラー量子化は、ｉ番目の座標ａ_ｉｊにおけるｊ番目の点に対して、以下のように適用することができ、
式中、θ_ＱＰ＝０．５は、量子化のためのオフセットパラメータである。θｉは、第ｉ次元におけるＭのメッシュの最小座標である。表記法
は床丸め演算子を表す。また、逆量子化された座標は、以下のように均一な逆量子化を用いて計算することができ、
量子化の平均二乗誤差を、
としている。

しかしながら、複雑なシーンでは、最大のオブジェクトは、比較的多くの場合単純であり、より高い量子化ステップサイズを許容することができる背景である。一方、主なオブジェクトは、より小規模であり、以下でさらに説明される様々な実施形態によって説明され得る巨大な量子化誤差を被る。

したがって、図１５の例１５００に示すように、入力メッシュｄ_ｂｂｏｘのバウンディングボックスの最大長は常に、各インスタンスのバウンディングボックスの最大長
として、
以上に設定されてもよく、
ここで、
は入力メッシュ内のすべてのインスタンスまたはセグメント化のセットである。

所与のビット数ＱＰにおいて、インスタンス１６０２（カップのメッシュを表す）、１６０３（スプーンのメッシュを表す）、および１６０４（プレートのメッシュを表す）の各々のすべてのインスタンスの量子化ステップサイズは、常に、
を満たすメッシュベースの量子化ステップサイズ以下であり得る。

したがって、インスタンスごとの量子化誤差が小さくなり、全体の量子化誤差が小さくなる。

様々な実施形態によれば、図１７のフローチャート１７００を見ると、ビット深度は、Ｓ１７０２において「サブメッシュ」と呼ばれる各インスタンス／領域に対して適応するように割り当てられてもよく、その特定のインスタンスの面密度に基づいて決定されてもよい。各サブメッシュは、それ自体がメッシュ内の各インスタンスを個別にシグナリングしていてもよいメッシュのボリュームデータから取得されてもよく、各サブメッシュは、Ｓ１７０２においてインスタンスごとにそのメッシュから導出される。例えば、インスタンス１６０２、１６０３、および１６０４の各々は、Ｓ１７０４において、それ自体の特定の面密度または頂点の数に応じて、その中に上述の多角形のうちの１つまたは複数を形成する、それ自体のそれぞれのビット深度が割り当てられてよい。一般に、Ｓ１７０３においてその中のそのような多角形の数などをカウントすることによって決定され得る各インスタンスが有する面が多いほど、Ｓ１７０２においてそのインスタンスに適用される量子化は少なくなるはずである。例えば、メッシュＭを考えると、面の総数はｎであり、サブメッシュｋ番目の対応する面はｎ_ｋであり、
式中、Ｋはサブメッシュの総数である。サブメッシュ面密度は、
として定義され、
はｋ番目のサブメッシュのＳ１９０６で設定されたバウンディングボックスの体積を表す。次に、一例では、ＱＰ_ｋと呼ばれるインスタンスｋの適応量子化は、
として、
以下のように制限された範囲［ＱＰ_ｍｉｎ、ＱＰ_ｍａｘ］で定義することができる。

様々な実施形態によれば、メッシュは、ベースメッシュＢおよびその対応する変位Ｄとして表され、Ｓ１７０２において異なるビット深度で量子化される。例えば、ｋ番目のオブジェクトの場合、ビット深度ベースメッシュ
は、式（３）から計算することができ、その変位のビット深度
は、以下
のように導出することができ、
ただし、α_ｋ、β_ｋはｊ番目のオブジェクトの適応スケーリング因子およびオフセットである。一例では、α_ｋ＝１およびβ_ｋ＝２である。

様々な実施形態によれば、歪みを最小化することに基づく適応ビット深度パラメータを使用することができる。例えば、入力ビット深度ＱＰが与えられた場合、量子化方法の平均二乗誤差（ＭＳＥ）はε＿ＱＰであり、以下の式（４）のようになり得る。各サブメッシュのＭＳＥは、ε＿ＱＰ＾ｋ＝ω＿ｋ＊ε＿ＱＰ，∀ｋ∈［１，．．．，Ｋ］として導出され、式中ω＿ｋ＞０は重み係数である。一例では、ω＿ｋ＝１∀ｋである。線形検索が、各サブメッシュに対して実行され、以下の
を満たすベースメッシュの最良のビット深度を見つける。

さらに、変位のための最良のビット深度もまた、
を介して取得されてよい。

例示的な実施形態によれば、ビットストリームを介したＳ１７０７での信号ビット深度のシグナリングなどによって、各オブジェクトの量子化のシグナリングが存在し得る。昇順のベース量子化ビット数のセットは、対応する変位量子化ビット数
を有する
であってもよい。この情報は、メッシュインスタンスパラメータシンタックスとしてシグナリングされ得る。シグナリングのために、ｂ_０ビットを使用して、バウンディングボックスオフセットθ_ｉをシグナリングしてもよい。シグナリングオーバーヘッドを回避するために、すべてのインスタンスは同じバウンディングボックスオフセットを共有してよい。数Ｋ－１はｂ_１ビットに制限され、最大ベース量子化ｂｉｔｈｄｅｐｔｈはｂ_２ビットであり、ベースと変位とのビット深度の最大差はｂ_３ビットである。一例では、ｂ_１＝４、ｂ_２＝５、ｂ_３＝４である。例示的なシンタックステーブルを以下に示し、インスタンスは量子化値の昇順に配置される。このようにして、各インスタンスのシグナリングされた量子化差は常に負ではない可能性がある。より一般的な場合には、インスタンスは、インスタンスごとに量子化値によって配置されなくてもよく、絶対差に加えて、符号もシグナリングされてもよい。

ここで、
ｕ（ｎ）はｎビットを用いた符号なし整数であり、ｉ（ｎ）はｎビットを用いた整数であり、ｍｉｐｓ＿ｑｕａｎｔ（）は一連のシグナリングデータであり、
－ｍｉｐｓ＿ｍｉｎ＿ｂｂｏｘ［ｋ］は、ｉ番目の次元におけるバウンディングボックスの最小値であり、
－ｍｉｐｓ＿ｎｕｍ＿ｉｎｓｔａｎｃｅｓ＿ｍｉｎｕｓ１は、メッシュ内のインスタンス－１の数であり、
－ｍｉｐｓ＿ｂａｓｅ＿ｂｉｔｄｅｐｔｈ＿ｍｉｎｕｓ１は、この順序での最初のインスタンスのビット深度であり、
－ｍｉｐｓ＿ｂａｓｅ＿ｑｕａｎｔ［ｋ］は、（ｋ＋１）番目とｋ番目のサブメッシュの量子化の差分である。量子化セットが昇順でソートされると、この数は常に負ではなく、
－ｍｉｐｓ＿ｄｉｓｔ＿ｑｕａｎｔ［ｋ］は、ベースメッシュのビット深度に対するｋ番目の量子化データである。

様々な実施形態によれば、シグナリングオーバーヘッドを低減するために、複数のインスタンスを同じビット深度でＫ個のグループにグループ化することができる。インスタンスは、Ｋ平均クラスタリングのような単純なクラスタリング方法で、バウンディングボックスの最大距離
に基づいてクラスタリングすることができる。

しかしながら、そのような３Ｄシーンは、アセットを再利用する同様のメッシュ構造を有する複数のインスタンスからなることが多いため、ローカル特性を利用するだけでなく、例示的な実施形態によるインスタンス間の類似性を考慮することによって、さらなる改善を達成することができる。

例えば、上記から続けると、図１８は、インスタンスベースのマッチング予測（ＩＭＰ）方法を使用して冗長メッシュを見つけ、対応する変位を符号化する例示的なフローチャート１８００を示しており、これは、インスタンスを有利に正規化してそれらの類似性を最大化することができ、上述の実施形態のいずれかで使用することができる。

例えば、Ｓ１８０１において、入力メッシュが取得され、上述のように複数のサブメッシュに分割され得る。サブメッシュは、例示的な実施形態によれば、個々のオブジェクトまたはオブジェクトの一部のインスタンスであり得る。

Ｓ１８０２において、単純なスケーリング特徴および類似度尺度を使用して、インスタンスを類似度グループにグループ化することができる。例えば、実施形態によれば、インスタンスは、過渡的なアセットのみが再利用され得るように整列および正規化され得る。スケールおよび配向情報は、ＩＭＰモードのチャネルを介してシグナリングされてよく、ｍ個のインスタンスを有する入力メッシュＭが与えられると、インスタンスｉ番目は、
の対応するバウンディングボックスを有し得る。したがって、同じ比率のバウンディングボックスｄ_ｘ／ｄ_ｙ、ｄ_ｘ／ｄ_ｚを有する同様のインスタンスを１つのアセットグループにグループ化されてよい。さらに、同じグループの２つのインスタンス間の対ｄ１ＰＳＮＲ（ピーク信号対雑音比）が閾値τより大きい場合、類似性を検証し、外れ値のインスタンスを除去するために適用することができる。例えば、閾値τ＝１５０ｄＢが使用されてよく、合計で、ＭはＳ＝｛Ｓ_０，．．．，Ｓ_Ｋ－１｝としてＫ個のアセットグループを有し、｜Ｓ_ｋ｜＝ｍ_ｋであり、ｍ_ｋはｋ番目のアセットグループのインスタンス数である。

例示的な実施形態によれば、Ｓ１８０３において、フラグの指示に応じて、ＩＭＰを使用してサイズｍｋ＞１が１より大きいアセットグループ
のインスタンスを符号化できるようにコーディングを実施することがＳ１８０３で決定されてもよい。第１のインスタンスは符号化され、その復号バージョンはグループ内の残りのインスタンスのベースメッシュとして使用される。例えば、

なお、可逆圧縮の場合、
は
と同じであってもよい。

フラグＳ１８０４に応じて、Ｓ１８０５におけるコーディングは、サブメッシュをサブビットストリームに独立してコーディングするようにシグナリングされ得る。各サブメッシュは、異なるコーディングパラメータを有するメッシュコーデックによってコーディングすることができる。各サブメッシュは異なるメッシュコーデックによってコーディングすることもでき、その場合、どのメッシュコーデックが使用されるかを示すコーデックインデックスをサブビットストリームのヘッダなどでシグナリングする必要があることに留意されたい。例示的な実施形態によれば、サブメッシュのサブビットストリームは、データ依存性の問題なしに並列に符号化および復号することができる。

Ｓ１８０４におけるフラグが代わりに従属コーディングを示す場合、Ｓ１８０６において、サブメッシュを従属的にコーディングするモードも同様に示すように追加のフラグが考慮されてもよい。例えば、実施形態によれば、サブメッシュは、既にコーディング済みの他のサブメッシュからの予測によってコーディングすることができる。予測インデックスは、どのサブメッシュを予測として使用するかを示すようにコーディングすることができる。予測インデックスは、異なるレベルでシグナリングすることができる。

例えば、Ｓ１８０７において、サブメッシュ全体に対して１つの予測インデックスのみがコーディングされてもよく、その結果、現在のサブメッシュ内のすべての頂点は、例示的な実施形態によるインデックスによって示されるのと同じサブメッシュから予測されることになる。

Ｓ１８０８において、予測インデックスが現在のサブメッシュの各頂点についてシグナリングされ得ることで、各頂点を異なるサブメッシュから予測することができる。予測インデックスは、予測コーディングによっても同様にコーディングすることができ、この場合、頂点の予測インデックスは、隣接するコーディング済みの頂点から予測することができることに留意されたい。次に、例示的な実施形態によれば、予測インデックス残差を算術コーディングによってコーディングすることができる。

Ｓ１８０９において、予測インデックスは、頂点レベルとサブメッシュレベルとの間の中間レベル、例えば頂点グループレベルでシグナリングされてもよく、頂点のグループは同じ予測インデックスを共有する。異なるグループの予測インデックスは、例示的な実施形態による予測コーディングによってコーディングすることもできる。シグナリングは、Ｓ１８１０において行われてもよい。

次に、現在のサブメッシュの各頂点の予測インデックスが与えられると、各頂点は、例示的な実施形態のいずれかを用いて本明細書で説明したように、対応するサブメッシュ内の頂点から予測することができる。例示的な実施形態によれば、剛的動きは、予測サブメッシュから現在のサブメッシュまで推定されてよく、剛的動きのパラメータ（例えば、回転および並進パラメータ）はコーディングすることができる。次いで、予測サブメッシュに剛的動きを適用した後、変換された予測サブメッシュ内の対応する頂点の属性を減算することによって、現在の頂点の属性の残差を取得することができる。頂点の属性は、幾何学的形状、色、法線、ｕｖ座標、接続性などを含むことができるが、これらに限定されない。次に、例示的な実施形態による算術コーディングによって残差情報をコーディングすることができる。

さらに、このようなコーディングは、サブメッシュごとの材料やテクスチャ情報のコーディングに適用されてもよい。この情報は、周囲色、拡散色、鏡面反射色、鏡面反射ハイライトの焦点、ディゾルブの係数、照明モデル、テクスチャ画像ＩＤなどを含むことができるが、必ずしもこれらに限定されない。

例示的な実施形態によれば、１つのサブメッシュは、１セットの材料およびテクスチャ情報のみを可能にし、そのような場合、この情報は、サブビットストリームのヘッダで単純にコーディングすることができる。

または、例示的な実施形態によれば、１つのサブメッシュは、材料およびテクスチャ情報の２つ以上のセットを有することができ、この場合、それらのセットは、サブビットストリームのヘッダでコーディングすることができる。異なるセット内のこれらのパラメータは、独立してまたは依存してコーディングすることができることに留意されたい。従属コーディングが適用される場合、予測を適用することができ、代わりに材料パラメータの予測残差をコーディングすることができる。次いで、サブメッシュ内の各頂点について、この頂点にどの材料情報のセットが使用されるかを示すために材料ＩＤをコーディングすることができる。例示的な実施形態によれば、冗長性を低減するために、コーディングされた隣接する頂点から予測することによって材料ＩＤ（識別子）をコーディングすることができることに留意されたい。

したがって、本明細書の実施形態によれば、複雑なメッシュは、テクスチャマップを関連付けるために複数のインスタンスに関する情報を含むことが多く、その情報は符号化時に利用可能であり得ることが実現されるので、各インスタンスは、アセットは、本明細書の例示的な実施形態による３Ｄ設計において、特に複雑なシーンの合成のために、モデルを設計する際のコストを削減するために頻繁に使用され得るので、３Ｄアセットとみなされてよい。例えば、３Ｄモデルは、スケール、配向などの違いで変更されたテクスチャの有無にかかわらず再利用されてよい。これは、上述した他の態様の中でも、メッシュがＰＣＡ（主成分分析）またはバイラテラル対称面に基づいて位置、サイズ、および配向に正規化され、それによってより効率的に検索され得るため、３Ｄオブジェクトのマッチングおよび検索に関連する問題に対処する。

図１９は、四分木二分木（ＱＴＢＴ）１９０１および対応する木表現１９０２を使用することによるブロック分割の例１９００を示す。実線は四分木分割を示しており、点線は二分木分割を示している。二分木の各分割（すなわち、非リーフ）ノードでは、どの分割タイプ（すなわち、水平か垂直か）が使用されるかを示すために１つのフラグがシグナリングされ、０は水平分割を示し、１は垂直分割を示す。四分木分割の場合、四分木分割は常にブロックを水平方向と垂直方向の両方に分割して、同じサイズの４つのサブブロックを生成するため、分割タイプを指定する必要はない。

コーディングツリーユニット（ＣＴＵ）は、コーディングツリーと呼ばれる四分木構造を使用してコーディングユニット（ＣＵ）に分割され、様々なローカル特性に適応する。ピクチャエリアをコーディングするためにインターピクチャ（時間的）予測を使用するかイントラピクチャ（空間的）予測を使用するかの決定は、ＣＵレベルで行われる。各ＣＵは、ＰＵ分割タイプに従って、１つ、２つ、または４つの予測ユニット（ＰＵ）にさらに分割することができる。１つのＰＵ内で、同じ予測プロセスが適用され、関連情報がＰＵベースでデコーダに送信される。ＰＵ分割タイプに基づく予測プロセスを適用することによって残差ブロックを取得した後、ＣＵは、ＣＵのコーディングツリーのような別の四分木構造に従って変換ユニット（ＴＵ）に分割されることができる。

例示的な実施形態によれば、可逆および非可逆メッシュコーディング技術の両方がある。ベースメッシュは、元のメッシュのサブセットとして抽出されてよく、残りの頂点は、距離ベースの予測変位コーディングに基づいて符号化される。

例示的な実施形態によれば、本明細書に記載の態様は、別々に使用されても、任意の順序で組み合わされてもよく、任意の多角形メッシュに使用されてもよく、ジオメトリは、ベースメッシュおよび予測変位コーディングによって符号化されてもよい。例えば、フローチャート２０００を見ると、Ｓ２００２において、Ｓ２００１で取得された元のメッシュのサブセットであるベースメッシュが与えられると、元の頂点は、その予測点（投影された頂点）および予測点（投影された頂点）と元の点（残りの頂点）との間の変位を例２１００を見ることによって符号化され得る。ベースメッシュは、（頂点に含まれない）残りの頂点が常に中間の頂点の法線方向側にあるような制約である。

例えば、２Ｄメッシュの変位コーディングがＳ２００４で決定される場合、２Ｄメッシュの２つの距離ベースの変位コーディングの例２１０１を見ると、点
は、その隣接点ｙ_１、ｙ_３を接続し、点ｙ_１、ｙ_２、ｙ_３を通る平面ｐに垂直な線への点ｙ_２の投影である。ｐ平面の法線ベクトルと同じ側の点ｙ_２とする。点ｙ_２を符号化するためには、Ｓ２００５においてスカラー距離
を有する投影
のみが必要である。加えて、この実施形態では、
は、ｙ_１とｙ_３との間に並ぶように制約される。したがって、隣接する頂点ｙ_ｎまでのスカラー距離ｄ_ｓは、
を復元するのに十分である。すなわち、例２１０１では、点ｙ_１、ｙ_３、ｙ_５は、ベースメッシュ頂点であってもよい。点ｙ_２，ｙ_４は、残りの頂点であってもよく、
は投影された頂点であってもよく、点ｙ_ｎは導出された隣接点であってもよい。

２Ｄの例示的な実施形態によれば、また他の例示的な実施形態による３Ｄでは、Ｓ２００６において、隣接点ｙ_１、ｙ_２の間の線上にある追加の点ｙ_ｎが隣接点から導出される。例えば、点ｙ_ｎからのスカラー距離は、点ｙ_１、ｙ_３の中央から０、１／２、１／３、２／３として導出される。そして、Ｓ２００７において、レートおよび歪みに関して最良の候補が選択されてシグナリングされる。

そのような実施形態は、点ｙ_１、ｙ_３を使用して中間点ｙ_ｎを取得し、次いでそこから点
に投影することができるが、より正確な所望の頂点は、代わりに点
ではなく点ｙ_２にあってもよく、これは本明細書に記載の例示的な実施形態によって有利に得ることができる。

本明細書では可逆とみなされ得る、ほぼ可逆的な３Ｄメッシュの変位コーディングのための２つの距離ベースの変位コーディングを示す図２１の例２１０２を見ると、３Ｄメッシュは、例示的な実施形態に従って、Ｓ２００４における３Ｄコーディングの選択に基づいて説明される。例えば、Ｓ２００８で非可逆コーディングが選択されていないと判定された場合、Ｓ２００９で、頂点ｚ_４がベースメッシュ内の隣接する頂点：点ｚ_１、ｚ_２、ｚ_３から予測される。例２１０１の２Ｄの場合と同様に、距離ｈ_ｈが既知である場合、点ｚ_４は、点
から予測することができる。一方、点
は、距離ｈ_ｔおよびｈ_ｓを用いて、点ｚ_ｎまたは点
（速度および歪みコストに応じて）のいずれかから予測することができた。全体として、信号点ｚ_４に対して、３つの距離ｈ_ｓ、ｈ_ｔ、ｈ_ｈが、Ｓ２００９においてどのエッジが予測に使用されるかを示すためのインデックスと共に使用される。すなわち、点ｚ_１、ｚ_２、ｚ_３は、ベースメッシュ頂点であってもよく、点ｚ_４は剰余頂点であってもよく、点
は、投影された頂点であってもよく、点ｚ_ｎおよび点
は、導出された隣接点であってもよい。

細分および距離ベースのメッシュコーディングを示す例２１０３を見ると、そのような例示的な実施形態は、同様に、Ｓ２０１１で距離および面細分に基づいて、Ｓ２００８で選択されたような非可逆３Ｄメッシュの変位コーディングを導入する。すなわち、実施例２１０２と同様に、実施例２１０３では、ベースメッシュ面点
上の点ｘ_４の投影された頂点および距離ｄ_ｈは、点ｘ_４を符号化するのに十分である。この実施形態では、面はレベルＬで最初に細分される。点
（この例ではｘ_ｎである）に最も近い細分点が選択される。次に、点
は、現在の三角形の法線方向に向かって距離ｄ_ｈにある点ｘ_ｎから導出される。点
は、点ｘ_４の非可逆バージョンとみなされる。最後に、距離ｄ_ｈ、およびＳ２０１１における細分割を有する点ｘ_ｎのインデックスが符号化され、三角形細分が例２１０３に示されているが、本明細書で説明されるように他の多角形形状が使用されてもよい。すなわち、ｘ_１、ｘ_２、ｘ_３は、ベースメッシュ頂点であってもよい。点ｘ_４はリマインダ頂点であってもよく、点
は、投影された頂点であってもよく、点ｘ_ｎは、最も近い細分であってもよく、点
は予測される頂点である。

実施例２１０１について上述したように、実施例２１０３はまた、実施例２１０２と比較して、実施例２１０３が、点ｚ_４および点
の一方の値が整数値でなくてもよい状況（点ｚ_４および点
は、この説明のためにそれぞれ点ｘ_４および点
に対応する）と比較して計算複雑度を単純化することができるので、追加の有利な改善を表す。すなわち、点ｘ_４に最も近い点（頂点ｘ_１，ｘ_２、ｘ_３によって形成される多角形全体の中で規則的に分けられた多角形の頂点の間）として点ｘ_ｎを見つけることによって、その点ｘ_ｎは、点
よりも整数値を有する可能性が高く、それによってそこから予測される頂点としての点
も同様に整数値を有することができ、したがって、代わりにそのような整数値を有する可能性が低い点ｘ_４と比較して計算複雑性が低減される。

例示的な実施形態によれば、一実施形態では、距離および面細分に基づく非可逆（Ｓ２００８で選択された）３Ｄ（Ｓ２００４で選択された）クワッド（Ｓ２０１０で選択された）メッシュの面レベル処理が存在する。例えば、順次予測して符号化する代わりに、Ｓ２０１２において、例１９０１に示すブロックのうちの１つまたは複数などの対応する矩形ブロックへのメッシュのピクセル化が存在する。この手法は、ビデオコーディングにおけるブロック分割、ブロック併合フレームワークを可能にする。

例えば、Ｓ２０１２で顔をピクセル化する場合、クワッド面が与えられると、まず、細分された元の頂点がｎ^２個の点を占めるように、それらを細分する。図２２の例２２００の、クワッドメッシュおよび対応する変位のグループ表現のためのレベル１における三分木細分の例２２０１に示される三分木の例は、４^２個の面を有するようにクワッドフェースを分けるために使用され得る。メッシュの滑らかな変化する表面の仮定に基づいて、変位グループは高い相関を有する可能性が高い。したがって、イントラ様予測およびローカル変換を使用して、変位
予測２２５１をさらに圧縮することができる。このような態様は、エンコーダおよびデコーダのスループットを向上させながら、ビットレートを節約することを支援し得る。

例示的な実施形態によれば、変位
のコーディング効率を改善するために適応細分が使用されるように、Ｓ２０１３におけるマルチレベル分割が行われてよい。すなわち、第１に、クワッドメッシュは、サイズＢ_１×Ｂ_２のグループ変位表現２２５２を有するように数回の３値細分であり、Ｂ_１，２は２の倍数である。その後、従来のビデオコーディング分割を使用することができる。一例では、Ｂ_１、Ｂ_２は３２に設定される。あるいは、クワッドベースメッシュ面の配向を考慮して、異なる分割を適用することもできる。より長い配向は、より高いレベルにおいて分割を受ける。これにより、そのような態様は、既に符号化された面２２５３および２２５４の例で示されているような、非正方形の画素化された面を可能にする。これにより、一方の方向が他方の方向よりも著しく大きい場合、非正方形のクワッド面の歪みが低減される。また、Ｓ２０１４では、３値で１回細分された個々のクワッド面が存在し得るように、適応マージングクワッド面特徴が使用されてもよい。次いで、それらの変換コーディングコストが個々のコストよりも小さいと判定された場合、隣接点の近くの２つまたは４つをマージすることができる。

例えば、グループ変位表現２２５２を見ると、既に符号化されたベースメッシュ頂点を使用して（左下－ＬＬ、右下ＬＲ、左上－ＴＬ、右上－ＴＦ）、その位置に応じて変位を予測することができる、すなわち、サイズＢ_１×Ｂ_２のグループ変位表現が与えられる場合、４つの重み行列を使用して、分割グリッドの位置ｉ、ｊにおける予測が以下のように導出されてよく、
式中、ｖ_ＸはＸ位置（ＬＬ、ＬＲ、ＴＬ、ＴＦ）におけるベースメッシュの頂点を表し、重み行列は常にＷ_Ｘ（ｉ，ｊ）の正数である。

さらに、実施例２２０２は、ベースメッシュ頂点および既に符号化された隣接変位頂点を使用して現在の変位グループを予測することができる、隣接ベースのイントラ変位予測を示す。その予測は、イントラ予測における角度予測であり得る。追加のベースメッシュ頂点を利用して、例示的な実施形態に従って角度予測のための補正ならびに式（１１）でのポストスムージンブを行ってよい。

したがって、本明細書に記載された態様は、ＧＰＵベースのメッシュレンダリングのスループットを低下させ、それによってメッシュコーディングのためのビデオ圧縮において高度なコーディング方法を利用することができない偽の接続性を有する追加の頂点を作成することを回避することによって技術的欠陥に対処する。

例示的な実施形態によれば、Ｓ２３０１において、ｍ（ｉ）がメッシュシーケンス内の第ｉのフレームであってよく、ｖ（ｉ，ｊ）がｍ（ｉ）の第ｊの頂点の位置であってよく、ｍ（ｉ_０），．．．，ｍ（ｉ_ｎ）が、Ｓ２３０２におけるシグナリングによって決定される追跡メッシュであってよく、ｍ（ｉ_０）が参照フレームであり得るように、１つまたは複数のフレームが取得されるフローチャートを示す図２３の例２３００をさらに参照されたい。ｍ（ｉ_ｋ）のｊ番目の頂点の動きベクトルｆ（ｉ_ｋ，ｊ）は、Ｓ２３０３で次のように計算される。
ｆ（ｉ_ｋ，ｊ）＝ｖ（ｉ_ｋ，ｊ）－ｖ（ｉ_０，ｊ）－式（１２）

あるいは、ｍ（ｉ_ｋ）のｊ番目の頂点の動きベクトルｆ（ｉ_ｋ，ｊ）は、以下のように計算することができる。
ｋ＞０－Ｅｑの場合、ｆ（ｉ_ｋ，ｊ）＝ｖ（ｉ_ｋ，ｊ）－ｖ（ｉ_ｋ－１，ｊ）－式（１３）

例示的な実施形態によれば、ｍ（ｉ_ｋ）の動きフィールドは、フレーム内のすべての運動ベクトルからなり、ｆ（ｉ_ｋ）として表され、本明細書の実施形態では、ｋ＝１，．．．，ｎに対してｆ（ｉ_ｋ）を圧縮することに関する。ｆ（ｉ_０）は、定義によりすべてゼロを含むので、コーディングされる必要はないことに留意されたい。

フラグまたはオペレータ指示などによるシグナリングに応じて、Ｓ２３０４において、モードが選択され得る。

メッシュシーケンスでは、本明細書の例示的な実施形態は、Ｓ２３０２で、すべてのそれらのメッシュが、いくつかの頂点、接続性、テクスチャ座標、およびテクスチャ接続性のいずれかのうちの同じ１つまたは複数を共有すると判定され、それらのメッシュの間で頂点の位置のみが異なる場合に、複数のメッシュフレームが追跡されることを指す。本明細書では参照フレームおよび現在のフレームと呼ばれてもよい２つの追跡されたメッシュフレームの頂点間には１対１の対応関係があるため、現在のフレームの頂点位置は参照フレームによって予測することができ、予測残差は動きフィールドを形成する。

さらに、例示的な実施形態による本明細書に記載の「メッシュ」は、体積測定対象物の表面を記述するいくつかの多角形から構成され得ることを理解されたい。各多角形は、３Ｄ空間内のその頂点、および接続性情報と呼ばれる、頂点がどのように接続されているかの情報によって画定される。任意選択で、色、法線、変位などの頂点属性をメッシュ頂点に関連付けることができる。属性はまた、メッシュを２Ｄ属性マップでパラメトライズするマッピング情報を利用することによって、メッシュの表面に関連付けられ得る。そのようなマッピングは通常、ＵＶ座標またはテクスチャ座標と呼ばれ、メッシュ頂点に関連付けられるパラメトリック座標のセットによって定義され得る。２Ｄ属性マップは、テクスチャ、法線、変位などの高解像度属性情報を格納するために使用される。そのような情報は、テクスチャマッピング、シェーディング、メッシュ再構成などの本明細書の様々な目的に使用される。

Ｓ２３０５において、離散コサイン変換（ＤＣＴ）またはリフティングウェーブレット変換などの１Ｄ変換が各頂点の軌道に適用されてよい。例えば、図１２、図１３、図２１および図２２に示される変位ベクトルを参照されたく、これらのうちのいずれかは、Ｓ２３０５、Ｓ２３０６およびＳ２３０７のいずれかにおいて、本明細書に記載された頂点の軌跡として関連し得る。具体的には、Ｓ２３０５において、ｊ番目の頂点について、ｆ（ｉ_ｋ，ｊ）の各空間次元に１Ｄ変換を適用することができ、この場合ｋ＝１，．．．，ｎである。次いで、得られた変換係数は、エントロピー／算術コーディング、ビデオコーディングなどを使用して符号化することができる。デコーダ側では、動きフィールドを再構築するための逆変換が実行され得る。

Ｓ２３０６において、動きフィールドは、ビデオコーディングによって直接符号化することができる。上述したパッチまたはパッチのグループなどの各フレームについて、メッシュフレーム内のすべての動きベクトルｆ（ｉ_ｋ，ｊ）は、符号化／復号化の順序に列挙された頂点インデックスの順序、またはエッジブレーカアルゴリズムなどのメッシュ横断アルゴリズムの順序などの特定の順序に従ってグループ化することができ、次いで、順序付けられた動きベクトルを３チャネル画像にパッキングすることができ、ここで、各チャネルは動きベクトルの１つの空間次元に対応している。パッキングは、ラスタ順、モートン順などの任意の順序で行うことができる。パッキング後、すべてのフレームからの画像をビデオコーデックによって符号化することができる。また、それに応じて復号が実行されてよい。ビデオフレームを復号した後、アンパッキング操作を適用して、動きベクトルの２Ｄ配列を既知の順序を有するメッシュ頂点の配列に戻すことができ、これは例示的な実施形態によるエンコーダ側で使用される。

Ｓ２３０７において、座標を変更し得る主成分分析（ＰＣＡ）を使用することによる動きフィールドの符号化が行われてよく、動きフィールドはそれぞれ、本明細書に記載のパッチまたはパッチのグループの複数またはすべての頂点の変位ベクトルおよび動きベクトル情報を含み得る。第１に、動きフィールドのためのデータ行列Ｍの構築が存在し得る。Ｍのｊ行目は、３つの空間次元を平坦化した後、ｆ（ｉ_ｋ，ｊ），ｋ＝１，…，ｎであるため、各行の長さ、すなわち列の数は３ｎであり、行の数ｒは各メッシュ内の頂点の数に等しく、したがってＭのサイズはｒ×３ｎである。３つの空間次元の平坦化は、ｘ_１ｙ_１ｚ_１…ｘ_ｎｙ_ｎｚ_ｎまたはｘ_１…ｘ_ｎｙ_１…ｙ_ｎｚ_１…ｚ_ｎの順序で行うことができることに留意されたい。データ行列Ｍを構築した後、その平均を減算することによってその列のセンタリングがあってもよく、次いで共分散行列Ｃ＝Ｍ^ＴＭを計算することができ、その後、主成分は、共分散行列Ｃのサイズが３ｎ×３ｎであるために計算複雑度が低いＣの固有分解によって取得することができる。Ｃの固有分解の後、すべての固有ベクトルのシグナリング、または固有値の構成可能なしきい値による固有ベクトルの最初の複数、少なくとも２つのシグナリングのみのいずれかが存在し得る。さらに、シグナリングされた固有ベクトル上のＭの各行の投影がシグナリングされ、それらの固有ベクトルに関する係数をシグナリングされてよい。例示的な実施形態によれば、Ｍの各列の平均も同様にシグナリングされるべきである。例示的な実施形態によれば、すべてのシグナリングは、算術コーディングなどのエントロピーコーディングで行うことができる。デコーダ側では、各頂点のセンタリングされた軌道は、復号された固有ベクトルと対応する復号係数との線形結合によって復元することができ、次いで、各頂点の元の軌道は、センタリングされた軌道と復号された平均位置との合計によって取得することができる。

例示的な実施形態によれば、ビデオコーディングを介して符号化された他のデータが存在すると判定された場合、例示的な実施形態は、それらのデータを動きベクトルと連結し、それらをコーディングのために単一のビデオにパックする。例えば、動きベクトルと変位ベクトルの両方を有するメッシュフレームの場合、動きベクトルと変位ベクトルは、さらなるコーディングのために同じビデオフレームにパックすることができる。特に、変位情報をすべての動きベクトルの背後に置くことができる。これには、動きベクトルと変位ベクトルとが異なるストリームに含まれる可能性、またはそれらが同じストリームに含まれる可能性が含まれ、同様に単一のビデオコーデックによってコーディングされ得る。

このように、動的メッシュシーケンスは、経時的に変化する大量の情報から構成され得るため、大量のデータを必要とする可能性があるが、メッシュシーケンスが大量の冗長情報を含む追跡されたメッシュから構成される場合、動的に細分化されたメッシュの動きフィールドの圧縮に関する本明細書に記載の実施形態によってメッシュを大幅に圧縮する大きな余地がある。したがって、本明細書の例示的な実施形態では、動的細分割メッシュの動きフィールドの圧縮に対する手法を改善するためのいくつかの方法が記載されており、本明細書に記載のそれらの方法は、個別にまたは任意の形態の組み合わせによって適用される。

前述した技術は、コンピュータ可読命令を使用し、１つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして、または具体的に構成される１つ以上のハードウェアプロセッサによって実装され得る。例えば、図２４は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム２４００を示す。

コンピュータソフトウェアは、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接に、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはそのコンポーネント上で実行することができる。

コンピュータシステム２４００に関して図２４に示す構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図していない。構成要素の構成は、コンピュータシステム２４００の例示的な実施形態に示された構成要素のいずれか１つまたは組み合わせに関するいかなる依存性または要件も有すると解釈されるべきでない。

コンピュータシステム２４００は、特定のヒューマンインターフェース入力デバイスを含み得る。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（音声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を介した、１人以上の人間ユーザによる入力に応答し得る。ヒューマンインターフェースデバイスは、音声（例えば、スピーチ、音楽、周囲音）、画像（例えば、走査された画像、静止画像カメラから取得した写真画像）、ビデオ（例えば、二次元ビデオ、立体ビデオを含む三次元ビデオ）などの、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするためにも使用することができる。

入力ヒューマンインターフェースデバイスは、キーボード２４０１、マウス２４０２、トラックパッド２４０３、タッチスクリーン２４１０、ジョイスティック２４０５、マイク２４０６、スキャナ２４０８、カメラ２４０７のうちの１つまたは複数（それぞれの１つのみが図示される）を含み得る。

コンピュータシステム２４００はまた、特定のヒューマンインターフェース出力デバイスを含んでもよい。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い／味を介して、１人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン２４１０、またはジョイスティック２４０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、音声出力デバイス（スピーカ２４０９、ヘッドフォン（図示せず）など）、視覚的出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン２４１０などであり、それぞれにタッチスクリーン入力機能を備えたものと備えていないものがあり、それぞれに触覚フィードバック機能の備えたものと備えていないものがあり、その一部は、ステレオグラフィック出力、仮想現実の眼鏡（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず）などの手段を介して二次元の視覚的出力、または三次元を超える出力を出力することが可能であり得る）、ならびにプリンタ（図示せず）を含み得る。

コンピュータシステム２４００はまた、人間がアクセス可能な記憶装置と、それらに関連付けられた媒体、例えば、ＣＤ／ＤＶＤ２４１１または同様の媒体を備えたＣＤ／ＤＶＤＲＯＭ／ＲＷ２４２０、サムドライブ２４２２、取り外し可能なハードドライブまたはソリッドステートドライブ２４２３、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用のＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスを含めた光学媒体などを含むこともできる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム２４００は、１つまたは複数の通信ネットワーク２４９８へのインターフェース２４９９も含むことができる。ネットワーク２４９８は、例えば、無線、有線、光となり得る。ネットワーク２４９８は、さらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などとなり得る。ネットワーク２４９８の例には、イーサネット、無線ＬＡＮなどのローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上波ブロードキャストＴＶを含むＴＶの有線または無線の広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業用などが含まれる。特定のネットワーク２４９８は、一般に、特定の汎用データポートまたは周辺バス（２４５０および２４５１）（例えば、コンピュータシステム２４００のＵＳＢポートなど）に取り付けられた外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、後述するようにシステムバスへの取り付けによってコンピュータシステム２４００のコアに組み込まれる（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワーク２４９８のいずれかを使用して、コンピュータシステム２４００は他のエンティティと通信することができる。そのような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または双方向、例えばローカルエリアまたは広域デジタルネットワークを使用する他のコンピュータシステムへの通信であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。

前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェースは、コンピュータシステム２４００のコア２４４０に取り付けることができる。

コア２４４０は、１つまたは複数の中央処理装置（ＣＰＵ）２４４１、グラフィック処理装置（ＧＰＵ）２４４２、グラフィックアダプタ２４１７、フィールドプログラマブルゲート領域（ＦＰＧＡ）２４４３の形式の専用のプログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ２４４４などを含むことができる。これらのデバイスは、読取り専用メモリ（ＲＯＭ）２４４５）、ランダムアクセスメモリ２４４６、内部のユーザアクセス不可能なハードドライブ、ＳＳＤなどの内部大容量ストレージ２４４７と共に、システムバス２４４８を通じて接続され得る。いくつかのコンピュータシステムでは、システムバス２４４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス２４４８に直接取り付けることも、周辺バス２４４９を介して取り付けることもできる。周辺バス用のアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

ＣＰＵ２４４１、ＧＰＵ２４４２、ＦＰＧＡ２４４３、およびアクセラレータ２４４４は、組み合わさって前述のコンピュータコードを構成することができる特定の命令を実行することができる。このコンピュータコードは、ＲＯＭ２４４５）またはＲＡＭ２４４６に記憶することができる。過渡的なデータをＲＡＭ２４４６に格納することもでき、一方永続的なデータを、例えば、内部大容量ストレージ２４４７に格納することができる。１つまたは複数のＣＰＵ２４４１、ＧＰＵ２４４２、大容量記憶装置２４４７、ＲＯＭ２４４５、ＲＡＭ２４４６などと密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかへの高速記憶および高速取り出しを可能にすることできる。

コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に良く知られた利用可能な種類のものであってもよい。

限定ではなく例として、アーキテクチャを有するコンピュータシステム２４００、具体的にはコア２４４０は、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）プロセッサが１つまたは複数の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読メディアは、上述したようなユーザアクセス可能な大容量記憶、ならびにコア内部大容量ストレージ２４４７やＲＯＭ２４４５などの非一時的な性質のものであるコア２４４０の特定の記憶に関連付けられたメディアとすることができる。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶され、コア２４４０によって実行することができる。コンピュータ可読メディアは、特定の必要性に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア２４４０、および具体的にはその中の（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）プロセッサに、ＲＡＭ２４４６に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ソフトウェアの代わりに、またはソフトウェアと共に動作して、本明細書に記載される特定のプロセスまたは特定のプロセスの特定の部分を実行することができる、回路（例えば、アクセラレータ２４４４）におけるハードワイヤードの、または他の方法で具現化された論理の結果として機能を提供することもできる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。

本開示はいくつかの例示的な実施形態を説明したが、本開示の範囲内に入る変更、置換、および様々な代替的な均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

１００通信システム、１０１端末、１０２端末、１０３端末、１０４端末、１０５ネットワーク、２０１ビデオソース、２０２エンコーダ、２０３キャプチャサブシステム、２０４符号化されたビットストリーム、２０５ストリーミングサーバ、２０６コピー、２０８コピー、２０９ディスプレイ、２１０ビデオ・サンプル・ストリーム、２１１ビデオデコーダ、２１２クライアント、２１３サンプルストリーム、３００デコーダ、３０１チャネル、３０２受信器、３０３バッファメモリ、３０４パーサ、３０５スケーラ／逆変換ユニット、３０６動き補償予測ユニット、３０７イントラ予測ユニット、３０８ピクチャバッファ、３０９現在の参照ピクチャ、３１０アグリゲータ、３１１ループフィルタ、３１２ディスプレイ、３１３シンボル、４００エンコーダ、４０１ビデオソース、４０２コントローラ、４０３ソースコーダ、４０４予測器、４０５ピクチャメモリ、４０６ローカルデコーダ、４０７コーディングエンジン、４０８エントロピーコーダ、４０９送信器、４１０コーディング済みビデオシーケンス、４１１チャネル、５００ブロックスタイルワークフロー図、５０１取得ブロック、５０２音声符号化ブロック、５０３処理ブロック、５０４ビデオ符号化ブロック、５０５画像符号化ブロック、５０７配信ブロック、５０８ヘッド／アイトラッキングブロック、５１０音声復号ブロック、５１１音声レンダリングブロック、５１２スピーカ／ヘッドフォンブロック、５１３ビデオ復号ブロック、５１４画像復号ブロック、５１５画像レンダリングブロック、５１６表示ブロック、５２０ＯＭＡＦプレーヤ、６００ブロックスタイルコンテンツフロープロセス図、６０１ボリュームデータ取得ブロック、６０２点群ブロック、６０３投影ブロック、６０４ビデオ符号化ブロック、６０５画像符号化ブロック、６０６ファイル／セグメントカプセル化ブロック、６０７クラウドサーバブロック、６０８位置／視野角追跡ブロック、６０９シーン生成器ブロック、６１０ビデオ復号ブロック、６１１画像復号ブロック、６１２点群再構築ブロック、６１３シーン構成ブロック、６１４表示ブロック、６２５Ｖ－ＰＣＣプレーヤ、７００１つの動的メッシュ圧縮の例示的なフレームワーク、７０１入力メッシュ、７０２２ＤＵＶアトラス、７０３デコーダ側、７０４再構築されたメッシュ、８００ボリュームデータの例、８０１１つまたは複数のメッシュセグメント、８０２ＵＶパラメータ化プロセス、８０３２Ｄチャート、８０４２ＤＵＶアトラス、９００メッシュセグメントを複数の２Ｄチャートにマッピングする例、９０１２Ｄチャート、９０２２Ｄチャート、９０３三角測量を示す例、１０００フローチャート、１１００フローチャート、１１５０フローチャート、１２００フローチャート、１３００層ベースの予測構造の一例、１４００層ベースの予測構造の一例、１３０１第１の層、１３０２第２の層、１３０３第３の層、１５００異なるオブジェクトまたは部分を別々に量子化する例、１６００インスタンスの例、１６０１メッシュ例、１６０２インスタンス（カップのメッシュ）、１６０３インスタンス（スプーンのメッシュ）、１６０４インスタンス（プレートのメッシュ）、１７００フローチャート、１８００フローチャート、１９００ブロック分割の例、１９０１四分木二分木、１９０２対応する木表現、２０００フローチャート、２１００変位の例、２１０１距離ベースの変位コーディングの例、２１０２３Ｄメッシュのための２つの距離ベースの変位コーディングの例、２１０３三角形細分の例、２２００変位の例、２２０１三分木細分の例、２２０２隣接ベースのイントラ変位予測の例、２２５１変位予測、２２５２グループ変位表現、２２５３面、２２５４面、２３００フローチャート、２４００コンピュータシステム、２４０１キーボード、２４０２マウス、２４０３トラックパッド、２４０５ジョイスティック、２４０６マイク、２４０７カメラ、２４０８スキャナ、２４０９スピーカ、２４１０タッチスクリーン、２４１１ＣＤ／ＤＶＤ、２４１７グラフィックアダプタ、２４２０ＣＤ／ＤＶＤＲＯＭ／ＲＷ、２４２２サムドライブ、２４２３取り外し可能なハードドライブ、２４４０コア、２４４１中央処理装置（ＣＰＵ）、２４４２グラフィック処理装置（ＧＰＵ）、２４４３フィールドプログラマブルゲート領域（ＦＰＧＡ）、２４４４ハードウェアアクセラレータ、２４４５読取り専用メモリ（ＲＯＭ）、２４４６ランダムアクセスメモリ、２４４７内部大容量ストレージ、２４４８システムバス、２４４９周辺バス、２４５０周辺バス、２４５１周辺バス、２４９８通信ネットワーク、２４９９インターフェース

Claims

ビデオ符号化のための方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、
少なくとも１つの三次元（３Ｄ）視覚コンテンツのボリュームデータに対応する複数のメッシュを含むメッシュシーケンスを取得するステップと、
前記ボリュームデータに対応する前記メッシュシーケンスのフレームを取得するステップであって、前記フレームは前記メッシュシーケンスのメッシュの複数の頂点を含む、ステップと、
前記メッシュの前記複数の頂点の動きベクトルを含む動きフィールドを決定するステップと、
前記動きフィールドに基づいて前記ボリュームデータを符号化するステップであって、前記動きフィールドに主成分分析を適用するステップを含み、前記主成分分析は、
前記メッシュの前記複数の頂点の数に等しい数の行と、前記動きフィールドの空間次元の数に等しい数の列とを含む行列を構築するステップと、
前記行列から共分散行列を取得するステップと、前記共分散行列に固有分解を適用するステップとを含む、
ステップとを含む、ビデオ符号化のための方法。
前記ボリュームデータをコーディングするステップは、前記メッシュの前記複数の頂点の前記動きベクトルの各々に一次元変換を適用するステップを含む、請求項１に記載のビデオ符号化のための方法。
前記一次元変換は、離散コサイン変換およびリフティングウェーブレット変換のいずれかを含む、請求項２に記載のビデオ符号化のための方法。
前記ボリュームデータをコーディングするステップは、
前記メッシュの前記複数の頂点の前記動きベクトルを順序付けられた動きベクトルに配置するステップと、
前記順序付けられた動きベクトルを３チャネル画像にパッキングするステップとを含む、請求項１に記載のビデオ符号化のための方法。
前記メッシュの前記複数の頂点の前記動きベクトルを前記順序付けられた動きベクトルに配置するステップは、所定の順序に基づく、請求項４に記載のビデオ符号化のための方法。
前記３チャネル画像のチャネルは、前記動きベクトルの空間次元のそれぞれ１つを含む、請求項４に記載のビデオ符号化のための方法。
前記ボリュームデータをコーディングするステップは、前記共分散行列に固有分解を適用するステップから得られた少なくとも複数の固有値をシグナリングするステップを含む、請求項１に記載のビデオ符号化のための方法。
請求項１から７のいずれか一項に記載の方法を実行するように構成された、ビデオ符号化のための装置。
コンピュータに、請求項１から７にいずれか一項に記載の方法を実行させる、コンピュータプログラム。