JP7842884B2

JP7842884B2 - メッシュ処理の方法、装置及びプログラム

Info

Publication number: JP7842884B2
Application number: JP2024548648A
Authority: JP
Inventors: ジュン・ティアン; シアン・ジャン; シャオジョン・シュ; チャオ・フアン; シャン・リュウ
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2022-09-20
Filing date: 2023-06-13
Publication date: 2026-04-08
Anticipated expiration: 2043-06-13
Also published as: KR20240100382A; WO2024064427A1; JP2025507592A; US20240095965A1; EP4591278A1; CN118202386A

Description

関連出願の相互参照
本出願は、２０２２年９月２０日に出願された米国仮出願第６３／４０８，２６８号「ＤｕｐｌｉｃａｔｅＶｅｒｔｉｃｅｓＭｅｒｇｉｎｇｉｎＭｅｓｈＣｏｍｐｒｅｓｓｉｏｎ」に対する優先権の利益を主張する、２０２３年６月９日に出願された米国特許出願第１８／２０８，１３８号「ＤＵＰＬＩＣＡＴＥＶＥＲＴＩＣＥＳＭＥＲＧＩＮＧＩＮＭＥＳＨＣＯＭＰＲＥＳＳＩＯＮ」に対する優先権の利益を主張する。先行出願の開示は、その全体が参照により本明細書に組み込まれる。

本開示は、メッシュ処理に関する実施形態を含む。

本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、ならびに出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。

３次元（３Ｄ）キャプチャ、モデリング、およびレンダリングの進歩は、様々なプラットフォームおよびデバイスにわたって３Ｄコンテンツのユビキタスな存在を促進してきた。今日では、ある大陸での赤ん坊の最初の一歩をキャプチャし、その赤ん坊の祖父母が別の大陸にいる子供を見て（場合によっては対話して）、その子供との完全な没入体験を楽しむことができる。このようなリアリズムを達成するために、モデルはますます洗練されてきており、かなりの量のデータがそれらのモデルの作成および消費に結びついている。３Ｄメッシュは、このような没入型コンテンツを表すために広く使用されている。

本開示の態様は、メッシュ処理のための方法および装置を提供する。いくつかの例では、メッシュ処理のための装置は処理回路を含む。

本開示の一態様によれば、ビデオデコーダにおいて行われるメッシュ処理の方法が提供される。本方法では、現在のフレームにおいてダウンサンプリングされた入力メッシュからベースメッシュが生成され、ベースメッシュは複数の頂点を含む。ベースメッシュに適用される予測モードが決定される。予測モードは、インター予測モードまたはイントラ予測モードである。予測モードがイントラ予測モードとして決定されたことに基づいて、ベースメッシュ内の複数の頂点のうちの重複した頂点がマージされて、複数の頂点のサブセットが生成される。決定されたイントラ予測モードに基づいて、複数の頂点の少なくともサブセットがエンコーディングされ、複数の頂点の少なくともサブセットの予測情報が生成される。

一例では、ベースメッシュ内の重複した頂点は、予測モードがイントラ予測モードとして決定されたことに基づいてマージされる。一例では、ベースメッシュ内の重複した頂点は、予測モードがインター予測モードとして決定されたことに基づいてマージされない。

一例では、複数の重複した頂点のそれぞれは、参照フレーム内の同じ参照頂点をベースメッシュ内の別の頂点と共有するベースメッシュの頂点である。

一実施形態では、重複した頂点をマージすることは、予測モードを決定することに含まれる。

一実施形態では、重複した頂点のマージは、複数の頂点の少なくともサブセットをエンコーディングすることに含まれる。

いくつかの実施形態では、予測モードがインター予測モードとして決定されたことに基づいて、ベースメッシュの複数の頂点がエンコーディングされる。ベースメッシュの複数の頂点をエンコーディングするために、複数の頂点のそれぞれについて参照フレーム内の参照頂点が決定される。参照フレーム内のそれぞれの頂点の対応する参照頂点に基づいて、複数の頂点のそれぞれについて、インター予測情報が生成される。

いくつかの実施形態では、複数の頂点のそれぞれの参照頂点は、それぞれの頂点の参照フレーム内のコロケート（ｃｏｌｌｏｃａｔｅ）された頂点であり、コロケートされた頂点は、現在のフレーム内のベースメッシュのそれぞれの頂点と参照フレーム内の相対的に同じ位置に配置される。

本開示の別の態様によれば、エンコーダにおいて行われるメッシュ処理の方法が提供される。本方法では、現在のフレームにおいてダウンサンプリングされた入力メッシュからベースメッシュが生成され、ベースメッシュは複数の頂点を含む。ベースメッシュの複数の頂点のうちの重複した頂点がマージされて、複数の頂点のサブセットを含むマージされたベースメッシュが生成される。マージされた重複した頂点を識別するインデックス情報が生成される。マージされたベースメッシュと生成されたインデックス情報とに基づいて、ベースメッシュに適用する予測モードが決定される。予測モードは、インター予測モードまたはイントラ予測モードである。決定された予測モードがインター予測モードであることに基づいて、生成されたインデックス情報に従ってベースメッシュのインター予測情報が生成される。決定されたイントラ予測モードがイントラ予測モードであることに基づいて、ベースメッシュのイントラ予測情報が生成される。

一例では、予測モードを決定するために、複数の頂点のマージされた重複頂点は、マージされた重複頂点のインデックス情報に基づいてマージ解除される。参照フレーム内の参照頂点は、現在のフレーム内のベースメッシュの複数の頂点のそれぞれに対して決定され、参照フレームは現在のフレームとは異なる。ベースメッシュの複数の頂点のそれぞれの第１の予測差が決定される。複数の頂点のそれぞれの第１の予測差は、参照フレーム内の参照頂点とベースメッシュの複数の頂点のそれぞれ頂点との間の差を示す。ベースメッシュの複数の頂点のそれぞれに対する第２の予測差が決定される。複数の頂点のそれぞれの第２の予測差は、複数の頂点のそれぞれの頂点の現在のフレーム内の１つまたは複数の近傍の頂点と複数の頂点のそれぞれの頂点との間の差を示す。

一例では、予測モードを決定するために、第１のコスト値は、複数の頂点に関連付けられた第１の予測差の合計として決定される。第２のコスト値は、複数の頂点に関連付けられた第２の予測差の合計として決定される。予測モードは、（ｉ）第１のコスト値が第２のコスト値以下であることに基づくインター予測モード、および、（ｉｉ）第２のコスト値が第１のコスト値より小さいことに基づくイントラ予測モードとして決定される。

いくつかの実施形態では、参照フレーム内のコロケートされた頂点は、複数の頂点のそれぞれの参照頂点として決定され、コロケートされた頂点は、現在のフレーム内のベースメッシュのそれぞれの頂点と参照フレーム内の相対的に同じ位置に配置される。

一実施形態では、予測モードがインター予測モードとして決定されたことに基づいて、インター予測情報は、参照フレーム内のそれぞれのインデックスの対応する参照頂点に基づいて複数の頂点のサブセットのそれぞれについて生成される。

一実施形態では、予測モードがイントラ予測モードとして決定されたことに基づいて、イントラ予測情報は、現在のフレーム内のそれぞれの頂点の１つまたは複数の近傍の頂点に基づいて複数の頂点のサブセットのそれぞれについて生成される。

本開示の他の態様によれば、装置が提供される。装置は、処理回路を含む。処理回路は、メッシュ処理のための記載された方法のいずれかを行うように構成することができる。

本開示の態様は、コンピュータによって実行されると、メッシュ処理のための記載された方法のいずれかをコンピュータに実行させる命令を記憶する非一過性コンピュータ可読媒体も提供する。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかなるであろう。

通信システム（１００）の例示的なブロック図の概略図である。デコーダの例示的なブロック図の概略図である。エンコーダの例示的なブロック図の概略図である。本開示のいくつかの実施形態による例示的なエンコーディングプロセスの概略図である。本開示のいくつかの実施形態による前処理段階の概略図である。本開示のいくつかの実施形態による頂点マージを伴う第１の典型的なエンコーディングプロセスである。本開示のいくつかの実施形態による頂点マージを伴う第２の典型的なエンコーディングプロセスである。本開示のいくつかの実施形態によるプロセスの概要を示すフローチャートである。本開示のいくつかの実施形態による別のプロセスの概要を示すフローチャートである。一実施形態によるコンピュータシステムの概略図である。

図１は、いくつかの例におけるビデオ処理システム（１００）のブロック図を示す。ビデオ処理システム（１００）は、ストリーミング環境における開示された主題、ビデオエンコーダ、およびビデオデコーダのためのアプリケーションの一例である。開示された主題は、例えば、ビデオ会議、デジタルＴＶ、ストリーミングサービス、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶を含む、他の画像およびビデオ対応アプリケーションにも等しく適用可能とすることができる。

ビデオ処理システム（１００）は、ビデオソース（１０１）を含むことができるキャプチャサブシステム（１１３）を含む。ビデオソース（１０１）は、カメラによってキャプチャされたおよび／またはコンピュータによって生成された１つまたは複数の画像を含むことができる。例えば、デジタルカメラは、非圧縮のビデオピクチャのストリーム（１０２）を作成することができる。一例では、ビデオピクチャのストリーム（１０２）は、デジタルカメラによって撮影されたサンプルを含む。エンコーディングされたビデオデータ（１０４）（またはコーディングされたビデオビットストリーム）と比較してデータ量の多さを強調するために太線として示されているビデオピクチャのストリーム（１０２）は、ビデオソース（１０１）に結合されたビデオエンコーダ（１０３）を含む電子デバイス（１２０）によって処理することができる。ビデオエンコーダ（１０３）は、以下でより詳細に説明するように、開示された主題の態様を可能にするかまたは実施するために、ハードウェア、ソフトウェア、またはそれらの組合せを含むことができる。ビデオピクチャのストリーム（１０２）と比較してデータ量が少ないことを強調するために細い線として示されているエンコーディングされたビデオデータ（１０４）（またはエンコーディングされたビデオビットストリーム）は、将来の使用のためにストリーミングサーバ（１０５）に記憶することができる。図１のクライアントサブシステム（１０６）および（１０８）などの１つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（１０５）にアクセスして、エンコーディングされたビデオデータ（１０４）のコピー（１０７）および（１０９）を取得することができる。クライアントサブシステム（１０６）は、例えば電子デバイス（１３０）内のビデオデコーダ（１１０）を含むことができる。ビデオデコーダ（１１０）は、エンコーディングされたビデオデータの着信コピー（１０７）をデコーディングし、ディスプレイ（１１２）（例えば、表示画面）または他のレンダリングデバイス（図示せず）上にレンダリングすることができるビデオピクチャ（１１１）の発信ストリームを作成する。いくつかのストリーミングシステムでは、エンコーディングされたビデオデータ（１０４）、（１０７）、および（１０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従ってエンコーディングすることができる。これらの規格の例としては、ＩＴＵ－Ｔ勧告Ｈ．２６５が挙げられる。一例では、開発中のビデオコーディング規格は、多用途ビデオコーディング（ＶＶＣ）として非公式に知られている。開示された主題は、ＶＶＣの文脈で使用されることがある。

電子デバイス（１２０）および（１３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子デバイス（１２０）はビデオデコーダ（図示せず）を含むことができ、電子デバイス（１３０）はビデオエンコーダ（図示せず）も含むことができる。

図２は、ビデオデコーダ（２１０）の例示的なブロック図を示す。ビデオデコーダ（２１０）は、電子デバイス（２３０）に含めることができる。電子デバイス（２３０）は、受信機（２３１）を含むことができる。受信機（２３１）は、ネットワークインターフェース回路などの受信回路を含むことができる。ビデオデコーダ（２１０）は、図１の例のビデオデコーダ（１１０）の代わりに使用することができる。

受信機（２３１）は、ビデオデコーダ（２１０）によってデコーディングされる１つまたは複数のコーディングされたビデオシーケンスを受信してもよい。一実施形態では、一度に１つのコーディングされたビデオシーケンスが受信され、各コーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスのデコーディングとは無関係である。コーディングされたビデオシーケンスは、エンコーディングされたビデオデータを記憶するストレージデバイスへのハードウェア／ソフトウェアリンクであってもよいチャネル（２０１）から受信されてもよい。受信機（２３１）は、エンティティ（図示せず）を使用してそれぞれに転送され得る他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリームを有するエンコーディングされたビデオデータを受信することができる。受信機（２３１）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ（２１５）が、受信機（２３１）とエントロピーデコーダ／パーサ（２２０）（以下、「パーサ（２２０）」）との間に結合されてもよい。特定の用途では、バッファメモリ（２１５）は、ビデオデコーダ（２１０）の一部である。他の場合には、バッファメモリ（２１５）は、ビデオデコーダ（２１０）の外部にあってもよい（図示せず）。さらに他の場合には、例えばネットワークジッタに対抗するためにビデオデコーダ（２１０）の外部にバッファメモリ（図示せず）があり、さらに例えば再生タイミングを処理するためにビデオデコーダ（２１０）の内部に別のバッファメモリ（２１５）があり得る。受信機（２３１）が十分な帯域幅および制御可能性のある記憶／転送デバイスから、または非同期ネットワークからデータを受信する際は、バッファメモリ（２１５）を不要とすることができ、または小さくすることができる。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（２１５）は必要な場合があり、比較的大きい場合があり、有利には適応サイズであってもよく、ビデオデコーダ（２１０）の外部のオペレーティングシステムまたは同様の要素（図示せず）に少なくとも部分的に実装されてもよい。

ビデオデコーダ（２１０）は、コーディングされたビデオシーケンスからシンボル（２２１）を再構成するために、パーサ（２２０）を含んでもよい。これらのシンボルのカテゴリは、ビデオデコーダ（２１０）の動作を管理するために使用される情報と、図２に示すように、電子デバイス（２３０）の一体部分ではないが電子デバイス（２３０）に結合され得るレンダリングデバイス（２１２）（例えば、表示画面）などのレンダリングデバイスを制御するための潜在的な情報とを含む。レンダリングデバイスの制御情報は、補足エンハンスメント情報（ＳＥＩ）メッセージまたはビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形態であってもよい。パーサ（２２０）は、受信したコーディングされたビデオシーケンスを解析／エントロピーデコーディングすることができる。コーディングされたビデオシーケンスのコーディングは、ビデオ符号化技術または規格に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感度ありまたはなしの算術符号化などを含む様々な原理に従うことができる。パーサ（２２０）は、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つのサブグループパラメータのセットを、そのグループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから抽出することができる。サブグループは、ＧｒｏｕｐｓｏｆＰｉｃｔｕｒｅｓ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、ＣｏｄｉｎｇＵｎｉｔｓ（ＣＵ）、ブロック、ＴｒａｎｓｆｏｒｍＵｎｉｔｓ（ＴＵ）、ＰｒｅｄｉｃｔｉｏｎＵｎｉｔｓ（ＰＵ）などを含むことができる。パーサ（２２０）はまた、変換係数、量子化器パラメータ値、動きベクトルなどのコーディングされたビデオシーケンス情報を抽出することができる。

パーサ（２２０）は、シンボル（２２１）を作成するために、バッファメモリ（２１５）から受信したビデオシーケンスに対してエントロピーデコーディング／解析動作を実行することができる。

シンボル（２２１）の再構成は、コーディングされたビデオピクチャまたはその一部（例えば、インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロック）のタイプ、およびその他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットがどのように関与するかは、パーサ（２２０）によって、コーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御することができる。パーサ（２２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確にするために示されていない。

既に述べた機能ブロックの他に、ビデオデコーダ（２１０）は、以下に説明するように概念的にいくつかの機能ユニットに細分することができる。商業的制約の下で動作する実際の実施態様では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的で、以下の機能ユニットへの概念的細分化が適切である。

第１のユニットはスケーラ／逆変換ユニット（２５１）である。スケーラ／逆変換ユニット（２５１）は、量子化変換係数、ならびにどの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などをシンボル（２２１）として含む制御情報を、パーサ（２２０）から受信する。スケーラ／逆変換ユニット（２５１）は、アグリゲータ（２５５）に入力され得る、サンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換ユニット（２５１）の出力サンプルは、イントラコーディングされたブロックに関連することができる。イントラコーディングされたブロックは、以前に再構成されたピクチャからの予測情報を使用せず、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックである。このような予測情報は、イントラピクチャ予測ユニット（２５２）によって提供され得る。場合によっては、イントラピクチャ予測ユニット（２５２）は、現在のピクチャバッファ（２５８）からフェッチされた周囲の既に再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ（２５８）は、例えば、部分的に再構成された現在のピクチャおよび／または完全に再構成された現在のピクチャをバッファリングする。アグリゲータ（２５５）は、場合によっては、イントラ予測ユニット（２５２）が生成した予測情報を、スケーラ／逆変換ユニット（２５１）からの出力サンプル情報に、サンプル単位で追加する。

他の場合には、スケーラ／逆変換ユニット（２５１）の出力サンプルは、インターコーディングされた、潜在的に動き補償されたブロックに関連することができる。このような場合、動き補償予測ユニット（２５３）は、予測に使用されるサンプルをフェッチするために参照ピクチャメモリ（２５７）にアクセスすることができる。ブロックに関連するシンボル（２２１）に従ってフェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（２５５）によってスケーラ／逆変換ユニット（２５１）の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加され得る。動き補償予測ユニット（２５３）が予測サンプルをフェッチする参照ピクチャメモリ（２５７）内のアドレスは、動き補償予測ユニット（２５３）が、例えばＸ、Ｙ、および参照ピクチャ成分を有することができるシンボル（２２１）の形態で利用可能な動きベクトルによって制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ（２５７）からフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

アグリゲータ（２５５）の出力サンプルには、ループフィルタユニット（２５６）において様々なループフィルタ処理技術を施すことができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれるパラメータによって制御され、パーサ（２２０）からのシンボル（２２１）としてループフィルタユニット（２５６）に利用可能となるインループフィルタ技術を含むことができる。ビデオ圧縮はまた、コーディングされたピクチャまたはコーディングされたビデオシーケンスの前の（デコーディング順で）部分のデコーディング中に取得されたメタ情報に応答し、さらに、前に再構成され、ループフィルタ処理されたサンプル値に応答することができる。

ループフィルタユニット（２５６）の出力は、レンダリングデバイス（２１２）に出力することができるとともに、将来のインターピクチャ予測に使用するために参照ピクチャメモリ（２５７）に記憶され得るサンプルストリームとすることができる。

完全に再構成されると、特定のコーディングされたピクチャは、将来の予測のための参照ピクチャとして使用することができる。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが参照ピクチャとして（例えば、パーサ（２２０）によって）識別されると、現在のピクチャバッファ（２５８）は参照ピクチャメモリ（２５７）の一部になることができ、後続のコーディングされたピクチャの再構成を開始する前に、新しい現在のピクチャバッファが再割り当てされ得る。

ビデオデコーダ（２１０）は、所定のビデオ圧縮技術またはＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの規格に従ってデコーディング動作を行うことができる。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスがビデオ圧縮技術または規格のシンタックスおよびビデオ圧縮技術または規格に文書化されたプロファイルの両方に準拠するという意味で、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格において利用可能なすべてのツールから、そのプロファイルの下で使用するために利用可能な唯一のツールとして特定のツールを選択することができる。また、準拠のために必要なのは、コーディングされたビデオシーケンスの複雑さがビデオ圧縮技術または規格のレベルによって定義される範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば毎秒メガサンプルを単位として測定される）、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、コーディングされたビデオシーケンスにおいてシグナリングされるＨＲＤバッファ管理のためのメタデータおよびＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ（ＨＲＤ）仕様によってさらに制限され得る。

一実施形態では、受信機（２３１）は、エンコーディングされたビデオとともに追加の（冗長な）データを受信することができる。追加のデータは、コーディングされたビデオシーケンスの一部として含まれていてもよい。追加のデータは、データを適切にデコーディングするために、および／または元のビデオデータをより正確に再構成するために、ビデオデコーダ（２１０）によって使用されてもよい。追加のデータは、例えば、時間、空間、または信号雑音比（ＳＮＲ）強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形態とすることができる。

図３は、ビデオエンコーダ（３０３）の例示的なブロック図を示す。ビデオエンコーダ（３０３）は、電子デバイス（３２０）に含まれている。電子デバイス（３２０）は、送信機（３４０）（例えば、送信回路）を含む。ビデオエンコーダ（３０３）は、図１の例のビデオエンコーダ（１０３）の代わりに使用することができる。

ビデオエンコーダ（３０３）は、ビデオエンコーダ（３０３）によってコーディングされるビデオ画像をキャプチャすることができるビデオソース（３０１）（図３の例では電子デバイス（３２０）の一部ではない）からビデオサンプルを受信することができる。別の例では、ビデオソース（３０１）は電子デバイス（３２０）の一部である。

ビデオソース（３０１）は、ビデオエンコーダ（３０３）によってコーディングされるソースビデオシーケンスを、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、．．．）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、．．．）、および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）であり得るデジタルビデオサンプルストリームの形態で提供することができる。メディアサービングシステムにおいては、ビデオソース（３０１）は、予め用意されたビデオを記憶する記憶装置であってもよい。ビデオ会議システムでは、ビデオソース（３０１）は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってもよい。ビデオデータは、連続して見たときに動きを与える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてもよく、各ピクセルは、使用時のサンプリング構造、色空間などに応じて１つまたは複数のサンプルを含むことができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によれば、ビデオエンコーダ（３０３）は、リアルタイムで、または必要に応じて任意の他の時間制約下で、ソースビデオシーケンスのピクチャをコーディングしてコーディングされたビデオシーケンス（３４３）に圧縮することができる。適切なコーディング速度を実施することが、コントローラ（３５０）の一機能である。いくつかの実施形態では、コントローラ（３５０）は、以下に説明するように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。明確にするために、結合については図示していない。コントローラ（３５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、．．．）、ピクチャサイズ、ピクチャグループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（３５０）は、特定のシステム設計に最適化されたビデオエンコーダ（３０３）に関する他の適切な機能を有するように構成することができる。

いくつかの実施形態では、ビデオエンコーダ（３０３）は、コーディングループで動作するように構成される。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ（３３０）（例えば、コーディングされる入力ピクチャと、参照ピクチャとに基づいて、シンボルストリームなどのシンボルを生成することを担当する）と、ビデオエンコーダ（３０３）に組み込まれた（ローカル）デコーダ（３３３）とを含むことができる。デコーダ（３３３）は、（リモート）デコーダも作成するのと同様のやり方でシンボルを再構成してサンプルデータを作成する。再構成されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（３３４）に入力される。シンボルストリームのデコーディングは、デコーダ位置（ローカルまたはリモート）とは無関係にビットイグザクトな結果をもたらすため、参照ピクチャメモリ（３３４）内のコンテンツもローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えれば、エンコーダの予測部分は、デコーダがデコーディング中に予測を使用するときに「見る」であろう全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性のこの基本原理（および、例えばチャネル誤差のために同期性を維持することができない場合に、結果として生じるドリフト）は、いくつかの関連技術においても使用される。

「ローカル」デコーダ（３３３）の動作は、図２に関連して既に詳細に説明したビデオデコーダ（２１０）などの「リモート」デコーダの動作と同じであり得る。しかしながら、図２も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（３４５）およびパーサ（２２０）によるコーディングされたビデオシーケンスへのシンボルのエンコーディング／デコーディングは可逆であり得るため、バッファメモリ（２１５）を含むビデオデコーダ（２１０）のエントロピーデコーディング部、およびパーサ（２２０）は、ローカルデコーダ（３３３）に完全に実装されない場合がある。

一実施形態では、デコーダに存在する解析／エントロピーデコーディングを除くデコーダ技術は、対応するエンコーダに同一または実質的に同一の機能形態で存在する。したがって、開示された主題はデコーダ動作に焦点を当てている。エンコーダ技術の説明は、エンコーダ技術が、包括的に説明されるデコーダ技術の逆であるため省略することができる。特定の領域では、より詳細な説明が以下に提供される。

動作中、いくつかの例では、ソースコーダ（３３０）は、「参照ピクチャ」として指定されたビデオシーケンスからの１つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする動き補償予測コーディングを行うことができる。このようにして、コーディングエンジン（３３２）は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（３３３）は、ソースコーダ（３３０）によって生成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン（３３２）の動作は、有利には非可逆プロセスであってもよい。コーディングされたビデオデータがビデオデコーダ（図３には示されていない）でデコーディングされ得るとき、再構成されたビデオシーケンスは、通常、いくつかのエラーを有するソースビデオシーケンスの複製である場合がある。ローカルビデオデコーダ（３３３）は、ビデオデコーダによって参照ピクチャに対して実行され得るデコーディング処理を複製し、再構成された参照ピクチャを参照ピクチャメモリ（３３４）に記憶させることができる。このようにして、ビデオエンコーダ（３０３）は、遠端ビデオデコーダによって取得される再構成された参照ピクチャと共通のコンテンツを有する再構成された参照ピクチャのコピーをローカルに記憶することができる（送信エラーなし）。

予測器（３３５）は、コーディングエンジン（３３２）の予測探索を実行することができる。すなわち、コーディングされる新しいピクチャに対して、予測器（３３５）は、（候補参照ピクセルブロックとしての）サンプルデータ、または、新しいピクチャの適切な予測参照として機能し得る、参照ピクチャの動きベクトル、ブロック形状などの特定のメタデータについて参照ピクチャメモリ（３３４）を探索することができる。予測器（３３５）は、適切な予測参照を見つけるために、サンプルブロックごとに動作することができる。場合によっては、予測器（３３５）によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（３３４）に記憶された複数の参照ピクチャから引き出された予測参照を有することができる。

コントローラ（３５０）は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（３３０）のコーディング動作を管理することができる。

前述のすべての機能ユニットの出力は、エントロピーコーダ（３４５）においてエントロピーコーディングを受けることができる。エントロピーコーダ（３４５）は、ハフマン符号化、可変長符号化、算術符号化などの技術に従ってシンボルに可逆圧縮を適用することによって、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信機（３４０）は、エントロピーコーダ（３４５）によって生成されたコーディングされたビデオシーケンスをバッファリングして、エンコーディングされたビデオデータを記憶する記憶装置へのハードウェア／ソフトウェアリンクであってもよい通信チャネル（３６０）を介した送信に備えることができる。送信機（３４０）は、ビデオエンコーダ（３０３）からのコーディングされたビデオデータを、送信されるその他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージし得る。

コントローラ（３５０）は、ビデオエンコーダ（３０３）の動作を管理することができる。コーディング中、コントローラ（３５０）は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼす場合がある。例えば、ピクチャは、しばしば、以下のピクチャタイプのうちの１つとして割り当てられることがある。

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内の任意の他のピクチャを使用することなくコーディングおよびデコーディングされ得るピクチャであってもよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（「ＩＤＲ」）ピクチャを含む異なるタイプのイントラピクチャを可能にする。当業者であれば、Ｉピクチャのそれらの変形例ならびにそれらのそれぞれの用途および特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために、最大で１つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るピクチャであってもよい。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために、最大で２つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るピクチャであってもよい。同様に、複数予測ピクチャは、単一ブロックの再構成のために３つ以上の参照ピクチャおよび関連付けられたメタデータを使用することができる。

ソースピクチャは、一般に、複数のサンプルブロック（例えば、４×４、８×８、４×８、または１６×１６のブロックごと）に空間的に細分され、ブロックごとにコーディングされてもよい。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされてもよい。例えば、Ｉピクチャのブロックは、非予測的にコーディングされてもよく、または同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてもよい（空間予測またはイントラ予測）。Ｐピクチャのピクセルブロックは、以前にコーディングされた１つの参照ピクチャを参照して、空間予測を介して、または時間予測を介して予測的にコーディングされてもよい。Ｂピクチャのブロックは、１つまたは２つの以前にコーディングされた参照ピクチャを参照して、空間予測を介して、または時間予測を介して予測的にコーディングされてもよい。

ビデオエンコーダ（３０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの所定のビデオ符号化技術または規格に従ってコーディング動作を行うことができる。その動作において、ビデオエンコーダ（３０３）は、入力ビデオシーケンス内の時間的および空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を行うことができる。したがって、コーディングされたビデオデータは、使用されているビデオ符号化技術または規格によって指定されたシンタックスに準拠することができる。

一実施形態では、送信機（３４０）は、エンコーディングされたビデオとともに追加のデータを送信することができる。ソースコーダ（３３０）は、このようなデータをコーディングされたビデオシーケンスの一部として含むことができる。追加のデータは、時間／空間／ＳＮＲ強化層、冗長ピクチャおよびスライスなどの他の形態の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含むことができる。

ビデオは、複数のソースピクチャ（ビデオピクチャ）として時系列にキャプチャされてもよい。イントラピクチャ予測（しばしばイントラ予測と略される）は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の（時間的または他の）相関を利用する。一例では、現在のピクチャと呼ばれる、エンコーディング／デコーディング中の特定のピクチャがブロックに分割される。現在のピクチャ内のブロックがビデオ内の以前にコーディングされてまだバッファされている参照ピクチャ内の参照ブロックに類似しているとき、現在のピクチャ内のブロックを、動きベクトルと呼ばれるベクトルによってコーディングすることができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し示し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第３の次元を有することができる。

いくつかの実施形態では、インターピクチャ予測において双予測技術を使用することができる。双予測技術によれば、第１の参照ピクチャおよび第２の参照ピクチャなどの２つの参照ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャのデコーディング順より前にある（しかし、表示順序はそれぞれ過去および未来にあってもよい）。現在のピクチャ内のブロックは、第１の参照ピクチャ内の第１の参照ブロックを指し示す第１の動きベクトル、および第２の参照ピクチャ内の第２の参照ブロックを指し示す第２の動きベクトルによってコーディングすることができる。ブロックは、第１の参照ブロックと第２の参照ブロックとの組合せによって予測することができる。

さらに、コーディング効率を向上させるために、インターピクチャ予測にマージモード技術を使用することができる。

本開示のいくつかの実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、多角形または三角形のブロックなどのブロックの単位で行われる。例えば、ＨＥＶＣ規格によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）に分割され、ピクチャ内のＣＴＵは、６４×６４ピクセル、３２×３２ピクセル、または１６×１６ピクセルなどの同じサイズを有する。一般に、ＣＴＵは、１つの輝度ＣＴＢおよび２つのクロマＣＴＢである３つのコーディングツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、１つまたは複数のコーディングユニット（ＣＵ）に再帰的に四分木分割することができる。例えば、６４×６４ピクセルのＣＴＵは、６４×６４ピクセルの１個のＣＵ、または３２×３２ピクセルの４個のＣＵ、または１６×１６ピクセルの１６個のＣＵに分割することができる。一例では、各ＣＵは、インター予測タイプまたはイントラ予測タイプなどのＣＵの予測タイプを決定するために分析される。ＣＵは、時間的および／または空間的な予測可能性に応じて、１つまたは複数の予測ユニット（ＰＵ）に分割される。一般に、各ＰＵは、輝度予測ブロック（ＰＢ）と、２つのクロマＰＢとを含む。一実施形態では、コーディング（エンコーディング／デコーディング）における予測演算は、予測ブロックの単位で行われる。予測ブロックの例として輝度予測ブロックを使用すると、予測ブロックは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８ピクセルなどのピクセルの値（例えば、輝度値）の行列を含む。

ビデオエンコーダ（１０３）および（３０３）、ならびにビデオデコーダ（１１０）および（２１０）は、任意の適切な技術を使用して実装することができることに留意されたい。一実施形態では、ビデオエンコーダ（１０３）および（３０３）ならびにビデオデコーダ（１１０）および（２１０）は、１つまたは複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ（１０３）および（３０３）、ならびにビデオデコーダ（１１０）および（２１０）は、ソフトウェア命令を実行する１つまたは複数のプロセッサを使用して実装することができる。

本開示は、重複した頂点のマージを使用するメッシュ圧縮の方法およびシステムに関する実施形態を含む。

メッシュは、体積オブジェクトの表面を表現するいくつかの多角形を含むことができる。メッシュの各多角形は、３次元（３Ｄ）空間内の対応する多角形の頂点と、頂点がどのように接続されているかに関する情報とによって定義することができ、この情報は接続情報と呼ばれ得る。いくつかの実施形態では、色、法線などの頂点属性をメッシュ頂点に関連付けることができる。２次元（２Ｄ）属性マップでメッシュをパラメータ化するマッピング情報を利用することによって、属性（または頂点属性）をメッシュの表面に関連付けることもできる。このようなマッピングは、通常、メッシュ頂点に関連付けられたＵＶ座標またはテクスチャ座標と呼ばれるパラメトリック座標のセットによって記述することができる。２Ｄ属性マップは、テクスチャ、法線、変位などの高解像度属性情報を記憶するために使用することができる。このような情報は、テクスチャマッピングおよびシェーディングなどの、様々な目的に使用することができる。

動的メッシュシーケンスは、動的メッシュが経時的に変化するかなりの量の情報を含む可能性があるため、大量のデータを必要とする場合がある。そのため、このようなコンテンツを記憶して送信するためには、効率的な圧縮技術が必要となる。ＩＣ、ＭＥＳＨＧＲＩＤ、およびＦＡＭＣなどのメッシュ圧縮標準は、ＭＰＥＧによって以前に開発され、常時接続、時変ジオメトリ、および頂点属性を有する動的メッシュに対処した。しかしながら、これらの規格は、時変属性マップおよび接続性情報を考慮しない場合がある。ＤＣＣ（デジタルコンテンツ作成）ツールは、通常、そのような動的メッシュを生成する。しかしながら、特にリアルタイム制約下で、常時接続の動的メッシュを生成することは、体積取得技術にとって困難である可能性がある。この種のコンテンツ（例えば、常時接続の動的メッシュ）は、既存の規格によってサポートされない場合がある。ＭＰＥＧは、時変接続情報および任意選択的に時変属性マップを有する動的メッシュを直接処理するための新しいメッシュ圧縮規格を開発することを計画している。新しいメッシュ圧縮規格は、リアルタイム通信、ストレージ、自由視点ビデオ、拡張現実（ＡＲ）、および仮想現実（ＶＲ）などの様々なアプリケーションの非可逆および可逆圧縮を対象としている。ランダムアクセスやスケーラブル／プログレッシブコーディングなどの機能も考えられる。

図４は、ＭＰＥＧＶ－Ｍｅｓｈ（商標）ｖ１．０などの関連するビデオコーデックに基づくエンコーディングプロセス（４００）を示す。図４に示すように、エンコーディングプロセス（４００）は、入力メッシュに従ってベースメッシュおよび変位ベクトルを生成するように構成された前処理段階（４００Ａ）と、エンコーディングプロセス（４００）においてインターフレーム予測またはイントラフレーム予測が適用されるかどうかを判定するように構成されたモード決定段階（４００Ｂ）と、ベースメッシュ、変位ベクトル、およびベースメッシュのテクスチャ情報をエンコーディングするように構成されたエンコーディング段階（４００Ｃ）とを含むことができる。

さらに図４を参照すると、前処理段階（４００Ａ）は、メッシュ間引きプロセス（４０２）、アトラスパラメータ化プロセス（４０４）、および細分割面フィッティングプロセス（４０６）を含むことができる。メッシュ間引きプロセス（４０２）は、入力メッシュＭ（ｉ）の頂点をダウンサンプリングして、複数の間引き（またはダウンサンプリング）された頂点を含む間引きメッシュｄｍ（ｉ）を生成するように構成される。アトラスパラメータ化プロセス（４０４）は、間引きされたメッシュｄｍ（ｉ）をＵＶアトラス（またはＵＶマップ）などの平面領域にマッピングして、再パラメータ化されたメッシュｐｍ（ｉ）を生成するように構成される。一例では、アトラスパラメータ化は、ＵＶＡｔｌａｓツールなどのビデオ処理ツールに基づいて実行することができる。細分割面フィッティングプロセス（４０６）は、再パラメータ化されたメッシュｐｍ（ｉ）および入力メッシュＭ（ｉ）を入力として取り込み、変位ｄ（ｉ）のセットとともにベースメッシュｍ（ｉ）を生成するように構成される。例示的な細分割面フィッティングプロセスでは、ｐｍ（ｉ）は反復補間を使用して細分される。反復補間は、各反復において、再パラメータ化されたメッシュｐｍ（ｉ）の各エッジの中央に新しい点を挿入することを含む。変位場ｄ（ｉ）は、細分されたメッシュの各頂点について、元のメッシュＭ（ｉ）の表面上の最近点を決定することによって計算される。

図５は、ベースメッシュおよび変位ベクトルを生成するための例示的な前処理段階（５００）を示す。図５に示すように、入力メッシュの入力２Ｄ曲線（２Ｄポリラインによって表される）は、「元の」曲線（５０２）と呼ぶことができる。元の曲線（５０２）をダウンサンプリングして、「間引き」曲線（５０４）と呼ばれるベース曲線／ポリラインを生成することができる。次いで、間引かれたポリライン（５０４）に細分割スキームを適用して、「細分割」曲線（５０６）を生成することができる。一例では、再分割スキームは反復補間スキームとすることができる。反復補間スキームは、各反復において、ポリライン（または間引きされた曲線）の各エッジの中央に新しい点を挿入することを含むことができる（５０４）。例えば、点（５１０）は、間引きされた曲線（５０４）のエッジ（５０８）に挿入することができる。さらに、点（５１２）と点（５１０）との間に点（５２２）を追加し、点（５１０）と点（５１４）との間に点（５１６）を追加することができる。細分されたポリライン（５０６）は、次に変形されて変位曲線（５１８）を生成する。変位曲線（５１８）は、元の曲線（５０２）のより良い近似であり、ベースメッシュのエッジとして機能することができる。より正確には、変位曲線（５１８）の形状が元の曲線（５０２）の形状に可能な限り近くなるように、細分された曲線（５０６）の各頂点（例えば、（５１０））について変位ベクトル（例えば、（５２０））が計算される。細分された曲線（５０６）の主な利点は、細分された曲線（５０６）が、元の曲線（５０２）の忠実な近似を提供しながら、より効率的な圧縮を可能にする細分構造を有することである。

モード決定段階（４００Ｂ）は、イントラコーディングモードのコストとインターコーディングモードのコストとを比較し、イントラコーディングモードのコストとインターコーディングモードのコストのどちらが小さいかに基づいて、ベースメッシュの各フレームのコーディングモードを決定することができる。

エンコーディング段階（４００Ｃ）は、ベースメッシュコーディング（４０８）、変位コーディング（４１０）、およびテクスチャコーディング（４１２）を含むことができる。ベースメッシュコーディング（４０８）は、現在のフレームに関連付けられたベースメッシュｍ（ｉ）の幾何学的情報をエンコーディングするように構成される。イントラエンコーディングでは、ベースメッシュｍ（ｉ）を最初に量子化し（例えば、一様量子化を使用して）、次いで静的メッシュエンコーダを使用してエンコーディングすることができる。インターエンコーディングでは、インデックスｉを有する現在のフレームに関連付けられたベースメッシュｍ（ｉ）を予測するために、インデックスｊを有する参照フレームに関連付けられた再構成された量子化された参照ベースメッシュｍ’（ｊ）が使用される。変位コーディング（４１０）は、変位場ｄ（ｉ）と呼ばれる、細分されたメッシュ頂点に関連付けられた変位ベクトルのセットをエンコーディングするように構成される。テクスチャコーディング（４１２）は、ベースメッシュの属性情報をエンコーディングするように構成される。属性情報は、テクスチャ、法線、色などを含むことができる。属性情報は、高効率ビデオコーディング（ＨＥＶＣ）または多用途ビデオコーディング（ＶＶＣ）などの適切なコーデックに基づいてエンコーディングすることができる。

図６は、ベースメッシュコーディング効率を改善するための重複頂点マージ技術に基づくエンコーディングプロセス（６００）を示す。図６に示すように、エンコーディングプロセス（６００）は、前処理段階（６００Ａ）において頂点マージステップ（またはベースメッシュ頂点マージステップ）（６０２）を含むことができる。一実施形態では、重複頂点は、参照フレーム内の同じ参照頂点をベースメッシュ内の別の頂点と共有するベースメッシュの頂点とすることができる。一実施形態では、参照頂点が、現在のフレーム内のベースメッシュの頂点と参照フレーム内の相対的に同じ位置に配置されるように、ベースメッシュの頂点とベースメッシュ内の頂点の参照頂点とがコロケート（ｃｏｌｌｏｃａｔｅ）される。頂点マージステップ（６０２）では、重複した頂点と、その重複した頂点に対応する頂点とをマージすることができる。

しかしながら、頂点マージを伴うエンコーディングプロセスのコーディング効率は、頂点マージを伴わないエンコーディングプロセスほど効率的ではない場合がある。例えば、頂点マージを伴うエンコーディングプロセス（６００）では、モード決定段階中にフレームごとにイントラコーディングモードが常に選択される場合があり、または選択される可能性がより高い場合がある。１つの理由は、重複頂点マージが頂点の数を減らすことができ、２つのフレーム（例えば、現在のフレームおよび参照フレーム）に１対１の頂点対応（または相関）がない可能性があることである。インターコーディングモードでは、現在のフレームと参照フレームとの間の１対１の頂点対応が必要である。したがって、１対１の頂点対応がないため、フレームはインターコーディングモードではなくイントラコーディングモードを選択する。したがって、頂点マージは、インター予測モードが選択されない可能性があるため、コーディング損失が生じる可能性がある。

本開示では、頂点マージに起因するコーディング損失に対処するために、重複頂点マージを使用するメッシュ圧縮の方法およびシステムが提供される。提案された方法は、別々に使用されてもよく、または任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダのそれぞれは、処理回路（例えば、１つまたは複数のプロセッサまたは１つまたは複数の集積回路）によって実施されてもよい。一例では、１つまたは複数のプロセッサは、非一過性のコンピュータ可読媒体に記憶されたプログラムを実行する。

本開示では、モード決定後に重複した頂点をマージすることができる。したがって、モード決定段階（例えば、（４００Ｂ）で決定される予測モード（例えば、インターコーディングモードまたはイントラコーディングモード）に基づいて、重複した頂点をマージすることができる。いくつかの実施形態では、重複頂点マージは、イントラコーディングモードの下でフレームに適用されてもよい。

一実施形態では、モード決定および重複頂点マージは、エンコーディングプロセスの第２段階（またはモード決定段階）に配置することができる。例えば、図７に示すように、エンコーディングプロセス（７００）は、第１段階（または前処理段階）（７００Ａ）、第２段階（７００Ｂ）、および第３段階（またはエンコーディング段階）（７００Ｃ）を含むことができる。第２段階（７００Ｂ）は、モード決定ステップ（７０４）と頂点マージステップ（またはイントラフレーム頂点マージ）（７０２）とを含むことができる。第３段階（またはエンコーディング段階）（７００Ｃ）は、ベースメッシュコーディング（７０６）、変位コーディング（７０８）、およびテクスチャコーディング（７１０）を含むことができる。モード決定ステップ（７０４）は、ベースメッシュに関連付けられたフレームにインターコーディングモードが適用されるかイントラコーディングモードが適用されるかを決定するように構成される。エンコーディングプロセス（７００）によれば、モード決定ステップ（７０４）でコーディングモードが決定された後、フレームのコーディングモードがイントラコーディングモードとして決定された場合、重複頂点マージをベースメッシュに適用することができる。フレームのコーディングモードがインターコーディングモードとして決定された場合、重複頂点マージはフレームに適用されなくてもよい。

一実施形態では、重複頂点マージを、エンコーディング段階（７００Ｃ）などの第３段階に配置することができる。一例では、重複頂点マージは、ベースメッシュコーディング（７０６）の前に配置され得る。したがって、ベースメッシュのフレームのコーディングモードがイントラコーディングモードであるとして決定された場合、重複頂点マージをベースメッシュに適用してマージされたベースメッシュを生成することができる。マージされたベースメッシュは、ベースメッシュの複数の頂点のサブセットを含むことができる。複数の頂点のサブセット内の頂点は、一意または非反復であり得る。マージされたベースメッシュは、イントラコーディングモードに従ってベースメッシュコーディング（７０６）においてさらにエンコーディングされ得る。こうして、マージされたベースメッシュに対してベースメッシュコーディング（７０６）が行われ、重複した頂点がマージされる（またはスキップされる）ため、ベースメッシュコーディング（７０６）のための入力情報を削減することができる。フレームのコーディングモードがインターコーディングモードとして決定された場合は、重複頂点マージはフレームに適用されなくてもよい。

一実施形態では、重複頂点マージは、エンコーディング段階（例えば、（７００Ｃ））のベースメッシュコーディング（例えば、（７０６））内に配置（または実装）することができる。こうして、ベースメッシュに対して、ベースメッシュコーディング（例えば、（７０６））が適用される。したがって、ベースメッシュコーディングは、２つのサブステップを含むことができる。第１のサブステップでは、ベースメッシュの重複頂点を識別することができる。例えば、ベースメッシュの頂点とベースメッシュの別の頂点とが参照フレーム内で同じ参照頂点を有する場合に、ベースメッシュの頂点を重複頂点として決定することができる。第２のステップでは、ベースメッシュは、モード決定ステップ（例えば、（７０４））で決定されたコーディングモードに基づいてエンコーディングすることができる。例えば、ベースメッシュコーディング中に、ベースメッシュのフレームのコーディングモードがイントラコーディングモードとして決定された場合、重複頂点マージをベースメッシュに適用して、ベースメッシュの複数の頂点のサブセットを含むマージされたベースメッシュを生成することができる。複数の頂点のサブセットは、静的メッシュコーデックに基づいてさらにコーディングされ得る。ベースメッシュのフレームのコーディングモードがインターコーディングモードとして決定された場合、重複頂点マージは適用されなくてもよく、動きフィールドコーディングをベースメッシュに適用することができる。重複頂点マージがベースメッシュコーディングの前に配置されるベースメッシュコーディングと比較して、重複頂点マージがエンコーディング段階の内部に配置されるベースメッシュコーディングは、重複頂点がベースメッシュコーディングの前にマージされないため、より多くの入力情報を受け取る。

一実施形態では、モード決定の前に重複頂点マージを行うことができる。一例では、モード決定の前に、重複頂点マージを第１段階に配置することができ、これを図６に示すことができる。図６に示すように、重複頂点が前処理段階（６００Ａ）のベースメッシュ頂点マージステップ（６０２）でマージされて、マージベースメッシュが生成されると、マージされた頂点の情報をシグナリングし、モード決定段階（６００Ｂ）に送ることができる。いくつかの例では、マージされた頂点の情報はインデックスを含むことができる。したがって、モード決定段階（６００Ｂ）において、マージされた頂点のインデックスを識別することができる。マージされた頂点のインデックスに基づいて、マージされた頂点をマージ解除することができる。こうして、現在のフレーム内の頂点の数は減少せず、クロスフレーム（例えば、現在のフレームと参照フレームとの間）の１対１の頂点対応（または相関）を確立することができる。さらに、イントラコーディングモードのコスト（または予測コスト）とインターコーディングモードのコストとを比較して、イントラコーディングモードまたはインターコーディングモードを選択してもよい。予測モード（またはコーディングモード）がモード決定段階（６００Ｂ）で決定されると、ベースメッシュまたはマージベースメッシュがベースメッシュコーディング（６０２）でエンコーディングされるかどうかが、決定された予測モードに基づいて決定される。例えば、モード決定段階（６００Ｂ）でイントラ予測モード（またはイントラコーディングモード）が決定されると、ベースメッシュコーディング（６０２）は、重複した頂点がマージされたマージベースメッシュをエンコーディングすることができる。モード決定段階（６００Ｂ）でインター予測モード（またはインターコーディングモード）が決定されると、ベースメッシュコーディング（６０２）は、ベースメッシュをエンコーディングすることができる。

図８は、本開示の実施形態による、第１のデコーディングプロセス（８００）の概要を示すフローチャートを示し、図９は、第２のデコーディングプロセス（９００）の概要を示すフローチャートを示す。プロセス（８００）およびプロセス（９００）は、ビデオデコーダなどのデコーダで使用することができる。様々な実施形態において、プロセス（８００）およびプロセス（９００）は、ビデオデコーダ（１１０）の機能を行う処理回路、ビデオデコーダ（２１０）の機能を行う処理回路などの処理回路によって実行することができる。いくつかの実施形態では、プロセス（８００）およびプロセス（９００）はソフトウェア命令で実施され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス（８００）およびプロセス（９００）をそれぞれ行う。

一例では、プロセス（８００）は、（Ｓ８０１）から開始し、（Ｓ８１０）に進む。

（Ｓ８１０）において、ベースメッシュは、現在のフレームにおいてダウンサンプリングされた入力メッシュから生成され、ベースメッシュは、複数の頂点を含む。

（Ｓ８２０）では、ベースメッシュに適用される予測モードが決定される。予測モードは、インター予測モードまたはイントラ予測モードである。

（Ｓ８３０）において、予測モードがイントラ予測モードとして決定されたことに基づいて、ベースメッシュ内の複数の頂点のうち重複した頂点がマージされて、複数の頂点のサブセットが生成される。

（Ｓ８４０）において、決定されたイントラ予測モードに基づいて、複数の頂点の少なくともサブセットがエンコーディングされ、複数の頂点の少なくともサブセットの予測情報が生成される。

いくつかの実施形態では、複数の頂点のそれぞれの参照頂点は、それぞれの頂点の参照フレーム内のコロケートされた頂点であり、コロケートされた頂点は、現在のフレーム内のベースメッシュのそれぞれの頂点と参照フレーム内の相対的に同じ位置に配置される。

その後、プロセスは（Ｓ８９９）に進み、終了する。

プロセス（８００）は、適切に適合させることができる。プロセス（８００）のステップは、修正および／または省略することができる。追加のステップを追加することができる。任意の適切な実施順序を使用することができる。

一例では、プロセス（９００）は、（Ｓ９０１）から開始し、（Ｓ９１０）に進む。

（Ｓ９１０）において、現在のフレームにおいてダウンサンプリングされた入力メッシュからベースメッシュが生成され、ベースメッシュは複数の頂点を含む。

（Ｓ９２０）において、ベースメッシュの複数の頂点のうちの重複した頂点がマージされて、複数の頂点のサブセットを含むマージされたベースメッシュが生成される。

（Ｓ９３０）において、マージされた重複した頂点を識別するインデックス情報が生成される。

（Ｓ９４０）において、マージされたベースメッシュおよび生成されたインデックス情報に基づいて、ベースメッシュに適用される予測モードを決定する。予測モードは、インター予測モードまたはイントラ予測モードである。

（Ｓ９５０）において、決定された予測モードがインター予測モードであることに基づいて、生成されたインデックス情報に従ってベースメッシュのインター予測情報が生成される。

（Ｓ９６０）において、決定された予測モードがイントラ予測モードであることに基づいて、ベースメッシュのイントラ予測情報が生成される。

その後、プロセスは（Ｓ９９９）に進み、終了する。

プロセス（９００）は、適切に適合させることができる。プロセス（９００）のステップは、修正および／または省略することができる。追加のステップを追加することができる。任意の適切な実施順序を使用することができる。

上述した技術は、コンピュータ可読命令を使用して、１つまたは複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装することができる。例えば、図１０は、開示の主題の特定の実施形態を実施するのに適したコンピュータシステム（１０００）を示す。

コンピュータソフトウェアは、１つまたは複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）などによって直接、または解釈、マイクロコード実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどのメカニズムを受けることができる任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含む様々な種類のコンピュータまたはその構成要素上で実行することができる。

コンピュータシステム（１０００）の図１０に示す構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図するものではない。構成要素の構成は、コンピュータシステム（１０００）の例示的な実施形態に示されている構成要素のいずれかまたは組合せに関する依存関係または要件を有すると解釈されるべきではない。

コンピュータシステム（１０００）は、特定のヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き）、音声入力（例えば、声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を介した１人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、オーディオ（例えば、音声、音楽、周囲音）、画像（例えば、走査画像、静止画像カメラから取得される写真画像）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間による意識的な入力に直接関連しない特定の媒体をキャプチャするために使用することもできる。

入力ヒューマンインターフェースデバイスは、キーボード（１００１）、マウス（１００２）、トラックパッド（１００３）、タッチスクリーン（１０１０）、データグローブ（図示せず）、ジョイスティック（１００５）、マイクロフォン（１００６）、スキャナ（１００７）、カメラ（１００８）のうちの１つまたは複数（それぞれの１つのみが描かれている）を含むことができる。

コンピュータシステム（１０００）は、特定のヒューマンインターフェース出力デバイスを含むこともできる。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い／味によって１人または複数の人間のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１０１０）、データグローブ（図示せず）、またはジョイスティック（１００５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）、音声出力デバイス（例えば、スピーカ（１００９）、ヘッドホン（図示せず））、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１０１０）であって、それぞれタッチスクリーン入力機能があってもなくてもよく、それぞれ触覚フィードバック機能があってもなくてもよく、その一部は、ステレオ出力などの手段を介して２次元視覚出力または３次元超出力を出力することができてもよく、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ、およびスモークタンク（図示せず）など）、およびプリンタ（図示せず）を含むことができる。

コンピュータシステム（１０００）は、ＣＤ／ＤＶＤなどの媒体（１０２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１０２０）を含む光学媒体、サムドライブ（１０２２）、リムーバブルハードドライブまたはソリッドステートドライブ（１０２３）、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースの装置などの、人間がアクセス可能な記憶装置およびそれらの関連付けられた媒体を含むこともできる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一過性の信号を包含しないことを理解すべきである。

コンピュータシステム（１０００）はまた、１つまたは複数の通信ネットワーク（１０５５）へのインターフェース（１０５４）を含むことができる。ネットワークは、例えば、無線、有線、光とすることができる。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット、無線ＬＡＮなどのローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上波放送ＴＶを含むテレビの有線または無線の広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業用などが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（１０４９）に取り付けられた外部ネットワークインターフェースアダプタを必要とする（例えば、コンピュータシステム（１０００）のＵＳＢポートなど）。他のものは、一般に、後述するようなシステムバスへの取り付け（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）によってコンピュータシステム（１０００）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（１０００）は、他のエンティティと通信することができる。このような通信は、例えば、ローカルまたは広域デジタルネットワークを使用して、他のコンピュータシステムに対して、単方向、受信のみ（例えば、放送ＴＶ）、単方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマンインターフェースデバイス、ヒューマンアクセスストレージデバイス、およびネットワークインターフェースは、コンピュータシステム（１０００）のコア（１０４０）に取り付けることができる。

コア（１０４０）は、１つまたは複数の中央処理装置（ＣＰＵ）（１０４１）、グラフィック処理装置（ＧＰＵ）（１０４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１０４３）の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ（１０４４）、グラフィックアダプタ（１０５０）などを含むことができる。これらのデバイスは、読取り専用メモリ（ＲＯＭ）（１０４５）、ランダムアクセスメモリ（１０４６）、内部非ユーザアクセス可能ハードドライブなどの内部大容量ストレージ、ＳＳＤなど（１０４７）とともに、システムバス（１０４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス（１０４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセス可能とすることができる。周辺機器は、コアのシステムバス（１０４８）に直接取り付けることも、周辺機器用バス（１０４９）を介して取り付けることもできる。一例では、スクリーン（１０１０）をグラフィックアダプタ（１０５０）に接続することができる。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

ＣＰＵ（１０４１）、ＧＰＵ（１０４２）、ＦＰＧＡ（１０４３）、およびアクセラレータ（１０４４）は、組み合わせて上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１０４５）またはＲＡＭ（１０４６）に記憶することができる。移行データはまた、ＲＡＭ（１０４６）に記憶することができ、一方、永久データは、例えば内部大容量ストレージ（１０４７）に記憶することができる。メモリデバイスのいずれかへの高速記憶および検索は、１つまたは複数のＣＰＵ（１０４１）、ＧＰＵ（１０４２）、大容量ストレージ（１０４７）、ＲＯＭ（１０４５）、ＲＡＭ（１０４６）などと密接に関連付けることができるキャッシュメモリの使用によって可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実装動作を行うためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知で利用可能な種類のものであってもよい。

限定ではなく、例として、アーキテクチャ、特にコア（１０４０）を有するコンピュータシステム（１０００）は、１つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）の結果として機能を提供することができる。このようなコンピュータ可読媒体は、上述したようなユーザアクセス可能な大容量ストレージ、ならびにコア内部大容量ストレージ（１０４７）またはＲＯＭ（１０４５）などの非一過性の性質のコア（１０４０）の特定のストレージに関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア（１０４０）によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（１０４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１０４６）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ハードワイヤードまたは他の方法で回路（例えば、アクセラレータ（１０４４））に具現化されたロジックの結果として機能を提供することができ、ソフトウェアの代わりに、またはソフトウェアとともに動作して、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及は、適切な場合には、ロジックを包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合には、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組合せを包含する。

本開示における「～のうちの少なくとも１つ」または「～のうちの１つ」の使用は、列挙された要素のいずれか１つまたは組合せを含むことを意図している。例えば、Ａ、Ｂ、またはＣのうちの少なくとも１つへの言及、すなわち、Ａ、Ｂ、およびＣの少なくとも１つ、Ａ、Ｂ、および／またはＣの少なくとも１つ、ＡからＣのうちの少なくとも１つは、Ａのみ、Ｂのみ、Ｃのみ、またはそれらの任意の組合せを含むことが意図される。ＡまたはＢの一方ならびにＡおよびＢの一方への言及は、ＡまたはＢあるいは（ＡおよびＢ）を含むことが意図される。「～のうちの１つ」の使用は、要素が相互に排他的ではない場合など、適用可能な場合に列挙された要素の任意の組合せを排除しない。

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の等価物がある。したがって、当業者は、本明細書に明示的に示されていないまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

１００ビデオ処理システム、１０１ビデオソース、１０２ビデオピクチャのストリーム、１０３ビデオエンコーダ、１０４ビデオデータ、１０５ストリーミングサーバ、１０６クライアントサブシステム、１０７着信コピー、１０８クライアントサブシステム、１０９コピー、１１０ビデオデコーダ、１１１ビデオピクチャ、１１２ディスプレイ、１１３キャプチャサブシステム、１２０電子デバイス、１３０電子デバイス、２０１チャネル、２１０ビデオデコーダ、２１２レンダリングデバイス、２１５バッファメモリ、２２０パーサ、２２１シンボル、２３０電子デバイス、２３１受信機、２５１逆変換ユニット、２５２イントラ予測ユニット、２５３動き補償予測ユニット、２５５アグリゲータ、２５６ループフィルタユニット、２５７参照ピクチャメモリ、２５８ピクチャバッファ、３０１ビデオソース、３０３ビデオエンコーダ、３２０電子デバイス、３３０ソースコーダ、３３２コーディングエンジン、３３３デコーダ、３３４参照ピクチャメモリ、３３５予測器、３４０送信機、３４３ビデオシーケンス、３４５エントロピーコーダ、３５０コントローラ、３６０通信チャネル、４００エンコーディングプロセス、４００Ａ前処理段階、４００Ｂモード決定段階、４００Ｃエンコーディング段階、４０２メッシュ間引きプロセス、４０４アトラスパラメータ化プロセス、４０６細分割面フィッティングプロセス、４０８ベースメッシュコーディング、４１０変位コーディング、４１２テクスチャコーディング、５００前処理段階、５０２曲線、５０４ポリライン、５０６ポリライン、５０８エッジ、５１８変位曲線、６００エンコーディングプロセス、６００Ａ前処理段階、６００Ｂモード決定段階、６０２頂点マージステップ、７００エンコーディングプロセス、７００Ａ前処理段階、７００Ｃエンコーディング段階、７０２イントラフレーム頂点マージ、７０４モード決定ステップ、７０６ベースメッシュコーディング、７０８変位コーディング、７１０テクスチャコーディング、８００デコーディングプロセス、９００デコーディングプロセス、１０００コンピュータシステム、１００１キーボード、１００２マウス、１００３トラックパッド、１００５ジョイスティック、１００６マイクロフォン、１００７スキャナ、１００８カメラ、１００９スピーカ、１０１０タッチスクリーン、１０２１媒体、１０２２サムドライブ、１０２３ソリッドステートドライブ、１０４０コア、１０４１ＣＰＵ、１０４２ＧＰＵ、１０４３フィールドプログラマブルゲートエリア、１０４４ハードウェアアクセラレータ、１０４５読取り専用メモリＲＯＭ、１０４６ランダムアクセスメモリ、１０４７大容量ストレージ、１０４８システムバス、１０４９周辺バス、１０５０グラフィックアダプタ、１０５４インターフェース、１０５５通信ネットワーク

Claims

エンコーダにおいて行われるメッシュ処理の方法であって、
現在のフレームにおいてダウンサンプリングされた入力メッシュからベースメッシュを生成するステップであり、前記ベースメッシュが複数の頂点を含む、ステップと、
前記ベースメッシュに適用される予測モードを決定するステップであり、前記予測モードがインター予測モードまたはイントラ予測モードである、ステップと、
前記予測モードが前記イントラ予測モードであるとして決定されたことに基づいて、前記ベースメッシュ内の前記複数の頂点のうち重複した頂点をマージして前記複数の頂点のサブセットを生成するステップであって、前記重複した頂点のそれぞれは、参照フレーム内の同じ参照頂点を前記ベースメッシュ内の別の頂点と共有する前記ベースメッシュの頂点である、ステップと、
前記決定されたイントラ予測モードに基づいて前記複数の頂点の少なくとも前記サブセットをエンコーディングして、前記複数の頂点の少なくとも前記サブセットの予測情報を生成するステップと、
を含む、方法。
前記ベースメッシュ内の前記重複した頂点は、前記予測モードが前記イントラ予測モードであるとして決定されたことに基づいてマージされ、
前記ベースメッシュ内の前記重複した頂点は、前記予測モードが前記インター予測モードであるとして決定されたことに基づいてマージされない、
請求項１に記載の方法。
前記重複した頂点をマージする前記ステップは、前記予測モードを決定する前記ステップに含まれる、請求項１に記載の方法。
前記重複した頂点をマージする前記ステップは、前記複数の頂点の少なくとも前記サブセットを前記エンコーディングするステップに含まれる、請求項１に記載の方法。
前記予測モードが前記インター予測モードであるとして決定されたことに基づいて、
前記ベースメッシュの前記複数の頂点をエンコーディングするステップ
をさらに含み、
前記ベースメッシュの前記複数の頂点をエンコーディングする前記ステップは、
前記複数の頂点のそれぞれについて参照フレーム内の参照頂点を決定するステップと、
前記参照フレーム内の前記頂点のそれぞれに対応する前記参照頂点に基づいて、前記複数の頂点のそれぞれについてのインター予測情報を生成するステップと、
を含む、
請求項１に記載の方法。
前記複数の頂点のそれぞれの前記参照頂点は、前記頂点のそれぞれの前記参照フレーム内のコロケート（ｃｏｌｌｏｃａｔｅ）された頂点であり、前記コロケートされた頂点は、前記現在のフレーム内の前記ベースメッシュの前記頂点のそれぞれと前記参照フレーム内の相対的に同じ位置に配置される、請求項５に記載の方法。
エンコーダにおいて行われるメッシュ処理の方法であって、
現在のフレームにおいてダウンサンプリングされた入力メッシュからベースメッシュを生成するステップであり、前記ベースメッシュが複数の頂点を含む、ステップと、
前記ベースメッシュの前記複数の頂点の重複した頂点をマージして、前記複数の頂点のサブセットを含むマージされたベースメッシュを生成するステップであって、前記重複した頂点のそれぞれは、参照フレーム内の同じ参照頂点を前記ベースメッシュ内の別の頂点と共有する前記ベースメッシュの頂点である、ステップと、
前記マージされた重複した頂点を識別するインデックス情報を生成するステップと、
前記マージされたベースメッシュと前記生成されたインデックス情報とに基づいて、前記ベースメッシュに適用される予測モードを決定するステップであり、前記予測モードがインター予測モードまたはイントラ予測モードである、ステップと、
前記決定された予測モードが前記インター予測モードであることに基づいて、前記生成されたインデックス情報に従って前記ベースメッシュのインター予測情報を生成するステップと、
前記決定された予測モードが前記イントラ予測モードであることに基づいて、前記ベースメッシュのイントラ予測情報を生成するステップと、
を含む、方法。
前記予測モードを決定する前記ステップは、
前記マージされた重複した頂点の前記インデックス情報に基づいて、前記複数の頂点の前記マージされた重複した頂点をマージ解除するステップと、
前記現在のフレーム内の前記ベースメッシュの前記複数の頂点のそれぞれについて、参照フレーム内の参照頂点を決定するステップであって、前記参照フレームが前記現在のフレームとは異なる、ステップと、
前記ベースメッシュの前記複数の頂点のそれぞれについて第１の予測差を決定するステップであって、前記複数の頂点のそれぞれについての前記第１の予測差が、前記参照フレーム内の前記参照頂点と前記ベースメッシュの前記複数の頂点の前記頂点のそれぞれとの間の差を示す、ステップと、
前記ベースメッシュの前記複数の頂点のそれぞれについて第２の予測差を決定するステップであって、前記複数の頂点のそれぞれについての前記第２の予測差が、前記複数の頂点の前記頂点のそれぞれの前記現在のフレーム内の１つまたは複数の近傍の頂点と前記複数の頂点の前記頂点のそれぞれとの間の差を示す、ステップと
を含む、請求項７に記載の方法。
前記予測モードを決定する前記ステップは、
前記複数の頂点に関連付けられた前記第１の予測差の合計として第１のコスト値を決定するステップと、
前記複数の頂点に関連付けられた前記第２の予測差の合計として第２のコスト値を決定するステップと、
前記予測モードを、（ｉ）前記第１のコスト値が前記第２のコスト値以下であることに基づく前記インター予測モード、および、（ｉｉ）前記第２のコスト値が前記第１のコスト値より小さいことに基づく前記イントラ予測モードとして決定するステップと、
をさらに含む、請求項８に記載の方法。
前記参照頂点を決定する前記ステップは、
前記複数の頂点のそれぞれについて、前記参照フレーム内のコロケートされた頂点を前記参照頂点として決定するステップであって、前記コロケートされた頂点が、前記現在のフレーム内の前記ベースメッシュの前記頂点のそれぞれと前記参照フレーム内の相対的に同じ位置に配置される、ステップ、
をさらに含む、請求項８に記載の方法。
前記ベースメッシュの前記インター予測情報を生成する前記ステップは、
前記予測モードが前記インター予測モードであるとして決定されたことに基づいて、前記参照フレーム内の前記インデックス情報のそれぞれの対応する参照頂点に基づいて、前記複数の頂点の前記サブセットのそれぞれについて前記インター予測情報を生成するステップ、
をさらに含む、請求項８に記載の方法。
前記ベースメッシュの前記イントラ予測情報を生成する前記ステップは、
前記予測モードが前記イントラ予測モードであるとして決定されたことに基づいて、前記現在のフレーム内の前記頂点のそれぞれの１つまたは複数の近傍の頂点に基づいて前記複数の頂点の前記サブセットのそれぞれについて前記イントラ予測情報を生成するステップ、
をさらに含む、請求項８に記載の方法。
請求項１から６のいずれか一項に記載の方法を実施するように構成された、メッシュ処理のための装置。
請求項７から１２のいずれか一項に記載の方法を実施するように構成された、メッシュ処理のための装置。
少なくとも１つのプロセッサによって実行されると、請求項１から６のいずれか一項に記載の方法を前記プロセッサに実行させるように構成された命令を含む、コンピュータプログラム。
少なくとも１つのプロセッサによって実行されると、請求項７から１２のいずれか一項に記載の方法を前記プロセッサに実行させるように構成された命令を含む、コンピュータプログラム。