JP7649792B2

JP7649792B2 - ボリュメトリック視覚的メディアプロセス方法および装置

Info

Publication number: JP7649792B2
Application number: JP2022546009A
Authority: JP
Inventors: チェンフアン，; ヤシアンバイ，
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2025-03-21
Anticipated expiration: 2040-04-15
Also published as: EP4085618A1; CN115039404A; KR20220133207A; JP2023518337A; EP4085618A4; US20220360819A1; WO2021109412A1; CN115039404B; US12101508B2

Description

本特許文書は、ボリュメトリック視覚的メディア処理および伝送技術を対象とする。

ビデオエンコーディングは、圧縮されたビットストリーム表現にエンコードするために、圧縮ツールを使用し、圧縮されたビットストリーム表現は、２次元ビデオフレームを記憶するために、またはネットワークを経由してそれをトランスポートするためにより効率的である。エンコードするために２次元ビデオフレームを使用する従来的ビデオコーディング技法は、時として、３次元視覚的場面の視覚的情報の表現に関して非効率的である。

本特許文書は、とりわけ、ボリュメトリック視覚的メディアに関連する視覚的情報を搬送するデジタルビデオをエンコードおよびデコードするための技法を説明する。

一例示的側面において、ボリュメトリック視覚的データ処理の方法が、開示される。方法は、デコーダによって、１つ以上のアトラスサブビットストリームおよび１つ以上のエンコードされたビデオサブビットストリームとして表された３次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、１つ以上のアトラスサブビットストリームをデコードした結果と、１つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、３次元場面を再構築することと、所望の視認位置および／または所望の視認向きに基づいて、３次元場面の標的ビューをレンダリングすることとを含む。

別の例示的側面において、ボリュメトリック視覚的データを備えているビットストリームを生成する方法が、開示される。方法は、エンコーダによって、１つ以上のアトラスサブビットストリームと１つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、３次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、ビットストリームに、所望の視認位置および／または所望の視認向きに基づく３次元場面の標的ビューのレンダリングを可能にする情報を含むこととを含む。

別の例示的側面において、上記の説明される方法のうちの１つ以上を実装するための装置が、開示される。装置は、説明されるエンコーディングまたはデコーディング方法を実装するように構成されたプロセッサを含み得る。

さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。
コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。

これらおよび他の側面が、本書に説明される。
本発明はさらに、例えば、以下を提供する。
（項目１）
ボリュメトリック視覚的データ処理の方法であって、前記方法は、
デコーダによって、１つ以上のアトラスサブビットストリームおよび１つ以上のエンコードされたビデオサブビットストリームとして表された３次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、
前記１つ以上のアトラスサブビットストリームをデコードした結果と、前記１つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、前記３次元場面を再構築することと、
所望の視認位置および／または所望の視認向きに基づいて、前記３次元場面の標的ビューをレンダリングすることと
を含む、方法。
（項目２）
前記再構築することは、前記デコーダによって、前記ボリュメトリック視覚的データの１つ以上のビューが前記標的ビューのレンダリングのために選択されたビューグループに対応するアトラスグループをデコードすることを含む、項目１に記載の方法。
（項目３）
前記デコードすることは、前記アトラスグループをデコードする前、
ファイル解析器によって、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目１または２に記載の方法。
（項目４）
前記デコードすることは、前記アトラスグループのデコーディングの前、
ファイル解析器によって、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目１または２に記載の方法。
（項目５）
特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別することを含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックの各々は、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、項目３および４に記載の方法。
（項目６）
前記デコーダによって、１つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記１つ以上のビューを選択することを含み、各ビューグループ情報は、１つ以上のビューを記述する、項目２に記載の方法。
（項目７）
各ビューグループ情報は、前記１つ以上のビューのためのカメラパラメータをさらに含む、項目６に記載の方法。
（項目８）
前記デコーダによって、前記標的ビューのために選択されたボリュメトリック視覚的データの１つ以上のビューに対応する１つ以上のアトラスをデコードすることを含む、項目１に記載の方法。
（項目９）
前記１つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、
前記１つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記１つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目１または８に記載の方法。
（項目１０）
前記１つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、
前記１つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記１つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目１または８に記載の方法。
（項目１１）
前記デコーダによって、前記１つ以上のビューのためのビュー情報に基づいて、前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記１つ以上のビューを選択することを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する、項目８に記載の方法。
（項目１２）
特定のサンプルエントリタイプに従って、前記ボリュメトリック視覚的パラメータトラックを識別することを含み、
前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う１つ以上のボリュメトリック視覚的トラックに対応し、
前記ボリュメトリック視覚的パラメータトラックは、前記特定のトラック参照を伴う前記参照ボリュメトリック視覚的トラックの全てに関する一定パラメータ組および共通アトラスデータを規定する、項目３または９に記載の方法。
（項目１３）
特定のサンプルエントリタイプに従って前記時間指定メタデータトラックを識別することを含み、前記特定のサンプルエントリタイプは、前記標的ビューレンダリングのために選択されたボリュメトリック視覚的データの１つ以上のビューが動的であることを示す、項目４または１０に記載の方法。
（項目１４）
前記１つ以上のエンコードされたビデオサブビットストリームは、
幾何学形状データのための１つ以上のビデオコード化エレメンタリストリームと、
占有率マップデータのためのゼロまたは１つのビデオコード化エレメンタリストリームと、
属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
を含み、
前記幾何学形状データ、前記占有率マップデータ、および前記属性データは、前記３次元場面を記述する、項目１に記載の方法。
（項目１５）
ボリュメトリック視覚的データ処理の方法であって、前記方法は、
エンコーダによって、１つ以上のアトラスサブビットストリームと１つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、３次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、
前記ビットストリームに、所望の視認位置および／または所望の視認向きに基づく前記３次元場面の標的ビューのレンダリングを可能にする情報を含むことと
を含む、方法。
（項目１６）
前記生成することは、前記エンコーダによって、前記ボリュメトリック視覚的データの１つ以上のビューが前記標的ビューのレンダリングのために選択可能であるビューグループに対応するアトラスグループをエンコードすることを含む、項目１５に記載の方法。
（項目１７）
前記生成することは、アトラスグループをエンコードするために、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックの前記グループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目１５または１６に記載の方法。
（項目１８）
前記生成することは、アトラスグループをエンコードするために、
前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含み、前記ボリュメトリック視覚的トラックと前記ボリュメトリック視覚的パラメータトラックとのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目１５または１６に記載の方法。
（項目１９）
前記ビットストリームに、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別する情報を含むことを含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックの各々は、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、項目１７および１８に記載の方法。
（項目２０）
前記エンコーダによって、１つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記１つ以上のビューをエンコードすることを含み、各ビューグループ情報は、１つ以上のビューを記述する、項目１６に記載の方法。
（項目２１）
各ビューグループ情報は、前記１つ以上のビューのためのカメラパラメータをさらに含む、項目２０に記載の方法。
（項目２２）
前記デコーダによって、前記標的ビューのために選択されたボリュメトリック視覚的データの１つ以上のビューに対応する１つ以上のアトラスをエンコードすることを含む、項目１５に記載の方法。
（項目２３）
前記１つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、
前記１つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記１つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目１５または２２に記載の方法。
（項目２４）
前記１つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、
前記１つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記１つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目１５または２２に記載の方法。
（項目２５）
前記１つ以上のビューのためのビュー情報に基づいて前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの１つ以上のビューを識別する情報を含むことを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する、項目２２に記載の方法。
（項目２６）
前記ビットストリームに、特定のサンプルエントリタイプに従って前記ボリュメトリック視覚的パラメータトラックを識別するための情報を含むことを含み、
前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う１つ以上のボリュメトリック視覚的トラックに対応し、
前記ボリュメトリック視覚的パラメータトラックは、前記特定のトラック参照を伴う前記参照ボリュメトリック視覚的トラックの全てに関する一定パラメータ組および共通アトラスデータを規定する、項目１７または２３に記載の方法。
（項目２７）
前記ビットストリームに、特定のサンプルエントリタイプに従って前記時間指定メタデータトラックを識別するための情報を含むことを含み、前記特定のサンプルエントリタイプは、前記標的ビューレンダリングのために選択されたボリュメトリック視覚的データの１つ以上のビューが動的であることを示す、項目１８または項目２４に記載の方法。
（項目２８）
前記１つ以上のエンコードされたビデオサブビットストリームは、
幾何学形状データのための１つ以上のビデオコード化エレメンタリストリームと、
占有率マップデータのためのゼロまたは１つのビデオコード化エレメンタリストリームと、
属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
を含み、
前記幾何学形状データ、前記占有率マップデータ、および前記属性データは、前記３次元場面を記述する、項目１５に記載の方法。
（項目２９）
項目１－２８のいずれかに記載の方法を実装するように構成されたプロセッサを備えているビデオ処理装置。
（項目３０）
コードを記憶しているコンピュータ読み取り可能な媒体であって、前記コードは、項目１－２８のうちの任意の１つ以上のものに記載の方法をプロセッサに実装させるための命令をエンコードする、コンピュータ読み取り可能な媒体。

図１は、アトラス生成のためのグループベースのエンコーディングの例示的プロセスフローを示す。

図２は、アトラスグループを伴うＶ－ＰＣＣビットストリームのマルチトラックカプセル化の例を示す。

図３は、複数のアトラスを伴うＶ－ＰＣＣビットストリームのマルチトラックカプセル化の例を示す。

図４は、ボリュメトリック視覚的メディア処理の例示的方法のフローチャートである。

図５は、ボリュメトリック視覚的メディア処理の例示的方法のフローチャートである。

図６は、本技術によるボリュメトリック視覚的メディアデータエンコーディング装置の例のブロック図である。

図７は、本技術によるボリュメトリック視覚的メディアデータ処理装置の例のブロック図である。

図８は、本明細書に説明されるボリュメトリック視覚的メディア処理方法を実装するためのハードウェアプラットフォームのブロック図である。

節の見出しは、読み易さを改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣ、およびＭＰＥＧ－ＤＡＳＨ）規格の例を使用して説明される。しかしながら、開示される技法の適用性は、Ｈ．２６４／ＡＶＣまたはＨ．２６５／ＨＥＶＣのみに限定されない。しかしながら、開示される技法の適用性は、これらの規格のみに限定されない。

本書では、種々の構文要素が、点群データ処理のために、異なる節において開示される。しかしながら、同じ名称を伴う構文要素は、別様に記述されない限り、異なる節において使用されるものと同じフォーマットおよび構文を有するであろうことを理解されたい。さらに、異なる節の見出しの下、説明される異なる構文要素および構造は、種々の実施形態において、一緒に組み合わされ得る。加えて、具体的な構造が、例として説明されるが、構文構造の種々のエントリの順序は、本書内で別様に記述されない限り、変更され得ることを理解されたい。
（１．簡潔な議論）

従来的に、画像およびビデオ等のデジタル視覚的メディアの捕捉、処理、記憶、およびプレゼンテーションは、視覚的場面の２次元フレームベースの捕捉を使用する。ここ数年間で、ユーザ体験を３次元に拡張するための関心がますます高まっている。種々の産業規格は、３Ｄ視覚的場面の捕捉、搬送、およびプレゼンテーションに関連する問題点に対処し始めている。着目すべきこととして、ある技法の組は、３Ｄ情報を２－Ｄ平面上に投影することによって３Ｄ視覚的情報をエンコードするために、従来的フレームベースの（２－Ｄ）ビデオエンコーディングツールを使用する。

２つの注目に値する技法は、ビデオベースの点群圧縮（Ｖ－ＰＣＣ）および動画専門家集団（ＭＰＥＧ）没入型のビデオ（ＭＩＶ）イニシアチブの使用を含む。
（１．１ビデオベースの点群圧縮（Ｖ－ＰＣＣ））

ビデオベースの点群圧縮（Ｖ－ＰＣＣ）は、点群視覚的情報のボリュメトリックエンコーディングを表し、ＡＶＣ、ＨＥＶＣ、およびＶＶＣ等のＭＰＥＧビデオコーデックを利用することによって、点群データの効率的捕捉、圧縮、再構築、およびレンダリングを可能にする。コード化された点群シーケンス（ＣＰＣＳ）を含むＶ－ＰＣＣビットストリームが、シーケンスパラメータ組（ＳＰＳ）データ、アトラス情報ビットストリーム、２Ｄビデオエンコード占有率マップビットストリーム、２Ｄビデオエンコード幾何学形状ビットストリーム、およびゼロ以上の２Ｄビデオエンコード属性ビットストリームを搬送するＶＰＣＣユニットで構成される。各Ｖ－ＰＣＣユニットは、Ｖ－ＰＣＣユニットのタイプを説明するＶ－ＰＣＣユニットヘッダと、Ｖ－ＰＣＣユニットペイロードとを有する。占有率、幾何学形状、および属性Ｖ－ＰＣＣユニットのペイロードは、ビデオデータユニット（例えば、ＨＥＶＣＮＡＬユニット）に対応し、ビデオデータユニットは、対応する占有率、幾何学形状、および属性パラメータ組Ｖ－ＰＣＣユニットにおいて規定されるビデオデコーダによってデコーディングされ得る。
（１．２ＩＳＯＢＭＦＦにおけるＶ－ＰＣＣの搬送）

Ｖ－ＰＣＣエレメンタリストリームにおけるＶ－ＰＣＣユニットは、そのタイプに基づいて、ＩＳＯＢＭＦＦファイル内の個々のトラックにマッピングされる。マルチトラックＩＳＯＢＭＦＦＶ－ＰＣＣコンテナにおいて２つのタイプのトラックが存在する：Ｖ－ＰＣＣトラック、およびＶ－ＰＣＣコンポーネントトラック。ＩＳＯＢＭＦＦは、デジタルビデオおよびオーディオ情報の複数のトラックの表現のための一般的ファイルフォーマットである。

Ｖ－ＰＣＣトラックは、Ｖ－ＰＣＣビットストリーム内でボリュメトリック視覚的情報を搬送するトラックであり、Ｖ－ＰＣＣビットストリームは、パッチ情報サブビットストリームと、シーケンスパラメータ組とを含む。Ｖ－ＰＣＣコンポーネントトラックは、Ｖ－ＰＣＣビットストリームの占有率マップ、幾何学形状、および属性サブビットストリームのための２Ｄビデオエンコードされたデータを搬送する制限されたビデオスキームトラックである。このレイアウトに基づいて、Ｖ－ＰＣＣＩＳＯＢＭＦＦコンテナが、以下を含むものとする：

Ｖ－ＰＣＣトラック：Ｖ－ＰＣＣトラックは、シーケンスパラメータ組（サンプルエントリ内に）と、サンプルとを含み、サンプルは、シーケンスパラメータ組Ｖ－ＰＣＣユニット（ユニットタイプＶＰＣＣ＿ＶＰＳ）およびアトラスＶ－ＰＣＣユニット（ユニットタイプＶＰＣＣ＿ＡＤ）のペイロードを搬送する。このトラックは、ビデオ圧縮されるＶ－ＰＣＣユニット（すなわち、ユニットタイプＶＰＣＣ＿ＯＶＤ、ＶＰＣＣ＿ＧＶＤ、およびＶＰＣＣ＿ＡＶＤ）のペイロードを搬送する他のトラックへのトラック参照も含む。

制限されたビデオスキームトラック：サンプルが、占有率マップデータのためのビデオコード化エレメンタリストリームのアクセスユニット（すなわち、タイプＶＰＣＣ＿ＯＶＤのＶ－ＰＣＣユニットのペイロード）を含む。

１つ以上の制限されたビデオスキームトラック：サンプルが、幾何学形状データのためのビデオコード化エレメンタリストリームのアクセスユニット（すなわち、タイプＶＰＣＣ＿ＧＶＤのＶ－ＰＣＣユニットのペイロード）を含む。

ゼロ以上の制限されたビデオスキームトラック：サンプルが、属性データのためのビデオコード化エレメンタリストリームのアクセスユニット（すなわち、タイプＶＰＣＣ＿ＡＶＤのＶ－ＰＣＣユニットのペイロード）を含む。
（１．３ＭＰＥＧ没入型のビデオ（ＭＩＶ））

ＭＰＥＧは、実または仮想３－Ｄ場面が複数の実または仮想カメラによって捕捉される没入型のビデオコンテンツの圧縮をサポートするために、国際規格（ＩＳＯ／ＩＥＣ２３０９０－１２）、すなわち、ＭＰＥＧ没入型ビデオ（ＭＩＶ）を開発している。ＭＩＶコンテンツは、６自由度（６ＤｏＦ）で、位置および向きを視認することの限定された範囲内の３次元（３Ｄ）場面の再生のためのサポートを提供する。

ＭＩＶとＶ－ＰＣＣ技法とは、３－Ｄ場面およびオブジェクトを視認することが可能である同様のエンドユーザ体験をもたらすことを目指すが、これらの解決策によってとられるアプローチにいくつかの差異が存在する。例えば、ＭＩＶは、３－Ｄボリュメトリック視覚的データへのビューベースのアクセスを提供することが期待される一方、Ｖ－ＰＣＣは、３－Ｄボリュメトリック視覚的データへの投影ベースのアクセスを提供する。故に、ＭＩＶは、より現実的なユーザ制御されるユーザ体験をもたらすことを期待され、はるかに高い没入型の体験を視認者に提供するであろう。しかしながら、依然として、ＭＩＶの迅速かつ適合性がある採用を確実にするために、Ｖ－ＰＣＣにおいて利用可能な既存のビットストリーム構文およびファイルフォーマット情報のうちのいくつかを使用することが有益であろう。
（２．エンコーダ側で考慮される例示的問題点）

ＭＩＶのエンコーダ側では、ビュー表現は、少なくとも深度／占有率コンポーネントの２Ｄサンプルアレイであり、随意のテクスチャおよびエンティティコンポーネントが、ビューパラメータを使用して、表面上への３Ｄ場面の投影を表す。固有および付帯パラメータを含むビューパラメータは、３Ｄ場面からビュー表現を発生させるために使用される投影を定義する。このコンテキストにおいて、ソースビューは、ビュー表現のフォーマットに対応するエンコーディングの前のソースビデオ材料を示し、ビュー表現は、実カメラによる３Ｄ場面の捕捉によって、または、ソースカメラパラメータを使用した表面上への仮想カメラによる投影によって、入手され得る。
（２．１グループベースのエンコーダ）

グループベースのエンコーダは、ＭＩＶ最上位エンコーダであり、それは、ビューを複数のビューグループに分割し、複数の単一グループエンコーダを使用して、ビューグループの各々を独立してエンコードする。ソースビューは、複数の単一グループエンコーダに分配され、複数の単一グループエンコーダの各々は、ソースビューを基本ビューまたは追加のビューとして分類するビューオプティマイザと、アトラスコンストラクタとを有し、アトラスコンストラクタは、それらのパラメータとともに、基本および追加のビューを入力としてとり、アトラスおよび関連付けられたパラメータを出力する。

ＨＥＶＣ（高効率ビデオコーディング）エンコーダ等のＭＰＥＧビデオコーデックは、アトラスのテクスチャおよび深度をエンコードするために使用されるであろう。結果として生じる属性および幾何学形状ビデオストリームは、最終ＭＩＶビットストリームを形成するＭＩＶメタデータとともに、多重化されるであろう。
（３．デコーダ側上で考慮される例示的問題点）

ＭＩＶデコーダは、ＭＩＶビットストリームの解析およびデコーディングをハンドリングし、デコードされた幾何学形状ピクチャ、テクスチャ属性ピクチャ、およびＭＩＶメタデータをフレーム毎に出力する。

ＭＩＶデコーダのレンダリング部分に対して、ＭＩＶレンダリングエンジンは、公称アトラス分解能において幾何学形状フレームを再構築し、次いで、公称アトラス分解能においてアップスケールされたデコードされた幾何学形状フレームのサンプルを浮動小数点の深度値（メートル）に変換する。ＭＩＶデコーダの出力は、所望の視認姿勢に従った透視ビューポートまたは全方向性ビューであり、限定された空間内の運動視差キューを可能にする。このため、ＭＩＶレンダリングエンジンは、再構築されたビューの再構築と、ビューポートへの再構築されたビューのピクセルの投影とを履行する。

３－Ｄ場面のＶ－ＰＣＣベースの表現では、３－Ｄ視覚的メディアの固定された数の投影は、ビットストリームで表される。例えば、境界ボックスの６つの表面に対応する６つの投影は、２－Ｄ視覚的画像に変換され、従来的ビデオコーデック技術を使用して、エンコードされ得る。しかしながら、Ｖ－ＰＣＣは、ユーザが３－Ｄ場面の有限数の投影を見るのではなく、異なる視点から３－Ｄ場面を見ることを所望するユーザ体験をサポートすることができない。ボリュメトリックビデオデータのそのような視点ベースのレンダリングでは、したがって、ビットストリームレベル（例えば、実際の場面を表すビット）で、またはファイルレベル（例えば、論理的ファイルグループへのメディアデータの編成）で、またはシステムレベル（例えば、トランスポートおよびメタデータレベル）でそのような視覚的データを表す方法は、現在知られていない。そのような視覚的データを表す方法は、デコーダにおけるレンダラがビットストリームを通して解析し、ユーザのための所望の視点に基づいてメディアデータを読み出すことが可能であるような様式において、エンコーダが３－Ｄボリュメトリックデータを表すビットストリームを構築することを可能にする。

さらに、Ｖ－ＰＣＣトラックの現在の編成が、ＭＩＶにおいて複数のビューの使用に適応するために拡張され得る方法も、知られていない。例えば、Ｖ－ＰＣＣトラックと、３－Ｄ場面をレンダリングするための所望のビューとの間でマッピングする方法は、知られていない。例えば、ＭＩＶ実装が、ビットストリーム内でエンコードされ得る１０または４０またはさらに１００の異なるビューを使用し得る。デコーダまたはレンダラがビットストリームのシステム層を解析し、所望のビデオまたは画像トラックの位置を特定し、視認者の所望の位置または視点のためのビューをレンダリングすることが可能であるように、トラック構造を使用して異なるビューをシグナリングする方法は、現在知られていない。

種々の実施形態は、上記問題、および他の問題を解決するために、本書で開示される。例えば、本書全体を通してさらに説明されるように、解決策は、本書にさらに説明されるように、ビューグループ内の複数のビューをエンコードおよびデコードすること、およびアトラスに関する１つ以上のサブストリームを使用することを可能にするために提供される。
（３．１グループベースのレンダラ）

グループベースのレンダラは、別個に、各アトラスグループ内のローカルパッチからレンダリングすることが可能である。レンダラのプロセスは、グループ選択段階（各々が異なるアトラスの組を用いてシンセサイザを起動し、合成された中間ビューを出力する複数のパス）と、全ての中間合成されたビューを最終所望のビューポート（例えば、所望の視認位置および向きにおいて、透視ビューポートまたは全方向性ビューを示す標的ビュー）に組み合わせるためのマージ段階とから構成される。
（３．２複数のアトラスを伴うＶ－ＰＣＣデータの搬送）

意図される用途、入力データフォーマット、レンダリングにおける差異にもかかわらず、ビデオベースの点群圧縮（Ｖ－ＰＣＣ）とＭＰＥＧ没入型ビデオ（ＭＩＶ）とは、エンコードされたドメイン内の情報を表すために、同じコアツール（すなわち、３Ｄ空間データの２Ｄパッチマップへの分割、および２Ｄアトラスフレームとしてエンコードされる）を共有する。したがって、Ｖ－ＰＣＣエレメンタリビットストリームは、ＭＩＶコンテンツを搬送するための２つ以上のアトラスを含み得る。

６ＤＯＦ環境においてＩＳＯ／ＩＥＣ２３０９０－１２に定義された、ＭＰＥＧ没入型のビデオとして圧縮される、ボリュメトリック視覚的メディアの効率的アクセス、送達、およびレンダリングをサポートするために、複数のアトラスを伴うＶ－ＰＣＣビットストリームの記憶フォーマットを規定する必要がある。
（３．３例示的ファイルフォーマット）

一般に、本開示技法に基づく実施形態が、ビデオデータ処理のために使用され得る。いくつかの実施形態において、全方向性ビデオデータが、ＩＳＯ（国際標準化機構）基本メディアファイルフォーマットに基づいて、ファイル内に記憶される。それらのうち、制限付きスキーム情報ボックス、トラック参照ボックス、およびトラックグループボックス等のＩＳＯ基本メディアファイルフォーマットは、動作するためのＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１動画専門家集団（ＭＰＥＧ）ＭＰＥＧ－４．Ｐａｒｔ１２ＩＳＯ基本メディアファイルフォーマットを指し得る。

ＩＳＯ基本ファイルフォーマットにおける全てのデータが、ボックス内にインストールされる。ＭＰ４ファイルによって表されるＩＳＯ基本ファイルフォーマットは、いくつかのボックスから成り、それらの各々が、タイプと、長さとを有し、データオブジェクトとして見なされ得る。ボックスは、コンテナボックスと呼ばれる、別のボックスを含むことができる。ＭＰ４ファイルは、最初、ファイルフォーマットのマークアップとして、１つのみの「ｆｔｙｐ」タイプのボックスを有し、そのファイルについてのある情報を含むであろう。１つのみの「ＭＯＯＶ」タイプのボックス（ムービーボックス）が、存在し、それは、そのサブボックスがそのメディアに関するメタデータ情報を含むコンテナボックスであろう。ＭＰ４ファイルのメディアデータは、「ｍｄａｔ」タイプのメディアボックス（メディアデータボックス）内に含まれ、それも、コンテナボックスでもあり、それは、（メディアデータが他のファイルを参照するときに）利用可能であることも、そうでないこともあり、メディアデータの構造は、メタデータから成る。

時間指定メタデータトラックは、ＩＳＯ基本メディアファイルフォーマット（ＩＳＯＢＭＦＦ）内の機構であり、機構は、特定のサンプルに関連付けられた時間指定メタデータを確立する。時間指定メタデータは、メディアデータとの結合が少なく、通常、「説明的」である。

各ボリュメトリック視覚的場面は、独特のボリュメトリック視覚的トラックによって表され得る。ＩＳＯＢＭＦＦファイルが、複数の場面を含み得、したがって、複数のボリュメトリック視覚的トラックが、ファイル内に存在し得る。

すでに説明されたように、本書では、いくつかの技術的解決策が、ＭＰ４またはＩＳＯＢＭＦＦフォーマット等の従来的な２Ｄビデオフォーマットと適合性があるフォーマットの中への点群データの３Ｄまたは空間領域の表現（ＭＰＥＧのＶ－ＰＣＣデータ等）を可能にするために提供される。本提案解決策の１つの有利な側面は、新しい機能性の実装のために、従来的な２Ｄビデオ技法および構文を再利用することが可能であることである。
（４．解決策１）

いくつかの実施形態において、ビューグループ情報構造と呼ばれる新しい構文構造が、エンコーダによって、ビットストリームにエンコードされ、対応して、２Ｄ場面の所望のビューをディスプレイにレンダリングするためのデコーダによって、デコードされ得る。構文構造および関連付けられるエンコーディングおよびデコーディング技法のいくつかの例示的実装が、本明細書に説明される。
（４．１例示的実施形態１）

（例示的ビューグループ情報構造）

（定義）

ＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔは、エンコーディング段階において捕捉および処理されるＭＩＶコンテンツ等のボリュメトリック視覚的メディアのビューグループ情報を提供し、ビューグループ情報は、少なくとも以下を含む：ビューグループ識別子、ビューグループ記述、ビューの数、ビュー識別子、および各ビューのためのカメラパラメータ。

（構文）
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｖｉｅｗ＿ｇｒｏｕｐ＿ｉｄ；
Ｓｔｒｉｎｇｖｉｅｗ＿ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｖｉｅｗｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｖｉｅｗｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｖｉｅｗ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｂａｓｉｃ＿ｖｉｅｗ＿ｆｌａｇ；
ｉｆ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）｛
ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔ（）；
｝
｝
｝

（意味論）

ｖｉｅｗ＿ｇｒｏｕｐ＿ｉｄは、ビューグループのための識別子を提供する。

ｖｉｅｗ＿ｇｒｏｕｐ＿ｄｅｓｃｒｉｔｐｔｉｏｎは、ビューグループのテキスト記述を提供する、ヌル終端されたＵＴＦ－８ストリングである。

ｎｕｍ＿ｖｉｅｗｓは、ビューグループ内のビューの数を規定する。

ｖｉｅｗ＿ｉｄは、ビューグループ内の所与のビューのための識別子を提供する。

１に等しいｂａｓｉｃ＿ｖｉｅｗ＿ｆｌａｇは、関連付けられたビューが、基本ビューとして選択されることを規定する。０に等しいｂａｓｉｃ＿ｖｉｅｗ＿ｆｌａｇは、関連付けられたビューが、基本ビューとして選択されないことを規定する。

１に等しいｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇは、ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔが、存在することを示す。０に等しいｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇは、ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔが、存在しないことを示す。

（カメラパラメータ構造）

（定義）

ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔは、実または仮想カメラ位置と、向き情報とを提供し、それらは、所望の視認位置および向きにおいて、透視または全方向性ビューのいずれかとして、Ｖ－ＰＣＣまたはＭＩＶコンテンツをレンダリングするために使用され得る。

デコーディング段階において、グループベースのレンダラは、合成されている所望の姿勢へのビューグループ距離を計算するために、この情報を使用することができる。ビュー加重シンセサイザは、ビュー位置と標的ビューポート位置との間の距離を計算するために、この情報を使用することができる。

（構文）
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１０）ｃａｍｅｒａ＿ｉｄ；
ｕｎｓｉｇｎｅｄ＿ｉｎｔ（１）ｃａｍｅｒａ＿ｐｏｓ＿ｐｒｅｓｅｎｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｃａｍｅｒａ＿ｏｒｉ＿ｐｒｅｓｅｎｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｃａｍｅｒａ＿ｆｏｖ＿ｐｒｅｓｅｎｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｃａｍｅｒａ＿ｄｅｐｔｈ＿ｐｒｅｓｅｎｔ；
ｉｆ（ｃａｍｅｒａ＿ｐｏｓ＿ｐｒｅｓｅｎｔ）｛
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｐｏｓ＿ｘ；
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｐｏｓ＿ｙ；
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｐｏｓ＿ｚ；
｝
ｉｆ（ｃａｍｅｒａ＿ｏｒｉ＿ｐｒｅｓｅｎｔ）｛
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｑｕａｔ＿ｘ；
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｑｕａｔ＿ｙ；
ｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｑｕａｔ＿ｚ；
｝
ｉｆ（ｃａｍｅｒａ＿ｆｏｖ＿ｐｒｅｓｅｎｔ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｈｏｒ＿ｒａｎｇｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｖｅｒ＿ｒａｎｇｅ；
｝
ｉｆ（ｃａｍｅｒａ＿ｄｅｐｔｈ＿ｐｒｅｓｅｎｔ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｎｅａｒ＿ｄｅｐｔｈ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｃａｍｅｒａ＿ｆａｒ＿ｄｅｐｔｈ；
｝
｝

ｃａｍｅｒａ＿ｉｄは、所与の実または仮想カメラのための識別子を提供する。

１に等しいｃａｍｅｒａ＿ｐｏｓ＿ｐｒｅｓｅｎｔは、カメラ位置パラメータが、存在することを示す。０に等しいｃａｍｅｒａ＿ｐｏｓ＿ｐｒｅｓｅｎｔは、カメラ位置パラメータが、存在しないことを示す。

１に等しいｃａｍｅｒａ＿ｏｒｉ＿ｐｒｅｓｅｎｔは、カメラ向きパラメータが、存在することを示す。０に等しいｃａｍｅｒａ＿ｏｒｉ＿ｐｒｅｓｅｎｔは、カメラ向きパラメータは、存在しないことを示す。

１に等しいｃａｍｅｒａ＿ｆｏｖ＿ｐｒｅｓｅｎｔは、カメラｆｉｅｌｄ－ｏｆ－ｖｉｅｗパラメータが、存在することを示す。０に等しいｃａｍｅｒａ＿ｆｏｖ＿ｐｒｅｓｅｎｔは、カメラｆｉｅｌｄ－ｏｆ－ｖｉｅｗパラメータが、存在しないことを示す。

１に等しいｃａｍｅｒａ＿ｄｅｐｔｈ＿ｐｒｅｓｅｎｔは、カメラ深度パラメータが、存在することを示す。０に等しいｃａｍｅｒａ＿ｄｅｐｔｈ＿ｐｒｅｓｅｎｔは、カメラ深度パラメータが、存在しないことを示す。

ｃａｍｅｒａ＿ｐｏｓ＿ｘ、ｃａｍｅｒａ＿ｐｏｓ＿ｙ、およびｃａｍｅｒａ＿ｐｏｓ＿ｚの各々は、グローバル参照座標系において、カメラ位置のＸ、Ｙ、およびＺ座標をメートルで示す。値は、２^－１６メートルを単位とするものとする。

ｃａｍｅｒａ＿ｑｕａｔ＿ｘ、ｃａｍｅｒａ＿ｑｕａｔ＿ｙ、およびｃａｍｅｒａ＿ｑｕａｔ＿ｚは、それぞれ、四元数表現を使用して、カメラの向きのｘ、ｙ、およびｚ成分を示す。値は、－１～１を含む範囲内の浮動小数点値であるものとする。これらの値は、四元数表現を使用して、カメラのグローバル座標軸をローカル座標軸に変換するために適用される回転のためのＸ、Ｙ、およびＺ成分、すなわち、ｑＸ、ｑＹおよびｑＺを規定する。四元数ｑＷの第４の成分は、以下のように計算される。

ｑＷ＝ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））

点（ｗ，ｘ，ｙ，ｚ）は、角度２^＊ｃｏｓ＾｛－１｝（ｗ）＝２^＊ｓｉｎ＾｛－１｝（ｓｑｒｔ（ｘ＾｛２｝＋ｙ＾｛２｝＋ｚ＾｛２｝））によって、ベクトル（ｘ，ｙ，ｚ）によって方向づけられる軸まわりの回転を表す。

ｃａｍｅｒａ＿ｈｏｒ＿ｒａｎｇｅは、ラジアンの単位で、カメラに関連付けられた視錐台の水平視野を示す。値は、０～２πの範囲内にあるものとする。

ｃａｍｅｒａ＿ｖｅｒ＿ｒａｎｇｅは、ラジアンの単位で、カメラに関連付けられた視錐台の垂直視野を示す。値は、πの範囲内にあるものとする。

ｃａｍｅｒａ＿ｎｅａｒ＿ｄｅｐｔｈおよびｃａｍｅｒａ＿ｆａｒ＿ｄｅｐｔｈは、カメラに関連付けられた視錐台の近および遠平面に基づいて、近および遠深度（または距離）を示す。値は、２^－１６メートルを単位とするものとする。

（Ｖ－ＰＣＣパラメータトラックの例）

（Ｖ－ＰＣＣパラメータトラックサンプルエントリ）
サンプルエントリタイプ：「ｖｐｃｐ」
コンテナ：ＳａｍｐｌｅＤｅｓｃｒｉｐｔｉｏｎＢｏｘ
必須：はい
数量：１つ以上のサンプルエントリが、存在し得る

Ｖ－ＰＣＣパラメータトラックは、「ｖｐｃｐ」のサンプルエントリタイプを用いてＶｏｌｕｍｅｔｒｉｃＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙを拡張するＶＰＣＣＰａｒａｍｅｔｅｒｓＳａｍｐｌｅＥｎｔｒｙを使用するものとする。

ＶＰＣＣパラメータトラックサンプルエントリが、ＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘと、ＶＰＣＣＵｎｉｔＨｅａｄｅｒＢｏｘとを含むものとする。

（構文）
ｃｌａｓｓＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘｅｘｔｅｎｄｓＢｏｘ（’ｖｐｃＣ’）｛
ＶＰＣＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ（）ＶＰＣＣＣｏｎｆｉｇ；
｝
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶＰＣＣＰａｒａｍｅｔｅｒｓＳａｍｐｌｅＥｎｔｒｙ（）ｅｘｔｅｎｄｓＶｏｌｕｍｅｔｒｉｃＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙ（’ｖｐｃｐ’）｛
ＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘｃｏｎｆｉｇ；
ＶＰＣＣＵｎｉｔＨｅａｄｅｒＢｏｘｕｎｉｔ＿ｈｅａｄｅｒ；
｝

（意味論）

ＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘは、ｍｕｌｔｉ－ａｔｌａｓＶ－ＰＣＣビットストリームのＶ－ＰＣＣパラメータ組、すなわち、ＶＰＣＣ＿ＶＰＳに等しいｖｕｈ＿ｕｎｉｔ＿ｔｙｐｅを伴うＶ－ＰＣＣユニットを含むものとする。

ＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘは、存在するとき、限定ではないが、ＮＡＬ＿ＡＳＰＳ、ＮＡＬ＿ＡＡＰＳ、ＮＡＬ＿ＰＲＥＦＩＸ＿ＳＥＩ、またはＮＡＬ＿ＳＵＦＦＩＸ＿ＳＥＩＮＡＬユニット、およびＥＯＢおよびＥＯＳＮＡＬユニットを含む、ｍｕｌｔｉ－ａｔｌａｓＶ－ＰＣＣデータの全てのＶ－ＰＣＣトラックに関して共通の非ＡＣＬＮＡＬユニットのみを含むものとする。

ＶＰＣＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘは、異なるＶ－ＰＣＣトラックグループに関してＮＡＬ＿ＡＡＰＳアトラスＮＡＬユニットの異なる値を含み得る。

（Ｖ－ＰＣＣトラックグループ化）

ＭＩＶのグループベースのエンコーダは、ソースビューを複数のグループに分割することができ、各グループに含まれるべきビューのリストを出力するように、事前設定としてグループの数とともに、ソースカメラパラメータを入力としてとる。

グループ化は、アトラスにおける重要な領域（例えば、フォアグラウンドオブジェクトまたはオクルードされる領域に属する）のローカルコヒーレント投影を出力することをアトラスコンストラクタに強い、それは、特に、自然コンテンツのための主観的および客観的結果または高いビットレートレベルにおける改良につながる。

図１は、アトラス生成のためのグループベースのエンコーディングのプロセスフローの例を描写する。

図１に示されるように、グループのエンコーディング段階において、各単一グループエンコーダは、それ自体のインデックス付きアトラスまたはビューを用いて、メタデータを生産する。独特のグループＩＤが、グループ毎に割り当てられ、関連グループのアトラスパラメータに添えられる。レンダラが、メタデータを適切に解釈し、パッチを全てのビューにわたって正しくマップすることを可能にするために、マージャが、パッチ毎にアトラスおよびビューＩＤを付け直し、プルーニンググラフをマージする。各基本ビューは、単一の完全に占有されるパッチ（アトラスサイズが基本ビューサイズに等しいか、またはそれより大きいと仮定する）、または（そうでなければ）複数のアトラスの中へのアトラスで搬送される。追加のビューは、複数のパッチに絞り込まれ、複数のパッチは、アトラスがより大きいサイズである場合に同じアトラス内で基本ビューのパッチとともに搬送され得るか、または、別個のアトラスで搬送され得る。

図１に示されるように、アトラスコンストラクタによって同じビューグループから発生される全てのアトラスは、アトラスグループとして、一緒にグループ化されるべきである。グループベースのレンダリングに関して、デコーダは、標的ビューレンダリングのためにボリュメトリック視覚的データの１つ以上のビュー（例えば、ＭＩＶコンテンツ）が選択された１つ以上のビューグループに対応する１つ以上のアトラスグループ内のパッチをデコードする必要がある。

デコーダは、例示的ビューグループ情報構造において説明されるように、１つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの１つ以上のビューを選択し得、各ビューグループ情報は、１つ以上のビューを記述し、各ビューグループ情報は、１つ以上のビューのためのカメラパラメータを含む。

図２に示されるように、アトラスグループのデコーディング前、ファイル解析器が、ビットストリームのファイルストレージ内のボリュメトリック視覚的パラメータトラックの構文要素（例えば、Ｖ－ＰＣＣパラメータトラックのＶＰＣＣＶｉｅｗＧｒｏｕｐｓＢｏｘ）に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループ（例えば、Ｖ－ＰＣＣトラックグループ）を決定し、カプセル化解除する必要があり、ボリュメトリック視覚的トラックのグループおよびボリュメトリック視覚的パラメータトラックが、アトラスグループのための全てのアトラスデータを搬送する。

ファイル解析器が、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することができる。Ｖ－ＰＣＣパラメータトラックの場合、サンプルエントリタイプ「ｖｐｃｐ」は、Ｖ－ＰＣＣパラメータトラックを識別するために使用されるべきであり、Ｖ－ＰＣＣパラメータトラックは、特定のトラック参照を用いて、一定パラメータ組と、全ての参照されるＶ－ＰＣＣトラックに関する共通アトラスデータとを規定する。

複数のアトラスを伴うＶ－ＰＣＣビットストリームの記憶に関して、同じアトラスグループからの全てのアトラスに対応する全てのＶ－ＰＣＣトラックは、トラックグループのタイプ「ｖｐｔｇ」によって示されるべきである。

（定義）

「ｖｐｔｇ」に等しいｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅを伴うＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘは、このＶ－ＰＣＣトラックが、アトラスグループに対応するＶ－ＰＣＣトラックのグループに属することを示す。

同じアトラスグループに属するＶ－ＰＣＣトラックは、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ「ｖｐｔｇ」に関するｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄと同じ値を有し、１つのアトラスグループからのトラックのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄは、任意の他のアトラスグループからのトラックのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄと異なる。

（構文）
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶＰＣＣＴｒａｃｋＧｒｏｕｐＢｏｘｅｘｔｅｎｄｓｔｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ（’ｖｐｔｇ’）｛
｝

（意味論）

「ｖｐｔｇ」に等しいｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅを伴うＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ内のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの同じ値を有するＶ－ＰＣＣトラックは、同じアトラスグループに属する。「ｖｐｔｇ」に等しいｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅを伴うＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ内のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄは、したがって、アトラスグループの識別子として使用される。

（静的ビューグループ情報ボックス）

（定義）

ＭＩＶコンテンツ等のボリュメトリック視覚的メディアに関する静的ビューグループおよびそれらのそれぞれの関連付けられたＶ－ＰＣＣトラックグループは、ＶＰＣＣＶｉｅｗＧｒｏｕｐｓＢｏｘにおいてシグナリングされるものとする。

（構文）

ボックスタイプ：「ｖｐｖｇ」
コンテナ：ＶＰＣＣＰａｒａｍｅｔｅｒｓＳａｍｐｌｅＥｎｔｒｙ（「ｖｐｃｐ」）
必須：いいえ
数量：ゼロまたは１
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶＰＣＣＶｉｅｗＧｒｏｕｐｓＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｖｐｖｇ’，０，０）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓ；ｉ＋＋）｛
ＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔ（１）；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｖｐｃｃ＿ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ；
｝
｝

（意味論）

ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓは、ＭＩＶコンテンツのためのビューグループの数を示す。

ｖｐｃｃ＿ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄは、ＭＩＶコンテンツ等のボリュメトリック視覚的メディアの関連付けられたビューグループのための全てのアトラスデータを搬送するＶ－ＰＣＣトラックのためのグループを識別する。

（動的ビューグループ情報）

Ｖ－ＰＣＣパラメータトラックが、サンプルエントリタイプ「ｄｙｖｇ」を伴う関連付けられた時間指定メタデータトラックを有する場合、Ｖ－ＰＣＣパラメータトラックによって搬送されるＭＩＶストリームに関して定義されたソースビューグループは、動的ビューグループと見なされる（すなわち、ビューグループ情報は、経時的に動的に変化し得る）。

関連付けられた時間指定メタデータトラックは、アトラスストリームを搬送するＶ－ＰＣＣパラメータトラックへの「ｃｄｓｃ」トラック参照を含むものとする。

サンプルエントリ
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＤｙｎａｍｉｃＶｉｅｗＧｒｏｕｐＳａｍｐｌｅＥｎｔｒｙｅｘｔｅｎｄｓＭｅｔａＤａｔａＳａｍｐｌｅＥｎｔｒｙ（’ｄｙｖｇ’）｛
ＶＰＣＣＶｉｅｗＧｒｏｕｐｓＢｏｘ（）；
｝

（サンプルフォーマット）

（構文）
ａｌｉｇｎｅｄ（８）ＤｙｎａｍｉｃＶｉｅｗＧｒｏｕｐＳａｍｐｌｅ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓ；ｉ＋＋）｛
ＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）；
｝
｝

（意味論）

ｎｕｍ＿ｖｉｅｗ＿ｇｒｏｕｐｓは、サンプル内でシグナリングされているビューグループの数を示す。これは、必ずしも、利用可能なビューグループの総数に等しいとは限らない。ソースビューが更新されているビューグループのみが、サンプル内に存在する。

ＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔ（）は、実施形態１の前節に定義される。ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇが、０に設定される場合、それは、ビューグループのカメラパラメータが、同じｖｉｅｗ＿ｇｒｏｕｐ＿ｉｄを伴うＶｉｅｗＧｒｏｕｐＩｎｆｏＳｔｒｕｃｔの前のインスタンスにおいて、前のサンプル内またはサンプルエントリ内のいずれかで、以前にシグナリングされていることを暗に示す。
（４．２例示的実施形態２）

（ＭＰＥＧ－ＤＡＳＨにおけるカプセル化およびシグナリング）

各Ｖ－ＰＣＣコンポーネントトラックは、別個のＶ－ＰＣＣコンポーネントＡｄａｐｔａｔｉｏｎＳｅｔとして、ＤＡＳＨマニフェスト（ＭＰＤ）ファイルにおいて表されるものとする。各Ｖ－ＰＣＣトラックは、別個のＶ－ＰＣＣアトラスＡｄａｐｔａｔｉｏｎＳｅｔとして表されるものとする。共通アトラス情報に関する追加のＡｄａｐｔａｔｉｏｎＳｅｔが、Ｖ－ＰＣＣコンテンツのためのメインＡｄａｐｔａｔｉｏｎＳｅｔとしての役割を果たす。Ｖ－ＰＣＣコンポーネントが、複数の層を有する場合、各層は、別個のＡｄａｐａｔａｔｉｏｎセットを使用して、シグナリングされ得る。

メインＡｄａｐｔａｔｉｏｎＳｅｔは、「ｖｐｃｐ」に設定される＠ｃｏｄｅｃｓ属性を有するものとし、アトラスＡｄａｐｔａｔｉｏｎＳｅｔは、「ｖｐｃ１」に設定される＠ｃｏｄｅｃｓ属性を有するものとする一方、Ｖ－ＰＣＣコンポーネントＡｄａｐｔａｔｉｏｎＳｅｔに関する＠ｃｏｄｅｃｓ属性、または＠ｃｏｄｅｃｓが、ＡｄａｐｔａｔｉｏｎＳｅｔ要素に関してシグナリングされない場合、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、コンポーネントをエンコードするために使用されるそれぞれのコーデックに基づいて、設定される。

メインＡｄａｐｔａｔｉｏｎＳｅｔは、適合組レベルにおいて、単一初期化セグメントを含むものとする。
初期化セグメントは、Ｖ－ＰＣＣデコーダを初期化するために必要とされる全てのＶ－ＰＣＣトラックに関して共通の全てのシーケンスパラメータ組および非ＡＣＬＮＡＬユニットを含むものとし、それらは、マルチアトラスＶ－ＰＣＣビットストリームのＶ－ＰＣＣパラメータ組、およびＮＡＬ＿ＡＳＰＳ、ＮＡＬ＿ＡＡＰＳ、ＮＡＬ＿ＰＲＥＦＩＸ＿ＳＥＩ、またはＮＡＬ＿ＳＵＦＦＩＸ＿ＳＥＩＮＡＬユニット、および、ＥＯＢおよびＥＯＳＮＡＬユニット（存在するとき）を含む。

アトラスＡｄａｐｔａｔｉｏｎＳｅｔは、適合組レベルにおいて、単一初期化セグメントを含むものとする。初期化セグメントは、Ｖ－ＰＣＣトラックをデコードするために必要とされる全てのシーケンスパラメータ組（Ｖ－ＰＣＣアトラスシーケンスパラメータ組、およびコンポーネントサブストリームのための他のパラメータ組を含む）を含むものとする。

メインＡｄａｐｔａｔｉｏｎＳｅｔのＲｅｐｒｅｓｅｎｔａｔｉｏｎに関するメディアセグメントは、Ｖ－ＰＣＣパラメータトラックの１つ以上のトラックフラグメントを含むものとする。アトラスＡｄａｐｔａｔｉｏｎＳｅｔのＲｅｐｒｅｓｅｎｔａｔｉｏｎに関するメディアセグメントは、Ｖ－ＰＣＣトラックの１つ以上のトラックフラグメントを含むものとする。コンポーネントＡｄａｐｔａｔｉｏｎＳｅｔのＲｅｐｒｅｓｅｎｔａｔｉｏｎに関するメディアセグメントは、ファイルフォーマットレベルにおいて、対応するコンポーネントトラックの１つ以上のトラックフラグメントを含むものとする。

（Ｖ－ＰＣＣ事前選択）

Ｖ－ＰＣＣ事前選択が、ＭＰＥＧ－ＤＡＳＨ（ＩＳＯ／ＩＥＣ２３００９－１）において定義されるようなＰｒｅＳｅｌｅｃｔｉｏｎ要素を使用して、ＭＰＤにおいてシグナリングされ、＠ｐｒｅｓｅｌｅｃｔｉｏｎＣｏｍｐｏｎｅｎｔｓ属性に関するｉｄリストは、
点群に関するメインＡｄａｐｔａｔｉｏｎＳｅｔのｉｄと、それに続くアトラスＡｄａｐｔａｔｉｏｎＳｅｔのｉｄおよび点群コンポーネントに対応するＡｄａｐｔａｔｉｏｎＳｅｔのｉｄとを含む。ＰｒｅＳｅｌｅｃｔｉｏｎに関する＠ｃｏｄｅｃｓ属性は、ＰｒｅＳｅｌｅｃｔｉｏｎメディアが、ビデオベースの点群であることを示す「ｖｐｃｐ」に設定されるものとする。ＰｒｅＳｅｌｅｃｔｉｏｎは、Ｐｅｒｉｏｄ要素内のＰｒｅＳｅｌｅｃｔｉｏｎ要素または適合組レベルにおける事前選択記述子のいずれかを使用して、シグナリングされ得る。

（Ｖ－ＰＣＣ記述子）

「ｕｒｎ：ｍｐｅｇ：ｍｐｅｇＩ：ｖｐｃｃ：２０１９：ｖｐｃ」に等しい＠ｓｃｈｅｍｅＩｄＵｒｉ属性を伴うＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ要素が、ＶＰＣＣ記述子と称される。最大で１つのＶＰＣＣ記述子が、点群のメインＡｄａｐｔａｔｉｏｎＳｅｔに関する適合組レベルにおいて、存在し得る。

（ＶＰＣＣＶｉｅｗＧｒｏｕｐｓ記述子）

Ｖ－ＰＣＣコンテンツに関するメインＡｄａｐｔａｔｉｏｎＳｅｔにおける静的ビューグループと、それらのそれぞれの関連付けられたＶ－ＰＣＣトラックグループとを識別するために、ＶＰＣＣＶｉｅｗＧｒｏｕｐｓ記述子が、使用されるものとする。ＶＰＣＣＶｉｅｗＧｒｏｕｐｓが、「ｕｒｎ：ｍｐｅｇ：ｍｐｅｇＩ：ｖｐｃｃ：２０２０：ｖｐｖｇ」に等しい＠ｓｃｈｅｍｅＩｄＵｒｉ属性を伴うＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙまたはＳｕｐｐｌｅｍｅｎｔａｌＰｒｏｐｅｒｔｙ記述子である。

最大で１つの単一ＶＰＣＣＶｉｅｗＧｒｏｕｐｓ記述子が、ＡｄａｐｔａｔｉｏｎＳｅｔレベルまたはメインＡｄａｐｔａｔｉｏｎＳｅｔにおける表現レベルにおいて、または点群コンテンツに関する事前選択レベルにおいて、存在するものとする。

ＶＰＣＣＶｉｅｗＧｒｏｕｐｓ記述子の＠ｖａｌｕｅ属性は、存在しないものとする。ＶＰＣＣＶｉｅｗＧｒｏｕｐｓ記述子は、表２に規定されるように、要素および属性を含むものとする。

（動的ビューグループ）

ビューグループが、動的であるとき、プレゼンテーションタイムラインにおける各ビューグループのビュー情報をシグナリングするための時間指定メタデータトラックが、単一表現を用いて別個のＡｄａｐｔａｔｉｏｎＳｅｔ内で搬送され、ＩＳＯ／ＩＥＣ２３００９－１［ＭＰＥＧ－ＤＡＳＨ］に定義される＠ａｓｓｏｃｉａｔｉｏｎＩｄ属性を使用して、対応するＡｄａｐｔａｔｉｏｎＳｅｔまたはＲｅｐｒｅｓｅｎｔａｔｉｏｎのための４ＣＣ「ｖｐｃｍ」を含む＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅ値を用いて、メインＶ－ＰＣＣトラックに関連付けられる（リンクされる）ものとする。
（５．解決策２）
（５．１例示的実施形態３）

（例示的ビュー情報構造）

（定義）

ＶｉｅｗＩｎｆｏＳｔｒｕｃｔは、エンコーディング段階において捕捉および処理されるＭＩＶコンテンツのビュー情報を提供し、ビュー情報は、少なくともビュー識別子、それが属するビューグループの識別子、ビュー説明、およびビューのカメラパラメータを含む。

（構文）
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶｉｅｗＩｎｆｏＳｔｒｕｃｔ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｖｉｅｗ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｖｉｅｗ＿ｇｒｏｕｐ＿ｉｄ；
Ｓｔｒｉｎｇｖｉｅｗ＿ｄｅｓｃｒｉｐｔｉｏｎ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｂａｓｉｃ＿ｖｉｅｗ＿ｆｌａｇ；
ｉｆ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）｛
ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔ（）；
｝
｝

（意味論）

ｖｉｅｗ＿ｉｄは、ビューのための識別子を提供する。

ｖｉｅｗ＿ｇｒｏｕｐ＿ｉｄは、それが属するビューグループのための識別子を提供する。

ｖｉｅｗ＿ｄｅｓｃｒｉｔｐｔｉｏｎは、ビューのテキスト記述を提供するヌル終端されたＵＴＦ－８ストリングである。

ＣａｍｅｒａＰａｒａｍｅｔｅｒｓＳｔｒｕｃｔ（）は、実施形態１の前節に定義される。

（静的ビュー情報ボックス）

標的ビューレンダリングのために、デコーダは、標的ビューレンダリングのために選択されているボリュメトリック視覚的データ（例えば、ＭＩＶコンテンツ）の１つ以上のビューに対応する１つ以上のアトラス内のパッチをデコードする必要がある。

デコーダは、例示的ビュー情報構造において説明されるように、１つ以上のビューのためのビュー情報に基づいて、標的ビューに関するボリュメトリック視覚的データの１つ以上のビューを選択し得、各ビュー情報は、対応するビューのカメラパラメータを説明する。

図３に示されるように、１つ以上のアトラスのデコーディング前、ファイル解析器が、ビットストリームのファイルストレージ内のボリュメトリック視覚的パラメータトラックの構文要素（例えば、Ｖ－ＰＣＣパラメータトラックのＶＰＣＣＶｉｅｗｓＢｏｘ）に基づいて、１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラック（例えば、Ｖ－ＰＣＣトラック）を決定およびカプセル化解除する必要があり、１つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、アトラスに関する全てのアトラスデータを搬送する。

ファイル解析器が、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することができる。Ｖ－ＰＣＣパラメータトラックの場合、サンプルエントリタイプ「ｖｐｃｐ」は、特定のトラック参照を伴う全ての参照されるＶ－ＰＣＣトラックのために、一定パラメータ組および共通アトラスデータを規定する、Ｖ－ＰＣＣパラメータトラックおよびＶ－ＰＣＣパラメータトラックを識別するために使用されるべきである。

（定義）

ＭＩＶコンテンツおよびそれらのそれぞれの関連付けられたアトラスのソースビューは、ＶＰＣＣＶｉｅｗｓＢｏｘにおいてシグナリングされるものとする。

（構文）

ボックスタイプ：「ｖｐｖｗ」
コンテナ：ＶＰＣＣＰａｒａｍｅｔｅｒｓＳａｍｐｌｅＥｎｔｒｙ（’ｖｐｃｐ’）
必須：いいえ
数量：ゼロまたは１
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶＰＣＣＶｉｅｗｓＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｖｐｖｗ’，０，０）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｖｉｅｗｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｖｉｅｗｓ；ｉ＋＋）｛
ＶｉｅｗＩｎｆｏＳｔｒｕｃｔ（１）；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｖｐｃｃ＿ｔｒａｃｋｓ；
ｆｏｒ（ｊ＝０；ｊ＜ｎｕｍ＿ｖｐｃｃ＿ｔｒａｃｋｓ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｖｐｃｃ＿ｔｒａｃｋ＿ｉｄ；
｝
｝
｝

（意味論）

ｎｕｍ＿ｖｉｅｗｓは、ＭＩＶコンテンツにおけるソースビューの数を示す。

ｎｕｍ＿ｖｐｃｃ＿ｔｒａｃｋｓは、ソースビューに関連付けられるたＶ－ＰＣＣトラックの数を示す。

ｖｐｃｃ＿ｔｒａｃｋ＿ｉｄは、関連付けられたソースビューに関するアトラスデータを搬送するＶ－ＰＣＣトラックを識別する。

（動的ビュー情報）

Ｖ－ＰＣＣパラメータトラックがサンプルエントリタイプ「ｄｙｖｗ」に関連付けられた時間指定メタデータトラックを有する場合、Ｖ－ＰＣＣパラメータトラックによって搬送されるＭＩＶストリームに関して定義されるソースビューは、動的ビュー（すなわち、ビュー情報は、経時的に動的に変化し得る）と見なされる。

（サンプルエントリ）
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＤｙｎａｍｉｃＶｉｅｗＳａｍｐｌｅＥｎｔｒｙｅｘｔｅｎｄｓＭｅｔａＤａｔａＳａｍｐｌｅＥｎｔｒｙ（’ｄｙｖｗ’）｛
ＶＰＣＣＶｉｅｗｓＢｏｘ（）；
｝

（サンプルフォーマット）

（構文）
ａｌｉｇｎｅｄ（８）ＤｙｎａｍｉｃＶｉｅｗＳａｍｐｌｅ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｖｉｅｗｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｖｉｅｗｓ；ｉ＋＋）
ＶｉｅｗＩｎｆｏＳｔｒｕｃｔ（ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇ）；
｝
｝

（意味論）

ｎｕｍ＿ｖｉｅｗｓは、サンプル内でシグナリングされるビューの数を示す。これは、必ずしも、利用可能なビューの総数に等しいとは限らないこともある。ビュー情報が更新されているビューのみが、サンプル内に存在する。

ＶｉｅｗＩｎｆｏＳｔｒｕｃｔ（）は、実施形態２の前節に定義される。ｃａｍｅｒａ＿ｐａｒａｍｅｔｅｒｓ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇが０に設定される場合、これは、ビューのカメラパラメータが、前のサンプルまたはサンプルエントリ内のいずれかで、同じｖｉｅｗ＿ｉｄを伴うＶｉｅｗＩｎｆｏＳｔｒｕｃｔの前のインスタンスで以前にシグナリングされていることを暗に示す。
（５．２例示的実施形態４）

（ＭＰＥＧ－ＤＡＳＨにおけるカプセル化およびシグナリングの例）

（Ｖ－ＰＣＣ記述子）

（ＶＰＣＣＶｉｅｗｓ記述子）

Ｖ－ＰＣＣコンテンツおよびそれらのそれぞれの関連付けられたＶ－ＰＣＣトラックに関するメインＡｄａｐｔａｔｉｏｎＳｅｔにおいて静的ビューを識別するために、ＶＰＣＣＶｉｅｗｓ記述子が使用されるものとする。ＶＰＣＣＶｉｅｗｓが、「ｕｒｎ：ｍｐｅｇ：ｍｐｅｇＩ：ｖｐｃｃ：２０２０：ｖｐｖｗ」に等しい＠ｓｃｈｅｍｅＩｄＵｒｉ属性を伴うＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙまたはＳｕｐｐｌｅｍｅｎｔａｌＰｒｏｐｅｒｔｙ記述子である。

最大で１つの単一ＶＰＣＣＶｉｅｗｓ記述子が、メインＡｄａｐｔａｔｉｏｎＳｅｔにおけるＡｄａｐｔａｔｉｏｎＳｅｔレベルまたは表現レベルにおいて、または点群コンテンツに関する事前選択レベルにおいて、存在するものとする。

ＶＰＣＣＶｉｅｗｓ記述子の＠ｖａｌｕｅ属性は、存在しないものとする。ＶＰＣＣＶｉｅｗｓ記述子が、表４に規定されるように、要素および属性を含むものとする。

（動的ビュー）

ビューが、動的であるとき、プレゼンテーションタイムラインにおける各ビュー情報をシグナリングするための時間指定メタデータトラックが、単一表現を用いて別個のＡｄａｐｔａｔｉｏｎＳｅｔ内で搬送され、ＩＳＯ／ＩＥＣ２３００９－１［ＭＰＥＧ－ＤＡＳＨ］に定義される＠ａｓｓｏｃｉａｔｉｏｎＩｄ属性を使用して、対応するＡｄａｐｔａｔｉｏｎＳｅｔまたはＲｅｐｒｅｓｅｎｔａｔｉｏｎのための４ＣＣ「ｖｐｃｍ」を含む＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅ値を用いて、メインＶ－ＰＣＣトラックに関連付けられる（リンクされる）ものとする。

図４は、ボリュメトリック視覚的メディアデータの処理の例示的方法４００に関するフローチャートである。本書全体を通して議論されるように、いくつかの実施形態において、ボリュメトリック視覚的メディアデータは、点群データを含み得る。いくつかの実施形態において、ボリュメトリック視覚的メディアデータは、３－Ｄオブジェクトを表し得る。３－Ｄオブジェクトは、２－Ｄ表面に投影され、ビデオフレームの中に配置され得る。いくつかの実施形態において、ボリュメトリック視覚的データは、マルチビュービデオデータ等を表し得る。

方法４００は、本書にさらに説明されるように、エンコーダ装置によって、実装され得る。方法４００は、４０２において、エンコーダによって、１つ以上のアトラスサブビットストリームと、１つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、３次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することを含む。方法４００は、４０４において、ビットストリームに、所望の視認位置および／または所望の視認向きに基づく３次元場面の標的ビューのレンダリングを可能にする情報を追加することを含む。

いくつかの実施形態において、生成すること（４０２）は、エンコーダによって、ボリュメトリック視覚的データの１つ以上のビューが標的ビューのレンダリングのために選択可能であるビューグループに対応するアトラスグループをエンコードすることを含み得る。例えば、アトラスグループは、ビットストリーム内のアトラスサブビットストリームのグループであるアトラスのグループを指し得る。

いくつかの実施形態において、生成すること（４０２）は、ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含む。いくつかの実施形態において、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループは、（対応するアトラスサブビットストリームを使用して）アトラスグループのための全てのアトラスデータを搬送するように構築され得る。いくつかの例では、構文要素は、ビューグループ情報ボックス（静的または動的）を使用して、実装され得る。例えば、第４．１節、または第５．１節において説明されるような静的ビューグループは、そのような実施形態のために使用され得る。

いくつかの実施形態において、生成すること（４０２）は、アトラスグループをエンコードするために、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含む。ここでは、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループは、アトラスグループのための全てのアトラスデータを搬送し得る。特定のトラック参照は、さらに本明細書に説明されるように、解析／レンダリング動作中、デコーダによって、使用され得る。この生成動作は、本書（例えば、第４．１節または第５．１節）に説明される動的ビューグループを使用し得る。

いくつかの実施形態において、方法４００は、ビットストリームに、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別する情報を追加することであって、ボリュメトリック視覚的トラックのグループにおけるボリュメトリック視覚的トラックの各々は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をさらに含む、ことを含む。

いくつかの実施形態において、方法４００は、エンコーダによって、１つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの１つ以上のビューをエンコードすることであって、各ビューグループ情報は、１つ以上のビューを記述する、ことをさらに含む。いくつかの実施形態において、各ビューグループ情報は、１つ以上のビューのためのカメラパラメータをさらに含む。

いくつかの実施形態において、方法４００は、エンコーダによって、標的ビューのために選択されたボリュメトリック視覚的データの１つ以上のビューに対応する１つ以上のアトラスをエンコードすることをさらに含む。

いくつかの実施形態において、１つ以上のアトラスサブビットストリームからの情報は、ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素（例えば、ビュー情報ボックス構文構造－静的または動的）に基づいて、１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、１つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、１つ以上のアトラスのための全てのアトラスデータを搬送する。

いくつかの実施形態において、１つ以上のアトラスサブビットストリームからの情報は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素（例えば、ビュー情報ボックス構文構造－静的または動的）に基づいて、１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、１つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、１つ以上のアトラスのための全てのアトラスデータを搬送する。

いくつかの実施形態において、方法４００は、１つ以上のビューのためのビュー情報に基づいて、標的ビューのレンダリングのためのボリュメトリック視覚的データの１つ以上のビューを識別する、ビットストリーム情報に追加することを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する。

いくつかの実施形態において、方法４００は、ビットストリームに、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別するための情報を含むことを含み、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う１つ以上のボリュメトリック視覚的トラックに対応し、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う全ての参照ボリュメトリック視覚的トラックに関する一定パラメータ組および共通アトラスデータを規定する。

いくつかの実施形態において、方法４００は、ビットストリームに、標的ビューレンダリングのために選択されたボリュメトリック視覚的データの１つ以上のビューが動的であることを示す特定のサンプルエントリタイプに従って、時間指定メタデータトラックを識別するための情報を追加することを含む。

エンコードされたビデオサブストリームは、幾何学形状データのための１つ以上のビデオコード化エレメンタリストリームと、占有率マップデータのためのゼロまたは１つのビデオコード化エレメンタリストリームと、属性データのためのゼロ以上のビデオコード化エレメンタリストリームとを含み、幾何学形状データ、占有率マップデータ、および属性データは、３次元場面を記述している。

図５は、ボリュメトリック視覚的メディアデータの処理の例示的方法５００に関するフローチャートである。方法５００は、デコーダによって、実装され得る。方法５００において構文要素を説明することにおいて使用される種々の用語は、エンコーダ側方法４００を説明する構文要素のために、上記で使用される用語に類似する。

方法５００は、５０２において、デコーダによって、１つ以上のアトラスサブビットストリームおよび１つ以上のエンコードされたビデオサブビットストリームとして表された３次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることを含む。方法５００は、５０４において、１つ以上のアトラスサブビットストリームをデコードした結果と、１つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、３次元場面を再構築することを含む。

方法５００は、５０６において、所望の視認位置および／または所望の視認向きに基づいて、３次元場面の標的ビューをレンダリングすることを含む。いくつかの実施形態において、デコードおよび再構築することは、第１のハードウェアプラットフォームによって実施され得る一方、レンダリングすることは、ハードウェアプラットフォームをデコードすることと連動する別のハードウェアプラットフォームによって実施され得る。換言すると、第１のハードウェアプラットフォームは、３次元場面の再構築の方法を実装するように、上記で説明されるように、ステップ５０２および５０４のみを実施し得る。いくつかの実施形態において、デコーダは、ｘ－ｙ－ｚまたは極座標系における視認者の所望の視認位置または所望の視認向きを受信し得る。この情報から、デコーダは、標的ビューを生成するために使用されるビューグループに対応するアトラスのデコードされたサブビットストリームを使用して、ビデオ情報を含むデコードされたサブビットストリームから、視認者の位置／向きと整列させられた標的ビューを作成し得る。

いくつかの実施形態において、再構築することは、デコーダによって、ボリュメトリック視覚的データの１つ以上のビューが標的ビューのレンダリングのために選択されたビューグループに対応するアトラスグループをデコードすることを含む。

いくつかの実施形態において、デコードすることは、アトラスグループをデコードする前、ファイル解析器によって、ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループが、アトラスグループのための全てのアトラスデータを搬送する。

いくつかの実施形態において、デコードすることは、アトラスグループのデコーディング前、ファイル解析器によって、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループが、アトラスグループのための全てのアトラスデータを搬送する。例えば、本書に説明される動的ビューグループ構造は、この動作中、使用され得る。

いくつかの実施形態において、方法５００は、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別することをさらに含み、ボリュメトリック視覚的トラックのグループにおけるボリュメトリック視覚的トラックの各々は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む。

いくつかの実施形態において、方法５００は、デコーダによって、１つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの１つ以上のビューを選択することをさらに含み、各ビューグループ情報は、１つ以上のビューを記述する。

いくつかの実施形態において、各ビューグループ情報は、１つ以上のビューのためのカメラパラメータをさらに含む。

いくつかの実施形態において、方法は、デコーダによって、標的ビューのために選択されたボリュメトリック視覚的データの１つ以上のビューに対応する１つ以上のアトラスをデコードすることをさらに含む。

いくつかの実施形態において、１つ以上のアトラスサブビットストリームからの情報は、ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素（例えば、ＶｉｅｗＩｎｆｏＢｏｘ要素）に基づいて、１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、１つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、１つ以上のアトラスのための全てのアトラスデータを搬送する。

いくつかの実施形態において、１つ以上のアトラスサブビットストリームからの情報は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、１つ以上のアトラスに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、１つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、１つ以上のアトラスのための全てのアトラスデータを搬送する。

いくつかの実施形態において、方法は、デコーダによって、１つ以上のビューのためのビュー情報に基づいて、標的ビューのレンダリングのためのボリュメトリック視覚的データの１つ以上のビューを選択することをさらに含み、各ビュー情報は、対応するビューのカメラパラメータを記述する。

いくつかの実施形態において、方法５００は、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することをさらに含み、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う１つ以上のボリュメトリック視覚的トラックに対応し、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う全ての参照ボリュメトリック視覚的トラックに関する一定パラメータ組および共通アトラスデータを規定する。

いくつかの実施形態において、方法５００は、標的ビューレンダリングのために選択されたボリュメトリック視覚的データの１つ以上のビューが動的であることを示す特定のサンプルエントリタイプに従って、時間指定メタデータトラックを識別することをさらに含む。

いくつかの実施形態において、１つ以上のエンコードされたビデオサブビットストリームは、幾何学形状データのための１つ以上のビデオコード化エレメンタリストリームと、占有率マップデータのためのゼロまたは１つのビデオコード化エレメンタリストリーム、属性データのためのゼロ以上のビデオコード化エレメンタリストリームとを含み、幾何学形状データ、占有率マップデータ、および属性データは、３次元場面を記述している。

図４－５を参照すると、いくつかの実施形態において、アトラスグループが、アトラスサブビットストリームのグループを指し得る。いくつかの実施形態において、上記の議論される方法によって使用されるボリュメトリック視覚的トラックのグループは、ボリュメトリック視覚的トラックグループを表し得る。

いくつかの実施形態において、方法４００または５００において、ボリュメトリック視覚的パラメータトラックの構文要素は、本書に説明されるＶｉｅｗＧｒｏｕｐＩｎｆｏＢｏｘ構文構造であり得る。

図６は、本技術による、ボリュメトリックメディアデータのエンコーダであり得る装置６００の例のブロック図である。装置６００は、点群データまたはマルチビュービデオデータ、またはマルチ表面投影等の形態で、３次元場面およびボリュメトリック視覚的メディア情報を収集するように構成された入手モジュール６０１を含む。このモジュールは、ビデオデータをメモリからまたはカメラフレームバッファから読み取るために、入出力コントローラ回路を含み得る。このモジュールは、ボリュメトリックデータを読み取るためのプロセッサ実行可能命令を含み得る。装置６００は、本明細書に説明される種々の技法（例えば、方法４００）に従って、ボリュメトリック視覚的情報のエンコードされた表現であるビットストリームを発生させるように構成されたビットストリーム生成器モジュール６０２を含む。このモジュールは、プロセッサ実行可能ソフトウェアコードとして、実装され得る。装置６００は、後続処理をビットストリーム（例えば、メタデータ挿入、暗号化等）に実施するように構成されたモジュール６０３も含む。さらに記憶／伝送モジュール９０４を含む装置は、記憶またはネットワーク伝送層コーディングのいずれかをビデオエンコードされたデータまたはメディアデータに実施するように構成される。モジュール６０４は、例えば、デジタル通信ネットワークを経由してデータをストリーミングする、またはビットストリームをＤＡＳＨ共通フォーマット内に記憶するために本書に説明されるＭＰＥＧ－ＤＡＳＨ技法を実装し得る。

上記の説明されるモジュール６０１－６０４は、適切なソフトウェアと組み合わせて処理を実施することが可能な専用ハードウェアまたはハードウェアを使用することによって、実装されることができる。そのようなハードウェアまたは特殊目的ハードウェアは、特定用途向け集積回路（ＡＳＩＣ）、種々の他の回路、種々のプロセッサ等を含み得る。プロセッサによって実装されると、機能性は、単一専用プロセッサ、単一共有プロセッサ、または複数の独立プロセッサによって提供され得、そのうちのいくつかは、共有され得る。加えて、プロセッサが、ソフトウェアを実行することが可能なハードウェアを指すことを理解されるべきではなく、限定ではないが、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶するための読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶デバイスを暗示的に含み得る。

図６に示されるような装置６００は、携帯電話、コンピュータ、サーバ、セットトップボックス、携帯移動端末、デジタルビデオカメラ、テレビブロードキャストシステムデバイス、または同等物等のビデオアプリケーション内のデバイスであり得る。

図７は、本技術による、装置７００の例のブロック図である。装置７００は、ネットワークから、または記憶デバイスから読み取ることによって、ビットストリームを入手するように構成された入手モジュール７０１を含む。例えば、モジュール７０１は、本書に説明されるＭＰＥＧ－ＤＡＳＨ技法を使用して、メディアファイルコード化の解析および抽出を実装し、ボリュメトリック視覚的メディアデータを含むネットワーク伝送層データからデコーディングを実施し得る。システムおよびファイル解析器モジュール７０２は、種々のシステム層およびファイル層構文要素（例えば、アトラスサブビットストリーム、グループ情報等）を受信したビットストリームから抽出し得る。ビデオデコーダ７０３は、３次元場面に関するメディアデータまたは点群データ等のボリュメトリックメディアデータまたはマルチビュービデオデータ等を含むエンコードされたビデオサブビットストリームをデコードするように構成される。レンダラモジュール７０４は、ユーザインターフェース制御を介して、ユーザから受信し得る所望の視認位置または所望の視認向きに基づく、３次元場面の標的ビューベースをレンダリングするように構成される。

上記の説明されるモジュール７０１－７０４は、適切なソフトウェアと組み合わせて処理を実施することが可能な専用ハードウェアまたはハードウェアを使用することによって、実現されることができる。そのようなハードウェアまたは特殊目的ハードウェアは、特定用途向け集積回路（ＡＳＩＣ）、種々の他の回路、種々のプロセッサ等を含み得る。プロセッサによって実装されると、機能性は、単一専用プロセッサ、単一共有プロセッサ、または複数の独立プロセッサによって提供され得、そのうちのいくつかは、共有され得る。加えて、プロセッサが、ソフトウェアを実行することが可能なハードウェアを指すことを理解されるべきではなく、限定ではないが、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶するための読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶デバイスを暗示的に含み得る。

図７に示されるようなデバイスは、携帯電話、コンピュータ、サーバ、セットトップボックス、携帯移動端末、デジタルビデオカメラ、テレビブロードキャストシステムデバイス、または同等物等のビデオアプリケーション内のデバイスであり得る。

図８は、図６－７に説明されるエンコーダ／デコーダ実装を含む本明細書に説明される種々のエンコーディングおよび／またはデコーディング機能性を実装するためのハードウェアプラットフォームとして使用され得る装置８００の例のブロック図である。装置８００は、本書に説明される方法を実装するようにプログラムされるプロセッサ８０２を含む。装置８００は、ビットストリームエンコーディングまたはデコーディング等の特定の機能を実施するための専用ハードウェア回路をさらに含み得る。装置８００は、本書に説明される種々の構文要素に従ったデータを含む、プロセッサおよび／またはボリュメトリックデータおよび他のデータに関する実行可能コードを記憶するメモリも含み得る。

いくつかの実施形態において、３Ｄ点群データエンコーダが、本書に説明されるような構文および意味論を使用して、３Ｄ空間情報をエンコードすることによって、３Ｄ点群のビットストリーム表現を発生させるように、実装され得る。

ボリュメトリック視覚的メディアデータエンコーディングまたはデコーディング装置は、コンピュータ、ラップトップ、タブレット、またはゲーム用デバイス等のユーザデバイスの一部として、実装され得る。

本書に説明される開示および他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの１つ以上のものの組み合わせで、実装されることができる。開示および他の実施形態は、１つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の１つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または１つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。本装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である）が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル（例えば、マークアップ言語文書内に記憶された１つ以上のスクリプト）の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル）内に記憶されることができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。

本文書において説明されるプロセッサおよび論理フローは、入力データに動作し、出力を発生させることによって機能を実施する１つ以上のコンピュータプログラムを実行する１つ以上のプログラム可能プロセッサによって実施されることができる。プロセッサおよび論理フローは、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（アプリケーション特定集積回路）によって実施されることもでき、装置も、それらとして実装されることができる。

コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか１つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための１つ以上のメモリデバイスである。概して、コンピュータは、データを記憶するための１つ以上の大容量記憶デバイス（例えば、磁気、磁気光学ディスク、または光ディスク）も含か、または、それらからデータを受信することまたはそれらにデータを転送すること、または両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。

本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。

同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。

いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。

Claims

ボリュメトリック視覚的データ処理の方法であって、前記方法は、
デコーダが、１つ以上のアトラスサブビットストリームおよび１つ以上のエンコードされたビデオサブビットストリームとして表された３次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、
前記１つ以上のアトラスサブビットストリームをデコードした結果と、前記１つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、前記３次元場面を再構築することと、
所望の視認位置および／または所望の視認向きに基づいて、前記３次元場面の標的ビューをレンダリングすることと
を含み、
前記ビットストリームをデコードすることは、
第１のサンプルエントリタイプに従って識別されたボリュメトリック視覚的パラメータトラックの第１の構文要素に基づいて、アトラスグループに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することであって、前記第１の構文要素は、前記ボリュメトリック視覚的パラメータトラックのビューグループ情報を提供し、前記アトラスグループは、同一のビューグループから生成されたすべてのアトラスを含み、前記同一のビューグループから、ボリュメトリック視覚的データの１つ以上のビューが前記標的ビューのレンダリングのために選択され、前記１つ以上のボリュメトリック視覚的トラックにおける各ボリュメトリック視覚的トラックは、第２の構文要素に関連付けられており、前記第２の構文要素は、第２のサンプルエントリタイプに関連付けられており、かつ、対応するボリュメトリック視覚的パラメータトラックのアトラスグループ情報を提供する、ことと、
前記同一のビューグループに対応する前記アトラスグループをデコードすることと
を含み、
前記第１の構文要素および前記第２の構文要素は、前記ビットストリームのファイルストレージに含まれており、前記第１の構文要素および前記第２の構文要素は、それぞれ、前記第１のサンプルエントリタイプおよび前記第２のサンプルエントリタイプに関連付けられており、前記第１のサンプルエントリタイプは、前記ボリュメトリック視覚的パラメータトラックを識別し、前記第２のサンプルエントリタイプは、前記対応するボリュメト
リック視覚的パラメータトラックが前記アトラスグループに対応する前記１つ以上のボリュメトリック視覚的トラックに属することを示す、方法。
前記アトラスグループは、前記同一のビューグループに対応し、前記同一のビューグループから、前記ボリュメトリック視覚的データの前記１つ以上のビューが前記標的ビューのレンダリングのために選択される、請求項１に記載の方法。
前記アトラスグループに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化解除することは、前記アトラスグループをデコードすることよりも前に実行され、
ボリュメトリック視覚的トラックのグループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項１または請求項２に記載の方法。
前記方法は、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別することをさらに含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックのそれぞれは、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、請求項３に記載の方法。
前記方法は、
前記デコーダが、１つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記１つ以上のビューを選択することであって、各ビューグループ情報は、１つ以上のビューを記述する、こと、または、
前記デコーダが、前記１つ以上のビューのためのビュー情報に基づいて、前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記１つ以上のビューを選択することであって、各ビュー情報は、対応するビューのカメラパラメータを記述し、各ビューグループ情報は、前記１つ以上のビューのためのカメラパラメータをさらに含む、こと
をさらに含む、請求項２に記載の方法。
前記１つ以上のアトラスサブビットストリームからの情報は、前記アトラスグループに対応する前記１つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、前記１つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項１または請求項５に記載の方法。
前記方法は、
前記第２のサンプルエントリタイプに従って、時間指定メタデータトラックを識別することであって、前記第２のサンプルエントリタイプは、標的ビューレンダリングのために選択された前記ボリュメトリック視覚的データの前記１つ以上のビューが動的であることを示す、こと、または、
前記第１のサンプルエントリタイプに従って、前記ボリュメトリック視覚的パラメータトラックを識別することであって、前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴うすべての参照ボリュメトリック視覚的トラックに関する一定のパラメータ組および共通アトラスデータを規定する、こと
をさらに含む、請求項３または請求項６に記載の方法。
ボリュメトリック視覚的データ処理の方法であって、前記方法は、
エンコーダが、１つ以上のアトラスサブビットストリームと１つ以上のエンコードされたビデオサブビットストリームとを使用して３次元場面を表すことによって、前記３次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、
所望の視認位置および／または所望の視認向きに基づいて前記３次元場面の標的ビューのレンダリングを可能にする情報を前記ビットストリームの中に含めることと
を含み、
前記生成することは、
前記エンコーダが、ビューグループに対応するアトラスグループをエンコードすることであって、前記ビューグループから、ボリュメトリック視覚的データの１つ以上のビューが前記標的ビューのレンダリングのために選択され、前記アトラスグループは、前記ビューグループから生成されたすべてのアトラスを含む、ことと、
第１のサンプルエントリタイプに従って識別されたボリュメトリック視覚的パラメータトラックの第１の構文要素に基づいて、前記アトラスグループに対応する１つ以上のボリュメトリック視覚的トラックをカプセル化することと
を含み、
前記１つ以上のボリュメトリック視覚的トラックにおける各ボリュメトリック視覚的トラックは、第２の構文要素に関連付けられており、前記第２の構文要素は、第２のサンプルエントリタイプに関連付けられており、かつ、対応するボリュメトリック視覚的パラメータトラックのアトラスグループ情報を提供し、
前記第１の構文要素および前記第２の構文要素は、前記ビットストリームのファイルストレージに含まれており、前記第１の構文要素および前記第２の構文要素は、それぞれ、前記第１のサンプルエントリタイプおよび前記第２のサンプルエントリタイプに関連付けられており、前記第１のサンプルエントリタイプは、前記ボリュメトリック視覚的パラメータトラックを識別し、前記第２のサンプルエントリタイプは、前記対応するボリュメトリック視覚的パラメータトラックが前記アトラスグループに対応する前記１つ以上のボリュメトリック視覚的トラックに属することを示す、方法。
前記カプセル化することは、前記１つ以上のボリュメトリック視覚的トラックを含むボリュメトリック視覚的トラックのグループに対して実行され、前記ボリュメトリック視覚的トラックの前記グループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項８に記載の方法。
前記方法は、
特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別する情報を前記ビットストリームの中に含めることであって、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックのそれぞれは、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、こと、または、
前記第２のサンプルエントリタイプに従って時間指定メタデータトラックを識別するための情報を前記ビットストリームの中に含めることであって、前記第２のサンプルエントリタイプは、標的ビューレンダリングのために選択された前記ボリュメトリック視覚的データの前記１つ以上のビューが動的であることを示す、こと、または、
前記第１のサンプルエントリタイプに従って前記ボリュメトリック視覚的パラメータトラックを識別するための情報を前記ビットストリームの中に含めることであって、前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴うすべての参照ボリュメトリック視覚的トラックに関する一定のパラメータ組および共通アトラスデータを規定する、こと
をさらに含む、請求項９に記載の方法。
前記１つ以上のアトラスサブビットストリームからの情報は、前記アトラスグループに対応する前記ボリュメトリック視覚的トラックの前記グループをカプセル化することによ
ってエンコードされ、前記ボリュメトリック視覚的トラックの前記グループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項９に記載の方法。
前記方法は、前記１つ以上のビューのためのビュー情報に基づいて前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記１つ以上のビューを識別する情報を含めることをさらに含み、前記ビュー情報は、対応するビューのカメラパラメータを記述する、請求項８に記載の方法。
前記１つ以上のエンコードされたビデオサブビットストリームは、
幾何学形状データのための１つ以上のビデオコード化エレメンタリストリームと、
占有率マップデータのためのゼロまたは１つのビデオコード化エレメンタリストリームと、
属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
を含み、
前記幾何学形状データおよび前記占有率マップデータおよび前記属性データは、前記３次元場面を記述する、請求項１～１２のいずれか１項に記載の方法。
請求項１～１３のいずれかに記載の方法を実装するように構成されているプロセッサを備えているビデオ処理装置。