WO2023054156A1

WO2023054156A1 - 情報処理装置および方法

Info

Publication number: WO2023054156A1
Application number: PCT/JP2022/035332
Authority: WO
Inventors: 遼平高橋; 光浩平林
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-09-29
Filing date: 2022-09-22
Publication date: 2023-04-06
Anticipated expiration: 2024-03-29
Also published as: US20240221282A1; EP4411644A1; JPWO2023054156A1; CN117980951A; EP4411644A4; US12614338B2

Abstract

本開示は、シーンディスクリプションを用いて１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができるようにする情報処理装置および方法に関する。シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定する。また、そのコンポーネントインデックスに基づいて、ビデオコンポーネントを対応するバッファに格納し、そのコンポーネントインデックスに基づいてバッファからそのビデオコンポーネントを取得し、取得したビデオコンポーネントを用いて表示用画像を生成する。本開示は、例えば、情報処理装置、または情報処理方法等に適用することができる。

Description

情報処理装置および方法

　本開示は、情報処理装置および方法に関し、特に、シーンディスクリプションを用いて１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができるようにした情報処理装置および方法に関する。

　従来、3D（３次元）オブジェクトを３次元空間内に配置し、レンダリングするためのシーンディスクリプション（Scene Description）のフォーマットであるglTF（The GL Transmission Format）（登録商標）2.0があった（例えば非特許文献１参照）。

　また、MPEG（Moving Picture Experts Group）-I Scene Descriptionにおいて、glTF2.0を拡張し、時間方向に動的なコンテンツを扱う方法が提案された（例えば非特許文献２参照）。

　また、テクスチャビデオ（texture video）とダイナミックメッシュ（dynamic mesh）により構成される3Dオブジェクトビデオのレンダリングサポートが提案された（例えば非特許文献３参照）。また、そのテクスチャビデオとダイナミックメッシュにより構成される3Dオブジェクトのうち、テクスチャビデオをVDテクスチャ（View Dependent Texture）形式で符号化する技術があった（例えば、特許文献１および特許文献２参照）。VDテクスチャ方式の場合、従来のテクスチャビデオと比較して高画質化な3Dオブジェクトを表示することができる。

　VDテクスチャは視点に応じてメッシュにマッピングされるテクスチャビデオであり、VDテクスチャ方式の場合、１つのダイナミックメッシュに対して、互いに異なる方向からマッピングされる複数のVDテクスチャが用意される。このVDテクスチャは、１つのメッシュに対して複数のVDテクスチャを同時にマッピングすることができる。

　近年、このVDテクスチャ方式のように、１つの3Dオブジェクトに対して複数のビデオコンポーネントを同時利用可能な3DデータをMPEG-I Scene Descriptionにおいてサポートすることが期待されていた。

　なお、シーンディスクリプションのmesh.primitives.attributeレイヤにおいて、タイル毎のアクセサを分ける方法があった（例えば、非特許文献４参照）。また、視点位置の変化に応じて使用するテクスチャを切り替えることができるように、シーンディスクリプションのマテリアル（materials）レイヤに複数のLoDのテクスチャを紐づける方法があった（例えば、非特許文献５参照）。なお、上述のような3Dオブジェクトビデオのビットストリームは、例えばISOBMFF（International Organization for Standardization Base Media File Format）に格納することができる（例えば、非特許文献６参照）。

Saurabh Bhatia, Patrick Cozzi, Alexey Knyazev, Tony Parisi, "Khronos glTF2.0", https://github.com/KhronosGroup/glTF/tree/master/specification/2.0, June 9, 2017 "Potential improvement of ISO/IEC DIS 23090-14 Scene Description for MPEG Media", ISO/IEC JTC 1/SC 29/WG 03 N0321, 2021-08-03 "Technologies under Consideration on Scene Description for MPEG Media", ISO/IEC JTC 1/SC 29/ WG 03 N292, 2021-07-26 Imed Bouazizi, Thomas Stockhammer, "Attribute Registration for V3C", ISO/IEC JTC 1/SC 29/WG 03 m57411, 2021-07-07 Saurabh Bhatia, Gary Hsu, Adam Gritt, John Copic, Marc Appelsmeier, Dag Frommhold, "MSFT_lod", https://github.com/KhronosGroup/glTF/blob/main/extensions/2.0/Vendor/MSFT_lod/README.md "Information technology - JPEG 2000 image coding system - Part 12: ISO base media file format", ISO/IEC FDIS 14496-12:2018, 2020-12

国際公開第２０２１／０７９５９２号国際公開第２０２１／１９３２１３号

　しかしながら、従来のMPEG-I Scene Descriptionでは、シーンディスクリプションにおいて、1つの3Dオブジェクトに対して同時利用可能な複数のビデオコンポーネントを記述することができなかった。

　本開示は、このような状況に鑑みてなされたものであり、シーンディスクリプションを用いて１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができるようにするものである。

　本技術の一側面の情報処理装置は、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納するファイル処理部と、前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成する表示用画像生成部とを備え、前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ情報処理装置である。

　本技術の一側面の情報処理方法は、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納し、前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成し、前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ情報処理方法である。

　本技術の他の側面の情報処理装置は、シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定するファイル生成部を備え、前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる情報処理装置である。

　本技術の他の側面の情報処理方法は、シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定し、前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる情報処理方法である。

　本技術の一側面の情報処理装置および方法においては、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントが、そのビデオコンポーネントに対応するバッファに格納され、そのコンポーネントインデックスに基づいてそのバッファからそのビデオコンポーネントが取得され、その取得されたビデオコンポーネントが用いられて表示用画像が生成される。

　本技術の他の側面の情報処理装置および方法においては、シーンディスクリプションファイルが生成され、そのシーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、そのビデオコンポーネント毎に異なる値を持つコンポーネントインデックスが設定される。

glTF2.0の主な構成例を示す図である。 glTFオブジェクトと参照関係の例を示す図である。シーンディスクリプションの記述例を示す図である。バイナリデータへのアクセス方法について説明する図である。シーンディスクリプションの記述例を示す図である。オブジェクトの拡張方法について説明する図である。クライアント処理の構成について説明する図である。タイムドメタデータを扱うためのextensionの構成例を示す図である。シーンディスクリプションの記述例を示す図である。クライアントにおけるダイナミックメッシュとテクスチャビデオに対する処理の様子の例を示す図である。ダイナミックメッシュとテクスチャビデオをサポートするシーンディスクリプションにおけるオブジェクトの構成例を示す図である。シーンディスクリプションの記述例を示す図である。 VDテクスチャについて説明する図である。パックドVDテクスチャについて説明する図である。タイル構造をサポートするシーンディスクリプションにおけるオブジェクトの構成例を示す図である。テクスチャの切り替えをサポートするシーンディスクリプションの記述例を示す図である。 ISOBMFFのボックス構造の例を示す図である。シーンディスクリプションを用いて１つのオブジェクトに対して複数のビデオコンポーネントを同時利用する方法の例を示す図である。１つのオブジェクトに対して複数のビデオコンポーネントを同時利用可能なシーンディスクリプションにおけるオブジェクトの構成例を示す図である。シーンディスクリプションの記述例を示す図である。 VDテクスチャをサポートするシーンディスクリプションにおけるオブジェクトの構成例を示す図である。パックドVDテクスチャをサポートするシーンディスクリプションにおけるオブジェクトの構成例を示す図である。 VDテクスチャのカメラパラメータを格納するシーンディスクリプションの記述例を示す図である。カメラパラメータの記述例を示す図である。フィールド毎にインデックスが設定されたVDテクスチャのカメラパラメータを格納するシーンディスクリプションの記述例を示す図である。パックドVDテクスチャのカメラパラメータとパッキングメタデータを格納するシーンディスクリプションの記述例を示す図である。カメラパラメータの記述例を示す図である。パッキングメタデータの記述例を示す図である。 VDテクスチャ毎にインデックスが設定されたパックドVDテクスチャのカメラパラメータとパッキングメタデータを格納するシーンディスクリプションの記述例を示す図である。カメラパラメータの記述例を示す図である。パッキングメタデータの記述例を示す図である。フィールド毎にインデックスが設定されたカメラパラメータの記述例を示す図である。シーンディスクリプションの記述例を示す図である。ファイル生成装置の主な構成例を示すブロック図である。ファイル生成処理の流れの例を示すフローチャートである。クライアント装置の主な構成例を示すブロック図である。再生処理の流れの例を示すフローチャートである。コンピュータの主な構成例を示すブロック図である。

　以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
　１．技術内容・技術用語をサポートする文献等
　２．MPEG-Iシーンディスクリプション
　３．複数のビデオコンポーネントに対応するシーンディスクリプション
　４．第１の実施の形態（ファイル生成装置）
　５．第２の実施の形態（クライアント装置）
　６．付記

　＜１．技術内容・技術用語をサポートする文献等＞
　本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献および特許文献等に記載されている内容や以下の非特許文献および特許文献において参照されている他の文献の内容等も含まれる。

　非特許文献１：（上述）
　非特許文献２：（上述）
　非特許文献３：（上述）
　非特許文献４：（上述）
　非特許文献５：（上述）
　非特許文献６：（上述）
　特許文献１：（上述）
　特許文献２：（上述）

　つまり、上述の非特許文献および特許文献に記載されている内容や、上述の非特許文献および特許文献において参照されている他の文献の内容等も、サポート要件を判断する際の根拠となる。例えば、非特許文献１乃至非特許文献５に記載されるglTF2.0やその拡張、特許文献１および特許文献２に記載される3Dオブジェクト構成で用いられている用語、並びに非特許文献６のファイルフォーマット構造等が発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース（Parsing）、シンタックス（Syntax）、セマンティクス（Semantics）等の技術用語についても同様に、発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。

　＜２．MPEG-Iシーンディスクリプション＞
　　＜gltf2.0＞
　従来、例えば、非特許文献１に記載のように、3D（３次元）オブジェクトを３次元空間内に配置するためのフォーマットであるglTF（The GL Transmission Format）（登録商標）2.0があった。glTF2.0では、例えば図１に示されるように、JSONフォーマットファイル（.glTF）と、バイナリファイル（.bin）と、イメージファイル（.pngや.jpg等）とにより構成される。バイナリファイルは、ジオメトリやアニメーション等のバイナリデータを格納する。イメージファイルは、テクスチャ等のデータを格納する。

　JSONフォーマットファイルは、JSON（JavaScript（登録商標） Object Notation）で記述されたシーンディスクリプションファイル（scene description file）である。シーンディスクリプションとは、3Dコンテンツのシーン（の説明）を記述するメタデータである。このシーンディスクリプションの記述により、どのようなシーンであるかが定義される。シーンディスクリプションファイルは、そのようなシーンディスクリプションを格納するファイルである。本開示においては、シーンディスクリプションファイルのことをシーン記述ファイルとも称する。

　JSONフォーマットファイルの記述は、キー（KEY）とバリュー（VALUE）のペアの羅列により構成される。以下にその書式の例を示す。
　“KEY”:”VALUE”

　キーは文字列により構成される。バリューは数値、文字列、真偽値、配列、オブジェクト、またはnull等により構成される。

　また、複数のキーとバリューのペア（“KEY”:”VALUE”）を、｛｝（中かっこ）を用いてまとめることができる。この中かっこでまとめたものをJSONオブジェクトとも称する。以下にその書式の例を示す。
　“user”:{"id":1, "name":"tanaka”}

　この例の場合、キー（user）に対応するバリューとして、"id":1のペアと"name":"tanaka”のペアをまとめたJSONオブジェクトが定義されている。

　また、０個以上のバリューを、[]（大かっこ）を用いて配列化することもできる。この配列をJSON配列とも称する。このJSON配列の要素として、例えば、JSONオブジェクトを適用することもできる。以下にその書式の例を示す。
　test":["hoge", "fuga", "bar"]
　"users":[{"id":1, "name":"tanaka"},{"id":2,"name":"yamada"},{"id":3, "name":"sato"}]

　JSONフォーマットファイルの最上位に記載できるglTFオブジェクト（glTF object）と、それらが持てる参照関係を図２に示す。図２に示されるツリー構造の長丸がオブジェクトを示し、そのオブジェクト間の矢印が参照関係を示している。図２に示されるように、"scene"、"node"、"mesh"、"camera"、"skin"、"material"、"texture"等のオブジェクトがJSONフォーマットファイルの最上位に記述される。

　このようなJSONフォーマットファイル（シーンディスクリプション）の記述例を図３に示す。図３のJSONフォーマットファイル２０は、最上位の一部の記述例を示している。このJSONフォーマットファイル２０において、使用されるトップレベルオブジェクト（top-level object）２１は、全て最上位に記述される。このトップレベルオブジェクト２１は、図２に示されるglTFオブジェクトである。また、JSONフォーマットファイル２０においては、矢印２２として示されるように、オブジェクト（object）間の参照関係が示される。より具体的には、上位オブジェクトのプロパティ（property）で、参照するオブジェクトの配列の要素のインデックス（index）を指定することによりその参照関係が示される。

　　＜データへのアクセス方法＞
　図４は、バイナリデータへのアクセス方法について説明する図である。図４に示されるように、バイナリデータは、バッファオブジェクト（buffer object）に格納される。つまり、バッファオブジェクトにおいてバイナリデータにアクセスするための情報（例えばURI（Uniform Resource Identifier）等）が示される。JSONフォーマットファイルにおいては、図４に示されるように、例えばメッシュ（mesh）、カメラ（camera）、スキン（skin）等のオブジェクトから、そのバッファオブジェクトに対して、アクセサオブジェクト（accessor object）とバッファビューオブジェクト（bufferView object）を介してアクセスすることができる。

　つまり、メッシュ（mesh）、カメラ（camera）、スキン（skin）等のオブジェクトにおいては、参照するアクセサオブジェクトが指定される。JSONフォーマットファイルにおけるメッシュオブジェクト（mesh）の記述例を図５に示す。例えば、図５のように、メッシュオブジェクトにおいては、NORMAL、POSITION、TANGENT、TEXCORD_0等の頂点の属性（アトリビュート（attribute））がキーとして定義され、その属性毎に、参照するアクセサオブジェクトがバリューとして指定されている。

　　＜オブジェクトの拡張＞
　次に、このようなシーンディスクリプションのオブジェクトの拡張について説明する。glTF2.0の各オブジェクトは、拡張オブジェクト（extension object）内に新たに定義されたオブジェクトを格納することができる。図６は、新たに定義されたオブジェクト（ExtensionExample）を規定する場合の記述例を示す。図６に示されるように、新たに定義されたextensionを使用する場合、“extensionUsed”と”extensionRequired”にそのextension object名（図６の例の場合、ExtensionExample）が記述される。これにより、このextensionが、使用されるなextensionであること、または、ロード（load）に必要なextensionであることが示される。

　　＜クライアント処理＞
　次に、MPEG（Moving Picture Experts Group）-I Scene Descriptionにおけるクライアント装置の処理について説明する。クライアント装置は、シーンディスクリプションを取得し、そのシーンディスクリプションに基づいて3Dオブジェクトのデータを取得し、そのシーンディスクリプションや3Dオブジェクトのデータを用いて表示画像を生成する。

　非特許文献２に記載のように、クライアント装置では、プレゼンテーションエンジンやメディアアクセスファンクション等が処理を行う。例えば、図７に示されるように、クライアント装置５０のプレゼンテーションエンジン（Presentation Engine）５１が、シーンディスクリプションの初期値やそのシーンディスクリプションを更新するための情報（以下、更新情報とも称する）を取得し、処理対象時刻のシーンディスクリプションを生成する。そして、プレゼンテーションエンジン５１は、そのシーンディスクリプションを解析し、再生するメディア（動画や音声等）を特定する。そして、プレゼンテーションエンジン５１は、メディアアクセスAPI（Media Access API（Application Program Interface））経由で、メディアアクセスファンクション（Media Access Function）５２に対してそのメディアの取得を要求する。また、プレゼンテーションエンジン５１は、パイプライン処理の設定やバッファの指定等も行う。

　メディアアクセスファンクション５２は、プレゼンテーションエンジン５１から要求されたメディアの各種データをクラウド（Cloud）やローカルストレージ（Local Storage）等から取得する。メディアアクセスファンクション５２は、取得したメディアの各種データ（符号化データ）をパイプライン（Pipeline）５３に供給する。

　パイプライン５３は、供給されたメディアの各種データ（符号化データ）を、パイプライン処理により復号し、その復号結果をバッファ（Buffer）５４に供給する。バッファ５４は、供給されたメディアの各種データを保持する。

　プレゼンテーションエンジン５１は、バッファ５４に保持されているメディアの各種データを用いてレンダリング（Rendering）等を行う。

　　＜Timed mediaの適用＞
　近年、例えば、非特許文献２に示されるように、MPEG-I Scene Descriptionにおいて、glTF2.0を拡張し、３Ｄオブジェクトコンテンツとしてタイムドメディア（Timed media）を適用することが検討されている。タイムドメディアとは、２次元画像における動画像のように、時間方向に変化するメディアデータである。本明細書においては、時間方向に変化することを「動的である」とも称する。また、時間方向に変化しないことを「静的である」とも称する。

　glTFは、メディアデータ（3Dオブジェクトコンテンツ）として、静的なデータのみ適用が可能であった。つまり、glTFは、動的なメディアデータには対応していなかった。3Dオブジェクトを動的とする場合は、アニメーション（静的なメディアデータを時間方向に切り替える方法）が適用されていた。

　MPEG-I Scene Descriptionでは、そのglTF2.0を適用し、シーンディスクリプションとしてJSONフォーマットファイルを適用し、さらに、メディアデータとして、タイムドメディア（例えばビデオデータ）を扱うことができるようにglTFを拡張することが検討されている。タイムドメディアを扱うために、例えば以下のような拡張が行われる。

　図８は、タイムドメディアを扱うための拡張について説明する図である。図８の例において、MPEG（Moving Picture Experts Group）メディアオブジェクト（MPEG_media）は、glTFのextensionであり、例えば、uri, track, renderingRate, startTime等のような、動的なMPEGメディアの属性を指定するオブジェクトである。

　また、図８に示されるように、テクスチャオブジェクト（texture）の拡張オブジェクト（extensions）として、MPEGテクスチャビデオオブジェクト（MPEG_texture_video）が設けられる。そのMPEGテクスチャビデオオブジェクトには、アクセスするバッファオブジェクトに対応するアクセサの情報が格納される。すなわち、MPEGテクスチャビデオオブジェクトは、MPEGメディアオブジェクト（MPEG_media）で指定されたテクスチャメディア（texture media）が復号されて格納されるバッファ（buffer）に対応するアクセサ（accessor）のインデックスを指定するオブジェクトである。MPEGテクスチャビデオオブジェクトを持つテクスチャオブジェクトをビデオコンポーネントと称する。

　図９は、タイムドメディアを扱うための拡張について説明するための、シーンディスクリプションにおけるMPEGメディアオブジェクト（MPEG_media）およびMPEGテクスチャビデオオブジェクト（MPEG_texture_video）の記述例を示す図である。図９の例の場合、上から２行目において下記のように、テクスチャオブジェクト（texture）の拡張オブジェクト（extensions）として、MPEGテクスチャビデオオブジェクト（MPEG_texture_video）が設定されている。そして、そのMPEGビデオテクスチャオブジェクトのバリューとして、アクセサのインデックス（この例では「2」）が指定されている。

"texture":[{"sampler":0, "source":1, "extensions":{"MPEG_texture_video ":"accessor":2}}],

　また、図９の例の場合、上から７行目乃至１６行目において下記のように、glTFの拡張オブジェクト（extensions）として、MPEGメディアオブジェクト（MPEG_media）が設定されている。そして、そのMPEGメディアオブジェクトのバリューとして、例えば、そのMPEGメディアオブジェクトの符号化やURI等といった、MPEGメディアオブジェクトに関する様々な情報が格納されている。

"MPEG_media":{
  "media":[
        {"name":"source_1", "renderingRate":30.0, "startTime":9.0, "timeOffset":0.0,
          "loop":"true", "controls":"false",
          "alternatives":[{"mimeType":"video/mp4;codecs=\"avc1.42E01E\"", "uri":"video1.mp4",
                                     "tracks":[{"track":""#track_ID=1"}]
                         }]
        }
  ]
}

　また、各フレームデータはデコードされ順次バッファに格納されるが、その位置などが変動するため、シーンディスクリプションには、その変動する情報を格納して、レンダラ（renderer）がデータを読みだせるようにする仕組みが設けられる。例えば、図８に示されるように、バッファオブジェクト（buffer）の拡張オブジェクト（extensions）として、MPEGバッファサーキュラオブジェクト（MPEG_buffer_circular）が設けられる。そのMPEGバッファサーキュラオブジェクトには、バッファオブジェクト内にデータを動的に格納するための情報が格納される。例えば、バッファヘッダ（bufferHeader）のデータ長を示す情報や、フレーム数を示す情報等といった情報がこのMPEGバッファサーキュラオブジェクトに格納される。なお、バッファヘッダは、例えば、インデックス（index）、格納されるフレームデータのタイムスタンプやデータ長等といった情報を格納する。

　また、図８に示されるように、アクセサオブジェクト（accessor）の拡張オブジェクト（extensions）として、MPEGアクセサタイムドオブジェクト（MPEG_timed_accessor）が設けられる。この場合、メディアデータは動画なので時間方向に参照するバッファビューオブジェクト（bufferView）が変化し得る（位置が変動し得る）。そこで、その参照するバッファビューオブジェクトを示す情報が、このMPEGアクセサタイムドオブジェクトに格納される。例えば、MPEGアクセサタイムドオブジェクトには、タイムドアクセサインフォメーションヘッダ（timedAccessor information header）が記述されるバッファビューオブジェクト（bufferView）への参照を示す情報が格納される。なお、タイムドアクセサインフォメーションヘッダは、例えば、動的に変化するアクセサオブジェクトとバッファビューオブジェクト内の情報を格納するヘッダ情報である。

　　＜ダイナミックメッシュのパイプライン＞
　非特許文献３には、クライアントにおけるダイナミックメッシュ（dynamic mesh）とテクスチャビデオ（texture video）に対する処理について開示されている。動的なメッシュであるダイナミックメッシュの場合、例えば図１０において太線四角枠内に示されるように、メッシュの頂点情報（position）、テクスチャの座標系を示すテクスチャコーディネート情報（texture coordinates情報）、頂点のインデックス等が個別にバッファに格納される。なお、これらのデータは、符号化されてバッファに格納されてもよいし、符号化されずにバッファに格納されてもよい。テクスチャビデオは、ダイナミックメッシュに張り付けられる（本明細書において、マッピングとも称する）動的なテクスチャである。テクスチャビデオは、2D画像用符号化方式（例えばHEVC（High Efficiency Video Coding））により符号化されており、その符号化方式で復号され、このダイナミックメッシュとは異なるバッファに格納される。

　　＜ダイナミックメッシュ・テクスチャの設定＞
　また非特許文献３には、このようなテクスチャビデオとダイナミックメッシュをサポートするシーンディスクリプションが開示されている。図１１は、そのようなシーンディスクリプションにおけるオブジェクトの主な構成例を示す。この図１１に示されるように、ダイナミックメッシュは、シーンディスクリプションのプリミティブス（primitives）のアトリビュート（attribute）レイヤにおいて指定されるアクセサに対応するバッファに格納される。これに対して、テクスチャビデオは、シーンディスクリプションのプリミティブス（primitives）のマテリアル（material）レイヤにおいて指定されるアクセサに対応するバッファに格納される。このように、ダイナミックメッシュとテクスチャビデオは１対１である。つまり、図１２に示される記述例のように、シーンディスクリプションにおいては、マテリアルレイヤには１つのテクスチャビデオの情報が格納される。

　　＜VDテクスチャ＞
　特許文献１においては、メッシュ（のテクスチャ）のデータ形式として、視点に応じたテクスチャをメッシュにマッピングするVDテクスチャ（View Dependent Texture）形式が開示された。

　従来のテクスチャ（本明細書においてはVIテクスチャ（View Independent Texture）とも称する）は、図１３の左に示されるように１つのメッシュ情報Mの全体にマッピングするテクスチャにより構成される。そのため、VIテクスチャ形式の場合、視点に依存せずに、そのVIテクスチャを構成する全てのテクスチャがメッシュ情報Mに対してマッピングされる。つまり、視点の位置や方向に関わらず（レンダリングに使用されるか否かに関わらず）、メッシュ情報Mの全体にテクスチャがマッピングされる。図１３の左に示されるように、符号化の際、VIテクスチャのデータは、塊（パッチとも称する）毎にUV座標系の2次元平面に格納（パッキングとも称する）されたUVテクスチャマップとして形成される。つまり、この場合、１つのメッシュ情報Mと１つのUVテクスチャマップが対応付けられて符号化される（つまり、メッシュとテクスチャが１対１に対応付けられる）。

　これに対して、VDテクスチャは、視点に応じてメッシュにマッピングされるテクスチャである。VDテクスチャは、例えば図１３の右に示されるように、ある視点から3Dオブジェクトを撮像した撮像画像（カメラ映像）により構成される。マッピングの際には、メッシュに対してその視点の方向から撮像画像（テクスチャ）がマッピングされる。つまり、VDテクスチャには、メッシュの、その視点から見える部分のテクスチャが含まれる。したがって、一般的には、１つのVDテクスチャでメッシュ情報M全体のテクスチャをカバーすることはできないので、図１３の右に示されるように、１つのメッシュ情報Mに対して互いに異なる方向からマッピングされる複数のVDテクスチャが対応付けられる。そして、レンダリングの際の視点の位置や方向に応じて必要なVDテクスチャ（例えばレンダリングの視点位置に近いVDテクスチャ）が選択され、メッシュ情報Mにマッピングされる。

　一般的に、このVDテクスチャ形式とVIテクスチャ形式を比較した場合、VDテクスチャ形式の方がレンダリング（マッピング）の処理の負荷は大きい。ただし、エンコーダ側の処理の負荷はVDテクスチャ形式の方が小さい。また、符号量はVDテクスチャ形式の方が大きい。ただし、VDテクスチャ形式の方が、凹凸形状よりもテクスチャの解像度や忠実度の方を重視する傾向がある人間の知覚特性に適しており、レンダリングされた表示用画像の主観的画質は高画質である。

　なお、１つのメッシュに対して複数のVDテクスチャを同時にマッピングすることができる。本明細書において「同時にマッピングする」とは、「１つのメッシュに対して複数のVDテクスチャがマッピングされた状態」が少なくとも１つのタイミングにおいて存在することを示す。複数のVDテクスチャのそれぞれをマッピングするタイミングは、互いに異なっていてもよい。

　　＜パックドVDテクスチャ＞
　特許文献２においては、複数のVDテクスチャを１つの画像にパッキングしてクライアントに伝送するパックドVDテクスチャ（Packed VD texture）というデータ形式が開示されている。例えば、図１４の場合、互いに異なる視点の撮像画像により構成されるVDテクスチャ６１乃至VDテクスチャ６６が２次元画像６０にパッキングされている。つまり、このパックドVDテクスチャの場合、複数のVDテクスチャが１枚の画像として符号化される。デコーダは、ビットストリームを復号してその画像を得ると、その画像から所望のVDテクスチャを抽出（アンパッキングとも称する）し、メッシュにマッピングする。

　パックドVDテクスチャ形式の場合、一般的に、VDテクスチャが低解像度化されてパッキングされるので、表示用画像の主観的画質はVDテクスチャ形式の場合に比べて低い。また、このパックドVDテクスチャ形式の場合も、１つのメッシュに対して、アンパッキングされた複数のVDテクスチャを同時にマッピングすることができる。

　また、パックドVDテクスチャとVDテクスチャを併用してもよい。例えば、エンコーダが、１つのメッシュに対して複数のVDテクスチャとパックドVDテクスチャとを対応付けて符号化してもよい。さらに、その場合、デコーダは、１つのメッシュに対して、VDテクスチャと、パックドVDテクスチャのアンパッキングされたVDテクスチャとの両方をマッピングしてもよい。

　　＜複数のビデオコンポーネントの同時利用＞
　近年、このVDテクスチャ形式やパックドVDテクスチャ形式のように、１つの3Dオブジェクトに対して複数のビデオコンポーネントを同時利用可能な3DデータをMPEG-I Scene Descriptionにおいてサポートすることが期待されていた。なお、本明細書において、「同時利用」とは、「１つの3Dオブジェクトに対して複数のビデオコンポーネントが利用された状態」が少なくとも１つのタイミングにおいて存在することを示す。複数のビデオコンポーネントのそれぞれを利用するタイミングは、互いに異なっていてもよい。また、「利用する」とは、ビデオコンポーネントを用いて何らかの処理を行うことを示す。例えば、「テクスチャをメッシュにマッピングする」ことは、「テクスチャを利用する」ことと言える。

　　＜タイル＞
　ところで、非特許文献４には、シーンディスクリプションにおいて、例えば、図１５に示されるように、メッシュをタイル単位でバッファに関連付ける方法が開示された。図１５の例の場合、プリミティブスのアトリビュートレイヤにおいて、タイル毎に拡張オブジェクトが設定され、それぞれ、互いに異なるアクセサに関連付けられている。したがって、この方法の場合、メッシュのデータがタイル毎に異なるバッファに格納される。そのため、プレゼンテーションエンジン（PE）は、所望のタイルを選択し、再構成することができる。

　　＜テクスチャの切り替え＞
　また、非特許文献５には、例えば図１６に示されるように、プリミティブスのマテリアルレイヤに対して複数のテクスチャを紐づける方法が開示されている。図１６の例の場合、シーンディスクリプション８０において、実線四角枠８２内に示されるように、拡張オブジェクト“MSFT_lod”が設定され、実線四角枠８４および実線四角枠８６内に示されるように、テクスチャが解像度等に基づいて階層化（LoD化）されている。したがって、基本色情報テクスチャ（baseColorTexture）は、点線四角枠８１、点線四角枠８３、および点線四角枠８５に示されるように、複数のLoD（解像度）が設けられている。そして、各LoDに対し互いに異なるインデックスが割り当てられている。つまり、各LoDのテクスチャが互いに異なるアクセサに関連付けられている。つまり、各LoDのテクスチャが互いに異なるバッファに格納される。

　デコーダのプレゼンテーションエンジン（PE）は、その複数のLoDの中のいずれか１つを選択し、マッピングする。例えば、プレゼンテーションエンジンは、視点位置に応じていずれか１つのLoDを選択する。このようにすることにより、プレゼンテーションエンジンは、例えば視点位置の変化に応じて、マッピングするテクスチャのLoDを切り替えることができる。

　　＜ISOBMFF＞
　以上のようなダイナミックメッシュやテクスチャビデオ（例えばVDテクスチャやパックドVDテクスチャ等）を含む3Dオブジェクトビデオの符号化データは、例えば図１７に示されるISOBMFF（International Organization for Standardization Base Media File Format）のようなファイルコンテナに格納されてもよい。ISOBMFFについては、非特許文献６に開示されている。

　　＜同時利用可能な複数のビデオコンポーネントへの対応＞
　しかしながら、従来のMPEG-I Scene Descriptionでは、シーンディスクリプションにおいて、１つの3Dオブジェクトに対して同時利用可能な複数のビデオコンポーネントを記述することができなかった。

　例えば、非特許文献４に記載の方法では、プリミティブスのアトリビュートレイヤにおいてダイナミックメッシュをタイル毎に異なるアクセサに関連付けることはできるが、マテリアルレイヤにおいてビデオコンポーネントを互いに異なるアクセサに関連付けることはできなかった。また、非特許文献５に記載の方法では、複数のビデオコンポーネントを同時利用することができなかった。

　＜３．複数のビデオコンポーネントに対応するシーンディスクリプション＞
　　＜方法１＞
　そこで、図１８の表の最上段に示されるように、シーンディスクリプション（SD）のマテリアル（material）レイヤにおいて、3Dオブジェクトビデオ用の拡張オブジェクト（extension）を定義し、その拡張オブジェクトにおいてビデオコンポーネント毎にインデックスを設定する（方法１）。

　例えば、情報処理装置（例えばファイル生成装置）が、シーンディスクリプションファイルを生成し、そのシーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、そのビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定するファイル生成部を備える。なお、ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。

　また、情報処理方法（例えばファイル生成方法）において、シーンディスクリプションファイルを生成し、そのシーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、そのビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定する。なお、ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。

　例えば、情報処理装置（例えば再生装置）が、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、そのビデオコンポーネントに対応するバッファに格納するファイル処理部と、そのコンポーネントインデックスに基づいてバッファからビデオコンポーネントを取得し、その取得したビデオコンポーネントを用いて表示用画像を生成する表示用画像生成部とを備える。なお、ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。また、コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて3Dオブジェクトビデオに含まれるビデオコンポーネントに対して設定され、そのビデオコンポーネント毎に異なる値を持つ。

　また、情報処理方法（例えば再生方法）において、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、そのビデオコンポーネントに対応するバッファに格納し、そのコンポーネントインデックスに基づいてバッファからビデオコンポーネントを取得し、その取得したビデオコンポーネントを用いて表示用画像を生成する。なお、ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。また、コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて3Dオブジェクトビデオに含まれるビデオコンポーネントに対して設定され、そのビデオコンポーネント毎に異なる値を持つ。

　シーンディスクリプションにおいて、このように記述することにより、複数のビデオコンポーネントを互いに異なるアクセサに関連付けることができる。したがって、再生装置のメディアアクセスファンクション（MAF）は、そのシーンディスクリプションに基づいて、その複数のビデオコンポーネントを互いに異なるバッファに格納することができる。これにより再生装置のプレゼンテーションエンジンは、所望のビデオコンポーネントを選択し、１つのオブジェクトにマッピングすることができる。つまり、シーンディスクリプションを用いて１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができる。

　　＜方法１－１＞
　また、方法１が適用される場合において、図１８の表の上から２段目に示されるように、VDテクスチャやパックドVDテクスチャ毎にインデックスを設定してもよい（方法１－１）。つまり、ビデオコンポーネントとして、VDテクスチャやパックドVDテクスチャを適用してもよい。

　例えば、VDテクスチャの場合、「利用する」とは、「VDテクスチャをマッピングする」ことを示す。つまり、「複数のVDテクスチャを１つのメッシュにマッピングする」ことは、「複数のビデオコンポーネントを同時利用する」ことと言える。また、パックドVDテクスチャの場合、「利用する」とは、「パックドVDテクスチャからアンパッキングされた複数のVDテクスチャをマッピングする」ことを示す。つまり、「パックドVDテクスチャからアンパッキングされた複数のVDテクスチャを１つのメッシュにマッピングする」ことは、「複数のビデオコンポーネントを同時利用する」ことと言える。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ビデオコンポーネントが、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャであってもよい。また、ファイル生成部が、そのエクステンションにおいて、3Dオブジェクトビデオに含まれる複数のVDテクスチャのそれぞれに対してコンポーネントインデックスを設定してもよい。

　また、上述の情報処理装置（例えばファイル生成装置）において、ビデオコンポーネントが、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであってもよい。また、ファイル生成部が、そのエクステンションにおいて、そのパックドVDテクスチャに対してコンポーネントインデックスを設定してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ビデオコンポーネントが、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャであってもよい。また、ファイル処理部が、コンポーネントインデックスに基づいて、視点が互いに異なる複数のVDテクスチャを、それぞれに対応するバッファに格納してもよい。また、表示用画像生成部が、コンポーネントインデックスに基づいてバッファから所望のVDテクスチャを取得してもよい。そして、表示用画像生成部が、その取得したVDテクスチャを3Dオブジェクト（メッシュ）にマッピングしてもよい。そして、表示用画像生成部が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　また、上述の情報処理装置（例えば再生装置）において、ビデオコンポーネントが、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであってもよい。また、ファイル処理部が、コンポーネントインデックスに基づいて、パックドVDテクスチャを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、表示用画像生成部が、そのコンポーネントインデックスに基づいてそのバッファからそのパックドVDテクスチャを取得してもよい。そして、表示用画像生成部が、その取得したパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示用画像生成部が、そのアンパッキングしたVDテクスチャを3Dオブジェクト（メッシュ）にマッピングしてもよい。そして、表示用画像生成部が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　例えば、シーンディスクリプションのオブジェクトの構成を図１９に示される例のようにしてもよい。つまり、プリミティブスのマテリアルレイヤにおいて、3Dオブジェクトビデオ用の拡張オブジェクト「MPEG_video_components」が設けられ、そのMPEG_video_componentsにおいて、各VDテクスチャやパックドVDテクスチャが互いに異なるアクセサに関連付けられるようにしてもよい。プリミティブスのマテリアルレイヤではなく、プリミティブスにMPEG_video_componentsが設けられるようにしてもよい。

　そのために、シーンディスクリプションの記述は、図２０に示される例のようにしてもよい。つまり、各VDテクスチャやパックドVDテクスチャに対してインデックス（コンポーネントインデックスとも称する）が設定されてもよい。コンポーネントインデックスは、上述したようにビデオコンポーネント毎に異なる値を持つインデックスである。つまり、図１９および図２０の例の場合、コンポーネントインデックスは、各VDテクスチャやパックドVDテクスチャ毎に異なる値を持つ。図２０の例の場合、マテリアルレイヤ１１１において、四角枠１１２内に示されるように、１つのVDテクスチャ（"vdTexture"）に対してインデックス「１」（"index":1）が設定され、１つのパックドVDテクスチャ（"packedVdTexture"）に対してインデックス「２」（"index":2）が設定されている。VDテクスチャが複数存在する場合は、各VDテクスチャに対して、互いに異なる値のコンポーネントインデックスが設定される。

　シーンディスクリプションにおいてこのように記述することにより、図１９の例のように、各VDテクスチャやパックドVDテクスチャを互いに異なるアクセサに関連付けることができる。したがって、再生装置のメディアアクセスファンクション（MAF）は、そのシーンディスクリプションに基づいて、その各VDテクスチャやパックドVDテクスチャを互いに異なるバッファに格納することができる。これにより再生装置のプレゼンテーションエンジンは、所望のVDテクスチャやパックドVDテクスチャを選択し、メッシュにマッピングすることができる。つまり、シーンディスクリプションを用いて１つのメッシュに対して複数のVDテクスチャやパックドVDテクスチャを同時にマッピングすることができる。

　なお、ビデオコンポーネントは、VDテクスチャのみにより構成され、パックドVDテクスチャが含まれなくてもよい。つまり、複数のビデオコンポーネントとして、１つのメッシュに関連付けられた複数のVDテクスチャを適用してもよい。その場合、シーンディスクリプションのオブジェクトの構成は、図２１に示される例のようにしてもよい。つまり、プリミティブスのマテリアルレイヤにおいて、3Dオブジェクトビデオ用の拡張オブジェクト「MPEG_video_components」が設けられ、そのMPEG_video_componentsにおいて、各VDテクスチャが互いに異なるアクセサに関連付けられるようにしてもよい。プリミティブスのマテリアルレイヤではなく、プリミティブスにMPEG_video_componentsが設けられるようにしてもよい。

　また、ビデオコンポーネントは、パックドVDテクスチャのみにより構成され、パッキングされていないVDテクスチャが含まれなくてもよい。つまり、複数のビデオコンポーネントとして、１つのメッシュに関連付けられた複数のVDテクスチャがパッキングされたパックドVDテクスチャを適用してもよい。その場合、シーンディスクリプションのオブジェクトの構成は、図２２に示される例のようにしてもよい。つまり、プリミティブスのマテリアルレイヤにおいて、3Dオブジェクトビデオ用の拡張オブジェクト「MPEG_video_components」が設けられ、そのMPEG_video_componentsにおいてパックドVDテクスチャがアクセサに関連付けられるようにしてもよい。プリミティブスのマテリアルレイヤではなく、プリミティブスにMPEG_video_componentsが設けられるようにしてもよい。

　　＜方法１－２＞
　また、方法１が適用される場合において、図１８の表の上から３段目に示されるように、V-PCC（Video-based Point Cloud Compression）のビデオコンポーネント毎（geometry, attribute, occupancy）にインデックスを設定してもよい（方法１－２）。つまり、ビデオコンポーネントとして、V-PCCのジオメトリ（geometry）、アトリビュート（attribute）、オキュパンシーマップ（occupancy map）を適用してもよい。

　ポイントクラウドは、多数のポイントによりオブジェクトの3D形状を示す3Dデータである。ポイントクラウドのデータは、各ポイントのジオメトリとアトリビュートにより構成される。ジオメトリは、ポイントの３次元空間における位置（例えば３次元座標）を示す。アトリビュートは、そのポイントに付与される属性情報を示す。この属性情報はどのような情報であってもよい。例えば、色情報、反射率情報、法線情報等が含まれてもよい。

　V-PCCは、ポイントクラウドのデータの符号化方法の１つである。V-PCCでは、ジオメトリとアトリビュートがそれぞれパッチ毎に２次元平面にパッキングされ、2D画像として（2D画像用の符号化方式を用いて）符号化される。なお、V-PCCでは、これらのジオメトリやアトリビュートにオキュパンシーマップを付すことができる。オキュパンシーマップは、2D画像における、ジオメトリ（およびアトリビュート）が存在する範囲を示すマップ情報である。ジオメトリがパッキングされた2D画像（本明細書においてジオメトリマップとも称する）およびアトリビュートがパッキングされた2D画像（本明細書においてアトリビュートマップとも称する）に対してオキュパンシーマップが生成され、そのオキュパンシーマップは、ジオメトリマップやアトリビュートマップと同様に、2D画像用の符号化方式を用いて符号化される。つまり、V-PCCの場合、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップがそれぞれビデオコンポーネントとして構成される。そして、ポイントクラウドの符号化データは、ジオメトリマップの符号化データ、アトリビュートマップの符号化データ、およびオキュパンシーマップの符号化データを含む。

　復号の際は、ジオメトリマップの符号化データ、アトリビュートマップの符号化データ、およびオキュパンシーマップの符号化データがそれぞれ2D画像用の符号化方式を用いて復号される。そして、オキュパンシーマップに基づいて、ジオメトリマップからジオメトリ（の各パッチ）がアンパッキングされ、アトリビュートマップからアトリビュート（の各パッチ）がアンパッキングされる。そして、このようにアンパッキングされたジオメトリおよびアトリビュートを用いてポイントクラウドが再構成される。

　つまり、このV-PCCの場合、「利用する」とは、「ポイントクラウドを再構成する」ことを示す。このポイントクラウドの再構成は、上述したようにジオメトリとアトリビュートを用いて行われる。また、そのジオメトリおよびアトリビュートをアンパッキングするためはオキュパンシーマップが用いられる。つまり、「ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを用いてポイントクラウドが再構成される」ことは、「ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップが同時利用される」ことと言える。

　近年、このようなV-PCCを適用する場合のビデオコンポーネント（ジオメトリ（ジオメトリマップ）、アトリビュート（アトリビュートマップ）、およびオキュパンシーマップ）を、ビデオコンポーネントとし、シーンディスクリプションにおいて、マテリアルレイヤでアクセサに関連付けることが検討されている。その場合に、上述のVDテクスチャやパックドVDテクスチャの場合と同様に、ビデオコンポーネントに対してコンポーネントインデックスが設定され、各ビデオコンポーネントが互いに異なるアクセサに関連付けられてもよい。つまり、ジオメトリ（ジオメトリマップ）、アトリビュート（アトリビュートマップ）、およびオキュパンシーマップのそれぞれに対して値が互いに異なるインデックスが設定され、それぞれが互いに異なるアクセサに関連付けられてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ビデオコンポーネントが、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップであってもよい。また、ファイル生成部が、そのエクステンションにおいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップのそれぞれに対して互いに異なる値を持つコンポーネントインデックスを設定してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ビデオコンポーネントが、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップであってもよい。また、ファイル処理部が、コンポーネントインデックスに基づいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれに対応するバッファに格納してもよい。また、表示用画像生成部が、そのコンポーネントインデックスに基づいてそのバッファからジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれ取得してもよい。そして、表示用画像生成部が、その取得したジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを用いてポイントクラウドを再構成してもよい。そして、表示用画像生成部が、その再構成されたポイントクラウドを用いて表示用画像を生成してもよい。

　　＜方法１－３＞
　方法１が適用され、ビデオコンポーネントとしてVDテクスチャを適用する場合、図１８の表の上から４段目に示されるように、VDテクスチャのカメラパラメータを格納してもよい（方法１－３）。

　VDテクスチャは、上述したようにある視点から撮像した撮像画像により構成されてもよい。その撮像画像を生成するための撮像（カメラ）に関するパラメータであるカメラパラメータ、すなわちVDテクスチャに対応するカメラパラメータが、シーンディスクリプションに格納されてもよい。このカメラパラメータは、例えば、VDテクスチャをメッシュにマッピングする際に利用されてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ファイル生成部が、さらに、その3Dオブジェクトビデオ用のエクステンションに、VDテクスチャに対応するカメラパラメータを格納してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ファイル処理部が、さらに、VDテクスチャに対応するカメラパラメータをそのVDテクスチャに対応するバッファに格納してもよい。また、表示用画像生成部が、さらに、コンポーネントインデックスに基づいてそのバッファから所望のVDテクスチャに対応するカメラパラメータを取得してもよい。そして、表示用画像生成部が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　例えば、図２３に示されるように、マテリアルレイヤに規定される3Dオブジェクトビデオ用の拡張オブジェクト「MPEG_video_components」において、VDテクスチャに対応するカメラパラメータ（"cameraParam"）が設定されている。つまり、このVDテクスチャのカメラパラメータがバッファに格納される。

　シーンディスクリプションにおけるこのカメラパラメータの記述方法の例を図２４に示す。この例のように、カメラパラメータは、cam_id, intrinsic_param, Rs, Ts, distortion等のパラメータを含んでもよい。cam_idは、カメラを識別するためのカメラ識別子である。intrinsic_paramは、そのカメラの内部パラメータを示す。RsおよびTsは、そのカメラの外部パラメータを示す。例えば、Rsは、カメラ（視点）の姿勢を示し、Tsは、カメラ（視点）の位置を示す。Distortionは、歪み係数の出力ベクトルを示すパラメータである。もちろん、シーンディスクリプションに格納されるカメラパラメータに含まれるパラメータの内容は任意である。例えば、上述した例以外のパラメータが含まれていてもよいし、上述した例の一部のパラメータが省略されてもよい。

　参照されるアクセサはMPEG_accessor_timedを持つ。immutable=TRUEを設定することで、MPEG mediaから抽出されバッファに格納された静的な（staticな）データへのアクセスが可能になる。

　なお、図２３に示されるように、カメラパラメータ（"cameraParam"）には、VDテクスチャ毎にインデックス（accessor index）が設定される。つまり、カメラパラメータは、VDテクスチャ毎に互いに異なるバッファに格納される。

　このように、VDテクスチャ（を生成したカメラ）に対応するカメラパラメータをシーンディスクリプションに格納することにより、再生装置は、そのカメラパラメータに基づいて、より容易にVDテクスチャをメッシュにマッピングすることができる。

　　＜方法１－３－１＞
　なお、方法１－３を適用する場合において、図１８の表の上から５段目に示されるように、そのカメラパラメータのフィールド毎にインデックスを設定してもよい（方法１－３－１）。つまり、カメラパラメータの各フィールドに対して、フィールド毎に異なる値を持つインデックス（フィールドインデックスとも称する）が設定されてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ファイル生成部が、さらに、そのエクステンションにおいて、カメラパラメータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ファイル処理部が、フィールドインデックスに基づいて、カメラパラメータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、表示用画像生成部が、さらに、そのフィールドインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータの各フィールドを取得してもよい。そして、表示用画像生成部が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、そのエクステンションにおいてカメラパラメータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　図２５の例においては、カメラ識別子cameraIdに対して、インデックス値「１００」が設定されている。また、内部パラメータintrinsicParamに対して、インデックス値「１０１」が設定されている。また、外部パラメータRsに対して、インデックス値「１０２」が設定されている。また、外部パラメータTsに対して、インデックス値「１０３」が設定されている。また、歪み係数の出力ベクトルdistortionに対して、インデックス値「１０４」が設定されている。つまり、シーンディスクリプションにおいて、カメラパラメータに対し、フィールドごとに値が異なるインデックスが設定されている。このようにすることにより、再生装置のメディアアクセスファンクションは、このシーンディスクリプションに基づいて、これらのカメラパラメータをフィールド毎に互いに異なるバッファに格納することができる。したがって、再生装置のプレゼンテーションエンジンは、このシーンディスクリプションに基づいてバッファを選択することにより、容易にカメラパラメータの所望のフィールドを取得することができる。

　　＜方法１－４＞
　また、方法１が適用され、ビデオコンポーネントとしてパックドVDテクスチャを適用する場合、図１８の表の上から６段目に示されるように、パックドVDテクスチャのカメラパラメータとパッキングメタデータを格納してもよい（方法１－４）。

　パックドVDテクスチャには、上述したように複数のVDテクスチャがパッキングされている。その各VDテクスチャ（撮像画像）を生成するための撮像（カメラ）に関するパラメータであるカメラパラメータ、すなわちパックドVDテクスチャにパッキングされた各VDテクスチャに対応するカメラパラメータが、シーンディスクリプションに格納されてもよい。このカメラパラメータは、例えば、アンパッキングしたVDテクスチャをメッシュにマッピングする際に利用されてもよい。

　また、パックドVDテクスチャの何処にVDテクスチャがパッキングされているか等を示すパッキングメタデータが、シーンディスクリプションに格納されてもよい。このパッキングメタデータは、例えば、パックドVDテクスチャからVDテクスチャをアンパッキングするために利用されてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ファイル生成部が、さらに、そのエクステンションに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを格納してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ファイル処理部が、さらに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、表示用画像生成部が、さらに、コンポーネントインデックスに基づいてバッファからパックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示用画像生成部が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示用画像生成部が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　例えば、図２６に示されるように、マテリアルレイヤに規定される3Dオブジェクトビデオ用の拡張オブジェクト「MPEG_video_components」において、パックドVDテクスチャに対応するカメラパラメータ（"packedCameraParam"）やパッキングメタデータ（"packedMeta"）が設定されている。つまり、このパックドVDテクスチャのカメラパラメータおよびパッキングメタデータがバッファに格納される。

　シーンディスクリプションにおけるこのカメラパラメータの記述方法の例を図２７に示す。この場合も、カメラパラメータに含まれるパラメータの内容は任意である。例えば、cam_id, intrinsic_param, Rs, Ts, distortion等のパラメータが含まれてもよい。ただし、パックドVDテクスチャは、複数のVDテクスチャを含むので、パックドVDテクスチャに対応するカメラパラメータは、その複数のVDテクスチャのそれぞれについてのカメラパラメータを含む。したがって、図２７の例においては、図２４の例と異なり、forループを用いて全てのカメラ（VDテクスチャ）について各パラメータが示されるようになされている。なお、パラメータcamera_numは、カメラ（VDテクスチャ）の数を示す。

　シーンディスクリプションにおけるパッキングメタデータの記述方法の例を図２８に示す。パッキングメタデータは、各VDテクスチャがパックドVDテクスチャの何処にパッキングされているか等の情報が含まれる。つまり、パッキングメタデータも、図２７に示されるカメラパラメータの場合と同様に、forループを用いて全てのカメラ（VDテクスチャ）について各パラメータが示されるようになされている。なお、パラメータcamera_numは、カメラ（VDテクスチャ）の数を示す。

　パッキングメタデータに含まれるパラメータの内容は任意である。例えば、cam_id, src_width[i], src_height[i], src_top[i]. src_left[i], transform_type[i], dst_width[i], dst_height[i], dst_top[i], dst_left[i]等のパラメータが含まれてもよい。cam_idは、カメラを識別するためのカメラ識別子である。src_width[i]は、対応するVDテクスチャの幅（横方向の長さ）を示すパラメータである。src_height[i]は、対応するVDテクスチャの高さ（縦方向の長さ）を示すパラメータである。src_top[i]は、対応するVDテクスチャの上端の位置を示すパラメータである。src_left[i]は、対応するVDテクスチャの左端の位置を示すパラメータである。これらのパラメータは、パックドVDテクスチャからアンパッキングされた状態の値を示す。また、transform_type[i]は、パックドVDテクスチャの配置情報（回転等）を示すパラメータである。

　dst_width[i]は、対応するVDテクスチャの幅（横方向の長さ）を示すパラメータである。dst_height[i]は、対応するVDテクスチャの高さ（縦方向の長さ）を示すパラメータである。dst_top[i]は、対応するVDテクスチャの上端の位置を示すパラメータである。dst_left[i]は、対応するVDテクスチャの左端の位置を示すパラメータである。これらのパラメータは、パックドVDテクスチャにパッキングされた状態の値を示す。

　つまり、パッキングメタデータには、何処の部分のVDテクスチャがパックドVDテクスチャの何処に格納されているかが示されている。もちろん、シーンディスクリプションに格納されるパッキングメタデータに含まれるパラメータの内容は任意である。例えば、上述した例以外のパラメータが含まれていてもよいし、上述した例の一部のパラメータが省略されてもよい。

　なお、カメラパラメータおよびパッキングメタデータには、互いに異なるインデックス（accessor index）が設定される。図２６の例の場合、カメラパラメータ（"packedCameraParam"）には、インデックス値「２００」が設定され、パッキングメタデータ（"packedMeta"）には、インデックス値「２０１」が設定されている。つまり、このカメラパラメータおよびパッキングメタデータは、互いに異なるバッファに格納される。カメラパラメータは、静的なバッファ（static buffer）に格納され、パッキングメタデータは、サーキュラーバッファ（circular buffer）に格納される。また、図２７に示されるように、パックドVDテクスチャにパッキングされる全てのVDテクスチャについてのカメラパラメータはまとめて１つのバッファに格納される。同様に、図２８に示されるように、パックドVDテクスチャにパッキングされる全てのVDテクスチャについてのパッキングメタデータはまとめて１つのバッファに格納される。

　このように、パックドVDテクスチャに対応するパッキングメタデータをシーンディスクリプションに格納することにより、再生装置は、そのパッキングメタデータに基づいて、より容易にVDテクスチャをアンパッキングすることができる。また、パックドVDテクスチャに対応するカメラパラメータをシーンディスクリプションに格納することにより、再生装置は、そのカメラパラメータに基づいて、より容易にVDテクスチャをメッシュにマッピングすることができる。

　　＜方法１－４－１＞
　なお、方法１－４を適用する場合において、図１８の表の上から７段目に示されるように、パックドVDテクスチャにパッキングされているVDテクスチャ毎にインデックスを設定してもよい（方法１－４－１）。つまり、パックドVDテクスチャにパッキングされているVDテクスチャ毎のカメラパラメータやパッキングメタデータに対して、対応するVDテクスチャ毎に異なる値を持つインデックス（VDテクスチャインデックスとも称する）が設定されてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ファイル生成部が、さらに、そのエクステンションにおいて、パックドVDテクスチャにパッキングされたVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して、対応するVDテクスチャ毎に異なる値を持つVDテクスチャインデックスを設定してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ファイル処理部が、VDテクスチャインデックスに基づいて、パックドVDテクスチャにパッキングされたVDテクスチャのそれぞれのカメラパラメータおよびパッキングメタデータを、それぞれに対応するバッファに格納してもよい。また、表示用画像生成部が、さらに、そのVDテクスチャインデックスに基づいてそのバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示用画像生成部が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示用画像生成部が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、VDテクスチャインデックスは、上述のエクステンションにおいてVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して設定され、対応するVDテクスチャ毎に異なる値を持つ。

　図２９の例においては、パックドVDテクスチャにパッキングされている１つの目のVDテクスチャに対応するカメラパラメータ（"packedCameraParam_1"）に対して、インデックス値「１００」が設定されている。また、パックドVDテクスチャにパッキングされている２つの目のVDテクスチャに対応するカメラパラメータ（"packedCameraParam_2"）に対して、インデックス値「２００」が設定されている。つまり、各カメラパラメータに対してVDテクスチャインデックスが設定されている。

　この例の場合、上述のように、カメラパラメータは、VDテクスチャ毎に分かれている。したがって、カメラパラメータの記述方法は、例えば図３０に示されるように、VDテクスチャ毎に独立している。そのため、図２７の例のようなcamera_numを用いたforループが不要である。また、"packedCameraParam_1"、"packedCameraParam_2"のように、カメラパラメータの名称として、対応するVDテクスチャを識別可能な名称が適用されるので、cam_idも不要である。

　このようにすることにより、再生装置のメディアアクセスファンクションは、このシーンディスクリプションに基づいて、これらのカメラパラメータを対応するVDテクスチャ毎に互いに異なるバッファに格納することができる。したがって、再生装置のプレゼンテーションエンジンは、このシーンディスクリプションに基づいてバッファを選択することにより、容易に所望のVDテクスチャのカメラパラメータを取得することができる。

　同様に、パックドVDテクスチャにパッキングされている１つの目のVDテクスチャに対応するパッキングメタデータ（"packedMeta_1"）に対して、インデックス値「１０１」が設定されている。また、パックドVDテクスチャにパッキングされている２つの目のVDテクスチャに対応するパッキングメタデータ（"packedMeta_2"）に対して、インデックス値「２０１」が設定されている。つまり、各パッキングメタデータに対してVDテクスチャインデックスが設定されている。

　この例の場合、上述のように、パッキングメタデータは、VDテクスチャ毎に分かれている。したがって、パッキングメタデータの記述方法は、例えば図３１に示されるように、VDテクスチャ毎に独立している。そのため、図２８の例のようなcamera_numを用いたforループが不要である。また、"packedMeta_1"、"packedMeta_2"のように、カメラパラメータの名称として、対応するVDテクスチャを識別可能な名称が適用されるので、cam_idも不要である。

　このようにすることにより、再生装置のメディアアクセスファンクションは、このシーンディスクリプションに基づいて、これらのパッキングメタデータを対応するVDテクスチャ毎に互いに異なるバッファに格納することができる。したがって、再生装置のプレゼンテーションエンジンは、このシーンディスクリプションに基づいてバッファを選択することにより、容易に所望のVDテクスチャのパッキングメタデータを取得することができる。

　　＜方法１－４－２＞
　なお、方法１－４を適用する場合において、図１８の表の上から８段目に示されるように、カメラパラメータおよびパッキングメタデータのフィールド毎にインデックスを設定してもよい（方法１－４－２）。つまり、カメラパラメータおよびパッキングメタデータの各フィールドに対して、図２５の例と同様に、フィールド毎に異なる値を持つインデックス（フィールドインデックスとも称する）が設定されてもよい。

　例えば、上述の情報処理装置（例えばファイル生成装置）において、ファイル生成部が、さらに、そのエクステンションにおいて、カメラパラメータおよびパッキングメタデータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　例えば、上述の情報処理装置（例えば再生装置）において、ファイル処理部が、フィールドインデックスに基づいて、カメラパラメータおよびパッキングメタデータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、表示用画像生成部が、さらに、そのフィールドインデックスに基づいてそのバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータの各フィールドを取得してもよい。そして、表示用画像生成部が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示用画像生成部が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、そのエクステンションにおいてカメラパラメータおよびパッキングメタデータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　このようにすることにより、再生装置のメディアアクセスファンクションは、このシーンディスクリプションに基づいて、これらのカメラパラメータおよびパッキングメタデータをフィールド毎に互いに異なるバッファに格納することができる。したがって、再生装置のプレゼンテーションエンジンは、このシーンディスクリプションに基づいてバッファを選択することにより、容易にカメラパラメータおよびパッキングメタデータの所望のフィールドを取得することができる。

　なお、上述した方法１－４－１および方法１－４－２を組み合わせて適用してもよい。つまり、カメラパラメータおよびパッキングメタデータに対して、対応するVDテクスチャ毎並びにフィールド毎に互いに異なる値のインデックスを設定してもよい。

　図３２の例においては、パックドVDテクスチャにパッキングされている１つの目のVDテクスチャに対応するカメラパラメータに含まれる内部パラメータ"instrinsicParam_1"に対して、インデックス値「１０１」が設定されている。同様に、その１つの目のVDテクスチャに対応する外部パラメータ"Rs_1"に対して、インデックス値「１０２」が設定されている。同様に、その１つの目のVDテクスチャに対応する外部パラメータ"Ts_1"に対して、インデックス値「１０３」が設定されている。同様に、その１つの目のVDテクスチャに対応する歪み係数の出力ベクトル"distortion_1"に対して、インデックス値「１０４」が設定されている。

　また、パックドVDテクスチャにパッキングされている１つの目のVDテクスチャに対応するパッキングメタデータに含まれる、パックドVDテクスチャからアンパッキングされた状態のVDテクスチャに関する情報"src_video_1"に対して、インデックス値「２０１」が設定されている。同様に、その１つの目のVDテクスチャに対応するパックドVDテクスチャの配置情報"transformType_1"に対して、インデックス値「２０２」が設定されている。同様に、その１つの目のVDテクスチャに対応するパックドVDテクスチャにパッキングされた状態のVDテクスチャに関する情報"dst_video_1"に対して、インデックス値「２０３」が設定されている。

　このようにすることにより、再生装置のメディアアクセスファンクションは、このシーンディスクリプションに基づいて、これらのカメラパラメータおよびパッキングメタデータを、対応するVDテクスチャ毎、かつ、フィールド毎に、互いに異なるバッファに格納することができる。したがって、再生装置のプレゼンテーションエンジンは、このシーンディスクリプションに基づいてバッファを選択することにより、容易に所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータの所望のフィールドを取得することができる。

　なお、図３２の例の場合、同一のカメラで撮影されたVDテクスチャのパラメータ種別毎のアクセサ（accessors）は、名称（index_X）でペアリングされる。例えば、再生装置のプレゼンテーションエンジンは、"XXX_1"（XXXは任意の文字列）の名称のフィールドを取得することにより、パックドVDテクスチャにパッキングされている１つの目のVDテクスチャに対応するカメラパラメータやパッキングメタデータを取得することができる。つまり、再生装置のプレゼンテーションエンジンは、容易に、対応するVDテクスチャ毎のカメラパラメータやパッキングメタデータを取得することができる。

　　＜方法１－５＞
　また、方法１が適用され、ビデオコンポーネントとしてパックドVDテクスチャを適用する場合、図１８の表の上から９段目に示されるように、メディアアクセスファンクション（MAF）がパックドVDテクスチャからVDテクスチャをアンパッキングしてバッファに格納してもよい（方法１－５）。

　この場合、ファイル生成装置は、シーンディスクリプションのマテリアルレイヤにおいてパックドVDテクスチャオブジェクトを設定しない。再生装置のメディアアクセスファンクションは、パックドVDテクスチャからVDテクスチャを生成し、シーンディスクリプションのマテリアルレイヤにおいてVDテクスチャオブジェクトが参照するサーキュラーバッファにそのVDテクスチャを格納する。プレゼンテーションエンジン（PE）は、ビデオコンポーネントとしてVDテクスチャが適用される場合と同様に処理を行えばよい。

　例えば、シーンディスクリプションにおいて、複数のVDテクスチャから同一のパックドVDテクスチャを参照する設定になっている場合、再生装置のメディアアクセスファンクションが、上述のように処理を行うようにしてもよい。つまり、メディアアクセスファンクションは、パックドVDテクスチャからVDテクスチャを生成し、シーンディスクリプションのマテリアルレイヤにおいてVDテクスチャオブジェクトが参照するサーキュラーバッファにそのVDテクスチャを格納する。

　　＜方法１－６＞
　また、方法１が適用され、ビデオコンポーネントとしてパックドVDテクスチャを適用する場合、図１８の表の最下段に示されるように、メディアアクセスファンクション（MAF）がパックドVDテクスチャからVDテクスチャをアンパッキングし、そのVDテクスチャを3Dオブジェクト（メッシュ）にマッピングし、VIテクスチャ（UVテクスチャマップ）を生成し、バッファに格納してもよい（方法１－６）。

　この場合、ファイル生成装置は、シーンディスクリプションのマテリアルレイヤにおいてパックドVDテクスチャオブジェクトやVDテクスチャオブジェクトを設定しない。再生装置のメディアアクセスファンクションは、パックドVDテクスチャからVDテクスチャを生成し、そのVDテクスチャを3Dオブジェクト（メッシュ）にマッピングし、VIテクスチャ（UVテクスチャマップ）を生成し、そのUVテクスチャマップを"MPEG_media"オブジェクトが参照するサーキュラーバッファに格納する。プレゼンテーションエンジン（PE）は、ビデオコンポーネントとしてVIテクスチャ（UVテクスチャマップ）が適用される場合と同様に処理を行えばよい。

　例えば、シーンディスクリプションのマテリアルレイヤにおいて、VDテクスチャ以外のオブジェクトからVDテクスチャまたはパックドVDテクスチャを参照する設定になっている場合、再生装置のメディアアクセスファンクションが、上述のように処理を行うようにしてもよい。VDテクスチャ以外のオブジェクトからVDテクスチャまたはパックドVDテクスチャを参照する設定であることを、"MPEG_media"オブジェクトのtrack.codecsにより示してもよい。例えば、VDテクスチャを格納するISOBMFFのscheme_typeを'vdte'とし、パックドVDテクスチャを格納するISOBMFFのscheme_typeを'pvdt'としてもよい。この場合、codecs=resv.vdte.***の場合、VDテクスチャが格納されていることが示され、codecs=resv.pvdt.***の場合、パックドVDテクスチャが格納されていることが示される。

　例えば、シーンディスクリプションにおいて図３３のように設定されている場合、codecs=resv.vdte.***であるので、"vd_tex.mp4"には、VDテクスチャが格納されている。つまり、VDテクスチャ以外のオブジェクト"MPEG_media"からVDテクスチャを参照する設定になっている。したがって、再生装置のメディアアクセスファンクションは、上述のように処理を行う。つまり、メディアアクセスファンクションは、パックドVDテクスチャからVDテクスチャを生成し、そのVDテクスチャを3Dオブジェクト（メッシュ）にマッピングし、VIテクスチャ（UVテクスチャマップ）を生成し、そのUVテクスチャマップを"MPEG_media"オブジェクトが参照するサーキュラーバッファに格納する。

　上述した各方法は、適宜、他の方法と組み合わせてもよい。

　＜４．第１の実施の形態＞
　　＜ファイル生成装置＞
　上述した本技術は、任意の装置に適用し得る。図３４は、本技術を適用した情報処理装置の一態様であるファイル生成装置の構成の一例を示すブロック図である。図３４に示されるファイル生成装置３００は、3Dオブジェクトコンテンツ（例えばポイントクラウド等の3Dデータ）を符号化し、例えばISOBMFF等のファイルコンテナに格納する装置である。また、ファイル生成装置３００は、その3Dオブジェクトコンテンツのシーンディスクリプションファイルを生成する。

　なお、図３４においては、処理部やデータの流れ等の主なものを示しており、図３４に示されるものが全てとは限らない。つまり、ファイル生成装置３００において、図３４においてブロックとして示されていない処理部が存在したり、図３４において矢印等として示されていない処理やデータの流れが存在したりしてもよい。

　図３４に示されるように、ファイル生成装置３００は制御部３０１およびファイル生成処理部３０２を有する。制御部３０１は、ファイル生成処理部３０２を制御する。ファイル生成処理部３０２は、制御部３０１により制御されて、ファイルの生成に関する処理を行う。例えば、ファイル生成処理部３０２は、ファイルに格納する3Dオブジェクトコンテンツのデータを取得してもよい。また、ファイル生成処理部３０２は、その取得した3Dオブジェクトコンテンツのデータをファイルコンテナに格納することにより、コンテンツファイルを生成してもよい。また、ファイル生成処理部３０２は、その3Dオブジェクトコンテンツに対応するシーンディスクリプションを生成し、シーンディスクリプションファイルに格納してもよい。ファイル生成処理部３０２は、生成したファイルをファイル生成装置３００の外部に出力してもよい。例えば、ファイル生成処理部３０２は、生成したファイルを配信サーバ等にアップロードしてもよい。

　ファイル生成処理部３０２は、入力部３１１、前処理部３１２、符号化部３１３、ファイル生成部３１４、記録部３１５、および出力部３１６を有する。

　入力部３１１は、3Dオブジェクトコンテンツのデータ（オブジェクトの3次元構造を表現する3Dデータ）の取得に関する処理を行う。例えば、入力部３１１は、3Dオブジェクトコンテンツのデータとして、複数のビデオコンポーネントを含む3Dオブジェクトビデオ（動的な3Dオブジェクト）をファイル生成装置３００の外部から取得してもよい。例えば、ビデオコンポーネントは、VDテクスチャであってもよいし、パックドVDテクスチャであってもよいし、その両方であってもよい。例えば、入力部３１１は、ダイナミックメッシュと複数のVDテクスチャビデオ（動的なVDテクスチャ）を取得してもよい。また、入力部３１１は、ダイナミックメッシュと複数のVDテクスチャビデオとパックドVDテクスチャビデオ（動的なパックドVDテクスチャ）を取得してもよい。また、ビデオコンポーネントは、V-PCCのビデオコンポーネント（ジオメトリ、アトリビュート、オキュパンシーマップ）であってもよい。もちろん、ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができるものであればどのようなデータであってもよく、これらの例に限定されない。入力部３１１は、取得した3Dオブジェクトコンテンツのデータを前処理部３１２へ供給してもよい。

　前処理部３１２は、3Dオブジェクトコンテンツのデータに対して符号化前に行う前処理に関する処理を実行する。例えば、前処理部３１２は、入力部３１１から供給される3Dオブジェクトコンテンツのデータを取得してもよい。また、前処理部３１２は、取得した3Dオブジェクトコンテンツのデータ等から、シーンディスクリプションの生成に必要な情報を取得してもよい。また、前処理部３１２は、その取得した情報をファイル生成部３１４へ供給してもよい。また、前処理部３１２は、3Dオブジェクトコンテンツのデータを符号化部３１３へ供給してもよい。

　符号化部３１３は、3Dオブジェクトコンテンツのデータの符号化に関する処理を実行する。例えば、符号化部３１３は、前処理部３１２から供給される3Dオブジェクトコンテンツのデータを取得してもよい。また、符号化部３１３は、取得した3Dオブジェクトコンテンツのデータを符号化し、その符号化データを生成してもよい。

　例えば、符号化部３１３は、ダイナミックメッシュと複数のVDテクスチャビデオが供給された場合、それらをそれぞれ符号化してもよい。その際、符号化部３１３は、VDテクスチャビデオを2D画像用の符号化方式を用いて符号化する。なお、パックドVDテクスチャビデオが供給される場合、符号化部３１３は、そのパックドVDテクスチャビデオを符号化してもよい。その際、符号化部３１３は、パックドVDテクスチャビデオを2D画像用の符号化方式を用いて符号化する。

　また、符号化部３１３は、生成した3Dオブジェクトコンテンツの符号化データをファイル生成部３１４に供給してもよい。

　ファイル生成部３１４は、ファイル等の生成に関する処理を行う。例えば、ファイル生成部３１４は、符号化部３１３から供給された3Dオブジェクトコンテンツの符号化データを取得してもよい。また、ファイル生成部３１４は、前処理部３１２から供給された情報を取得してもよい。また、ファイル生成部３１４は、符号化部３１３から供給された3Dオブジェクトコンテンツの符号化データを格納するファイルコンテナ（コンテンツファイル）を生成してもよい。このコンテンツファイル（ファイルコンテナ）の仕様等は任意であり、3Dオブジェクトコンテンツの符号化データを格納することができればどのようなファイルであってもよい。例えば、ISOBMFFであってもよい。

　また、ファイル生成部３１４は、前処理部３１２から供給された情報を用いて、その3Dオブジェクトコンテンツの符号化データに対応するシーンディスクリプションを生成してもよい。そして、ファイル生成部３１４は、シーンディスクリプションファイルを生成し、生成したシーンディスクリプションを格納してもよい。また、ファイル生成部３１４は、生成したファイル等（ISOBMFFやシーンディスクリプションファイル等）を記録部３１５へ供給してもよい。

　記録部３１５は、例えば、ハードディスクや半導体メモリ等、任意の記録媒体を有し、データの記録に関する処理を実行する。例えば、記録部３１５は、ファイル生成部３１４から供給されるファイル等をその記録媒体に記録してもよい。また、記録部３１５は、制御部３０１若しくは出力部３１６の要求に従って、または所定のタイミングにおいて、記録媒体に記録されているファイル等を読み出し、出力部３１６に供給してもよい。

　出力部３１６は、記録部３１５から供給されるファイル等を取得し、そのファイル等をファイル生成装置３００の外部（例えば配信サーバや再生装置等）に出力してもよい。

　以上のような構成のファイル生成装置３００において、＜３．複数のビデオコンポーネントに対応するシーンディスクリプション＞において上述した本技術を適用してもよい。

　例えば、方法１を適用し、ファイル生成部３１４が、シーンディスクリプションファイルを生成し、そのシーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、そのビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定してもよい。なお、このビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。

　また、方法１が適用される場合において方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャとしてもよい。そして、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれる複数のVDテクスチャのそれぞれに対してコンポーネントインデックスを設定してもよい。

　また、方法１が適用され、コンポーネントとしてVDテクスチャが適用される場合において方法１－３を適用し、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションに、そのVDテクスチャに対応するカメラパラメータを格納してもよい。

　また、方法１－３が適用される場合において方法１－３－１を適用し、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのカメラパラメータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　また、方法１が適用される場合において方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャとしてもよい。そして、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのパックドVDテクスチャに対してコンポーネントインデックスを設定してもよい。

　また、方法１が適用され、コンポーネントとしてパックドVDテクスチャが適用される場合において方法１－４を適用し、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを格納してもよい。

　また、方法１－４が適用される場合において方法１－４－１を適用し、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、パックドVDテクスチャにパッキングされたVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して、対応するVDテクスチャ毎に異なる値を持つVDテクスチャインデックスを設定してもよい。

　また、方法１－４が適用される場合において方法１－４－２を適用し、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのカメラパラメータおよびパッキングメタデータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　また、方法１が適用される場合において方法１－２を適用し、ビデオコンポーネントを、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップとしてもよい。そして、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップのそれぞれに対して互いに異なる値を持つコンポーネントインデックスを設定してもよい。

　もちろん、＜３．複数のビデオコンポーネントに対応するシーンディスクリプション＞において上述したその他の本技術を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。

　ファイル生成装置３００は、このような構成を有することにより、１つのオブジェクトに対して同時利用可能な複数のビデオコンポーネントを互いに異なるアクセサに関連付けるシーンディスクリプションを生成することができる。したがって、再生装置は、そのシーンディスクリプションを用いて、１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができる。

　　＜ファイル生成処理の流れ＞
　このような構成のファイル生成装置３００が上述した方法１を適用して実行するファイル生成処理の流れの例を、図３５のフローチャートを参照して説明する。

　ファイル生成処理が開始されると、ファイル生成装置３００の入力部３１１は、ステップＳ３０１において、3Dオブジェクトビデオ（動的な3Dデータ）を取得する。例えば、入力部３１１は、この3Dデータとして、複数のビデオコンポーネントを含む3Dオブジェクトビデオ取得する。

　ステップＳ３０２において、前処理部３１２は、その3Dオブジェクトビデオに対して前処理を実行する。例えば、前処理部３１２は、その3Dオブジェクトビデオから、１つ以上の3Dオブジェクトを3D空間に配置するための空間配置情報であるシーンディスクリプションの生成に用いられる情報を取得する。

　ステップＳ３０３において、ファイル生成部３１４は、符号化部３１３は、ステップＳ３０１において取得された3Dオブジェクトビデオを符号化し、その符号化データを生成する。

　ステップＳ３０４において、ファイル生成部３１４は、その符号化データを格納するコンテンツファイル（例えばISOBMFF）を生成する。

　ステップＳ３０５において、ファイル生成部３１４は、シーンディスクリプションファイルを生成する。このシーンディスクリプションファイルは、ステップＳ３０１において取得された3Dオブジェクトビデオが表現する3Dオブジェクトを3D空間に配置したシーンディスクリプションを格納する。

　ステップＳ３０６において、ファイル生成部３１４は、3Dオブジェクトビデオを構成するデータが格納される各バッファへの参照情報をそのシーンディスクリプションに設定する。この3Dオブジェクトビデオは、ダイナミックメッシュ、複数のビデオコンポーネント、およびメタデータ等により構成される。ファイル生成部３１４は、これらの構成データ（ダイナミックメッシュ、各ビデオコンポーネント、メタデータ）を互いに異なるバッファに格納させるように、各バッファへの参照情報をそのシーンディスクリプションに設定する。例えば、ファイル生成部３１４は、方法１を適用し、そのシーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、そのビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定してもよい。なお、このビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる。

　ステップＳ３０７において、記録部３１５は、生成されたシーンディスクリプションファイルおよびコンテンツファイルを記録媒体に記録する。出力部３１６は、そのシーンディスクリプションファイルおよびコンテンツファイル等を記録媒体より読み出し、所定のタイミングにおいて、その読み出したファイルをファイル生成装置３００の外部に出力する。例えば、出力部３１６は、シーンディスクリプションファイルおよびコンテンツファイルを、ネットワーク等の通信媒体を介して、配信サーバや再生装置等の他の装置へ送信（アップロード）してもよい。また、出力部３１６は、シーンディスクリプションファイルおよびコンテンツファイルを、リムーバブルメディア等の外部記録媒体に記録してもよい。その場合、その出力されたファイルは、例えば、その外部記録媒体を介して他の装置（配信サーバや再生装置等）に供給されてもよい。

　ステップＳ３０７の処理が終了すると、ファイル生成処理が終了する。

　このようにファイル生成処理を実行することにより、ファイル生成装置３００は、１つのオブジェクトに対して同時利用可能な複数のビデオコンポーネントを互いに異なるアクセサに関連付けるシーンディスクリプションを生成することができる。したがって、再生装置は、そのシーンディスクリプションを用いて、１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができる。

　なお、方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャとしてもよい。そして、ステップＳ３０６において、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、その3Dオブジェクトビデオに含まれる複数のVDテクスチャのそれぞれに対してコンポーネントインデックスを設定してもよい。

　また、その方法１－１が適用される場合において方法１－３を適用し、ステップＳ３０６において、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションに、そのVDテクスチャに対応するカメラパラメータを格納してもよい。

　また、その方法１－３が適用される場合において方法１－３－１を適用し、ステップＳ３０６において、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのカメラパラメータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　また、方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャとしてもよい。そして、ステップＳ３０６において、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのパックドVDテクスチャに対してコンポーネントインデックスを設定してもよい。

　また、その方法１－１が適用される場合において方法１－４を適用し、ステップＳ３０６において、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを格納してもよい。

　また、その方法１－４が適用される場合において方法１－４－１を適用し、ステップＳ３０６において、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、パックドVDテクスチャにパッキングされたVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して、対応するVDテクスチャ毎に異なる値を持つVDテクスチャインデックスを設定してもよい。

　また、方法１－４が適用される場合において方法１－４－２を適用し、ステップＳ３０６において、ファイル生成部３１４が、さらに、上述した3Dオブジェクトビデオ用のエクステンションにおいて、そのカメラパラメータおよびパッキングメタデータの各フィールドに対して、フィールド毎に異なる値を持つフィールドインデックスを設定してもよい。

　また、方法１－２を適用し、ビデオコンポーネントを、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップとしてもよい。そして、ステップＳ３０６において、ファイル生成部３１４が、上述した3Dオブジェクトビデオ用のエクステンションにおいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップのそれぞれに対して互いに異なる値を持つコンポーネントインデックスを設定してもよい。

　＜５．第２の実施の形態＞
　　＜クライアント装置＞
　図３６は、本技術を適用した情報処理装置の一態様であるクライアント装置の構成の一例を示すブロック図である。図３６に示されるクライアント装置４００は、シーンディスクリプションに基づいて、3Dオブジェクトコンテンツの再生処理を行う再生装置である。例えば、クライアント装置４００は、ファイル生成装置３００により生成されたコンテンツファイルに格納される3Dオブジェクトのデータを再生する。その際、クライアント装置４００は、シーンディスクリプションに基づいて、その再生に関する処理を行う。

　なお、図３６においては、処理部やデータの流れ等の主なものを示しており、図３６に示されるものが全てとは限らない。つまり、クライアント装置４００において、図３６においてブロックとして示されていない処理部が存在したり、図３６において矢印等として示されていない処理やデータの流れが存在したりしてもよい。

　図３６に示されるようにクライアント装置４００は、制御部４０１および再生処理部４０２を有する。制御部４０１は、再生処理部４０２の制御に関する処理を行う。再生処理部４０２は、3Dオブジェクトのデータの再生に関する処理を行う。

　再生処理部４０２は、ファイル取得部４１１、ファイル処理部４１２、復号部４１３、表示情報生成部４１４、表示部４１５、および表示制御部４１６を有する。

　ファイル取得部４１１は、ファイルの取得に関する処理を行う。例えば、ファイル取得部４１１は、配信サーバやファイル生成装置３００等、クライアント装置４００の外部から供給されるファイル等を取得してもよい。また、ファイル取得部４１１は、図示せぬローカルストレージに記憶されているファイル等を取得してもよい。例えば、ファイル取得部４１１は、シーンディスクリプションファイルを取得してもよい。また、ファイル取得部４１１は、コンテンツファイルを取得してもよい。例えば、ファイル取得部４１１は、取得したファイルをファイル処理部４１２へ供給してもよい。ファイル取得部４１１は、ファイル処理部４１２の制御に従ってこのファイルの取得に関する処理を行ってもよい。例えば、ファイル取得部４１１は、ファイル処理部４１２により要求されたファイルを外部またはローカルストレージから取得し、ファイル処理部４１２へ供給してもよい。

　ファイル処理部４１２は、ファイル等に対する処理に関する処理を行う。例えば、ファイル処理部４１２は、図７を参照して説明した構成の内、メディアアクセスファンクション（MAF）５２の機能を有し、メディアアクセスファンクション５２が実行する処理として説明した処理を実行してもよい。

　例えば、ファイル処理部４１２は、表示情報生成部４１４の制御に従ってファイル取得部４１１を制御し、クライアント装置４００の外部やローカルストレージ等からシーンディスクリプションファイルを取得させてもよい。また、ファイル処理部４１２は、そのシーンディスクリプションファイルを表示情報生成部４１４へ供給してもよい。また、ファイル処理部４１２は、表示情報生成部４１４の制御に従ってファイル取得部４１１を制御し、クライアント装置４００の外部やローカルストレージ等のコンテンツファイルに格納されるデータ（例えば、3Dオブジェクトビデオの符号化データ等）を取得させてもよい。

　また、ファイル処理部４１２は、その3Dオブジェクトビデオ等の符号化データを復号部４１３へ供給して復号させ、得られたデータを図示せぬバッファ（図７のバッファ５４に相当）に格納させてもよい。つまり、実質的に、ファイル処理部４１２が、このデータを図示せぬバッファ（図７のバッファ５４に相当）に格納するとも言える。

　また、ファイル処理部４１２は、画像表示に関する情報（例えばシーンディスクリプション等）を表示制御部４１６へ供給してもよい。

　復号部４１３は、復号に関する処理を行う。例えば、復号部４１３は、図７を参照して説明した構成の内、パイプライン５３（デコーダ）の機能を有し、パイプライン５３（デコーダ）が実行する処理として説明した処理を実行してもよい。

　例えば、復号部４１３は、ファイル処理部４１２（メディアアクセスファンクション５２）の制御に従って、ファイル処理部４１２から供給される3Dオブジェクトビデオ等の符号化データを復号してもよい。また、復号部４１３は、ファイル処理部４１２（メディアアクセスファンクション５２）の制御に従って、その復号により得られたデータ（ビデオコンポーネント等）を図示せぬバッファ（図７のバッファ５４に相当）に格納してもよい。その際、復号部４１３は、その復号により得られたデータ（ビデオコンポーネント等）を、シーンディスクリプションによりそのデータに紐づけられたバッファに格納する。

　表示情報生成部４１４は、表示制御部４１６の制御に従って、表示用画像の生成に関する処理を行う。したがって、表示情報生成部４１４は、表示用画像生成部とも言える。例えば、表示情報生成部４１４は、図７を参照して説明した構成の内、プレゼンテーションエンジン（PE）５１の機能を有し、プレゼンテーションエンジン５１が実行する処理として説明した処理を実行してもよい。

　例えば、表示情報生成部４１４は、ファイル処理部４１２（メディアアクセスファンクション５２）を制御し、シーンディスクリプションファイルを取得させてもよい。また、表示情報生成部４１４は、そのシーンディスクリプションファイルに格納されるシーンディスクリプションに基づいてファイル処理部４１２（メディアアクセスファンクション５２）を制御し、コンテンツファイルに格納される所望のデータ（例えば、3Dオブジェクトビデオの符号化データ等）を取得させてもよい。

　また、表示情報生成部４１４は、シーンディスクリプションに基づいて、所望のデータを図示せぬバッファ（図７のバッファ５４に相当）から取得してもよい。また、表示情報生成部４１４は、その取得したデータを用いて3Dオブジェクトビデオ（3Dデータ）を再構成してもよい。また、表示情報生成部４１４は、その3Dオブジェクトビデオを用いてレンダリングを行い、表示用画像を生成してもよい。この表示用画像は、3Dオブジェクトを指定した視点位置から見た2D画像である。また、表示情報生成部４１４は、生成した表示情報を表示部４１５に供給し、表示させてもよい。

　表示部４１５は、表示デバイスを有し、画像表示に関する処理を行う。例えば、表示部４１５は、表示情報生成部４１４から供給される表示情報を取得し、その表示デバイスを用いて表示してもよい。

　表示制御部４１６は、画像表示の制御に関する処理を実行する。例えば、表示制御部４１６は、ファイル処理部４１２から供給されるシーンディスクリプション等の情報を取得してもよい。また、表示制御部４１６はその情報に基づいて表示情報生成部４１４を制御してもよい。

　以上のような構成のクライアント装置４００において、＜３．複数のビデオコンポーネントに対応するシーンディスクリプション＞において上述した本技術を適用してもよい。

　例えば、方法１を適用し、ファイル処理部４１２が、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、ビデオコンポーネントに対応するバッファに格納してもよい。また、表示情報生成部４１４が、コンポーネントインデックスに基づいてそのバッファからビデオコンポーネントを取得し、その取得したビデオコンポーネントを用いて表示用画像を生成してもよい。

　また、方法１が適用される場合において方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャとしてもよい。そして、ファイル処理部４１２が、コンポーネントインデックスに基づいて、視点が互いに異なる複数のVDテクスチャを、それぞれに対応するバッファに格納してもよい。また、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファから所望のVDテクスチャを取得してもよい。そして、表示情報生成部４１４が、その取得したVDテクスチャを3Dオブジェクト（メッシュ）にマッピングしてもよい。そして、表示情報生成部４１４が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　また、方法１が適用され、コンポーネントとしてVDテクスチャが適用される場合において方法１－３を適用し、ファイル処理部４１２が、さらに、VDテクスチャに対応するカメラパラメータをそのVDテクスチャに対応するバッファに格納してもよい。また、表示情報生成部４１４が、さらに、コンポーネントインデックスに基づいてそのバッファから所望のVDテクスチャに対応するカメラパラメータを取得してもよい。そして、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　また、方法１－３が適用される場合において方法１－３－１を適用し、ファイル処理部４１２が、フィールドインデックスに基づいて、カメラパラメータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、表示情報生成部４１４が、さらに、そのフィールドインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータの各フィールドを取得してもよい。そして、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてカメラパラメータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　また、方法１が適用される場合において方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャとしてもよい。また、ファイル処理部４１２が、コンポーネントインデックスに基づいて、パックドVDテクスチャを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファからパックドVDテクスチャを取得してもよい。そして、表示情報生成部４１４が、その取得したパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示情報生成部４１４が、そのアンパッキングしたVDテクスチャを3Dオブジェクトにマッピングしてもよい。そして、表示情報生成部４１４が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　また、方法１が適用され、コンポーネントとしてパックドVDテクスチャが適用される場合において方法１－４を適用し、ファイル処理部４１２が、さらに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、表示情報生成部４１４が、さらに、コンポーネントインデックスに基づいてそのバッファからパックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　また、方法１－４が適用される場合において方法１－４－１を適用し、ファイル処理部４１２が、VDテクスチャインデックスに基づいて、パックドVDテクスチャにパッキングされたVDテクスチャのそれぞれのカメラパラメータおよびパッキングメタデータを、それぞれに対応するバッファに格納してもよい。また、表示情報生成部４１４が、さらに、そのVDテクスチャインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、VDテクスチャインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して設定され、対応するVDテクスチャ毎に異なる値を持つ。

　また、方法１－４が適用される場合において方法１－４－２を適用し、ファイル処理部４１２が、フィールドインデックスに基づいて、カメラパラメータおよびパッキングメタデータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、表示情報生成部４１４が、さらに、そのフィールドインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータの各フィールドを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。また、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてカメラパラメータおよびパッキングメタデータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　また、方法１が適用される場合において方法１－２を適用し、ビデオコンポーネントを、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップとしてもよい。また、ファイル処理部４１２が、コンポーネントインデックスに基づいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれに対応するバッファに格納してもよい。また、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファからジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれ取得してもよい。そして、表示情報生成部４１４が、その取得したジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを用いてポイントクラウドを再構成してもよい。そして、表示情報生成部４１４が、その再構成されたポイントクラウドを用いて表示用画像を生成してもよい。

　クライアント装置４００は、このような構成を有することにより、シーンディスクリプションに基づいて、１つのオブジェクトに対して同時利用可能な複数のビデオコンポーネントを互いに異なるバッファに格納することができる。したがって、クライアント装置４００は、そのシーンディスクリプションを用いて、１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができる。

　　＜再生処理の流れ＞
　このような構成のクライアント装置４００が上述した方法１を適用して実行する再生処理の流れの例を、図３７のフローチャートを参照して説明する。

　再生処理が開始されると、クライアント装置４００のファイル取得部４１１は、ステップＳ４０１において、シーンディスクリプションファイルを取得する。

　ステップＳ４０２において、表示情報生成部４１４は、シーンディスクリプションファイルを解析し、3Dオブジェクトビデオを構成する各データ（例えば、各ビデオコンポーネント）が格納されるバッファへの参照情報を取得する。

　ステップＳ４０３において、表示情報生成部４１４は、そのシーンディスクリプションファイルに従ってファイル処理部４１２を制御し、3Dオブジェクトビデオの符号化データを取得させる。ファイル処理部４１２は、表示情報生成部４１４の制御に従ってファイル取得部４１１を制御し、その3Dオブジェクトビデオの符号化データを取得させる。ファイル取得部４１１は、ファイル処理部４１２の制御に従って、クライアント装置４００の外部やローカルストレージ等のコンテンツファイルに格納されるその3Dオブジェクトビデオの符号化データを取得する。

　ステップＳ４０４において、復号部４１３は、ファイル処理部４１２の制御に従って、その3Dオブジェクトビデオの符号化データを復号する。

　ステップＳ４０５において、ファイル処理部４１２は、復号部４１３を制御し、ステップＳ４０４において復号されて得られたデータ（3Dオブジェクトビデオを構成するデータ）を、シーンディスクリプションに従って、図示せぬバッファ（図７のバッファ５４に相当）に格納させる。復号部４１３は、そのファイル処理部４１２の制御に従って、ステップＳ４０４において復号されて得られたデータ（3Dオブジェクトビデオを構成するデータ）を、シーンディスクリプションにおいてそのデータに紐づけられたバッファに格納する。例えば、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）は、方法１を適用し、コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれる各ビデオコンポーネントを、そのビデオコンポーネントに対応するバッファに格納してもよい。

　ステップＳ４０６において、表示情報生成部４１４は、シーンディスクリプションに従って、そのバッファから3Dオブジェクトビデオの構成データ（ビデオコンポーネント等）を読み出す（取得する）。

　ステップＳ４０７において、表示情報生成部４１４は、その構成データ（ビデオコンポーネント等）を用いて3Dオブジェクトビデオを再構成する。

　ステップＳ４０８において、表示情報生成部４１４は、シーンディスクリプションに従って、その3Dオブジェクトビデオからシーンを再構成し、表示用画像を生成する。

　例えば、表示情報生成部４１４は、方法１を適用し、ステップＳ４０６において、コンポーネントインデックスに基づいてそのバッファからビデオコンポーネントを取得してもよい。また、表示情報生成部４１４は、方法１を適用し、ステップＳ４０７およびステップＳ４０８において、その取得したビデオコンポーネントを用いて表示用画像を生成してもよい。

　ステップＳ４０９において、表示部４１５は、その表示用画像を表示する。

　ステップＳ４０９の処理が終了すると、再生処理が終了する。

　このように再生処理を実行することにより、クライアント装置４００は、シーンディスクリプションに基づいて、１つのオブジェクトに対して同時利用可能な複数のビデオコンポーネントを互いに異なるバッファに格納することができる。したがって、クライアント装置４００は、そのシーンディスクリプションを用いて、１つのオブジェクトに対して複数のビデオコンポーネントを同時利用することができる。

　なお、方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャとしてもよい。そして、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、コンポーネントインデックスに基づいて、視点が互いに異なる複数のVDテクスチャを、それぞれに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファから所望のVDテクスチャを取得してもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したVDテクスチャを3Dオブジェクト（メッシュ）にマッピングしてもよい。そして、ステップＳ４０８において、表示情報生成部４１４が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　また、その方法１－１が適用される場合において方法１－３を適用し、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、さらに、VDテクスチャに対応するカメラパラメータをそのVDテクスチャに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、さらに、コンポーネントインデックスに基づいてそのバッファから所望のVDテクスチャに対応するカメラパラメータを取得してもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　また、その方法１－３が適用される場合において方法１－３－１を適用し、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、フィールドインデックスに基づいて、カメラパラメータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、さらに、そのフィールドインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータの各フィールドを取得してもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてカメラパラメータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　また、方法１－１を適用し、ビデオコンポーネントを、所定の視点から3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャとしてもよい。また、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、コンポーネントインデックスに基づいて、パックドVDテクスチャを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファからパックドVDテクスチャを取得してもよい。そして、表示情報生成部４１４が、その取得したパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、そのアンパッキングしたVDテクスチャを3Dオブジェクトにマッピングしてもよい。そして、ステップＳ４０８において、表示情報生成部４１４が、その3Dデータ（VDテクスチャがマッピングされたメッシュ）を用いて表示用画像を生成してもよい。

　また、その方法１－１が適用される場合において方法１－４を適用し、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、さらに、パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを、そのパックドVDテクスチャに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、さらに、コンポーネントインデックスに基づいてそのバッファからパックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。

　また、その方法１－４が適用される場合において方法１－４－１を適用し、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、VDテクスチャインデックスに基づいて、パックドVDテクスチャにパッキングされたVDテクスチャのそれぞれのカメラパラメータおよびパッキングメタデータを、それぞれに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、さらに、そのVDテクスチャインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、VDテクスチャインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてVDテクスチャ毎のカメラパラメータおよびパッキングメタデータに対して設定され、対応するVDテクスチャ毎に異なる値を持つ。

　また、方法１－４が適用される場合において方法１－４－２を適用し、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、フィールドインデックスに基づいて、カメラパラメータおよびパッキングメタデータの各フィールドを、それぞれに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、さらに、そのフィールドインデックスに基づいてバッファから所望のVDテクスチャに対応するカメラパラメータおよびパッキングメタデータの各フィールドを取得してもよい。そして、表示情報生成部４１４が、その取得したパッキングメタデータに基づいてパックドVDテクスチャから所望のVDテクスチャをアンパッキングしてもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したカメラパラメータを用いてVDテクスチャを3Dオブジェクトにマッピングしてもよい。なお、フィールドインデックスは、上述した3Dオブジェクトビデオ用のエクステンションにおいてカメラパラメータおよびパッキングメタデータのフィールドに対して設定され、フィールド毎に異なる値を持つ。

　また、方法１－２を適用し、ビデオコンポーネントを、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、そのポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、およびジオメトリマップおよびアトリビュートマップに対応するオキュパンシーマップとしてもよい。また、ステップＳ４０５において、ファイル処理部４１２（ファイル処理部４１２により制御された復号部４１３）が、コンポーネントインデックスに基づいて、ジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれに対応するバッファに格納してもよい。また、ステップＳ４０６において、表示情報生成部４１４が、そのコンポーネントインデックスに基づいてバッファからジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを、それぞれ取得してもよい。そして、ステップＳ４０７において、表示情報生成部４１４が、その取得したジオメトリマップ、アトリビュートマップ、およびオキュパンシーマップを用いてポイントクラウドを再構成してもよい。そして、ステップＳ４０８において、表示情報生成部４１４が、その再構成されたポイントクラウドを用いて表示用画像を生成してもよい。

　＜６．付記＞
　　＜組み合わせ＞
　上述した本技術の各例は、矛盾が生じない限り、他の例と適宜組み合わせて適用してもよい。また、上述した本技術の各例を、上述した以外の他の技術と組み合わせて適用してもよい。

　　＜コンピュータ＞
　上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。

　図３８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　図３８に示されるコンピュータ９００において、CPU（Central Processing Unit）９０１、ROM（Read Only Memory）９０２、RAM（Random Access Memory）９０３は、バス９０４を介して相互に接続されている。

　バス９０４にはまた、入出力インタフェース９１０も接続されている。入出力インタフェース９１０には、入力部９１１、出力部９１２、記憶部９１３、通信部９１４、およびドライブ９１５が接続されている。

　入力部９１１は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部９１２は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部９１３は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部９１４は、例えば、ネットワークインタフェースよりなる。ドライブ９１５は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア９２１を駆動する。

　以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９１３に記憶されているプログラムを、入出力インタフェース９１０およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。RAM９０３にはまた、CPU９０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９２１に記録して適用することができる。その場合、プログラムは、リムーバブルメディア９２１をドライブ９１５に装着することにより、入出力インタフェース９１０を介して、記憶部９１３にインストールすることができる。

　また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部９１４で受信し、記憶部９１３にインストールすることができる。

　その他、このプログラムは、ROM９０２や記憶部９１３に、あらかじめインストールしておくこともできる。

　　＜本技術の適用可能な対象＞
　本技術は、任意の符号化・復号方式に適用することができる。

　また、本技術は、任意の構成に適用することができる。例えば、本技術は、様々な電子機器に応用され得る。

　また、例えば、本技術は、システムLSI（Large Scale Integration）等としてのプロセッサ（例えばビデオプロセッサ）、複数のプロセッサ等を用いるモジュール（例えばビデオモジュール）、複数のモジュール等を用いるユニット（例えばビデオユニット）、または、ユニットにさらにその他の機能を付加したセット（例えばビデオセット）等、装置の一部の構成として実施することもできる。

　また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV（Audio Visual）機器、携帯型情報処理端末、IoT（Internet of Things）デバイス等の任意の端末に対して、画像（動画像）に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　　＜本技術を適用可能な分野・用途＞
　本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。

　例えば、本技術は、観賞用コンテンツ等の提供の用に供されるシステムやデバイスに適用することができる。また、例えば、本技術は、交通状況の監理や自動運転制御等、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、機械等の自動制御の用に供されるシステムやデバイスに適用することができる。さらに、例えば、本技術は、農業や畜産業の用に供されるシステムやデバイスにも適用することができる。また、本技術は、例えば火山、森林、海洋等の自然の状態や野生生物等を監視するシステムやデバイスにも適用することができる。さらに、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。

　　＜その他＞
　なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の２状態を識別する際に用いる情報だけでなく、３以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の２値であってもよいし、３値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報（フラグも含む）は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。

　また、符号化データ（ビットストリーム）に関する各種情報（メタデータ等）は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る（リンクさせ得る）ようにすることを意味する。つまり、互いに関連付けられたデータは、１つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の記録媒体（または同一の記録媒体の別の記録エリア）に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、１フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。

　なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを１つのデータにまとめるといった、複数の物を１つにまとめることを意味し、上述の「関連付ける」の１つの方法を意味する。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

　また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、１つのフローチャートの各ステップを、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、１つのステップに複数の処理が含まれる場合、その複数の処理を、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　なお、本技術は以下のような構成も取ることができる。
　（１）　コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納するファイル処理部と、
　前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成する表示用画像生成部と
　を備え、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、
　前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ
　情報処理装置。
　（２）　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記視点が互いに異なる複数の前記VDテクスチャを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから所望の前記VDテクスチャを取得し、取得した前記VDテクスチャを前記3Dオブジェクトにマッピングし、前記表示用画像を生成する
　（１）に記載の情報処理装置。
　（３）　前記ファイル処理部は、さらに、前記VDテクスチャに対応するカメラパラメータを前記VDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記コンポーネントインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータを取得し、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングする
　（２）に記載の情報処理装置。
　（４）　前記ファイル処理部は、フィールドインデックスに基づいて、前記カメラパラメータの各フィールドを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記フィールドインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータの各フィールドを取得し、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記フィールドインデックスは、前記エクステンションにおいて前記カメラパラメータの前記フィールドに対して設定され、前記フィールド毎に異なる値を持つ
　（３）に記載の情報処理装置。
　（５）　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記パックドVDテクスチャを、前記パックドVDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから前記パックドVDテクスチャを取得し、取得した前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、アンパッキングした前記VDテクスチャを前記3Dオブジェクトにマッピングし、前記表示用画像を生成する
　（１）乃至（４）のいずれかに記載の情報処理装置。
　（６）　前記ファイル処理部は、さらに、前記パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを、前記パックドVDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記コンポーネントインデックスに基づいて前記バッファから前記パックドVDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングする
　（５）に記載の情報処理装置。
　（７）　前記ファイル処理部は、VDテクスチャインデックスに基づいて、前記パックドVDテクスチャにパッキングされた前記VDテクスチャのそれぞれの前記カメラパラメータおよび前記パッキングメタデータを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記VDテクスチャインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記VDテクスチャインデックスは、前記エクステンションにおいて前記VDテクスチャ毎の前記カメラパラメータおよび前記パッキングメタデータに対して設定され、対応する前記VDテクスチャ毎に異なる値を持つ
　（６）に記載の情報処理装置。
　（８）　前記ファイル処理部は、フィールドインデックスに基づいて、前記カメラパラメータおよび前記パッキングメタデータの各フィールドを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記フィールドインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータの各フィールドを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記フィールドインデックスは、前記エクステンションにおいて前記カメラパラメータおよび前記パッキングメタデータの前記フィールドに対して設定され、前記フィールド毎に異なる値を持つ
　（６）に記載の情報処理装置。
　（９）　前記ビデオコンポーネントは、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、前記ポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、および前記ジオメトリマップおよび前記アトリビュートマップに対応するオキュパンシーマップであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを、それぞれ取得し、取得した前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを用いて前記ポイントクラウドを再構成し、前記表示用画像を生成する
　（１）に記載の情報処理装置。
　（１０）　コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納し、
　前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成し、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、
　前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ
　情報処理方法。

　（１１）　シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定するファイル生成部を備え、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる
　情報処理装置。
　（１２）　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記3Dオブジェクトビデオに含まれる複数の前記VDテクスチャのそれぞれに対して前記コンポーネントインデックスを設定する
　（１１）に記載の情報処理装置。
　（１３）　前記ファイル生成部は、さらに、前記エクステンションに、前記VDテクスチャに対応するカメラパラメータを格納する
　（１２）に記載の情報処理装置。
　（１４）　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記カメラパラメータの各フィールドに対して、前記フィールド毎に異なる値を持つフィールドインデックスを設定する
　（１３）に記載の情報処理装置。
　（１５）　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記パックドVDテクスチャに対して前記コンポーネントインデックスを設定する
　（１１）乃至（１４）のいずれかに記載の情報処理装置。
　（１６）　前記ファイル生成部は、さらに、前記エクステンションに、前記パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを格納する
　（１５）に記載の情報処理装置。
　（１７）　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記パックドVDテクスチャにパッキングされた前記VDテクスチャ毎の前記カメラパラメータおよび前記パッキングメタデータに対して、対応する前記VDテクスチャ毎に異なる値を持つVDテクスチャインデックスを設定する
　（１６）に記載の情報処理装置。
　（１８）　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記カメラパラメータおよび前記パッキングメタデータの各フィールドに対して、前記フィールド毎に異なる値を持つフィールドインデックスを設定する
　（１６）に記載の情報処理装置。
　（１９）　前記ビデオコンポーネントは、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、前記ポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、および前記ジオメトリマップおよび前記アトリビュートマップに対応するオキュパンシーマップであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップのそれぞれに対して互いに異なる値を持つ前記コンポーネントインデックスを設定する
　（１１）に記載の情報処理装置。
　（２０）　シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定し、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる
　情報処理方法。

　３００　ファイル生成装置，　３０１　制御部，　３０２　ファイル生成処理部，　３１１　入力部，　３１２　前処理部，　３１３　符号化部，　３１４　ファイル生成部，　３１５　記録部，　３１６　出力部，　４００　クライアント装置，　４０１　制御部，　４０２　クライアント処理部，　４１１　ファイル取得部，　４１２　ファイル処理部，　４１３　復号部，　４１４　表示情報生成部，　４１５　表示部，　４１６　表示制御部

Claims

　コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納するファイル処理部と、
　前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成する表示用画像生成部と
　を備え、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、
　前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ
　情報処理装置。
　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記視点が互いに異なる複数の前記VDテクスチャを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから所望の前記VDテクスチャを取得し、取得した前記VDテクスチャを前記3Dオブジェクトにマッピングし、前記表示用画像を生成する
　請求項１に記載の情報処理装置。
　前記ファイル処理部は、さらに、前記VDテクスチャに対応するカメラパラメータを前記VDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記コンポーネントインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータを取得し、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングする
　請求項２に記載の情報処理装置。
　前記ファイル処理部は、フィールドインデックスに基づいて、前記カメラパラメータの各フィールドを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記フィールドインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータの各フィールドを取得し、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記フィールドインデックスは、前記エクステンションにおいて前記カメラパラメータの前記フィールドに対して設定され、前記フィールド毎に異なる値を持つ
　請求項３に記載の情報処理装置。
　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記パックドVDテクスチャを、前記パックドVDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから前記パックドVDテクスチャを取得し、取得した前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、アンパッキングした前記VDテクスチャを前記3Dオブジェクトにマッピングし、前記表示用画像を生成する
　請求項１に記載の情報処理装置。
　前記ファイル処理部は、さらに、前記パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを、前記パックドVDテクスチャに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記コンポーネントインデックスに基づいて前記バッファから前記パックドVDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングする
　請求項５に記載の情報処理装置。
　前記ファイル処理部は、VDテクスチャインデックスに基づいて、前記パックドVDテクスチャにパッキングされた前記VDテクスチャのそれぞれの前記カメラパラメータおよび前記パッキングメタデータを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記VDテクスチャインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記VDテクスチャインデックスは、前記エクステンションにおいて前記VDテクスチャ毎の前記カメラパラメータおよび前記パッキングメタデータに対して設定され、対応する前記VDテクスチャ毎に異なる値を持つ
　請求項６に記載の情報処理装置。
　前記ファイル処理部は、フィールドインデックスに基づいて、前記カメラパラメータおよび前記パッキングメタデータの各フィールドを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、さらに、前記フィールドインデックスに基づいて前記バッファから所望の前記VDテクスチャに対応する前記カメラパラメータおよび前記パッキングメタデータの各フィールドを取得し、取得した前記パッキングメタデータに基づいて前記パックドVDテクスチャから所望の前記VDテクスチャをアンパッキングし、取得した前記カメラパラメータを用いて前記VDテクスチャを前記3Dオブジェクトにマッピングし、
　前記フィールドインデックスは、前記エクステンションにおいて前記カメラパラメータおよび前記パッキングメタデータの前記フィールドに対して設定され、前記フィールド毎に異なる値を持つ
　請求項６に記載の情報処理装置。
　前記ビデオコンポーネントは、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、前記ポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、および前記ジオメトリマップおよび前記アトリビュートマップに対応するオキュパンシーマップであり、
　前記ファイル処理部は、前記コンポーネントインデックスに基づいて、前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを、それぞれに対応する前記バッファに格納し、
　前記表示用画像生成部は、前記コンポーネントインデックスに基づいて前記バッファから前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを、それぞれ取得し、取得した前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップを用いて前記ポイントクラウドを再構成し、前記表示用画像を生成する
　請求項１に記載の情報処理装置。
　コンポーネントインデックスに基づいて、3Dオブジェクトビデオに含まれるビデオコンポーネントを、前記ビデオコンポーネントに対応するバッファに格納し、
　前記コンポーネントインデックスに基づいて前記バッファから前記ビデオコンポーネントを取得し、取得した前記ビデオコンポーネントを用いて表示用画像を生成し、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができ、
　前記コンポーネントインデックスは、シーンディスクリプションのマテリアルレイヤに規定される前記3Dオブジェクトビデオ用のエクステンションにおいて前記3Dオブジェクトビデオに含まれる前記ビデオコンポーネントに対して設定され、前記ビデオコンポーネント毎に異なる値を持つ
　情報処理方法。
　シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定するファイル生成部を備え、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる
　情報処理装置。
　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記3Dオブジェクトビデオに含まれる複数の前記VDテクスチャのそれぞれに対して前記コンポーネントインデックスを設定する
　請求項１１に記載の情報処理装置。
　前記ファイル生成部は、さらに、前記エクステンションに、前記VDテクスチャに対応するカメラパラメータを格納する
　請求項１２に記載の情報処理装置。
　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記カメラパラメータの各フィールドに対して、前記フィールド毎に異なる値を持つフィールドインデックスを設定する
　請求項１３に記載の情報処理装置。
　前記ビデオコンポーネントは、所定の視点から前記3Dオブジェクトを撮像した撮像画像であるVDテクスチャが複数パッキングされたパックドVDテクスチャであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記パックドVDテクスチャに対して前記コンポーネントインデックスを設定する
　請求項１１に記載の情報処理装置。
　前記ファイル生成部は、さらに、前記エクステンションに、前記パックドVDテクスチャに対応するカメラパラメータおよびパッキングメタデータを格納する
　請求項１５に記載の情報処理装置。
　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記パックドVDテクスチャにパッキングされた前記VDテクスチャ毎の前記カメラパラメータおよび前記パッキングメタデータに対して、対応する前記VDテクスチャ毎に異なる値を持つVDテクスチャインデックスを設定する
　請求項１６に記載の情報処理装置。
　前記ファイル生成部は、さらに、前記エクステンションにおいて、前記カメラパラメータおよび前記パッキングメタデータの各フィールドに対して、前記フィールド毎に異なる値を持つフィールドインデックスを設定する
　請求項１６に記載の情報処理装置。
　前記ビデオコンポーネントは、ポイントクラウドのジオメトリがパッキングされたジオメトリマップ、前記ポイントクラウドのアトリビュートがパッキングされたアトリビュートマップ、および前記ジオメトリマップおよび前記アトリビュートマップに対応するオキュパンシーマップであり、
　前記ファイル生成部は、前記エクステンションにおいて、前記ジオメトリマップ、前記アトリビュートマップ、および前記オキュパンシーマップのそれぞれに対して互いに異なる値を持つ前記コンポーネントインデックスを設定する
　請求項１１に記載の情報処理装置。
　シーンディスクリプションファイルを生成し、前記シーンディスクリプションファイルのマテリアルレイヤに規定される3Dオブジェクトビデオ用のエクステンションにおいて、前記3Dオブジェクトビデオに含まれるビデオコンポーネントに対して、前記ビデオコンポーネント毎に異なる値を持つコンポーネントインデックスを設定し、
　前記ビデオコンポーネントは、１つの3Dオブジェクトにおいて複数を同時利用することができる
　情報処理方法。