JP7649792B2 - ボリュメトリック視覚的メディアプロセス方法および装置 - Google Patents

ボリュメトリック視覚的メディアプロセス方法および装置 Download PDF

Info

Publication number
JP7649792B2
JP7649792B2 JP2022546009A JP2022546009A JP7649792B2 JP 7649792 B2 JP7649792 B2 JP 7649792B2 JP 2022546009 A JP2022546009 A JP 2022546009A JP 2022546009 A JP2022546009 A JP 2022546009A JP 7649792 B2 JP7649792 B2 JP 7649792B2
Authority
JP
Japan
Prior art keywords
group
volumetric visual
atlas
track
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022546009A
Other languages
English (en)
Other versions
JP2023518337A (ja
Inventor
チェン フアン,
ヤシアン バイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2023518337A publication Critical patent/JP2023518337A/ja
Application granted granted Critical
Publication of JP7649792B2 publication Critical patent/JP7649792B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/00Three-dimensional [3D] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/00Three-dimensional [3D] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/388Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Generation (AREA)

Description

本特許文書は、ボリュメトリック視覚的メディア処理および伝送技術を対象とする。
ビデオエンコーディングは、圧縮されたビットストリーム表現にエンコードするために、圧縮ツールを使用し、圧縮されたビットストリーム表現は、2次元ビデオフレームを記憶するために、またはネットワークを経由してそれをトランスポートするためにより効率的である。エンコードするために2次元ビデオフレームを使用する従来的ビデオコーディング技法は、時として、3次元視覚的場面の視覚的情報の表現に関して非効率的である。
本特許文書は、とりわけ、ボリュメトリック視覚的メディアに関連する視覚的情報を搬送するデジタルビデオをエンコードおよびデコードするための技法を説明する。
一例示的側面において、ボリュメトリック視覚的データ処理の方法が、開示される。方法は、デコーダによって、1つ以上のアトラスサブビットストリームおよび1つ以上のエンコードされたビデオサブビットストリームとして表された3次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、1つ以上のアトラスサブビットストリームをデコードした結果と、1つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、3次元場面を再構築することと、所望の視認位置および/または所望の視認向きに基づいて、3次元場面の標的ビューをレンダリングすることとを含む。
別の例示的側面において、ボリュメトリック視覚的データを備えているビットストリームを生成する方法が、開示される。方法は、エンコーダによって、1つ以上のアトラスサブビットストリームと1つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、3次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、ビットストリームに、所望の視認位置および/または所望の視認向きに基づく3次元場面の標的ビューのレンダリングを可能にする情報を含むこととを含む。
別の例示的側面において、上記の説明される方法のうちの1つ以上を実装するための装置が、開示される。装置は、説明されるエンコーディングまたはデコーディング方法を実装するように構成されたプロセッサを含み得る。
さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。
コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。
これらおよび他の側面が、本書に説明される。
本発明はさらに、例えば、以下を提供する。
(項目1)
ボリュメトリック視覚的データ処理の方法であって、前記方法は、
デコーダによって、1つ以上のアトラスサブビットストリームおよび1つ以上のエンコードされたビデオサブビットストリームとして表された3次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、
前記1つ以上のアトラスサブビットストリームをデコードした結果と、前記1つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、前記3次元場面を再構築することと、
所望の視認位置および/または所望の視認向きに基づいて、前記3次元場面の標的ビューをレンダリングすることと
を含む、方法。
(項目2)
前記再構築することは、前記デコーダによって、前記ボリュメトリック視覚的データの1つ以上のビューが前記標的ビューのレンダリングのために選択されたビューグループに対応するアトラスグループをデコードすることを含む、項目1に記載の方法。
(項目3)
前記デコードすることは、前記アトラスグループをデコードする前、
ファイル解析器によって、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目1または2に記載の方法。
(項目4)
前記デコードすることは、前記アトラスグループのデコーディングの前、
ファイル解析器によって、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目1または2に記載の方法。
(項目5)
特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別することを含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックの各々は、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、項目3および4に記載の方法。
(項目6)
前記デコーダによって、1つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記1つ以上のビューを選択することを含み、各ビューグループ情報は、1つ以上のビューを記述する、項目2に記載の方法。
(項目7)
各ビューグループ情報は、前記1つ以上のビューのためのカメラパラメータをさらに含む、項目6に記載の方法。
(項目8)
前記デコーダによって、前記標的ビューのために選択されたボリュメトリック視覚的データの1つ以上のビューに対応する1つ以上のアトラスをデコードすることを含む、項目1に記載の方法。
(項目9)
前記1つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、
前記1つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記1つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目1または8に記載の方法。
(項目10)
前記1つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、
前記1つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記1つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目1または8に記載の方法。
(項目11)
前記デコーダによって、前記1つ以上のビューのためのビュー情報に基づいて、前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記1つ以上のビューを選択することを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する、項目8に記載の方法。
(項目12)
特定のサンプルエントリタイプに従って、前記ボリュメトリック視覚的パラメータトラックを識別することを含み、
前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う1つ以上のボリュメトリック視覚的トラックに対応し、
前記ボリュメトリック視覚的パラメータトラックは、前記特定のトラック参照を伴う前記参照ボリュメトリック視覚的トラックの全てに関する一定パラメータ組および共通アトラスデータを規定する、項目3または9に記載の方法。
(項目13)
特定のサンプルエントリタイプに従って前記時間指定メタデータトラックを識別することを含み、前記特定のサンプルエントリタイプは、前記標的ビューレンダリングのために選択されたボリュメトリック視覚的データの1つ以上のビューが動的であることを示す、項目4または10に記載の方法。
(項目14)
前記1つ以上のエンコードされたビデオサブビットストリームは、
幾何学形状データのための1つ以上のビデオコード化エレメンタリストリームと、
占有率マップデータのためのゼロまたは1つのビデオコード化エレメンタリストリームと、
属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
を含み、
前記幾何学形状データ、前記占有率マップデータ、および前記属性データは、前記3次元場面を記述する、項目1に記載の方法。
(項目15)
ボリュメトリック視覚的データ処理の方法であって、前記方法は、
エンコーダによって、1つ以上のアトラスサブビットストリームと1つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、3次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、
前記ビットストリームに、所望の視認位置および/または所望の視認向きに基づく前記3次元場面の標的ビューのレンダリングを可能にする情報を含むことと
を含む、方法。
(項目16)
前記生成することは、前記エンコーダによって、前記ボリュメトリック視覚的データの1つ以上のビューが前記標的ビューのレンダリングのために選択可能であるビューグループに対応するアトラスグループをエンコードすることを含む、項目15に記載の方法。
(項目17)
前記生成することは、アトラスグループをエンコードするために、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含み、
前記ボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックの前記グループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目15または16に記載の方法。
(項目18)
前記生成することは、アトラスグループをエンコードするために、
前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含み、前記ボリュメトリック視覚的トラックと前記ボリュメトリック視覚的パラメータトラックとのグループが、前記アトラスグループのための全てのアトラスデータを搬送する、項目15または16に記載の方法。
(項目19)
前記ビットストリームに、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別する情報を含むことを含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックの各々は、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、項目17および18に記載の方法。
(項目20)
前記エンコーダによって、1つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記1つ以上のビューをエンコードすることを含み、各ビューグループ情報は、1つ以上のビューを記述する、項目16に記載の方法。
(項目21)
各ビューグループ情報は、前記1つ以上のビューのためのカメラパラメータをさらに含む、項目20に記載の方法。
(項目22)
前記デコーダによって、前記標的ビューのために選択されたボリュメトリック視覚的データの1つ以上のビューに対応する1つ以上のアトラスをエンコードすることを含む、項目15に記載の方法。
(項目23)
前記1つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、前記1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、
前記1つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記1つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目15または22に記載の方法。
(項目24)
前記1つ以上のアトラスサブストリームからの情報は、前記ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む時間指定メタデータトラックの構文要素に基づいて、前記1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、
前記1つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記1つ以上のアトラスのための前記アトラスデータの全てを搬送する、項目15または22に記載の方法。
(項目25)
前記1つ以上のビューのためのビュー情報に基づいて前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの1つ以上のビューを識別する情報を含むことを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する、項目22に記載の方法。
(項目26)
前記ビットストリームに、特定のサンプルエントリタイプに従って前記ボリュメトリック視覚的パラメータトラックを識別するための情報を含むことを含み、
前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う1つ以上のボリュメトリック視覚的トラックに対応し、
前記ボリュメトリック視覚的パラメータトラックは、前記特定のトラック参照を伴う前記参照ボリュメトリック視覚的トラックの全てに関する一定パラメータ組および共通アトラスデータを規定する、項目17または23に記載の方法。
(項目27)
前記ビットストリームに、特定のサンプルエントリタイプに従って前記時間指定メタデータトラックを識別するための情報を含むことを含み、前記特定のサンプルエントリタイプは、前記標的ビューレンダリングのために選択されたボリュメトリック視覚的データの1つ以上のビューが動的であることを示す、項目18または項目24に記載の方法。
(項目28)
前記1つ以上のエンコードされたビデオサブビットストリームは、
幾何学形状データのための1つ以上のビデオコード化エレメンタリストリームと、
占有率マップデータのためのゼロまたは1つのビデオコード化エレメンタリストリームと、
属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
を含み、
前記幾何学形状データ、前記占有率マップデータ、および前記属性データは、前記3次元場面を記述する、項目15に記載の方法。
(項目29)
項目1-28のいずれかに記載の方法を実装するように構成されたプロセッサを備えているビデオ処理装置。
(項目30)
コードを記憶しているコンピュータ読み取り可能な媒体であって、前記コードは、項目1-28のうちの任意の1つ以上のものに記載の方法をプロセッサに実装させるための命令をエンコードする、コンピュータ読み取り可能な媒体。
図1は、アトラス生成のためのグループベースのエンコーディングの例示的プロセスフローを示す。
図2は、アトラスグループを伴うV-PCCビットストリームのマルチトラックカプセル化の例を示す。
図3は、複数のアトラスを伴うV-PCCビットストリームのマルチトラックカプセル化の例を示す。
図4は、ボリュメトリック視覚的メディア処理の例示的方法のフローチャートである。
図5は、ボリュメトリック視覚的メディア処理の例示的方法のフローチャートである。
図6は、本技術によるボリュメトリック視覚的メディアデータエンコーディング装置の例のブロック図である。
図7は、本技術によるボリュメトリック視覚的メディアデータ処理装置の例のブロック図である。
図8は、本明細書に説明されるボリュメトリック視覚的メディア処理方法を実装するためのハードウェアプラットフォームのブロック図である。
節の見出しは、読み易さを改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、H.264/AVC、H.265/HEVC、およびMPEG-DASH)規格の例を使用して説明される。しかしながら、開示される技法の適用性は、H.264/AVCまたはH.265/HEVCのみに限定されない。しかしながら、開示される技法の適用性は、これらの規格のみに限定されない。
本書では、種々の構文要素が、点群データ処理のために、異なる節において開示される。しかしながら、同じ名称を伴う構文要素は、別様に記述されない限り、異なる節において使用されるものと同じフォーマットおよび構文を有するであろうことを理解されたい。さらに、異なる節の見出しの下、説明される異なる構文要素および構造は、種々の実施形態において、一緒に組み合わされ得る。加えて、具体的な構造が、例として説明されるが、構文構造の種々のエントリの順序は、本書内で別様に記述されない限り、変更され得ることを理解されたい。
(1.簡潔な議論)
従来的に、画像およびビデオ等のデジタル視覚的メディアの捕捉、処理、記憶、およびプレゼンテーションは、視覚的場面の2次元フレームベースの捕捉を使用する。ここ数年間で、ユーザ体験を3次元に拡張するための関心がますます高まっている。種々の産業規格は、3D視覚的場面の捕捉、搬送、およびプレゼンテーションに関連する問題点に対処し始めている。着目すべきこととして、ある技法の組は、3D情報を2-D平面上に投影することによって3D視覚的情報をエンコードするために、従来的フレームベースの(2-D)ビデオエンコーディングツールを使用する。
2つの注目に値する技法は、ビデオベースの点群圧縮(V-PCC)および動画専門家集団(MPEG)没入型のビデオ(MIV)イニシアチブの使用を含む。
(1.1ビデオベースの点群圧縮(V-PCC))
ビデオベースの点群圧縮(V-PCC)は、点群視覚的情報のボリュメトリックエンコーディングを表し、AVC、HEVC、およびVVC等のMPEGビデオコーデックを利用することによって、点群データの効率的捕捉、圧縮、再構築、およびレンダリングを可能にする。コード化された点群シーケンス(CPCS)を含むV-PCCビットストリームが、シーケンスパラメータ組(SPS)データ、アトラス情報ビットストリーム、2Dビデオエンコード占有率マップビットストリーム、2Dビデオエンコード幾何学形状ビットストリーム、およびゼロ以上の2Dビデオエンコード属性ビットストリームを搬送するVPCCユニットで構成される。各V-PCCユニットは、V-PCCユニットのタイプを説明するV-PCCユニットヘッダと、V-PCCユニットペイロードとを有する。占有率、幾何学形状、および属性V-PCCユニットのペイロードは、ビデオデータユニット(例えば、HEVC NALユニット)に対応し、ビデオデータユニットは、対応する占有率、幾何学形状、および属性パラメータ組V-PCCユニットにおいて規定されるビデオデコーダによってデコーディングされ得る。
(1.2 ISOBMFFにおけるV-PCCの搬送)
V-PCCエレメンタリストリームにおけるV-PCCユニットは、そのタイプに基づいて、ISOBMFFファイル内の個々のトラックにマッピングされる。マルチトラックISOBMFF V-PCCコンテナにおいて2つのタイプのトラックが存在する:V-PCCトラック、およびV-PCCコンポーネントトラック。ISOBMFFは、デジタルビデオおよびオーディオ情報の複数のトラックの表現のための一般的ファイルフォーマットである。
V-PCCトラックは、V-PCCビットストリーム内でボリュメトリック視覚的情報を搬送するトラックであり、V-PCCビットストリームは、パッチ情報サブビットストリームと、シーケンスパラメータ組とを含む。V-PCCコンポーネントトラックは、V-PCCビットストリームの占有率マップ、幾何学形状、および属性サブビットストリームのための2Dビデオエンコードされたデータを搬送する制限されたビデオスキームトラックである。このレイアウトに基づいて、V-PCC ISOBMFFコンテナが、以下を含むものとする:
V-PCCトラック:V-PCCトラックは、シーケンスパラメータ組(サンプルエントリ内に)と、サンプルとを含み、サンプルは、シーケンスパラメータ組V-PCCユニット(ユニットタイプVPCC_VPS)およびアトラスV-PCCユニット(ユニットタイプVPCC_AD)のペイロードを搬送する。このトラックは、ビデオ圧縮されるV-PCCユニット(すなわち、ユニットタイプVPCC_OVD、VPCC_GVD、およびVPCC_AVD)のペイロードを搬送する他のトラックへのトラック参照も含む。
制限されたビデオスキームトラック:サンプルが、占有率マップデータのためのビデオコード化エレメンタリストリームのアクセスユニット(すなわち、タイプVPCC_OVDのV-PCCユニットのペイロード)を含む。
1つ以上の制限されたビデオスキームトラック:サンプルが、幾何学形状データのためのビデオコード化エレメンタリストリームのアクセスユニット(すなわち、タイプVPCC_GVDのV-PCCユニットのペイロード)を含む。
ゼロ以上の制限されたビデオスキームトラック:サンプルが、属性データのためのビデオコード化エレメンタリストリームのアクセスユニット(すなわち、タイプVPCC_AVDのV-PCCユニットのペイロード)を含む。
(1.3 MPEG没入型のビデオ(MIV))
MPEGは、実または仮想3-D場面が複数の実または仮想カメラによって捕捉される没入型のビデオコンテンツの圧縮をサポートするために、国際規格(ISO/IEC23090-12)、すなわち、MPEG没入型ビデオ(MIV)を開発している。MIVコンテンツは、6自由度(6DoF)で、位置および向きを視認することの限定された範囲内の3次元(3D)場面の再生のためのサポートを提供する。
MIVとV-PCC技法とは、3-D場面およびオブジェクトを視認することが可能である同様のエンドユーザ体験をもたらすことを目指すが、これらの解決策によってとられるアプローチにいくつかの差異が存在する。例えば、MIVは、3-Dボリュメトリック視覚的データへのビューベースのアクセスを提供することが期待される一方、V-PCCは、3-Dボリュメトリック視覚的データへの投影ベースのアクセスを提供する。故に、MIVは、より現実的なユーザ制御されるユーザ体験をもたらすことを期待され、はるかに高い没入型の体験を視認者に提供するであろう。しかしながら、依然として、MIVの迅速かつ適合性がある採用を確実にするために、V-PCCにおいて利用可能な既存のビットストリーム構文およびファイルフォーマット情報のうちのいくつかを使用することが有益であろう。
(2.エンコーダ側で考慮される例示的問題点)
MIVのエンコーダ側では、ビュー表現は、少なくとも深度/占有率コンポーネントの2Dサンプルアレイであり、随意のテクスチャおよびエンティティコンポーネントが、ビューパラメータを使用して、表面上への3D場面の投影を表す。固有および付帯パラメータを含むビューパラメータは、3D場面からビュー表現を発生させるために使用される投影を定義する。このコンテキストにおいて、ソースビューは、ビュー表現のフォーマットに対応するエンコーディングの前のソースビデオ材料を示し、ビュー表現は、実カメラによる3D場面の捕捉によって、または、ソースカメラパラメータを使用した表面上への仮想カメラによる投影によって、入手され得る。
(2.1グループベースのエンコーダ)
グループベースのエンコーダは、MIV最上位エンコーダであり、それは、ビューを複数のビューグループに分割し、複数の単一グループエンコーダを使用して、ビューグループの各々を独立してエンコードする。ソースビューは、複数の単一グループエンコーダに分配され、複数の単一グループエンコーダの各々は、ソースビューを基本ビューまたは追加のビューとして分類するビューオプティマイザと、アトラスコンストラクタとを有し、アトラスコンストラクタは、それらのパラメータとともに、基本および追加のビューを入力としてとり、アトラスおよび関連付けられたパラメータを出力する。
HEVC(高効率ビデオコーディング)エンコーダ等のMPEGビデオコーデックは、アトラスのテクスチャおよび深度をエンコードするために使用されるであろう。結果として生じる属性および幾何学形状ビデオストリームは、最終MIVビットストリームを形成するMIVメタデータとともに、多重化されるであろう。
(3.デコーダ側上で考慮される例示的問題点)
MIVデコーダは、MIVビットストリームの解析およびデコーディングをハンドリングし、デコードされた幾何学形状ピクチャ、テクスチャ属性ピクチャ、およびMIVメタデータをフレーム毎に出力する。
MIVデコーダのレンダリング部分に対して、MIVレンダリングエンジンは、公称アトラス分解能において幾何学形状フレームを再構築し、次いで、公称アトラス分解能においてアップスケールされたデコードされた幾何学形状フレームのサンプルを浮動小数点の深度値(メートル)に変換する。MIVデコーダの出力は、所望の視認姿勢に従った透視ビューポートまたは全方向性ビューであり、限定された空間内の運動視差キューを可能にする。このため、MIVレンダリングエンジンは、再構築されたビューの再構築と、ビューポートへの再構築されたビューのピクセルの投影とを履行する。
3-D場面のV-PCCベースの表現では、3-D視覚的メディアの固定された数の投影は、ビットストリームで表される。例えば、境界ボックスの6つの表面に対応する6つの投影は、2-D視覚的画像に変換され、従来的ビデオコーデック技術を使用して、エンコードされ得る。しかしながら、V-PCCは、ユーザが3-D場面の有限数の投影を見るのではなく、異なる視点から3-D場面を見ることを所望するユーザ体験をサポートすることができない。ボリュメトリックビデオデータのそのような視点ベースのレンダリングでは、したがって、ビットストリームレベル(例えば、実際の場面を表すビット)で、またはファイルレベル(例えば、論理的ファイルグループへのメディアデータの編成)で、またはシステムレベル(例えば、トランスポートおよびメタデータレベル)でそのような視覚的データを表す方法は、現在知られていない。そのような視覚的データを表す方法は、デコーダにおけるレンダラがビットストリームを通して解析し、ユーザのための所望の視点に基づいてメディアデータを読み出すことが可能であるような様式において、エンコーダが3-Dボリュメトリックデータを表すビットストリームを構築することを可能にする。
さらに、V-PCCトラックの現在の編成が、MIVにおいて複数のビューの使用に適応するために拡張され得る方法も、知られていない。例えば、V-PCCトラックと、3-D場面をレンダリングするための所望のビューとの間でマッピングする方法は、知られていない。例えば、MIV実装が、ビットストリーム内でエンコードされ得る10または40またはさらに100の異なるビューを使用し得る。デコーダまたはレンダラがビットストリームのシステム層を解析し、所望のビデオまたは画像トラックの位置を特定し、視認者の所望の位置または視点のためのビューをレンダリングすることが可能であるように、トラック構造を使用して異なるビューをシグナリングする方法は、現在知られていない。
種々の実施形態は、上記問題、および他の問題を解決するために、本書で開示される。例えば、本書全体を通してさらに説明されるように、解決策は、本書にさらに説明されるように、ビューグループ内の複数のビューをエンコードおよびデコードすること、およびアトラスに関する1つ以上のサブストリームを使用することを可能にするために提供される。
(3.1グループベースのレンダラ)
グループベースのレンダラは、別個に、各アトラスグループ内のローカルパッチからレンダリングすることが可能である。レンダラのプロセスは、グループ選択段階(各々が異なるアトラスの組を用いてシンセサイザを起動し、合成された中間ビューを出力する複数のパス)と、全ての中間合成されたビューを最終所望のビューポート(例えば、所望の視認位置および向きにおいて、透視ビューポートまたは全方向性ビューを示す標的ビュー)に組み合わせるためのマージ段階とから構成される。
(3.2複数のアトラスを伴うV-PCCデータの搬送)
意図される用途、入力データフォーマット、レンダリングにおける差異にもかかわらず、ビデオベースの点群圧縮(V-PCC)とMPEG没入型ビデオ(MIV)とは、エンコードされたドメイン内の情報を表すために、同じコアツール(すなわち、3D空間データの2Dパッチマップへの分割、および2Dアトラスフレームとしてエンコードされる)を共有する。したがって、V-PCCエレメンタリビットストリームは、MIVコンテンツを搬送するための2つ以上のアトラスを含み得る。
6DOF環境においてISO/IEC23090-12に定義された、MPEG没入型のビデオとして圧縮される、ボリュメトリック視覚的メディアの効率的アクセス、送達、およびレンダリングをサポートするために、複数のアトラスを伴うV-PCCビットストリームの記憶フォーマットを規定する必要がある。
(3.3 例示的ファイルフォーマット)
一般に、本開示技法に基づく実施形態が、ビデオデータ処理のために使用され得る。いくつかの実施形態において、全方向性ビデオデータが、ISO(国際標準化機構)基本メディアファイルフォーマットに基づいて、ファイル内に記憶される。それらのうち、制限付きスキーム情報ボックス、トラック参照ボックス、およびトラックグループボックス等のISO基本メディアファイルフォーマットは、動作するためのISO/IEC JTC1/SC29/WG11動画専門家集団(MPEG)MPEG-4. Part 12 ISO基本メディアファイルフォーマットを指し得る。
ISO基本ファイルフォーマットにおける全てのデータが、ボックス内にインストールされる。MP4ファイルによって表されるISO基本ファイルフォーマットは、いくつかのボックスから成り、それらの各々が、タイプと、長さとを有し、データオブジェクトとして見なされ得る。ボックスは、コンテナボックスと呼ばれる、別のボックスを含むことができる。MP4ファイルは、最初、ファイルフォーマットのマークアップとして、1つのみの「ftyp」タイプのボックスを有し、そのファイルについてのある情報を含むであろう。1つのみの「MOOV」タイプのボックス(ムービーボックス)が、存在し、それは、そのサブボックスがそのメディアに関するメタデータ情報を含むコンテナボックスであろう。MP4ファイルのメディアデータは、「mdat」タイプのメディアボックス(メディアデータボックス)内に含まれ、それも、コンテナボックスでもあり、それは、(メディアデータが他のファイルを参照するときに)利用可能であることも、そうでないこともあり、メディアデータの構造は、メタデータから成る。
時間指定メタデータトラックは、ISO基本メディアファイルフォーマット(ISOBMFF)内の機構であり、機構は、特定のサンプルに関連付けられた時間指定メタデータを確立する。時間指定メタデータは、メディアデータとの結合が少なく、通常、「説明的」である。
各ボリュメトリック視覚的場面は、独特のボリュメトリック視覚的トラックによって表され得る。ISOBMFFファイルが、複数の場面を含み得、したがって、複数のボリュメトリック視覚的トラックが、ファイル内に存在し得る。
すでに説明されたように、本書では、いくつかの技術的解決策が、MP4またはISOBMFFフォーマット等の従来的な2Dビデオフォーマットと適合性があるフォーマットの中への点群データの3Dまたは空間領域の表現(MPEGのV-PCCデータ等)を可能にするために提供される。本提案解決策の1つの有利な側面は、新しい機能性の実装のために、従来的な2Dビデオ技法および構文を再利用することが可能であることである。
(4.解決策1)
いくつかの実施形態において、ビューグループ情報構造と呼ばれる新しい構文構造が、エンコーダによって、ビットストリームにエンコードされ、対応して、2D場面の所望のビューをディスプレイにレンダリングするためのデコーダによって、デコードされ得る。構文構造および関連付けられるエンコーディングおよびデコーディング技法のいくつかの例示的実装が、本明細書に説明される。
(4.1 例示的実施形態1)
(例示的ビューグループ情報構造)
(定義)
ViewGroupInfoStructは、エンコーディング段階において捕捉および処理されるMIVコンテンツ等のボリュメトリック視覚的メディアのビューグループ情報を提供し、ビューグループ情報は、少なくとも以下を含む:ビューグループ識別子、ビューグループ記述、ビューの数、ビュー識別子、および各ビューのためのカメラパラメータ。
(構文)
aligned(8) class ViewGroupInfoStruct(camera_parameters_included_flag) {
unsigned int(16) view_group_id;
String view_group_description;
unsigned int(8) num_views;
for (i=0; i < num_views; i++) {
unsigned int(16) view_id;
unsigned int(1) basic_view_flag;
if (camera_parameters_included_flag) {
CameraParametersStruct();


(意味論)
view_group_idは、ビューグループのための識別子を提供する。
view_group_descritptionは、ビューグループのテキスト記述を提供する、ヌル終端されたUTF-8ストリングである。
num_viewsは、ビューグループ内のビューの数を規定する。
view_idは、ビューグループ内の所与のビューのための識別子を提供する。
1に等しいbasic_view_flagは、関連付けられたビューが、基本ビューとして選択されることを規定する。0に等しいbasic_view_flagは、関連付けられたビューが、基本ビューとして選択されないことを規定する。
1に等しいcamera_parameters_included_flagは、CameraParametersStructが、存在することを示す。0に等しいcamera_parameters_included_flagは、CameraParametersStructが、存在しないことを示す。
(カメラパラメータ構造)
(定義)
CameraParametersStructは、実または仮想カメラ位置と、向き情報とを提供し、それらは、所望の視認位置および向きにおいて、透視または全方向性ビューのいずれかとして、V-PCCまたはMIVコンテンツをレンダリングするために使用され得る。
デコーディング段階において、グループベースのレンダラは、合成されている所望の姿勢へのビューグループ距離を計算するために、この情報を使用することができる。ビュー加重シンセサイザは、ビュー位置と標的ビューポート位置との間の距離を計算するために、この情報を使用することができる。
(構文)
aligned(8) class CameraParametersStruct() {
unsigned int(10) camera_id;
unsigned_int(1) camera_pos_present;
unsigned int(1) camera_ori_present;
unsigned int(1) camera_fov_present;
unsigned int(1) camera_depth_present;
if (camera_pos_present){
signed int(32) camera_pos_x;
signed int(32) camera_pos_y;
signed int(32) camera_pos_z;

if (camera_ori_present){
signed int(32) camera_quat_x;
signed int(32) camera_quat_y;
signed int(32) camera_quat_z;

if (camera_fov_present){
unsigned int(32) camera_hor_range;
unsigned int(32) camera_ver_range;

if (camera_depth_present){
unsigned int(32) camera_near_depth;
unsigned int(32) camera_far_depth;

camera_idは、所与の実または仮想カメラのための識別子を提供する。
1に等しいcamera_pos_presentは、カメラ位置パラメータが、存在することを示す。0に等しいcamera_pos_presentは、カメラ位置パラメータが、存在しないことを示す。
1に等しいcamera_ori_presentは、カメラ向きパラメータが、存在することを示す。0に等しいcamera_ori_presentは、カメラ向きパラメータは、存在しないことを示す。
1に等しいcamera_fov_presentは、カメラfield-of-viewパラメータが、存在することを示す。0に等しいcamera_fov_presentは、カメラfield-of-viewパラメータが、存在しないことを示す。
1に等しいcamera_depth_presentは、カメラ深度パラメータが、存在することを示す。0に等しいcamera_depth_presentは、カメラ深度パラメータが、存在しないことを示す。
camera_pos_x、camera_pos_y、およびcamera_pos_zの各々は、グローバル参照座標系において、カメラ位置のX、Y、およびZ座標をメートルで示す。値は、2-16メートルを単位とするものとする。
camera_quat_x、camera_quat_y、およびcamera_quat_zは、それぞれ、四元数表現を使用して、カメラの向きのx、y、およびz成分を示す。値は、-1~1を含む範囲内の浮動小数点値であるものとする。これらの値は、四元数表現を使用して、カメラのグローバル座標軸をローカル座標軸に変換するために適用される回転のためのX、Y、およびZ成分、すなわち、qX、qYおよびqZを規定する。四元数qWの第4の成分は、以下のように計算される。
qW=sqrt(1-(qX+qY+qZ))
点(w,x,y,z)は、角度2cos^{-1}(w)=2sin^{-1}(sqrt(x^{2}+y^{2}+z^{2}))によって、ベクトル(x,y,z)によって方向づけられる軸まわりの回転を表す。
camera_hor_rangeは、ラジアンの単位で、カメラに関連付けられた視錐台の水平視野を示す。値は、0~2πの範囲内にあるものとする。
camera_ver_rangeは、ラジアンの単位で、カメラに関連付けられた視錐台の垂直視野を示す。値は、πの範囲内にあるものとする。
camera_near_depthおよびcamera_far_depthは、カメラに関連付けられた視錐台の近および遠平面に基づいて、近および遠深度(または距離)を示す。値は、2-16メートルを単位とするものとする。
(V-PCCパラメータトラックの例)
(V-PCCパラメータトラックサンプルエントリ)
サンプルエントリタイプ:「vpcp」
コンテナ: SampleDescriptionBox
必須: はい
数量: 1つ以上のサンプルエントリが、存在し得る
V-PCCパラメータトラックは、「vpcp」のサンプルエントリタイプを用いてVolumetricVisualSampleEntryを拡張するVPCCParametersSampleEntryを使用するものとする。
VPCCパラメータトラックサンプルエントリが、VPCCConfigurationBoxと、VPCCUnitHeaderBoxとを含むものとする。
(構文)
class VPCCConfigurationBox extends Box(’vpcC’) {
VPCCDecoderConfigurationRecord() VPCCConfig;

aligned(8) class VPCCParametersSampleEntry() extends VolumetricVisualSampleEntry (’vpcp’) {
VPCCConfigurationBox config;
VPCCUnitHeaderBox unit_header;
(意味論)
VPCCConfigurationBoxは、multi-atlas V-PCCビットストリームのV-PCCパラメータ組、すなわち、VPCC_VPSに等しいvuh_unit_typeを伴うV-PCCユニットを含むものとする。
VPCCConfigurationBoxは、存在するとき、限定ではないが、NAL_ASPS、NAL_AAPS、NAL_PREFIX_SEI、またはNAL_SUFFIX_SEI NALユニット、およびEOBおよびEOS NALユニットを含む、multi-atlas V-PCCデータの全てのV-PCCトラックに関して共通の非ACL NALユニットのみを含むものとする。
VPCCConfigurationBoxは、異なるV-PCCトラックグループに関してNAL_AAPSアトラスNALユニットの異なる値を含み得る。
(V-PCCトラックグループ化)
MIVのグループベースのエンコーダは、ソースビューを複数のグループに分割することができ、各グループに含まれるべきビューのリストを出力するように、事前設定としてグループの数とともに、ソースカメラパラメータを入力としてとる。
グループ化は、アトラスにおける重要な領域(例えば、フォアグラウンドオブジェクトまたはオクルードされる領域に属する)のローカルコヒーレント投影を出力することをアトラスコンストラクタに強い、それは、特に、自然コンテンツのための主観的および客観的結果または高いビットレートレベルにおける改良につながる。
図1は、アトラス生成のためのグループベースのエンコーディングのプロセスフローの例を描写する。
図1に示されるように、グループのエンコーディング段階において、各単一グループエンコーダは、それ自体のインデックス付きアトラスまたはビューを用いて、メタデータを生産する。独特のグループIDが、グループ毎に割り当てられ、関連グループのアトラスパラメータに添えられる。レンダラが、メタデータを適切に解釈し、パッチを全てのビューにわたって正しくマップすることを可能にするために、マージャが、パッチ毎にアトラスおよびビューIDを付け直し、プルーニンググラフをマージする。各基本ビューは、単一の完全に占有されるパッチ(アトラスサイズが基本ビューサイズに等しいか、またはそれより大きいと仮定する)、または(そうでなければ)複数のアトラスの中へのアトラスで搬送される。追加のビューは、複数のパッチに絞り込まれ、複数のパッチは、アトラスがより大きいサイズである場合に同じアトラス内で基本ビューのパッチとともに搬送され得るか、または、別個のアトラスで搬送され得る。
図1に示されるように、アトラスコンストラクタによって同じビューグループから発生される全てのアトラスは、アトラスグループとして、一緒にグループ化されるべきである。グループベースのレンダリングに関して、デコーダは、標的ビューレンダリングのためにボリュメトリック視覚的データの1つ以上のビュー(例えば、MIVコンテンツ)が選択された1つ以上のビューグループに対応する1つ以上のアトラスグループ内のパッチをデコードする必要がある。
デコーダは、例示的ビューグループ情報構造において説明されるように、1つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの1つ以上のビューを選択し得、各ビューグループ情報は、1つ以上のビューを記述し、各ビューグループ情報は、1つ以上のビューのためのカメラパラメータを含む。
図2は、アトラスグループを伴うV-PCCビットストリームのマルチトラックカプセル化の例を示す。
図2に示されるように、アトラスグループのデコーディング前、ファイル解析器が、ビットストリームのファイルストレージ内のボリュメトリック視覚的パラメータトラックの構文要素(例えば、V-PCCパラメータトラックのVPCCViewGroupsBox)に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループ(例えば、V-PCCトラックグループ)を決定し、カプセル化解除する必要があり、ボリュメトリック視覚的トラックのグループおよびボリュメトリック視覚的パラメータトラックが、アトラスグループのための全てのアトラスデータを搬送する。
ファイル解析器が、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することができる。V-PCCパラメータトラックの場合、サンプルエントリタイプ「vpcp」は、V-PCCパラメータトラックを識別するために使用されるべきであり、V-PCCパラメータトラックは、特定のトラック参照を用いて、一定パラメータ組と、全ての参照されるV-PCCトラックに関する共通アトラスデータとを規定する。
複数のアトラスを伴うV-PCCビットストリームの記憶に関して、同じアトラスグループからの全てのアトラスに対応する全てのV-PCCトラックは、トラックグループのタイプ「vptg」によって示されるべきである。
(定義)
「vptg」に等しいtrack_group_typeを伴うTrackGroupTypeBoxは、このV-PCCトラックが、アトラスグループに対応するV-PCCトラックのグループに属することを示す。
同じアトラスグループに属するV-PCCトラックは、track_group_type「vptg」に関するtrack_group_idと同じ値を有し、1つのアトラスグループからのトラックのtrack_group_idは、任意の他のアトラスグループからのトラックのtrack_group_idと異なる。
(構文)
aligned(8) class VPCCTrackGroupBox extends trackGroupTypeBox(’vptg’){
(意味論)
「vptg」に等しいtrack_group_typeを伴うTrackGroupTypeBox内のtrack_group_idの同じ値を有するV-PCCトラックは、同じアトラスグループに属する。「vptg」に等しいtrack_group_typeを伴うTrackGroupTypeBox内のtrack_group_idは、したがって、アトラスグループの識別子として使用される。
(静的ビューグループ情報ボックス)
(定義)
MIVコンテンツ等のボリュメトリック視覚的メディアに関する静的ビューグループおよびそれらのそれぞれの関連付けられたV-PCCトラックグループは、VPCCViewGroupsBoxにおいてシグナリングされるものとする。
(構文)
ボックスタイプ:「vpvg」
コンテナ:VPCCParametersSampleEntry(「vpcp」)
必須:いいえ
数量: ゼロまたは1
aligned(8) class VPCCViewGroupsBox extends FullBox(’vpvg’,0,0) {
unsigned int(16) num_view_groups;
for (i=0; i < num_view_groups; i++) {
ViewGroupInfoStruct(1);
unsigned int(32) vpcc_track_group_id;

(意味論)
num_view_groupsは、MIVコンテンツのためのビューグループの数を示す。
vpcc_track_group_idは、MIVコンテンツ等のボリュメトリック視覚的メディアの関連付けられたビューグループのための全てのアトラスデータを搬送するV-PCCトラックのためのグループを識別する。
(動的ビューグループ情報)
V-PCCパラメータトラックが、サンプルエントリタイプ「dyvg」を伴う関連付けられた時間指定メタデータトラックを有する場合、V-PCCパラメータトラックによって搬送されるMIVストリームに関して定義されたソースビューグループは、動的ビューグループと見なされる(すなわち、ビューグループ情報は、経時的に動的に変化し得る)。
関連付けられた時間指定メタデータトラックは、アトラスストリームを搬送するV-PCCパラメータトラックへの「cdsc」トラック参照を含むものとする。
サンプルエントリ
aligned(8) class DynamicViewGroupSampleEntry extends MetaDataSampleEntry(’dyvg’) {
VPCCViewGroupsBox();
(サンプルフォーマット)
(構文)
aligned(8) DynamicViewGroupSample() {
unsigned int(16) num_view_groups;
for (i=0; i < num_view_groups; i++) {
ViewGroupInfoStruct(camera_parameters_included_flag);

(意味論)
num_view_groupsは、サンプル内でシグナリングされているビューグループの数を示す。これは、必ずしも、利用可能なビューグループの総数に等しいとは限らない。ソースビューが更新されているビューグループのみが、サンプル内に存在する。
ViewGroupInfoStruct()は、実施形態1の前節に定義される。camera_parameters_included_flagが、0に設定される場合、それは、ビューグループのカメラパラメータが、同じview_group_idを伴うViewGroupInfoStructの前のインスタンスにおいて、前のサンプル内またはサンプルエントリ内のいずれかで、以前にシグナリングされていることを暗に示す。
(4.2 例示的実施形態2)
(MPEG-DASHにおけるカプセル化およびシグナリング)
各V-PCCコンポーネントトラックは、別個のV-PCCコンポーネントAdaptationSetとして、DASHマニフェスト(MPD)ファイルにおいて表されるものとする。各V-PCCトラックは、別個のV-PCCアトラスAdaptationSetとして表されるものとする。共通アトラス情報に関する追加のAdaptationSetが、V-PCCコンテンツのためのメインAdaptationSetとしての役割を果たす。V-PCCコンポーネントが、複数の層を有する場合、各層は、別個のAdapatationセットを使用して、シグナリングされ得る。
メインAdaptationSetは、「vpcp」に設定される@codecs属性を有するものとし、アトラスAdaptationSetは、「vpc1」に設定される@codecs属性を有するものとする一方、V-PCCコンポーネントAdaptationSetに関する@codecs属性、または@codecsが、AdaptationSet要素に関してシグナリングされない場合、Representationは、コンポーネントをエンコードするために使用されるそれぞれのコーデックに基づいて、設定される。
メインAdaptationSetは、適合組レベルにおいて、単一初期化セグメントを含むものとする。
初期化セグメントは、V-PCCデコーダを初期化するために必要とされる全てのV-PCCトラックに関して共通の全てのシーケンスパラメータ組および非ACL NALユニットを含むものとし、それらは、マルチアトラス V-PCCビットストリームのV-PCCパラメータ組、およびNAL_ASPS、NAL_AAPS、NAL_PREFIX_SEI、またはNAL_SUFFIX_SEINALユニット、および、EOBおよびEOSNALユニット(存在するとき)を含む。
アトラスAdaptationSetは、適合組レベルにおいて、単一初期化セグメントを含むものとする。初期化セグメントは、V-PCCトラックをデコードするために必要とされる全てのシーケンスパラメータ組(V-PCCアトラスシーケンスパラメータ組、およびコンポーネントサブストリームのための他のパラメータ組を含む)を含むものとする。
メインAdaptationSetのRepresentationに関するメディアセグメントは、V-PCCパラメータトラックの1つ以上のトラックフラグメントを含むものとする。アトラスAdaptationSetのRepresentationに関するメディアセグメントは、V-PCCトラックの1つ以上のトラックフラグメントを含むものとする。コンポーネントAdaptationSetのRepresentationに関するメディアセグメントは、ファイルフォーマットレベルにおいて、対応するコンポーネントトラックの1つ以上のトラックフラグメントを含むものとする。
(V-PCC事前選択)
V-PCC事前選択が、MPEG-DASH(ISO/IEC23009-1)において定義されるようなPreSelection要素を使用して、MPDにおいてシグナリングされ、@preselectionComponents属性に関するidリストは、
点群に関するメインAdaptationSetのidと、それに続くアトラスAdaptationSetのidおよび点群コンポーネントに対応するAdaptationSetのidとを含む。PreSelectionに関する@codecs属性は、PreSelectionメディアが、ビデオベースの点群であることを示す「vpcp」に設定されるものとする。PreSelectionは、Period要素内のPreSelection要素または適合組レベルにおける事前選択記述子のいずれかを使用して、シグナリングされ得る。
(V-PCC記述子)
「urn:mpeg:mpegI:vpcc:2019:vpc」に等しい@schemeIdUri属性を伴うEssentialProperty要素が、VPCC記述子と称される。最大で1つのVPCC記述子が、点群のメインAdaptationSetに関する適合組レベルにおいて、存在し得る。
(VPCCViewGroups記述子)
V-PCCコンテンツに関するメインAdaptationSetにおける静的ビューグループと、それらのそれぞれの関連付けられたV-PCCトラックグループとを識別するために、VPCCViewGroups記述子が、使用されるものとする。VPCCViewGroupsが、「urn:mpeg:mpegI:vpcc:2020:vpvg」に等しい@schemeIdUri属性を伴うEssentialPropertyまたはSupplementalProperty記述子である。
最大で1つの単一VPCCViewGroups記述子が、AdaptationSetレベルまたはメインAdaptationSetにおける表現レベルにおいて、または点群コンテンツに関する事前選択レベルにおいて、存在するものとする。
VPCCViewGroups記述子の@value属性は、存在しないものとする。VPCCViewGroups記述子は、表2に規定されるように、要素および属性を含むものとする。
(動的ビューグループ)
ビューグループが、動的であるとき、プレゼンテーションタイムラインにおける各ビューグループのビュー情報をシグナリングするための時間指定メタデータトラックが、単一表現を用いて別個のAdaptationSet内で搬送され、ISO/IEC23009-1[MPEG-DASH]に定義される@associationId属性を使用して、対応するAdaptationSetまたはRepresentationのための4CC「vpcm」を含む@associationType値を用いて、メインV-PCCトラックに関連付けられる(リンクされる)ものとする。
(5.解決策2)
(5.1 例示的実施形態3)
(例示的ビュー情報構造)
(定義)
ViewInfoStructは、エンコーディング段階において捕捉および処理されるMIVコンテンツのビュー情報を提供し、ビュー情報は、少なくともビュー識別子、それが属するビューグループの識別子、ビュー説明、およびビューのカメラパラメータを含む。
(構文)
aligned(8) class ViewInfoStruct(camera_parameters_included_flag) {
unsigned int(16) view_id;
unsigned int(16) view_group_id;
String view_description;
unsigned int(1) basic_view_flag;
if (camera_parameters_included_flag) {
CameraParametersStruct();

(意味論)
view_idは、ビューのための識別子を提供する。
view_group_idは、それが属するビューグループのための識別子を提供する。
view_descritptionは、ビューのテキスト記述を提供するヌル終端されたUTF-8ストリングである。
1に等しいbasic_view_flagは、関連付けられたビューが、基本ビューとして選択されることを規定する。0に等しいbasic_view_flagは、関連付けられたビューが、基本ビューとして選択されないことを規定する。
1に等しいcamera_parameters_included_flagは、CameraParametersStructが、存在することを示す。0に等しいcamera_parameters_included_flagは、CameraParametersStructが、存在しないことを示す。
CameraParametersStruct()は、実施形態1の前節に定義される。
(静的ビュー情報ボックス)
図3は、複数のアトラスを伴うV-PCCビットストリームのマルチトラックカプセル化の例を示す。
標的ビューレンダリングのために、デコーダは、標的ビューレンダリングのために選択されているボリュメトリック視覚的データ(例えば、MIVコンテンツ)の1つ以上のビューに対応する1つ以上のアトラス内のパッチをデコードする必要がある。
デコーダは、例示的ビュー情報構造において説明されるように、1つ以上のビューのためのビュー情報に基づいて、標的ビューに関するボリュメトリック視覚的データの1つ以上のビューを選択し得、各ビュー情報は、対応するビューのカメラパラメータを説明する。
図3に示されるように、1つ以上のアトラスのデコーディング前、ファイル解析器が、ビットストリームのファイルストレージ内のボリュメトリック視覚的パラメータトラックの構文要素(例えば、V-PCCパラメータトラックのVPCCViewsBox)に基づいて、1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラック(例えば、V-PCCトラック)を決定およびカプセル化解除する必要があり、1つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、アトラスに関する全てのアトラスデータを搬送する。
ファイル解析器が、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することができる。V-PCCパラメータトラックの場合、サンプルエントリタイプ「vpcp」は、特定のトラック参照を伴う全ての参照されるV-PCCトラックのために、一定パラメータ組および共通アトラスデータを規定する、V-PCCパラメータトラックおよびV-PCCパラメータトラックを識別するために使用されるべきである。
(定義)
MIVコンテンツおよびそれらのそれぞれの関連付けられたアトラスのソースビューは、VPCCViewsBoxにおいてシグナリングされるものとする。
(構文)
ボックスタイプ:「vpvw」
コンテナ:VPCCParametersSampleEntry(’vpcp’)
必須:いいえ
数量: ゼロまたは1
aligned(8) class VPCCViewsBox extends FullBox(’vpvw’,0,0) {
unsigned int(16) num_views;
for (i=0; i < num_views; i++) {
ViewInfoStruct(1);
unsigned int(8) num_vpcc_tracks;
for (j=0; j < num_vpcc_tracks; j++) {
unsigned int(32) vpcc_track_id;


(意味論)
num_viewsは、MIVコンテンツにおけるソースビューの数を示す。
num_vpcc_tracksは、ソースビューに関連付けられるたV-PCCトラックの数を示す。
vpcc_track_idは、関連付けられたソースビューに関するアトラスデータを搬送するV-PCCトラックを識別する。
(動的ビュー情報)
V-PCCパラメータトラックがサンプルエントリタイプ「dyvw」に関連付けられた時間指定メタデータトラックを有する場合、V-PCCパラメータトラックによって搬送されるMIVストリームに関して定義されるソースビューは、動的ビュー(すなわち、ビュー情報は、経時的に動的に変化し得る)と見なされる。
関連付けられた時間指定メタデータトラックは、アトラスストリームを搬送するV-PCCパラメータトラックへの「cdsc」トラック参照を含むものとする。
(サンプルエントリ)
aligned(8) class DynamicViewSampleEntry extends MetaDataSampleEntry(’dyvw’) {
VPCCViewsBox();
(サンプルフォーマット)
(構文)
aligned(8) DynamicViewSample() {
unsigned int(16) num_views;
for (i=0; i < num_views; i++)
ViewInfoStruct(camera_parameters_included_flag);

(意味論)
num_viewsは、サンプル内でシグナリングされるビューの数を示す。これは、必ずしも、利用可能なビューの総数に等しいとは限らないこともある。ビュー情報が更新されているビューのみが、サンプル内に存在する。
ViewInfoStruct()は、実施形態2の前節に定義される。camera_parameters_included_flagが0に設定される場合、これは、ビューのカメラパラメータが、前のサンプルまたはサンプルエントリ内のいずれかで、同じview_idを伴うViewInfoStructの前のインスタンスで以前にシグナリングされていることを暗に示す。
(5.2 例示的実施形態4)
(MPEG-DASHにおけるカプセル化およびシグナリングの例)
(V-PCC記述子)
「urn:mpeg:mpegI:vpcc:2019:vpc」に等しい@schemeIdUri属性を伴うEssentialProperty要素が、VPCC記述子と称される。最大で1つのVPCC記述子が、点群のメインAdaptationSetに関する適合組レベルにおいて、存在し得る。
(VPCCViews記述子)
V-PCCコンテンツおよびそれらのそれぞれの関連付けられたV-PCCトラックに関するメインAdaptationSetにおいて静的ビューを識別するために、VPCCViews記述子が使用されるものとする。VPCCViewsが、「urn:mpeg:mpegI:vpcc:2020:vpvw」に等しい@schemeIdUri属性を伴うEssentialPropertyまたはSupplementalProperty記述子である。
最大で1つの単一VPCCViews記述子が、メインAdaptationSetにおけるAdaptationSetレベルまたは表現レベルにおいて、または点群コンテンツに関する事前選択レベルにおいて、存在するものとする。
VPCCViews記述子の@value属性は、存在しないものとする。VPCCViews記述子が、表4に規定されるように、要素および属性を含むものとする。
(動的ビュー)
ビューが、動的であるとき、プレゼンテーションタイムラインにおける各ビュー情報をシグナリングするための時間指定メタデータトラックが、単一表現を用いて別個のAdaptationSet内で搬送され、ISO/IEC23009-1[MPEG-DASH]に定義される@associationId属性を使用して、対応するAdaptationSetまたはRepresentationのための4CC「vpcm」を含む@associationType値を用いて、メインV-PCCトラックに関連付けられる(リンクされる)ものとする。
図4は、ボリュメトリック視覚的メディアデータの処理の例示的方法400に関するフローチャートである。本書全体を通して議論されるように、いくつかの実施形態において、ボリュメトリック視覚的メディアデータは、点群データを含み得る。いくつかの実施形態において、ボリュメトリック視覚的メディアデータは、3-Dオブジェクトを表し得る。3-Dオブジェクトは、2-D表面に投影され、ビデオフレームの中に配置され得る。いくつかの実施形態において、ボリュメトリック視覚的データは、マルチビュービデオデータ等を表し得る。
方法400は、本書にさらに説明されるように、エンコーダ装置によって、実装され得る。方法400は、402において、エンコーダによって、1つ以上のアトラスサブビットストリームと、1つ以上のエンコードされたビデオサブビットストリームとを使用して表すことによって、3次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することを含む。方法400は、404において、ビットストリームに、所望の視認位置および/または所望の視認向きに基づく3次元場面の標的ビューのレンダリングを可能にする情報を追加することを含む。
いくつかの実施形態において、生成すること(402)は、エンコーダによって、ボリュメトリック視覚的データの1つ以上のビューが標的ビューのレンダリングのために選択可能であるビューグループに対応するアトラスグループをエンコードすることを含み得る。例えば、アトラスグループは、ビットストリーム内のアトラスサブビットストリームのグループであるアトラスのグループを指し得る。
いくつかの実施形態において、生成すること(402)は、ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含む。いくつかの実施形態において、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループは、(対応するアトラスサブビットストリームを使用して)アトラスグループのための全てのアトラスデータを搬送するように構築され得る。いくつかの例では、構文要素は、ビューグループ情報ボックス(静的または動的)を使用して、実装され得る。例えば、第4.1節、または第5.1節において説明されるような静的ビューグループは、そのような実施形態のために使用され得る。
いくつかの実施形態において、生成すること(402)は、アトラスグループをエンコードするために、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化することを含む。ここでは、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループは、アトラスグループのための全てのアトラスデータを搬送し得る。特定のトラック参照は、さらに本明細書に説明されるように、解析/レンダリング動作中、デコーダによって、使用され得る。この生成動作は、本書(例えば、第4.1節または第5.1節)に説明される動的ビューグループを使用し得る。
いくつかの実施形態において、方法400は、ビットストリームに、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別する情報を追加することであって、ボリュメトリック視覚的トラックのグループにおけるボリュメトリック視覚的トラックの各々は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をさらに含む、ことを含む。
いくつかの実施形態において、方法400は、エンコーダによって、1つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの1つ以上のビューをエンコードすることであって、各ビューグループ情報は、1つ以上のビューを記述する、ことをさらに含む。いくつかの実施形態において、各ビューグループ情報は、1つ以上のビューのためのカメラパラメータをさらに含む。
いくつかの実施形態において、方法400は、エンコーダによって、標的ビューのために選択されたボリュメトリック視覚的データの1つ以上のビューに対応する1つ以上のアトラスをエンコードすることをさらに含む。
いくつかの実施形態において、1つ以上のアトラスサブビットストリームからの情報は、ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素(例えば、ビュー情報ボックス構文構造-静的または動的)に基づいて、1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、1つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、1つ以上のアトラスのための全てのアトラスデータを搬送する。
いくつかの実施形態において、1つ以上のアトラスサブビットストリームからの情報は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素(例えば、ビュー情報ボックス構文構造-静的または動的)に基づいて、1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化することによってエンコードされ、1つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、1つ以上のアトラスのための全てのアトラスデータを搬送する。
いくつかの実施形態において、方法400は、1つ以上のビューのためのビュー情報に基づいて、標的ビューのレンダリングのためのボリュメトリック視覚的データの1つ以上のビューを識別する、ビットストリーム情報に追加することを含み、各ビュー情報は、対応するビューのカメラパラメータを記述する。
いくつかの実施形態において、方法400は、ビットストリームに、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別するための情報を含むことを含み、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う1つ以上のボリュメトリック視覚的トラックに対応し、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う全ての参照ボリュメトリック視覚的トラックに関する一定パラメータ組および共通アトラスデータを規定する。
いくつかの実施形態において、方法400は、ビットストリームに、標的ビューレンダリングのために選択されたボリュメトリック視覚的データの1つ以上のビューが動的であることを示す特定のサンプルエントリタイプに従って、時間指定メタデータトラックを識別するための情報を追加することを含む。
エンコードされたビデオサブストリームは、幾何学形状データのための1つ以上のビデオコード化エレメンタリストリームと、占有率マップデータのためのゼロまたは1つのビデオコード化エレメンタリストリームと、属性データのためのゼロ以上のビデオコード化エレメンタリストリームとを含み、幾何学形状データ、占有率マップデータ、および属性データは、3次元場面を記述している。
図5は、ボリュメトリック視覚的メディアデータの処理の例示的方法500に関するフローチャートである。方法500は、デコーダによって、実装され得る。方法500において構文要素を説明することにおいて使用される種々の用語は、エンコーダ側方法400を説明する構文要素のために、上記で使用される用語に類似する。
方法500は、502において、デコーダによって、1つ以上のアトラスサブビットストリームおよび1つ以上のエンコードされたビデオサブビットストリームとして表された3次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることを含む。方法500は、504において、1つ以上のアトラスサブビットストリームをデコードした結果と、1つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、3次元場面を再構築することを含む。
方法500は、506において、所望の視認位置および/または所望の視認向きに基づいて、3次元場面の標的ビューをレンダリングすることを含む。いくつかの実施形態において、デコードおよび再構築することは、第1のハードウェアプラットフォームによって実施され得る一方、レンダリングすることは、ハードウェアプラットフォームをデコードすることと連動する別のハードウェアプラットフォームによって実施され得る。換言すると、第1のハードウェアプラットフォームは、3次元場面の再構築の方法を実装するように、上記で説明されるように、ステップ502および504のみを実施し得る。いくつかの実施形態において、デコーダは、x-y-zまたは極座標系における視認者の所望の視認位置または所望の視認向きを受信し得る。この情報から、デコーダは、標的ビューを生成するために使用されるビューグループに対応するアトラスのデコードされたサブビットストリームを使用して、ビデオ情報を含むデコードされたサブビットストリームから、視認者の位置/向きと整列させられた標的ビューを作成し得る。
いくつかの実施形態において、再構築することは、デコーダによって、ボリュメトリック視覚的データの1つ以上のビューが標的ビューのレンダリングのために選択されたビューグループに対応するアトラスグループをデコードすることを含む。
いくつかの実施形態において、デコードすることは、アトラスグループをデコードする前、ファイル解析器によって、ビットストリームのファイルストレージにおけるボリュメトリック視覚的パラメータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループが、アトラスグループのための全てのアトラスデータを搬送する。
いくつかの実施形態において、デコードすることは、アトラスグループのデコーディング前、ファイル解析器によって、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、アトラスグループに対応するボリュメトリック視覚的トラックのグループをカプセル化解除することを含み、ボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックのグループが、アトラスグループのための全てのアトラスデータを搬送する。例えば、本書に説明される動的ビューグループ構造は、この動作中、使用され得る。
いくつかの実施形態において、方法500は、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別することをさらに含み、ボリュメトリック視覚的トラックのグループにおけるボリュメトリック視覚的トラックの各々は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む。
いくつかの実施形態において、方法500は、デコーダによって、1つ以上のビューグループ情報に基づいて、標的ビューに関するボリュメトリック視覚的データの1つ以上のビューを選択することをさらに含み、各ビューグループ情報は、1つ以上のビューを記述する。
いくつかの実施形態において、各ビューグループ情報は、1つ以上のビューのためのカメラパラメータをさらに含む。
いくつかの実施形態において、方法は、デコーダによって、標的ビューのために選択されたボリュメトリック視覚的データの1つ以上のビューに対応する1つ以上のアトラスをデコードすることをさらに含む。
いくつかの実施形態において、1つ以上のアトラスサブビットストリームからの情報は、ビットストリームのファイル記憶構文構造におけるボリュメトリック視覚的パラメータトラックの構文要素(例えば、ViewInfoBox要素)に基づいて、1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、1つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、1つ以上のアトラスのための全てのアトラスデータを搬送する。
いくつかの実施形態において、1つ以上のアトラスサブビットストリームからの情報は、ボリュメトリック視覚的パラメータトラックへの特定のトラック参照をビットストリームのファイルストレージ内に含む時間指定メタデータトラックの構文要素に基づいて、1つ以上のアトラスに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、1つ以上のボリュメトリック視覚的トラックおよびボリュメトリック視覚的パラメータトラックは、1つ以上のアトラスのための全てのアトラスデータを搬送する。
いくつかの実施形態において、方法は、デコーダによって、1つ以上のビューのためのビュー情報に基づいて、標的ビューのレンダリングのためのボリュメトリック視覚的データの1つ以上のビューを選択することをさらに含み、各ビュー情報は、対応するビューのカメラパラメータを記述する。
いくつかの実施形態において、方法500は、特定のサンプルエントリタイプに従って、ボリュメトリック視覚的パラメータトラックを識別することをさらに含み、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う1つ以上のボリュメトリック視覚的トラックに対応し、ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴う全ての参照ボリュメトリック視覚的トラックに関する一定パラメータ組および共通アトラスデータを規定する。
いくつかの実施形態において、方法500は、標的ビューレンダリングのために選択されたボリュメトリック視覚的データの1つ以上のビューが動的であることを示す特定のサンプルエントリタイプに従って、時間指定メタデータトラックを識別することをさらに含む。
いくつかの実施形態において、1つ以上のエンコードされたビデオサブビットストリームは、幾何学形状データのための1つ以上のビデオコード化エレメンタリストリームと、占有率マップデータのためのゼロまたは1つのビデオコード化エレメンタリストリーム、属性データのためのゼロ以上のビデオコード化エレメンタリストリームとを含み、幾何学形状データ、占有率マップデータ、および属性データは、3次元場面を記述している。
図4-5を参照すると、いくつかの実施形態において、アトラスグループが、アトラスサブビットストリームのグループを指し得る。いくつかの実施形態において、上記の議論される方法によって使用されるボリュメトリック視覚的トラックのグループは、ボリュメトリック視覚的トラックグループを表し得る。
いくつかの実施形態において、方法400または500において、ボリュメトリック視覚的パラメータトラックの構文要素は、本書に説明されるViewGroupInfoBox構文構造であり得る。
図6は、本技術による、ボリュメトリックメディアデータのエンコーダであり得る装置600の例のブロック図である。装置600は、点群データまたはマルチビュービデオデータ、またはマルチ表面投影等の形態で、3次元場面およびボリュメトリック視覚的メディア情報を収集するように構成された入手モジュール601を含む。このモジュールは、ビデオデータをメモリからまたはカメラフレームバッファから読み取るために、入出力コントローラ回路を含み得る。このモジュールは、ボリュメトリックデータを読み取るためのプロセッサ実行可能命令を含み得る。装置600は、本明細書に説明される種々の技法(例えば、方法400)に従って、ボリュメトリック視覚的情報のエンコードされた表現であるビットストリームを発生させるように構成されたビットストリーム生成器モジュール602を含む。このモジュールは、プロセッサ実行可能ソフトウェアコードとして、実装され得る。装置600は、後続処理をビットストリーム(例えば、メタデータ挿入、暗号化等)に実施するように構成されたモジュール603も含む。さらに記憶/伝送モジュール904を含む装置は、記憶またはネットワーク伝送層コーディングのいずれかをビデオエンコードされたデータまたはメディアデータに実施するように構成される。モジュール604は、例えば、デジタル通信ネットワークを経由してデータをストリーミングする、またはビットストリームをDASH共通フォーマット内に記憶するために本書に説明されるMPEG-DASH技法を実装し得る。
上記の説明されるモジュール601-604は、適切なソフトウェアと組み合わせて処理を実施することが可能な専用ハードウェアまたはハードウェアを使用することによって、実装されることができる。そのようなハードウェアまたは特殊目的ハードウェアは、特定用途向け集積回路(ASIC)、種々の他の回路、種々のプロセッサ等を含み得る。プロセッサによって実装されると、機能性は、単一専用プロセッサ、単一共有プロセッサ、または複数の独立プロセッサによって提供され得、そのうちのいくつかは、共有され得る。加えて、プロセッサが、ソフトウェアを実行することが可能なハードウェアを指すことを理解されるべきではなく、限定ではないが、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶するための読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶デバイスを暗示的に含み得る。
図6に示されるような装置600は、携帯電話、コンピュータ、サーバ、セットトップボックス、携帯移動端末、デジタルビデオカメラ、テレビブロードキャストシステムデバイス、または同等物等のビデオアプリケーション内のデバイスであり得る。
図7は、本技術による、装置700の例のブロック図である。装置700は、ネットワークから、または記憶デバイスから読み取ることによって、ビットストリームを入手するように構成された入手モジュール701を含む。例えば、モジュール701は、本書に説明されるMPEG-DASH技法を使用して、メディアファイルコード化の解析および抽出を実装し、ボリュメトリック視覚的メディアデータを含むネットワーク伝送層データからデコーディングを実施し得る。システムおよびファイル解析器モジュール702は、種々のシステム層およびファイル層構文要素(例えば、アトラスサブビットストリーム、グループ情報等)を受信したビットストリームから抽出し得る。ビデオデコーダ703は、3次元場面に関するメディアデータまたは点群データ等のボリュメトリックメディアデータまたはマルチビュービデオデータ等を含むエンコードされたビデオサブビットストリームをデコードするように構成される。レンダラモジュール704は、ユーザインターフェース制御を介して、ユーザから受信し得る所望の視認位置または所望の視認向きに基づく、3次元場面の標的ビューベースをレンダリングするように構成される。
上記の説明されるモジュール701-704は、適切なソフトウェアと組み合わせて処理を実施することが可能な専用ハードウェアまたはハードウェアを使用することによって、実現されることができる。そのようなハードウェアまたは特殊目的ハードウェアは、特定用途向け集積回路(ASIC)、種々の他の回路、種々のプロセッサ等を含み得る。プロセッサによって実装されると、機能性は、単一専用プロセッサ、単一共有プロセッサ、または複数の独立プロセッサによって提供され得、そのうちのいくつかは、共有され得る。加えて、プロセッサが、ソフトウェアを実行することが可能なハードウェアを指すことを理解されるべきではなく、限定ではないが、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶するための読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶デバイスを暗示的に含み得る。
図7に示されるようなデバイスは、携帯電話、コンピュータ、サーバ、セットトップボックス、携帯移動端末、デジタルビデオカメラ、テレビブロードキャストシステムデバイス、または同等物等のビデオアプリケーション内のデバイスであり得る。
図8は、図6-7に説明されるエンコーダ/デコーダ実装を含む本明細書に説明される種々のエンコーディングおよび/またはデコーディング機能性を実装するためのハードウェアプラットフォームとして使用され得る装置800の例のブロック図である。装置800は、本書に説明される方法を実装するようにプログラムされるプロセッサ802を含む。装置800は、ビットストリームエンコーディングまたはデコーディング等の特定の機能を実施するための専用ハードウェア回路をさらに含み得る。装置800は、本書に説明される種々の構文要素に従ったデータを含む、プロセッサおよび/またはボリュメトリックデータおよび他のデータに関する実行可能コードを記憶するメモリも含み得る。
いくつかの実施形態において、3D点群データエンコーダが、本書に説明されるような構文および意味論を使用して、3D空間情報をエンコードすることによって、3D点群のビットストリーム表現を発生させるように、実装され得る。
ボリュメトリック視覚的メディアデータエンコーディングまたはデコーディング装置は、コンピュータ、ラップトップ、タブレット、またはゲーム用デバイス等のユーザデバイスの一部として、実装され得る。
本書に説明される開示および他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの1つ以上のものの組み合わせで、実装されることができる。開示および他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または1つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。本装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書内に記憶された1つ以上のスクリプト)の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。
本文書において説明されるプロセッサおよび論理フローは、入力データに動作し、出力を発生させることによって機能を実施する1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能プロセッサによって実施されることができる。プロセッサおよび論理フローは、特殊目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(アプリケーション特定集積回路)によって実施されることもでき、装置も、それらとして実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか1つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータは、データを記憶するための1つ以上の大容量記憶デバイス(例えば、磁気、磁気光学ディスク、または光ディスク)も含か、または、それらからデータを受信することまたはそれらにデータを転送すること、または両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。
本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。
いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。

Claims (14)

  1. ボリュメトリック視覚的データ処理の方法であって、前記方法は、
    デコーダが、1つ以上のアトラスサブビットストリームおよび1つ以上のエンコードされたビデオサブビットストリームとして表された3次元場面に関するボリュメトリック視覚的情報を含むビットストリームをデコードすることと、
    前記1つ以上のアトラスサブビットストリームをデコードした結果と、前記1つ以上のエンコードされたビデオサブビットストリームをデコードした結果とを使用して、前記3次元場面を再構築することと、
    所望の視認位置および/または所望の視認向きに基づいて、前記3次元場面の標的ビューをレンダリングすることと
    を含み、
    前記ビットストリームをデコードすることは、
    第1のサンプルエントリタイプに従って識別されたボリュメトリック視覚的パラメータトラックの第1の構文要素に基づいて、アトラスグループに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することであって、前記第1の構文要素は、前記ボリュメトリック視覚的パラメータトラックのビューグループ情報を提供し、前記アトラスグループは、同一のビューグループから生成されたすべてのアトラスを含み、前記同一のビューグループから、ボリュメトリック視覚的データの1つ以上のビューが前記標的ビューのレンダリングのために選択され、前記1つ以上のボリュメトリック視覚的トラックにおける各ボリュメトリック視覚的トラックは、第2の構文要素に関連付けられており、前記第2の構文要素は、第2のサンプルエントリタイプに関連付けられており、かつ、対応するボリュメトリック視覚的パラメータトラックのアトラスグループ情報を提供する、ことと、
    前記同一のビューグループに対応する前記アトラスグループをデコードすることと
    を含み、
    前記第1の構文要素および前記第2の構文要素は、前記ビットストリームのファイルストレージに含まれており、前記第1の構文要素および前記第2の構文要素は、それぞれ、前記第1のサンプルエントリタイプおよび前記第2のサンプルエントリタイプに関連付けられており、前記第1のサンプルエントリタイプは、前記ボリュメトリック視覚的パラメータトラックを識別し、前記第2のサンプルエントリタイプは、前記対応するボリュメト
    リック視覚的パラメータトラックが前記アトラスグループに対応する前記1つ以上のボリュメトリック視覚的トラックに属することを示す、方法。
  2. 前記アトラスグループは、前記同一のビューグループに対応し、前記同一のビューグループから、前記ボリュメトリック視覚的データの前記1つ以上のビューが前記標的ビューのレンダリングのために選択される、請求項1に記載の方法。
  3. 前記アトラスグループに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化解除することは、前記アトラスグループをデコードすることよりも前に実行され、
    ボリュメトリック視覚的トラックのグループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項1または請求項2に記載の方法。
  4. 前記方法は、特定のトラックグループタイプおよび特定のトラックグループ識別に従って、ボリュメトリック視覚的トラックのグループを識別することをさらに含み、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックのそれぞれは、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、請求項3に記載の方法。
  5. 前記方法は、
    前記デコーダが、1つ以上のビューグループ情報に基づいて、前記標的ビューに関するボリュメトリック視覚的データの前記1つ以上のビューを選択することであって、各ビューグループ情報は、1つ以上のビューを記述する、こと、または、
    前記デコーダが、前記1つ以上のビューのためのビュー情報に基づいて、前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記1つ以上のビューを選択することであって、各ビュー情報は、対応するビューのカメラパラメータを記述し、各ビューグループ情報は、前記1つ以上のビューのためのカメラパラメータをさらに含む、こと
    をさらに含む、請求項2に記載の方法。
  6. 前記1つ以上のアトラスサブビットストリームからの情報は、前記アトラスグループに対応する前記1つ以上のボリュメトリック視覚的トラックをカプセル化解除することによってデコードされ、前記1つ以上のボリュメトリック視覚的トラックおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項1または請求項5に記載の方法。
  7. 前記方法は、
    前記第2のサンプルエントリタイプに従って、時間指定メタデータトラックを識別することであって、前記第2のサンプルエントリタイプは、標的ビューレンダリングのために選択された前記ボリュメトリック視覚的データの前記1つ以上のビューが動的であることを示す、こと、または、
    前記第1のサンプルエントリタイプに従って、前記ボリュメトリック視覚的パラメータトラックを識別することであって、前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴うすべての参照ボリュメトリック視覚的トラックに関する一定のパラメータ組および共通アトラスデータを規定する、こと
    をさらに含む、請求項3または請求項6に記載の方法。
  8. ボリュメトリック視覚的データ処理の方法であって、前記方法は、
    エンコーダが、1つ以上のアトラスサブビットストリームと1つ以上のエンコードされたビデオサブビットストリームとを使用して3次元場面を表すことによって、前記3次元場面に関するボリュメトリック視覚的情報を含むビットストリームを生成することと、
    所望の視認位置および/または所望の視認向きに基づいて前記3次元場面の標的ビューのレンダリングを可能にする情報を前記ビットストリームの中に含めることと
    を含み、
    前記生成することは、
    前記エンコーダが、ビューグループに対応するアトラスグループをエンコードすることであって、前記ビューグループから、ボリュメトリック視覚的データの1つ以上のビューが前記標的ビューのレンダリングのために選択され、前記アトラスグループは、前記ビューグループから生成されたすべてのアトラスを含む、ことと、
    第1のサンプルエントリタイプに従って識別されたボリュメトリック視覚的パラメータトラックの第1の構文要素に基づいて、前記アトラスグループに対応する1つ以上のボリュメトリック視覚的トラックをカプセル化することと
    を含み、
    前記1つ以上のボリュメトリック視覚的トラックにおける各ボリュメトリック視覚的トラックは、第2の構文要素に関連付けられており、前記第2の構文要素は、第2のサンプルエントリタイプに関連付けられており、かつ、対応するボリュメトリック視覚的パラメータトラックのアトラスグループ情報を提供し、
    前記第1の構文要素および前記第2の構文要素は、前記ビットストリームのファイルストレージに含まれており、前記第1の構文要素および前記第2の構文要素は、それぞれ、前記第1のサンプルエントリタイプおよび前記第2のサンプルエントリタイプに関連付けられており、前記第1のサンプルエントリタイプは、前記ボリュメトリック視覚的パラメータトラックを識別し、前記第2のサンプルエントリタイプは、前記対応するボリュメトリック視覚的パラメータトラックが前記アトラスグループに対応する前記1つ以上のボリュメトリック視覚的トラックに属することを示す、方法。
  9. 前記カプセル化することは、前記1つ以上のボリュメトリック視覚的トラックを含むボリュメトリック視覚的トラックのグループに対して実行され、前記ボリュメトリック視覚的トラックの前記グループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項8に記載の方法。
  10. 前記方法は、
    特定のトラックグループタイプおよび特定のトラックグループ識別に従って、前記ボリュメトリック視覚的トラックの前記グループを識別する情報を前記ビットストリームの中に含めることであって、前記ボリュメトリック視覚的トラックの前記グループにおけるボリュメトリック視覚的トラックのそれぞれは、前記ボリュメトリック視覚的パラメータトラックへの特定のトラック参照を含む、こと、または、
    前記第2のサンプルエントリタイプに従って時間指定メタデータトラックを識別するための情報を前記ビットストリームの中に含めることであって、前記第2のサンプルエントリタイプは、標的ビューレンダリングのために選択された前記ボリュメトリック視覚的データの前記1つ以上のビューが動的であることを示す、こと、または、
    前記第1のサンプルエントリタイプに従って前記ボリュメトリック視覚的パラメータトラックを識別するための情報を前記ビットストリームの中に含めることであって、前記ボリュメトリック視覚的パラメータトラックは、特定のトラック参照を伴うすべての参照ボリュメトリック視覚的トラックに関する一定のパラメータ組および共通アトラスデータを規定する、こと
    をさらに含む、請求項9に記載の方法。
  11. 前記1つ以上のアトラスサブビットストリームからの情報は、前記アトラスグループに対応する前記ボリュメトリック視覚的トラックの前記グループをカプセル化することによ
    ってエンコードされ、前記ボリュメトリック視覚的トラックの前記グループおよび前記ボリュメトリック視覚的パラメータトラックは、前記アトラスグループのためのすべてのアトラスデータを搬送する、請求項9に記載の方法。
  12. 前記方法は、前記1つ以上のビューのためのビュー情報に基づいて前記標的ビューのレンダリングのための前記ボリュメトリック視覚的データの前記1つ以上のビューを識別する情報を含めることをさらに含み、前記ビュー情報は、対応するビューのカメラパラメータを記述する、請求項8に記載の方法。
  13. 前記1つ以上のエンコードされたビデオサブビットストリームは、
    幾何学形状データのための1つ以上のビデオコード化エレメンタリストリームと、
    占有率マップデータのためのゼロまたは1つのビデオコード化エレメンタリストリームと、
    属性データのためのゼロ以上のビデオコード化エレメンタリストリームと
    を含み、
    前記幾何学形状データおよび前記占有率マップデータおよび前記属性データは、前記3次元場面を記述する、請求項1~12のいずれか1項に記載の方法。
  14. 請求項1~13のいずれかに記載の方法を実装するように構成されているプロセッサを備えているビデオ処理装置。
JP2022546009A 2020-04-15 2020-04-15 ボリュメトリック視覚的メディアプロセス方法および装置 Active JP7649792B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/084837 WO2021109412A1 (en) 2020-04-15 2020-04-15 Volumetric visual media process methods and apparatus

Publications (2)

Publication Number Publication Date
JP2023518337A JP2023518337A (ja) 2023-05-01
JP7649792B2 true JP7649792B2 (ja) 2025-03-21

Family

ID=76221387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022546009A Active JP7649792B2 (ja) 2020-04-15 2020-04-15 ボリュメトリック視覚的メディアプロセス方法および装置

Country Status (6)

Country Link
US (1) US12101508B2 (ja)
EP (1) EP4085618A4 (ja)
JP (1) JP7649792B2 (ja)
KR (1) KR20220133207A (ja)
CN (1) CN115039404B (ja)
WO (1) WO2021109412A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11838485B2 (en) * 2020-04-16 2023-12-05 Electronics And Telecommunications Research Institute Method for processing immersive video and method for producing immersive video
US12212779B2 (en) * 2020-06-05 2025-01-28 Electronics And Telecommunications Research Institute Method of processing immersive video and method of producing immersive video
CN115086635B (zh) * 2021-03-15 2023-04-14 腾讯科技(深圳)有限公司 多视角视频的处理方法、装置、设备及存储介质
KR102929645B1 (ko) 2021-06-29 2026-02-23 돌비 인터네셔널 에이비 사전 선택을 시그널링하기 위한 방법, 장치 및 시스템
EP4736458A1 (en) * 2023-06-27 2026-05-06 Dolby Laboratories Licensing Corporation Multi-view multiplane-imaging video streaming
JP2025069932A (ja) * 2023-10-18 2025-05-01 キヤノン株式会社 ボリュメトリックデータビットストリームの処理を改善するための方法、装置、およびコンピュータプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108282635A (zh) 2018-02-11 2018-07-13 中国联合网络通信集团有限公司 全景图像生成方法及系统、车联网大数据服务平台
WO2019195547A1 (en) 2018-04-05 2019-10-10 Vid Scale, Inc. Viewpoint metadata for omnidirectional video
US20190318488A1 (en) 2018-04-12 2019-10-17 Samsung Electronics Co., Ltd. 3d point cloud compression systems for delivery and access of a subset of a compressed 3d point cloud
US20200014940A1 (en) 2018-07-09 2020-01-09 Samsung Electronics Co., Ltd. Point cloud compression using interpolation
WO2020013976A1 (en) 2018-07-12 2020-01-16 Interdigital Vc Holdings, Inc. Methods and apparatus for volumetric video transport
WO2020071112A1 (ja) 2018-10-02 2020-04-09 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6675475B2 (ja) * 2015-08-20 2020-04-01 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ メディア・ストリームに基づくタイルド・ビデオの形成
US10771791B2 (en) * 2016-08-08 2020-09-08 Mediatek Inc. View-independent decoding for omnidirectional video
CN109509260B (zh) * 2017-09-14 2023-05-26 阿波罗智能技术(北京)有限公司 动态障碍物点云的标注方法、设备及可读介质
WO2019197708A1 (en) * 2018-04-09 2019-10-17 Nokia Technologies Oy An apparatus, a method and a computer program for volumetric video
EP4072139A3 (en) * 2019-01-02 2022-11-09 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US10965932B2 (en) * 2019-03-19 2021-03-30 Intel Corporation Multi-pass add-on tool for coherent and complete view synthesis
WO2020189903A1 (ko) * 2019-03-20 2020-09-24 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US11196977B2 (en) * 2019-09-24 2021-12-07 Sony Group Corporation Unified coding of 3D objects and scenes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108282635A (zh) 2018-02-11 2018-07-13 中国联合网络通信集团有限公司 全景图像生成方法及系统、车联网大数据服务平台
WO2019195547A1 (en) 2018-04-05 2019-10-10 Vid Scale, Inc. Viewpoint metadata for omnidirectional video
US20190318488A1 (en) 2018-04-12 2019-10-17 Samsung Electronics Co., Ltd. 3d point cloud compression systems for delivery and access of a subset of a compressed 3d point cloud
US20200014940A1 (en) 2018-07-09 2020-01-09 Samsung Electronics Co., Ltd. Point cloud compression using interpolation
WO2020013976A1 (en) 2018-07-12 2020-01-16 Interdigital Vc Holdings, Inc. Methods and apparatus for volumetric video transport
WO2020071112A1 (ja) 2018-10-02 2020-04-09 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jill M. Boyce et al.,MPEG Immersive Video Coding Standard,Proceedings of the IEEE,米国,IEEE,2021年03月10日,Vol.109,No.9,September 2021,1521-1536,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9374648

Also Published As

Publication number Publication date
EP4085618A1 (en) 2022-11-09
CN115039404A (zh) 2022-09-09
KR20220133207A (ko) 2022-10-04
JP2023518337A (ja) 2023-05-01
EP4085618A4 (en) 2023-03-01
US20220360819A1 (en) 2022-11-10
WO2021109412A1 (en) 2021-06-10
CN115039404B (zh) 2025-11-18
US12101508B2 (en) 2024-09-24

Similar Documents

Publication Publication Date Title
JP7649792B2 (ja) ボリュメトリック視覚的メディアプロセス方法および装置
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
CN111819842B (zh) 发送360度视频的方法和装置、接收360度视频的方法和装置
KR102923258B1 (ko) 3차원 콘텐츠 프로세싱 방법들 및 장치
JP2022133439A (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
US12034982B2 (en) Volumetric media process methods and apparatus
EP4029275A1 (en) An apparatus, a method and a computer program for video coding and decoding
EP3873095A1 (en) An apparatus, a method and a computer program for omnidirectional video
KR20220160646A (ko) 미디어 파일 캡슐화 방법, 미디어 파일 캡슐화 해제 방법 및 관련 디바이스
US12137225B2 (en) Multi-atlas encapsulation of immersive media
HK40088410A (zh) 媒体文件的封装方法、媒体文件的解封装方法及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240501

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250310

R150 Certificate of patent or registration of utility model

Ref document number: 7649792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150