JP7698697B2

JP7698697B2 - 拡張現実環境における３ｄコンテンツのニューラル拡張

Info

Publication number: JP7698697B2
Application number: JP2023209931A
Authority: JP
Inventors: ヨッヘンヴィルヘルムリーメンシュナイダーハイコ; ヴァリスドゲットエリカ; マシューゴールドバーグエヴァン; ハットリシノブ; リチャードシュレーアースクリストファー
Original assignee: ディズニーエンタープライジーズインコーポレイテッド
Priority date: 2023-01-17
Filing date: 2023-12-13
Publication date: 2025-06-25
Anticipated expiration: 2043-12-13
Also published as: US20240242444A1; EP4404145A1; JP2024101542A; US12430857B2

Description

本開示の実施形態は概ね機械学習及び拡張現実に関し、特に、拡張現実環境における３次元（３Ｄ）コンテンツのニューラル拡張に関する。

拡張現実（ＡＲ）は現実世界とコンピュータ生成コンテンツを結合して対話式知覚体験を実現することを指す。例えば、ＡＲシステムはカメラ、深度センサー、マイクロホン、加速度計、ジャイロスコープ、及び／又はユーザーの周りの環境内の事象又は変化を検出する別のタイプのセンサーを含みうる。ＡＲシステムはまた、表示器、スピーカー、及び／又はセンサーが収集したデータを追加のＡＲコンテンツと結合して没入型体験にする別のタイプの出力装置を含みうる。ＡＲシステムはまた、環境の変化、ユーザーとＡＲコンテンツの対話、及び／又は他の入力に応答して現実世界の出力及び／又はＡＲコンテンツを部分変更する。

ＡＲの１つの用途は、従来のメディアコンテンツ、例えば画像、音声、及び／又は映像を現実世界の物理空間のレイアウトと結合することを含む。例えば、装着型装置又は携帯電子装置で動作するＡＲシステムは、１つの場面の物体、形状、色、及び／又は風合いを壁、天井、床、及び／又は部屋の他の部分に重ねることで、その場面の画像又は映像を１つの部屋に亘って拡張できる。ＡＲシステムはまた、その場面の様々な部分をドア、窓、及び／又は部屋内の他のタイプの物体の周りに配置でき、コンテンツがこれらの物体を遮るのでなく周りを流れるように見える。

しかし、従来のメディアコンテンツを物理空間のレイアウトと結合するＡＲ環境は時間と資源を大量に消費するプロセスによって通常生成される。例えば、アーティスト又は他のコンテンツ創作者のチームが一組のアプリケーションと対話して、１つの場面の画像又は映像からの物体、形状、色、及び／又は風合いをＡＲ資産に変換できる。次に、開発者の異なるチームが別の組のアプリケーションと対話して、ＡＲ資産をサイズ変更し、拡張現実資産を物理空間のレイアウトを取り込んだＡＲ環境内に配置し向きを決め、及び／又は物理空間のレイアウトへのＡＲ資産の配置を他のやり方でカスタマイズする。このプロセスは従来のメディアコンテンツの各断片及び従来のメディアコンテンツが拡張される各物理空間に対して繰り返される。

上述したように、当分野で必要なものは、従来のメディアコンテンツをＡＲ環境に取り込むためのより効果的な手法である。

本発明の１つの実施形態は拡張現実（ＡＲ）コンテンツを生成するための手法を明記する。本手法は物理空間の第１レイアウトと第１組のアンカーコンテンツを機械学習モデルに入力するステップを含む。本手法はまた、前記機械学習モデルの動作により（１）前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内に前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップを含む。本手法は更に、前記第１の３Ｄボリュームの１つ以上のビューを計算装置に出力させるステップを含む。

従来技術に対する開示された手法の１つの技術的利点はアンカーコンテンツを物理空間のレイアウトと結合するＡＲコンテンツを自動的に継ぎ目なく生成する能力である。従って、開示された手法は、様々なソフトウェア部品を使って従来メディアコンテンツをＡＲ資産に変換し手動でＡＲ資産をＡＲ環境内に配置する従来手法より時間及び資源効率がよい。開示された手法の別の技術的利点は、特定の一組のアンカーコンテンツ及び特定の物理空間からＡＲコンテンツを臨機応変に生成する能力である。その結果、開示された手法は従来のメディアコンテンツを物理空間のレイアウトと結合するＡＲコンテンツの多様性及び利用可能性を増加させる。これらの技術的利点は従来技術手法に比べ１つ以上の技術改善を提供する。

様々な実施形態の上記の特徴が詳細に理解されうるために、一部が添付の図面に例示された様々な実施形態を参照することで、上記に簡潔に要約された発明概念のより詳細な説明を得られるかもしれない。しかし、添付の図面は発明概念の典型的な実施形態のみを例示し、従って、本発明の範囲を限定すると考えられるべきでは決してなく、他の同様に効果的な実施形態が存在することは留意されるべきである。
様々な実施形態の１つ以上の態様を実行するように構成されたシステムを示す。様々な実施形態に係る図１の訓練エンジン及び実行エンジンのより詳細な図である。様々な実施形態に係る図１の訓練エンジン及び実行エンジンのより詳細な図である。様々な実施形態に係る物理空間のレイアウト例を示す。様々な実施形態に係る図３Ａの物理空間内に２次元（２Ｄ）アンカーコンテンツを拡張する拡張現実（ＡＲ）環境の例を示す。様々な実施形態に係る図３Ａの物理空間に関連する３次元（３Ｄ）ボリュームのビューを含むＡＲ環境の例を示す。様々な実施形態に係る物理空間のレイアウト例を示す。様々な実施形態に係る図４Ａの物理空間内に２Ｄアンカーコンテンツを拡張するＡＲ環境の例を示す。様々な実施形態に係る図４Ａの物理空間に関連する３Ｄボリュームのビューを含むＡＲ環境の例を示す。様々な実施形態に係る機械学習モデルを訓練しアンカーコンテンツを物理空間内に組み込むＡＲコンテンツを生成するための方法ステップのフロー図である。様々な実施形態に係る一組のアンカーコンテンツを物理空間のレイアウトに組み込むＡＲ環境を生成するための方法ステップのフロー図である。

以下の説明において、様々な実施形態のより完全な理解を提供するために多数の具体的詳細が明らかにされる。しかし、これらの具体的詳細の１つ以上を欠いて発明概念を実施してもよいことは当業者には明白であろう。

システム概要
図１は様々な実施形態の１つ以上の態様を実行するように構成された計算装置１００を示す。１つの実施形態では、計算装置１００はデスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、又は入力を受け取り、データを処理し、任意選択で画像を表示するように構成された任意の他のタイプの計算装置から成り、１つ以上の実施形態を実施するのに適している。計算装置１００はメモリ１１６に常駐する訓練エンジン１２２と実行エンジン１２４を動作させるように構成される。

なお、本書に記載した計算装置は例示であり、任意の他の技術的に可能な構成は本開示の範囲に入る。例えば、訓練エンジン１２２及び実行エンジン１２４の複数のインスタンスが分散及び／又はクラウド計算システム内の一組のノード上で動作し、計算装置１００の機能を実行しうる。別の例では、訓練エンジン１２２及び／又は実行エンジン１２４は様々な組のハードウェア、複数種類の装置、又は環境上で動作し、訓練エンジン１２２及び／又は実行エンジン１２４を様々な使用事例又は用途に適合させうる。第３の例では、訓練エンジン１２２及び実行エンジンは様々な計算装置及び／又は様々な組の計算装置上で動作しうる。

１つの実施形態では、計算装置１００は限定されないが、１つ以上のプロセッサ１０２、１つ以上の入力／出力（Ｉ／Ｏ）装置１０８に結合された入力／出力（Ｉ／Ｏ）装置インターフェース１０４、メモリ１１６、記憶装置１１４、及びネットワークインターフェース１０６を接続する相互接続（バス）１１２を含む。プロセッサ１０２は中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラム可能ゲートアレイ（ＦＰＧＡ）、人工知能（ＡＩ）アクセラレータ、任意の他のタイプの処理装置、又は異なる処理装置の組み合わせ、例えばＧＰＵと一緒に動作するように構成されたＣＰＵとして実現された任意の適切なプロセッサであってよい。一般にプロセッサ１０２はデータを処理し及び／又はソフトウェアアプリケーションを実行できる任意の技術的に可能なハードウェア装置であってよい。また、本開示の文脈において、計算装置１００内の計算要素は物理的計算システム（例えば、データセンター内のシステム）に相当してもよく、又は計算クラウド内で動作する仮想計算インスタンスであってもよい。

Ｉ／Ｏ装置１０８は入力を提供できる装置、例えばキーボード、マウス、タッチ画面、マイクロホンなど及び出力を提供できる装置、例えば表示器を含む。また、Ｉ／Ｏ装置１０８は入力を受信し出力を提供できる装置、例えばタッチ画面、ユニバーサル・シリアルバス（ＵＳＢ）ポートなどを含んでもよい。Ｉ／Ｏ装置１０８は様々なタイプの入力を計算装置１００の最終ユーザー（例えば、設計者）から受信し、また計算装置１００の最終ユーザーに様々なタイプの出力、例えば表示されるデジタル画像又はデジタル映像又はテキストを提供するように構成されてもよい。幾つかの実施形態では、Ｉ／Ｏ装置１０８のうち１つ以上が計算装置１００をネットワーク１１０に結合するように構成される。

ネットワーク１１０は、計算装置１００とウェブサーバー又は別のネットワーク接続された計算装置などの外部実体又は装置の間のデータの交換を許す任意の技術的に可能なタイプの通信ネットワークである。例えば、ネットワーク１１０は広域ネットワーク（ＷＡＮ）、ロ－カルエリアネットワーク（ＬＡＮ）、無線（ＷｉＦｉ）ネットワーク、及び／又はインターネットなどを含んでよい。

記憶装置１１４はアプリケーション及びデータ用の不揮発性記憶装置を含み、固定又は取り外し可能ディスクドライブ、フラッシュメモリ装置、及びＣＤ‐ＲＯＭ、ＤＶＤ‐ＲＯＭ、Ｂｌｕ‐Ｒａｙ、ＨＤ‐ＤＶＤ、又は他の磁気、光学、又は固体記憶装置を含んでもよい。訓練エンジン１２２及び実行エンジン１２４は記憶装置１１４内に記憶され実行時メモリ１１６にロードされてもよい。

メモリ１１６はランダムアクセスメモリ（ＲＡＭ）モジュール、フラッシュメモリ装置、又は任意の他のタイプのメモリ装置又はそれらの組み合わせを含む。プロセッサ１０２、Ｉ／Ｏ装置インターフェース１０４、及びネットワークインターフェース１０６はメモリ１１６からデータを読み出しメモリ１１６にデータを書き込むように構成される。メモリ１１６はプロセッサ１０２のよって実行されうる様々なソフトウェアプログラム（訓練エンジン１２２及び実行エンジン１２４を含む）とソフトウェアプログラムと関連するアプリケーションデータとを含む。

幾つかの実施形態では、訓練エンジン１２２は１つ以上の機械学習モデルを訓練して従来のメディアコンテンツを物理空間に取り込んだ拡張現実（ＡＲ）環境を生成する。例えば、訓練エンジン１２２は１つ以上の神経回路網を訓練して画像及び／又は映像に描かれた２次元（２Ｄ）場面を部屋の壁、天井、床、及び／又は他の表面に亘って拡張できる。訓練エンジン１２２はまた、又は代りに１つ以上の神経回路網を訓練して２Ｄ場面の物体、色、形状、風合い、構造、及び／又は他の属性を部屋のレイアウト内に取り込んだ３次元（３Ｄ）ボリュームを生成する。

実行エンジン１２４は訓練された機械学習モデルを使って従来のメディアコンテンツを物理空間のレイアウトと結合するＡＲ環境を生成する。例えば、実行エンジン１２４は部屋の物理的レイアウトと、場面を描く画像又は映像を含むアンカーコンテンツとを訓練された神経回路網に入力できる。実行エンジン１２４は訓練された神経回路網を使って椅子、テーブル、窓、ドア、及び／又は他の物体をその部屋内に通常の状態で描き、その場面を部屋の壁、天井、床、及び／又は他の表面に亘って拡張しうる。実行エンジン１２４はまた、又は代りに訓練された神経回路網を使って、２Ｄ場面の物体、色、形状、風合い、及び／又は他の属性の２Ｄ及び／又は３Ｄ表現をその部屋内に配置した３Ｄボリュームを生成できる。

アンカーコンテンツから拡張現実環境のニューラル生成
図２Ａは様々な実施形態に係る図１の訓練エンジン１２２及び実行エンジン１２４のより詳細な図である。より具体的には、図２Ａは機械学習モデル２００を使用して物理空間のレイアウト２３２に亘って一組のアンカーコンテンツ２３０を拡張するＡＲ環境２９０を生成する時の訓練エンジン１２２及び実行エンジン１２４の動作を示す。

アンカーコンテンツ２３０はＡＲ環境２９０に取り込まれうる任意のタイプのメディアの１つ以上の断片を含む。例えば、特定の一組のアンカーコンテンツ２３０は、現実世界状況に重ねられ及び／又は結合されてＡＲ環境２９０を生成しうる単一の画像、複数の画像、１つ以上の映像フレーム、１つ以上の視覚化、１つ以上の３Ｄモデル、１つ以上の音声ファイル、１つ以上のテキスト列、及び／又は別のタイプのデジタルコンテンツを含みうる。

１つ以上の実施形態では、アンカーコンテンツ２３０はＡＲ環境２９０に取り込まれた物理空間内に出力され及び／又は捉えられる。例えば、アンカーコンテンツ２３０は、画像、映像、音、及び／又は物理空間に対応する部屋内のテレビ、映写機、表示器、スピーカー、及び／又は別のタイプの出力装置によって出力される別のタイプのメディアコンテンツを含みうる。別の例では、アンカーコンテンツ２３０は絵画、写真、壁画、彫刻、音、及び／又はその部屋に存在する又は検出される別のタイプの対象物又は現象を含みうる。アンカーコンテンツ２３０は、アンカーコンテンツ２３０を表示する前に既知の画像を出力装置に表示することを伴う校正プロセスにおいて及び／又は別の方法において、ＡＲ環境２９０と対話するユーザーによって境界ボックス又は囲いを使って追加で指定されうる。

アンカーコンテンツ２３０はまた、又は代りにアンカーコンテンツ２３０がそれに亘って拡張される物理空間と別に存在しうる。例えば、アンカーコンテンツ２３０は１つ以上のファイルとして指定されうり、それらのファイルはデータ記憶から取り出されＡＲ環境２９０に取り込まれうる１つ以上の画像、映像、音声、３Ｄモデル、テキスト、及び／又は別のタイプのコンテンツを含む。別の例では、ＡＲ環境２９０と対話するユーザーは、タッチ画面及び／又は別のタイプの入力装置を使ってアンカーコンテンツ２３０を描くことでアンカーコンテンツ２３０を生成及び／又は更新できる。

機械学習モデル２００は空間区分回路網２０２、コンテンツ区分回路網２０４、及び外挿回路網２０６を含む。幾つかの実施形態では、空間区分回路網２０２、コンテンツ区分回路網２０４、及び外挿回路網２０６は神経回路網及び／又は他のタイプの機械学習モデルとして実現される。例えば、空間区分回路網２０２、コンテンツ区分回路網２０４、及び外挿回路網２０６は、これらに限定されないが１つ以上の畳み込み神経回路網、完全接続神経回路網、再帰型神経回路網、残差神経回路網、トランスフォーマー神経回路網、自己符号化器、変分自己符号化器、敵対的生成回路網、自己回帰モデル、双方向注意モデル、混合モデル、拡散モデル、及び／又はコンテンツを処理及び／又は生成できる他のタイプの機械学習モデルを含みうる。

より具体的には、機械学習モデル２００はアンカーコンテンツ２３０及びレイアウト２３２に基づいてＡＲ環境２９０に取り込まれる出力２Ｄコンテンツ２３８を生成する。レイアウト２３２は物理空間内の物体２３４（１）～２３４（Ｘ）（それぞれ個々に物体２３４と呼ぶ）の位置及び／又は向きを含む。例えば、レイアウト２３２は部屋の２Ｄ又は３Ｄマップを含みうる。そのマップは部屋を壁、床、天井、ドア、テーブル、椅子、敷物、窓、及び／又は部屋内の他の物体に対応する複数の領域に区分した意味上区分（semantic segmentation）を含む。

１つ以上の実施形態では、レイアウト２３２は物理空間に関連するセンサーデータ２２８に基づいて空間区分回路網２０２によって生成される。例えば、センサーデータ２２８は物理空間の画像、深度マップ、点群、及び／又は別の表現を含みうる。センサーデータ２２８は物理空間内及び／又は近傍の拡張現実装置及び／又は別のタイプの計算装置上のカメラ、慣性センサー、深度センサー、及び／又は他のタイプのセンサーによって収集されうる。センサーデータ２２８はまた、物理空間の仮想ツインに対応する２Ｄ又は３Ｄモデルを生成するのに使用されうる。センサーデータ２２８及び／又は仮想ツインは空間区分回路網２０２に入力されうり、センサーデータ２２８及び／又は仮想ツイン内の個々の構成要素（例えば、画素位置、点群内の点など）、位置、又は領域についての物体の予測及び／又は物体の部類が空間区分回路網２０２の出力として得られうる。

幾つかの実施形態では、アンカーコンテンツ２３０はコンテンツ区分回路網２０４によって同様に処理されコンテンツ区分２９４を生成する。例えば、アンカーコンテンツ２３０内の１つ以上の画像はコンテンツ区分回路網２０４に入力されうり、コンテンツ区分２９４が、画像の個々の画素位置及び／又は他の部分集合についてコンテンツ区分回路網２０４によって生成された物体の予測及び／又は物体の部類（例えば、前景、背景、雲、星、物体、動物、植物、顔、構造、形状、状況など）として得られうる。

アンカーコンテンツ２３０、センサーデータ２２８、レイアウト２３２、及び／又はコンテンツ区分２９４は入力として外挿回路網２０６に提供される。入力に応答して、外挿回路網２０６は入力されたデータの様々な部分の潜在表現２３６（１）～２３６（Ｙ）（それぞれ個別に潜在表現２３６と呼ぶ）を生成する。外挿回路網２０６はまた、潜在表現２３６を複数の画像２４０（１）～２４０（Ｚ）（それぞれ個別に画像２４０と呼ぶ）を含む出力２Ｄコンテンツ２３８に変換する。

幾つかの実施形態では、出力２Ｄコンテンツ２３８内の各画像２４０は、物理空間の１つ以上の部分を表し、アンカーコンテンツ２３０の意味論上有意義な拡張を物理空間内に描く。例えば、出力２Ｄコンテンツ２３８は標準箱形部屋を表す立方体の６つの面に対応する６つの画像２４０を含みうる。別の例では、出力２Ｄコンテンツ２３８は箱形部屋に限定されない物理空間の３６０度、球形、及び／又は別のタイプのパノラマビューを描く１つ以上の画像２４０を含みうる。両方の例で、各画像２４０はその部屋内の現実世界物体、例えば（これらに限定されないが）ドア、窓、家具、及び／又は装飾を含みうる。各画像２４０はまた、部屋の壁、床、天井、及び／又は他の表面上に重ねられたアンカーコンテンツ２３０の様々な部分集合（コンテンツ区分２９４において特定される）を含みうる。アンカーコンテンツ２３０のこれらの構成要素はまた、対応する画像２４０内に配置又は分散されうり、部屋内のドア、窓、家具、装飾、及び／又は他のタイプの物体を遮る及び／又は部分的に重なるのを避ける。

訓練エンジン１２２は機械学習モデル２００を一組のグラウンド現状データ区分（ground truth segmentations）２０８、一組の訓練センサーデータ２１０、及び一組の訓練アンカーコンテンツ２１２を含む訓練データ２１４を使って訓練する。訓練センサーデータ２１０は様々なタイプの物理空間の画像、点群、及び／又は視覚及び／又は空間属性の他のデジタル表現を含む。例えば、訓練センサーデータ２１０は様々な建築様式及びレイアウトの部屋又は建物、屋外都市空間、地下空間、自然環境、及び／又は他の物理的環境の２Ｄ及び／又は３Ｄ表現を含みうる。

訓練アンカーコンテンツ２１２は訓練センサーデータ２１０と結合されＡＲ環境（例えば、ＡＲ環境２９０）を生成しうる画像、映像、音声、及び／又は他のコンテンツを含む。アンカーコンテンツ２３０と同様、訓練アンカーコンテンツ２１２は訓練センサーデータ２１０内に（例えば、対応する物理空間の一部として）描かれ及び／又は取り込まれ、及び／又は訓練センサーデータ２１０から分離して取り出されうる（例えば、データ記憶からのデジタルファイルのように）。

グラウンド現状データ区分２０８は訓練センサーデータ２１０及び／又は訓練アンカーコンテンツ２１２と関連するラベルを含む。例えば、グラウンド現状データ区分２０８は、訓練センサーデータ２１０によって表される物理空間内に見つかりうる床、壁、天井、照明器具、家具、装飾、ドア、窓、及び／又は他の物体を表すラベルを含みうる。これらのラベルは訓練センサーデータ２１０内の画素領域、３Ｄ点、格子、部分格子、及び／又は他のデータ要素に割り当てられうる。別の例では、グラウンド現状データ区分２０８は訓練アンカーコンテンツ２１２内に見つかる又は表される前景、背景、風合い、物体、形状、構造、人物、顔、動物、植物、状況、及び／又は他の実体を表すラベルを含みうる。これらのラベルは訓練アンカーコンテンツ２１２の画素領域、音声サンプル、３Ｄモデル、及び／又は他の要素又は部分に割り当てられうる。グラウンド現状データ区分２０８は全ての組の訓練センサーデータ２１０及び／又は訓練アンカーコンテンツ２１２に対して利用可能でありうり、機械学習モデル２００の１つ以上の構成要素の完全教師あり訓練を可能にするか、又はグラウンド現状データ区分２０８は訓練センサーデータ２１０及び／又は訓練アンカーコンテンツ２１２の部分集合に対して利用可能でありうり、構成要素の半教師あり及び／又は弱教師あり訓練を可能にする。

図２Ａに示すように、訓練エンジン１２２は訓練センサーデータ２１０を空間区分回路網２０２に入力して空間区分回路網２０２の対応する出力として一組の訓練空間区分２２２を得る前方パスを実行する。前方パスの間、訓練エンジン１２２はまた、訓練アンカーコンテンツ２１２をコンテンツ区分回路網２０４に入力してコンテンツ区分回路網２０４の対応する出力として一組の訓練コンテンツ区分２２４を得る。訓練空間区分２２２は訓練センサーデータ２１０内のデータ要素に関連するクラスの予測を含み、訓練コンテンツ区分２２４は訓練アンカーコンテンツ２１２内のデータ要素に関連するクラスの予測を含む。例えば、訓練空間区分２２２は、物理空間を表す訓練センサーデータ２１０の画素領域、３Ｄ点、及び／又は他の部分について、物理空間内に見つかりうる床、壁、天井、照明器具、家具、装飾、ドア、窓、及び／又は他の物体を表すクラスの予測される確率を含みうる。訓練コンテンツ区分２２４は、訓練アンカーコンテンツ２１２の様々な領域又は部分内に見つかる又は表される前景、背景、風合い、物体、形状、構造、人々、人物、顔、身体部位、動物、植物、及び／又は他の実体を表すクラスの予測される確率を含みうる。

前方パスの間、訓練エンジン１２２はまた、外挿回路網２０６を使用して訓練空間区分２２２及び訓練コンテンツ区分２２４の複数のペアを拡張現実ビューを表す２Ｄ訓練出力２２６に変換する。拡張現実ビューは訓練センサーデータ２１０及び対応する訓練空間区分２２２によって表される物理空間の属性を訓練アンカーコンテンツ２１２及び対応する訓練コンテンツ区分２２４の属性と結合する。例えば、訓練エンジン１２２は部屋に対する一組の訓練センサーデータ２１０、空間区分回路網２０２によってその一組の訓練センサーデータ２１０から生成された対応する訓練空間区分、訓練アンカーコンテンツ２１２の一断片、及び／又はコンテンツ区分回路網２０４によって訓練アンカーコンテンツ２１２のその一断片から生成された訓練コンテンツ区分を外挿回路網２０６に入力する。入力に応答して、外挿回路網２０６は、入力された訓練センサーデータ２１０に関連する視覚及び意味属性を入力された訓練アンカーコンテンツ２１２に関連する視覚及び意味属性と結合する複数の画像（例えば、画像２４０）を生成できる。各画像は平壁のある部屋の異なる表面及び／又は任意の形状の物理空間（例えば、非箱形部屋、起伏のある空間、屋外空間など）に関連するパノラマビューの１つ以上の部分を表しうる。

前方パスが完了すると、訓練エンジン１２２は訓練データ２１４と、空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６によって生成された出力とに基づいて複数の損失を計算する。より具体的には、訓練エンジン１２２は空間区分回路網２０２によって訓練センサーデータ２１０から生成された訓練空間区分２２２と対応するグラウンド現状データ区分２０８の間の１つ以上の区分損失２１８を計算する。訓練エンジン１２２はまた、又は代りにコンテンツ区分回路網２０４によって訓練アンカーコンテンツ２１２から生成された訓練コンテンツ区分２２４と対応するグラウンド現状データ区分２０８の間の１つ以上の区分損失２１８を計算する。これらの区分損失２１８は、これらに限定されないが、クロスエントロピー損失、さいころ損失、境界損失、Ｔｖｅｒｓｋｙ損失、及び／又は空間区分回路網２０２及び／又はコンテンツ区分回路網２０４によって生成された特定の区分と対応するグラウンド現状データ区分の間の誤差の別の計測値を含みうる。

訓練エンジン１２２はまた、又は代りに訓練アンカーコンテンツ２１２の一断片と外挿回路網２０６によって訓練アンカーコンテンツ２１２のその一断片及び一組の訓練センサーデータ２１０から生成された２Ｄ訓練出力２２６の間の１つ以上の類似性損失２１６を計算する。幾つかの実施形態では、類似性損失２１６は訓練アンカーコンテンツ２１２と物理空間内の訓練アンカーコンテンツ２１２の拡張に対応する２Ｄ訓練出力２２６部分の間の視覚類似性を計測する。

例えば、訓練エンジン１２２はグラウンド現状データ区分２０８を使って、訓練アンカーコンテンツ２１２がそれに亘って重ねられ又は拡張される物理空間のある領域（例えば、１つ以上の壁、天井、床など）を特定できる。これらの領域は得られる２Ｄ訓練出力２２６が生成されるやり方を制御するために指定及び／又は選択されうる。訓練エンジン１２２はこれらの領域に関連するマスクを２Ｄ訓練出力２２６に適用してこれらの領域外にある２Ｄ訓練出力２２６の部分を取り除きうる。訓練エンジン１２２はＬ１損失、Ｌ２損失、平均２乗誤差、Ｈｕｂｅｒ損失、及び／又は他の類似性損失２１６を訓練アンカーコンテンツ２１２の様々な構成要素の視覚属性（例えば、形状、色、パターン、画素値、線太さ、等高線など）と残りの２Ｄ訓練出力２２６の視覚属性の間の類似性又は差異の計測値として計算しうる。訓練エンジン１２２はまた、又は代りに残りの２Ｄ訓練出力２２６を第１組の潜在表現に変換しうり（例えば、外挿回路網２０６の１つ以上の部品及び／又は予め訓練された特徴抽出器を残りの２Ｄ訓練出力２２６に適用することで）、１つ以上の類似性損失２１６を前記第１組の潜在表現と訓練アンカーコンテンツ２１２に関連する第２組の潜在表現（例えば、外挿回路網２０６及び／又は予め訓練された特徴抽出器によって訓練アンカーコンテンツ２１２から生成された潜在表現２３６）の間の類似性又は差異の計測値として計算しうる。その結果、類似性損失２１６は機械学習モデル２００が物理空間のある部分又は領域への訓練アンカーコンテンツ２１２の拡張を生成するよう学習することを保証するのに使用されうる。

訓練エンジン１２２はまた、又は代りに２Ｄ訓練出力２２６と、対応する訓練センサーデータ２１０及び／又は訓練アンカーコンテンツ２１２に関連するグラウンド現状データ区分２０８の間の１つ以上のレイアウト損失２２０を計算する。１つ以上の実施形態では、レイアウト損失２２０は２Ｄ訓練出力２２６が訓練アンカーコンテンツ２１２の意味論上有意義な拡張を訓練センサーデータ２１０が表す物理空間に亘って描く程度を計測する。

例えば、訓練エンジン１２２はグラウンド現状データ区分２０８を使って一組の訓練センサーデータ２１０によって表さる部屋内の様々な物体（例えば、壁、天井、床、家具、装飾、窓、ドアなど）を特定できる。訓練エンジン１２２はまた、グラウンド現状データ区分２０８を使ってその部屋について２Ｄ訓練出力２２６に描かれるべき物体（例えば、訓練アンカーコンテンツ２１２が遮りも置き換わりもするべきでないドア、窓、家具、及び／又は他の物体）の領域を特定するマスクを生成できる。これらの領域は得られる２Ｄ訓練出力２２６が生成されるやり方を制御するために指定及び／又は選択されうる。訓練エンジン１２２はマスクを２Ｄ訓練出力２２６に適用してこれらの領域外にある２Ｄ訓練出力２２６の部分を取り除きうる。訓練エンジン１２２は次に、Ｌ１損失、Ｌ２損失、平均２乗誤差、Ｈｕｂｅｒ損失、及び／又は他のレイアウト損失２２０を残りの２Ｄ訓練出力２２６の視覚属性（例えば、形状、色、パターン、画素値など）と訓練センサーデータ２１０内の対応する物体の視覚属性の間の類似性又は差異の計測値として計算しうる。訓練エンジン１２２はまた、又は代りに残りの２Ｄ訓練出力２２６を第１組の潜在表現に変換しうり（例えば、外挿回路網２０６の１つ以上の部品及び／又は予め訓練された特徴抽出器を残りの２Ｄ訓練出力２２６に適用することで）、１つ以上のレイアウト損失２２０を前記第１組の潜在表現と訓練センサーデータ２１０内の対応する物体に関連する第２組の潜在表現（例えば、外挿回路網２０６及び／又は予め訓練された特徴抽出器によってこれらの物体を描く又は表す訓練センサーデータ２１０の部分から生成された潜在表現２３６）の間の類似性又は差異の計測値として計算しうる。言い換えると、レイアウト損失２２０は２Ｄ訓練出力２２６が対応する位置にこれらの物体の正確及び／又は完全な描写を含むことと、部屋のＡＲビュー内への訓練アンカーコンテンツ２１２のどんな重なり又は拡張もこれらの物体を遮らないこととを保証するのに使用されうる。

１つ以上の実施形態では、レイアウト損失２２０は２Ｄ訓練出力２２６のフレームに亘る意味及び／又は空間一貫性を保証するのに使用される。例えば、２Ｄ訓練出力２２６は訓練センサーデータ２１０によって表される物理空間に亘って訓練アンカーコンテンツ２１２内の対応する映像フレームの拡張を描く複数のフレームを含みうる。訓練エンジン１２２は２Ｄ訓練出力２２６内の１つ以上の前のフレーム、対応する訓練空間区分２２２、対応する訓練コンテンツ区分２２４、及び／又は訓練アンカーコンテンツ２１２の対応するフレームを追加の入力として空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６に提供して、訓練アンカーコンテンツ２１２の現在フレームからの２Ｄ訓練出力２２６の現在フレームの生成を通知しうる。訓練エンジン１２２はまた、２Ｄ訓練出力２２６の連続するフレーム間の又はに亘る１つ以上のレイアウト損失２２０を計算して訓練アンカーコンテンツ２１２内の映像フレーム内の物体又は動画が跳ね回ったり不規則に変動したりすることなく物理空間内の概ね同じ位置に描かれ又は拡張されることを保証できる。

次に訓練エンジン１２２は、類似性損失２１６、区分損失２１８、及び／又はレイアウト損失２２０の様々な並べ替え又は組み合わせを使って空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６のパラメータを更新する後方パスを実行する。例えば、訓練エンジン１２２は訓練手法（例えば、勾配降下及び逆伝播）を使用して、訓練空間区分２２２と対応するグラウンド現状データ区分２０８の間で計算された区分損失２１８に基づいて空間区分回路網２０２のパラメータを更新できる。訓練エンジン１２２はまた、訓練コンテンツ区分２２４と対応するグラウンド現状データ区分２０８の間で計算された区分損失２１８に基づいてコンテンツ区分回路網２０４のパラメータを更新できる。空間区分回路網２０２及びコンテンツ区分回路網２０４の訓練が完了すると、訓練エンジン１２２は空間区分回路網２０２及びコンテンツ区分回路網２０４のパラメータを凍結し、レイアウト損失２２０及び／又は類似性損失２１６に基づいて外挿回路網２０６を訓練できる。訓練エンジン１２２はまた、区分損失２１８、レイアウト損失２２０、及び／又は類似性損失２１６が対応する閾値未満になるまで、区分損失２１８に基づいて空間区分回路網２０２とコンテンツ区分回路網２０４の訓練を交互させ、レイアウト損失２２０及び／又は類似性損失２１６に基づいて外挿回路網２０６を訓練し続ける。

別の例では、訓練エンジン１２２はレイアウト損失２２０、類似性損失２１６、及び／又は２Ｄ訓練出力２２６に基づいて計算された他の損失を使って空間区分回路網２０２、コンテンツ区分回路網２０４、及び外挿回路網２０６の終端間訓練を実行できる。この終端間訓練は空間区分回路網２０２及びコンテンツ区分回路網２０４が対応する区分損失２１８に基づいて訓練された後に、空間区分回路網２０２及びコンテンツ区分回路網２０４の区分損失２１８に基づく訓練と交互に、及び／又は別のやり方で実行されうる。

訓練エンジン１２２の動作をあるタイプの損失に関して上記で説明したが、空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６は他のタイプの手法、損失、及び／又は機械学習構成要素を使って訓練されうることは理解されるであろう。例えば、訓練エンジン１２２は空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６を敵対的なやり方で１つ以上の弁別器神経回路網（不図示）を用い弁別器神経回路網によって生成された予測に基づいてグラウンド現状データ区分２０８、訓練空間区分２２２、訓練コンテンツ区分２２４、及び／又は２Ｄ訓練出力２２６から計算される１つ以上の弁別器損失を使用して訓練できる。別の例では、訓練エンジン１２２は空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６を２Ｄ訓練出力２２６に芸術家指針又はパラメータを反映させる１つ以上の損失を使用して訓練できる。この芸術家指針又はパラメータは対称、平衡、色、向き、規模、スタイル、訓練センサーデータ２１０によって表される物理空間に亘る訓練アンカーコンテンツ２１２の動き、訓練センサーデータ２１０によって表される物理空間内に描かれた又は置かれた訓練アンカーコンテンツ２１２内の物体のサイズ、及び／又は訓練アンカーコンテンツ２１２が訓練センサーデータ２１０によって表される物理空間に亘って描かれる又は拡張されるやり方に影響する他の属性に関連する。第３の例では、訓練エンジン１２２は訓練アンカーコンテンツ２１２の特定の断片を様々な物理空間に亘って拡張することを学習するように空間区分回路網２０２、コンテンツ区分回路網２０４、及び／又は外挿回路網２０６を訓練できる。

機械学習モデル２００の訓練が完了した後、実行エンジン１２４は訓練された機械学習モデル２００の１つ以上の構成要素を使って出力２Ｄコンテンツ２３８を生成する。特に、実行エンジン１２４は空間区分回路網２０２を使って物理空間から収集したセンサーデータ２２８（例えば、画像、点群、深度マップなど）をその物理空間内の物体２３４の位置を特定する意味上レイアウト２３２に変換する。実行エンジン１２４はまた、アンカーコンテンツ２３０（例えば、画像、絵画、映像など）をユーザーによって選択されるセンサーデータ２２８の一領域として、及び／又はセンサーデータ２２８とは別に存在する１つ以上の画像、映像、又は音声ファイルとして受け取る。実行エンジン１２４はコンテンツ区分回路網２０４を使ってアンカーコンテンツ２３０を対応するコンテンツ区分２９４に変換する。実行エンジン１２４は次に外挿回路網２０６を使って、レイアウト２３２及び／又はコンテンツ区分２９４を使用して特定されたアンカーコンテンツ２３０の部分内の物体２３４の潜在表現２３６を生成する。実行エンジン１２４はまた、外挿回路網２０６を使って出力２Ｄコンテンツ２３８を潜在表現２３６及び／又は追加の入力、例えばＡＲ環境２９０を提供する計算装置の位置及び向きなどに基づいて生成する（例えば、潜在表現２３６をサンプリングする、変換する、相関させる、又は他の処理をすることで）。上述したように、出力２Ｄコンテンツ２３８はあるタイプの物体２３４（例えば、ドア、窓、家具、装飾など）を物理空間内のそれぞれの位置に描く画像２４０と物理空間内の他のタイプの物体２３４（例えば、壁、床、天井など）に亘るアンカーコンテンツ２３０の拡張及び／又は重ねとを含む。画像２４０はまた、ある視点、例えばセンサーデータ２２８が収集された視点から物体２３４を描きうる。

実行エンジン１２４はまた、出力２Ｄコンテンツ２３８をＡＲ環境２９０に取り込む。例えば、実行エンジン１２４はＡＲ環境２９０を提供するＡＲシステムによって生成された視覚、音声、及び／又は他の出力に画像２４０を取り込みうり、その結果、ＡＲ環境２９０は、ＡＲシステムと対話するユーザーの視点からアンカーコンテンツ２３０の意味論上有意義な拡張を物理空間に亘って描くように見える。ユーザーがＡＲシステムの視点を変える及び／又はアンカーコンテンツ２３０を更新する時（例えば、アンカーコンテンツ２３０の追加部分を描く、アンカーコンテンツ２３０をトリミング、縮小／拡大、及び／又は変形する、アンカーコンテンツ２３０の色バランス、飽和、色温度、露光、輝度、及び／又は他の色関連の属性を変更する、アンカーコンテンツ２３０のビューを変更する、異なるファイルからアンカーコンテンツ２３０をロードする、アンカーコンテンツ２３０の複数のフレームを含む映像又は動画を再生するなどにより）、実行エンジン１２４は更新されたアンカーコンテンツ２３０及び／又は物理空間の最新ビュー又は表現を反映する追加のセンサーデータ２２８を受信し、追加のセンサーデータ２２８から新しいレイアウト２３２を及び／又は新しいアンカーコンテンツ２３０から新しいコンテンツ区分２９４を生成し、新しい視点に関連する物体２３４及びアンカーコンテンツ２３０の拡張を描く新しい出力２Ｄコンテンツ２３８を生成できる。その結果、実行エンジン１２４はセンサーデータ２２８及び／又はアンカーコンテンツ２３０の変化に連続して応答する没入型ＡＲ環境２９０を生成する。

幾つかの実施形態では、出力２Ｄコンテンツ２３８は他のタイプの没入型環境、例えば仮想現実（ＶＲ）及び／又は複合現実（ＭＲ）環境などにおいて使用される。このコンテンツは個人の身元、ユーザー履歴、資格、財産、及び／又は報酬などのデータの連続性を提供しながら、任意の数のユーザーが同期して持続的に体験できる仮想世界を描きうる。なお、このコンテンツは従来の視聴覚コンテンツ及び完全に没入型ＶＲ、ＡＲ、及び／又はＭＲ体験の混成、例えば双方向ビデオを含みうる。

図２Ｂは様々な実施形態に係る図１の訓練エンジン１２２及び実行エンジン１２４のより詳細な図である。より具体的には、図２Ｂは機械学習モデル２８０を使用して出力３Ｄボリューム２８４を含むＡＲ環境２９２を生成する時の訓練エンジン１２２及び実行エンジン１２４の動作を示す。出力３Ｄボリューム２８４内で、一組のアンカーコンテンツ２９６から得られる３Ｄ物体２８６（１）～２８６（Ｃ）（それぞれ個別に３Ｄ物体２８６と呼ぶ）は物理空間のレイアウト２７６内に意味論上有意義なやり方で配置される。

図２Ａのアンカーコンテンツ２３０のように、特定の一組のアンカーコンテンツ２９６はＡＲ環境２９２に取り込まれうる任意のタイプのメディアの１つ以上の断片を含む。例えば、アンカーコンテンツ２９６は画像、画像列、映像、音声、テキスト、及び／又は現実世界状況に重ね及び／又は結合されＡＲ環境２９２となりうる別のタイプのデジタルコンテンツを含みうる。別の例では、アンカーコンテンツ２９６は１つ以上の３Ｄ動画、３Ｄモデル、及び／又はＡＲ環境２９２と共に使用されうる他のタイプの３Ｄコンテンツを含みうる。

１つ以上の実施形態では、アンカーコンテンツ２９６はＡＲ環境２９２内に取り込まれた物理空間内に出力及び／又は捕捉される。例えば、アンカーコンテンツ２９６は写真、絵画、及び／又はテレビ、映写機、表示器、及び／又は部屋内の別の視覚出力装置によって出力される２Ｄ又は３Ｄ映像を含みうる。別の例では、アンカーコンテンツ２９６は部屋に存在又は検出される絵画、写真、壁画、彫刻、音、及び／又は別の物理実体を含みうる。アンカーコンテンツ２９６は、アンカーコンテンツ２９６を表示する前に既知の画像を出力装置に表示することを伴う校正プロセスにおいて及び／又は別の方法においてＡＲ環境２９２と対話するユーザーによって境界ボックス又は囲いを使って指定されうる。

アンカーコンテンツ２９６はまた、又は代りにアンカーコンテンツ２９６が配置される物理空間とは別に存在しうる。例えば、アンカーコンテンツ２９６は画像、映像、音声、テキスト、３Ｄモデル、及び／又はデータ記憶から取り出されＡＲ環境２９２に取り込まれうる別のタイプのコンテンツを含むファイルとして指定されうる。別の例では、ＡＲ環境２９２と対話するユーザーは、１つ以上のトリミング、縮小／拡大、回転、平行移動、色調整、及び／又は描画操作によりアンカーコンテンツ２９６を生成及び／又は更新できる。

機械学習モデル２８０は空間区分回路網２４２、コンテンツ区分回路網２４４、及び３Ｄ合成回路網２４６を含む。幾つかの実施形態では、空間区分回路網２４２、コンテンツ区分回路網２４４、及び３Ｄ合成回路網２４６は神経回路網及び／又は他のタイプの機械学習モデルとして実現される。例えば、空間区分回路網２４２、コンテンツ区分回路網２４４、及び３Ｄ合成回路網２４６は、これらに限定されないが１つ以上の畳み込み神経回路網、完全接続神経回路網、再帰型神経回路網、残差神経回路網、トランスフォーマー神経回路網、自己符号化器、変分自己符号化器、敵対的生成回路網、自己回帰モデル、双方向注意モデル、混合モデル、拡散モデル、神経放射輝度フィールドモデル、及び／又はコンテンツを処理及び／又は生成できる他のタイプの機械学習モデルを含みうる。

幾つかの実施形態では、機械学習モデル２８０は出力３Ｄボリューム２８４をアンカーコンテンツ２９６及びレイアウト２７６に基づいて生成する。幾つかの実施形態では、レイアウト２７６は物理空間内の物体２７８（１）～２７８（Ａ）（それぞれ個別に物体２７８と呼ぶ）の３Ｄ位置、向き、及び／又は表現を含む。例えば、レイアウト２７６は１つ以上のカメラ、深度センサー、及び／又は他のタイプのセンサーによって捕捉された部屋の１つ以上の格子、点群、風合い、及び／又は他の３Ｄ表現を含みうる。３Ｄ表現の様々な部分又は部分集合は、更に区分又はラベル付けされ物体、例えば壁、床、天井、ドア、テーブル、椅子、敷物、窓、及び／又は部屋内の他の物体を表しうる。

１つ以上の実施形態では、レイアウト２７６は空間区分回路網２４２によって物理空間に関連するセンサーデータ２７４に基づいて生成される。例えば、センサーデータ２７４は物理空間の画像、深度マップ、点群、格子、風合い、及び／又は他の３Ｄ表現を含みうる。センサーデータ２７４は物理空間内又は近傍の拡張現実装置及び／又は別のタイプの計算装置のセンサーによって収集されうる。センサーデータ２７４はまた、物理空間の仮想ツインに対応する３Ｄモデルを生成するために使用されうる。センサーデータ２７４及び／又は仮想ツインは空間区分回路網２４２に入力されうり、そのデータ内の個々の要素（例えば、画素位置、点群内の点など）、位置、又は領域について物体の予測及び／又は物体の部類が空間区分回路網２４２の対応する出力として得られうる。

幾つかの実施形態では、アンカーコンテンツ２９６は同様にコンテンツ区分回路網２４４によって処理されコンテンツ区分２８２を生成する。例えば、アンカーコンテンツ２９６内の１つ以上の画像はコンテンツ区分回路網２４４に入力されうり、コンテンツ区分２８２は、画像内の個々の画素位置及び／又は他のデータ要素についてコンテンツ区分回路網２４４によって生成された物体の予測及び／又は物体の部類（例えば、前景、背景、雲、星、物体、動物、顔、構造、形状など）として得られうる。

上述したように、アンカーコンテンツ２９６はまた、個別の３Ｄ物体２８６及び／又は出力３Ｄボリューム２８４内に個別に配置又は取り込まれうる他の様々な構成要素を含みうる。例えば、アンカーコンテンツ２９６は様々な仮想人物、顔、木、建物、家具、雲、星、及び／又は他の物体についての別々の３Ｄモデルを含みうる。この例では、コンテンツ区分２８２は省略されるか、又は各３Ｄモデルに対して実行され更に対応する物体又は実体の下位構成要素（例えば、車の３Ｄモデルのハンドル、窓、車台、ドア、及び／又は他の部品）を特定できる。

アンカーコンテンツ２９６、センサーデータ２７４、レイアウト２７６、及び／又はコンテンツ区分２８２が入力として３Ｄ合成回路網２４６に提供される。入力に応答して、３Ｄ合成回路網２４６は入力されたデータの様々な部分の潜在表現２８８（１）～２８８（Ｂ）（それぞれ個別に潜在表現２８８と呼ぶ）を生成する。３Ｄ合成回路網２４６はまた、潜在表現２８８を出力３Ｄボリューム２８４に変換する。

幾つかの実施形態では、出力３Ｄボリューム２８４はセンサーデータ２７４に関連する物理空間の３Ｄ表現を含む。３Ｄ表現内で、アンカーコンテンツ２９６から得られた３Ｄ物体２８６は物理空間内に意味論上有意義なやり方で配置される。例えば、出力３Ｄボリューム２８４は３Ｄ合成回路網２４６によって生成された神経放射輝度フィールドによって表されうる。神経放射輝度フィールドは物理空間内の現実世界物体２７８、例えばドア、窓、家具、及び／又は装飾の３Ｄ表現を含みうる。神経放射輝度フィールドはまた、アンカーコンテンツ２９６の様々な構成要素（コンテンツ区分２８２で特定される）に対応する３Ｄ物体２８６を含みうる。アンカーコンテンツ２９６のこれらの構成要素はまた、出力３Ｄボリューム２８４内に配置又は分散されうり、部屋内のドア、窓、家具、装飾、及び／又は他の現実世界物体を遮る及び／又は部分的に重なるのを避ける。アンカーコンテンツ２９６のこれらの構成要素はまた、又は代りに部屋内の現実世界物体と相互作用するように配置され及び／又はアニメ化される。

訓練エンジン１２２は一組のグラウンド現状データ区分２４８、一組の訓練センサーデータ２５０、一組の訓練アンカーコンテンツ２５２、及び／又は一組の訓練３Ｄ物体２５４を含む訓練データ２９８を使って機械学習モデル２８０を訓練する。訓練センサーデータ２５０は部屋、建物、都市環境、自然環境、地下環境、及び／又は他のタイプの物理空間の視覚及び／又は空間属性の画像、点群、及び／又は他のデジタル表現を含む。訓練センサーデータ２５０はまた、又は代りに物理空間の画像、点群、格子、風合い、及び／又は他の視覚又は空間属性を使って構成された物理空間のデジタルツインを含む。

訓練アンカーコンテンツ２５２は訓練センサーデータ２５０と結合されＡＲ環境（例えば、ＡＲ環境２９２）を生成しうる画像、映像、音声、及び／又は他のコンテンツを含む。アンカーコンテンツ２９６と同様に、訓練アンカーコンテンツ２５２は訓練センサーデータ２５０に描かれ及び／又は捕捉され（例えば、対応する物理空間の一部として）及び／又は訓練センサーデータ２５０とは別に取り出されうる（例えば、データ記憶からのデジタルファイルとして）。

グラウンド現状データ区分２４８は訓練センサーデータ２５０及び／又は訓練アンカーコンテンツ２５２に関連するラベルを含む。例えば、グラウンド現状データ区分２４８は訓練センサーデータ２５０によって表される物理空間内に見つかりうる床、壁、天井、照明器具、家具、装飾、ドア、窓、及び／又は他の物体を表すラベルを含みうる。これらのラベルは訓練センサーデータ２５０内の画素領域、３Ｄ点、格子、部分格子、及び／又は他のデータ要素に割り当てられうる。別の例では、グラウンド現状データ区分２４８は、訓練アンカーコンテンツ２５２内に見つかる又は表される前景、背景、風合い、物体、形状、構造、人々、人物、顔、身体部位、動物、植物、及び／又は他の実体を表すラベルを含みうる。これらのラベルは訓練アンカーコンテンツ２５２の画素領域、点群、格子、部分格子、音声トラック又はチャネル、及び／又は他の要素又は部分に割り当てられうる。グラウンド現状データ区分２４８は全ての組の訓練センサーデータ２５０及び／又は訓練アンカーコンテンツ２５２に対して利用可能であり機械学習モデル２８０の１つ以上の構成要素の完全教師あり訓練を可能にしうるか、又はグラウンド現状データ区分２４８は訓練センサーデータ２５０及び／又は訓練アンカーコンテンツ２５２の一部の組に対して利用可能でありそれらの構成要素の半教師あり及び／又は弱教師あり訓練を可能にしうる。

訓練３Ｄ物体２５４は訓練アンカーコンテンツ２５２の３Ｄ表現を含む。例えば、訓練アンカーコンテンツ２５２は３Ｄモデル又は場面の２Ｄ表現を描く画像又は映像を含みうり、訓練３Ｄ物体２５４は３Ｄモデル又は場面を含みうる。言い換えると、訓練３Ｄ物体２５４は訓練アンカーコンテンツ２５２内の物体のグラウンド現状データ３Ｄ表現として使用されうる。

幾つかの実施形態では、幾つか又は全ての訓練３Ｄ物体２５４は訓練アンカーコンテンツ２５２に含まれる。例えば、訓練３Ｄ物体２５４は機械学習モデル２８０の１つ以上の構成要素に入力され、機械学習モデル２８０が訓練３Ｄ物体２５４を物理空間の３Ｄ表現内に意味論上有意義なやり方で配置することを学習するのを許しうる。

図２Ｂに示すように、訓練エンジン１２２は訓練センサーデータ２５０を空間区分回路網２４２に入力し一組の訓練空間区分２６６を空間区分回路網２４２の対応する出力として得る前方パスを実行する。前方パスの間、訓練エンジン１２２はまた、訓練アンカーコンテンツ２５２をコンテンツ区分回路網２４４に入力し一組の訓練コンテンツ区分２６８をコンテンツ区分回路網２４４の対応する出力として得る。訓練空間区分２６６は訓練センサーデータ２５０内のデータ要素に関連するクラスの予測を含み、訓練コンテンツ区分２６８は訓練アンカーコンテンツ２５２の様々な部分集合又は部分に関連するクラスの予測を含む。例えば、訓練空間区分２６６は、物理空間を表す訓練センサーデータ２５０の画素領域、３Ｄ点、及び／又は他のタイプについて物理空間内に見つかりうる床、壁、天井、照明器具、家具、装飾、ドア、窓、及び／又は他の物体を表すクラスの予測される確率を含みうる。訓練コンテンツ区分２６８は訓練アンカーコンテンツ２５２の様々な領域又は部分について訓練アンカーコンテンツ２５２内に見つかる又は表される前景、背景、風合い、物体、形状、構造、人々、人物、顔、動物、植物、及び／又は他の実体を表すクラスの予測される確率を含みうる。

前方パスの間、訓練エンジン１２２はまた、３Ｄ合成回路網２４６を使って訓練空間区分２６６及び訓練コンテンツ区分２６８のペアを３Ｄ場面を表す３Ｄ訓練出力２６４に変換し、３Ｄ場面は訓練センサーデータ２５０及び対応する訓練空間区分２６６が表す物理空間の属性を訓練アンカーコンテンツ２５２及び対応する訓練コンテンツ区分２６８の属性と結合する。例えば、訓練エンジン１２２は、物理空間についての一組の訓練センサーデータ２５０、空間区分回路網２４２によってその一組の訓練センサーデータ２５０から生成された対応する訓練空間区分、一組の訓練アンカーコンテンツ２５２、及び／又はコンテンツ区分回路網２４４によってその一組の訓練アンカーコンテンツ２５２から生成された訓練コンテンツ区分を３Ｄ合成回路網２４６に入力できる。入力に応答して、３Ｄ合成回路網２４６は神経放射輝度フィールド及び／又は３Ｄ場面ボリュームの別の表現を含む３Ｄ訓練出力２６４を生成しうる。３Ｄ場面ボリュームは入力された訓練センサーデータ２５０に関連する視覚及び意味属性を入力された訓練アンカーコンテンツ２５２に関連する視覚及び意味属性と結合できる。

１つ以上の実施形態では、３Ｄ合成回路網２４６は３Ｄ訓練出力２６４を複数の段階で生成する。例えば、３Ｄ合成回路網２４６は、２Ｄ訓練アンカーコンテンツ２５２及び対応する訓練コンテンツ区分２６８を与えられ、２Ｄ訓練アンカーコンテンツ２５２を同じ物体の３Ｄ表現に変換する第１組の神経回路網層を含みうる。３Ｄ合成回路網２４６はまた、３Ｄ表現、一組の訓練センサーデータ２５０、及び／又は一組の訓練センサーデータ２５０から生成された訓練空間区分２６６を含む入力を与えられて、一組の訓練センサーデータ２５０によって表される物理空間の３Ｄモデル内にその３Ｄ表現を配置する第２組の神経回路網層を含みうる。訓練アンカーコンテンツ２５２が物体の３Ｄ表現を含むならば、これらの３Ｄ表現は、第１組の神経回路網層による追加の処理を必要とせず第２組の神経回路網層に直接入力されうる。

前方パスが完了すると、訓練エンジン１２２は訓練データ２９８と空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６によって生成された出力とに基づいて複数の損失を計算する。より具体的には、訓練エンジン１２２は空間区分回路網２４２によって訓練センサーデータ２５０から生成された訓練空間区分２６６と対応するグラウンド現状データ区分２４８の間の１つ以上の区分損失２６２を計算する。訓練エンジン１２２はまた、又は代りにコンテンツ区分回路網２４４によって訓練アンカーコンテンツ２５２から生成された訓練コンテンツ区分２６８と対応するグラウンド現状データ区分２４８の間の１つ以上の区分損失２６２を計算する。これらの区分損失２６２はこれらに限定されないが、クロスエントロピー損失、さいころ損失、境界損失、Ｔｖｅｒｓｋｙ損失、及び／又は空間区分回路網２４２及び／又はコンテンツ区分回路網２４４によって生成された特定の区分と対応するグラウンド現状データ区分の間の誤差の別の計測値を含みうる。

訓練エンジン１２２はまた、又は代りに訓練アンカーコンテンツ２５２の一断片と外挿回路網２０６によって訓練アンカーコンテンツ２５２のその一断片及び一組の訓練センサーデータ２５０から生成された３Ｄ訓練出力２６４に関連する対応するビューの間の１つ以上の類似性損失２５６を計算する。幾つかの実施形態では、類似性損失２５６は訓練アンカーコンテンツ２５２と訓練アンカーコンテンツ２５２に基づいて生成された３Ｄ訓練出力２６４の描かれたビューの間の視覚類似性を計測する。例えば、訓練エンジン１２２はグラウンド現状データ区分２４８を使って訓練アンカーコンテンツ２５２がそれに亘って配置又は示される物理空間のある領域（例えば、１つ以上の壁、天井、床など）を特定できる。これらの領域は得られる３Ｄ訓練出力２６４が生成されるやり方を制御するために指定及び／又は選択されうる。訓練エンジン１２２はこれらの領域に関連するマスクを３Ｄ訓練出力２６４に適用してこれらの領域の外にある３Ｄ訓練出力２６４の部分を取り除きうる。訓練エンジン１２２は次にＬ１損失、Ｌ２損失、平均２乗誤差、Ｈｕｂｅｒ損失、及び／又は他の類似性損失２５６を訓練アンカーコンテンツ２５２の様々な構成要素の視覚属性（例えば、形状、色、パターン、画素値など）と３Ｄ訓練出力２６４の描かれたビューの視覚属性の間の類似性又は差異の計測値として計算しうる。訓練エンジン１２２はまた、又は代りに残りの３Ｄ訓練出力２６４及び／又は描かれたビューを第１組の潜在表現に変換しうり（例えば、３Ｄ合成回路網２４６の１つ以上の構成要素及び／又は予め訓練された特徴抽出器を残りの３Ｄ訓練出力２６４に適用することで）、１つ以上の類似性損失２５６を前記第１組の潜在表現と訓練アンカーコンテンツ２５２に関連する第２組の潜在表現（例えば、３Ｄ合成回路網２４６及び／又は予め訓練された特徴抽出器によって訓練アンカーコンテンツ２５２から生成された潜在表現２８８）の間の類似性又は差異の計測値として計算しうる。

訓練エンジン１２２はまた、又は代りに３Ｄ訓練出力２６４と対応する訓練センサーデータ２５０及び／又は訓練アンカーコンテンツ２５２に関連するグラウンド現状データ区分２４８とに基づいて１つ以上のレイアウト損失２６０を計算する。１つ以上の実施形態では、レイアウト損失２６０は３Ｄ訓練出力２６４が訓練センサーデータ２５０によって表される物理空間内に訓練アンカーコンテンツ２５２の意味論上有意義な配置を描く程度を計測する。

例えば、訓練エンジン１２２はグラウンド現状データ区分２４８を使って一組の訓練センサーデータ２５０によって表される部屋内の様々な物体（例えば、壁、天井、床、家具、装飾、窓、ドアなど）を特定できる。訓練エンジン１２２は３Ｄ訓練出力２６４に描かれるべきその部屋の物体の領域（例えば、訓練アンカーコンテンツ２５２の配置によって覆い隠されるべきでないドア、ドア枠、窓、窓枠、家具、装飾、物体の境界、及び／又は他の領域）を特定するマスクを生成できる。これらの領域は指定され及び／又は選択され得られる３Ｄ訓練出力２６４が生成されるやり方を制御できる。訓練エンジン１２２はマスクを３Ｄ訓練出力２６４に適用しこれらの領域外にある３Ｄ訓練出力２６４の部分を削除できる。訓練エンジン１２２は次にＬ１損失、Ｌ２損失、平均２乗誤差、Ｈｕｂｅｒ損失、及び／又は１つ以上の他のレイアウト損失を残りの３Ｄ訓練出力２６４（又は残りの３Ｄ訓練出力２６４の描かれたビュー）の視覚属性（例えば、形状、色、パターン、画素値など）と訓練センサーデータ２５０内の対応する物体の視覚属性の間の類似性又は差異の計測値として計算しうる。訓練エンジン１２２はまた、又は代りに残りの３Ｄ訓練出力２６４（又は残りの３Ｄ訓練出力２６４の描かれたビュー）を第１組の潜在表現に変換しうり（例えば、３Ｄ合成回路網２４６の１つ以上の構成要素及び／又は予め訓練された特徴抽出器を残りの３Ｄ訓練出力２６４に適用することで）、１つ以上のレイアウト損失２６０を前記第１組の潜在表現と訓練センサーデータ２１０内の対応する物体に関連する第２組の潜在表現（例えば、３Ｄ合成回路網２４６及び／又は予め訓練された特徴抽出器によってこれらの物体を描く又は表す訓練センサーデータ２５０の部分から生成された潜在表現２８８）の間の類似性又は差異の計測値として計算しうる。その結果、レイアウト損失２６０は３Ｄ訓練出力２６４が対応する位置にこれらの物体の正確で及び／又は完全な描写を含み、部屋を表す３Ｄボリューム内への訓練アンカーコンテンツ２５２の重ね又は配置がこれらの物体を遮ったり歪めたりしないことを保証するのに使用されうる。

幾つかの実施形態では、１つ以上のレイアウト損失２６０が、訓練アンカーコンテンツ２５２が特定の一組の訓練センサーデータ２５０によって表される物理空間内のある位置に配置されることを保証するのに使用されうる。これらの位置は、これらに限定されないが装飾のない表面、例えば壁又は床、閾サイズを超える空のボリューム（例えば、ある体積又は一組の寸法を超える部屋の空いた部分）、物体が置かれうる表面（例えば、テーブル、机、暖炉など）、及び／又は訓練アンカーコンテンツ２５２で装飾されうるあるタイプの物体（例えば照明器具、窓、又は訓練アンカーコンテンツ２５２がそこを通って流れうる玄関口、訓練アンカーコンテンツ２５２の対応する要素と結合されパターン又は動画を形成しうる風合い又は表面など）を含みうる。様々なタイプの訓練アンカーコンテンツ２５２をこれらの位置に配置するように機械学習モデル２８０を訓練するために、訓練エンジン１２２はこれらの領域又は位置を特定するマスクを生成しそのマスクを３Ｄ訓練出力２６４に適用しこれらの領域又は位置外にある３Ｄ訓練出力２６４の部分を削除できる。訓練エンジン１２２はまた、Ｌ１損失、Ｌ２損失、平均２乗誤差、Ｈｕｂｅｒ損失、及び／又は１つ以上の他のレイアウト損失２６０を残りの３Ｄ訓練出力２６４（又は残りの３Ｄ出力の描かれたビュー）の視覚属性と訓練アンカーコンテンツ２５２の視覚属性の間の類似性又は差異の計測値として計算できる。

言い換えると、レイアウト損失２６０は機械学習モデル２８０に一組の訓練センサーデータ２５０によって表される物理空間のある部分に配置されたあるタイプの訓練アンカーコンテンツ２５２及び／又はその一組の訓練センサーデータ２５０から生成された仮想ツインを含む３Ｄ訓練出力２６４を生成させるように規定されうる。例えば、レイアウト損失２６０は機械学習モデル２８０にテーブル、コーヒーテーブル、机、暖炉、敷物、床、及び／又は他の水平な表面を持つ物体（訓練空間区分２６６及び／又はグラウンド現状データ区分２４８によって特定される）上に置かれた訓練アンカーコンテンツ２５２内の器具、皿、ガラス食器、時計、人物、動物、及び／又は他の個別物体（訓練コンテンツ区分２６８及び／又はグラウンド現状データ区分２４８によって特定される）を含む３Ｄ訓練出力２６４を生成させるように規定されうる。別の例では、レイアウト損失２６０は機械学習モデル２８０に部屋の天井又は上部（訓練空間区分２６６及び／又はグラウンド現状データ区分２４８によって特定される）に沿って又は近くに訓練アンカーコンテンツ２５２内の雲、雨、星、光線、蔓、又は他の天上又は吊り下がった物体（訓練コンテンツ区分２６８及び／又はグラウンド現状データ区分２４８によって特定される）を含む３Ｄ訓練出力２６４を生成させるように規定されうる。第３の例では、レイアウト損失２６０は機械学習モデル２８０に空又は装飾のない空間（訓練空間区分２６６及び／又はグラウンド現状データ区分２４８によって特定される）を通って流れる訓練アンカーコンテンツ２５２内の川又は滝（訓練コンテンツ区分２６８及び／又はグラウンド現状データ区分２４８によって特定される）を含む訓練出力２６４を生成させるように規定されうる。

１つ以上の実施形態では、レイアウト損失２６０は３Ｄ訓練出力２６４に関連する時間ステップに亘る意味上及び／又は空間一貫性を保証するのに使用される。例えば、３Ｄ訓練出力２６４は訓練センサーデータ２１０によって表される物理空間内での訓練アンカーコンテンツ２５２内の対応する映像フレーム又は時間ステップからの物体の配置を描く一連の３Ｄボリュームを含みうる。訓練エンジン１２２は、３Ｄ訓練出力２６４内の１つ以上の前のフレーム、対応する訓練空間区分２６６、対応する訓練コンテンツ区分２６８、及び／又は訓練アンカーコンテンツ２５２内の対応するフレーム又は時間ステップを追加の入力として空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６に提供でき、訓練アンカーコンテンツ２５２の現在フレームからの３Ｄ訓練出力２６４の現在フレームの生成を通知する。訓練エンジン１２２はまた、３Ｄ訓練出力２６４内の連続する３Ｄボリューム間又はに亘る１つ以上のレイアウト損失２６０を計算でき、訓練アンカーコンテンツ２５２内の連続するフレーム又は時間ステップ内の物体又は動画が物理空間内の概ね同じ位置に配置される（跳ね回ったり不規則に変動したりすることなく）ことを保証する。

訓練エンジン１２２はまた、又は代りに３Ｄ合成回路網２４６によって出力された訓練アンカーコンテンツ２５２の３Ｄ表現と対応する訓練３Ｄ物体２５４の間の１つ以上の再構成損失２５８を計算する。例えば、訓練エンジン１２２は訓練３Ｄ物体２５４内の３Ｄモデルと３Ｄ合成回路網２４６によって２Ｄ訓練アンカーコンテンツ２５２の対応する部分から生成された３Ｄ表現の間の１つ以上の再構成損失２５８を計算できる。従って、再構成損失２５８は機械学習モデル２８０が訓練アンカーコンテンツ２５２内の２Ｄ物体の描写を対応する訓練３Ｄ物体２５４に変換することを学習するのを可能にする。

類似性損失２５６、再構成損失２５８、レイアウト損失２６０、及び／又は区分損失２６２を特定の前方パスについて計算した後、訓練エンジン１２２は、類似性損失２５６、再構成損失２５８、レイアウト損失２６０、及び／又は区分損失２６２の様々な並べ替え又は結合を使って空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６のパラメータを更新する後方パスを実行する。例えば、訓練エンジン１２２は訓練手法（例えば、勾配降下及び逆伝播）を使用して空間区分回路網２４２のパラメータを訓練空間区分２６６と対応するグラウンド現状データ区分２４８の間で計算された区分損失２６２に基づいて更新できる。訓練エンジン１２２はまた、コンテンツ区分回路網２４４のパラメータを訓練コンテンツ区分２６８と対応するグラウンド現状データ区分２４８の間で計算された区分損失２６２に基づいて更新できる。空間区分回路網２４２及びコンテンツ区分回路網２４４の訓練が完了した後、訓練エンジン１２２は空間区分回路網２４２、コンテンツ区分回路網２４４、及び３Ｄ合成回路網２４６のパラメータをレイアウト損失２６０、類似性損失２５６、及び／又は再構成損失２５８に基づいて凍結できる。訓練エンジン１２２はまた、区分損失２６２、レイアウト損失２６０、類似性損失２５６、及び／又は再構成損失２５８が対応する閾値未満になるまで、空間区分回路網２４２とコンテンツ区分回路網２４４を区分損失２６２に基づいて訓練するのと３Ｄ合成回路網２４６をレイアウト損失２６０、類似性損失２５６、及び／又は再構成損失２５８に基づいて訓練するのとを交互に続けうる。

別の例では、訓練エンジン１２２は３Ｄ訓練出力２６４に基づいて計算されたレイアウト損失２６０、類似性損失２５６、再構成損失２５８、及び／又は他の損失を使って空間区分回路網２４２、コンテンツ区分回路網２４４、及び３Ｄ合成回路網２４６の終端間訓練を実行できる。この終端間訓練は空間区分回路網２４２及びコンテンツ区分回路網２４４が対応する区分損失２６２に基づいて訓練された後に、空間区分回路網２４２及びコンテンツ区分回路網２４４の区分損失２６２に基づく訓練と交互に、及び／又は別のやり方で実行されうる。

訓練エンジン１２２の動作をあるタイプの損失に関して上記で説明したが、空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６は他のタイプの手法、損失、及び／又は機械学習構成要素を使って訓練されうることは理解されるであろう。例えば、訓練エンジン１２２は空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６を敵対的なやり方で１つ以上の弁別器神経回路網（不図示）を用い弁別器神経回路網によって生成された予測に基づいてグラウンド現状データ区分２４８、訓練空間区分２６６、訓練コンテンツ区分２６８、及び／又は３Ｄ訓練出力２６４から計算された１つ以上の弁別器損失を使用して訓練できる。別の例では、訓練エンジン１２２は空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６を３Ｄ訓練出力２６４に芸術家指針又はパラメータを反映させる１つ以上の損失を使用して訓練できる。この芸術家指針又はパラメータは対称、平衡、色、向き、規模、スタイル、訓練センサーデータ２５０によって表される物理空間に亘る訓練アンカーコンテンツ２５２の動き、訓練センサーデータ２５０によって表される物理空間内に描かれた又は置かれた訓練アンカーコンテンツ２５２内の物体のサイズ、及び／又は訓練アンカーコンテンツ２５２が訓練センサーデータ２５０によって表される物理空間に描かれる又は置かれるやり方に影響する他の属性に関連する。第３の例では、訓練エンジン１２２は２Ｄ又は３Ｄ訓練アンカーコンテンツ２５２の特定の断片を様々な物理空間に亘って拡張することを学習するように空間区分回路網２４２、コンテンツ区分回路網２４４、及び／又は３Ｄ合成回路網２４６を訓練できる。

機械学習モデル２８０の訓練が完了すると、実行エンジン１２４は訓練された機械学習モデル２８０の１つ以上の構成要素を使って出力３Ｄボリューム２８４を生成する。特に、実行エンジン１２４は空間区分回路網２４２を使って物理空間から収集したセンサーデータ２７４（例えば、画像、点群、格子、深度マップなど）をその物理空間内の物体２７８の位置、形状、及び向きを特定する意味上レイアウト２７６に変換する。実行エンジン１２４はまた、コンテンツ区分回路網２４４を使って、センサーデータ２７４に捕捉された又はセンサーデータ２７４と別に提供されたアンカーコンテンツ２９６の特定の断片（例えば、画像、絵画、映像など）を対応するコンテンツ区分２８２に変換する。実行エンジン１２４は次に３Ｄ合成回路網２４６を使ってレイアウト２７６内の物体２７８及び／又はコンテンツ区分２８２を使用して特定されたアンカーコンテンツ２９６の部分の潜在表現２８８を生成する。実行エンジン１２４はまた、３Ｄ合成回路網２４６を使って出力３Ｄボリューム２８４を潜在表現２８８に基づいて生成する（例えば、潜在表現２８８をサンプリングする、変換する、相関させる、又は他の処理をすることで）。上述したように、出力３Ｄボリューム２８４は物理空間からの一組の３Ｄ物体２８６（例えば、ドア、窓、家具、装飾など）をそれぞれの位置に含み、物理空間内に配置されたアンカーコンテンツ２９６の様々な部分の３Ｄ表現に対応する第２組の３Ｄ物体２８６を含む。

実行エンジン１２４はまた、出力３Ｄボリューム２８４の様々なビューをＡＲ環境２９２に取り込む。例えば、実行エンジン１２４はＡＲ環境２９２を提供するＡＲシステムに関連する視点をＡＲシステムによって捕捉された物理空間の画像、ＡＲシステムからの慣性センサーデータ、ＡＲシステムに対応する計算装置の位置及び向き、及び／又はＡＲシステムに関連する又は捕捉された他のセンサーデータ２２８に基づいて推定及び／又は決定しうる。実行エンジン１２４は機械学習モデル２８０を使って出力３Ｄボリューム２８４のビューをＡＲ環境２９２を提供するＡＲシステムの視点から描きうる。その結果、ＡＲ環境２９０は、ＡＲシステムと対話するユーザーの視点からアンカーコンテンツ２９６の３Ｄ表現の意味論上有意義な配置を物理空間に亘って描きうる。ユーザーがＡＲシステムの視点を変える及び／又はアンカーコンテンツ２９６を更新する時（例えば、アンカーコンテンツ２９６の追加部分を描く、アンカーコンテンツ２９６をトリミング、縮小／拡大、及び／又は変形する、アンカーコンテンツ２９６の色バランス、飽和、色温度、露光、輝度、及び／又は他の色関連の属性を変更する、アンカーコンテンツ２９６のビューを変更する、異なるファイルからアンカーコンテンツ２９６をロードする、アンカーコンテンツ２９６の複数のフレームを含む映像又は動画を再生するなどにより）、実行エンジン１２４は更新されたアンカーコンテンツ２９６及び／又は物理空間の最新ビュー又は表現を反映する更新されたセンサーデータ２７４を受信し、追加のセンサーデータ２７４から新しいレイアウト２７６を及び／又は新しいアンカーコンテンツ２９６から新しいコンテンツ区分２８２を生成し、新しいアンカーコンテンツ２９６に関連する３Ｄ物体２８６を描く新しい出力３Ｄボリューム２８４を生成し、最新ビューからその新しい出力３Ｄボリュームを描きうる。その結果、実行エンジン１２４はセンサーデータ２７４及び／又はアンカーコンテンツ２９６の変化に連続して応答する没入型ＡＲ環境２９２を生成する。

幾つかの実施形態では、出力３Ｄボリューム２８４は他のタイプの没入型環境、例えば仮想現実（ＶＲ）及び／又は複合現実（ＭＲ）環境などにおいて使用される。このコンテンツは個人の身元、ユーザー履歴、資格、財産、及び／又は報酬などのデータの連続性を提供しながら、任意の数のユーザーが同期して持続的に体験できる仮想世界を描きうる。なお、このコンテンツは従来の視聴覚コンテンツ及び完全に没入型ＶＲ、ＡＲ、及び／又はＭＲ体験の混成、例えば双方向ビデオを含みうる。

図３Ａは様々な実施形態に係る物理空間のレイアウト例を示す。図３Ａに示すように、レイアウト例は一断片のアンカーコンテンツを描く物体３０２を含む。例えば、物体３０２は壁に掛けられた絵画及び／又はモニター又はテレビ画面に表示された画像又は映像を含みうる。

図３Ａのレイアウトはまた、その物理空間内に配置された複数の追加の物体３０４、３０６、３０８、３１０、３１２、及び３１４を含む。例えば、物体３０４は一組の額縁からなり、物体３０６は本棚からなり、物体３０８はスピーカーシステム又はサウンドバーからなり、物体３１０はドアからなり、物体３１２は暖炉からなり、物体３１４は壁からなりうる。

図３Ｂは様々な実施形態に係る図３Ａの物理空間内に２Ｄアンカーコンテンツを拡張するＡＲ環境の例を示す。より具体的には、図３Ｂは物体３０２に描かれたアンカーコンテンツを物体３１４に対応する壁に亘って拡張するＡＲ環境を示す。図３Ｂに示すように、拡張されたアンカーコンテンツは物理空間内の現実世界物体３０２、３０４、３０６、３０８、３１０、３１２を覆い隠さない。代りに、アンカーコンテンツは壁の装飾のない部分に示されており、物体３０２、３０４、３０６、３０８、３１０、３１２、及び３１４は物理空間内のそれぞれの位置に示されている。その結果、アンカーコンテンツは物理空間のレイアウトと意味論上有意義なやり方で混合される。

図３Ｃは様々な実施形態に係る図３Ａの物理空間に関連する３Ｄボリュームのビューを含むＡＲ環境の例を示す。特に、図３Ｃは３Ｄボリュームのビューを含むＡＲ環境を示す。３Ｄボリュームは物体３０２に描かれたアンカーコンテンツの３Ｄ表現を物理空間内の様々な位置に含む。

より具体的には、３Ｄボリュームはアンカーコンテンツの様々な部分から生成された複数の３Ｄ物体３２２、３２４、及び３２６を含む。各３Ｄ物体３２２、３２４、及び３２６は３Ｄボリューム内の物理空間の空き部分に配置される。３Ｄボリュームはまた、図３Ａのレイアウトからの物体３０２、３０４、３０６、３０８、３１０、３１２、及び３１４を含む。

３Ｄボリュームはまた、アンカーコンテンツから生成された３Ｄ物体３２２、３２４、及び３２６と様々なビューからの物体３０２、３０４、３０６、３０８、３１０、３１２、及び３１４を描画するのに使用されうる。例えば、ユーザーはＡＲ環境を提供する計算装置を持って物理空間を歩き回り、様々な角度から３Ｄ物体３２２、３２４、及び３２６及び／又は物体３０２、３０４、３０６、３０８、３１０、３１２、及び３１４を眺め、様々な詳細レベルで３Ｄ物体３２２、３２４、及び３２６及び／又は物体３０２、３０４、３０６、３０８、３１０、３１２、及び３１４を眺め、特定の３Ｄ物体３２２、３２４、又は３２６及び／又は特定の現実世界物体３０２、３０４、３０６、３０８、３１０、３１２、又は３１４の位置、サイズ、色、及び／又は別の属性を変え、及び／又は他のやり方でＡＲ環境と対話できる。

図４Ａは様々な実施形態に係る物理空間のレイアウト例を示す。図３Ａのレイアウトと同様に、図４Ａのレイアウト例は一断片のアンカーコンテンツを描く物体４０２を含む。例えば、物体４０２は壁に掛けられた絵画及び／又はモニター又はテレビ画面に表示された画像を含みうる。

図４Ａのレイアウトはまた、その物理空間内に配置された複数の追加の物体４０４、４０６、４０８、４１０、４１２、及び４１４を含む。例えば、物体４０４は一組の額縁からなり、物体４０６は本棚からなり、物体４０８はスピーカーシステム又はサウンドバーからなり、物体４１０はドアからなり、物体４１２は暖炉からなり、物体４１４は壁からなりうる。

図４Ｂは様々な実施形態に係る図４Ａの物理空間内に２Ｄアンカーコンテンツを拡張するＡＲ環境の例を示す。より具体的には、図４Ｂは物体４０２に描かれたアンカーコンテンツを物体４１４に対応する壁に亘って拡張するＡＲ環境を示す。図４Ｂに示すように、拡張されたアンカーコンテンツは物理空間内の現実世界物体４０２、４０４、４０６、４０８、４１０、４１２、及び４１４を覆い隠さない。代りに、アンカーコンテンツは壁の装飾のない部分に示されており、物体４０２、４０４、４０６、４０８、４１０、４１２、及び４１４は物理空間内のそれぞれの位置に示されている。その結果、アンカーコンテンツは物理空間のレイアウトと意味論上有意義なやり方で混合される。

図４Ｃは様々な実施形態に係る図４Ａの物理空間に関連する３Ｄボリュームのビューを含むＡＲ環境の例を示す。特に、図４Ｃは３Ｄボリュームのビューを含むＡＲ環境を示す。３Ｄボリュームは物体４０２に描かれたアンカーコンテンツの３Ｄ表現を物理空間内の様々な位置に含む。

より具体的には、３Ｄボリュームはアンカーコンテンツの様々な部分から生成された複数の３Ｄ物体４２２、４２４、４２６、及び４２８を含む。各３Ｄ物体４２２、４２４、４２６、及び４２８は３Ｄボリューム内の物理空間の空き部分に配置される。３Ｄボリュームはまた、物体４１４に対応する壁に亘るアンカーコンテンツの２Ｄ拡張を含む。

３Ｄボリュームはまた、アンカーコンテンツから生成された３Ｄ物体４２２、４２４、４２６、及び４２８と様々なビューからの物体４０２、４０４、４０６、４０８、４１０、４１２、及び４１４を描画するのに使用されうる。例えば、ユーザーはＡＲ環境を提供するＡＲ装置を持って物理空間を歩き回り、様々な角度から３Ｄ物体４２２、４２４、４２６、及び４２８及び／又は物体４０２、４０４、４０６、４０８、４１０、４１２、及び４１４を眺め、様々な詳細レベルで３Ｄ物体４２２、４２４、４２６、及び４２８及び／又は物体４０２、４０４、４０６、４０８、４１０、４１２、及び４１４を眺め、特定の３Ｄ物体４２２、４２４、４２６、又は４２８及び／又は特定の現実世界物体４０２、４０４、４０６、４０８、４１０、４１２、又は４１４の位置、サイズ、色、及び／又は別の属性を変え、及び／又は他のやり方でＡＲ環境と対話できる。

図３Ｂ、３Ｃ、４Ｂ、及び４ＣのＡＲ環境例は対応する物理空間内のアンカーコンテンツのある拡張又は配置を描くが、アンカーコンテンツを物理空間に亘って他のやり方で拡張できることは理解されるであろう。例えば、物体３０２又は４０２に描かれた絵画、画像、又は映像は物体３１４又は４１４に対応する壁全体に亘って拡張され、ＡＲ環境を提供するＡＲシステムに関連する視点から見える１つ以上の物体３０２、３０４、３０６、３０８、３１０、３１２、４０２、４０４、４０６、４０８、４１０、及び／又は４１２上に重ねられ、及び／又はＡＲ環境を提供するＡＲシステムに関連する視点から見える１つ以上の物体３０２、３０４、３０６、３０８、３１０、３１２、４０２、４０４、４０６、４０８、４１０、及び／又は４１２を覆い隠すのに使用されうる。

一般的に、アンカーコンテンツが特定の空間内に拡張、投影、又は配置されるやり方は、対応する機械学習モデル（例えば、機械学習モデル２００及び／又は２８０）がＡＲコンテンツを生成するように訓練されるのに使用される損失に基づいて制御されうる。例えば、機械学習モデルはアンカーコンテンツの様々な断片を物理空間内に拡張、投影、又は配置するように訓練されうり、その結果、物理空間内のある物体はアンカーコンテンツによって影響されず、ある物体はアンカーコンテンツと対話する（例えば、支持する、収容する、融合されるなど）として描かれ、ある物体はアンカーコンテンツを重ねられる、及び／又はある物体はアンカーコンテンツによって覆い隠される。

図５は様々な実施形態に係る機械学習モデルを訓練しアンカーコンテンツを物理空間内に組み込むＡＲコンテンツを生成するための方法ステップのフロー図である。方法ステップが図１～２Ｂのシステムと共に説明されるが、方法ステップを任意の順序で実行するように構成されたどんなシステムも本開示の範囲内に入ることを当業者は理解するであろう。

図示のように、ステップ５０２で、訓練エンジン１２２は１つ以上の物理空間及び／又は１つ以上の組のアンカーコンテンツに関連する意味上区分を生成する第１組の神経回路網を動作させる。例えば、訓練エンジン１２２は画像、点群、格子、深度マップ、及び／又は物理空間の他のセンサーデータ又は表現を第１区分神経回路網に入力できる。訓練エンジン１２２は第１区分神経回路網を動作させて第１区分神経回路網の出力としてセンサーデータの様々な領域について物体（例えば、壁、天井、床、玄関口、ドア、窓、暖炉、照明器具、様々なタイプの家具、様々なタイプの装飾など）の予測を得ることができる。訓練エンジン１２２はまた、又は代りに特定の組のアンカーコンテンツの１つ以上の画像、映像フレーム、３Ｄ物体、及び／又は他の表現を第２区分神経回路網に入力できる。訓練エンジン１２２は第２区分神経回路網を動作させて第２区分神経回路網の出力としてアンカーコンテンツの様々な領域又は部分集合について物体（例えば、人々、動物、植物、顔、人物、背景、前景、構造など）の予測を得ることができる。

ステップ５０４で、訓練エンジン１２２は意味上区分に関連する１つ以上の区分損失に基づいて第１組の神経回路網のパラメータを更新する。上記の例を続けると、訓練エンジン１２２はセンサーデータに関連する第１組のグラウンド現状データ区分及び／又はアンカーコンテンツに関連する第２組のグラウンド現状データ区分を得ることができる。各グラウンド現状データ区分は対応するセンサーデータ及び／又はアンカーコンテンツの様々な領域、部分、又は部分集合に対応する物体を特定するラベルを含みうる。訓練エンジン１２２はクロスエントロピー損失、さいころ損失、境界損失、Ｔｖｅｒｓｋｙ損失、及び／又は区分神経回路網によって出力される特定の区分と対応するグラウンド現状データ区分の間の誤差の別の計測値を計算できる。訓練エンジン１２２は次に勾配降下及び逆伝播を使用してその区分神経回路網内の神経回路網重みを誤差の計測値を低減するように更新できる。

ステップ５０６で、訓練エンジン１２２は第１組の神経回路網の訓練を続けるべきか否かを判断する。例えば、訓練エンジン１２２は各区分神経回路網は１つ以上の条件が満たされるまで対応する区分損失を使って訓練され続けるべきと判断しうる。これらの条件はこれらに限定されないが区分神経回路網のパラメータの収束、閾値未満への区分損失の低下、及び／又はある数の訓練ステップ、繰り返し、バッチ、及び／又は出来事を含む。第１組の神経回路網の訓練が続く間、訓練エンジン１２２はステップ５０２及び５０４を繰り返す。

訓練エンジン１２２が第１組の神経回路網の訓練が完了したと判断すると（ステップ５０６）、訓練エンジン１２２はＡＲコンテンツを生成するように第２組の神経回路網を訓練するのを始める。より具体的には、ステップ５０８で訓練エンジン１２２は意味上区分及び／又は物理空間及び／又はアンカーコンテンツに関連する追加のデータに基づいて２Ｄ出力及び／又は３Ｄ出力を生成する第２組の神経回路網を動作させる。例えば、訓練エンジン１２２は１つ以上の訓練された区分神経回路網を使用して物理空間及び／又は１つ以上の組のアンカーコンテンツに対してセンサーデータの意味上区分を生成しうる。訓練エンジン１２２は意味上区分を対応するセンサーデータ及びアンカーコンテンツと共に外挿回路網に入力し外挿回路網を動作させて１つ以上の画像を含む２Ｄ出力を生成できる。各画像はセンサーデータが表す物理空間の属性を一組のアンカーコンテンツの属性と結合できる。訓練エンジン１２２はまた、又は代りに意味上区分を対応するセンサーデータ及びアンカーコンテンツと共に３Ｄ合成回路網に入力し３Ｄ合成回路網を動作させて３Ｄボリュームを生成できる。３Ｄボリュームは神経放射輝度フィールド及び／又は入力されたセンサーデータに関連する視覚及び意味属性を入力されたアンカーコンテンツに関連する視覚及び意味属性と結合する３Ｄ場面の別の表現を含みうる。

ステップ５１０で、訓練エンジン１２２は２Ｄ及び／又は３Ｄ出力に関連する１つ以上の損失に基づいて第２組の神経回路網のパラメータを更新する。上記の例を続けると、訓練エンジン１２２は、外挿回路網によって生成された２Ｄ出力に描かれた物理空間の一部に亘るアンカーコンテンツの拡張の視覚属性とアンカーコンテンツの対応する部分の間の差異の計測値として、類似性損失を計算することで外挿回路網を訓練できる。訓練エンジン１２２はまた、又は代りに２Ｄ出力内の物理空間の一部の描写と物理空間のセンサーデータの対応する部分の間の差異の計測値としてレイアウト損失を計算しうる。訓練エンジン１２２は次に勾配降下及び逆伝播を使用してその外挿回路網内の神経回路網重みを類似性損失及び／又はレイアウト損失を低減するように更新できる。

訓練エンジン１２２は３Ｄ合成回路網によって生成されたアンカーコンテンツの１つ以上の３Ｄ表現とアンカーコンテンツに関連する１つ以上のグラウンド現状データ３Ｄ物体とに基づいて再構成損失を計算することで３Ｄ合成回路網を訓練できる。訓練エンジン１２２はまた、又は代りに第１の３Ｄボリューム内の物理空間の部分集合の表現と物理空間のセンサーデータの対応する部分集合の間の差異の計測値としてレイアウト損失を計算できる。訓練エンジン１２２はまた、又は代りに第１の３Ｄボリューム内のアンカーコンテンツの１つ以上の３Ｄ表現の配置に基づいて別のレイアウト損失を計算できる。訓練エンジン１２２はまた、又は代りに３Ｄボリューム内のアンカーコンテンツの１つ以上の描画されたビューの視覚属性とアンカーコンテンツの対応する部分の間の差異の計測値として類似性損失を計算しうる。訓練エンジン１２２は次に勾配降下及び逆伝播を使用してその３Ｄ合成回路網内の神経回路網重みを再構成損失、類似性損失、及び／又はレイアウト損失を低減するように更新できる。

ステップ５１２で、訓練エンジン１２２は第２組の神経回路網の訓練を続けるべきか否かを判断する。例えば、訓練エンジン１２２は外挿回路網及び／又は３Ｄ合成回路網は対応する損失を使って１つ以上の条件が満たされるまで訓練され続けるべきと判断しうる。これらの条件はこれらに限定されないが神経回路網のパラメータの収束、閾値未満への損失の低下、及び／又はある数の訓練ステップ、繰り返し、バッチ、及び／又は出来事を含む。第２組の神経回路網の訓練が続く間、訓練エンジン１２２はステップ５０８及び５１０を繰り返す。次に訓練エンジン１２２は、条件が満たされると第２組の神経回路網を訓練するプロセスを終了する。

訓練エンジン１２２はまた、ステップ５０２、５０４、５０６、５０８、５１０、及び５１２を１回以上繰り返し第１及び／又は第２組の神経回路網を訓練し続けうる。例えば、訓練エンジン１２２は、全ての損失がそれぞれの閾値を満たす、各タイプの訓練をある回数実行する、及び／又は別の条件が満たされるまで第１及び第２組の神経回路網を訓練するのを交互させうる。訓練エンジン１２２はまた、又は代りに第１及び第２組の神経回路網の終端間訓練の１つ以上のラウンドを実行して全ての神経回路網の動作をアンカーコンテンツ及び物理空間の描写からＡＲコンテンツを生成するタスクに合わせて最適化できる。

図６は様々な実施形態に係る一組のアンカーコンテンツを物理空間のレイアウトに組み込むＡＲ環境を生成するための方法ステップのフロー図である。方法ステップが図１～２Ｂのシステムと共に説明されるが、方法ステップを任意の順序で実行するように構成されたどんなシステムも本開示の範囲内に入ることを当業者は理解するであろう。

図示のように、ステップ６０２で、実行エンジン１２４は物理空間のレイアウトを物理空間に関連するセンサーデータに基づいて決定する。例えば、実行エンジン１２４はセンサーデータを物理空間の一組の画像、点群、格子、深度マップ、及び／又は視覚又は空間属性の別の表現として受信しうる。実行エンジン１２４はまた、第１区分神経回路網を使ってレイアウトをセンサーデータの意味上区分として生成しうる。意味上区分はセンサーデータの様々な領域又は部分集合についての現実世界物体（床、天井、壁、装飾、机、椅子、ソファー、敷物、絵画など）の予測を含みうる。

ステップ６０４で、実行エンジン１２４は一組のアンカーコンテンツに関連する意味上区分を決定する。一組のアンカーコンテンツはアンカーコンテンツの１つ以上の断片を含みうり、アンカーコンテンツの特定の断片は、これらに限定されないが画像、映像フレーム、２Ｄ又は３Ｄ形状、風合い、音声クリップ、及び／又はＡＲ環境に取り込まれる別のタイプのコンテンツを含みうる。実行エンジン１２４は１つ以上の画像、映像フレーム、３Ｄモデル、及び／又は他のタイプのアンカーコンテンツを第２区分神経回路網に入力できる。アンカーコンテンツは物理空間のセンサーデータの部分集合としてユーザーによって選択され及び／又はセンサーデータとは別に提供されうる。実行エンジン１２４はまた、意味上区分を第２区分神経回路網の出力として得ることができる。意味上区分はアンカーコンテンツの様々な領域又は部分集合についてのコンテンツに基づく物体（例えば、顔、人物、世界、状況、動物、植物、建物、車、構造、形状など）の予測を含む。

ステップ６０６で、実行エンジン１２４はセンサーデータ、アンカーコンテンツ、レイアウト、及び／又は意味上区分を機械学習モデルに入力する。例えば、実行エンジン１２４はセンサーデータ、アンカーコンテンツ、レイアウト、及び／又は意味上区分を２Ｄ出力を生成する外挿回路網に入力できる。実行エンジン１２４はまた、又は代りにセンサーデータ、アンカーコンテンツ、レイアウト、及び／又は意味上区分を３Ｄ出力を生成する３Ｄ合成回路網に入力できる。

ステップ６０８で、実行エンジン１２４は機械学習モデルの動作により物理空間の第１部分の描写及び物理空間の第２部分集合内のアンカーコンテンツの表現を含む１つ以上の画像及び／又は３Ｄボリュームを生成する。例えば、実行エンジン１２４は外挿回路網を使用して標準箱形部屋を表す立方体の六面に対応する６つの画像を生成しうる。実行エンジン１２４はまた、又は代りに外挿回路網を使用して箱形部屋に限定されない物理空間の３６０度、球形、及び／又は別のタイプのパノラマビューを描く１つ以上の画像を生成しうる。各画像は部屋内の現実世界物体、例えばドア、窓、家具、及び／又は装飾を描きうる。各画像はまた、部屋内の壁、床、天井、及び／又は他の表面上に重ねられたアンカーコンテンツの様々な構成要素を描きうる。アンカーコンテンツのこれらの構成要素はまた、部屋内のドア、窓、家具、装飾、及び／又は他の物体を遮る及び／又は一部重なるのを避けるように対応する画像内に配置又は分散されうる。

別の例では、実行エンジン１２４は３Ｄ合成回路網を使用して神経放射輝度フィールド及び／又は３Ｄ場面の別の表現を含む３Ｄ出力を生成しうる。３Ｄ出力は物理空間からの現実世界物体、例えばドア、窓、家具、及び／又は装飾などの３Ｄ表現を含みうる。３Ｄ出力はまた、アンカーコンテンツの様々な構成要素に対応し部屋の空き部分に位置する及び／又はあるタイプの表面上に配置された２Ｄ又は３Ｄ物体を含みうる。アンカーコンテンツのこれらの構成要素はまた、３Ｄボリューム内に位置し部屋内のドア、窓、家具、装飾、及び／又は他の物体を遮る及び／又は一部重なるのを避けうる。アンカーコンテンツのこれらの構成要素はまた、又は代りに構成要素が部屋内の物体と相互作用又は融合するのを許すように配置されうる。

ステップ６１０で、実行エンジン１２４は画像及び／又は３Ｄボリュームの１つ以上のビューを計算装置が提供するＡＲ環境内に出力させる。例えば、実行エンジン１２４は画像を計算装置の表示器によって生成される視覚出力に組み込み、その結果、ＡＲシステムと対話するユーザーの視点からＡＲ環境がアンカーコンテンツの意味論上有意義な拡張を物理空間に亘って描くように見えうる。別の例では、実行エンジン１２４は３Ｄ合成回路網を使用して３Ｄボリュームのビューを計算装置の視点から描画し計算装置にそのビューをユーザーに出力させうる。

ステップ６１２で、実行エンジン１２４はＡＲ環境を提供し続けるか否かを判断する。例えば、実行エンジン１２４はＡＲ環境を実現しているアプリケーションが計算装置で動作している間、及び／又はユーザーがＡＲ環境と対話する間、ＡＲ環境が提供されるべきと判断しうる。ＡＲ環境が提供されるべきならば、実行エンジン１２４はステップ６０２、６０４、６０６、６０８、及び６１０を繰り返し、計算装置の視点、物理空間、及び／又はアンカーコンテンツの変化に応答してＡＲ環境を更新する。例えば、実行エンジン１２４は、ユーザーからの「描く」入力としてアンカーコンテンツの更新；アンカーコンテンツのトリミング、縮小／拡大、及び／又は他の変形；アンカーコンテンツの色バランス、飽和、色温度、露光、輝度、及び／又は他の色関連の属性の変更；アンカーコンテンツに適用されるはっきりさせる、ぼやかす、ノイズ除去、歪める、又は他の変更；アンカーコンテンツのビューの変化；１つ以上のファイルからアンカーコンテンツの選択；及び／又はアンカー画像の複数のフレームを含む映像の再生を受信できる。実行エンジン１２４はまた、又は代りに計算装置の動き及び／又は物理空間の変化を反映する追加のセンサーデータを受信できる。実行エンジン１２４はステップ６０２を実行して追加のセンサーデータから新しいレイアウトを生成し、ステップ６０４を実行してアンカーコンテンツから意味上区分を生成しうる。実行エンジン１２４はまた、ステップ６０６及び６０８を実行して現在の視点からの物理空間を最新のアンカーコンテンツと結合する新しい２Ｄ又は３Ｄ出力を生成しうる。その結果、実行エンジン１２４はユーザーが物理空間のアンカーコンテンツとの意味論上有意義な結合を探索するのを可能にする没入型ＡＲ環境を生成する。

要約すると、開示された手法は物理空間内の写真、絵画、映像フレーム、描画された場面、動画場面、又は他のタイプのアンカーコンテンツの２Ｄ又は３Ｄ表現を拡張又は配置するＡＲコンテンツを生成する。物理空間は１つ以上の画像、点群、格子、深度マップ、及び／又は他のタイプのセンサーデータによって表現される。機械学習モデルはセンサーデータの第１意味上区分及びアンカーコンテンツの第２意味上区分を生成するのに使用される。第１意味上区分はセンサーデータの様々な領域又は部分集合についての部屋（又は他のタイプの物理空間）に通常見つかる物体の予測を含む。第２意味上区分はアンカーコンテンツの様々な領域又は部分集合についてのアンカーコンテンツに通常関連する物体の予測を含む。

機械学習モデルの別の部分は意味上区分、センサーデータ、及びアンカーコンテンツをＡＲコンテンツに変換するのに使用される。ＡＲコンテンツは物理空間をある視点から描く１つ以上の画像を含みうる。それらの画像は物理空間内のあるタイプの現実世界物体（例えば、ドア、窓、家具など）の表現と物理空間内の他のタイプの現実世界物体（例えば、壁、天井、床など）に亘るＡＲコンテンツの拡張とを含む。ＡＲコンテンツはまた、又は代りに機械学習モデルによって生成された３Ｄボリュームの１つ以上のビューを含みうる。それらのビューは物理空間の描写と物理空間内の様々な位置にＡＲコンテンツの３Ｄ表現の配置とを含みうる。

ＡＲコンテンツは携帯電子装置、装着型装置、及び／又は別のタイプの計算装置によって提供されるＡＲ、ＶＲ、及び／又は複合現実環境に出力される。計算装置の位置及び向き、物理空間、及び／又はアンカーコンテンツが変化する時、機械学習モデルがセンサーデータ及び／又はアンカーコンテンツの変化を反映する更新されたＡＲコンテンツを生成するために使用される。更新されたＡＲコンテンツはまた、ＡＲ環境に出力され計算装置のユーザーがＡＲ環境を探索、変更、又は対話するのを許す。

１．幾つかの実施形態では、拡張現実コンテンツを生成するためのコンピュータ実行方法は、物理空間の第１レイアウトと第１組のアンカーコンテンツを機械学習モデルに入力するステップと、前記機械学習モデルの動作により（１）前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内に前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、前記第１の３Ｄボリュームの１つ以上のビューを計算装置に出力させるステップとを含む。

２．前記第１の３Ｄボリュームを生成するステップは、前記機械学習モデルに含まれる第１組の神経回路網層を前記第１組のアンカーコンテンツに適用して前記第１組のアンカーコンテンツの意味上区分を生成することと、前記機械学習モデルに含まれる第２組の神経回路網層を前記第１レイアウト、前記第１組のアンカーコンテンツ、及び前記意味上区分に適用して前記第１の３Ｄボリュームを生成することとを含む、項１記載のコンピュータ実行方法。

３．前記第１の３Ｄボリュームを生成するステップは、前記機械学習モデルに含まれる第１組の神経回路網層を前記第１組のアンカーコンテンツに適用して前記１つ以上の３Ｄ表現を生成することと、前記機械学習モデルに含まれる第２組の神経回路網層を前記１つ以上の３Ｄ表現及び前記第１レイアウトに適用して前記物理空間の前記第２部分集合内に前記１つ以上の３Ｄ表現の前記配置を決定することとを含む、項１又は２記載のコンピュータ実行方法。

４．前記機械学習モデルの動作により前記物理空間に関連するセンサーデータの意味上区分として前記第１レイアウトを生成するステップを更に含む項１～３のいずれかに記載のコンピュータ実行方法。

５．前記センサーデータは前記物理空間の画像、点群、格子、又は深度マップのうち少なくとも１つを含む、項１～４のいずれかに記載のコンピュータ実行方法。

６．一組の訓練レイアウト、一組の訓練アンカー画像、及び前記第１の３Ｄボリュームに関連する１つ以上の損失に基づいて前記機械学習モデルを訓練するステップを更に含む項１～５のいずれかに記載のコンピュータ実行方法。

７．前記１つ以上の損失は前記第１の３Ｄボリューム内の前記物理空間の前記第１部分集合の表現と前記物理空間の対応する部分集合とに基づいて計算されるレイアウト損失を含む、項１～６のいずれかに記載のコンピュータ実行方法。

８．前記１つ以上の損失は前記第１レイアウトと前記第１の３Ｄボリューム内の前記第１組のアンカーコンテンツの前記１つ以上の３Ｄ表現の前記配置とに基づいて計算されるレイアウト損失を含む、項１～７のいずれかに記載のコンピュータ実行方法。

９．前記第１の３Ｄボリュームは神経放射輝度フィールドを含む、項１～８のいずれかに記載のコンピュータ実行方法。

１０．前記第１組のアンカーコンテンツは画像、映像、又は３Ｄ物体のうち少なくとも１つを含む、項１～９のいずれかに記載のコンピュータ実行方法。

１１．幾つかの実施形態では、１つ以上の持続性コンピュータ読取可能媒体は、命令群であって、１つ以上のプロセッサによって実行される時、前記１つ以上のプロセッサに、物理空間の第１レイアウトと第１組のアンカーコンテンツを機械学習モデルに入力するステップと、前記機械学習モデルの動作により（１）前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内に前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、前記第１の３Ｄボリュームの１つ以上のビューを計算装置に出力させるステップとを実行させる命令群を記憶する。

１２．前記命令群は前記１つ以上のプロセッサに、前記機械学習モデルに含まれる一組の神経回路網層を前記物理空間に関連するセンサーデータに適用して前記第１レイアウトを生成するステップを更に実行させ、前記第１レイアウトは前記センサーデータの複数の領域についての複数の物体の予測を含む、項１１記載の１つ以上の持続性コンピュータ読取可能媒体。

１３．前記命令群は前記１つ以上のプロセッサに、前記機械学習モデルの動作により（１）前記物理空間の第３部分集合と（２）前記物理空間の第４部分集合内に第２組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第２の３Ｄボリュームを生成するステップと、前記第２の３Ｄボリュームの１つ以上のビューを前記計算装置に出力させるステップとを更に実行させる、項１１又は１２記載の１つ以上の持続性コンピュータ読取可能媒体。

１４．前記第１組のアンカーコンテンツ及び前記第２組のアンカーコンテンツは映像に含まれる複数の異なる映像フレーム、２つの異なる場面の描写、又は複数の異なる組の３Ｄ物体の少なくとも１つを含む、項１１～１３のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

１５．前記命令群は前記１つ以上のプロセッサに、前記機械学習モデルを前記第１の３Ｄボリュームに関連する１つ以上の損失に基づいて訓練するステップを更に実行させる、項１１～１４のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

１６．前記１つ以上の損失は前記第１組のアンカーコンテンツと前記３Ｄボリューム内の前記物理空間の前記第２部分集合の描写とに基づいて計算される類似性損失を含む、項１１～１５のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

１７．前記１つ以上の損失は前記機械学習モデルによって生成された前記第１組のアンカーコンテンツの前記１つ以上の３Ｄ表現と１つ以上の３Ｄ物体とに基づいて計算される再構成損失を含む、項１１～１６のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

１８．前記１つ以上の損失は前記第１組のアンカーコンテンツの意味上区分と前記第１組のアンカーコンテンツに関連するグラウンド現状データ区分とに基づいて計算される区分損失を含む、項１１～１７のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

１９．前記第１の３Ｄボリュームの１つ以上のビューを前記計算装置に出力させる前記ステップは、前記１つ以上のビューから前記第１の３Ｄボリュームを描くことと、前記１つ以上のビューを前記計算装置が提供する拡張現実環境内に出力することとを含む、項１１～１８のいずれかに記載の１つ以上の持続性コンピュータ読取可能媒体。

２０．幾つかの実施形態では、システムは命令群を記憶する１つ以上のメモリと前記１つ以上のメモリと結合された１つ以上のプロセッサとを備え、前記１つ以上のプロセッサは、前記命令群を実行する時、物理空間の第１表現と第１組のアンカーコンテンツを機械学習モデルに入力するステップと、前記機械学習モデルの動作により（１）前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内に前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、前記第１の３Ｄボリュームの１つ以上のビューを計算装置に出力させるステップとを実行するように構成される。

請求項のいずれかに記述された請求要素のいずれか及び／又は本願に記載されたいずれかの要素の任意の組み合わせ及び全ての組み合わせは、任意のやり方で、本発明及び保護の考慮された範囲内に入る。

様々な実施形態の説明が例示の目的のために提示されたが、網羅的であることも開示した実施形態に限定されることも意図されていない。説明した実施形態の範囲及び要旨から逸脱することなく多くの改良及び変更が、当業者には明らかであろう。

本実施形態の態様はシステム、方法、又はコンピュータプログラム製品として具体化されてもよい。従って、本開示の態様は完全にハードウェア実施形態、完全にソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、又は本明細書において一般に「モジュール」、「システム」、又は「コンピュータ」と呼ばれうるソフトウェア態様とハードウェア態様を組み合わせた実施形態の形をとってもよい。また、本開示に記載されたいずれのハードウェア及び／又はソフトウェア手法、プロセス、機能、構成要素、エンジン、モジュール、又はシステムも回路又は一組の回路として実現されてよい。また、本開示の態様は、コンピュータ読取可能プログラムコードが組み込まれた１つ以上のコンピュータ読取可能媒体に具体化されたコンピュータプログラム製品の形をとってもよい。

１つ以上のコンピュータ読取可能媒体のいずれの組み合わせも利用してよい。コンピュータ読取可能媒体は、コンピュータ読取可能信号媒体又はコンピュータ読取可能記憶媒体であってもよい。コンピュータ読取可能記憶媒体は、例えば、これらに限定されないが、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置、又はデバイス、又はそれらの任意の適切な組み合わせであってよい。コンピュータ読取可能記憶媒体のより具体的な例（非網羅的リスト）は、１つ以上のワイヤーを有する電気的接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去・プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ‐ＲＯＭ）、光学記憶装置、磁気記憶装置、又はそれらの任意の適切な組み合わせを含むであろう。本明細書の文脈では、コンピュータ読取可能記憶媒体は、命令実行システム、装置、又はデバイスによる又はに関連した使用のためのプログラムを含み又は記憶しうる任意の有形の媒体であってよい。

本開示の態様は、本開示の実施形態に係るフローチャート図及び／又は方法、装置（システム）、及びコンピュータプログラム製品のブロック図を参照して上記で説明されている。フローチャート図及び／又はブロック図の各ブロックと、フローチャート図及び／又はブロック図内のブロックの組み合わせとはコンピュータプログラム命令群により実施されうることは理解されよう。これらのコンピュータプログラム命令は汎用コンピュータ、特殊用途コンピュータ、又は機械を製造する他のプログラム可能データ処理装置のプロセッサに提供されてもよい。コンピュータ又は他のプログラム可能データ処理装置のプロセッサにより実行される時、それらの命令はフローチャートに明記された機能／動作及び／又はブロック図内ブロックの実施を可能にする。そのようなプロセッサは、限定されないが、汎用プロセッサ、特殊用途プロセッサ、特定用途向けプロセッサ、又はフィールド・プログラム可能ゲートアレイであってもよい。

図のフローチャート及びブロック図は、本開示の様々な実施形態に係る、システム、方法、及びコンピュータプログラム製品の可能な実施形態のアーキテクチャ、機能、及び動作を例示する。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実施するための１つ以上の実行可能命令を含むコードのモジュール、セグメント、又は部分を表す場合がある。なお、別の実施形態では、ブロックに記された機能は、図に記された順番から外れて発生してもよい。例えば、続けて示された２つのブロックは、実際には実質的に同時に実行されるか、又は係る機能に依って、時には逆の順番に実行されるかもしれない。また、ブロック図及び／又はフローチャート図の各ブロックと、ブロック図及び／又はフローチャート図内のブロックの組み合わせとは、指定の機能又は動作を実行する特殊用途ハードウェアシステム又は特殊用途ハードウェア及びコンピュータ命令群の組み合わせにより実施されうる。

上記は本開示の実施形態に向けられているが、本開示の他の及び追加の実施形態を本開示の基本的な範囲から逸脱することなく思い付くかもしれない。本開示の範囲は添付の請求項により決定される。

１００計算装置
１０２プロセッサ
１０４Ｉ／Ｏ装置インターフェース
１０６ネットワークインターフェース
１０８Ｉ／Ｏ装置
１１０ネットワーク
１１２相互接続（バス）
１１４記憶装置
１１６メモリ
１２２訓練エンジン
１２４実行エンジン
３０２物体（壁に掛けられた絵画又はモニターに表示された画像）
３０４物体（一組の額縁）
３０６物体（本棚）
３０８物体（スピーカーシステム又はサウンドバー）
３１０物体（ドア）
３１２物体（暖炉）
３１４物体（壁）

Claims

拡張現実コンテンツを生成するためのコンピュータ実行方法であって、
物理空間の第１レイアウトと、前記物理空間内に表される第１組のアンカーコンテンツとを機械学習モデルに入力するステップと、
前記機械学習モデルの動作により（１）前記第１組のアンカーコンテンツを含む前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内における前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置であって、前記物理空間の第１部分集合内の前記第１組のアンカーコンテンツの位置に対し、前記物理空間内の異なる位置に置かれる１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、
前記第１の３Ｄボリュームの１つ以上のビューを計算装置が提供する拡張現実環境内に出力させるステップと
を含むコンピュータ実行方法。
前記第１の３Ｄボリュームを生成するステップは、
前記機械学習モデルに含まれる第１組の神経回路網層を前記第１組のアンカーコンテンツに適用して前記第１組のアンカーコンテンツの意味上区分を生成することと、
前記機械学習モデルに含まれる第２組の神経回路網層を前記第１レイアウト、前記第１組のアンカーコンテンツ、及び前記意味上区分に適用して前記第１の３Ｄボリュームを生成することと
を含む、請求項１記載のコンピュータ実行方法。
前記第１の３Ｄボリュームを生成するステップは、
前記機械学習モデルに含まれる第１組の神経回路網層を前記第１組のアンカーコンテンツに適用して前記１つ以上の３Ｄ表現を生成することと、
前記機械学習モデルに含まれる第２組の神経回路網層を前記１つ以上の３Ｄ表現及び前記第１レイアウトに適用して前記物理空間の前記第２部分集合内に前記１つ以上の３Ｄ表現の前記配置を決定することと
を含む、請求項１記載のコンピュータ実行方法。
前記機械学習モデルの動作により前記物理空間に関連するセンサーデータの意味上区分として前記第１レイアウトを生成するステップを更に含む請求項１記載のコンピュータ実行方法。
前記センサーデータは前記物理空間の画像、点群、格子、又は深度マップのうち少なくとも１つを含む、請求項４記載のコンピュータ実行方法。
一組の訓練レイアウト、一組の訓練アンカー画像、及び前記第１の３Ｄボリュームに関連する１つ以上の損失に基づいて前記機械学習モデルを訓練するステップを更に含む請求項１記載のコンピュータ実行方法。
前記１つ以上の損失は前記第１の３Ｄボリューム内の前記物理空間の前記第１部分集合の表現と前記物理空間の対応する部分集合とに基づいて計算されるレイアウト損失を含む、請求項１記載のコンピュータ実行方法。
前記１つ以上の損失は前記第１レイアウトと前記第１の３Ｄボリューム内の前記第１組のアンカーコンテンツの前記１つ以上の３Ｄ表現の前記配置とに基づいて計算されるレイアウト損失を含む、請求項１記載のコンピュータ実行方法。
前記第１の３Ｄボリュームは神経放射輝度フィールドを含む、請求項１記載のコンピュータ実行方法。
前記第１組のアンカーコンテンツは画像、映像、又は３Ｄ物体のうち少なくとも１つを含む、請求項１記載のコンピュータ実行方法。
命令群を記憶する１つ以上の持続性コンピュータ読取可能媒体であって、前記命令群は、１つ以上のプロセッサによって実行される時、前記１つ以上のプロセッサに、
物理空間の第１レイアウトと、前記物理空間内に表される第１組のアンカーコンテンツとを機械学習モデルに入力するステップと、
前記機械学習モデルの動作により（１）前記第１組のアンカーコンテンツを含む前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内における前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置であって、前記物理空間の第１部分集合内の前記第１組のアンカーコンテンツの位置に対し、前記物理空間内の異なる位置に置かれる１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、
前記第１の３Ｄボリュームの１つ以上のビューを計算装置が提供する拡張現実環境内に出力させるステップと
を実行させる、１つ以上の持続性コンピュータ読取可能媒体。
前記命令群は前記１つ以上のプロセッサに、前記機械学習モデルに含まれる一組の神経回路網層を前記物理空間に関連するセンサーデータに適用して前記第１レイアウトを生成するステップを更に実行させ、前記第１レイアウトは前記センサーデータの複数の領域についての複数の物体の予測を含む、請求項１１記載の１つ以上の持続性コンピュータ読取可能媒体。
前記命令群は前記１つ以上のプロセッサに、
前記機械学習モデルの動作により（１）前記物理空間の第３部分集合と（２）前記物理空間の第４部分集合内に第２組のアンカーコンテンツの１つ以上の３Ｄ表現の配置とを含む第２の３Ｄボリュームを生成するステップと、
前記第２の３Ｄボリュームの１つ以上のビューを前記計算装置に出力させるステップと
を更に実行させる、請求項１１記載の１つ以上の持続性コンピュータ読取可能媒体。
前記第１組のアンカーコンテンツ及び前記第２組のアンカーコンテンツは映像に含まれる複数の異なる映像フレーム、２つの異なる場面の描写、又は複数の異なる組の３Ｄ物体の少なくとも１つを含む、請求項１３記載の１つ以上の持続性コンピュータ読取可能媒体。
前記命令群は前記１つ以上のプロセッサに、前記機械学習モデルを前記第１の３Ｄボリュームに関連する１つ以上の損失に基づいて訓練するステップを更に実行させる、請求項１１記載の１つ以上の持続性コンピュータ読取可能媒体。
前記１つ以上の損失は前記第１組のアンカーコンテンツと前記３Ｄボリューム内の前記物理空間の前記第２部分集合の描写とに基づいて計算される類似性損失を含む、請求項１５記載の１つ以上の持続性コンピュータ読取可能媒体。
前記１つ以上の損失は前記機械学習モデルによって生成された前記第１組のアンカーコンテンツの前記１つ以上の３Ｄ表現と１つ以上の３Ｄ物体とに基づいて計算される再構成損失を含む、請求項１５記載の１つ以上の持続性コンピュータ読取可能媒体。
前記１つ以上の損失は前記第１組のアンカーコンテンツの意味上区分と前記第１組のアンカーコンテンツに関連するグラウンド現状データ区分とに基づいて計算される区分損失を含む、請求項１５記載の１つ以上の持続性コンピュータ読取可能媒体。
前記第１の３Ｄボリュームの１つ以上のビューを前記計算装置に出力させる前記ステップは、
前記１つ以上のビューから前記第１の３Ｄボリュームを描くことと、
前記１つ以上のビューを前記計算装置が提供する拡張現実環境内に出力することと
を含む、請求項１１記載の１つ以上の持続性コンピュータ読取可能媒体。
システムであって、
命令群を記憶する１つ以上のメモリと、
前記１つ以上のメモリと結合された１つ以上のプロセッサと
を備え、
前記１つ以上のプロセッサは、前記命令群を実行する時、
物理空間の第１表現と、前記物理空間内に表される第１組のアンカーコンテンツとを機械学習モデルに入力するステップと、
前記機械学習モデルの動作により（１）前記第１組のアンカーコンテンツを含む前記物理空間の第１部分集合と（２）前記物理空間の第２部分集合内における前記第１組のアンカーコンテンツの１つ以上の３Ｄ表現の配置であって、前記物理空間の第１部分集合内の前記第１組のアンカーコンテンツの位置に対し、前記物理空間内の異なる位置に置かれる１つ以上の３Ｄ表現の配置とを含む第１の３次元（３Ｄ）ボリュームを生成するステップと、
前記第１の３Ｄボリュームの１つ以上のビューを計算装置が提供する拡張現実環境内に出力させるステップと
を実行するように構成される、システム。