WO2023090038A1

WO2023090038A1 - 情報処理装置、映像処理方法、プログラム

Info

Publication number: WO2023090038A1
Application number: PCT/JP2022/038981
Authority: WO
Inventors: 毅石川
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-11-17
Filing date: 2022-10-19
Publication date: 2023-05-25
Anticipated expiration: 2024-05-17
Also published as: JPWO2023090038A1; EP4436159A1; CN118216136A; EP4436159A4; US20240406338A1

Abstract

表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、表示装置に表示される映像とを端末装置で撮影する場合を想定する。情報処理装置は、この場合に、表示装置と端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして表示装置に表示される映像を生成する映像処理部を備えるようにする。

Description

情報処理装置、映像処理方法、プログラム

　本技術は、情報処理装置、映像処理方法、プログラムとして実現される映像処理技術に関する。

　映画等の映像コンテンツの制作のための撮影手法として、いわゆるグリーンバックにより演者が演技を行い、後に背景映像を合成する技術が知られている。
　また近年はグリーンバック撮影に代わって、大型の表示装置を設置したスタジオにおいて、表示装置に背景映像を表示させ、その前で演者が演技を行うことで、演者と背景を撮影できる撮影システムも開発され、いわゆるバーチャルプロダクション（Virtual Production）、インカメラＶＦＸ（In-Camera VFX）、またはＬＥＤウォールバーチャルプロダクション（LED Wall Virtual Production）として知られている
　下記特許文献１には、背景映像の前で演技する演者を撮影するシステムの技術が開示されている。

米国特許出願公開第２０２０／０１４５６４４号明細書

　大型の表示装置に背景映像を表示させたうえで、演者及び背景映像をカメラで撮影することによれば、別途合成する背景映像を用意しなくてもよいことや、演者やスタッフがシーンを視覚的に理解して演技や演技良否の判断を行うことができるなど、グリーンバック撮影に比べて利点が多い。
　但しこのような撮影システムは、専用のスタジオセットを用いることが必要となり、一般ユーザが手軽にバーチャルプロダクション技術を用いることが困難である。例えば自宅にある機材のみでバーチャルプロダクションを行うということは実現されていなかった。

　そこで本開示では、より手軽にバーチャルプロダクションを実行できるような技術を提案する。

　本技術に係る情報処理装置は、表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理部を備える。
　表示装置と端末装置の「関連付け」とは、少なくとも相対位置検出の対象のペアとされることをいう。情報処理装置は、表示装置と端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングする処理を少なくとも行う。
　このような本開示の情報処理装置は、端末装置内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えた端末装置自体と考えることができる。或いは本開示の情報処理装置は、表示装置内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えた表示装置自体と考えることもできる。さらに本開示の情報処理装置は、表示装置や端末装置とは別体の装置（例えばクラウドサーバ等）内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えた装置自体と考えることもできる。

バーチャルプロダクションの撮影システムの説明図である。バーチャルプロダクションにおけるカメラ位置に応じた背景映像の説明図である。バーチャルプロダクションにおけるカメラ位置に応じた背景映像の説明図である。映像コンテンツ制作工程の説明図である。バーチャルプロダクションの撮影システムのブロック図である。撮影システムの背景映像生成のフローチャートである。バーチャルプロダクションで複数カメラによる撮影システムのブロック図である。実施の形態の情報処理装置のブロック図である。実施の形態のバーチャルプロダクションの説明図である。実施の形態の相対位置検出の説明図である。実施の形態の端末装置における撮影映像の表示の説明図である。第１の実施の形態のシステム構成のブロック図である。第２の実施の形態のシステム構成のブロック図である。第３の実施の形態のシステム構成のブロック図である。第４の実施の形態のシステム構成のブロック図である。第５の実施の形態のシステム構成のブロック図である。第６の実施の形態のシステム構成のブロック図である。第１から第６の実施の形態の全体的な処理のフローチャートである。第１の実施の形態の機能構成のブロック図である。第１の実施の形態の処理例のフローチャートである。第２の実施の形態の機能構成のブロック図である。第２の実施の形態の処理例のフローチャートである。第３の実施の形態の機能構成のブロック図である。第３の実施の形態の処理例のフローチャートである。第４の実施の形態の機能構成のブロック図である。第４の実施の形態の処理例のフローチャートである。第５の実施の形態の機能構成のブロック図である。第５の実施の形態の処理例のフローチャートである。第６の実施の形態の機能構成のブロック図である。第６の実施の形態の処理例のフローチャートである。第７の実施の形態の領域の説明図である。第７の実施の形態のレイア構成の説明図である。第７の実施の形態の追加仮想映像の説明図である。第７の実施の形態の追加仮想映像の説明図である。第７の実施の形態の追加仮想映像の説明図である。第７の実施の形態の全体的な処理のフローチャートである。第７の実施の形態の機能構成のブロック図である。第７の実施の形態の処理のフローチャートである。他の実施の形態の説明図である。

　以下、実施の形態を次の順序で説明する。
＜１．撮影システム及び映像コンテンツ制作＞
＜２．情報処理装置の構成＞
＜３．実施の形態のバーチャルプロダクション＞
＜４．第１の実施の形態：端末装置と表示装置による例＞
＜５．第２の実施の形態：端末装置と表示装置による例＞
＜６．第３の実施の形態：クラウドサーバを用いる例＞
＜７．第４の実施の形態：クラウドサーバを用いる例＞
＜８．第５の実施の形態：クラウドサーバを用いる例＞
＜９．第６の実施の形態：クラウドサーバを用いる例＞
＜１０．第７の実施の形態：仮想映像追加技術の適用＞
＜１１．まとめ及び変型例＞

　なお、本開示において「映像」或いは「画像」とは静止画、動画のいずれをも含む。また「映像」とはディスプレイに表示されている状態を指すだけでなく、ディスプレイに表示されていない状態の映像データについても「映像」と表記する。

　以下では、本開示でいうバーチャルプロダクションについて説明するが、まず、比較的大規模なスタジオセットを用いる例を述べる。その後に説明する実施の形態として技術は、例えば以下に述べるスタジオセットで実現するようなバーチャルプロダクションとしての撮影を、自宅等で簡易に実現する例である。

＜１．撮影システム及び映像コンテンツ制作＞
　まず、バーチャルプロダクションとして、スタジオセットを用いた撮影システム及び映像コンテンツの制作について説明する。
　図１は撮影システム５００を模式的に示している。この撮影システム５００はバーチャルプロダクションとしての撮影を行うシステムで、図では撮影スタジオに配置される機材の一部を示している。

　撮影スタジオにおいては演者５１０が演技その他のパフォーマンスを行うパフォーマンスエリア５０１が設けられる。このパフォーマンスエリア５０１の少なくとも背面、さらには左右側面や上面には、大型の表示装置が配置される。表示装置のデバイス種別は限定されないが、図では大型の表示装置の一例としてＬＥＤウォール５０５を用いる例を示している。

　１つのＬＥＤウォール５０５は、複数のＬＥＤパネル５０６を縦横に連結して配置することで、大型のパネルを形成する。ここでいうＬＥＤウォール５０５のサイズは特に限定されないが、演者５１０の撮影を行うときに背景を表示するサイズとして必要な大きさ、或いは十分な大きさであればよい。

　パフォーマンスエリア５０１の上方、或いは側方などの必要な位置に、必要な数のライト５８０が配置され、パフォーマンスエリア５０１に対して照明を行う。

　パフォーマンスエリア５０１の付近には、例えば映画その他の映像コンテンツの撮影のためのカメラ５０２が配置される。カメラ５０２は、カメラマン５１２が位置を移動させることができ、また撮影方向や、画角等の操作を行うことができる。もちろんリモート操作によってカメラ５０２の移動や画角操作等が行われるものも考えられる。またカメラ５０２が自動的もしくは自律的に移動や画角変更を行うものであってもよい。このためにカメラ５０２が雲台や移動体に搭載される場合もある。

　カメラ５０２によっては、パフォーマンスエリア５０１における演者５１０と、ＬＥＤウォール５０５に表示されている映像がまとめて撮影される。例えばＬＥＤウォール５０５に背景映像ｖＢとして風景が表示されることで、演者５１０が実際にその風景の場所に居て演技をしている場合と同様の映像を撮影できることになる。

　パフォーマンスエリア５０１の付近にはアウトプットモニタ５０３が配置される。このアウトプットモニタ５０３にはカメラ５０２で撮影されている映像がモニタ映像ｖＭとしてリアルタイム表示される。これにより映像コンテンツの制作を行う監督やスタッフが、撮影されている映像を確認することができる。

　このように、撮影スタジオにおいてＬＥＤウォール５０５を背景にした演者５１０のパフォーマンスを撮影する撮影システム５００では、グリーンバック撮影に比較して各種の利点がある。

　例えば、グリーンバック撮影の場合、演者が背景やシーンの状況を想像しにくく、それが演技に影響するということがある。これに対して背景映像ｖＢを表示させることで、演者５１０が演技しやすくなり、演技の質が向上する。また監督その他のスタッフにとっても、演者５１０の演技が、背景やシーンの状況とマッチしているか否かを判断しやすい。

　またグリーンバック撮影の場合よりも撮影後のポストプロダクションが効率化される。これは、いわゆるクロマキー合成が不要とすることができる場合や、色の補正や映り込みの合成が不要とすることができる場合があるためである。また、撮影時にクロマキー合成が必要とされた場合においても、背景用スクリーンを追加不要とされることも効率化の一助となっている。

　グリーンバック撮影の場合、演者の身体、衣装、物にグリーンの色合いが増してしまうため、その修正が必要となる。またグリーンバック撮影の場合、ガラス、鏡、スノードームなどの周囲の光景が映り込む物が存在する場合、その映り込みの画像を生成し、合成する必要があるが、これは手間のかかる作業となっている。

　これに対し、図１の撮影システム５００で撮影する場合、グリーンの色合いが増すことはないため、その補正は不要である。また背景映像ｖＢを表示させることで、ガラス等の実際の物品への映り込みも自然に得られて撮影されているため、映り込み映像の合成も不要である。

　ここで、背景映像ｖＢについて図２、図３で説明する。背景映像ｖＢを、ＬＥＤウォール５０５に表示させて、演者５１０とともに撮影を行うにしても、単純に背景映像ｖＢを表示させるのみでは、撮影された映像は背景が不自然になる。実際には立体で奥行きもある背景を平面的に背景映像ｖＢとしているためである。

　例えばカメラ５０２は、パフォーマンスエリア５０１の演者５１０に対して、多様な方向から撮影することができ、またズーム操作も行うことができる。演者５１０も一カ所に立ち止まっているわけではない。するとカメラ５０２の位置、撮影方向、画角などに応じて、演者５１０の背景の実際の見え方は変化するはずであるが、平面映像としての背景映像ｖＢではそのような変化が得られない。そこで背景が、視差を含めて、実際の見え方と同様になるように背景映像ｖＢを変化させる。

　図２はカメラ５０２が図の左側の位置から演者５１０を撮影している様子を示し、また図３はカメラ５０２が図の右側の位置から演者５１０を撮影している様子を示している。各図において、背景映像ｖＢ内に撮影領域映像ｖＢＣを示している。
　なお背景映像ｖＢのうちで撮影領域映像ｖＢＣを除いた部分は「アウターフラスタム」と呼ばれ、撮影領域映像ｖＢＣは「インナーフラスタム」と呼ばれる。
　ここで説明している背景映像ｖＢとは、撮影領域映像ｖＢＣ（インナーフラスタム）を含んで背景として表示される映像全体を指す。

　この撮影領域映像ｖＢＣ（インナーフラスタム）の範囲は、ＬＥＤウォール５０５の表示面内で、カメラ５０２によって実際に撮影される範囲に相当する。そして撮影領域映像ｖＢＣは、カメラ５０２の位置、撮影方向、画角等に応じて、実際にそのカメラ５０２の位置を視点としたときに見える光景を表現するように変形されたような映像となっている。

　具体的には、撮影領域映像ｖＢＣは、背景としての３Ｄ（three dimensions）モデルである３Ｄ背景データを用意し、その３Ｄ背景データに対して、リアルタイムで逐次、カメラ５０２の視点位置に基づいてレンダリングする。
　なお、実際には撮影領域映像ｖＢＣの範囲は、その時点でカメラ５０２によって撮影される範囲よりも少し広い範囲とされる。これはカメラ５０２のパン、チルトやズームなどにより撮影される範囲が若干変化したときに、描画遅延によってアウターフラスタムの映像が映り込んでしまうことを防止するためや、アウターフラスタムの映像からの回折光による影響を避けるためである。
　このようにリアルタイムでレンダリングされた撮影領域映像ｖＢＣの映像は、アウターフラスタムの映像と合成される。背景映像ｖＢで用いられるアウターフラスタムの映像は、予め３Ｄ背景データに基づいてレンダリングしたものであるが、そのアウターフラスタムの映像の一部に、リアルタイムでレンダリングした撮影領域映像ｖＢＣとして映像を組み込むことで、全体の背景映像ｖＢを生成している。

　これにより、カメラ５０２を前後左右に移動させたり、ズーム操作を行ったりしても、演者５１０とともに撮影される範囲の背景は、実際のカメラ５０２の移動に伴う視点位置変化に応じた映像として撮影されることになる。

　図２、図３に示すように、アウトプットモニタ５０３には、演者５１０と背景を含むモニタ映像ｖＭが表示されるが、これが撮影された映像である。このモニタ映像ｖＭにおける背景は、撮影領域映像ｖＢＣである。つまり撮影された映像に含まれる背景は、リアルタイムレンダリングされた映像となる。

　このように実施の形態の撮影システム５００においては、単に背景映像ｖＢを平面的に表示させるだけではなく、実際にロケを行った場合と同様の映像を撮影することができるように、撮影領域映像ｖＢＣを含む背景映像ｖＢをリアルタイムに変化させるようにしている。

　なお、ＬＥＤウォール５０５に表示させた背景映像ｖＢの全体ではなく、カメラ５０２によって映り込む範囲としての撮影領域映像ｖＢＣのみをリアルタイムにレンダリングすることで、システムの処理負担も軽減される。

　ここで、撮影システム５００で撮影を行うバーチャルプロダクションとしての映像コンテンツの制作工程を説明しておく。図４に示すように、映像コンテンツ制作工程は３つの段階に大別される。アセットクリエイションＳＴ１、プロダクションＳＴ２、ポストプロダクションＳＴ３である。

　アセットクリエイションＳＴ１は、背景映像ｖＢを表示するための３Ｄ背景データを制作する工程である。上述のように背景映像ｖＢは、撮影の際に３Ｄ背景データを用いてリアルタイムでレンダリングを行って生成する。そのために予め３Ｄモデルとしての３Ｄ背景データを制作しておく。

　３Ｄ背景データの制作手法の例として、フルＣＧ（Full Computer Graphics）、点群データ（Point Cloud）スキャン、フォトグラメトリ（Photogrammetry）という例がある。

　フルＣＧは、３Ｄモデルをコンピュータグラフィックスで制作する手法である。３つの手法の中で最も工数や時間を要する手法となるが、非現実的な映像や、実際には撮影が困難な映像などを背景映像ｖＢとしたい場合に用いられることが好適となる。

　点群データスキャンは、ある位置から例えばライダー（LiDAR）を用いて距離測定を行うとともに、同じ位置からカメラで３６０度の画像を撮影し、ライダーで測距した点の上にカメラで撮影した色データを載せることで点群データによる３Ｄモデルを生成する手法である。フルＣＧに比較して、短い時間で３Ｄモデル制作ができる。またフォトグラメトリより高精細の３Ｄモデルを制作しやすい。

　フォトグラメトリは、物体を複数視点から撮影して得た２次元画像から、視差情報を解析して寸法・形状を求める写真測量の技術である。３Ｄモデル制作を短時間で行うことができる。
　なお、フォトグラメトリによる３Ｄデータ生成において、ライダーで取得した点群情報を用いても良い。

　アセットクリエイションＳＴ１では、例えばこれらの手法を用いて３Ｄ背景データとなる３Ｄモデルを制作する。もちろん上記手法を複合的に用いてもよい。例えば点群データスキャンやフォトグラメトリで制作した３Ｄモデルの一部をＣＧで制作し、合成するなどである。

　プロダクションＳＴ２は、図１に示したような撮影スタジオにおいて撮影を行う工程である。この場合の要素技術として、リアルタイムレンダリング、背景表示、カメラトラッキング、照明コントロールなどがある。

　リアルタイムレンダリングは、図２、図３で説明したように各時点（背景映像ｖＢの各フレーム）で撮影領域映像ｖＢＣを得るためのレンダリング処理である。これはアセットクリエイションＳＴ１で制作した３Ｄ背景データに対して、各時点のカメラ５０２の位置等に応じた視点でレンダリングを行うものである。

　このようにリアルタイムレンダリングを行って撮影領域映像ｖＢＣを含む各フレームの背景映像ｖＢを生成し、ＬＥＤウォール５０５に表示させる。

　カメラトラッキングは、カメラ５０２による撮影情報を得るために行われ、カメラ５０２の各時点の位置情報、撮影方向、画角などをトラッキングする。これらを含む撮影情報を各フレームに対応させてレンダリングエンジンに提供することで、カメラ５０２の視点位置等に応じたリアルタイムレンダリングが実行できる。

　撮影情報はメタデータとして映像と紐づけられたり対応づけられたりする情報である。
　撮影情報としては各フレームタイミングでのカメラ５０２の位置情報、カメラの向き、画角、焦点距離、Ｆ値（絞り値）、シャッタースピード、レンズ情報などを含むことが想定される。

　照明コントロールとは、撮影システム５００における照明の状態をコントロールすることで、具体的にはライト５８０の光量、発光色、照明方向などの制御を行う。例えば撮影するシーンの時刻設定や場所の設定などに応じた照明コントロールが行われる。

　ポストプロダクションＳＴ３は、撮影後に行われる各種処理を示している。例えば映像の補正、映像の調整、クリップ編集、映像エフェクトなどが行われる。

　映像の補正としては、色域変換や、カメラや素材間の色合わせなどが行われる場合がある。
　映像の調整として色調整、輝度調整、コントラスト調整などが行われる場合がある。
　クリップ編集として、クリップのカット、順番の調整、時間長の調整などが行われる場合がある。
　映像エフェクトとして、ＣＧ映像や特殊効果映像の合成などが行われる場合がある。

　続いてプロダクションＳＴ２で用いられる撮影システム５００の構成を説明する。
　図５は、図１、図２、図３で概要を説明した撮影システム５００の構成を示すブロック図である。

　図５に示す撮影システム５００は、上述した、複数のＬＥＤパネル５０６によるＬＥＤウォール５０５、カメラ５０２、アウトプットモニタ５０３、ライト５８０を備える。そしてさらに撮影システム５００は、図５に示すように、レンダリングエンジン５２０、アセットサーバ５３０、シンクジェネレータ５４０、オペレーションモニタ５５０、カメラトラッカー５６０、ＬＥＤプロセッサ５７０、ライティングコントローラ５８１、ディスプレイコントローラ５９０を備える。

　ＬＥＤプロセッサ５７０は、各ＬＥＤパネル５０６に対応して設けられ、それぞれ対応するＬＥＤパネル５０６の映像表示駆動を行う。

　シンクジェネレータ５４０は、ＬＥＤパネル５０６による表示映像のフレームタイミングと、カメラ５０２による撮像のフレームタイミングの同期をとるための同期信号を発生し、各ＬＥＤプロセッサ５７０及びカメラ５０２に供給する。但し、シンクジェネレータ５４０からの出力をレンダリングエンジン５２０に供給することを妨げるものではない。

　カメラトラッカー５６０は、各フレームタイミングでのカメラ５０２による撮影情報を生成し、レンダリングエンジン５２０に供給する。例えばカメラトラッカー５６０は撮影情報の１つとして、ＬＥＤウォール５０５の位置或いは所定の基準位置に対する相対的なカメラ５０２の位置情報や、カメラ５０２の撮影方向を検出し、これらをレンダリングエンジン５２０に供給する。
　カメラトラッカー５６０による具体的な検出手法としては、天井にランダムに反射板を配置して、それらに対してカメラ５０２側から照射された赤外光の反射光から位置を検出する方法がある。また検出手法としては、カメラ５０２の雲台やカメラ５０２の本体に搭載されたジャイロ情報や、カメラ５０２の撮影映像の画像認識によりカメラ５０２の自己位置推定する方法もある。

　またカメラ５０２からレンダリングエンジン５２０に対しては、撮影情報として画角、焦点距離、Ｆ値、シャッタースピード、レンズ情報などが供給される場合もある。

　アセットサーバ５３０は、アセットクリエイションＳＴ１で制作された３Ｄモデル、即ち３Ｄ背景データを記録媒体に格納し、必要に応じて３Ｄモデルを読み出すことができるサーバである。即ち３Ｄ背景データのＤＢ（data Base）として機能する。

　レンダリングエンジン５２０は、ＬＥＤウォール５０５に表示させる背景映像ｖＢを生成する処理を行う。このためレンダリングエンジン５２０は、アセットサーバ５３０から必要な３Ｄ背景データを読み出す。そしてレンダリングエンジン５２０は、３Ｄ背景データをあらかじめ指定された空間座標から眺めた形でレンダリングしたものとして背景映像ｖＢで用いるアウターフラスタムの映像を生成する。
　またレンダリングエンジン５２０は、１フレーム毎の処理として、カメラトラッカー５６０やカメラ５０２から供給された撮影情報を用いて３Ｄ背景データに対する視点位置等を特定して撮影領域映像ｖＢＣ（インナーフラスタム）のレンダリングを行う。

　さらにレンダリングエンジン５２０は、予め生成したアウターフラスタムに対し、フレーム毎にレンダリングした撮影領域映像ｖＢＣを合成して１フレームの映像データとしての背景映像ｖＢを生成する。そしてレンダリングエンジン５２０は、生成した１フレームの映像データをディスプレイコントローラ５９０に送信する。

　ディスプレイコントローラ５９０は、１フレームの映像データを、各ＬＥＤパネル５０６で表示させる映像部分に分割した分割映像信号ｎＤを生成し、各ＬＥＤパネル５０６に対して分割映像信号ｎＤの伝送を行う。このときディスプレイコントローラ５９０は、表示部間の発色などの個体差／製造誤差などに応じたキャリブレーションを行っても良い。
　なお、ディスプレイコントローラ５９０を設けず、これらの処理をレンダリングエンジン５２０が行うようにしてもよい。つまりレンダリングエンジン５２０が分割映像信号ｎＤを生成し、キャリブレーションを行い、各ＬＥＤパネル５０６に対して分割映像信号ｎＤの伝送を行うようにしてもよい。

　各ＬＥＤプロセッサ５７０が、それぞれ受信した分割映像信号ｎＤに基づいてＬＥＤパネル５０６を駆動することで、ＬＥＤウォール５０５において全体の背景映像ｖＢが表示される。その背景映像ｖＢには、その時点のカメラ５０２の位置等に応じてレンダリングされた撮影領域映像ｖＢＣが含まれている。

　カメラ５０２は、このようにＬＥＤウォール５０５に表示された背景映像ｖＢを含めて演者５１０のパフォーマンスを撮影することができる。カメラ５０２の撮影によって得られた映像は、カメラ５０２の内部又は図示しない外部の記録装置において記録媒体に記録されるほか、リアルタイムでアウトプットモニタ５０３に供給され、モニタ映像ｖＭとして表示される。

　オペレーションモニタ５５０では、レンダリングエンジン５２０の制御のためのオペレーション画像ｖＯＰが表示される。エンジニア５１１はオペレーション画像ｖＯＰを見ながら背景映像ｖＢのレンダリングに関する必要な設定や操作を行うことができる。

　ライティングコントローラ５８１は、ライト５８０の発光強度、発光色、照射方向などを制御する。ライティングコントローラ５８１は、例えばレンダリングエンジン５２０とは非同期でライト５８０の制御を行うものとしてもよいし、或いは撮影情報やレンダリング処理と同期して制御を行うようにしてもよい。そのためレンダリングエンジン５２０或いは図示しないマスターコントローラ等からの指示によりライティングコントローラ５８１が発光制御を行うようにしてもよい。

　このような構成の撮影システム５００におけるレンダリングエンジン５２０の処理例を図６に示す。

　レンダリングエンジン５２０は、ステップＳ１０でアセットサーバ５３０から、今回使用する３Ｄ背景データを読み出し、内部のワークエリアに展開する。
　そしてアウターフラスタムとして用いる映像を生成する。

　その後レンダリングエンジン５２０は、ステップＳ２０で、読み出した３Ｄ背景データに基づく背景映像ｖＢの表示終了と判定するまで、ステップＳ３０からステップＳ６０の処理を、背景映像ｖＢのフレームタイミング毎に繰り返す。

　ステップＳ３０でレンダリングエンジン５２０は、カメラトラッカー５６０やカメラ５０２からの撮影情報を取得する。これにより、現フレームで反映させるカメラ５０２の位置や状態を確認する。

　ステップＳ４０でレンダリングエンジン５２０は、撮影情報に基づいてレンダリングを行う。即ち現在のフレームに反映させるカメラ５０２の位置、撮影方向、或いは画角等に基づいて３Ｄ背景データに対する視点位置を特定してレンダリングを行う。このとき、焦点距離、Ｆ値、シャッタースピード、レンズ情報などを反映した映像処理を行うこともできる。このレンダリングによって撮影領域映像ｖＢＣとしての映像データを得ることができる。

　ステップＳ５０でレンダリングエンジン５２０は、全体の背景映像であるアウターフラスタムと、カメラ５０２の視点位置を反映した映像、即ち撮影領域映像ｖＢＣを合成する処理を行う。例えばある特定の基準視点でレンダリングした背景全体の映像に対して、カメラ５０２の視点を反映して生成した映像を合成する処理である。これにより、ＬＥＤウォール５０５で表示される１フレームの背景映像ｖＢ、つまり撮影領域映像ｖＢＣを含む背景映像ｖＢが生成される。

　ステップＳ６０の処理は、レンダリングエンジン５２０又はディスプレイコントローラ５９０で行う。ステップＳ６０でレンダリングエンジン５２０又はディスプレイコントローラ５９０は、１フレームの背景映像ｖＢについて、個別のＬＥＤパネル５０６に表示される映像に分割した分割映像信号ｎＤを生成する。キャリブレーションを行う場合もある。そして各分割映像信号ｎＤを各ＬＥＤプロセッサ５７０に送信する。

　以上の処理により、各フレームタイミングで、カメラ５０２で撮像される撮影領域映像ｖＢＣを含む背景映像ｖＢがＬＥＤウォール５０５に表示されることになる。

　ところで図５では１台のカメラ５０２のみを示したが、複数台のカメラ５０２で撮影を行うこともできる。図７は複数のカメラ５０２ａ，５０２ｂを使用する場合の構成例を示している。カメラ５０２ａ，５０２ｂは、それぞれ独立してパフォーマンスエリア５０１における撮影を行うことができるようにされる。また各カメラ５０２ａ，５０２ｂ及び各ＬＥＤプロセッサ５７０は、シンクジェネレータ５４０により同期が維持される。

　カメラ５０２ａ，５０２ｂに対応して、アウトプットモニタ５０３ａ，５０３ｂが設けられ、それぞれ対応するカメラ５０２ａ，５０２ｂによって撮影された映像を、モニタ映像ｖＭａ，ｖＭｂとして表示するように構成される。

　またカメラ５０２ａ，５０２ｂに対応して、カメラトラッカー５６０ａ，５６０ｂが設けられ、それぞれ対応するカメラ５０２ａ，５０２ｂの位置や撮影方向を検出する。カメラ５０２ａ及びカメラトラッカー５６０ａからの撮影情報や、カメラ５０２ｂ及びカメラトラッカー５６０ｂからの撮影情報は、レンダリングエンジン５２０に送信される。

　レンダリングエンジン５２０は、カメラ５０２ａ側、或いはカメラ５０２ｂ側のいずれか一方の撮影情報を用いて、各フレームの背景映像ｖＢを得るためのレンダリングを行うことができる。

　なお図７では２台のカメラ５０２ａ、５０２ｂを用いる例を示したが、３台以上のカメラ５０２を用いて撮影を行うことも可能である。
　但し、複数のカメラ５０２を用いる場合、それぞれのカメラ５０２に対応する撮影領域映像ｖＢＣが干渉するという事情がある。例えば図７のように２台のカメラ５０２ａ、５０２ｂを用いる例では、カメラ５０２ａに対応する撮影領域映像ｖＢＣを示しているが、カメラ５０２ｂの映像を用いる場合、カメラ５０２ｂに対応する撮影領域映像ｖＢＣも必要になる。単純に各カメラ５０２ａ、５０２ｂに対応するそれぞれの撮影領域映像ｖＢＣを表示させると、それらが互いに干渉する。このため撮影領域映像ｖＢＣの表示に関する工夫が必要とされる。

＜２．情報処理装置の構成＞
　次に、上述のアセットクリエイションＳＴ１、プロダクションＳＴ２、ポストプロダクションＳＴ３や、後述する実施の形態で用いることができる情報処理装置７０の構成例を図８で説明する。
　情報処理装置７０は、コンピュータ機器など、情報処理、特に映像処理が可能な機器である。この情報処理装置７０としては、具体的には、ＰＣ（パーソナルコンピュータ）、ワークステーション、スマートフォンやタブレット等の携帯端末装置、ビデオ編集装置等が想定される。また情報処理装置７０は、クラウドコンピューティングにおけるサーバ装置や演算装置として構成されるコンピュータ装置であってもよい。

　具体的には情報処理装置７０は、アセットクリエイションＳＴ１において３Ｄモデルを制作する３Ｄモデル制作装置として機能できる。
　また情報処理装置７０は、プロダクションＳＴ２で用いる撮影システム５００を構成するレンダリングエンジン５２０として機能できる。さらに情報処理装置７０はアセットサーバ５３０としても機能できる。
　また情報処理装置７０は、ポストプロダクションＳＴ３における各種映像処理を行う映像編集装置としても機能できる。

　また本実施の形態では、後述する端末装置１、表示装置２、クラウドサーバ４等を用いて、簡易的なハードウェア構成でバーチャルプロダクションを実現する。図８の情報処理装置７０は、そのような本実施の形態の端末装置１、表示装置２、クラウドサーバ４等として機能することができる。換言すれば図８は、端末装置１、表示装置２、クラウドサーバ４のハードウェア構成ということもできる。

　図８に示す情報処理装置７０のＣＰＵ７１は、ＲＯＭ７２や例えばＥＥＰ－ＲＯＭ（Electrically Erasable Programmable Read-Only Memory）などの不揮発性メモリ部７４に記憶されているプログラム、または記憶部７９からＲＡＭ７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７３にはまた、ＣＰＵ７１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　映像処理部８５は各種の映像処理を行うプロセッサとして構成される。例えば３Ｄモデル生成処理、レンダリング、ＤＢ処理、映像編集処理、画像解析による画像認識処理など、映像に関する何らかの処理或いは複数の処理を行うことができるプロセッサとされる。
　この映像処理部８５は例えば、ＣＰＵ７１とは別体のＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-purpose computing on graphics processing units）、ＡＩ（artificial intelligence）プロセッサ等により実現できる。
　なお映像処理部８５はＣＰＵ７１内の機能として設けられてもよい。

　ＣＰＵ７１、ＲＯＭ７２、ＲＡＭ７３、不揮発性メモリ部７４、映像処理部８５は、バス８３を介して相互に接続されている。このバス８３にはまた、入出力インタフェース７５も接続されている。

　入出力インタフェース７５には、操作子や操作デバイスよりなる入力部７６が接続される。例えば入力部７６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
　入力部７６によりユーザの操作が検知され、入力された操作に応じた信号はＣＰＵ７１によって解釈される。
　入力部７６としてはマイクロフォンも想定される。ユーザの発する音声を操作情報として入力することもできる。

　また入出力インタフェース７５には、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（ electro-luminescence）パネルなどよりなる表示部７７や、スピーカなどよりなる音声出力部７８が一体又は別体として接続される。
　表示部７７は各種表示を行う表示部であり、例えば情報処理装置７０の筐体に設けられるディスプレイデバイスや、情報処理装置７０に接続される別体のディスプレイデバイス等により構成される。
　表示部７７は、ＣＰＵ７１の指示に基づいて表示画面上に各種の画像、操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

　入出力インタフェース７５には、ＨＤＤ（Hard Disk Drive）や固体メモリなどより構成される記憶部７９や通信部８０が接続される場合もある。

　記憶部７９は、各種のデータやプログラムを記憶することができる。記憶部７９においてＤＢを構成することもできる。
　例えば情報処理装置７０がアセットサーバ５３０として機能する場合、記憶部７９を利用して３Ｄ背景データ群を格納するＤＢを構築できる。

　通信部８０は、インターネット等の伝送路を介しての通信処理や、外部のＤＢ、編集装置、情報処理装置等の各種機器との有線／無線通信、バス通信などによる通信を行う。
　例えば情報処理装置７０がレンダリングエンジン５２０として機能する場合、通信部８０によりアセットサーバ５３０としてのＤＢにアクセスしたり、カメラ５０２やカメラトラッカー５６０からの撮影情報を受信したりすることができる。
　またポストプロダクションＳＴ３に用いる情報処理装置７０の場合も、通信部８０によりアセットサーバ５３０としてのＤＢにアクセスすることなども可能である。

　入出力インタフェース７５にはまた、必要に応じてドライブ８１が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体８２が適宜装着される。
　ドライブ８１により、リムーバブル記録媒体８２からは映像データや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータは記憶部７９に記憶されたり、データに含まれる映像や音声が表示部７７や音声出力部７８で出力されたりする。またリムーバブル記録媒体８２から読み出されたコンピュータプログラム等は必要に応じて記憶部７９にインストールされる。

　情報処理装置７０はセンサ部８６として、必要に応じて各種のセンサを備える場合がある。センサ部８６は各種のセンサを包括的に示している。
　ＣＰＵ７１や映像処理部８５は、センサ部８６からの情報に基づいて対応する処理を行うことができる。
　センサ部８６における具体的なセンサとしては、例えばＴｏＦ（Time of Flight）センサ等の測距センサ、ライダー等の測距／方向センサ、位置情報センサ、照度センサ、赤外線センサ、タッチセンサなどがある。
　またセンサ部８６としてＩＭＵ（inertial measurement unit：慣性計測装置）が搭載され、例えばピッチ-、ヨー、ロールの３軸の角速度（ジャイロ）センサで角速度を検出することができるようにしてもよい。

　情報処理装置７０はカメラ部８７を備える場合がある。例えばこの情報処理装置７０が後述する撮影機能を備えた端末装置１として実現される場合である。
　カメラ部８７はイメージセンサ及びイメージセンサで光電変換した信号の処理回路などを備える。カメラ部８７により動画や静止画としての映像の撮影が行われる。
　撮影された映像は、映像処理部８５やＣＰＵ７１で映像処理されたり、記憶部７９に記憶されたり、表示部７７で表示されたり、通信部８０により他の装置に送信されたりする。

　カメラ部８７で撮影された映像の被写体に関していえば、センサ部８６の測距センサにより得られる距離情報は、被写体までの奥行（デプス：depth）情報となる。例えばＣＰＵ７１や映像処理部８５は、測距センサの検出値に基づいて、撮影した映像の各フレームに対応したデプスマップを生成したり、画像からの物体検出処理で検出した特定の被写体の奥行情報を検出したりすることができる。

　この情報処理装置７０では、例えば本実施の形態の処理のためのソフトウェアを、通信部８０によるネットワーク通信やリムーバブル記録媒体８２を介してインストールすることができる。或いは当該ソフトウェアは予めＲＯＭ７２や記憶部７９等に記憶されていてもよい。

＜３．実施の形態のバーチャルプロダクション＞
　以下、実施の形態のバーチャルプロダクションについて説明する。
　上述した大規模なスタジオセットとしての撮影システム５００を用いたバーチャルプロダクションは、一般ユーザが手軽に実行できるものとはいえない。そこで実施の形態では、自宅等でも手軽にバーチャルプロダクション技術を用いた映像制作を行うことができるようにする技術を提案する。

　図９は端末装置１、表示装置２、及び撮影する対象として実在するオブジェクト１０（人、動物、物品など）の例を示している。

　この例では端末装置１は、例えばスマートフォン、タブレット端末、ノート型のＰＣなどであって、映像を撮影する機能を備えているものとする。特に端末装置１はユーザが携帯できる小型機器であることが望ましいが、デスクトップ型のＰＣ等の携帯に適さないものであってもよい。

　表示装置２は、少なくとも映像を表示する機能を備えるものであり、例えば家庭用のテレビジョン受像器や、映像モニタ装置などを想定する。
　例えばユーザは、自分のスマートフォンを端末装置１、自宅にあるテレビジョン受像器を表示装置２として、バーチャルプロダクションとしての撮影を実行する。
　この場合、例えば端末装置１により表示装置２を認識させる。例えば端末装置１が撮影した映像上で表示装置２を認識する。これにより端末装置１が表示装置２を相対位置検出の対象の相手と認識する。具体的には例えばＡＲマーカー３を備えたテレビジョン受像器などを表示装置２として認識すればよい。或いは近距離無線通信などで端末装置１と表示装置２がペアリングを行うようにしてもよい。さらには、表示装置２側から端末装置１を、相対位置検出の相手として認識してもよい。いずれにしても、相対位置検出の対象とするペアを、端末装置１、表示装置２の少なくとも一方で認識する。

　その状態で、表示装置２に３Ｄ背景モデルを用いたレンダリングにより生成した背景映像ｖＢを表示させる。そしてユーザは、表示装置２に表示された背景映像ｖＢと、その前方の実在するオブジェクト１０とを、端末装置１で撮影する。
　このとき、端末装置１の表示装置２に対する相対位置に基づいて背景映像ｖＢのレンダリングを行うようにすれば、端末装置１の位置を視点とする方向及び位置関係による視差に応じた背景映像ｖＢを生成できることになる。つまり上述したインナーフラスタムと同等の背景映像ｖＢを、表示装置２に表示できることになる。
　従って、上述の図１の撮影システム５００と同等の撮影を、スマートフォン等の端末装置１とテレビジョン受像器等の表示装置２で実現できる。

　このような撮影を行う場合、以下が必要となる。
・端末装置１と表示装置２の相対位置の検出
・相対位置に基づく背景映像ｖＢのレンダリング
・端末装置１の撮影機能による背景映像ｖＢとオブジェクト１０を含めた撮影

　先に図１から図７で説明した撮影システム５００では、これらを異なるデバイスで実施して、それらを連携させることでバーチャルプロダクションとしての撮影を実現していた。
　本実施の形態では、これら機能を端末装置１、表示装置２のいずれかで実現する。或いは後述するクラウドサーバ４を利用する場合もある。
　これによりユーザが、自宅等でバーチャルプロダクションの撮影を行い、魅力的な動画を手軽に作成することができるようにする。例えば趣味で作成したアイテム、ペット、被写体人物のアクションなどの、魅力的な紹介動画を作成できるようにする。

　端末装置１と表示装置２の相対位置の検出について説明する。
　撮影方向や視差を反映した背景映像ｖＢを表示させるには、端末装置１で撮影を行っているときに、フレームタイミング毎に端末装置１と表示装置２の相対位置が検出される必要がある。なお、簡易的には、間欠的なフレームのタイミング毎でもよいが、より精密に視差を反映する背景映像ｖＢとするには、端末装置１による撮影映像ｖＣの全フレームのタイミング毎に相対位置検出が行われることが望ましい。

　相対位置検出のために、図１０Ａに示すように、表示装置２にＡＲマーカー３を設置する例が考えられる。端末装置１が撮影機能により映像撮影を行う際に、映像内にＡＲマーカー３を認識することで、表示装置２との相対位置を検出することができる。

　ＡＲマーカー３を用いることができるのは、あくまでも端末装置１がＡＲマーカー３を含む範囲を撮影している場合である。そのためＡＲマーカー３がフレームアウトすることも考慮してＳＬＡＭ（Simultaneous Localization and Mapping)等の技術を併用することが望ましい。例えばＬｉＤＡＲなどで周囲の環境をセンシングし、その環境情報を元にＳＬＡＭで自己位置推定をするようにする。
　また端末装置１が、撮影した映像とＩＭＵの検出データにより、自身で自己位置推定を行うこともできる。
　これらの自己位置推定に基づいて、表示装置２との相対位置検出を行うことができる。

　なお、以上は端末装置１で相対位置検出を行う例として述べたが、表示装置２側で端末装置１との間の相対位置検出を行うようにすることもできる。例えば端末装置１側にＡＲマーカーを配置し、表示装置２がカメラ部８７を有することで、同様に相対位置検出を行うことができる。

　また実際には、表示装置２は家庭用のテレビジョン受像器等を想定するため、表示装置２のサイズ、正確には表示面のサイズを検出することも行う。このディスプレイサイズ検出によりディスプレイサイズ情報を得る。

　表示装置２のサイズを検出する手法としては、ユーザが端末装置１においてアプリケーションプログラムを起動させ、実際の数値を手動入力するということが考えられる。例えばユーザが表示装置２の縦横の長さを実測して入力する。
　或いはユーザが表示装置２であるテレビジョン受像器等の製品名や型番などを入力して、アプリケーションプログラムがＤＢ（データベース）にアクセスし、自動的にサイズ検索を行うことも考えられる。

　表示装置２のサイズは、端末装置１が自動検出することもできる。例えば撮影した映像についての測距センサによる距離情報に基づくデプスマップから、表示装置２の範囲を特定できる。これにより表示装置２のサイズ検出を行うことができる。
　また、より正確には表示装置２の筐体サイズではなく、図１０Ｂに斜線を付した画面２ａのサイズを検出したい。そこで、サイズ検出時には端末装置１から特定色の映像を表示装置２に送信して表示させ、撮影した映像内で当該色の範囲を検出し、実際のサイズを算出することも考えられる。

　以上のように、表示装置２のサイズ検出や、端末装置１と表示装置２の相対位置検出を行い、相対位置情報に基づいてレンダリングした背景映像ｖＢを表示装置２に表示させる。そして表示された背景映像ｖＢを含めてオブジェクト１０の撮影を端末装置１で行う。

　端末装置１は、例えば図１１Ａのように画面１ａに撮影映像ｖＣを表示させる。撮影映像ｖＣは、背景映像ｖＢとオブジェクト１０が含まれた映像となっている。ユーザは端末装置１で撮影を行いながら、その撮影のモニタとしての映像を端末装置１の画面１ａで見ることができる。

　なお、このように撮影映像ｖＣを画面１ａに表示させる際、映像全体へのフィルタ処理を適用し、画質を変更しても良い。
　例えばアニメ調フィルタなどを適用することもできる。

　端末装置１が高解像度で撮影できるなら、最終的に利用する想定の画角より大きめに撮影を行うように、後の編集時に多少の画角変更ができるようにしても良い。
　そのようにすることで広範囲な撮影ができるため、表示装置２のＡＲマーカー３や、ＳＬＡＭのための環境認識にとって有利となる場合がある。

　また、環境認識等のために広めの画角で撮影している場合、制作している映像コンテンツに最終的には利用しない範囲にあたる背景のレンダリングは無駄となる。そこで、その範囲に相当する背景映像ｖＢについては、解像度を落として描画するなどの処理を行っても良い。

　そのように最終的に利用しない部分を含めた広めの画角で撮影している場合は、使用する領域と使用しない領域がユーザに分かりやすいようにすることが望ましい。そこで図１１Ｂに示すように、網掛け、グレー化などの表示態様で無効領域枠１６を表示させ、ユーザに、制作している映像コンテンツとして使用される範囲を提示する。このようにすることで、ユーザは端末装置１による撮影において、所望の距離、方向、角度からの被写体を適切にフレームインさせた状態の映像コンテンツを制作できるようになる。

　以上のように端末装置１と表示装置２を用いてバーチャルプロダクションとしての撮影を行う場合の構成例を挙げていく。各構成例を第１の実施の形態から第６の実施の形態とする。ここでは構成を示すと共に、フレーム毎の相対位置情報ＲＰの検出から背景映像ｖＢの表示までの流れに言及する。
　なお各図では表示装置２のディスプレイサイズ情報の検出及び送受信については示していないが、ディスプレイサイズ情報は撮影の開始から終了の間に変化するものではないため、何らかの手法で最初に１回検出され、レンダリングを行う装置が取得した状態とされればよい。

　各実施の形態では、端末装置１と表示装置２が相対位置検出の対象として関連づけられる。つまり相対位置情報ＲＰは、全ての例で、端末装置１と表示装置２の間の相対位置のこととなる。

　また各例において、端末装置１と表示装置２の間の通信、端末装置１とクラウドサーバ４の間の通信、表示装置２とクラウドサーバ４の間の通信は、有線通信、無線通信のいずれでもよい。また機器間の直接通信でもよいしネットワーク通信でもよい。

　図１２は第１の実施の形態の構成例である。端末装置１と表示装置２により構成される。端末装置１は３Ｄ背景モデル５を備える。
　端末装置１は相対位置検出を行い、相対位置情報に基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングする。
　端末装置１は背景映像ｖＢを表示装置２に送信する。
　表示装置２は背景映像ｖＢを表示する。

　図１３は第２の実施の形態の構成例である。端末装置１と表示装置２により構成される。表示装置２は３Ｄ背景モデル５を備える。
　端末装置１は相対位置検出を行って相対位置情報ＲＰを取得する。
　端末装置１は相対位置情報ＲＰを表示装置２に送信する。
　表示装置２は相対位置情報に基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングし、背景映像ｖＢを表示する。

　図１４は第３の実施の形態の構成例である。端末装置１と表示装置２とクラウドサーバ４により構成される。クラウドサーバ４は３Ｄ背景モデル５を備える。
　端末装置１は相対位置検出を行い、相対位置情報ＲＰをクラウドサーバ４に送信する。
　クラウドサーバ４は相対位置情報ＲＰに基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングする。
　クラウドサーバ４は背景映像ｖＢを端末装置１に送信する。
　端末装置１はクラウドサーバ４から受信した背景映像ｖＢを表示装置２に送信する。
　表示装置２は背景映像ｖＢを表示する。

　図１５は第４の実施の形態の構成例である。端末装置１と表示装置２とクラウドサーバ４により構成される。クラウドサーバ４は３Ｄ背景モデル５を備える。
　端末装置１は相対位置検出を行い、相対位置情報ＲＰをクラウドサーバ４に送信する。
　クラウドサーバ４は相対位置情報ＲＰに基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングする。
　クラウドサーバ４は背景映像ｖＢを表示装置２に送信する。
　表示装置２は背景映像ｖＢを表示する。

　図１６は第５の実施の形態の構成例である。端末装置１と表示装置２とクラウドサーバ４により構成される。クラウドサーバ４は３Ｄ背景モデル５を備える。
　表示装置２は相対位置検出を行い、相対位置情報ＲＰをクラウドサーバ４に送信する。
　クラウドサーバ４は相対位置情報ＲＰに基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングする。
　クラウドサーバ４は背景映像ｖＢを表示装置２に送信する。
　表示装置２は背景映像ｖＢを表示する。

　図１７は第６の実施の形態の構成例である。端末装置１と表示装置２とクラウドサーバ４により構成される。クラウドサーバ４は３Ｄ背景モデル５を備える。
　端末装置１は相対位置検出を行い、相対位置情報ＲＰを表示装置２に送信する。
　表示装置２は端末装置１から受信した相対位置情報ＲＰをクラウドサーバ４に送信する。
　クラウドサーバ４は相対位置情報ＲＰに基づいて、３Ｄ背景モデル５から背景映像ｖＢをレンダリングする。
　クラウドサーバ４は背景映像ｖＢを表示装置２に送信する。
　表示装置２は背景映像ｖＢを表示する。

　以上、６つの構成例を例示したが、これら以外にも構成例は各種考えられる。
　例えば以上のような構成でバーチャルプロダクションとしての撮影を行う場合の処理の流れを図１８で説明する。図１８の各ステップは、それぞれ、第１から第６の実施の形態の構成によるシステムにおけるいずれかの装置で実行される処理である。ここではシステム全体としての処理手順として記載した。

　撮影が開始される場合、ステップＳＴ５１でシステム内のいずれかの装置でディスプレイサイズ検出が行われる。即ち表示装置２の画面２ａのサイズの情報が検出される。ディスプレイサイズ情報は、背景映像ｖＢのレンダリングを行う装置が取得する状態とされる。

　ステップＳＴ５２で撮影の終了判定が行われる。例えば端末装置１におけるユーザによる撮影の終了操作などにより撮影終了と判定される。終了と判定されたら各装置は図１８の処理を終える。
　撮影終了と判定されるまでは、背景映像ｖＢ及び撮影映像ｖＣの１フレームタイミング毎に、ステップＳＴ５３からステップＳＴ５６の処理が繰り返される。
　なお背景映像ｖＢのフレームタイミングと撮影映像ｖＣのフレームタイミングは、同期関係が保たれるようにしている。

　ステップＳＴ５３でシステム内のいずれかの装置（端末装置１又は表示装置２）で、相対位置検出が行われる。検出による相対位置情報ＲＰは、レンダリングを行う装置が取得する。

　ステップＳＴ５４で、システム内のいずれかの装置で、相対位置情報ＲＰに基づいて３Ｄ背景モデル５から背景映像ｖＢをレンダリングする処理が行われる。

　ステップＳＴ５５で、表示装置２においてレンダリングにより得た背景映像ｖＢの表示処理が行われる。

　ステップＳＴ５６で、端末装置１において、表示装置２の背景映像ｖＢとオブジェクト１０の撮影を行いながら、画面１ａ上での撮影映像ｖＣの表示処理が行われる。

　システム全体として以上の流れの処理が行われてバーチャルプロダクションとしての撮影が進行する。以下では、このような処理を実行するための第１から第６の実施の形態における具体的な機能構成と、各装置の処理例を説明していく。

＜４．第１の実施の形態：端末装置と表示装置による例＞
　図１２に示した第１の実施の形態における端末装置１と表示装置２の機能構成を図１９に示す。
　なお、各実施の形態で説明する機能構成は、端末装置１、表示装置２，或いはクラウドサーバ４において例えば図８の情報処理装置７０としてのハードウェア構成、主に映像処理部８５によって実現されるものである。

　図１９の例では、端末装置１は、ディスプレイサイズ検出部３１、相対位置検出部３２、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部３５、撮像部３８、表示制御部３９を有する。

　ディスプレイサイズ検出部３１は、相対位置検出の対象として関連づけられた表示装置２のディスプレイサイズ検出処理を行う機能である。上述のようにディスプレイサイズ検出はユーザ入力に応じた手法や、自動検出手法がある。従ってディスプレイサイズ検出は、情報処理装置７０における入力部７６や表示部７７を用いたユーザインタフェースを介してＣＰＵ７１や映像処理部８５が実行することができる。型番などに基づいて検索されるサイズ情報として、通信部８０で受信した情報や記憶部７９に格納したＤＢから読み出した情報を用いるものでもよい。またカメラ部８７やセンサ部８６の情報を用いてＣＰＵ７１や映像処理部８５がディスプレイサイズ検出を自動的に実行することもできる。

　相対位置検出部３２は、関連づけられた端末装置１と表示装置２の相対位置情報ＲＰを検出する処理を行う機能である。ＡＲマーカー３を用いる手法や、ＳＬＡＭ技術を利用する手法で相対位置検出を行うため、情報処理装置７０におけるカメラ部８７、センサ部８６、通信部８０からの情報を用いるＣＰＵ７１又は映像処理部８５により実現される。

　３Ｄモデル管理部３３は、背景映像ｖＢを生成するための３Ｄ背景モデル５を管理する機能である。例えばアセットクリエイションの工程で制作された３Ｄ背景モデル５を記憶部７９などに格納して管理、レンダリングの際に読み出すようにする。３Ｄモデル管理部３３は、例えば情報処理装置７０における映像処理部８５の処理により実現される。

　背景レイアレンダリング部３４は、背景映像ｖＢのレンダリングを行う機能であり、情報処理装置７０における映像処理部８５やＣＰＵ７１の処理により実現される。

　通信制御部３５は、端末装置１において、他の機器との情報の送信や受信を行う機能である。端末装置１としての情報処理装置７０における通信部８０を介した通信の制御機能であり、映像処理部８５やＣＰＵ７１により実現される。

　撮像部３８は動画や静止画としての映像の撮影を行う機能であり、情報処理装置７０におけるカメラ部８７により実現される。

　表示制御部３９は、端末装置１における画面１ａに映像を表示する制御を行う機能であり、端末装置１としての情報処理装置７０における映像処理部８５やＣＰＵ７１による表示部７７の制御機能として実現される。

　一方、表示装置２は、通信制御部３６、表示制御部３７を備える。

　通信制御部３６は、表示装置２において他の機器との情報の送信や受信を行う機能である。表示装置２としての情報処理装置７０における通信部８０を介した通信の制御機能であり、映像処理部８５やＣＰＵ７１により実現される。

　表示制御部３７は、表示装置２における画面２ａに映像を表示する制御を行う機能であり、端末装置１としての情報処理装置７０における映像処理部８５やＣＰＵ７１による表示部７７の制御機能として実現される。

　このような機能構成の第１の実施の形態では、端末装置１及び表示装置２で図２０のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。
　なお、端末装置１による撮影についてはフローチャート内に示していないが、基本的にはユーザ操作により、バーチャルプロダクションとしての撮影モードでの記録待機状態とされることで、動画の撮像（イメージセンサによる画像データの取得）は開始され、スルー画として画面１ａへの撮影映像ｖＣの表示が開始される。そして記録開始操作に応じて撮影映像ｖＣが、映像コンテンツとして記録媒体に記録されていくことになる。また記録停止操作に応じて、映像コンテンツとして記録媒体への記録は停止され、記録待機状態となる。そして所定の終了操作によりバーチャルプロダクションとしての撮影は終了され、画面１ａでの撮影映像ｖＣの表示も終了される。
　各実施の形態のフローチャートは、バーチャルプロダクションとしての撮影が開始されてから終了されるまでのフレームタイミング毎の処理を示している。

　ユーザ操作或いは自動的な開始制御により、バーチャルプロダクションとしての撮影を開始すると、端末装置１はステップＳ１０１でディスプレイサイズ検出部３１により表示装置２のディスプレイサイズを検出する。

　端末装置１はステップＳ１０２でバーチャルプロダクション撮影の終了判定を行い、終了していない期間は、撮影映像ｖＣのフレームタイミング毎に、ステップＳ１０３からステップＳ１０６を繰り返すことになる。

　ステップＳ１０３で端末装置１は、相対位置検出部３２により相対位置検出を行う。
　ステップＳ１０４で端末装置１は、背景レイアレンダリング部３４により、ディスプレイサイズの情報と相対位置情報ＲＰに基づき、３Ｄモデル管理部３３から読み出された３Ｄ背景モデル５をオフスクリーンバッファにレンダリングする。即ち背景映像ｖＢを生成する。オフスクリーンバッファは非表示画面であり、ＲＡＭ７３等に用意されるレンダリング映像の一時的なバッファエリアである。

　ステップＳ１０５で端末装置１は、通信制御部３５により、オフスクリーンバッファにおける背景映像ｖＢを表示装置２に送信する処理を行う。

　一方、表示装置２側では、バーチャルプロダクションとしての撮影が開始された後は、ステップＳ２０１で終了判定を行いながら、終了に至るまでは、フレーム毎にステップＳ２０２，Ｓ２０３の処理を繰り返す。
　表示装置２側の終了判定は、例えば背景映像ｖＢのフレームの受信が所定時間以上、途絶えたことなどにより行うことができる。或いは終了時には端末装置１から終了指示の信号を送信するようにし、表示装置２はそれを受信することで終了判定するようにしてもよい。終了判定により表示装置２はバーチャルプロダクションの背景映像ｖＢの表示の処理を終える。

　終了までの期間、ステップＳ２０２で表示装置２は、通信制御部３６により、端末装置１からの背景映像ｖＢを受信する。
　ステップＳ２０３で表示装置２は、表示制御部３７により、受信した背景映像ｖＢを画面２ａに表示する処理を行う。

　以上により、端末装置１で生成された背景映像ｖＢが、フレーム毎に表示装置２に送信され表示される。
　端末装置１は、撮像部３８により表示装置２とオブジェクト１０の撮影を行っているが、ステップＳ１０６で、表示制御部３９により、撮影により得られる各フレームの撮影映像ｖＣを画面１ａに表示する処理を行う。

＜５．第２の実施の形態：端末装置と表示装置による例＞
　図１３に示した第２の実施の形態における端末装置１と表示装置２の機能構成を図２１に示す。なお以降の各実施の形態において、既述の機能構成については、同一符号を付して詳細な重複説明を省略する。先の図１１の説明を参照されたい。

　端末装置１は、相対位置検出部３２、通信制御部３５、撮像部３８、表示制御部３９を有する。
　表示装置２は、ディスプレイサイズ検出部３１、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部３６、表示制御部３７を有する。

　このような機能構成の第２の実施の形態では、端末装置１及び表示装置２で図２２のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。
　なお、説明済みの処理については同一のステップ番号を付している。

　ユーザ操作或いは自動的な開始制御により、バーチャルプロダクション撮影を開始すると、端末装置１はステップＳ１０２でバーチャルプロダクション撮影の終了判定を行いながら、終了していない期間は、撮影映像ｖＣのフレームタイミング毎に、ステップＳ１０３、Ｓ１１０、Ｓ１０６の処理を繰り返すことになる。

　ステップＳ１０３で端末装置１は、相対位置検出部３２により相対位置検出を行う。
　ステップＳ１１０で端末装置１は、通信制御部３５により相対位置情報ＲＰを表示装置２に送信する処理を行う。
　ステップＳ１０６で端末装置１は、表示制御部３９により、撮像部３８の撮影により得られる各フレームの撮影映像ｖＣを画面１ａに表示する処理を行う。

　表示装置２では、バーチャルプロダクション撮影が開始された際に、ステップＳ２１０でディスプレイサイズ検出部３１により表示装置２のディスプレイサイズを検出する。なお、この場合、自身のサイズであるので、ディスプレイサイズ検出部３１は、画面２ａのサイズ情報を記憶する記憶部として形成されていればよい。つまりステップＳ２１０は、表示装置２におけるＣＰＵ７１が、記憶されたディスプレイサイズを読み出す処理とすればよい。

　表示装置２では、ステップＳ２０１で終了判定を行いながら、終了に至るまでは、フレーム毎にステップＳ２１１，Ｓ２１２，Ｓ２０３の処理を繰り返す。

　ステップＳ２１１で表示装置２は、通信制御部３６により、端末装置１からの相対位置情報ＲＰを受信する。
　ステップＳ２１２で表示装置２は、背景レイアレンダリング部３４により、ディスプレイサイズの情報と受信した相対位置情報ＲＰに基づき、３Ｄモデル管理部３３から読み出された３Ｄ背景モデル５をレンダリングして背景映像ｖＢを生成する。
　ステップＳ２０３で表示装置２は、表示制御部３７により、生成した背景映像ｖＢを画面２ａに表示する処理を行う。

　以上により、端末装置１で検出された相対位置情報ＲＰに基づいて表示装置２でレンダリングされた背景映像ｖＢが表示される。

＜６．第３の実施の形態：クラウドサーバを用いる例＞
　図１４に示した第３の実施の形態における端末装置１、表示装置２、クラウドサーバ４の機能構成を図２３に示す。

　端末装置１は、ディスプレイサイズ検出部３１、相対位置検出部３２、通信制御部３５、撮像部３８、表示制御部３９を有する。
　表示装置２は、通信制御部３６、表示制御部３７を有する。
　クラウドサーバ４は、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部４０を有する。

　通信制御部４０は、クラウドサーバ４において他の機器との情報の送信や受信を行う機能である。クラウドサーバ４としての情報処理装置７０における通信部８０を介した通信の制御機能であり、映像処理部８５やＣＰＵ７１により実現される。

　このような機能構成の第３の実施の形態では、端末装置１、クラウドサーバ４、及び表示装置２で図２４のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。

　ユーザ操作或いは自動的な開始制御により、バーチャルプロダクション撮影を開始すると、端末装置１はステップＳ１２０でディスプレイサイズ検出部３１により表示装置２のディスプレイサイズを検出する。そして端末装置１はディスプレイサイズ情報をクラウドサーバ４に送信する。

　クラウドサーバ４はこれに応じてステップＳ３０１でディスプレイサイズ情報を受信し、その後のレンダリングのために記憶する。

　端末装置１はステップＳ１０２でバーチャルプロダクション撮影の終了判定を行い、終了していない期間は、撮影映像ｖＣのフレームタイミング毎に、ステップＳ１２１、Ｓ１２２、Ｓ１０５、Ｓ１０６の処理を繰り返すことになる。

　ステップＳ１２１で端末装置１は、相対位置検出部３２により相対位置検出を行い、検出した相対位置情報ＲＰを通信制御部３５によりクラウドサーバ４に送信する処理を行う。

　クラウドサーバ４は、ステップＳ３０１でディスプレイサイズ情報を受信した後、ステップＳ３０２で終了判定を行いながら、ステップＳ３０３、Ｓ３０４，Ｓ３０５の処理を繰り返す。なおクラウドサーバ４側の終了判定は、例えば端末装置１からの相対位置情報ＲＰの受信が所定時間以上、途絶えたこと、或いは端末装置１とのネットワーク通信が切断されたことなどにより行うことができる。或いは終了時には端末装置１から終了指示の信号を送信するようにし、クラウドサーバ４はそれを受信することで終了判定するようにしてもよい。終了判定によりクラウドサーバ４は処理を終える。

　終了と判定されるまでの期間は、クラウドサーバ４は通信制御部４０によりステップＳ３０３で相対位置情報ＲＰを受信する。
　ステップＳ３０４でクラウドサーバ４、背景レイアレンダリング部３４により、ディスプレイサイズの情報と受信した相対位置情報ＲＰに基づき、３Ｄモデル管理部３３から読み出された３Ｄ背景モデル５をレンダリングして背景映像ｖＢを生成する。
　そしてクラウドサーバ４はステップＳ３０５で、背景映像ｖＢを通信制御部４０により端末装置１に送信する処理を行う。

　端末装置１はステップＳ１２２で背景映像ｖＢを受信したら、通信制御部４０により、受信した背景映像ｖＢを表示装置２に送信する処理を行う。
　またステップＳ１０６で端末装置１は、表示制御部３９により、撮像部３８の撮影により得られる各フレームの撮影映像ｖＣを画面１ａに表示する処理を行う。

　表示装置２では第１の実施の形態（図２０）と同様にステップＳ２０１，Ｓ２０２，Ｓ２０３の処理を行う。これにより表示装置２では、受信した背景映像ｖＢを表示する動作が実行される。

＜７．第４の実施の形態：クラウドサーバを用いる例＞
　図１５に示した第４の実施の形態における端末装置１、表示装置２、クラウドサーバ４の機能構成を図２５に示す。

　なお端末装置１、クラウドサーバ４、表示装置２が備える機能は図２３と同様である。但し、クラウドサーバ４の通信制御部４０は、バーチャルプロダクション撮影の実行中、端末装置１、表示装置２と両方に通信接続を維持することになる。

　図２５のような機能構成の第４の実施の形態では、端末装置１、クラウドサーバ４、及び表示装置２で図２６のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。

　端末装置１では、ステップＳ１２０、Ｓ１０２、Ｓ１２１、Ｓ１０６の処理を先の図２４と同様に行う。但しこの場合の端末装置１は、図２４で述べた、クラウドサーバ４から背景映像ｖＢを受信し、表示装置２に転送する処理は不要となる。

　クラウドサーバ４は図２６のようにステップＳ３０１，Ｓ３０２，Ｓ３０３，Ｓ３０４，Ｓ３０５を行う。概略図２４の処理と同様であるが、ステップＳ３０５では、背景映像ｖＢを表示装置２に送信することになる。

　表示装置２は図２６のようにステップＳ２０１，Ｓ２０２，Ｓ２０３の処理を行う。これにより表示装置２では、クラウドサーバ４から受信した背景映像ｖＢを表示する動作が実行される。

＜８．第５の実施の形態：クラウドサーバを用いる例＞
　図１６に示した第５の実施の形態における端末装置１、表示装置２、クラウドサーバ４の機能構成を図２７に示す。

　端末装置１は、撮像部３８、表示制御部３９を有する。
　表示装置２は、ディスプレイサイズ検出部３１、相対位置検出部３２、通信制御部３６、表示制御部３７を有する。
　クラウドサーバ４は、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部４０を有する。

　このような機能構成の第５の実施の形態では、端末装置１、クラウドサーバ４、及び表示装置２で図２８のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。

　この場合、端末装置１は、撮影及び撮影映像ｖＣの表示を行うことになる。従ってステップＳ１０２で終了となるまで、フレーム毎にステップＳ１０６の撮影映像ｖＣの表示処理を行う。

　表示装置２は、ステップＳ２２０でディスプレイサイズ検出部３１により自身のディスプレイサイズの情報を読み出し、ディスプレイサイズ情報をクラウドサーバ４に送信する。

　表示装置２はステップＳ２０１でバーチャルプロダクション撮影の終了判定を行うとともに、終了していない期間は、背景映像ｖＢのフレームタイミング毎に、ステップＳ２２１、Ｓ２０２、Ｓ２０３の処理を繰り返すことになる。

　ステップＳ２２１で端末装置１は、相対位置検出部３２により相対位置検出を行い、検出した相対位置情報ＲＰを通信制御部３６によりクラウドサーバ４に送信する処理を行う。

　クラウドサーバ４は、ステップＳ３０１でディスプレイサイズ情報を受信した後、ステップＳ３０２で終了判定を行いながら、終了と判定されるまでの期間はステップＳ３０３、Ｓ３０４，Ｓ３０５の処理を繰り返す。
　ステップＳ３０３でクラウドサーバ４は、通信制御部４０により表示装置２から相対位置情報ＲＰを受信する。
　ステップＳ３０４でクラウドサーバ４、背景レイアレンダリング部３４により、ディスプレイサイズの情報と受信した相対位置情報ＲＰに基づき、３Ｄモデル管理部３３から読み出された３Ｄ背景モデル５をレンダリングして背景映像ｖＢを生成する。
　そしてクラウドサーバ４はステップＳ３０５で、背景映像ｖＢを通信制御部４０により表示装置２に送信する処理を行う。

　表示装置２はステップＳ２０２で背景映像ｖＢを受信したら、ステップＳ２０３で背景映像ｖＢの表示処理を行う。これにより表示装置２では、受信した背景映像ｖＢを表示する動作が実行される。

＜９．第６の実施の形態：クラウドサーバを用いる例＞
　図１７に示した第６の実施の形態における端末装置１、表示装置２、クラウドサーバ４の機能構成を図２９に示す。

　端末装置１は、相対位置検出部３２、通信制御部３５、撮像部３８、表示制御部３９を有する。
　表示装置２は、ディスプレイサイズ検出部３１、通信制御部３６、表示制御部３７を有する。
　クラウドサーバ４は、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部４０を有する。

　このような機能構成の第６の実施の形態では、端末装置１、クラウドサーバ４、及び表示装置２で図３０のような処理が行われることで、上述の図１８の処理動作がシステム全体として実行される。

　この場合、端末装置１は、相対位置検出と、撮影及び撮影映像ｖＣの表示を行うことになる。従ってステップＳ１０２で終了となるまで、フレームタイミング毎に、ステップＳ１３０で相対位置検出を行い、相対位置情報ＲＰを表示装置２に送信するとともに、ステップＳ１０６の撮影映像ｖＣの表示処理を行う。

　表示装置２は、ステップＳ２２０でディスプレイサイズ検出部３１により自身のディスプレイサイズ情報を読み出し、クラウドサーバ４に送信する。
　クラウドサーバ４はこれに応じてステップＳ３０１でディスプレイサイズ情報を受信し、その後のレンダリングのために記憶する。

　表示装置２はステップＳ２０１でバーチャルプロダクション撮影の終了判定を行い、終了していない期間は、背景映像ｖＢのフレームタイミング毎に、ステップＳ２３１，Ｓ２３２、Ｓ２０２、Ｓ２０３の処理を繰り返すことになる。

　ステップＳ２３１で表示装置２は通信制御部３６により端末装置１から送信されてくる相対位置情報ＲＰを受信し、ステップＳ２３２で相対位置情報ＲＰをクラウドサーバ４に送信する処理を行う。

　クラウドサーバ４は、図２８と同様にステップＳ３０２で終了判定を行いながら、ステップＳ３０３の相対位置情報ＲＰの受信、ステップＳ３０４の背景映像ｖＢのレンダリング、ステップＳ３０５の背景映像ｖＢの表示装置２への送信処理を繰り返す。

＜１０．第７の実施の形態：仮想映像追加技術の適用＞
　続いて第７の実施の形態として、仮想映像追加技術を適用する例を説明する。特に、背景レイアとオーバレイレイアを連携させた撮影の例である。

　仮想的な映像としての背景映像ｖＢを用いた撮影を行う場合、前景であるオブジェクト１０の背後に表示装置２が存在することになる。このため、オブジェクト１０より前方に、表示装置２を置いて仮想的な映像を表示させたり、オブジェクト１０の前方の映像にエフェクトを付与したりすることができない。つまり仮想的な映像は、あくまでオブジェクト１０の背景側となってしまう。
　なお、オブジェクト１０の「前方」とは、オブジェクト１０から見て端末装置１側、つまり撮影を行うデバイス側をいう。

　撮影映像ｖＣにおいてオブジェクト１０の前方に仮想的な映像を加えるようなエフェクトを行うには、オブジェクト１０の前方となるレイアを設定して描画を行い、それを撮影映像ｖＣに重ね合わせる必要がある。
　このような機能を、例えば図１の撮影システム５００で実装しようとすると、撮影システム５００内の各機器の連携が必要となり、機器間の同期や描画データの受け渡しなどを行うために、実現には大幅な変更が必要である。しかしながら、例えば端末装置１内で撮影と描画を行うようにすれば、装置間にまたがらずに同等の処理を行うことができ、実現が容易となる。

　そこで第７の実施の形態としては、第１から第６の実施の形態のように端末装置１を用いる場合に、撮影映像ｖＣに追加仮想映像が付与されるようにする処理例を説明する。

　図３１は端末装置１と表示装置２の位置関係と、オブジェクト位置６０を示している。オブジェクト位置６０は、実際にオブジェクト１０が存在する位置である。端末装置１によっては、オブジェクト１０と表示装置２に表示される背景映像ｖＢを撮影する。

　この場合に、端末装置１で撮像される範囲内について。図示する前方領域６１、後方領域６２、他領域６３，６４を考える。
　前方領域６１は、端末装置１による撮影映像ｖＣにおいてオブジェクト１０の前方となる領域である。後方領域６２はオブジェクト１０の後方となる領域である。他領域６３，６４は、オブジェクト１０の前方又は後方とはならない領域である。

　図３２は、オブジェクト１０に対してリング状の追加仮想映像１１を付加する例を示している。例えばオブジェクト１０を囲むリングの映像であるとする。このような追加仮想映像１１を付加する場合に、背景レイア５０、前景５１、オーバレイレイア５２を考える。
　前景５１はオブジェクト１０そのものの映像である。背景レイア５０は、表示装置２に表示された背景映像ｖＢのレイアである。図３１のような撮影によれば、撮影映像ｖＣは、背景レイア５０と前景５１の映像を含むことになる。

　ここで、前景よりも前方にオーバレイレイア５２を設定し、このオーバレイレイア５２にリング状の追加仮想映像１１の描画を行って、これを撮影映像ｖＣに合成すると、撮影映像ｖＣはリング状の追加仮想映像１１が加えられたものとなる。つまり、オブジェクト１０の前方に仮想的な映像を付加するような映像エフェクトが実現できる。
　上述のように、バーチャルプロダクション撮影では、オブジェクト１０の後方の背景映像ｖＢとして仮想的な映像を含むものとするが、オーバレイレイア５２を考えることで、オブジェクト１０の前方にも仮想的な映像を加えることができる。

　この際に、例えばリング状の追加仮想映像１１を、単純にオーバレイレイア５２に描画するものであってもよいが、より好ましくは、前方領域６１、後方領域６２、他領域６３，６４を考えて仮想映像追加処理を行うようにする。

　図３１からわかるように、リング状の追加仮想映像１１は、前方領域６１、後方領域６２、他領域６３，６４にわたって位置する映像となっている。
　この場合に、追加仮想映像１１における前方領域６１に属する部分は、オーバレイレイア５２に描画する。追加仮想映像１１における後方領域６２に属する部分は背景映像ｖＢに追加されるようにする。追加仮想映像１１における他領域６３，６４に属する部分は、オーバレイレイア５２に描画してもよいが、望ましくは背景映像ｖＢに追加されるようにする。

　追加仮想映像１１において前方領域６１に位置する部分は、撮影映像ｖＣにおいてオブジェクト１０より前に映る必要があるため、オーバレイレイア５２を用いる。
　オーバレイレイア５２を用いる場合は、その追加仮想映像１１をオーバレイレイア５２の映像としてレンダリングし、レンダリングしたオーバレイレイア５２を、撮影映像ｖＣに合成するということになる。

　追加仮想映像１１において後方領域６２に位置する部分は、実際には撮影映像ｖＣにおいてオブジェクト１０に隠れることになる。その意味で、追加仮想映像１１における後方領域６２に属する部分は描画しないということも考えられる。但し、この部分のオブジェクト１０への映り込みを考慮して、背景レイア５０に追加されるようにするとよい。例えばオブジェクト１０における光沢のある面などへの、自然な映り込み実現のためである。
　追加仮想映像１１を背景レイア５０に追加する場合は、３Ｄ背景モデルを用いて背景映像ｖＢのレンダリングを行う際に、追加仮想映像１１における映像も付加する処理を行うこととなる。

　追加仮想映像１１において他領域６３，６４に位置する部分は、撮影映像ｖＣにおいてオブジェクト１０とは重ならない。そのため、前方領域６１と同じくオーバレイレイア５２に描画してもよい。但し、オブジェクト１０への自然な映り込みの効果を考慮すると、背景映像ｖＢのレンダリング時に付加されて背景レイア５０に追加されるようにするとよいことになる。

　以上のように、背景レイア５０やオーバレイレイア５２を用いて前景５１としてのオブジェクト１０の前後に追加仮想映像１１を加えることができる。

　図３３は、背景映像ｖＢとオブジェクト１０を撮影した撮影映像ｖＣに、文字による追加仮想映像１１ａが付加された例である。これは、文字による追加仮想映像１１ａをオーバレイレイア５２に描画して合成した例である。
　図３４は、背景映像ｖＢとオブジェクト１０を撮影した撮影映像ｖＣに、仮想的なハート型や星形の追加仮想映像１１ａ、１１ｂが付加された例である。これは、例えばオブジェクト１０の人物の位置から前方領域６１の追加仮想映像１１ａをオーバレイレイア５２に描画し、後方領域６２や他領域６３，６４の追加仮想映像１１ｂを背景レイア５０に描画、つまり背景映像ｖＢに含めるようにした例である。

　これらの追加仮想映像１１を付加する仮想映像追加処理は、撮影映像ｖＣについて顔認識や手指や身体のボーン認識を行い、この結果よりエフェクトとしての追加仮想映像１１を生成し、背景レイア５０や、オーバレイレイア５２に適用しても良い。
　例えば人物（オブジェクト１０）の身体の、画像内における位置に応じて、追加仮想映像１１（１１ａ，１１ｂ）の位置を設定する。図３３は、追加仮想映像１１ａがオブジェクト１０の身体と重なるようにしている。また図３４では、顔（頬）の部分に追加仮想映像１１ａが位置するようにした例である。

　またタッチパネル操作によるエフェクト発動の位置とタイミング指定することもできる。例えばユーザが撮影をしながら端末装置１の画面１ａをタッチすることによって、背景レイア５０に対して追加仮想映像１１ｂを付与する例を図３５に示している。
　ユーザの指６５のタッチのタイミングで、タッチによって指定された位置から、背景レイア５０の背景映像ｖＢに、稲妻のような追加仮想映像１１ｂが加えられた例である。
　もちろん、タッチ等で指定した位置から、オーバレイレイア５２を用いた追加仮想映像１１を付加することや、背景レイア５０とオーバレイレイア５２の両方にまたがる追加仮想映像１１を付加することもできる。

　例えば以上のような追加仮想映像１１を付加する処理を行う場合の処理の流れを図３６で説明する。図３６の各ステップは、それぞれ、第１から第６の実施の形態で説明したような端末装置１、表示装置２、或いはさらにクラウドサーバ４を備えたシステム構成においていずれかの装置で実行される処理である。つまり先の図１８と同様に、システム全体の処理手順として記載した。

　撮影が開始される場合、ステップＳＴ１１でシステム内のいずれかの装置でディスプレイサイズ検出が行われる。即ち表示装置２の画面２ａのサイズ情報が検出される。サイズ情報は、レンダリングを行う装置が取得する。

　ステップＳＴ１２で撮影の終了判定が行われる。例えば端末装置１におけるユーザによる撮影の終了操作などにより撮影終了と判定される。終了と判定されたら各装置は図３６の処理を終える。
　撮影終了と判定されるまでは、背景映像ｖＢ及び撮影映像ｖＣの１フレームタイミング毎に、ステップＳＴ１３からステップＳＴ２３の処理が繰り返される。

　ステップＳＴ１３でシステム内のいずれかの装置（端末装置１又は表示装置２）で、相対位置検出が行われる。検出による相対位置情報ＲＰは、レンダリングを行う装置が取得する。

　ステップＳＴ１４で、例えば端末装置１で領域検出が行われる。これは現在のフレームの撮影映像ｖＣから、撮影映像ｖＣ内におけるオブジェクト１０の位置に応じて、前方領域６１、後方領域６２、他領域６３，６４を検出する処理である。

　ステップＳＴ１５では、システム内のいずれかの装置で、今回、背景映像ｖＢのレンダリングを行うフレームが追加仮想映像１１を適用するフレームであるか否かを判定する。
　追加仮想映像１１を適用するエフェクト開始タイミングは、例えばユーザのタッチ操作により指定される。タッチ操作以外の所定のユーザ操作により、追加仮想映像１１を適用するエフェクト開始タイミングが指示されるようにしてもよい。
　或いは画像認識処理によって、特定の被写体が検出されたら追加仮想映像１１の適用するエフェクトが発動されるような自動処理でもよい。例えば笑顔を検出したら、所定の追加仮想映像１１が付加されるようにする処理である。
　また映像コンテンツのタイムスタンプとして、あらかじめ設定した時間になったら追加仮想映像１１としてのエフェクトを発動するような処理を行ってもよい。

　これらの手動操作、或いは自動処理により、ある期間で追加仮想映像１１によるエフェクトが発動されるようにする。その場合に、ステップＳＴ１５では、現在のタイミングは背景レイア５０或いはオーバレイレイア５２の一方又は両方に追加仮想映像１１を加える処理を行うタイミングであるか否かを判定することになる。

　現在、追加仮想映像１１のエフェクト発動するフレームのタイミングでなければ、ステップＳＴ１５からステップＳＴ１７に進む。
　この場合は、ステップＳＴ１７で３Ｄ背景モデルを用いて、例えば第１の実施の形態と同様に背景映像ｖＢのレンダリングを行うことになる。
　つまり、３Ｄ背景モデルを用いて、ディスプレイサイズ情報、相対位置情報ＲＰに基づいてレンダリングが行われ、背景映像ｖＢが生成される。

　現在、追加仮想映像１１のエフェクト発動のタイミングであれば、ステップＳＴ１５からステップＳＴ１６に進む。
　ステップＳＴ１６では、システム内のいずれかの装置で、追加仮想映像１１の適用設定が行われる。具体的には、背景レイア５０についての追加仮想映像１１の適用設定、オーバレイレイア５２についての追加仮想映像１１の適用設定の一方又は両方が行われる。

　例えば追加仮想映像１１の全部又は一部を後方領域６２や他領域６３，６４に配置する場合、今回ステップＳＴ１７でレンダリングする背景映像ｖＢに、追加仮想映像１１が含まれるようにする。この場合、ステップＳＴ１６で、追加仮想映像１１を背景レイア５０に適用するための設定が行われる。つまり３Ｄ背景モデルを用いた背景映像ｖＢのレンダリングの際に、追加仮想映像１１が加えられて背景映像ｖＢが生成されるようにする。
　背景映像ｖＢ内における追加仮想映像１１の画面内位置の設定も行われる。例えばタッチ位置や、認識や手指や身体のボーン認識などの物体検出結果に応じて、追加仮想映像１１の画面内位置の設定が行われる。
　つまり具体的には、背景レイア５０に付与する追加仮想映像１１としての画像内容、ステップＳＴ１４の領域検出の結果に応じた追加仮想映像１１のうちの描画すべき範囲の設定、操作或いは画像認識などに応じた画面内の位置の指定などが行われる。

　また、例えば追加仮想映像１１の全部又は一部を前方領域６１に配置する場合、今回の背景映像ｖＢのフレームに対応する撮影映像ｖＣのフレームに、オーバレイレイア５２を用いて追加仮想映像１１が付加されるようにする。このためステップＳＴ１６では、オーバレイレイア５２に付与する追加仮想映像１１としての画像内容、ステップＳＴ１４の領域検出の結果に応じた追加仮想映像１１のうちの描画すべき範囲の設定、操作或いは画像認識などに応じた画面内の位置の指定などが行われる。

　このステップＳＴ１６で背景レイア５０についての追加仮想映像１１の適用設定が行われた場合、ステップＳＴ１７では、システム内のいずれかの装置で、３Ｄ背景モデルを用いて背景映像ｖＢのレンダリングを行うが、その際に背景映像ｖＢに追加仮想映像１１が加えられることになる。
　つまり、３Ｄ背景モデルを用いて、ディスプレイサイズ情報、相対位置情報ＲＰに基づいてレンダリングが行われるとともに、ステップＳＴ１６の設定応じて追加仮想映像１１が加えられた背景映像ｖＢが生成される。

　そしてステップＳＴ１８で、表示装置２においてレンダリングにより得た背景映像ｖＢの表示処理が行われる。

　端末装置１においては、表示装置２の背景映像ｖＢとオブジェクト１０の撮影を行いながら、撮影映像の画面１ａへの表示処理が行われるが、その際にオーバレイレイア５２を用いた追加仮想映像１１の付加が行われる場合がある。

　ステップＳＴ１９で端末装置１は、現在の撮影映像ｖＣのフレームが、オーバレイレイア５２を用いて追加仮想映像１１を描画するフレームであるか否かを判定する。
　今回のフレームについて先にステップＳＴ１６でのオーバレイレイア５２における追加仮想映像１１の適用設定が行われていない場合は、端末装置１はステップＳＴ１９からステップＳＴ２３に進み、今回の撮影映像ｖＣのフレームをそのまま画面１ａに表示させる処理を行う。
　これは現在の撮影映像ｖＣのフレームが、追加仮想映像１１のエフェクトが発動されていない期間のフレームである場合、或いは発動期間であっても、追加仮想映像１１の全てが背景レイア５０に追加され、オーバレイレイア５２を用いない場合である。

　一方、現在の撮影映像ｖＣのフレームが、オーバレイレイア５２を用いて追加仮想映像１１を描画するとステップＳＴ１６で設定されたフレームである場合は、端末装置１はステップＳＴ１９からステップＳＴ２０に進み、オーバレイレイア５２のレンダリングを行う。つまりディスプレイサイズ情報、相対位置情報ＲＰ、追加仮想映像１１として適用する３Ｄモデルやキャラクタ画像などを用いてレンダリング行い、オーバレイレイア５２の映像を生成する。

　ステップＳＴ２１で端末装置１は、撮影映像ｖＣにオーバレイレイア５２の合成処理を行う。これにより撮影映像ｖＣに、オブジェクト１０の前方領域６１を含めた追加仮想映像１１を付加する。
　ステップＳＴ２２で端末装置１は、合成後の撮影映像ｖＣの映像全体へのフィルタを適用することができる。例えば、絵画調フィルタ、アニメ調フィルタなどを適用することで、画像エフェクトの一種としてのフィルタ処理を行うことができる。
　そして端末装置１はステップＳＴ２３で撮影映像ｖＣを画面１ａに表示させる。

　以上の処理により、ユーザは撮影中に、リアルタイムに追加仮想映像１１によるエフェクトを付与した撮影映像ｖＣを視認することができるようになる。
　なお、オーバレイレイア５２の合成を行わない場合にステップＳＴ２２のフィルタ処理を行うようにしてもよい。

　システム全体として以上の流れの処理が行われてバーチャルプロダクション撮影が進行され、かつオブジェクト１０の前後に追加仮想映像１１を加えるような仮想映像追加処理を行うこともできる。
　このような処理を実行するための具体的な機能構成と、各装置の処理例を説明する。

　図３７は、図１９の第１の実施の形態のように、端末装置１と表示装置２で構成される場合の例である。

　端末装置１は、ディスプレイサイズ検出部３１、相対位置検出部３２、３Ｄモデル管理部３３、背景レイアレンダリング部３４、通信制御部３５、撮像部３８、表示制御部３９を有する。これらは図１９の例と同様であるが、加えて端末装置１は、領域検出部４４、入力操作受付部４５、画像認識処理部４６、オーバレイレイアレンダリング部４７、画像合成部４８、フィルタ処理部４９を備える。

　領域検出部４４は、撮影映像ｖＣのフレーム毎に、図３１で説明した前方領域６１、後方領域６２、他領域６３，６４の検出を行う。領域検出部４４は例えばオブジェクト１０としての画像を画像認識により追従してオブジェクト位置６０を判定し、それに基づいて前方領域６１、後方領域６２、他領域６３，６４の検出を行う。なお、オブジェクト１０が動かない物体であるときなどは、オブジェクト位置６０を一旦検出した後は、相対位置情報ＲＰに基づいて各フレームの前方領域６１、後方領域６２、他領域６３，６４の検出を行うこともできる。
　この領域検出部４４は、例えば情報処理装置７０におけるカメラ部８７、センサ部８６、通信部８０からの情報を用いて、ＣＰＵ７１や映像処理部８５の処理機能として実現することができる。

　入力操作受付部４５は、ユーザのタッチ操作など、仮想映像追加処理に関するユーザ操作を検知する機能である。例えば画面１ａにタッチパネルが設けられ、入力操作受付部４５は、このタッチパネルによるタッチ操作を検知する。
　ユーザのタッチ操作により追加仮想映像１１のエフェクト発動とする場合は、入力操作受付部４５から操作情報が３Ｄモデル管理部３３に通知される。入力操作受付部４５は、情報処理装置７０における入力部７６による入力を検知するＣＰＵ７１や映像処理部８５により実現することができる。

　画像認識処理部４６は、撮影映像ｖＣにおける被写体画像の認識処理を行う。認識処理結果は３Ｄモデル管理部３３に通知される。画像認識処理部４６は、情報処理装置７０においてカメラ部８７により撮影された映像を解析する映像処理部８５により実現することができる。

　これら入力操作受付部４５からの操作情報や画像認識処理部４６からの認識処理結果が伝達されることで、３Ｄモデル管理部３３では、追加仮想映像１１を加えるエフェクトの発動タイミングや画面内の位置を設定したり、追加仮想映像１１の内容を設定したりすることができる。つまり３Ｄモデル管理部３３が図３６のステップＳＴ１６で述べた追加仮想映像１１を加えるエフェクトの適用設定を行うことができる。

　オーバレイレイアレンダリング部４７は、オーバレイレイア５２についてのレンダリングを行う機能であり、情報処理装置７０における映像処理部８５やＣＰＵ７１の処理により実現される。

　オーバレイレイアレンダリング部４７と背景レイアレンダリング部３４には、ディスプレイサイズ検出部３１からのディスプレイサイズ情報、相対位置検出部３２からの相対位置情報ＲＰ、３Ｄモデル管理部３３からの３Ｄモデル、領域検出部４４からの前方領域６１、後方領域６２、他領域６３，６４の検出情報が供給される。これにより背景レイアレンダリング部３４は図３６のステップＳＴ１７のレンダリングを行うことができ、またオーバレイレイアレンダリング部４７はステップＳＴ２０のレンダリングを行うことができる。

　画像合成部４８は、撮像部３８による撮影映像ｖＣと、オーバレイレイアレンダリング部４７でレンダリングしたオーバレイレイア５２の映像との合成処理を行い、オブジェクト１０の前方領域に追加仮想映像１１を付加する。
　フィルタ処理部４９は、画像合成部４８で合成した映像に対してエフェクトとしてのフィルタ処理を行う。
　画像合成部４８、フィルタ処理部４９は、例えば情報処理装置７０における映像処理部８５により実現される機能である。

　図３７の例では、表示装置２側の機能構成は図１９と同様としており、通信制御部３６、表示制御部３７を備える。

　このような機能構成を想定して、第７の実施の形態の具体的な処理、つまり上述の図３６の処理をシステム全体で行う場合の処理例を図３８で説明する。

　ユーザ操作或いは自動的な開始制御により、バーチャルプロダクションとしての撮影を開始すると、端末装置１はステップＳ１０１でディスプレイサイズ検出部３１により表示装置２のディスプレイサイズを検出する。
　そして端末装置１はステップＳ１０２でバーチャルプロダクション撮影の終了判定を行い、終了していない期間は、撮影映像ｖＣのフレームタイミング毎に、ステップＳ１０３からＳ１０６を繰り返すことになる。

　ステップＳ１０３で端末装置１は、相対位置検出部３２により相対位置検出を行う。
　ステップＳ１５０で端末装置１は、領域検出部４４により現在の撮影映像ｖＣのフレームで、前方領域６１、後方領域６２、他領域６３，６４の検出を行う。

　ステップＳ１５１で端末装置１は、現在、追加仮想映像１１を適用するフレームのタイミングであるか否かを判定する。そして当該タイミングであればステップＳ１５２で、背景レイア５０，オーバレイレイア５２の一方又は両方に追加仮想映像１１の適用設定を行う。これは図３６のステップＳＴ１５，ＳＴ１６の処理であり、入力操作受付部４５や画像認識処理部４６からの情報に基づいて、３Ｄモデル管理部３３が適用設定を行うことになる。

　ステップＳ１５３で端末装置１は、背景レイアレンダリング部３４により、３Ｄモデル管理部３３から読み出された３Ｄ背景モデル５をオフスクリーンバッファにレンダリングする。この場合、背景レイア５０への追加仮想映像１１の適用設定がされていた場合は、３Ｄ背景モデル５による映像上に、追加仮想映像１１が加えられた状態の背景映像ｖＢが生成されることになる。

　表示装置２側では、バーチャルプロダクションとしての撮影が開始された後は、ステップＳ２０１で終了判定を行いながら、終了に至るまでは、フレーム毎にステップＳ２０２，Ｓ２０３の処理を繰り返す。

　終了までの期間、ステップＳ２０２で表示装置２は、通信制御部３６により、端末装置１からの背景映像ｖＢを受信する。
　ステップＳ２０３で表示装置２は、表示制御部３７により、受信した背景映像ｖＢを画面２ａに表示する処理を行う。
　従って背景映像ｖＢに追加仮想映像１１が含まれていた場合は、表示装置２では、背景レイア５０に追加仮想映像１１が追加された状態の表示が行われる。

　端末装置１は、撮像部３８により表示装置２とオブジェクト１０の撮影を行っているが、ステップＳ１５４では、現在の撮影映像ｖＣのフレームが、追加仮想映像１１をオーバレイレイア５２に加える設定とされているか否かを判定する。
　オーバレイレイア５２による追加仮想映像１１を加えない場合は、端末装置１はステップＳ１０６に進み、表示制御部３９により、撮影により得られる各フレームの撮影映像ｖＣを画面１ａに表示する処理を行う。

　オーバレイレイア５２による追加仮想映像１１を加える場合は、端末装置１はステップＳ１５５で、オーバレイレイアレンダリング部４７によりオーバレイレイア５２のレンダリングを行う。
　そして端末装置１はステップＳ１５６で、画像合成部４８で、現在の撮影映像ｖＣのフレームにレンダリングしたオーバレイレイア５２を合成する。
　さらに端末装置１は、設定に応じてステップＳ１５７で、フィルタ処理部４９によるフィルタ処理を実行する。
　そして端末装置１はステップＳ１０６に進み、表示制御部３９により、合成処理を経た撮影映像ｖＣを画面１ａに表示する処理を行う。
　従ってユーザは、リアルタイムで追加仮想映像１１が加えられた撮影映像ｖＣを画面２ａ上で視認することができる。

　以上のように第７の実施の形態では、バーチャルプロダクション撮影において、背景レイア５０とオーバレイレイア５２を連携させた撮影を実行できる。
　またユーザは、タッチパネル操作などによるエフェクト発動の位置とタイミング指定を行うこともできる。

　ところで図３７，図３８は、図１２の第１の実施の形態のシステム構成に準じて説明したが、図１３から図１７の各システム構成例の場合にも、図３６の処理を適用できる。
　例えば背景レイア５０に追加仮想映像１１を加える背景レイアレンダリング部３４は、端末装置１側以外に、表示装置２側に設けられる場合もあるし（図２１参照）、或いはクラウドサーバ４側に設けられる場合もある（図２３，図２５，図２７，図２９参照）。
　オーバレイレイアレンダリング部４７や画像合成部４８は、端末装置１に設けられる他、クラウドサーバ４に設けられて、撮影映像ｖＣについて端末装置１とクラウドサーバ４が連携してオーバレイレイア５２の処理を行うようにしてもよい。

＜１１．まとめ及び変型例＞
　以上の実施の形態によれば次のような効果が得られる。
　実施の形態の情報処理装置７０は、背景レイアレンダリング部３４の機能を有する映像処理部８５を備える。この映像処理部８５は、表示装置２と、撮影機能を有する端末装置１とが関連付けられる状態で、オブジェクト１０と、表示装置２に表示される背景映像ｖＢとを端末装置１で撮影する場合に、表示装置２と端末装置１の相対位置情報ＲＰに基づいて３Ｄモデルをレンダリングして表示装置２に表示される背景映像ｖＢを生成する機能である。
　例えばユーザが自宅にあるテレビジョン受像器などの表示装置２と、スマートフォンなどの端末装置１を用いて、表示装置２に表示される背景映像ｖＢと、オブジェクト１０とを撮影する。このときに端末装置１と表示装置２が、相対位置検出の対象として関連付けられて相対位置検出が行われることで、表示装置２に対する端末装置１から視点方向に応じた背景映像ｖＢを生成し、表示装置２に表示させることができる。従って、専用スタジオ以外、例えば自宅等で容易にバーチャルプロダクション技術を適用した撮影を行うことができるようになる。
　このような情報処理装置７０は、端末装置１内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えた端末装置１自体と考えることができる。或いは情報処理装置７０は、表示装置２内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えた表示装置２自体と考えることもできる。さらに情報処理装置７０は、表示装置２や端末装置１とは別体の装置、例えばクラウドサーバ４内に設けられるプロセッサであるか、もしくはそのようなプロセッサを備えたクラウドサーバ４等の装置自体と考えることもできる。

　第１の実施の形態では、端末装置１の映像処理部８５（背景レイアレンダリング部３４、通信制御部３５）は、３Ｄ背景モデル５をレンダリングした背景映像ｖＢを表示装置２に送信する構成とした（図１２，図１９，図２０参照）。
　端末装置１において相対位置に応じて３Ｄ背景モデル５のレンダリングを行って表示装置２に送信し、表示させる。そして端末装置１で撮影する。これにより、例えば映像受信可能な一般的なテレビジョン装置、モニタ装置等を表示装置２として用いて、端末装置１の機能により、自宅や外出先などにおける表示装置２がある環境で、手軽にバーチャルプロダクションを実現できる。

　第２の実施の形態は、表示装置２の映像処理部８５（背景レイアレンダリング部３４、通信制御部３６）で、端末装置１から受信した相対位置情報ＲＰに基づいて３Ｄ背景モデル５をレンダリングして背景映像ｖＢを生成する構成とした（図１３，図２１，図２２参照）。
　端末装置１で相対位置検出を行う場合、相対位置情報ＲＰを端末装置１から受信する構成により、表示装置２が３Ｄ背景モデルのレンダリングを行って背景映像ｖＢを生成し、表示する構成とすることができる。この場合、レンダリングを行う映像処理部８５を備える表示装置２を導入することで、自宅等でバーチャルプロダクションを実現できる。端末装置１側は、相対位置情報ＲＰを検出し表示装置２に送信する機能を備えればよいため、処理負荷が少なく、高い処理能力を必要としない。

　第３，第４，第５，第６の実施の形態では、端末装置１及び表示装置２のいずれとも別体である外部装置に映像処理部８５（背景レイアレンダリング部３４）が設けられる構成とした。そして映像処理部８５は、受信した相対位置情報ＲＰに基づいて３Ｄ背景モデル５をレンダリングして表示装置２に表示させる背景映像ｖＢを生成し、送信する（図１４から図１７，図２４から図３０参照）。
　例えば端末装置１、又は表示装置２の一方又は両方と通信可能な外部装置において背景映像ｖＢのレンダリングを行うようにする。これにより、演算機能や記憶容量などのリソースの豊富な外部装置を利用して、端末装置１と表示装置２を用いたバーチャルプロダクションを実現できる。端末装置１や表示装置２に処理負担が少ないという利点が得られる。
　なお実施の形態では外部装置としてクラウドサーバ４を挙げたが、外部装置としては例えばホームネットワークにおけるホームサーバ、専用のパーソナルコンピュータ、ワークステーション、端末装置１とは別のスマートフォンやタブレットやＰＣ、或いはビデオ機器等のいわゆる家庭用電化製品などであってもよい。少なくとも本技術の映像処理部８５を備えた情報処理装置７０として機能できる装置であればよい。

　第３，第４，第５，第６の実施の形態では、外部装置はクラウドサーバ４とした。
　例えば端末装置１、又は表示装置２が通信アクセス可能なクラウドサーバ４において背景映像ｖＢのレンダリングを行うようにする。これによりクラウドサーバ４の処理機能を利用して、端末装置１と表示装置２を用いたバーチャルプロダクションを実現できる。端末装置１や表示装置２に処理負担が少ないという利点が得られる。クラウドサーバ４の処理能力を利用して、例えばデータサイズの大きい３Ｄ背景モデル５を用いて高精細な背景映像ｖＢのレンダリングを行うことも可能となる。またクラウドサーバ４としてユーザにサービスを提供することで、バーチャルプロダクションによる映像制作機会を広く提供できる。

　第３、第４の実施の形態では、外部装置における映像処理部８５（背景レイアレンダリング部３４）は、端末装置１から受信した相対位置情報ＲＰに基づいて３Ｄ背景モデル５をレンダリングして表示する映像を生成するものとした。
　端末装置１において相対位置検出を行う場合に、例えばクラウドサーバ４が端末装置１から相対位置情報ＲＰを受信できるようにすればよい。これにより端末装置１及び表示装置２以外の外部装置で、時点毎の相対位置情報ＲＰに基づいたレンダリングが可能となり、各時点の端末装置１の視点位置に応じた背景映像ｖＢを生成できる。
　なお実施の形態では挙げていないが、例えば表示装置２側で検出した相対位置情報ＲＰを端末装置１に転送し、端末装置１からクラウドサーバ４に送信するようにしてもよい。端末装置１がクラウドサーバ４にアクセスする環境における相対位置情報ＲＰの送信手法の１つとなる。

　第５，第６の実施の形態では、外部装置における映像処理部８５（背景レイアレンダリング部３４、通信制御部４０）は、表示装置２から受信した相対位置情報ＲＰに基づいて３Ｄ背景モデル５をレンダリングして表示する映像を生成するものとした。
　例えば第５の実施の形態のように表示装置２において相対位置検出を行う場合には、例えばクラウドサーバ４が表示装置２から相対位置情報ＲＰを受信できるようにすればよい。また第６の実施の形態のように、端末装置１で相対位置検出を行う場合でも、相対位置情報ＲＰを表示装置２側に転送し、表示装置２からクラウドサーバ４に送信するようにしてもよい。これらにより端末装置１及び表示装置２以外の外部装置で、時点毎の相対位置情報ＲＰに基づいたレンダリングが可能となり、各時点の端末装置１の視点位置に応じた背景映像ｖＢを生成できる。

　第３の実施の形態では、外部装置における映像処理部８５（背景レイアレンダリング部３４、通信制御部４０）は、３Ｄ背景モデル５をレンダリングして生成した背景映像ｖＢを端末装置１に送信する処理を行うものとした。
　クラウドサーバ４が生成した背景映像ｖＢは、端末装置１に送信し、端末装置１から表示装置２に送信する構成とする。これにより端末装置１と通信する外部装置で生成した背景映像ｖＢをリアルタイムで表示装置２に表示させることができる。
　なお実施の形態では挙げていないが、例えばクラウドサーバ４が、表示装置２から受信した相対位置情報に基づいてレンダリングした背景映像ｖＢを、端末装置１に送信し、端末装置１から表示装置２に送信する構成も考えられる。

　第４，第５，第６の実施の形態では、外部装置における映像処理部８５（背景レイアレンダリング部３４、通信制御部４０）は、３Ｄ背景モデル５をレンダリングして生成した映像を表示装置２に送信する処理を行うものとした。
　クラウドサーバ４が生成した背景映像ｖＢは、表示装置２に送信する。これにより端末装置１と通信する外部装置で生成した背景映像ｖＢをリアルタイムで表示装置２に表示させることができる。また背景映像ｖＢを、端末装置１を介さないで表示装置２に送信することで、必要な通信量を低減し、通信付加の削減、通信速度向上、通信効率向上を促進できる。

　第７の実施の形態では、映像処理部８５（背景レイアレンダリング部３４、オーバレイレイアレンダリング部４７）は、表示装置２に表示された背景映像ｖＢとオブジェクト１０を端末装置１で撮影した撮影映像ｖＣにおいて、３Ｄ背景モデル５による背景映像ｖＢ及びオブジェクト１０の映像とともに追加仮想映像１１が含まれるようにする仮想映像追加処理を行うものとした。
　撮影映像ｖＣは、３Ｄ背景モデル５に基づく背景映像ｖＢやオブジェクト１０の映像に加えて追加仮想映像１１が加わるようにする。これにより簡易的なバーチャルプロダクションにおいて追加仮想映像１１を用いた、より多様な映像表現を可能とすることができる。
　追加仮想映像１１の付加処理は撮影時にリアルタイムで行うこともできるし、ポストプロダクションとして撮影後に行うようにしてもよい。

　なお追加仮想映像１１とは、特定の映像、模様、色や輝度変化やパターン、文字など、あらゆる追加的な仮想映像を指す。つまり、撮影映像ｖＣに映っている映像のうちで、３Ｄ背景モデルから得られる元々の背景としての映像や、実物としてのオブジェクト１０の映像を除いて、映像処理により付け加えられた映像又は映像効果として意図的に変更された映像は、追加仮想映像１１に相当する。本開示では、そのような追加仮想映像１１が含まれるようにする処理を仮想映像追加処理と呼んでいる。ただし一般的な画質調整、例えば輝度調整、色調整、階調調整、ホワイトバランス調整、ガンマ処理、シャープネス処理などは、本開示でいう仮想映像追加処理に該当しない。

　第７の実施の形態は、映像処理部８５（背景レイアレンダリング部３４、オーバレイレイアレンダリング部４７）は、端末装置１による撮影時の映像の各フレームに対する処理において、撮影映像ｖＣに追加仮想映像１１が含まれるようにする仮想映像追加処理を行う例とした。
　つまり撮影の際に、リアルタイムで追加仮想映像１１が追加されるようにする。これにより簡易に、且つユーザが確認しやすい映像エフェクトを提供できる。

　第７の実施の形態では、映像処理部８５（背景レイアレンダリング部３４、オーバレイレイアレンダリング部４７）は、端末装置１に対する所定操作に応じて、仮想映像追加処理を開始する例を挙げた。
　例えば撮影の際に、ユーザのタッチ操作などに応じて追加仮想映像１１のエフェクトが発動されるようにする。これによりユーザが望みのタイミングで映像エフェクトを発動させるような撮影環境を提供できる。

　第７の実施の形態では、映像処理部８５（３Ｄモデル管理部３３）は、撮影映像についての画像認識処理に基づいて仮想映像追加処理の設定を行う例を挙げた（図３６のステップＳＴ１６、図３８のステップＳ１５２、図３３，図３４，図３５参照）。
　例えばオブジェクトの種別、位置、撮影映像ｖＣ内のサイズなどに応じて、追加仮想映像１１の種別、映像内での位置などのパラメータを決定する。オブジェクト１０としての人の顔認識やボーン認識などにより、映像内の適切な場所に追加仮想映像１１を追加することができる。

　第７の実施の形態の仮想映像追加処理は、撮影映像ｖＣにおいてオブジェクト１０の映像にオーバレイするオーバレイレイア５２に追加仮想映像１１を加える処理であるとした。
　例えば図３３，図３４の追加仮想映像１１ａのように、オーバレイレイア５２に追加仮想映像１１が含まれるようにする。これにより実在するオブジェクト１０の前方領域６１に仮想的な映像を加えることができる。
　このような仮想映像追加処理は、映像処理部８５におけるオーバレイレイアレンダリング部４７及び画像合成部４８の機能で実現できる。

　また第７の実施の形態の仮想映像追加処理は、３Ｄ背景モデル５をレンダリングして生成する背景映像ｖＢに、追加仮想映像を加える処理であるともした。
　例えば図３４，図３５の追加仮想映像１１ｂのように、背景映像ｖＢに追加仮想映像１１が含まれるようにする。これによりオブジェクト１０の後方側となる領域（他領域６３，６４、後方領域６２）に仮想的な映像を加えることができる。
　このような仮想映像追加処理は、背景レイアレンダリング部３４のレンダリングで実現できる。特に背景映像ｖＢに追加仮想映像１１が加わるようにすることで、実在するオブジェクト１０には追加仮想映像１１の映り込みも生じる。従って、仮想的な追加仮想映像１１が実在するオブジェクト１０に映り込むような、よりリアルな映像表現を容易に実現できる。これはポストプロダクションとして映り込みを加えるような困難な作業を必要としないという意味でもある。
　このような仮想映像追加処理は、映像処理部８５における背景レイアレンダリング部３４の機能で実現できる。

　第７の実施の形態では、映像処理部８５（領域検出部４４、背景レイアレンダリング部３４、オーバレイレイアレンダリング部４７）は、撮影映像ｖＣにおけるオブジェクト周辺の領域の判定を行い、判定に基づいて仮想映像追加処理を行うものとした。
　フレーム毎に、オブジェクト１０の周辺領域として、前方領域６１、後方領域６２、他領域６３，６４を判定することで、オブジェクト１０との位置関係を考慮した追加仮想映像１１を追加することができる。

　第７の実施の形態では、端末装置１の画面に対するタッチ操作に応じて、エフェクト等の仮想映像追加処理を開始する例を挙げた。
　例えば撮影の際に、ユーザは画面上で任意の位置にタッチすることで、エフェクトが発動される。これによりユーザは画面上での任意の位置かつ任意のタイミングで映像エフェクトを発動させるような撮影環境を提供できる。

　第１から第７の実施の形態では、表示装置２に表示された背景映像ｖＢとオブジェクト１０を撮影した端末装置１による撮影映像ｖＣは、端末装置１の画面２ａにおいて表示出力されるものとした。
　スマートフォンなどの端末装置１を用いて背景映像ｖＢとオブジェクト１０を撮影した撮影映像ｖＣは、その端末装置１で表示されることで、ユーザは、撮影映像ｖＣを視認しながら撮影を行うことができる。つまり端末装置１を用いた簡易なバーチャルプロダクションを実現できる。
　また撮影映像ｖＣに追加仮想映像１１をリアルタイムで追加する場合も、その追加仮想映像１１についても端末装置１で撮影しながら確認できる。

　以上の実施の形態では、端末装置１として主にスマートフォンを想定したが、撮影機能を備えたデバイスであれば端末装置１として用いることができる。
　例えば一眼カメラ、コンパクトデジタルカメラなどのカメラが、実施の形態で説明した機能を備えることで、本開示の情報処理装置７０として実現できる。特に高解像度の処理や、レンズ精度の高いカメラを用いることで、より高品質なバーチャルプロダクション映像を撮影することができる。

　またカメラ付きの眼鏡、ＡＲ（Augmented Reality）グラスなどとしてのデバイスに、本開示の機能を実装してもよい。この場合、一人称視点らしいカメラワークの映像の撮影を行いやすくなる。
　またカメラ付きのウォッチデバイスに本機能を実装しても良い。これにより手に機材を構えることなく撮影を行えるようになる。

　表示装置２としても多様な表示デバイスを用いることができる。例えばテレビジョン受像器以外に、プロジェクタ、大型タブレット、スマートフォンなどを表示デバイスとして用いても良い。

　また表示装置２として透過ディスプレイを用いて、図３９のように、背景レイア５０の後ろにオブジェクト１２を置くということも考えられる。図３９の例では背景レイア５０として表示される背景映像ｖＢは、一部が透明の映像ｖＢＴとされる。また背景映像ｖＢを表示する表示装置２が、透過型のパネルとすることで透明の映像ｖＢＴの部分は、後方が透けて見えている。この場合に、後方にもオブジェクト１２を配置する。
　これによって撮影映像ｖＣには、オブジェクト１０、背景映像ｖＢに加え、さらに背景後方のオブジェクト１２を含ませるようにすることができる。

　ところで、背景映像ｖＢと実撮影現場のライティングの違いにより、前景となるオブジェクト１０の映像が背景に馴染まないということが発生する場合がある。そのようなケースへの対処としては、次のような調整を行うことが考えられる。
　まず撮影用の端末装置１で周囲を旋回するように撮影して光源推定を行う。そして撮影現場の環境光に合わせ、背景映像ｖＢの明るさを変化させる。撮影後に全体の明るさを変更することで、大まかに意図した明るさに調整する。このようにすれば、撮影現場の照明状況に対応しつつ、制作する映像コンテンツを意図した明るさの状態とすることができる。

　また実施の形態の撮影では、表示装置２の画面２ａの領域が小さく、撮影範囲が限られるというケースが生じ得る。
　そこで、ドローンや台車などで、表示装置２を端末装置１の正面に移動させて、撮影する範囲（画角）が、表示装置２の画面２ａからはみ出ないようにすることが考えられる。

　また、撮影時、撮影範囲が表示装置２の画面２ａから外に出そうな場合、端末装置１が振動や画面２ａ上のアラート表示などによりユーザに通知するようにしてもよい。
　さらに、撮影映像ｖＣが、背景映像ｖＢより外にはみ出た時には、はみ出た領域は、オーバレイレイア５２に背景を描画することで、背景映像ｖＢ外にはみ出たことが、映像上で分からないようにすることもできる。

。
　また表示装置２の画面２ａに、環境光が映り込む場合がある。
　この場合、照明が映り込まないように表示装置２の画面２ａを回転させると、端末装置１との向きが変わってしまうが、その画面２ａの回転に合わせて、表示装置２に表示する背景映像ｖＢを歪ませることで対応することができる。

　実施の形態の端末装置１として例えばスマートフォン等、ユーザが片手で持つことができるデバイスを用いる場合、他方の手で光源を所持したり、任意の操作を行ったりすることができるため、例えば個人が１人で撮影する場合にも好適である。

　またスマートフォン等の端末装置１に撮影映像ｖＣ以外の情報を提示すると邪魔に感じられる場合もあるが、そのような場合、ウォッチデバイスやタブレットなどの他のデバイスと連携して、情報を提示することもできる。

　また端末装置１として用いるデバイスのスペック情報に基づいて、撮影映像ｖＣの表示の際に解像度変換処理を行い、解像度を下げて表示させることも考えられる。

　また、イヤホンなどの音声出力デバイスにより音声ガイド情報を出力させることもできる。例えば残りの撮影時間やテイク番号などの情報を音声で出力させる例がある。

　実施の形態では、主に動画撮影を想定して説明したが、本開示の技術は、静止画撮影の場合にも適用できる。特に背景映像ｖＢの表示や、撮影映像ｖＣの表示は、静止画撮影モードでのシャッター操作待機中における、表示装置２での背景映像ｖＢの表示や端末装置１でのスルー画表示の際の動作に適用できる。

　実施の形態のプログラムは、上述の映像処理部８５の処理を、例えばＣＰＵ、ＤＳＰ等のプロセッサ、或いはこれらを含むデバイスに実行させるプログラムである。
　即ち実施の形態のプログラムは、表示装置２と、撮影機能を有する端末装置１とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に適用できるプログラムであり、表示装置２と端末装置１の相対位置情報ＲＰに基づいて３Ｄモデルをレンダリングして表示装置２に表示される映像（背景映像ｖＢ）を生成する映像処理を情報処理装置７０に実行させるプログラムである。
　このようなプログラムにより、上述した端末装置１、表示装置２、又はクラウドサーバ４としての情報処理装置７０を、各種のコンピュータ装置により実現できる。

　このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。また、このようなプログラムは、フレキシブルディスク、ＣＤ－ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magneto Optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

　またこのようなプログラムによれば、実施の形態の情報処理装置７０の広範な提供に適している。例えばパーソナルコンピュータ、通信機器、スマートフォンやタブレット等の携帯端末装置、携帯電話機、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、これらの装置を本開示の情報処理装置７０として機能させることができる。

　なお本開示の情報処理装置は映像処理部を有する構成とし、実施の形態では、具体例として図８のように映像処理部８５を有する情報処理装置７０とした。本開示でいう映像処理部の処理は、図８の構成でいえば、映像処理部８５が行う処理でもよいし、映像処理部８５とＣＰＵ７１が連携して行うものでもよい。またＣＰＵ７１が行うものでもよい。

　なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　なお本技術は以下のような構成も採ることができる。
　（１）
　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理部を備える
　情報処理装置。
　（２）
　前記映像処理部は前記端末装置に設けられ、
　前記映像処理部で３Ｄモデルをレンダリングした映像を前記表示装置に送信する構成とされる
　上記（１）に記載の情報処理装置。
　（３）
　前記映像処理部は前記表示装置に設けられ、
　前記映像処理部は、前記端末装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして、表示する映像を生成する構成とされる
　上記（１）に記載の情報処理装置。
　（４）
　前記映像処理部は、前記端末装置及び前記表示装置のいずれとも別体である外部装置に設けられ、
　前記映像処理部は、受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示させる映像を生成し、生成した映像を送信する構成とされる
　上記（１）に記載の情報処理装置。
　（５）
　前記外部装置はクラウドサーバである
　上記（４）に記載の情報処理装置。
　（６）
　前記映像処理部は、前記端末装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして表示する映像を生成する
　上記（４）又は（５）に記載の情報処理装置。
　（７）
　前記映像処理部は、前記表示装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして表示する映像を生成する
　上記（４）又は（５）に記載の情報処理装置。
　（８）
　前記映像処理部は、３Ｄモデルをレンダリングして生成した映像を前記端末装置に送信する処理を行う
　上記（４）から（７）のいずれかに記載の情報処理装置。
　（９）
　前記映像処理部は、３Ｄモデルをレンダリングして生成した映像を前記表示装置に送信する処理を行う
　上記（４）から（７）のいずれかに記載の情報処理装置。
　（１０）
　前記映像処理部は、
　前記表示装置に表示された映像とオブジェクトを前記端末装置で撮影した撮影映像において、３Ｄモデルによる映像及びオブジェクトの映像とともに追加仮想映像が含まれるようにする仮想映像追加処理を行う
　上記（１）から（９）のいずれかに記載の情報処理装置。
　（１１）
　前記映像処理部は、
　前記端末装置による撮影時の映像の各フレームに対する処理において、前記撮影映像に前記追加仮想映像が含まれるようにする仮想映像追加処理を行う
　上記（１０）に記載の情報処理装置。
　（１２）
　前記映像処理部は、
　前記端末装置に対する所定操作に応じて、前記仮想映像追加処理を開始する
　上記（１０）又は（１１）に記載の情報処理装置。
　（１３）
　前記映像処理部は、
　前記撮影映像についての画像認識処理に基づいて前記仮想映像追加処理の設定を行う
　上記（１０）から（１２）のいずれかに記載の情報処理装置。
　（１４）
　前記仮想映像追加処理は、撮影映像においてオブジェクトの映像にオーバレイするレイアに追加仮想映像を加える処理である
　上記（１０）から（１３）のいずれかに記載の情報処理装置。
　（１５）
　前記仮想映像追加処理は、３Ｄモデルをレンダリングして生成する前記表示装置に表示される映像に、追加仮想映像を加える処理である
　上記（１０）から（１４）のいずれかに記載の情報処理装置。
　（１６）
　前記映像処理部は、
　前記撮影映像におけるオブジェクト周辺領域の判定を行い、判定に基づいて前記仮想映像追加処理を行う
　上記（１０）から（１５）のいずれかに記載の情報処理装置。
　（１７）
　前記表示装置に表示された映像とオブジェクトを撮影した前記端末装置による撮影映像は、前記端末装置の表示部において表示出力され、
　前記表示部は画面が入力部とされ、
　前記端末装置は、前記入力部に対するタッチ操作に応じて、前記仮想映像追加処理を開始する
　上記（１０）から（１６）のいずれかに記載の情報処理装置。
　（１８）
　前記表示装置に表示された映像とオブジェクトを撮影した前記端末装置による撮影映像は、前記端末装置において表示出力される
　上記（１）から（１６）のいずれかに記載の情報処理装置。
　（１９）
　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理を情報処理装置が行う
　映像処理方法。
　（２０）
　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理を、
　情報処理装置に実行させるプログラム。

１　端末装置
２　表示装置
３　ＡＲマーカー
４　クラウドサーバ
５　３Ｄ背景モデル
１０，１２　オブジェクト
１１，１１ａ，１１ｂ　追加仮想映像
１６　無効領域枠
３１　ディスプレイサイズ検出部
３２　相対位置検出部
３３　３Ｄモデル管理部
３４　背景レイアレンダリング部
３５，３６　通信制御部
３７　表示制御部
３８　撮像部
３９　表示制御部
４０　通信制御部
４４　領域検出部
４５　入力操作受付部
４６　画像認識処理部
４７　オーバレイレイアレンダリング部
４８　画像合成部
４９　フィルタ処理部
７０　情報処理装置、
７１　ＣＰＵ
８５　映像処理部
ｖＢ　背景映像
ｖＣ　撮影映像
ＲＰ　相対位置情報

Claims

　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理部を備える
　情報処理装置。
　前記映像処理部は前記端末装置に設けられ、
　前記映像処理部で３Ｄモデルをレンダリングした映像を前記表示装置に送信する構成とされる
　請求項１に記載の情報処理装置。
　前記映像処理部は前記表示装置に設けられ、
　前記映像処理部は、前記端末装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして、表示する映像を生成する構成とされる
　請求項１に記載の情報処理装置。
　前記映像処理部は、前記端末装置及び前記表示装置のいずれとも別体である外部装置に設けられ、
　前記映像処理部は、受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示させる映像を生成し、生成した映像を送信する構成とされる
　請求項１に記載の情報処理装置。
　前記外部装置はクラウドサーバである
　請求項４に記載の情報処理装置。
　前記映像処理部は、前記端末装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして表示する映像を生成する
　請求項４に記載の情報処理装置。
　前記映像処理部は、前記表示装置から受信した前記相対位置情報に基づいて３Ｄモデルをレンダリングして表示する映像を生成する
　請求項４に記載の情報処理装置。
　前記映像処理部は、３Ｄモデルをレンダリングして生成した映像を前記端末装置に送信する処理を行う
　請求項４に記載の情報処理装置。
　前記映像処理部は、３Ｄモデルをレンダリングして生成した映像を前記表示装置に送信する処理を行う
　請求項４に記載の情報処理装置。
　前記映像処理部は、
　前記表示装置に表示された映像とオブジェクトを前記端末装置で撮影した撮影映像において、３Ｄモデルによる映像及びオブジェクトの映像とともに追加仮想映像が含まれるようにする仮想映像追加処理を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記端末装置による撮影時の映像の各フレームに対する処理において、前記撮影映像に前記追加仮想映像が含まれるようにする仮想映像追加処理を行う
　請求項１０に記載の情報処理装置。
　前記映像処理部は、
　前記端末装置に対する所定操作に応じて、前記仮想映像追加処理を開始する
　請求項１０に記載の情報処理装置。
　前記映像処理部は、
　前記撮影映像についての画像認識処理に基づいて前記仮想映像追加処理の設定を行う
　請求項１０に記載の情報処理装置。
　前記仮想映像追加処理は、撮影映像においてオブジェクトの映像にオーバレイするレイアに追加仮想映像を加える処理である
　請求項１０に記載の情報処理装置。
　前記仮想映像追加処理は、３Ｄモデルをレンダリングして生成する前記表示装置に表示される映像に、追加仮想映像を加える処理である
　請求項１０に記載の情報処理装置。
　前記映像処理部は、
　前記撮影映像におけるオブジェクト周辺領域の判定を行い、判定に基づいて前記仮想映像追加処理を行う
　請求項１０に記載の情報処理装置。
　前記表示装置に表示された映像とオブジェクトを撮影した前記端末装置による撮影映像は、前記端末装置の表示部において表示出力され、
　前記表示部は画面が入力部とされ、
　前記端末装置は、前記入力部に対するタッチ操作に応じて、前記仮想映像追加処理を開始する
　請求項１０に記載の情報処理装置。
　前記表示装置に表示された映像とオブジェクトを撮影した前記端末装置による撮影映像は、前記端末装置において表示出力される
　請求項１に記載の情報処理装置。
　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理を情報処理装置が行う
　映像処理方法。
　表示装置と、撮影機能を有する端末装置とが関連付けられる状態で、オブジェクトと、前記表示装置に表示される映像とを前記端末装置で撮影する場合に、前記表示装置と前記端末装置の相対位置情報に基づいて３Ｄモデルをレンダリングして前記表示装置に表示される映像を生成する映像処理を、
　情報処理装置に実行させるプログラム。