WO2020004013A1

WO2020004013A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2020004013A1
Application number: PCT/JP2019/023107
Authority: WO
Inventors: 高橋　宏彰
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-06-25
Filing date: 2019-06-11
Publication date: 2020-01-02
Anticipated expiration: 2020-12-25
Also published as: EP3813024A1; CN112352264A; US20210233303A1; EP3813024A4; JPWO2020004013A1

Abstract

本技術は、データ量を抑えつつ、高画質な3D画像を生成することができるようにする画像処理装置および画像処理方法に関する。生成装置は、被写体の3D形状を表す3D形状データ、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する生成部を備える。本技術は、例えば、３Dモデルを所定の視聴位置から見た視聴視点画像を表示する画像処理システム等に適用できる。

Description

画像処理装置および画像処理方法

　本技術は、画像処理装置および画像処理方法に関し、特に、データ量を抑えつつ、高画質な3D画像を生成することができるようにした画像処理装置および画像処理方法に関する。

　3Dモデルの生成や伝送について、各種の技術が提案されている。例えば、被写体を複数の視点から撮影した複数のテクスチャ画像とデプス画像とから、被写体の3Dモデル形状と形状表面の各点の色を生成する方法が提案されている（例えば、非特許文献１参照）。

" High-Quality Streamable Free-Viewpoint Video＠SIGGRAPH2015２"、 Alvaro Collet, Ming Chuang, Pat Sweeney, Don Gillett, Dennis Evseev, David Calabrese, Hugues Hoppe, Adam Kirk, Steve Sullivan，ACM Trans. Graphics (SIGGRAPH), 34(4), 2015、インターネット＜URL: http://hhoppe.com/proj/fvv/＞

　しかしながら、非特許文献１に開示の技術では、レンダリング結果が、被写体の３Ｄモデルの精度に大きく依存し、撮影する視点数が少ない場合などで特に、歪んだ画像となりやすい。一方で、撮影する視点数を増やすと、情報量が多くなり、冗長性も大きくなる。

　本技術は、このような状況に鑑みてなされたものであり、データ量を抑えつつ、高画質な3D画像を生成することができるようにするものである。

　本技術の第１の側面の画像処理装置は、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する生成部を備える。

　本技術の第１の側面の画像処理方法は、画像処理装置が、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する。

　本技術の第１の側面においては、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データが生成される。

　本技術の第２の側面の画像処理装置は、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する合成部を備える。

　本技術の第２の側面の画像処理方法は、画像処理装置が、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する。

　本技術の第２の側面においては、被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像が生成される。

　なお、本技術の第１および第２の側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

　また、本技術の第１および第２の側面の画像処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

　画像処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　本技術の第１および第２の側面によれば、データ量を抑えつつ、高画質な3D画像を生成することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した画像処理システムの構成例を示すブロック図である。撮像装置の配置例を示す図である。 3Dモデルデータを説明する図である。生成装置の第１の実施の形態の構成例を示すブロック図である。再生装置の第１の実施の形態の構成例を示すブロック図である。第１の実施の形態の3Dモデルデータ生成処理を説明するフローチャートである。第１の実施の形態の3Dモデル画像生成処理を説明するフローチャートである。生成装置の第２の実施の形態の構成例を示すブロック図である。再生装置の第２の実施の形態の構成例を示すブロック図である。第２の実施の形態の3Dモデルデータ生成処理を説明するフローチャートである。第２の実施の形態の3Dモデル画像生成処理を説明するフローチャートである。生成装置の第３の実施の形態の構成例を示すブロック図である。第３の実施の形態の3Dモデルデータ生成処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．画像処理システム
２．第１の実施の形態
３．第１の実施の形態のフローチャート
４．第２の実施の形態
５．第２の実施の形態のフローチャート
６．第３の実施の形態
７．第３の実施の形態のフローチャート
８．コンピュータ構成例

＜１．画像処理システム＞
　図１は、本技術を適用した画像処理システムの構成例を示している。

　図１の画像処理システム１は、複数の撮像装置２１から得られた複数の撮像画像から3Dモデルの画像データを生成して配信する配信側と、配信側から伝送されてくる3Dモデルの画像データを受け取り、再生表示する再生側とからなる。

　撮像装置２１－１乃至２１－N（N＞１）は、例えば、図２に示されるように、被写体の外周の異なる位置に配置されて被写体を撮像し、その結果得られる動画像を生成装置２２に供給する。図２は、８台の撮像装置２１－１乃至２１－８を配置した例である。撮像装置２１－１乃至２１－８それぞれは、他の撮像装置２１と異なる方向から被写体を撮像する。各撮像装置２１のワールド座標系上の位置は既知とする。

　本実施の形態では、各撮像装置２１が生成する動画像は、RGBの波長を含む撮像画像（RGB画像）で構成されるものとするが、IR（赤外線）画像を含むマルチスペクトル画像であってもよい。

　また、各撮像装置２１は、露光条件、光源位置、または、光源色などの撮像条件を変えて複数回撮像を行い、その結果得られる撮像画像を生成装置２２に供給してもよい。

　さらに、各撮像装置２１は、測距センサを備え、被写体までの距離も測定し、被写体のテクスチャ情報であるRGBの撮像画像に加えて、被写体までの奥行き方向の距離をデプス値として、撮像画像の各画素に対応させて格納したデプス画像も生成し、生成装置２２に供給してもよい。また、測距センサは各撮像装置２１とは独立に存在してもよい。

　被写体までの距離を測定する測距センサの方式としては、例えば、TOF（Timi Of Flight）方式、ストラクチャードライト方式、ステレオマッチング方式、SfM（Structure from Motion）方式等、様々な方式があるが、特に限定されない。複数の方式を組み合わせたものでもよい。例えばTOF方式は、対象空間に近赤外線を照射し、その対象空間に存在する物体における反射光を受光し、近赤外線を照射してから反射光を受光するまでの時間に基づいて対象空間の物体までの距離を求める方式である。また、ストラクチャードライト方式は、対象空間に存在する物体に近赤外線の所定の投影パタンを投影し、その投影パタンの変形の様子に基づいて対象空間に存在する物体の形状（奥行き）を検出する方式である。ステレオマッチング方式は、被写体を互いに異なる位置から撮像した２つの撮像画像間の視差に基づいてその被写体までの距離を求める方式である。また、SfM方式は、互いに異なる角度から撮像された複数の撮像画像を用いて特徴点の位置合わせ等、画像間の関係を計算し、最適化を行うことで、奥行き検出を行う方式である。

　さらに、各撮像装置２１は、被写体としての物体の反射率（アルベド）に関する情報、環境光またはシェーディングに関する情報、バンプマッピング、透過マッピング、法線マッピング、環境マッピング等の付加情報なども生成し、生成装置２２に供給してもよい。

　各撮像装置２１は、上述した画像および付加情報を任意に組み合わせて、生成装置２２に供給する構成とすることができる。

　生成装置２２は、撮像装置２１－１乃至２１－Nそれぞれから供給される複数の撮像画像から、被写体の3D形状を表した3D形状データ、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、複数の撮像画像のなかの特定領域の画像データである領域画像データを生成して、配信サーバ２３に供給する。以下では、3D形状データ、マッピングデータ、および、領域画像データを、まとめて3Dモデルデータとも称する。

　図３は、生成装置２２によって生成され、配信サーバ２３に送信される3Dモデルデータを説明する図である。

　撮像装置２１－１乃至２１－８それぞれによって、例えば、撮像画像P１乃至P8が得られる。生成装置２２は、撮像画像P１乃至P8から、被写体の3Dモデルを生成する。3Dモデルは、被写体の3D形状（ジオメトリ情報）を表した3D形状データと、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータとで構成される。3D形状データは、例えば、ポリゴンメッシュで表現されたデータであり、マッピングデータは、例えば、UVマップで表現されたデータである。さらに、生成装置２２は、撮像画像P１乃至P8のなかから、高画質化が望まれる１以上の特定領域SPを抽出し、領域画像データを生成する。図３の例では、被写体である人物の顔領域が含まれる３つの特定領域SP１乃至SP３が、撮像画像P１乃至P8から抽出されている。

　なお、生成装置２２は、撮像装置２１－１乃至２１－Nから撮像画像を直接取得する代わりに、データサーバなど所定の記憶部に一旦記憶された撮像画像を取得して、3Dモデルデータを生成することもできる。

　図１に戻り、配信サーバ２３は、生成装置２２から供給される3Dモデルデータを記憶したり、再生装置２５からの要求に応じて、3Dモデルデータを、ネットワーク２４を介して再生装置２５に送信する。

　配信サーバ２３は、送受信部４１と、ストレージ４２とを有する。

　送受信部４１は、生成装置２２から供給される3Dモデルデータを取得し、ストレージ４２に記憶する。また、送受信部４１は、再生装置２５からの要求に応じて、3Dモデルデータを、ネットワーク２４を介して再生装置２５に送信する。

　なお、送受信部４１は、ストレージ４２から3Dモデルデータを取得して、再生装置２５に送信することもできるし、生成装置２２から供給された3Dモデルデータをストレージ４２に記憶することなく、直接、再生装置２５に送信（リアルタイム配信）することもできる。

　ネットワーク２４は、例えば、インターネット、電話回線網、衛星通信網、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷIDｅＡｒｅａＮｅｔｗｏｒｋ）、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網などで構成される。

　再生装置２５は、ネットワーク２４を介して配信サーバ２３から送信されてくる3Dモデルデータに基づいて、被写体の3Dモデルを生成（再生）する。より具体的には、再生装置２５は、マッピングデータのテクスチャ情報を、基本テクスチャとして、3D形状データが表す3D形状に貼り付け、さらに、領域画像データが表す特定領域SPの領域画像を、補助テクスチャとして3D形状に貼り付けることで、被写体の3Dモデルを生成する。そして、再生装置２５は、被写体の3Dモデルを、視聴位置検出装置２７から供給される視聴者の視聴位置から見た3Dモデル画像を生成（再生）し、表示装置２６に供給する。

　表示装置２６は、再生装置２５から供給される3Dモデル画像を表示する。視聴者は、表示装置２６に表示された3Dモデル画像を視聴する。視聴位置検出装置２７は、視聴者の視聴位置を検出し、再生装置２５に供給する。

　表示装置２６と視聴位置検出装置２７は、一体の装置で構成されてもよい。例えば、表示装置２６と視聴位置検出装置２７は、ヘッドマウントディスプレイで構成され、視聴者が移動した位置、頭部の動き等を検出し、視聴者の視聴位置を検出する。視聴位置には、再生装置２５が生成する3Dモデルに対する視聴者の視線方向も含む。

　表示装置２６と視聴位置検出装置２７が別々の装置で構成される例として、例えば、視聴位置検出装置２７は、例えば、視聴位置を操作するコントローラ等で構成され、視聴者によるコントローラの操作に応じた視聴位置が再生装置２５に供給され、再生装置２５は、指定された視聴位置に対応する3Dモデル画像を表示装置２６に表示させる。

　表示装置２６または視聴位置検出装置２７は、表示装置２６が表示する画像の画像サイズや画角など、表示装置２６の表示機能に関する情報を、必要に応じて再生装置２５に供給することもできる。

　以上のように構成される画像処理システム１では、被写体全体の撮像画像としては視点に依らない基本テクスチャによる自由視点画像を用いてデータ量を抑えた画像としつつ、視聴者が注目するような特定領域SPについては、補助テクスチャとして伝送される領域画像を用いることで、高画質の画像を表示する。これにより、伝送するデータ量を抑えつつ、高画質化を実現できる。

　以下、生成装置２２と再生装置２５の詳細な構成について説明する。

＜２．第１の実施の形態＞
＜生成装置の構成例＞
　図４は、生成装置２２の第１の実施の形態の構成例を示すブロック図である。

　生成装置２２は、画像取得部６１、3D形状計算部６２、基本テクスチャ生成部６３、補助テクスチャ生成部６４、形状符号化部６５、基本テクスチャ符号化部６６、補助テクスチャ符号化部６７、および、送信部６８により構成される。3D形状計算部６２、基本テクスチャ生成部６３、および、補助テクスチャ生成部６４は、１つの生成部７１として構成されてもよく、形状符号化部６５、基本テクスチャ符号化部６６、および、補助テクスチャ符号化部６７は、１つの符号化部７２として構成されてもよい。

　画像取得部６１は、複数の撮像装置２１から供給される複数の撮像画像を取得し、3D形状計算部６２、基本テクスチャ生成部６３、および、補助テクスチャ生成部６４に供給する。

　3D形状計算部６２は、画像取得部６１から供給される複数の撮像画像に基づいて、被写体の3D形状を表す3D形状データを生成する。例えば、3D形状計算部６２は、各視点における被写体のシルエットを3D空間へ投影し、そのシルエットの交差領域を3D形状とするVisual Hullや、視点間のテクスチャ情報の一致性を利用するMulti view stereoなどにより、被写体の3D形状を取得し、3D形状データを生成する。

　なお、Visual HullやMulti view stereoなどの処理を実現するためには、3D形状計算部６２は、複数の撮像装置２１それぞれのカメラパラメータ（内部パラメータおよび外部パラメータ）が必要であり、それらの情報は生成装置２２に予め入力されており、既知とされている。例えば、内部パラメータは、例えば、撮像装置２１の焦点距離や、画像中心座標、アスペクト比などであり、外部パラメータは、ワールド座標系における各撮像装置２１の向きおよび位置を示すベクトルなどである。

　3D形状計算部６２は、例えば、被写体の３次元位置を点の集合で表したポイントクラウド形式、ポリゴンメッシュと呼ばれる頂点（Vertex）と頂点間のつながりで表した3Dメッシュ形式、ボクセル（voxel）と呼ばれる立方体の集合で表したボクセル形式など、任意の形式により、3D形状データを生成することができる。3D形状計算部６２は、生成した3D形状データを、基本テクスチャ生成部６３および形状符号化部６５に供給する。

　基本テクスチャ生成部６３は、画像取得部６１から供給される複数の撮像画像と、3D形状計算部６２から供給される3D形状データとに基づいて、視線方向に依らないテクスチャ画像を生成する。より具体的には、基本テクスチャ生成部６３は、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータを生成する。例えば、基本テクスチャ生成部６３は、テクスチャ情報を、ポリゴンメッシュに対応付けるUVマッピング、立方体に貼り付けるキューブマッピング、円筒に貼り付ける円筒座標投影マッピング、物体表面に平行投影するように貼り付ける平行投影マッピング等の任意のマッピング方式によりマッピングしたマッピングデータを生成する。基本テクスチャ生成部６３は、生成したマッピングデータを、基本テクスチャ符号化部６６に供給する。

　補助テクスチャ生成部６４は、画像取得部６１から供給される複数の撮像画像の少なくとも１つから、１以上の特定領域SPを選択して切り出す（抽出する）ことにより、補助テクスチャとして、特定領域SPの領域画像を生成する。補助テクスチャ生成部６４は、特定領域SPの領域画像と、その領域画像を撮像した撮像装置２１のカメラパラメータとを、補助テクスチャ符号化部６７に供給する。あるいはまた、補助テクスチャ生成部６４は、撮像画像から切り出した領域画像そのものではなく、UVマッピングなどのマッピングデータに変換したデータを、領域画像として、補助テクスチャ符号化部６７に供給してもよい。この場合、カメラパラメータは不要となる。

　選択される特定領域SPの形状としては、矩形、円形、多角形など任意の形状を設定することができる。また、自由曲線により決定される形状でもよい。また、１つの撮像画像に対して選択される特定領域SPの数は、１つ（単数）でもよいし、複数でもよい。また、選択される特定領域SPのサイズは、予め設定された固定サイズでもよいし、例えば、顔領域など、注目対象の物体サイズ等に応じて適応的に変化させたサイズでもよい。

　また、補助テクスチャ生成部６４は、例えば、ユーザがマウスを使って指定するなど、撮像画像ごとにマニュアル操作で特定領域SPを選択してもよいし、自動で（ユーザの操作なしで）特定領域SPを選択してもよい。例えば、自動で特定領域SPを選択する方法としては、被写体としての人物の顔領域や、人物や車など特定の物体を認識処理により検出する方法がある。

　撮像装置２１から、RGBの撮像画像だけでなく、被写体の付加情報として、例えば、人肌の領域に質感（毛穴やしわ）を表現したバンプマップのマッピングデータなど、複数種類のテクスチャ画像が供給された場合には、補助テクスチャ生成部６４は、複数のテクスチャ画像のそれぞれについて、特定領域SPを選択し、補助テクスチャ符号化部６７に供給する。特定領域SPについて複数種類のテクスチャ画像を送信することにより、再生装置２５で再生表示される際の質感の向上などが期待できる。また、被写体のテクスチャ情報として、撮像装置２１から、露光条件が異なる複数種類のテクスチャ画像を受信した場合には、ダイナミックレンジを拡大させた広ダイナミックレンジ画像を再生装置２５側で生成することができ、再生装置２５で再生表示される際の画質の向上が期待できる。

　異なる撮像位置から撮像された複数の撮像画像のそれぞれに対してユーザが特定領域SPを指定する操作や認識処理を行ってもよいが、補助テクスチャ生成部６４は、複数の撮像画像のうちの１つにおいてマニュアル操作や認識処理で選択された特定領域SPを、他の撮像位置で撮像された撮像画像の対応する領域に反映することにより、複数の撮像画像の特定領域SPを選択してもよい。１つの撮像画像（第１の撮像画像）で選択された領域を、他の撮像画像（第２の撮像画像）に反映する場合には、ワールド座標系における同一位置が選択されるようにしてもよいし、座標位置は異なるが同一の被写体が選択されるようにしてもよい。

　また、選択された特定領域SPは、時間方向に連続する撮像画像に対して継続して選択されるようにすることができ、所定の物体を基準としてトラッキングさせたり、サイズを変更させたりすることができる。

　特定領域SPの位置やサイズが撮像画像によって変更される場合には、補助テクスチャ生成部６４は、特定領域SPの位置やサイズに関する情報、例えば、特定領域SPの左上端部の座標と、特定領域SPの幅と高さなどを、メタ情報として送信することができる。

　また、各撮像装置２１で露光条件が異なる場合や、同一の撮像装置２１であっても、時間方向で露光条件を変える場合などには、補助テクスチャ生成部６４は、例えば、露光時間やゲイン値など、複数の撮像画像で明るさを揃えるための情報を、メタ情報として送信することができる。

　形状符号化部６５は、3D形状計算部６２から供給される3D形状データを、所定の符号化方式で符号化し、その結果得られる符号化3D形状データを送信部６８に供給する。符号化方式は、特に限定されず、任意の方式を採用することができる。例えば、グーグル社により開発された「Draco」と呼ばれる符号化圧縮方式などを採用することができる（https://mag.osdn.jp/17/01/16/144500）。

　また、形状符号化部６５は、3D形状データそのものを符号化して送信する代わりに、3D形状の算出に必要な情報を符号化して送信してもよい。例えば、Visual Hullによる3D形状の算出に必要な情報として、シルエット画像とカメラパラメータを符号化して送信したり、ポイントクラウド形式の3D形状データを送る代わりに、デプス画像とカメラパラメータなどを符号化して送信してもよい。

　基本テクスチャ符号化部６６は、基本テクスチャ生成部６３から供給されるマッピングデータを、所定の符号化方式で符号化し、その結果得られる符号化マッピングデータを送信部６８に供給する。符号化方式は、特に限定されず、任意の方式を採用することができる。例えば、UVマッピングによるマッピングデータには、HEVC（High Efficiency Video Coding）方式等を採用することができる。また、3D形状データがポイントクラウド形式である場合には、各点の位置情報にRGB情報を付加する形式でもよい。

　補助テクスチャ符号化部６７は、補助テクスチャ生成部６４から供給される特定領域SPの領域画像を、所定の符号化方式で符号化し、その結果得られる符号化領域画像データを送信部６８に供給する。符号化方式は、特に限定されず、例えば、MPEG2方式や、HEVC（High Efficiency Video Coding）方式など、任意の方式を採用することができる。領域画像を撮像した撮像装置２１のカメラパラメータは、例えば、符号化領域画像データ内にメタデータとして格納される。カメラパラメータは、フレームごとに送信してもよいし、動画像の先頭フレームで送信した後は、変更時のみ送るようにしてもよい。

　撮像画像から選択される特定領域SPが時間方向において固定された領域である場合には、例えば、時間方向に隣接する複数枚の領域画像に対して、MPEG2方式や、H.264/AVC方式の符号化でも採用されている予測符号化を行うことで、圧縮効率を向上させることができる。

　送信部６８は、形状符号化部６５、基本テクスチャ符号化部６６、および、補助テクスチャ符号化部６７から供給される、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを、配信サーバ２３に送信する。

＜再生装置の構成例＞
　図５は、再生装置２５の第１の実施の形態の構成例を示すブロック図である。

　再生装置２５は、受信部８１、形状復号部８２、基本テクスチャ復号部８３、補助テクスチャ復号部８４、視聴視点画像生成部８５、視聴視点画像生成部８６、視聴視点画像合成部８７、および、出力部８８により構成される。

　形状復号部８２、基本テクスチャ復号部８３、および、補助テクスチャ復号部８４は、１つの復号部９１として構成されてもよく、視聴視点画像生成部８５、視聴視点画像生成部８６、および、視聴視点画像合成部８７は、１つの合成部９２として構成されてもよい。復号部９１は、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを復号する。合成部９２は、3D形状データ、マッピングデータ、および、領域画像データを合成して、所定の視聴位置から見た画像（視聴視点合成画像）を生成する。

　受信部８１は、所定のタイミングで3Dモデルデータを配信サーバ２３に要求し、その要求に応じて配信サーバ２３から送信されてくる3Dモデルデータ、より具体的には、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを受信する。受信部８１は、符号化3D形状データを形状復号部８２に供給し、符号化マッピングデータを基本テクスチャ復号部８３に供給し、符号化領域画像データを補助テクスチャ復号部８４に供給する。

　形状復号部８２は、受信部８１から供給される符号化3D形状データを、生成装置２２の符号化方式に対応する方式で復号する。形状復号部８２は、復号して得られた3D形状データを視聴視点画像生成部８５および視聴視点画像生成部８６に供給する。

　基本テクスチャ復号部８３は、受信部８１から供給される符号化マッピングデータを、生成装置２２の符号化方式に対応する方式で復号する。基本テクスチャ復号部８３は、復号して得られたマッピングデータを視聴視点画像生成部８５に供給する。

　補助テクスチャ復号部８４は、受信部８１から供給される符号化領域画像データを、生成装置２２の符号化方式に対応する方式で復号する。補助テクスチャ復号部８４は、復号して得られた１以上の領域画像を視聴視点画像生成部８６に供給する。

　視聴視点画像生成部８５および視聴視点画像生成部８６には、視聴者の視聴位置が、視聴位置検出装置２７（図１）から供給される。

　視聴視点画像生成部８５は、形状復号部８２から供給される3D形状データの3D形状の表面に、基本テクスチャ復号部８３から供給されるマッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、視聴視点画像生成部８５は、生成した被写体の3Dモデルを、視聴位置検出装置２７（図１）から供給される視聴位置から見たときの2D画像である視聴視点画像（第１の視聴視点画像）を生成（レンダリング）する。視聴視点画像生成部８５は、生成された視聴視点画像を視聴視点画像合成部８７に供給する。

　マッピングデータのマッピング方式がUVマッピングである場合には、被写体の3D形状の各位置とテクスチャ画像との対応が取れているので、3D形状の表面にマッピングデータのテクスチャ画像を貼り付けることができる。マッピング方式が平行投影マッピングやキューブマッピング等である場合には、被写体の3D形状と投影方法とから幾何学的にテクスチャ画像の貼り付け位置が求まる。

　視聴視点画像生成部８６は、形状復号部８２から供給される3D形状データに対応する3D形状の表面に、補助テクスチャ復号部８４から供給される１以上の領域画像を貼り付けることにより、被写体の3Dモデルを生成する。視聴視点画像生成部８６は、領域画像データに領域画像とカメラパラメータとが含まれる場合には、領域画像とカメラパラメータとから幾何学的に領域画像の貼り付け位置が求まる。領域画像データがUVマッピングなどのマッピングデータで構成される場合には、基本テクスチャと同様に、マッピング方式に応じて、マッピングデータのテクスチャ画像を3D形状の表面に貼り付けることができる。

　視聴視点画像生成部８６は、生成した被写体の3Dモデルを、視聴位置検出装置２７（図１）から供給される視聴位置から見たときの2D画像である視聴視点画像（第２の視聴視点画像）を生成（レンダリング）する。領域画像データは、被写体の特定の一部の領域のみの画像のデータであるので、視聴視点画像生成部８６により生成される視聴視点画像においてテクスチャが貼られていない領域（画素）も存在する。視聴視点画像生成部８６は、生成された視聴視点画像を視聴視点画像合成部８７に供給する。

　以下では、視聴視点画像生成部８５によって生成される基本テクスチャに基づく視聴視点画像を、視聴視点基本画像と称し、視聴視点画像生成部８６によって生成される補助テクスチャに基づく視聴視点画像を、視聴視点補助画像と称して区別する。

　領域画像データに、２つ以上の領域画像が含まれている場合、視聴視点画像生成部８６は、視聴視点補助画像を、領域画像ごとに生成する。その際、視聴視点画像生成部８６は、視聴視点画像合成部８７が複数枚の視聴視点補助画像を合成するために必要となる信頼度を視聴視点補助画像の画素単位に生成して付加する。

　信頼度は、例えば、以下のようにして生成することができる。

　まず、視聴視点補助画像においてテクスチャが貼られていない画素の信頼度は０に設定され、無効領域とされる。これにより、視聴視点補助画像において領域画像（テクスチャ）が貼られた領域と、貼られていない領域とを判別することができる。

　視聴視点補助画像において領域画像が貼られた各画素において、例えば、視聴視点画像生成部８６は、領域画像を撮像した撮像装置２１からの距離が近い画素ほど、視聴視点補助画像の信頼度を大きく設定することができる。これにより、撮像装置２１から被写体までの距離が遠いほど、画像は粗くなるので、被写体に近い位置から撮像した撮像画像から切り出した視聴視点補助画像の画素を選択することができる。

　あるいはまた、例えば、視聴視点画像生成部８６は、領域画像を撮像した撮像装置２１の撮像方向と、各画素の被写体形状の法線とがなす角度が９０度に近い画素ほど、視聴視点補助画像の信頼度を小さく設定することができる。これにより、撮像装置２１に対して斜めに向いている領域画像は、貼り付ける際に引き伸ばされてしまうので、出来るだけ正面を向いた視聴視点補助画像の画素を選択することができる。

　あるいはまた、例えば、視聴視点画像生成部８６は、撮像装置２１が撮像した撮像画像の中心に近い画素ほど、視聴視点補助画像の信頼度を大きく設定することができる。これにより、撮像装置２１の撮像範囲の外周部（像高が高い位置）は歪み補正により画像がぼけるので、出来るだけ画像中心にある視聴視点補助画像の画素を選択することができる。

　以上は、視聴視点補助画像の画素単位に信頼度を設定する方法であるが、視聴視点補助画像単位で信頼度を設定してもよい。

　例えば、視聴視点画像生成部８６は、領域画像のSN比を比較して、ノイズが少ない視聴視点補助画像の信頼度を大きく設定したり、解像度が高い撮像画像から切り出した視聴視点補助画像の信頼度を大きく設定することができる。これにより、ノイズの少ない視聴視点補助画像や解像度の高い視聴視点補助画像を選択することができる。

　なお、視聴位置検出装置２７（図１）から視聴視点画像生成部８５または視聴視点画像生成部８６に、視聴位置だけでなく、表示装置２６の表示機能に関する情報も供給された場合には、視聴視点画像生成部８５および視聴視点画像生成部８６は、その情報にも基づいて視聴視点画像を生成することができる。

　視聴視点画像合成部８７は、視聴視点画像生成部８５から供給される基本テクスチャに基づく視聴視点基本画像と、視聴視点画像生成部８６から供給される補助テクスチャに基づく視聴視点補助画像とを合成し、その結果得られる視聴視点合成画像を生成する。

　視聴視点合成画像の生成において、補助テクスチャに基づく視聴視点補助画像がない画素については、基本テクスチャに基づく視聴視点基本画像が、そのまま視聴視点合成画像とされる。視聴視点基本画像と、１つの視聴視点補助画像とが存在する画素については、視聴視点補助画像が採用され、視聴視点合成画像とされる。視聴視点基本画像と、２つ以上の視聴視点補助画像とが存在する画素については、信頼度が一番高い視聴視点補助画像が採用され、視聴視点合成画像とされる。視聴視点合成画像において、視聴視点補助画像が採用された画素と、視聴視点基本画像が採用された画素との境界では、段差ができるおそれがあるので、視聴視点画像合成部８７は、信頼度が０の無効領域の境界付近で、視聴視点基本画像と視聴視点補助画像のアルファブレンド処理を行い、スムージングする。

　視聴視点画像合成部８７は、生成した視聴視点合成画像を3Dモデル画像として、出力部８８に供給する。出力部８８は、3Dモデル画像としての視聴視点合成画像を、表示装置２６の入力形式に対応した信号フォーマットに変換し、出力する。

＜３．第１の実施の形態のフローチャート＞
　次に、図６のフローチャートを参照して、第１の実施の形態の生成装置２２による3Dモデルデータ生成処理について説明する。

　初めに、ステップＳ１において、画像取得部６１は、複数の撮像装置２１から供給される複数の撮像画像を取得し、3D形状計算部６２、基本テクスチャ生成部６３、および、補助テクスチャ生成部６４に供給する。

　ステップＳ２において、3D形状計算部６２は、画像取得部６１から供給された複数の撮像画像に基づいて、被写体の3D形状を表す3D形状データを生成する。3D形状計算部６２は、生成した3D形状データを、基本テクスチャ生成部６３および形状符号化部６５に供給する。

　ステップＳ３において、基本テクスチャ生成部６３は、画像取得部６１から供給された複数の撮像画像と、3D形状計算部６２から供給された3D形状データとに基づいて、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータを生成する。基本テクスチャ生成部６３は、生成したマッピングデータを、基本テクスチャ符号化部６６に供給する。

　ステップＳ４において、補助テクスチャ生成部６４は、複数の撮像画像の少なくとも１つから、特定領域SPを選択して切り出すことにより、補助テクスチャとして、特定領域SPの領域画像を生成する。補助テクスチャ生成部６４は、特定領域SPの領域画像と、その領域画像を撮像した撮像装置２１のカメラパラメータとを、領域画像データとして、補助テクスチャ符号化部６７に供給する。カメラパラメータは、フレームごとに常に送ってもよいし、動画像の先頭フレームで送信した後は、変更時のみ送るようにしてもよい。

　ステップＳ２およびＳ３の処理とＳ４の処理は、任意の順番で実行することができ、また、並行して実行することもできる。

　ステップＳ５において、形状符号化部６５は、3D形状計算部６２から供給された3D形状データを、所定の符号化方式で符号化し、符号化3D形状データを生成して、送信部６８に供給する。

　ステップＳ６において、基本テクスチャ符号化部６６は、基本テクスチャ生成部６３から供給されたマッピングデータを、所定の符号化方式で符号化し、符号化マッピングデータを生成して、送信部６８に供給する。

　ステップＳ７において、補助テクスチャ符号化部６７は、補助テクスチャ生成部６４から供給された領域画像を、所定の符号化方式で符号化し、符号化領域画像データを生成して、送信部６８に供給する。符号化では、時間方向に隣接する複数枚の領域画像に対して、MPEG2方式やH.264/AVC方式の符号化でも採用されている予測符号化が行われる。領域画像を撮像した撮像装置２１のカメラパラメータは、例えば、符号化領域画像データ内にメタデータとして格納される。

　ステップＳ５乃至Ｓ７の処理は、任意の順番で実行することができ、また、並行して実行することもできる。

　ステップＳ８において、送信部６８は、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを、配信サーバ２３に送信する。

　以上のステップＳ１乃至Ｓ８の処理が、複数の撮像装置２１それぞれから撮像画像が供給される間、繰り返し実行される。そして、撮像画像の供給が終了した場合、3Dモデルデータ生成処理は終了する。

　次に、図７のフローチャートを参照して、第１の実施の形態の再生装置２５による3Dモデル画像生成処理について説明する。

　初めに、ステップＳ２１において、受信部８１は、3Dモデルデータを配信サーバ２３に要求し、その要求に応じて配信サーバ２３から送信されてくる3Dモデルデータ、より具体的には、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを受信する。受信部８１は、符号化3D形状データを形状復号部８２に供給し、符号化マッピングデータを基本テクスチャ復号部８３に供給し、符号化領域画像データを補助テクスチャ復号部８４に供給する。

　ステップＳ２２において、形状復号部８２は、受信部８１から供給された符号化3D形状データを、生成装置２２の符号化方式に対応する方式で復号する。復号して得られた3D形状データは、視聴視点画像生成部８５および視聴視点画像生成部８６に供給される。

　ステップＳ２３において、基本テクスチャ復号部８３は、受信部８１から供給された符号化マッピングデータを、生成装置２２の符号化方式に対応する方式で復号する。基本テクスチャ復号部８３は、復号して得られたマッピングデータを視聴視点画像生成部８５に供給する。

　ステップＳ２４において、補助テクスチャ復号部８４は、受信部８１から供給される符号化領域画像データを、生成装置２２の符号化方式に対応する方式で復号する。復号して得られた１以上の領域画像は、視聴視点画像生成部８６に供給される。

　ステップＳ２２乃至Ｓ２４の処理は、任意の順番で実行することができ、また、並行して実行することもできる。

　ステップＳ２５において、視聴視点画像生成部８５は、基本テクスチャを用いて被写体の3Dモデルを生成し、視聴視点基本画像を生成する。より具体的には、視聴視点画像生成部８５は、形状復号部８２から供給された3D形状データの3D形状の表面に、基本テクスチャ復号部８３から供給されたマッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、視聴視点画像生成部８５は、生成した被写体の3Dモデルを、視聴位置検出装置２７から供給された視聴位置から見たときの2D画像である視聴視点基本画像を生成する。生成された視聴視点基本画像は、視聴視点画像合成部８７に供給される。

　ステップＳ２６において、視聴視点画像生成部８６は、補助テクスチャを用いて被写体の3Dモデルを生成し、視聴視点補助画像を生成する。より具体的には、視聴視点画像生成部８６は、形状復号部８２から供給された3D形状データに対応する3D形状の表面に、補助テクスチャ復号部８４から供給された１以上の領域画像を貼り付けることにより、被写体の3Dモデルを生成する。視聴視点画像生成部８６は、生成した被写体の3Dモデルを、視聴位置検出装置２７から供給された視聴位置から見たときの2D画像である視聴視点補助画像を生成する。生成された視聴視点補助画像は、視聴視点画像合成部８７に供給される。

　ステップＳ２５とＳ２６の処理は、反対の順番で実行することができ、また、並行して実行することもできる。

　ステップＳ２７において、視聴視点画像合成部８７は、視聴視点画像生成部８５から供給された基本テクスチャに基づく視聴視点基本画像と、視聴視点画像生成部８６から供給された補助テクスチャに基づく視聴視点補助画像とを合成し、視聴視点合成画像を生成する。生成された視聴視点合成画像は、3Dモデル画像として、出力部８８に供給される。

　ステップＳ２８において、出力部８８は、3Dモデル画像としての視聴視点合成画像を、表示装置２６に出力し、表示させる。

　以上のステップＳ２１乃至Ｓ２８の処理が、配信サーバ２３から3Dモデルデータが供給される間、繰り返し実行される。そして、3Dモデルデータの供給が終了した場合、3Dモデル画像生成処理は終了する。

　上述した画像処理システム１の第１の実施の形態によれば、生成装置２２は、被写体の3D形状を表す3D形状データと、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータとともに、複数の撮像画像から、特に高画質化が望まれる領域のみを選択した特定領域SPの領域画像データを生成する。再生装置２５は、3D形状データとマッピングデータとを用いて生成した3Dモデルの画像に、領域画像データの領域画像を合成することで、視聴者に提示する表示画像を生成する。

　被写体において高画質化が望まれる一部の特定領域SPのみを選択して伝送することで、転送データ量および演算量を抑えつつ、高品質な自由視点画像を実現することができる。

（変形例）
　上述した第１の実施の形態は、以下のような変形例も可能である。

　上述した第１の実施の形態では、視聴視点画像生成部８６において複数の視聴視点補助画像が生成された場合に、視聴視点画像生成部８６が、生成した全ての視聴視点補助画像を視聴視点画像合成部８７に供給し、視聴視点画像合成部８７が、信頼度が一番高い視聴視点補助画像を採用して、視聴視点基本画像と合成し、視聴視点合成画像を生成した。

　しかしながら、視聴視点画像生成部８６が、生成した全ての視聴視点補助画像のうち、信頼度が一番高い視聴視点補助画像のみを視聴視点画像合成部８７に供給し、視聴視点画像合成部８７が、視聴視点補助画像が供給されない領域には視聴視点基本画像をそのまま利用して視聴視点合成画像とし、視聴視点補助画像が供給された領域には、その視聴視点補助画像を用いて、視聴視点合成画像としてもよい。

　あるいはまた、視聴視点画像合成部８７は、視聴視点画像生成部８６から供給される複数の視聴視点補助画像を、信頼度に応じて重み付け加算により合成した視聴視点補助合成画像を生成し、視聴視点補助合成画像と、基本テクスチャに基づく視聴視点基本画像とを合成し、視聴視点合成画像を生成してもよい。

　また、上述した第１の実施の形態では、まず、視聴視点画像生成部８５と視聴視点画像生成部８６が、視聴位置から見たときの視聴視点基本画像と視聴視点補助画像を生成し、その後、視聴視点画像合成部８７が、視聴視点基本画像と視聴視点補助画像を合成した。すなわち、レンダリングしてから、視聴視点画像の合成が行われた。

　しかしながら、視聴視点画像の合成を先に行った後で、レンダリングを行うようにしてもよい。すなわち、視聴視点画像生成部８５が、3D形状データの3D形状の表面に、マッピングデータのテクスチャ画像を貼り付けることにより生成した被写体の3Dモデルを視聴視点画像合成部８７に供給し、視聴視点画像生成部８６が3D形状データに対応する3D形状の表面に、領域画像データの領域画像を貼り付けることにより生成した被写体の3Dモデルを視聴視点画像合成部８７に供給する。視聴視点画像合成部８７は、視聴視点画像生成部８５からの3Dモデルと、視聴視点画像生成部８６からの3Dモデルを合成し、合成後の3Dモデルを、視聴位置から見たときの視聴視点画像を生成する。この場合、視聴位置検出装置２７（図１）から供給される視聴位置は、視聴視点画像合成部８７に供給される。

　上述した第１の実施の形態では、視聴者の視聴位置が事前には不明であることを前提として、再生装置２５は、全ての視聴位置に対応した3Dモデルデータを取得し、視聴位置検出装置２７から供給される視聴位置に応じた3Dモデル画像を表示した。

　しかしながら、予め決定された視聴位置からの3Dモデル画像を時系列に表示するような場合には、再生装置２５は、その視聴位置からの表示に必要となる一部の領域のみの3Dモデルデータを配信サーバ２３に要求して取得し、表示することができる。

＜４．第２の実施の形態＞
＜生成装置の構成例＞
　図８は、生成装置２２の第２の実施の形態の構成例を示すブロック図である。

　図８においては、図４に示した第１の実施の形態と対応する部分については同一の符号を付してあり、第１の実施の形態と共通する部分の説明は適宜省略し、異なる部分に着目して説明する。

　図８の第２の実施の形態に係る生成装置２２は、補助視点画像生成部１０１および補助テクスチャ制御部１０２が新たに追加されている。また、補助テクスチャ生成部６４および補助テクスチャ符号化部６７が、補助テクスチャ生成部６４Aおよび補助テクスチャ符号化部６７Aに変更されている。その他の点は、第１の実施の形態と同様である。

　補助視点画像生成部１０１には、3D形状計算部６２から、被写体の3D形状を表す3D形状データが供給され、基本テクスチャ生成部６３から、被写体のテクスチャ情報を２次元にマッピングしたマッピングデータが供給される。

　補助視点画像生成部１０１は、3D形状データの3D形状の表面に、マッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、補助視点画像生成部１０１は、生成した被写体の3Dモデルを、各撮像装置２１の位置から見たときの2D画像である撮像視点画像を生成する。補助視点画像生成部１０１は、生成された撮像視点画像を、補助テクスチャ制御部１０２に供給する。

　換言すれば、補助視点画像生成部１０１は、生成する視点の位置が視聴者の視聴位置ではなく、各撮像装置２１の位置である点を除いて、再生装置２５の視聴視点画像生成部８５と同様の処理を行う。なお、撮像視点画像の生成には、各撮像装置２１の位置を補助視点として、3Dモデルの補助視点からの2D画像を算出する3DのCG処理の一般的な手法を用いることができ、視聴視点画像生成部８５と同様の処理でなくてもよい。

　基本テクスチャ生成部６３によるマッピングデータの生成や、被写体の3Dモデルの生成には、所定の処理時間がかかるため、補助視点画像生成部１０１は、数フレーム遅れた撮像視点画像を補助テクスチャ制御部１０２に供給する方法を採用してもよい。また、フレームメモリなどを用いて、補助テクスチャ生成部６４Aおよび補助テクスチャ制御部１０２に入力される画像のタイミングを遅らせることで、画像取得部６１から補助テクスチャ生成部６４Aへの入力画像と、補助視点画像生成部１０１から補助テクスチャ制御部１０２への入力画像とが同じタイミングに撮像された画像になるよう調整してもよい。

　補助テクスチャ制御部１０２には、補助視点画像生成部１０１から、各撮像装置２１の位置から見たときの撮像視点画像が供給されるとともに、画像取得部６１から、各撮像装置２１で撮像された撮像画像が供給される。

　補助テクスチャ制御部１０２は、補助テクスチャ生成部６４Aが選択する１以上の特定領域SPそれぞれについて、領域画像を符号化するかを判断する。具体的には、補助テクスチャ制御部１０２は、１以上の特定領域SPそれぞれについて、補助視点画像生成部１０１で生成された撮像視点画像と、画像取得部６１から供給された実際の撮像画像との差分を算出し、差分が所定の閾値以上である場合に、領域画像を符号化することを決定する。差分には、例えば、撮像視点画像と実際の撮像画像との差分絶対値和やSSIM（Structur al SIMilarity）などが用いられる。補助テクスチャ制御部１０２は、符号化することに決定した特定領域SPについて、領域画像を生成するように、補助テクスチャ生成部６４Aに指示する。補助テクスチャ制御部１０２は、領域画像を生成するように補助テクスチャ生成部６４Aに指示した特定領域SPの撮像視点画像を、補助テクスチャ符号化部６７Aに供給する。

　補助テクスチャ生成部６４Aは、補助テクスチャ制御部１０２から生成が指示された特定領域SPの領域画像を生成して、その領域画像を撮像した撮像装置２１のカメラパラメータとともに、補助テクスチャ符号化部６７Aに供給する。その他の点は、第１の実施の形態の補助テクスチャ生成部６４と同様である。

　なお、特定領域SPの選択は、第１の実施の形態と同様に、補助テクスチャ生成部６４Aがマニュアル操作または自動で行って、特定領域SPを識別する情報を補助テクスチャ制御部１０２に供給してもよいし、補助テクスチャ生成部６４Aの代わりに、補助テクスチャ制御部１０２が行い、補助テクスチャ生成部６４Ａに供給してもよい。また、補助テクスチャ生成部６４Aと補助テクスチャ制御部１０２の両方が行ってもよい。

　補助テクスチャ符号化部６７Aには、補助テクスチャ制御部１０２により領域画像データを生成することが決定された特定領域SPの撮像視点画像が、補助テクスチャ制御部１０２から供給されるとともに、その特定領域SPの領域画像とカメラパラメータが、補助テクスチャ生成部６４Aから供給される。

　補助テクスチャ符号化部６７Aは、補助テクスチャ生成部６４Aから供給される特定領域SPの領域画像を、所定の符号化方式で符号化し、その結果得られる符号化領域画像データを送信部６８に供給する。ここで、補助テクスチャ符号化部６７Aは、補助テクスチャ制御部１０２から供給される特定領域SPの撮像視点画像を予測画像の候補の一つとし、補助テクスチャ生成部６４Aから供給される領域画像との差分を符号化する予測符号化を行ってもよいし、第１の実施の形態と同様、時間方向が前または後ろの撮像画像を予測画像とした符号化を行ってもよい。補助テクスチャ符号化部６７Aは、予測画像を用いて符号化された符号化領域画像データを送信部６８に供給する。

＜再生装置の構成例＞
　図９は、再生装置２５の第２の実施の形態の構成例を示すブロック図である。

　図９においては、図５に示した第１の実施の形態と対応する部分については同一の符号を付してあり、第１の実施の形態と共通する部分の説明は適宜省略し、異なる部分に着目して説明する。

　図９の第２の実施の形態に係る再生装置２５は、補助視点画像生成部１２１が新たに追加されている。また、補助テクスチャ復号部８４が、補助テクスチャ復号部８４Aに変更されている。その他の点は、第１の実施の形態と同様である。

　補助視点画像生成部１２１には、補助テクスチャ復号部８４Aから、各撮像装置２１の外部パラメータが供給される。また、補助視点画像生成部１２１には、形状復号部８２から、3D形状データが供給されるとともに、基本テクスチャ復号部８３から、マッピングデータが供給される。

　補助視点画像生成部１２１は、3D形状データの3D形状の表面に、マッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、補助視点画像生成部１２１は、生成した被写体の3Dモデルを、補助テクスチャ復号部８４Aから供給される撮像装置２１の位置から見たときの2D画像である撮像視点画像を生成する。

　換言すれば、補助視点画像生成部１２１は、生成する視点の位置が視聴者の視聴位置ではなく、各撮像装置２１の位置である点を除いて、視聴視点画像生成部８５と同様の処理を行う。補助視点画像生成部１２１は、生成した１以上の撮像視点画像を補助テクスチャ復号部８４Aに供給する。

　補助テクスチャ復号部８４Aは、領域画像データに含まれる撮像装置２１の外部パラメータを補助視点画像生成部１２１に供給する。補助テクスチャ復号部８４Aは、補助視点画像生成部１２１から供給される撮像視点画像を予測画像の候補の一つとして用いて、符号化領域画像データを復号し、差分画像を得る。そして、補助テクスチャ復号部８４Aは、復号により得られた差分画像と、予測画像として用いた画像（撮像視点画像または時間方向に前または後ろの画像）とから、第１の実施の形態と同様の、１以上の領域画像を生成し、視聴視点画像生成部８６に供給する。

＜５．第２の実施の形態のフローチャート＞
　図１０のフローチャートを参照して、第２の実施の形態の生成装置２２による3Dモデルデータ生成処理について説明する。

　ステップＳ４１乃至Ｓ４３は、第１の実施の形態における図６のステップＳ１乃至Ｓ３と同様であるので、その説明は省略する。

　ステップＳ４４において、補助視点画像生成部１０１は、被写体の3Dモデルを生成し、生成した3Dモデルを各撮像装置２１の位置から見た撮像視点画像を生成する。より具体的には、補助視点画像生成部１０１は、3D形状データの3D形状の表面に、マッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、補助視点画像生成部１０１は、生成した被写体の3Dモデルを、各撮像装置２１の位置から見たときの2D画像である撮像視点画像を生成する。生成された撮像視点画像は、補助テクスチャ制御部１０２に供給される。

　ステップＳ４５において、補助テクスチャ制御部１０２は、補助テクスチャ生成部６４Aが選択する１以上の特定領域SPそれぞれについて、領域画像を符号化するかを判断する。具体的には、補助テクスチャ制御部１０２は、１以上の特定領域SPそれぞれについて、補助視点画像生成部１０１で生成された撮像視点画像と、画像取得部６１から供給された実際の撮像画像との差分を算出し、差分が所定の閾値以上である場合に、領域画像を符号化することを決定する。補助テクスチャ制御部１０２は、符号化することに決定した特定領域SPについて、領域画像を生成するように、補助テクスチャ生成部６４Aに指示する。補助テクスチャ制御部１０２は、領域画像を生成するように補助テクスチャ生成部６４Aに指示した特定領域SPの撮像視点画像を、補助テクスチャ符号化部６７Aに供給する。

　ステップＳ４６において、補助テクスチャ生成部６４Aは、撮像画像を符号化すると判断された特定領域SPの領域画像を生成する。具体的には、補助テクスチャ生成部６４Aは、補助テクスチャ制御部１０２から生成が指示された特定領域SPの領域画像を生成する。そして、補助テクスチャとしての特定領域SPの領域画像と、その領域画像を撮像した撮像装置２１のカメラパラメータとが、領域画像データとして、補助テクスチャ符号化部６７Aに供給される。カメラパラメータは、フレームごとに常に送ってもよいし、動画像の先頭フレームで送信した後は、変更時のみ送るようにしてもよい。

　ステップＳ４７およびＳ４８は、第１の実施の形態における図６のステップＳ５およびＳ６と同様であるので、その説明は省略する。

　ステップＳ４９において、補助テクスチャ符号化部６７Aは、補助テクスチャ生成部６４Aから供給された特定領域SPの領域画像を、所定の符号化方式で符号化し、符号化領域画像データを生成して、送信部６８に供給する。ここで、補助テクスチャ符号化部６７Aは、補助テクスチャ制御部１０２から供給された特定領域SPの撮像視点画像を、予測画像の候補の一つとして、補助テクスチャ生成部６４Aから供給された領域画像を符号化する予測符号化を行うことができる。領域画像を撮像した撮像装置２１のカメラパラメータは、例えば、符号化領域画像データ内にメタデータとして格納される。

　ステップＳ５０において、送信部６８は、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを、配信サーバ２３に送信する。

　次に、図１１のフローチャートを参照して、第２の実施の形態の再生装置２５による3Dモデル画像生成処理について説明する。

　ステップＳ６１乃至Ｓ６３は、第１の実施の形態における図６のステップＳ２１乃至Ｓ２３と同様であるので、その説明は省略する。

　ステップＳ６４において、補助視点画像生成部１２１は、基本テクスチャを用いて被写体の3Dモデルを生成し、生成した3Dモデルを、撮像装置２１の位置から見た撮像視点画像を生成する。すなわち、領域画像データに含まれる撮像装置２１の外部パラメータが、補助テクスチャ復号部８４Aから、補助視点画像生成部１２１に供給される。補助視点画像生成部１２１は、3D形状データの3D形状の表面に、マッピングデータのテクスチャ画像を貼り付けることにより、被写体の3Dモデルを生成する。そして、補助視点画像生成部１２１は、生成した被写体の3Dモデルを、撮像装置２１の位置から見たときの2D画像である撮像視点画像を生成する。生成された撮像視点画像は、補助テクスチャ復号部８４Aに供給される。

　ステップＳ６５において、補助テクスチャ復号部８４Aは、補助視点画像生成部１２１から供給された撮像視点画像を予測画像の候補の一つとして用いて、符号化領域画像データを復号し、差分画像を得る。そして、補助テクスチャ復号部８４Aは、復号により得られた差分画像と、予測画像として用いた画像とから、第１の実施の形態と同様の、１以上の領域画像を生成し、視聴視点画像生成部８６に供給する。

　ステップＳ６６乃至Ｓ６９は、第１の実施の形態における図６のステップＳ２５乃至Ｓ２８と同様であるので、その説明は省略する。

　上述した画像処理システム１の第２の実施の形態によれば、生成装置２２において、補助テクスチャとして生成する特定領域SPの領域画像と同じ撮像装置２１の視点による撮像視点画像が生成され、撮像視点画像と、実際の撮像画像との差分が大きい特定領域SPについてのみ、領域画像が生成され、配信サーバ２３に送信される。

　再生装置２５において、基本テクスチャを用いて生成した被写体の3Dモデルを視聴位置から見たときの視聴視点基本画像を生成し、補助テクスチャを用いて生成した被写体の3Dモデルを視聴位置から見たときの視聴視点補助画像を生成し、視聴視点基本画像と視聴視点補助画像を合成して視聴視点合成画像を生成する点は、第１の実施の形態と同様であるが、伝送される領域画像データは、撮像視点画像を予測画像の候補の一つとして用いて符号化したデータとされる。

　形状の精度が悪い、基本テクスチャの解像度が低い、などの理由により基本テクスチャ画像が大きく破綻する領域では、撮像装置２１で撮像された撮像画像と基本テクスチャ画像から作成した撮像視点画像の間で大きな差分が生まれる。そのような領域に対して、破綻のない補助テクスチャを使った画像の生成は大きな効果を生む。そのため、両者の差分が大きな領域（画像が破綻しているような領域）を予測して領域画像を生成することで、効率的に再生表示画像の画質を向上させることができる。

　また、差分が小さな領域（基本テキスチャで十分な領域）については、補助テクスチャ画像の効果が小さい。そこで、そのような領域では画像を生成せず、送信しないことで、データ量を削減し、圧縮効率を向上させることができる。

（変形例）
　上述した第２の実施の形態は、以下のような変形例も可能である。

　上述した第２の実施の形態では、撮像視点画像と、実際の撮像画像との差分が小さい特定領域SPについては、領域画像（の差分）を送信しないようにしたが、差分の大きさに関わらず、領域画像を生成して送信するようにしてもよい。この場合でも、差分を符号化する予測符号化を行うので、転送データ量および演算量を抑えつつ、高品質な自由視点画像を実現することができる。

　上述した第２の実施の形態において、特定領域SPにおける撮像視点画像と実際の撮像画像との差分が大きい場合には、特定領域SPの領域サイズを拡大したり、差分が大きい他の領域を検出して、特定領域SPとして追加するなどして、特定領域SPの個数を増大してもよい。これにより、再生される際の画質をさらに向上させることができる。

＜６．第３の実施の形態＞
＜生成装置の構成例＞
　図１２は、生成装置２２の第３の実施の形態の構成例を示すブロック図である。

　図１２においては、図８に示した第２の実施の形態と対応する部分については同一の符号を付してあり、第２の実施の形態と共通する部分の説明は適宜省略し、異なる部分に着目して説明する。

　図１２の第３の実施の形態に係る生成装置２２は、補助視点高画質画像生成部１４１、補助テクスチャ制御部１４２、および、補助テクスチャ生成部１４３が新たに追加されている。また、補助テクスチャ符号化部６７Aが補助テクスチャ符号化部６７Bに変更されている。その他の点は、第２の実施の形態と同様である。

　補助視点高画質画像生成部１４１には、画像取得部６１から、複数の撮像画像が供給されるとともに、3D形状計算部６２から、被写体の3D形状を表す3D形状データが供給される。

　補助視点高画質画像生成部１４１は、撮像装置２１単体で撮像された撮像画像よりも特性を向上させた高画質撮像画像を生成する。換言すれば、補助視点高画質画像生成部１４１は、画像取得部６１から供給される複数の撮像画像を合成した視点合成画像を生成することにより高画質撮像画像を生成する。例えば、補助視点高画質画像生成部１４１は、高画質撮像画像として、撮像装置２１単体の撮像画像よりも、空間位相の異なるサンプリング点の統合によりフルHDから4kにするなど解像度を向上させた高解像度撮像画像、ノイズを低減させた低ノイズ撮像画像、ダイナミックレンジを拡大させた広ダイナミックレンジ撮像画像、FOV（画角）を拡大させた広角撮像画像などを生成する。

　そして、補助視点高画質画像生成部１４１は、3D形状データの3D形状の表面に、生成した高画質撮像画像を貼り付けることにより、被写体の高画質3Dモデルを生成する。そして、補助視点高画質画像生成部１４１は、生成した被写体の高画質3Dモデルを、各撮像装置２１の位置から見たときの2D画像である高画質撮像視点画像を生成する。補助視点高画質画像生成部１４１は、生成した高画質撮像視点画像を、補助テクスチャ制御部１４２および補助テクスチャ生成部１４３に供給する。

　補助テクスチャ制御部１４２は、補助視点高画質画像生成部１４１から、高画質撮像視点画像を取得し、補助視点画像生成部１０１から、各撮像装置２１の位置から見たときの撮像視点画像を取得する。

　補助テクスチャ制御部１４２は、１以上の特定領域SPそれぞれについて、高画質撮像視点画像を符号化するかを判断する。具体的には、補助テクスチャ制御部１４２は、１以上の特定領域SPそれぞれについて、補助視点画像生成部１０１で生成された撮像視点画像と、補助視点高画質画像生成部１４１で生成された高画質撮像視点画像との差分を算出し、差分が所定の閾値以上である場合に、高画質撮像視点画像を符号化することを決定する。補助テクスチャ制御部１４２は、符号化することに決定した特定領域SPについて、高画質撮像視点画像を生成するように、補助テクスチャ生成部１４３に指示する。補助テクスチャ制御部１４２は、高画質撮像視点画像を生成するように補助テクスチャ生成部１４３に指示した特定領域SPの撮像視点画像を、補助テクスチャ符号化部６７Bに供給する。なお、１以上の特定領域SPは、補助テクスチャ生成部６４Aで決定された特定領域SPの情報を取得してもよいし、補助テクスチャ生成部６４Aとは別に、補助テクスチャ生成部１４３自身が、マニュアルまたは自動で決定してもよい。

　補助テクスチャ生成部１４３は、補助テクスチャ制御部１４２から生成が指示された特定領域SPに関して、補助視点高画質画像生成部１４１から供給された高画質撮像視点画像から、高画質領域画像を生成して、その高画質領域画像に対応する撮像装置２１のカメラパラメータとともに、補助テクスチャ符号化部６７Bに供給する。その他の点は、第２の実施の形態の補助テクスチャ生成部６４Aと同様である。

　補助テクスチャ符号化部６７Bは、補助テクスチャ生成部１４３から供給される特定領域SPの高画質領域画像に対して、補助テクスチャ制御部１４２から供給される撮像視点画像を予測画像の候補の一つとした予測符号化を行い、その結果得られる符号化領域画像データを送信部６８に供給する。

　また、補助テクスチャ符号化部６７Bは、補助テクスチャ制御部１０２から供給される特定領域SPの撮像視点画像を予測画像の候補の一つとして、補助テクスチャ生成部６４Aから供給される領域画像を符号化する予測符号化を行い、その結果得られる符号化領域画像データを送信部６８に供給する。

　すなわち、補助テクスチャ符号化部６７Bは、補助テクスチャ符号化部６７Aが行う処理に加えて、高画質領域画像を符号化する処理を行う。

　第３の実施の形態に係る再生装置２５は、第２の実施の形態と同様の構成で実現できる。

＜７．第３の実施の形態のフローチャート＞
　図１３のフローチャートを参照して、第３の実施の形態の生成装置２２による3Dモデルデータ生成処理について説明する。

　ステップＳ８１乃至Ｓ８６は、第２の実施の形態における図１０のステップＳ４１乃至Ｓ４６と同様であるので、その説明は省略する。ただし、図１０のステップＳ４４に対応するステップＳ８４において、生成された撮像視点画像は、補助テクスチャ制御部１０２の他、補助テクスチャ制御部１４２にも供給される。

　ステップＳ８７において、補助視点高画質画像生成部１４１は、被写体の高画質3Dモデルを生成し、生成した高画質3Dモデルを各撮像装置２１の位置から見た高画質撮像視点画像を生成する。より具体的には、補助視点高画質画像生成部１４１は、複数の撮像画像を合成することにより、撮像装置２１単体で撮像された撮像画像よりも特性を向上させた高画質撮像画像を生成する。そして、補助視点高画質画像生成部１４１は、3D形状データの3D形状の表面に、生成した高画質撮像画像を貼り付けることにより、被写体の高画質3Dモデルを生成する。さらに、補助視点高画質画像生成部１４１は、生成した被写体の高画質3Dモデルを、各撮像装置２１の位置から見たときの2D画像である高画質撮像視点画像を生成する。生成された高画質撮像視点画像は、補助テクスチャ制御部１４２および補助テクスチャ生成部１４３に供給される。

　ステップＳ８８において、補助テクスチャ制御部１４２は、補助テクスチャ生成部１４３が選択する１以上の特定領域SPそれぞれについて、高画質撮像視点画像を符号化するかを判断する。具体的には、補助テクスチャ制御部１４２は、１以上の特定領域SPそれぞれについて、補助視点画像生成部１０１で生成された撮像視点画像と、補助視点高画質画像生成部１４１から供給された高画質撮像視点画像との差分を算出し、差分が所定の閾値以上である場合に、高画質撮像視点画像を符号化することを決定する。補助テクスチャ制御部１４２は、符号化することとした特定領域SPについて、高画質撮像視点画像を生成するように、補助テクスチャ生成部１４３に指示する。補助テクスチャ制御部１４２は、高画質撮像視点画像を生成するように補助テクスチャ生成部１４３に指示した特定領域SPの撮像視点画像を、補助テクスチャ符号化部６７Bに供給する。

　ステップＳ８９において、補助テクスチャ生成部１４３は、高画質撮像視点画像を符号化すると判断された特定領域SPの高画質領域画像を生成する。具体的には、補助テクスチャ生成部１４３は、補助テクスチャ制御部１４２から生成が指示された特定領域SPに関して、高画質撮像視点画像から特定領域SPを選択して切り出すことにより、特定領域SPの高画質領域画像を生成する。補助テクスチャとしての特定領域SPの高画質領域画像と、その高画質領域画像に対応する撮像装置２１のカメラパラメータとが、領域画像データとして、補助テクスチャ符号化部６７Bに供給される。

　ステップＳ９０およびＳ９１は、第２の実施の形態における図１０のステップＳ４７およびＳ４８と同様であるので、その説明は省略する。

　ステップＳ９２において、補助テクスチャ符号化部６７Bは、補助テクスチャ制御部１０２から供給された特定領域SPの撮像視点画像を予測画像の候補の一つとして、補助テクスチャ生成部６４Aから供給された領域画像を符号化する予測符号化と、補助テクスチャ制御部１４２から供給された特定領域SPの撮像視点画像を予測画像の候補の一つとして、補助テクスチャ生成部１４３から供給された高画質領域画像を符号化する予測符号化を行うことで、符号化領域画像データを生成し、送信部６８に供給する。撮像装置２１のカメラパラメータは、例えば、符号化領域画像データ内にメタデータとして格納される。

　ステップＳ９３において、送信部６８は、符号化3D形状データ、符号化マッピングデータ、および、符号化領域画像データを、配信サーバ２３に送信する。

　第３の実施の形態の再生装置２５による3Dモデル画像生成処理は、図１１を参照して説明した第２の実施の形態の3Dモデル画像生成処理と同じに実行できるため、その説明は省略する。すなわち、補助テクスチャ復号部８４Aは、差分画像を生成した画像が、領域画像か、または、高画質領域画像かに関わらず、撮像視点画像を予測画像の候補の一つとして復号することで、領域画像または高画質領域画像を生成することができる。

　上述した画像処理システム１の第３の実施の形態によれば、撮像装置２１単体で撮像された撮像画像よりも特性を向上させた高画質撮像画像（高画質撮像視点画像）の特定領域SPを切り出した高画質領域画像を、再生装置２５側で再生、表示することができ、表示画像の画質を向上させることができる。

　高画質撮像画像が、例えば、空間位相の異なるサンプリング点の統合により、解像度を向上させた高解像度撮像画像である場合には、解像度の向上が期待できる。

　高画質撮像画像が、例えば、異なる露光条件の画像を統合して生成した広ダイナミックレンジ撮像画像である場合には、ダイナミックレンジの拡大が期待できる。

　高画質撮像画像が、例えば、露光や感度特性の異なる信号（IR画像など）統合によりノイズを低減させた低ノイズ撮像画像である場合には、SN比の向上が期待できる。

　高画質撮像画像が、例えば、異なる画角、姿勢、位置の撮像装置２１からの画像を統合することで冗長性を排除しながらFOV（画角）を拡大させた広角撮像画像像である場合には、より広角な画像の再生が期待できる。

（変形例）
　上述した第３の実施の形態は、以下のような変形例も可能である。

　上述した第３の実施の形態では、撮像視点画像と、高画質撮像視点画像との差分が小さい特定領域については、高画質撮像視点画像（の差分）を送信しないようにしたが、差分の大きさに関わらず、高画質撮像視点画像を生成して送信するようにしてもよい。この場合でも、差分を符号化する予測符号化を行うので、転送データ量および演算量を抑えつつ、高品質な自由視点画像を実現することができる。

　上述した第３の実施の形態では、補助視点高画質画像生成部１４１が、撮像装置２１の位置から見たときの高画質撮像視点画像を生成し、その特定領域SPの高画質領域画像を補助テクスチャ生成部１４３が生成するようにした。しかし、補助視点高画質画像生成部１４１が、撮像装置２１の位置以外の補助視点の高画質撮像視点画像を生成し、その特定領域SPの高画質領域画像を補助テクスチャ生成部１４３が生成するようにしてもよい。この場合、補助視点画像生成部１０１は、補助視点高画質画像生成部１４１が高画質撮像視点画像を生成する補助視点と同じ視点からの撮像視点画像を生成し、補助テクスチャ制御部１４２に供給する。被写体の3Dモデルに対して、より効果的な補助視点でテクスチャ画像を統合することで、補助テクスチャとして送信する特定領域SPの領域画像を削減し、転送データ量を削減することが期待できる。

＜８．コンピュータ構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

　入力部３０６は、操作ボタン、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部３０７は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部３０８は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体３１１を駆動する。

　以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。RAM３０３にはまた、CPU１３０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する生成部を備える
　画像処理装置。
（２）
　前記マッピングデータは、UVマッピング、キューブマッピング、平行投影マッピング、または、円筒座標投影マッピングのいずれかによるデータである
　前記（１）に記載の画像処理装置。
（３）
　前記生成部は、前記特定領域を認識処理により検出し、検出された前記特定領域の前記領域画像データを生成する
　前記（１）または（２）に記載の画像処理装置。
（４）
　前記3D形状データおよび前記マッピングデータから、前記視点位置と同じ視点から見た視点画像を合成生成する視点画像生成部と、
　前記視点画像と前記撮像画像との差分に基づいて、前記領域画像データの生成を制御する制御部をさらに備える
　前記（１）乃至（３）のいずれかに記載の画像処理装置。
（５）
　前記差分を符号化する符号化部をさらに備える
　前記（４）に記載の画像処理装置。
（６）
　前記生成部は、複数の前記撮像画像を合成した視点合成画像を生成し、前記視点合成画像から、前記特定領域の画像を生成する
　前記（１）乃至（５）のいずれかに記載の画像処理装置。
（７）
　前記視点合成画像は、前記撮像画像よりも高解像度な画像である
　前記（６）に記載の画像処理装置。
（８）
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを送信する送信部をさらに備える
　前記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを符号化する符号化部をさらに備える
　前記（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）
　画像処理装置が、
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する
　画像処理方法。
（１１）
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する合成部を備える
　画像処理装置。
（１２）
　前記合成部は、前記3D形状データと前記マッピングデータとから生成した前記被写体の第１の3Dモデルを前記所定の視聴位置から見た第１の視聴視点画像と、前記3D形状データと前記領域画像データとから生成した前記被写体の第２の3Dモデルを前記所定の視聴位置から見た第２の視聴視点画像とを合成し、前記視聴視点合成画像を生成する
　前記（１１）に記載の画像処理装置。
（１３）
　前記合成部は、前記3D形状データと前記マッピングデータとから前記被写体の第１の3Dモデルを生成するとともに、前記3D形状データと前記領域画像データとから前記被写体の第２の3Dモデルを生成し、前記第１の3Dモデルと前記第２の3Dモデルとを合成した後の３Dモデルを前記所定の視聴位置から見た前記視聴視点合成画像を生成する
　前記（１１）に記載の画像処理装置。
（１４）
　前記合成部は、複数の前記特定領域の画像である複数の特定領域画像を重み付け加算により合成した視聴視点補助合成画像と、前記マッピングデータに基づく視聴視点基本画像とを合成し、前記視聴視点合成画像を生成する
　前記（１１）乃至（１３）のいずれかに記載の画像処理装置。
（１５）
　前記合成部は、複数の前記特定領域の画像である複数の特定領域画像のうち、信頼度が一番高い前記特定領域画像を、前記マッピングデータに基づく視聴視点基本画像と合成し、前記視聴視点合成画像を生成する
　前記（１１）乃至（１４）のいずれかに記載の画像処理装置。
（１６）
　前記3D形状データおよび前記マッピングデータから、前記視点位置と同じ視点からの視点画像を生成する視点画像生成部と、
　前記特定領域の前記視点画像と前記撮像画像との差分が符号化された前記領域画像データを、前記視点画像を用いて復号する復号部と
　をさらに備える
　前記（１１）乃至（１５）のいずれかに記載の画像処理装置。
（１７）
　前記3D形状データと前記マッピングデータとから生成した前記被写体の3Dモデルを前記所定の視聴位置から見た視聴視点基本画像を生成する第１の視聴視点画像生成部と、
　前記領域画像データを復号して得られた前記差分と、前記視点画像とを用いて、視聴視点補助画像を生成する第２の視聴視点画像生成部と
　をさらに備え、
　前記合成部は、前記視聴視点基本画像と前記視聴視点補助画像とを合成し、前記視聴視点合成画像を生成する
　前記（１６）に記載の画像処理装置。
（１８）
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを受信する受信部をさらに備える
　前記（１１）乃至（１７）のいずれかに記載の画像処理装置。
（１９）
　符号化された前記3D形状データ、符号化された前記マッピングデータ、および、符号化された前記領域画像データを復号する復号部をさらに備える
　前記（１１）乃至（１８）のいずれかに記載の画像処理装置。
（２０）
　画像処理装置が、
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する
　画像処理方法。

　１　画像処理システム，　２１　撮像装置，　２２　生成装置，　２３　配信サーバ，　２５　再生装置，　２６　表示装置，　２７　視聴位置検出装置，　６２　3D形状計算部，　６３　基本テクスチャ生成部，　６４　補助テクスチャ生成部，　６５　形状符号化部，　６６　基本テクスチャ符号化部，　６７　補助テクスチャ符号化部，　７１　生成部，　７２　符号化部，　８２　形状復号部，　８３　基本テクスチャ復号部，　８４　補助テクスチャ復号部，　８５　視聴視点画像生成部，　８６　視聴視点画像生成部，　８７　視聴視点画像合成部，　９１　復号部，　９２　合成部，　１０１　補助視点画像生成部，　１０２　補助テクスチャ制御部，　１２１　補助視点画像生成部，　１４１　補助視点高画質画像生成部，　１４２　補助テクスチャ制御部，　１４３　補助テクスチャ生成部，　３０１　CPU，　３０２　ROM，　３０３　RAM，　３０６　入力部，　３０７　出力部，　３０８　記憶部，　３０９　通信部，　３１０　ドライブ

Claims

　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する生成部を備える
　画像処理装置。
　前記マッピングデータは、UVマッピング、キューブマッピング、平行投影マッピング、または、円筒座標投影マッピングのいずれかによるデータである
　請求項１に記載の画像処理装置。
　前記生成部は、前記特定領域を認識処理により検出し、検出された前記特定領域の前記領域画像データを生成する
　請求項１に記載の画像処理装置。
　前記3D形状データおよび前記マッピングデータから、前記視点位置と同じ視点から見た視点画像を合成生成する視点画像生成部と、
　前記視点画像と前記撮像画像との差分に基づいて、前記領域画像データの生成を制御する制御部をさらに備える
　請求項１に記載の画像処理装置。
　前記差分を符号化する符号化部をさらに備える
　請求項４に記載の画像処理装置。
　前記生成部は、複数の前記撮像画像を合成した視点合成画像を生成し、前記視点合成画像から、前記特定領域の画像を生成する
　請求項１に記載の画像処理装置。
　前記視点合成画像は、前記撮像画像よりも高解像度な画像である
　請求項６に記載の画像処理装置。
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを送信する送信部をさらに備える
　請求項１に記載の画像処理装置。
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを符号化する符号化部をさらに備える
　請求項１に記載の画像処理装置。
　画像処理装置が、
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを生成する
　画像処理方法。
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する合成部を備える
　画像処理装置。
　前記合成部は、前記3D形状データと前記マッピングデータとから生成した前記被写体の第１の3Dモデルを前記所定の視聴位置から見た第１の視聴視点画像と、前記3D形状データと前記領域画像データとから生成した前記被写体の第２の3Dモデルを前記所定の視聴位置から見た第２の視聴視点画像とを合成し、前記視聴視点合成画像を生成する
　請求項１１に記載の画像処理装置。
　前記合成部は、前記3D形状データと前記マッピングデータとから前記被写体の第１の3Dモデルを生成するとともに、前記3D形状データと前記領域画像データとから前記被写体の第２の3Dモデルを生成し、前記第１の3Dモデルと前記第２の3Dモデルとを合成した後の３Dモデルを前記所定の視聴位置から見た前記視聴視点合成画像を生成する
　請求項１１に記載の画像処理装置。
　前記合成部は、複数の前記特定領域の画像である複数の特定領域画像を重み付け加算により合成した視聴視点補助合成画像と、前記マッピングデータに基づく視聴視点基本画像とを合成し、前記視聴視点合成画像を生成する
　請求項１１に記載の画像処理装置。
　前記合成部は、複数の前記特定領域の画像である複数の特定領域画像のうち、信頼度が一番高い前記特定領域画像を、前記マッピングデータに基づく視聴視点基本画像と合成し、前記視聴視点合成画像を生成する
　請求項１１に記載の画像処理装置。
　前記3D形状データおよび前記マッピングデータから、前記視点位置と同じ視点からの視点画像を生成する視点画像生成部と、
　前記特定領域の前記視点画像と前記撮像画像との差分が符号化された前記領域画像データを、前記視点画像を用いて復号する復号部と
　をさらに備える
　請求項１１に記載の画像処理装置。
　前記3D形状データと前記マッピングデータとから生成した前記被写体の3Dモデルを前記所定の視聴位置から見た視聴視点基本画像を生成する第１の視聴視点画像生成部と、
　前記領域画像データを復号して得られた前記差分と、前記視点画像とを用いて、視聴視点補助画像を生成する第２の視聴視点画像生成部と
　をさらに備え、
　前記合成部は、前記視聴視点基本画像と前記視聴視点補助画像とを合成し、前記視聴視点合成画像を生成する
　請求項１６に記載の画像処理装置。
　前記3D形状データ、前記マッピングデータ、および、前記領域画像データを受信する受信部をさらに備える
　請求項１１に記載の画像処理装置。
　符号化された前記3D形状データ、符号化された前記マッピングデータ、および、符号化された前記領域画像データを復号する復号部をさらに備える
　請求項１１に記載の画像処理装置。
　画像処理装置が、
　被写体の3D形状を表す3D形状データ、前記被写体のテクスチャ情報を２次元にマッピングしたマッピングデータ、および、１以上の視点位置から前記被写体を撮像した１以上の撮像画像の特定領域の領域画像データを合成して、前記被写体の３Dモデルを所定の視聴位置から見た視聴視点合成画像を生成する
　画像処理方法。