WO2024034449A1

WO2024034449A1 - 情報処理装置、及び情報処理方法

Info

Publication number: WO2024034449A1
Application number: PCT/JP2023/027953
Authority: WO
Inventors: 昌道中村; 隆宏原田; 博隆井上
Original assignee: Morgenrot Inc
Current assignee: Morgenrot Inc
Priority date: 2022-08-06
Filing date: 2023-07-31
Publication date: 2024-02-15
Anticipated expiration: 2025-02-06
Also published as: EP4557219A4; JP7829044B2; EP4557219A1; JPWO2024034449A1

Abstract

２次元画像を用いた３次元モデルの生成における利便性を向上させること。　深度データ取得部は、所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する。表面ラベリング部５３は、Ｎの深度データに基づいて、対象物の表面をラベリングした結果を示すラベリングデータを生成する。画像データ取得部５４は、Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点から対象物が撮像された結果得られるＭの画像データを取得する。３次元モデル生成部５５は、Ｍの画像データ及びラベリングデータに基づいて、対象物についての３次元モデルを生成する。

Description

情報処理装置、及び情報処理方法

　本発明は、情報処理装置、及び情報処理方法に関する。

　従来より、被写体が含まれる２次元画像（多数の２次元画像）から、３次元モデルを生成する技術が存在する（例えば、特許文献１及び非特許文献１参照）。

特開２０１０－１４５１８６号公報

Ｔｈｏｍａｓ　Ｍ．　ｅｔ　Ａｌ．，　"Ｉｎｓｔａｎｔ　Ｎｅｕｒａｌ　Ｇｒａｐｈｉｃｓ　Ｐｒｉｍｉｔｉｖｅｓ　ｗｉｔｈ　ａ　Ｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎ　Ｈａｓｈ　Ｅｎｃｏｄｉｎｇ"，　ＡＣＭ　Ｔｒａｎｓ．　Ｇｒａｐｈ．，　Ｖｏｌ．４，　Ｎｕｍ．４，　ｐｐ．１０２：１－－１０２：１５，　Ｊｕｌｙ　２０２２，https://doi.org/10.1145/3528223.3530127

　しかしながら、上述の特許文献１や非特許文献１を含む先行技術では、３次元モデルの生成の精度や、生成速度についての要望に十分に応じることができていなかった。

　本発明は、このような状況に鑑みてなされたものであり、２次元画像を用いた３次元モデルの生成における利便性を向上させることを目的とする。

　上記目的を達成するため、本発明の一態様の情報処理装置は、
　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段と、
　前記Ｎの深度データに基づいて、前記対象物の表面をラベリングした結果を示すラベリングデータを生成する物体表面ラベリング手段と、
　前記Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点から前記対象物が撮像された結果得られるＭの画像データを取得する画像データ取得手段と、
　前記Ｍの画像データ及び前記ラベリングデータに基づいて、前記対象物についての３次元モデルを生成するモデル生成手段と、
　を備える。

　本発明の一態様の情報処理方法は、上述の本発明の一態様の情報処理装置に対応する情報処理方法である。

　本発明によれば、２次元画像を用いた３次元モデルの生成における利便性を向上させることができる。

本発明の情報処理装置の一実施形態に係るモデル生成装置により実現可能となる本サービスの概要を示す図である。図１に示す本サービスにおいて、深度データと画像データを取得するためのカメラ及びライダの配置方法の一例を示す図である。図１を用いて説明した本サービスに適用されるモデル生成装置、即ち本発明の情報処理装置の一実施形態のモデル生成装置のハードウェア構成の一例を示すブロック図である。図３のモデル生成装置の機能的構成の一例を示す機能ブロック図である。図４の機能的構成を有するモデル生成装置における、３次元モデル生成のためのブロックの一例を示す図である。

　以下、本発明の実施形態について図面を用いて説明する。

　本発明の情報処理装置の実施形態は、２次元画像に基づいて３次元モデルを生成するアルゴリズムを用いることを前提としている。
　即ち、本発明の情報処理装置の実施形態が適用されるサービス（以下、「本サービス」と呼ぶ）は、実世界に存在する所定の対象物に対して２次元画像を取得し、その２次元画像から３次元モデルの生成を行うものである。

　まず、上述の特許文献１等に記載の従来の基礎技術について説明する。
　従来のフォトグラメトリ技術においては、対象物を複数の視点から撮像した複数の画像の夫々から特徴点を抽出し、複数の画像の夫々の特徴点を対応付けることで３次元空間上の点群を生成し、特徴点以外の点からさらに点群を追加することで、３次元画像を生成するアルゴリズムが採用されていた。このようなアルゴリズムは、いくつかの視点から特徴点までの距離を三角測量の技術をベースに３次元空間上の点群として再構成する、いわば、線形な補完を行うアルゴリズムであった。そのため、特許文献１等に記載の従来の技術においては、画像と画像の間のアングルの再現性が極めて低いという課題があった。

　これに対して、近年、機械学習の技術の発展に伴い、ニューラルネットワークを用いたＮｅＲＦ（Ｎｅｕｒａｌ　Ｒａｄｉａｎｃｅ　Ｆｉｅｌｄｓ）やそれを発展させた手法（アルゴリズム）が提唱されている。
　ＮｅＲＦは、ニューラルネットワークにより複数の視点間について非線形な補完を行うことができるアルゴリズムである。
　より具体的にはＮｅＲＦにおいては、まず初めに荒い格子を生成して学習処理を実行し、その結果から密な格子を生成するよう学習することで、学習結果として最終的な３次元モデルを出力することができる。

　さらに、非特許文献１に記載されているｉｎｓｔａｎｔ－ｎｇｐと呼ばれる手法（アルゴリズム）においては、学習処理の際に学習データがハッシュ関数を使用したエンコーディングされることにより、例えば従来のＮｅＲＦにおいて学習処理に３日程度の時間が必要であった処理を、数秒の学習処理で完了することができる。

　本発明は、このような先行技術を前提として、３次元モデルを生成するための学習処理の高速化を実現するものである。

　図１の例を、本サービスの３次元モデルの生成の流れの概要について説明する。
　図１には、本サービスで３次元モデルの生成の対象となる対象物Ｔが３次元空間中に図示されている。

　本サービスでは、対象物Ｔの３次元モデルを生成するため、Ｎの視点（Ｎは２以上の整数値）からライダにより測定された結果得られた深度データ、及び、Ｍの視点（ＭはＮ以下の整数値）からカメラにより撮像された撮像画像の画像データを用いて対象物Ｔの３次元モデルを生成する。

　なお、以下、図１の説明において、説明の簡単のため、深度データと画像データは別の時点に取得されたものであってもよいが、ある視点において同時に取得された深度データと画像データの組を用いるものとして説明する。
　また、図１の説明において、Ｎ＝Ｍ＝２であるものとし、２つの視点Ｐ１及びＰ２を用いて説明する。また、地点の夫々を区別する必要がない場合、複数の地点をまとめて地点Ｐと呼ぶ。

　なお、同一の視点からの深度データと画像データを取得する場合、以下のような手法をとることができる。即ち例えば、第１手法として、図１の視点Ｐ１にカメラＣ１を設置し、カメラＣ１から画像データを取得した後に、視点Ｐ１にライダＤ１を設置し、ライダＤ１から深度データを取得する。これにより、２つの同一の視点からの深度データと画像データの組が、取得される。

　図２は、図１に示す本サービスにおいて、深度データと画像データを取得するためのカメラ及びライダの配置方法の一例を示す図である。
　また例えば、第２手法として、図２に示すように、カメラＣ１とライダＤ１とは所定の治具によりあらかじめ相互に固定されており、視点Ｐ１にカメラＣ１が配置された状態とする。次に、カメラＣ１から画像データを取得すると同時に、ライダＤ１から深度データを取得する。そして、所定の治具によるカメラＣ１とライダＤ１との相対位置や測定の方向（視線）がキャリブレーションされることにより、同一の視点からの深度データと画像データが取得される。
　ここで、キャリブレーションの結果、画像データ及び深度データはいずれも同一の視点に紐づけられることから、画像データ及び深度データは互いに同期されているといえる。
　なお、以下、本サービスでは、この第２手法が採用されているものとして説明する。

　まず、対象物Ｔの軸Ｘ正方向の視点Ｐ１からカメラＣ１を用いて対象物Ｔが撮像された結果得られる撮像画像Ｇ１が撮像される。このとき、同時に、ライダＤ１を用いて視点Ｐ１と同期された視点からの深度データが取得される。上述したように、深度データは適宜キャリブレーションされる。
　撮像画像Ｇ１には、視点Ｐ１から見た対象物Ｔの形状と色の情報が含まれている。

　次に、対象物Ｔの軸Ｙ正方向の視点Ｐ２からカメラＣ２を用いて対象物Ｔが撮像された結果得られる撮像画像Ｇ２が撮像される。このとき、同時に、ライダＤ２を用いて視点Ｐ２と同期された視点からの深度データが取得される。上述したように、深度データは適宜キャリブレーションされる。
　撮像画像Ｇ２には、視点Ｐ２から見た対象物Ｔの形状と色の情報が含まれている。

　なお、図１の説明において、視点Ｐ１及びＰ２の夫々において、カメラＣ１及びＣ２、ライダＤ１及びＤ２をそれぞれ用いるものとして説明したが、視点Ｐ１からカメラＣ１及びライダＤ１を視点Ｐ２に移動してカメラＣ２及びライダＤ２として使用することで、画像データと深度データを順次取得してもよい。
　このように、複数地点のカメラ及びライダを区別する必要がない場合それぞれまとめて「カメラＣ」及び「ライダＤ」と夫々呼ぶ。また、このような場合、カメラＣにより撮像された画像を「撮像画像Ｇ」と呼ぶ。

　例えば、特許文献１等に記載の従来の手法では、撮像画像Ｇ１及びＧ２といった複数の撮像画像の画像データのみを用いて３次元モデルを生成するため、画像の影になっている部分等の補完が困難であった。また、非特許文献１等に記載の手法であっても、より高精細な３次元モデルを生成する際には、ある程度の計算時間及び大量の計算資源のいずれかが必要であった。

　詳しくは後述するが、本サービスでは、上述したように複数の視点ＰのカメラＣにより取得された撮像画像Ｇの画像データと、ライダＤにより取得された深度データを用いて、対象物Ｔの３次元モデルを生成する。これにより、本サービスでは３次元モデルの生成をより高速に実行することができる。

　図１を見ると、視点Ｐ１から撮像画像Ｇ１の所定画素ＰＸ１を通過する矢印が二点鎖線で図示されている。そして、この二点鎖線で示される矢印上の点には、白抜きの丸と黒塗りの丸とが図示されている。

　白抜きの丸で示された矢印上の点は、その点が視点Ｐ１から見たときに対象物Ｔに接する前であることを示している。
　黒塗りの丸で示された矢印上の点は、その点が視点Ｐ１から見たときに対象物Ｔに接した後であることを示している。

　即ち、例えば、視点Ｐ１から二点鎖線で示された矢印にそって進行するものとして考えると、視点Ｐ１から白抜きの丸で示された矢印上の点を通過する間は、対象物Ｔが存在しないため何にも衝突しない。そして、白抜きの丸で示された矢印上の点と、黒塗りの丸で示された矢印上の点の間において、対象物Ｔと衝突する。この対象物Ｔと衝突した点の色が、撮像画像Ｇ１の所定の画素ＰＸ１の色として記録されるのである。さらに言えば、対象物Ｔが不透明であれば、最初の黒塗りの丸の点以降の点は、撮像画像Ｇ１に撮像されない。
　このように、撮像画像Ｇ１の所定の画素ＰＸ１の色は、視点Ｐ１から所定画素ＰＸ１を通過する矢印上において、対象物Ｔに衝突した位置に点の対象物Ｔの色である。

　上述したように、本サービスでは、視点Ｐ１からの深度データを同時に測定する。これにより、深度データから、上述の白抜きの丸の点と黒塗りの丸の点との間の距離が、深度データとして取得される。本サービスでは、３次元モデルの生成において考慮する領域を限定することにより、３次元モデルの生成の速度を向上させるのである。

　以上、図１及び図２を用いて、本サービスの概要について説明した。以下、図３乃至図５を用いて、本サービスが適用されるモデル生成装置について説明する。

　図３は、図１を用いて説明した本サービスに適用されるモデル生成装置、即ち本発明の情報処理装置の一実施形態のモデル生成装置のハードウェア構成の一例を示すブロック図である。
　モデル生成装置１は、ＣＰＵ１１と、ＧＰＵ１２と、ＲＯＭ１３と、ＲＡＭ１４と、バス１５と、入出力インターフェース１６と、出力部１７と、入力部１８と、記憶部１９と、通信部２０と、ドライブ２１と、を備えている。

　ＣＰＵ１１及びＧＰＵ１２は、ＲＯＭ１３に記録されているプログラム、又は、記憶部１９からＲＡＭ１４にロードされたプログラムに従って各種の処理を実行する。
　ＧＰＵ１２は、ソフトウェア処理を実行するコンピュートユニットと、ハードウェア処理を実行するＲＴコアを有する。ＲＴコアは、対象物を含む所定の３次元空間に対してレイトレーシングをハードウェアにて実行する。
　ＲＡＭ１４には、ＣＰＵ１１及びＧＰＵ１２が各種の処理を実行する上において必要なデータ等も適宜記憶される。

　ＣＰＵ１１、ＧＰＵ１２、ＲＯＭ１３及びＲＡＭ１４は、バス１５を介して相互に接続されている。このバス１５にはまた、入出力インターフェース１６も接続されている。入出力インターフェース１６には、出力部１７、入力部１８、記憶部１９、通信部２０及びドライブ２１が接続されている。

　出力部１７は、ディスプレイやスピーカ等で構成され、各種情報を画像や音声として出力する。
　入力部１８は、キーボードやマウス等で構成され、各種情報を入力する。

　記憶部１９は、ハードディスクやＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等で構成され、各種データを記憶する。
　通信部２０は、インターネットを含むネットワークを介して他の装置との間で通信を行う。

　ドライブ２１には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２１によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１９にインストールされる。
　また、リムーバブルメディア３１は、記憶部１９に記憶されている各種データも、記憶部１９と同様に記憶することができる。

　次に、図４を参照して、図３に示すハードウェア構成を有するモデル生成装置１の機能的構成について説明する。
　図４は、図３のモデル生成装置の機能的構成の一例を示す機能ブロック図である。

　図４に示すように、モデル生成装置１のＣＰＵ１１は、実深度データ取得部５１と、深度データ推定部５２と、表面ラベリング部５３と、画像データ取得部５４と、３次元モデル生成部５５と、表示制御部５６とが機能する。
　記憶部１９の一領域には、深度モデル８０と、ラベリングデータ８１と、３次元モデル８２とが記憶される。

　深度データ取得部は、Ｎの所定視点から対象物Ｔまでの深度データを取得する。深度データには、所定視点から対象物Ｔの特徴点までの深度の情報が含まれる。

　以下、図４を用いて、深度データ取得部の機能的構成の一例を説明する。
　深度データ取得部は、実深度データ取得部５１及び深度データ推定部５２を有する。
　実深度データ取得部５１は、実世界においてＭの視点の夫々から測定された結果得られるＭの実深度データを取得する。即ち、実深度データ取得部５１は、実世界においてＭの視点の夫々からライダＤを用いて測定された結果得られるＭの実深度データを取得する。
　深度データ推定部５２は、実深度データ取得部５１により取得されたＭの実深度データに基づいてＮの深度データを推定し、推定したＮの深度データを取得する。
　具体的には例えば、深度データ推定部５２は、ニューラルネットワークを用いたアルゴリズムで実深度データ取得部５１により取得されたＭの実深度データに基づいて学習処理を行うことにより、対象物Ｔの３次元の深度モデル８０を生成又は更新する。
　対象物Ｔの３次元の深度モデル８０とは、所定の視点からの深度データを推論可能なモデルである。深度モデル８０は、記憶部１９の一領域に記憶されて管理される。

　表面ラベリング部５３は、深度データ取得部により取得されたＮの深度データに基づいて、対象物Ｔの表面をラベリングした結果を示すラベリングデータ８１を生成する。
　ラベリングとは、３次元空間上に有する対象物Ｔの表面の位置を、３次元モデルを生成する３次元の仮想空間上の位置に記録することをいう。ラベリングの例については、図★を用いて後述する。
　ラベリングデータ８１は、記憶部１９の一領域に記憶されて管理される。

　画像データ取得部５４は、Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点Ｐから対象物Ｔが撮像された結果得られるＭの撮像画像Ｇの画像データを取得する。

　３次元モデル生成部５５は、画像データ取得部５４により取得されたＭの画像データ及びラベリングデータ８１に基づいて、対象物Ｔについての３次元モデル８２を生成する。３次元モデル８２は、記憶部１９の一領域に記憶されて管理される。
　３次元モデル生成部５５は、ブロックスキップ判定部５５１と、色学習部５５２とを有している。

　ブロックスキップ判定部５５１は、３次元モデルの生成のための学習データ生成するにあたり、ラベリングデータ８１に基づいて、視点Ｐから撮像画像Ｇの所定画素に対応する視線（図１の二点鎖線で示された矢印）が通過するブロックについて、対象物Ｔの表面が存在するか否かを判定する。
　ブロックスキップ判定部５５１によりそのブロックに対象物Ｔの表面が存在しないと判断された場合、そのブロックは、撮像画像Ｇのその所定画素の色に寄与していないものする。
　逆に、ブロックスキップ判定部５５１によりそのブロックに対象物Ｔの表面が存在すると判断された場合、そのブロックは、撮像画像Ｇのその所定画素の色に寄与している可能性があるものとする。
　そして、ブロックスキップ判定部５５１の判定により、その所定画素の色に寄与していると判断されたブロックについての学習用データが生成される。
　なお、ブロックスキップ判定部５５１がスキップするブロックの例については、図５を用いて後述する。

　色学習部５５２は、ブロックスキップ判定部５５１の判定結果に基づいて生成された学習データを用いて、３次元モデル８２に色を付与する学習を実行することで、３次元モデル８２を生成また更新する。
　具体的には、色学習部５５２において用いられる学習データは、上述したように、撮像画像Ｇの所定画素の色に寄与しないブロックについて、学習処理が（実質的に）実行されないデータとなっている。これにより、色学習部５５２における学習処理の時間が短縮される。

　このように、３次元モデリングにおいて、深度データを使用することで、対象物Ｔの存在しない空間（ブロック単位の空間）における学習を省略し、高速なモデリングが実現されるのである。
　また、モデリングにおいてブロックと比較して高精細な格子（ボクセル）を生成する際に、物体の表面がラベリングされた、即ち対象物Ｔが存在する空間（ブロック単位の空間）のボクセルを密にする。これにより、高精度なモデリングを実現するとともに、高速なモデリングを実現することができる。

　表示制御部５６は、深度モデル８０に基づいて、対象物Ｔの近傍を対象として描画処理を実行させることで、対象物Ｔについての３次元モデル８２をユーザ端末２に表示する制御を実行する。
　これにより、３次元モデル８２の描画において、３次元モデル８２を各方向から閲覧する際に３次元モデル８２の色に影響しない領域の描画を省略することにより、画像の生成や表示が高速になる。

　また、表示制御部５６は、対象物Ｔについての３次元モデル８２において生成されたネットワーク表現のまま描画された画像を表示する制御を実行することができる。
　ここで、ネットワーク表現の対象物Ｔについての３次元モデル８２とは、ニューラルネットワークにより作成される関数の表現形態をいう。ニューラルネットワークにより作成される関数の表現形態は、例えば、陰関数表現とも呼ばれる。３次元モデル８２は、ボクセルやメッシュ、ポリゴンなどを使用する形式に変換するとデータサイズが巨大になる。しかしながら、陰関数表現の表現形態の３次元モデル８２は、データサイズが小さい。このため、ネットワーク表現（陰関数表現）を採用することは、３次元モデル８２のデータの授受の際（例えば、インターネット経由のダウンロードの際）に、転送速度が高速となるといったメリットが存在する。
　即ち、表示制御部５６は、対象物Ｔの３次元モデル８２をレンダリングしなおすことなく、ネットワーク表現のまま表示する制御を実行することができる。

　以上、図３乃至図５を用いて本サービスが適用されるモデル生成装置について説明した。
　次に、本サービスにおける３次元モデル生成の高速化のための処理についてより具体的に説明する。
　図５は、図４の機能的構成を有するモデル生成装置における、３次元モデル生成のためのブロックの一例を示す図である。

　まず、図５を用いて、ブロックとボクセルの概念について説明する。
　図５に示す荒い格子は、図１の対象物Ｔが配置された仮想的な３次元空間を格子状に区分したブロックの境界を示している。また、図５に示す細かい格子は、ブロックと比較してより細かい格子で区分した境界を示している。

　図５に示すスライスＳＬｋが、ある軸Ｚの座標におけるブロックＬＢやボクセルＶＣの配列である。換言すれば、スライスＳＬｋを所定の第１単位で区分された結果得られる各領域がボクセルＶＣである。
　例えば、このボクセルＶＣが最終的に生成される３次元モデル８２の解像度に対応づいたものであるとすると、ボクセルＶＣを単位として３次元モデルの生成処理を実行すると処理は非効率となる。
　そこで、スライスＳＬｋが、第１単位より大きい第２単位で区分された結果得られる各領域、換言すると、ｎ個のボクセル群で構成される領域が、ブロックＢＬ１乃至ＢＬ７及びＢＬＫとして導入される。図５の例において、ｎは、軸Ｘの方向に４つ、軸Ｙの方向に４つ、軸Ｚの方向に１つの総計８である。なお、以下、軸Ｚの方向は１つという点で、ｘ×ｙとして、表記する。即ち、ｎ＝４×４のボクセルＶＣから１つのブロックＢＬ１乃至ＢＬ７が夫々構成されている。
　以下、複数のボクセルを個々に区別する必要が無い場合、「ボクセルＶＣ」と呼ぶ。同様に、個々のブロックＢＬ１乃至ＢＬ７等を個々に区別する必要が無い場合、「ブロックＢＬ」と呼ぶ。

　図５に示す太線で示されたブロックＢＬの領域は、対象物Ｔの２つの部分Ｔ１及び部分Ｔ２の夫々のオブジェクトを含み得る領域である。
　即ち、スライスＳＬｋにおいて、対象物Ｔの表面を含み得るブロックＢＬと、空の空間のブロックＢＬＫとが区別される。前者のブロックＢＬは撮像画像Ｇの所定画素の画素値（色）に反映される一方、後者のブロックＢＬＫは反映されない。そこで、以下、前者のブロックＢＬを「処理ブロックＢＬ」と呼び、後者のブロックＢＬＫを「非処理ブロックＢＬＫ」と呼ぶ。

　図５においては、本発明の理解を容易なものとすべく、「処理ブロックＢＬ」が太線で図示され、「非処理ブロックＢＬＫ」が破線で図示されている。なお、図３乃至図５においては、「処理ブロックＢＬ」のみが図示されている。
　具体的には例えば、図２の例では、スライスＳＬｋには、対象物Ｔの２つの部分Ｔ１及び部分Ｔ２の夫々を含み得る領域が存在する。対象物Ｔの部分Ｔ１を含み得る領域として、４つの処理ブロックＢＬ１乃至ＢＬ４が図示されている。また、対象物Ｔの部分Ｔ２を含み得る領域として、３つの処理ブロックＢＬ５乃至ＢＬ７が図示されている。

　図４の説明の表面ラベリング部５３は、このように、対象物Ｔの部分Ｔ１及び部分Ｔ２の表面を含みえるブロックＢＬを判定することで、ラベリングする。太い枠で囲まれたブロックは、対象物Ｔの表面が存在するとラベリングされたブロックである旨を示している。

　そして、３次元モデル生成部５５は、処理ブロックＢＬについての色情報を学習（モデリング）し、非処理ブロックＢＬＫについての色情報については学習処理が実行されないように、学習用（モデリング）データとして生成して、３次元モデル８２の生成また更新を実行する。これにより、３次元モデル８２の生成又は更新の処理が高速化されるのである。
　即ち例えば、対象物Ｔの部分Ｔ１の軸Ｙ正方向から撮像された撮像画像Ｇ（例えば、図１の撮像画像Ｇ２）において、非処理ブロックＢＬＫ１乃至ＢＬＫ３の学習は行われない学習用データが生成されるのである。

　以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。

　例えば、上述の実施形態では、深度データを取得する視点Ｐの数Ｎと、画像データを取得する視点Ｐの数Ｍとは、同一であるものとして説明したが特にこれに限定されない。即ち、深度データを取得する視点Ｐの数Ｎと、画像データを取得する視点Ｐの数Ｍとは、異なっていてもよい。
　この場合、例えば、まず、Ｎの深度データから深度モデル８０が生成され、深度モデル８０を用いて、Ｎの視点Ｐとは異なるＭの視点Ｐにおける深度データを深度モデル８０から演算することで実現することができる。

　また、例えば、深度データはライダＤ等のセンサにより直接観測されたものであっても、その他のデータから推定されたものであってもよい。
　即ち例えば、深度データ取得部は、実深度データを取得したり、深度モデル８０を生成又は更新の上、画像データに対応するＭの視点Ｐにおける深度データとするのではなく、あらかじめ用意された深度モデル８０から画像データに対応するＭの視点Ｐにける深度データを取得してもよい。

　また例えば、上述の実施形態において、カメラＣ１とライダＤ１とは所定の治具によりあらかじめ相互に固定されており、所定の治具によるカメラＣ１とライダＤ１との相対位置や測定の方向（視線）がキャリブレーションされることにより、同一の視点からの深度データと画像データが取得されるものとしたが、特にこれに限定されない。即ち、キャリブレーションの手法は各種各様なものを採用してもよい。具体的には例えば、カメラＣにおいて撮影した視点Ｐの位置情報を、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）等の技術を用いて取得及び記録した後、その位置情報を用いて同じ視点からライダＤで深度データを取得してもよい。なお、カメラＣとライダＤでのデータ取得の順番はいずれが先であってもよいのは言うまでもない。

　また例えば、Ｓｔｒｕｃｔｕｒｅ　ｆｒｏｍ　ｍｏｔｉｏｎなどの画像データから深度を推定する手法を用いて、深度モデル８０を生成してもよい。

　また、図４に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能やデータベースが情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図７の例に限定されない。
　また、機能ブロック及びデータベースの存在場所も、図４に限定されず、任意でよい。

　また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
　また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

　一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
　コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
　また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。

　このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。

　なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
　また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

　以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
　即ち、本発明が適用される情報処理装置（例えば、図４のモデル生成装置１）は、
　所定視点（例えば、図１の視点Ｐ１，Ｐ２）から対象物の特徴点までの深度を示す深度データ（例えば、図４のライダＤ１，Ｄ２により測定された深度データ）について、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段（例えば、図４の深度データ取得部）と、
　前記Ｎの深度データに基づいて、前記対象物の表面をラベリングした結果を示すラベリングデータ（例えば、図５のラベリングされたブロックＢＬ）を生成する物体表面ラベリング手段（例えば、図４の表面ラベリング部５３）と、
　前記Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点（例えば、図１の視点Ｐ１，Ｐ２）から前記対象物が撮像された結果得られるＭの画像データ（例えば、図１の画像データＧ１，Ｇ２）を取得する画像データ取得手段（例えば、図４の画像データ取得部５４）と、
　前記Ｍの画像データ及び前記ラベリングデータに基づいて、前記対象物についての３次元モデルを生成するモデル生成手段（例えば、図４の３次元モデル生成部５５）と、
　を備えれば足りる。
　これにより、対象物Ｔの存在しない空間におけるモデリング（色等についての学習処理）を省略し、高速なモデリングが実現される。
　さらに言えば、モデリングにおいてブロックと比較して高精細な格子（例えば図５のボクセル）を生成する際に、物体の表面がラベリングされた空間（即ち対象物Ｔが存在するブロック単位の空間）のボクセルを密にする手法が採用できるようになる。これにより、高精度なモデリングを実現するとともに、高速なモデリングを実現することができる。

　また、前記深度データ取得手段は、
　　実世界においてＭの視点の夫々から測定された結果得られるＭの実深度データを取得する実深度データ取得手段（例えば、図４の実深度データ取得部５１）と、
　　前記Ｍの実深度データに基づいてＮの深度データを推定し、推定した前記Ｎの深度データを取得する深度データ推定手段（例えば、図４の深度データ推定部５２）と、を有することができる。

　また、前記深度データ取得手段は、
　　前記Ｎの視点のうち前記Ｍの視点の夫々と同期された前記深度データは、前記Ｍの画像データと同じ視点を持つようにキャリブレーションされた深度データを取得する、ことができる。

　また、前記深度データに基づいて、前記対象物の近傍のみを描画して前記対象物についての前記３次元モデルを表示する制御を実行する表示制御手段（例えば、図４の表示制御部５６）、
　をさらに備えることができる。
　これにより、レンダリング処理において、対象物の存在しない領域のレンダリングを省略することで、計算負荷を低減し３次元モデルを高速に描画することができる。

　また、前記表示制御手段は、
　　前記対象物についての前記３次元モデルにおいて生成されたネットワーク表現のまま描画された画像を表示する制御を実行する、ことができる。
　これにより、３次元モデルがネットワーク表現のまま描画される。

　１・・・モデル生成装置、２・・・ユーザ端末、１１・・・ＣＰＵ、１９・・・記憶部、２１・・・ドライブ、３１・・・リムーバブルメディア、５１・・・実深度データ取得部、５２・・・深度データ推定部、５３・・・表面ラベリング部、５４・・・画像データ取得部、５５・・・３次元モデル生成部、５６・・・表示制御部、５５１・・・ブロックスキップ判定部、５５２・・・色学習部、８０・・・深度モデル、８１・・・ラベリングデータ、８２・・・３次元モデル

Claims

　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段と、
　前記Ｎの深度データに基づいて、前記対象物の表面をラベリングした結果を示すラベリングデータを生成する物体表面ラベリング手段と、
　前記Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点から前記対象物が撮像された結果得られるＭの画像データを取得する画像データ取得手段と、
　前記Ｍの画像データ及び前記ラベリングデータに基づいて、前記対象物についての３次元モデルを生成するモデル生成手段と、
　を備える情報処理装置。
　前記深度データ取得手段は、
　　実世界においてＭの視点の夫々から測定された結果得られるＭの実深度データを取得する実深度データ取得手段と、
　　前記Ｍの実深度データに基づいてＮの深度データを推定し、推定した前記Ｎの深度データを取得する深度データ推定手段と、
　を有する請求項１に記載の情報処理装置。
　前記深度データ取得手段は、
　　前記Ｎの視点のうち前記Ｍの視点の夫々と同期された前記深度データは、前記Ｍの画像データと同じ視点を持つようにキャリブレーションされた深度データを取得する、
　請求項１に記載の情報処理装置。
　前記深度データに基づいて、前記対象物の近傍のみを描画して前記対象物についての前記３次元モデルを表示する制御を実行する表示制御手段、
　をさらに備える請求項１に記載の情報処理装置。
　前記表示制御手段は、
　　前記対象物についての前記３次元モデルにおいて生成されたネットワーク表現のまま描画された画像を表示する制御を実行する、
　請求項４に記載の情報処理装置。
　情報処理装置が実行する情報処理方法であって、
　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得ステップと、
　前記Ｎの深度データに基づいて、前記対象物の表面をラベリングした結果を示すラベリングデータを生成する物体表面ラベリングステップと、
　前記Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点から前記対象物が撮像された結果得られるＭの画像データを取得する画像データ取得ステップと、
　前記Ｍの画像データ及び前記ラベリングデータに基づいて、前記対象物についての３次元モデルを生成するモデル生成ステップと、
　を含む情報処理方法。