JP7836005B2

JP7836005B2 - 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム

Info

Publication number: JP7836005B2
Application number: JP2024569919A
Authority: JP
Inventors: みずき田端; 陽祐竹内; 良牧野; 潤一郎玉松
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2026-03-26
Anticipated expiration: 2043-01-11
Also published as: JPWO2024150339A1; WO2024150339A1

Description

本開示は、学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムに関する。

従来、構造物の内部空間を撮影することによって得られたパノラマ画像から抽出された画像特徴量を入力して深層学習を行った推定モデル（レイアウト推定ネットワーク）に特徴量を出力させ、該特徴量を用いて構造物の内部空間を三次元再構成することが知られている（非特許文献１及び２）。

また、画像特徴量だけではなく形状特徴量をさらに入力することによって、様々な物体（非特許文献３の例では、車、自転車、飛行機、椅子等）を高精度に３次元再構成することが知られている（非特許文献３及び４）。

Sun, C., et al., "HorizonNet: Learning Room Layout With 1D Representation and Pano Stretch Data Augmentation", CVPR, 2019. Yang, ST., et al., "DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama", CVPR, 2019. Yang, X., et al. Pose from Shape: Deep Pose Estimation for Arbitrary 3D Objects, BMVC, 2019. Li, Y., et al. DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection, CVPR, 2022.

しかしながら、上述した推定モデルは、パノラマ画像から抽出された画像特徴量を入力することによって構造物の内部空間のレイアウトを三次元再構成するため、内部空間のレイアウトに関する情報を最初から入力して三次元再構成することはレイアウト推定モデルの性質上できなかった。このため、上述した推定モデルは、画像特徴量と形状特徴量とを入力する場合に比べて、高い精度で、構造物の内部空間を三次元再構成することが困難であった。

かかる事情に鑑みてなされた本開示の目的は、高い精度で、構造物の内部空間を三次元再構成することができる学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムを提供することである。

本開示に係る学習装置は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力する教師モデル推定部と、前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力する生徒モデル推定部と、前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する生徒モデル学習部と、を備える。

本開示に係る三次元再構成装置は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、前記パノラマ画像の入力を受け付ける画像入力部と、上述した学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部と、前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算する三次元座標計算部と、前記三次元座標に基づいて前記内部空間を三次元再構成する後処理部と、を備える。

また、本開示に係る学習方法は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力するステップと、前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力するステップと、前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習するステップと、を含む。

また、本開示に係る三次元再構成方法は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、前記パノラマ画像の入力を受け付けるステップと、上述した学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させるステップと、前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算するステップと、前記三次元座標に基づいて前記内部空間を三次元再構成するステップと、を含む。

また、本開示に係るプログラムは、コンピュータを、上述した学習装置として動作させる。

また、本開示に係るプログラムは、コンピュータを、上述した三次元再構成装置として動作させる。

本開示によれば、学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムは、高い精度で、構造物の内部空間を三次元再構成することができる。

本開示の一実施形態に係る学習装置の構成の一例を示す図である。パノラマ画像の一例を示す図である。特徴量ベクトルの一例を示す図である。本開示の一実施形態に係る三次元再構成装置の構成の一例を示す図である。図３に示す三次元再構成装置によって構成される、構造物の三次元の像を示す図である。図１に示す学習装置の動作の一例を示すフローチャートである。図３に示す三次元再構成装置の動作の一例を示すフローチャートである。学習装置のハードウェアブロック図である。

以下、本実施形態について適宜図面を参照しながら説明する。各図面中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。以下に説明する実施形態は本開示の構成の例であり、本発明は、以下の実施形態に制限されるものではない。

＜学習装置の構成＞
学習装置１００は、構造物の内部空間を撮影したパノラマ画像から内部空間を三次元再構成するための推定モデルを学習する。図１に示すように学習装置１００は、教師モデル用画像入力部１１と、形状情報入力部１２と、教師モデル推定部１３と、生徒モデル用画像入力部１４と、生徒モデル推定部１５と、生徒モデル学習部１６とを備える。学習装置１００は、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属するサーバなどのコンピュータである。

教師モデル用画像入力部１１、形状情報入力部１２、及び生徒モデル用画像入力部１４は、入力インターフェースによって構成される。入力用インターフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力インターフェースは、通信インターフェースを含んでもよい。通信インターフェースには、例えば、イーサネット（登録商標）、ＦＤＤＩ（Fiber Distributed Data Interface）、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられてもよい。教師モデル推定部１３、生徒モデル推定部１５、及び生徒モデル学習部１６は、コントローラによって構成される。コントローラは、ＡＳＩＣ(Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。

教師モデル用画像入力部１１は、構造物の内部空間を撮影したパノラマ画像Ｄ１の入力を受け付ける。

図２Ａは、パノラマ画像の一例を示す図である。本実施形態では、学習装置１００の入力を、３×５１２×１０２４（チャンネル×高さ×幅）の次元を持つ１枚のパノラマ画像とする。図２Ａに示すように、パノラマ画像Ｄ１は、構造物の内部空間を、カメラ等により鉛直方向に沿った上下方向に－９０°から＋９０°までの角度で、また水平方向に沿った左右方向に０°から３６０°までの角度で撮影することで得られる画像である。そのため、パノラマ画像Ｄ１には、構造物の内部空間を画定する面（例えば、天井、壁面、床面）が示されている。

教師モデル用画像入力部１１は、任意の手法によってパノラマ画像Ｄ１の入力を受け付けてもよい。例えば、教師モデル用画像入力部１１は、カメラを備える外部装置から出力されたパノラマ画像Ｄ１の入力を受け付けてもよい。教師モデル用画像入力部１１は、メモリからパノラマ画像Ｄ１を読み出すことによって、パノラマ画像Ｄ１の入力を受け付けてもよい。

形状情報入力部１２は、構造物の内部空間の形状を示す形状情報Ｄ２の入力を受け付ける。例えば、形状情報Ｄ２は、構造物の内部の形状を表す図面であってもよい。図面は、平面図、側面図等を含んでもよい。

教師モデル推定部１３は、教師モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量と、形状情報Ｄ２から抽出された形状特徴量とが入力されると処理済み特徴量を出力する。教師モデルは、パノラマ画像Ｄ１と、内部空間の形状を示す形状情報Ｄ２とが入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像Ｄ１における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。

特徴量ベクトルは、内部空間を画定する面の隅角部の位置を示すベクトルである。内部空間を画定する面には、天井、壁面、及び床面が含まれる。隅角部は、壁面と壁面との境界、壁面と床面との境界、壁面と天井との境界であってよい。具体的には、特徴量ベクトルは、パノラマ画像の列ごとに、壁面と天井との境界の位置、壁面と床面との境界の位置、壁面と壁面との境界の位置を示すベクトルである。壁面と壁面との境界の位置は、壁面と壁面との境界の存在確率が所定値より高い位置であってもよい。また、特徴量ベクトルは、パノラマ画像の列ごとに、壁面と天井との境界の位置、壁面と床面との境界の位置、壁面と壁面との境界の存在確率を示すベクトルであってもよい。

教師モデルは、パノラマ画像Ｄ１と形状情報Ｄ２とを入力とし、特徴量ベクトルを出力するニューラルネットワークを作成し、該ニューラルネットワークを学習することによって得られる。また、教師モデルは、検証用データでの教師モデル損失Ｌ_Ｔが最小値をとるように学習されていてもよい。教師モデル損失Ｌ_Sは、損失関数を用いて算出された、追って詳細に説明する教師モデル用特徴量処理器１３３によって出力された処理済み特徴量の分布と、真値の分布との差分を示す値である。

教師モデル推定部１３は、教師モデル用画像特徴量抽出器１３１と、形状特徴量抽出器１３２と、教師モデル用特徴量処理器１３３と、教師モデル用特徴量復号器１３４と、を備える。

教師モデル用画像特徴量抽出器１３１は、教師モデル用画像入力部１１によって入力が受け付けられたパノラマ画像Ｄ１から画像特徴量を抽出する。画像特徴量は、パノラマ画像Ｄ１に示されている、構造物の内部におけるエッジ、コーナー等の像の特徴を示す量である。教師モデル用画像特徴量抽出器１３１は、任意の手法を用いて画像特徴量を抽出することができ、例えば、公知のHorizon Netを用いて画像特徴量を抽出してもよい。

形状特徴量抽出器１３２は、形状情報入力部１２によって入力が受け付けられた、構造物の内部空間の形状を示す形状情報Ｄ２から形状特徴量を抽出する。形状特徴量は、例えば、構造物の内部空間の形状を示す三次元座標とすることができる。形状特徴量抽出器１３２は、任意の手法を用いて形状特徴量を抽出することができる。

教師モデル用特徴量処理器１３３は、パノラマ画像Ｄ１から抽出された画像特徴量と、形状情報から抽出された形状特徴量とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力する。具体的には、教師モデル用特徴量処理器１３３は、教師モデル用画像特徴量抽出器１３１によって抽出された画像特徴量と、形状特徴量抽出器１３２によって抽出された形状特徴量とが入力されると、処理済み特徴量を出力する。

より具体的には、教師モデル用特徴量処理器１３３は、文献１から文献３に記載されている手法により画像特徴量及び形状特徴量を処理することによって処理済み特徴量をすることができる。
文献１：Yu, Z., et al. Multi-modal Factorized Bilinear Pooling with Co-attention Learning for Visual Question Answering, ICCV, 2017.
文献２：Yu, Z., et al. Deep Modular Co-Attention Networks for Visual Question Answering, CVPR, 2019.
文献３：Ben-younes, H., et al. MUTAN: Multimodal Tucker Fusion for Visual Question Answering, ICCV, 2017.

教師モデル用特徴量復号器１３４は、教師モデル用特徴量処理器１３３によって出力された処理済み特徴量を復号することにより、パノラマ画像Ｄ１における、構造物の内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する。教師モデル用特徴量復号器１３４は、例えばHorizon Netを用いて特徴量ベクトルを出力してもよい。

生徒モデル用画像入力部１４は、構造物の内部を撮影したパノラマ画像Ｄ１の入力を受け付ける。生徒モデル用画像入力部１４によって入力が受け付けられるパノラマ画像Ｄ１は、教師モデル用画像入力部１１によって入力が受け付けられたパノラマ画像Ｄ１と同じである。

生徒モデル推定部１５は、生徒モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量が入力されると処理済み特徴量を出力する。生徒モデルは、パノラマ画像Ｄ１が入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。生徒モデルは、パノラマ画像Ｄ１を入力とし、特徴量ベクトルを出力するニューラルネットワークを学習することによって得られる。生徒モデルは、検証用データでの生徒モデル損失Ｌ_Sが最小値をとるように学習されていてもよい。生徒モデル損失Ｌ_Sは、損失関数を用いて算出された、追って詳細に説明する生徒モデル用特徴量処理器１５２によって出力された処理済み特徴量の分布と、真値の分布との差分である。

生徒モデル推定部１５は、生徒モデル用画像特徴量抽出器１５１と、生徒モデル用特徴量処理器１５２と、生徒モデル用特徴量復号器１５３と、を備える。

生徒モデル用画像特徴量抽出器１５１は、生徒モデル用画像入力部１４によって入力が受け付けられたパノラマ画像Ｄ１から画像特徴量を抽出する。

生徒モデル用特徴量処理器１５２は、パノラマ画像Ｄ１から抽出された画像特徴量が生徒モデルに入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力する。具体的には、生徒モデル用特徴量処理器１５２は、生徒モデル用画像特徴量抽出器１５１によって抽出された画像特徴量が生徒モデルに入力されると処理済み特徴量を出力させる。具体的には、生徒モデル用特徴量処理器１５２は、例えば、生徒モデル用特徴量処理器１５２は、例えば、文献４に記載されているTransformerにより、生徒モデル用特徴量処理器１５２によって出力された画像特徴量を処理することによって、処理済み特徴量を出力することができる。
文献４：Ashish, V., et al. Attention Is All You Need, CL, 2017.

生徒モデル用特徴量復号器１５３は、生徒モデル用特徴量処理器１５２によって出力された処理済み特徴量を復号することにより、構造物の内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを推定する。生徒モデル用特徴量復号器１５３は、教師モデル用特徴量復号器１３４と同様に、例えばHorizon Netを用いて、処理済み特徴量に基づいて、パノラマ画像Ｄ１における、内部空間の隅角部の位置を示す特徴量ベクトルを出力してもよい。

生徒モデル学習部１６は、上述した生徒モデルを学習する。このとき、生徒モデル学習部１６は、教師モデル用特徴量処理器１３３によって教師モデルを用いて出力された処理済み特徴量の分布と、生徒モデル用特徴量処理器１５２によって生徒モデルを用いて出力された処理済み特徴量の分布とに基づいて、損失関数を設定する。具体的には、生徒モデル学習部１６は、教師モデルを用いて出力された処理済み特徴量の分布と、生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失Ｌ_featureを算出する。そして、生徒モデル学習部１６は、検証用データでの損失Ｌ_featureが最小値をとるように、生徒モデルを推定モデルとして学習する。

学習装置１００によって学習された推定モデルが出力する特徴量ベクトルのサイズは３×１×１０２４である。上述したように、特徴量ベクトルが壁面と壁面との境界の存在確率を示す構成において、特徴量ベクトルは、パノラマ画像の列ごとに、天井及び壁面の境界位置（ｙ_ｃ）と、床面及び壁面の境界位置（ｙ_ｆ）と、壁面同士の境界（すなわち、角（コーナー））の存在確率（ｙ_ｗ）を示す。ｙ_ｗを０又は１のラベルを持つ２値ベクトルとしてもよいが、１の数が疎になる（例えば、１０２４個中４個）ため、ｙ_ｗ（ｉ）＝ｃ^ｄｘとしてもよい。ここでｉはｉ番目の列、ｄｘはｉ番目の列から壁面同士の境界が存在する最も近い列までの距離、ｃは定数（例えば、ｃ＝０．９６）とする。

図２Ｂは、学習装置１００に図２Ａに示すパノラマ画像を入力した場合に出力される特徴量ベクトルの一例を示す図である。パノラマ画像と特徴量ベクトルとの対応関係を分かりやすくするために、パノラマ画像にｙ_ｃ及びｙ_ｆが示す位置を重ねて表示している。また、パノラマ画像の上側に、ｙ_ｗ（ｉ）を示している。図２Ｂではｙ_ｗ（ｉ）を見やすくするために、高さ方向に引き伸ばして表示している。

＜三次元再構成装置の構成＞
三次元再構成装置３００は、構造物の内部空間を撮影したパノラマ画像Ｄ１から内部空間を三次元再構成する。三次元再構成装置３００は、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属するサーバなどのコンピュータである。

図３に示すように、三次元再構成装置３００は、生徒モデル記憶部３１と、画像入力部３２と、推定部３３と、三次元座標計算部３４と、後処理部３５と、を備える。

生徒モデル記憶部３１は、メモリによって構成される。メモリは、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）等であってよい。画像入力部３２は、入力インターフェースによって構成される。推定部３３、及び後処理部３５は、コントローラによって構成される。コントローラは、ＡＳＩＣ(Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。

生徒モデル記憶部３１は、学習装置１００によって学習された生徒モデル（推定モデル）を記憶する。

画像入力部３２は、構造物の内部空間を撮影したパノラマ画像Ｄ１の入力を受け付ける。

推定部３３は、上述した学習装置１００によって学習された生徒モデルに、パノラマ画像Ｄ１を入力し、該パノラマ画像Ｄ１における、内部空間の隅角部の位置を示す特徴量ベクトルを出力させることによって、特徴量ベクトルを推定する。

三次元座標計算部３４は、推定部３３によって推定された特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する。

後処理部３５は、三次元座標計算部３４によって計算された三次元座標に基づいて、内部空間を三次元再構成する。具体的には、後処理部３５は、三次元座標に基づいて、図４に示すような三次元の像Ｄ３を生成する。また、後処理部３５は、三次元の像Ｄ３を表示装置等に出力する。

＜学習装置の動作＞
ここで、本実施形態に係る学習装置１００の動作について、図５を参照して説明する。図５は、本実施形態に係る学習装置１００の動作の一例を示すフローチャートである。図５を参照して説明する学習装置１００の動作は、本実施形態に係る、構造物の内部空間を撮影したパノラマ画像Ｄ１から内部空間を三次元再構成するための推定モデルを学習する学習装置１００が実行する方法の一例に相当する。

まず、ステップＳ１１からステップＳ１５において、教師モデル推定部１３が、教師モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量と、形状情報Ｄ２から抽出された形状特徴量とが入力されると処理済み特徴量を出力する。上述したように、パノラマ画像Ｄ１と、内部空間の形状を示す形状情報Ｄ２とが入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。

具体的には、ステップＳ１１において、教師モデル用画像入力部１１が、構造物の内部空間を撮影したパノラマ画像Ｄ１の入力を受け付ける。

ステップＳ１２において、教師モデル用画像特徴量抽出器１３１が、パノラマ画像Ｄ１から画像特徴量を抽出する。

ステップＳ１３において、形状情報入力部１２が、構造物の内部空間の形状を示す形状情報Ｄ２の入力を受け付ける。

ステップＳ１４において、形状特徴量抽出器１３２が、形状情報Ｄ２から形状特徴量を抽出する。

ステップＳ１５において、教師モデル推定部１３が、パノラマ画像Ｄ１から抽出された画像特徴量と、形状情報Ｄ２から抽出された形状特徴量とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力させる。具体的には、教師モデル用特徴量処理器１３３が、教師モデルに、ステップ１２で抽出された画像特徴量と、ステップＳ１４で抽出された形状特徴量とを入力して、処理済み特徴量を出力させる。

次に、ステップＳ１６からステップＳ１８において、生徒モデル推定部１５が、生徒モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量が入力されると処理済み特徴量を出力する。上述したように、パノラマ画像Ｄ１が入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像Ｄ１における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。

具体的には、ステップＳ１６において、生徒モデル用画像入力部１４が、構造物の内部を撮影したパノラマ画像Ｄ１の入力を受け付ける。

ステップＳ１７において、生徒モデル用画像特徴量抽出器１５１が、パノラマ画像Ｄ１から画像特徴量を抽出する。

ステップＳ１８において、生徒モデル推定部１５が、パノラマ画像Ｄ１から抽出された画像特徴量が入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力させる。具体的には、生徒モデル用特徴量処理器１５２が、生徒モデルに、ステップＳ１７で抽出された画像特徴量を入力して処理済み特徴量を出力させる。

続いて、ステップＳ１９及びステップＳ２０において、生徒モデル学習部１６が、生徒モデルを学習する。

具体的には、ステップＳ１９において、生徒モデル学習部１６が、ステップＳ１５で教師モデルを用いて出力された処理済み特徴量の分布と、ステップＳ１８で生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失Ｌ_featureを算出する。

ステップＳ２０において、生徒モデル学習部１６が、損失Ｌ_featureが検証用データで最小値をとるように生徒モデルを学習する。

なお、上述において、学習装置１００は、ステップＳ１１からステップＳ１５を実行した後、ステップＳ１６からステップＳ１８を実行したが、これに限られない。例えば、学習装置１００は、ステップＳ１６からステップＳ１８を実行した後、ステップＳ１１からステップＳ１５を実行してもよい。また、学習装置１００は、ステップＳ１１からステップＳ１５を実行するタイミングで、ステップＳ１６からステップＳ１８を実行してもよい。

また、学習装置１００は、ステップＳ１１及びステップＳ１２を実行した後、ステップＳ１３及びステップＳ１４を実行したが、これに限られない。例えば、学習装置１００は、ステップＳ１３及びステップＳ１４を実行した後、ステップＳ１１及びステップＳ１２を実行してもよい。また、学習装置１００は、ステップＳ１１及びステップＳ１２を実行するタイミングで、ステップＳ１３及びステップＳ１４を実行してもよい。

＜三次元再構成装置の動作＞
ここで、本実施形態に係る三次元再構成装置３００の動作について、図６を参照して説明する。図６は、本実施形態に係る三次元再構成装置３００の動作の一例を示すフローチャートである。図６を参照して説明する三次元再構成装置３００の動作は、本実施形態に係る、構造物の内部空間を撮影したパノラマ画像Ｄ１から内部空間を三次元再構成するための三次元再構成装置３００が実行する方法の一例に相当する。

ステップＳ３１において、画像入力部３２が、構造物の内部を撮影したパノラマ画像Ｄ１の入力を受け付ける。

ステップＳ３２において、推定部３３が、上述した学習装置１００によって学習された生徒モデルに、ステップ３１で入力が受け付けられたパノラマ画像Ｄ１を入力し、該パノラマ画像Ｄ１における内部空間の隅角部の位置を示す特徴量ベクトルを出力させることによって、特徴量ベクトルを推定する。

ステップＳ３３において、三次元座標計算部３４が、推定部３３によって推定された特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する。

ステップＳ３４において、後処理部３５が、ステップＳ３４で推定された三次元座標に基づいて、内部空間を三次元再構成する。

上述のように、本実施形態における学習装置１００は、構造物の内部空間を撮影したパノラマ画像Ｄ１から内部空間を三次元再構成するための推定モデルを学習する学習装置１００であって、パノラマ画像Ｄ１と、内部空間の形状を示す形状情報Ｄ２とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量と、形状情報Ｄ２から抽出された形状特徴量とが入力されると処理済み特徴量を出力する教師モデル推定部１３と、パノラマ画像Ｄ１が入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像Ｄ１における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、パノラマ画像Ｄ１から抽出された画像特徴量が入力されると処理済み特徴量を出力する生徒モデル推定部１５と、教師モデル推定部１３によって出力された処理済み特徴量の分布と、生徒モデル推定部１５によって出力された処理済み特徴量の分布との差分を示す損失Ｌ_featureを算出し、検証用データでの損失が最小値をとるように生徒モデルを推定モデルとして学習する生徒モデル学習部１６と、を備える。

これにより、学習装置１００によって学習された推定モデルを用いて、三次元再構成装置３００が、形状特徴量を用いることなく、特徴量ベクトルを、形状特徴量を用いた場合と同程度の高い精度で推定することができる。したがって、三次元再構成装置３００は、高い精度で構造物の内部空間の隅角部を構成する点の三次元座標を計算することができ、高い精度で内部空間を三次元再構成することができる。これに伴い、例えば、作業者が点検等により検出した、構造物の内部空間を画定する面の劣化を三次元の像Ｄ３に反映させることにより、劣化箇所を示す構造物のモデリング精度が向上する。また、構造物の内部空間に配置された家具、内部空間を画定する面に貼り付けられた壁紙等を三次元の像Ｄ３に反映させることにより、構造物のモデリング精度が向上する。また、三次元再構成装置３００は、形状特徴量を用いないため、高速に、三次元座標を推定することができる。

また、本実施形態における三次元再構成装置３００は、構造物の内部空間を撮影したパノラマ画像Ｄ１から内部空間を三次元再構成する三次元再構成装置３００であって、パノラマ画像Ｄ１の入力を受け付ける画像入力部３２と、上述した学習装置１００によって学習された推定モデルに、パノラマ画像Ｄ１を入力し、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部３３と、特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する三次元座標計算部３４と、三次元座標に基づいて内部空間を三次元再構成する後処理部３５と、を備える。これにより、三次元再構成装置３００が、形状特徴量を用いることなく、内部空間を画定する面の三次元座標を高い精度で計算することができる。したがって、三次元再構成装置３００が、三次元座標に基づいて高い精度で内部空間を三次元再構成することができる。これに伴い、例えば、作業者が点検等により検出した、構造物の内部空間を画定する面の劣化を三次元の像Ｄ３に反映させることにより、劣化箇所を示す構造物のモデリング精度が向上する。また、構造物の内部空間に配置された家具、内部空間を画定する面に貼り付けられた壁紙等を三次元の像Ｄ３に反映させることにより、構造物のモデリング精度が向上する。また、三次元再構成装置３００は、形状特徴量を用いないため、高速に、内部空間を三次元再構成することができる。

＜プログラム＞
上述した学習装置１００及び三次元再構成装置３００は、コンピュータによって実現することができる。また、学習装置１００及び三次元再構成装置３００としてそれぞれ機能させるためのプログラムが提供されてもよい。また、該プログラムは、記憶媒体に記憶されてもよいし、ネットワークを通して提供されてもよい。図７は、学習装置１００として機能するコンピュータ４０１の概略構成を示すブロック図である。三次元再構成装置３００として機能するコンピュータも同様である。ここで、コンピュータ４０１は、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal Computer）、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。

図７に示すように、コンピュータ４０１は、プロセッサ４１０と、ＲＯＭ（Read Only Memory）４２０と、ＲＡＭ（Random Access Memory）４３０と、ストレージ４４０と、入力部４５０と、出力部４６０と、通信インターフェース（Ｉ／Ｆ）４７０とを備える。各構成は、バス４８０を介して相互に通信可能に接続されている。プロセッサ４１０は、具体的にはＣＰＵ(Central Processing Unit)、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on a Chip）などであり、同種又は異種の複数のプロセッサにより構成されてもよい。

プロセッサ４１０は、各構成の制御、及び各種の演算処理を実行する。すなわち、プロセッサ４１０は、ＲＯＭ４２０又はストレージ４４０からプログラムを読み出し、ＲＡＭ４３０を作業領域としてプログラムを実行する。プロセッサ４１０は、ＲＯＭ４２０又はストレージ４４０に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。上述した実施形態では、ＲＯＭ４２０又はストレージ４４０に、本開示に係るプログラムが記憶されている。

プログラムは、コンピュータ４０１が読み取り可能な記憶媒体に記憶されていてもよい。このような記憶媒体を用いれば、プログラムをコンピュータ４０１にインストールすることが可能である。ここで、プログラムが記憶された記憶媒体は、非一時的（non-transitory）記憶媒体であってもよい。非一時的記憶媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢ（Universal Serial Bus）メモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

ＲＯＭ４２０は、各種プログラム及び各種データを記憶する。ＲＡＭ４３０は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ４４０は、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）により構成され、オペレーティングシステムを含む各種プログラム及び各種データを記憶する。

入力部４５０は、ユーザの入力操作を受け付けて、ユーザの操作に基づく情報を取得する１つ以上の入力インターフェースを含む。例えば、入力部４５０は、ポインティングデバイス、キーボード、マウスなどであるが、これらに限定されない。

出力部４６０は、情報を出力する１つ以上の出力インターフェースを含む。例えば、出力部４６０は、情報を映像で出力するディスプレイ、又は情報を音声で出力するスピーカであるが、これらに限定されない。なお、出力部４６０は、タッチパネル方式のディスプレイである場合には、入力部４５０としても機能する。

通信インターフェース４７０は、外部の装置と通信するためのインターフェースである。

以上の実施形態に関し、更に以下の付記を開示する。
［付記項１］
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、
コントローラを備え、前記コントローラは、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力し、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力し、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する、学習装置。
［付記項２］
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、
前記パノラマ画像の入力を受け付ける入力インターフェースと、コントローラとを備え、
前記コントローラは、
付記項１に記載の学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させ、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算し、
前記三次元座標に基づいて前記内部空間を三次元再構成する、三次元再構成装置。
［付記項３］
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力し、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力し、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する、学習方法。
［付記項４］
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、
前記パノラマ画像の入力を受け付け、
付記項３に記載の学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させ、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算し、
前記三次元座標に基づいて前記内部空間を三次元再構成する、三次元再構成方法。
［付記項５］
コンピュータを、付記項１に記載の学習装置として動作させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。
［付記項６］
コンピュータを、付記項２に記載の三次元再構成装置として動作させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。

本明細書に記載された全ての文献、特許出願および技術は、個々の文献、特許出願、および技術が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。

上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形又は変更が可能である。

１１教師モデル用画像入力部
１２形状情報入力部
１３教師モデル推定部
１４生徒モデル用画像入力部
１５生徒モデル推定部
１６生徒モデル学習部
３１生徒モデル記憶部
３２画像入力部
３３推定部
３４三次元座標計算部
３５後処理部
１００学習装置
１３１教師モデル用画像特徴量抽出器
１３２形状特徴量抽出器
１３３教師モデル用特徴量処理器
１３４教師モデル用特徴量復号器
１５１生徒モデル用画像特徴量抽出器
１５２生徒モデル用特徴量処理器
１５３生徒モデル用特徴量復号器
３００三次元再構成装置
４０１コンピュータ
４１０プロセッサ
４２０ＲＯＭ
４３０ＲＡＭ
４４０ストレージ
４５０入力部
４６０出力部
４７０通信インターフェース
４８０バス

Claims

構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力する教師モデル推定部と、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力する生徒モデル推定部と、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する生徒モデル学習部と、
を備える学習装置。
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、
前記パノラマ画像の入力を受け付ける画像入力部と、
請求項１に記載の学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部と、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算する三次元座標計算部と、
前記三次元座標に基づいて前記内部空間を三次元再構成する後処理部と、
を備える、三次元再構成装置。
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力するステップと、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力するステップと、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習するステップと、
を含む学習方法。
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、
前記パノラマ画像の入力を受け付けるステップと、
請求項３に記載の学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させるステップと、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算するステップと、
前記三次元座標に基づいて前記内部空間を三次元再構成するステップと、
を含む、三次元再構成方法。
コンピュータを、請求項１に記載の学習装置として動作させるためのプログラム。
コンピュータを、請求項２に記載の三次元再構成装置として動作させるためのプログラム。