JP7836005B2 - 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム - Google Patents

学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム

Info

Publication number
JP7836005B2
JP7836005B2 JP2024569919A JP2024569919A JP7836005B2 JP 7836005 B2 JP7836005 B2 JP 7836005B2 JP 2024569919 A JP2024569919 A JP 2024569919A JP 2024569919 A JP2024569919 A JP 2024569919A JP 7836005 B2 JP7836005 B2 JP 7836005B2
Authority
JP
Japan
Prior art keywords
panoramic image
model
image
processed
internal space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024569919A
Other languages
English (en)
Other versions
JPWO2024150339A1 (ja
Inventor
みずき 田端
陽祐 竹内
良 牧野
潤一郎 玉松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2024150339A1 publication Critical patent/JPWO2024150339A1/ja
Application granted granted Critical
Publication of JP7836005B2 publication Critical patent/JP7836005B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本開示は、学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムに関する。
従来、構造物の内部空間を撮影することによって得られたパノラマ画像から抽出された画像特徴量を入力して深層学習を行った推定モデル(レイアウト推定ネットワーク)に特徴量を出力させ、該特徴量を用いて構造物の内部空間を三次元再構成することが知られている(非特許文献1及び2)。
また、画像特徴量だけではなく形状特徴量をさらに入力することによって、様々な物体(非特許文献3の例では、車、自転車、飛行機、椅子等)を高精度に3次元再構成することが知られている(非特許文献3及び4)。
Sun, C., et al., "HorizonNet: Learning Room Layout With 1D Representation and Pano Stretch Data Augmentation", CVPR, 2019. Yang, ST., et al., "DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama", CVPR, 2019. Yang, X., et al. Pose from Shape: Deep Pose Estimation for Arbitrary 3D Objects, BMVC, 2019. Li, Y., et al. DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection, CVPR, 2022.
しかしながら、上述した推定モデルは、パノラマ画像から抽出された画像特徴量を入力することによって構造物の内部空間のレイアウトを三次元再構成するため、内部空間のレイアウトに関する情報を最初から入力して三次元再構成することはレイアウト推定モデルの性質上できなかった。このため、上述した推定モデルは、画像特徴量と形状特徴量とを入力する場合に比べて、高い精度で、構造物の内部空間を三次元再構成することが困難であった。
かかる事情に鑑みてなされた本開示の目的は、高い精度で、構造物の内部空間を三次元再構成することができる学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムを提供することである。
本開示に係る学習装置は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力する教師モデル推定部と、前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力する生徒モデル推定部と、前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する生徒モデル学習部と、を備える。
本開示に係る三次元再構成装置は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、前記パノラマ画像の入力を受け付ける画像入力部と、上述した学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部と、前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算する三次元座標計算部と、前記三次元座標に基づいて前記内部空間を三次元再構成する後処理部と、を備える。
また、本開示に係る学習方法は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力するステップと、前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力するステップと、前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習するステップと、を含む。
また、本開示に係る三次元再構成方法は、構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、前記パノラマ画像の入力を受け付けるステップと、上述した学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させるステップと、前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算するステップと、前記三次元座標に基づいて前記内部空間を三次元再構成するステップと、を含む。
また、本開示に係るプログラムは、コンピュータを、上述した学習装置として動作させる。
また、本開示に係るプログラムは、コンピュータを、上述した三次元再構成装置として動作させる。
本開示によれば、学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラムは、高い精度で、構造物の内部空間を三次元再構成することができる。
本開示の一実施形態に係る学習装置の構成の一例を示す図である。 パノラマ画像の一例を示す図である。 特徴量ベクトルの一例を示す図である。 本開示の一実施形態に係る三次元再構成装置の構成の一例を示す図である。 図3に示す三次元再構成装置によって構成される、構造物の三次元の像を示す図である。 図1に示す学習装置の動作の一例を示すフローチャートである。 図3に示す三次元再構成装置の動作の一例を示すフローチャートである。 学習装置のハードウェアブロック図である。
以下、本実施形態について適宜図面を参照しながら説明する。各図面中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。以下に説明する実施形態は本開示の構成の例であり、本発明は、以下の実施形態に制限されるものではない。
<学習装置の構成>
学習装置100は、構造物の内部空間を撮影したパノラマ画像から内部空間を三次元再構成するための推定モデルを学習する。図1に示すように学習装置100は、教師モデル用画像入力部11と、形状情報入力部12と、教師モデル推定部13と、生徒モデル用画像入力部14と、生徒モデル推定部15と、生徒モデル学習部16とを備える。学習装置100は、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属するサーバなどのコンピュータである。
教師モデル用画像入力部11、形状情報入力部12、及び生徒モデル用画像入力部14は、入力インターフェースによって構成される。入力用インターフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力インターフェースは、通信インターフェースを含んでもよい。通信インターフェースには、例えば、イーサネット(登録商標)、FDDI(Fiber Distributed Data Interface)、Wi-Fi(登録商標)等の規格が用いられてもよい。教師モデル推定部13、生徒モデル推定部15、及び生徒モデル学習部16は、コントローラによって構成される。コントローラは、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
教師モデル用画像入力部11は、構造物の内部空間を撮影したパノラマ画像D1の入力を受け付ける。
図2Aは、パノラマ画像の一例を示す図である。本実施形態では、学習装置100の入力を、3×512×1024(チャンネル×高さ×幅)の次元を持つ1枚のパノラマ画像とする。図2Aに示すように、パノラマ画像D1は、構造物の内部空間を、カメラ等により鉛直方向に沿った上下方向に-90°から+90°までの角度で、また水平方向に沿った左右方向に0°から360°までの角度で撮影することで得られる画像である。そのため、パノラマ画像D1には、構造物の内部空間を画定する面(例えば、天井、壁面、床面)が示されている。
教師モデル用画像入力部11は、任意の手法によってパノラマ画像D1の入力を受け付けてもよい。例えば、教師モデル用画像入力部11は、カメラを備える外部装置から出力されたパノラマ画像D1の入力を受け付けてもよい。教師モデル用画像入力部11は、メモリからパノラマ画像D1を読み出すことによって、パノラマ画像D1の入力を受け付けてもよい。
形状情報入力部12は、構造物の内部空間の形状を示す形状情報D2の入力を受け付ける。例えば、形状情報D2は、構造物の内部の形状を表す図面であってもよい。図面は、平面図、側面図等を含んでもよい。
教師モデル推定部13は、教師モデルを用いて、パノラマ画像D1から抽出された画像特徴量と、形状情報D2から抽出された形状特徴量とが入力されると処理済み特徴量を出力する。教師モデルは、パノラマ画像D1と、内部空間の形状を示す形状情報D2とが入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像D1における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。
特徴量ベクトルは、内部空間を画定する面の隅角部の位置を示すベクトルである。内部空間を画定する面には、天井、壁面、及び床面が含まれる。隅角部は、壁面と壁面との境界、壁面と床面との境界、壁面と天井との境界であってよい。具体的には、特徴量ベクトルは、パノラマ画像の列ごとに、壁面と天井との境界の位置、壁面と床面との境界の位置、壁面と壁面との境界の位置を示すベクトルである。壁面と壁面との境界の位置は、壁面と壁面との境界の存在確率が所定値より高い位置であってもよい。また、特徴量ベクトルは、パノラマ画像の列ごとに、壁面と天井との境界の位置、壁面と床面との境界の位置、壁面と壁面との境界の存在確率を示すベクトルであってもよい。
教師モデルは、パノラマ画像D1と形状情報D2とを入力とし、特徴量ベクトルを出力するニューラルネットワークを作成し、該ニューラルネットワークを学習することによって得られる。また、教師モデルは、検証用データでの教師モデル損失Lが最小値をとるように学習されていてもよい。教師モデル損失LSは、損失関数を用いて算出された、追って詳細に説明する教師モデル用特徴量処理器133によって出力された処理済み特徴量の分布と、真値の分布との差分を示す値である。
教師モデル推定部13は、教師モデル用画像特徴量抽出器131と、形状特徴量抽出器132と、教師モデル用特徴量処理器133と、教師モデル用特徴量復号器134と、を備える。
教師モデル用画像特徴量抽出器131は、教師モデル用画像入力部11によって入力が受け付けられたパノラマ画像D1から画像特徴量を抽出する。画像特徴量は、パノラマ画像D1に示されている、構造物の内部におけるエッジ、コーナー等の像の特徴を示す量である。教師モデル用画像特徴量抽出器131は、任意の手法を用いて画像特徴量を抽出することができ、例えば、公知のHorizon Netを用いて画像特徴量を抽出してもよい。
形状特徴量抽出器132は、形状情報入力部12によって入力が受け付けられた、構造物の内部空間の形状を示す形状情報D2から形状特徴量を抽出する。形状特徴量は、例えば、構造物の内部空間の形状を示す三次元座標とすることができる。形状特徴量抽出器132は、任意の手法を用いて形状特徴量を抽出することができる。
教師モデル用特徴量処理器133は、パノラマ画像D1から抽出された画像特徴量と、形状情報から抽出された形状特徴量とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力する。具体的には、教師モデル用特徴量処理器133は、教師モデル用画像特徴量抽出器131によって抽出された画像特徴量と、形状特徴量抽出器132によって抽出された形状特徴量とが入力されると、処理済み特徴量を出力する。
より具体的には、教師モデル用特徴量処理器133は、文献1から文献3に記載されている手法により画像特徴量及び形状特徴量を処理することによって処理済み特徴量をすることができる。
文献1:Yu, Z., et al. Multi-modal Factorized Bilinear Pooling with Co-attention Learning for Visual Question Answering, ICCV, 2017.
文献2:Yu, Z., et al. Deep Modular Co-Attention Networks for Visual Question Answering, CVPR, 2019.
文献3:Ben-younes, H., et al. MUTAN: Multimodal Tucker Fusion for Visual Question Answering, ICCV, 2017.
教師モデル用特徴量復号器134は、教師モデル用特徴量処理器133によって出力された処理済み特徴量を復号することにより、パノラマ画像D1における、構造物の内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する。教師モデル用特徴量復号器134は、例えばHorizon Netを用いて特徴量ベクトルを出力してもよい。
生徒モデル用画像入力部14は、構造物の内部を撮影したパノラマ画像D1の入力を受け付ける。生徒モデル用画像入力部14によって入力が受け付けられるパノラマ画像D1は、教師モデル用画像入力部11によって入力が受け付けられたパノラマ画像D1と同じである。
生徒モデル推定部15は、生徒モデルを用いて、パノラマ画像D1から抽出された画像特徴量が入力されると処理済み特徴量を出力する。生徒モデルは、パノラマ画像D1が入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。生徒モデルは、パノラマ画像D1を入力とし、特徴量ベクトルを出力するニューラルネットワークを学習することによって得られる。生徒モデルは、検証用データでの生徒モデル損失LSが最小値をとるように学習されていてもよい。生徒モデル損失LSは、損失関数を用いて算出された、追って詳細に説明する生徒モデル用特徴量処理器152によって出力された処理済み特徴量の分布と、真値の分布との差分である。
生徒モデル推定部15は、生徒モデル用画像特徴量抽出器151と、生徒モデル用特徴量処理器152と、生徒モデル用特徴量復号器153と、を備える。
生徒モデル用画像特徴量抽出器151は、生徒モデル用画像入力部14によって入力が受け付けられたパノラマ画像D1から画像特徴量を抽出する。
生徒モデル用特徴量処理器152は、パノラマ画像D1から抽出された画像特徴量が生徒モデルに入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力する。具体的には、生徒モデル用特徴量処理器152は、生徒モデル用画像特徴量抽出器151によって抽出された画像特徴量が生徒モデルに入力されると処理済み特徴量を出力させる。具体的には、生徒モデル用特徴量処理器152は、例えば、生徒モデル用特徴量処理器152は、例えば、文献4に記載されているTransformerにより、生徒モデル用特徴量処理器152によって出力された画像特徴量を処理することによって、処理済み特徴量を出力することができる。
文献4:Ashish, V., et al. Attention Is All You Need, CL, 2017.
生徒モデル用特徴量復号器153は、生徒モデル用特徴量処理器152によって出力された処理済み特徴量を復号することにより、構造物の内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを推定する。生徒モデル用特徴量復号器153は、教師モデル用特徴量復号器134と同様に、例えばHorizon Netを用いて、処理済み特徴量に基づいて、パノラマ画像D1における、内部空間の隅角部の位置を示す特徴量ベクトルを出力してもよい。
生徒モデル学習部16は、上述した生徒モデルを学習する。このとき、生徒モデル学習部16は、教師モデル用特徴量処理器133によって教師モデルを用いて出力された処理済み特徴量の分布と、生徒モデル用特徴量処理器152によって生徒モデルを用いて出力された処理済み特徴量の分布とに基づいて、損失関数を設定する。具体的には、生徒モデル学習部16は、教師モデルを用いて出力された処理済み特徴量の分布と、生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失Lfeatureを算出する。そして、生徒モデル学習部16は、検証用データでの損失Lfeatureが最小値をとるように、生徒モデルを推定モデルとして学習する。
学習装置100によって学習された推定モデルが出力する特徴量ベクトルのサイズは3×1×1024である。上述したように、特徴量ベクトルが壁面と壁面との境界の存在確率を示す構成において、特徴量ベクトルは、パノラマ画像の列ごとに、天井及び壁面の境界位置(y)と、床面及び壁面の境界位置(y)と、壁面同士の境界(すなわち、角(コーナー))の存在確率(y)を示す。yを0又は1のラベルを持つ2値ベクトルとしてもよいが、1の数が疎になる(例えば、1024個中4個)ため、y(i)=cdxとしてもよい。ここでiはi番目の列、dxはi番目の列から壁面同士の境界が存在する最も近い列までの距離、cは定数(例えば、c=0.96)とする。
図2Bは、学習装置100に図2Aに示すパノラマ画像を入力した場合に出力される特徴量ベクトルの一例を示す図である。パノラマ画像と特徴量ベクトルとの対応関係を分かりやすくするために、パノラマ画像にy及びyが示す位置を重ねて表示している。また、パノラマ画像の上側に、y(i)を示している。図2Bではy(i)を見やすくするために、高さ方向に引き伸ばして表示している。
<三次元再構成装置の構成>
三次元再構成装置300は、構造物の内部空間を撮影したパノラマ画像D1から内部空間を三次元再構成する。三次元再構成装置300は、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属するサーバなどのコンピュータである。
図3に示すように、三次元再構成装置300は、生徒モデル記憶部31と、画像入力部32と、推定部33と、三次元座標計算部34と、後処理部35と、を備える。
生徒モデル記憶部31は、メモリによって構成される。メモリは、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read Only Memory)およびRAM(Random Access Memory)等であってよい。画像入力部32は、入力インターフェースによって構成される。推定部33、及び後処理部35は、コントローラによって構成される。コントローラは、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
生徒モデル記憶部31は、学習装置100によって学習された生徒モデル(推定モデル)を記憶する。
画像入力部32は、構造物の内部空間を撮影したパノラマ画像D1の入力を受け付ける。
推定部33は、上述した学習装置100によって学習された生徒モデルに、パノラマ画像D1を入力し、該パノラマ画像D1における、内部空間の隅角部の位置を示す特徴量ベクトルを出力させることによって、特徴量ベクトルを推定する。
三次元座標計算部34は、推定部33によって推定された特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する。
後処理部35は、三次元座標計算部34によって計算された三次元座標に基づいて、内部空間を三次元再構成する。具体的には、後処理部35は、三次元座標に基づいて、図4に示すような三次元の像D3を生成する。また、後処理部35は、三次元の像D3を表示装置等に出力する。
<学習装置の動作>
ここで、本実施形態に係る学習装置100の動作について、図5を参照して説明する。図5は、本実施形態に係る学習装置100の動作の一例を示すフローチャートである。図5を参照して説明する学習装置100の動作は、本実施形態に係る、構造物の内部空間を撮影したパノラマ画像D1から内部空間を三次元再構成するための推定モデルを学習する学習装置100が実行する方法の一例に相当する。
まず、ステップS11からステップS15において、教師モデル推定部13が、教師モデルを用いて、パノラマ画像D1から抽出された画像特徴量と、形状情報D2から抽出された形状特徴量とが入力されると処理済み特徴量を出力する。上述したように、パノラマ画像D1と、内部空間の形状を示す形状情報D2とが入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。
具体的には、ステップS11において、教師モデル用画像入力部11が、構造物の内部空間を撮影したパノラマ画像D1の入力を受け付ける。
ステップS12において、教師モデル用画像特徴量抽出器131が、パノラマ画像D1から画像特徴量を抽出する。
ステップS13において、形状情報入力部12が、構造物の内部空間の形状を示す形状情報D2の入力を受け付ける。
ステップS14において、形状特徴量抽出器132が、形状情報D2から形状特徴量を抽出する。
ステップS15において、教師モデル推定部13が、パノラマ画像D1から抽出された画像特徴量と、形状情報D2から抽出された形状特徴量とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力させる。具体的には、教師モデル用特徴量処理器133が、教師モデルに、ステップ12で抽出された画像特徴量と、ステップS14で抽出された形状特徴量とを入力して、処理済み特徴量を出力させる。
次に、ステップS16からステップS18において、生徒モデル推定部15が、生徒モデルを用いて、パノラマ画像D1から抽出された画像特徴量が入力されると処理済み特徴量を出力する。上述したように、パノラマ画像D1が入力されると、内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像D1における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力するモデルである。
具体的には、ステップS16において、生徒モデル用画像入力部14が、構造物の内部を撮影したパノラマ画像D1の入力を受け付ける。
ステップS17において、生徒モデル用画像特徴量抽出器151が、パノラマ画像D1から画像特徴量を抽出する。
ステップS18において、生徒モデル推定部15が、パノラマ画像D1から抽出された画像特徴量が入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力させる。具体的には、生徒モデル用特徴量処理器152が、生徒モデルに、ステップS17で抽出された画像特徴量を入力して処理済み特徴量を出力させる。
続いて、ステップS19及びステップS20において、生徒モデル学習部16が、生徒モデルを学習する。
具体的には、ステップS19において、生徒モデル学習部16が、ステップS15で教師モデルを用いて出力された処理済み特徴量の分布と、ステップS18で生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失Lfeatureを算出する。
ステップS20において、生徒モデル学習部16が、損失Lfeatureが検証用データで最小値をとるように生徒モデルを学習する。
なお、上述において、学習装置100は、ステップS11からステップS15を実行した後、ステップS16からステップS18を実行したが、これに限られない。例えば、学習装置100は、ステップS16からステップS18を実行した後、ステップS11からステップS15を実行してもよい。また、学習装置100は、ステップS11からステップS15を実行するタイミングで、ステップS16からステップS18を実行してもよい。
また、学習装置100は、ステップS11及びステップS12を実行した後、ステップS13及びステップS14を実行したが、これに限られない。例えば、学習装置100は、ステップS13及びステップS14を実行した後、ステップS11及びステップS12を実行してもよい。また、学習装置100は、ステップS11及びステップS12を実行するタイミングで、ステップS13及びステップS14を実行してもよい。
<三次元再構成装置の動作>
ここで、本実施形態に係る三次元再構成装置300の動作について、図6を参照して説明する。図6は、本実施形態に係る三次元再構成装置300の動作の一例を示すフローチャートである。図6を参照して説明する三次元再構成装置300の動作は、本実施形態に係る、構造物の内部空間を撮影したパノラマ画像D1から内部空間を三次元再構成するための三次元再構成装置300が実行する方法の一例に相当する。
ステップS31において、画像入力部32が、構造物の内部を撮影したパノラマ画像D1の入力を受け付ける。
ステップS32において、推定部33が、上述した学習装置100によって学習された生徒モデルに、ステップ31で入力が受け付けられたパノラマ画像D1を入力し、該パノラマ画像D1における内部空間の隅角部の位置を示す特徴量ベクトルを出力させることによって、特徴量ベクトルを推定する。
ステップS33において、三次元座標計算部34が、推定部33によって推定された特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する。
ステップS34において、後処理部35が、ステップS34で推定された三次元座標に基づいて、内部空間を三次元再構成する。
上述のように、本実施形態における学習装置100は、構造物の内部空間を撮影したパノラマ画像D1から内部空間を三次元再構成するための推定モデルを学習する学習装置100であって、パノラマ画像D1と、内部空間の形状を示す形状情報D2とが入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、パノラマ画像D1から抽出された画像特徴量と、形状情報D2から抽出された形状特徴量とが入力されると処理済み特徴量を出力する教師モデル推定部13と、パノラマ画像D1が入力されると内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、パノラマ画像D1における、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、パノラマ画像D1から抽出された画像特徴量が入力されると処理済み特徴量を出力する生徒モデル推定部15と、教師モデル推定部13によって出力された処理済み特徴量の分布と、生徒モデル推定部15によって出力された処理済み特徴量の分布との差分を示す損失Lfeatureを算出し、検証用データでの損失が最小値をとるように生徒モデルを推定モデルとして学習する生徒モデル学習部16と、を備える。
これにより、学習装置100によって学習された推定モデルを用いて、三次元再構成装置300が、形状特徴量を用いることなく、特徴量ベクトルを、形状特徴量を用いた場合と同程度の高い精度で推定することができる。したがって、三次元再構成装置300は、高い精度で構造物の内部空間の隅角部を構成する点の三次元座標を計算することができ、高い精度で内部空間を三次元再構成することができる。これに伴い、例えば、作業者が点検等により検出した、構造物の内部空間を画定する面の劣化を三次元の像D3に反映させることにより、劣化箇所を示す構造物のモデリング精度が向上する。また、構造物の内部空間に配置された家具、内部空間を画定する面に貼り付けられた壁紙等を三次元の像D3に反映させることにより、構造物のモデリング精度が向上する。また、三次元再構成装置300は、形状特徴量を用いないため、高速に、三次元座標を推定することができる。
また、本実施形態における三次元再構成装置300は、構造物の内部空間を撮影したパノラマ画像D1から内部空間を三次元再構成する三次元再構成装置300であって、パノラマ画像D1の入力を受け付ける画像入力部32と、上述した学習装置100によって学習された推定モデルに、パノラマ画像D1を入力し、内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部33と、特徴量ベクトルに基づいて、隅角部を構成する点の三次元座標を計算する三次元座標計算部34と、三次元座標に基づいて内部空間を三次元再構成する後処理部35と、を備える。これにより、三次元再構成装置300が、形状特徴量を用いることなく、内部空間を画定する面の三次元座標を高い精度で計算することができる。したがって、三次元再構成装置300が、三次元座標に基づいて高い精度で内部空間を三次元再構成することができる。これに伴い、例えば、作業者が点検等により検出した、構造物の内部空間を画定する面の劣化を三次元の像D3に反映させることにより、劣化箇所を示す構造物のモデリング精度が向上する。また、構造物の内部空間に配置された家具、内部空間を画定する面に貼り付けられた壁紙等を三次元の像D3に反映させることにより、構造物のモデリング精度が向上する。また、三次元再構成装置300は、形状特徴量を用いないため、高速に、内部空間を三次元再構成することができる。
<プログラム>
上述した学習装置100及び三次元再構成装置300は、コンピュータによって実現することができる。また、学習装置100及び三次元再構成装置300としてそれぞれ機能させるためのプログラムが提供されてもよい。また、該プログラムは、記憶媒体に記憶されてもよいし、ネットワークを通して提供されてもよい。図7は、学習装置100として機能するコンピュータ401の概略構成を示すブロック図である。三次元再構成装置300として機能するコンピュータも同様である。ここで、コンピュータ401は、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。
図7に示すように、コンピュータ401は、プロセッサ410と、ROM(Read Only Memory)420と、RAM(Random Access Memory)430と、ストレージ440と、入力部450と、出力部460と、通信インターフェース(I/F)470とを備える。各構成は、バス480を介して相互に通信可能に接続されている。プロセッサ410は、具体的にはCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)などであり、同種又は異種の複数のプロセッサにより構成されてもよい。
プロセッサ410は、各構成の制御、及び各種の演算処理を実行する。すなわち、プロセッサ410は、ROM420又はストレージ440からプログラムを読み出し、RAM430を作業領域としてプログラムを実行する。プロセッサ410は、ROM420又はストレージ440に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。上述した実施形態では、ROM420又はストレージ440に、本開示に係るプログラムが記憶されている。
プログラムは、コンピュータ401が読み取り可能な記憶媒体に記憶されていてもよい。このような記憶媒体を用いれば、プログラムをコンピュータ401にインストールすることが可能である。ここで、プログラムが記憶された記憶媒体は、非一時的(non-transitory)記憶媒体であってもよい。非一時的記憶媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
ROM420は、各種プログラム及び各種データを記憶する。RAM430は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ440は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを記憶する。
入力部450は、ユーザの入力操作を受け付けて、ユーザの操作に基づく情報を取得する1つ以上の入力インターフェースを含む。例えば、入力部450は、ポインティングデバイス、キーボード、マウスなどであるが、これらに限定されない。
出力部460は、情報を出力する1つ以上の出力インターフェースを含む。例えば、出力部460は、情報を映像で出力するディスプレイ、又は情報を音声で出力するスピーカであるが、これらに限定されない。なお、出力部460は、タッチパネル方式のディスプレイである場合には、入力部450としても機能する。
通信インターフェース470は、外部の装置と通信するためのインターフェースである。
以上の実施形態に関し、更に以下の付記を開示する。
[付記項1]
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、
コントローラを備え、前記コントローラは、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力し、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力し、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する、学習装置。
[付記項2]
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、
前記パノラマ画像の入力を受け付ける入力インターフェースと、コントローラとを備え、
前記コントローラは、
付記項1に記載の学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させ、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算し、
前記三次元座標に基づいて前記内部空間を三次元再構成する、三次元再構成装置。
[付記項3]
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、
前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力し、
前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力し、
前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する、学習方法。
[付記項4]
構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、
前記パノラマ画像の入力を受け付け、
付記項3に記載の学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させ、
前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算し、
前記三次元座標に基づいて前記内部空間を三次元再構成する、三次元再構成方法。
[付記項5]
コンピュータを、付記項1に記載の学習装置として動作させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。
[付記項6]
コンピュータを、付記項2に記載の三次元再構成装置として動作させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。
本明細書に記載された全ての文献、特許出願および技術は、個々の文献、特許出願、および技術が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。
上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形又は変更が可能である。
11 教師モデル用画像入力部
12 形状情報入力部
13 教師モデル推定部
14 生徒モデル用画像入力部
15 生徒モデル推定部
16 生徒モデル学習部
31 生徒モデル記憶部
32 画像入力部
33 推定部
34 三次元座標計算部
35 後処理部
100 学習装置
131 教師モデル用画像特徴量抽出器
132 形状特徴量抽出器
133 教師モデル用特徴量処理器
134 教師モデル用特徴量復号器
151 生徒モデル用画像特徴量抽出器
152 生徒モデル用特徴量処理器
153 生徒モデル用特徴量復号器
300 三次元再構成装置
401 コンピュータ
410 プロセッサ
420 ROM
430 RAM
440 ストレージ
450 入力部
460 出力部
470 通信インターフェース
480 バス

Claims (6)

  1. 構造物の内部間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置であって、
    前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力する教師モデル推定部と、
    前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力する生徒モデル推定部と、
    前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習する生徒モデル学習部と、
    を備える学習装置。
  2. 構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置であって、
    前記パノラマ画像の入力を受け付ける画像入力部と、
    請求項1に記載の学習装置によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させる推定部と、
    前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算する三次元座標計算部と、
    前記三次元座標に基づいて前記内部空間を三次元再構成する後処理部と、
    を備える、三次元再構成装置。
  3. 構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成するための推定モデルを学習する学習装置が実行する学習方法であって、
    前記パノラマ画像と、前記内部空間の形状を示す形状情報とが入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する教師モデルを用いて、前記パノラマ画像から抽出された画像特徴量と、前記形状情報から抽出された形状特徴量とが入力されると前記処理済み特徴量を出力するステップと、
    前記パノラマ画像が入力されると前記内部空間を画定する面の相関に関する特徴を示す処理済み特徴量を出力し、該処理済み特徴量を復号して、前記パノラマ画像における、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力する生徒モデルを用いて、前記パノラマ画像から抽出された画像特徴量が入力されると前記処理済み特徴量を出力するステップと、
    前記教師モデルを用いて出力された処理済み特徴量の分布と、前記生徒モデルを用いて出力された処理済み特徴量の分布との差分を示す損失を算出し、前記損失が検証用データで最小値をとるように生徒モデルを前記推定モデルとして学習するステップと、
    を含む学習方法。
  4. 構造物の内部空間を撮影したパノラマ画像から前記内部空間を三次元再構成する三次元再構成装置が実行する三次元再構成方法であって、
    前記パノラマ画像の入力を受け付けるステップと、
    請求項3に記載の学習方法によって学習された推定モデルに、前記パノラマ画像を入力し、前記内部空間を画定する面の隅角部の位置を示す特徴量ベクトルを出力させるステップと、
    前記特徴量ベクトルに基づいて、前記隅角部を構成する点の三次元座標を計算するステップと、
    前記三次元座標に基づいて前記内部空間を三次元再構成するステップと、
    を含む、三次元再構成方法。
  5. コンピュータを、請求項1に記載の学習装置として動作させるためのプログラム。
  6. コンピュータを、請求項2に記載の三次元再構成装置として動作させるためのプログラム。
JP2024569919A 2023-01-11 2023-01-11 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム Active JP7836005B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/000479 WO2024150339A1 (ja) 2023-01-11 2023-01-11 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2024150339A1 JPWO2024150339A1 (ja) 2024-07-18
JP7836005B2 true JP7836005B2 (ja) 2026-03-26

Family

ID=91896539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024569919A Active JP7836005B2 (ja) 2023-01-11 2023-01-11 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP7836005B2 (ja)
WO (1) WO2024150339A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080804A (zh) 2019-10-23 2020-04-28 贝壳技术有限公司 三维图像生成方法及装置
CN112712052A (zh) 2021-01-13 2021-04-27 安徽水天信息科技有限公司 一种机场全景视频中微弱目标的检测识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080804A (zh) 2019-10-23 2020-04-28 贝壳技术有限公司 三维图像生成方法及装置
CN112712052A (zh) 2021-01-13 2021-04-27 安徽水天信息科技有限公司 一种机场全景视频中微弱目标的检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhang Cheng et al.,"DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene Context Graph and Relation-based Optimization",2021 IEEE/CVF International Conference on Computer Vision (ICCV)[online],IEEE,2021年,p.12612-12621,[検索日 2025.12.4], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9710102>,DOI: 10.1109/ICCV48922.2021.01240

Also Published As

Publication number Publication date
JPWO2024150339A1 (ja) 2024-07-18
WO2024150339A1 (ja) 2024-07-18

Similar Documents

Publication Publication Date Title
CN112819947B (zh) 三维人脸的重建方法、装置、电子设备以及存储介质
US11651533B2 (en) Method and apparatus for generating a floor plan
EP3454302B1 (en) Approximating mesh deformation for character rigs
US8169438B1 (en) Temporally coherent hair deformation
CN111161336B (zh) 三维重建方法、三维重建装置和计算机可读存储介质
JP6863596B2 (ja) データ処理装置及びデータ処理方法
JP7518196B2 (ja) 3dジオメトリを構築するための方法、装置及びプログラム
US20120306874A1 (en) Method and system for single view image 3 d face synthesis
WO2017092251A1 (zh) 实时虚拟场景中圆柱碰撞体与凸体碰撞探测的方法、终端和存储介质
CN109754464B (zh) 用于生成信息的方法和装置
US20250356586A1 (en) Multimodal conditional 3d shape geometry generation
CN111161138A (zh) 用于二维全景图像的目标检测方法、装置、设备、介质
CN111091117B (zh) 用于二维全景图像的目标检测方法、装置、设备、介质
US11741678B2 (en) Virtual object construction method, apparatus and storage medium
JP7836005B2 (ja) 学習装置、三次元再構成装置、学習方法、三次元再構成方法、及びプログラム
JP7573385B2 (ja) 設計支援装置
CN114972587A (zh) 表情驱动方法、装置、电子设备及可读存储介质
CN113344770A (zh) 虚拟模型及其构建方法、交互方法以及电子设备
JP6967150B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN112381929A (zh) 一种三维电力设备模型建模方法
JP7626958B2 (ja) 3次元再構成装置、3次元再構成方法、及びプログラム
CN115775300B (zh) 人体模型的重建方法、人体重建模型的训练方法及装置
CN112785494B (zh) 一种三维模型构建方法、装置、电子设备和存储介质
CN112464696A (zh) 图像处理方法、装置、设备及存储介质
KR102568699B1 (ko) 360도 파노라마 실내 영상으로부터 생성된 포인트 클라우드의 바닥면을 고려한 후처리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20251216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20260121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260223

R150 Certificate of patent or registration of utility model

Ref document number: 7836005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150