JP7767111B2

JP7767111B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP7767111B2
Application number: JP2021177459A
Authority: JP
Inventors: 正明松岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2025-11-11
Anticipated expiration: 2041-10-29
Also published as: JP2026012300A; JP2023066705A

Description

本発明は、機械学習により三次元モデリングを行う画像処理装置に関する。

従来、物体を様々な角度から撮影した画像を用いて、三次元モデリングを行う技術が知られている。特許文献１には、物体を撮影時とは別の角度から見たときの画像を、少ない演算量で生成する技術が開示されている。しかし、本来、物体から反射された光は見る角度によって見える色が変化するため、特許文献１に開示された技術では、画像を再構成する角度を変化させたときに違和感が生じる場合がある。

非特許文献１には、空間上の三次元位置に加えて光線の方向を考慮し、光線上の点をサンプリングしてボリュームレンダリングすることで、実写のような違和感のない画像を再構成する技術が開示されている。

特開２０１８－２０５８６３号公報特開２００８－１５７５４号公報

ＢｅｎＭｉｌｄｅｎｈａｌｌ，ＰｒａｔｕｌＰ．Ｓｒｉｎｉｖａｓａｎ，ＭａｔｔｈｅｗＴａｎｃｉｋ，ＪｏｎａｔｈａｎＴ．Ｂａｒｒｏｎ，ＲａｖｉＲａｍａｍｏｏｒｔｈｉ，ａｎｄＲｅｎＮｇ， "ＮｅＲＦ：ＲｅｐｒｅｓｅｎｔｉｎｇＳｃｅｎｅｓａｓＮｅｕｒａｌＲａｄｉａｎｃｅＦｉｅｌｄｓｆｏｒＶｉｅｗＳｙｎｔｈｅｓｉｓ"，ＩｎＥＣＣＶ，２０２０．ＴＩＡＮＹＥＬＩ，ＭＩＲＡＳＬＡＶＣＨＥＶＡ，ＭＩＣＨＡＥＬＺＯＬＬＨＯＥＦＥＲ，ＳＩＭＯＮＧＲＥＥＮ，ＣＨＲＩＳＴＯＰＨＬＡＳＳＮＥＲ，ＣＨＡＮＧＩＬＫＩＭ，ＴＡＮＮＥＲＳＣＨＭＩＤＴ，ＳＴＥＶＥＮＬＯＶＥＧＲＯＶＥ，ＭＩＣＨＡＥＬＧＯＥＳＥＬＥ，ＺＨＡＯＹＡＮＧＬＶ， "Ｎｅｕｒａｌ３ＤＶｉｄｅｏＳｙｎｔｈｅｓｉｓ"，ａｒＸｉｖ：２１０３．０２５９７，２０２１

しかしながら、非特許文献１に開示された技術では、対象空間の端から端まで光線上の点をサンプリングしてボリュームレンダリングする必要があり、演算量が増えて多大な処理時間を要する。

そこで本発明は、高速にボリュームレンダリングを行うことが可能な画像処理装置、画像処理方法、およびプログラムを提供することを目的とする。

本発明の一側面としての画像処理装置は、教師画像と、前記教師画像に対応するカメラの位置を取得する取得手段と、前記カメラの前記位置を用いて前記教師画像の各画素に対応する光線を算出する光線算出手段と、前記光線における点をサンプリングして前記教師画像を用いることで機械学習を行い、学習パラメータを算出する学習パラメータ算出手段とを有し、前記教師画像の被写界深度の範囲内における前記光線のサンプリング密度は、前記被写界深度の範囲外の前記サンプリング密度よりも高い。

本発明の他の目的及び特徴は、以下の実施形態において説明される。

本発明によれば、高速にボリュームレンダリングを行うことが可能な画像処理装置、画像処理方法、およびプログラムを提供することができる。

第１の実施形態におけるパーソナルコンピュータのブロック図である。第１の実施形態における３Ｄモデル学習のフローチャートである。第１の実施形態における教師画像の撮影の説明図である。第１の実施形態における教師画像とピントマップの説明図である。第１の実施形態における自由視点画像レンダリングのフローチャートである。第１の実施形態における自由視点カメラの説明図である。第１の実施形態における教師画像とピントマップの説明図である。第１の実施形態における被写体奥行き算出の説明図である。第１の実施形態における三次元点の座標算出の説明図である。第１の実施形態における教師画像と低解像度ピントマップの説明図である。第２の実施形態における教師画像の撮影および自由視点カメラの説明図である。第２の実施形態における周辺教師画像とピントマップの説明図である。第２の実施形態における教師画像とピントマップの説明図である。第３の実施形態におけるパーソナルコンピュータのブロック図である。第３の実施形態におけるダイナミック３Ｄモデル学習のフローチャートである。第３の実施形態における教師画像の撮影の説明図である。第３の実施形態における教師画像の撮影の説明図である。第３の実施形態における教師画像とピントマップの説明図である。第３の実施形態における教師画像とピントマップの説明図である。第３の実施形態における自由視点動画レンダリングのフローチャートである。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。

（第１の実施形態）
まず、図１を参照して、本発明の第１の実施形態におけるパーソナルコンピュータ（画像処理装置）について説明する。図１は、パーソナルコンピュータ（画像処理装置）１００のブロック図である。なお本実施形態は、画像処理装置の例としてパーソナルコンピュータを説明するが、これに限定されるものではなく、パーソナルコンピュータ以外の画像処理装置にも適用可能である。

制御部１０１は、例えばＣＰＵであり、パーソナルコンピュータ１００が備える各ブロックの動作プログラムをＲＯＭ１０２より読み出し、ＲＡＭ１０３に展開して実行することによりパーソナルコンピュータ１００が備える各ブロックの動作を制御する。ＲＯＭ１０２は、ＳＳＤ等の書き換え可能な不揮発性メモリであり、パーソナルコンピュータ１００が備える各ブロックの動作プログラムに加え、各ブロックの動作に必要なパラメータ等を記憶する。ＲＡＭ１０３は、ＤＲＡＭ等の書き換え可能な揮発性メモリであり、パーソナルコンピュータ１００が備える各ブロックの動作において出力されたデータの一時的な記憶領域として用いられる。データストレージ部１０４は、機械学習のために必要な画像データや画像ごとのメタデータ等を読み書きする、ハードディスク等で構成された記録媒体である。

撮影カメラ位置姿勢推定部１０５は、画像データ群から公知のＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）等の技術を用いて、画像ごとに撮影カメラの位置姿勢を推定する。すなわち撮影カメラ位置姿勢推定部１０５は、教師画像と、教師画像に対応するカメラの位置を取得する取得手段である。

光線算出部１０６は、ボリュームレンダリングする際の光線を、例えば非特許文献１に開示されているような手法で算出する。非特許文献１において、ボリュームレンダリングする光線はｒ（ｔ）＝ｏ＋ｔｄのように定義される。ここで、ｏは世界座標系におけるカメラの主点、ｄは世界座標系で表現される光線の方向ベクトル、ｔはカメラ主点から光線上のサンプリング点までの距離である。光線方向ベクトルｄは、カメラの主点から像面上の各画素へ向かう三次元ベクトルを計算することで求められる。また、カメラ主点ｏおよび光線方向ベクトルｄは、カメラ位置姿勢パラメータによりカメラ座標系から世界座標系に座標変換される。すなわち光線算出部１０６は、学習時においてカメラの位置を用いて教師画像の各画素に対応する光線を算出し、推論時においてカメラ位置姿勢を用いて任意視点カメラの各画素に対応する光線を算出する光線算出手段である。

ニューラルネットワーク部１０７は、光線ごとに光線上の点をサンプリングし、対応する点の色と密度をニューラルネットワークにより演算し、対象空間にわたってボリュームレンダリングすることで各光線に対応する画素の色を決定する。学習及び推論は、非特許文献１で開示されているような手法を用いればよい。学習時は、ボリュームレンダリングで算出された色と撮影画像の色とのＬ２損失を損失関数として誤差逆伝搬法により学習重みを収束させる。すなわちニューラルネットワーク部１０７は、学習時において、光線における点をサンプリングして教師画像を用いることで機械学習を行い、学習パラメータを算出する学習パラメータ算出手段である。推論時は、自由カメラ位置姿勢における各光線上をボリュームレンダリンすることで自由視点画像をレンダリングする。すなわちニューラルネットワーク部１０７は、推論時において、学習パラメータ算出手段により光線における点をサンプリングして事前学習された学習パラメータを用いて、機械学習によりカメラの画像をレンダリングするレンダリング手段である。

ＦΘ：（ｘ，ｄ）→（ｃ，σ）・・・（１）
式（１）において、ＦΘはマルチ・レイヤー・パーセプトロンからなるニューラルネットワークであり、サンプリングされる光線上の点の三次元座標ｘ、光線方向ベクトルｄを入力とする。ＦΘは各サンプリング点に対して、ＲＧＢの色ｃと密度σを出力する。光線ｒに対するボリュームレンダリングはＣｖｒ（ｒ）＝ΣＴｉ（１－ｅｘｐ（－σｉ・δｉ））ｃｉ，ｉ＝１～Ｎで表される。ここで、Ｎはサンプリング数、ｉはサンプリング点毎のインデックス番号、ｃｉおよびσｉはインデックスｉに対応する色および密度、δｉ＝ｔ（ｉ＋１）－ｔ（ｉ）、ｔ（ｉ）はインデックスｉに対応するカメラ主点から光線上のサンプリング点までの距離である。また、Ｔｉ＝ｅｘｐ（－Σσｊ・δｊ）、ｊ＝１～ｉ－１であり、これによりオクルージョンで遮蔽されたオブジェクト色の影響を除外している。

自由カメラ位置姿勢取得部１０８は、自由視点画像のためのカメラ位置姿勢（任意視点カメラの位置）を取得する取得手段である。予め外部装置で算出されたカメラ位置姿勢パラメータを取得してもよく、または、ジョイスティック等の操作部材を介してユーザが指示したカメラ位置姿勢を取得してもよい。

次に、図２を参照して、制御部１０１による３Ｄモデル学習について説明する。図２は、３Ｄモデル学習のフローチャートである。まずステップＳ２０１において、撮影カメラ位置姿勢推定部１０５は、学習に使用する各画像に対応するカメラ位置姿勢を推定する。学習は、イタレーション処理により学習重みを更新させることで、目標の学習重みに収束させる。続いてステップＳ２０２において、制御部１０１は、イタレーション処理が完了したか否かを判定する。イタレーション処理が完了した場合、本フローを終了する。一方、イタレーション処理が完了していない場合、ステップＳ２０３に進む。

ステップＳ２０３において、制御部１０１は、各イタレーションにおいて、まずバッチサイズ分の光線をランダムに選択する。バッチサイズは、例えば非特許文献１に示されている光線数４０９６のように設定すればよい。また本実施形態において、このとき、３Ｄモデリングに適さない光線を除外して光線を選択することで、効率的に演算コストを低減させることができる。その動作について、図３および図４を参照して説明する。

図３は、教師画像の撮影の説明図であり、被写体、撮影空間、および撮影カメラの関係を説明するための鳥観図を示す。３０１は撮影カメラ（撮像装置）、３０２は３Ｄモデリング対象の撮影空間の範囲、３０３は主被写体、３０４は背景被写体である。撮影カメラ３０１のピントは主被写体３０３に合焦されており、ハッチング部３０５で示される画角および被写界深度内で合焦されている。撮影カメラ３０１は、撮影空間範囲３０２内の被写体を様々な方向から撮影するために複数配置されるが、図３では簡単のために撮影カメラ３０１のみを示している。

図４は、教師画像とピントマップ（距離分布情報）の説明図であり、撮影カメラ３０１で取得された画像４０１および付帯するメタデータであるピントマップ４０２を説明する図を示す。図４において、撮像面の合焦度合いをグレースケールマップの形式で示しており、手前が白、奥が黒、５０％グレーが合焦を示している。ピントマップ４０２は、例えば特許文献２に開示されているように、全画素が位相差画素からなる撮像センサから得られる位相差画像から撮像面におけるデフォーカスマップをピントマップとして取得するように構成すればよい。

図３中の光線３０６、３０７は、ボリュームレンダリング対象の光線であるが、光線３０６上には被写界深度の範囲内にある被写体が存在しないため、除外する。不要な光線であるか否かの判定は、図４のピントマップ４０２に基づいて判定することが可能である。光線３０７に対応する画素４０４が５０％グレーの合焦画素であるのに対して、光線３０６に対応する画素４０３は、被写界深度の範囲外の濃いグレーであることから、除外対象の光線であると判定する。このように、不要な光線を除外することで、ボリュームレンダリング処理を高速化することができる。本実施形態において、取得手段は、教師画像に対応する距離分布情報（ピントマップ）を取得し、光線算出手段は、距離分布情報に基づいて、光線が教師画像の被写界深度の範囲内にあるか否かを判定する。

なお本実施形態において、被写界深度の範囲外の光線は除外するが、これに限定されるものではない。光線算出部１０６が被写界深度の内側と外側で光線の粗密を変えることで、効率的に光線を選択する（光線算出手段が教師画像の被写界深度内にある光線を重点的に選択する）ようにしてもよい。例えば、被写界深度の範囲内の光線に関しては全ての光線を選択し、被写界深度の範囲外の光線に関しては対象カメラの全光線の１０％以下の光線を選択することができる。

図２のステップＳ２０３にてバッチサイズ分の光線が選択された後、ステップＳ２０４において、光線算出部１０６は光線を算出する。ボリュームレンダリングする光線は、前述の通り、ｒ（ｔ）＝ｏ＋ｔｄのように定義される。ここで、ｏは世界座標系におけるカメラの主点、ｄは世界座標系で表現される光線の方向ベクトル、ｔはカメラ主点から光線上のサンプリング点までの距離である。

ボリュームレンダリングのためにサンプリングされる距離ｔの範囲は、図３中のハッチング部３０５で示される被写界深度の範囲内に制限される。ハッチング部３０５の奥行き範囲は、前方被写界深度Ｄｆ、後方被写界深度Ｄｂ、および合焦被写体距離Ｚを用いて、Ｚ－Ｄｆ～Ｚ＋Ｄｂで表される。また、Ｄｆ＝（ｒ・Ａｖ・Ｚ＾２）／（ｆ＾２＋ｒ・Ａｖ・Ｚ）、Ｄｂ＝（ｒ・Ａｖ・Ｚ＾２）／（ｆ＾２－ｒ・Ａｖ・Ｚ）で表される。ここで、ｒは許容錯乱円径、Ａｖは絞り値、ｆは焦点距離である。また許容錯乱円径ｒは、画素ピッチの２倍とする。このように、ボリュームレンダリングのためにサンプリングされる距離ｔの範囲を被写界深度の範囲内に制限することで、ボリュームレンダリング処理を高速化することができる。

なお本実施形態において、許容錯乱円径ｒを画素ピッチの２倍としているが、これに限定されるものではなく、例えば自由視点画像をレンダリングする際の解像度に応じてこれより粗くすること、または細かくしてもよい。すなわち、被写界深度を決定するための許容錯乱円径は、学習パラメータを用いたレンダリングの際の解像度（レンダリング解像度）に基づいて決定されてもよい。

また本実施形態において、被写界深度内をＺ－Ｄｆ～Ｚ＋Ｄｂとしているが、これに限定されるものではなく、カメラから取得可能な焦点距離ｆや絞り値Ａｖの誤差を考慮して、Ｚ－２・Ｄｆ～Ｚ＋２・Ｄｂのように、幅に余裕を持った範囲にしてもよい。また本実施形態において、ボリュームレンダリングする光線範囲を被写界深度の範囲内に制限しているが、これに限定されるものではない。被写界深度の範囲内と範囲外とでサンプリングの粗密（サンプリング密度）を変えることで、効率的にサンプリングするようにしてもよい。すなわち、教師画像の被写界深度の範囲内における光線のサンプリング密度を、被写界深度の範囲外のサンプリング密度よりも高くすればよい。例えば、図３中の光線３０７において、３Ｄモデリング対象範囲３０２でカバーされる全範囲から３２点をまずサンプリングし、ハッチング部３０５でカバーされる範囲に対しては追加で１２８点をサンプリングする。このように、被写界深度内だけサンプリング点を密に配置するようにしてもよい。

図２のステップＳ２０４にて光線が算出した後、ステップＳ２０５において、ニューラルネットワーク部１０７は、学習重みを更新する。制御部１０１は、ステップＳ２０２～Ｓ２０５を学習重みが収束するまで繰り返すことで、学習重みを決定する。なお、ステップＳ２０２のイタレーション完了の判定については、例えば非特許文献１に開示されているように、１００－３００Ｋイタレーションの回数に達したか否かで判定するようにすればよい。

次に、図５を参照して、制御部１０１による自由視点画像レンダリングについて説明する。図５は、自由視点画像レンダリングのフローチャートである。まずステップＳ５０１において、自由カメラ位置姿勢取得部１０８は、レンダリングする自由視点のカメラ位置姿勢を取得する。続いてステップＳ５０２において、制御部１０１は、ボリュームレンダリングによる画素値（ＲＧＢ値）の算出がレンダリング画像の全画素に関して完了したか否かを判定する。全画素に対して画素値の算出が完了した場合、本フローを終了する。一方、全画素に対して画素値の算出が完了していない場合、ステップＳ５０３に進む。

ステップＳ５０３において、制御部１０１は、画素ごとに対応する三次元点が学習画像の被写界深度内にあるか否か、すなわち光線が被写界深度内の光線か否かを判定する。三次元点が被写界深度内ではない場合、ステップＳ５０２へ戻る。一方、三次元点が被写界深度内である場合、ステップＳ５０３に進み、ボリュームレンダリングを実行する。なお、被写界深度外の光線に対応する画素には、例えば黒など固定の画素値を割り当てる。

図６は、自由視点カメラの説明図であり、被写体、撮影空間および各カメラの関係を説明する鳥観図を示す。図７は、教師画像とピントマップの説明図であり、撮影カメラ６０１で取得された画像７０１および付帯するメタデータであるピントマップ７０２を説明する図を示す。図６中の６０３は、レンダリングする自由視点カメラ、３０１、６０１は自由視点カメラ６０３に隣接する撮影カメラである。

図４中の画素４０４および図７中の画素７０４は、同じ３次元点である図６中の６０７を表している。また、自由視点カメラ６０３の光線６０５と、撮影カメラ３０１の光線３０７は、同じ３次元点である図６の６０７を表している。三次元点６０７の三次元座標が事前にわかっていれば、光線６０５が光線３０７に対応していることを確認することができ、図４のピントマップ４０２から求めることができる。

図８は、被写体奥行き算出の説明図であり、ピントマップが示す画素位置毎のデフォーカス値ｄｅｆから、被写体の奥行Ｚ＋ΔＺを算出する手順を説明する図を示す。８０１は結像光学系、８０２は撮像面位置、８０３はピント被写体距離位置、８０４はデフォーカス結像位置、８０５は被写体距離位置である。レンズの公式から、１／Ｚ＋１／Ｚ‘＝１／ｆおよび１／（Ｚ＋ΔＺ）＋１／（Ｚ‘＋ｄｅｆ）＝１／ｆが成立するため、これらから被写体の奥行Ｚ＋ΔＺを算出することができる（ｆ：焦点距離）。

被写体の奥行Ｚ＋ΔＺが分かれば、三次元点の座標算出の説明図である図９に示される三角形の等比関係から、ｘ／ｆ＝Ｘ／（Ｚ＋ΔＺ）およびy／ｆ＝Y／（Ｚ＋ΔＺ）が成立する。これらから、三次元点６０７のＸ座標、Ｙ座標およびＺ座標（Ｚ＋ΔＺ）を求めることができる。

上記から光線６０５が光線３０７に対応していることを確認することができ、学習時の光線３０７は被写界深度内にあることが分かっているので、光線６０５は、ボリュームレンダリングの対象とする。一方、図４の画素４０３および図７の画素７０３は、同じ３次元点である図６の６０６を表しており、それぞれ図６の光線３０６と光線６０４が対応している。しかし、学習時の光線３０６は被写界深度外であることが分かっているうえに、撮影カメラ６０１は対応する三次元点６０６をとらえていないため、光線６０４はボリュームレンダリンの対象からは除外する。このように、学習されていない３次元点に対応する光線をボリュームレンダリングの対象外とすることで、自由視点画像のボリュームレンダリング処理を高速化することができる。

図５のステップＳ５０３にて被写界深度内と判定された光線に関して、ステップＳ５０４において、光線算出部１０６は光線を算出する。ボリュームレンダリングする光線は、前述の通り、ｒ（ｔ）＝ｏ＋ｔｄのように定義される。ここで、ｏは世界座標系におけるカメラの主点、ｄは世界座標系で表現される光線の方向ベクトル、ｔはカメラ主点から光線上のサンプリング点までの距離である。ボリュームレンダリングのためにサンプリングされる距離ｔの範囲は、図６のハッチング部３０５およびハッチング部６０２で示される隣接する撮影カメラ３０１、６０１の被写界深度内に制限される。このように、ボリュームレンダリングのためにサンプリングされる距離ｔの範囲を隣接する撮影カメラの被写界深度内に制限することで、自由視点画像のボリュームレンダリング処理を高速化することができる。

図５のステップＳ５０４にて光線が算出した後、ステップＳ５０５において、ニューラルネットワーク部１０７は、ボリュームレンダリング処理を実行し、対応する画素値（ＲＧＢ値）を算出する。

なお本実施形態において、撮影カメラの画像（教師画像）とピントマップ（距離分布情報）の解像度は同じであるが、これに限定されるものではなく、異なる解像度であってもよい。例えば、距離分布情報プを教師画像よりも解像度を低くしてもよい。ピントマップのように視差マップを元に生成されるマップは、ステレオ対応点探索のために所定サイズのテンプレートマッチングが行われるため、通常テンプレートサイズ分だけマップサイズは小さくなる。例えばテンプレートサイズが１６×１６画素であれば、通常マップサイズは縦横共に１／１６となる。なお、自由視点画像をレンダリングする際もピントマップが必要であるが、このとき保持しておくピントマップを縦横共に１／１６した縮小版のピントマップで保持しておけば、レンダリングに必要なデータ容量を削減することができる。

図１０は、教師画像と低解像度ピントマップの説明図であり、撮影カメラ３０１で取得された画像４０１および付帯するメタデータであるピントマップ１００１を説明する図を示す。ピントマップ１００１は、テンプレートマッチングのテンプレートサイズ分（１６×１６画素）だけ解像度が低く、ピントマップの１画素が画像の１６×１６画素の領域に対応している。また、図３を参照して説明した通り、３０３は主被写体、３０４は背景被写体である。

画像４０１上の画素１００３は、ピントマップ１００１上の画素１００２に対応している。画素１００３は、主被写体３０３を示しているが、テンプレートの１６×１６画素の範囲に主被写体３０３と背景である地面の両方が含まれる。このため、画素１００２のピントマップ画素値（デフォーカス値）は主被写体３０３と地面のデフォーカス値の間の値になる場合がある。そこで、画素１００３のような被写体輪郭領域に関しては、広めに光線を選択するとともに、ボリュームレンダリングのサンプリング範囲も制限しないようにする。すなわち光線算出手段は、距離分布情報に基づいて被写体輪郭領域を特定し、被写体輪郭領域に対して、光線を選択しやすくし、サンプリング範囲を広範囲に設定する。

本実施形態において、撮影カメラのレンズによる歪曲はごくわずかとし、学習画像に歪曲補正を行わないが、これに限定されるものではなく、歪曲がある学習画像を利用するようにしてもよい。その場合、正しい光線が算出できるように、学習画像には歪曲補正を行う。さらに、画像とペアで参照されるピントマップに対しても歪曲補正を行うことで、正しく光線選択ができるようにする。すなわち取得手段は、カメラの光学系の歪曲成分に基づいて、教師画像および距離分布情報に対する処理を行ってもよい。

本実施形態において、データストレージ部１０４に保持するピントマップの画素値はデフォーカス値であるが、これに限定されるものではなく、視差値や距離値でもよい。また、いずれの形式であってもボリュームレンダリングの範囲を決定する際に距離値に変換できればよい。また、デフォーカス値で保持する際には、レンズの偏心や撮像素子の傾きによるピントずれを予め撮像カメラで補正したうえでデフォーカス値をピントマップとして記録し、データストレージ部１０４に保持してもよい。すなわち距離分布情報は、視差を表すシフト量に基づくマップ（視差マップ）、デフォーカス量に基づくマップ（デフォーカスマップ）、または距離に基づくマップ（距離マップ）の少なくとも一つを含んでいればよい。

本実施形態において、例えば図３に示されるように、ボリュームレンダリングの範囲は、前方被写界深度と後方被写界深度とで定義されるハッチング部３０５であるが、これに限定されるものではない。例えば、ピントマップから被写体表面が被写体の前方または後方のいずれにあるかを判定し、さらにボリュームレンダリングの範囲を制限するようにしてもよい。すなわち、距離分布情報（ピントマップの符号）に基づいて、被写体表面が被写体合焦距離よりも手前（前方）にあるか奥（後方）にあるかを判定し、その判定結果に基づいて、サンプリング密度を変化させてもよい。例えば、図３の被写体３０３に関して、ピントマップから被写体表面は前方に存在することが分かるため、ボリュームレンダリングの範囲を前方被写界深度の範囲のみに限定してもよい。

また本実施形態において、ボリュームレンダリング範囲は、ピント被写体距離を基準として決定されるが、これに限定されるものではない。例えば、被写体表面位置を基準として所定範囲をボリュームレンダリング範囲とするようにしてもよい。すなわち、距離分布情報に基づいて被写体表面までの距離を決定し、被写体表面までの距離を基準としてサンプリング密度を決定してもよい。被写体表面の奥行位置については、図８を参照して説明した手法で決定すればよい。

本実施形態において、自由視点画像レンダリング時に被写界深度内の光線のみを用いて（ステップＳ５０３）ボリュームレンダリングするため、被写界深度外の光線に対応する画素には例えば黒など固定の画素値を割り当てるが、これに限定されるものではない。背景など被写界深度外の画素だけ別の方法でレンダリングするようにしてもよい。例えば、背景に全天球の環境テクスチャを張り付けてもよく、または、背景は全く別の背景３Ｄモデルからレンダリングしてもよい。

本実施形態において、画面全面に亘りピントマップが評価できるが、これに限定されるものではなく、ピントマップが演算できない低信頼領域を定義し、後処理で不具合が起きないようにしてもよい。そのような場合、低信頼領域については、全ての対象光線を選択するようにすればよい。すなわち光線算出手段は、距離分布情報に基づいて信頼性が低いと判定した領域（低信頼領域）に対して、全ての光線を選択し、サンプリング範囲を広範囲に設定することができる。

本実施形態によれば、ボリュームレンダリングする光線およびサンプリング範囲を適切に制限することができ、ボリュームレンダリング処理を高速化することができる。

（第２の実施形態）
次に、本発明の第２の実施形態における画像処理装置について説明する。本実施形態において、取得手段は、更に周辺空間（背景被写体を含む空間）の周辺教師画像を取得し、学習パラメータ算出手段は、教師画像と周辺教師画像とを用いることで機械学習を行い、学習パラメータを算出する。なお、本実施形態における画像処理装置の構成は、図１を参照して第１の実施形態にて説明したパーソナルコンピュータ１００の構成と同様である。また、図１の制御部１０１が実行する図２に示される３Ｄモデル学習の動作および図５の自由視点画像レンダリングの動作を説明するためのフローチャートも第１の実施形態と同様である。

図１１は、教師画像の撮影および自由視点カメラの説明図であり、被写体、撮影空間、撮影カメラおよび自由視点カメラの関係を説明する鳥観図を示す。１１０１、１１０５は撮影カメラ、１１０３は自由視点カメラ、３０２は３Ｄモデリング対象の撮影空間の範囲、３０３は主被写体、３０４は背景被写体である。撮影カメラ１１０１は、広角の焦点距離を有し、ピントは背景被写体３０４に合焦されており、ハッチング部１１０２で示される画角および被写界深度内で合焦されている。また撮影カメラ１１０５は、標準画角の焦点距離を有し、ピントは主被写体３０３に合焦されており、ハッチング部１１０６で示される画角および被写界深度内で合焦されている。

本実施形態において、撮影空間範囲３０２内の被写体を様々な方向から撮影するため、撮影カメラ１１０１、１１０５以外にも複数の撮影カメラが配置される。具体的には、主被写体３０３を撮影するため撮影カメラ１１０５と同程度の焦点距離および撮影距離（フォーカス位置）を有する撮影カメラを複数配置する。また、主被写体３０３以外の被写体を撮影するため撮影カメラ１１０１と同程度の焦点距離および撮影距離（フォーカス位置）を有する撮影カメラを複数配置する。図１１では、簡単のために、撮影カメラ１１０１、１１０５のみを図示している。

図１２および図１３は、周辺教師画像または教師画像とピントマップの説明図であり、撮影カメラ１１０１、１１０５で取得された画像１２０１、１３０１、および付帯するメタデータであるピントマップ１２０２、１３０２を説明する図を示す。ピントマップは、第１の実施形態と同様に、公知の技術で算出される。

撮影カメラ１１０１は、広角な焦点距離で背景被写体３０４に合焦させているため、画像１２０１に示されるように複数被写体が広範囲に撮影され、ピントマップ１２０２に示されるように背景被写体３０４が合焦の５０％グレーを示している。一方、撮影カメラ１１０５は、標準画角の焦点距離で主被写体３０３に合焦させているため、画像１３０１に示されるように主となる被写体がメインで撮影され、ピントマップ１３０２に示されるように主被写体３０３が合焦の５０％グレーを示している。

上述のように構成することで、図２の３Ｄモデル学習においてバッチサイズ分の光線を選択する（Ｓ２０４）際に、図１１の標準画角の撮影カメラ１１０５において背景被写体３０４上の三次元点６０６に対応する光線１１１１が被写界深度外で選択されない。一方、広角の撮影カメラ１１０１の光線１１０３は、背景被写体３０４上の三次元点６０６を被写界深度内であるため、対象光線として選択され、主被写体３０３だけではなく背景被写体３０４についても３Ｄモデルに含めることができる。

また、図５のステップＳ５０３の判定の際に、図１１の自由視点カメラ１１０８の光線１１１０は対応する三次元点６０７が隣接する撮影カメラ１１０５の光線１１０７で被写界深度内に捉えられていることが分かるため、対象の光線として選択される。また、図１１の自由視点カメラ１１０８の光線１１０９は、対応する三次元点６０６が隣接する撮影カメラ１１０１の光線１１０３で被写界深度内に捉えられていることが分かるため、対象の光線として選択される。このように、主被写体３０３だけではなく背景被写体３０４についても自由視点画像をレンダリングすることができる。

本実施形態において、撮影カメラ１１０１、１１０５で焦点距離と撮影距離の両方を異ならせることで主被写体と背景被写体の双方をボリュームレンダリングできるように構成するが、これに限定されるものではなく、撮影距離だけ異ならせるようにしてもよい。背景被写体用の撮影カメラ１１０１の焦点距離を長くすると画角が狭められるため、配置する撮影カメラ数が増加する可能性がある。また、主被写体用の撮影カメラ１１０５の焦点距離を短くすると画角が広がるため、カメラが被写体に寄る必要が発生し、撮影カメラ１１０１に撮影カメラ１１０５が映り込んでしまう可能性がある。一方、焦点距離を合わせておけば、撮影準備やカメラキャリブレーションにおいてメリットがあるため、簡易な撮影に向いている。

本実施形態において、撮影カメラ１１０１、１１０５で焦点距離と撮影距離の両方を異ならせることで主被写体と背景被写体の双方をボリュームレンダリング可能に構成するが、これに限定されるものではなく、代わりに絞り値を異ならせるようにしてもよい。すなわち、主被写体用の撮影カメラ１１０５は開放付近の明るい絞り値に設定する一方、背景被写体用の撮影カメラ１１０１は絞り込んで撮影空間範囲３０２全体が被写界深度内に入るように絞り値を設定する。これにより、主被写体用の撮影カメラ１１０５は暗いシャッター秒時を選択し主被写体に動きがある場合でもシャープに撮影できるが、背景用の撮影カメラ１１０１は動きがある被写体に弱くなることや撮影感度が上がってノイズを増やす懸念が生じる。一方、背景被写体が撮影空間範囲３０２内に複数散在しているようなケースでは、撮り漏らしなく３Ｄモデルが生成できるメリットがある。このように周辺教師画像は、少なくともフォーカス位置（撮影距離）、焦点距離、または絞り値のうち少なくとも一つにおいて、教師画像と異なる画像でればよい。

本実施形態において、自由視点画像をレンダリングする際もピントマップを利用してボリュームレンダリングを高速化するが、これに限定されるものではない。例えば、３Ｄモデルの学習にはピントマップを利用して高速化する一方、自由視点画像レンダリングは従来技術通り撮影空間範囲にわたって空間サンプリングするようにしてもよい。これにより、自由視点画像レンダリング時にピントマップが不要になる。このため、従来技術によるレンダラーでも自由視点画像をレンダリングすることができるようになり、レンダラーの汎用性を高めることができる。

本実施形態において、主被写体も背景被写体も同じニューラルネットワークで３Ｄモデリングするが、これに限定されるものではなく、主被写体と背景被写体で別々のニューラルネットワークを構成してもよい。すなわち学習パラメータ算出手段は、教師画像と周辺教師画像とで異なる機械学習モデルを学習してもよい。これにより、学習効率を向上させることや、背景被写体の細部の再現性を向上させたりすることが期待できる。

本実施形態によれば、主被写体と背景被写体とでボリュームレンダリングに最適な光線を選択することができ、主被写体だけでなく背景被写体も含めて高速に３Ｄモデルを生成し自由視点画像を高速にレンダリングすることができる。

（第３の実施形態）
次に、本発明の第３の実施形態における画像処理装置について説明する。図１４は、パーソナルコンピュータ（画像処理装置）１４００のブロック図である。本実施形態のパーソナルコンピュータ１４００は、ニューラルネットワーク部１４０１を有する点で、第１の実施形態にて説明したニューラルネットワーク部１０７を有するパーソナルコンピュータ１００と異なる。なお、パーソナルコンピュータ１４００の他の構成は、パーソナルコンピュータ１００と同様であるため、それらの説明は省略する。

ニューラルネットワーク部１４０１は、被写体に動きがあるダイナミックシーン（動画）に対応可能である。このようなダイナミックシーンにおいて、光線ごとに光線上の点をサンプリングし対応する点の色と密度をニューラルネットワークにより演算し、対象空間にわたってボリュームレンダリングすることで各光線に対応する画素の色を決定する。学習および推論は、例えば非特許文献２に開示されている技術を用いることができる。学習時は、ボリュームレンダリングで算出された色と撮影画像の色とのＬ２損失を損失関数として誤差逆伝搬法により学習重みを収束させ、推論時は自由カメラ位置姿勢における各光線上をボリュームレンダリンすることで自由視点画像をレンダリングする。

ＦΘ：（ｘ，ｄ，ｚｔ）→（ｃ，σ）・・・（２）
式（２）において、ＦΘはマルチ・レイヤー・パーセプトロンからなるニューラルネットワークであり、サンプリングされる光線上の点の三次元座標ｘ、光線方向ベクトルｄに加え、時刻ｔのフレームにおける潜在コードｚｔを入力とする。ＦΘは各サンプリング点に対して、ＲＧＢの色ｃと密度σを出力する。

第１の実施形態のニューラルネットワーク部１０７は、単一の３Ｄモデルのみを表現する。一方、本実施形態のニューラルネットワーク部１４０１は、フレームごとに潜在コードｚｔを変化させることで、フレームごとに３Ｄ形状がダイナミックに変化するシーンを表現することが可能である。

次に、図１５を参照して、制御部１０１によるダイナミック３Ｄモデル学習について説明する。図１５は、ダイナミック３Ｄモデル学習のフローチャートである。まずステップＳ２０１において、撮影カメラ位置姿勢推定部１０５は、学習に使用する各画像に対応するカメラ位置姿勢を推定する。撮影カメラの位置は固定されているため、最初のフレームで取得された画像を用いてカメラ位置姿勢を推定する。

続いてステップＳ１５０１において、制御部１０１は全フレームに対する処理が完了したか否かを判定する。全フレームに対する処理が完了した場合、本フローを終了する。一方、全フレームに対する処理が完了していない場合、ステップＳ１５０２に進む。ステップＳ１５０２において、制御部１０１は、各フレームに対応する潜在コードを生成する。

続いてステップＳ１５０３において、制御部１０１は、イタレーション処理が完了したか否かを判定する。各フレームの学習は、イタレーション処理により学習重みを更新させることで、目標の学習重みに収束させる。イタレーション処理が完了した場合、ステップＳ１５０１へ戻る。一方、イタレーション処理が完了していない場合、ステップＳ１５０４に進む。

ステップＳ１５０４において、制御部１０１は、各イタレーションにおいて、まずバッチサイズ分の光線をランダムに選択する。非特許文献２には、入力ビデオの時間変動に基づいて学習のための次の光線を選択するレイ・インポータンス・サンプリングを行うことで、効率的に演算コストを低減させる技術が開示されている。本実施形態において、レイ・インポータンス・サンプリングを入力ビデオの被写界深度も考慮して行うことで、更なる演算効率化を図る。以下、図１６乃至図１９を参照して、その動作について説明する。

図１６は、教師画像の撮影の説明図であり、入力ビデオの冒頭フレームにおける、被写体、撮影空間および撮影カメラの関係を説明する鳥観図を示す。１６０１は撮影カメラ、３０２は３Ｄモデリング対象の撮影空間の範囲、３０３は主被写体、３０４は背景被写体である。撮影カメラ１６０１のピントは主被写体３０３に合焦されており、ハッチング部１６０５で示される広角な画角及びパンフォーカスな被写界深度内で撮影空間範囲３０２が全体的に合焦されている。撮影カメラ１６０１は、撮影空間範囲３０２内の被写体を様々な方向から撮影するために複数配置されるが、図１６では簡単のために撮影カメラ１６０１のみを示している。

撮影カメラ１６０１は、この後のフレームにおいて、焦点距離を標準画角に変化させ、絞りを開放寄りの明るい絞り値（Ｆ値）に変化させることで、主被写体３０３をより高精細に撮影できるようにカメラパラメータを変化させる。図１７は、教師画像の撮影の説明図であり、カメラパラメータ変化後の、被写体、撮影空間および撮影カメラの関係を説明する鳥観図を示す。撮影カメラ１６０１のピントは主被写体３０３に合焦されており、ハッチング部１７０５で示される標準画角および浅い被写界深度内で撮影空間範囲３０２が部分的に合焦されている。

図１８は、教師画像とピントマップの説明図であり、入力ビデオの冒頭フレームにおける撮影カメラ１６０１で取得された画像１８０１および付帯するメタデータであるピントマップ１８０２を説明する図を示す。図１８では、撮像面の合焦度合いをグレースケールマップの形式で示しており、手前が白、奥が黒、５０％グレーが合焦を示す。図１９は、教師画像とピントマップの説明図であり、カメラパラメータ変化後の撮影カメラ１６０１で取得された画像１９０１および付帯するメタデータであるピントマップ１９０２を説明する図を示す。

入力ビデオの冒頭フレームにおける、図１６の光線１６０６および光線１６０７はボリュームレンダリン対象の光線で、かつ対応する三次元点が被写界深度内にあるため、２光線とも選択される。一方、カメラパラメータ変化後の、図１７の光線１７０６および光線１７０７もボリュームレンダリン対象の光線であるが、光線１７０６上には被写界深度範囲にある被写体が存在しないため、除外する。不要な光線であるか否かの判定は、図１９のピントマップ１９０２により判定することが可能である。光線１７０７に対応する画素１９０４が５０％グレーの合焦画素であるのに対して、光線１７０６に対応する画素１９０３は被写界深度外の濃いグレーであることから、除外対象の光線であると判定する。

図１５のステップＳ１５０４にてバッチサイズ分の光線を選択した後、ステップＳ１５０５において、光線算出部１０６は光線を算出する。ボリュームレンダリングする光線は、前述の通り、ｒ（ｔ）＝ｏ＋ｔｄのように定義される。ここで、ｏは世界座標系におけるカメラの主点、ｄは世界座標系で表現される光線の方向ベクトル、ｔはカメラ主点から光線上のサンプリング点までの距離である。ボリュームレンダリングのためにサンプリングされる距離ｔの範囲は、図１６のハッチング部１６０５、および図１７のハッチング部１７０５で示される被写界深度内に制限される。このように、レイ・インポータンス・サンプリングを、被写界深度を考慮して行うことで、ボリュームレンダリング処理を高速化することができる。

また本実施形態において、被写界深度が深い図１６の場合でも被写界深度に応じたサンプリング範囲ｔを制限しているが、これに限定されるものではない。このような場合には、サンプリング範囲を制限する効果も低いことから、サンプリング範囲を固定化するために十分広い固定範囲を設定するようにしてもよい。

図１５のステップＳ１５０５にて光線が算出した後、ステップＳ１５０６において、ニューラルネットワーク部１４０１は、学習重みを更新する。ステップＳ１５０３～Ｓ１５０６の動作を学習重みが収束するまで繰り返すことで、学習重みを決定する。入力ビデオの全フレームの処理が完了した場合、本フローを終了する（ステップＳ１５０１）。

本実施形態において、被写界深度に基づいてレイ・インポータンス・サンプリングを行うが、これに限定されるものではなく、入力ビデオの時間変動と被写界深度の両方に基づいてレイ・インポータンス・サンプリングを行うようにしてもよい。多くの場合、入力ビデオのほうがピントマップより解像度が高い。このため、入力ビデオの時間変動を観測することで、より解像度高く不要な光線を除外したうえで、サンプリング範囲をピントマップに基づいて制限することができるため、更なる演算効率化が期待できる。

次に、図２０を参照して、制御部１０１による自由視点画像レンダリングについて説明する。図２０は、本実施形態における自由視点画像レンダリングのフローチャートである。まずステップＳ５０１において、自由カメラ位置姿勢取得部１０８は、レンダリングする自由視点のカメラ位置姿勢を取得する。

続いてステップＳ２００１において、制御部１０１は全フレームに対する処理が完了したか否かを判定する。全フレームに対する処理が完了した場合、本フローを終了する。一方、全フレームに対する処理が完了していない場合、ステップＳ２００２に進み、各フレームの潜在コードＺｔを更新しつつ、レンダリング画像の全画素に亘って、ボリュームレンダリングにより画素値（ＲＧＢ値）を算出する。すなわちステップＳ２００２において、制御部１０１は、各フレームに対応する潜在コードを生成する。続いてステップＳ２００３において、制御部１０１は、ボリュームレンダリングによる画素値（ＲＧＢ値）の算出がレンダリング画像の全画素に関して完了したか否かを判定する。全画素に対して画素値の算出が完了した場合、ステップＳ２００１に戻る。一方、全画素に対して画素値の算出が完了していない場合、ステップＳ２００４に進む。

ステップＳ２００４において、光線算出部１０６は、各画素に対応する光線を算出する（Ｓ２００４）。ボリュームレンダリングする光線は、前述の通り、ｒ（ｔ）＝ｏ＋ｔｄのように定義される。ここで、ｏは世界座標系におけるカメラの主点、ｄは世界座標系で表現される光線の方向ベクトル、ｔはカメラ主点から光線上のサンプリング点までの距離である。ステップＳ２００４にて光線が算出した後、ステップＳ２００５において、ニューラルネットワーク部１０７は、ボリュームレンダリング処理を実行し、対応する画素値（ＲＧＢ値）を算出する。

本実施形態において、入力ビデオの冒頭とそれ以降で焦点距離および被写界深度を変更するが、これに限定されるものではなく、例えば標準画角かつ浅い被写界深度で撮影している途中で複数回広角かつパンフォーカスな撮影を挟むようにしてもよい。これにより、入力ビデオの尺が長い場合に、途中で日差しなどの周辺環境が徐々に変化しても対応することができる。

本実施形態において、入力ビデオの冒頭とそれ以降で焦点距離および被写界深度を変更するが、これに限定されるものではなく、絞りだけ制御して被写界深度のみを変更するようにしてもよい。これにより、ズーム機構が無い単焦点レンズでも撮影が可能になる。もしくは、広角な単焦点カメラと標準画角の単焦点カメラを複数配置するようにしてもよい。また、ズームレンズであれば、絞り開放のまま標準画角から広角に焦点距離を変化させても被写界深度は深くなるため、それで十分な場合は焦点距離だけ制御するようにしてもよい。

本実施形態において、入力ビデオの冒頭とそれ以降で焦点距離および被写界深度を変更するが、これに限定されるものではなく、フォーカスを徐々に背景から主被写体に変更するようにしてもよい。これにより、主被写体だけではなくそれ以外の被写体も高精細に撮影することができる。フォーカスを変化させると像倍率が変化するので、さらに像倍率変化を補正することでより高精度に３Ｄモデルを学習させることができる。

このように本実施形態において、教師画像は、所定のフレームレートで取得された動画である。学習パラメータ算出手段は、動画のフレームごとに該フレームの特徴を示すコード特徴量（潜在コード）を算出し、動画のフレームごとにコード特徴量と教師画像とを用いることで機械学習を行い、学習パラメータを算出する。本実施形態において、取得手段は、教師画像において時間的に変化する領域（時間的な外観変化が顕著な領域）を取得し、光線算出手段は、取得手段により取得された領域の光線を重点的に選択して、対応する光線を出力してもよい。また本実施形態において、教師画像は、フォーカス位置、焦点距離、または絞り値のうち少なくとも一つが異なるフレームを含むように取得された動画である。

本実施形態によれば、被写体に動きがあるダイナミックシーンにおいても効率的にボリュームレンダリングを行うことで、高速に３Ｄモデルを生成することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施形態によれば、ボリュームレンダリングする光線とサンプリング範囲を適切に制限することで、高速に物体の緻密な形状を計測し、実写のような画像を再構成することができる。このため各実施形態によれば、高速にボリュームレンダリングを行うことが可能な画像処理装置、画像処理方法、およびプログラムを提供することができる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１００パーソナルコンピュータ（画像処理装置）
１０５撮影カメラ位置姿勢推定部（取得手段）
１０６光線算出部（光線算出手段）
１０７ニューラルネットワーク部（学習パラメータ算出手段、レンダリング手段）
１０８自由カメラ位置姿勢取得部（取得手段）

Claims

教師画像と、前記教師画像に対応するカメラの位置を取得する取得手段と、
前記カメラの前記位置を用いて前記教師画像の各画素に対応する光線を算出する光線算出手段と、
前記光線における点をサンプリングして前記教師画像を用いることで機械学習を行い、学習パラメータを算出する学習パラメータ算出手段とを有し、
前記教師画像の被写界深度の範囲内における前記光線のサンプリング密度は、前記被写界深度の範囲外の前記サンプリング密度よりも高いことを特徴とする画像処理装置。
カメラの位置を取得する取得手段と、
前記カメラの前記位置を用いて前記カメラの各画素に対応する光線を算出する光線算出手段と、
学習パラメータ算出手段により前記光線における点をサンプリングして事前学習された学習パラメータを用いて、機械学習により前記カメラの画像をレンダリングするレンダリング手段とを有し、
前記事前学習で用いられた教師画像の被写界深度の範囲内における前記光線のサンプリング密度は、前記被写界深度の範囲外の前記サンプリング密度よりも高いことを特徴とする画像処理装置。
前記取得手段は、更に前記教師画像に対応する距離分布情報を取得し、
前記光線算出手段は、前記距離分布情報に基づいて、前記光線が前記教師画像の前記被写界深度の範囲内にあるか否かを判定することを特徴とする請求項１または２に記載の画像処理装置。
前記距離分布情報に基づいて、被写体表面が被写体合焦距離よりも手前にあるか奥にあるかが判定され、
前記被写体表面が前記被写体合焦距離よりも手前にあるか奥にあるかに関する判定結果に基づいて、前記サンプリング密度が変化することを特徴とする請求項３に記載の画像処理装置。
前記距離分布情報に基づいて、被写体表面までの距離が決定され、
前記被写体表面までの前記距離を基準として、前記サンプリング密度が決定されることを特徴とする請求項３または４に記載の画像処理装置。
前記距離分布情報は、前記教師画像よりも解像度が低いことを特徴とする請求項３乃至５のいずれか一項に記載の画像処理装置。
前記光線算出手段は、前記距離分布情報に基づいて被写体輪郭領域を特定し、前記被写体輪郭領域に対して、光線を選択しやすくし、サンプリング範囲を広範囲に設定することを特徴とする請求項３乃至６のいずれか一項に記載の画像処理装置。
前記光線算出手段は、前記距離分布情報に基づいて信頼性が低いと判定した領域に対して、全ての光線を選択し、サンプリング範囲を広範囲に設定することを特徴とする請求項３乃至７のいずれか一項に記載の画像処理装置。
前記取得手段は、前記カメラの光学系の歪曲成分に基づいて、前記教師画像および前記距離分布情報に対する処理を行うことを特徴とする請求項３乃至８のいずれか一項に記載の画像処理装置。
前記距離分布情報は、視差を表すシフト量に基づくマップ、デフォーカス量に基づくマップ、または距離に基づくマップの少なくとも一つを含むことを特徴とする請求項３乃至９のいずれか一項に記載の画像処理装置。
前記取得手段は、更に周辺空間の周辺教師画像を取得し、
前記学習パラメータ算出手段は、前記教師画像と前記周辺教師画像とを用いることで前記機械学習を行い、前記学習パラメータを算出することを特徴とする請求項１乃至１０のいずれか一項に記載の画像処理装置。
前記周辺教師画像は、少なくともフォーカス位置、焦点距離、または絞り値のうち少なくとも一つにおいて、前記教師画像と異なる画像であることを特徴とする請求項１１に記載の画像処理装置。
前記学習パラメータ算出手段は、前記教師画像と前記周辺教師画像とで異なる機械学習モデルを学習することを特徴とする請求項１１または１２に記載の画像処理装置。
前記教師画像は、所定のフレームレートで取得された動画であり、
前記学習パラメータ算出手段は、
前記動画のフレームごとに該フレームの特徴を示すコード特徴量を算出し、
前記動画のフレームごとに前記コード特徴量と前記教師画像とを用いることで機械学習を行い、前記学習パラメータを算出することを特徴とする請求項１乃至１３のいずれか一項に記載の画像処理装置。
前記取得手段は、前記教師画像において時間的に変化する領域を取得し、
前記光線算出手段は、前記取得手段により取得された前記領域の光線を重点的に選択して、対応する光線を出力することを特徴とする請求項１４に記載の画像処理装置。
前記教師画像は、フォーカス位置、焦点距離、または絞り値のうち少なくとも一つが異なるフレームを含むように取得された動画であることを特徴とする請求項１４または１５に記載の画像処理装置。
前記被写界深度を決定するための許容錯乱円径は、前記学習パラメータを用いたレンダリングの際の解像度に基づいて決定されることを特徴とする請求項１乃至１６のいずれか一項に記載の画像処理装置。
教師画像と、前記教師画像に対応するカメラの位置を取得するステップと、
前記カメラの前記位置を用いて前記教師画像の各画素に対応する光線を算出するステップと、
前記光線における点をサンプリングして前記教師画像を用いることで機械学習を行い、学習パラメータを算出するステップとを有し、
前記教師画像の被写界深度の範囲内における前記光線のサンプリング密度は、前記被写界深度の範囲外の前記サンプリング密度よりも高いことを特徴とする画像処理方法。
カメラの位置を取得するステップと、
前記カメラの前記位置を用いて前記カメラの各画素に対応する光線を算出するステップと、
学習パラメータ算出手段により前記光線における点をサンプリングして事前学習された学習パラメータを用いて、機械学習により前記カメラの画像をレンダリングするステップとを有し、
前記事前学習で用いられた教師画像の被写界深度の範囲内における前記光線のサンプリング密度は、前記被写界深度の範囲外の前記サンプリング密度よりも高いことを特徴とする画像処理方法。
請求項１８または１９に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。