JP7673392B2

JP7673392B2 - 画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム

Info

Publication number: JP7673392B2
Application number: JP2020203545A
Authority: JP
Inventors: ジンウェイソン; ミタッシュクマーパテル; ガーゲンソンアンドレアス; チョルファンキム
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-02-28
Filing date: 2020-12-08
Publication date: 2025-05-09
Anticipated expiration: 2040-12-08
Also published as: US11227406B2; CN113409386A; US20210272317A1; JP2021140747A; CN113409386B

Description

例示的な実装形態の態様は、環境における画像ベースの位置特定に関連付けられた方法、システム、及びユーザ体験に関し、より具体的には、画像ベースの位置特定のために深層学習と幾何学的制約とを融合するアプローチに関する。

関連技術の内視鏡システムは、体内構造を検査するための最小侵襲的方法を提供することができる。より具体的には、関連技術の低侵襲手術（ＭＩＳ）アプローチは、医師に体内構造を検査するためのツールを提供することができ、正確な治療介入に使用することができる。

例えば、内視鏡又は気管支鏡などのスコープを、腸又は肺などの患者の環境内に配置して、その構造を検査することができる。センサ又はカメラなどのスコープ上の装置は、情報を感知し、環境の画像、映像などの情報をユーザに提供することができる。外科医などの医療従事者が映像を分析する場合がある。分析に基づいて、外科医は提言を提供するか、又は処置を行うことができる。

関連技術のロボット及びセンサ技術を用いて、様々な関連技術の胃腸（ＧＩ）管スコープ解決法が開発されている。このような関連技術のＧＩ管アプローチでは、正確な位置特定及び追跡により、医師は、ポリープ、癌組織、病変などの様々な病理学的所見の進行を突き止めて追跡することができる。このような関連技術の内視鏡システムは、正確な治療介入の必要性を賄うことができ、それ故に所与の胃腸（ＧＩ）管及び／又は気管支管において正確に位置特定して追跡することができなければならない。

ＧＩ管を追跡する関連技術のアプローチは、画像分類とも呼ばれる、画像類似性を比較する関連技術の画像記述子の使用など、画像類似性の比較を含む場合がある。さらに、関連技術は、幾何学的最適化とも呼ばれる、ＳＬＡＭ又は画像からモデルへの登録のための陰影からの形状のような関連技術の幾何学的技術など、幾何学ベースのポーズ回帰を使用する場合がある。関連技術はまた、ポーズ回帰に深層学習に基づく画像を使用する場合がある。

関連技術の深層学習アプローチは、小さい注釈付き訓練データセット、並びに深層学習が関連技術で使用されている他の屋内又は屋外環境とは異なる識別可能なテクスチャの欠如など、大腸内視鏡検査又は気管支鏡検査のような用途のために追跡に特有の様々な問題及び欠点を有する。例えば、テクスチャを定義するコーナー点がなく、体組織の性質としては、血流があり、滑らかな曲線及び管状の構造を有し、コーナー点がないことである。したがって、体積面の類似のコーナー、及び固体と液体の混合物がある。

例えば、限定するものではないが、関連技術の深層学習及び回帰アプローチは、不十分なデータセットを有すること、並びに上述のようなコーナー及びテクスチャの欠如という問題に悩まされている。これらの側面において、外科的シナリオは、自動運転などの他の環境で使用される関連技術のアプローチとは異なり、区別可能である。例えば、ＧＩ管及び／又は肺の気管支管には独特の生理学的特性があるため、コーナーのない管様構造が多い。

さらに、深層学習及び回帰への関連技術のアプローチは、スコープの位置を見つけようとするので、更なる問題及び／又は欠点が生じ得る。例えば、限定するものではないが、訓練のための十分な質及び量のデータセットが不足していることにより、完全に環境外に位置する外れ値に関連付けられた別の問題がある。このような外れ値の結果は、スコープが肺及びＧＩ管などの環境から完全に外れていると判断されると、医療従事者がその情報に依存して適切な分析及び治療を行うことを困難にする可能性がある医療分野において極めて重要である。

ＧＩ管における位置特定への関連のアプローチは、関連技術のコンピュータビジョン技術（例えば、ＳＩＦＴ及びＳＵＲＦ）による単眼画像を使用している。しかし、このような関連技術のアプローチは、変形、強度、及び様々な障害物など、様々な問題及び欠点を有し得る。例えば、関連技術のシステムは、奥行き知覚の欠如、又は関連技術のＲＧＢ／単眼画像によって提供される限られた視野内での不十分な位置特定を有し得る。例えば、患者の身体の環境内に軟部組織が近接しているため、スコープの視野は狭い。

関連技術の奥行き／ステレオベースのスコープ位置決めシステムは、３Ｄ（次元）奥行き情報が提供されず、かつ利用可能なデータがＲＧＢ映像のみであるため、単眼内視鏡に直接適合させることはできない。

さらに、深層学習ベースの位置特定及び追跡を一般化するために大量のデータを使用する、満たされていない要求がある。このようなデータは、プライバシー問題のため、特に医療分野では取得が困難である。さらに、関連技術の幾何学ベースの方法は、特徴の数が最小であり、かつ登録が失われ得るので、ＧＩ管スコープ追跡に適用可能ではない。また、患者にスコープを積極的に挿入し続けることによってデータセットの数を増やすことは実際的でも健康的でもない。

したがって、医師は、ＧＩ管の内視鏡位置など、人体の環境におけるスコープの位置を判定することが困難である場合がある。この問題は、肺の分岐生理学のため、肺などの特定の組織ではより一層深刻になっている。

ARANDJELOVIC, R., et al., NetVLAD; CNN Architecture for Weakly Supervised Place Recognition, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 5297-5307. DEGUCHI, D., et al., Selective Image Similarity Measure for Bronchoscope Tracking Based on Image Registration, Medical Image Analysis, 2009, 13, pp. 621-633. DlMAS, G., et al., Visual Localization of Wireless Capsule Endoscope Aided by Artificial Neural Networks, 2017 IEEE 30th International Symposium on Computer-Based Medical Systems, 2017, pp. 734-738. ENGEL, J., et al., Direct Sparse Odometry, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(3), March 2018, pp. 611-625. HE, K., et al., Deep Residual Learning for Image Recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770-778. KENDALL, A.., et al., PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization, Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2938-2946. LUO, X., et al., Development and Comparison of New Hybrid Motion Tracking for Bronchoscopic Navigation, Medical image Analysis, 2012, 16, pp. 577-596. LUO, X., et al., A Discriminative Structural Similarity Measure and its Application to Video-Volume Registration for Endoscope Three-Dimensional Motion Tracking, IEEE Transactions on Medical Imaging 33(6), June 2014, pp. 1248-1261. MAHMOUD, N., et al., ORBSLAM-based Endoscope Tracking and 3D Reconstruction, arXiv: 1608.08149 [cs.CV], August 29, 2016,13 pgs. MERRITT, S. A., et al., Interactive CT-Video Registration for the Continuous Guidance of Bronchoscopy, IEEE TransMed Imaging August 2013, 32(8), pp. 1376-1396. DEGUCHI, D., et al., New Image Similarity Measure for Bronchoscope Tracking Based on Image Registration, Medical imaging 2004; Physiology, Function, and Structure from Medical Images, 5369, 2004, pp. 165-176. MUR-ARTAL, R., et al., ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras, IEEE Transactions on Robotics, July 19, 2017, 33(5), pp. 1255-1262. PATEL, M., et al., ContextualNet: Exploiting Contextual Information Using LSTMs to Improve Image-Based Localization, 2018 IEEE International Conference on Robotics and Automation (ICRA), May 21-25, 2018, Brisbane, Australia, pp. 5890-5896. SGANGA, J., et al., OffsetNet Deep Learning for Localization in the Lung Using Rendered Images, arXiv: 1809.05645 [cs.CV], September 15, 2018, 7 pgs. SHEN, M., et al., Robust Camera Localisation with Depth Reconstruction for Bronchoscopic Navigation, International Journal of Computer Assisted Radiology and Surgery, 10(6), 2015, 16 pgs. TURAN, M., et al., Deep EndoVO: A Recurrent Convolutional Neural Network (RCNN) Based Visual Odometry Approach for Endoscopic Capsule Robots, Neurocomputing, 275, 2018, pp. 1861-1870. WEYAND, T., et al., PlaNet - Photo Geolocation with Convolutional Neural Networks, European Conference on Computer Vision, February 17, 2016, 10 pgs.

本開示の技術は、ゾーンに分割された環境内の最適なポーズにおけるテスト画像の正確な位置を得ることが可能なコンピュータ実装方法、プログラム、及びコンピュータ実装システムを提供することを目的とする。

例示的な実装形態の第１の態様によれば、ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び最も近いゾーンに一致するテスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために最も近いゾーンのマップ点を三角測量することによって抽出された特徴に対してバンドル調整を実行し、テスト画像の最適なポーズを判定するために再投影誤差を最小化することと、最適なポーズに対して、環境内の最適なポーズにおけるテスト画像の位置又は位置の確率を示す出力を提供することと、を含むコンピュータ実装方法が提供される。
第２の態様は、第１の態様において、前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む。
第３の態様は、第２の態様において、前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである。
第４の態様は、第１の態様において、前記バンドル調整は、測定されたポーズに関連付けられた３Ｄ（次元）点及び前記三角測量されたマップ点を２Ｄ画像空間に再投影して結果を生成することと、前記結果を登録された２Ｄ観察と比較して前記再投影誤差を判定することとを含む。
第５の態様は、第４の態様において、再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される。
第６の態様は、第４の態様において、再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される。
第７の態様は、第１の態様において、前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む。
第８の態様のプログラムは、プロセッサに、ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び前記最も近いゾーンに一致する前記テスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、を含む処理を実行させる。
第９の態様は、第８の態様において、前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む。
第１０の態様は、第９の態様において、前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである。
第１１の態様は、第８の態様において、前記バンドル調整は、測定されたポーズに関連付けられた３Ｄ点及び前記三角測量されたマップ点を２Ｄ画像空間に再投影して結果を生成することと、前記結果を登録された２Ｄ観察と比較して前記再投影誤差を判定することとを含む。
第１２の態様は、第１１の態様において、再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される。
第１３の態様は、第１１の態様において、再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される。
第１４の態様は、第８の態様において、前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む。
第１５の態様は、標的を識別するために環境内でスコープを位置特定して追跡するコンピュータ実装システムであって、前記スコープに関連付けられ、ゾーンに分割された前記環境の訓練画像をニューラルネットワークに適用し、前記スコープに関連付けられた前記環境の前記ゾーンのうちの最も近いゾーンに基づいて、前記スコープによって生成されたテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び前記最も近いゾーンに一致する前記テスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記スコープによって生成された前記テスト画像の位置又は位置の確率を示す出力を提供することと、を行うように構成される。
第１６の態様は、第１５の態様において、前記環境は、胃腸管又は１つ若しくは複数の肺の気管支管を含む。
第１７の態様は、第１５の態様において、前記スコープは、ポリープ、病変、及び癌組織のうちの少なくとも１つを含む１つ又は複数の標的の位置を提供するように構成される。
第１８の態様は、第１５の態様において、前記スコープは、前記環境に関連付けられた前記テスト画像を受信するように構成された１つ又は複数のセンサを備え、前記テスト画像は視覚画像である。
第１９の態様は、第１５の態様において、前記スコープは内視鏡又は気管支鏡である。
第２０の態様は、第１５の態様において、前記環境は、配管系、地下環境、又は産業施設である。

例示的な実装形態はまた、記憶装置及びプロセッサを有する非一時的コンピュータ可読媒体を含むことでき、このプロセッサは、画像ベースの位置特定のために深層学習と幾何学的制約とを融合する、標的組織における画像ベースの位置特定のための命令を実行することができる。

図１は、例示的な実装形態による訓練及びテストのためのフレームワークの様々な態様を示した図である。図２は、例示的な実装形態によるシミュレータによって生成された例示的な表現及びデータを示した図である。図３は、例示的な実装形態による訓練プロセスを示した図である。図４は、例示的な実装形態による訓練アプローチを示した図である。図５は、例示的な実装形態による予測アプローチを示した図である。図６は、例示的な実装形態によるバンドル調整を示した図である。図７は、例示的な実装形態による結果を示した図である。図８は、例示的な実装形態による結果を示した図である。図９は、いくつかの例示的な実装形態に対する例示的なプロセスを示した図である。図１０は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を有する例示的なコンピューティング環境を示した図である。図１１は、いくつかの例示的な実装形態に適した例示的な環境を示した図である。

以下の発明を実施するための形態は、図面の更なる詳細及び本出願の例示的な実装形態を提供する。図と図の間の冗長要素の参照番号及び説明は、明確にするために省略される。本明細書全体を通して使用される用語は、例として提供されており、限定することを意図していない。

例示的な実装形態の態様は、限定されるものではないが、低侵襲手術（ＭＩＳ）アプローチ（例えば、内視鏡的アプローチ）を含む様々な分野での適用のために、深層学習方法を幾何学的制約と組み合わせることを対象とする。

開腹手術とは対照的に、ＭＩＳは手術視野を狭める。それ故に、外科医は開腹手術アプローチよりも少ない情報しか得られないことがある。したがって、ＭＩＳアプローチは、直接３Ｄビジョンなしに細長いツールを用いて狭い空間で操作手順を実行する必要がある。さらに、訓練データセットは小さく、制限される場合がある。

例示的な実装形態は、組織内の位置特定を制約することによって、組織（例えば、ＧＩ管、肺など）を用いて、ＭＩＳ技術のための画像ベースの位置特定を提供することを対象とする。

より具体的には、例示的な実装形態は、類似性に基づいて、テスト画像を訓練画像のうちの１つに分類する。最も近い訓練画像及びその近傍画像をそのポーズ情報とともに使用して、特徴登録及びバンドル調整を用いてテスト画像の最適なポーズ（例えば、位置及び配向）を生成する。スコープの位置及び配向を位置特定することによって、外科医は体内のスコープの位置を認識することができる。例示的な本実装形態はスコープに言及しているが、例示的な実装形態はこれに限定されず、本発明の範囲から逸脱することなく、他のＭＩＳ構造、装置、システム及び／又は方法に置き換えてもよい。例えば、限定するものではないが、プローブがスコープの代わりに置き換えられてもよい。

例えば、限定するものではないが、例示的な実装形態は、深層学習を従来の幾何学ベースの技術と融合するハイブリッドシステムを対象とする。この融合アプローチを用いて、本システムは、より小さいデータセットを使用して訓練することができる。したがって、例示的な実装形態は、訓練データ及びテクスチャのより少ないサンプルで、単眼ＲＧＢ画像を使用する位置特定のための解決法を任意に提供することができる。

さらに、例示的な実装形態は、推定されたポーズのロバスト性を提供し得る深層学習技術を有する幾何学的方法を使用する。より具体的には、再投影誤差最小化プロセスにおいて、再投影誤差が大きいポーズが直接拒否され得る。

各ゾーンに少なくとも１つの画像を割り当てるように、訓練画像が取得され、ラベル付けされ得る。ラベル付き画像を使用して、ニューラルネットワークを訓練する。ニューラルネットワークが訓練されると、テスト画像が提供され、ゾーンに分類される。さらに、訓練データセットツリー、及び訓練データセットからの画像が得られる。主要な特徴を取得して調整し、注視点を復元し、投影誤差を最小化する。

上述の例示的な実装形態は、深層学習を幾何学ベースの位置特定及び追跡と融合するハイブリッドシステムを対象とする。より具体的には、例示的な実装形態による深層学習の構成要素は、高レベルのゾーン分類を提供し、この分類は、所与のテスト画像のポーズを最適化するために幾何学ベースの精密化によって使用され得る。

例示的な実装形態における精密化を行うための幾何学の適用は、深層学習モデルの予測を制約するのを支援することができ、より良いポーズ推定を任意に行うことができる。さらに、本明細書に記載されるように深層学習技術と幾何学的技術とを融合することによって、小さい訓練データセットを使用して正確な結果を達成することができ、外れ値などの関連技術の問題を回避することができる。

例示的な本実装形態は、グラウンドトゥルースを提供するシミュレーションされたデータセットを提供する。訓練の側面では、画像がニューラルネットワークに入力され、出力が環境のゾーンに関連付けられた画像ラベルとして提供される。より具体的には、環境はゾーンに細分化される。この細分化は、ゾーンを等しい長さに分割するなど、自動的に行われてもよく、又はゾーンの適切な細分化に関する外科医の入力に基づくなど、医療分野における専門知識を使用して行われてもよい。したがって、各画像はゾーンに対してラベル付けされ、画像はゾーンに分類される。

訓練フェーズ後、テスト画像が入力され、ゾーンに分類される。テスト画像はニューラルネットワークに供給され、訓練データセットと比較されて、訓練画像及びテスト画像からコーナーを抽出し、マップ点のグローバル位置を構築するようにする。換言すれば、訓練データセットに対して比較が行われ、主要な特徴が得られ、判定され、コーナー点として識別される。

訓練画像に対して、３Ｄ点は２Ｄ画像に投影され、投影された３Ｄ点と２Ｄ画像との間の距離を最小化するための操作が行われる。結果として、再投影誤差を最小化する方法でコーナー点が復元される。

図１～図５は、例示的な実装形態の様々な態様を示す。図１は、訓練及び推論を含む、例示的な実装形態の全体像を示す。

例示的な実装形態は、ＰｏｓｅＮｅｔ１０７（例えば、予測）及びポーズ精密化１０９の２つの主ブロックに分けることができる。１０７での予測フェーズでは、例示的な実装形態は、深層学習フレームワーク（例えば、ＧｏｏｇＬｅＮｅｔ）であるＰｏｓｅＮｅｔを利用する。本システムは、所定の数（例えば、２３）の畳み込み層と、１つ又は複数の完全に接続された層（例えば、１）とからなる。１０７では、本モデルは、実際のポーズを学習するのではなく、ゾーンレベルの分類を学習する。推論の間、ＰｏｓｅＮｅｔは、所与のテスト画像が一致する最も近いゾーンを分類してもよい。

１０９での精密化フェーズでは、１０７でＰｏｓｅＮｅｔによって分類されたゾーン、並びに訓練画像からの検索された画像及びポーズ情報が、最も近い一致を判定するために適用される。ポーズ最適化のために、最も近い一致の訓練画像に対して、隣接するポーズのストリームが採用される。その画像ストリーム及びその対応するポーズ情報は、ポーズの推定に使用される。

より具体的には、例示的な一実装形態によれば、Ｕｎｉｔｙ３Ｄは、ファントムから画像－ポーズ対を生成するために使用され得る。ｐｏｓｅｎｅｔモデル１０１は、１０１からのこれらの訓練セットを使用して訓練される。例えば、限定するものではないが、ポーズ回帰がゾーン分類に置き換えられてもよい。したがって、隣接するポーズの画像はゾーンとして分類され、１０５でラベル付けが行われる。

訓練データに関して、１０１では、訓練画像が深層学習ニューラルネットワーク１０３に提供される。図２に示すように、２００では、大腸２０１は、大腸２０１の画像を処理する線によって識別される複数のゾーンに分割され得る。例えば、限定するものではないが、第１の画像２０３はゾーンのうちの第１の画像を表してもよく、第２の画像２０５はゾーンのうちの第２の画像を表してもよい。

図３は、３００での訓練フェーズに適用されるように、前述の例示的な実装形態を示す。上述したように、訓練画像３０１は、深層学習ニューラルネットワーク３０３に提供されて、画像の位置のゾーン分類に関連付けられた画像ラベル３０５を生成する。これは、３１３で画像としてさらに表される。複数の画像３０７は、対応して３０９で訓練に使用され、３１１でラベル付けされる。

ＰｏｓｅＮｅｔ１０７では、テスト画像１１１が深層学習ニューラルネットワーク１１３に提供され、ラベル１１５が生成される。これは、４０１として図４においても表されている。より具体的には、テスト画像に対して、訓練セットにおける最も類似したゾーンが、ディープニューラルネットワークを用いて予測される。

１０９でのポーズ精密化では、訓練データベース１１７は、ＰｏｓｅＮｅｔ１０７からの入力を受信する。これは、５０１として図５においても表されている。例えば、限定するものではないが、訓練データベースは、ポーズ及びラベルに関連付けられた画像ＩＤを提供してもよい。ポーズは画像状態を示し、ラベルはポーズに関連付けられた分類を示す。

この情報は、特徴抽出部に供給され、この特徴抽出部は、ポーズｎ－ｋ１３３、ポーズｎ１２９、及びポーズｎ＋ｋ１２５にそれぞれ関連付けられた出力画像１１９、１２１及び１２３を受信する。例えば、限定するものではないが、バンドル調整及び再投影誤差最小化の前の潜在的な誤分類リスクを回避するために、ゾーン及び隣接するゾーンが含まれる。

したがって、１３５、１３１及び１２７では、画像１２３、１２１及び１１９の各々から特徴がそれぞれ抽出される。より具体的には、特徴抽出部は、画像のストリームから（例えば、ＳＵＲＦ）抽出するために使用される。これらの抽出された特徴はバンドル調整にさらに使用され、各画像からの特徴はその特性に基づいて登録される。

より具体的には、図６に示すように、特徴抽出部は、画像１１９、１２１及び１２３である出力画像６０１の使用を含む。前述の特徴抽出操作は、様々なゾーンを示し得る、複数の隣接するポーズｎ－ｋ６０３、ポーズｎ６０５、及びポーズｎ＋ｋ６０７に関して、出力画像６０１に対して行われる。６０９及び６１１に示すように、マップ点の三角測量は、予測されたゾーンに基づいて行われてもよい。

１３９において、バンドル調整では、画像１２３、１２１及び１１９から抽出された特徴（例えば、１３５、１３１及び１２７）、並びにこれらの画像のポーズ情報１３３、１２９及び１２５を使用して、ポーズをマッピングするためのローカルバンドル調整を行う。関連する画像のポーズはグラウンドトゥルースであるので、いくつかのコーナー特徴点をマッピングするための多重画像三角測量プロセスである。

１４１において、かつ５０３として図５にも表すことにおいて、再投影誤差は、数式（１）で定義され得るように、再最適化され得る。

Ｐ（位置）及びＲ（配向）はスコープのポーズであり、ｖ_ｉは三角測量されたマップ点である。Π（）は３Ｄ点を２Ｄ画像空間に再投影し、Ｏ_ｉは登録された２Ｄ観察である。１３７では、テスト画像１１１の主要な特徴もまた、１４１の再投影誤差最小化に供給されてもよい。

最適化された平均再投影レベルが閾値以下である場合、最適なグローバルポーズは１４３で求められる。そうでなければ、初期ポーズは正しくないとされ、Ｐｏｓｅｎｅｔの失敗が原因であるとされる。Ｐｏｓｅｎｅｔの出力は完全に測定可能であるので、例示的な実装形態は、出力の妥当性を識別するためのロバストなアプローチを提供する。

さらに、再投影誤差が最小化される。より具体的には、主要な特徴とテスト画像との間に登録が構築され、この登録は、登録された主要な特徴点の再投影誤差を最小化することによってテスト画像のポーズを最適化するためにさらに使用される。

前述の例示的な実装形態は、様々な用途において実施され得る。例えば、本スコープは、特徴に関連する一時的な変化に関連付けられた情報を提供するために医療現場で使用されてもよい。１つの例示的な用途として、ポリープの成長を経時的に追跡することができ、スコープの正確な位置を特定可能にすること、並びにポリープ及びその大きさを適切に識別する能力によって、医療従事者は、ポリープのより正確な追跡を行うことができる。結果として、医療従事者は、より正確なリスク分析を提供することができるだけでなく、関連する提言並びに行動方針及びより正確な方法を提供することができる。

さらに、本スコープは、人体の環境内で処置を行うための装置又はツールを含んでもよい。たとえば、本スコープは、環境内の標的を変更することができるツールを含んでもよい。例示的な一実装形態では、このツールは、レーザ、熱、若しくはブレードなどの切削ツール、又は当業者に理解されるような他の切削構造であってもよい。この切削ツールは、ポリープがある一定の大きさより大きい場合、リアルタイムでポリープを切除するなどの処置を行ってもよい。

原則として、医学的アプローチに応じて、又は大きすぎるか、若しくは患者に有害であると医学従事者が判断した場合にポリープを切除するだけであり、より慎重なアプローチによれば、この環境における標的の成長を追跡してもよい。さらに、本スコープは、装置又はツールによって行われた処置後に経過観察スクリーニングをより正確に行うために例示的な実装形態に従って使用されてもよい。

ポリープの例を本明細書に示しているが、例示的な本実装形態はその例に限定されず、本発明の範囲から逸脱しない他の環境又は標的に置き換えてもよい。例えば、限定するものではないが、環境は、ＧＩ管ではなく肺の気管支であってもよい。同様に、標的は、ポリープではなく病変又は腫瘍であってもよい。

さらに、例示的な実用的実装形態は、結果を予測ツールに供給してもよい。このような例示的なアプローチによれば、人口統計学、組織の成長速度及び履歴データに基づいて、予測的なリスク評価を生成するために、分析を実行することができる。予測リスク評価は、医療従事者によって再調査されてもよく、医療従事者は予測ツールの結果を検証又は有効性確認することができる。医療従事者による有効性確認又は検証は、予測ツールに戻されて、その精度を向上させ得る。あるいは、予測的リスク評価は、医療従事者による検証又は有効性確認の有無にかかわらず、意思決定支援システムに入力されてもよい。

このような状況では、意思決定支援システムは、リアルタイムで、又はスコープが除去された後に、医療従事者に提言を提供してもよい。提言がリアルタイムで医療従事者に提供される選択肢では、スコープもまた切削ツールを運び得るので、意思決定支援システムの提言に基づいてリアルタイム操作が行われてもよい。

さらに、前述の例示的な実装形態は、この環境を、肺又は腸などの明確に定義されたコーナー点を有さない人体内の環境として定義し得るが、例示的な実装形態はこれに限定されず、同様の特徴を有する他の環境も本範囲内にあり得る。

例えば、限定するものではないが、下水管又は送水管などの配管システムは、検査ツールが正確にどの管セグメントに位置しているかを判定可能であることが困難であることにより、損傷、損耗又は交換に関して検査することが困難な場合がある。例示的な本実装形態を用いることにより、下水管及び送水管を経時的により正確に検査することができ、管のメンテナンス又は交換などをより低い精度で行うことができる。同様のアプローチは、工場環境の意識、水中、洞窟などの地下環境、又は例示的な本実装形態に関連付けられた条件を満たす他の同様の環境などの産業安全において取り組まれ得る。

図７は、例示的な実装形態に関連付けられた結果を７００に示す。７０１では、深層学習のみを含む関連技術のアプローチを示している。より具体的には、回帰を使用するアプローチを示しており、分かり得るように、グラウンドトゥルースの外側の外れ値の数は、大きさ及び数の両方において有意である。上述したように、これは、カメラの視野が狭いという関連技術の問題、並びにそれに伴う誤分類のリスクに起因する。

７０３では、分類のみを使用するテスト画像情報を使用するアプローチを示している。しかし、このアプローチによれば、データは、映像から厳密に入手可能なデータに限定される。

７０５では、分類及びバンドル調整を含む、例示的な実装形態によるアプローチを示している。誤差は少ないが、これらの誤差は主に画像のテクスチャによるものである。

図８は、例示的な実装形態の有効性確認を示しており、経時的な誤差の差を示している。Ｘ軸は経時的なキーフレームを示し、Ｙ軸は誤差を示す。８０１では、位置の誤差を表しており、８０３では、角度の誤差を表している。青線は例示的な実装形態の技術を使用して誤差を表し、赤線は分類技術のみを使用して計算された誤差を表し、上述し、かつ図７に示すように、７０３に対応している。

より具体的には、男性の消化器系の既製モデルに基づいてシミュレーションデータセットを生成する。仮想の大腸内視鏡を大腸内に設置し、観察をシミュレーションする。Ｕｎｉｔｙ３Ｄ（ｈｔｔｐｓ：／／ｕｎｉｔｙ．ｃｏｍ／）を使用して、厳密なピンホールカメラモデルを用いて、連続する２ＤのＲＧＢ画像をシミュレーションして生成する。シミュレーションした生体内消化（例えば、図２に示すように）のフレームレート及びサイズは３０フレーム／秒、及び６４０×４８０である。同時に大腸内視鏡のグローバルポーズを記録する。

図示し、かつ上述したように、赤のプロットは分類のみを有する結果（例えば、関連技術）を対象とし、青のプロットは例示的な実装形態によるポーズ精密化が行われた結果を対象とする。分かり得るように、一般的に言えば、これらの結果は、位置差及び角度差の両方に関して、行われたポーズ精密化に対するより良い精度を示している。

より具体的には、上述したように、図８は、８０１におけるキーフレームＩＤに対する位置差誤差の比較８００を示し、８０３におけるキーフレームＩＤに対する角度差誤差の比較を示す。表１は、関連技術（すなわち、ＣｏｎｔｅｘｔｕａｌＮｅｔ）と本明細書に記載の例示的な実装形態との間の誤差比較を示す。

例示的な実装形態は、他のセンサ又はアプローチと統合されてもよい。例えば、限定するものではないが、慣性測定ユニット、温度センサ、酸性度センサ、又は環境に関連付けられた周囲を感知することに関連付けられた他のセンサなど、他のセンサをスコープ上に統合することができる。

同様に、所与の種類のセンサの複数のセンサが使用されてもよく、関連技術のアプローチはこのような複数のセンサを使用しなくてもよく、関連技術は、本明細書に記載のラベル付け、特徴抽出、バンドル調整及び再投影誤差最小化アプローチを使用するのとは対照的に、正確な位置を提供することに焦点を当てている。

例示的な本実装形態がセンサ若しくはカメラのより高い精度、又は追加の訓練データセットを必要としないことにより、既存の機器は例示的な実装形態とともに使用して、より正確な結果を達成し得る。したがって、より正確なカメラ又はセンサを得るためにハードウェアをアップグレードする必要性は低減され得る。

さらに、精度の向上はまた、様々な種類のカメラ及びスコープを交換することを可能にし、様々な医療施設が、より容易に結果及びデータを交換し、精度を犠牲にすることなく、より多くの様々な医療従事者を関与させ、適切に分析し、提言を行い、かつ行動をとることを可能にする。

図９は、例示的な実装形態による例示的なプロセス９００を示す。例示的なプロセス９００は、本明細書で説明するように、１つ又は複数の装置に対して行われてもよい。

９０１では、ニューラルネットワークは、入力を受信し、訓練画像にラベル付けする。例えば、限定するものではないが、上述したように、訓練画像は、シミュレーションから生成されてもよい。あるいは、１人又は複数の患者に関連付けられた履歴データが提供されてもよい。訓練データがモデルに使用され、ポーズ回帰がゾーン分類に置き換えられる。例えば、限定するものではないが、隣接するポーズの画像はゾーンとして分類されてもよい。

９０３では、特徴抽出が行われる。より具体的には、画像は訓練データベース１１７に提供される。主要な特徴に基づいて、画像の特徴が特定のポーズにあるものとして分類され得るかどうかに関する分類判定が提供される。

９０５では、調整が行われる。より具体的には、上述したように、予測ゾーンを使用してマップ点を三角測量する。

９０７では、ポーズを調整することによって、テスト画像上のマップ点の再投影誤差を最小にするための操作が行われる。この操作の結果に基づいて、最適なポーズが判定される。

９０９では、出力が提供される。例えば、限定するものではないが、この出力は、画像のゾーン若しくはゾーン内の位置の指示、又は画像に関連付けられたスコープであってもよい。したがって、医療従事者は、ＧＩ管、肺又は他の組織などの標的組織における画像の位置を判定する際に支援されてもよい。

図１０は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置１００５を有する例示的なコンピューティング環境１０００を示す。コンピューティング環境１０００内のコンピューティング装置１００５は、１つ若しくは複数の処理ユニット、コア、若しくはプロセッサ１０１０、メモリ１０１５（例えば、ＲＡＭ、ＲＯＭなど）、内部記憶装置１０２０（例えば、磁気記憶装置、光学記憶装置、固体記憶装置、及び／又は有機記憶装置）、及び／又は入出力インターフェース１０２５を含むことができ、これらのいずれも、情報を通信するための通信機構若しくはバス１０３０上に結合するか、又はコンピューティング装置１００５に組み込むことができる。

例示的な実装形態によれば、神経活動に関連付けられた処理は、中央処理装置（ＣＰＵ）であるプロセッサ１０１０上で行うことができる。あるいは、本発明の概念から逸脱することなく、他のプロセッサに置き換えられてもよい。例えば、限定するものではないが、グラフィックス処理ユニット（ＧＰＵ）及び／又はニューラルプロセッシングユニット（ＮＰＵ）は、前述の例示的な実装形態の処理を実行するために、ＣＰＵの代わりに置き換えられてよく、又はＣＰＵと組み合わせて使用されてもよい。

コンピューティング装置１００５は、入力／インターフェース１０３５及び出力装置／インターフェース１０４０に通信可能に結合することができる。入力／インターフェース１０３５及び出力装置／インターフェース１０４０の一方又は両方は、有線又は無線のインターフェースであってもよく、取り外し可能であってもよい。入力／インターフェース１０３５は、入力（例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソル制御、マイクロホン、カメラ、点字、モーションセンサ、光学式リーダなど）を提供するために使用され得る任意のデバイス、コンポーネント、センサ、又は物理的若しくは仮想的なインターフェースを含んでもよい。

出力装置／インターフェース１０４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的な実装形態では、入力／インターフェース１０３５（例えば、ユーザインターフェース）及び出力装置／インターフェース１０４０は、コンピューティング装置１００５に埋め込まれるか、又は物理的に結合され得る。他の例示的な実装形態では、他のコンピューティング装置は、コンピューティング装置１００５用の入力／インターフェース１０３５及び出力装置／インターフェース１０４０として機能するか、又はこれらの機能を提供してもよい。

コンピューティング装置１００５の例としては、高度に移動可能な装置（例えば、スマートフォン、車両及び他の機械における装置、人間及び動物によって運ばれる装置など）、移動可能な装置（例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、及び移動用に設計されていない装置（例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、１つ又は複数のプロセッサが内部に組み込まれ、かつ／又はそのプロセッサに結合されたテレビ、ラジオなど）が挙げられ得るが、これらに限定されない。

コンピューティング装置１００５は、同じ又は異なる構成の１つ又は複数のコンピューティング装置を含む、任意の数のネットワーク化されたコンポーネント、デバイス、並びにシステムと通信するための外部記憶装置１０４５及びネットワーク１０５０に通信可能に結合（例えば、入出力インターフェース１０２５を介して）することができる。コンピューティング装置１００５又は任意の接続されたコンピューティング装置は、サーバ、クライアント、シンサーバ、汎用マシン、特殊用途マシン、又は別のラベルとして機能し、これらのサービスを提供し、又はこれらとして見なされ得る。例えば、限定するものではないが、ネットワーク１０５０は、ブロックチェーンネットワーク及び／又はクラウドを含んでもよい。

入出力インターフェース１０２５としては、コンピューティング環境１０００内の少なくともすべての接続されたコンポーネント、デバイス、及びネットワークとの間で情報を通信するための任意の通信又は入出力プロトコル若しくは規格（例えば、イーサネット（登録商標）、８０２．１１ｘｓ、ユニバーサルシステムバス、ＷｉＭＡＸ、モデム、セルラーネットワークプロトコルなど）を使用する有線及び／又は無線インターフェースが挙げられ得るが、これらに限定されない。ネットワーク１０５０は、任意のネットワーク又はネットワークの組み合わせ（例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）であり得る。

コンピューティング装置１００５は、一時的媒体及び非一時的媒体を含む、コンピュータ使用可能又はコンピュータ可読媒体を用いて、使用及び／又は通信することができる。一時的媒体としては、伝送媒体（例えば、金属ケーブル、光ファイバ）、信号、搬送波などが挙げられる。非一時的媒体としては、磁気媒体（例えば、ディスク及びテープ）、光学媒体（例えば、ＣＤＲＯＭ、デジタルビデオディスク、ブルーレイディスク）、固体媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体記憶装置）、及び他の不揮発性記憶装置又はメモリが挙げられる。

コンピューティング装置１００５は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施するために使用することができる。コンピュータ実行可能命令は、一時的媒体から検索することができ、非一時的媒体に記憶し、かつそこから検索することができる。実行可能命令は、任意のプログラミング言語、スクリプト言語、及び機械言語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）など）のうちの１つ又は複数から生じ得る。

プロセッサ１０１０は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示せず）の下で実行することができる。論理ユニット１０５５、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット１０６０、入力ユニット１０６５、出力ユニット１０７０、訓練ユニット１０７５、特徴抽出ユニット１０８０、バンドル調整ユニット１０８５、及び異なるユニットが相互に、ＯＳと、かつ他のアプリケーション（図示せず）と通信するためのユニット間通信機構１０９５を含む、１つ又は複数のアプリケーションを配備することができる。

例えば、訓練ユニット１０７５、特徴抽出ユニット１０８０、及びバンドル調整ユニット１０８５は、上述した構造に対して、上述した１つ又は複数のプロセスを実施してもよい。記載したユニット及び要素は、設計、機能、構成又は実施において変化させることができ、提供された説明に限定されない。

いくつかの例示的な実装形態では、情報又は実行命令がＡＰＩユニット１０６０によって受信されるとき、それは、１つ又は複数の他のユニット（例えば、論理ユニット１０５５、入力ユニット１０６５、訓練ユニット１０７５、特徴抽出ユニット１０８０、及びバンドル調整ユニット１０８５）に通信されてもよい。

例えば、訓練ユニット１０７５は、上述したように、シミュレーションされたデータ、履歴データ、又は１つ若しくは複数のセンサから情報を受信して処理することができる。訓練ユニット１０７５の出力は、特徴抽出ユニット１０８０に提供され、この特徴抽出ユニットは、例えば上述し、かつ図１～図５に示すようなニューラルネットワークの適用に基づいて必要な操作を実行する。さらに、バンドル調整ユニット１０８５は、訓練ユニット１０７５及び特徴抽出ユニット１０８０の出力に基づいて、操作を実行し、再投影誤差を最小化して出力信号を提供することができる。

場合によっては、論理ユニット１０５５は、上述のいくつかの例示的な実装形態において、ユニット間の情報フローを制御し、ＡＰＩユニット１０６０、入力ユニット１０６５、訓練ユニット１０７５、特徴抽出ユニット１０８０、及びバンドル調整ユニット１０８５によって提供されるサービスを指示するように構成されてもよい。たとえば、１つ又は複数のプロセス又は実装のフローは、論理ユニット１０５５単独で、又はＡＰＩユニット１０６０とともに制御されてもよい。

図１１は、いくつかの例示的な実装形態に適した例示的な環境を示す。環境１１００は、装置１１０５～１１４５を含み、各々が、例えばネットワーク１１６０を介して（例えば、有線接続及び／又は無線接続によって）少なくとも１つの他の装置に通信可能に接続される。いくつかの装置は、１つ又は複数の記憶装置１１３０及び１１４５に通信可能に接続されてもよい。

１つ又は複数の装置１１０５～１１４５の一例はそれぞれ、図１０に記載のコンピューティング装置１００５であってもよい。装置１１０５～１１４５は、上述のように、モニタ及び関連するウェブカメラを有するコンピュータ１１０５（例えば、ラップトップコンピューティング装置）、移動可能な装置１１１０（例えば、スマートフォン又はタブレット）、テレビ１１１５、車両１１２０に関連付けられた装置、サーバコンピュータ１１２５、コンピューティング装置１１３５～１１４０、記憶装置１１３０及び１１４５を含んでもよいが、これらに限定されない。

いくつかの実装形態では、装置１１０５～１１２０は、ユーザに関連付けられたユーザ装置と考えることができ、ユーザは、前述の例示的な実装形態の入力として使用される感知された入力を遠隔的に取得することができる。例示的な本実装形態では、これらのユーザ装置１１０５～１１２０のうちの１つ又は複数は、上述のように、例示的な本実装形態に必要な情報を感知することができる、一時的又は永続的に、患者ケア施設から離れたユーザの身体に埋め込まれたカメラなどの１つ又は複数のセンサに関連付けられてもよい。

前述の例示的な実装形態は、発明の範囲を示すために提供されるが、これらの実装形態は限定することを意図しておらず、他のアプローチ又は実装形態は、本発明の範囲から逸脱することなく置き換えられ、又は加えられてもよい。例えば、限定するものではないが、本明細書に開示されたもの以外の画像技術が使用されてもよい。

例示的な一実装形態によれば、ＳｕｐｅｒＰｏｉｎｔなどのアルゴリズムが画像点の検出及び判定を訓練するために使用されてもよい。さらに、例示的な実装形態は、代替的な画像分類アルゴリズムを採用し、かつ／又は他のニューラルネットワーク構造（例えば、Ｓｉａｍｅｓｅｎｅｔｗｏｒｋ）を使用してもよい。追加のアプローチは、ゾーン分類における専門知識を統合し、形成、採光及び照明などの技術の使用による２つの画像の強化を適用し、かつ／又は奥行き方法に単一の画像を使用する。

例示的な実装形態は、様々な利点及び便益を有し得るが、これは必須ではない。例えば、限定するものではないが、例示的な実装形態は、小さいデータセット上で動作可能である。さらに、例示的な実装形態は、結腸又は肺などの標的組織内の位置の制約を提供する。したがって、外科医は、映像を使用することによって、誰でもスコープの位置をより正確に位置特定することができる。さらに、例示的な実装形態は、関連技術のアプローチよりもはるかに高い精度を提供する。

いくつかの例示的な実装形態を示して説明しているが、これらの例示的な実装形態は、本明細書に記載の主題を当業者に伝えるために提供される。本明細書に記載の主題は、記載した例示的な実装形態に限定されることなく、様々な形態で実施され得ることを理解されたい。本明細書に記載の主題は、具体的に定義若しくは記載した主題なしに、又は記載していない他の若しくは様々な要素若しくは主題とともに実践することができる。当業者であれば、添付の特許請求の範囲及びそれらの均等物に定義されるように本明細書に記載の主題から逸脱することなく、これらの例示的な実装形態において変更を行うことができることを理解するであろう。

本開示の特定の非限定的な実施形態の態様は、上述の特徴及び／又は上述していない他の特徴に対処する。しかし、非限定的な実施形態の態様は、上記の特徴に対処する必要はなく、本開示の非限定的な実施形態の態様は、上述の特徴に対処しなくてもよい。

Claims

コンピュータ実装方法であって、
ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと、
再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、
を含む、コンピュータ実装方法。
前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む、請求項１に記載のコンピュータ実装方法。
前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである、請求項２に記載のコンピュータ実装方法。
前記バンドル調整は、測定されたポーズに関連付けられた３Ｄ点及び前記三角測量されたマップ点を２Ｄ画像空間に再投影して結果を生成することと、前記結果を登録された２Ｄ観察と比較して前記再投影誤差を判定することとを含む、請求項１に記載のコンピュータ実装方法。
再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される、請求項４に記載のコンピュータ実装方法。
再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される、請求項４に記載のコンピュータ実装方法。
前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む、請求項１に記載のコンピュータ実装方法。
プロセッサに、
ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと、
再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、
を含む処理を実行させるプログラム。
前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む、請求項８に記載のプログラム。
前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである、請求項９に記載のプログラム。
前記バンドル調整は、測定されたポーズに関連付けられた３Ｄ点及び前記三角測量されたマップ点を２Ｄ画像空間に再投影して結果を生成することと、前記結果を登録された２Ｄ観察と比較して前記再投影誤差を判定することとを含む、請求項８に記載のプログラム。
再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される、請求項１１に記載のプログラム。
再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される、請求項１１に記載のプログラム。
前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む、請求項８に記載のプログラム。
標的を識別するために環境内でスコープを位置特定して追跡するコンピュータ実装システムであって、
前記スコープに関連付けられ、ゾーンに分割された前記環境の訓練画像をニューラルネットワークに適用し、前記スコープに関連付けられた前記環境の前記ゾーンのうちの最も近いゾーンに基づいて、前記スコープによって生成されたテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと、
再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記スコープによって生成された前記テスト画像の位置又は位置の確率を示す出力を提供することと、
を行うように構成される、コンピュータ実装システム。
前記環境は、胃腸管又は１つ若しくは複数の肺の気管支管を含む、請求項１５に記載のコンピュータ実装システム。
前記スコープは、ポリープ、病変、及び癌組織のうちの少なくとも１つを含む１つ又は複数の標的の位置を提供するように構成される、請求項１５に記載のコンピュータ実装システム。
前記スコープは、前記環境に関連付けられた前記テスト画像を受信するように構成された１つ又は複数のセンサを備え、前記テスト画像は視覚画像である、請求項１５に記載のコンピュータ実装システム。
前記スコープは内視鏡又は気管支鏡である、請求項１５に記載のコンピュータ実装システム。
前記環境は、配管系、地下環境、又は産業施設である、請求項１５に記載のコンピュータ実装システム。