JP7673392B2 - 画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム - Google Patents

画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム Download PDF

Info

Publication number
JP7673392B2
JP7673392B2 JP2020203545A JP2020203545A JP7673392B2 JP 7673392 B2 JP7673392 B2 JP 7673392B2 JP 2020203545 A JP2020203545 A JP 2020203545A JP 2020203545 A JP2020203545 A JP 2020203545A JP 7673392 B2 JP7673392 B2 JP 7673392B2
Authority
JP
Japan
Prior art keywords
pose
computer
image
test image
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020203545A
Other languages
English (en)
Other versions
JP2021140747A (ja
Inventor
ジンウェイ ソン
ミタッシュクマー パテル
ガーゲンソン アンドレアス
チョルファン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2021140747A publication Critical patent/JP2021140747A/ja
Application granted granted Critical
Publication of JP7673392B2 publication Critical patent/JP7673392B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional [3D] objects
    • G06V20/647Three-dimensional [3D] objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)

Description

例示的な実装形態の態様は、環境における画像ベースの位置特定に関連付けられた方法、システム、及びユーザ体験に関し、より具体的には、画像ベースの位置特定のために深層学習と幾何学的制約とを融合するアプローチに関する。
関連技術の内視鏡システムは、体内構造を検査するための最小侵襲的方法を提供することができる。より具体的には、関連技術の低侵襲手術(MIS)アプローチは、医師に体内構造を検査するためのツールを提供することができ、正確な治療介入に使用することができる。
例えば、内視鏡又は気管支鏡などのスコープを、腸又は肺などの患者の環境内に配置して、その構造を検査することができる。センサ又はカメラなどのスコープ上の装置は、情報を感知し、環境の画像、映像などの情報をユーザに提供することができる。外科医などの医療従事者が映像を分析する場合がある。分析に基づいて、外科医は提言を提供するか、又は処置を行うことができる。
関連技術のロボット及びセンサ技術を用いて、様々な関連技術の胃腸(GI)管スコープ解決法が開発されている。このような関連技術のGI管アプローチでは、正確な位置特定及び追跡により、医師は、ポリープ、癌組織、病変などの様々な病理学的所見の進行を突き止めて追跡することができる。このような関連技術の内視鏡システムは、正確な治療介入の必要性を賄うことができ、それ故に所与の胃腸(GI)管及び/又は気管支管において正確に位置特定して追跡することができなければならない。
GI管を追跡する関連技術のアプローチは、画像分類とも呼ばれる、画像類似性を比較する関連技術の画像記述子の使用など、画像類似性の比較を含む場合がある。さらに、関連技術は、幾何学的最適化とも呼ばれる、SLAM又は画像からモデルへの登録のための陰影からの形状のような関連技術の幾何学的技術など、幾何学ベースのポーズ回帰を使用する場合がある。関連技術はまた、ポーズ回帰に深層学習に基づく画像を使用する場合がある。
関連技術の深層学習アプローチは、小さい注釈付き訓練データセット、並びに深層学習が関連技術で使用されている他の屋内又は屋外環境とは異なる識別可能なテクスチャの欠如など、大腸内視鏡検査又は気管支鏡検査のような用途のために追跡に特有の様々な問題及び欠点を有する。例えば、テクスチャを定義するコーナー点がなく、体組織の性質としては、血流があり、滑らかな曲線及び管状の構造を有し、コーナー点がないことである。したがって、体積面の類似のコーナー、及び固体と液体の混合物がある。
例えば、限定するものではないが、関連技術の深層学習及び回帰アプローチは、不十分なデータセットを有すること、並びに上述のようなコーナー及びテクスチャの欠如という問題に悩まされている。これらの側面において、外科的シナリオは、自動運転などの他の環境で使用される関連技術のアプローチとは異なり、区別可能である。例えば、GI管及び/又は肺の気管支管には独特の生理学的特性があるため、コーナーのない管様構造が多い。
さらに、深層学習及び回帰への関連技術のアプローチは、スコープの位置を見つけようとするので、更なる問題及び/又は欠点が生じ得る。例えば、限定するものではないが、訓練のための十分な質及び量のデータセットが不足していることにより、完全に環境外に位置する外れ値に関連付けられた別の問題がある。このような外れ値の結果は、スコープが肺及びGI管などの環境から完全に外れていると判断されると、医療従事者がその情報に依存して適切な分析及び治療を行うことを困難にする可能性がある医療分野において極めて重要である。
GI管における位置特定への関連のアプローチは、関連技術のコンピュータビジョン技術(例えば、SIFT及びSURF)による単眼画像を使用している。しかし、このような関連技術のアプローチは、変形、強度、及び様々な障害物など、様々な問題及び欠点を有し得る。例えば、関連技術のシステムは、奥行き知覚の欠如、又は関連技術のRGB/単眼画像によって提供される限られた視野内での不十分な位置特定を有し得る。例えば、患者の身体の環境内に軟部組織が近接しているため、スコープの視野は狭い。
関連技術の奥行き/ステレオベースのスコープ位置決めシステムは、3D(次元)奥行き情報が提供されず、かつ利用可能なデータがRGB映像のみであるため、単眼内視鏡に直接適合させることはできない。
さらに、深層学習ベースの位置特定及び追跡を一般化するために大量のデータを使用する、満たされていない要求がある。このようなデータは、プライバシー問題のため、特に医療分野では取得が困難である。さらに、関連技術の幾何学ベースの方法は、特徴の数が最小であり、かつ登録が失われ得るので、GI管スコープ追跡に適用可能ではない。また、患者にスコープを積極的に挿入し続けることによってデータセットの数を増やすことは実際的でも健康的でもない。
したがって、医師は、GI管の内視鏡位置など、人体の環境におけるスコープの位置を判定することが困難である場合がある。この問題は、肺の分岐生理学のため、肺などの特定の組織ではより一層深刻になっている。
ARANDJELOVIC, R., et al., NetVLAD; CNN Architecture for Weakly Supervised Place Recognition, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 5297-5307. DEGUCHI, D., et al., Selective Image Similarity Measure for Bronchoscope Tracking Based on Image Registration, Medical Image Analysis, 2009, 13, pp. 621-633. DlMAS, G., et al., Visual Localization of Wireless Capsule Endoscope Aided by Artificial Neural Networks, 2017 IEEE 30th International Symposium on Computer-Based Medical Systems, 2017, pp. 734-738. ENGEL, J., et al., Direct Sparse Odometry, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(3), March 2018, pp. 611-625. HE, K., et al., Deep Residual Learning for Image Recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770-778. KENDALL, A.., et al., PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization, Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2938-2946. LUO, X., et al., Development and Comparison of New Hybrid Motion Tracking for Bronchoscopic Navigation, Medical image Analysis, 2012, 16, pp. 577-596. LUO, X., et al., A Discriminative Structural Similarity Measure and its Application to Video-Volume Registration for Endoscope Three-Dimensional Motion Tracking, IEEE Transactions on Medical Imaging 33(6), June 2014, pp. 1248-1261. MAHMOUD, N., et al., ORBSLAM-based Endoscope Tracking and 3D Reconstruction, arXiv: 1608.08149 [cs.CV], August 29, 2016,13 pgs. MERRITT, S. A., et al., Interactive CT-Video Registration for the Continuous Guidance of Bronchoscopy, IEEE TransMed Imaging August 2013, 32(8), pp. 1376-1396. DEGUCHI, D., et al., New Image Similarity Measure for Bronchoscope Tracking Based on Image Registration, Medical imaging 2004; Physiology, Function, and Structure from Medical Images, 5369, 2004, pp. 165-176. MUR-ARTAL, R., et al., ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras, IEEE Transactions on Robotics, July 19, 2017, 33(5), pp. 1255-1262. PATEL, M., et al., ContextualNet: Exploiting Contextual Information Using LSTMs to Improve Image-Based Localization, 2018 IEEE International Conference on Robotics and Automation (ICRA), May 21-25, 2018, Brisbane, Australia, pp. 5890-5896. SGANGA, J., et al., OffsetNet Deep Learning for Localization in the Lung Using Rendered Images, arXiv: 1809.05645 [cs.CV], September 15, 2018, 7 pgs. SHEN, M., et al., Robust Camera Localisation with Depth Reconstruction for Bronchoscopic Navigation, International Journal of Computer Assisted Radiology and Surgery, 10(6), 2015, 16 pgs. TURAN, M., et al., Deep EndoVO: A Recurrent Convolutional Neural Network (RCNN) Based Visual Odometry Approach for Endoscopic Capsule Robots, Neurocomputing, 275, 2018, pp. 1861-1870. WEYAND, T., et al., PlaNet - Photo Geolocation with Convolutional Neural Networks, European Conference on Computer Vision, February 17, 2016, 10 pgs.
本開示の技術は、ゾーンに分割された環境内の最適なポーズにおけるテスト画像の正確な位置を得ることが可能なコンピュータ実装方法、プログラム、及びコンピュータ実装システムを提供することを目的とする。
例示的な実装形態の第1の態様によれば、ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び最も近いゾーンに一致するテスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために最も近いゾーンのマップ点を三角測量することによって抽出された特徴に対してバンドル調整を実行し、テスト画像の最適なポーズを判定するために再投影誤差を最小化することと、最適なポーズに対して、環境内の最適なポーズにおけるテスト画像の位置又は位置の確率を示す出力を提供することと、を含むコンピュータ実装方法が提供される。
第2の態様は、第1の態様において、前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む。
第3の態様は、第2の態様において、前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである。
第4の態様は、第1の態様において、前記バンドル調整は、測定されたポーズに関連付けられた3D(次元)点及び前記三角測量されたマップ点を2D画像空間に再投影して結果を生成することと、前記結果を登録された2D観察と比較して前記再投影誤差を判定することとを含む。
第5の態様は、第4の態様において、再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される。
第6の態様は、第4の態様において、再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される。
第7の態様は、第1の態様において、前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む。
第8の態様のプログラムは、プロセッサに、ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び前記最も近いゾーンに一致する前記テスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、を含む処理を実行させる。
第9の態様は、第8の態様において、前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む。
第10の態様は、第9の態様において、前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである。
第11の態様は、第8の態様において、前記バンドル調整は、測定されたポーズに関連付けられた3D点及び前記三角測量されたマップ点を2D画像空間に再投影して結果を生成することと、前記結果を登録された2D観察と比較して前記再投影誤差を判定することとを含む。
第12の態様は、第11の態様において、再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される。
第13の態様は、第11の態様において、再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される。
第14の態様は、第8の態様において、前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む。
第15の態様は、標的を識別するために環境内でスコープを位置特定して追跡するコンピュータ実装システムであって、前記スコープに関連付けられ、ゾーンに分割された前記環境の訓練画像をニューラルネットワークに適用し、前記スコープに関連付けられた前記環境の前記ゾーンのうちの最も近いゾーンに基づいて、前記スコープによって生成されたテスト画像にラベル付けするために分類を実行することと、検索された訓練画像、及び前記最も近いゾーンに一致する前記テスト画像のポーズ情報から特徴を抽出することと、再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記スコープによって生成された前記テスト画像の位置又は位置の確率を示す出力を提供することと、を行うように構成される。
第16の態様は、第15の態様において、前記環境は、胃腸管又は1つ若しくは複数の肺の気管支管を含む。
第17の態様は、第15の態様において、前記スコープは、ポリープ、病変、及び癌組織のうちの少なくとも1つを含む1つ又は複数の標的の位置を提供するように構成される。
第18の態様は、第15の態様において、前記スコープは、前記環境に関連付けられた前記テスト画像を受信するように構成された1つ又は複数のセンサを備え、前記テスト画像は視覚画像である。
第19の態様は、第15の態様において、前記スコープは内視鏡又は気管支鏡である。
第20の態様は、第15の態様において、前記環境は、配管系、地下環境、又は産業施設である。
例示的な実装形態はまた、記憶装置及びプロセッサを有する非一時的コンピュータ可読媒体を含むことでき、このプロセッサは、画像ベースの位置特定のために深層学習と幾何学的制約とを融合する、標的組織における画像ベースの位置特定のための命令を実行することができる。
図1は、例示的な実装形態による訓練及びテストのためのフレームワークの様々な態様を示した図である。 図2は、例示的な実装形態によるシミュレータによって生成された例示的な表現及びデータを示した図である。 図3は、例示的な実装形態による訓練プロセスを示した図である。 図4は、例示的な実装形態による訓練アプローチを示した図である。 図5は、例示的な実装形態による予測アプローチを示した図である。 図6は、例示的な実装形態によるバンドル調整を示した図である。 図7は、例示的な実装形態による結果を示した図である。 図8は、例示的な実装形態による結果を示した図である。 図9は、いくつかの例示的な実装形態に対する例示的なプロセスを示した図である。 図10は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を有する例示的なコンピューティング環境を示した図である。 図11は、いくつかの例示的な実装形態に適した例示的な環境を示した図である。
以下の発明を実施するための形態は、図面の更なる詳細及び本出願の例示的な実装形態を提供する。図と図の間の冗長要素の参照番号及び説明は、明確にするために省略される。本明細書全体を通して使用される用語は、例として提供されており、限定することを意図していない。
例示的な実装形態の態様は、限定されるものではないが、低侵襲手術(MIS)アプローチ(例えば、内視鏡的アプローチ)を含む様々な分野での適用のために、深層学習方法を幾何学的制約と組み合わせることを対象とする。
開腹手術とは対照的に、MISは手術視野を狭める。それ故に、外科医は開腹手術アプローチよりも少ない情報しか得られないことがある。したがって、MISアプローチは、直接3Dビジョンなしに細長いツールを用いて狭い空間で操作手順を実行する必要がある。さらに、訓練データセットは小さく、制限される場合がある。
例示的な実装形態は、組織内の位置特定を制約することによって、組織(例えば、GI管、肺など)を用いて、MIS技術のための画像ベースの位置特定を提供することを対象とする。
より具体的には、例示的な実装形態は、類似性に基づいて、テスト画像を訓練画像のうちの1つに分類する。最も近い訓練画像及びその近傍画像をそのポーズ情報とともに使用して、特徴登録及びバンドル調整を用いてテスト画像の最適なポーズ(例えば、位置及び配向)を生成する。スコープの位置及び配向を位置特定することによって、外科医は体内のスコープの位置を認識することができる。例示的な本実装形態はスコープに言及しているが、例示的な実装形態はこれに限定されず、本発明の範囲から逸脱することなく、他のMIS構造、装置、システム及び/又は方法に置き換えてもよい。例えば、限定するものではないが、プローブがスコープの代わりに置き換えられてもよい。
例えば、限定するものではないが、例示的な実装形態は、深層学習を従来の幾何学ベースの技術と融合するハイブリッドシステムを対象とする。この融合アプローチを用いて、本システムは、より小さいデータセットを使用して訓練することができる。したがって、例示的な実装形態は、訓練データ及びテクスチャのより少ないサンプルで、単眼RGB画像を使用する位置特定のための解決法を任意に提供することができる。
さらに、例示的な実装形態は、推定されたポーズのロバスト性を提供し得る深層学習技術を有する幾何学的方法を使用する。より具体的には、再投影誤差最小化プロセスにおいて、再投影誤差が大きいポーズが直接拒否され得る。
各ゾーンに少なくとも1つの画像を割り当てるように、訓練画像が取得され、ラベル付けされ得る。ラベル付き画像を使用して、ニューラルネットワークを訓練する。ニューラルネットワークが訓練されると、テスト画像が提供され、ゾーンに分類される。さらに、訓練データセットツリー、及び訓練データセットからの画像が得られる。主要な特徴を取得して調整し、注視点を復元し、投影誤差を最小化する。
上述の例示的な実装形態は、深層学習を幾何学ベースの位置特定及び追跡と融合するハイブリッドシステムを対象とする。より具体的には、例示的な実装形態による深層学習の構成要素は、高レベルのゾーン分類を提供し、この分類は、所与のテスト画像のポーズを最適化するために幾何学ベースの精密化によって使用され得る。
例示的な実装形態における精密化を行うための幾何学の適用は、深層学習モデルの予測を制約するのを支援することができ、より良いポーズ推定を任意に行うことができる。さらに、本明細書に記載されるように深層学習技術と幾何学的技術とを融合することによって、小さい訓練データセットを使用して正確な結果を達成することができ、外れ値などの関連技術の問題を回避することができる。
例示的な本実装形態は、グラウンドトゥルースを提供するシミュレーションされたデータセットを提供する。訓練の側面では、画像がニューラルネットワークに入力され、出力が環境のゾーンに関連付けられた画像ラベルとして提供される。より具体的には、環境はゾーンに細分化される。この細分化は、ゾーンを等しい長さに分割するなど、自動的に行われてもよく、又はゾーンの適切な細分化に関する外科医の入力に基づくなど、医療分野における専門知識を使用して行われてもよい。したがって、各画像はゾーンに対してラベル付けされ、画像はゾーンに分類される。
訓練フェーズ後、テスト画像が入力され、ゾーンに分類される。テスト画像はニューラルネットワークに供給され、訓練データセットと比較されて、訓練画像及びテスト画像からコーナーを抽出し、マップ点のグローバル位置を構築するようにする。換言すれば、訓練データセットに対して比較が行われ、主要な特徴が得られ、判定され、コーナー点として識別される。
訓練画像に対して、3D点は2D画像に投影され、投影された3D点と2D画像との間の距離を最小化するための操作が行われる。結果として、再投影誤差を最小化する方法でコーナー点が復元される。
図1~図5は、例示的な実装形態の様々な態様を示す。図1は、訓練及び推論を含む、例示的な実装形態の全体像を示す。
例示的な実装形態は、PoseNet107(例えば、予測)及びポーズ精密化109の2つの主ブロックに分けることができる。107での予測フェーズでは、例示的な実装形態は、深層学習フレームワーク(例えば、GoogLeNet)であるPoseNetを利用する。本システムは、所定の数(例えば、23)の畳み込み層と、1つ又は複数の完全に接続された層(例えば、1)とからなる。107では、本モデルは、実際のポーズを学習するのではなく、ゾーンレベルの分類を学習する。推論の間、PoseNetは、所与のテスト画像が一致する最も近いゾーンを分類してもよい。
109での精密化フェーズでは、107でPoseNetによって分類されたゾーン、並びに訓練画像からの検索された画像及びポーズ情報が、最も近い一致を判定するために適用される。ポーズ最適化のために、最も近い一致の訓練画像に対して、隣接するポーズのストリームが採用される。その画像ストリーム及びその対応するポーズ情報は、ポーズの推定に使用される。
より具体的には、例示的な一実装形態によれば、Unity3Dは、ファントムから画像-ポーズ対を生成するために使用され得る。posenetモデル101は、101からのこれらの訓練セットを使用して訓練される。例えば、限定するものではないが、ポーズ回帰がゾーン分類に置き換えられてもよい。したがって、隣接するポーズの画像はゾーンとして分類され、105でラベル付けが行われる。
訓練データに関して、101では、訓練画像が深層学習ニューラルネットワーク103に提供される。図2に示すように、200では、大腸201は、大腸201の画像を処理する線によって識別される複数のゾーンに分割され得る。例えば、限定するものではないが、第1の画像203はゾーンのうちの第1の画像を表してもよく、第2の画像205はゾーンのうちの第2の画像を表してもよい。
図3は、300での訓練フェーズに適用されるように、前述の例示的な実装形態を示す。上述したように、訓練画像301は、深層学習ニューラルネットワーク303に提供されて、画像の位置のゾーン分類に関連付けられた画像ラベル305を生成する。これは、313で画像としてさらに表される。複数の画像307は、対応して309で訓練に使用され、311でラベル付けされる。
PoseNet107では、テスト画像111が深層学習ニューラルネットワーク113に提供され、ラベル115が生成される。これは、401として図4においても表されている。より具体的には、テスト画像に対して、訓練セットにおける最も類似したゾーンが、ディープニューラルネットワークを用いて予測される。
109でのポーズ精密化では、訓練データベース117は、PoseNet107からの入力を受信する。これは、501として図5においても表されている。例えば、限定するものではないが、訓練データベースは、ポーズ及びラベルに関連付けられた画像IDを提供してもよい。ポーズは画像状態を示し、ラベルはポーズに関連付けられた分類を示す。
この情報は、特徴抽出部に供給され、この特徴抽出部は、ポーズn-k133、ポーズn129、及びポーズn+k125にそれぞれ関連付けられた出力画像119、121及び123を受信する。例えば、限定するものではないが、バンドル調整及び再投影誤差最小化の前の潜在的な誤分類リスクを回避するために、ゾーン及び隣接するゾーンが含まれる。
したがって、135、131及び127では、画像123、121及び119の各々から特徴がそれぞれ抽出される。より具体的には、特徴抽出部は、画像のストリームから(例えば、SURF)抽出するために使用される。これらの抽出された特徴はバンドル調整にさらに使用され、各画像からの特徴はその特性に基づいて登録される。
より具体的には、図6に示すように、特徴抽出部は、画像119、121及び123である出力画像601の使用を含む。前述の特徴抽出操作は、様々なゾーンを示し得る、複数の隣接するポーズn-k603、ポーズn605、及びポーズn+k607に関して、出力画像601に対して行われる。609及び611に示すように、マップ点の三角測量は、予測されたゾーンに基づいて行われてもよい。
139において、バンドル調整では、画像123、121及び119から抽出された特徴(例えば、135、131及び127)、並びにこれらの画像のポーズ情報133、129及び125を使用して、ポーズをマッピングするためのローカルバンドル調整を行う。関連する画像のポーズはグラウンドトゥルースであるので、いくつかのコーナー特徴点をマッピングするための多重画像三角測量プロセスである。
141において、かつ503として図5にも表すことにおいて、再投影誤差は、数式(1)で定義され得るように、再最適化され得る。
P(位置)及びR(配向)はスコープのポーズであり、vは三角測量されたマップ点である。Π()は3D点を2D画像空間に再投影し、Oは登録された2D観察である。137では、テスト画像111の主要な特徴もまた、141の再投影誤差最小化に供給されてもよい。
最適化された平均再投影レベルが閾値以下である場合、最適なグローバルポーズは143で求められる。そうでなければ、初期ポーズは正しくないとされ、Posenetの失敗が原因であるとされる。Posenetの出力は完全に測定可能であるので、例示的な実装形態は、出力の妥当性を識別するためのロバストなアプローチを提供する。
さらに、再投影誤差が最小化される。より具体的には、主要な特徴とテスト画像との間に登録が構築され、この登録は、登録された主要な特徴点の再投影誤差を最小化することによってテスト画像のポーズを最適化するためにさらに使用される。
前述の例示的な実装形態は、様々な用途において実施され得る。例えば、本スコープは、特徴に関連する一時的な変化に関連付けられた情報を提供するために医療現場で使用されてもよい。1つの例示的な用途として、ポリープの成長を経時的に追跡することができ、スコープの正確な位置を特定可能にすること、並びにポリープ及びその大きさを適切に識別する能力によって、医療従事者は、ポリープのより正確な追跡を行うことができる。結果として、医療従事者は、より正確なリスク分析を提供することができるだけでなく、関連する提言並びに行動方針及びより正確な方法を提供することができる。
さらに、本スコープは、人体の環境内で処置を行うための装置又はツールを含んでもよい。たとえば、本スコープは、環境内の標的を変更することができるツールを含んでもよい。例示的な一実装形態では、このツールは、レーザ、熱、若しくはブレードなどの切削ツール、又は当業者に理解されるような他の切削構造であってもよい。この切削ツールは、ポリープがある一定の大きさより大きい場合、リアルタイムでポリープを切除するなどの処置を行ってもよい。
原則として、医学的アプローチに応じて、又は大きすぎるか、若しくは患者に有害であると医学従事者が判断した場合にポリープを切除するだけであり、より慎重なアプローチによれば、この環境における標的の成長を追跡してもよい。さらに、本スコープは、装置又はツールによって行われた処置後に経過観察スクリーニングをより正確に行うために例示的な実装形態に従って使用されてもよい。
ポリープの例を本明細書に示しているが、例示的な本実装形態はその例に限定されず、本発明の範囲から逸脱しない他の環境又は標的に置き換えてもよい。例えば、限定するものではないが、環境は、GI管ではなく肺の気管支であってもよい。同様に、標的は、ポリープではなく病変又は腫瘍であってもよい。
さらに、例示的な実用的実装形態は、結果を予測ツールに供給してもよい。このような例示的なアプローチによれば、人口統計学、組織の成長速度及び履歴データに基づいて、予測的なリスク評価を生成するために、分析を実行することができる。予測リスク評価は、医療従事者によって再調査されてもよく、医療従事者は予測ツールの結果を検証又は有効性確認することができる。医療従事者による有効性確認又は検証は、予測ツールに戻されて、その精度を向上させ得る。あるいは、予測的リスク評価は、医療従事者による検証又は有効性確認の有無にかかわらず、意思決定支援システムに入力されてもよい。
このような状況では、意思決定支援システムは、リアルタイムで、又はスコープが除去された後に、医療従事者に提言を提供してもよい。提言がリアルタイムで医療従事者に提供される選択肢では、スコープもまた切削ツールを運び得るので、意思決定支援システムの提言に基づいてリアルタイム操作が行われてもよい。
さらに、前述の例示的な実装形態は、この環境を、肺又は腸などの明確に定義されたコーナー点を有さない人体内の環境として定義し得るが、例示的な実装形態はこれに限定されず、同様の特徴を有する他の環境も本範囲内にあり得る。
例えば、限定するものではないが、下水管又は送水管などの配管システムは、検査ツールが正確にどの管セグメントに位置しているかを判定可能であることが困難であることにより、損傷、損耗又は交換に関して検査することが困難な場合がある。例示的な本実装形態を用いることにより、下水管及び送水管を経時的により正確に検査することができ、管のメンテナンス又は交換などをより低い精度で行うことができる。同様のアプローチは、工場環境の意識、水中、洞窟などの地下環境、又は例示的な本実装形態に関連付けられた条件を満たす他の同様の環境などの産業安全において取り組まれ得る。
図7は、例示的な実装形態に関連付けられた結果を700に示す。701では、深層学習のみを含む関連技術のアプローチを示している。より具体的には、回帰を使用するアプローチを示しており、分かり得るように、グラウンドトゥルースの外側の外れ値の数は、大きさ及び数の両方において有意である。上述したように、これは、カメラの視野が狭いという関連技術の問題、並びにそれに伴う誤分類のリスクに起因する。
703では、分類のみを使用するテスト画像情報を使用するアプローチを示している。しかし、このアプローチによれば、データは、映像から厳密に入手可能なデータに限定される。
705では、分類及びバンドル調整を含む、例示的な実装形態によるアプローチを示している。誤差は少ないが、これらの誤差は主に画像のテクスチャによるものである。
図8は、例示的な実装形態の有効性確認を示しており、経時的な誤差の差を示している。X軸は経時的なキーフレームを示し、Y軸は誤差を示す。801では、位置の誤差を表しており、803では、角度の誤差を表している。青線は例示的な実装形態の技術を使用して誤差を表し、赤線は分類技術のみを使用して計算された誤差を表し、上述し、かつ図7に示すように、703に対応している。
より具体的には、男性の消化器系の既製モデルに基づいてシミュレーションデータセットを生成する。仮想の大腸内視鏡を大腸内に設置し、観察をシミュレーションする。Unity3D(https://unity.com/)を使用して、厳密なピンホールカメラモデルを用いて、連続する2DのRGB画像をシミュレーションして生成する。シミュレーションした生体内消化(例えば、図2に示すように)のフレームレート及びサイズは30フレーム/秒、及び640×480である。同時に大腸内視鏡のグローバルポーズを記録する。
図示し、かつ上述したように、赤のプロットは分類のみを有する結果(例えば、関連技術)を対象とし、青のプロットは例示的な実装形態によるポーズ精密化が行われた結果を対象とする。分かり得るように、一般的に言えば、これらの結果は、位置差及び角度差の両方に関して、行われたポーズ精密化に対するより良い精度を示している。
より具体的には、上述したように、図8は、801におけるキーフレームIDに対する位置差誤差の比較800を示し、803におけるキーフレームIDに対する角度差誤差の比較を示す。表1は、関連技術(すなわち、ContextualNet)と本明細書に記載の例示的な実装形態との間の誤差比較を示す。
例示的な実装形態は、他のセンサ又はアプローチと統合されてもよい。例えば、限定するものではないが、慣性測定ユニット、温度センサ、酸性度センサ、又は環境に関連付けられた周囲を感知することに関連付けられた他のセンサなど、他のセンサをスコープ上に統合することができる。
同様に、所与の種類のセンサの複数のセンサが使用されてもよく、関連技術のアプローチはこのような複数のセンサを使用しなくてもよく、関連技術は、本明細書に記載のラベル付け、特徴抽出、バンドル調整及び再投影誤差最小化アプローチを使用するのとは対照的に、正確な位置を提供することに焦点を当てている。
例示的な本実装形態がセンサ若しくはカメラのより高い精度、又は追加の訓練データセットを必要としないことにより、既存の機器は例示的な実装形態とともに使用して、より正確な結果を達成し得る。したがって、より正確なカメラ又はセンサを得るためにハードウェアをアップグレードする必要性は低減され得る。
さらに、精度の向上はまた、様々な種類のカメラ及びスコープを交換することを可能にし、様々な医療施設が、より容易に結果及びデータを交換し、精度を犠牲にすることなく、より多くの様々な医療従事者を関与させ、適切に分析し、提言を行い、かつ行動をとることを可能にする。
図9は、例示的な実装形態による例示的なプロセス900を示す。例示的なプロセス900は、本明細書で説明するように、1つ又は複数の装置に対して行われてもよい。
901では、ニューラルネットワークは、入力を受信し、訓練画像にラベル付けする。例えば、限定するものではないが、上述したように、訓練画像は、シミュレーションから生成されてもよい。あるいは、1人又は複数の患者に関連付けられた履歴データが提供されてもよい。訓練データがモデルに使用され、ポーズ回帰がゾーン分類に置き換えられる。例えば、限定するものではないが、隣接するポーズの画像はゾーンとして分類されてもよい。
903では、特徴抽出が行われる。より具体的には、画像は訓練データベース117に提供される。主要な特徴に基づいて、画像の特徴が特定のポーズにあるものとして分類され得るかどうかに関する分類判定が提供される。
905では、調整が行われる。より具体的には、上述したように、予測ゾーンを使用してマップ点を三角測量する。
907では、ポーズを調整することによって、テスト画像上のマップ点の再投影誤差を最小にするための操作が行われる。この操作の結果に基づいて、最適なポーズが判定される。
909では、出力が提供される。例えば、限定するものではないが、この出力は、画像のゾーン若しくはゾーン内の位置の指示、又は画像に関連付けられたスコープであってもよい。したがって、医療従事者は、GI管、肺又は他の組織などの標的組織における画像の位置を判定する際に支援されてもよい。
図10は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置1005を有する例示的なコンピューティング環境1000を示す。コンピューティング環境1000内のコンピューティング装置1005は、1つ若しくは複数の処理ユニット、コア、若しくはプロセッサ1010、メモリ1015(例えば、RAM、ROMなど)、内部記憶装置1020(例えば、磁気記憶装置、光学記憶装置、固体記憶装置、及び/又は有機記憶装置)、及び/又は入出力インターフェース1025を含むことができ、これらのいずれも、情報を通信するための通信機構若しくはバス1030上に結合するか、又はコンピューティング装置1005に組み込むことができる。
例示的な実装形態によれば、神経活動に関連付けられた処理は、中央処理装置(CPU)であるプロセッサ1010上で行うことができる。あるいは、本発明の概念から逸脱することなく、他のプロセッサに置き換えられてもよい。例えば、限定するものではないが、グラフィックス処理ユニット(GPU)及び/又はニューラルプロセッシングユニット(NPU)は、前述の例示的な実装形態の処理を実行するために、CPUの代わりに置き換えられてよく、又はCPUと組み合わせて使用されてもよい。
コンピューティング装置1005は、入力/インターフェース1035及び出力装置/インターフェース1040に通信可能に結合することができる。入力/インターフェース1035及び出力装置/インターフェース1040の一方又は両方は、有線又は無線のインターフェースであってもよく、取り外し可能であってもよい。入力/インターフェース1035は、入力(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソル制御、マイクロホン、カメラ、点字、モーションセンサ、光学式リーダなど)を提供するために使用され得る任意のデバイス、コンポーネント、センサ、又は物理的若しくは仮想的なインターフェースを含んでもよい。
出力装置/インターフェース1040は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的な実装形態では、入力/インターフェース1035(例えば、ユーザインターフェース)及び出力装置/インターフェース1040は、コンピューティング装置1005に埋め込まれるか、又は物理的に結合され得る。他の例示的な実装形態では、他のコンピューティング装置は、コンピューティング装置1005用の入力/インターフェース1035及び出力装置/インターフェース1040として機能するか、又はこれらの機能を提供してもよい。
コンピューティング装置1005の例としては、高度に移動可能な装置(例えば、スマートフォン、車両及び他の機械における装置、人間及び動物によって運ばれる装置など)、移動可能な装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、及び移動用に設計されていない装置(例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、1つ又は複数のプロセッサが内部に組み込まれ、かつ/又はそのプロセッサに結合されたテレビ、ラジオなど)が挙げられ得るが、これらに限定されない。
コンピューティング装置1005は、同じ又は異なる構成の1つ又は複数のコンピューティング装置を含む、任意の数のネットワーク化されたコンポーネント、デバイス、並びにシステムと通信するための外部記憶装置1045及びネットワーク1050に通信可能に結合(例えば、入出力インターフェース1025を介して)することができる。コンピューティング装置1005又は任意の接続されたコンピューティング装置は、サーバ、クライアント、シンサーバ、汎用マシン、特殊用途マシン、又は別のラベルとして機能し、これらのサービスを提供し、又はこれらとして見なされ得る。例えば、限定するものではないが、ネットワーク1050は、ブロックチェーンネットワーク及び/又はクラウドを含んでもよい。
入出力インターフェース1025としては、コンピューティング環境1000内の少なくともすべての接続されたコンポーネント、デバイス、及びネットワークとの間で情報を通信するための任意の通信又は入出力プロトコル若しくは規格(例えば、イーサネット(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、セルラーネットワークプロトコルなど)を使用する有線及び/又は無線インターフェースが挙げられ得るが、これらに限定されない。ネットワーク1050は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)であり得る。
コンピューティング装置1005は、一時的媒体及び非一時的媒体を含む、コンピュータ使用可能又はコンピュータ可読媒体を用いて、使用及び/又は通信することができる。一時的媒体としては、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などが挙げられる。非一時的媒体としては、磁気媒体(例えば、ディスク及びテープ)、光学媒体(例えば、CD ROM、デジタルビデオディスク、ブルーレイディスク)、固体媒体(例えば、RAM、ROM、フラッシュメモリ、固体記憶装置)、及び他の不揮発性記憶装置又はメモリが挙げられる。
コンピューティング装置1005は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施するために使用することができる。コンピュータ実行可能命令は、一時的媒体から検索することができ、非一時的媒体に記憶し、かつそこから検索することができる。実行可能命令は、任意のプログラミング言語、スクリプト言語、及び機械言語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)のうちの1つ又は複数から生じ得る。
プロセッサ1010は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット1055、アプリケーションプログラミングインターフェース(API)ユニット1060、入力ユニット1065、出力ユニット1070、訓練ユニット1075、特徴抽出ユニット1080、バンドル調整ユニット1085、及び異なるユニットが相互に、OSと、かつ他のアプリケーション(図示せず)と通信するためのユニット間通信機構1095を含む、1つ又は複数のアプリケーションを配備することができる。
例えば、訓練ユニット1075、特徴抽出ユニット1080、及びバンドル調整ユニット1085は、上述した構造に対して、上述した1つ又は複数のプロセスを実施してもよい。記載したユニット及び要素は、設計、機能、構成又は実施において変化させることができ、提供された説明に限定されない。
いくつかの例示的な実装形態では、情報又は実行命令がAPIユニット1060によって受信されるとき、それは、1つ又は複数の他のユニット(例えば、論理ユニット1055、入力ユニット1065、訓練ユニット1075、特徴抽出ユニット1080、及びバンドル調整ユニット1085)に通信されてもよい。
例えば、訓練ユニット1075は、上述したように、シミュレーションされたデータ、履歴データ、又は1つ若しくは複数のセンサから情報を受信して処理することができる。訓練ユニット1075の出力は、特徴抽出ユニット1080に提供され、この特徴抽出ユニットは、例えば上述し、かつ図1~図5に示すようなニューラルネットワークの適用に基づいて必要な操作を実行する。さらに、バンドル調整ユニット1085は、訓練ユニット1075及び特徴抽出ユニット1080の出力に基づいて、操作を実行し、再投影誤差を最小化して出力信号を提供することができる。
場合によっては、論理ユニット1055は、上述のいくつかの例示的な実装形態において、ユニット間の情報フローを制御し、APIユニット1060、入力ユニット1065、訓練ユニット1075、特徴抽出ユニット1080、及びバンドル調整ユニット1085によって提供されるサービスを指示するように構成されてもよい。たとえば、1つ又は複数のプロセス又は実装のフローは、論理ユニット1055単独で、又はAPIユニット1060とともに制御されてもよい。
図11は、いくつかの例示的な実装形態に適した例示的な環境を示す。環境1100は、装置1105~1145を含み、各々が、例えばネットワーク1160を介して(例えば、有線接続及び/又は無線接続によって)少なくとも1つの他の装置に通信可能に接続される。いくつかの装置は、1つ又は複数の記憶装置1130及び1145に通信可能に接続されてもよい。
1つ又は複数の装置1105~1145の一例はそれぞれ、図10に記載のコンピューティング装置1005であってもよい。装置1105~1145は、上述のように、モニタ及び関連するウェブカメラを有するコンピュータ1105(例えば、ラップトップコンピューティング装置)、移動可能な装置1110(例えば、スマートフォン又はタブレット)、テレビ1115、車両1120に関連付けられた装置、サーバコンピュータ1125、コンピューティング装置1135~1140、記憶装置1130及び1145を含んでもよいが、これらに限定されない。
いくつかの実装形態では、装置1105~1120は、ユーザに関連付けられたユーザ装置と考えることができ、ユーザは、前述の例示的な実装形態の入力として使用される感知された入力を遠隔的に取得することができる。例示的な本実装形態では、これらのユーザ装置1105~1120のうちの1つ又は複数は、上述のように、例示的な本実装形態に必要な情報を感知することができる、一時的又は永続的に、患者ケア施設から離れたユーザの身体に埋め込まれたカメラなどの1つ又は複数のセンサに関連付けられてもよい。
前述の例示的な実装形態は、発明の範囲を示すために提供されるが、これらの実装形態は限定することを意図しておらず、他のアプローチ又は実装形態は、本発明の範囲から逸脱することなく置き換えられ、又は加えられてもよい。例えば、限定するものではないが、本明細書に開示されたもの以外の画像技術が使用されてもよい。
例示的な一実装形態によれば、SuperPointなどのアルゴリズムが画像点の検出及び判定を訓練するために使用されてもよい。さらに、例示的な実装形態は、代替的な画像分類アルゴリズムを採用し、かつ/又は他のニューラルネットワーク構造(例えば、Siamese network)を使用してもよい。追加のアプローチは、ゾーン分類における専門知識を統合し、形成、採光及び照明などの技術の使用による2つの画像の強化を適用し、かつ/又は奥行き方法に単一の画像を使用する。
例示的な実装形態は、様々な利点及び便益を有し得るが、これは必須ではない。例えば、限定するものではないが、例示的な実装形態は、小さいデータセット上で動作可能である。さらに、例示的な実装形態は、結腸又は肺などの標的組織内の位置の制約を提供する。したがって、外科医は、映像を使用することによって、誰でもスコープの位置をより正確に位置特定することができる。さらに、例示的な実装形態は、関連技術のアプローチよりもはるかに高い精度を提供する。
いくつかの例示的な実装形態を示して説明しているが、これらの例示的な実装形態は、本明細書に記載の主題を当業者に伝えるために提供される。本明細書に記載の主題は、記載した例示的な実装形態に限定されることなく、様々な形態で実施され得ることを理解されたい。本明細書に記載の主題は、具体的に定義若しくは記載した主題なしに、又は記載していない他の若しくは様々な要素若しくは主題とともに実践することができる。当業者であれば、添付の特許請求の範囲及びそれらの均等物に定義されるように本明細書に記載の主題から逸脱することなく、これらの例示的な実装形態において変更を行うことができることを理解するであろう。
本開示の特定の非限定的な実施形態の態様は、上述の特徴及び/又は上述していない他の特徴に対処する。しかし、非限定的な実施形態の態様は、上記の特徴に対処する必要はなく、本開示の非限定的な実施形態の態様は、上述の特徴に対処しなくてもよい。

Claims (20)

  1. コンピュータ実装方法であって、
    ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
    検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと
    再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
    前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、
    を含む、コンピュータ実装方法。
  2. 前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである、請求項2に記載のコンピュータ実装方法。
  4. 前記バンドル調整は、測定されたポーズに関連付けられた3D点及び前記三角測量されたマップ点を2D画像空間に再投影して結果を生成することと、前記結果を登録された2D観察と比較して前記再投影誤差を判定することとを含む、請求項1に記載のコンピュータ実装方法。
  5. 再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される、請求項4に記載のコンピュータ実装方法。
  6. 再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される、請求項4に記載のコンピュータ実装方法。
  7. 前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む、請求項1に記載のコンピュータ実装方法。
  8. プロセッサに、
    ゾーンに分割された環境の訓練画像をニューラルネットワークに適用し、前記ゾーンのうちの最も近いゾーンに基づいてテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
    検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと
    再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
    前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記テスト画像の位置又は位置の確率を示す出力を提供することと、
    を含む処理を実行させるプログラム。
  9. 前記訓練画像を適用することは、前記環境のゾーン内のポーズに関連付けられた前記訓練画像を履歴データ又はシミュレーションデータとして受信することと、前記受信された訓練画像をニューラルネットワークに提供することとを含む、請求項8に記載のプログラム。
  10. 前記ニューラルネットワークは、前記ポーズに関連付けられたゾーンを学習し、かつ前記テスト画像に対して前記最も近いゾーンを判定する深層学習ニューラルネットワークである、請求項9に記載のプログラム。
  11. 前記バンドル調整は、測定されたポーズに関連付けられた3D点及び前記三角測量されたマップ点を2D画像空間に再投影して結果を生成することと、前記結果を登録された2D観察と比較して前記再投影誤差を判定することとを含む、請求項8に記載のプログラム。
  12. 再投影誤差が閾値以下の場合、前記テスト画像の前記ポーズは前記最適なポーズであることが確認される、請求項11に記載のプログラム。
  13. 再投影誤差が閾値を超える場合、前記テスト画像の前記ポーズは正しくないと判定され、前記テスト画像の前記ポーズの計算は正しいと判定される、請求項11に記載のプログラム。
  14. 前記再投影誤差を最小化することは、前記テスト画像の前記ポーズを調整して前記再投影誤差を最小化することを含む、請求項8に記載のプログラム。
  15. 標的を識別するために環境内でスコープを位置特定して追跡するコンピュータ実装システムであって、
    前記スコープに関連付けられ、ゾーンに分割された前記環境の訓練画像をニューラルネットワークに適用し、前記スコープに関連付けられた前記環境の前記ゾーンのうちの最も近いゾーンに基づいて、前記スコープによって生成されたテスト画像にラベル付けするために前記ニューラルネットワークを用いて分類を実行することと、
    検索された前記最も近いゾーンに一致する訓練画像及びその近傍画像から特徴を抽出する共に、各々に対応するポーズ情報を取得することと
    再投影誤差を生成するために前記最も近いゾーンのマップ点を三角測量することによって前記抽出された特徴に対してバンドル調整を実行し、前記テスト画像の最適なポーズを判定するために前記再投影誤差を最小化することと、
    前記最適なポーズに対して、前記環境内の前記最適なポーズにおける前記スコープによって生成された前記テスト画像の位置又は位置の確率を示す出力を提供することと、
    を行うように構成される、コンピュータ実装システム。
  16. 前記環境は、胃腸管又は1つ若しくは複数の肺の気管支管を含む、請求項15に記載のコンピュータ実装システム。
  17. 前記スコープは、ポリープ、病変、及び癌組織のうちの少なくとも1つを含む1つ又は複数の標的の位置を提供するように構成される、請求項15に記載のコンピュータ実装システム。
  18. 前記スコープは、前記環境に関連付けられた前記テスト画像を受信するように構成された1つ又は複数のセンサを備え、前記テスト画像は視覚画像である、請求項15に記載のコンピュータ実装システム。
  19. 前記スコープは内視鏡又は気管支鏡である、請求項15に記載のコンピュータ実装システム。
  20. 前記環境は、配管系、地下環境、又は産業施設である、請求項15に記載のコンピュータ実装システム。
JP2020203545A 2020-02-28 2020-12-08 画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム Active JP7673392B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/805,152 2020-02-28
US16/805,152 US11227406B2 (en) 2020-02-28 2020-02-28 Fusing deep learning and geometric constraint for image-based localization

Publications (2)

Publication Number Publication Date
JP2021140747A JP2021140747A (ja) 2021-09-16
JP7673392B2 true JP7673392B2 (ja) 2025-05-09

Family

ID=77463654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020203545A Active JP7673392B2 (ja) 2020-02-28 2020-12-08 画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム

Country Status (3)

Country Link
US (1) US11227406B2 (ja)
JP (1) JP7673392B2 (ja)
CN (1) CN113409386B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11934491B1 (en) * 2020-05-01 2024-03-19 Given Imaging Ltd. Systems and methods for image classification and stream of images segmentation
JP2022071822A (ja) * 2020-10-28 2022-05-16 オリンパス株式会社 画像表示方法、表示制御装置、およびプログラム
CN114565596B (zh) * 2022-03-04 2025-05-09 同济大学 基于深度学习和视频理解的钢表面裂缝检测和预测方法
US20250347531A1 (en) * 2024-05-07 2025-11-13 Htc Corporation Map updating method, electronic device and non-transitory computer readable storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012139456A (ja) 2011-01-05 2012-07-26 Olympus Corp 内視鏡画像再生装置
JP2013085593A (ja) 2011-10-14 2013-05-13 Toshiba Corp 医用画像表示装置
JP2018522610A (ja) 2015-05-07 2018-08-16 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 解剖学的モデルの増補によって腹腔鏡外科処置を誘導するためのシステムおよび方法
WO2020012872A1 (ja) 2018-07-09 2020-01-16 富士フイルム株式会社 医用画像処理装置、医用画像処理システム、医用画像処理方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9307926B2 (en) * 2012-10-05 2016-04-12 Volcano Corporation Automatic stent detection
US9547940B1 (en) * 2014-09-12 2017-01-17 University Of South Florida Systems and methods for providing augmented reality in minimally invasive surgery
EP3295423A1 (en) * 2015-05-11 2018-03-21 Siemens Aktiengesellschaft Method and system for registration of 2d/2.5d laparoscopic and endoscopic image data to 3d volumetric image data
CN107667380A (zh) * 2015-06-05 2018-02-06 西门子公司 用于内窥镜和腹腔镜导航的同时场景解析和模型融合的方法和系统
CN108171748B (zh) * 2018-01-23 2021-12-07 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
US10586344B2 (en) * 2018-02-21 2020-03-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for feature screening in SLAM
CN109658445A (zh) * 2018-12-14 2019-04-19 北京旷视科技有限公司 网络训练方法、增量建图方法、定位方法、装置及设备
CN109934847B (zh) * 2019-03-06 2020-05-22 视辰信息科技(上海)有限公司 弱纹理三维物体姿态估计的方法和装置
US10929669B2 (en) * 2019-06-04 2021-02-23 Magentiq Eye Ltd Systems and methods for processing colon images and videos
US10682108B1 (en) * 2019-07-16 2020-06-16 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for three-dimensional (3D) reconstruction of colonoscopic surfaces for determining missing regions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012139456A (ja) 2011-01-05 2012-07-26 Olympus Corp 内視鏡画像再生装置
JP2013085593A (ja) 2011-10-14 2013-05-13 Toshiba Corp 医用画像表示装置
JP2018522610A (ja) 2015-05-07 2018-08-16 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 解剖学的モデルの増補によって腹腔鏡外科処置を誘導するためのシステムおよび方法
WO2020012872A1 (ja) 2018-07-09 2020-01-16 富士フイルム株式会社 医用画像処理装置、医用画像処理システム、医用画像処理方法、及びプログラム

Also Published As

Publication number Publication date
US11227406B2 (en) 2022-01-18
CN113409386A (zh) 2021-09-17
US20210272317A1 (en) 2021-09-02
JP2021140747A (ja) 2021-09-16
CN113409386B (zh) 2026-03-17

Similar Documents

Publication Publication Date Title
Chadebecq et al. Artificial intelligence and automation in endoscopy and surgery
JP7673392B2 (ja) 画像ベースの位置特定のための深層学習と幾何学的制約との融合、コンピュータ実装方法、プログラム、及びコンピュータ実装システム
US12217449B2 (en) Systems and methods for video-based positioning and navigation in gastroenterological procedures
US10646288B2 (en) Automated steering systems and methods for a robotic endoscope
US20210280312A1 (en) Detecting deficient coverage in gastroenterological procedures
CN112766416B (zh) 一种消化内镜导航方法和系统
Bao et al. A computer vision based speed estimation technique for localiz ing the wireless capsule endoscope inside small intestine
CN118076315A (zh) 用于分析内窥镜检查过程的检查质量的计算机实现的系统和方法
WO2022170562A1 (zh) 一种消化内镜导航方法和系统
JP7830435B2 (ja) ポリープの画像を識別するためのシステム及び方法
van der Stap et al. Towards automated visual flexible endoscope navigation
Armin et al. Automated visibility map of the internal colon surface from colonoscopy video
Song et al. Combining deep learning with geometric features for image-based localization in the Gastrointestinal tract
Kim et al. Density clustering-based automatic anatomical section recognition in colonoscopy video using deep learning
WO2022116868A1 (en) Method, device, and computer program product for deep lesion tracker for monitoring lesions in four-dimensional longitudinal imaging
van der Stap et al. Image-based navigation for a robotized flexible endoscope
WO2025179687A1 (en) Portable edge ai-assisted diagnosis and quality control system for gastrointestinal endoscopy
Tian et al. Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization
Puerto-Souza et al. A comparative study of ego-motion estimation algorithms for teleoperated robotic endoscopes
Pinheiro et al. Deep homography based localization on videos of endoscopic capsules
Dei et al. Adjunct tools for colonoscopy enhancement: a comprehensive review
Shi et al. Gastroscopic panoramic view: application to automatic polyps detection under gastroscopy
Figueiredo et al. Dissimilarity measure of consecutive frames in wireless capsule endoscopy videos: A way of searching for abnormalities
Mackute et al. Navigational Bronchoscopy in Critical Care via End-to-End Pose Regression
Lu et al. M $^{3} $-DEGREES Net: Monocular-guided Metric Marching Depth Estimation with Graph-based Relevance Ensemble for Endoluminal Surgery

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20241105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250407

R150 Certificate of patent or registration of utility model

Ref document number: 7673392

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150