JP7811282B2 - 自己教師あり学習を用いた医療画像解析の方法 - Google Patents

自己教師あり学習を用いた医療画像解析の方法

Info

Publication number
JP7811282B2
JP7811282B2 JP2024561905A JP2024561905A JP7811282B2 JP 7811282 B2 JP7811282 B2 JP 7811282B2 JP 2024561905 A JP2024561905 A JP 2024561905A JP 2024561905 A JP2024561905 A JP 2024561905A JP 7811282 B2 JP7811282 B2 JP 7811282B2
Authority
JP
Japan
Prior art keywords
image
training
patch
masked
masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024561905A
Other languages
English (en)
Other versions
JP2025516144A (ja
Inventor
チェン,ザキィ
アレックス ブラウン,ケビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bristol Myers Squibb Co
Original Assignee
Bristol Myers Squibb Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bristol Myers Squibb Co filed Critical Bristol Myers Squibb Co
Publication of JP2025516144A publication Critical patent/JP2025516144A/ja
Application granted granted Critical
Publication of JP7811282B2 publication Critical patent/JP7811282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Description

本開示は、自己教師あり学習を用いた医療画像解析に関する。
3次元(3D)医療画像のような多次元医療画像は、患者の医療分析、診断、又は処置を容易にすることを助けるために、患者の体内の充実化された画像を与える。そのような医療画像は、例えば、コンピュータ断層撮影(CT)又は磁気共鳴画像法(MRI)を含む様々なモダリティを用いて生成されうる。
本開示の第一の態様は、コンピュータで実施される方法を与える。この方法は、データ処理ハードウェアで実行されるとき、データ処理ハードウェアに、複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、自己教師ありマスク画像モデリング(MIM)訓練プロセスを実行して、第一の教師データセットで画像エンコーダを事前訓練するステップを含む、動作を行わせる方法である。本動作は、複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップも含む。ここで、アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む。本動作はまた、第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対応する正解(ground-truth)ラベルを予測する方法を学習することを画像解析モデルに学習させるステップも含む。画像解析モデルは、事前訓練済みの画像エンコーダを組み込む。
本開示の実施形態は、1つ以上の次の任意の特徴を含んでもよい。いくつかの実施形態において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありMIM訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成すると、エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することも含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測トークン、及びマスクされた画像パッチと一致する一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの実施形態において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、デコーダは、複数のマルチヘッドアテンション層を含んでもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域(central region)マスキングストラテジ、ブロックごと(block-wise)のマスキングストラテジ、又は一様ランダム(uniformly random)マスキングストラテジのうちの1つを用い、画像パッチの一部をランダムにマスクする工程を含む。一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しくてもよい。
いくつかの例において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありMIM訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成することと、エンコード済み隠れ表現に基づき、マスクされた画像パッチに対して予測ボクセル値を、予測ヘッドを用いて生成することと、を含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測ボクセル値、及びマスクされた画像パッチを表現する対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの例において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、予測ヘッドは、単一の線形層予測ヘッドを含んでもよく、デコーダの使用なしでエンコード済み隠れ表現から予測ボクセル値を生成するように構成されてもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、画像パッチの一部をランダムにマスクすることを含む。実施形態として、本画像解析モデルは、腫瘍セグメンテーションモデルを含む。例として、本画像解析モデルは、多臓器セグメンテーションモデルを含む。
本開示の別の態様は、データ処理ハードウェア、及びデータ処理ハードウェアと通信するメモリハードウェア、を含むシステムを与える。メモリハードウェアは、データ処理ハードウェアで実行されると、データ処理ハードウェアに、複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、自己教師ありマスク画像モデリング(MIM)訓練プロセスを実行して、第一の教師データセットで画像エンコーダを事前訓練するステップと、を含む、動作を行わせる命令を保存する。本動作は、複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップも含む。ここで、アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む。本動作はまた、第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対して対応する正解ラベルを予測する方法を学習することを画像解析モデルに学習させるステップも含む。画像解析モデルは、事前訓練済みの画像エンコーダを組み込む。
この態様は、1つ以上の次の任意の特徴を含んでもよい。いくつかの実施形態において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありMIM訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成すると、エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することも含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測トークン、及びマスクされた画像パッチと一致する一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの実施形態において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、デコーダは、複数のマルチヘッドアテンション層を含んでもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、画像パッチの一部をランダムにマスクする工程を含む。一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しくてもよい。
いくつかの例において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありMIM訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成することと、エンコード済み隠れ表現に基づき、マスクされた画像パッチに対して予測ボクセル値を、予測ヘッドを用いて生成することと、を含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測ボクセル値、及びマスクされた画像パッチを表現する対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの例において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、予測ヘッドは、単一の線形層予測ヘッドを含んでもよく、デコーダの使用なしでエンコード済み隠れ表現から予測ボクセル値を生成するように構成されてもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、画像パッチの一部をランダムにマスクすることを含む。実施形態として、本画像解析モデルは、腫瘍セグメンテーションモデルを含む。例として、本画像解析モデルは、多臓器セグメンテーションモデルを含む。
本開示の1つ以上の実施形態の詳細は、添付図面及び以下の説明に記載される。他の態様、特徴、及び利点は、説明及び図面から、及び請求項から明らかである。
図1は、自己教師ありマスク画像モデリング(MIM)を使用して画像エンコーダを事前訓練し、事前訓練済みの画像エンコーダを組み込む画像解析モデルを訓練するシステムを概略的に示した図である。 図2Bは、図1の画像エンコーダを事前訓練するための自己教師ありMIMの例を概略的に示した図である。 図2Aは、図1の画像エンコーダを事前訓練するための自己教師ありMIMの例を概略的に示した図である。 図3は、単純なMIMアーキテクチャをもつ事前訓練済みの画像エンコーダを使用する、入力され、マスクされ、再構成された3DCT画像の例を示した図である。 図4は、マスクオートエンコーダ(MAE)アーキテクチャをもつ事前訓練済みの画像エンコーダを使用する、入力され、マスクされ、再構成された3DCT画像の例を示した図である。 図5は、画像解析モデルを使用する多臓器分割画像のためのダイス係数を示した表である。 図6は、図1の画像解析モデルを訓練する教師あり訓練プロセスの補足のベースライン設定を並べた表である。 図7は、図1の画像解析モデルを訓練する教師あり訓練プロセスの補足のベースライン設定を並べた表である。 図8は、図1の自己教師ありMIM訓練プロセスの事前訓練する設定を並べた表である。 図9は、Bra TSの教師データセットを用いて事前訓練した後に、脳腫瘍セグメンテーション画像の機械学習モデルを使用した結果を明らかにする表である。 図10は、画像エンコーダの自己教師ありMIM訓練が下流教師ありファインチューニングを進める様子を描いたプロットである。 図11は、多臓器セグメンテーションタスクの様々なマスクされたパッチサイズ及びマスキング比率ごとに適用するアブレーション研究を示した表である。 図12は、脳腫瘍セグメンテーションタスクの様々なマスクされたパッチサイズ及びマスキング比率ごとに適用するアブレーション研究を示した表である。 図13は、固定パッチサイズ及び固定マスキング比率を用いた画像エンコーダを事前訓練した結果を示した表である。 図14は、多次元医療画像でビジョンタスクを実行するための画像解析モデルを訓練する動作の例を整理したフローチャートである。 図15は、ここで示されたシステム及び方法を取り入れるために使用してもよい計算デバイスの例を概略的に示した図である。
様々な図面中の同様の参照記号は、同様の要素を示す。
コンピュータビジョン分析は、畳み込みニューラルネットワークの使用から、マルチヘッドアテンションベースのアーキテクチャの使用へのパラダイムシフトに立ち会っている。本開示は、例として、マルチヘッドアテンションベースのアーキテクチャの1形式としての自己注意を用いるトランスフォーマベースのアーキテクチャを参照するが、本開示は、多次元入力画像を強化する他の形式のマルチヘッドアテンションベースのアーキテクチャを使用してもよい。一般に、トランスフォーマベースのアーキテクチャ(例えばビジョントランスフォーマ)は、多次元入力画像をパッチに分割し、画像分類、オブジェクト検出、及び画像セグメンテーションを含む様々なビジョンタスクに対するトランスフォーマベースのモデルへの入力としてパッチ埋込みを作る。
コンピュータ断層撮影(CT)又は磁気共鳴画像法(MRI)のような3次元(3D)医療画像技術は、広範囲の病気を診断及び処置することに広く使用される。一般に、3D医療立体画像は、患者の状態を診断する早さ及び正確さを向上することに役立つことができる。例えば、MRI又はCTスキャンから腫瘍病変を適切に素早く発見し測定することは、病気の予防、早期発見、及び治療計画最適化に重要になり、かつより効果的な臨床応用の発展を促して、最終的に患者の生命を好転させることができる。医療画像解析で行われる基本的なタスクは、3D画像セグメンテーションを含む。医療画像解析で行われる別の基本的なタスクは、画像分類を含む。画像分類タスクは、入力画像を様々なカテゴリに分類する。一般に、(「3Dセマンティックセグメンテーション」としても参照される、)3D画像セグメンテーションは、1つ以上の特定のオブジェクトを分類するために、立体入力画像の各ボクセルと対応するクラスを予測すること、及び特定のオブジェクトの上にそれぞれのセグメンテーションマスクをかぶせることによって、特定のオブジェクトそれぞれをお互いから分離することを目的とする。3D画像セグメンテーションは、画像解釈ワークフローを自動化し又は補助することによって、放射線科医の日々の仕事量の負担を緩和するポテンシャルをもち、最終的に臨床ケア及び患者の転帰を改善する。3D画像セグメンテーションタスクは、単一のチャネル入力の13クラスセグメンテーションタスクとして行われる多臓器セグメンテーション、及び4チャネル入力の3クラスセグメンテーションクラスとして行われる脳腫瘍セグメンテーションを含んでもよい。
ロバストなトランスフォーマベースの画像解析モデルを訓練することは、従来のCNNのパフォーマンスを超える更にアノテーションされた教師データを必要とする。しかし、特定の領域で3D医療立体画像の専用のアノテーションを得る高い出費は、3D医療画像解析に対しディープラーニングアプローチを用いるような、臨床転帰に先進技術を活用する試みをしばしば妨げる。要するに、放射線科医による大規模な3D医療画像のアノテーションは、高額で及び作成するために時間がかかるという点で制限される。3D医療画像処理の別の制限要素は、3D医療画像に係る純粋なデータ量である。データ量は、増加した3D画像の次元及び解像度によって決められ、重大な処理の複雑さをもたらす。結果として、ラジオミクスエンドポイント情報を、腫瘍量の評価及び全生存予測のような、臨床研究設計における他の下流タスクのための他のバイオマーカデータと効果的に統合する能力は、非常に難しくなりうる。
転移学習は、あるコンテキストから学習したモデルを他のコンテキストに使用することである。普通の画像からの転移学習は、画像の統計、スケール、及びタスク関連の特性の差異にかかわらず、医療画像解析に使用されることができる。例えば、ImageNetからの転移学習は、医療画像の収束を加速することができ、医療画像教師データが限られるとき役に立ちうる。領域特定のデータを用いる転移学習は、領域の差異による問題を解決することを助けることもできる。例えば、改善されたパフォーマンスは、同じ領域からラベル付きデータで続く事前訓練を達成されることができる。しかし、このストラテジは、様々な医療シナリオが、ラベル付きデータを集めるためにコスト及び時間を要求するため、しばしば非現実的になりうる。自己教師あり学習は、ラベルなし/アノテーションされていない医療データを用いることができる、実行可能な代替案を提供する。
自己教師あり学習は、低容量分類器が様々な埋込みを使用し高い精度を達成することができるような、ラベルされていないデータから表現を学習することを重視する訓練技術である。対照学習は、自己教師あり学習ストラテジの別の例である。対照学習は、対照及び関連するアプローチにとって重要であるデータ拡張をもつ、2つ以上の領域の間で、画像の類似及び非類似(又は単なる類似)を作る。自己教師あり学習は、領域特定の関係なさそうなタスク、又は医療データに合わせた対照学習のような、医療分野で使用されることができる。自己教師あり学習ストラテジの範囲は3D医療画像に適用されうる。例えば、ImageNetで事前訓練済みのモデルは、皮膚科の画像分類に適用されうる。別の例として、インペインティングは、医療画像セグメンテーションで対照学習と紐づけられうる。
マスク画像モデリングのアプローチは、一般に入力画像の一部又はエンコード済み画像トークンをマスクアウトし、モデルにマスクされた領域を再構成させる。現存するMIMモデルには、射影ヘッドによってフォローされるエンコーダ-デコーダ設計を用いるものもある。エンコーダは、潜在特徴表現のモデリングにおいて補助し、一方でデコーダは、元の画像への潜在ベクトルのリサンプリングにおいて補助する。エンコードされ又はデコードされた埋込みは、射影ヘッドによってマスクされた領域で、その後元の信号と一致することができる。特に、デコーダ成分は、訓練時間を最小化するように軽量設計にできる。軽量デコーダは、計算の複雑さを減らすだけでなく、デコーダが容易に把握、変換、伝えることができるような、更に一般化できる表現を学習するエンコーダの能力を増やすことができる。エンコーダは、ファインチューニングに使用されうる。SimMIMのようなエンコード技術は、単一の射影層をもつデコーダ全体を不要にすることができる。
ビジョントランスフォーマ(ViT)を用いると、例えば、画像は、通常の重ならないパッチに分割される(例えば、96×96×96の3D体積が、16×16×16の小さい体積の216パッチに分割される)ことができ、それはビジョントランスフォーマの基本処理単位としてしばしば考えられる。いくつかのランダムマスキング技術がある。これは、中心領域マスキングストラテジ、複雑なブロックごとのマスキングストラテジ、及び/又は様々なマスクされたパッチサイズ及びマスキング比率を使用するパッチレベルにおける一様ランダムマスキングメソッドを含むが、これらに限定されない。
いくつかの例において、画像エンコーダは、標準的な(vanilla)ViT(例えばViT3D、Swinトランスフォーマ3D、及び/又はアテンションビジュアルネットワーク(例えばVAN3D))のようなビジョントランスフォーマ(ViT)アーキテクチャを含む。これは、アテンションメカニズムを継承して、例えば、Swinトランスフォーマ3Dと同様の階層表現を導き出すことができるが、代わりに純粋な畳み込みを用いる。マルチヘッドアテンション層の他の形式は、コンフォーマ層、パフォーマ層、又は軽量畳み込み層のような画像エンコーダによって用いられうるが、これらに限定されない。
本書類の実施形態は、自己教師ありマスク画像モデリング(MIM)訓練プロセスを実行して、複数のアノテーションされていない(例えばラベル付けされていない)多次元医療画像で画像エンコーダを事前訓練することを対象としている。本明細書において用いられる場合、多次元画像は、3D医療画像として参照されるが、本開示はそれに限定されず、4D医療画像も含んでもよい。3D医療画像は、患者の体内(又は体外)の部位のCT又はMRIからの体積スライスを含む。画像エンコーダは、複数のマルチヘッドアテンション層を含む。例えば、画像エンコーダは、トランスフォーマ層のスタックを用いる自己注意を使用するトランスフォーマベースのアーキテクチャを含んでもよい。これから明らかになるように、画像エンコーダは、マスクされた画像パッチの潜在的な特徴表現をモデリングする責任があり、これはマスクされた画像パッチと関連する領域内の元の画像信号を予測するために、後で使用されることができる。自己教師ありMIM訓練プロセスを介して、アノテーションされていない3D医療画像で事前訓練済みの画像エンコーダは、3D画像セグメンテーション及び画像分類のような下流ビジョンタスクの広い範囲に適応できる。
事前訓練済みの画像エンコーダは、画像解析モデルに統合されてもよく、特定の下流ビジョンタスクを行うために、アノテーションされた多次元医療画像を用いるように微調整されてもよい。事前訓練済みの画像エンコーダを微調整し、最終的に特定のビジョンタスクを行うために医療画像モデルを訓練するために使用されるアノテーションされた多次元医療画像は、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルをそれぞれ含んでもよい。このようにして、本開示の実施形態は、複数のアノテーションされた多次元医療画像で画像セグメンテーションモデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することを画像セグメンテーションモデルに学習させることを更に対象とする。それによって、画像セグメンテーションモデルは、自己教師ありMIM訓練プロセスを介してアノテーションされていない多次元医療画像で初期化され、教師あり訓練プロセスを介してアノテーションされた多次元医療画像で微調整された、事前訓練済みの画像エンコーダを含む。いくつかの例において、訓練済みの画像解析モデルは、体内の部位のMRI又はCTスキャンで分けられた3D画像スライスに行われる多臓器セグメンテーション又は腫瘍セグメンテーションのような、3D画像セグメンテーションタスクを行う画像セグメンテーションモデルを含む。以下で更に詳細に説明されるように、訓練済みの画像解析モデルは、多次元医療画像(つまりMRI又はCTスキャンからの体積スライス)から分けられた複数の画像パッチを入力として受信し、多次元医療画像から抽出された特徴に基づく強化された医療画像を生成し、強化された画像で画像セグメンテーション又は画像分類を行ってもよい。画像セグメンテーションシナリオにおいて、訓練済みの画像解析モデルは、強化された画像で1つ以上の特定のオブジェクト(例えば腫瘍又は臓器)を分類し、特定のオブジェクトを重ね合わせるそれぞれのセグメンテーションマスクを含む強化された画像を拡張することによって、お互いから特定のオブジェクトそれぞれを分離するように訓練されてもよい。本明細書において用いられるように、セグメンテーションマスクを含む強化された画像を拡張することは、各オブジェクトクラスを表す及び/又はオブジェクトクラスそれぞれの境界を定義する強化された画像内で画像ボクセルを拡張することを含む。画像ボクセルの拡張は、分類された各オブジェクトが、強化された画像内で区別及び識別可能となるようにいずれかの適した方法で、画像ボクセルの色を変えること、画像ボクセルの強度を調整すること、又は画像ボクセルを拡張することを含んでもよい。
図1は、アノテーションされていない3D医療画像202からエンコード済み特徴表現225(図2A及び図2B)を生成する方法を学習するために、自己教師あり訓練プロセス200を介して画像エンコーダ150を事前訓練し、教師あり訓練プロセス160を介して下流画像タスクを行う事前訓練済みの画像エンコーダ150を微調整する、例示的なシステム100を示す。具体的には、事前訓練済みの画像エンコーダ150は、アノテーションされた3D医療画像204で画像解析モデル170を訓練することによって特定のビジョンタスクを行うために、画像解析モデル170での使用に適応させてもよい。システム100は、データ処理ハードウェア122を備える計算システム120と、データ処理ハードウェア122と通信し、データ処理ハードウェア122に動作を行わせる命令を保存するメモリハードウェア124と、を含む。いくつかの実施形態において、第一の計算システム120、120aは、自己教師あり訓練プロセス200を実行して画像エンコーダ150を事前訓練し、次に、教師あり訓練プロセス160を実行して、事前訓練済みの画像エンコーダ150を組み込んだ画像解析モデル170を訓練して、3D医療画像上で下流ビジョンタスクを行う。これらの実施形態において、画像解析モデル170が下流ビジョンタスクを行うために訓練された後、第一の計算システム120aは訓練済みの画像解析モデル170を第二の計算システム120、120bへ提供する。ここで、第二の計算システム120bは、強化された3D医療画像110、110Eを生の3D医療画像110、110Rから生成するために、画像解析モデル170を実行し、強化された3D医療画像110Eで下流ビジョンタスクを行ってもよい。
第一の計算システム120aは、配信されたシステム(例えば、クラウド計算環境)を含んでもよい。第二の計算システム120bは、第一の計算システム120aから画像解析モデル170をダウンロードする計算デバイス(例えば、デスクトップコンピュータ、ワークステーション、ラップトップ、タブレットなど)を含んでもよい。いくつかの他の実施形態において、第一の計算システム120aは、第二の計算システム120bから3D医療画像110Rを受信し、下流ビジョンタスクを行うために画像解析モデル170を実行する。追加の実施形態において、第二の計算システム120bは、自己教師あり訓練プロセス200によって事前訓練済みの画像エンコーダ150を第一の計算システム120aから受信し、下流ビジョンタスクで事前訓練済みの画像エンコーダを微調整するために教師あり訓練プロセス160を実行する。このシナリオにおいて、アノテーションされたMD画像204は、教師あり訓練プロセス160を介して第二の計算システム120bでローカルに処理されてもよく、それによってプライバシー及び機密データを保護できる。
自己教師あり訓練プロセス200は、複数のアノテーションされていない多次元(MD)画像202を含む第一の教師データセット201で画像エンコーダ150を訓練する。具体的に、そして図2A及び2Bを参照して以下でより詳細に説明されるように、自己教師あり訓練プロセスは、自己教師ありマスク画像モデリング(MIM)訓練プロセスを含む。第一の教師データセット201における各アノテーションされていないMD画像202は、患者の体内のCTスキャン又はMRIスキャンから分割された画像スライスを含んでもよい。結果、第一の教師データセット201は、複数の患者の体内のCTスキャン及び/又はMRIスキャンから、画像スライスに関係するアノテーションされていないMD医療画像202のコーパスを含む。1つの例として、第一の教師データセット201は、The Cancer Imaging Archive-Covid19(TCIA-Covid19)公開データセットから得られたアノテーションされていない3DCTスキャン画像202を含む。ここで、アノテーションされていない3DCTスキャン画像は、Covid19感染を有する661人の患者から集められた強化されていない胸部CTスキャンの771冊を含む。
特に、ここで開示されるような自己教師ありMIM訓練は、訓練の収束を大幅に早めることによって、3D医療画像をモデリングすることにとりわけ有利になり、下流のパフォーマンスを改善する。例えば、単純な対照学習と比較した場合、訓練済みの画像エンコーダ150が下流ビジョンタスクを行うために適応され微調整されるとき、訓練の収束は、同じ又はそれ以上のダイス係数を達成するために1.40倍の訓練コストまで節約することができる。同様に、画像セグメンテーションの下流ビジョンタスクの下流パフォーマンスは、いずれのハイパーパラメータ調整もなく5パーセント(%)以上の改善を達成できる。加えて、自己教師ありMIM訓練を介して事前訓練された画像エンコーダを組み込む下流アプリケーションは、予後、治療感受性予測、組織セグメンテーション、画像分類、及び患者のデジタル表現についての特定の下流タスクへの転移学習より早く、より費用対効果が高くなる。明らかになるように、自己教師ありMIM訓練プロセス200を介して画像エンコーダ150を訓練することは、高いマスキング比率及び比較的小さいパッチサイズを用いる生のボクセル値の予測を可能にする。生の入力3D医療画像110Rを強化された3D医療画像110Eへ単純に再構成するために、軽量デコーダは、画像エンコーダ150によって出力されたエンコード済み特徴表現225を受信し、増加したスピードと減少した計算及び記憶コストで画像信号の再構成を行うように実施されてもよい。自己教師ありMIM訓練は、教師あり訓練プロセス160の間に多様な画像解像度及びラベル付きデータ比率を有する、生の入力3D医療画像110Rの全体にわたって多用途である。
一般的に、MIM学習は、入力信号のサブセット(例えば画像パッチ210)をマスクすることと、マスクされた信号を予測することとを含む学習タスクを含む。別の言い方をすると、MIM学習/訓練は、マスクによって破損した画像を介して表現を学習する自己教師あり学習技術である。マスキングはノイズタイプとして提供されることができる。自己教師あり学習のマスクされたパッチの予測は、ソース領域の大きな矩形の領域を修復すること、及び未知のボクセル値を分類するためにクラスタごとにボクセル値をグルーピングすること、によって失ったボクセルを予測することができる。加えて、自己教師あり学習のマスクされたパッチの予測は、画像の平均色を予測することによって、果たされることができる。
画像エンコーダ150が自己教師あり訓練プロセス200を介して事前訓練された後、教師あり訓練プロセス160は、複数のアノテーションされたMD医療画像204を含む第二の教師データセット203で画像解析モデル170を訓練する。教師あり訓練プロセス160は、画像解析モデル170と統合された訓練済み画像エンコーダ150を微調整し、画像セグメンテーションタスク又は画像分類タスクなどの下流ビジョンタスクを行うように画像解析モデル170を学習させる。各アノテーションされたMD医療画像204は、対応する画像ボクセル206が属するクラスを示す、対応する正解ラベル208とそれぞれ対になる複数の画像ボクセル206を含む。特に、画像エンコーダ150を事前訓練するために用いられる第一の教師データセット201にある、アノテーションされていない3D画像202は、アノテーションされた第二の教師データセット203にあるアノテーションされた3D画像204よりも、異なる医療領域と関連づけられてもよい。例えば、第一のデータセット201は、胸部CTスキャンを含んでもよく、第二のデータセット203は、腹部CTスキャン又は脳腫瘍の多モードMRIスキャンを含んでもよい。
画像解析モデル170は、画像パッチ210及びデコーダ152から、階層のエンコード済み特徴225(図2A及び2B)を生成するために、(ViTベースのエンコーダ、Swinトランスフォーマ、又はVANとして使用される、)画像エンコーダ150を含むU字型エンコーダデコーダアーキテクチャを含んでもよい。デコーダ152は、画像エンコーダ150から出力されたエンコード済み特徴225に基づき画像セグメンテーションタスクを行うために、UPerNetを含んでもよい。つまり、2層の転置畳み込みは、画像エンコーダ150を事前訓練する自己教師ありMIM訓練プロセスの間に射影ヘッド260(図2A)として用いられることができ、UPerNetデコーダ152は、下流画像セグメンテーションを行う画像解析モデル170による事前訓練済みの画像エンコーダ150を用いて使用するために実施されることができる。いくつかの例において、画像エンコーダ150は、マルチヘッドアテンション層のスタックを使用するマスクオーディオエンコーダ(MAE)(図2A参照)を含む。例えば、MAEは、デコーダ152によって使用するために512次元を有するトランスフォーマブロックの8層スタックを含んでもよい。他の例において、画像エンコーダは、単純なマスク画像モデル(SimMIM)(図2参照)を含み、単純な線形層は、デコーダの代わりに射影ヘッドとして使用される。
1つの例において、第二の教師データセット203は、臨床放射線科医の監督のもとで、人間の通訳者によって、13の臓器アノテーションを有する30人の参加者/患者から得られた腹部CTスキャンを含む、Beyond the Cranial Vault(BTCV)の腹部データセットから得られたアノテーションされた3DCTスキャンを含む。BTCV腹部データセットの各3DCTスキャンは、コントラスト強化を用いて門脈相において行われ、512×512ピクセルと1から6ミリメートル(mm)の範囲のスライス厚みを有する80から225スライスを含む。事前処理する間に、各アノテーションされた3D画像204は、1.5-2.0の等方ボクセル間隔で再サンプルされてもよい。この例では、教師あり訓練プロセス160は、1チャネル出力をもつ13クラスセグメンテーションを行う多臓器セグメンテーションモデルとして画像解析モデル170を訓練する。結果として、各アノテーションされた3D医療画像204にそれぞれ対応する画像ボクセル206の正解ラベル208は、対応する画像ボクセル206が属する臓器に依存する13の異なるクラスのうち1つを含んでもよい。
他の例において、第二の教師データセット203は、浮腫、非増強コア、及び壊死コアの領域を表す対応する画像ボクセル206についての正解ラベル208を有する多モード及び多サイトMRIスキャンを含む脳腫瘍セグメンテーション(BraTS)公開データセットから得られた、アノテーションされた3DMRIスキャン画像を含む。この例において、教師あり訓練プロセス160は、4チャネル入力をもつ3クラスセグメンテーションを行う脳腫瘍セグメンテーションモデルとして、画像解析モデル170を訓練する。MRI画像のボクセル間隔は、1.0×1.0×1.0mm3であってもよい。ボクセルの強度は、標準化を用いて事前処理されてもよい。
自己教師あり訓練プロセス200は、計算システム120のメモリハードウェア124に重ねられたデータストレージ180に、事前訓練済み画像エンコーダ150を保存してもよい。同じく、教師あり訓練プロセス160は、データストレージ180に訓練済み画像解析モデル170を保存してもよい。第一の計算システム120a及び/又は任意の数の第二の計算システム120bは、事前訓練済み画像エンコーダ150及び/又は訓練済み画像解析モデル170に、その実行のために接続/取得してもよい。
推論中に、事前訓練済み及び微調整済み画像エンコーダ150を組み込む画像解析モデル170は、1つ以上の生の入力3D医療画像110Rの画像解析タスクを処理し実行するために、第二の計算システム120b(又は第一の計算システム120a)を実行する。特に、画像解析モデル170によって行われる画像解析タスクは、下流ビジョンタスク(つまり画像セグメンテーション又は画像分類)を含む。ここで、画像解析モデル170は、行う教師あり訓練プロセス160によって訓練されたものである。生の入力3D医療画像110Rそれぞれは、患者の体内の3DCTスキャン又は3DMRIスキャンからの3D画像スライスと対応してもよい。任意に、生の入力3D医療画像110Rは、患者の体内の領域の3D画像と対応してもよい。生の入力3D医療画像110Rそれぞれは、複数の画像パッチ210、210a-nに生の入力3D医療画像110Rを分割するために、初期画像の事前処理184を受けてもよい。9の画像パッチが例として示されるが、この例は制限的ではなく、事前処理184は、画像パッチ210の任意の数に画像を分割してもよい。画像解析モデル170は、強化された3D医療画像110Eを生成するために、画像パッチ210を処理し、強化された3D医療画像110Eで下流ビジョンタスクを行ってもよい。画像解析モデル170が3D医療セグメンテーションの下流ビジョンタスクを行う場合、モデル170は、1つ以上の特定のオブジェクト(例えば腫瘍、組織、臓器)を分類するために、体積の強化された3D医療画像110Eの各ボクセルと対応するクラスを予測し、各オブジェクトを分類するボクセルをかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、特定のオブジェクトそれぞれをお互いから分離する。例の3D画像セグメンテーションタスクは、単チャネルをもつ13クラスセグメンテーションタスクとして行われる多臓器セグメンテーション、及び4チャネル入力をもつ3クラスセグメンテーションクラスとして行われる脳腫瘍セグメンテーションを含んでもよい。
画像オーグメンタ360は、各特定のオブジェクトクラスを表すボクセルを識別するために分割された、強化された3D医療画像110Eを受信し、特定のオブジェクトクラスを表すボクセルの少なくとも一部に適用するために対応するセグメンテーションマスクを生成してもよい。それに応じて、画像オーグメンタ360は、各オブジェクトクラスを表す及び/又はオブジェクトクラスそれぞれの境界を定義する強化された画像において、画像ボクセルを拡張してもよい。画像ボクセルの拡張は、画像ボクセルの色を変えること、画像ボクセルの強度を調整すること、又は適切な方法で画像ボクセルを拡張することを含み、分類された各オブジェクトは、強化された画像110Eの内で区別及び識別可能である。セグメンテーションマスクは、強化された画像110Eで識別される各オブジェクトの位置を伝えるために、強化された画像に適用されるグラフィック機能を含んでもよい。画像オーグメンタ360は、解析モデル170によって行われる分割の結果を伝えるセグメンテーションマスクを表現する、強化され拡張された画像110Aを出力してもよい。計算システム120で実行するグラフィックユーザインタフェース360は、計算システム120の通信においてスクリーンで拡張された画像110Aを表示してもよい。加えて、又は代わりに、強化された画像及び/又は拡張された画像110Aは、1つ以上の追加の下流タスクへの出力として与えられてもよい。
図2A及び図2Bを参照すると、いくつかの実施形態において、自己教師ありMIM訓練プロセス200は、マスクオートエンコーダ(MAE)アーキテクチャ(図2A)又は単純なMIM(SimMIM)アーキテクチャ(図2B)のどちらかを備える画像エンコーダ150を事前訓練する。各アノテーションされていない3D医療画像202に対して、訓練プロセス200は、まず、複数の画像パッチ210、210a-nに画像202を分割するために、事前処理段階184で画像202を事前処理する。フル3D画像の体積は、計算システム120のデータ処理ハードウェア122(例えばGPU)上に直接載せることが一般的に難しいため、自己教師ありMIM訓練プロセス200は、事前処理が元の3D医療画像202をいくつか(例えば96×96×96)の小さな3Dウィンドウに分割する、スライディングウィンドウ訓練ストラテジを実施してもよい。デフォルトでは、事前処理段階184は、約16のパッチサイズを実施してもよい。事前処理段階は、アノテーションされていない3D医療画像202の画像解像度をダウンサンプリングしてもよい。例えば、96×体積の解像度は、画像エンコーダ150がViTベースの画像エンコーダを含むとき9×体積の解像度へダウンサンプリングされることができ、又は画像エンコーダ150がSwinトランスフォーマ又はVANを含むとき3×体積の解像度へダウンサンプリングされることができる。
図2Aは、対応するアノテーションされていないMD医療画像202から分割された画像パッチ210の一部をランダムにマスクすることによって、MAEアーキテクチャを備える画像エンコーダ150を訓練するMIM訓練プロセス200を示す。訓練プロセス200は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、画像パッチ210の一部を更にランダムにマスクする。訓練プロセスは、アノテーションされていないMD医療画像202を入力として受信するように構成された画像トークナイザ230を使用し、対応するアノテーションされていないMD医療画像202を特徴づける一連の離散ビジュアルトークンを、更に生成する。一連の離散ビジュアルトークン240におけるビジュアルトークンの数は、アノテーションされていないMD医療画像202から分割された画像パッチ210の数と等しくてもよい。トークナイザ230は、離散トークンインデックスを含むトークンボキャブラリを含むビジュアルコードブックに従って、離散ビジュアルトークン240に医療画像202から離散画像ボクセルをマッピングしてもよい。ビジュアルトークン240は離散的であるため、訓練プロセス200は、微分可能ではない。いくつかの例において、トークナイザ230は、画像が学習済みボキャブラリに従って離散ビジュアルトークンにトークン化されるオートエンコード形式の再構成プロセスを介して、訓練される。
例として示されるように、自己教師ありMIM訓練プロセス200は、位置埋込み215を画像パッチ210に加える。画像エンコーダ150は、各マスクされた画像パッチ210Mを受信し、それによって、各マスクされた画像パッチは、特別なマスキング埋込み[M]と置き換わってもよい。特別なマスキングトークン[M]は、対応するマスクされた画像パッチ210を明らかにするために最適化された学習可能ベクトルとして、ランダムに初期化されてもよい。
各マスクされた画像パッチ[M]に対して、画像エンコーダ150は、対応するエンコード済み特徴表現225(エンコード済み隠れ表現225としても参照される)を生成するように構成され、デコーダ250は、射影ヘッド260からの出力として対応する予測トークン275を予測するために、対応するエンコード済み特徴表現225をデコードする。MIM訓練プロセス200の目的は、元の3D画像202から得られるビジュアルトークン240を予測する方法を学習するために、画像エンコーダ150及びデコーダ250を学習させることである。具体的には、訓練プロセス200は、元の3D画像202から得られるビジュアルトークン240と一致する予測トークン275の生成に使用するマスクされた画像パッチ210Mのエンコード済み特徴表現225を生成するために、エンコーダ150を学習させる。ここで、訓練プロセス200は、マスクされた画像パッチ210Mに生成された予測トークン275、及びマスクされた画像パッチ210Mと一致する(つまり位置埋込み215を用いる)一連の離散ビジュアルトークン240からの対応するビジュアルトークンに基づき訓練損失を決定してもよい。その後、訓練プロセス200は、訓練損失に基づき画像エンコーダ150(及び任意でデコーダ250)のパラメータをアップデートする。
デコーダは、複数のマルチヘッドアテンション層(例えばトランスフォーマ層)を含んでもよい。いくつかの例において、マスクされた画像パッチ210Mは、エンコーダ150に気づかれず、それによってデコーダ250のみが種々のトークンの知識を有する。このアプローチは、訓練と干渉せず計算及びメモリを保存してもよい。
図2Bは、対応するアノテーションされていないMD医療画像202から分割された画像パッチ210の一部をランダムにマスクするSimMIMアーキテクチャを備える画像エンコーダ150を訓練する、自己教師ありMIM訓練プロセス200を示す。各画像パッチ210は、対応する生のボクセル値のセットによって表現されてもよい。訓練プロセス200は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、画像パッチ210の一部を更にランダムにマスクする。
例として示されるように、自己教師ありMIM訓練プロセス200は、位置埋込み215を画像パッチ210に加える。画像エンコーダ150は、各マスクされた画像パッチ210Mを受信し、それによって、各マスクされた画像パッチは、特別なマスキング埋込み[M]と置き換わってもよい。特別なマスキングトークン[M]は、対応するマスクされた画像パッチ210を明らかにするために最適化された学習可能ベクトルとして、ランダムに初期化されてもよい。
各マスクされた画像パッチ210Mについて、画像エンコーダ150は、対応するエンコード済み特徴表現225を生成するように構成され、予測ヘッド260は、マスクされた画像パッチ210Mに予測ボクセル値を生成する。特に、SimMIMアーキテクチャを備える画像エンコーダ150を事前訓練するためのMIM訓練プロセス200は、デコーダを省き、代わりに予測ヘッド260を実施して、対応するマスクされた画像パッチ210Mの画像エンコーダ225によって生成されたエンコード済み特徴表現225から直接的に、各マスクされた画像パッチ210Mの生のボクセル値270を予測する。訓練プロセス200は、マスクされた画像パッチ及びマスクされた画像パッチを表す元のアノテーションされていないMD医療画像202から、対応する生のボクセル値のセットを生成された予測ボクセル値270に基づき、訓練損失を決定してもよい。
訓練損失は、修復された/推定された生のボクセル値270と、マスクされた画像パッチを表す対応する生のボクセル値のセットからの元のボクセル値との間の、ボクセル間隔の距離に基づいてもよい。訓練損失は、l又はlの損失関数いずれかを含んでもよい。特に、訓練損失は、エンコーダ150が自己再構成をすることを妨害し、学習プロセス及び最終的に邪魔された知識学習を潜在的に支配するために、マスクされたマッチ210Mを計算されるのみでもよい。その後、訓練プロセス200は、訓練損失に基づき画像エンコーダ150(及び任意にデコーダ250)のパラメータをアップデートする。射影ヘッドは、事前処理が医療画像202の解像度をダウンサンプリングするとき、元のボクセル間隔に予測トークン275を変換できる。任意に、2層の転置畳み込みは、圧縮されたエンコード済み特徴表現225を、元の医療画像202の解像度にアップサンプリングすることができる。
図3は、SimMIM再構成を使用する事前訓練済み画像エンコーダ150を適用するTCIA-COVID19の検証セットから、入力され、マスクされ、再構成された3DCTスキャン画像の例を示す。元の画像は全て3Dの体積であるが、再構成画像は、説明と理解の容易さを目的としてスライスの形式で表示され、インデックス番号は深さを表す。各三つ組について、第一の又は一番左の列は、正解(例えば元の画像)を示す。第二の又は真ん中の列は、マスクされた画像を示す。第三の又は一番右の列は、SimMIM再構成を使用する機械学習モデルを示す。図5で示される画像に関して、ViT-Baseバックボーンはエンコーダに適用され、マスクされたパッチサイズは(全ての次元について)約16であり、マスキング比率は約75%である。
図4は、MAE再構成を使用する機械学習モデルを適用するTCIA-COVID19の検証セットから、入力され、マスクされ、再構成された3DCTスキャン画像の例を示す。図3を同様に、元の画像は全て3Dの体積であるが、再構成画像は、説明と理解の容易さを目的としてスライスの形式で表示され、インデックス番号は深さを表す。各三つ組について、第一の又は一番左の列は、正解(例えば元の画像)を示す。第二の又は真ん中の列は、マスクされた画像を示す。第三の又は一番右の列は、MAE再構成を使用する機械学習モデルを示す。図4で示される画像に関して、ViT-Largeバックボーンはエンコーダに適用され、マスクされたパッチサイズは(全ての次元について)約16であり、マスキング比率は約75%である。
図5は、MIMアプローチが一般的に対照学習技術を上回ることができることを証明する表を示す。事前訓練済み画像エンコーダ150は、MAEアーキテクチャ及び0.752から0.758の平均ダイス係数を達成するSimMIMアーキテクチャのどちらも有し、SimCLRはおよそ0.723の平均ダイス係数であり4.5%低い。ここで使われるように、ダイス係数は、下流ビジョンタスクとして行われるセグメンテーションの精度を評価するために使用される。与えられたセマンティックタスクについて、G及びPは、各対応するボクセルiの正解と予測値をそれぞれ示す。次の等式は、ダイス係数を明らかにするために使われてもよい。
図6は、多臓器画像セグメンテーションを行うBTCVデータセットで画像解析モデル170を訓練する教師あり訓練プロセス160の、補足のベースライン設定を並べた表を示す。図7は、脳腫瘍セグメンテーションを行うBraTSデータセットで画像解析モデル170を訓練する教師あり訓練プロセス160の、補足のベースライン設定を並べた表を示す。図8は、アノテーションされていない3D医療画像202として3DCT画像体積を使用する、自己教師あり訓練プロセスの、事前訓練設定を並べた表を示す。
図9は、アノテーションされたMD医療画像204としてBraTS教師データセットを用い事前訓練された後、脳腫瘍セグメンテーション画像で機械学習モデルを使用した結果を明らかにする表である。図8におけるBraTSの分割結果は、図5で示された分割結果と同様のパターンに従う。マスク画像モデリングアプローチの平均ダイス係数は、0.80より若干大きいが、SimCLRは、0.7739のダイス係数を得ており、これは図5に匹敵する最良のアプローチより4.37%小さい。もう1つの注意点は、2つのMIM技術の類似にかかわらず、図5及び図9の両方で明らかにされるように、SimMIMはMAEより僅かによいパフォーマンスを達成することができる点である。これについての1つの説明として、もしエンコーダ150が一般化できる表現を取得しないとしても、効率的なデコーダ(軽量なデコーダでさえ)は、元の画像を再構成できる可能性があり、したがってより効率的な表現225を学習するためのエンコーダ150の動機を周期的に緩和するという理由がある。自己教師ありMIM学習の1つのゴールは、自己収束のみよりむしろ効率的で一般化できるデータの表現を学習することである。比較して、SimMIMは、デコーダ全体を省くことによって更に軽いデザインを用い、より複雑な再構成及び学習タスクを行うためのエンコーダを走らせる。
自己教師ありMIM訓練プロセス200は、第一の教師データセット201で画像エンコーダ150を事前訓練するためのコストを減らしつつ、訓練速度を上げる。図10は、自己教師ありMIM訓練プロセス200が教師あり訓練プロセス160をどのように進めるかを表現するプロットを示す。ここで、検証セットの平均ダイス係数は、教師ありベースラインと、訓練段階を通して異なるマスキング比率を用いる様々な自己教師ありMIM技術に分けられる。事前訓練するマスク画像モデリングは、訓練コストを節約しより良いパフォーマンスを生みだす。SimMIMベースのアーキテクチャは、1.3k訓練段階でのダイス係数より1.76倍を得ることができる。更に、MIMベースのアプローチは、教師ありベースラインで要求される訓練時間より1.4倍少ない訓練時間で0.7のダイス係数に到達できる。
いくつかの実施において、様々なマスクされたパッチサイズ及びマスキング比率は、自己教師ありMIMを用いるモデルを訓練するために使用される。種々のMIM技術を用いる3D医療画像に機械学習モデルを適用し、及び下流画像セグメンテーションを行う事前訓練済み画像エンコーダを微調整した結果は、図11及び図12の表にまとめられる。図11は、多臓器セグメンテーションでの様々なマスクされたパッチサイズ及びマスキング比率のアブレーション研究を示す表を含む。図13の結果を生成するために適用される機械学習モデル160は、事前訓練済みエンコーダ150として適用されるViT-Bのデフォルトバックボーンを備えた。加えて、機械学習モデル160は、BTCV教師データセットを用いる教師あり訓練プロセス160を介して訓練された。図12は、脳腫瘍セグメンテーションでの様々なマスクされたパッチサイズ及びマスキング比率のアブレーション研究を示す表である。同じく、事前訓練するデータは、BraTSデータセット自信を含み、ViT-Bは、セグメンテーションファインチューニングのためにUNETRのエンコーダバックボーンとして適用される。
より高いマスキング比率は、下流タスクに効率的に変換されうる一般的な表現を構築するためのモデルを継続的に動かせる、重要な自己教師あり学習ジョブである。例えば、多臓器セグメンテーション及び脳腫瘍セグメンテーションでのベストなダイス係数は、約0.75のマスキング比率が複数のパッチサイズ(例えば、図11におけるパッチサイズ16の0.7183、図12におけるパッチサイズ24及び32の0.8041)にわたって使用されるとき、得られる。小さいパッチサイズと組み合わされる高いマスキング比率は、SimMIMと組み合わせて使用されるとき、比較的良いパフォーマンスをもたらす。図11及び図12に示されるように、パッチサイズが16と等しいとき、モデルはそれぞれ約0.7249及び0.8077のダイス係数で実行できる。しかし、パッチサイズが増えるとき、SimMIMメソッドは、このマスキング比率に感度が低く表れる。例えば、パッチサイズが約32であるとき、モデルは、可能な限り最も小さいマスキング比率である約0.15のマスキング比率で、最も大きいダイス係数を得ることができる。医療画像は、一般的に生であり、程度の大きい空間的な冗長性をもつ低いレベルの信号である。いくつかの未知のパッチを修復することは、オブジェクトと周囲の包括的な知識を少し有する近くのパッチを直接コピーすることによって行われる。単一の小さいマスクされたパッチは、複雑で交差する構造又は位置を十分にマスクすることができないこともあるが、大きなパッチサイズは、より重要な信号を単独で隠すことができる。結果として、小さいパッチサイズの高いマスキング比率は、大きいパッチサイズの高いマスキング比率より、致命的になりうる。
一般的に、教師あり学習において、より多くの教師データは、パフォーマンスを改善する結果となる。図13は、自己教師ありMIM訓練プロセス200を介して事前訓練された画像エンコーダ150、及びMAEアーキテクチャ(図2A)を有するハンドを組み込む、画像解析モデル170のダイス係数を示す表を含む。画像エンコーダ150は、ダウンサンプリングの様々な程度を有する様々なデータソースごとに事前訓練されてもよい。教師あり訓練プロセス160は、様々なラベル付きデータ比率を有する多臓器セグメンテーションデータセットで画像解析モデル170を訓練してもよい。表の結果は、自己教師あり訓練MIM訓練プロセス200を介して、より多くのアノテーションされていない3D医療画像202で訓練されたモデルが、少ないアノテーションされていない3D医療画像202で訓練されたモデルを上回る(例えば、0.7184に対して0.7543で4.9%の改善、0.7018に対して0.7338で4.6%の改善)。この利点は、半分のラベル付きデータのみが教師あり訓練のために使用されるとき、0.6818は0.6552より5.6%大きいように、低い画像の解像度でより断言されてもよい。
図13は、また、事前訓練するためのアノテーションされていない3D医療画像の異なる解像度が下流画像タスクパフォーマンスにどの程度影響を与えるかも表す。例えば、高い事前訓練の解像度は、画像がより粒度の高い情報を含むため、よりよい分割結果をもたらす。ここで、異なるダウンサンプリング比率は、元の信号が各体積の全次元に圧縮される度合いを表すために用いられることができる。図13からわかるように、高い解像度(例えば、1.5×,1.5×,2.0)を有する事前訓練済みエンコーダモデルは、一般的に低い解像度(例えば、2.0×,2.0×,2.0)を有する事前訓練済みモデルよりよく動く。例えば、0.7338のダイス係数は、同じデータソース、同じラベル付き比率で、より高い解像度を用い事前訓練されたダイス係数より2.7%小さい。
図14は、多次元医療画像で画像解析タスクを行うために画像解析モデルを訓練する方法1400の動作の例示的な配列のフローチャートである。計算システム120のデータ処理ハードウェア122は、メモリハードウェア124に保存された命令を実行して動作を行ってもよい。動作1402において、方法1400は、複数のアノテーションされていない多次元医療画像202を含む第一の教師データセット201を得るステップを含む。動作1404において、方法1400は、自己教師ありマスク画像モデリング(MIM)訓練プロセス200を実行して、第一の教師データセット201で画像エンコーダ150を事前訓練するステップを含む。
動作1406において、方法1400は、複数のアノテーションされた多次元医療画像204を含む第二の教師データセット203を得るステップを含む。ここで、アノテーションされた多次元医療画像204のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベル208とそれぞれ対になる、複数の画像ボクセル206を含む。動作1408において、方法1400は、第二の教師データセット203で画像解析モデル170を学習させる教師あり訓練プロセス160を実行して、アノテーションされた多次元医療画像204のそれぞれの複数の画像ボクセル206に対応する正解ラベル208を予測する方法を学習することを画像解析モデル170に学習させるステップを含む。ここで、画像解析モデル170は、事前訓練済みの画像エンコーダ150を組み込む。教師あり訓練プロセス160は、自己教師ありMIM訓練プロセス200を介して初期化された事前訓練済み画像エンコーダ150を微調整する。
ソフトウェアアプリケーション(つまりソフトウェアリソース)は、計算デバイスにタスクを行わせるコンピュータソフトウェアを参照してもよい。いくつかの例において、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、又は「プログラム」として参照されてもよい。アプリケーションの例としては(これに限られないが)、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションを含む。
非一時的なメモリは、計算デバイスによる使用のための一時的又は永続の基盤で、プログラム(例えば一連の命令)又はデータ(例えばプログラムの状態情報)を保存するために使用される物理デバイスであってもよい。非一時的なメモリは、揮発性及び/又は不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例としては(これに限られないが)、フラッシュメモリ及び読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/(例えば、ブートプログラムのような通常ファームウェアに使用される)電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)を含む。揮発性メモリの例としては(これに限られないが)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、及びディスク又はテープを含む。
図15は、本明細書において示されたシステム及び方法を実施するために使用されてもよい、計算デバイス1500の例を概略的に示した図である。計算デバイス1500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータのような、デジタルコンピュータの様々な形式を表すように意図される。ここで示される接続及び関係、及び機能の構成要素は、単なる例として意味され、本明細書において説明及び/又は請求される発明の実施を制限することは意味されない。
計算デバイス1500は、プロセッサ1510と、メモリ1520と、ストレージデバイス1530と、メモリ1520及び高速拡張ポート1550と接続される高速インタフェース/コントローラ1540と、及び低速バス1570及びストレージデバイス1530と接続される低速インタフェース/コントローラ1560とを含む。構成要素1510、1520、1530、1540、1550、及び1560のそれぞれは、様々なバスを用い相互接続され、共通のマザーボード又は必要に応じて他の方法で積載されてもよい。プロセッサ1510は、メモリ1520、又は高速インタフェース1540に結合されたディスプレイ1580のような、外部入力/出力デバイス上のグラフィックユーザインタフェース(GUI)のグラフィック情報を表示するためのストレージデバイス1530上に保存される命令を含む、計算デバイス1500内で実行する命令を処理することができる。他の実施形態において、複数のプロセッサ及び/又は複数のバスは、必要に応じて、複数のメモリ及びメモリ形式とともに使用されてもよい。また、複数の計算デバイス1500は、必要な動作の一部を提供する各デバイス(例えば、サーババンク、ブレードサーバのグループ、又はマルチプロセッサシステム)と接続されてもよい。
メモリ1520は、計算デバイス1500内で非一時的に情報を保存する。メモリ1520は、コンピュータ可読媒体、揮発性メモリユニット、不揮発性メモリユニットであってもよい。非一時的なメモリ1520は、計算デバイス1500によって使用するための一時的又は永続の基盤で、プログラム(例えば一連の命令)又はデータ(例えばプログラムの状態情報)を保存するために使用される物理デバイスであってもよい。不揮発性メモリの例としては(これに限られないが)、フラッシュメモリ及び読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/(例えば、ブートプログラムのような通常ファームウェアに使用される)電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)を含む。揮発性メモリの例としては(これに限られないが)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、及びディスク又はテープを含む。
ストレージデバイス1530は、計算デバイス1500の大容量ストレージを提供できる。いくつかの実施形態において、ストレージデバイス1530は、コンピュータ可読媒体である。様々な異なる実施形態において、ストレージデバイス1530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、又はテープデバイス、フラッシュメモリ又は他の同様のソリッドステートメモリデバイス、又はストレージエリアネットワーク又は他の構成のデバイスを含むデバイスの配列であってもよい。追加の実施形態において、コンピュータプログラムプロダクトは、情報媒体に具体的に組み込まれる。コンピュータプログラムプロダクトは、実行されるとき、上述のような1つ以上の方法を行う命令を含む。情報媒体は、メモリ1520、ストレージデバイス1530、又はプロセッサ1510上のメモリのような、コンピュータ又は機械可読媒体である。
高速コントローラ1540は、計算デバイス1500の帯域幅を消費する動作を管理し、一方、低速コントローラ1560は、低い帯域幅を消費する動作を管理する。そのような役割の割当ては、単なる例である。いくつかの実施形態において、高速コントローラ1540は、メモリ1520、(例えばグラフィックプロセッサ又はアクセラレータを通して、)ディスプレイ1580、及び(ここには示されないが様々な拡張カードを適用してもよい、)高速拡張ポート1550に結合される。いくつかの実施形態において、低速コントローラ1560は、ストレージデバイス1530及び低速拡張ポート1590に結合される。低速拡張ポート1590は、様々な通信ポート(例えばUSB、Bluetooth、イーサネット、無線イーサネット)を含んでもよく、キーボード、ポインティングデバイス、スキャナ、又は例えばネットワークアダプタを通したスイッチ又はルータのようなネットワークデバイスのような1つ以上の入力/出力デバイスに結合されてもよい。
計算デバイス1500は、図に示されるように、いくつかの異なる形式で実施されてもよい。例えば、標準的なサーバ1500a又はそのようなサーバ1500aのグループで複数のものとして、ラップトップコンピュータ1500bとして、又はラックサーバシステム1500cの一部として、実施されてもよい。
本明細書において説明されるシステム及び技術のさまざまな実施形態は、デジタル電気及び/又は光回路、集積回路(特にASICs(特定用途向け集積回路))、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの結合で、実現することができる。これらの様々な実施形態は、1つ以上のコンピュータプログラムでの実施形態を含むことができる。少なくとも1つのプログラマブルプロセッサを含む、プログラマブルシステムで実行可能及び/又は解釈可能であってもよく、特殊用途又は汎用であってもよく、ストレージシステムと、少なくとも1つの入力デバイスと、少なくとも1つの出力デバイスからデータと命令を受信し、データと命令を送信するために、結合されてもよい。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られる、)これらのコンピュータプログラムは、プログラマブルプロセッサへの機械語命令を含み、高水準の手続き型及び/又はオブジェクト指向のプログラミング言語で、及び/又はアセンブリ/機械言語で、実施されうる。本明細書において用いられる、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号として機械語命令を受信する機械可読媒体を含む、プログラマブルプロセッサへの機械語命令及び/又はデータを与えるために用いられる、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置、及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLDs))を指す。「機械可読信号」という用語は、プログラマブルプロセッサへの機械語命令及び又はデータを与えるために用いられる、任意の信号を指す。
本明細書において説明されるプロセスと論理フローは、1つ以上のプログラマブルプロセッサによって行われることができ、またデータ処理ハードウェアとして参照もされることができ、入力データを演算し、出力を生成することによって機能を実行するために、1つ以上のコンピュータプログラムを実行することができる。プロセスと論理フローは、特殊用途の論理回路(例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路))によって行われることもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用及び特殊用途の両方のマイクロプロセッサ、及び任意の種類のデジタルコンピュータの1つ以上のプロセッサを含む。一般的に、プロセッサは、読取り専用メモリ又はランダムアクセスメモリ又はその両方から、命令及びデータを受信する。コンピュータの不可欠な要素は、命令を行うためのプロセッサと、命令及びデータを保存する1つ以上のメモリデバイスである。一般的に、コンピュータは、データを保存するための1つ以上の大容量ストレージデバイス(例えば、磁気ディスク、光磁気ディスク、又は光ディスク)も含み、これらからデータを受信又はこれらへデータを送信、又はその両方をするために、操作可能に結合もされる。しかし、コンピュータは、そのようなデバイスを備えなくてもよい。コンピュータプログラムの命令及びデータの保存に適したコンピュータ可読メディアは、不揮発性メモリ、(例として半導体メモリデバイス(例えばEPROM、EEPROM)及びフラッシュメモリデバイス、磁気ディスク(例えば内蔵ハードディスク又はリムーバブルディスク)、光磁気ディスク、CDROM及びDVDROMディスク)を含むメディア及びメモリデバイスの、全ての形式を含む。プロセッサ及びメモリは、特殊用途の論理回路によって補完すること、及び特殊用途の論理回路に組み込むこともできる。
ユーザとの相互作用を提供するために、本開示の1つ以上の態様は、ディスプレイデバイス(例えば、ユーザに情報を表示するためのCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、又はタッチスクリーン、及び任意で、ユーザがコンピュータへ入力を提供できるキーボード及びポインティングデバイス(例えばマウス又はトラックボール))を備えるコンピュータで実施されてもよい。他の種類のデバイスは、同じようにユーザとの相互作用を提供するために使用されうる。例えば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、触覚的フィードバックなど、任意の形式の感覚的フィードバックであってもよく、ユーザからの入力は、音響、音声、又は触覚入力を含む任意の形式で受信できる。更に、コンピュータは、ユーザによって使用されるデバイスへ文書を送信し、及びデバイスから文書を受信すること、例えば、ウェブブラウザから受信した要求への応答において、ユーザクライアントデバイスでウェブブラウザへウェブページを送信することによって、ユーザに作用することができる。
いくつかの実施形態は説明された。それにかかわらず、様々な変更は本開示の趣旨と範囲から離れずにされてもよいと理解される。それに応じて、他の実施形態は、以下の請求項の範囲内に含まれる。

Claims (20)

  1. データ処理ハードウェアで実行される、コンピュータで実施される方法であって、前記データ処理ハードウェアに
    複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、
    自己教師ありマスク画像モデリング(MIM)訓練プロセスを実行して、前記第一の教師データセットで画像エンコーダを事前訓練するステップと、
    複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップであって、前記アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属する、複数のクラス候補のうちの1つを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む、ステップと、
    前記第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、対応する前記アノテーションされた多次元医療画像の複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することによってそれぞれの対応するアノテーションされた多次元医療画像の強化された多次元医療画像を生成する方法を学習することを前記画像解析モデルに学習させるステップと、
    を含む動作を行わせ、
    前記画像解析モデルは、事前訓練済みの前記画像エンコーダを組み込
    前記教師あり訓練プロセスの実行の間に前記画像解析モデルによって生成された前記強化された多次元医療画像は、それぞれのクラスに属するそれぞれの対応する画像ボクセルにかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、前記複数のクラス候補のそれぞれのクラスを、複数のタスク候補のそれぞれの他のクラスから分離し、
    前記第一の教師データセットの前記複数のアノテーションされていない多次元医療画像は、前記第二の教師データセットの前記複数のアノテーションされた多次元医療画像とは、異なる医療領域と関連づけられる、
    法。
  2. 前記自己教師ありMIM訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
    対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、前記対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、
    前記対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、
    前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
    マスクされた画像パッチのそれぞれについて、
    前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
    前記エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することと、
    を含む工程と、
    前記マスクされた画像パッチに生成された前記予測トークン、及び前記マスクされた画像パッチと一致する前記一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、
    前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
    を含む、
    請求項1に記載の方法。
  3. 前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
    デコーダは、複数のマルチヘッドアテンション層を含む、
    請求項2に記載の方法。
  4. 前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
    請求項2又は3に記載の方法。
  5. 一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しい、
    請求項2又は3に記載の方法。
  6. 前記自己教師ありMIM訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
    前記対応するアノテーションされていない多次元医療画像を、複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、
    前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
    マスクされた画像パッチのそれぞれについて、
    前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
    前記エンコード済み隠れ表現に基づき、前記マスクされた画像パッチについての予測ボクセル値(270)を、予測ヘッドを用いて生成することと、
    を含む工程と、
    前記マスクされた画像パッチに生成された予測ボクセル値、及び前記マスクされた画像パッチを表現する前記対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、
    前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
    を含む、
    請求項1から3のいずれかに記載の方法。
  7. 前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
    前記予測ヘッドは、単一の線形層予測ヘッドを含み、デコーダの使用なしで前記エンコード済み隠れ表現から前記予測ボクセル値を生成するように構成される、
    請求項6に記載の方法。
  8. 前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
    請求項6に記載の方法。
  9. 前記画像解析モデルは、腫瘍セグメンテーションモデルを含む、
    請求項1から3のいずれかに記載の方法。
  10. 前記画像解析モデルは、多臓器セグメンテーションモデルを含む、
    請求項1から3のいずれかに記載の方法。
  11. システムであって、
    データ処理ハードウェアと
    前記データ処理ハードウェアと通信し、前記データ処理ハードウェアで実行されると、前記データ処理ハードウェアに動作を行わせる命令を保存するメモリハードウェアと
    を含み、
    前記動作は、
    複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、
    自己教師ありマスク画像モデリング(MIM)訓練プロセスを実行して、前記第一の教師データセットで画像エンコーダを事前訓練するステップと、
    複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップであって、前記アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属する複数のクラス候補のうちの1つを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む、ステップと、
    前記第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、対応する前記アノテーションされた多次元医療画像の複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することによってそれぞれの対応するアノテーションされた多次元医療画像の強化された多次元医療画像を生成する方法を学習することを前記画像解析モデルに学習させるステップと、
    を含み、
    前記画像解析モデルは、事前訓練済みの前記画像エンコーダを組み込
    前記教師あり訓練プロセスの実行の間に前記画像解析モデルによって生成された前記強化された多次元医療画像は、それぞれのクラスに属するそれぞれの対応する画像ボクセルにかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、前記複数のクラス候補のそれぞれのクラスを、複数のタスク候補のそれぞれの他のクラスから分離し、
    前記第一の教師データセットの前記複数のアノテーションされていない多次元医療画像は、前記第二の教師データセットの前記複数のアノテーションされた多次元医療画像よりも、異なる医療領域と関連づけられる、
    システム。
  12. 前記自己教師ありMIM訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
    対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、前記対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、
    前記対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、
    前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
    マスクされた画像パッチそれぞれについて、
    前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
    前記エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することと、
    を含む工程と、
    前記マスクされた画像パッチに生成された前記予測トークン、及び前記マスクされた画像パッチと一致する前記一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、
    前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
    を含む、
    請求項11に記載のシステム。
  13. 前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
    デコーダは、複数のマルチヘッドアテンション層を含む、
    請求項12に記載のシステム。
  14. 前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
    請求項12又は13に記載のシステム。
  15. 一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しい、
    請求項12又は13に記載のシステム。
  16. 前記自己教師ありMIM訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
    前記対応するアノテーションされていない多次元医療画像を、複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、
    前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
    マスクされた画像パッチのそれぞれについて、
    前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
    前記エンコード済み隠れ表現に基づき、前記マスクされた画像パッチについての予測ボクセル値を、予測ヘッドを用いて生成することと、
    を含む工程と、
    前記マスクされた画像パッチに生成された予測ボクセル値、及びマスクされた画像パッチを表現する前記対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、
    前記訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、
    を含む、
    請求項11から13のいずれかに記載のシステム。
  17. 前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
    前記予測ヘッドは、単一の線形層予測ヘッドを含み、デコーダの使用なしで前記エンコード済み隠れ表現から前記予測ボクセル値を生成するように構成される、
    請求項16に記載のシステム。
  18. 前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの1つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
    請求項16に記載のシステム。
  19. 前記画像解析モデルは、腫瘍セグメンテーションモデルを含む、
    請求項11から13のいずれかに記載のシステム。
  20. 前記画像解析モデルは、多臓器セグメンテーションモデルを含む、
    請求項11から13のいずれかに記載のシステム。
JP2024561905A 2022-04-21 2023-04-20 自己教師あり学習を用いた医療画像解析の方法 Active JP7811282B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263333495P 2022-04-21 2022-04-21
US63/333,495 2022-04-21
PCT/US2023/019323 WO2023205372A1 (en) 2022-04-21 2023-04-20 Medical imaging analysis using self-supervised learning

Publications (2)

Publication Number Publication Date
JP2025516144A JP2025516144A (ja) 2025-05-27
JP7811282B2 true JP7811282B2 (ja) 2026-02-04

Family

ID=86386914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024561905A Active JP7811282B2 (ja) 2022-04-21 2023-04-20 自己教師あり学習を用いた医療画像解析の方法

Country Status (8)

Country Link
US (1) US20230410483A1 (ja)
EP (1) EP4490703B1 (ja)
JP (1) JP7811282B2 (ja)
KR (1) KR20250004841A (ja)
CN (1) CN119343708A (ja)
AU (1) AU2023257293A1 (ja)
CA (1) CA3249084A1 (ja)
WO (1) WO2023205372A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4449305A1 (en) * 2021-12-17 2024-10-23 F. Hoffmann-La Roche AG Computer-implemented method for performing a clinical prediction
US12266160B2 (en) * 2022-07-27 2025-04-01 Meta Platforms, Inc. Masked autoencoders for computer vision
US12469147B2 (en) * 2023-01-05 2025-11-11 City University Of Hong Kong Weakly-supervised 3D medical image segmentation using geometric prior and contrastive similarity
US12548163B2 (en) * 2023-01-06 2026-02-10 Siemens Healthineers Ag Quantification of body composition using contrastive learning in CT images
US12456182B2 (en) * 2023-03-16 2025-10-28 International Business Machines Corporation Anomaly detection using masked auto-encoder
JP2024164447A (ja) * 2023-05-15 2024-11-27 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN116664588B (zh) * 2023-05-29 2025-12-23 华中科技大学 基于掩码建模的3d医学图像分割模型建立方法及其应用
CN120416680A (zh) * 2024-01-30 2025-08-01 北京有竹居网络技术有限公司 用于生成视频的方法、装置、电子设备和计算机程序产品
CN118135297B (zh) * 2024-02-28 2025-07-04 上海人工智能创新中心 一种基于解码器视觉Transformer架构的图像分类方法
US20250308224A1 (en) * 2024-03-29 2025-10-02 L'oreal Systems and methods for self-supervised facial landmark detection
CN118247582B (zh) * 2024-05-27 2024-09-10 长春理工大学 一种基于Swin Transformer的脑肿瘤图像自动分类方法和系统
CN118710920B (zh) * 2024-08-29 2024-11-22 阿里巴巴(中国)有限公司 图像处理方法、脂肪肝计算机辅助诊断方法、设备、系统、计算机存储介质及计算机程序产品
CN119625297B (zh) * 2024-11-12 2025-09-30 中国科学院深圳先进技术研究院 基于sam自适应微调的多模态半监督医学图像分割方法
CN119624833B (zh) * 2024-11-27 2025-11-11 中国科学技术大学 一种无需图像的底层视觉预训练方法
CN119648690B (zh) * 2025-02-12 2025-05-09 深圳市生利科技有限公司 用于pvd镀膜的基材表面清洁度检测方法和装置
CN119762496B (zh) * 2025-03-07 2025-05-27 山东师范大学 基于互适应学习框架的胰腺图像分割方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167884A1 (ja) 2018-02-28 2019-09-06 富士フイルム株式会社 機械学習方法及び装置、プログラム、学習済みモデル、並びに判別装置
WO2020243756A1 (en) 2019-05-31 2020-12-03 Abiomed, Inc. Intra-aortic pressure forecasting
WO2021154878A1 (en) 2020-01-28 2021-08-05 PAIGE.AI, Inc. Systems and methods for processing electronic images for biomarker localization
US20220067579A1 (en) 2020-09-03 2022-03-03 S&P Global Dynamic ontology classification system
WO2022049901A1 (ja) 2020-09-07 2022-03-10 富士フイルム株式会社 学習装置、学習方法、画像処理装置、内視鏡システム及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167884A1 (ja) 2018-02-28 2019-09-06 富士フイルム株式会社 機械学習方法及び装置、プログラム、学習済みモデル、並びに判別装置
WO2020243756A1 (en) 2019-05-31 2020-12-03 Abiomed, Inc. Intra-aortic pressure forecasting
WO2021154878A1 (en) 2020-01-28 2021-08-05 PAIGE.AI, Inc. Systems and methods for processing electronic images for biomarker localization
US20220067579A1 (en) 2020-09-03 2022-03-03 S&P Global Dynamic ontology classification system
WO2022049901A1 (ja) 2020-09-07 2022-03-10 富士フイルム株式会社 学習装置、学習方法、画像処理装置、内視鏡システム及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAI Zhiyuan et al.,Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image Modeling Transformer for Ophthalmic Image Classification,arXiv.org[online],arXiv:2203.04614v2,2022年03月12日,pp.1-13,[取得日2025.09.11],取得先 <https://arxiv.org/pdf/2203.04614>
古賀,「BEiT: 画像処理版のBERT」自己教師あり事前学習のためのモデルBEiTを詳細解説!,DeepSquare Media[online],2021年06月28日,[取得日2025.09.12],取得先 <https://deepsquare.jp/2021/06/beit/>

Also Published As

Publication number Publication date
CN119343708A (zh) 2025-01-21
CA3249084A1 (en) 2023-10-26
EP4490703B1 (en) 2026-02-18
KR20250004841A (ko) 2025-01-08
US20230410483A1 (en) 2023-12-21
AU2023257293A1 (en) 2024-11-07
EP4490703A1 (en) 2025-01-15
EP4490703C0 (en) 2026-02-18
WO2023205372A1 (en) 2023-10-26
JP2025516144A (ja) 2025-05-27

Similar Documents

Publication Publication Date Title
JP7811282B2 (ja) 自己教師あり学習を用いた医療画像解析の方法
Li et al. CorrDiff: Corrective diffusion model for accurate MRI brain tumor segmentation
Yang et al. Dltta: Dynamic learning rate for test-time adaptation on cross-domain medical images
EP4143780B1 (en) Image harmonization for deep learning model optimization
CN110692107B (zh) 用于临床决策支持的对原始医学成像数据的机器学习
Shi et al. Diffusion models for medical image computing: A survey
Sharan et al. Encoder modified U-Net and feature pyramid network for multi-class segmentation of cardiac magnetic resonance images
Jagadeesh et al. Brain tumor segmentation with missing MRI modalities using edge aware discriminative feature fusion based transformer U-net
Tummala et al. Liver tumor segmentation from computed tomography images using multiscale residual dilated encoder‐decoder network
CN113935957A (zh) 医疗图像对比方法、装置、电子设备及存储介质
He et al. Deep learning-based image classification for AI-assisted integration of pathology and radiology in medical imaging
Wu et al. S 3 TU-Net: Structured convolution and superpixel transformer for lung nodule segmentation
Phan et al. Efficient brain hemorrhage detection on 3D CT scans with deep neural network
Fanyang et al. CS U‐NET: A Medical Image Segmentation Method Integrating Spatial and Contextual Attention Mechanisms Based on U‐NET
Zheng et al. WGCTA-Net: wavelet-guided CNN-Transformer fusion with attention mechanism for PET/CT tumor segmentation
Koc et al. A Review of U-Net Based Deep Learning Frameworks for MRI-Based Brain Tumor Segmentation
Rais et al. Dynamic feature context activation and data augmentation for enhanced medical image segmentation
Injarabian et al. Interpreting CT-Scans with CLIP: An Explorative Study of Attribution Methods for 3D Vision-Language Models
US20260011123A1 (en) Aberrant image synthesis via truncated reverse-diffusion
Sankaramurthy et al. Lung disease prediction based on CT images using REInf-net and world cup optimization based BI-LSTM classification
Khan et al. Multimodal radiological AI with LSO-Net++ for lumbar spine osteoporosis detection
Wu Token-Based Multi-condition Autoregressive Diffusion for Lung CT Image Generation
Alzu’bi et al. Bridging spatial awareness and global context in medical image segmentation
Wu Weak Supervision in Deep Learning for Medical Imaging and Astrophysics
Alsayat et al. RAUM-GANs: a multi-layer GAN-enhanced framework for accurate multiple sclerosis lesion segmentation in MRI

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20251224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260123

R150 Certificate of patent or registration of utility model

Ref document number: 7811282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150