JP7811282B2

JP7811282B2 - 自己教師あり学習を用いた医療画像解析の方法

Info

Publication number: JP7811282B2
Application number: JP2024561905A
Authority: JP
Inventors: チェン，ザキィ; アレックスブラウン，ケビン
Original assignee: Bristol Myers Squibb Co
Current assignee: Bristol Myers Squibb Co
Priority date: 2022-04-21
Filing date: 2023-04-20
Publication date: 2026-02-04
Anticipated expiration: 2043-04-20
Also published as: CN119343708A; CA3249084A1; EP4490703B1; KR20250004841A; US20230410483A1; AU2023257293A1; EP4490703A1; EP4490703C0; WO2023205372A1; JP2025516144A

Description

本開示は、自己教師あり学習を用いた医療画像解析に関する。

３次元（３Ｄ）医療画像のような多次元医療画像は、患者の医療分析、診断、又は処置を容易にすることを助けるために、患者の体内の充実化された画像を与える。そのような医療画像は、例えば、コンピュータ断層撮影（ＣＴ）又は磁気共鳴画像法（ＭＲＩ）を含む様々なモダリティを用いて生成されうる。

本開示の第一の態様は、コンピュータで実施される方法を与える。この方法は、データ処理ハードウェアで実行されるとき、データ処理ハードウェアに、複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを実行して、第一の教師データセットで画像エンコーダを事前訓練するステップを含む、動作を行わせる方法である。本動作は、複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップも含む。ここで、アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む。本動作はまた、第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対応する正解（ｇｒｏｕｎｄ－ｔｒｕｔｈ）ラベルを予測する方法を学習することを画像解析モデルに学習させるステップも含む。画像解析モデルは、事前訓練済みの画像エンコーダを組み込む。

本開示の実施形態は、１つ以上の次の任意の特徴を含んでもよい。いくつかの実施形態において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありＭＩＭ訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成すると、エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することも含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測トークン、及びマスクされた画像パッチと一致する一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの実施形態において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、デコーダは、複数のマルチヘッドアテンション層を含んでもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域（ｃｅｎｔｒａｌｒｅｇｉｏｎ）マスキングストラテジ、ブロックごと（ｂｌｏｃｋ－ｗｉｓｅ）のマスキングストラテジ、又は一様ランダム（ｕｎｉｆｏｒｍｌｙｒａｎｄｏｍ）マスキングストラテジのうちの１つを用い、画像パッチの一部をランダムにマスクする工程を含む。一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しくてもよい。

いくつかの例において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありＭＩＭ訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成することと、エンコード済み隠れ表現に基づき、マスクされた画像パッチに対して予測ボクセル値を、予測ヘッドを用いて生成することと、を含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測ボクセル値、及びマスクされた画像パッチを表現する対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの例において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、予測ヘッドは、単一の線形層予測ヘッドを含んでもよく、デコーダの使用なしでエンコード済み隠れ表現から予測ボクセル値を生成するように構成されてもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、画像パッチの一部をランダムにマスクすることを含む。実施形態として、本画像解析モデルは、腫瘍セグメンテーションモデルを含む。例として、本画像解析モデルは、多臓器セグメンテーションモデルを含む。

本開示の別の態様は、データ処理ハードウェア、及びデータ処理ハードウェアと通信するメモリハードウェア、を含むシステムを与える。メモリハードウェアは、データ処理ハードウェアで実行されると、データ処理ハードウェアに、複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを実行して、第一の教師データセットで画像エンコーダを事前訓練するステップと、を含む、動作を行わせる命令を保存する。本動作は、複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップも含む。ここで、アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む。本動作はまた、第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対して対応する正解ラベルを予測する方法を学習することを画像解析モデルに学習させるステップも含む。画像解析モデルは、事前訓練済みの画像エンコーダを組み込む。

この態様は、１つ以上の次の任意の特徴を含んでもよい。いくつかの実施形態において、第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、自己教師ありＭＩＭ訓練プロセスを実行して、画像エンコーダを事前訓練するステップは、対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、対応するアノテーションされていない多次元医療画像から分割された画像パッチの一部をランダムにマスクする工程と、を含む。マスクされた画像パッチのそれぞれについて、本動作は、マスクされた画像パッチのためのエンコード済み隠れ表現を、画像エンコーダを用いて生成すると、エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することも含む。ここで、本動作はまた、マスクされた画像パッチに生成された予測トークン、及びマスクされた画像パッチと一致する一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、を含む。これらの実施形態において、画像エンコーダは、複数のマルチヘッドアテンション層を含んでもよく、デコーダは、複数のマルチヘッドアテンション層を含んでもよい。加えて、又は代わりに、画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、画像パッチの一部をランダムにマスクする工程を含む。一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しくてもよい。

本開示の１つ以上の実施形態の詳細は、添付図面及び以下の説明に記載される。他の態様、特徴、及び利点は、説明及び図面から、及び請求項から明らかである。

図１は、自己教師ありマスク画像モデリング（ＭＩＭ）を使用して画像エンコーダを事前訓練し、事前訓練済みの画像エンコーダを組み込む画像解析モデルを訓練するシステムを概略的に示した図である。図２Ｂは、図１の画像エンコーダを事前訓練するための自己教師ありＭＩＭの例を概略的に示した図である。図２Ａは、図１の画像エンコーダを事前訓練するための自己教師ありＭＩＭの例を概略的に示した図である。図３は、単純なＭＩＭアーキテクチャをもつ事前訓練済みの画像エンコーダを使用する、入力され、マスクされ、再構成された３ＤＣＴ画像の例を示した図である。図４は、マスクオートエンコーダ（ＭＡＥ）アーキテクチャをもつ事前訓練済みの画像エンコーダを使用する、入力され、マスクされ、再構成された３ＤＣＴ画像の例を示した図である。図５は、画像解析モデルを使用する多臓器分割画像のためのダイス係数を示した表である。図６は、図１の画像解析モデルを訓練する教師あり訓練プロセスの補足のベースライン設定を並べた表である。図７は、図１の画像解析モデルを訓練する教師あり訓練プロセスの補足のベースライン設定を並べた表である。図８は、図１の自己教師ありＭＩＭ訓練プロセスの事前訓練する設定を並べた表である。図９は、ＢｒａＴＳの教師データセットを用いて事前訓練した後に、脳腫瘍セグメンテーション画像の機械学習モデルを使用した結果を明らかにする表である。図１０は、画像エンコーダの自己教師ありＭＩＭ訓練が下流教師ありファインチューニングを進める様子を描いたプロットである。図１１は、多臓器セグメンテーションタスクの様々なマスクされたパッチサイズ及びマスキング比率ごとに適用するアブレーション研究を示した表である。図１２は、脳腫瘍セグメンテーションタスクの様々なマスクされたパッチサイズ及びマスキング比率ごとに適用するアブレーション研究を示した表である。図１３は、固定パッチサイズ及び固定マスキング比率を用いた画像エンコーダを事前訓練した結果を示した表である。図１４は、多次元医療画像でビジョンタスクを実行するための画像解析モデルを訓練する動作の例を整理したフローチャートである。図１５は、ここで示されたシステム及び方法を取り入れるために使用してもよい計算デバイスの例を概略的に示した図である。

様々な図面中の同様の参照記号は、同様の要素を示す。

コンピュータビジョン分析は、畳み込みニューラルネットワークの使用から、マルチヘッドアテンションベースのアーキテクチャの使用へのパラダイムシフトに立ち会っている。本開示は、例として、マルチヘッドアテンションベースのアーキテクチャの１形式としての自己注意を用いるトランスフォーマベースのアーキテクチャを参照するが、本開示は、多次元入力画像を強化する他の形式のマルチヘッドアテンションベースのアーキテクチャを使用してもよい。一般に、トランスフォーマベースのアーキテクチャ（例えばビジョントランスフォーマ）は、多次元入力画像をパッチに分割し、画像分類、オブジェクト検出、及び画像セグメンテーションを含む様々なビジョンタスクに対するトランスフォーマベースのモデルへの入力としてパッチ埋込みを作る。

コンピュータ断層撮影（ＣＴ）又は磁気共鳴画像法（ＭＲＩ）のような３次元（３Ｄ）医療画像技術は、広範囲の病気を診断及び処置することに広く使用される。一般に、３Ｄ医療立体画像は、患者の状態を診断する早さ及び正確さを向上することに役立つことができる。例えば、ＭＲＩ又はＣＴスキャンから腫瘍病変を適切に素早く発見し測定することは、病気の予防、早期発見、及び治療計画最適化に重要になり、かつより効果的な臨床応用の発展を促して、最終的に患者の生命を好転させることができる。医療画像解析で行われる基本的なタスクは、３Ｄ画像セグメンテーションを含む。医療画像解析で行われる別の基本的なタスクは、画像分類を含む。画像分類タスクは、入力画像を様々なカテゴリに分類する。一般に、（「３Ｄセマンティックセグメンテーション」としても参照される、）３Ｄ画像セグメンテーションは、１つ以上の特定のオブジェクトを分類するために、立体入力画像の各ボクセルと対応するクラスを予測すること、及び特定のオブジェクトの上にそれぞれのセグメンテーションマスクをかぶせることによって、特定のオブジェクトそれぞれをお互いから分離することを目的とする。３Ｄ画像セグメンテーションは、画像解釈ワークフローを自動化し又は補助することによって、放射線科医の日々の仕事量の負担を緩和するポテンシャルをもち、最終的に臨床ケア及び患者の転帰を改善する。３Ｄ画像セグメンテーションタスクは、単一のチャネル入力の１３クラスセグメンテーションタスクとして行われる多臓器セグメンテーション、及び４チャネル入力の３クラスセグメンテーションクラスとして行われる脳腫瘍セグメンテーションを含んでもよい。

ロバストなトランスフォーマベースの画像解析モデルを訓練することは、従来のＣＮＮのパフォーマンスを超える更にアノテーションされた教師データを必要とする。しかし、特定の領域で３Ｄ医療立体画像の専用のアノテーションを得る高い出費は、３Ｄ医療画像解析に対しディープラーニングアプローチを用いるような、臨床転帰に先進技術を活用する試みをしばしば妨げる。要するに、放射線科医による大規模な３Ｄ医療画像のアノテーションは、高額で及び作成するために時間がかかるという点で制限される。３Ｄ医療画像処理の別の制限要素は、３Ｄ医療画像に係る純粋なデータ量である。データ量は、増加した３Ｄ画像の次元及び解像度によって決められ、重大な処理の複雑さをもたらす。結果として、ラジオミクスエンドポイント情報を、腫瘍量の評価及び全生存予測のような、臨床研究設計における他の下流タスクのための他のバイオマーカデータと効果的に統合する能力は、非常に難しくなりうる。

転移学習は、あるコンテキストから学習したモデルを他のコンテキストに使用することである。普通の画像からの転移学習は、画像の統計、スケール、及びタスク関連の特性の差異にかかわらず、医療画像解析に使用されることができる。例えば、ＩｍａｇｅＮｅｔからの転移学習は、医療画像の収束を加速することができ、医療画像教師データが限られるとき役に立ちうる。領域特定のデータを用いる転移学習は、領域の差異による問題を解決することを助けることもできる。例えば、改善されたパフォーマンスは、同じ領域からラベル付きデータで続く事前訓練を達成されることができる。しかし、このストラテジは、様々な医療シナリオが、ラベル付きデータを集めるためにコスト及び時間を要求するため、しばしば非現実的になりうる。自己教師あり学習は、ラベルなし／アノテーションされていない医療データを用いることができる、実行可能な代替案を提供する。

自己教師あり学習は、低容量分類器が様々な埋込みを使用し高い精度を達成することができるような、ラベルされていないデータから表現を学習することを重視する訓練技術である。対照学習は、自己教師あり学習ストラテジの別の例である。対照学習は、対照及び関連するアプローチにとって重要であるデータ拡張をもつ、２つ以上の領域の間で、画像の類似及び非類似（又は単なる類似）を作る。自己教師あり学習は、領域特定の関係なさそうなタスク、又は医療データに合わせた対照学習のような、医療分野で使用されることができる。自己教師あり学習ストラテジの範囲は３Ｄ医療画像に適用されうる。例えば、ＩｍａｇｅＮｅｔで事前訓練済みのモデルは、皮膚科の画像分類に適用されうる。別の例として、インペインティングは、医療画像セグメンテーションで対照学習と紐づけられうる。

マスク画像モデリングのアプローチは、一般に入力画像の一部又はエンコード済み画像トークンをマスクアウトし、モデルにマスクされた領域を再構成させる。現存するＭＩＭモデルには、射影ヘッドによってフォローされるエンコーダ－デコーダ設計を用いるものもある。エンコーダは、潜在特徴表現のモデリングにおいて補助し、一方でデコーダは、元の画像への潜在ベクトルのリサンプリングにおいて補助する。エンコードされ又はデコードされた埋込みは、射影ヘッドによってマスクされた領域で、その後元の信号と一致することができる。特に、デコーダ成分は、訓練時間を最小化するように軽量設計にできる。軽量デコーダは、計算の複雑さを減らすだけでなく、デコーダが容易に把握、変換、伝えることができるような、更に一般化できる表現を学習するエンコーダの能力を増やすことができる。エンコーダは、ファインチューニングに使用されうる。ＳｉｍＭＩＭのようなエンコード技術は、単一の射影層をもつデコーダ全体を不要にすることができる。

ビジョントランスフォーマ（ＶｉＴ）を用いると、例えば、画像は、通常の重ならないパッチに分割される（例えば、９６×９６×９６の３Ｄ体積が、１６×１６×１６の小さい体積の２１６パッチに分割される）ことができ、それはビジョントランスフォーマの基本処理単位としてしばしば考えられる。いくつかのランダムマスキング技術がある。これは、中心領域マスキングストラテジ、複雑なブロックごとのマスキングストラテジ、及び／又は様々なマスクされたパッチサイズ及びマスキング比率を使用するパッチレベルにおける一様ランダムマスキングメソッドを含むが、これらに限定されない。

いくつかの例において、画像エンコーダは、標準的な（ｖａｎｉｌｌａ）ＶｉＴ（例えばＶｉＴ３Ｄ、Ｓｗｉｎトランスフォーマ３Ｄ、及び／又はアテンションビジュアルネットワーク（例えばＶＡＮ３Ｄ））のようなビジョントランスフォーマ（ＶｉＴ）アーキテクチャを含む。これは、アテンションメカニズムを継承して、例えば、Ｓｗｉｎトランスフォーマ３Ｄと同様の階層表現を導き出すことができるが、代わりに純粋な畳み込みを用いる。マルチヘッドアテンション層の他の形式は、コンフォーマ層、パフォーマ層、又は軽量畳み込み層のような画像エンコーダによって用いられうるが、これらに限定されない。

本書類の実施形態は、自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを実行して、複数のアノテーションされていない（例えばラベル付けされていない）多次元医療画像で画像エンコーダを事前訓練することを対象としている。本明細書において用いられる場合、多次元画像は、３Ｄ医療画像として参照されるが、本開示はそれに限定されず、４Ｄ医療画像も含んでもよい。３Ｄ医療画像は、患者の体内（又は体外）の部位のＣＴ又はＭＲＩからの体積スライスを含む。画像エンコーダは、複数のマルチヘッドアテンション層を含む。例えば、画像エンコーダは、トランスフォーマ層のスタックを用いる自己注意を使用するトランスフォーマベースのアーキテクチャを含んでもよい。これから明らかになるように、画像エンコーダは、マスクされた画像パッチの潜在的な特徴表現をモデリングする責任があり、これはマスクされた画像パッチと関連する領域内の元の画像信号を予測するために、後で使用されることができる。自己教師ありＭＩＭ訓練プロセスを介して、アノテーションされていない３Ｄ医療画像で事前訓練済みの画像エンコーダは、３Ｄ画像セグメンテーション及び画像分類のような下流ビジョンタスクの広い範囲に適応できる。

事前訓練済みの画像エンコーダは、画像解析モデルに統合されてもよく、特定の下流ビジョンタスクを行うために、アノテーションされた多次元医療画像を用いるように微調整されてもよい。事前訓練済みの画像エンコーダを微調整し、最終的に特定のビジョンタスクを行うために医療画像モデルを訓練するために使用されるアノテーションされた多次元医療画像は、対応する画像ボクセルが属するクラスを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルをそれぞれ含んでもよい。このようにして、本開示の実施形態は、複数のアノテーションされた多次元医療画像で画像セグメンテーションモデルを学習させる教師あり訓練プロセスを実行して、アノテーションされた多次元医療画像のそれぞれの複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することを画像セグメンテーションモデルに学習させることを更に対象とする。それによって、画像セグメンテーションモデルは、自己教師ありＭＩＭ訓練プロセスを介してアノテーションされていない多次元医療画像で初期化され、教師あり訓練プロセスを介してアノテーションされた多次元医療画像で微調整された、事前訓練済みの画像エンコーダを含む。いくつかの例において、訓練済みの画像解析モデルは、体内の部位のＭＲＩ又はＣＴスキャンで分けられた３Ｄ画像スライスに行われる多臓器セグメンテーション又は腫瘍セグメンテーションのような、３Ｄ画像セグメンテーションタスクを行う画像セグメンテーションモデルを含む。以下で更に詳細に説明されるように、訓練済みの画像解析モデルは、多次元医療画像（つまりＭＲＩ又はＣＴスキャンからの体積スライス）から分けられた複数の画像パッチを入力として受信し、多次元医療画像から抽出された特徴に基づく強化された医療画像を生成し、強化された画像で画像セグメンテーション又は画像分類を行ってもよい。画像セグメンテーションシナリオにおいて、訓練済みの画像解析モデルは、強化された画像で１つ以上の特定のオブジェクト（例えば腫瘍又は臓器）を分類し、特定のオブジェクトを重ね合わせるそれぞれのセグメンテーションマスクを含む強化された画像を拡張することによって、お互いから特定のオブジェクトそれぞれを分離するように訓練されてもよい。本明細書において用いられるように、セグメンテーションマスクを含む強化された画像を拡張することは、各オブジェクトクラスを表す及び／又はオブジェクトクラスそれぞれの境界を定義する強化された画像内で画像ボクセルを拡張することを含む。画像ボクセルの拡張は、分類された各オブジェクトが、強化された画像内で区別及び識別可能となるようにいずれかの適した方法で、画像ボクセルの色を変えること、画像ボクセルの強度を調整すること、又は画像ボクセルを拡張することを含んでもよい。

図１は、アノテーションされていない３Ｄ医療画像２０２からエンコード済み特徴表現２２５（図２Ａ及び図２Ｂ）を生成する方法を学習するために、自己教師あり訓練プロセス２００を介して画像エンコーダ１５０を事前訓練し、教師あり訓練プロセス１６０を介して下流画像タスクを行う事前訓練済みの画像エンコーダ１５０を微調整する、例示的なシステム１００を示す。具体的には、事前訓練済みの画像エンコーダ１５０は、アノテーションされた３Ｄ医療画像２０４で画像解析モデル１７０を訓練することによって特定のビジョンタスクを行うために、画像解析モデル１７０での使用に適応させてもよい。システム１００は、データ処理ハードウェア１２２を備える計算システム１２０と、データ処理ハードウェア１２２と通信し、データ処理ハードウェア１２２に動作を行わせる命令を保存するメモリハードウェア１２４と、を含む。いくつかの実施形態において、第一の計算システム１２０、１２０ａは、自己教師あり訓練プロセス２００を実行して画像エンコーダ１５０を事前訓練し、次に、教師あり訓練プロセス１６０を実行して、事前訓練済みの画像エンコーダ１５０を組み込んだ画像解析モデル１７０を訓練して、３Ｄ医療画像上で下流ビジョンタスクを行う。これらの実施形態において、画像解析モデル１７０が下流ビジョンタスクを行うために訓練された後、第一の計算システム１２０ａは訓練済みの画像解析モデル１７０を第二の計算システム１２０、１２０ｂへ提供する。ここで、第二の計算システム１２０ｂは、強化された３Ｄ医療画像１１０、１１０Ｅを生の３Ｄ医療画像１１０、１１０Ｒから生成するために、画像解析モデル１７０を実行し、強化された３Ｄ医療画像１１０Ｅで下流ビジョンタスクを行ってもよい。

第一の計算システム１２０ａは、配信されたシステム（例えば、クラウド計算環境）を含んでもよい。第二の計算システム１２０ｂは、第一の計算システム１２０ａから画像解析モデル１７０をダウンロードする計算デバイス（例えば、デスクトップコンピュータ、ワークステーション、ラップトップ、タブレットなど）を含んでもよい。いくつかの他の実施形態において、第一の計算システム１２０ａは、第二の計算システム１２０ｂから３Ｄ医療画像１１０Ｒを受信し、下流ビジョンタスクを行うために画像解析モデル１７０を実行する。追加の実施形態において、第二の計算システム１２０ｂは、自己教師あり訓練プロセス２００によって事前訓練済みの画像エンコーダ１５０を第一の計算システム１２０ａから受信し、下流ビジョンタスクで事前訓練済みの画像エンコーダを微調整するために教師あり訓練プロセス１６０を実行する。このシナリオにおいて、アノテーションされたＭＤ画像２０４は、教師あり訓練プロセス１６０を介して第二の計算システム１２０ｂでローカルに処理されてもよく、それによってプライバシー及び機密データを保護できる。

自己教師あり訓練プロセス２００は、複数のアノテーションされていない多次元（ＭＤ）画像２０２を含む第一の教師データセット２０１で画像エンコーダ１５０を訓練する。具体的に、そして図２Ａ及び２Ｂを参照して以下でより詳細に説明されるように、自己教師あり訓練プロセスは、自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを含む。第一の教師データセット２０１における各アノテーションされていないＭＤ画像２０２は、患者の体内のＣＴスキャン又はＭＲＩスキャンから分割された画像スライスを含んでもよい。結果、第一の教師データセット２０１は、複数の患者の体内のＣＴスキャン及び／又はＭＲＩスキャンから、画像スライスに関係するアノテーションされていないＭＤ医療画像２０２のコーパスを含む。１つの例として、第一の教師データセット２０１は、ＴｈｅＣａｎｃｅｒＩｍａｇｉｎｇＡｒｃｈｉｖｅ－Ｃｏｖｉｄ１９（ＴＣＩＡ－Ｃｏｖｉｄ１９）公開データセットから得られたアノテーションされていない３ＤＣＴスキャン画像２０２を含む。ここで、アノテーションされていない３ＤＣＴスキャン画像は、Ｃｏｖｉｄ１９感染を有する６６１人の患者から集められた強化されていない胸部ＣＴスキャンの７７１冊を含む。

特に、ここで開示されるような自己教師ありＭＩＭ訓練は、訓練の収束を大幅に早めることによって、３Ｄ医療画像をモデリングすることにとりわけ有利になり、下流のパフォーマンスを改善する。例えば、単純な対照学習と比較した場合、訓練済みの画像エンコーダ１５０が下流ビジョンタスクを行うために適応され微調整されるとき、訓練の収束は、同じ又はそれ以上のダイス係数を達成するために１．４０倍の訓練コストまで節約することができる。同様に、画像セグメンテーションの下流ビジョンタスクの下流パフォーマンスは、いずれのハイパーパラメータ調整もなく５パーセント（％）以上の改善を達成できる。加えて、自己教師ありＭＩＭ訓練を介して事前訓練された画像エンコーダを組み込む下流アプリケーションは、予後、治療感受性予測、組織セグメンテーション、画像分類、及び患者のデジタル表現についての特定の下流タスクへの転移学習より早く、より費用対効果が高くなる。明らかになるように、自己教師ありＭＩＭ訓練プロセス２００を介して画像エンコーダ１５０を訓練することは、高いマスキング比率及び比較的小さいパッチサイズを用いる生のボクセル値の予測を可能にする。生の入力３Ｄ医療画像１１０Ｒを強化された３Ｄ医療画像１１０Ｅへ単純に再構成するために、軽量デコーダは、画像エンコーダ１５０によって出力されたエンコード済み特徴表現２２５を受信し、増加したスピードと減少した計算及び記憶コストで画像信号の再構成を行うように実施されてもよい。自己教師ありＭＩＭ訓練は、教師あり訓練プロセス１６０の間に多様な画像解像度及びラベル付きデータ比率を有する、生の入力３Ｄ医療画像１１０Ｒの全体にわたって多用途である。

一般的に、ＭＩＭ学習は、入力信号のサブセット（例えば画像パッチ２１０）をマスクすることと、マスクされた信号を予測することとを含む学習タスクを含む。別の言い方をすると、ＭＩＭ学習／訓練は、マスクによって破損した画像を介して表現を学習する自己教師あり学習技術である。マスキングはノイズタイプとして提供されることができる。自己教師あり学習のマスクされたパッチの予測は、ソース領域の大きな矩形の領域を修復すること、及び未知のボクセル値を分類するためにクラスタごとにボクセル値をグルーピングすること、によって失ったボクセルを予測することができる。加えて、自己教師あり学習のマスクされたパッチの予測は、画像の平均色を予測することによって、果たされることができる。

画像エンコーダ１５０が自己教師あり訓練プロセス２００を介して事前訓練された後、教師あり訓練プロセス１６０は、複数のアノテーションされたＭＤ医療画像２０４を含む第二の教師データセット２０３で画像解析モデル１７０を訓練する。教師あり訓練プロセス１６０は、画像解析モデル１７０と統合された訓練済み画像エンコーダ１５０を微調整し、画像セグメンテーションタスク又は画像分類タスクなどの下流ビジョンタスクを行うように画像解析モデル１７０を学習させる。各アノテーションされたＭＤ医療画像２０４は、対応する画像ボクセル２０６が属するクラスを示す、対応する正解ラベル２０８とそれぞれ対になる複数の画像ボクセル２０６を含む。特に、画像エンコーダ１５０を事前訓練するために用いられる第一の教師データセット２０１にある、アノテーションされていない３Ｄ画像２０２は、アノテーションされた第二の教師データセット２０３にあるアノテーションされた３Ｄ画像２０４よりも、異なる医療領域と関連づけられてもよい。例えば、第一のデータセット２０１は、胸部ＣＴスキャンを含んでもよく、第二のデータセット２０３は、腹部ＣＴスキャン又は脳腫瘍の多モードＭＲＩスキャンを含んでもよい。

画像解析モデル１７０は、画像パッチ２１０及びデコーダ１５２から、階層のエンコード済み特徴２２５（図２Ａ及び２Ｂ）を生成するために、（ＶｉＴベースのエンコーダ、Ｓｗｉｎトランスフォーマ、又はＶＡＮとして使用される、）画像エンコーダ１５０を含むＵ字型エンコーダデコーダアーキテクチャを含んでもよい。デコーダ１５２は、画像エンコーダ１５０から出力されたエンコード済み特徴２２５に基づき画像セグメンテーションタスクを行うために、ＵＰｅｒＮｅｔを含んでもよい。つまり、２層の転置畳み込みは、画像エンコーダ１５０を事前訓練する自己教師ありＭＩＭ訓練プロセスの間に射影ヘッド２６０（図２Ａ）として用いられることができ、ＵＰｅｒＮｅｔデコーダ１５２は、下流画像セグメンテーションを行う画像解析モデル１７０による事前訓練済みの画像エンコーダ１５０を用いて使用するために実施されることができる。いくつかの例において、画像エンコーダ１５０は、マルチヘッドアテンション層のスタックを使用するマスクオーディオエンコーダ（ＭＡＥ）（図２Ａ参照）を含む。例えば、ＭＡＥは、デコーダ１５２によって使用するために５１２次元を有するトランスフォーマブロックの８層スタックを含んでもよい。他の例において、画像エンコーダは、単純なマスク画像モデル（ＳｉｍＭＩＭ）（図２参照）を含み、単純な線形層は、デコーダの代わりに射影ヘッドとして使用される。

１つの例において、第二の教師データセット２０３は、臨床放射線科医の監督のもとで、人間の通訳者によって、１３の臓器アノテーションを有する３０人の参加者／患者から得られた腹部ＣＴスキャンを含む、ＢｅｙｏｎｄｔｈｅＣｒａｎｉａｌＶａｕｌｔ（ＢＴＣＶ）の腹部データセットから得られたアノテーションされた３ＤＣＴスキャンを含む。ＢＴＣＶ腹部データセットの各３ＤＣＴスキャンは、コントラスト強化を用いて門脈相において行われ、５１２×５１２ピクセルと１から６ミリメートル（ｍｍ）の範囲のスライス厚みを有する８０から２２５スライスを含む。事前処理する間に、各アノテーションされた３Ｄ画像２０４は、１．５－２．０の等方ボクセル間隔で再サンプルされてもよい。この例では、教師あり訓練プロセス１６０は、１チャネル出力をもつ１３クラスセグメンテーションを行う多臓器セグメンテーションモデルとして画像解析モデル１７０を訓練する。結果として、各アノテーションされた３Ｄ医療画像２０４にそれぞれ対応する画像ボクセル２０６の正解ラベル２０８は、対応する画像ボクセル２０６が属する臓器に依存する１３の異なるクラスのうち１つを含んでもよい。

他の例において、第二の教師データセット２０３は、浮腫、非増強コア、及び壊死コアの領域を表す対応する画像ボクセル２０６についての正解ラベル２０８を有する多モード及び多サイトＭＲＩスキャンを含む脳腫瘍セグメンテーション（ＢｒａＴＳ）公開データセットから得られた、アノテーションされた３ＤＭＲＩスキャン画像を含む。この例において、教師あり訓練プロセス１６０は、４チャネル入力をもつ３クラスセグメンテーションを行う脳腫瘍セグメンテーションモデルとして、画像解析モデル１７０を訓練する。ＭＲＩ画像のボクセル間隔は、１．０×１．０×１．０ｍｍ３であってもよい。ボクセルの強度は、標準化を用いて事前処理されてもよい。

自己教師あり訓練プロセス２００は、計算システム１２０のメモリハードウェア１２４に重ねられたデータストレージ１８０に、事前訓練済み画像エンコーダ１５０を保存してもよい。同じく、教師あり訓練プロセス１６０は、データストレージ１８０に訓練済み画像解析モデル１７０を保存してもよい。第一の計算システム１２０ａ及び／又は任意の数の第二の計算システム１２０ｂは、事前訓練済み画像エンコーダ１５０及び／又は訓練済み画像解析モデル１７０に、その実行のために接続／取得してもよい。

推論中に、事前訓練済み及び微調整済み画像エンコーダ１５０を組み込む画像解析モデル１７０は、１つ以上の生の入力３Ｄ医療画像１１０Ｒの画像解析タスクを処理し実行するために、第二の計算システム１２０ｂ（又は第一の計算システム１２０ａ）を実行する。特に、画像解析モデル１７０によって行われる画像解析タスクは、下流ビジョンタスク（つまり画像セグメンテーション又は画像分類）を含む。ここで、画像解析モデル１７０は、行う教師あり訓練プロセス１６０によって訓練されたものである。生の入力３Ｄ医療画像１１０Ｒそれぞれは、患者の体内の３ＤＣＴスキャン又は３ＤＭＲＩスキャンからの３Ｄ画像スライスと対応してもよい。任意に、生の入力３Ｄ医療画像１１０Ｒは、患者の体内の領域の３Ｄ画像と対応してもよい。生の入力３Ｄ医療画像１１０Ｒそれぞれは、複数の画像パッチ２１０、２１０ａ－ｎに生の入力３Ｄ医療画像１１０Ｒを分割するために、初期画像の事前処理１８４を受けてもよい。９の画像パッチが例として示されるが、この例は制限的ではなく、事前処理１８４は、画像パッチ２１０の任意の数に画像を分割してもよい。画像解析モデル１７０は、強化された３Ｄ医療画像１１０Ｅを生成するために、画像パッチ２１０を処理し、強化された３Ｄ医療画像１１０Ｅで下流ビジョンタスクを行ってもよい。画像解析モデル１７０が３Ｄ医療セグメンテーションの下流ビジョンタスクを行う場合、モデル１７０は、１つ以上の特定のオブジェクト（例えば腫瘍、組織、臓器）を分類するために、体積の強化された３Ｄ医療画像１１０Ｅの各ボクセルと対応するクラスを予測し、各オブジェクトを分類するボクセルをかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、特定のオブジェクトそれぞれをお互いから分離する。例の３Ｄ画像セグメンテーションタスクは、単チャネルをもつ１３クラスセグメンテーションタスクとして行われる多臓器セグメンテーション、及び４チャネル入力をもつ３クラスセグメンテーションクラスとして行われる脳腫瘍セグメンテーションを含んでもよい。

画像オーグメンタ３６０は、各特定のオブジェクトクラスを表すボクセルを識別するために分割された、強化された３Ｄ医療画像１１０Ｅを受信し、特定のオブジェクトクラスを表すボクセルの少なくとも一部に適用するために対応するセグメンテーションマスクを生成してもよい。それに応じて、画像オーグメンタ３６０は、各オブジェクトクラスを表す及び／又はオブジェクトクラスそれぞれの境界を定義する強化された画像において、画像ボクセルを拡張してもよい。画像ボクセルの拡張は、画像ボクセルの色を変えること、画像ボクセルの強度を調整すること、又は適切な方法で画像ボクセルを拡張することを含み、分類された各オブジェクトは、強化された画像１１０Ｅの内で区別及び識別可能である。セグメンテーションマスクは、強化された画像１１０Ｅで識別される各オブジェクトの位置を伝えるために、強化された画像に適用されるグラフィック機能を含んでもよい。画像オーグメンタ３６０は、解析モデル１７０によって行われる分割の結果を伝えるセグメンテーションマスクを表現する、強化され拡張された画像１１０Ａを出力してもよい。計算システム１２０で実行するグラフィックユーザインタフェース３６０は、計算システム１２０の通信においてスクリーンで拡張された画像１１０Ａを表示してもよい。加えて、又は代わりに、強化された画像及び／又は拡張された画像１１０Ａは、１つ以上の追加の下流タスクへの出力として与えられてもよい。

図２Ａ及び図２Ｂを参照すると、いくつかの実施形態において、自己教師ありＭＩＭ訓練プロセス２００は、マスクオートエンコーダ（ＭＡＥ）アーキテクチャ（図２Ａ）又は単純なＭＩＭ（ＳｉｍＭＩＭ）アーキテクチャ（図２Ｂ）のどちらかを備える画像エンコーダ１５０を事前訓練する。各アノテーションされていない３Ｄ医療画像２０２に対して、訓練プロセス２００は、まず、複数の画像パッチ２１０、２１０ａ－ｎに画像２０２を分割するために、事前処理段階１８４で画像２０２を事前処理する。フル３Ｄ画像の体積は、計算システム１２０のデータ処理ハードウェア１２２（例えばＧＰＵ）上に直接載せることが一般的に難しいため、自己教師ありＭＩＭ訓練プロセス２００は、事前処理が元の３Ｄ医療画像２０２をいくつか（例えば９６×９６×９６）の小さな３Ｄウィンドウに分割する、スライディングウィンドウ訓練ストラテジを実施してもよい。デフォルトでは、事前処理段階１８４は、約１６のパッチサイズを実施してもよい。事前処理段階は、アノテーションされていない３Ｄ医療画像２０２の画像解像度をダウンサンプリングしてもよい。例えば、９６×体積の解像度は、画像エンコーダ１５０がＶｉＴベースの画像エンコーダを含むとき９×体積の解像度へダウンサンプリングされることができ、又は画像エンコーダ１５０がＳｗｉｎトランスフォーマ又はＶＡＮを含むとき３×体積の解像度へダウンサンプリングされることができる。

図２Ａは、対応するアノテーションされていないＭＤ医療画像２０２から分割された画像パッチ２１０の一部をランダムにマスクすることによって、ＭＡＥアーキテクチャを備える画像エンコーダ１５０を訓練するＭＩＭ訓練プロセス２００を示す。訓練プロセス２００は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、画像パッチ２１０の一部を更にランダムにマスクする。訓練プロセスは、アノテーションされていないＭＤ医療画像２０２を入力として受信するように構成された画像トークナイザ２３０を使用し、対応するアノテーションされていないＭＤ医療画像２０２を特徴づける一連の離散ビジュアルトークンを、更に生成する。一連の離散ビジュアルトークン２４０におけるビジュアルトークンの数は、アノテーションされていないＭＤ医療画像２０２から分割された画像パッチ２１０の数と等しくてもよい。トークナイザ２３０は、離散トークンインデックスを含むトークンボキャブラリを含むビジュアルコードブックに従って、離散ビジュアルトークン２４０に医療画像２０２から離散画像ボクセルをマッピングしてもよい。ビジュアルトークン２４０は離散的であるため、訓練プロセス２００は、微分可能ではない。いくつかの例において、トークナイザ２３０は、画像が学習済みボキャブラリに従って離散ビジュアルトークンにトークン化されるオートエンコード形式の再構成プロセスを介して、訓練される。

例として示されるように、自己教師ありＭＩＭ訓練プロセス２００は、位置埋込み２１５を画像パッチ２１０に加える。画像エンコーダ１５０は、各マスクされた画像パッチ２１０Ｍを受信し、それによって、各マスクされた画像パッチは、特別なマスキング埋込み［Ｍ］と置き換わってもよい。特別なマスキングトークン［Ｍ］は、対応するマスクされた画像パッチ２１０を明らかにするために最適化された学習可能ベクトルとして、ランダムに初期化されてもよい。

各マスクされた画像パッチ［Ｍ］に対して、画像エンコーダ１５０は、対応するエンコード済み特徴表現２２５（エンコード済み隠れ表現２２５としても参照される）を生成するように構成され、デコーダ２５０は、射影ヘッド２６０からの出力として対応する予測トークン２７５を予測するために、対応するエンコード済み特徴表現２２５をデコードする。ＭＩＭ訓練プロセス２００の目的は、元の３Ｄ画像２０２から得られるビジュアルトークン２４０を予測する方法を学習するために、画像エンコーダ１５０及びデコーダ２５０を学習させることである。具体的には、訓練プロセス２００は、元の３Ｄ画像２０２から得られるビジュアルトークン２４０と一致する予測トークン２７５の生成に使用するマスクされた画像パッチ２１０Ｍのエンコード済み特徴表現２２５を生成するために、エンコーダ１５０を学習させる。ここで、訓練プロセス２００は、マスクされた画像パッチ２１０Ｍに生成された予測トークン２７５、及びマスクされた画像パッチ２１０Ｍと一致する（つまり位置埋込み２１５を用いる）一連の離散ビジュアルトークン２４０からの対応するビジュアルトークンに基づき訓練損失を決定してもよい。その後、訓練プロセス２００は、訓練損失に基づき画像エンコーダ１５０（及び任意でデコーダ２５０）のパラメータをアップデートする。

デコーダは、複数のマルチヘッドアテンション層（例えばトランスフォーマ層）を含んでもよい。いくつかの例において、マスクされた画像パッチ２１０Ｍは、エンコーダ１５０に気づかれず、それによってデコーダ２５０のみが種々のトークンの知識を有する。このアプローチは、訓練と干渉せず計算及びメモリを保存してもよい。

図２Ｂは、対応するアノテーションされていないＭＤ医療画像２０２から分割された画像パッチ２１０の一部をランダムにマスクするＳｉｍＭＩＭアーキテクチャを備える画像エンコーダ１５０を訓練する、自己教師ありＭＩＭ訓練プロセス２００を示す。各画像パッチ２１０は、対応する生のボクセル値のセットによって表現されてもよい。訓練プロセス２００は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、画像パッチ２１０の一部を更にランダムにマスクする。

各マスクされた画像パッチ２１０Ｍについて、画像エンコーダ１５０は、対応するエンコード済み特徴表現２２５を生成するように構成され、予測ヘッド２６０は、マスクされた画像パッチ２１０Ｍに予測ボクセル値を生成する。特に、ＳｉｍＭＩＭアーキテクチャを備える画像エンコーダ１５０を事前訓練するためのＭＩＭ訓練プロセス２００は、デコーダを省き、代わりに予測ヘッド２６０を実施して、対応するマスクされた画像パッチ２１０Ｍの画像エンコーダ２２５によって生成されたエンコード済み特徴表現２２５から直接的に、各マスクされた画像パッチ２１０Ｍの生のボクセル値２７０を予測する。訓練プロセス２００は、マスクされた画像パッチ及びマスクされた画像パッチを表す元のアノテーションされていないＭＤ医療画像２０２から、対応する生のボクセル値のセットを生成された予測ボクセル値２７０に基づき、訓練損失を決定してもよい。

訓練損失は、修復された／推定された生のボクセル値２７０と、マスクされた画像パッチを表す対応する生のボクセル値のセットからの元のボクセル値との間の、ボクセル間隔の距離に基づいてもよい。訓練損失は、ｌ_１又はｌ_２の損失関数いずれかを含んでもよい。特に、訓練損失は、エンコーダ１５０が自己再構成をすることを妨害し、学習プロセス及び最終的に邪魔された知識学習を潜在的に支配するために、マスクされたマッチ２１０Ｍを計算されるのみでもよい。その後、訓練プロセス２００は、訓練損失に基づき画像エンコーダ１５０（及び任意にデコーダ２５０）のパラメータをアップデートする。射影ヘッドは、事前処理が医療画像２０２の解像度をダウンサンプリングするとき、元のボクセル間隔に予測トークン２７５を変換できる。任意に、２層の転置畳み込みは、圧縮されたエンコード済み特徴表現２２５を、元の医療画像２０２の解像度にアップサンプリングすることができる。

図３は、ＳｉｍＭＩＭ再構成を使用する事前訓練済み画像エンコーダ１５０を適用するＴＣＩＡ－ＣＯＶＩＤ１９の検証セットから、入力され、マスクされ、再構成された３ＤＣＴスキャン画像の例を示す。元の画像は全て３Ｄの体積であるが、再構成画像は、説明と理解の容易さを目的としてスライスの形式で表示され、インデックス番号は深さを表す。各三つ組について、第一の又は一番左の列は、正解（例えば元の画像）を示す。第二の又は真ん中の列は、マスクされた画像を示す。第三の又は一番右の列は、ＳｉｍＭＩＭ再構成を使用する機械学習モデルを示す。図５で示される画像に関して、ＶｉＴ－Ｂａｓｅバックボーンはエンコーダに適用され、マスクされたパッチサイズは（全ての次元について）約１６であり、マスキング比率は約７５％である。

図４は、ＭＡＥ再構成を使用する機械学習モデルを適用するＴＣＩＡ－ＣＯＶＩＤ１９の検証セットから、入力され、マスクされ、再構成された３ＤＣＴスキャン画像の例を示す。図３を同様に、元の画像は全て３Ｄの体積であるが、再構成画像は、説明と理解の容易さを目的としてスライスの形式で表示され、インデックス番号は深さを表す。各三つ組について、第一の又は一番左の列は、正解（例えば元の画像）を示す。第二の又は真ん中の列は、マスクされた画像を示す。第三の又は一番右の列は、ＭＡＥ再構成を使用する機械学習モデルを示す。図４で示される画像に関して、ＶｉＴ－Ｌａｒｇｅバックボーンはエンコーダに適用され、マスクされたパッチサイズは（全ての次元について）約１６であり、マスキング比率は約７５％である。

図５は、ＭＩＭアプローチが一般的に対照学習技術を上回ることができることを証明する表を示す。事前訓練済み画像エンコーダ１５０は、ＭＡＥアーキテクチャ及び０．７５２から０．７５８の平均ダイス係数を達成するＳｉｍＭＩＭアーキテクチャのどちらも有し、ＳｉｍＣＬＲはおよそ０．７２３の平均ダイス係数であり４．５％低い。ここで使われるように、ダイス係数は、下流ビジョンタスクとして行われるセグメンテーションの精度を評価するために使用される。与えられたセマンティックタスクについて、Ｇ_ｉ及びＰ_ｉは、各対応するボクセルｉの正解と予測値をそれぞれ示す。次の等式は、ダイス係数を明らかにするために使われてもよい。

図６は、多臓器画像セグメンテーションを行うＢＴＣＶデータセットで画像解析モデル１７０を訓練する教師あり訓練プロセス１６０の、補足のベースライン設定を並べた表を示す。図７は、脳腫瘍セグメンテーションを行うＢｒａＴＳデータセットで画像解析モデル１７０を訓練する教師あり訓練プロセス１６０の、補足のベースライン設定を並べた表を示す。図８は、アノテーションされていない３Ｄ医療画像２０２として３ＤＣＴ画像体積を使用する、自己教師あり訓練プロセスの、事前訓練設定を並べた表を示す。

図９は、アノテーションされたＭＤ医療画像２０４としてＢｒａＴＳ教師データセットを用い事前訓練された後、脳腫瘍セグメンテーション画像で機械学習モデルを使用した結果を明らかにする表である。図８におけるＢｒａＴＳの分割結果は、図５で示された分割結果と同様のパターンに従う。マスク画像モデリングアプローチの平均ダイス係数は、０．８０より若干大きいが、ＳｉｍＣＬＲは、０．７７３９のダイス係数を得ており、これは図５に匹敵する最良のアプローチより４．３７％小さい。もう１つの注意点は、２つのＭＩＭ技術の類似にかかわらず、図５及び図９の両方で明らかにされるように、ＳｉｍＭＩＭはＭＡＥより僅かによいパフォーマンスを達成することができる点である。これについての１つの説明として、もしエンコーダ１５０が一般化できる表現を取得しないとしても、効率的なデコーダ（軽量なデコーダでさえ）は、元の画像を再構成できる可能性があり、したがってより効率的な表現２２５を学習するためのエンコーダ１５０の動機を周期的に緩和するという理由がある。自己教師ありＭＩＭ学習の１つのゴールは、自己収束のみよりむしろ効率的で一般化できるデータの表現を学習することである。比較して、ＳｉｍＭＩＭは、デコーダ全体を省くことによって更に軽いデザインを用い、より複雑な再構成及び学習タスクを行うためのエンコーダを走らせる。

自己教師ありＭＩＭ訓練プロセス２００は、第一の教師データセット２０１で画像エンコーダ１５０を事前訓練するためのコストを減らしつつ、訓練速度を上げる。図１０は、自己教師ありＭＩＭ訓練プロセス２００が教師あり訓練プロセス１６０をどのように進めるかを表現するプロットを示す。ここで、検証セットの平均ダイス係数は、教師ありベースラインと、訓練段階を通して異なるマスキング比率を用いる様々な自己教師ありＭＩＭ技術に分けられる。事前訓練するマスク画像モデリングは、訓練コストを節約しより良いパフォーマンスを生みだす。ＳｉｍＭＩＭベースのアーキテクチャは、１．３ｋ訓練段階でのダイス係数より１．７６倍を得ることができる。更に、ＭＩＭベースのアプローチは、教師ありベースラインで要求される訓練時間より１．４倍少ない訓練時間で０．７のダイス係数に到達できる。

いくつかの実施において、様々なマスクされたパッチサイズ及びマスキング比率は、自己教師ありＭＩＭを用いるモデルを訓練するために使用される。種々のＭＩＭ技術を用いる３Ｄ医療画像に機械学習モデルを適用し、及び下流画像セグメンテーションを行う事前訓練済み画像エンコーダを微調整した結果は、図１１及び図１２の表にまとめられる。図１１は、多臓器セグメンテーションでの様々なマスクされたパッチサイズ及びマスキング比率のアブレーション研究を示す表を含む。図１３の結果を生成するために適用される機械学習モデル１６０は、事前訓練済みエンコーダ１５０として適用されるＶｉＴ－Ｂのデフォルトバックボーンを備えた。加えて、機械学習モデル１６０は、ＢＴＣＶ教師データセットを用いる教師あり訓練プロセス１６０を介して訓練された。図１２は、脳腫瘍セグメンテーションでの様々なマスクされたパッチサイズ及びマスキング比率のアブレーション研究を示す表である。同じく、事前訓練するデータは、ＢｒａＴＳデータセット自信を含み、ＶｉＴ－Ｂは、セグメンテーションファインチューニングのためにＵＮＥＴＲのエンコーダバックボーンとして適用される。

より高いマスキング比率は、下流タスクに効率的に変換されうる一般的な表現を構築するためのモデルを継続的に動かせる、重要な自己教師あり学習ジョブである。例えば、多臓器セグメンテーション及び脳腫瘍セグメンテーションでのベストなダイス係数は、約０．７５のマスキング比率が複数のパッチサイズ（例えば、図１１におけるパッチサイズ１６の０．７１８３、図１２におけるパッチサイズ２４及び３２の０．８０４１）にわたって使用されるとき、得られる。小さいパッチサイズと組み合わされる高いマスキング比率は、ＳｉｍＭＩＭと組み合わせて使用されるとき、比較的良いパフォーマンスをもたらす。図１１及び図１２に示されるように、パッチサイズが１６と等しいとき、モデルはそれぞれ約０．７２４９及び０．８０７７のダイス係数で実行できる。しかし、パッチサイズが増えるとき、ＳｉｍＭＩＭメソッドは、このマスキング比率に感度が低く表れる。例えば、パッチサイズが約３２であるとき、モデルは、可能な限り最も小さいマスキング比率である約０．１５のマスキング比率で、最も大きいダイス係数を得ることができる。医療画像は、一般的に生であり、程度の大きい空間的な冗長性をもつ低いレベルの信号である。いくつかの未知のパッチを修復することは、オブジェクトと周囲の包括的な知識を少し有する近くのパッチを直接コピーすることによって行われる。単一の小さいマスクされたパッチは、複雑で交差する構造又は位置を十分にマスクすることができないこともあるが、大きなパッチサイズは、より重要な信号を単独で隠すことができる。結果として、小さいパッチサイズの高いマスキング比率は、大きいパッチサイズの高いマスキング比率より、致命的になりうる。

一般的に、教師あり学習において、より多くの教師データは、パフォーマンスを改善する結果となる。図１３は、自己教師ありＭＩＭ訓練プロセス２００を介して事前訓練された画像エンコーダ１５０、及びＭＡＥアーキテクチャ（図２Ａ）を有するハンドを組み込む、画像解析モデル１７０のダイス係数を示す表を含む。画像エンコーダ１５０は、ダウンサンプリングの様々な程度を有する様々なデータソースごとに事前訓練されてもよい。教師あり訓練プロセス１６０は、様々なラベル付きデータ比率を有する多臓器セグメンテーションデータセットで画像解析モデル１７０を訓練してもよい。表の結果は、自己教師あり訓練ＭＩＭ訓練プロセス２００を介して、より多くのアノテーションされていない３Ｄ医療画像２０２で訓練されたモデルが、少ないアノテーションされていない３Ｄ医療画像２０２で訓練されたモデルを上回る（例えば、０．７１８４に対して０．７５４３で４．９％の改善、０．７０１８に対して０．７３３８で４．６％の改善）。この利点は、半分のラベル付きデータのみが教師あり訓練のために使用されるとき、０．６８１８は０．６５５２より５．６％大きいように、低い画像の解像度でより断言されてもよい。

図１３は、また、事前訓練するためのアノテーションされていない３Ｄ医療画像の異なる解像度が下流画像タスクパフォーマンスにどの程度影響を与えるかも表す。例えば、高い事前訓練の解像度は、画像がより粒度の高い情報を含むため、よりよい分割結果をもたらす。ここで、異なるダウンサンプリング比率は、元の信号が各体積の全次元に圧縮される度合いを表すために用いられることができる。図１３からわかるように、高い解像度（例えば、１．５×，１．５×，２．０）を有する事前訓練済みエンコーダモデルは、一般的に低い解像度（例えば、２．０×，２．０×，２．０）を有する事前訓練済みモデルよりよく動く。例えば、０．７３３８のダイス係数は、同じデータソース、同じラベル付き比率で、より高い解像度を用い事前訓練されたダイス係数より２．７％小さい。

図１４は、多次元医療画像で画像解析タスクを行うために画像解析モデルを訓練する方法１４００の動作の例示的な配列のフローチャートである。計算システム１２０のデータ処理ハードウェア１２２は、メモリハードウェア１２４に保存された命令を実行して動作を行ってもよい。動作１４０２において、方法１４００は、複数のアノテーションされていない多次元医療画像２０２を含む第一の教師データセット２０１を得るステップを含む。動作１４０４において、方法１４００は、自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセス２００を実行して、第一の教師データセット２０１で画像エンコーダ１５０を事前訓練するステップを含む。

動作１４０６において、方法１４００は、複数のアノテーションされた多次元医療画像２０４を含む第二の教師データセット２０３を得るステップを含む。ここで、アノテーションされた多次元医療画像２０４のそれぞれは、対応する画像ボクセルが属するクラスを示す対応する正解ラベル２０８とそれぞれ対になる、複数の画像ボクセル２０６を含む。動作１４０８において、方法１４００は、第二の教師データセット２０３で画像解析モデル１７０を学習させる教師あり訓練プロセス１６０を実行して、アノテーションされた多次元医療画像２０４のそれぞれの複数の画像ボクセル２０６に対応する正解ラベル２０８を予測する方法を学習することを画像解析モデル１７０に学習させるステップを含む。ここで、画像解析モデル１７０は、事前訓練済みの画像エンコーダ１５０を組み込む。教師あり訓練プロセス１６０は、自己教師ありＭＩＭ訓練プロセス２００を介して初期化された事前訓練済み画像エンコーダ１５０を微調整する。

ソフトウェアアプリケーション（つまりソフトウェアリソース）は、計算デバイスにタスクを行わせるコンピュータソフトウェアを参照してもよい。いくつかの例において、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、又は「プログラム」として参照されてもよい。アプリケーションの例としては（これに限られないが）、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションを含む。

非一時的なメモリは、計算デバイスによる使用のための一時的又は永続の基盤で、プログラム（例えば一連の命令）又はデータ（例えばプログラムの状態情報）を保存するために使用される物理デバイスであってもよい。非一時的なメモリは、揮発性及び／又は不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例としては（これに限られないが）、フラッシュメモリ及び読取り専用メモリ（ＲＯＭ）／プログラマブル読取り専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭ）／（例えば、ブートプログラムのような通常ファームウェアに使用される）電子的に消去可能なプログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）を含む。揮発性メモリの例としては（これに限られないが）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスク又はテープを含む。

図１５は、本明細書において示されたシステム及び方法を実施するために使用されてもよい、計算デバイス１５００の例を概略的に示した図である。計算デバイス１５００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータのような、デジタルコンピュータの様々な形式を表すように意図される。ここで示される接続及び関係、及び機能の構成要素は、単なる例として意味され、本明細書において説明及び／又は請求される発明の実施を制限することは意味されない。

計算デバイス１５００は、プロセッサ１５１０と、メモリ１５２０と、ストレージデバイス１５３０と、メモリ１５２０及び高速拡張ポート１５５０と接続される高速インタフェース／コントローラ１５４０と、及び低速バス１５７０及びストレージデバイス１５３０と接続される低速インタフェース／コントローラ１５６０とを含む。構成要素１５１０、１５２０、１５３０、１５４０、１５５０、及び１５６０のそれぞれは、様々なバスを用い相互接続され、共通のマザーボード又は必要に応じて他の方法で積載されてもよい。プロセッサ１５１０は、メモリ１５２０、又は高速インタフェース１５４０に結合されたディスプレイ１５８０のような、外部入力／出力デバイス上のグラフィックユーザインタフェース（ＧＵＩ）のグラフィック情報を表示するためのストレージデバイス１５３０上に保存される命令を含む、計算デバイス１５００内で実行する命令を処理することができる。他の実施形態において、複数のプロセッサ及び／又は複数のバスは、必要に応じて、複数のメモリ及びメモリ形式とともに使用されてもよい。また、複数の計算デバイス１５００は、必要な動作の一部を提供する各デバイス（例えば、サーババンク、ブレードサーバのグループ、又はマルチプロセッサシステム）と接続されてもよい。

メモリ１５２０は、計算デバイス１５００内で非一時的に情報を保存する。メモリ１５２０は、コンピュータ可読媒体、揮発性メモリユニット、不揮発性メモリユニットであってもよい。非一時的なメモリ１５２０は、計算デバイス１５００によって使用するための一時的又は永続の基盤で、プログラム（例えば一連の命令）又はデータ（例えばプログラムの状態情報）を保存するために使用される物理デバイスであってもよい。不揮発性メモリの例としては（これに限られないが）、フラッシュメモリ及び読取り専用メモリ（ＲＯＭ）／プログラマブル読取り専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭ）／（例えば、ブートプログラムのような通常ファームウェアに使用される）電子的に消去可能なプログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）を含む。揮発性メモリの例としては（これに限られないが）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスク又はテープを含む。

ストレージデバイス１５３０は、計算デバイス１５００の大容量ストレージを提供できる。いくつかの実施形態において、ストレージデバイス１５３０は、コンピュータ可読媒体である。様々な異なる実施形態において、ストレージデバイス１５３０は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、又はテープデバイス、フラッシュメモリ又は他の同様のソリッドステートメモリデバイス、又はストレージエリアネットワーク又は他の構成のデバイスを含むデバイスの配列であってもよい。追加の実施形態において、コンピュータプログラムプロダクトは、情報媒体に具体的に組み込まれる。コンピュータプログラムプロダクトは、実行されるとき、上述のような１つ以上の方法を行う命令を含む。情報媒体は、メモリ１５２０、ストレージデバイス１５３０、又はプロセッサ１５１０上のメモリのような、コンピュータ又は機械可読媒体である。

高速コントローラ１５４０は、計算デバイス１５００の帯域幅を消費する動作を管理し、一方、低速コントローラ１５６０は、低い帯域幅を消費する動作を管理する。そのような役割の割当ては、単なる例である。いくつかの実施形態において、高速コントローラ１５４０は、メモリ１５２０、（例えばグラフィックプロセッサ又はアクセラレータを通して、）ディスプレイ１５８０、及び（ここには示されないが様々な拡張カードを適用してもよい、）高速拡張ポート１５５０に結合される。いくつかの実施形態において、低速コントローラ１５６０は、ストレージデバイス１５３０及び低速拡張ポート１５９０に結合される。低速拡張ポート１５９０は、様々な通信ポート（例えばＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、無線イーサネット）を含んでもよく、キーボード、ポインティングデバイス、スキャナ、又は例えばネットワークアダプタを通したスイッチ又はルータのようなネットワークデバイスのような１つ以上の入力／出力デバイスに結合されてもよい。

計算デバイス１５００は、図に示されるように、いくつかの異なる形式で実施されてもよい。例えば、標準的なサーバ１５００ａ又はそのようなサーバ１５００ａのグループで複数のものとして、ラップトップコンピュータ１５００ｂとして、又はラックサーバシステム１５００ｃの一部として、実施されてもよい。

本明細書において説明されるシステム及び技術のさまざまな実施形態は、デジタル電気及び／又は光回路、集積回路（特にＡＳＩＣｓ（特定用途向け集積回路））、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの結合で、実現することができる。これらの様々な実施形態は、１つ以上のコンピュータプログラムでの実施形態を含むことができる。少なくとも１つのプログラマブルプロセッサを含む、プログラマブルシステムで実行可能及び／又は解釈可能であってもよく、特殊用途又は汎用であってもよく、ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスからデータと命令を受信し、データと命令を送信するために、結合されてもよい。

（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られる、）これらのコンピュータプログラムは、プログラマブルプロセッサへの機械語命令を含み、高水準の手続き型及び／又はオブジェクト指向のプログラミング言語で、及び／又はアセンブリ／機械言語で、実施されうる。本明細書において用いられる、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号として機械語命令を受信する機械可読媒体を含む、プログラマブルプロセッサへの機械語命令及び／又はデータを与えるために用いられる、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置、及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤｓ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサへの機械語命令及び又はデータを与えるために用いられる、任意の信号を指す。

本明細書において説明されるプロセスと論理フローは、１つ以上のプログラマブルプロセッサによって行われることができ、またデータ処理ハードウェアとして参照もされることができ、入力データを演算し、出力を生成することによって機能を実行するために、１つ以上のコンピュータプログラムを実行することができる。プロセスと論理フローは、特殊用途の論理回路（例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路））によって行われることもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用及び特殊用途の両方のマイクロプロセッサ、及び任意の種類のデジタルコンピュータの１つ以上のプロセッサを含む。一般的に、プロセッサは、読取り専用メモリ又はランダムアクセスメモリ又はその両方から、命令及びデータを受信する。コンピュータの不可欠な要素は、命令を行うためのプロセッサと、命令及びデータを保存する１つ以上のメモリデバイスである。一般的に、コンピュータは、データを保存するための１つ以上の大容量ストレージデバイス（例えば、磁気ディスク、光磁気ディスク、又は光ディスク）も含み、これらからデータを受信又はこれらへデータを送信、又はその両方をするために、操作可能に結合もされる。しかし、コンピュータは、そのようなデバイスを備えなくてもよい。コンピュータプログラムの命令及びデータの保存に適したコンピュータ可読メディアは、不揮発性メモリ、（例として半導体メモリデバイス（例えばＥＰＲＯＭ、ＥＥＰＲＯＭ）及びフラッシュメモリデバイス、磁気ディスク（例えば内蔵ハードディスク又はリムーバブルディスク）、光磁気ディスク、ＣＤＲＯＭ及びＤＶＤＲＯＭディスク）を含むメディア及びメモリデバイスの、全ての形式を含む。プロセッサ及びメモリは、特殊用途の論理回路によって補完すること、及び特殊用途の論理回路に組み込むこともできる。

ユーザとの相互作用を提供するために、本開示の１つ以上の態様は、ディスプレイデバイス（例えば、ユーザに情報を表示するためのＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、又はタッチスクリーン、及び任意で、ユーザがコンピュータへ入力を提供できるキーボード及びポインティングデバイス（例えばマウス又はトラックボール））を備えるコンピュータで実施されてもよい。他の種類のデバイスは、同じようにユーザとの相互作用を提供するために使用されうる。例えば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、触覚的フィードバックなど、任意の形式の感覚的フィードバックであってもよく、ユーザからの入力は、音響、音声、又は触覚入力を含む任意の形式で受信できる。更に、コンピュータは、ユーザによって使用されるデバイスへ文書を送信し、及びデバイスから文書を受信すること、例えば、ウェブブラウザから受信した要求への応答において、ユーザクライアントデバイスでウェブブラウザへウェブページを送信することによって、ユーザに作用することができる。

いくつかの実施形態は説明された。それにかかわらず、様々な変更は本開示の趣旨と範囲から離れずにされてもよいと理解される。それに応じて、他の実施形態は、以下の請求項の範囲内に含まれる。

Claims

データ処理ハードウェアで実行される、コンピュータで実施される方法であって、前記データ処理ハードウェアに、
複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、
自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを実行して、前記第一の教師データセットで画像エンコーダを事前訓練するステップと、
複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップであって、前記アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属する、複数のクラス候補のうちの１つを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む、ステップと、
前記第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、対応する前記アノテーションされた多次元医療画像の複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することによってそれぞれの対応するアノテーションされた多次元医療画像の強化された多次元医療画像を生成する方法を学習することを前記画像解析モデルに学習させるステップと、
を含む動作を行わせ、
前記画像解析モデルは、事前訓練済みの前記画像エンコーダを組み込み、
前記教師あり訓練プロセスの実行の間に前記画像解析モデルによって生成された前記強化された多次元医療画像は、それぞれのクラスに属するそれぞれの対応する画像ボクセルにかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、前記複数のクラス候補のそれぞれのクラスを、複数のタスク候補のそれぞれの他のクラスから分離し、
前記第一の教師データセットの前記複数のアノテーションされていない多次元医療画像は、前記第二の教師データセットの前記複数のアノテーションされた多次元医療画像とは、異なる医療領域と関連づけられる、
方法。
前記自己教師ありＭＩＭ訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、前記対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、
前記対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、
前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
マスクされた画像パッチのそれぞれについて、
前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
前記エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することと、
を含む工程と、
前記マスクされた画像パッチに生成された前記予測トークン、及び前記マスクされた画像パッチと一致する前記一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、
前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
を含む、
請求項１に記載の方法。
前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
デコーダは、複数のマルチヘッドアテンション層を含む、
請求項２に記載の方法。
前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
請求項２又は３に記載の方法。
一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しい、
請求項２又は３に記載の方法。
前記自己教師ありＭＩＭ訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
前記対応するアノテーションされていない多次元医療画像を、複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、
前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
マスクされた画像パッチのそれぞれについて、
前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
前記エンコード済み隠れ表現に基づき、前記マスクされた画像パッチについての予測ボクセル値（２７０）を、予測ヘッドを用いて生成することと、
を含む工程と、
前記マスクされた画像パッチに生成された予測ボクセル値、及び前記マスクされた画像パッチを表現する前記対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、
前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
を含む、
請求項１から３のいずれかに記載の方法。
前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
前記予測ヘッドは、単一の線形層予測ヘッドを含み、デコーダの使用なしで前記エンコード済み隠れ表現から前記予測ボクセル値を生成するように構成される、
請求項６に記載の方法。
前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
請求項６に記載の方法。
前記画像解析モデルは、腫瘍セグメンテーションモデルを含む、
請求項１から３のいずれかに記載の方法。
前記画像解析モデルは、多臓器セグメンテーションモデルを含む、
請求項１から３のいずれかに記載の方法。
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信し、前記データ処理ハードウェアで実行されると、前記データ処理ハードウェアに動作を行わせる命令を保存するメモリハードウェアと、
を含み、
前記動作は、
複数のアノテーションされていない多次元医療画像を含む第一の教師データセットを得るステップと、
自己教師ありマスク画像モデリング（ＭＩＭ）訓練プロセスを実行して、前記第一の教師データセットで画像エンコーダを事前訓練するステップと、
複数のアノテーションされた多次元医療画像を含む第二の教師データセットを得るステップであって、前記アノテーションされた多次元医療画像のそれぞれは、対応する画像ボクセルが属する複数のクラス候補のうちの１つを示す対応する正解ラベルとそれぞれ対になる、複数の画像ボクセルを含む、ステップと、
前記第二の教師データセットで画像解析モデルを学習させる教師あり訓練プロセスを実行して、対応する前記アノテーションされた多次元医療画像の複数の画像ボクセルに対応する正解ラベルを予測する方法を学習することによってそれぞれの対応するアノテーションされた多次元医療画像の強化された多次元医療画像を生成する方法を学習することを前記画像解析モデルに学習させるステップと、
を含み、
前記画像解析モデルは、事前訓練済みの前記画像エンコーダを組み込み、
前記教師あり訓練プロセスの実行の間に前記画像解析モデルによって生成された前記強化された多次元医療画像は、それぞれのクラスに属するそれぞれの対応する画像ボクセルにかぶせるためのそれぞれのセグメンテーションマスクを定義することによって、前記複数のクラス候補のそれぞれのクラスを、複数のタスク候補のそれぞれの他のクラスから分離し、
前記第一の教師データセットの前記複数のアノテーションされていない多次元医療画像は、前記第二の教師データセットの前記複数のアノテーションされた多次元医療画像よりも、異なる医療領域と関連づけられる、
システム。
前記自己教師ありＭＩＭ訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
対応するアノテーションされていない多次元医療画像を入力として受信するように構成された画像トークナイザを使用し、前記対応するアノテーションされていない多次元医療画像を特徴づける一連の離散ビジュアルトークンを生成する工程と、
前記対応するアノテーションされていない多次元医療画像を複数の画像パッチに分割する工程と、
前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
マスクされた画像パッチそれぞれについて、
前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
前記エンコード済み隠れ表現に基づき、対応する予測トークンを、デコーダを用いて生成することと、
を含む工程と、
前記マスクされた画像パッチに生成された前記予測トークン、及び前記マスクされた画像パッチと一致する前記一連の離散ビジュアルトークンからの対応するビジュアルトークンに基づき訓練損失を決定する工程と、
前記訓練損失に基づき前記画像エンコーダのパラメータをアップデートする工程と、
を含む、
請求項１１に記載のシステム。
前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
デコーダは、複数のマルチヘッドアテンション層を含む、
請求項１２に記載のシステム。
前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
請求項１２又は１３に記載のシステム。
一連の離散ビジュアルトークンにおけるビジュアルトークンの数は、複数の画像パッチにおける画像パッチの数と等しい、
請求項１２又は１３に記載のシステム。
前記自己教師ありＭＩＭ訓練プロセスを実行して、前記画像エンコーダを事前訓練するステップは、前記第一の教師データセットに対応するアノテーションされていない多次元医療画像のそれぞれについて、
前記対応するアノテーションされていない多次元医療画像を、複数の画像パッチに分割する工程であって、各画像パッチは、対応する生のボクセル値のセットによって表現される、工程と、
前記対応するアノテーションされていない多次元医療画像から分割された前記画像パッチの一部をランダムにマスクする工程であって、
マスクされた画像パッチのそれぞれについて、
前記マスクされた画像パッチのためのエンコード済み隠れ表現を、前記画像エンコーダを用いて生成することと、
前記エンコード済み隠れ表現に基づき、前記マスクされた画像パッチについての予測ボクセル値を、予測ヘッドを用いて生成することと、
を含む工程と、
前記マスクされた画像パッチに生成された予測ボクセル値、及びマスクされた画像パッチを表現する前記対応する生のボクセル値のセットに基づき訓練損失を決定する工程と、
前記訓練損失に基づき画像エンコーダのパラメータをアップデートする工程と、
を含む、
請求項１１から１３のいずれかに記載のシステム。
前記画像エンコーダは、複数のマルチヘッドアテンション層を含み、
前記予測ヘッドは、単一の線形層予測ヘッドを含み、デコーダの使用なしで前記エンコード済み隠れ表現から前記予測ボクセル値を生成するように構成される、
請求項１６に記載のシステム。
前記画像パッチの一部をランダムにマスクする工程は、様々なマスクされたパッチサイズ及びマスキング比率を使用する、中心領域マスキングストラテジ、ブロックごとのマスキングストラテジ、又は一様ランダムマスキングストラテジのうちの１つを用い、前記画像パッチの一部をランダムにマスクすることを含む、
請求項１６に記載のシステム。
前記画像解析モデルは、腫瘍セグメンテーションモデルを含む、
請求項１１から１３のいずれかに記載のシステム。
前記画像解析モデルは、多臓器セグメンテーションモデルを含む、
請求項１１から１３のいずれかに記載のシステム。