JP7724406B2

JP7724406B2 - 分類モデルの解釈容易化

Info

Publication number: JP7724406B2
Application number: JP2022511064A
Authority: JP
Inventors: ニコラペゾッティ; ヤチェックルーカスクストラ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-08-29
Filing date: 2020-08-31
Publication date: 2025-08-18
Anticipated expiration: 2040-08-31
Also published as: US20220285024A1; EP3786856A1; EP4022528A1; JP2022546681A; CN114341872A; WO2021038096A1

Description

本発明は、患者データなどの臨床データに分類モデルを適用するように構成される、臨床決定支援システムなどのシステム、及び臨床データに分類モデルを適用するためのコンピュータ実装方法に関する。本発明はさらに、プロセッサシステムにこの方法を実行させるための命令を含むコンピュータ可読媒体に関する。

臨床的意思決定支援システムは、例えば救急治療室でのエピソードを優先する場合や、所定の患者の治療結果を予測する場合など、臨床現場で使用されることが多くなっている。このような臨床意思決定支援システムに対する入力は、典型的には患者データのような臨床データである。臨床決定支援システムは、臨床データから臨床的に重要な情報を推測するように構成されてもよい。そのために、臨床意思決定支援システムは臨床データの分類を提供する可能性があり、それによって臨床意思決定プロセスの少なくとも一部を実施する可能性がある臨床データに分類モデルを適用することができる。分類モデルは、多くの場合、訓練されるニューラルネットワーク、サポートベクトルマシン(SVN)モデルなどの機械学習(「訓練される」)分類モデルであってもよい。このようなタイプの臨床的意思決定支援システムは、専門家によってもはや完全に定義されていないので、「データ駆動型」とも呼ばれる。

このようなデータ駆動型臨床意思決定支援システムの設計では、例えば、臨床情報における十分な信頼を確立するために、この臨床情報がどのように計算されるかの理解を医師に提供することによって、分類モデルによって提供される臨床意思決定支援情報に対する信頼を意思決定エンティティ(例えば、医師)に提供することが懸念される。

データ駆動臨床意思決定支援システムにおけるさらなる課題は例えば、分類モデルを再訓練することによって、新しいデータを追加することができることであり、この場合、医師はこれが、技術的メトリックに関してだけでなく、分類モデルの意思決定プロセスが新しいデータによってどのように影響されるかに関しても、分類モデルのパフォーマンスにどのように影響するかを理解することを望むことができる。例えば、モデル精度は安定したままである可能性があるが、新しいデータを用いて再訓練した後の新しい意思決定プロセスは誤解を招く可能性がある。典型的な例は古典的な「Anscombe's Quartet」であり得、ここで、全てのデータセットは同じ統計量を示すが、実際にはデータ分布が明らかに異なる。

意思決定プロセスに透明性をもたらす際の困難性は分類モデルがしばしば、不透明なブラックボックスに似ているという事実に関連し、ユーザはモデルの入力、出力、及びモデルの技術的特性(例えば、正確さ又はリコール、又は受信者動作特性(ROC)などの他の測定基準)における洞察を得ることしかできない。しかしながら、典型的には、モデルの内部意思決定プロセスに洞察は提供されない。これは、典型的にはモデルの複雑さと、人間が解釈するのが難しい多次元の態様とに起因する。これを克服するために、特徴関係の視覚的グラフを提供するベイズネットワーク、又はユーザが人間が解釈可能な方法でデータを解釈することを可能にするデータ視覚的化アプローチなど、異なるアプローチ提案されている。しかしながら、これらの技術は典型的には分類モデルのタイプに特有であり、異なるタイプの分類モデルに一般化することができない。これは、このような技術の適用可能性を厳しく制限する。

分類モデルの意思決定プロセスの解釈可能性を、よりモデルに依存しない方法で容易にすることができることが望ましい場合がある。

本発明の第1の態様によれば、臨床データに分類モデルを適用するように構成されるシステムが提供される。前記システムは、
データインターフェースであって、
多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを有する臨床データと、
前記それぞれのデータインスタンスの分類を提供するために前記特徴ベクトルに適用されるように構成される分類モデルと
にアクセスするためのデータインターフェースと、
プロセッササブシステムであって、
前記特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元数低減技術を適用して、低次元空間における複数の臨床データポイントを取得し、
前記臨床データポイントの前記特徴ベクトルに補間技術を適用することによって、低次元空間において合成データポイントを作成し、前記合成データポイントのための特徴ベクトルを決定し、それによって、前記合成臨床データポイントのそれぞれの補間特徴ベクトルを取得し、
各合成臨床データポイントについて、
前記分類モデルを、前記それぞれの補間される特徴ベクトルに適用して、前記合成臨床データポイントの分類を取得し、
前記分類の分類不確実性を決定し、
ユーザへの表示のための前記低次元空間の視覚化を生成し、前記視覚化は、前記合成臨床データポイントに対する視覚的関係における前記分類不確実性の視覚化を有する
ように構成される、プロセッササブシステムと
を有する。

本発明のさらなる態様によれば、臨床データに分類モデルを適用するためのコンピュータ実装方法が提供される。

この方法は、
多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを有する臨床データと、
前記それぞれのデータインスタンスの分類を提供するために前記特徴ベクトルに適用されるように構成される分類モデルと
にアクセスするステップと、
前記特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元数低減技術を適用して、低次元空間内の複数の臨床データポイントを取得するステップと、
前記臨床データポイントの前記特徴ベクトルに補間技術を適用することによって、前記低次元空間内に合成データポイントを作成し、前記合成データポイントのための特徴ベクトルを決定し、それによって、前記合成臨床データポイントのそれぞれのための補間特徴ベクトルを取得するステップと、
各合成臨床データポイントについて、
前記分類モデルを、前記それぞれの補間される特徴ベクトルに適用して、前記合成臨床データポイントのための分類を取得するステップと、
前記分類の分類不確実性を決定するステップと、
ユーザへの表示のための前記低次元空間の視覚化を生成するステップであって、前記視覚化は、前記合成臨床データポイントに対する視覚的関係において前記分類不確実性の視覚化を有する、ステップと
を有する。

本発明のさらなる態様に従って、コンピュータプログラムを表す一時的又は非一時的データを含むコンピュータ可読媒体が提供され、コンピュータプログラムは、プロセッサシステムにコンピュータ実装方法を実行させるための命令を含む。

上記の測定は、多次元特徴空間において特徴ベクトルとして各々表現可能な幾つかのデータインスタンスを含む臨床データにアクセスすることを含む。例えば、そのような臨床データは患者データであってもよく、各データインスタンスは異なる患者に関するものであってもよい。この例では、特定の患者の臨床データが多次元特徴空間において特徴ベクトルを形成することができる。例えば、特定のデータインスタンスが、性別、体重、身長、血液型などの33個の値を含む場合、データインスタンスは33次元特徴空間内のデータポイントとして表現可能であり、データポイントの座標は特徴の値、例えば、「F」、「60kg」、「170cm」、「O―負」などを表す。特徴ベクトルとしてのデータのこのような表現は、データ分類においてそれ自体知られている。

さらに、分類モデルは例えば、分類モデルデータとして、分類モデルのデータ表現の形成でアクセスされてもよい。分類モデルは、ニューラルネットワーク、SVNなどの機械学習分類モデルであってもよく、それぞれのデータインスタンスの分類を提供するために特徴ベクトルに適用されるように構成されてもよい。そのような分類は一般に、例えば臨床診断の予測などの推論とすることができ、臨床意思決定サポートの文脈では、ユーザの意思決定をサポートすることができる臨床意思決定サポート情報を構成することができる。

上記の測定は、特徴ベクトルの全て又はサブセットに非線形及び多様体保存次元数低減技術を適用して、より低次元の空間における複数の臨床データポイントを得ることを更に含む。このような非線形及び多様体保存次元低減技術はそれ自体公知であり、(高次元)データは典型的には少なくとも大まかには低次元多様体上に存在し、これもまた、様々な機械学習ベース技術における基礎となる仮定であると状態多様体仮定に基づいている。このような非線形で多様体保存次元低減技術の非限定的な実施例は、t分布確率的近傍埋め込み(t‐SNE)アルゴリズムである。この手法を適用した結果、低次元空間において、それぞれの臨床データポイントが得られる。ここで、「低次元」とは元の多次元特徴空間の次元数よりもはるかに低い次元数を指し、場合によってははるかに低い次元数を指す。いくつかの例では、次元低減技術が非線形又は多様体保存次元低減技術であってもよい。適切な技術の他の例にはUMAP、ISOMAP、HSNE、及びA―tSNEが含まれるが、これらに限定されず、それぞれは多次元データの次元低減の技術分野でそれ自体知られている。

上記の結果として、「埋め込み空間」とも呼ばれる低次元空間は、今度がそれぞれが関連する高次元特徴ベクトルを有する臨床データポイントを含むことができる。低次元空間内の他のデータポイントの特徴ベクトルは、臨床データポイントの特徴ベクトルに補間技術を適用することによって得ることができる。例えば、そのような補間技術は「他の」データポイントの近傍における臨床データポイントの特徴ベクトルに重み付け平均を適用することを含むことができ、重み付けは、低次元空間におけるそれぞれの臨床データポイントまでの距離に反比例する。

これにより、上記のようにして補間特徴ベクトルが求められた低次元空間の座標を参照して、低次元空間における合成臨床データポイントを求めることができる。これらの合成臨床データポイントのそれぞれについて、分類モデルをそれぞれの補間される特徴ベクトルに適用することによって分類を取得することができ、分類の分類不確実性を決定することができる。そのような分類の不確実性は様々な既知の方法で決定されてもよく、また、他の場所で説明されるように、一般に分類モデルのタイプに依存してもよい。

上記の測定は、非線形及び多様体保存次元低減技術が臨床データにおける分散が少なくとも実質的な程度まで保存されるより低次元の様式で特徴空間を表すことを可能にするという洞察に基づく。このような低次元空間は、高次元特徴空間よりも人間観測者にとってはるかに解釈が容易である。例えば、臨床データの分類が例えば、各臨床データポイントに重なる異なる視覚的表現として、そのような低次元空間にプロットされる場合、ユーザは、元の高次元特徴空間におけるよりも、分類モデルによる分類における決定境界をより容易に見ることができる。

しかしながら、次元数低減技術への入力として使用される臨床データは、より低い次元の空間にわたって不均一に及び／又はまばらに分布される臨床データポイントをもたらすことができる。

分類モデルは対応する臨床データポイントが低次元空間のそのような領域にある臨床データに後に適用され得るので、低次元空間の他の領域、例えば、元の臨床データポイントをまったく含まないか、又は十分な数を含まない領域においても、分類モデルの性能に関する視覚的フィードバックを得ることが興味深い場合がある。これは、例えば、低次元空間内の規則的なグリッドで決定され、一般に、低次元空間内により多くのデータポイントを提供し、それによって、低次元空間内のデータポイントの密度を増加させる、前述の合成臨床データポイントを生成することによって対処される。このような増加した密度は特に、元の臨床データポイントがまばらにしか分布していない場合に、視覚フィードバックの解釈可能性を大幅に改善することができる。

次に、より低次元の空間は例えば、2D又は3D空間の場合には2D又は3D画像として視覚化されてもよく、合成臨床データポイントの補間される特徴ベクトルに関連する分類不確実性は、合成データポイントに対して視覚的な関係で視覚化されてもよい。例えば、合成データポイントを表すピクセル又はボクセルには、不確実性を表す飽和又は強度を割り当てることができる。いくつかの実施形態では、全ての臨床データポイント、すなわち、元及び合成の分類の不確実性を視覚化することができる。

有利には低次元空間にわたる分類の不確実性をユーザに示すことができ、これは不確実性が特に高い(又は確実性が特に低い)領域を示すことができる。これは、例えば、パラメータチューニング又は他の方法によって分類モデルを調整する必要性、又は分類モデルが訓練される分類モデルである場合、特定の領域内のデータインスタンスを含むより多くのトレーニングデータの必要性、又は一般に、ユーザがこの領域内の分類モデルによって分類を慎重に扱う必要性を示し得る。

有利には、上述の測度が分類モデルの内部パラメータに依存しないことによって、分類モデルを「ブラックボックス」として考慮しながら、分類モデルの分類不確実性を下位次元空間全体にわたって視覚化することを提供する。むしろ、視覚化は、分類モデルの入力(特徴ベクトル)及び出力(分類)ならびに導出されるパラメータ(分類不確実性)に基づいて提供される。有利なことに、上記の測定は、よりモデルに依存しない方法で、分類モデルの意思決定プロセスの解釈可能性を容易にすることができる。

任意選択で、プロセッササブシステムは、低次元空間の視覚化において、分類モデルによる分類の視覚化を生成するようにさらに構成される。分類の不確実性に加えて、分類自体も視覚化することができる。例えば、2D又は3D画像内のピクセル又はボクセルには、分類の不確実性を表す飽和又は強度、及び分類を表す色相を割り当てることができる。これにより、ユーザは「決定境界」とも呼ばれる分類境界を知覚することができ、特に、そのような領域に対する分類モデルの一般化が不十分であることを示すことができる複雑な分類境界を知覚することができる。

任意選択で、システムは、前記視覚化を表示するためのディスプレイ出力と、ユーザによって動作可能なユーザ入力装置からユーザ入力データを受信するためのユーザ入力インターフェースとを備えるユーザインターフェース幾つかのサブシステムを備え、プロセッササブシステムはユーザインターフェースサブシステムを介して、ユーザが合成臨床データポイントを選択することを可能にし、前記選択に応答して、それぞれの補間される特徴ベクトルの視覚化を提供するように構成される。このユーザインターフェース機能性はユーザが例えば、各特徴ベクトル成分の視覚化として、選択される合成臨床データポイントの補間される特徴ベクトルを容易に見ることを可能にし得、これは、次に、ユーザがi)分類及び／又は分類の確実性と、ii)分類が基づく特徴との間の関係についての結論を引き出すことを可能にし得る。

任意選択で、プロセッササブシステムはユーザインターフェースサブシステムを介して、ユーザが2つの合成臨床データポイントを選択することを可能にし、前記選択に応答して、それぞれの補間される特徴ベクトル間の差の視覚化を提供するように構成される。このユーザインターフェース機能性はユーザが選択される合成臨床データポイント間の補間される特徴ベクトルの差異を容易に見ることを可能にし得、これは分類境界付近で特に有用であり得、ユーザが分類の変化と特徴ベクトルの差異との間の関係についての結論を引き出すことを可能にする。

任意選択で、分類モデルはトレーニングデータについて訓練され、視覚化が提供される臨床データは分類モデルのトレーニングデータである。上記の測定はトレーニングデータ自体に適用されてもよく、これにより、ユーザは、トレーニングデータに関する分類及び分類の確実性に関するフィードバックを得ることができる。これは、例えば、より多くの及び／又は異なるタイプのトレーニングデータの必要性を示すことができる。

任意選択で、トレーニングデータのデータインスタンスのすべて又はサブセットはそれぞれのグランドトゥルース分類を含むか、又はそれに関連付けられ、プロセッササブシステムは低次元空間の視覚化における臨床データポイントとの視覚的関係でグランドトゥルース分類の視覚化を生成するように構成される。グランドトゥルースを視覚化することによって、グランドトゥルースと分類モデルによる分類との間の差を可視化することができ、これは誤分類又は他の問題を示すことができる。

任意選択で、データインターフェースはさらなる臨床データにアクセスするように構成され、プロセッササブシステムは、
前記さらなる臨床データを前記低次元空間で表すさらなる臨床データポイントを生成し、
前記低次元空間の前記視覚化において、前記さらなる臨床データポイントを視覚化する
ように構成される。

そのようなさらなる臨床データポイントは、訓練後の新しい入力データを表すことができる。そのようなさらなる臨床データポイントを低次元空間にプロットすることによって、さらなる臨床データポイントと元の臨床データポイントとの間の空間的関係を可視化することができる。例えば、両方のタイプのデータポイントがより低次元の空間において別個のクラスタを形成する場合、これは、訓練される分類モデルの場合、分類モデルが新しい入力データを分類するために不十分に一般化され得ることを示し得る。さらに、そのような視覚化は、ユーザが新しい入力データを分類モデルの分類及び分類の確実性に視覚的に関連付けることを可能にし得る。

任意選択で、プロセッササブシステムは低次元空間内の合成臨床データポイントの規則的なグリッドについて、分類及び分類不確実性を決定し、分類不確実性を視覚化するように構成される。補間される特徴ベクトル、及び前記補間される特徴ベクトルに関連する分類及び分類の不確実性は、規則的なグリッド内のデータポイントについて決定されてもよい。例えば、低次元空間が2D画像として可視化される場合、分類及び分類の不確実性は、2D画像の各画素について決定され得る。

任意に、非線形及び多様体保存次元低減技術は、t分布確率的近傍埋め込み(t‐SNE)アルゴリズムである。代替アルゴリズムはUMAP、ISOMAP、HSNE、及びA―tSNEを含むが、これらに限定されない。任意選択で、補間技術を適用することは、KDツリーアルゴリズムを使用して、補間で使用される臨床データポイントを探索することを含む。KDツリーアルゴリズムは、補間のためのK最近傍(KNN)臨床データポイントのセットを見つけるために使用されてもよい。代替的に、任意の他のアルゴリズムがKNN計算のために使用されてもよい。このようなアルゴリズムの例には近似KDツリー及びハッシング技術が含まれるが、これらに限定されない。

任意選択で、システムは、ワークステーション又は撮像装置の一部である。

本発明の上記の実施形態、実装、及び／又は任意選択の態様のうちの2つ以上は有用であると考えられる任意の方法で組み合わせることができることが、当業者には理解されよう。

システム、コンピュータ実装方法、及び／又は任意のコンピュータプログラム製品の修正及び変形は前記エンティティのうちの他のエンティティの記載される修正及び変形に対応し、本明細書に基づいて当業者によって実行され得る。

本発明のこれら及び他の態様は以下の説明及び添付の図面を参照して例として説明される実施形態から明らかになり、それを参照してさらに説明され、

分類モデルを臨床データに適用するためのシステムを示し、分類モデルの分類不確実性の視覚化を生成し、前記視覚化を表示するように構成される。 33次元特徴空間において特徴ベクトルとして表現可能なデータインスタンスに適用される次元数低減の結果を示し、2次元空間における臨床データポイントを得る。 2次元空間における分類モデルの分類及び分類不確実性の視覚化を示し、2次元空間におけるいくつかの複雑な決定境界を示す。図3Aの視覚化を示し、分類モデルが低い信頼度を有し、高い信頼度を有する領域を示す。 2次元空間の視覚化における合成臨床データポイントをユーザが選択することを示す。合成臨床データポイントの選択に応答して提供され得る補間される特徴ベクトルの視覚化を示す。 2つの合成臨床データポイントの選択に応答して、例えば、決定境界の反対側で提供され得る2つの補間される特徴ベクトル間の差の視覚化を示す。分類モデルを臨床データに適用し、ユーザに表示するために分類モデルの分類不確実性視覚化を生成するためのコンピュータ実装方法を示す。データを含むコンピュータ可読媒体を示す。

図面は純粋に概略的であり、縮尺通りに描かれていないことに留意される。

図面において、既に説明される要素に対応する要素は、同じ参照番号を有する可能性がある。以下の参照番号のリストは図面の解釈を容易にするために提供されるものであり、クレームを限定するものと解釈してはならない。

図1は分類モデルを臨床データに適用し、分類モデルの分類不確実性の可視化を生成し、前記可視化を表示するように構成され得るシステム100を示す。

システム100は、多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを含む臨床データ30にアクセスするためのデータインターフェース120を備えるように示されている。例えば、臨床データ30は複数の患者についてのデータレコードを含むことができ、各データレコードは、データインスタンスを表す。例えば、やはり図1に示すように、データインターフェース120は、前記臨床データ30を含むことができる外部データ記憶装置20にデータアクセス122を提供することができる。データ記憶装置20は例えば、画像保管通信システム(PACS)又は病院情報システム(HIS)の電子医療記録(EMR)データベースによって構成されてもよく、又はその一部であってもよく、病院情報システム(HIS)にシステム100が接続されてもよく、又は含まれてもよい。あるいは、データインターフェース120がシステム100の一部である内部データ記憶装置へのデータアクセスを提供してもよい。あるいは、臨床データ30がネットワークを介してアクセスされてもよい。一般に、データインターフェース120は、ローカル又は広域ネットワークへのネットワークインターフェース、例えばインターネット、内部又は外部データ記憶装置への記憶インターフェースなど、様々な形態をとることができる。データ記憶装置20は、ハードドライブ又はハードドライブのアレイ、SSD又はSSDのアレイのような、任意の既知の形成をとることができる。

データ記憶装置20はさらに、それぞれのデータインスタンスの分類を提供するために特徴ベクトルに適用される分類モデルを定義するモデルデータ40を備えるように示されている。実施形態に応じて、データ記憶装置20は、1つ又は両方のタイプのデータ30、40を含むことができる。いくつかの実施形態では、臨床データ30及びモデルデータ40はそれぞれ、例えば、データインターフェース120の異なるサブシステムを介して、異なるデータ記憶装置からアクセスされてもよい。各サブシステムは、データインターフェース120について上述したタイプであってもよい。

システム100はさらに、データ通信124を介してデータインターフェース120と内部的に通信することができるプロセッササブシステム140を備えるように示されている。プロセッササブシステム140はシステム100の動作中に、特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元低減技術を適用して、低次元空間内の複数の臨床データポイントを取得し、臨床データポイントの特徴ベクトルに補間技術を適用することによって、低次元空間内の他のデータポイントの特徴ベクトルを決定し、それによって、それぞれが補間される特徴ベクトルを有する低次元空間内の合成臨床データポイントを取得し、各合成臨床データポイントについて、分類モデルをそれぞれの補間される特徴ベクトルに適用して、合成臨床データポイントの分類を取得し、分類の分類不確実性を決定するように構成され得る。プロセッササブシステム140はユーザに表示するための低次元空間の視覚化を生成するようにさらに構成されてもよく、視覚化は合成臨床データポイントに対する視覚的関係における分類不確定性の視覚化を含む。このような視覚化は、例えば視覚化データ50の形成でデータ記憶装置20に記憶されてもよい。

システム100の動作は、その様々な任意選択の態様を含めて、図2乃至4Cを参照してさらに説明されることに留意される。

オプションの構成要素として、システム100は、ユーザインタフェースサブシステム160を備えるように示されている。プロセッササブシステム140は、内部データ通信142を介してユーザインターフェースサブシステム160と通信することができる。ユーザインタフェースサブシステム160はシステム100の動作中に、例えばグラフィカルユーザインタフェースを使用してユーザがシステム100と対話できるように構成することができる。ユーザインターフェースサブシステム160は、ユーザが操作可能なユーザ入力装置60からユーザ入力データ62を受信するように構成されるユーザ入力インターフェース170を備えるように示されている。ユーザ入力装置60は、コンピュータマウス、タッチスクリーン、キーボード、マイクロフォンなどを含むがこれらに限定されない様々な形態をとることができる。図1は、コンピュータマウス60であるユーザ入力装置を示す。

一般に、ユーザ入力インタフェース170はユーザ入力装置60のタイプに対応するタイプのものであってもよく、すなわち、ユーザ入力装置インタフェース60の対応するタイプのものであってもよい。ユーザインターフェースサブシステム160はさらに、表示データ182をディスプレイ80に提供して、前述の低次元空間の視覚化及び他のタイプの視覚化など、システム100の出力を視覚化するように構成されるディスプレイ出力180を備えるように示されている。図1の例では、ディスプレイは外部ディスプレイ80である。代替的に、ディスプレイは、内部ディスプレイであってもよい。一般に、システム100はワークステーション、例えば、ラップトップ又はデスクトップベース、あるいはサーバのような単一の装置又は装置として、又はその中で具体化することができる。デバイス又は装置は、適切なソフトウェアを実行する1つ又は複数のマイクロプロセッサを備えることができる。例えば、プロセッササブシステムは単一の中央演算処理装置(CPU)によって実施されてもよいが、そのようなCPU及び／又は他のタイプの処理装置の組み合わせ又はシステムによっても実施されてもよい。ソフトウェアは、対応するメモリ、例えばRAMのような揮発性メモリ、又はフラッシュのような不揮発性メモリにダウンロード及び／又は格納されていてもよい。あるいは、システムの機能ユニット、例えば、データインターフェース及びプロセッササブシステムはプログラマブルロジックの形成で、例えば、フィールドプログラマブルゲートアレイ(FPGA)として、デバイス又は装置に実装されてもよい。一般に、システムの各機能ユニットは、回路の形成で実装されてもよい。なお、システム100は例えば、クラウドコンピューティングの形成で、分散サーバのような、例えば、異なるデバイス又は装置を含む分散方式で実装されてもよい。

図2は、臨床データに適用される次元低減の結果を示す。この例では、臨床データが個々のデータインスタンス、例えば、それぞれの患者又は検査のデータを表し、それぞれが33次元特徴空間内の特徴ベクトルとして表現可能である。臨床データを十分に表す多様体が33次元特徴空間に存在すると仮定する。言い換えれば、特徴冗長性が存在し、臨床データの分散が高次元空間に埋め込まれた低次元構造上にあると仮定する。このような低次元構造に関するデータは、例えばいわゆるt－SNEアルゴリズムを用いて、非線形及び多様体保存次元低減技術(単に非線形射影技術とも呼ばれる)を用いて、2D空間のような低次元空間で表現することができる。

このようなt－SNEアルゴリズムを臨床データに適用した結果を図2に示す。ここでは、tSNE－1及びtSNE－2とラベル付けされる2つの次元210、220を有する低次元空間200の可視化が示されている。さらに、低次元空間における臨床データの高次元特徴ベクトルを表す臨床データポイント230が示されている。次元低減は、2D空間200内で互いに近接している臨床データポイント230が同様の特徴ベクトルを有するようなものであってもよい。UMAP、ISOMAP、HSNE及びA―tSNEのようなt―SNEに対する多くの代替物が存在し、これらはすべてそれ自体知られていることが理解されるのであろう。次元数低減アルゴリズムとしてt―SNEが使用される場合、tSNEのいわゆる近似tSNE実施は、デスクトップアプリケーションのために使用されてもよく、ウェブアプリケーションのためにTensorFlow.js tSNEが使用されてもよい。

図2乃至4Cの例では、臨床データが分類モデルを訓練するために使用されるトレーニングデータである。そのようなトレーニングデータは、分類モデルによる分類のためのグランドトゥルースが存在するという点で、ラベル付けされてもよい。図2－4Cに示すように、このラベル付けは、例えば、2つのカテゴリをより暗い正方形又はより明るい円のいずれかとして区別することによって視覚化することができる。

図3Aは、2次元空間における分類の視覚化300及び分類モデルの分類不確実性を示す。そのような視覚化300は図1のシステム100によって、図2の2次元空間内の合成臨床データポイントの密で規則的なグリッドについて、分類モデルを、それぞれの合成臨床データポイントに関連する補間される特徴ベクトルに適用して分類を取得し、分類の不確実性を決定することによって生成されるものであってもよい。補間される特徴ベクトルを決定する際に、いわゆるKDツリーアルゴリズムを使用して、補間に使用される最も近いデータポイントを探索することができる。補間自体はKDツリーアルゴリズム、例えば、KNNデータポイントを使用して見出されるデータポイントのセットに適用される、任意の適切な重み付けされる又は重み付けされていない補間技術であってもよい。

この視覚化300は、「分類ランドスケープ」と呼ばれてもよく、合成臨床データポイントの密で規則的なグリッドが視覚化を含む出力画像のピクセルグリッドに対応してもよいという点で、出力駆動方式で生成されてもよい。あるいは、任意の他の適切な規則的なグリッド、又は不規則なグリッド、又は合成臨床データポイントの任意の他のセットが使用され得る。

また、図3A乃至4Aの例に示されるように、分類はそれぞれのピクセルについての色相を選択することによって可視化されてもよく、一方、分類の不確実性はそれぞれのピクセルについての色彩度を選択することによって可視化されてもよい。例えば、高い信頼度(又は高い確実性又は低い不確実性)の領域は高い彩度で視覚化されてもよく、一方、低い信頼度(又は低い確実性又は高い不確実性)の領域は低い彩度で視覚化されてもよい。代替的に、色相／彩度の代わりにパターンを使用すること、ヒートマップを使用すること、等高線を使用することなどを含むが、これらに限定されない、データ視覚化の分野からそれ自体知られているような、任意の他のタイプの視覚化が使用されてもよいことが理解されるのであろう。

図3Aにおいて、分類において複雑な決定境界310、312が存在することが分かる。すなわち、決定境界は非常に高次元であり、低次元空間においては十分に表現できないという点である。これは、互いに非常に近接した決定境界を有するなど、様々な方法で視覚化において明らかであり得る。このような複雑な決定境界は分類モデルの一般化が不十分であることを示すことがあり、したがって、臨床医による慎重な判断を必要とすることがある。視覚化300から、臨床医はグランドトゥルース分類が分類モデルによる分類と不一致である可能性があるため、可能性のある不分類320を検出することもでき、後者は、図3Aにおいて基礎となる色相によって表される。このような誤分類は例えば、外れ値の形態のグランドトゥルースにおける誤分類であり得るが、分類モデルによる誤分類でもあり得る。

図3Bは図3Aの可視化300を示し、分類モデルが低信頼度を有し、低色彩度で可視化される領域330であり、分類モデルが高い信頼度を有し、高い色彩度で可視化される領域340である領域を示す。一般に、分類不確実性は、分類不確実性の補数、又は分類信頼度などを指す、分類確定性とも呼ばれ得る。このような分類(不確実性)は、様々な方法で決定することができる。例えば、サポートベクトルマシンの場合、分類確度は決定境界からの距離として決定することができ、一方、ランダムフォレスト分類器の場合、分類確度は予測に一致するツリーのパーセンテージに対応することができ、深層学習ベースの方法の場合、分類確度は、確率ベクトルのエントロピーから導出することができる。このような分類(未)の確実性又は信頼性を決定することは、データ分類においてそれ自体知られている。

一般に、図3A及び3Bの分類景観300は、分類モデルの大域的挙動を示すことができる。上述したように、誤分類される点320は景観上に見ることができ、分類境界の形状を明らかにすることができる。同時に、分類ランドスケープ300は分類ランドスケープ300を生成するために分類モデルの内部パラメータが必要とされないように、分類モデルアゴニスト方式で生成されてもよい。いくつかの実施形態では、新しい臨床データはまた、分類ランドスケープにおいて、例えば、前述の次元低減によって得られた新しい臨床データポイントとして示されてもよい。分類ランドスケープ300内の新しい臨床データポイントの位置に応じて、臨床医は、分類モデルの出力が信頼できるかどうかを判定することができる。

一般に、分類ランドスケープはサポートベクトルマシン、決定ツリー、ランダムフォレスト分類器、又は深層学習ベースの分類モデルを含むが、これらに限定されない、任意のタイプの分類モデルについて生成され得る。

図4Aは例えば、図1のシステム100のユーザインターフェースサブシステム及びそれに接続されるマウス、タッチスクリーンなどを使用して、2次元空間の視覚化300における合成臨床データポイントをユーザが選択することを示す。単一の合成臨床データポイント360又はそのようなデータポイント350のうちの2つが選択されるかどうかに応じて、異なる視覚化を生成することができる。

図4Bは、単一の合成臨床データポイント360の選択に応答して提供され得る補間される特徴ベクトルの視覚化400を示す。ここで、縦軸430は例えば、性別、体重、身長、血液型などの様々な特徴ベクトル成分をリストし、横軸420は例えば、「F」、「60kg」、「170cm」、「O―負」などの特徴ベクトル値を示す。この例では、特徴ベクトルが例えば0から32までの33個の特徴を含むように示されている。そのような視覚化400は、ユーザが一方では分類及び／又は分類の確実性と、他方では分類が基づく特徴との間の関係について結論を引き出すことを可能にし得る。

図4Cは2つの合成臨床データポイント350の選択に応答して提供され得る2つの補間される特徴ベクトル間の差の視覚化410を示し、この例では、決定境界の反対側にある。ここで、縦軸430は再び、様々な特徴ベクトル成分をリストし得、水平軸422は、特徴ベクトル値の差を示し得る。そのような視覚化410は、ユーザが分類の変化と特徴ベクトルの差との間の関係について結論を引き出すことを可能にし得る。

図5は、分類モデルを臨床データに適用するためのコンピュータ実施方法500を示す。方法500は、図1のシステム100の動作に対応してもよい。しかし、これは、方法500が別のシステム、装置、又はデバイスを使用して実行されてもよいという点で、限定ではない。

方法500は、「臨床データにアクセスする」と題するステップにおいて、多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを含む臨床データにアクセスするステップ510を含むように示されている。方法500はさらに、「アクセスクラス分類モデル」というタイトルのステップにおいて、特徴ベクトルに適用されるように構成される分類モデルにアクセスして、それぞれのデータインスタンスの分類を提供することを示す(520)。方法500は、「次元低減技術を適用する」と題するステップにおいて、特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元低減技術を適用して(530)、より低次元の空間における複数の臨床データポイントを取得することをさらに含むように示される。方法500は、「他のデータポイントの特徴ベクトルを決定する」と題するステップにおいて、臨床データポイントの特徴ベクトルに補間技術を適用することによって、低次元空間内の他のデータポイントの特徴ベクトルを決定し(540)、それによって、それぞれが補間される特徴ベクトルを有する、低次元空間内の合成臨床データポイントを取得することをさらに含むように示される。方法500はさらに、「分類及び分類不確実性の決定」と題するステップにおいて、各合成臨床データポイントについて、分類モデルをそれぞれの補間される特徴ベクトルに適用して(550)、合成臨床データポイントについての分類を取得し、分類の分類不確実性を決定する(550)ことを含むように示されている。方法500は「分類不確実性視覚化を生成する」という表題のステップにおいて、ユーザに表示するための低次元空間の視覚化を生成するステップ560を含むようにさらに示されており、視覚化は、合成臨床データポイントに対する視覚的関係における分類不確実性視覚化を含む。

一般に、図5のコンピュータ実装方法500の動作は適用可能な場合、例えば入力／出力関係によって必要とされる特定の順序に従って、任意の適切な順序で、例えば連続的に、同時に、又はそれらの組合せで実行され得ることが理解されるのであろう。

本方法は、コンピュータ上で、専用ハードウェアとして、又は両方の組み合わせとして、コンピュータ実施方法として実施することができる。また、図6に示されるように、コンピュータのための命令、例えば、実行可能コードはコンピュータ可読媒体600上に、例えば、一連の機械可読物理マーク610の形成で、及び／又は、異なる電気的、例えば、磁気的、もしくは光学的特性もしくは値を有する一連の要素として、格納されてもよい。実行可能コードは、一時的又は非一時的な方法で格納することができる。コンピュータ可読媒体の例としては、メモリ装置、光記憶装置、集積回路、サーバ、オンラインソフトウェアなどがある。図6は、光ディスク600を示す。

実施例、実施形態、又は任意選択の特徴は、非限定的として示されているか否かにかかわらず、特許請求される本発明を限定するものとして理解されるべきではない。

上述の実施形態は本発明を制限するのではなく例示するものであり、当業者は、添付の特許請求の範囲から逸脱することなく、多くの代替実施形態を設計することができることに留意される。請求項において、()の間に付される参照記号は、請求項を限定するものと解釈してはならない。動詞「有する(comprise)」及びその活用形の使用は、請求項に記載されるもの以外の素子又は段階の存在を排除するものではない。要素に先行する冠詞「a」又は「an」は、複数のそのような要素の存在を除外しない。素子のリスト又はグループに先行する場合の「のうちの少なくとも1つ」などの表現は、リスト又はグループからの素子のすべて又は任意のサブセットの選択を表す。例えば、「A、B、Cのうちの少なくとも1つ」という表現はAのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、又はA、B、Cのすべてを含むものとして理解されるべきであり、本発明は、いくつかの別個の要素を備えるハードウエアの手段によって、及び適切にプログラムされるコンピュータの手段によって実施することができる。幾つかの方法を列挙する装置クレームにおいて、これらの手段の幾つかは、ハードウエアの同一のアイテムによって具現化されてもよい。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。

20 データストレージ
30 臨床データ
40 モデルデータ
50 視覚化データ
60 ユーザー入力デバイス
62 ユーザー入力データ
80 ディスプレイ
100 分類モデルを臨床データに適用するためのシステム
120 データインターフェース
122 外部データ通信
124 内部データ通信
140 プロセッササブシステム
142 内部データ通信
160 ユーザーインターフェイスサブシステム
170 ユーザー入力インターフェース
180 ディスプレイ出力
182 表示データ
200 低次元空間
210 t―SNE―1次元
220 t―SNE―2次元
230 グランドトゥルース分類による臨床データポイント
300 2D画像としての合成臨床データポイントの分類と分類の不確実性の視覚化
310 分類における複雑な決定境界
312 分類における複雑な決定境界
320 グランドトゥルースでの誤分類
330 分類の信頼度が低いの領域
340 分類の信頼性が高いの領域
350 合成臨床データポイントの選択
360 2つの合成臨床データポイントの選択
400 補間された特徴ベクトルの視覚化
410 補間された特徴ベクトルの違いの視覚化
420 特徴値軸
422 特徴値差軸
430 特徴コンポーネント軸
500 分類モデルを臨床データに適用するの方法
510 臨床データへのアクセス
520 分類モデルへのアクセス
530 次元低減手法の適用
540 他のデータポイントの特徴ベクトルを決定する
550 分類と分類の不確実性の決定
560 分類の不確実性の視覚化を生成
600 コンピュータ可読媒体
610 非一時的なデータ

Claims

臨床データに分類モデルを適用するように構成されるシステムであって、前記システムは、
データインターフェースであって、
多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを有する臨床データと、
それぞれの前記データインスタンスの分類を提供するために前記特徴ベクトルに適用されるように構成される分類モデルと
にアクセスするためのデータインターフェースと、
プロセッササブシステムであって、
前記特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元数低減法を適用して、低次元空間における複数の臨床データポイントを取得し、
前記臨床データポイントの前記特徴ベクトルに補間法を適用することによって、前記低次元空間において合成臨床データポイントを作成し、前記合成臨床データポイントの特徴ベクトルを決定し、それによって、前記合成臨床データポイントのそれぞれの補間される特徴ベクトルを取得し、
各合成臨床データポイントに対して、
前記分類モデルを、それぞれの前記補間される特徴ベクトルに適用して、前記合成臨床データポイントに対する分類を取得し、
前記分類の分類不確実性を決定し、
ユーザへの表示のための前記低次元空間の視覚化を生成し、前記視覚化は、前記合成臨床データポイントに対する視覚的関係における前記分類不確実性の視覚化を有する
ように構成される、プロセッササブシステムと
を有する、システム。
前記プロセッササブシステムは、前記低次元空間の視覚化において、前記分類モデルによる前記分類の視覚化を生成するようにさらに構成される、請求項１に記載のシステム。
前記低次元空間は２次元空間であり、前記プロセッササブシステムは、２次元画像として前記視覚化を生成するように構成され、前記分類不確実性は前記２次元画像の各画素の視覚的特性に割り当てられる、請求項１又は２に記載のシステム。
前記視覚的特性は、各画素の飽和又は強度である、請求項３に記載のシステム。
前記視覚化を表示するためのディスプレイ出力と、
ユーザによって操作可能なユーザ入力装置からユーザ入力データを受信するためのユーザ入力インターフェースと
を有するユーザインターフェースサブシステムをさらに有し、
前記プロセッササブシステムは、前記ユーザインターフェースサブシステムを介して、ユーザが合成臨床データポイントを選択することを可能にし、前記選択に応答して、それぞれの前記補間される特徴ベクトルの視覚化を提供するように構成される、請求項４に記載のシステム。
前記プロセッササブシステムは、前記ユーザインターフェースサブシステムを介して、前記ユーザが２つの合成臨床データポイントを選択することを可能にし、前記選択に応答して、それぞれの前記補間される特徴ベクトル間の差の視覚化を提供するように構成される、請求項５に記載のシステム。
前記分類モデルは、トレーニングデータについて訓練され、前記視覚化が提供される前記臨床データは、前記分類モデルの前記トレーニングデータである、請求項１乃至６の何れか一項に記載のシステム。
前記トレーニングデータのデータインスタンスの全て又はサブセットはそれぞれのグランドトゥルース分類を有するか、又はそれに関連付けられ、前記プロセッササブシステムは前記低次元空間の前記視覚化における前記臨床データポイントとの視覚的関係において前記グランドトゥルース分類の視覚化を生成するように構成される、請求項７に記載のシステム。
前記データインターフェースはさらなる臨床データにアクセスするように構成され、前記プロセッササブシステムは、
前記さらなる臨床データを前記低次元空間で表すさらなる臨床データポイントを生成し、
前記低次元空間の前記視覚化において、前記さらなる臨床データポイントを視覚化する
ように構成される、請求項１乃至８の何れか一項に記載のシステム。
前記プロセッササブシステムは前記低次元空間における合成臨床データポイントの規則的なグリッドについて、前記分類及び前記分類の不確実性を決定し、前記分類の不確実性を視覚化するように構成される、請求項１乃至９の何れか一項に記載のシステム。
前記非線形及び多様体保存次元低減法は、ｔ分布確率的近傍埋め込みアルゴリズムである、請求項１乃至１０の何れか一項に記載のシステム。
前記補間法を適用するステップは、ＫＤツリーアルゴリズムを使用して、前記補間で使用される臨床データポイントを探索するステップを有する、請求項１乃至１１の何れか一項に記載のシステム。
請求項１乃至１２の何れか一項に記載のシステムを有する、ワークステーション又は撮像装置。
臨床データに分類モデルを適用するためのコンピュータ実装方法であって、
多次元特徴空間において特徴ベクトルとしてそれぞれ表現可能なデータインスタンスを有する臨床データと、
それぞれの前記データインスタンスの分類を提供するために前記特徴ベクトルに適用されるように構成される分類モデルと
にアクセスするステップと、
前記特徴ベクトルのすべて又はサブセットに非線形及び多様体保存次元数低減法を適用して、低次元空間において複数の臨床データポイントを取得するステップと、
前記臨床データポイントの前記特徴ベクトルに補間法を適用することによって、前記低次元空間において合成臨床データポイントを作成し、前記合成臨床データポイントの特徴ベクトルを決定し、それによって、前記合成臨床データポイントのそれぞれの補間される特徴ベクトルを取得するステップと、
各合成臨床データポイントに対して、
前記分類モデルを、それぞれの前記補間される特徴ベクトルに適用して、前記合成臨床データポイントに対する分類を取得するステップと、
前記分類の分類不確実性を決定するステップと、
ユーザへの表示のための前記低次元空間の視覚化を生成するステップであって、前記視覚化は、前記合成臨床データポイントに対する視覚的関係において前記分類不確実性の視覚化を有する、ステップと
を有する、方法。
コンピュータプログラムを表す一時的又は非一時的データを有するコンピュータ可読媒体であって、前記コンピュータプログラムは、プロセッサシステムに、請求項１４に記載の方法を実行させるための命令を有する、コンピュータ可読媒体。