JP7728313B2

JP7728313B2 - インライヤーとアウトライヤーデータを分類するためのデータ分類方法

Info

Publication number: JP7728313B2
Application number: JP2023190037A
Authority: JP
Inventors: 承翰蔡; 宇劭彭
Original assignee: 宏達國際電子股▲ふん▼有限公司
Priority date: 2022-11-08
Filing date: 2023-11-07
Publication date: 2025-08-22
Anticipated expiration: 2043-11-07
Also published as: JP2024068659A; TW202420235A; US12292919B2; TWI862264B; US20240160660A1

Description

本開示は、分類方法に関し、特に、マークなし画像をインライヤーデータ又はアウトライヤーデータに分類するための分類方法に関する。

機械学習技術におけるアウトライヤー検出は、正規分布から大きく逸脱するデータセット内のデータインスタンスを識別するためのプロセスである。アウトライヤー検出は、医療保健又は産業プロセスにおける医療予測、不正行為検出、ネットワークセキュリティ、品質管理、及び異常検出等の様々な応用において非常に重要である。

本開示の一実施例は、複数のマークなし画像を取得するステップと、前記マークなし画像に対してＱ個の予測ラウンドを実行し、Ｑは正の整数であり、前記Ｑ個の予測ラウンドのそれぞれは、前記マークなし画像の中から複数のデフォルトインライヤー画像をランダムに選択することと、前記マークなし画像の前記デフォルトインライヤー画像に対する複数の第１類似度スコアを含む第１類似度行列を計算することと、前記第１類似度行列に基づいて、そのうちの１つの予測ラウンドにおける前記マークなし画像に関する複数の中間インライヤー－アウトライヤー予測データを生成することと、を含むステップと、前記Ｑ個の予測ラウンドのそれぞれにおいて生成された前記マークなし画像の前記中間インライヤー－アウトライヤー予測データを集合して、前記マークなし画像の中から複数の集合予測インライヤー画像を選択するステップと、前記マークなし画像の前記集合予測インライヤー画像に対する複数の第２類似度スコアを含む第２類似度行列を計算するステップと、第２類似度行列に基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数のインライヤー－アウトライヤー予測データを生成するステップと、を含むデータ分類方法を提供する。

本開示の他の実施例は、複数のマークなし画像を取得するステップと、前記マークなし画像の中から指定インライヤー画像を選択するステップと、前記マークなし画像の前記指定インライヤー画像に対する複数の第１類似度スコアを含む類似度行列を計算するステップと、前記類似度行列に基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数のインライヤー－アウトライヤー予測データを生成するステップと、を含むデータ分類方法を提供する。

本開示の他の実施例は、複数のマークなし画像を取得するステップと、前記マークなし画像に対してＱ個の予測ラウンドを実行し、Ｑは正の整数であり、前記Ｑ個の予測ラウンドのそれぞれは、前記マークなし画像の中から複数のデフォルトインライヤー画像をランダムに選択することと、前記マークなし画像の前記デフォルトインライヤー画像に対する複数の第１類似度スコアを含む第１類似度行列を計算することと、前記第１類似度行列に基づいて、そのうちの１つの予測ラウンドにおける前記マークなし画像に関する複数の中間インライヤー－アウトライヤー予測データを生成することと、を含むステップと、前記Ｑ個の予測ラウンドのそれぞれにおいて生成された前記マークなし画像の前記中間インライヤー－アウトライヤー予測データを集合して、前記マークなし画像の中から複数の集合予測インライヤー画像を選択するステップと、前記マークなし画像の前記集合予測インライヤー画像に対する複数の第２類似度スコアを含む第２類似度行列を計算するステップと、前記第２類似度行列に基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数の第１インライヤー－アウトライヤー予測データを生成するステップと、前記マークなし画像の前記第１インライヤー－アウトライヤー予測データの一部を表示するステップと、前記第１インライヤー－アウトライヤー予測データに基づいて修正された調整入力データを取得するステップと、前記マークなし画像の前記調整入力データに対する複数の第３類似度スコアを含む第３類似度行列を計算するステップと、前記第３類似度行列に基づいて、前記マークなし画像のそれぞれを前記インライヤーデータセット又は前記アウトライヤーデータセットに分類して、前記マークなし画像の複数の第２インライヤー－アウトライヤー予測データを生成するステップと、を含むデータ分類方法を提供する。

前述の一般的な説明及び以下の具体的な説明は例示的なものに過ぎず、本開示を更に解釈するのを目的とするものであることを理解されたい。

以下の実施例の詳細な説明を読んで、図面を参照すれば、本開示をより全面的に理解することができる。
本開示の幾つかの実施例によるデータ分類方法を示すフローチャートである。本開示の幾つかの実施例による図１のデータ分類方法を実現するための電子装置を示す模式図である。マークなし画像の例示的な例を示す模式図である。一部の画像における手動入力マークを示す模式図である。例示的な例における類似度行列を示す模式図である。例示的な例における類似度行列が、インライヤー－アウトライヤー予測データを生成するために、どのように実際に作成されるかを示す模式図である。例示的な例における類似度行列が、インライヤー－アウトライヤー予測データを生成するために、どのように実際に作成されるかを示す模式図である。幾つかの実施例によるインライヤー－アウトライヤー予測データをディスプレイに表示する模式図である。本開示の幾つかの実施例による別のデータ分類方法を示すフローチャートである。本開示の幾つかの実施例による全ての予測ラウンドの集合予測データを示す模式図である。本開示の幾つかの実施例によるデータ分類方法を示すフローチャートである。幾つかの実施例によるディスプレイに表示された第１インライヤー－アウトライヤー予測データの一部の予測データ及び調整入力データを示す模式図である。

以下、本開示の実施例を詳細に説明し、その例は図面に示される。可能な状況において、図面及び説明では、同じ又は類似の構成要素を表すために同じ番号が使用される。

図１を参照されたい。それは本開示の幾つかの実施例によるデータ分類方法１００のフローチャートを示す。データ分類方法１００は、マークなし画像をインライヤーデータセット又はアウトライヤーデータセットに分類して、データセットにおけるマークなし画像のインライヤー－アウトライヤー予測データを生成する。

最も良い場合は、外れていない訓練データセットに基づいて機械学習モデルを訓練することである。訓練データセットがアウトライヤーを含むと、機械学習モデルのパフォーマンス及び行為に様々な影響を与える可能性がある。例えば、訓練データセットにおけるアウトライヤーは、モデル偏差、モデル複雑性の増加、過剰フィッティング、安定性の低下、及び異常検出の困難等の問題を引き起こす可能性がある。

医療保健の応用分野において、マークなし画像は異なるタイプの医用検査画像、例えば胸部Ｘ線画像、脳部ＭＲＩ画像及び腹部超音波画像を含んでよい。異なる医用検査画像は、異なる診断において異なる用途を有する。

例えば、胸部Ｘ線画像は肺炎を検出するための機械学習モデルの訓練に有利であるが、脳部ＭＲＩ画像及び腹部超音波画像は肺炎の検出に適さない。訓練データセットには脳部ＭＲＩ画像と腹部超音波画像が含まれ、肺炎検出モデルの訓練に悪影響を及ぼす可能性がある。この場合、胸部Ｘ線画像はインライヤーと見なすべきであり、脳部ＭＲＩ画像及び腹部超音波画像はアウトライヤーと見なすべきである。

データセットのインライヤーとアウトライヤーを手動でマークすることは、特に大規模なデータセットを処理する場合、時間がかかり、且つコストが高いプロセスとなる可能性がある。当該方法は、人間の専門家が審査し、インライヤーとアウトライヤーを識別する必要があるが、これは大量のデータセットに対しては現実的ではない可能性がある。

幾つかの実施例において、データ分類方法１００は、データセットにおけるマークなし画像のインライヤー－アウトライヤー予測データをより簡単な方式で生成する。更に図２を参照されたい。それは本開示の幾つかの実施例による図１のデータ分類方法１００を実現するための電子装置２００の模式図を示す。図２に示すように、電子装置２００は、入力インターフェース２２０、処理ユニット２４０、記憶ユニット２６０及びディスプレイ２８０を含む。幾つかの実施例において、電子装置２００は、コンピュータ、スマートフォン、タブレットコンピュータ、画像処理サーバ、データサーバ、又は任意の同等の画像処理機器であってよい。

入力インターフェース２２０は、マークなし画像ＵＬＩＭＧ及び他の手動命令を受信するために使用される。幾つかの実施例において、電子装置２００は、マークなし画像ＵＬＩＭＧを分類し、その後にディスプレイ２８０に分類結果（即ち、マークなし画像ＵＬＩＭＧのインライヤー－アウトライヤー予測データＰＲＥＤ）を表示することができる。入力インターフェース２２０は、データ伝送インターフェース、無線通信回路、キーボード、マウス、マイクロフォン、又は任意の同等の入力機器を含んでよい。処理ユニット２４０は、入力インターフェース２２０、記憶ユニット２６０及びディスプレイ２８０に接続される。記憶ユニット２６０は、プログラムコードを記憶するために用いられる。記憶ユニット２６０に記憶されるプログラムコードは、図１に示すデータ分類方法１００の実行を処理部２４０に指示するために用いられる。幾つかの実施例において、処理ユニット２４０は、プロセッサ、グラフィックスプロセッサ、特定用途向け集積回路、又は任意の同等の処理回路であってよい。

更に図３を参照されたい。それはマークなし画像ＵＬＩＭＧの例示的な例の模式図を示す。

幾つかの実施例において、図１及び図２に示すように、処理ユニット２４０は、ステップＳ１１０を実行して、入力インターフェース２２０を介して外部ソース（例えば、病院の医用画像サーバ）からマークなし画像ＵＬＩＭＧを取得する。他の実施例において、マークなし画像ＵＬＩＭＧは記憶ユニット２６０に記憶されてよく、処理ユニット２４０は記憶ユニット２６０からマークなし画像ＵＬＩＭＧを取得することができる。図３に示すように、マークなし画像ＵＬＩＭＧは、６つの画像ＩＭＧ１－ＩＭＧ６を含み、この例示的な例では、それらは４つの胸部Ｘ線画像ＩＭＧ１－ＩＭＧ４と２つの脳部ＭＲＩ画像ＩＭＧ５－ＩＭＧ６との組み合わせである。

なお、図３に示すマークなし画像ＵＬＩＭＧのうちの６つの画像ＩＭＧ１－ＩＭＧ６は、簡単に表示するためのものであるが、本開示はそれに限定されない。実際の応用において、マークなし画像ＵＬＩＭＧは数百、数千、更にはそれ以上の画像を含む可能性がある。

図１、図２及び図３に示すように、処理ユニット２４０は、ステップＳ１１２を実行し、マークなし画像ＵＬＩＭＧを前処理する。マークなし画像ＵＬＩＭＧにおける画像ＩＭＧ１－ＩＭＧ６は、様々な検査機器によって取得され、様々なファイルフォーマットで記憶されてよい。ステップＳ１１２の前処理プロセスにおいて、処理ユニット２４０は、マークなし画像ＵＬＩＭＧに対して画素値ウィンドウ化、強度スケーリング、サイズスケーリング及び／又は正規化を行って、複数のマークなし画像ＵＬＩＭＧを同じフォーマット、同じサイズ比率及び／又は同じ色比率に変換するために用いられる。

図１、図２及び図３に示すように、処理ユニット２４０は、前処理の後にステップＳ１１４を実行して、前処理後のマークなし画像ＵＬＩＭＧの中から対応する特徴ベクトルを抽出する。幾つかの実施例において、処理ユニット２４０は、ニューラルネットワークモデル（例えば、対照的な言語－画像事前訓練ニューラルネットワーク又は残差ネットワーク）を操作して特徴ベクトルを抽出することができる。マークなし画像ＵＬＩＭＧにおけるそれぞれの画像ＩＭＧ１－ＩＭＧ６から１つの特徴ベクトルを抽出する。

一方、ステップＳ１１６は、入力インターフェース２２０を介して幾つかの手動入力マークＭＬＢを収集するために実行される。幾つかの実施例において、ユーザは、マークなし画像ＵＬＩＭＧにおける画像ＩＭＧ１－ＩＭＧ６に対応する手動入力マークＭＬＢを手動で割り当ててよい。更に図４を参照されたい。それは幾つかの実施例において一部の画像ＩＭＧ１－ＩＭＧ６における手動入力マークＭＬＢの模式図を示す。図４に示す例示的な例では、ユーザが手動入力マークＭＬＢを入力して、１つの画像ＩＭＧ１を「インライヤー」に指定し、もう１つの画像ＩＭＧ５を「アウトライヤー」に指定すると仮設する。ユーザが収集した手動入力マークＭＬＢに応答して、処理ユニット２４０は、ステップＳ１２０を実行して、マークなし画像ＵＬＩＭＧにおいて手動入力マークＭＬＢに基づいて画像ＩＭＧ１を指定インライヤー画像ＩＮＬとして選択し、且つマークなし画像ＵＬＩＭＧにおいて手動入力マークＭＬＢに基づいて画像ＩＭＧ５を指定アウトライヤー画像ＯＵＴＬとして選択する。

なお、この場合、ユーザは、マークなし画像ＵＬＩＭＧにおける一部の画像（例えば、２つの画像ＩＭＧ１及びＩＭＧ５）に手動入力マークＭＬＢを提供する。残りの４つの画像ＩＭＧ２、ＩＭＧ３、ＩＭＧ４及びＩＭＧ６は、まだマークされていない。図１に示すデータ分類方法１００は、少量の手動マーク画像（例えば、指定インライヤー画像ＩＮＬ及び指定アウトライヤー画像ＯＵＴＬ）に基づいて、マークなし画像ＩＭＧ２、ＩＭＧ３、ＩＭＧ４及びＩＭＧ６のインライヤー－アウトライヤー予測データを生成するために用いられる。本開示は、ここでのマークなし画像と手動入力マークの数に限定されない。実際の応用において、例えば、マークなし画像ＵＬＩＭＧは５０００枚の画像を含んでよく、ユーザは５枚の画像を手動でマークしてよく、データ分類方法１００は、他の４９９５枚の画像のインライヤー－アウトライヤー予測データＰＲＥＤを生成するために用いられる。

上記実施例において、手動入力マークＭＬＢは、インライヤーマークとアウトライヤーマークを含むことで、指定インライヤー画像ＩＮＬと指定アウトライヤー画像ＯＵＴＬを選択する。しかしながら、本開示はそれに限定されない。

他の実施例において、手動入力マークＭＬＢは、１、２、３又はそれ以上のインライヤーマークを含むことで、少なくとも１つの指定インライヤー画像ＩＮＬを選択する。手動入力マークＭＬＢは、０、１、２、３又はそれ以上のアウトライヤーマークを含む。言い換えれば、指定アウトライヤー画像ＯＵＴＬは、インライヤー－アウトライヤー予測データＰＲＥＤを生成する際に必ずしも必要ではない。

図１、図２及び図４に示すように、処理ユニット２４０は、ステップＳ１３０を実行して、マークなし画像ＵＬＩＭＧと手動マーク画像（例えば、指定インライヤー画像ＩＮＬ及び指定アウトライヤー画像ＯＵＴＬ）との間の類似度行列を計算する。更に図５Ａを参照されたい。それは例示的な例における類似度行列ＳＭＸ１の図５Ａの模式図を示す。

図５Ａに示すように、類似度行列ＳＭＸ１は、類似度行列ＳＭＸ１の第１列に示すように、マークなし画像（例えば、ＩＭＧ１－ＩＭＧ６）の指定インライヤー画像ＩＮＬに対する第１類似度スコアＳＳｃ１を含む。また、図５Ａに示すように、類似度行列ＳＭＸ１は、マークなし画像（例えば、ＩＭＧ１－ＩＭＧ６）の指定アウトライヤー画像ＯＵＴＬに対する第２類似度スコアＳＳｃ２をも含む。

幾つかの実施例において、処理ユニット２４０は、マークなし画像（例えば、ＩＭＧ１－ＩＭＧ６）から抽出された特徴ベクトルと指定インライヤー画像ＩＮＬとの間の類似度アルゴリズムを実行して、第１類似度スコアＳＳｃ１を計算するために用いられる。類似度アルゴリズムは、コサイン類似度アルゴリズム、ユークリッド距離類似度アルゴリズム、マンハッタン距離アルゴリズム、又はハミング距離アルゴリズムから選択されてよい。

処理ユニット２４０は、コサイン類似度アルゴリズムを実行して、コサイン類似度方程式における第１類似度スコアＳＳｃ１を計算することができる。

上記方程式（１）において、ＡとＢは比較対象の２枚の画像の特徴ベクトルである。

例えば、処理ユニット２４０は、コサイン類似度アルゴリズムを実行して、コサイン類似度方程式において画像ＩＭＧ２と指定インライヤー画像ＩＮＬ（即ち、画像ＩＭＧ１）との間の類似度スコアＳＳ２１を計算することができる。

上記方程式（２）において、Ｖ１は画像ＩＭＧ１の特徴ベクトルであり、Ｖ２は画像ＩＭＧ２の特徴ベクトルである。同様に、類似度アルゴリズムに基づいて第１類似度スコアＳＳｃ１における他の類似度スコアを計算することができる。

２つの画像ＩＭＧ２、ＩＭＧ１の特徴ベクトルが互いに類似していれば、類似度スコアＳＳ２１は１に近づく。この場合、画像ＩＭＧ２とＩＭＧ１とは互いに類似しているため、類似度スコアＳＳ２１は１に近い０．９２となる。一方、２枚の画像の特徴ベクトルが互いに類似しなければ、類似度スコアはより０に近づく。

同様に、処理ユニット２４０は、コサイン類似度アルゴリズムを実行して、画像ＩＭＧ１－ＩＭＧ６と指定アウトライヤー画像ＯＵＴＬ（即ち、画像ＩＭＧ５）との間の第２類似度スコアＳＳｃ２を計算することができる。

例えば、処理ユニット２４０は、コサイン類似度アルゴリズムを実行して、コサイン類似度方程式において画像ＩＭＧｌと指定アウトライヤー画像ＯＵＴＬ（即ち、画像ＩＭＧ５）との間の類似度スコアＳＳ１５を計算することができる。

上記方程式（３）において、Ｖ１は画像ＩＭＧ１の特徴ベクトルであり、Ｖ５は画像ＩＭＧ５の特徴ベクトルである。この場合、画像ＩＭＧ１とＩＭＧ５とは互いに類似していないため、類似度スコアＳＳ１５は１に近くない０．５３となる。

図１、図２及び図５Ａに示すように、処理ユニット２４０は、ステップＳ１４０を実行し、類似度行列ＳＭＸ１に基づいて各マークなし画像ＵＬＩＭＧをインライヤーデータセット又はアウトライヤーデータセットに分類して、マークなし画像ＵＬＩＭＧのインライヤー－アウトライヤー予測データＰＲＥＤを生成する。更に図５Ｂ及び図５Ｂを参照されたい。それは、例示的な例における類似度行列ＳＭＸ１が、インライヤー－アウトライヤー予測データを生成するように、どのように実際に作成されるかを示す模式図である。幾つかの実施例において、ステップＳ１４０は、３つの具体的なステップＳ１４１－Ｓ１４３を更に含む。

図５Ｂに示すように、処理ユニット２４０は、ステップＳ１４１を実行し、類似度行列ＳＭＸ１の各行に沿って最大値を選択して、別の行列ＳＭＸ１ａを生成する。次に、処理ユニット２４０は、ステップＳ１４２を実行し、行列ＳＭＸ１ａに重み付け行列ＷＭＸを乗算して、別の行列ＳＭＸ１ｂを生成する。重み付け行列ＷＭＸにおける重み付け値は、ステップＳ１４１で選択された最大値が指定インライヤー画像ＩＮＬ又は指定アウトライヤー画像ＯＵＴＬに対応するか否かを判断することによって決定される。行列ＳＭＸ１ｂに示すように、画像ＩＭＧ５とＩＭＧ６に対応する類似度スコアは、ステップＳ１４２で負の値に変換される。

図１、図２及び図５Ｃに示すように、処理ユニット２４０は、ステップＳ１４３を実行し、行列ＳＭＸ１ｂ（画像ＩＭＧ１－ＩＭＧ６に対応）における類似度スコアを閾値類似度値と比較して、画像ＩＭＧ１－ＩＭＧ６のインライヤー－アウトライヤー予測データを予測する。ここでは閾値類似度値のデフォルト値が０．９３に設定されていると仮設する。

図５Ｃに示すように、画像ＩＭＧ３は、閾値類似度値「０．９３」を超える類似度スコア「０．９４」を有することで、インライヤー－アウトライヤー予測データＰＲＥＤにおいてインライヤーと予測される。

図５Ｃに示すように、画像ＩＭＧ２、ＩＭＧ４、ＩＭＧ５及びＩＭＧ６は、対応する類似度スコア「０．９２」、「０．９１」、「－１．０」及び「－０．８６」を有し、それらはいずれも閾値類似度値「０．９３」より低いため、画像ＩＭＧ２、ＩＭＧ４、ＩＭＧ５及びＩＭＧ６は、インライヤー－アウトライヤー予測データＰＲＥＤにおいてアウトライヤーと予測される。

上記図５Ａ－図５Ｃに示す実施例において、類似度行列ＳＭＸ１における第１類似度スコアＳＳｃ１及び第２類似度スコアＳＳｃ２は、処理されて行列ＳＭＸ１ｂとなり、それはインライヤー－アウトライヤー予測データＰＲＥＤを生成するために用いられる。

幾つかの他の実施例において、指定アウトライヤー画像ＯＵＴＬは、インライヤー－アウトライヤー予測データＰＲＥＤを生成する際に必ずしも必要ではない。手動入力マークに指定インライヤー画像ＩＮＬのみを選択し、指定アウトライヤー画像ＯＵＴＬを選択しない場合、処理ユニット２４０は、ステップＳ１４０を実行してよく、図５Ａにおけるマークなし画像（例えば、ＩＭＧ１－ＩＭＧ６）の第１類似度ＳＳｃ１と閾値類似度値「０．９３」を比較することにより、それぞれのマークなし画像ＵＬＩＭＧを分類し、且つ第２類似度スコアＳＳｃ２を考慮せずに、第１類似度スコアＳＳｃ１に基づいてインライヤー－アウトライヤー予測データＰＲＥＤを生成する。

上記実施例に基づいて、図１に示すデータ分類方法１００は、少量の手動マーク画像（即ち、指定インライヤー画像ＩＮＬ及び指定アウトライヤー画像ＯＵＴＬ）に基づいて生成された全てのマークなし画像のインライヤー－アウトライヤー予測データＰＲＥＤを含む。言い換えれば、データ分類方法１００は、大量のデータセットにおけるインライヤー及びアウトライヤーをマークする際に、大量の時間及び人件費を節約することができる。

図１及び図２に示すように、ステップＳ１６０は、ディスプレイ２８０にインライヤー－アウトライヤー予測データＰＲＥＤを表示するために用いられる。更に図６を参照されたい。それは、幾つかの実施例によるインライヤー－アウトライヤー予測データＰＲＥＤがディスプレイ２８０に表示される模式図を示す。この場合、ユーザは、画像ＩＭＧ１－ＩＭＧ６のインライヤー－アウトライヤー予測データＰＲＥＤをチェックすることができる。ユーザにとって、インライヤー－アウトライヤー予測データＰＲＥＤが理想的でない場合、ユーザはフィードバックすることで分類のパラメータを調整することができる。

幾つかの実施例において、ユーザがインライヤー－アウトライヤー予測データＰＲＥＤをチェックし、現在の閾値類似度値が理想的でないのを知った場合、データ分類方法１００は、ステップＳ１５４を実行して、入力インターフェース２２０を介して入力されたフィードバック命令に基づいて閾値類似度値を調整することができる。例えば、閾値類似度値を閾値類似度値「０．９０」まで低く調整してよい。図１、図２及び図５Ａに示すように、処理ユニット２４０は、ステップＳ１４０を再び実行して、調整後の類似度閾値「０．９０」を参照してマークなし画像ＵＬＩＭＧのそれぞれを再分類する。この場合、画像ＩＭＧ１－ＩＭＧ４は、調整後の閾値類似度値「０．９０」によって「インライヤー」に分類される。換言すれば、類似度閾値は、フィードバック命令に従って高く／低く調整することができる。

幾つかの他の実施例において、ユーザがインライヤー－アウトライヤー予測データＰＲＥＤをチェックし、手動入力マークが理想的でないのを知った場合、データ分類方法１００は、ステップＳ１５６を実行して、入力インターフェース２２０を介して入力されたフィードバック命令に基づいて調整後の手動入力マークを収集することができる。例えば、ユーザが画像ＩＭＧ１及びＩＭＧ４を手動で「インライヤー」と指定し、且つ画像ＩＭＧ５から「アウトライヤー」マークを削除してよい。図１、図２及び図５Ａに示すように、処理ユニット２４０は、ステップＳ１２０を再び実行して、指定インライヤー画像ＩＮＬとして画像ＩＭＧ１及びＩＭＧ４を改めて選択する。ステップＳ１３０は再び実行され、指定インライヤー画像ＩＮＬに基づいて類似度行列（図示せず）を改めて計算し、この場合は画像ＩＭＧ１及びＩＭＧ４を含む。類似度行列は、マークなし画像ＩＭＧ１－ＩＭＧ６の指定インライヤー画像ＩＭＧ１及びＩＭＧ４に対する２列の類似度スコアを含む。１列の類似度スコアは、指定インライヤー画像ＩＭＧ１に対するマークなし画像ＩＭＧ１－ＩＭＧ６に関し、もう１列の類似度スコアは、指定インライヤー画像ＩＭＧ４に対するマークなし画像ＩＭＧ１－ＩＭＧ６に関する。ステップＳ１４０は再び実行され、改めて計算された類似度行列に基づいてマークなし画像ＩＭＧ１－ＩＭＧ６を改めて分類する。この場合、初期の手動入力マークセットが理想的でなければ、ユーザは、ステップＳ１５６において手動入力マークを修正してよく、それに応じてインライヤー－アウトライヤー予測データＰＲＥＤを改めて生成する。

上記実施例における図１に示すデータ分類方法１００では、少量の手動マーク画像によって分類する。しかしながら、本開示はそれに限定されない。更に図７を参照されたい。それは本開示の幾つかの実施例による他のデータ分類方法３００のフローチャートを示す。図７におけるデータ分類方法３００は、図２に示す電子装置２００によって実行されてよい。図７に示すデータ分類方法３００は、図１におけるデータ分類方法１００と比較して、ユーザ側から任意の手動入力マークを収集する必要がない。

図２及び図７に示す幾つかの実施例のように、処理ユニット２４０はステップＳ３１０を実行して、マークなし画像ＵＬＩＭＧを取得する（図３の実施例を参照してよい）。ステップＳ３１０の具体的な内容は、前述の実施例におけるステップＳ１１０と同様であるため、ここでは説明を省略する。処理ユニット２４０は、ステップＳ３１２を実行して、マークなし画像を前処理する。ステップＳ３１２の前処理プロセスにおいて、処理ユニット２４０は、マークなし画像ＵＬＩＭＧに対して画素値ウィンドウ化、強度スケーリング、サイズスケーリング及び／又は正規化を行って、複数のマークなし画像ＵＬＩＭＧを同じフォーマット、同じサイズ比率及び／又は同じ色比率に変換するために用いられる。ステップＳ３１２の具体的な内容は、前述の実施例におけるステップＳ１１２と同様であるため、ここでは説明を省略する。処理ユニット２４０はステップＳ３１４を実行して、マークなし画像ＵＬＩＭＧから特徴ベクトルを抽出する。幾つかの実施例において、処理ユニット２４０は、ニューラルネットワークモデル（例えば、対照的な言語－画像事前訓練（ＣＬＩＰ）ニューラルネットワーク又は残差ネットワーク（ＲｅｓＮｅｔ））を操作して特徴ベクトルを抽出することができる。ステップＳ３１４の具体的な内容は、前述の実施例におけるステップＳ１１４と同様であるため、ここでは説明を省略する。

ステップＳ３１４の後、データ分類方法３００は、マークなし画像ＵＬＩＭＧに関するＱ個の予測ラウンドＲ１、Ｒ２…ＲＱを実行して、Ｑ個の予測ラウンドＲ１、Ｒ２…ＲＱのそれぞれにおいて中間インライヤー－アウトライヤー予測データを生成するために用いられる。Ｑは正の整数である。

予測ラウンドＲ１の間に、処理ユニット２４０は、ステップＳ３２０を実行して、マークなし画像ＵＬＩＭＧの中から複数のデフォルトインライヤー画像をランダムに選択する。これらのデフォルトインライヤー画像は、マークなし画像ＵＬＩＭＧの中からランダムにサンプリングされた画像であり、今回の予測Ｒ１ラウンドで「インライヤー」（ｉｎｌｉｅｒ）と見なされる。実際の応用において、データセットにおけるマークなし画像ＵＬＩＭＧは通常、比較的多いインライヤーデータと比較的少ないアウトライヤーデータと、を含む（例えば、インライヤーとアウトライヤーとの比は、５：１又は１０：１であってよい）。したがって、マークなし画像ＵＬＩＭＧの中からランダムにサンプリングされたこれらのデフォルトインライヤー画像は、実際のインライヤーデータが選択される可能性が高く、実際のアウトライヤーデータが選択される可能性が低い。

その後、予測ラウンドＲ１において、処理ユニット２４０は、ステップＳ３３０を実行して、マークなし画像ＵＬＩＭＧのこれらのデフォルトインライヤー画像に対する複数の第１類似度スコアを含む第１類似度行列を計算する。ステップＳ３３０の詳細は、前述の実施例におけるステップＳ１３０と同様であるため、ここでは説明を省略する。図７のステップＳ３３０と図１のステップＳ１３０との違いは、第１類似度行列を計算する際に用いられるこれらのデフォルトインライヤー画像が、手動入力マークに基づくものではなく、ステップＳ３２０においてランダムに選択されたものに基づくものであることである。

その後、予測ラウンドＲ１において、処理ユニット２４０は、ステップＳ３４０を実行して、第１類似度行列に基づいてマークなし画像ＵＬＩＭＧのそれぞれを分類し、予測ラウンドＲ１におけるマークなし画像に関する中間インライヤー－アウトライヤー予測データを生成する。ステップＳ３４０の詳細は、前述の実施例におけるステップＳ１４０と同様であるため、ここでは説明を省略する。

図７に示すように、ステップＳ３４２は、Ｑ個の予測ラウンドＲ１－ＲＱが完了したか否かを検査するために用いられる。この場合、完了していないため、データ分類方法３００は、ステップＳ３２０に戻り、別のラウンドの予測Ｒ２に進む。予測ラウンドＲ２の間に、処理ユニット２４０は、ステップＳ３２０－Ｓ３４０を実行して、もう一組のデフォルトインライヤー画像を選択し、それに応じて中間インライヤー－アウトライヤー予測データを生成する。同様に、ステップＳ３２０－Ｓ３４０は、後続の予測ラウンドにおいて、予測ラウンドＲＱの実行が完了するまで繰り返し実行される。

Ｑ個の予測ラウンドＲ１－ＲＱが完了したら、データ分類方法３００は、ステップＳ３５０に進み、処理ユニット２４０は、ステップＳ３５０を実行して、集合予測のインライヤー画像を選択するために、Ｑ個の予測ラウンドＲ１－ＲＱの中間アウトライヤー予測データを集合する。更に図８を参照されたい。それは本開示の幾つかの実施例による全ての予測ラウンドの集合予測データＰＲＥＤ_ＡＬＬの模式図を示す。図８に示すように、集合予測データＰＲＥＤ_ＡＬＬは、予測ラウンドＲ１からの中間インライヤー－アウトライヤー予測データＰＲＥＤ_Ｒ１、予測ラウンドＲ２からの中間インライヤー－アウトライヤー予測データＰＲＥＤ_Ｒ２、…、及び予測ラウンドＲＱからの中間インライヤー－アウトライヤー予測データＰＲＥＤ_ＲＱを含む。

図８に示すように、画像ＩＭＧ１－ＩＭＧ６のそれぞれは、予測ラウンドＲ１－ＲＱのそれぞれにおいて「インライヤー」又は「アウトライヤー」に分類される。幾つかの実施例において、ステップＳ３５０では、全てのＱ個の予測ラウンドにおいてインライヤーに分類されたマークなし画像のみが集合予測インライヤー画像として選択される。

図８に示すように、画像ＩＭＧ１及びＩＭＧ３が全ての中間インライヤー－アウトライヤー予測データＰＲＥＤ_Ｒ１－ＰＲＥＤ_ＲＱにおいて「インライヤー」に分類されるため、画像ＩＭＧ１及びＩＭＧ３は集合予測インライヤー画像ＩＮＬａとして選択される。

一方、画像ＩＭＧ２が中間インライヤー－アウトライヤー予測データＰＲＥＤ_Ｒ１において「アウトライヤー」に分類されることで、画像ＩＭＧ２は不適格となる。同様に、画像ＩＭＧ４が中間インライヤー－アウトライヤー予測データＰＲＥＤ_Ｒ２において「アウトライヤー」に分類されることで、画像ＩＭＧ２は不適格となる。

幾つかの実施例において、Ｑは、約１０～２０の正の整数である。Ｑが１０未満であると、集合予測インライヤー画像は十分に正確でない可能性がある（例えば、実際のアウトライヤー画像が偶然に集合予測インライヤー画像に組み合わせられる可能性がある）。Ｑが２０より大きいと、集合予測インライヤー画像を選択する際に厳しすぎて困難である可能性がある。

図２、図７及び図８に示すように、処理ユニット２４０は、ステップＳ３６０を実行して、マークなし画像ＵＬＩＭＧの集合予測インライヤー画像ＩＮＬａに対する第１類似度スコアを含む第２類似度行列を計算する。ステップＳ３６０の詳細は、前述の実施例におけるステップＳ１３０と同様であるため、ここでは説明を省略する。図７のステップＳ３６０と図１のステップＳ１３０との違いは、第２類似度行列を計算する際に用いられる集合予測インライヤー画像ＩＮＬａが、手動入力マークではなく、ステップＳ３５０の内容に基づくものであることである。

図２及び図７に示すように、処理ユニット２４０は、ステップＳ３７０を実行して、第２類似度行列に基づいてマークなし画像ＵＬＩＭＧのそれぞれを分類し、且つマークなし画像ＵＬＩＭＧに関するインライヤー－アウトライヤー予測データを生成する。ステップＳ３７０の詳細は、前述の実施例におけるステップＳ１４０と同様であるため、ここでは説明を省略する。

幾つかの実施例において、ステップＳ３８０を実行して、ステップＳ３７０で生成されたインライヤー－アウトライヤー予測データ（図６を参照）をユーザに表示する。

図７に示す実施例において、データ分類方法３００は、ユーザから任意の手動入力マークを収集する必要がない。データ分類方法３００は別の方法を提供し、予測ラウンドＲ１－ＲＱにおいてランダムにサンプリングされたものに基づいてマークなし画像ＵＬＩＭＧのインライヤー－アウトライヤー予測データを生成し、任意の手動入力マークを必要としない。データ分類方法３００は、手動入力マークを待つ必要がなく、自動的に実行することができる。幾つかの場合、データ分類方法３００は、ランダムにサンプリングしたら実際のアウトライヤーデータをデフォルトインライヤーとして選択する可能性があるため、正確でない可能性がある。

幾つかの他の実施例において、本開示は、図１に示すデータ分類方法１００と図７に示すデータ分類方法３００を組み合わせた方法を提供する。更に図９を参照されたい。それは本開示の幾つかの実施例によるデータ分類方法５００のフローチャートを示す。図９におけるデータ分類方法５００のステップＳ５１０、Ｓ５１２、Ｓ５１４、Ｓ５２０、Ｓ５３０、Ｓ５４０、Ｓ５４２、Ｓ５５０、Ｓ５６０及びＳ５７０は、図７のデータ分類方法３００のステップＳ３１０、Ｓ３１２、Ｓ３１４、Ｓ３２０、Ｓ３３０、Ｓ３４０、Ｓ３４２、Ｓ３５０、Ｓ３６０及びＳ３７０と同様であるため、ここでは説明を省略する。

前述の実施例で説明したように、ステップＳ５７０は、マークなし画像ＵＬＩＭＧの第１インライヤー－アウトライヤー予測データを生成するために用いられる。ステップＳ５８０は、マークなし画像ＵＬＩＭＧの第１インライヤー－アウトライヤー予測データの一部を表示するために用いられる。実際の応用において、数千枚のマークなし画像ＵＬＩＭＧから第１アウトライヤー予測データを生成してよい。ステップＳ５８０は、比較的少量の第１インライヤー－アウトライヤー予測データをディスプレイ２８０に表示するために用いられる。更に図１０を参照されたい。それは幾つかの実施例によるディスプレイ２８０に表示された第１インライヤー－アウトライヤー予測データの一部の予測データＰＲＥＤｐ１及び調整入力データＡＤＪの模式図を示す。

幾つかの実施例において、第１アウトライヤー予測データは、手動入力マークを待つ必要がなく、自動的に生成される。第１アウトライヤー予測データの一部の予測データＰＲＥＤｐ１は、幾つかの誤り予測データを含む可能性がある。ユーザは、第１アウトライヤー予測データの一部の予測データＰＲＥＤｐ１をチェックし、一部の予測データＰＲＥＤｐ１に対応する調整入力データＡＤＪを提供することができる。図１０の実施例に示すように、調整入力データＡＤＪは、画像ＩＭＧ４、ＩＭＧ６に関する一部の予測データＰＲＥＤｐ１が正しくなく、且つ画像ＩＭＧ３、ＩＭＧ５に関する一部の予測データＰＲＥＤｐ１が正しいことを示す。

図２及び図１０に示すように、ステップＳ５９０は、入力インターフェース２２０を介して調整入力データＡＤＪを収集するために用いられる。画像ＩＭＧ３－ＩＭＧ６に対応する調整後の手動入力マークＬＢａｄｊは、図１０に示すように、調整入力データＡＤＪに基づいて形成される。

調整入力データＡＤＪ（及び調整後の手動入力マークＬＢａｄｊ）に応答して、処理ユニット２４０は、ステップＳ５９１を実行して、調整入力データＡＤＪに基づいてマークなし画像ＵＬＩＭＧの中から画像ＩＭＧ３及びＩＭＧ４を指定インライヤー画像ＩＮＬとして選択し、且つ調整入力データＡＤＪに基づいてマークなし画像ＵＬＩＭＧの中から画像ＩＭＧ５及びＩＭＧ６を指定アウトライヤー画像ＯＵＴＬとして選択する。

図２及び図９に示すように、処理ユニット２４０は、ステップＳ５９２を実行して、調整入力データＡＤＪに基づくマークなし画像ＵＬＩＭＧの指定インライヤー画像ＩＮＬ及び指定アウトライヤー画像ＯＵＴＬに対する第３類似度スコアを含む第３類似度行列を計算する。図９におけるステップＳ５９２の詳細は、上記実施例で説明した図１のステップＳ１３０と同様であるため、ここでは説明を省略する。

図２及び図９に示すように、処理ユニット２４０はステップＳ５９３を実行し、第３類似度行列に基づいてマークなし画像ＵＬＩＭＧのそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、マークなし画像ＵＬＩＭＧの第２インライヤー－アウトライヤー予測データを生成する。図６におけるステップＳ５９３の詳細は、図３のステップＳ５９３を参照されたい。図９におけるステップＳ５９３の詳細は、上記実施例で説明した図１のステップＳ１４０と同様であるため、ここでは説明を省略する。

図２及び図９に示すように、ステップＳ５９４は、第２インライヤー－アウトライヤー予測データをディスプレイ２８０に表示するために用いられる。

幾つかの実施例において、ユーザは、第２インライヤー－アウトライヤー予測データをディスプレイ２８０でチェックすることができる。第２インライヤー－アウトライヤー予測データが正しくない場合、ユーザは、別の調整入力データを再び提供してよく、且つデータ分類方法５００は、ステップＳ５９０－Ｓ５９４を再び繰り返すことができる。

図９におけるデータ分類方法５００は、図１に示すデータ分類方法１００と図７に示すデータ分類方法３００との組み合わせ方法に基づくものである。データ分類方法５００は、マークなし画像ＵＬＩＭＧをインライヤーデータセット又はアウトライヤーデータセットに分類する場合、その時間効率及び正確性の利点を実現することができる。

幾つかの実施例において、インライヤーデータセットは、機械学習モデルを訓練する訓練データとして用いられる。アウトライヤーデータセットはフィルタリングされ、訓練データとして用いられない。この場合、アウトライヤーデータセットは、機械学習モデルの訓練プロセスに影響を与えない。このように、機械学習モデルの訓練プロセスに発生するモデル偏差、モデル複雑性の増加、過剰フィッティング、安定性の低下、及び異常検出の困難等の問題を回避することができる。

本開示は、参照実施例でかなり詳細に説明されたが、他の実施例も実施できる。したがって、本開示の特許請求の範囲の精神及び範囲は、本明細書に含まれる実施例の説明に限定されるべきではない。

当業者は、本開示の範囲又は精神から逸脱することなく、本開示の構造に対して様々な修飾や同等の変更を行うことができることを理解されたい。以上より、以下の特許請求の範囲内で本開示に対して行った修飾や同等の変更はいずれも本開示の範囲内に含まれる。

１００、３００、５００データ分類方法
Ｓ１１０、Ｓ１１２、Ｓ１１４、Ｓ１１６、Ｓ１２０、Ｓ１３０、Ｓ１４０、Ｓ１４１、Ｓ１４２、Ｓ１５０、Ｓ１５２、Ｓ１５４、Ｓ３１０、Ｓ３１２、Ｓ３１４、Ｓ３２０、Ｓ３３０、Ｓ３４０、Ｓ３４２、Ｓ３５０、Ｓ３６０、Ｓ３７０、Ｓ３８０、Ｓ５１０、Ｓ５１２、Ｓ５１４、Ｓ５２０、Ｓ５３０、Ｓ５４０、Ｓ５４２、Ｓ５５０、Ｓ５６０、Ｓ５７０、Ｓ５８０、Ｓ５９０、Ｓ５９１、Ｓ５９２、Ｓ５９３、Ｓ５９４ステップ
２００電子装置
２２０入力インターフェース
２４０処理ユニット
２６０記憶ユニット
２８０ディスプレイ
ＵＬＩＭＧマークなし画像
ＩＭＧ１、ＩＭＧ２、ＩＭＧ３、ＩＭＧ４、ＩＭＧ５、ＩＭＧ６画像
ＭＬＢ手動入力マーク
ＩＮＬ指定インライヤー画像
ＯＵＴＬ指定アウトライヤー画像
ＰＲＥＤ予測データ
ＳＭＸ１、ＳＭＸ１ａ、ＳＭＸ１ｂ類似度行列
ＳＳ１５、ＳＳ２１類似度スコア
ＳＳｃ１第１類似度スコア
ＳＳｃ２第２類似度スコア
ＷＭＸ重み付け行列
Ｒ１、Ｒ２…ＲＱ予測ラウンド
ＩＮＬａ集合予測インライヤー画像
ＰＲＥＤ_Ｒ１、ＰＲＥＤ_Ｒ２、ＰＲＥＤ_ＲＱ中間インライヤー－アウトライヤー予測データ
ＰＲＥＤ_ＡＬＬ集合予測データ
ＰＲＥＤｐ１一部の予測データ
ＡＤＪ調整入力データ
ＬＢａｄｊ調整後の手動入力マーク

Claims

複数のマークなし画像を取得するステップと、
前記マークなし画像に対してＱ個の予測ラウンドを実行し、Ｑは正の整数であり、前記Ｑ個の予測ラウンドのそれぞれは、前記マークなし画像の中から複数のデフォルトインライヤー画像をランダムに選択することと、前記マークなし画像の前記デフォルトインライヤー画像に対する複数の第１類似度スコアを含む第１類似度行列を計算することと、前記第１類似度行列に基づいて、そのうちの１つの予測ラウンドにおける前記マークなし画像に関する複数の中間インライヤー－アウトライヤー予測データを生成することと、を含むステップと、
前記Ｑ個の予測ラウンドのそれぞれにおいて生成された前記マークなし画像の前記中間インライヤー－アウトライヤー予測データを集合して、前記マークなし画像の中から複数の集合予測インライヤー画像を選択するステップと、
前記マークなし画像の前記集合予測インライヤー画像に対する複数の第２類似度スコアを含む第２類似度行列を計算するステップと、
前記第２類似度行列に基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数のインライヤー－アウトライヤー予測データを生成するステップと、
を含むデータ分類方法。
前記マークなし画像に関する前記中間インライヤー－アウトライヤー予測データは、
全ての前記Ｑ個の予測ラウンドにおいて、インライヤーに分類された前記マークなし画像の一部を前記集合予測インライヤー画像として選択することによって集合される請求項１に記載のデータ分類方法。
前記第１類似度スコアは、前記マークなし画像から取得された複数の特徴ベクトルと前記デフォルトインライヤー画像との間で類似度アルゴリズムを実行する方法によって計算される請求項１に記載のデータ分類方法。
前記類似度アルゴリズムは、コサイン類似度アルゴリズム、ユークリッド距離類似度アルゴリズム、マンハッタン距離アルゴリズム、又はハミング距離アルゴリズムである請求項３に記載のデータ分類方法。
前記中間インライヤー－アウトライヤー予測データは、
前記マークなし画像の前記第１類似度スコアと閾値類似度値とを比較するステップと、
前記マークなし画像のうちの１つに含まれる前記第１類似度スコアが前記閾値類似度値より高いことに応答して、前記マークなし画像のうちの１つを前記中間インライヤー－アウトライヤー予測データにおけるインライヤーとして予測するステップと、
前記マークなし画像のうちのもう１つに含まれる前記第１類似度スコアが前記閾値類似度値より低いことに応答して、前記マークなし画像のうちのもう１つを前記中間インライヤー－アウトライヤー予測データにおけるアウトライヤーとして予測するステップと、
によって生成される請求項１に記載のデータ分類方法。
前記インライヤーデータセットは、機械学習モデルを訓練する訓練データとして用いられ、前記アウトライヤーデータセットは、前記訓練データとして用いられない請求項１に記載のデータ分類方法。
Ｑは、１０～２０の範囲にある請求項１に記載のデータ分類方法。
複数のマークなし画像を取得するステップと、
前記マークなし画像の中から指定インライヤー画像を選択するステップと、
前記マークなし画像の中から指定アウトライヤー画像を選択するステップと、
前記マークなし画像の前記指定インライヤー画像に対する複数の第１類似度スコアを含む第１類似度行列及び前記マークなし画像の前記指定アウトライヤー画像に対する複数の第２類似度スコアを計算するステップと、
前記第１類似度行列の各行に沿って最大値を選択して第２類似度行列を生成するステップであって、前記第２類似度行列は、前記第１類似度スコアおよび前記第２類似度スコアに基づいて第３類似度スコアを有するステップと、
前記第２類似度行列に重み付け行列を乗算して、第４類似度スコアを有する第３類似度行列を生成するステップであって、前記重み付け行列における重み付け値は、最大値が前記指定インライヤー画像に対応するか前記指定アウトライヤー画像に対応するかによって決定される、ステップと、
前記第３類似度行列の前記第４類似度スコアに基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数のインライヤー－アウトライヤー予測データを生成するステップと、
を含むデータ分類方法。
複数のマークなし画像を取得するステップと、
前記マークなし画像に対してＱ個の予測ラウンドを実行し、Ｑは正の整数であり、前記Ｑ個の予測ラウンドのそれぞれは、前記マークなし画像の中から複数のデフォルトインライヤー画像をランダムに選択することと、前記マークなし画像の前記デフォルトインライヤー画像に対する第１類似度スコアを含む第１類似度行列を計算することと、前記第１類似度行列に基づいて、そのうちの１つの予測ラウンドにおける前記マークなし画像に関する複数の中間インライヤー－アウトライヤー予測データを生成することと、を含むステップと、
前記Ｑ個の予測ラウンドのそれぞれにおいて生成された前記マークなし画像の前記中間インライヤー－アウトライヤー予測データを集合して、前記マークなし画像の中から複数の集合予測インライヤー画像を選択するステップと、
前記マークなし画像の前記集合予測インライヤー画像に対する複数の第２類似度スコアを含む第２類似度行列を計算するステップと、
前記第２類似度行列に基づいて、前記マークなし画像のそれぞれをインライヤーデータセット又はアウトライヤーデータセットに分類して、前記マークなし画像の複数の第１インライヤー－アウトライヤー予測データを生成するステップと、
前記マークなし画像の前記第１インライヤー－アウトライヤー予測データの一部を表示するステップと、
前記第１インライヤー－アウトライヤー予測データに基づいて修正された調整入力データを取得するステップと、
前記マークなし画像の前記調整入力データに対する複数の第３類似度スコアを含む第３類似度行列を計算するステップと、
前記第３類似度行列に基づいて、前記マークなし画像のそれぞれを前記インライヤーデータセット又は前記アウトライヤーデータセットに分類して、前記マークなし画像の複数の第２インライヤー－アウトライヤー予測データを生成するステップと、
を含むデータ分類方法。