WO2023219037A1

WO2023219037A1 - 予測装置、材料設計システム、予測方法及び予測プログラム

Info

Publication number: WO2023219037A1
Application number: PCT/JP2023/017086
Authority: WO
Inventors: 拓也南; 貴大藤森; 海仁李; 好成奥野
Original assignee: Resonac Corp
Current assignee: Resonac Corp
Priority date: 2022-05-13
Filing date: 2023-05-01
Publication date: 2023-11-16
Anticipated expiration: 2024-11-13
Also published as: JP2024086784A; CN119173889A; EP4524840A1; US20250217552A1; JP7480919B2; JPWO2023219037A1; EP4524840A4

Abstract

新規材料の開発効率を向上させる。予測装置は、学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部とを有する。

Description

予測装置、材料設計システム、予測方法及び予測プログラム

　本開示は、予測装置、材料設計システム、予測方法及び予測プログラムに関する。

　近年、新規材料の開発においては、例えば、機械学習により生成された学習済みの予測モデルを用いて、材料特性の予測を行う試み等がなされている。当該学習済みの予測モデルを用いることで、材料の生成、材料特性の検証実験等の工程を縮小することができ、新規材料の開発効率を向上させることが期待できるからである。

　一方で、機械学習により生成された学習済みの予測モデルの場合、予測対象データ（入力データ）が、当該機械学習の際に用いられた学習用データと著しく乖離していた場合、予測精度が低下することが知られている。

　これに対して、例えば、下記非特許文献１等では、予測モデルの適用範囲（所望する予測精度が実現可能な予測対象データの範囲）を定義することが提案されている。

Igor I. Baskin, Natalia Kireeva, and Alexandre Varnek,"The One-Class Classification Approach to Data Description and to Models Applicability Domain", Nol.Inf.2010,29,581p-587p

　しかしながら、新規材料の開発において、学習用データに近い予測対象データについて材料特性の予測を行ったとしても、当該予測対象データは意外性に乏しく、有益な新規材料となる可能性も低い。

　一方で、学習用データから著しく乖離した予測対象データの場合、そもそも予測精度が低いため、仮に所定の条件を満たす材料特性が予測されたとしても、実際に生成した際に予測したとおりの材料特性が得られることは少なく、有益な新規材料となる可能性も低い。

　このようなことから、新規材料の開発においては、意外性と予測精度という相反する２つの指標のもとで予測モデルの適用範囲を定義することが、開発効率を向上させるうえで重要と考えられる。

　本開示は、新規材料の開発効率を向上させることを目的としている。

　本開示の第１の態様に係る予測装置は、
　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部とを有する。

　本開示の第２の態様は、第１の態様に記載の予測装置であって、
　前記区間決定部は、前記複数のデータ間で算出される属性値について要約統計量を算出し、前記複数の区間を規定する、属性値の下限値または上限値を決定する。

　本開示の第３の態様は、第２の態様に記載の予測装置であって、
　前記区間決定部は、互いに重複しない３つ以上の区間を決定する。

　本開示の第４の態様は、第３の態様に記載の予測装置であって、
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間に近い何番目の区間に区分けされるかにより、前記予測対象のデータの適正を評価する。

　本開示の第５の態様は、第３の態様に記載の予測装置であって、
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間から最も離れた区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータから除外する。

　本開示の第６の態様は、第３の態様に記載の予測装置であって、
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間に近いＲ番目の区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータとして選択する。

　本開示の第７の態様は、第１の態様に記載の予測装置であって、
　前記学習用データセットに含まれる複数のデータ間の距離を算出する学習用データ属性値算出部と、
　前記複数のデータそれぞれについて算出された他のデータとの間の距離のうち、最小距離を抽出する学習用データ最小属性値抽出部と、を更に有し、
　前記区間決定部は、抽出された前記最小距離の度数分布から、該最小距離を区分けするための前記複数の区間を決定する。

　本開示の第８の態様は、第７の態様に記載の予測装置であって、
　前記学習用データ属性値算出部は、前記学習用データセットに含まれるＮ個のデータ（Ｎは任意の整数）のうち、ｉ番目（１≦ｉ≦Ｎ）のデータと、ｉ番目のデータを除く（Ｎ－１）個のデータとの間の距離をそれぞれ算出し、
　前記学習用データ最小属性値抽出部は、前記ｉ番目のデータについて算出された（Ｎ－１）個の距離の中から、最小距離を抽出する。

　本開示の第９の態様は、第７の態様に記載の予測装置であって、
　前記予測対象のデータと、前記複数のデータとの間の距離を算出する予測対象データ属性値算出部と、
　前記予測対象のデータと、前記複数のデータとの間の距離のうち、最小距離を抽出する予測対象データ最小属性値抽出部と、を更に有し、
　前記評価部は、前記予測対象のデータについて抽出された前記最小距離が、前記複数の区間のうちのいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する。

　本開示の第１０の態様は、材料設計システムであって、
　第１の態様に記載の予測装置と、
　前記予測装置の前記評価部により、前記複数のデータとの間で算出された属性値が所定の区間に区分けされると判定された予測対象のデータであって、前記予測装置の前記学習済みモデルにより、所定の条件を満たす予測値が予測された予測対象のデータを選択して入力することで、材料設計データを生成する材料設計装置とを有する。

　本開示の第１１の態様は、第１０の態様に記載の材料設計システムであって、
　学習用データセットに基づいて学習済みモデルを生成する学習装置を更に有し、
　前記予測装置は、前記学習装置により生成された前記学習済みモデルに、前記予測対象のデータを入力することで前記予測値を予測する。

　本開示の第１２の態様は、予測方法であって、
　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
　をコンピュータが実行する。

　本開示の第１３の態様は、予測プログラムであって、
　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
　をコンピュータに実行させる。

　本開示によれば、新規材料の開発効率を向上させることができる。

図１は、材料設計システムのシステム構成の一例を示す図である。図２は、学習装置及び予測装置の機能構成の一例を示す図である。図３は、学習装置及び予測装置のハードウェア構成の一例を示す図である。図４は、学習装置の学習部による処理の具体例を示す図である。図５は、予測装置の学習用データ属性値算出部による処理の具体例を示す図である。図６は、予測装置の区間決定部による処理の具体例を示す図である。図７は、予測装置の予測対象データ属性値算出部による処理の具体例を示す図である。図８は、予測装置の評価部による処理の具体例を示す図である。図９は、予測装置の予測部による処理の具体例を示す図である。図１０は、予測装置の表示部による処理の具体例を示す図である。図１１は、学習処理の流れを示すフローチャートである。図１２は、予測処理の流れを示すフローチャートである。図１３は、実施例１を示す図である。図１４は、実施例２を示す図である。図１５は、実施例３を示す図である。図１６は、予測特性の検証例を示す図である。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

　［第１の実施形態］
　＜材料設計システムのシステム構成＞
　はじめに、第１の実施形態に係る材料設計システムのシステム構成について説明する。図１は、材料設計システムのシステム構成の一例を示す図である。図１に示すように、材料設計システム１００は、材料特性実験装置１１０、学習装置１２０、予測装置１３０、材料設計装置１４０、材料生成装置１５０、材料特性実験装置１６０を有する。

　材料特性実験装置１１０は、"材料データ"が既知の構造式である材料についての"材料特性"の特性値を、実験によって求めるための装置である。実験者１１１が当該材料特性実験装置１１０を用いて求めた各材料の特性値は、対応する構造式とともに、学習用データとして、学習装置１２０に入力される。なお、学習用データは、公知のデータベースの情報を元に構成されてもよい。

　学習装置１２０は、取得した複数の学習用データを含む学習用データセットを用いて、予測モデル（材料の構造式から、当該材料の特性値を予測するモデル）について機械学習を行い、学習済みの予測モデルを生成する。また、学習装置１２０は、学習済みの予測モデルを生成するのに用いた学習用データセットと、学習済みの予測モデルのモデルパラメータとを、予測装置１３０に通知する。

　予測装置１３０は、学習装置１２０より通知されたモデルパラメータが設定された学習済みの予測モデルを有し、設計者１３１により入力された予測対象データの予測特性（予測値の一例）を予測する。

　また、予測装置１３０は、学習装置１２０より通知された学習用データセットを解析し、各学習用データの材料データが、他の学習用データの材料データからどの程度乖離しているかを定量的に算出することで、材料データ間の属性値を算出する。

　また、予測装置１３０は、算出した材料データ間の属性値の度数分布を算出することで、該属性値を区分けするための複数の区間（具体的には、それぞれの区間を規定する属性値の下限値、上限値）を決定する。

　また、予測装置１３０は、予測対象データの材料データが、各学習用データの材料データからどの程度乖離しているかを定量的に算出することで、予測対象データの材料データの属性値を算出する。更に、予測装置１３０は、予測対象データの材料データの属性値が、決定した複数の区間のいずれに区分けされるかを判定することで、予測対象データの適正を評価し、評価結果を予測特性と対応付けて出力する。

　なお、ここでいう予測対象データの適正とは、新規材料の開発における、意外性と予測精度という相反する２つの指標に対する予測対象データの適正を指す。予測対象データの適正が高いとは、学習用データに対する予測対象データの意外性と、予測対象データの予測特性についての予測精度との間でバランスがとれていることを指す（本実施形態では、当該適正を「ランク」として表す（詳細は後述））。

　予測装置１３０により出力された、予測対象データの予測特性及び予測対象データの評価結果は、設計者１３１に報知される。これにより、設計者１３１は、予測対象データの予測特性を把握することができるとともに、当該予測対象データに基づいて生成される材料が、有益な新規材料となる可能性が高いか低いかを把握することができる。

　材料設計装置１４０は、材料設計データを生成する装置である。設計者１３１は、有益な新規材料となる可能性が高い予測対象データを選択して、材料設計装置１４０に入力することで、材料設計データを生成する。

　材料生成装置１５０は、生成された材料設計データに基づいて、実際に材料を生成するための装置である。

　材料特性実験装置１６０は、材料生成装置１５０により実際に生成された新規材料の材料特性を、検証実験により求めるための装置である。実験者１６１が当該材料特性実験装置１６０を用いて求めた当該新規材料の材料特性は、設計者１３１に通知される。

　＜学習装置及び予測装置の機能構成＞
　次に、材料設計システム１００を構成する各装置のうち、学習装置１２０及び予測装置１３０の機能構成について図２を参照しながら説明する。図２は、学習装置及び予測装置の機能構成の一例を示す図である。

　学習装置１２０には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習装置１２０は、学習用データ取得部２０１、学習部２０２として機能する。

　学習用データ取得部２０１は、実験者１１１により入力された学習用データを取得し、学習用データ格納部２０５に格納する。

　学習部２０２は、学習用データ格納部２０５に格納された複数の学習用データを含む学習用データセットを用いて、予測モデルに対して機械学習を行い、学習済みの予測モデルを生成する。学習部２０２により生成された学習済みの予測モデルのモデルパラメータは、学習済みの予測モデルの生成に用いられた学習用データセットとともに、予測装置１３０に通知される。

　予測装置１３０には、予測プログラムがインストールされている。予測装置１３０は、当該プログラムが実行されることで、学習用データ属性値算出部２１１、区間決定部２１２、予測対象データ取得部２２１、予測部２２２、予測対象データ属性値算出部２２３、評価部２２４、表示部２２５として機能する。

　学習用データ属性値算出部２１１は、学習装置１２０より通知された学習用データセットを解析し、各学習用データの材料データが、他の学習用データの材料データからどの程度乖離しているかを定量的に算出することで、材料データ間の属性値を算出する。

　区間決定部２１２は、学習用データ属性値算出部２１１により算出された材料データ間の属性値の度数分布を算出することで、該属性値を区分けするための複数の区間（具体的には、それぞれの区間を規定する属性値の下限値、上限値）を決定する。

　予測対象データ取得部２２１は、設計者１３１により入力された予測対象データを取得し、予測部２２２及び予測対象データ属性値算出部２２３に通知する。

　予測部２２２は、学習部２０２より通知されたモデルパラメータが設定された学習済みの予測モデルを有し、設計者１３１により入力された予測対象データの予測特性を予測する。

　予測対象データ属性値算出部２２３は、学習装置１２０より通知された学習用データセットの各学習用データを取得するとともに、予測対象データ取得部２２１より通知された予測対象データを取得する。

　また、予測対象データ属性値算出部２２３は、予測対象データの材料データが、各学習用データの材料データからどの程度乖離しているかを定量的に算出することで、予測対象データの材料データの属性値を算出する。

　評価部２２４は、予測対象データ属性値算出部２２３により算出された予測対象データの材料データの属性値が、区間決定部２１２により決定された複数の区間のうちのいずれに区分けされるかを判定する。これにより、評価部２２４は、予測対象データの適正を評価し、評価結果を表示部２２５に通知する。

　なお、評価部２２４には予め除外対象が設定されており、算出された属性値が所定の区間に区分けされた場合、当該予測対象データは、予測部２２２による予測対象から除外する（つまり、予測部２２２によって学習済みの予測モデルに入力されることはない）。あるいは、評価部２２４は、算出された属性値が所定の区間に区分けされた場合、当該予測対象データは、表示部２２５による表示対象から除外する（つまり、表示部２２５によって表示されることはない）。

　表示部２２５は、予測部２２２により予測された、予測対象データの予測特性と、評価部２２４により評価された予測対象データの評価結果とを対応付けて表示する。

　このように、第１の実施形態に係る材料設計システム１００は、
・予測装置１３０を有し、予測対象データの予測特性を予測する。これにより、第１の実施形態によれば、所定の条件を満たす予測特性が予測されなかった予測対象データを、材料の生成及び検証実験の対象から排除することができる。
・予測装置１３０を有し、予測対象データの評価結果を出力する。これにより、第１の実施形態によれば、予測装置１３０によって所定の条件を満たす予測特性が予測された場合であっても、有益な新規材料となる可能性が低い予測対象データを、材料の生成及び検証実験の対象から排除することができる。

　この結果、第１の実施形態に係る材料設計システム１００によれば、材料の生成及び検証実験を行う予測対象データを絞り込むことが可能となり、新規材料の開発効率を向上させることができる。

　＜学習装置及び予測装置のハードウェア構成＞
　次に、学習装置１２０及び予測装置１３０のハードウェア構成について説明する。なお、学習装置１２０及び予測装置１３０は、同様のハードウェア構成を有するため、ここでは、図３を用いて、学習装置１２０及び予測装置１３０のハードウェア構成をまとめて説明する。

　図３は、学習装置及び予測装置のハードウェア構成の一例を示す図である。図３に示すように、学習装置１２０及び予測装置１３０は、プロセッサ３０１、メモリ３０２、補助記憶装置３０３、Ｉ／Ｆ（Interface）装置３０４、通信装置３０５、ドライブ装置３０６を有する。なお、学習装置１２０及び予測装置１３０の各ハードウェアは、バス３０７を介して相互に接続されている。

　プロセッサ３０１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の各種演算デバイスを有する。プロセッサ３０１は、各種プログラム（例えば、学習プログラム、予測プログラム等）をメモリ３０２上に読み出して実行する。

　メモリ３０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ３０１とメモリ３０２とは、いわゆるコンピュータを形成し、プロセッサ３０１が、メモリ３０２上に読み出した各種プログラムを実行することで、当該コンピュータは上記各種機能を実現する。

　補助記憶装置３０３は、各種プログラムや、各種プログラムがプロセッサ３０１によって実行される際に用いられる各種データを格納する。例えば、学習用データ格納部２０５は、補助記憶装置３０３において実現される。

　Ｉ／Ｆ装置３０４は、ユーザインタフェース装置の一例である操作装置３１１、表示装置３１２と接続する接続デバイスである。通信装置３０５は、ネットワークを介して外部装置（不図示）と通信するための通信デバイスである。

　ドライブ装置３０６は記録媒体３１３をセットするためのデバイスである。ここでいう記録媒体３１３には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体３１３には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置３０３にインストールされる各種プログラムは、例えば、配布された記録媒体３１３がドライブ装置３０６にセットされ、該記録媒体３１３に記録された各種プログラムがドライブ装置３０６により読み出されることでインストールされる。あるいは、補助記憶装置３０３にインストールされる各種プログラムは、通信装置３０５を介してネットワークからダウンロードされることで、インストールされてもよい。

　＜学習装置の各部の処理の具体例＞
　次に、学習装置１２０の各部（ここでは、学習部２０２）の処理の具体例について説明する。

　（１）学習部２０２による処理の具体例
　はじめに、学習装置１２０の学習部２０２による処理の具体例について説明する。図４は、学習装置の学習部による処理の具体例を示す図である。図４に示すように、学習部２０２は、入力部４０１、予測モデル４０２、比較／変更部４０３を有する。

　なお、図４において学習用データセット４００は、情報の項目として、"データ番号"、"材料データ"、"材料特性"を含む。"データ番号"には、各学習用データを識別するための番号が格納され、"材料データ"には、各材料の構造式が格納され、"材料特性"には、各材料の特性値が格納される。図４の例は、Ｎ個の学習用データ（Ｎは任意の整数）が格納されていることを示している。

　入力部４０１は、学習用データセット４００より各学習用データの"材料データ"に含まれる材料の構造式を読み出し、予測モデルに入力する。

　予測モデル４０２は、各学習用データの"材料データ"に含まれる材料の構造式が入力されることで、材料特性に相当する出力データを出力する。

　比較／変更部４０３は、予測モデル４０２より出力された出力データが、各学習用データの"材料特性"に含まれる材料の特性値に近づくように、予測モデル４０２のモデルパラメータを更新する。

　これにより、学習部２０２では、予測対象データの材料データに基づいて、当該予測対象データの材料特性を予測可能な学習済みの予測モデルを生成することができる。

　＜予測装置の各部の処理の具体例＞
　次に、予測装置１３０の各部（ここでは、学習用データ属性値算出部２１１、区間決定部２１２、予測対象データ属性値算出部２２３、評価部２２４、予測部２２２、表示部２２５）の処理の具体例について説明する。

　（１）学習用データ属性値算出部２１１による処理の具体例
　はじめに、学習用データ属性値算出部２１１による処理の具体例について説明する。図５は、予測装置の学習用データ属性値算出部による処理の具体例を示す図である。図５に示すように、学習用データ属性値算出部２１１は、相互属性値算出部５０１、学習用データ最小属性値抽出部５０２を有する。

　相互属性値算出部５０１は、Ｎ個の学習用データを含む学習用データセット４００の"データ番号"及び"材料データ"から、各学習用データを識別するための番号及び各材料の構造式を読み出す。

　また、相互属性値算出部５０１は、読み出したＮ個の学習用データの"材料データ"に含まれる材料の構造式のうち、
・ｉ番目（１≦ｉ≦Ｎ）の学習用データの"材料データ"に含まれる材料の構造式と、
・ｉ番目の学習用データを除く（Ｎ－１）個の他の学習用データの"材料データ"に含まれる材料の構造式と、
の組み合わせを生成し、全ての組み合わせについて、材料データ間の属性値を算出する。ここでいう材料データ間の属性値とは、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、ｉ番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式とが、どの程度乖離しているかを示す値を指す。具体的には、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、ｉ番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式との間の距離を指す。あるいは、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、ｉ番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式との間の密度等を指す。

　図５において、表５１１は、横軸及び縦軸に、各学習用データを識別するための番号をそれぞれ配した表である。表５１１には、学習用データセット４００に含まれる各学習用データの材料データの全ての組み合わせが示されている。

　また、表５１１において、横軸に示した番号と縦軸に示した番号とが交差する領域には、対応する学習用データの材料データの組み合わせについて算出された、材料データ間の属性値が示されている。

　例えば、横軸のデータ番号＝"２"と、縦軸のデータ番号＝"１"とが交差する領域には、
・データ番号＝"２"の学習用データの材料データ＝"構造式２"と、
・データ番号＝"１"の学習用データの材料データ＝"構造式１"と、
の組み合わせについて算出された、材料データ間の属性値（＝０．１）が格納される。

　学習用データ最小属性値抽出部５０２は、相互属性値算出部５０１により算出された、全ての組み合わせについての材料データ間の属性値から、材料ごとに、最小の属性値（例えば、最小距離）を抽出する。

　図５において、表５１２は、各学習用データを識別するための番号に対応付けて、学習用データ最小属性値抽出部５０２により材料ごとに抽出された最小の属性値を示したものである。

　例えば、データ番号＝"１"により識別される学習用データの場合、当該材料の最小の属性値は、"０．１"となる。

　なお、学習用データ最小属性値抽出部５０２により抽出された各材料の最小の属性値は、区間決定部２１２に通知される。

　（２）区間決定部２１２による処理の具体例
　次に、区間決定部２１２による処理の具体例について説明する。図６は、予測装置の区間決定部による処理の具体例を示す図である。図６に示すように、区間決定部２１２は、度数分布生成部６０１、区間算出部６０２を有する。

　度数分布生成部６０１は、学習用データ最小属性値抽出部５０２より通知された、各材料の最小の属性値を取得し、度数分布を生成する。図６において、符号６１１は、度数分布生成部６０１により生成された度数分布の一例であり、横軸は属性値を、縦軸はデータ数をそれぞれ表している。

　区間算出部６０２は、度数分布生成部６０１により取得された、各材料の最小の属性値に基づいて、要約統計量を算出する。具体的には、区間算出部６０２は、
・各材料の最小の属性値の中央値、
・各材料の最小の属性値の第一四分位（Ｑ_２５）、
・各材料の最小の属性値の第三四分位（Ｑ_７５）、
・各材料の最小の属性値の四分位範囲（ＩＱＲ＝Ｑ_７５－Ｑ_２５）、
を算出する。また、区間算出部６０２は、算出した上記要約統計量に基づいて、各属性値を区分けするための複数の区間を決定する際の、係数（α_１、α_２）を決定する。

　図６の例は、係数α_１＝"１．５"、係数α_２＝"３．０"と決定し、度数分布生成部６０１により生成された度数分布（符号６１１）に対して、
・「属性値＜（第三四分位（Ｑ_７５））」となる属性値が区分けされる区間の上限値、
・「（第三四分位（Ｑ_７５））≦属性値＜（四分位範囲（ＩＱＲ）をα_１倍した値を第三四分位（Ｑ_７５）に加算した値）」となる属性値が区分けされる区間の下限値、上限値、
・「（四分位範囲（ＩＱＲ）をα_１倍した値を第三四分位（Ｑ_７５）に加算した値）≦属性値＜（四分位範囲（ＩＱＲ）をα_２倍した値を第三四分位（Ｑ_７５）に加算した値）」となる属性値が区分けされる区間の下限値、上限値、
・「（四分位範囲（ＩＱＲ）をα_２倍した値を第三四分位（Ｑ_７５）に加算した値）≦属性値」となる属性値が区分けされる区間の下限値、
を決定した様子を示している。

　また、図６の例では、
・所定の要約統計量（ここでは、「中央値」）が含まれる区間を、「ランク１」、
・所定の要約統計量が含まれる区間に近い１番目の区間を、「ランク２」、
・所定の要約統計量が含まれる区間に近い２番目の区間を、「ランク３」、
・所定の要約統計量が含まれる区間から最も離れた区間を、「ランク４」、
と規定している。

　ここで、上記ランクと新規材料の開発における相反する２つの指標（意外性、予測精度）との関係について考察すると、
・予測精度は、「ランク１」→「ランク２」→「ランク３」→「ランク４」の順に低下する。つまり、ランクは、予測精度の高さを表している。
・意外性は、「ランク１」→「ランク２」→「ランク３」→「ランク４」の順に上がる。つまり、ランクは、意外性の低さを表している。

　このように、各ランクは、新規材料の開発における相反する２つの指標（意外性、予測精度）を同時に表しているといえる。

　（３）予測対象データ属性値算出部２２３による処理の具体例
　次に、予測対象データ属性値算出部２２３による処理の具体例について説明する。図７は、予測装置の予測対象データ属性値算出部による処理の具体例を示す図である。図７に示すように、予測対象データ属性値算出部２２３は、相互属性値算出部７０１、予測対象データ最小属性値抽出部７０２を有する。

　相互属性値算出部７０１は、学習装置１２０より通知されたＮ個の学習用データを含む学習用データセット４００の"データ番号"及び"材料データ"から、各学習用データを識別するための番号及び各材料の構造式を読み出す。また、相互属性値算出部７０１は、予測対象データ取得部２２１より通知された予測対象データ７００の"データ番号"及び"材料データ"から、予測対象データを識別するための番号及び材料の構造式を読み出す。

　また、相互属性値算出部７０１は、読み出したＮ個の学習用データの"材料データ"に含まれる材料の構造式のうち、
・ｉ番目（１≦ｉ≦Ｎ）の学習用データの"材料データ"に含まれる材料の構造式と、
・予測対象データ７００の"材料データ"に含まれる材料の構造式と、
の組み合わせを生成し、全ての組み合わせについて、材料データ間の属性値を算出する。ここでいう材料データ間の属性値とは、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ７００の"材料データ"に含まれる材料の構造式とが、どの程度乖離しているかを示す値を指す。具体的には、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ７００の"材料データ"に含まれる材料の構造式との間の距離を指す。あるいは、ｉ番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ７００の"材料データ"に含まれる材料の構造式との間の密度等を指す。

　図７において、表７１１は、横軸に学習用データセット４００に含まれる各学習用データを識別するための番号を、縦軸に予測対象データを識別するための番号をそれぞれ配した表である。表７１１には、学習用データセット４００に含まれる各学習用データの材料データと、予測対象データの材料データとの間の全ての組み合わせが示されている。

　また、表７１１において、横軸に示した番号と縦軸に示した番号とが交差する領域には、対応する学習用データの材料データと、対応する予測対象データの材料データとの組み合わせについて算出された材料データ間の属性値が示されている。

　例えば、横軸のデータ番号＝"２"と、縦軸のデータ番号＝"Ｘ"とが交差する領域には、
・データ番号＝"２"の学習用データの材料データ＝"構造式２"と、
・データ番号＝"Ｘ"の予測対象データの材料データ＝"構造式Ｘ"と、
の組み合わせについて算出された、材料データ間の属性値（＝０．１）が格納される。

　予測対象データ最小属性値抽出部７０２は、相互属性値算出部７０１により算出された、全ての組み合わせについての材料データ間の属性値から、最小の属性値を抽出する。

　図７において、表７１２は、予測対象データを識別するための番号に対応付けて、予測対象データ最小属性値抽出部７０２により抽出された最小の属性値を示したものである。図７の例は、最小の属性値が、"０．１"であったことを示している。

　なお、予測対象データ最小属性値抽出部７０２により抽出された最小の属性値は、評価部２２４に通知される。

　（４）評価部２２４による処理の具体例
　次に、評価部２２４による処理の具体例について説明する。図８は、予測装置の評価部による処理の具体例を示す図である。図８に示すように、評価部２２４は、属性値取得部８０１、評価結果出力部８０２を有する。

　属性値取得部８０１は、予測対象データ最小属性値抽出部７０２より通知された最小の属性値を取得し、区間決定部２１２より通知された複数の区間のいずれに区分けされるかを判定する。図８の例は、予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）について算出された最小の属性値が、所定の要約統計量（中央値）が含まれる区間に近いＲ番目の区間（Ｒ＝２）に区分けされたと判定された様子を示している。

　評価結果出力部８０２は、属性値取得部８０１により判定された区間が、Ｒ番目の区間（Ｒ＝２）であることから、新規材料の開発における予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）の適正について、
・意外性の低さがＲ番目（Ｒ＝２）、
・予測精度の高さがＲ番目（Ｒ＝２）、
である（ランク２である）と評価する。つまり、評価結果出力部８０２は、予測対象データの材料データの属性値が、所定の要約統計量（中央値）が含まれる区間に近い何番目の区間に区分けされるかにより、予測対象データの適正（ランク）を評価する。

　また、評価結果出力部８０２は、評価結果（ランク）を表示部２２５に通知する。

　更に、評価結果出力部８０２は、予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）について算出された最小の属性値が、所定の区間に区分けされたか否かを判定する。具体的には、予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）の適正についての評価結果（ランク）が、除外対象に該当するか否かを判定する。評価結果出力部８０２は、除外対象に該当すると判定した場合には、予測部２２２及び／または表示部２２５に通知する。

　（５）予測部２２２による処理の具体例
　次に、予測部２２２による処理の具体例について説明する。図９は、予測装置の予測部による処理の具体例を示す図である。図９に示すように、予測部２２２は、予測対象データ入力部９０１、学習済み予測モデル９０２、予測特性出力部９０３を有する。

　予測対象データ入力部９０１は、予測対象データ取得部２２１より予測対象データ７００が通知されると、予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）を、学習済み予測モデル９０２に入力する。

　なお、予測対象データ入力部９０１は、評価結果出力部８０２より、除外対象に該当するとの判定結果が通知されていた場合、予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）を、入力しないように制御してもよい。

　学習済み予測モデル９０２は、学習部２０２により学習処理が行われることで算出されたモデルパラメータが設定された学習済みの予測モデルである。予測対象データ７００の"材料データ"に含まれるに材料の構造式（構造式Ｘ）が入力されると、学習済み予測モデル９０２は、予測対象データ７００の予測特性を予測する。

　予測特性出力部９０３は、学習済み予測モデル９０２により予測された、予測対象データ７００の予測特性を、表示部２２５に通知する。

　（６）表示部２２５による処理の具体例
　次に、表示部２２５による処理の具体例について説明する。図１０は、予測装置の表示部による処理の具体例を示す図である。図１０に示すように、表示部２２５は、表示情報取得部１００１を有する。表示情報取得部１００１は、評価部２２４より通知された評価結果と、予測部２２２より通知された予測特性とを取得し、表示データ１０１１を生成する。

　図１０に示すように、表示データ１０１１は、情報の項目として、"材料データ"、"予測特性"、"評価結果"を含む。"材料データ"には、予測対象データ７００の"材料データ"に含まれる材料の構造式である"構造式Ｘ"が格納され、"予測特性"には、予測対象データ７００について予測された予測特性である"特性値２"が格納される。また、"評価結果"には、新規材料の開発における予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）の適正を評価した評価結果である"ランク２"が格納される。

　＜学習装置による学習処理の流れ＞
　次に、学習装置１２０による学習処理の流れについて説明する。図１１は、学習処理の流れを示すフローチャートである。

　ステップＳ１１０１において、学習装置１２０は、実験者１１１が材料特性実験装置１１０を用いて、実験によって求めた各材料の材料特性を含む学習用データセットを取得する。

　ステップＳ１１０２において、学習装置１２０は、学習用データセットを用いて予測モデルに対して学習処理を行い、学習済みの予測モデルを生成する。

　＜予測装置による予測処理の流れ＞
　次に、予測装置１３０による予測処理の流れについて説明する。図１２は、予測処理の流れを示すフローチャートである。

　ステップＳ１２０１において、予測装置１３０は、学習装置１２０が学習済みの予測モデルを生成する際に用いた学習用データセットと、学習済みの予測モデルのモデルパラメータとを取得する。

　ステップＳ１２０２において、予測装置１３０は、学習用データセットを解析し、材料データ間の属性値を算出する。

　ステップＳ１２０３において、予測装置１３０は、算出した材料データ間の属性値の度数分布を算出し、属性値を区分けするための複数の区間を決定する。

　ステップＳ１２０４において、予測装置１３０は、除外対象の設定を参照する。

　ステップＳ１２０５において、予測装置１３０は、予測対象データを取得する。

　ステップＳ１２０６において、予測装置１３０は、予測対象データの材料データの属性値を算出する。

　ステップＳ１２０７において、予測装置１３０は、算出した予測対象データの材料データの属性値が、決定した複数の区間のいずれに区分けされるかを判定することで、相反する２つの指標に対する予測対象データの適正（ランク）を評価する。

　ステップＳ１２０８において、予測装置１３０は、評価結果が除外対象に該当するか否かを判定する。ステップＳ１２０８において除外対象に該当しないと判定した場合には（ステップＳ１２０８においてＮＯの場合には）、ステップＳ１２１１に進む。

　一方、ステップＳ１２０８において、除外対象に該当すると判定した場合には（ステップＳ１２０８においてＹＥＳの場合には）、ステップＳ１２１０に進む。

　ステップＳ１２０９において、予測装置１３０は、予測対象データを、予測対象または表示対象から除外する。

　ステップＳ１２１０において、予測装置１３０は、予測対象データを学習済みの予測モデルに入力することで、予測特性を予測する。

　ステップＳ１２１１において、予測装置１３０は、予測対象データと、予測特性と、評価結果とを対応付けた表示データを表示する。

　＜各実施例における指標と評価結果との関係＞
　次に、予測装置１３０を用いて、複数の予測対象データの組について、予測処理を行った結果（予測特性、評価結果）を以下に示すとともに、相反する２つの指標と評価結果との関係及び予測特性の検証例について説明する。

　具体的には、後述の非特許文献に開示されている水溶解度データセットのうちの１００分子を学習用データセットとして学習し、残りの未学習の分子を予測対象データとして、水溶解度を予測するとともに、評価結果を得た。学習用データセットの分子を変更して３回行った結果を、以下に実施例１～３として記す。

　手順としては、ＲＤＫＩＴを使用して分子構造を示すＳＭＩＬＥＳ（Simplified Molecular Line Entry System）から記述子を計算し、計算された記述子を標準化した値を説明変数として使用した。予測モデルとしてはリッジ回帰を用いた。標準化及びリッジ回帰は、ｓｃｉｋｉｔ－ｌｅａｒｎにより実行した。

　（１）実施例１
　図１３は、実施例１を示す図である。図１３に示すように、実施例１では、複数の予測対象データとして、
・ニトロメタン、
・メタノール、
・スクロース、
・ジゴキシン、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した（表１３１０参照）。なお、上記予測対象データの材料特性（ここでは、水溶解度）は、いずれも既知であるため、予測精度を検証する趣旨で表１３２０に示した。

　表１３１０によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク１及びランク２と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク３と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク４と評価された予測対象データについては、水溶解度が非常に高い予測特性が得られているが、実際には、水溶解度の低い材料であり、予測精度が著しく低い。なお、構造式は複雑であり、意外性は高い。

　（２）実施例２
　図１４は、実施例２を示す図である。図１４に示すように、実施例２では、複数の予測対象データとして、
・エリトリトール、
・メタノール、
・ラクトース、
・ラフィノース、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した（表１４１０参照）。なお、上記予測対象データの材料特性（ここでも水溶解度）は、いずれも既知であるため、予測精度を検証する趣旨で表１４２０に示した。

　表１４１０によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク１及びランク２と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク３と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク４と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が複雑であり、意外性が高い。

　（３）実施例３
　図１５は、実施例３を示す図である。図１５に示すように、実施例３では、複数の予測対象データとして、
・尿素、
・メタノール、
・カフェイン、
・ジゴキシン、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した（表１５１０参照）。なお、上記予測対象データの材料特性（ここでも水溶解度）は、いずれも既知であるため、予測精度を検証する趣旨で表１５２０に示した。

　表１５１０によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク１及びランク２と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク３と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク４と評価された予測対象データについては、水溶解度が高い予測特性が得られているが、実際には、水溶解度の低い材料であり、予測精度が著しく低い。なお、構造式は複雑であり、意外性は高い。

　（４）指標と評価結果との関係及び予測特性の検証例
　上記実施例１～実施例３によれば、良好な予測精度のもとで、水溶解度の高い予測特性が得られ、比較的複雑な構造式を有する予測対象データ（つまり、有益な新規材料となる可能性が高い予測対象データ）は、ランク３と評価される可能性が高いことがわかる。

　そこで、以下では、更に、実施例１～実施例３においてランク３と評価された予測対象データ（スクロース、ラクトース、カフェイン）の水溶解度が、一般的な材料と比較して、どの程度高いのか（つまり、客観的に高い予測特性といえるのか）を検証する。

　具体的には、下記の非特許文献に開示されている水溶解度データセットに基づいて、水溶解度の度数分布を生成し、実施例１～実施例３においてランク３と評価された予測対象データの水溶解度を検証した。

　［非特許文献］J.S.Delaney, "Estimating Aqueous Solubility Directly from Molecular Structure", Journal of chemical information and computer sciences, p1000-p1005, May 24, 2004
　図１６は、予測特性の検証例を示す図である。図１６に示すように、実施例１～実施例３においてランク３と評価された予測対象データの水溶解度は、客観的にも高いことがわかる。つまり、予測装置１３０により出力される、予測対象データの予測特性及び予測対象データの評価結果は、有益な新規材料となる可能性を的確に表しているといえる。

　＜まとめ＞
　以上の説明から明らかなように、第１の実施形態に係る予測装置は、
・学習済み予測モデルの生成に用いた学習用データセットを取得し、当該学習用データセットに含まれる複数の材料データ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する。
・予測対象データの材料データと、学習用データセットに含まれる複数の材料データとの間で算出される属性値が、複数の区間のいずれに区分けされるかを判定することで、相反する２つの指標に対する予測対象データの適正を評価する。
・予測対象データを入力することで、学習済みモデルにより予測された予測特性を、評価結果と対応付けて表示する。

　これにより、第１の実施形態によれば、学習済み予測モデルを用いて所定の条件を満たす予測特性が予測された場合であっても、有益な新規材料となる可能性が低い予測対象データを排除することができる。

　この結果、第１の実施形態に係る予測装置によれば、材料の生成及び検証実験を行う予測対象データを絞り込むことが可能となり、新規材料の開発効率を向上させることができる。

　［第２の実施形態］
　上記第１の実施形態では、要約統計量として、中央値、第一四分位、第三四分位、四分位範囲を算出するとともに、係数α_１、α_２を決定することで、各区間を決定した。しかしながら、各区間の決定方法は、これに限定されない。

　例えば、要約統計量として、
・各材料の最小の属性値の平均値、
・各材料の最小の属性値の標準偏差、
を算出し、複数の区間を、
・「属性値＜（平均値＋β_１×標準偏差）」となる属性値が区分けされる区間、
・「（平均値＋β_１×標準偏差）≦属性値＜（平均値＋β_２×標準偏差）」となる属性値が区分けされる区間、
・「（平均値＋β_２×標準偏差）≦属性値＜（平均値＋β_３×標準偏差）」となる属性値が区分けされる区間、
・「（平均値＋β_３×標準偏差）≦属性値」となる属性値が区分けされる区間、
と決定してもよい。

　また、上記第１の実施形態では、互いに重複しない４つの区間を決定するものとして説明したが、決定する区間の数は、互いに重複しない区間であれば、４つに限定されず、３つ以上であればよい。

　また、上記第１の実施形態では、予測対象データを１つずつ予測装置１３０に入力する場合について説明したが、複数の予測対象データを予測装置１３０に入力してもよい。この場合、予測装置１３０は、例えば、複数の予測対象データのうち、有益な新規材料となる可能性の高い予測対象データの予測特性、評価結果のみを表示するように構成してもよい。

　また、上記第１の実施形態では、除外対象を設定する場合について説明したが、例えば、選択対象を設定するように構成してもよい。具体的には、予測対象データ入力部９０１は、
・予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）について算出された最小の属性値が、選択対象の区間（例えば、所定の要約統計量が含まれる区間に近い３番目の区間）に区分けされると判定された場合、または、
・予測対象データ７００の"材料データ"に含まれる材料の構造式（構造式Ｘ）が、選択対象の評価結果（例えば、ランク３）であると評価された場合、
当該材料の構造式（構造式Ｘ）を選択して、学習済み予測モデル９０２に入力するように制御してもよい。

　また、上記第１の実施形態では、学習装置と予測装置とを別体の装置により実現するものとして説明したが、学習装置と予測装置とは一体の装置として実現してもよい。

　なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

　本出願は、２０２２年５月１３日に出願された日本国特許出願第２０２２－７９２６９号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。

　１００　　　　　：材料設計システム
　１１０　　　　　：材料特性実験装置
　１２０　　　　　：学習装置
　１３０　　　　　：予測装置
　１４０　　　　　：材料設計装置
　１５０　　　　　：材料生成装置
　１６０　　　　　：材料特性実験装置
　２０１　　　　　：学習用データ取得部
　２０２　　　　　：学習部
　２１１　　　　　：学習用データ属性値算出部
　２１２　　　　　：区間決定部
　２２１　　　　　：予測対象データ取得部
　２２２　　　　　：予測部
　２２３　　　　　：予測対象データ属性値算出部
　２２４　　　　　：評価部
　２２５　　　　　：表示部
　４００　　　　　：学習用データセット
　７００　　　　　：予測対象データ
　９０２　　　　　：学習済み予測モデル

Claims

　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部と
　を有する予測装置。
　前記区間決定部は、前記複数のデータ間で算出される属性値について要約統計量を算出し、前記複数の区間を規定する、属性値の下限値または上限値を決定する、請求項１に記載の予測装置。
　前記区間決定部は、互いに重複しない３つ以上の区間を決定する、請求項２に記載の予測装置。
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間に近い何番目の区間に区分けされるかにより、前記予測対象のデータの適正を評価する、請求項３に記載の予測装置。
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間から最も離れた区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータから除外する、請求項３に記載の予測装置。
　前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記３つ以上の区間のうち、所定の要約統計量が含まれる区間に近いＲ番目の区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータとして選択する、請求項３に記載の予測装置。
　前記学習用データセットに含まれる複数のデータ間の距離を算出する学習用データ属性値算出部と、
　前記複数のデータそれぞれについて算出された他のデータとの間の距離のうち、最小距離を抽出する学習用データ最小属性値抽出部と、を更に有し、
　前記区間決定部は、抽出された前記最小距離の度数分布から、該最小距離を区分けするための複数の区間を決定する、請求項１に記載の予測装置。
　前記学習用データ属性値算出部は、前記学習用データセットに含まれるＮ個のデータ（Ｎは任意の整数）のうち、ｉ番目（１≦ｉ≦Ｎ）のデータと、ｉ番目のデータを除く（Ｎ－１）個のデータとの間の距離をそれぞれ算出し、
　前記学習用データ最小属性値抽出部は、前記ｉ番目のデータについて算出された（Ｎ－１）個の距離の中から、最小距離を抽出する、
　請求項７に記載の予測装置。
　前記予測対象のデータと、前記複数のデータとの間の距離を算出する予測対象データ属性値算出部と、
　前記予測対象のデータと、前記複数のデータとの間の距離のうち、最小距離を抽出する予測対象データ最小属性値抽出部と、を更に有し、
　前記評価部は、前記予測対象のデータについて抽出された前記最小距離が、前記複数の区間のうちのいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する、請求項７に記載の予測装置。
　請求項１に記載の予測装置と、
　前記予測装置の前記評価部により、前記複数のデータとの間で算出された属性値が所定の区間に区分けされると判定された予測対象のデータであって、前記予測装置の前記学習済みモデルにより、所定の条件を満たす予測値が予測された予測対象のデータを入力し、材料設計データを生成する材料設計装置と、
　を有する材料設計システム。
　学習用データセットに基づいて学習済みモデルを生成する学習装置を更に有し、
　前記予測装置は、前記学習装置により生成された前記学習済みモデルに、前記予測対象のデータを入力することで前記予測値を予測する、請求項１０に記載の材料設計システム。
　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
　をコンピュータが実行する予測方法。
　学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
　予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
　前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
　をコンピュータに実行させるための予測プログラム。