WO2023219037A1 - 予測装置、材料設計システム、予測方法及び予測プログラム - Google Patents

予測装置、材料設計システム、予測方法及び予測プログラム Download PDF

Info

Publication number
WO2023219037A1
WO2023219037A1 PCT/JP2023/017086 JP2023017086W WO2023219037A1 WO 2023219037 A1 WO2023219037 A1 WO 2023219037A1 JP 2023017086 W JP2023017086 W JP 2023017086W WO 2023219037 A1 WO2023219037 A1 WO 2023219037A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
prediction
target data
prediction target
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2023/017086
Other languages
English (en)
French (fr)
Inventor
拓也 南
貴大 藤森
海仁 李
好成 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Resonac Corp
Original Assignee
Resonac Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Resonac Corp filed Critical Resonac Corp
Priority to US18/852,625 priority Critical patent/US20250217552A1/en
Priority to EP23803514.1A priority patent/EP4524840A4/en
Priority to JP2023548629A priority patent/JP7480919B2/ja
Priority to CN202380039342.1A priority patent/CN119173889A/zh
Publication of WO2023219037A1 publication Critical patent/WO2023219037A1/ja
Priority to JP2024060722A priority patent/JP2024086784A/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present disclosure relates to a prediction device, a material design system, a prediction method, and a prediction program.
  • Non-Patent Document 1 proposes to define the scope of application of a prediction model (the range of prediction target data in which a desired prediction accuracy can be achieved).
  • the prediction accuracy is low to begin with, so even if material properties that meet the predetermined conditions are predicted, the material properties may not be as predicted when actually generated. are rarely obtained, and are unlikely to become useful new materials.
  • This disclosure aims to improve the efficiency of developing new materials.
  • a prediction device includes: Obtain a training dataset used to generate a trained model, and obtain multiple intervals for classifying attribute values from the frequency distribution of attribute values calculated among multiple data included in the training dataset.
  • an interval determining unit that determines By determining which of the plurality of intervals the attribute value calculated between the prediction target data and the plurality of data falls into, the suitability of the prediction target data with respect to conflicting indicators can be evaluated.
  • An evaluation department that evaluates;
  • the display unit includes a display unit that displays a predicted value predicted by the learned model in association with an evaluation result by the evaluation unit by inputting the data to be predicted.
  • a second aspect of the present disclosure is the prediction device according to the first aspect, comprising: The section determining unit calculates summary statistics for the attribute values calculated between the plurality of data, and determines a lower limit value or an upper limit value of the attribute value that defines the plurality of sections.
  • a third aspect of the present disclosure is the prediction device according to the second aspect, comprising: The section determining unit determines three or more sections that do not overlap with each other.
  • a fourth aspect of the present disclosure is the prediction device according to the third aspect, comprising:
  • the evaluation unit is configured to determine which interval of the three or more intervals the attribute value calculated between the data to be predicted and the plurality of data is closest to the interval containing the predetermined summary statistics. The appropriateness of the prediction target data is evaluated based on whether the data is classified into .
  • a fifth aspect of the present disclosure is the prediction device according to the third aspect,
  • the evaluation unit determines that an attribute value calculated between the data to be predicted and the plurality of data is located in an interval that is farthest from an interval including a predetermined summary statistic among the three or more intervals. If it is determined that the data is classified, the data to be predicted is excluded from the data input to the learned model.
  • a sixth aspect of the present disclosure is the prediction device according to the third aspect,
  • the evaluation unit determines that the attribute value calculated between the data to be predicted and the plurality of data is an R-th interval that is close to an interval including a predetermined summary statistic among the three or more intervals. If it is determined that the data is classified into , the data to be predicted is selected as data to be input to the learned model.
  • a seventh aspect of the present disclosure is the prediction device according to the first aspect, a learning data attribute value calculation unit that calculates a distance between a plurality of data included in the learning data set; further comprising a learning data minimum attribute value extraction unit that extracts a minimum distance among distances between each of the plurality of data and other data calculated, The section determining unit determines the plurality of sections for dividing the minimum distance from the frequency distribution of the extracted minimum distance.
  • An eighth aspect of the present disclosure is the prediction device according to the seventh aspect,
  • the learning data attribute value calculation unit calculates the i-th data (1 ⁇ i ⁇ N) and the i-th data among the N pieces of data (N is any integer) included in the learning data set. Calculate the distance between each excluding (N-1) pieces of data,
  • the learning data minimum attribute value extraction unit extracts the minimum distance from among the (N-1) distances calculated for the i-th data.
  • a ninth aspect of the present disclosure is the prediction device according to the seventh aspect, a prediction target data attribute value calculation unit that calculates a distance between the prediction target data and the plurality of data; further comprising a prediction target data minimum attribute value extraction unit that extracts a minimum distance among the distances between the prediction target data and the plurality of data;
  • the evaluation unit evaluates the suitability of the prediction target data with respect to conflicting indicators by determining which of the plurality of sections the minimum distance extracted for the prediction target data falls into. evaluate.
  • a tenth aspect of the present disclosure is a material design system, comprising: The prediction device according to the first aspect, Prediction target data for which the evaluation unit of the prediction device has determined that the attribute value calculated between the plurality of data is divided into predetermined intervals, and the learned model of the prediction device and a material design device that generates material design data by selecting and inputting prediction target data for which a predicted value that satisfies a predetermined condition is predicted.
  • An eleventh aspect of the present disclosure is the material design system according to the tenth aspect, comprising: further comprising a learning device that generates a trained model based on the training dataset, The prediction device predicts the predicted value by inputting the prediction target data into the learned model generated by the learning device.
  • a twelfth aspect of the present disclosure is a prediction method, comprising: Obtain a training dataset used to generate a trained model, and obtain multiple intervals for classifying attribute values from the frequency distribution of attribute values calculated among multiple data included in the training dataset. an interval determination step for determining the By determining which of the plurality of intervals the attribute value calculated between the prediction target data and the plurality of data falls into, the suitability of the prediction target data with respect to conflicting indicators can be evaluated.
  • An evaluation process to evaluate By inputting the prediction target data, the computer executes a display step of displaying the predicted value predicted by the learned model in association with the evaluation result in the evaluation step.
  • a thirteenth aspect of the present disclosure is a prediction program, comprising: Obtain a training dataset used to generate a trained model, and obtain multiple intervals for classifying attribute values from the frequency distribution of attribute values calculated among multiple data included in the training dataset. an interval determination step for determining the By determining which of the plurality of intervals the attribute value calculated between the prediction target data and the plurality of data falls into, the suitability of the prediction target data with respect to conflicting indicators can be evaluated.
  • An evaluation process to evaluate By inputting the prediction target data, the computer is caused to execute a display step of displaying the predicted value predicted by the learned model in association with the evaluation result in the evaluation step.
  • the efficiency of developing new materials can be improved.
  • FIG. 1 is a diagram showing an example of the system configuration of a material design system.
  • FIG. 2 is a diagram illustrating an example of the functional configuration of a learning device and a prediction device.
  • FIG. 3 is a diagram showing an example of the hardware configuration of the learning device and the prediction device.
  • FIG. 4 is a diagram showing a specific example of processing by the learning section of the learning device.
  • FIG. 5 is a diagram illustrating a specific example of processing by the learning data attribute value calculation unit of the prediction device.
  • FIG. 6 is a diagram illustrating a specific example of processing by the section determination unit of the prediction device.
  • FIG. 7 is a diagram illustrating a specific example of processing by the prediction target data attribute value calculation unit of the prediction device.
  • FIG. 1 is a diagram showing an example of the system configuration of a material design system.
  • FIG. 2 is a diagram illustrating an example of the functional configuration of a learning device and a prediction device.
  • FIG. 3 is a diagram showing an example of the hardware configuration
  • FIG. 8 is a diagram showing a specific example of processing by the evaluation unit of the prediction device.
  • FIG. 9 is a diagram illustrating a specific example of processing by the prediction unit of the prediction device.
  • FIG. 10 is a diagram illustrating a specific example of processing by the display unit of the prediction device.
  • FIG. 11 is a flowchart showing the flow of learning processing.
  • FIG. 12 is a flowchart showing the flow of prediction processing.
  • FIG. 13 is a diagram showing Example 1.
  • FIG. 14 is a diagram showing Example 2.
  • FIG. 15 is a diagram showing Example 3.
  • FIG. 16 is a diagram illustrating an example of verification of predictive characteristics.
  • FIG. 1 is a diagram showing an example of the system configuration of a material design system.
  • the material design system 100 includes a material property experiment device 110, a learning device 120, a prediction device 130, a material design device 140, a material generation device 150, and a material property experiment device 160.
  • the material property experiment device 110 is a device for experimentally determining the characteristic value of the "material properties" of a material whose "material data" is a known structural formula.
  • the characteristic values of each material determined by the experimenter 111 using the material property experiment device 110 are input to the learning device 120 as learning data together with the corresponding structural formula.
  • the learning data may be configured based on information in a known database.
  • the learning device 120 performs machine learning on a predictive model (a model that predicts the characteristic values of a material from the structural formula of the material) using the acquired learning data set that includes a plurality of acquired learning data. Generate a predictive model. Further, the learning device 120 notifies the prediction device 130 of the learning data set used to generate the learned prediction model and the model parameters of the learned prediction model.
  • a predictive model a model that predicts the characteristic values of a material from the structural formula of the material
  • the prediction device 130 has a trained prediction model set with the model parameters notified by the learning device 120, and predicts the prediction characteristics (an example of a predicted value) of the prediction target data input by the designer 131.
  • the prediction device 130 also analyzes the learning data set notified by the learning device 120, and quantitatively determines the extent to which the material data of each learning data deviates from the material data of other learning data. By calculating, attribute values between material data are calculated.
  • the prediction device 130 calculates the frequency distribution of attribute values between the calculated material data, thereby creating multiple intervals for dividing the attribute values (specifically, the attribute values defining each interval). (lower limit value, upper limit value).
  • the prediction device 130 also calculates the attribute value of the material data of the prediction target data by quantitatively calculating how much the material data of the prediction target data deviates from the material data of each learning data. . Furthermore, the prediction device 130 evaluates the appropriateness of the prediction target data by determining which of the plurality of determined intervals the attribute value of the material data of the prediction target data is classified into, and uses the evaluation result as a prediction characteristic. Output in association with
  • the appropriateness of the prediction target data here refers to the appropriateness of the prediction target data with respect to two contradictory indicators of unexpectedness and prediction accuracy in the development of new materials.
  • the high suitability of the prediction target data means that there is a balance between the unexpectedness of the prediction target data with respect to the learning data and the prediction accuracy of the prediction characteristics of the prediction target data (in this embodiment, The suitability is expressed as a "rank" (details will be described later).
  • the prediction characteristics of the prediction target data and the evaluation results of the prediction target data output by the prediction device 130 are notified to the designer 131. This allows the designer 131 to understand the prediction characteristics of the prediction target data, as well as whether the material generated based on the prediction target data is likely to become a useful new material. can do.
  • the material design device 140 is a device that generates material design data.
  • the designer 131 selects prediction target data that is likely to become a useful new material and inputs it into the material design device 140 to generate material design data.
  • the material generation device 150 is a device for actually generating materials based on the generated material design data.
  • the material property experiment device 160 is a device for determining the material properties of the new material actually produced by the material generation device 150 through verification experiments. The material properties of the new material determined by the experimenter 161 using the material property experiment device 160 are notified to the designer 131.
  • FIG. 2 is a diagram illustrating an example of the functional configuration of a learning device and a prediction device.
  • a learning program is installed in the learning device 120, and by executing the program, the learning device 120 functions as a learning data acquisition unit 201 and a learning unit 202.
  • the learning data acquisition unit 201 acquires the learning data input by the experimenter 111 and stores it in the learning data storage unit 205.
  • the learning unit 202 performs machine learning on the predictive model using a learning data set that includes a plurality of learning data stored in the learning data storage unit 205, and generates a learned predictive model.
  • the model parameters of the learned prediction model generated by the learning unit 202 are notified to the prediction device 130 along with the learning data set used to generate the learned prediction model.
  • a prediction program is installed in the prediction device 130.
  • the prediction device 130 has a learning data attribute value calculation unit 211, an interval determination unit 212, a prediction target data acquisition unit 221, a prediction unit 222, a prediction target data attribute value calculation unit 223, and an evaluation unit. 224 and functions as a display section 225.
  • the learning data attribute value calculation unit 211 analyzes the learning data set notified from the learning device 120, and determines how much the material data of each learning data deviates from the material data of other learning data. By quantitatively calculating, attribute values between material data are calculated.
  • the interval determination unit 212 calculates the frequency distribution of attribute values between the material data calculated by the learning data attribute value calculation unit 211, thereby determining a plurality of intervals (specifically, The lower limit and upper limit of the attribute values that define each section are determined.
  • the prediction target data acquisition unit 221 acquires the prediction target data input by the designer 131, and notifies the prediction unit 222 and the prediction target data attribute value calculation unit 223.
  • the prediction unit 222 has a trained prediction model set with the model parameters notified by the learning unit 202, and predicts the prediction characteristics of the prediction target data input by the designer 131.
  • the prediction target data attribute value calculation unit 223 acquires each learning data of the learning data set notified by the learning device 120, and also acquires the prediction target data notified by the prediction target data acquisition unit 221.
  • the prediction target data attribute value calculation unit 223 quantitatively calculates the extent to which the material data of the prediction target data deviates from the material data of each learning data, thereby improving the material data of the prediction target data. Calculate attribute values.
  • the evaluation unit 224 determines which of the plurality of intervals determined by the interval determination unit 212 the attribute value of the material data of the prediction target data calculated by the prediction target data attribute value calculation unit 223 is divided into. do. Thereby, the evaluation unit 224 evaluates the suitability of the prediction target data and notifies the display unit 225 of the evaluation result.
  • exclusion targets are set in advance in the evaluation unit 224, and when the calculated attribute values are divided into predetermined intervals, the prediction target data is excluded from the prediction targets by the prediction unit 222 (that is, the prediction 222 into the trained prediction model). Alternatively, when the calculated attribute values are divided into predetermined intervals, the evaluation unit 224 excludes the prediction target data from the display target of the display unit 225 (that is, the prediction target data is not displayed on the display unit 225).
  • the display unit 225 displays the prediction characteristics of the prediction target data predicted by the prediction unit 222 and the evaluation results of the prediction target data evaluated by the evaluation unit 224 in association with each other.
  • the material design system 100 has a prediction device 130 and predicts the prediction characteristics of the prediction target data.
  • - It has a prediction device 130 and outputs the evaluation result of prediction target data.
  • the prediction device 130 predicts a prediction characteristic that satisfies a predetermined condition
  • prediction target data that is unlikely to become a useful new material is It can be excluded from generation and verification experiments.
  • the material design system 100 according to the first embodiment, it is possible to narrow down the prediction target data for material generation and verification experiments, and it is possible to improve the efficiency of developing new materials.
  • FIG. 3 is a diagram showing an example of the hardware configuration of the learning device and the prediction device.
  • the learning device 120 and the prediction device 130 include a processor 301, a memory 302, an auxiliary storage device 303, an I/F (Interface) device 304, a communication device 305, and a drive device 306.
  • the respective hardware of the learning device 120 and the prediction device 130 are connected to each other via a bus 307.
  • the processor 301 includes various computing devices such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the processor 301 reads various programs (for example, learning programs, prediction programs, etc.) onto the memory 302 and executes them.
  • the memory 302 includes main storage devices such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • the processor 301 and the memory 302 form a so-called computer, and when the processor 301 executes various programs read onto the memory 302, the computer realizes the various functions described above.
  • the auxiliary storage device 303 stores various programs and various data used when the various programs are executed by the processor 301.
  • the learning data storage unit 205 is implemented in the auxiliary storage device 303.
  • the I/F device 304 is a connection device that connects to an operating device 311 and a display device 312, which are examples of a user interface device.
  • the communication device 305 is a communication device for communicating with an external device (not shown) via a network.
  • the drive device 306 is a device for setting the recording medium 313.
  • the recording medium 313 here includes a medium for recording information optically, electrically, or magnetically, such as a CD-ROM, a flexible disk, or a magneto-optical disk. Further, the recording medium 313 may include a semiconductor memory that electrically records information, such as a ROM or a flash memory.
  • the various programs to be installed in the auxiliary storage device 303 are installed by, for example, setting the distributed recording medium 313 in the drive device 306 and reading out the various programs recorded on the recording medium 313 by the drive device 306. be done.
  • various programs installed in the auxiliary storage device 303 may be installed by being downloaded from a network via the communication device 305.
  • FIG. 4 is a diagram showing a specific example of processing by the learning section of the learning device.
  • the learning unit 202 includes an input unit 401, a prediction model 402, and a comparison/change unit 403.
  • the learning data set 400 includes "data number”, “material data”, and “material characteristics” as information items.
  • Data number stores a number to identify each learning data
  • material data stores the structural formula of each material
  • material properties stores the characteristic values of each material. Stored.
  • the example in FIG. 4 shows that N pieces of learning data (N is an arbitrary integer) are stored.
  • the input unit 401 reads out the structural formula of the material included in the "material data" of each learning data from the learning data set 400, and inputs it into the prediction model.
  • the prediction model 402 outputs output data corresponding to material properties by inputting the structural formula of the material included in the "material data" of each learning data.
  • the comparison/change unit 403 updates the model parameters of the prediction model 402 so that the output data output from the prediction model 402 approaches the material characteristic values included in the "material properties" of each learning data.
  • the learning unit 202 can generate a trained prediction model that can predict the material properties of the prediction target data based on the material data of the prediction target data.
  • FIG. 5 is a diagram illustrating a specific example of processing by the learning data attribute value calculation unit of the prediction device.
  • the learning data attribute value calculation section 211 includes a mutual attribute value calculation section 501 and a learning data minimum attribute value extraction section 502.
  • the mutual attribute value calculation unit 501 calculates a number for identifying each learning data and a structural formula of each material from the "data number" and "material data" of the learning data set 400 including N pieces of learning data. read out.
  • the mutual attribute value calculation unit 501 calculates the structural formula of the material included in the "material data" of the N pieces of learning data read out. ⁇ The structural formula of the material included in the "material data” of the i-th (1 ⁇ i ⁇ N) learning data, ⁇ The structural formula of the material included in the "material data” of (N-1) other learning data excluding the i-th learning data, , and calculate attribute values between material data for all combinations.
  • the attribute values between the material data here refer to the structural formula of the material included in the "material data” of the i-th learning data and the "material data” of other learning data other than the i-th learning data. This value indicates the degree to which the structural formula of the material contained in the material differs from the structural formula of the material.
  • the structural formula of the material included in the "material data" of the i-th learning data and the structural formula of the material included in the “material data” of other learning data excluding the i-th learning data refers to the distance between Or, between the structural formula of the material included in the "material data” of the i-th learning data and the structural formula of the material included in the "material data” of other learning data other than the i-th learning data. Refers to the density, etc.
  • a table 511 is a table in which numbers for identifying each piece of learning data are arranged on the horizontal and vertical axes. Table 511 shows all combinations of material data of each learning data included in learning data set 400.
  • the learning data minimum attribute value extraction unit 502 extracts the minimum attribute value (for example, minimum distance) for each material from the attribute values between material data for all combinations calculated by the mutual attribute value calculation unit 501. Extract.
  • a table 512 shows the minimum attribute value extracted for each material by the learning data minimum attribute value extraction unit 502 in association with a number for identifying each learning data.
  • the minimum attribute value of the material is "0.1".
  • FIG. 6 is a diagram illustrating a specific example of processing by the section determination unit of the prediction device.
  • the interval determination section 212 includes a frequency distribution generation section 601 and an interval calculation section 602.
  • the frequency distribution generation unit 601 acquires the minimum attribute value of each material notified from the learning data minimum attribute value extraction unit 502, and generates a frequency distribution.
  • reference numeral 611 is an example of the frequency distribution generated by the frequency distribution generation unit 601, where the horizontal axis represents the attribute value and the vertical axis represents the number of data.
  • ⁇ The interval that includes the predetermined summary statistic (here, the “median”) is “Rank 1”
  • ⁇ The first interval closest to the interval containing the predetermined summary statistics is “Rank 2”
  • ⁇ The second interval closest to the interval containing the predetermined summary statistics is ranked as “Rank 3”
  • ⁇ The section that is farthest from the section that includes the predetermined summary statistics is ranked as "Rank 4"
  • each rank can be said to simultaneously represent two contradictory indicators (unexpectedness and prediction accuracy) in the development of new materials.
  • FIG. 7 is a diagram illustrating a specific example of processing by the prediction target data attribute value calculation unit of the prediction device.
  • the prediction target data attribute value calculation unit 223 includes a mutual attribute value calculation unit 701 and a prediction target data minimum attribute value extraction unit 702.
  • the mutual attribute value calculation unit 701 calculates a number for identifying each piece of learning data from the "data number” and “material data” of the learning data set 400 including N pieces of learning data notified by the learning device 120. and read out the structural formula of each material. Further, the mutual attribute value calculation unit 701 calculates a number for identifying the prediction target data and a structural formula of the material from the “data number” and “material data” of the prediction target data 700 notified by the prediction target data acquisition unit 221. Read out.
  • the mutual attribute value calculation unit 701 calculates, among the structural formulas of materials included in the "material data” of the N learning data read out, ⁇ The structural formula of the material included in the "material data” of the i-th (1 ⁇ i ⁇ N) learning data, ⁇ The structural formula of the material included in the "material data” of the prediction target data 700, , and calculate attribute values between material data for all combinations.
  • the attribute value between the material data here refers to the structural formula of the material included in the "material data” of the i-th learning data and the structural formula of the material included in the "material data” of the prediction target data 700. , refers to the value that indicates how much they deviate from each other.
  • it refers to the distance between the structural formula of the material included in the "material data” of the i-th learning data and the structural formula of the material included in the “material data” of the prediction target data 700.
  • it refers to the density between the structural formula of the material included in the "material data” of the i-th learning data and the structural formula of the material included in the "material data” of the prediction target data 700.
  • table 711 is a table in which the horizontal axis is a number for identifying each learning data included in the learning data set 400, and the vertical axis is a number for identifying prediction target data. .
  • the table 711 shows all combinations between the material data of each learning data included in the learning data set 400 and the material data of prediction target data.
  • the prediction target data minimum attribute value extraction unit 702 extracts the minimum attribute value from the attribute values between the material data for all combinations calculated by the mutual attribute value calculation unit 701.
  • a table 712 shows the minimum attribute value extracted by the prediction target data minimum attribute value extraction unit 702 in association with a number for identifying the prediction target data.
  • the example in FIG. 7 shows that the minimum attribute value is "0.1".
  • FIG. 8 is a diagram showing a specific example of processing by the evaluation unit of the prediction device.
  • the evaluation section 224 includes an attribute value acquisition section 801 and an evaluation result output section 802.
  • the attribute value acquisition unit 801 acquires the minimum attribute value notified from the prediction target data minimum attribute value extraction unit 702, and determines which of the plurality of intervals notified by the interval determination unit 212 the attribute value is classified into.
  • the evaluation result output unit 802 notifies the display unit 225 of the evaluation result (rank).
  • the evaluation result output unit 802 determines whether the minimum attribute value calculated for the structural formula (structural formula judge. Specifically, it is determined whether the evaluation result (rank) regarding the suitability of the structural formula (structural formula X) of the material included in the "material data" of the prediction target data 700 corresponds to the exclusion target. If the evaluation result output unit 802 determines that the item falls under the exclusion target, the evaluation result output unit 802 notifies the prediction unit 222 and/or the display unit 225.
  • FIG. 9 is a diagram illustrating a specific example of processing by the prediction unit of the prediction device.
  • the prediction unit 222 includes a prediction target data input unit 901, a learned prediction model 902, and a prediction characteristic output unit 903.
  • the prediction target data input unit 901 When the prediction target data input unit 901 is notified of the prediction target data 700 by the prediction target data acquisition unit 221, the prediction target data input unit 901 inputs the learned structural formula (structural formula X) of the material included in the “material data” of the prediction target data 700. Input to prediction model 902.
  • the prediction target data input unit 901 inputs the structural formula (structure) of the material included in the “material data” of the prediction target data 700.
  • Formula X may be controlled so as not to be input.
  • the trained prediction model 902 is a trained prediction model in which model parameters calculated by the learning process performed by the learning unit 202 are set.
  • the prediction characteristic output unit 903 notifies the display unit 225 of the prediction characteristics of the prediction target data 700 predicted by the learned prediction model 902.
  • FIG. 10 is a diagram illustrating a specific example of processing by the display unit of the prediction device.
  • the display unit 225 includes a display information acquisition unit 1001.
  • the display information acquisition unit 1001 acquires the evaluation results notified from the evaluation unit 224 and the prediction characteristics notified from the prediction unit 222, and generates display data 1011.
  • the display data 1011 includes "material data”, “predicted characteristics”, and “evaluation results” as information items.
  • “Material data” stores the “structural formula “Characteristic value 2” which is a characteristic is stored.
  • the “evaluation result” stores "Rank 2", which is the evaluation result of evaluating the suitability of the structural formula (structural formula X) of the material included in the "material data” of the prediction target data 700 in the development of new materials. be done.
  • FIG. 11 is a flowchart showing the flow of learning processing.
  • step S1101 the learning device 120 acquires a learning data set that includes the material properties of each material found through experiments by the experimenter 111 using the material property experiment device 110.
  • step S1102 the learning device 120 performs a learning process on the predictive model using the learning data set to generate a trained predictive model.
  • FIG. 12 is a flowchart showing the flow of prediction processing.
  • step S1201 the prediction device 130 acquires the learning data set used by the learning device 120 to generate the learned prediction model and the model parameters of the learned prediction model.
  • step S1202 the prediction device 130 analyzes the learning data set and calculates attribute values between the material data.
  • step S1203 the prediction device 130 calculates the frequency distribution of attribute values among the calculated material data, and determines a plurality of intervals for dividing the attribute values.
  • step S1204 the prediction device 130 refers to the settings for exclusion targets.
  • step S1205 the prediction device 130 acquires prediction target data.
  • step S1206 the prediction device 130 calculates the attribute value of the material data of the prediction target data.
  • step S1207 the prediction device 130 determines which of the plurality of determined sections the attribute value of the material data of the calculated prediction target data falls into, thereby determining the prediction target data for the two conflicting indicators. Evaluate suitability (rank).
  • step S1208 the prediction device 130 determines whether the evaluation result corresponds to an exclusion target. If it is determined in step S1208 that the item does not fall under the exclusion target (NO in step S1208), the process advances to step S1211.
  • step S1208 determines whether the item falls under the exclusion target (in the case of YES in step S1208). If it is determined in step S1208 that the item falls under the exclusion target (in the case of YES in step S1208), the process advances to step S1210.
  • step S1209 the prediction device 130 excludes the prediction target data from the prediction target or display target.
  • step S1210 the prediction device 130 predicts the prediction characteristics by inputting the prediction target data into the learned prediction model.
  • step S1211 the prediction device 130 displays display data in which prediction target data, prediction characteristics, and evaluation results are associated with each other.
  • a descriptor was calculated from SMILES (Simplified Molecular Line Entry System), which shows the molecular structure, using RDKIT, and a value obtained by standardizing the calculated descriptor was used as an explanatory variable. Ridge regression was used as a prediction model. Standardization and ridge regression were performed with scikit-learn.
  • Example 1 is a diagram showing Example 1. As shown in FIG. 13, in Example 1, as a plurality of prediction target data, ⁇ Nitromethane, ⁇ methanol, ⁇ sucrose, ⁇ Digoxin, For each, the suitability was evaluated by predicting the predicted characteristics and determining the intervals in which the attribute values are divided (see Table 1310). Note that the material properties (here, water solubility) of the prediction target data are all known, so they are shown in Table 1320 for the purpose of verifying prediction accuracy.
  • the material properties here, water solubility
  • the relationship between the index and evaluation result for each prediction target data is as follows. ⁇ For the prediction target data evaluated as rank 1 and rank 2, prediction characteristics of high water solubility and good prediction accuracy have been obtained, but the structural formula is simple and unexpected. is low. ⁇ For prediction target data evaluated as rank 3, prediction characteristics of relatively high water solubility have been obtained, good prediction accuracy has been obtained, and the structural formula is relatively complex. Highly unexpected. - For the prediction target data evaluated as rank 4, prediction characteristics with very high water solubility have been obtained, but in reality, the material has low water solubility and the prediction accuracy is extremely low. Note that the structural formula is complex and highly unexpected.
  • FIG. 14 is a diagram showing Example 2.
  • Example 2 as a plurality of prediction target data, ⁇ Erythritol, ⁇ methanol, ⁇ Lactose, ⁇ Raffinose, For each, the suitability was evaluated by predicting the predicted characteristics and determining the intervals in which the attribute values are divided (see Table 1410). Note that the material properties (also water solubility here) of the above prediction target data are all known, so they are shown in Table 1420 for the purpose of verifying prediction accuracy.
  • the relationship between the index and evaluation result for each prediction target data is as follows. ⁇ For the prediction target data evaluated as rank 1 and rank 2, prediction characteristics of high water solubility and good prediction accuracy have been obtained, but the structural formula is simple and unexpected. is low. ⁇ For prediction target data evaluated as rank 3, prediction characteristics of relatively high water solubility have been obtained, good prediction accuracy has been obtained, and the structural formula is relatively complex. Highly unexpected. ⁇ For the prediction target data evaluated as rank 4, prediction characteristics of relatively high water solubility and good prediction accuracy were obtained, and the structural formula was complex and unexpected. is high.
  • Example 3 is a diagram showing Example 3. As shown in FIG. 15, in Example 3, as a plurality of prediction target data, ⁇ urea, ⁇ methanol, ⁇ caffeine, ⁇ Digoxin, For each, the suitability was evaluated by predicting the predicted characteristics and determining the intervals in which the attribute values are divided (see Table 1510). Note that the material properties (also water solubility here) of the above prediction target data are all known, so they are shown in Table 1520 for the purpose of verifying prediction accuracy.
  • the relationship between the index and evaluation result for each prediction target data is as follows. ⁇ For the prediction target data evaluated as rank 1 and rank 2, prediction characteristics of high water solubility and good prediction accuracy have been obtained, but the structural formula is simple and unexpected. is low. ⁇ For prediction target data evaluated as rank 3, prediction characteristics of relatively high water solubility have been obtained, good prediction accuracy has been obtained, and the structural formula is relatively complex. Highly unexpected. - Regarding the prediction target data evaluated as rank 4, prediction characteristics of high water solubility have been obtained, but in reality, the material has low water solubility and the prediction accuracy is extremely low. Note that the structural formula is complex and highly unexpected.
  • a frequency distribution of water solubility is generated based on the water solubility data set disclosed in the following non-patent literature, and the prediction target data evaluated as rank 3 in Examples 1 to 3 is calculated. Water solubility was verified.
  • FIG. 16 is a diagram illustrating an example of verification of predictive characteristics. As shown in FIG. 16, it can be seen that the water solubility of the prediction target data evaluated as rank 3 in Examples 1 to 3 is objectively high. In other words, it can be said that the prediction characteristics of the prediction target data and the evaluation results of the prediction target data output by the prediction device 130 accurately represent the possibility of becoming useful new material.
  • the prediction device is - Obtain the training dataset used to generate the trained prediction model, and classify the attribute value from the frequency distribution of the attribute value calculated among multiple material data included in the training dataset. Determine multiple intervals. ⁇ By determining which of multiple intervals the attribute values calculated between the material data of the prediction target data and multiple material data included in the learning dataset are classified into, conflicting two Evaluate the suitability of prediction target data for two indicators. - By inputting prediction target data, the prediction characteristics predicted by the learned model are displayed in association with the evaluation results.
  • the prediction device According to the prediction device according to the first embodiment, it is possible to narrow down the prediction target data for performing material generation and verification experiments, and it is possible to improve the efficiency of developing new materials.
  • the median, first quartile, third quartile, and interquartile range are calculated as summary statistics, and the coefficients ⁇ 1 and ⁇ 2 are determined.
  • the section has been decided.
  • the method for determining each section is not limited to this.
  • ⁇ Average value of the minimum attribute value of each material ⁇ Standard deviation of the minimum attribute value of each material, Calculate multiple intervals, ⁇ An interval in which attribute values such as “attribute value ⁇ (average value + ⁇ 1 ⁇ standard deviation)” are divided, ⁇ An interval in which attribute values such as “(average value + ⁇ 1 ⁇ standard deviation) ⁇ attribute value ⁇ (average value + ⁇ 2 ⁇ standard deviation)” are divided, ⁇ An interval in which attribute values such as “(average value + ⁇ 2 ⁇ standard deviation) ⁇ attribute value ⁇ (average value + ⁇ 3 ⁇ standard deviation)” are divided, ⁇ An interval in which attribute values such as “(average value + ⁇ 3 ⁇ standard deviation) ⁇ attribute value” are divided, You may decide that.
  • the number of sections to be determined is not limited to four, as long as the sections do not overlap with each other, and may be three or more. That's fine.
  • prediction target data is input to the prediction device 130 one by one, but a plurality of prediction target data may be input to the prediction device 130.
  • the prediction device 130 may be configured, for example, to display only the prediction characteristics and evaluation results of the prediction target data that is highly likely to become useful new material among the plurality of prediction target data.
  • the prediction target data input unit 901 The minimum attribute value calculated for the structural formula (structural formula 3rd section), or - If the structural formula of the material (structural formula The structural formula (structural formula X) of the material may be selected and controlled to be input to the learned prediction model 902.
  • the learning device and the prediction device are described as being realized by separate devices, but the learning device and the prediction device may be realized as an integrated device.
  • Material design system 110 Material property experiment device 120: Learning device 130: Prediction device 140: Material design device 150: Material generation device 160: Material property experiment device 201: Data acquisition unit for learning 202: Learning unit 211: For learning Data attribute value calculation unit 212: Section determination unit 221: Prediction target data acquisition unit 222: Prediction unit 223: Prediction target data attribute value calculation unit 224: Evaluation unit 225: Display unit 400: Learning dataset 700: Prediction target data 902 : Learned prediction model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Computational Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)

Abstract

新規材料の開発効率を向上させる。予測装置は、学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部とを有する。

Description

予測装置、材料設計システム、予測方法及び予測プログラム
 本開示は、予測装置、材料設計システム、予測方法及び予測プログラムに関する。
 近年、新規材料の開発においては、例えば、機械学習により生成された学習済みの予測モデルを用いて、材料特性の予測を行う試み等がなされている。当該学習済みの予測モデルを用いることで、材料の生成、材料特性の検証実験等の工程を縮小することができ、新規材料の開発効率を向上させることが期待できるからである。
 一方で、機械学習により生成された学習済みの予測モデルの場合、予測対象データ(入力データ)が、当該機械学習の際に用いられた学習用データと著しく乖離していた場合、予測精度が低下することが知られている。
 これに対して、例えば、下記非特許文献1等では、予測モデルの適用範囲(所望する予測精度が実現可能な予測対象データの範囲)を定義することが提案されている。
Igor I. Baskin, Natalia Kireeva, and Alexandre Varnek,"The One-Class Classification Approach to Data Description and to Models Applicability Domain", Nol.Inf.2010,29,581p-587p
 しかしながら、新規材料の開発において、学習用データに近い予測対象データについて材料特性の予測を行ったとしても、当該予測対象データは意外性に乏しく、有益な新規材料となる可能性も低い。
 一方で、学習用データから著しく乖離した予測対象データの場合、そもそも予測精度が低いため、仮に所定の条件を満たす材料特性が予測されたとしても、実際に生成した際に予測したとおりの材料特性が得られることは少なく、有益な新規材料となる可能性も低い。
 このようなことから、新規材料の開発においては、意外性と予測精度という相反する2つの指標のもとで予測モデルの適用範囲を定義することが、開発効率を向上させるうえで重要と考えられる。
 本開示は、新規材料の開発効率を向上させることを目的としている。
 本開示の第1の態様に係る予測装置は、
 学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、
 予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、
 前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部とを有する。
 本開示の第2の態様は、第1の態様に記載の予測装置であって、
 前記区間決定部は、前記複数のデータ間で算出される属性値について要約統計量を算出し、前記複数の区間を規定する、属性値の下限値または上限値を決定する。
 本開示の第3の態様は、第2の態様に記載の予測装置であって、
 前記区間決定部は、互いに重複しない3つ以上の区間を決定する。
 本開示の第4の態様は、第3の態様に記載の予測装置であって、
 前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間に近い何番目の区間に区分けされるかにより、前記予測対象のデータの適正を評価する。
 本開示の第5の態様は、第3の態様に記載の予測装置であって、
 前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間から最も離れた区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータから除外する。
 本開示の第6の態様は、第3の態様に記載の予測装置であって、
 前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間に近いR番目の区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータとして選択する。
 本開示の第7の態様は、第1の態様に記載の予測装置であって、
 前記学習用データセットに含まれる複数のデータ間の距離を算出する学習用データ属性値算出部と、
 前記複数のデータそれぞれについて算出された他のデータとの間の距離のうち、最小距離を抽出する学習用データ最小属性値抽出部と、を更に有し、
 前記区間決定部は、抽出された前記最小距離の度数分布から、該最小距離を区分けするための前記複数の区間を決定する。
 本開示の第8の態様は、第7の態様に記載の予測装置であって、
 前記学習用データ属性値算出部は、前記学習用データセットに含まれるN個のデータ(Nは任意の整数)のうち、i番目(1≦i≦N)のデータと、i番目のデータを除く(N-1)個のデータとの間の距離をそれぞれ算出し、
 前記学習用データ最小属性値抽出部は、前記i番目のデータについて算出された(N-1)個の距離の中から、最小距離を抽出する。
 本開示の第9の態様は、第7の態様に記載の予測装置であって、
 前記予測対象のデータと、前記複数のデータとの間の距離を算出する予測対象データ属性値算出部と、
 前記予測対象のデータと、前記複数のデータとの間の距離のうち、最小距離を抽出する予測対象データ最小属性値抽出部と、を更に有し、
 前記評価部は、前記予測対象のデータについて抽出された前記最小距離が、前記複数の区間のうちのいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する。
 本開示の第10の態様は、材料設計システムであって、
 第1の態様に記載の予測装置と、
 前記予測装置の前記評価部により、前記複数のデータとの間で算出された属性値が所定の区間に区分けされると判定された予測対象のデータであって、前記予測装置の前記学習済みモデルにより、所定の条件を満たす予測値が予測された予測対象のデータを選択して入力することで、材料設計データを生成する材料設計装置とを有する。
 本開示の第11の態様は、第10の態様に記載の材料設計システムであって、
 学習用データセットに基づいて学習済みモデルを生成する学習装置を更に有し、
 前記予測装置は、前記学習装置により生成された前記学習済みモデルに、前記予測対象のデータを入力することで前記予測値を予測する。
 本開示の第12の態様は、予測方法であって、
 学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
 予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
 前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
 をコンピュータが実行する。
 本開示の第13の態様は、予測プログラムであって、
 学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
 予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
 前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
 をコンピュータに実行させる。
 本開示によれば、新規材料の開発効率を向上させることができる。
図1は、材料設計システムのシステム構成の一例を示す図である。 図2は、学習装置及び予測装置の機能構成の一例を示す図である。 図3は、学習装置及び予測装置のハードウェア構成の一例を示す図である。 図4は、学習装置の学習部による処理の具体例を示す図である。 図5は、予測装置の学習用データ属性値算出部による処理の具体例を示す図である。 図6は、予測装置の区間決定部による処理の具体例を示す図である。 図7は、予測装置の予測対象データ属性値算出部による処理の具体例を示す図である。 図8は、予測装置の評価部による処理の具体例を示す図である。 図9は、予測装置の予測部による処理の具体例を示す図である。 図10は、予測装置の表示部による処理の具体例を示す図である。 図11は、学習処理の流れを示すフローチャートである。 図12は、予測処理の流れを示すフローチャートである。 図13は、実施例1を示す図である。 図14は、実施例2を示す図である。 図15は、実施例3を示す図である。 図16は、予測特性の検証例を示す図である。
 以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
 [第1の実施形態]
 <材料設計システムのシステム構成>
 はじめに、第1の実施形態に係る材料設計システムのシステム構成について説明する。図1は、材料設計システムのシステム構成の一例を示す図である。図1に示すように、材料設計システム100は、材料特性実験装置110、学習装置120、予測装置130、材料設計装置140、材料生成装置150、材料特性実験装置160を有する。
 材料特性実験装置110は、"材料データ"が既知の構造式である材料についての"材料特性"の特性値を、実験によって求めるための装置である。実験者111が当該材料特性実験装置110を用いて求めた各材料の特性値は、対応する構造式とともに、学習用データとして、学習装置120に入力される。なお、学習用データは、公知のデータベースの情報を元に構成されてもよい。
 学習装置120は、取得した複数の学習用データを含む学習用データセットを用いて、予測モデル(材料の構造式から、当該材料の特性値を予測するモデル)について機械学習を行い、学習済みの予測モデルを生成する。また、学習装置120は、学習済みの予測モデルを生成するのに用いた学習用データセットと、学習済みの予測モデルのモデルパラメータとを、予測装置130に通知する。
 予測装置130は、学習装置120より通知されたモデルパラメータが設定された学習済みの予測モデルを有し、設計者131により入力された予測対象データの予測特性(予測値の一例)を予測する。
 また、予測装置130は、学習装置120より通知された学習用データセットを解析し、各学習用データの材料データが、他の学習用データの材料データからどの程度乖離しているかを定量的に算出することで、材料データ間の属性値を算出する。
 また、予測装置130は、算出した材料データ間の属性値の度数分布を算出することで、該属性値を区分けするための複数の区間(具体的には、それぞれの区間を規定する属性値の下限値、上限値)を決定する。
 また、予測装置130は、予測対象データの材料データが、各学習用データの材料データからどの程度乖離しているかを定量的に算出することで、予測対象データの材料データの属性値を算出する。更に、予測装置130は、予測対象データの材料データの属性値が、決定した複数の区間のいずれに区分けされるかを判定することで、予測対象データの適正を評価し、評価結果を予測特性と対応付けて出力する。
 なお、ここでいう予測対象データの適正とは、新規材料の開発における、意外性と予測精度という相反する2つの指標に対する予測対象データの適正を指す。予測対象データの適正が高いとは、学習用データに対する予測対象データの意外性と、予測対象データの予測特性についての予測精度との間でバランスがとれていることを指す(本実施形態では、当該適正を「ランク」として表す(詳細は後述))。
 予測装置130により出力された、予測対象データの予測特性及び予測対象データの評価結果は、設計者131に報知される。これにより、設計者131は、予測対象データの予測特性を把握することができるとともに、当該予測対象データに基づいて生成される材料が、有益な新規材料となる可能性が高いか低いかを把握することができる。
 材料設計装置140は、材料設計データを生成する装置である。設計者131は、有益な新規材料となる可能性が高い予測対象データを選択して、材料設計装置140に入力することで、材料設計データを生成する。
 材料生成装置150は、生成された材料設計データに基づいて、実際に材料を生成するための装置である。
 材料特性実験装置160は、材料生成装置150により実際に生成された新規材料の材料特性を、検証実験により求めるための装置である。実験者161が当該材料特性実験装置160を用いて求めた当該新規材料の材料特性は、設計者131に通知される。
 <学習装置及び予測装置の機能構成>
 次に、材料設計システム100を構成する各装置のうち、学習装置120及び予測装置130の機能構成について図2を参照しながら説明する。図2は、学習装置及び予測装置の機能構成の一例を示す図である。
 学習装置120には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習装置120は、学習用データ取得部201、学習部202として機能する。
 学習用データ取得部201は、実験者111により入力された学習用データを取得し、学習用データ格納部205に格納する。
 学習部202は、学習用データ格納部205に格納された複数の学習用データを含む学習用データセットを用いて、予測モデルに対して機械学習を行い、学習済みの予測モデルを生成する。学習部202により生成された学習済みの予測モデルのモデルパラメータは、学習済みの予測モデルの生成に用いられた学習用データセットとともに、予測装置130に通知される。
 予測装置130には、予測プログラムがインストールされている。予測装置130は、当該プログラムが実行されることで、学習用データ属性値算出部211、区間決定部212、予測対象データ取得部221、予測部222、予測対象データ属性値算出部223、評価部224、表示部225として機能する。
 学習用データ属性値算出部211は、学習装置120より通知された学習用データセットを解析し、各学習用データの材料データが、他の学習用データの材料データからどの程度乖離しているかを定量的に算出することで、材料データ間の属性値を算出する。
 区間決定部212は、学習用データ属性値算出部211により算出された材料データ間の属性値の度数分布を算出することで、該属性値を区分けするための複数の区間(具体的には、それぞれの区間を規定する属性値の下限値、上限値)を決定する。
 予測対象データ取得部221は、設計者131により入力された予測対象データを取得し、予測部222及び予測対象データ属性値算出部223に通知する。
 予測部222は、学習部202より通知されたモデルパラメータが設定された学習済みの予測モデルを有し、設計者131により入力された予測対象データの予測特性を予測する。
 予測対象データ属性値算出部223は、学習装置120より通知された学習用データセットの各学習用データを取得するとともに、予測対象データ取得部221より通知された予測対象データを取得する。
 また、予測対象データ属性値算出部223は、予測対象データの材料データが、各学習用データの材料データからどの程度乖離しているかを定量的に算出することで、予測対象データの材料データの属性値を算出する。
 評価部224は、予測対象データ属性値算出部223により算出された予測対象データの材料データの属性値が、区間決定部212により決定された複数の区間のうちのいずれに区分けされるかを判定する。これにより、評価部224は、予測対象データの適正を評価し、評価結果を表示部225に通知する。
 なお、評価部224には予め除外対象が設定されており、算出された属性値が所定の区間に区分けされた場合、当該予測対象データは、予測部222による予測対象から除外する(つまり、予測部222によって学習済みの予測モデルに入力されることはない)。あるいは、評価部224は、算出された属性値が所定の区間に区分けされた場合、当該予測対象データは、表示部225による表示対象から除外する(つまり、表示部225によって表示されることはない)。
 表示部225は、予測部222により予測された、予測対象データの予測特性と、評価部224により評価された予測対象データの評価結果とを対応付けて表示する。
 このように、第1の実施形態に係る材料設計システム100は、
・予測装置130を有し、予測対象データの予測特性を予測する。これにより、第1の実施形態によれば、所定の条件を満たす予測特性が予測されなかった予測対象データを、材料の生成及び検証実験の対象から排除することができる。
・予測装置130を有し、予測対象データの評価結果を出力する。これにより、第1の実施形態によれば、予測装置130によって所定の条件を満たす予測特性が予測された場合であっても、有益な新規材料となる可能性が低い予測対象データを、材料の生成及び検証実験の対象から排除することができる。
 この結果、第1の実施形態に係る材料設計システム100によれば、材料の生成及び検証実験を行う予測対象データを絞り込むことが可能となり、新規材料の開発効率を向上させることができる。
 <学習装置及び予測装置のハードウェア構成>
 次に、学習装置120及び予測装置130のハードウェア構成について説明する。なお、学習装置120及び予測装置130は、同様のハードウェア構成を有するため、ここでは、図3を用いて、学習装置120及び予測装置130のハードウェア構成をまとめて説明する。
 図3は、学習装置及び予測装置のハードウェア構成の一例を示す図である。図3に示すように、学習装置120及び予測装置130は、プロセッサ301、メモリ302、補助記憶装置303、I/F(Interface)装置304、通信装置305、ドライブ装置306を有する。なお、学習装置120及び予測装置130の各ハードウェアは、バス307を介して相互に接続されている。
 プロセッサ301は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ301は、各種プログラム(例えば、学習プログラム、予測プログラム等)をメモリ302上に読み出して実行する。
 メモリ302は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ301とメモリ302とは、いわゆるコンピュータを形成し、プロセッサ301が、メモリ302上に読み出した各種プログラムを実行することで、当該コンピュータは上記各種機能を実現する。
 補助記憶装置303は、各種プログラムや、各種プログラムがプロセッサ301によって実行される際に用いられる各種データを格納する。例えば、学習用データ格納部205は、補助記憶装置303において実現される。
 I/F装置304は、ユーザインタフェース装置の一例である操作装置311、表示装置312と接続する接続デバイスである。通信装置305は、ネットワークを介して外部装置(不図示)と通信するための通信デバイスである。
 ドライブ装置306は記録媒体313をセットするためのデバイスである。ここでいう記録媒体313には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体313には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
 なお、補助記憶装置303にインストールされる各種プログラムは、例えば、配布された記録媒体313がドライブ装置306にセットされ、該記録媒体313に記録された各種プログラムがドライブ装置306により読み出されることでインストールされる。あるいは、補助記憶装置303にインストールされる各種プログラムは、通信装置305を介してネットワークからダウンロードされることで、インストールされてもよい。
 <学習装置の各部の処理の具体例>
 次に、学習装置120の各部(ここでは、学習部202)の処理の具体例について説明する。
 (1)学習部202による処理の具体例
 はじめに、学習装置120の学習部202による処理の具体例について説明する。図4は、学習装置の学習部による処理の具体例を示す図である。図4に示すように、学習部202は、入力部401、予測モデル402、比較/変更部403を有する。
 なお、図4において学習用データセット400は、情報の項目として、"データ番号"、"材料データ"、"材料特性"を含む。"データ番号"には、各学習用データを識別するための番号が格納され、"材料データ"には、各材料の構造式が格納され、"材料特性"には、各材料の特性値が格納される。図4の例は、N個の学習用データ(Nは任意の整数)が格納されていることを示している。
 入力部401は、学習用データセット400より各学習用データの"材料データ"に含まれる材料の構造式を読み出し、予測モデルに入力する。
 予測モデル402は、各学習用データの"材料データ"に含まれる材料の構造式が入力されることで、材料特性に相当する出力データを出力する。
 比較/変更部403は、予測モデル402より出力された出力データが、各学習用データの"材料特性"に含まれる材料の特性値に近づくように、予測モデル402のモデルパラメータを更新する。
 これにより、学習部202では、予測対象データの材料データに基づいて、当該予測対象データの材料特性を予測可能な学習済みの予測モデルを生成することができる。
 <予測装置の各部の処理の具体例>
 次に、予測装置130の各部(ここでは、学習用データ属性値算出部211、区間決定部212、予測対象データ属性値算出部223、評価部224、予測部222、表示部225)の処理の具体例について説明する。
 (1)学習用データ属性値算出部211による処理の具体例
 はじめに、学習用データ属性値算出部211による処理の具体例について説明する。図5は、予測装置の学習用データ属性値算出部による処理の具体例を示す図である。図5に示すように、学習用データ属性値算出部211は、相互属性値算出部501、学習用データ最小属性値抽出部502を有する。
 相互属性値算出部501は、N個の学習用データを含む学習用データセット400の"データ番号"及び"材料データ"から、各学習用データを識別するための番号及び各材料の構造式を読み出す。
 また、相互属性値算出部501は、読み出したN個の学習用データの"材料データ"に含まれる材料の構造式のうち、
・i番目(1≦i≦N)の学習用データの"材料データ"に含まれる材料の構造式と、
・i番目の学習用データを除く(N-1)個の他の学習用データの"材料データ"に含まれる材料の構造式と、
の組み合わせを生成し、全ての組み合わせについて、材料データ間の属性値を算出する。ここでいう材料データ間の属性値とは、i番目の学習用データの"材料データ"に含まれる材料の構造式と、i番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式とが、どの程度乖離しているかを示す値を指す。具体的には、i番目の学習用データの"材料データ"に含まれる材料の構造式と、i番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式との間の距離を指す。あるいは、i番目の学習用データの"材料データ"に含まれる材料の構造式と、i番目の学習用データを除く他の学習用データの"材料データ"に含まれる材料の構造式との間の密度等を指す。
 図5において、表511は、横軸及び縦軸に、各学習用データを識別するための番号をそれぞれ配した表である。表511には、学習用データセット400に含まれる各学習用データの材料データの全ての組み合わせが示されている。
 また、表511において、横軸に示した番号と縦軸に示した番号とが交差する領域には、対応する学習用データの材料データの組み合わせについて算出された、材料データ間の属性値が示されている。
 例えば、横軸のデータ番号="2"と、縦軸のデータ番号="1"とが交差する領域には、
・データ番号="2"の学習用データの材料データ="構造式2"と、
・データ番号="1"の学習用データの材料データ="構造式1"と、
の組み合わせについて算出された、材料データ間の属性値(=0.1)が格納される。
 学習用データ最小属性値抽出部502は、相互属性値算出部501により算出された、全ての組み合わせについての材料データ間の属性値から、材料ごとに、最小の属性値(例えば、最小距離)を抽出する。
 図5において、表512は、各学習用データを識別するための番号に対応付けて、学習用データ最小属性値抽出部502により材料ごとに抽出された最小の属性値を示したものである。
 例えば、データ番号="1"により識別される学習用データの場合、当該材料の最小の属性値は、"0.1"となる。
 なお、学習用データ最小属性値抽出部502により抽出された各材料の最小の属性値は、区間決定部212に通知される。
 (2)区間決定部212による処理の具体例
 次に、区間決定部212による処理の具体例について説明する。図6は、予測装置の区間決定部による処理の具体例を示す図である。図6に示すように、区間決定部212は、度数分布生成部601、区間算出部602を有する。
 度数分布生成部601は、学習用データ最小属性値抽出部502より通知された、各材料の最小の属性値を取得し、度数分布を生成する。図6において、符号611は、度数分布生成部601により生成された度数分布の一例であり、横軸は属性値を、縦軸はデータ数をそれぞれ表している。
 区間算出部602は、度数分布生成部601により取得された、各材料の最小の属性値に基づいて、要約統計量を算出する。具体的には、区間算出部602は、
・各材料の最小の属性値の中央値、
・各材料の最小の属性値の第一四分位(Q25)、
・各材料の最小の属性値の第三四分位(Q75)、
・各材料の最小の属性値の四分位範囲(IQR=Q75-Q25)、
を算出する。また、区間算出部602は、算出した上記要約統計量に基づいて、各属性値を区分けするための複数の区間を決定する際の、係数(α、α)を決定する。
 図6の例は、係数α="1.5"、係数α="3.0"と決定し、度数分布生成部601により生成された度数分布(符号611)に対して、
・「属性値<(第三四分位(Q75))」となる属性値が区分けされる区間の上限値、
・「(第三四分位(Q75))≦属性値<(四分位範囲(IQR)をα倍した値を第三四分位(Q75)に加算した値)」となる属性値が区分けされる区間の下限値、上限値、
・「(四分位範囲(IQR)をα倍した値を第三四分位(Q75)に加算した値)≦属性値<(四分位範囲(IQR)をα倍した値を第三四分位(Q75)に加算した値)」となる属性値が区分けされる区間の下限値、上限値、
・「(四分位範囲(IQR)をα倍した値を第三四分位(Q75)に加算した値)≦属性値」となる属性値が区分けされる区間の下限値、
を決定した様子を示している。
 また、図6の例では、
・所定の要約統計量(ここでは、「中央値」)が含まれる区間を、「ランク1」、
・所定の要約統計量が含まれる区間に近い1番目の区間を、「ランク2」、
・所定の要約統計量が含まれる区間に近い2番目の区間を、「ランク3」、
・所定の要約統計量が含まれる区間から最も離れた区間を、「ランク4」、
と規定している。
 ここで、上記ランクと新規材料の開発における相反する2つの指標(意外性、予測精度)との関係について考察すると、
・予測精度は、「ランク1」→「ランク2」→「ランク3」→「ランク4」の順に低下する。つまり、ランクは、予測精度の高さを表している。
・意外性は、「ランク1」→「ランク2」→「ランク3」→「ランク4」の順に上がる。つまり、ランクは、意外性の低さを表している。
 このように、各ランクは、新規材料の開発における相反する2つの指標(意外性、予測精度)を同時に表しているといえる。
 (3)予測対象データ属性値算出部223による処理の具体例
 次に、予測対象データ属性値算出部223による処理の具体例について説明する。図7は、予測装置の予測対象データ属性値算出部による処理の具体例を示す図である。図7に示すように、予測対象データ属性値算出部223は、相互属性値算出部701、予測対象データ最小属性値抽出部702を有する。
 相互属性値算出部701は、学習装置120より通知されたN個の学習用データを含む学習用データセット400の"データ番号"及び"材料データ"から、各学習用データを識別するための番号及び各材料の構造式を読み出す。また、相互属性値算出部701は、予測対象データ取得部221より通知された予測対象データ700の"データ番号"及び"材料データ"から、予測対象データを識別するための番号及び材料の構造式を読み出す。
 また、相互属性値算出部701は、読み出したN個の学習用データの"材料データ"に含まれる材料の構造式のうち、
・i番目(1≦i≦N)の学習用データの"材料データ"に含まれる材料の構造式と、
・予測対象データ700の"材料データ"に含まれる材料の構造式と、
の組み合わせを生成し、全ての組み合わせについて、材料データ間の属性値を算出する。ここでいう材料データ間の属性値とは、i番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ700の"材料データ"に含まれる材料の構造式とが、どの程度乖離しているかを示す値を指す。具体的には、i番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ700の"材料データ"に含まれる材料の構造式との間の距離を指す。あるいは、i番目の学習用データの"材料データ"に含まれる材料の構造式と、予測対象データ700の"材料データ"に含まれる材料の構造式との間の密度等を指す。
 図7において、表711は、横軸に学習用データセット400に含まれる各学習用データを識別するための番号を、縦軸に予測対象データを識別するための番号をそれぞれ配した表である。表711には、学習用データセット400に含まれる各学習用データの材料データと、予測対象データの材料データとの間の全ての組み合わせが示されている。
 また、表711において、横軸に示した番号と縦軸に示した番号とが交差する領域には、対応する学習用データの材料データと、対応する予測対象データの材料データとの組み合わせについて算出された材料データ間の属性値が示されている。
 例えば、横軸のデータ番号="2"と、縦軸のデータ番号="X"とが交差する領域には、
・データ番号="2"の学習用データの材料データ="構造式2"と、
・データ番号="X"の予測対象データの材料データ="構造式X"と、
の組み合わせについて算出された、材料データ間の属性値(=0.1)が格納される。
 予測対象データ最小属性値抽出部702は、相互属性値算出部701により算出された、全ての組み合わせについての材料データ間の属性値から、最小の属性値を抽出する。
 図7において、表712は、予測対象データを識別するための番号に対応付けて、予測対象データ最小属性値抽出部702により抽出された最小の属性値を示したものである。図7の例は、最小の属性値が、"0.1"であったことを示している。
 なお、予測対象データ最小属性値抽出部702により抽出された最小の属性値は、評価部224に通知される。
 (4)評価部224による処理の具体例
 次に、評価部224による処理の具体例について説明する。図8は、予測装置の評価部による処理の具体例を示す図である。図8に示すように、評価部224は、属性値取得部801、評価結果出力部802を有する。
 属性値取得部801は、予測対象データ最小属性値抽出部702より通知された最小の属性値を取得し、区間決定部212より通知された複数の区間のいずれに区分けされるかを判定する。図8の例は、予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)について算出された最小の属性値が、所定の要約統計量(中央値)が含まれる区間に近いR番目の区間(R=2)に区分けされたと判定された様子を示している。
 評価結果出力部802は、属性値取得部801により判定された区間が、R番目の区間(R=2)であることから、新規材料の開発における予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)の適正について、
・意外性の低さがR番目(R=2)、
・予測精度の高さがR番目(R=2)、
である(ランク2である)と評価する。つまり、評価結果出力部802は、予測対象データの材料データの属性値が、所定の要約統計量(中央値)が含まれる区間に近い何番目の区間に区分けされるかにより、予測対象データの適正(ランク)を評価する。
 また、評価結果出力部802は、評価結果(ランク)を表示部225に通知する。
 更に、評価結果出力部802は、予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)について算出された最小の属性値が、所定の区間に区分けされたか否かを判定する。具体的には、予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)の適正についての評価結果(ランク)が、除外対象に該当するか否かを判定する。評価結果出力部802は、除外対象に該当すると判定した場合には、予測部222及び/または表示部225に通知する。
 (5)予測部222による処理の具体例
 次に、予測部222による処理の具体例について説明する。図9は、予測装置の予測部による処理の具体例を示す図である。図9に示すように、予測部222は、予測対象データ入力部901、学習済み予測モデル902、予測特性出力部903を有する。
 予測対象データ入力部901は、予測対象データ取得部221より予測対象データ700が通知されると、予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)を、学習済み予測モデル902に入力する。
 なお、予測対象データ入力部901は、評価結果出力部802より、除外対象に該当するとの判定結果が通知されていた場合、予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)を、入力しないように制御してもよい。
 学習済み予測モデル902は、学習部202により学習処理が行われることで算出されたモデルパラメータが設定された学習済みの予測モデルである。予測対象データ700の"材料データ"に含まれるに材料の構造式(構造式X)が入力されると、学習済み予測モデル902は、予測対象データ700の予測特性を予測する。
 予測特性出力部903は、学習済み予測モデル902により予測された、予測対象データ700の予測特性を、表示部225に通知する。
 (6)表示部225による処理の具体例
 次に、表示部225による処理の具体例について説明する。図10は、予測装置の表示部による処理の具体例を示す図である。図10に示すように、表示部225は、表示情報取得部1001を有する。表示情報取得部1001は、評価部224より通知された評価結果と、予測部222より通知された予測特性とを取得し、表示データ1011を生成する。
 図10に示すように、表示データ1011は、情報の項目として、"材料データ"、"予測特性"、"評価結果"を含む。"材料データ"には、予測対象データ700の"材料データ"に含まれる材料の構造式である"構造式X"が格納され、"予測特性"には、予測対象データ700について予測された予測特性である"特性値2"が格納される。また、"評価結果"には、新規材料の開発における予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)の適正を評価した評価結果である"ランク2"が格納される。
 <学習装置による学習処理の流れ>
 次に、学習装置120による学習処理の流れについて説明する。図11は、学習処理の流れを示すフローチャートである。
 ステップS1101において、学習装置120は、実験者111が材料特性実験装置110を用いて、実験によって求めた各材料の材料特性を含む学習用データセットを取得する。
 ステップS1102において、学習装置120は、学習用データセットを用いて予測モデルに対して学習処理を行い、学習済みの予測モデルを生成する。
 <予測装置による予測処理の流れ>
 次に、予測装置130による予測処理の流れについて説明する。図12は、予測処理の流れを示すフローチャートである。
 ステップS1201において、予測装置130は、学習装置120が学習済みの予測モデルを生成する際に用いた学習用データセットと、学習済みの予測モデルのモデルパラメータとを取得する。
 ステップS1202において、予測装置130は、学習用データセットを解析し、材料データ間の属性値を算出する。
 ステップS1203において、予測装置130は、算出した材料データ間の属性値の度数分布を算出し、属性値を区分けするための複数の区間を決定する。
 ステップS1204において、予測装置130は、除外対象の設定を参照する。
 ステップS1205において、予測装置130は、予測対象データを取得する。
 ステップS1206において、予測装置130は、予測対象データの材料データの属性値を算出する。
 ステップS1207において、予測装置130は、算出した予測対象データの材料データの属性値が、決定した複数の区間のいずれに区分けされるかを判定することで、相反する2つの指標に対する予測対象データの適正(ランク)を評価する。
 ステップS1208において、予測装置130は、評価結果が除外対象に該当するか否かを判定する。ステップS1208において除外対象に該当しないと判定した場合には(ステップS1208においてNOの場合には)、ステップS1211に進む。
 一方、ステップS1208において、除外対象に該当すると判定した場合には(ステップS1208においてYESの場合には)、ステップS1210に進む。
 ステップS1209において、予測装置130は、予測対象データを、予測対象または表示対象から除外する。
 ステップS1210において、予測装置130は、予測対象データを学習済みの予測モデルに入力することで、予測特性を予測する。
 ステップS1211において、予測装置130は、予測対象データと、予測特性と、評価結果とを対応付けた表示データを表示する。
 <各実施例における指標と評価結果との関係>
 次に、予測装置130を用いて、複数の予測対象データの組について、予測処理を行った結果(予測特性、評価結果)を以下に示すとともに、相反する2つの指標と評価結果との関係及び予測特性の検証例について説明する。
 具体的には、後述の非特許文献に開示されている水溶解度データセットのうちの100分子を学習用データセットとして学習し、残りの未学習の分子を予測対象データとして、水溶解度を予測するとともに、評価結果を得た。学習用データセットの分子を変更して3回行った結果を、以下に実施例1~3として記す。
 手順としては、RDKITを使用して分子構造を示すSMILES(Simplified Molecular Line Entry System)から記述子を計算し、計算された記述子を標準化した値を説明変数として使用した。予測モデルとしてはリッジ回帰を用いた。標準化及びリッジ回帰は、scikit-learnにより実行した。
 (1)実施例1
 図13は、実施例1を示す図である。図13に示すように、実施例1では、複数の予測対象データとして、
・ニトロメタン、
・メタノール、
・スクロース、
・ジゴキシン、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した(表1310参照)。なお、上記予測対象データの材料特性(ここでは、水溶解度)は、いずれも既知であるため、予測精度を検証する趣旨で表1320に示した。
 表1310によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク1及びランク2と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク3と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク4と評価された予測対象データについては、水溶解度が非常に高い予測特性が得られているが、実際には、水溶解度の低い材料であり、予測精度が著しく低い。なお、構造式は複雑であり、意外性は高い。
 (2)実施例2
 図14は、実施例2を示す図である。図14に示すように、実施例2では、複数の予測対象データとして、
・エリトリトール、
・メタノール、
・ラクトース、
・ラフィノース、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した(表1410参照)。なお、上記予測対象データの材料特性(ここでも水溶解度)は、いずれも既知であるため、予測精度を検証する趣旨で表1420に示した。
 表1410によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク1及びランク2と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク3と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク4と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が複雑であり、意外性が高い。
 (3)実施例3
 図15は、実施例3を示す図である。図15に示すように、実施例3では、複数の予測対象データとして、
・尿素、
・メタノール、
・カフェイン、
・ジゴキシン、
について、それぞれ、予測特性を予測するとともに、属性値が区分けされる区間を判定することで、適正を評価した(表1510参照)。なお、上記予測対象データの材料特性(ここでも水溶解度)は、いずれも既知であるため、予測精度を検証する趣旨で表1520に示した。
 表1510によれば、予測対象データごとの指標と評価結果との関係は、以下のとおりである。
・ランク1及びランク2と評価された予測対象データについては、水溶解度の高い予測特性が得られており、かつ、良好な予測精度が得られているが、構造式が単純であり、意外性が低い。
・ランク3と評価された予測対象データについては、水溶解度が比較的高い予測特性が得られており、かつ、良好な予測精度が得られており、かつ、構造式が比較的複雑であり、意外性が高い。
・ランク4と評価された予測対象データについては、水溶解度が高い予測特性が得られているが、実際には、水溶解度の低い材料であり、予測精度が著しく低い。なお、構造式は複雑であり、意外性は高い。
 (4)指標と評価結果との関係及び予測特性の検証例
 上記実施例1~実施例3によれば、良好な予測精度のもとで、水溶解度の高い予測特性が得られ、比較的複雑な構造式を有する予測対象データ(つまり、有益な新規材料となる可能性が高い予測対象データ)は、ランク3と評価される可能性が高いことがわかる。
 そこで、以下では、更に、実施例1~実施例3においてランク3と評価された予測対象データ(スクロース、ラクトース、カフェイン)の水溶解度が、一般的な材料と比較して、どの程度高いのか(つまり、客観的に高い予測特性といえるのか)を検証する。
 具体的には、下記の非特許文献に開示されている水溶解度データセットに基づいて、水溶解度の度数分布を生成し、実施例1~実施例3においてランク3と評価された予測対象データの水溶解度を検証した。
 [非特許文献]J.S.Delaney, "Estimating Aqueous Solubility Directly from Molecular Structure", Journal of chemical information and computer sciences, p1000-p1005, May 24, 2004
 図16は、予測特性の検証例を示す図である。図16に示すように、実施例1~実施例3においてランク3と評価された予測対象データの水溶解度は、客観的にも高いことがわかる。つまり、予測装置130により出力される、予測対象データの予測特性及び予測対象データの評価結果は、有益な新規材料となる可能性を的確に表しているといえる。
 <まとめ>
 以上の説明から明らかなように、第1の実施形態に係る予測装置は、
・学習済み予測モデルの生成に用いた学習用データセットを取得し、当該学習用データセットに含まれる複数の材料データ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する。
・予測対象データの材料データと、学習用データセットに含まれる複数の材料データとの間で算出される属性値が、複数の区間のいずれに区分けされるかを判定することで、相反する2つの指標に対する予測対象データの適正を評価する。
・予測対象データを入力することで、学習済みモデルにより予測された予測特性を、評価結果と対応付けて表示する。
 これにより、第1の実施形態によれば、学習済み予測モデルを用いて所定の条件を満たす予測特性が予測された場合であっても、有益な新規材料となる可能性が低い予測対象データを排除することができる。
 この結果、第1の実施形態に係る予測装置によれば、材料の生成及び検証実験を行う予測対象データを絞り込むことが可能となり、新規材料の開発効率を向上させることができる。
 [第2の実施形態]
 上記第1の実施形態では、要約統計量として、中央値、第一四分位、第三四分位、四分位範囲を算出するとともに、係数α、αを決定することで、各区間を決定した。しかしながら、各区間の決定方法は、これに限定されない。
 例えば、要約統計量として、
・各材料の最小の属性値の平均値、
・各材料の最小の属性値の標準偏差、
を算出し、複数の区間を、
・「属性値<(平均値+β×標準偏差)」となる属性値が区分けされる区間、
・「(平均値+β×標準偏差)≦属性値<(平均値+β×標準偏差)」となる属性値が区分けされる区間、
・「(平均値+β×標準偏差)≦属性値<(平均値+β×標準偏差)」となる属性値が区分けされる区間、
・「(平均値+β×標準偏差)≦属性値」となる属性値が区分けされる区間、
と決定してもよい。
 また、上記第1の実施形態では、互いに重複しない4つの区間を決定するものとして説明したが、決定する区間の数は、互いに重複しない区間であれば、4つに限定されず、3つ以上であればよい。
 また、上記第1の実施形態では、予測対象データを1つずつ予測装置130に入力する場合について説明したが、複数の予測対象データを予測装置130に入力してもよい。この場合、予測装置130は、例えば、複数の予測対象データのうち、有益な新規材料となる可能性の高い予測対象データの予測特性、評価結果のみを表示するように構成してもよい。
 また、上記第1の実施形態では、除外対象を設定する場合について説明したが、例えば、選択対象を設定するように構成してもよい。具体的には、予測対象データ入力部901は、
・予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)について算出された最小の属性値が、選択対象の区間(例えば、所定の要約統計量が含まれる区間に近い3番目の区間)に区分けされると判定された場合、または、
・予測対象データ700の"材料データ"に含まれる材料の構造式(構造式X)が、選択対象の評価結果(例えば、ランク3)であると評価された場合、
当該材料の構造式(構造式X)を選択して、学習済み予測モデル902に入力するように制御してもよい。
 また、上記第1の実施形態では、学習装置と予測装置とを別体の装置により実現するものとして説明したが、学習装置と予測装置とは一体の装置として実現してもよい。
 なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
 本出願は、2022年5月13日に出願された日本国特許出願第2022-79269号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。
 100     :材料設計システム
 110     :材料特性実験装置
 120     :学習装置
 130     :予測装置
 140     :材料設計装置
 150     :材料生成装置
 160     :材料特性実験装置
 201     :学習用データ取得部
 202     :学習部
 211     :学習用データ属性値算出部
 212     :区間決定部
 221     :予測対象データ取得部
 222     :予測部
 223     :予測対象データ属性値算出部
 224     :評価部
 225     :表示部
 400     :学習用データセット
 700     :予測対象データ
 902     :学習済み予測モデル

Claims (13)

  1.  学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定部と、
     予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価部と、
     前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価部による評価結果と対応付けて表示する表示部と
     を有する予測装置。
  2.  前記区間決定部は、前記複数のデータ間で算出される属性値について要約統計量を算出し、前記複数の区間を規定する、属性値の下限値または上限値を決定する、請求項1に記載の予測装置。
  3.  前記区間決定部は、互いに重複しない3つ以上の区間を決定する、請求項2に記載の予測装置。
  4.  前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間に近い何番目の区間に区分けされるかにより、前記予測対象のデータの適正を評価する、請求項3に記載の予測装置。
  5.  前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間から最も離れた区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータから除外する、請求項3に記載の予測装置。
  6.  前記評価部は、予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記3つ以上の区間のうち、所定の要約統計量が含まれる区間に近いR番目の区間に区分けされると判定した場合、前記予測対象のデータを、前記学習済みモデルに入力するデータとして選択する、請求項3に記載の予測装置。
  7.  前記学習用データセットに含まれる複数のデータ間の距離を算出する学習用データ属性値算出部と、
     前記複数のデータそれぞれについて算出された他のデータとの間の距離のうち、最小距離を抽出する学習用データ最小属性値抽出部と、を更に有し、
     前記区間決定部は、抽出された前記最小距離の度数分布から、該最小距離を区分けするための複数の区間を決定する、請求項1に記載の予測装置。
  8.  前記学習用データ属性値算出部は、前記学習用データセットに含まれるN個のデータ(Nは任意の整数)のうち、i番目(1≦i≦N)のデータと、i番目のデータを除く(N-1)個のデータとの間の距離をそれぞれ算出し、
     前記学習用データ最小属性値抽出部は、前記i番目のデータについて算出された(N-1)個の距離の中から、最小距離を抽出する、
     請求項7に記載の予測装置。
  9.  前記予測対象のデータと、前記複数のデータとの間の距離を算出する予測対象データ属性値算出部と、
     前記予測対象のデータと、前記複数のデータとの間の距離のうち、最小距離を抽出する予測対象データ最小属性値抽出部と、を更に有し、
     前記評価部は、前記予測対象のデータについて抽出された前記最小距離が、前記複数の区間のうちのいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する、請求項7に記載の予測装置。
  10.  請求項1に記載の予測装置と、
     前記予測装置の前記評価部により、前記複数のデータとの間で算出された属性値が所定の区間に区分けされると判定された予測対象のデータであって、前記予測装置の前記学習済みモデルにより、所定の条件を満たす予測値が予測された予測対象のデータを入力し、材料設計データを生成する材料設計装置と、
     を有する材料設計システム。
  11.  学習用データセットに基づいて学習済みモデルを生成する学習装置を更に有し、
     前記予測装置は、前記学習装置により生成された前記学習済みモデルに、前記予測対象のデータを入力することで前記予測値を予測する、請求項10に記載の材料設計システム。
  12.  学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
     予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
     前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
     をコンピュータが実行する予測方法。
  13.  学習済みモデルの生成に用いられる学習用データセットを取得し、前記学習用データセットに含まれる複数のデータ間で算出される属性値の度数分布から、該属性値を区分けするための複数の区間を決定する区間決定工程と、
     予測対象のデータと、前記複数のデータとの間で算出される属性値が、前記複数の区間のいずれに区分けされるかを判定することで、相反する指標に対する前記予測対象のデータの適正を評価する評価工程と、
     前記予測対象のデータを入力することで、前記学習済みモデルにより予測された予測値を、前記評価工程における評価結果と対応付けて表示する表示工程と
     をコンピュータに実行させるための予測プログラム。
PCT/JP2023/017086 2022-05-13 2023-05-01 予測装置、材料設計システム、予測方法及び予測プログラム Ceased WO2023219037A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US18/852,625 US20250217552A1 (en) 2022-05-13 2023-05-01 Prediction device, material design system, prediction method, and prediction program
EP23803514.1A EP4524840A4 (en) 2022-05-13 2023-05-01 Prediction device, material design system, prediction method, and prediction program
JP2023548629A JP7480919B2 (ja) 2022-05-13 2023-05-01 予測装置、材料設計システム、予測方法及び予測プログラム
CN202380039342.1A CN119173889A (zh) 2022-05-13 2023-05-01 预测装置、材料设计系统、预测方法以及预测程序
JP2024060722A JP2024086784A (ja) 2022-05-13 2024-04-04 材料設計システム及び材料製造方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-079269 2022-05-13
JP2022079269 2022-05-13

Publications (1)

Publication Number Publication Date
WO2023219037A1 true WO2023219037A1 (ja) 2023-11-16

Family

ID=88730514

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017086 Ceased WO2023219037A1 (ja) 2022-05-13 2023-05-01 予測装置、材料設計システム、予測方法及び予測プログラム

Country Status (5)

Country Link
US (1) US20250217552A1 (ja)
EP (1) EP4524840A4 (ja)
JP (2) JP7480919B2 (ja)
CN (1) CN119173889A (ja)
WO (1) WO2023219037A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171115A1 (en) * 2018-03-05 2019-09-12 Omron Corporation Method for controlling operations of mechanical device and method and device for determining reliability of data
JP2020086778A (ja) * 2018-11-21 2020-06-04 株式会社東芝 機械学習モデル構築装置および機械学習モデル構築方法
JP2020166499A (ja) * 2019-03-29 2020-10-08 ファナック株式会社 検査装置、検査システム、及びユーザインタフェース
JP2022079269A (ja) 2020-11-16 2022-05-26 株式会社不二越 ロボット及び配線ケース

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171115A1 (en) * 2018-03-05 2019-09-12 Omron Corporation Method for controlling operations of mechanical device and method and device for determining reliability of data
JP2020086778A (ja) * 2018-11-21 2020-06-04 株式会社東芝 機械学習モデル構築装置および機械学習モデル構築方法
JP2020166499A (ja) * 2019-03-29 2020-10-08 ファナック株式会社 検査装置、検査システム、及びユーザインタフェース
JP2022079269A (ja) 2020-11-16 2022-05-26 株式会社不二越 ロボット及び配線ケース

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IGOR I. BASKINNATALIA KIREEVAALEXANDRE VARNEK: "The One-Class Classification Approach to Data Description and to Models Applicability Domain", NOL. INF., vol. 29, 2010, pages 581,587p
J. S. DELANEY: "Estimating Aqueous Solubility Directly from Molecular Structure", JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES, 24 May 2004 (2004-05-24), pages 1000,1005
See also references of EP4524840A4

Also Published As

Publication number Publication date
JP2024086784A (ja) 2024-06-28
CN119173889A (zh) 2024-12-20
EP4524840A1 (en) 2025-03-19
US20250217552A1 (en) 2025-07-03
JP7480919B2 (ja) 2024-05-10
JPWO2023219037A1 (ja) 2023-11-16
EP4524840A4 (en) 2026-03-04

Similar Documents

Publication Publication Date Title
JP6703264B2 (ja) 機械学習管理プログラム、機械学習管理方法および機械学習管理装置
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JP6954003B2 (ja) データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法
EP3428856A1 (en) Information processing method and information processing device
JP2018045559A (ja) 情報処理装置、情報処理方法およびプログラム
US9249287B2 (en) Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
JP6855604B2 (ja) 短期利益を予測する方法、装置、コンピューターデバイス、プログラムおよび記憶媒体
JP7384322B2 (ja) 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム
US20220129792A1 (en) Method and apparatus for presenting determination result
CN114631099B (zh) 人工智能透明度
JP2017146888A (ja) 設計支援装置及び方法及びプログラム
WO2023219037A1 (ja) 予測装置、材料設計システム、予測方法及び予測プログラム
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
JP7274434B2 (ja) 流用設計支援システム及び流用設計支援方法
US20210279608A1 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
JP2003323601A (ja) 信頼性尺度付き予測装置
JP5135803B2 (ja) 最適パラメータ探索プログラム、最適パラメータ探索装置および最適パラメータ探索方法
Kächele et al. Cluster Validation Based on Fisher’s Linear Discriminant Analysis
JP7555274B2 (ja) 提案装置、提案方法及びプログラム
Abrar et al. App search ranking prediction towards enhanced app store optimization using ML and NLP
JP2010250391A (ja) データ分類方法及び装置及びプログラム
CN118246062B (zh) 基于数据分级的电力数据隐私保护方法及相关设备
JP2021152751A (ja) 分析支援装置及び分析支援方法
JP7687862B2 (ja) 計算機システム及びサイバーセキュリティ情報の評価方法
US20230351264A1 (en) Storage medium, accuracy calculation method, and information processing device

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2023548629

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23803514

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18852625

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023803514

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2023803514

Country of ref document: EP

Effective date: 20241213

WWP Wipo information: published in national office

Ref document number: 18852625

Country of ref document: US