WO2021107053A1 - 機械学習装置、及び、環境調整装置 - Google Patents
機械学習装置、及び、環境調整装置 Download PDFInfo
- Publication number
- WO2021107053A1 WO2021107053A1 PCT/JP2020/044112 JP2020044112W WO2021107053A1 WO 2021107053 A1 WO2021107053 A1 WO 2021107053A1 JP 2020044112 W JP2020044112 W JP 2020044112W WO 2021107053 A1 WO2021107053 A1 WO 2021107053A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- variable
- learning
- machine learning
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/01—Measuring temperature of body parts ; Diagnostic temperature sensing, e.g. for malignant or inflamed tissue
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
- A61B5/024—Measuring pulse rate or heart rate
- A61B5/0245—Measuring pulse rate or heart rate by using sensing means generating electric signals, i.e. ECG signals
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
- A61B5/026—Measuring blood flow
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/145—Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue
- A61B5/14507—Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue specially adapted for measuring characteristics of body fluids other than blood
- A61B5/14517—Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue specially adapted for measuring characteristics of body fluids other than blood for sweat
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/42—Detecting, measuring or recording for evaluating the gastrointestinal, the endocrine or the exocrine systems
- A61B5/4261—Evaluating exocrine secretion production
- A61B5/4266—Evaluating exocrine secretion production sweat secretion
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4848—Monitoring or testing the effects of treatment, e.g. of medication
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/74—Details of notification to user or communication with user or patient; User input means
- A61B5/7475—User input or interface means, e.g. keyboard, pointing device, joystick
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B15/00—Systems controlled by a computer
- G05B15/02—Systems controlled by a computer electric
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2503/00—Evaluating a particular growth phase or type of persons or animals
- A61B2503/12—Healthy persons not otherwise provided for, e.g. subjects of a marketing survey
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/318—Heart-related electrical modalities, e.g. electrocardiography [ECG]
- A61B5/346—Analysis of electrocardiograms
- A61B5/349—Detecting specific parameters of the electrocardiograph cycle
- A61B5/352—Detecting R peaks, e.g. for synchronising diagnostic apparatus; Estimating R-R interval
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
- F24F11/64—Electronic processing using pre-stored data
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/70—Control systems characterised by their outputs; Constructional details thereof
- F24F11/80—Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2120/00—Control inputs relating to users or occupants
- F24F2120/10—Occupancy
- F24F2120/14—Activity of occupants
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2120/00—Control inputs relating to users or occupants
- F24F2120/20—Feedback from users
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2130/00—Control inputs relating to environmental factors not covered by group F24F2110/00
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/26—Pc applications
- G05B2219/2642—Domotique, domestic, home control, automation, smart house
Definitions
- Patent Document 1 International Publication No. 2007/007632
- the comfort feeling of the subject is estimated by chaos analysis of the time series data of the biological information of the subject, and the environment adjustment device is controlled based on the estimation result.
- the configuration is disclosed.
- the machine learning device of the first viewpoint learns the feeling of warmth and coldness of the subject.
- the machine learning device includes a first acquisition unit, a second acquisition unit, and a learning unit.
- the first acquisition unit acquires the first variable including the parameters related to the biological information of the subject.
- the second acquisition unit acquires the second variable including the feeling of warmth and coldness of the subject.
- the learning unit learns by associating the first variable with the second variable.
- the machine learning device of the first viewpoint can acquire the predicted value of the hot and cold feeling of the subject with high accuracy.
- the machine learning device of the second viewpoint is the machine learning device of the first viewpoint
- the first variable is a parameter that correlates with each of the subject's brain wave, skin blood flow, skin temperature, sweating amount, and heart rate. Includes at least one.
- the machine learning device of the third viewpoint is a machine learning device of the first viewpoint or the second viewpoint, and the learning unit learns using the first variable and the second variable as teacher data.
- the machine learning device of the fourth viewpoint is any one of the machine learning devices of the first to third viewpoints, and further includes an inference unit.
- the inference unit infers the predicted value of the subject's feeling of warmth and coldness from the first variable based on the learning result of the learning unit.
- the machine learning device of the fifth viewpoint is the machine learning device of the fourth viewpoint, and further includes an update unit.
- the update unit calculates the reward based on the second variable and the predicted value of the subject's feeling of warmth and coldness.
- the learning department learns using rewards.
- the machine learning device of the sixth viewpoint is the machine learning device of the fifth viewpoint
- the update unit is the difference between the hot and cold feeling of the target person included in the second variable and the predicted value of the hot and cold feeling of the target person. The smaller is, the higher the reward is calculated.
- the 7th viewpoint environment adjustment device adjusts the environment of the target space.
- the environment adjusting device includes a machine learning device according to any one of the first to sixth viewpoints.
- the environment adjusting device of the eighth viewpoint is the environment adjusting device of the seventh viewpoint
- the second acquisition unit is based on the input value of the subject regarding the feeling of warmth and cold and at least one of the operating conditions of the environment adjusting device. And get the second variable.
- the environment adjusting device of the ninth viewpoint is an environment adjusting device of the seventh viewpoint or the eighth viewpoint, and includes a machine learning device of any one of the fourth to sixth viewpoints, an output unit, and a determination unit.
- the output unit outputs a candidate for the third variable for adjusting the environment of the target space.
- the determination unit determines the third variable.
- the inference unit infers the predicted value of the subject's feeling of warmth and coldness based on the candidate of the third variable output by the output unit.
- the determination unit determines the third variable so that the predicted value of the subject's feeling of warmth and coldness satisfies a predetermined condition.
- the environment adjusting device of the tenth viewpoint is the environment adjusting device of the ninth viewpoint, and the determination unit determines the target value of the hot and cold feeling of the subject and the predicted value of the hot and cold feeling of the subject inferred by the inference unit.
- the third variable is determined so that the error of is small.
- the environment adjusting device of the eleventh viewpoint is the environment adjusting device of the ninth viewpoint or the tenth viewpoint, and the third variable includes the temperature of the target space.
- the machine learning device of the twelfth viewpoint learns the control parameters of the environment adjustment device that adjusts the environment of the target space.
- the machine learning device includes a first acquisition unit, a second acquisition unit, and a learning unit.
- the first acquisition unit acquires the first variable including the parameters related to the biological information of the target person in the target space.
- the second acquisition unit acquires control parameters.
- the learning unit learns by associating the first variable with the control parameter.
- the machine learning device of the twelfth viewpoint can acquire the control parameters of the environment adjustment device suitable for the feeling of warmth and coldness of the subject.
- the machine learning device of the thirteenth viewpoint is a machine learning device of the twelfth viewpoint, and further includes a third acquisition unit and an update unit.
- the third acquisition unit acquires evaluation data for evaluating the control result of the environment adjustment device.
- the update unit updates the learning state of the learning unit using the evaluation data.
- the learning unit learns according to the output of the update unit.
- the evaluation data includes the feeling of warmth and coldness of the subject.
- the machine learning device of the 14th viewpoint is the machine learning device of the 13th viewpoint, and the update unit calculates the reward based on the evaluation data.
- the learning department learns using rewards.
- the machine learning device of the fifteenth viewpoint is the machine learning device of the fourteenth viewpoint, and the evaluation data is the difference between the predicted value of the hot and cold feeling of the subject and the neutral value of the hot and cold feeling.
- the renewal unit calculates a higher reward as the difference is smaller.
- the machine learning device of the 16th viewpoint is a machine learning device of the 13th viewpoint, and further includes a change part.
- the change unit outputs the parameters of the identification function with the first variable as the input variable and the control parameter as the output variable.
- the learning unit changes the parameters of the discriminant function a plurality of times according to the output of the change unit, and outputs the control parameters from the first variable for each discriminant function whose parameters have been changed.
- the update unit includes a storage unit and a determination unit.
- the judgment unit outputs the judgment result using the evaluation data.
- the storage unit accumulates teacher data from the first variable and the control parameters output from the first variable by the learning unit according to the determination result.
- the learning unit learns based on the teacher data accumulated in the storage unit.
- the machine learning device of the 17th viewpoint is any one of the 13th to 16th viewpoints
- the third acquisition unit is the input value of the subject regarding the feeling of warmth and cold and the operation of the environment adjustment device.
- the machine learning device of the 18th viewpoint is any one of the 12th to 17th viewpoints, and the first variable is the brain wave of the subject, the skin blood flow, the skin temperature, and the sweating amount, respectively. Includes at least one of the parameters that correlates with.
- the environment adjustment device of the 19th viewpoint includes a machine learning device of any one of the 12th to 18th viewpoints.
- FIG. 9 It is a schematic diagram of a model of a neuron of a neural network. It is a schematic diagram of a three-layer neural network constructed by combining the neurons shown in FIG. 9. It is a figure for demonstrating the support vector machine. Represents a feature space in which two classes of training data are linearly separable. Represents a feature space in which two classes of training data are not linearly separable. This is an example of a decision tree constructed by the divide-and-conquer law. It represents a feature space divided by the decision tree of FIG.
- the environment adjusting device 10 is a device that adjusts the environment of the target space.
- the environment adjusting device 10 is an air conditioning control device.
- the environment adjusting device 10 predicts the feeling of warmth and coldness of the subject 20 in the target space by using the biological information of the subject 20.
- the environment adjusting device 10 grasps the comfort of the subject 20 based on the predicted value of the feeling of warmth and coldness of the subject 20, and realizes the air conditioning control that appeals the comfort.
- the feeling of warmth and coldness is an index showing the comfort of the subject 20 in the target space.
- PMV Predicted Mean Vote
- the environment adjusting device 10 includes a machine learning device 100 that learns the feeling of warmth and coldness of the subject 20 by using a machine learning method.
- the machine learning device 100 is composed of one or a plurality of computers.
- the plurality of computers may be connected to each other via a network.
- FIG. 1 is a block diagram of the machine learning device 100 during learning of the first embodiment.
- FIG. 2 is a block diagram of the machine learning device 100 after learning of the first embodiment.
- the machine learning device 100 mainly includes a state variable acquisition unit 101, a control amount acquisition unit 102, a learning unit 103, a function update unit 104, and an inference unit 105.
- the state variable acquisition unit 101 to the inference unit 105 are realized by the CPU of the machine learning device 100 executing the program stored in the storage device of the machine learning device 100.
- the state variable acquisition unit 101 acquires a state variable (first variable) including at least one parameter related to the biological information of the subject 20.
- the control amount acquisition unit 102 acquires the control amount (second variable) including the feeling of warmth and coldness of the target person 20.
- the learning unit 103 learns by associating the state variable acquired by the state variable acquisition unit 101 with the control amount acquired by the control amount acquisition unit 102.
- the learning unit 103 performs reinforcement learning to learn using a reward.
- the learning unit 103 outputs a learned model that is the result of learning.
- the function update unit 104 calculates the reward based on the control amount acquired by the control amount acquisition unit 102 and the predicted value of the control amount. Specifically, the function update unit 104 calculates a higher reward as the warm / cold feeling of the target person 20 included in the control amount is closer to the predicted value of the hot / cold feeling of the target person 20. In other words, the smaller the difference between the actual value of the feeling of warmth and coldness of the subject 20 and the predicted value of the feeling of warmth and coldness of the subject 20, the higher the reward calculated by the function update unit 104.
- the inference unit 105 predicts the feeling of warmth and coldness of the subject 20 from the state variables acquired by the state variable acquisition unit 101 based on the learned model obtained as a result of learning by the learning unit 103. Infer the value.
- the inference unit 105 outputs a predicted value of the feeling of warmth and coldness of the subject 20.
- the environment adjusting device 10 performs air conditioning control based on the predicted value output by the inference unit 105.
- the state variable acquired by the state variable acquisition unit 101 includes at least one of the parameters correlating with each of the brain wave, skin blood flow, skin temperature, sweating amount, and heart rate of the subject 20.
- the parameters that correlate with the electroencephalogram are at least one of the electroencephalogram amplitude, the maximum electroencephalogram height, and the maximum number of Lyapunov exponents.
- the parameter that correlates with the skin temperature is at least one of the difference between the skin temperature of a specific part of the body of the subject 20 and the skin temperature of two specific parts of the body of the subject 20.
- the parameter that correlates with the heart rate is, for example, the RR interval.
- the control amount acquisition unit 102 acquires the control amount including the hot / cold feeling of the target person 20 based on the input value of the target person 20 regarding the feeling of warm / cold and at least one of the operating conditions of the environment adjusting device 10.
- the input value of the subject 20 regarding the feeling of warmth and coldness is a feeling of warmth and coldness based on the subjective declaration of the subject 20.
- the input value of the subject 20 regarding the feeling of warm / cold is the feeling of warm / cold input by the subject 20 based on his / her own subjectivity, and the feeling of warm / cold calculated from the answers of the subject 20 to the question regarding the feeling of warm / cold.
- the operation status of the environment adjustment device 10 is, for example, a parameter that correlates with the brain wave of the subject 20 when the environment adjustment device 10 is operated.
- the machine learning device 100 acquires a predicted value of the feeling of warmth and coldness of the subject 20 by using the biological information of the subject 20 which is an objective index. Therefore, by providing the machine learning device 100, the environment adjusting device 10 can acquire the predicted value of the feeling of warmth and coldness of the subject 20 with high accuracy. Therefore, the environment adjusting device 10 can realize the air conditioning control that appeals the comfort of the subject 20 based on the predicted value of the feeling of warmth and coldness of the subject 20.
- the environment adjusting device 10 according to the second embodiment will be described with reference to the drawings.
- the environmental adjustment device 10 according to the first embodiment and the second embodiment has a common basic configuration.
- the differences between the first embodiment and the second embodiment will be mainly described.
- FIG. 3 is a block diagram of the machine learning device 100 during learning of the second embodiment.
- FIG. 4 is a block diagram of the machine learning device 100 after learning of the second embodiment.
- the environment adjusting device 10 of the second embodiment includes the machine learning device 100 of the first embodiment, the operation amount candidate output unit 106, and the operation amount determination unit 107.
- the machine learning device 100 includes a state variable acquisition unit 101 to an inference unit 105.
- the manipulated variable candidate output unit 106 outputs candidates for environmental parameters (third variable) for adjusting the environment of the target space.
- Environmental parameters include the temperature of the target space.
- the operation amount candidate output unit 106 outputs, for example, environmental parameter candidates from a predetermined list of environmental parameters.
- the reasoning unit 105 of the machine learning device 100 infers the predicted value of the feeling of warmth and coldness of the subject 20 based on at least the candidates of the environmental parameters output by the manipulated variable candidate output unit 106.
- the operation amount determination unit 107 determines the environmental parameters so that the predicted value of the feeling of warmth and coldness of the subject 20 satisfies a predetermined condition. Specifically, the manipulated variable determination unit 107 determines the environmental parameters so that the difference between the target value of the feeling of warmth and coldness of the subject 20 and the predicted value inferred by the inference unit 105 becomes small. As shown in FIG. 3, the learning unit 103 of the machine learning device 100 performs learning using the environmental parameters determined by the operation amount determining unit 107, and outputs the learned model.
- the manipulated variable determination unit 107 determines an environmental parameter suitable for constructing a trained model capable of acquiring the predicted value of the feeling of warmth and coldness of the subject 20 with high accuracy from the candidates for the environmental parameter. be able to. Therefore, the environment adjusting device 10 acquires the predicted value of the hot and cold feeling of the target person 20 with high accuracy, and based on the predicted value of the hot and cold feeling of the target person 20, the air conditioning that appeals the comfort of the target person 20. Control can be realized.
- the environment adjusting device 10 is a device that adjusts the environment of the target space.
- the environment adjusting device 10 is an air conditioning control device.
- the environment adjusting device 10 predicts the feeling of warmth and coldness of the subject 20 in the target space by using the biological information of the subject 20.
- the environment adjusting device 10 grasps the comfort of the subject 20 based on the predicted value of the feeling of warmth and coldness of the subject 20, and realizes the air conditioning control that appeals the comfort.
- the environment adjustment device 10 includes a machine learning device 200 that learns the control parameters of the environment adjustment device 10.
- the machine learning device 200 is composed of one or a plurality of computers.
- the plurality of computers may be connected to each other via a network.
- FIG. 5 is a block diagram of the machine learning device 200 during learning of the third embodiment.
- FIG. 6 is a block diagram of the machine learning device 200 after learning of the third embodiment.
- the machine learning device 200 mainly includes a state variable acquisition unit 201, a control amount acquisition unit 202, a learning unit 203, a function update unit 204, an evaluation data acquisition unit 205, and a control amount determination unit 206.
- the state variable acquisition unit 201 to the control amount determination unit 206 are realized by the CPU of the machine learning device 200 executing a program stored in the storage device of the machine learning device 200.
- the state variable acquisition unit 201 acquires a state variable (first variable) including at least one parameter related to the biological information of the target person 20 in the target space.
- the control amount acquisition unit 202 acquires the control parameter of the environment adjustment device 10 as a control amount.
- the evaluation data acquisition unit 205 acquires evaluation data for evaluating the control result of the environment adjustment device 10.
- the function update unit 204 updates the learning state of the learning unit 203 using the evaluation data acquired by the evaluation data acquisition unit 205.
- the learning unit 203 learns by associating the state variable acquired by the state variable acquisition unit 201 with the control parameter acquired by the control amount acquisition unit 202.
- the learning unit 203 outputs a learned model that is the result of learning.
- the learning unit 203 learns according to the output of the function update unit 204.
- the learning unit 203 performs reinforcement learning to learn using a reward.
- the function update unit 204 calculates the reward based on the evaluation data acquired by the evaluation data acquisition unit 205. Specifically, the function update unit 204 calculates the higher the reward as the subject 20 feels more neutral.
- control amount determination unit 206 uses the state variables acquired by the state variable acquisition unit 201 based on the learned model obtained as a result of learning by the learning unit 203 to control parameters of the environment adjusting device 10. To determine.
- the environment adjusting device 10 performs air conditioning control by the environment adjusting device 10 based on the control parameters determined by the control amount determining unit 206.
- the evaluation data acquisition unit 205 inputs the predetermined determination data into the predetermined evaluation function and acquires the output value of the evaluation function as the evaluation data.
- the evaluation function receives the determination data as the input value from the evaluation data acquisition unit 205 and outputs the evaluation data.
- the determination data is at least one of the input value of the subject 20 regarding the feeling of warmth and coldness and the operation status of the environment adjusting device 10.
- the input value of the subject 20 regarding the feeling of warmth and coldness is a feeling of warmth and coldness based on the subjective declaration of the subject 20.
- the input value of the subject 20 regarding the feeling of warm / cold is the feeling of warm / cold input by the subject 20 based on his / her own subjectivity, and the feeling of warm / cold calculated from the answers of the subject 20 to the question regarding the feeling of warm / cold.
- the operation status of the environment adjustment device 10 is, for example, a parameter that correlates with the brain wave of the subject 20 when the environment adjustment device 10 is operated.
- the evaluation data acquired by the evaluation data acquisition unit 205 includes at least the feeling of warmth and coldness of the subject 20.
- the evaluation data is, for example, a predicted value of the feeling of warmth and coldness of the subject 20.
- the predicted value of the feeling of warmth and coldness of the subject 20 is obtained from at least one of the input value of the subject 20 regarding the feeling of warmth and coldness and the operation status of the environment adjusting device 10.
- the evaluation data may be the difference between the predicted value of the feeling of warmth and coldness of the subject 20 and the neutral value of the feeling of warmth and coldness.
- the function update unit 204 calculates a higher reward as the difference in the evaluation data acquired by the evaluation data acquisition unit 205 is closer to zero.
- the state variable acquired by the state variable acquisition unit 201 includes at least one parameter that correlates with each of the brain wave, skin blood flow, skin temperature, and sweating amount of the subject 20.
- the parameters that correlate with the electroencephalogram are at least one of the electroencephalogram amplitude, the maximum electroencephalogram height, and the maximum number of Lyapunov exponents.
- the parameter that correlates with the skin temperature is at least one of the difference between the skin temperature of a specific part of the body of the subject 20 and the skin temperature of two specific parts of the body of the subject 20.
- the machine learning device 200 acquires the warm / cold sensation of the subject 20 based on the biological information of the subject 20 which is an objective index, and sets the control parameters of the environment adjusting device 10 based on the warm / cold sensation of the subject 20. decide. Therefore, by providing the machine learning device 200, the environment adjusting device 10 can acquire control parameters that directly reflect the biological information of the subject 20. Therefore, the environment adjusting device 10 can realize the air conditioning control that appeals the comfort of the subject 20 based on the feeling of warmth and coldness of the subject 20.
- the learning unit 203 performs reinforcement learning to learn using a reward.
- the learning unit 203 may perform supervised learning that learns based on teacher data instead of reinforcement learning.
- the environment adjusting device 10 according to the modified example A will be described with reference to the drawings.
- the environment adjusting device 10 according to the third embodiment and the modified example A has the same basic configuration.
- the differences between the third embodiment and the modified example A will be mainly described.
- FIG. 7 is a block diagram of the machine learning device 200 during learning of the modified example A.
- FIG. 8 is a block diagram of the machine learning device 200 after learning of the modified example A.
- the machine learning device 200 further includes a function changing unit 207.
- the function update unit 204 includes a teacher data storage unit 204a and a determination unit 204b.
- the determination unit 204b outputs the determination result of the evaluation data using the evaluation data acquired by the evaluation data acquisition unit 205.
- the teacher data storage unit 204a accumulates teacher data from the state variables acquired by the state variable acquisition unit 201 and the control parameters acquired by the control amount acquisition unit 202 according to the determination result by the determination unit 204b.
- the learning unit 203 slightly changes the parameters of the discriminating function according to the output of the function changing unit 207, changes the parameters of the discriminating function a plurality of times, and outputs the control parameters from the state variables for each discriminating function whose parameters have been changed.
- the discriminant function is a mapping from a state variable contained in the teacher data to a control parameter. Specifically, the discriminant function is a function that uses a state variable as an input variable and a control parameter as an output variable.
- the function change unit 207 outputs the parameters of the identification function.
- the function update unit 204 determines that the evaluation data obtained as a result of the control of the environment adjustment device 10 based on the control parameters output from the state variables by the learning unit 203 is appropriate, the state variables and the state are present.
- the control parameters output by the learning unit 203 from the variables are stored as teacher data.
- the learning unit 203 learns based on the teacher data accumulated in the teacher data storage unit 204a.
- the purpose of learning by the learning unit 203 is to adjust the parameters of the discriminant function by using the teacher data as the learning data so that correct or appropriate evaluation data can be obtained from the new state variable.
- the learning unit 203 uses a pair of a state variable acquired in advance by the state variable acquisition unit 201 and a control parameter acquired by the control amount acquisition unit 202 as learning data.
- the discriminant function whose parameters are sufficiently adjusted by the learning unit 203 corresponds to the trained model.
- the control amount determination unit 206 determines control parameters from new state variables based on the learned model obtained as a result of learning by the learning unit 203.
- the learning unit 203 performs supervised learning by online learning or batch learning as described below.
- the learning unit 203 In supervised learning by online learning, the learning unit 203 generates a trained model in advance using data (state variables) acquired during test operation before shipping or installation of the environment adjusting device 10.
- the control amount determining unit 206 determines the control parameters based on the learned model generated in advance by the learning unit 203. After that, the learning unit 203 updates the learned model using the data (state variable) newly acquired during the operation of the environment adjusting device 10.
- the control amount determination unit 206 determines the control parameters based on the trained model updated by the learning unit 203.
- the trained model is updated periodically, and the control amount determination unit 206 determines the control parameters based on the latest trained model.
- the learning unit 203 In supervised learning by batch learning, the learning unit 203 generates a trained model in advance using data (state variables) acquired during test operation before shipping or installation of the environment adjusting device 10.
- the control amount determination unit 206 determines the control parameters based on the learned model generated in advance by the learning unit 203 during the operation of the environment adjustment device 10. This trained model is not updated after being pre-generated by the learning unit 203. In other words, the control quantity determination unit 206 determines the control parameters using the same trained model.
- a server connected to the environment adjustment device 10 via a computer network such as the Internet may generate a trained model, or a cloud computing service may be used to generate a trained model. May be good.
- the learning unit 103 performs reinforcement learning to learn using a reward.
- the learning unit 103 may perform supervised learning that learns based on teacher data instead of reinforcement learning.
- the learning unit 103 learns using the teacher data obtained from the state variable acquired by the state variable acquisition unit 101 and the control amount acquired by the control amount acquisition unit 102 (the feeling of warmth and coldness of the subject 20). You may.
- Modification C In the modified examples A to B, when the learning units 103 and 203 perform supervised learning using the teacher data, the learning units 103 and 203 adjust the parameters of the discrimination function by using a part of the teacher data as the learning data.
- the rest may be used as test data.
- the test data is data that has not been used for training, and is mainly data that is used for performance evaluation of a trained model. By using the test data, the performance of the evaluation data obtained from the new state variables can be predicted in the form of error probability with respect to the test data.
- a holdout method As a method of dividing the data acquired in advance into training data and test data, a holdout method, a cross-validation method, a single extraction method (jackknife method), a bootstrap method, or the like is used.
- supervised learning which is a machine learning method used by the learning units 103 and 203, will be described.
- Supervised learning is a method of using supervised data to generate an output corresponding to unknown input data.
- learning data and discriminant functions are used.
- the training data is a set of pairs of input data and corresponding teacher data.
- the input data is, for example, a feature vector in the feature space.
- Teacher data is, for example, parameters relating to the identification, classification and evaluation of input data.
- the discriminant function represents a mapping from the input data to the corresponding output.
- Supervised learning is a method of adjusting the parameters of the discriminant function so that the difference between the output of the discriminant function and the supervised data becomes small by using the learning data given in advance.
- Models or algorithms used in supervised learning include regression analysis, time series analysis, decision trees, support vector machines, neural networks, ensemble learning, and the like.
- Regression analysis is, for example, linear regression analysis, multiple regression analysis, logistic regression analysis.
- Regression analysis is a method of fitting a model between input data (explanatory variable) and teacher data (objective variable) using the least squares method or the like.
- the dimension of the explanatory variable is 1 in linear regression analysis and 2 or more in multiple regression analysis.
- logistic regression analysis a logistic function (sigmoid function) is used as a model.
- Time series analysis includes, for example, AR model (autoregressive model), MA model (autoregressive average model), ARMA model (autoregressive moving average model), ARIMA model (autoregressive integrated moving average model), SARIMA model (seasonal self). Regressive sum moving average model) and VAR model (vector autoregressive model).
- AR model autoregressive model
- MA model autoregressive average model
- ARMA model autoregressive moving average model
- ARIMA model autoregressive integrated moving average model
- SARIMA model seasonal self.
- Regressive sum moving average model and VAR model (vector autoregressive model).
- the AR, MA, ARMA, and VAR models represent stationary processes, and the ARIMA and SARIMA models represent non-stationary processes.
- the AR model is a model in which the value changes regularly with the passage of time.
- the MA model is a model in which the fluctuation over a certain period is constant. For example, in the MA model, the value at a certain point in
- the ARMA model is a combination of an AR model and an MA model.
- the ARIMA model is a model that applies the ARMA model to the difference between the values before and after considering the medium- to long-term trend (increasing or decreasing trend).
- the SARIMA model is a model to which the ARIMA model is applied in consideration of medium- to long-term seasonal fluctuations.
- the VAR model is a multivariate extension of the AR model.
- the decision tree is a model for combining multiple classifiers to generate a complex discriminant boundary. Details of the decision tree will be described later.
- Support vector machine is an algorithm that generates two classes of linear discrimination functions. Details of the support vector machine will be described later.
- a neural network is a model of a network formed by connecting neurons of the human cranial nerve system at synapses.
- a neural network in a narrow sense, means a multi-layer perceptron using the backpropagation method.
- Typical neural networks include convolutional neural networks (CNN) and recurrent neural networks (RNN).
- CNN is a type of feedforward neural network that is not fully coupled (loosely coupled).
- RNN is a kind of neural network having a directed cycle.
- CNNs and RNNs are used for voice / image / video recognition and natural language processing.
- Ensemble learning is a method of improving discrimination performance by combining multiple models.
- Techniques used by ensemble learning are, for example, bagging, boosting, and random forest.
- Bagging is a method in which a plurality of models are trained using a bootstrap sample of training data, and the evaluation of new input data is determined by a majority vote by the plurality of models.
- Boosting is a method in which training data is weighted according to the learning result of bagging, and erroneously identified learning data is trained more intensively than correctly identified learning data.
- Random forest is a method of generating a decision tree group (random forest) consisting of a plurality of decision trees having low correlation when a decision tree is used as a model. The details of Random Forest will be described later.
- the neural network As the preferred model or algorithm for supervised learning used by the learning units 103 and 203, the neural network, support vector machine, decision tree, and random forest described below are used.
- FIG. 9 is a schematic diagram of a neuron model of a neural network.
- FIG. 10 is a schematic diagram of a three-layer neural network configured by combining the neurons shown in FIG.
- the neuron outputs an output y for a plurality of inputs x (inputs x1, x2, x3 in FIG. 9).
- Each input x (inputs x1, x2, x3 in FIG. 9) is multiplied by a corresponding weight w (weights w1, w2, w3 in FIG. 9).
- the neuron outputs the output y using the following equation (1).
- the input x, the output y, and the weight w are all vectors, ⁇ is a bias, and ⁇ is an activation function.
- the activation function is a non-linear function, such as a step function (formal neuron), a simple perceptron, a sigmoid function or a ReLU (ramp function).
- a plurality of input vectors x (input vectors x1, x2, x3 in FIG. 10) are input from the input side (left side in FIG. 10), and the output side (right side in FIG. 10).
- a plurality of output vectors y (output vectors y1, y2, y3 in FIG. 10) are output from.
- This neural network is composed of three layers L1, L2, and L3.
- the input vectors x1, x2, x3 are input by applying corresponding weights to each of the three neurons N11, N12, and N13. In FIG. 10, these weights are collectively referred to as W1.
- the neurons N11, N12, and N13 output the feature vectors z11, z12, and z13, respectively.
- the feature vectors z11, z12, and z13 are input by applying corresponding weights to each of the two neurons N21 and N22. In FIG. 10, these weights are collectively referred to as W2.
- the neurons N21 and N22 output the feature vectors z21 and z22, respectively.
- the feature vectors z21 and z22 are input by applying corresponding weights to each of the three neurons N31, N32 and N33. In FIG. 10, these weights are collectively referred to as W3.
- the neurons N31, N32, and N33 output output vectors y1, y2, and y3, respectively.
- the operation of the neural network has a learning mode and a prediction mode.
- the weights W1, W2, and W3 are learned using the learning data set.
- prediction such as identification is performed using the learned parameters of the weights W1, W2, and W3.
- the weights W1, W2, and W3 can be learned by, for example, the error backpropagation method.
- the information about the error is transmitted from the output side to the input side, in other words, from the right side to the left side in FIG.
- the error backpropagation method learns by adjusting the weights W1, W2, and W3 so as to reduce the difference between the output y when the input x is input and the true output y (teacher data) in each neuron. It is a method to do.
- the neural network can be configured to have more than three layers.
- a machine learning method using a neural network having four or more layers is known as deep learning.
- FIG. 11 is a diagram for explaining SVM.
- the two-class linear discrimination function represents the discrimination hyperplanes P1 and P2, which are hyperplanes for linearly separating the training data of the two classes C1 and C2 in the feature space shown in FIG.
- the training data of class C1 is shown by a circle
- the learning data of class C2 is shown by a square.
- the margin of the identification hyperplane is the distance between the training data closest to the identification hyperplane and the identification hyperplane.
- the optimum identification hyperplane P1 which is the identification hyperplane that maximizes the margin is required.
- the minimum value d1 of the distance between the training data of one class C1 and the optimal identification hyperplane P1 is equal to the minimum value d1 of the distance between the training data of the other class C2 and the optimal identification hyperplane P2.
- the number of elements in the training data set D L is N.
- the teacher data t i represents whether the learning data x i belongs to the classes C1 and C2.
- the normalized linear discriminant function consisting of all the training data x i is represented by the following two equations (3-1) and (3-2).
- w is a coefficient vector and b is a bias.
- the margin d is represented by the equation (6).
- ⁇ (w) represents the minimum value of the difference in length projected on the normal vectors w of the identification hyperplanes P1 and P2 for identifying the learning data x i of the classes C1 and C2.
- the terms "min” and “max” in the formula (6) are the points represented by the symbols “min” and “max” in FIG. 11, respectively.
- the optimum identification hyperplane is the identification hyperplane P1 having the maximum margin d.
- FIG. 11 represents a feature space in which two classes of training data are linearly separable.
- FIG. 12 is a feature space similar to that of FIG. 11, and represents a feature space in which the two classes of training data cannot be linearly separated.
- the following equation (7) extended by introducing the slack variable ⁇ i into equation (4) can be used.
- FIG. 12 shows the identification hyperplane P3, the margin boundaries B1 and B2, and the margin d3.
- the equation of the identification hyperplane P3 is the same as the equation (5).
- the margin boundaries B1 and B2 are hyperplanes in which the distance from the identification hyperplane P3 is the margin d3.
- equation (7) is equivalent to equation (4).
- the learning data x i satisfying the equation (7) is correctly identified within the margin d3.
- the distance between the training data x i and the identification hyperplane P3 is a margin d3 or more.
- the training data x i satisfying equation (7) exceeds the margin boundaries B1 and B2, as shown by the hatched circle or square in FIG. , The identification hyperplane P3 is not exceeded and is correctly identified. At this time, the distance between the training data x i and the identification hyperplane P3 is less than the margin d3.
- the training data x i satisfying the equation (7) exceeds the identification hyperplane P3 and is erroneously recognized as shown by the black circle or square in FIG. ..
- the training data x i can be identified even when the training data of the two classes cannot be linearly separated.
- the sum of the slack variables ⁇ i of all the training data x i represents the upper limit of the number of misrecognized learning data x i.
- the evaluation function L p is defined by the following equation (8).
- the learning units 103 and 203 find a solution (w, ⁇ ) that minimizes the output value of the evaluation function L p.
- the parameter C of the second term represents the strength of the penalty for misrecognition. As the parameter C is larger, a solution that gives priority to reducing the number of false recognitions (second term) rather than the norm of w (first term) is required.
- a decision tree is a model for combining a plurality of classifiers to obtain a complex discriminant boundary (non-linear discriminant function, etc.).
- the discriminator is, for example, a rule regarding the magnitude relationship between the value of a certain feature axis and the threshold value.
- As a method of constructing a decision tree from learning data for example, there is a divide-and-conquer method in which a rule (discriminator) for dividing a feature space into two is repeatedly obtained.
- FIG. 13 is an example of a decision tree constructed by the divide-and-conquer law.
- FIG. 14 represents a feature space divided by the decision tree of FIG. In FIG.
- the training data is indicated by a white circle or a black circle, and each training data is classified into a white circle class or a black circle class according to the decision tree shown in FIG.
- FIG. 13 shows nodes numbered 1 to 11 and links linking the nodes and labeled Yes or No.
- the terminal node (leaf node) is indicated by a square
- the non-terminal node (root node and internal node) is indicated by a circle.
- Terminating nodes are nodes numbered 6 to 11, and non-terminating nodes are nodes numbered 1 to 5.
- Each terminal node is indicated by a white circle or a black circle representing the training data.
- Each non-terminating node has a classifier.
- the discriminator is a rule for determining the magnitude relationship between the values of the feature axes x 1 and x 2 and the threshold values a to e.
- the label attached to the link indicates the judgment result of the classifier.
- the classifiers are shown by dotted lines, and the areas divided by the classifiers are numbered with corresponding nodes.
- CART is a method of generating a binary tree as a decision tree by dividing the feature space into two for each feature axis in each node other than the terminal node.
- impureness may be used as a parameter for evaluating the division candidate points of the feature space.
- the function I (t) representing the purity of the node t
- the parameters represented by the following equations (9-1) to (9-3) are used.
- K is the number of classes.
- t) is the posterior probability of the class C i at the node t, in other words, the probability that the data of the class C i is selected at the node t.
- t) is the probability that the data of class C i is mistaken for the j ( ⁇ i) th class, so the second equation is a node. Represents the error rate at t.
- the third equation of equation (9-3) represents the sum of the variances of the probabilities P (C i
- Random forest Random forest is a kind of ensemble learning, and is a method of enhancing discrimination performance by combining a plurality of decision trees.
- a group consisting of multiple decision trees with low correlation is generated.
- the following algorithms are used to generate and identify random forests.
- m bootstrap samples Z m are generated.
- each node t is divided according to the following procedure to generate m decision trees.
- d'features are randomly selected.
- the correlation between decision trees can be lowered by randomly selecting a predetermined number of features used for identification at each non-terminal node of the decision tree.
- Reinforcement learning is a method of learning a strategy that maximizes the reward as a result of a series of actions.
- Models or algorithms used in reinforcement learning include Q-learning.
- Q-learning is a method of learning a Q value representing the value of selecting an action a under the state s.
- the action a having the highest Q value is selected as the optimal action.
- the subject (agent) of the action a is rewarded for the action a selected under the state s.
- the Q value is updated using the following equation (10).
- Q (s t , a t) is the Q value representing the value that the agent state s t to select an action a t.
- Q (s t, a t) is a function of the state s and action a as a parameter (action-value function).
- st is the state of the agent at time t.
- a t is the action of the agent at time t.
- ⁇ is a learning coefficient.
- ⁇ is set by Eq. (10) so that the Q value converges to the optimum value.
- r t + 1 is the reward that the agent gets when it transitions to the state st + 1.
- ⁇ is the discount rate.
- ⁇ is a constant of 0 or more and 1 or less.
- the term including max is the Q value multiplied by ⁇ when the action a having the highest Q value is selected under the environment st + 1.
- the Q value obtained by the action value function is the expected value of the reward obtained by the agent.
- the machine learning device 200 includes a control amount acquisition unit 202. However, the machine learning device 200 does not have to include the control amount acquisition unit 202. In this case, the learning unit 203 of the machine learning device 200 may use the control parameters determined by the control amount determination unit 206 as the learning data.
- the machine learning devices 100 and 200 use a supervised learning or reinforcement learning method.
- the machine learning devices 100 and 200 may use a method that combines supervised learning and reinforcement learning.
- the learning units 103 and 203 may use various machine learning methods.
- Machine learning methods that can be used by the learning units 103 and 203 include unsupervised learning, semi-supervised learning, transductive learning, multitask learning, and transfer learning, in addition to the supervised learning and reinforcement learning already described. ..
- the learning units 103 and 203 may use these methods in combination.
- Unsupervised learning is a method of grouping (clustering) input data based on predetermined statistical properties without using teacher data.
- Models or algorithms used in unsupervised learning include k-means method (k-means method), Ward's method (Ward method), principal component analysis, and the like.
- the k-means method is a method of repeating the steps of randomly allocating clusters to each input data, calculating the center of each cluster, and reassigning each input data to the cluster of the closest center.
- Ward's method is a method of repeating the process of reassigning each input data to a cluster so as to minimize the distance from each input data of the cluster to the center of mass of the cluster.
- Principal component analysis is a multivariate analysis method that generates a variable called the principal component with the smallest correlation from a plurality of correlated variables.
- Semi-supervised learning is a method of learning using both input data without corresponding teacher data (unlabeled data) and input data with corresponding teacher data (labeled data).
- Transductive learning is a method in semi-supervised learning that generates an output corresponding to unlabeled data used for learning and does not generate an output corresponding to unknown input data.
- Multitask learning is a method of sharing information between multiple related tasks and learning these tasks at the same time to acquire common factors for the tasks and improve the prediction accuracy of the tasks.
- Transfer learning is a method of improving prediction accuracy by adapting a model trained in advance in one domain to another domain.
- the machine learning device can acquire the predicted value of the subject's feeling of warmth and coldness with high accuracy.
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Surgery (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Physiology (AREA)
- Software Systems (AREA)
- Cardiology (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- Endocrinology (AREA)
- Gastroenterology & Hepatology (AREA)
- Psychology (AREA)
- Optics & Photonics (AREA)
- Hematology (AREA)
Abstract
対象者の温冷感の予測値を高い精度で取得することができる機械学習装置を提供する。機械学習装置(100)は、対象者(20)の温冷感を学習する。機械学習装置(100)は、状態変数取得部(101)と、制御量取得部(102)と、学習部(103)とを備える。状態変数取得部(101)は、対象者(20)の生体情報に関するパラメータを含む状態変数を取得する。制御量取得部(102)は、対象者(20)の温冷感を含む制御量を取得する。学習部(103)は、状態変数と制御量とを関連付けて学習する。
Description
機械学習装置、及び、それを備える環境調整装置に関する。
特許文献1(国際公開第2007/007632号)には、対象者の生体情報の時系列データをカオス解析することで対象者の快適感を推定し、推定結果に基づいて環境調整装置を制御する構成が開示されている。
対象者の快適感の推定値の精度が十分ではない課題がある。
第1観点の機械学習装置は、対象者の温冷感を学習する。機械学習装置は、第1取得部と、第2取得部と、学習部とを備える。第1取得部は、対象者の生体情報に関するパラメータを含む第1変数を取得する。第2取得部は、対象者の温冷感を含む第2変数を取得する。学習部は、第1変数と第2変数とを関連付けて学習する。
第1観点の機械学習装置は、対象者の温冷感の予測値を高い精度で取得することができる。
第2観点の機械学習装置は、第1観点の機械学習装置であって、第1変数は、対象者の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも1つを含む。
第3観点の機械学習装置は、第1観点又は第2観点の機械学習装置であって、学習部は、第1変数と第2変数とを教師データとして用いて学習する。
第4観点の機械学習装置は、第1乃至第3観点のいずれか1つの機械学習装置であって、推論部をさらに備える。推論部は、学習部の学習の結果に基づき、第1変数から、対象者の温冷感の予測値を推論する。
第5観点の機械学習装置は、第4観点の機械学習装置であって、更新部をさらに備える。更新部は、第2変数、及び、対象者の温冷感の予測値に基づいて報酬を算出する。学習部は、報酬を用いて学習する。
第6観点の機械学習装置は、第5観点の機械学習装置であって、更新部は、第2変数に含まれる対象者の温冷感と、対象者の温冷感の予測値との差が小さいほど、高い報酬を算出する。
第7観点の環境調整装置は、対象空間の環境を調整する。環境調整装置は、第1乃至第6観点のいずれか1つの機械学習装置を備える。
第8観点の環境調整装置は、第7観点の環境調整装置であって、第2取得部は、温冷感に関する対象者の入力値、及び、環境調整装置の操作状況の少なくとも1つに基づいて、第2変数を取得する。
第9観点の環境調整装置は、第7観点又は第8観点の環境調整装置であって、第4乃至第6観点のいずれか1つの機械学習装置と、出力部と、決定部とを備える。出力部は、対象空間の環境を調整するための第3変数の候補を出力する。決定部は、第3変数を決定する。推論部は、出力部が出力した第3変数の候補に基づいて、対象者の温冷感の予測値を推論する。決定部は、対象者の温冷感の予測値が所定の条件を満たすように、第3変数を決定する。
第10観点の環境調整装置は、第9観点の環境調整装置であって、決定部は、対象者の温冷感の目標値と、推論部が推論した対象者の温冷感の予測値との誤差が小さくなるように、第3変数を決定する。
第11観点の環境調整装置は、第9観点又は第10観点の環境調整装置であって、第3変数は、対象空間の温度を含む。
第12観点の機械学習装置は、対象空間の環境を調整する環境調整装置の制御パラメータを学習する。機械学習装置は、第1取得部と、第2取得部と、学習部とを備える。第1取得部は、対象空間内の対象者の生体情報に関するパラメータを含む第1変数を取得する。第2取得部は、制御パラメータを取得する。学習部は、第1変数と制御パラメータとを関連付けて学習する。
第12観点の機械学習装置は、対象者の温冷感に適した、環境調整装置の制御パラメータを取得することができる。
第13観点の機械学習装置は、第12観点の機械学習装置であって、第3取得部と、更新部とをさらに備える。第3取得部は、環境調整装置の制御結果を評価する評価データを取得する。更新部は、評価データを用いて学習部の学習状態を更新する。学習部は、更新部の出力に従って学習する。評価データは、対象者の温冷感を含む。
第14観点の機械学習装置は、第13観点の機械学習装置であって、更新部は、評価データに基づいて報酬を算出する。学習部は、報酬を用いて学習する。
第15観点の機械学習装置は、第14観点の機械学習装置であって、評価データは、対象者の温冷感の予測値と、温冷感の中立の値との差である。更新部は、この差が小さいほど、高い報酬を算出する。
第16観点の機械学習装置は、第13観点の機械学習装置であって、変更部をさらに備える。変更部は、第1変数を入力変数とし制御パラメータを出力変数とする識別関数のパラメータを出力する。学習部は、変更部の出力に従って、識別関数のパラメータの変更を複数回行い、パラメータが変更された識別関数毎に第1変数から制御パラメータを出力する。更新部は、蓄積部と、判定部とを備える。判定部は、評価データを用いて判定結果を出力する。蓄積部は、判定結果に従って、第1変数と、学習部が第1変数から出力した制御パラメータとから教師データを蓄積する。学習部は、蓄積部に蓄積された教師データに基づいて学習する。
第17観点の機械学習装置は、第13乃至第16観点のいずれか1つの機械学習装置であって、第3取得部は、温冷感に関する対象者の入力値、及び、環境調整装置の操作状況の少なくとも1つに基づいて、評価データを取得する。
第18観点の機械学習装置は、第12乃至第17観点のいずれか1つの機械学習装置であって、第1変数は、対象者の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも1つを含む。
第19観点の環境調整装置は、第12乃至第18観点のいずれか1つの機械学習装置を備える。
―第1実施形態―
第1実施形態に係る環境調整装置10について、図面を参照しながら説明する。環境調整装置10は、対象空間の環境を調整する装置である。第1実施形態では、環境調整装置10は、空調制御装置である。
第1実施形態に係る環境調整装置10について、図面を参照しながら説明する。環境調整装置10は、対象空間の環境を調整する装置である。第1実施形態では、環境調整装置10は、空調制御装置である。
環境調整装置10は、対象者20の生体情報を用いて、対象空間内の対象者20の温冷感を予測する。環境調整装置10は、対象者20の温冷感の予測値に基づいて、当該対象者20の快適性を把握して、快適性を訴求する空調制御を実現する。温冷感は、対象空間内における対象者20の快適性を表す指標である。温冷感の指標としては、例えば、PMV(Predicted Mean Vote,予測温冷感申告)が用いられる。
環境調整装置10は、機械学習の手法を用いて対象者20の温冷感を学習する機械学習装置100を備える。機械学習装置100は、1つ又は複数のコンピュータから構成される。機械学習装置100が複数のコンピュータから構成される場合、当該複数のコンピュータは、ネットワークを介して互いに接続されてもよい。
図1は、第1実施形態の学習中の機械学習装置100のブロック図である。図2は、第1実施形態の学習後の機械学習装置100のブロック図である。機械学習装置100は、主として、状態変数取得部101と、制御量取得部102と、学習部103と、関数更新部104と、推論部105とを備える。状態変数取得部101~推論部105は、機械学習装置100の記憶装置に記憶されているプログラムを、機械学習装置100のCPUが実行することにより実現される。
状態変数取得部101は、対象者20の生体情報に関する少なくとも1つのパラメータを含む状態変数(第1変数)を取得する。
制御量取得部102は、対象者20の温冷感を含む制御量(第2変数)を取得する。
学習部103は、図1に示されるように、状態変数取得部101が取得した状態変数と、制御量取得部102が取得した制御量とを関連付けて学習する。第1実施形態では、学習部103は、報酬を用いて学習する強化学習を行う。学習部103は、学習の結果である学習済みモデルを出力する。
関数更新部104は、制御量取得部102が取得した制御量と、制御量の予測値とに基づいて報酬を算出する。具体的には、関数更新部104は、制御量に含まれる対象者20の温冷感が、対象者20の温冷感の予測値に近いほど、高い報酬を算出する。言い換えると、対象者20の温冷感の実際値と、対象者20の温冷感の予測値との差が小さいほど、関数更新部104によって算出される報酬が高くなる。
推論部105は、図2に示されるように、学習部103による学習の結果得られた学習済みモデルに基づき、状態変数取得部101が取得した状態変数から、対象者20の温冷感の予測値を推論する。推論部105は、対象者20の温冷感の予測値を出力する。環境調整装置10は、推論部105が出力した予測値に基づいて、空調制御を行う。
状態変数取得部101が取得する状態変数は、対象者20の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも1つを含む。脳波に相関するパラメータとは、脳波振幅、脳波波高最大値、及び、最大リアプノフ数の少なくとも1つである。皮膚温度に相関するパラメータとは、対象者20の体の特定の部分の皮膚温度、及び、対象者20の体の特定の二箇所の部分の皮膚温度の差の少なくとも1つである。心拍に相関するパラメータとは、例えば、R-R間隔である。
制御量取得部102は、温冷感に関する対象者20の入力値、及び、環境調整装置10の操作状況の少なくとも1つに基づいて、対象者20の温冷感を含む制御量を取得する。温冷感に関する対象者20の入力値とは、対象者20の主観的な申告に基づく温冷感である。例えば、温冷感に関する対象者20の入力値は、対象者20が自身の主観に基づいて入力した温冷感、及び、温冷感に関する質問に対する対象者20の回答から算出された温冷感である。環境調整装置10の操作状況とは、例えば、環境調整装置10の操作時における対象者20の脳波に相関するパラメータである。
機械学習装置100は、客観的な指標である対象者20の生体情報を用いて対象者20の温冷感の予測値を取得する。そのため、環境調整装置10は、機械学習装置100を備えることで、対象者20の温冷感の予測値を高い精度で取得することができる。従って、環境調整装置10は、対象者20の温冷感の予測値に基づいて、対象者20の快適性を訴求する空調制御を実現することができる。
―第2実施形態―
第2実施形態に係る環境調整装置10について、図面を参照しながら説明する。第1実施形態及び第2実施形態に係る環境調整装置10は、基本的な構成は共通している。以下、第1実施形態と第2実施形態との相違点を中心に説明する。
第2実施形態に係る環境調整装置10について、図面を参照しながら説明する。第1実施形態及び第2実施形態に係る環境調整装置10は、基本的な構成は共通している。以下、第1実施形態と第2実施形態との相違点を中心に説明する。
図3は、第2実施形態の学習中の機械学習装置100のブロック図である。図4は、第2実施形態の学習後の機械学習装置100のブロック図である。第2実施形態の環境調整装置10は、第1実施形態の機械学習装置100と、操作量候補出力部106と、操作量決定部107とを備える。機械学習装置100は、状態変数取得部101~推論部105を備える。
操作量候補出力部106は、対象空間の環境を調整するための環境パラメータ(第3変数)の候補を出力する。環境パラメータは、対象空間の温度を含む。操作量候補出力部106は、例えば、環境パラメータの所定のリストから、環境パラメータの候補を出力する。機械学習装置100の推論部105は、図4に示されるように、操作量候補出力部106が出力した環境パラメータの候補に少なくとも基づいて、対象者20の温冷感の予測値を推論する。
操作量決定部107は、対象者20の温冷感の予測値が所定の条件を満たすように、環境パラメータを決定する。具体的には、操作量決定部107は、対象者20の温冷感の目標値と、推論部105が推論した予測値との差が小さくなるように、環境パラメータを決定する。機械学習装置100の学習部103は、図3に示されるように、操作量決定部107が決定した環境パラメータを用いて学習を行い、学習済みモデルを出力する。
第2実施形態では、操作量決定部107は、環境パラメータの候補の中から、対象者20の温冷感の予測値を高い精度で取得できる学習済みモデルの構築に適した環境パラメータを決定することができる。従って、環境調整装置10は、対象者20の温冷感の予測値を高い精度で取得して、対象者20の温冷感の予測値に基づいて、対象者20の快適性を訴求する空調制御を実現することができる。
―第3実施形態―
第3実施形態に係る環境調整装置10について、図面を参照しながら説明する。環境調整装置10は、対象空間の環境を調整する装置である。第3実施形態では、環境調整装置10は、空調制御装置である。
第3実施形態に係る環境調整装置10について、図面を参照しながら説明する。環境調整装置10は、対象空間の環境を調整する装置である。第3実施形態では、環境調整装置10は、空調制御装置である。
環境調整装置10は、対象者20の生体情報を用いて、対象空間内の対象者20の温冷感を予測する。環境調整装置10は、対象者20の温冷感の予測値に基づいて、当該対象者20の快適性を把握して、快適性を訴求する空調制御を実現する。
環境調整装置10は、環境調整装置10の制御パラメータを学習する機械学習装置200を備える。機械学習装置200は、1つ又は複数のコンピュータから構成される。機械学習装置200が複数のコンピュータから構成される場合、当該複数のコンピュータは、ネットワークを介して互いに接続されてもよい。
図5は、第3実施形態の学習中の機械学習装置200のブロック図である。図6は、第3実施形態の学習後の機械学習装置200のブロック図である。機械学習装置200は、主として、状態変数取得部201と、制御量取得部202と、学習部203と、関数更新部204と、評価データ取得部205と、制御量決定部206とを備える。状態変数取得部201~制御量決定部206は、機械学習装置200の記憶装置に記憶されているプログラムを、機械学習装置200のCPUが実行することにより実現される。
状態変数取得部201は、対象空間内の対象者20の生体情報に関する少なくとも1つのパラメータを含む状態変数(第1変数)を取得する。
制御量取得部202は、環境調整装置10の制御パラメータを制御量として取得する。
評価データ取得部205は、環境調整装置10の制御結果を評価する評価データを取得する。
関数更新部204は、評価データ取得部205が取得した評価データを用いて学習部203の学習状態を更新する。
学習部203は、図5に示されるように、状態変数取得部201が取得した状態変数と、制御量取得部202が取得した制御パラメータとを関連付けて学習する。学習部203は、学習の結果である学習済みモデルを出力する。
学習部203は、関数更新部204の出力に従って学習する。第3実施形態では、学習部203は、報酬を用いて学習する強化学習を行う。関数更新部204は、評価データ取得部205が取得した評価データに基づいて報酬を算出する。具体的には、関数更新部204は、対象者20の温冷感が中立に近いほど、高い報酬を算出する。
制御量決定部206は、図6に示されるように、学習部203による学習の結果得られた学習済みモデルに基づき、状態変数取得部201が取得した状態変数から、環境調整装置10の制御パラメータを決定する。環境調整装置10は、制御量決定部206が決定した制御パラメータに基づいて、環境調整装置10による空調制御を行う。
評価データ取得部205は、所定の判定データを所定の評価関数に入力して、評価関数の出力値を評価データとして取得する。言い換えると、評価関数は、評価データ取得部205から判定データを入力値として受け取り、評価データを出力する。判定データは、温冷感に関する対象者20の入力値、及び、環境調整装置10の操作状況の少なくとも1つである。温冷感に関する対象者20の入力値とは、対象者20の主観的な申告に基づく温冷感である。例えば、温冷感に関する対象者20の入力値は、対象者20が自身の主観に基づいて入力した温冷感、及び、温冷感に関する質問に対する対象者20の回答から算出された温冷感である。環境調整装置10の操作状況とは、例えば、環境調整装置10の操作時における対象者20の脳波に相関するパラメータである。
評価データ取得部205が取得する評価データは、対象者20の温冷感を少なくとも含む。評価データは、例えば、対象者20の温冷感の予測値である。対象者20の温冷感の予測値は、温冷感に関する対象者20の入力値、及び、環境調整装置10の操作状況の少なくとも1つから取得される。評価データは、対象者20の温冷感の予測値と、温冷感の中立の値との差であってもよい。この場合、関数更新部204は、評価データ取得部205が取得した評価データである差がゼロに近いほど、高い報酬を算出する。
状態変数取得部201が取得する状態変数は、対象者20の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも1つを含む。脳波に相関するパラメータとは、脳波振幅、脳波波高最大値、及び、最大リアプノフ数の少なくとも1つである。皮膚温度に相関するパラメータとは、対象者20の体の特定の部分の皮膚温度、及び、対象者20の体の特定の二箇所の部分の皮膚温度の差の少なくとも1つである。
機械学習装置200は、客観的な指標である対象者20の生体情報に基づいて対象者20の温冷感を取得し、対象者20の温冷感に基づいて環境調整装置10の制御パラメータを決定する。そのため、環境調整装置10は、機械学習装置200を備えることで、対象者20の生体情報を直接反映させた制御パラメータを取得することができる。従って、環境調整装置10は、対象者20の温冷感に基づいて、対象者20の快適性を訴求する空調制御を実現することができる。
―変形例―
以下、実施形態の少なくとも一部の変形例について説明する。
以下、実施形態の少なくとも一部の変形例について説明する。
(1)変形例A
第3実施形態では、学習部203は、報酬を用いて学習する強化学習を行う。しかし、学習部203は、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。
第3実施形態では、学習部203は、報酬を用いて学習する強化学習を行う。しかし、学習部203は、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。
変形例Aに係る環境調整装置10について、図面を参照しながら説明する。第3実施形態及び変形例Aに係る環境調整装置10は、基本的な構成は共通している。以下、第3実施形態と変形例Aとの相違点を中心に説明する。
図7は、変形例Aの学習中の機械学習装置200のブロック図である。図8は、変形例Aの学習後の機械学習装置200のブロック図である。機械学習装置200は、関数変更部207をさらに備える。
関数更新部204は、教師データ蓄積部204aと、判定部204bとを備える。判定部204bは、評価データ取得部205が取得した評価データを用いて、評価データの判定結果を出力する。教師データ蓄積部204aは、判定部204bによる判定結果に従って、状態変数取得部201が取得した状態変数と、制御量取得部202が取得した制御パラメータとから教師データを蓄積する。
学習部203は、関数変更部207の出力に従って、識別関数のパラメータを微小変化させて、識別関数のパラメータの変更を複数回行い、パラメータが変更された識別関数毎に状態変数から制御パラメータを出力する。識別関数とは、教師データに含まれる状態変数から制御パラメータへの写像である。具体的には、識別関数は、状態変数を入力変数とし、制御パラメータを出力変数とする関数である。関数変更部207は、識別関数のパラメータを出力する。関数更新部204は、学習部203が状態変数から出力した制御パラメータに基づく環境調整装置10の制御の結果得られた評価データが適切であると判定された場合に、当該状態変数と、当該状態変数から学習部203が出力した制御パラメータとを教師データとして蓄積する。
学習部203は、教師データ蓄積部204aに蓄積された教師データに基づいて学習する。学習部203による学習の目的は、新規の状態変数から正しい又は適切な評価データを得ることができるように、教師データを学習データとして用いて識別関数のパラメータを調整することである。学習部203は、学習データとして、状態変数取得部201が予め取得した状態変数と、制御量取得部202が取得した制御パラメータとの対を用いる。学習部203によってパラメータが十分に調整された識別関数は、学習済みモデルに相当する。
制御量決定部206は、学習部203による学習の結果得られた学習済みモデルに基づいて、新規の状態変数から制御パラメータを決定する。
学習部203は、次に説明するように、オンライン学習又はバッチ学習による教師あり学習を行う。
オンライン学習による教師あり学習では、学習部203は、環境調整装置10の出荷又は設置前の試験運転時等に取得したデータ(状態変数)を用いて学習済みモデルを予め生成する。制御量決定部206は、環境調整装置10の初回運転開始時には、学習部203が予め生成した学習済みモデルに基づいて、制御パラメータを決定する。その後、学習部203は、環境調整装置10の運転時に新たに取得したデータ(状態変数)を用いて学習済みモデルを更新する。制御量決定部206は、学習部203が更新した学習済みモデルに基づいて、制御パラメータを決定する。このように、オンライン学習では、学習済みモデルが定期的に更新され、制御量決定部206は、最新の学習済みモデルに基づいて、制御パラメータを決定する。
バッチ学習による教師あり学習では、学習部203は、環境調整装置10の出荷又は設置前の試験運転時等に取得したデータ(状態変数)を用いて学習済みモデルを予め生成する。制御量決定部206は、環境調整装置10の運転時において、学習部203が予め生成した学習済みモデルに基づいて、制御パラメータを決定する。この学習済みモデルは、学習部203によって予め生成された後は更新されない。言い換えると、制御量決定部206は、同じ学習済みモデルを用いて制御パラメータを決定する。
なお、環境調整装置10とインターネット等のコンピュータネットワークを介して接続されたサーバが、学習済みモデルを生成してもよく、また、クラウドコンピューティングのサービスを利用して、学習済みモデルを生成してもよい。
(2)変形例B
第1及び第2実施形態では、学習部103は、報酬を用いて学習する強化学習を行う。しかし、学習部103は、変形例Aで説明したように、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。この場合、学習部103は、状態変数取得部101が取得した状態変数と、制御量取得部102が取得した制御量(対象者20の温冷感)とから得られた教師データを用いて学習してもよい。
第1及び第2実施形態では、学習部103は、報酬を用いて学習する強化学習を行う。しかし、学習部103は、変形例Aで説明したように、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。この場合、学習部103は、状態変数取得部101が取得した状態変数と、制御量取得部102が取得した制御量(対象者20の温冷感)とから得られた教師データを用いて学習してもよい。
(3)変形例C
変形例A乃至Bにおいて、学習部103,203が教師データを用いる教師あり学習を行う場合、学習部103,203は、教師データの一部を学習データとして用いて識別関数のパラメータを調整し、残りをテストデータとして用いてもよい。テストデータとは、学習に使用されなかったデータであり、主に、学習済みモデルの性能評価に用いられるデータである。テストデータを用いることで、新規の状態変数から得られた評価データの性能を、テストデータに対する誤り確率という形式で予測することができる。予め取得したデータを学習データとテストデータとに分ける手法としては、ホールドアウト法、交差確認法、一つ抜き法(ジャックナイフ法)及びブートストラップ法等が用いられる。
変形例A乃至Bにおいて、学習部103,203が教師データを用いる教師あり学習を行う場合、学習部103,203は、教師データの一部を学習データとして用いて識別関数のパラメータを調整し、残りをテストデータとして用いてもよい。テストデータとは、学習に使用されなかったデータであり、主に、学習済みモデルの性能評価に用いられるデータである。テストデータを用いることで、新規の状態変数から得られた評価データの性能を、テストデータに対する誤り確率という形式で予測することができる。予め取得したデータを学習データとテストデータとに分ける手法としては、ホールドアウト法、交差確認法、一つ抜き法(ジャックナイフ法)及びブートストラップ法等が用いられる。
(4)変形例D
変形例A乃至Cにおいて、学習部103,203が用いる機械学習の手法である教師あり学習について説明する。教師あり学習は、教師データを用いて、未知の入力データに対応する出力を生成する手法である。教師あり学習では、学習データと識別関数とが用いられる。学習データとは、入力データと、それに対応する教師データとの対の集合である。入力データは、例えば、特徴空間における特徴ベクトルである。教師データは、例えば、入力データの識別、分類及び評価に関するパラメータである。識別関数は、入力データから、それに対応する出力への写像を表す。教師あり学習は、事前に与えられた学習データを用いて、識別関数の出力と教師データとの差が小さくなるように、識別関数のパラメータを調整する手法である。教師あり学習で用いられるモデル又はアルゴリズムとしては、回帰分析、時系列分析、決定木、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習等が挙げられる。
変形例A乃至Cにおいて、学習部103,203が用いる機械学習の手法である教師あり学習について説明する。教師あり学習は、教師データを用いて、未知の入力データに対応する出力を生成する手法である。教師あり学習では、学習データと識別関数とが用いられる。学習データとは、入力データと、それに対応する教師データとの対の集合である。入力データは、例えば、特徴空間における特徴ベクトルである。教師データは、例えば、入力データの識別、分類及び評価に関するパラメータである。識別関数は、入力データから、それに対応する出力への写像を表す。教師あり学習は、事前に与えられた学習データを用いて、識別関数の出力と教師データとの差が小さくなるように、識別関数のパラメータを調整する手法である。教師あり学習で用いられるモデル又はアルゴリズムとしては、回帰分析、時系列分析、決定木、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習等が挙げられる。
回帰分析は、例えば、線形回帰分析、重回帰分析、ロジスティック回帰分析である。回帰分析は、最小二乗法等を用いて、入力データ(説明変数)と教師データ(目的変数)との間にモデルを当てはめる手法である。説明変数の次元は、線形回帰分析では1であり、重回帰分析では2以上である。ロジスティック回帰分析では、ロジスティック関数(シグモイド関数)がモデルとして用いられる。
時系列分析は、例えば、ARモデル(自己回帰モデル)、MAモデル(移動平均モデル)、ARMAモデル(自己回帰移動平均モデル)、ARIMAモデル(自己回帰和分移動平均モデル)、SARIMAモデル(季節自己回帰和分移動平均モデル)、VARモデル(ベクトル自己回帰モデル)である。AR、MA、ARMA、VARモデルは、定常過程を表し、ARIMA、SARIMAモデルは、非定常過程を表す。ARモデルは、時間の経過に対して規則的に値が変化するモデルである。MAモデルは、ある期間における変動が一定であるモデルである。例えば、MAモデルでは、ある時点の値は、その時点より前の移動平均によって決まる。ARMAモデルは、ARモデルとMAモデルとを組み合わせたモデルである。ARIMAモデルは、中長期的なトレンド(増加又は減少傾向)を考慮して、前後の値の差分についてARMAモデルを適用するモデルである。SARIMAモデルは、中長期的な季節変動を考慮して、ARIMAモデルを適用するモデルである。VARモデルは、ARモデルを多変量に拡張したモデルである。
決定木は、複数の識別器を組み合わせて複雑な識別境界を生成するためのモデルである。決定木の詳細については後述する。
サポートベクターマシンは、2クラスの線形識別関数を生成するアルゴリズムである。サポートベクターマシンの詳細については後述する。
ニューラルネットワークは、人間の脳神経系のニューロンをシナプスで結合して形成されたネットワークをモデル化したものである。ニューラルネットワークは、狭義には、誤差逆伝播法を用いた多層パーセプトロンを意味する。代表的なニューラルネットワークとしては、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)が挙げられる。CNNは、全結合していない(結合が疎である)順伝播型ニューラルネットワークの一種である。RNNは、有向閉路を持つニューラルネットワークの一種である。CNN及びRNNは、音声・画像・動画認識、及び、自然言語処理に用いられる。
アンサンブル学習は、複数のモデルを組み合わせて識別性能を向上させる手法である。アンサンブル学習が用いる手法は、例えば、バギング、ブースティング、ランダムフォレストである。バギングは、学習データのブートストラップサンプルを用いて複数のモデルを学習させ、新規の入力データの評価を、複数のモデルによる多数決によって決する手法である。ブースティングは、バギングの学習結果に応じて学習データに重み付けをして、誤って識別された学習データを、正しく識別された学習データよりも集中的に学習させる手法である。ランダムフォレストは、モデルとして決定木を用いる場合において、相関が低い複数の決定木からなる決定木群(ランダムフォレスト)を生成する手法である。ランダムフォレストの詳細については後述する。
学習部103,203が用いる教師あり学習の好ましいモデル又はアルゴリズムとして、次に説明する、ニューラルネットワーク、サポートベクターマシン、決定木、及び、ランダムフォレストが用いられる。
(4-1)ニューラルネットワーク
図9は、ニューラルネットワークのニューロンのモデルの模式図である。図10は、図9に示されるニューロンを組み合わせて構成した三層のニューラルネットワークの模式図である。図9に示されるように、ニューロンは、複数の入力x(図9では入力x1,x2,x3)に対する出力yを出力する。各入力x(図9では入力x1,x2,x3)には、対応する重みw(図9では重みw1,w2,w3)が乗算される。ニューロンは、次の式(1)を用いて出力yを出力する。
図9は、ニューラルネットワークのニューロンのモデルの模式図である。図10は、図9に示されるニューロンを組み合わせて構成した三層のニューラルネットワークの模式図である。図9に示されるように、ニューロンは、複数の入力x(図9では入力x1,x2,x3)に対する出力yを出力する。各入力x(図9では入力x1,x2,x3)には、対応する重みw(図9では重みw1,w2,w3)が乗算される。ニューロンは、次の式(1)を用いて出力yを出力する。
式(1)において、入力x、出力y及び重みwは、すべてベクトルであり、θは、バイアスであり、φは、活性化関数である。活性化関数は、非線形関数であり、例えば、ステップ関数(形式ニューロン)、単純パーセプトロン、シグモイド関数又はReLU(ランプ関数)である。
図10に示される三層のニューラルネットワークでは、入力側(図10の左側)から複数の入力ベクトルx(図10では入力ベクトルx1,x2,x3)が入力され、出力側(図10の右側)から複数の出力ベクトルy(図10では出力ベクトルy1,y2,y3)が出力される。このニューラルネットワークは、3つの層L1,L2,L3から構成される。
第1の層L1では、入力ベクトルx1,x2,x3は、3つのニューロンN11,N12,N13のそれぞれに、対応する重みが掛けられて入力される。図10では、これらの重みは、まとめてW1と表記されている。ニューロンN11,N12,N13は、それぞれ、特徴ベクトルz11,z12,z13を出力する。
第2の層L2では、特徴ベクトルz11,z12,z13は、2つのニューロンN21,N22のそれぞれに、対応する重みが掛けられて入力される。図10では、これらの重みは、まとめてW2と表記されている。ニューロンN21,N22は、それぞれ、特徴ベクトルz21,z22を出力する。
第3の層L3では、特徴ベクトルz21,z22は、3つのニューロンN31,N32,N33のそれぞれに、対応する重みが掛けられて入力される。図10では、これらの重みは、まとめてW3と表記されている。ニューロンN31,N32,N33は、それぞれ、出力ベクトルy1,y2,y3を出力する。
ニューラルネットワークの動作には、学習モードと予測モードとがある。学習モードでは、学習データセットを用いて重みW1,W2,W3を学習する。予測モードでは、学習した重みW1,W2,W3のパラメータを用いて識別等の予測を行う。
重みW1,W2,W3は、例えば、誤差逆伝播法(バックプロパゲーション)により学習可能である。この場合、誤差に関する情報は、出力側から入力側に向かって、言い換えると、図10において右側から左側に向かって伝達される。誤差逆伝播法は、各ニューロンにおいて、入力xが入力されたときの出力yと、真の出力y(教師データ)との差を小さくするように、重みW1,W2,W3を調整して学習する手法である。
ニューラルネットワークは、3層より多い層を有するように構成することができる。4層以上のニューラルネットワークによる機械学習の手法は、ディープラーニング(深層学習)として知られている。
(4-2)サポートベクターマシン
サポートベクターマシン(SVM)とは、最大マージンを実現する2クラス線形識別関数を求めるアルゴリズムである。図11は、SVMを説明するための図である。2クラス線形識別関数とは、図11に示される特徴空間において、2つのクラスC1,C2の学習データを線形分離するための超平面である識別超平面P1,P2を表す。図11において、クラスC1の学習データは円で示され、クラスC2の学習データは正方形で示されている。識別超平面のマージンとは、識別超平面に最も近い学習データと、識別超平面との間の距離である。図11には、識別超平面P1のマージンd1、及び、識別超平面P2のマージンd2が示されている。SVMでは、マージンが最大となるような識別超平面である最適識別超平面P1が求められる。一方のクラスC1の学習データと最適識別超平面P1との間の距離の最小値d1は、他方のクラスC2の学習データと最適識別超平面P2との間の距離の最小値d1と等しい。
サポートベクターマシン(SVM)とは、最大マージンを実現する2クラス線形識別関数を求めるアルゴリズムである。図11は、SVMを説明するための図である。2クラス線形識別関数とは、図11に示される特徴空間において、2つのクラスC1,C2の学習データを線形分離するための超平面である識別超平面P1,P2を表す。図11において、クラスC1の学習データは円で示され、クラスC2の学習データは正方形で示されている。識別超平面のマージンとは、識別超平面に最も近い学習データと、識別超平面との間の距離である。図11には、識別超平面P1のマージンd1、及び、識別超平面P2のマージンd2が示されている。SVMでは、マージンが最大となるような識別超平面である最適識別超平面P1が求められる。一方のクラスC1の学習データと最適識別超平面P1との間の距離の最小値d1は、他方のクラスC2の学習データと最適識別超平面P2との間の距離の最小値d1と等しい。
学習データセットDLは、学習データ(特徴ベクトル)xiと、教師データti={-1,+1}との対の集合である。学習データセットDLの要素数は、Nである。教師データtiは、学習データxiがクラスC1,C2のどちらに属するのかを表す。クラスC1はti=-1のクラスであり、クラスC2はti=+1のクラスである。
式(6)において、ρ(w)は、クラスC1,C2のそれぞれの学習データxiを識別超平面P1,P2の法線ベクトルw上に射影した長さの差の最小値を表す。式(6)の「min」及び「max」の項は、それぞれ、図11において符号「min」及び符号「max」で示された点である。図11において、最適識別超平面は、マージンdが最大となる識別超平面P1である。
図11は、2クラスの学習データが線形分離可能である特徴空間を表す。図12は、図11と同様の特徴空間であって、2クラスの学習データが線形分離不可能である特徴空間を表す。2クラスの学習データが線形分離不可能である場合、式(4)にスラック変数ξiを導入して拡張した次の式(7)を用いることができる。
スラック変数ξiは、学習時のみに使用され、0以上の値をとる。図12には、識別超平面P3と、マージン境界B1,B2と、マージンd3とが示されている。識別超平面P3の式は式(5)と同じである。マージン境界B1,B2は、識別超平面P3からの距離がマージンd3である超平面である。
スラック変数ξiが0の場合、式(7)は式(4)と等価である。このとき、図12において白抜きの円又は正方形で示されるように、式(7)を満たす学習データxiは、マージンd3内で正しく識別される。このとき、学習データxiと識別超平面P3との間の距離は、マージンd3以上である。
スラック変数ξiが0より大きく1以下の場合、図12においてハッチングされた円又は正方形で示されるように、式(7)を満たす学習データxiは、マージン境界B1,B2を超えているが、識別超平面P3を超えておらず、正しく識別される。このとき、学習データxiと識別超平面P3との間の距離は、マージンd3未満である。
スラック変数ξiが1より大きい場合、図12において黒塗りの円又は正方形で示されるように、式(7)を満たす学習データxiは、識別超平面P3を超えており、誤認識される。
このように、スラック変数ξiを導入した式(7)を用いることで、2クラスの学習データが線形分離不可能である場合においても、学習データxiを識別することができる。
学習部103,203は、評価関数Lpの出力値を最小化する解(w、ξ)を求める。式(8)において、第2項のパラメータCは、誤認識に対するペナルティの強さを表す。パラメータCが大きいほど、wのノルム(第1項)よりも誤認識数(第2項)を小さくする方を優先する解が求められる。
(4-3)決定木
決定木とは、複数の識別器を組み合わせて複雑な識別境界(非線形識別関数等)を得るためのモデルである。識別器とは、例えば、ある特徴軸の値と閾値との大小関係に関する規則である。学習データから決定木を構成する方法としては、例えば、特徴空間を2分割する規則(識別器)を求めることを繰り返す分割統治法がある。図13は、分割統治法によって構成された決定木の一例である。図14は、図13の決定木によって分割される特徴空間を表す。図14では、学習データは白丸又は黒丸で示され、図13に示される決定木によって、各学習データは、白丸のクラス又は黒丸のクラスに分類される。図13には、1から11までの番号が付されたノードと、ノード間を結びYes又はNoのラベルが付されたリンクとが示されている。図13において、終端ノード(葉ノード)は、四角で示され、非終端ノード(根ノード及び内部ノード)は、丸で示されている。終端ノードは、6から11までの番号が付されたノードであり、非終端ノードは、1から5までの番号が付されたノードである。各終端ノードには、学習データを表す白丸又は黒丸が示されている。各非終端ノードには、識別器が付されている。識別器は、特徴軸x1、x2の値と閾値a~eとの大小関係を判断する規則である。リンクに付されたラベルは、識別器の判断結果を示す。図14において、識別器は点線で示され、識別器によって分割された領域には、対応するノードの番号が付されている。
決定木とは、複数の識別器を組み合わせて複雑な識別境界(非線形識別関数等)を得るためのモデルである。識別器とは、例えば、ある特徴軸の値と閾値との大小関係に関する規則である。学習データから決定木を構成する方法としては、例えば、特徴空間を2分割する規則(識別器)を求めることを繰り返す分割統治法がある。図13は、分割統治法によって構成された決定木の一例である。図14は、図13の決定木によって分割される特徴空間を表す。図14では、学習データは白丸又は黒丸で示され、図13に示される決定木によって、各学習データは、白丸のクラス又は黒丸のクラスに分類される。図13には、1から11までの番号が付されたノードと、ノード間を結びYes又はNoのラベルが付されたリンクとが示されている。図13において、終端ノード(葉ノード)は、四角で示され、非終端ノード(根ノード及び内部ノード)は、丸で示されている。終端ノードは、6から11までの番号が付されたノードであり、非終端ノードは、1から5までの番号が付されたノードである。各終端ノードには、学習データを表す白丸又は黒丸が示されている。各非終端ノードには、識別器が付されている。識別器は、特徴軸x1、x2の値と閾値a~eとの大小関係を判断する規則である。リンクに付されたラベルは、識別器の判断結果を示す。図14において、識別器は点線で示され、識別器によって分割された領域には、対応するノードの番号が付されている。
分割統治法によって適切な決定木を構成する過程では、以下の(a)~(c)の3点について検討する必要がある。
(a)識別器を構成するための特徴軸及び閾値の選択。
(b)終端ノードの決定。例えば、1つの終端ノードに含まれる学習データが属するクラスの数。又は、決定木の剪定(根ノードが同じ部分木を得ること)をどこまで行うかの選択。
(c)終端ノードに対する多数決によるクラスの割り当て。
(a)識別器を構成するための特徴軸及び閾値の選択。
(b)終端ノードの決定。例えば、1つの終端ノードに含まれる学習データが属するクラスの数。又は、決定木の剪定(根ノードが同じ部分木を得ること)をどこまで行うかの選択。
(c)終端ノードに対する多数決によるクラスの割り当て。
決定木の学習方法には、例えば、CART、ID3及びC4.5が用いられる。CARTは、図13及び図14に示されるように、終端ノード以外の各ノードにおいて特徴空間を特徴軸ごとに2分割することで、決定木として2分木を生成する手法である。
決定木を用いる学習では、学習データの識別性能を向上させるために、非終端ノードにおいて特徴空間を最適な分割候補点で分割することが重要である。特徴空間の分割候補点を評価するパラメータとして、不純度とよばれる評価関数が用いられてもよい。ノードtの不純度を表す関数I(t)としては、例えば、以下の式(9-1)~(9-3)で表されるパラメータが用いられる。Kは、クラスの数である。
上式において、確率P(Ci|t)は、ノードtにおけるクラスCiの事後確率であり、言い換えると、ノードtにおいてクラスCiのデータが選ばれる確率である。式(9-3)の第2式において、確率P(Cj|t)は、クラスCiのデータがj(≠i)番目のクラスに間違われる確率であるので、第2式は、ノードtにおける誤り率を表す。式(9-3)の第3式は、全てのクラスに関する確率P(Ci|t)の分散の和を表す。
不純度を評価関数としてノードを分割する場合、例えば、当該ノードにおける誤り率、及び、決定木の複雑さで決まる許容範囲まで、決定木を剪定する手法が用いられる。
(4-4)ランダムフォレスト
ランダムフォレストは、アンサンブル学習の一種であって、複数の決定木を組み合わせて識別性能を強化する手法である。ランダムフォレストを用いる学習では、相関が低い複数の決定木からなる群(ランダムフォレスト)が生成される。ランダムフォレストの生成及び識別には、以下のアルゴリズムが用いられる。
(A)m=1からMまで以下を繰り返す。
(a)N個のd次元学習データから、m個のブートストラップサンプルZmを生成する。
(b)Zmを学習データとして、以下の手順で各ノードtを分割して、m個の決定木を生成する。
(i)d個の特徴からd´個の特徴をランダムに選択する。(d´<d)
(ii)選択されたd´個の特徴の中から、学習データの最適な分割を与える特徴と分割点(閾値)を求める。
(iii)求めた分割点でノードtを2分割する。
(B)m個の決定木からなるランダムフォレストを出力する。
(C)入力データに対して、ランダムフォレストの各決定木の識別結果を得る。ランダムフォレストの識別結果は、各決定木の識別結果の多数決によって決定される。
ランダムフォレストは、アンサンブル学習の一種であって、複数の決定木を組み合わせて識別性能を強化する手法である。ランダムフォレストを用いる学習では、相関が低い複数の決定木からなる群(ランダムフォレスト)が生成される。ランダムフォレストの生成及び識別には、以下のアルゴリズムが用いられる。
(A)m=1からMまで以下を繰り返す。
(a)N個のd次元学習データから、m個のブートストラップサンプルZmを生成する。
(b)Zmを学習データとして、以下の手順で各ノードtを分割して、m個の決定木を生成する。
(i)d個の特徴からd´個の特徴をランダムに選択する。(d´<d)
(ii)選択されたd´個の特徴の中から、学習データの最適な分割を与える特徴と分割点(閾値)を求める。
(iii)求めた分割点でノードtを2分割する。
(B)m個の決定木からなるランダムフォレストを出力する。
(C)入力データに対して、ランダムフォレストの各決定木の識別結果を得る。ランダムフォレストの識別結果は、各決定木の識別結果の多数決によって決定される。
ランダムフォレストを用いる学習では、決定木の各非終端ノードにおいて識別に用いる特徴をあらかじめ決められた数だけランダムに選択することで、決定木間の相関を低くすることができる。
(5)変形例E
第1乃至第3実施形態において、学習部103,203が用いる機械学習の手法である強化学習について説明する。強化学習は、一連の行動の結果としての報酬が最大となるような方策を学習する手法である。強化学習で用いられるモデル又はアルゴリズムは、Q学習(Q-learning)等がある。Q学習は、状態sの下で行動aを選択する価値を表すQ値を学習する手法である。Q学習では、Q値が最も高い行動aが最適な行動として選択される。高いQ値を求めるため、行動aの主体(エージェント)には、状態sの下で選択した行動aに対して報酬が与えられる。Q学習では、エージェントが行動するたびに、以下の式(10)を用いて、Q値が更新される。
第1乃至第3実施形態において、学習部103,203が用いる機械学習の手法である強化学習について説明する。強化学習は、一連の行動の結果としての報酬が最大となるような方策を学習する手法である。強化学習で用いられるモデル又はアルゴリズムは、Q学習(Q-learning)等がある。Q学習は、状態sの下で行動aを選択する価値を表すQ値を学習する手法である。Q学習では、Q値が最も高い行動aが最適な行動として選択される。高いQ値を求めるため、行動aの主体(エージェント)には、状態sの下で選択した行動aに対して報酬が与えられる。Q学習では、エージェントが行動するたびに、以下の式(10)を用いて、Q値が更新される。
式(10)において、Q(st,at)は、状態stのエージェントが行動atを選択する価値を表すQ値である。Q(st,at)は、状態sと行動aとをパラメータとする関数(行動価値関数)である。stは、時刻tにおけるエージェントの状態である。atは、時刻tにおけるエージェントの行動である。αは、学習係数である。αは、式(10)によってQ値が最適な値に収束するように設定される。rt+1は、エージェントが状態st+1に遷移したときに得る報酬である。γは、割引率である。γは、0以上1以下の定数である。maxを含む項は、環境st+1の下で、最もQ値が高い行動aを選択した場合のQ値にγを掛けたものである。行動価値関数によって求められるQ値は、エージェントが得る報酬の期待値である。
(6)変形例F
第3実施形態では、機械学習装置200は、制御量取得部202を備える。しかし、機械学習装置200は、制御量取得部202を備えていなくてもよい。この場合、機械学習装置200の学習部203は、学習データとして、制御量決定部206が決定した制御パラメータを用いてもよい。
第3実施形態では、機械学習装置200は、制御量取得部202を備える。しかし、機械学習装置200は、制御量取得部202を備えていなくてもよい。この場合、機械学習装置200の学習部203は、学習データとして、制御量決定部206が決定した制御パラメータを用いてもよい。
(7)変形例G
上述の実施形態及び変形例において、機械学習装置100,200は、教師あり学習又は強化学習の手法を用いる。しかし、機械学習装置100,200は、教師あり学習と強化学習とを組み合わせた手法を用いてもよい。
上述の実施形態及び変形例において、機械学習装置100,200は、教師あり学習又は強化学習の手法を用いる。しかし、機械学習装置100,200は、教師あり学習と強化学習とを組み合わせた手法を用いてもよい。
(8)変形例H
上述の実施形態及び変形例において、学習部103,203は、種種の機械学習の手法を用い得る。学習部103,203が用い得る機械学習の手法は、既に説明した教師あり学習及び強化学習の他に、教師なし学習、半教師あり学習、トランスダクティブ学習、マルチタスク学習及び転移学習等がある。学習部103,203は、これらの手法を組み合わせて用いてもよい。
上述の実施形態及び変形例において、学習部103,203は、種種の機械学習の手法を用い得る。学習部103,203が用い得る機械学習の手法は、既に説明した教師あり学習及び強化学習の他に、教師なし学習、半教師あり学習、トランスダクティブ学習、マルチタスク学習及び転移学習等がある。学習部103,203は、これらの手法を組み合わせて用いてもよい。
教師なし学習は、教師データを用いずに、所定の統計的性質に基づいて入力データをグループ分け(クラスタリング)する手法である。教師なし学習で用いられるモデル又はアルゴリズムとしては、k平均法(k-means法)、ウォード法(Ward法)、主成分分析等がある。k平均法は、各入力データにランダムにクラスタを割り当て、各クラスタの中心を計算し、各入力データを最も近い中心のクラスタに割り当て直す工程を繰り返す手法である。ウォード法は、クラスタの各入力データからクラスタの質量中心までの距離を最小化するように、各入力データをクラスタに割り当て直す工程を繰り返す手法である。主成分分析は、相関のある複数の変数から、相関の最も小さい主成分と呼ばれる変数を生成する多変量解析の手法である。
半教師あり学習は、対応する教師データが付かない入力データ(ラベルなしデータ)と、対応する教師データ付きの入力データ(ラベルありデータ)との両方を用いて学習する手法である。
トランスダクティブ学習は、半教師あり学習において、学習に用いられるラベルなしデータに対応する出力を生成し、未知の入力データに対応する出力を生成しない手法である。
マルチタスク学習は、複数の関連するタスク同士の情報を共有して、これらのタスクを同時に学習させることで、タスクに共通の要因を獲得してタスクの予測精度を上げる手法である。
転移学習は、あるドメインで予め学習させたモデルを、別のドメインに適応することで予測精度を上げる手法である。
―むすび―
以上、本開示の実施形態を説明したが、特許請求の範囲に記載された本開示の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
以上、本開示の実施形態を説明したが、特許請求の範囲に記載された本開示の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
機械学習装置は、対象者の温冷感の予測値を高い精度で取得することができる。
10 環境調整装置
20 対象者
100 機械学習装置
101 状態変数取得部(第1取得部)
102 制御量取得部(第2取得部)
103 学習部
104 関数更新部(更新部)
105 推論部
106 操作量候補出力部(出力部)
107 操作量決定部(決定部)
200 機械学習装置
201 状態変数取得部(第1取得部)
202 制御量取得部(第2取得部)
203 学習部
204 関数更新部(更新部)
204a 教師データ蓄積部(蓄積部)
204b 判定部
205 評価データ取得部(第3取得部)
207 関数変更部(変更部)
20 対象者
100 機械学習装置
101 状態変数取得部(第1取得部)
102 制御量取得部(第2取得部)
103 学習部
104 関数更新部(更新部)
105 推論部
106 操作量候補出力部(出力部)
107 操作量決定部(決定部)
200 機械学習装置
201 状態変数取得部(第1取得部)
202 制御量取得部(第2取得部)
203 学習部
204 関数更新部(更新部)
204a 教師データ蓄積部(蓄積部)
204b 判定部
205 評価データ取得部(第3取得部)
207 関数変更部(変更部)
Claims (19)
- 対象者(20)の温冷感を学習する機械学習装置であって、
前記対象者の生体情報に関するパラメータを含む第1変数を取得する第1取得部(101)と、
前記対象者の温冷感を含む第2変数を取得する第2取得部(102)と、
前記第1変数と前記第2変数とを関連付けて学習する学習部(103)と、
を備える、機械学習装置(100)。 - 前記第1変数は、前記対象者の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも1つを含む、
請求項1に記載の機械学習装置。 - 前記学習部は、前記第1変数と前記第2変数とを教師データとして用いて学習する、
請求項1又は2に記載の機械学習装置。 - 前記学習部の学習の結果に基づき、前記第1変数から、前記対象者の温冷感の予測値を推論する推論部(105)をさらに備える、
請求項1~3のいずれか1項に記載の機械学習装置。 - 前記第2変数及び前記予測値に基づいて報酬を算出する更新部(104)をさらに備え、
前記学習部は、前記報酬を用いて学習する、
請求項4に記載の機械学習装置。 - 前記更新部は、前記第2変数に含まれる前記対象者の温冷感と、前記予測値との差が小さいほど、高い前記報酬を算出する、
請求項5に記載の機械学習装置。 - 対象空間の環境を調整する環境調整装置であって、請求項1~6のいずれか1項に記載の機械学習装置を備える、環境調整装置。
- 前記第2取得部は、温冷感に関する前記対象者の入力値、及び、前記環境調整装置の操作状況の少なくとも1つに基づいて、前記第2変数を取得する、
請求項7に記載の環境調整装置。 - 請求項4~6のいずれか1項に記載の前記機械学習装置と、
前記対象空間の環境を調整するための第3変数の候補を出力する出力部(106)と、
前記第3変数を決定する決定部(107)と、
を備え、
前記推論部は、前記出力部が出力した前記候補に基づいて、前記予測値を推論し、
前記決定部は、前記予測値が所定の条件を満たすように、前記第3変数を決定する、
請求項7又は8に記載の環境調整装置。 - 前記決定部は、前記対象者の温冷感の目標値と、前記推論部が推論した前記予測値との差が小さくなるように、前記第3変数を決定し、
前記学習部は、前記決定部が決定した前記第3変数を用いて学習する、
請求項9に記載の環境調整装置。 - 前記第3変数は、前記対象空間の温度を含む、
請求項9又は10に記載の環境調整装置。 - 対象空間の環境を調整する環境調整装置(10)の制御パラメータを学習する機械学習装置であって、
前記対象空間内の対象者の生体情報に関するパラメータを含む第1変数を取得する第1取得部(201)と、
前記制御パラメータを取得する第2取得部(202)と、
前記第1変数と前記制御パラメータとを関連付けて学習する学習部(203)と、
を備える、機械学習装置。 - 前記環境調整装置の制御結果を評価する評価データを取得する第3取得部(205)と、
前記評価データを用いて前記学習部の学習状態を更新する更新部(204)と、
をさらに備え、
前記学習部は、前記更新部の出力に従って学習し、
前記評価データは、前記対象者の温冷感を含む、
請求項12に記載の機械学習装置。 - 前記更新部は、前記評価データに基づいて報酬を算出し、
前記学習部は、前記報酬を用いて学習する、
請求項13に記載の機械学習装置。 - 前記評価データは、前記対象者の温冷感の予測値と、温冷感の中立の値との差であり、
前記更新部は、前記差が小さいほど、高い前記報酬を算出する、
請求項14に記載の機械学習装置。 - 前記第1変数を入力変数とし前記制御パラメータを出力変数とする識別関数のパラメータを出力する変更部(207)をさらに備え、
前記学習部は、前記変更部の出力に従って、前記識別関数のパラメータの変更を複数回行い、パラメータが変更された前記識別関数毎に前記第1変数から前記制御パラメータを出力し、
前記更新部は、蓄積部(204a)と判定部(204b)とを備え、
前記判定部は、前記評価データを用いて判定結果を出力し、
前記蓄積部は、前記判定結果に従って、前記第1変数と、前記学習部が前記第1変数から出力した前記制御パラメータとから教師データを蓄積し、
前記学習部は、前記蓄積部に蓄積された前記教師データに基づいて学習する、
請求項13に記載の機械学習装置。 - 前記第3取得部は、温冷感に関する前記対象者の入力値、及び、前記環境調整装置の操作状況の少なくとも1つに基づいて、前記評価データを取得する、
請求項13~16のいずれか1項に記載の機械学習装置。 - 前記第1変数は、前記対象者の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも1つを含む、
請求項12~17のいずれか1項に記載の機械学習装置。 - 請求項12~18のいずれか1項に記載の機械学習装置を備える、環境調整装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP20894151.8A EP4067769A4 (en) | 2019-11-26 | 2020-11-26 | Machine learning device and environment adjustment device |
| CN202080081440.8A CN114761733A (zh) | 2019-11-26 | 2020-11-26 | 机器学习装置以及环境调整装置 |
| US17/824,503 US20220299232A1 (en) | 2019-11-26 | 2022-05-25 | Machine learning device and environment adjusting apparatus |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019213364 | 2019-11-26 | ||
| JP2019-213364 | 2019-11-26 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| US17/824,503 Continuation US20220299232A1 (en) | 2019-11-26 | 2022-05-25 | Machine learning device and environment adjusting apparatus |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2021107053A1 true WO2021107053A1 (ja) | 2021-06-03 |
Family
ID=76130571
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2020/044112 Ceased WO2021107053A1 (ja) | 2019-11-26 | 2020-11-26 | 機械学習装置、及び、環境調整装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20220299232A1 (ja) |
| EP (1) | EP4067769A4 (ja) |
| JP (1) | JP7554650B2 (ja) |
| CN (1) | CN114761733A (ja) |
| WO (1) | WO2021107053A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023144931A1 (ja) * | 2022-01-26 | 2023-08-03 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7779203B2 (ja) * | 2022-06-02 | 2025-12-03 | トヨタ紡織株式会社 | 温調システム、温調方法、記録装置、及び記録方法 |
| CN116933078B (zh) * | 2023-07-18 | 2026-02-27 | 三峡国际能源投资集团有限公司 | 太阳辐照度区间预测方法、装置、计算机设备及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09303842A (ja) * | 1996-05-15 | 1997-11-28 | Toshiba Corp | 空気調和機 |
| WO2007007632A1 (ja) | 2005-07-11 | 2007-01-18 | Matsushita Electric Industrial Co., Ltd. | 環境制御装置、環境制御方法、環境制御プログラム及び環境制御プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2009228918A (ja) * | 2008-03-19 | 2009-10-08 | Hitachi Ltd | ボイラの制御装置、及びボイラの制御方法 |
| JP2019082312A (ja) * | 2017-10-30 | 2019-05-30 | ダイキン工業株式会社 | 空調制御装置 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06323596A (ja) * | 1993-05-14 | 1994-11-25 | Daikin Ind Ltd | 空気調和装置の運転制御装置 |
| JP6351067B2 (ja) * | 2014-05-22 | 2018-07-04 | Kddi株式会社 | 眼鏡型ウェアラブル装置、温冷感変化誘発方法、およびプログラム |
| US20160320081A1 (en) * | 2015-04-28 | 2016-11-03 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Personalization of Heating, Ventilation, and Air Conditioning Services |
| JP2018155435A (ja) * | 2017-03-16 | 2018-10-04 | 三菱電機株式会社 | 空気調和機制御装置および空気調和機制御方法 |
| EP3699507B1 (en) * | 2017-10-18 | 2023-12-13 | Tsinghua University | Air-conditioning control device |
| JP6940387B2 (ja) * | 2017-12-06 | 2021-09-29 | アズビル株式会社 | 温冷感申告情報処理装置および方法 |
| KR102661364B1 (ko) * | 2019-07-05 | 2024-04-25 | 엘지전자 주식회사 | 열적 쾌적성 기반의 공조 방법 및 공조기 |
| US11566809B2 (en) * | 2019-11-12 | 2023-01-31 | Robert Bosch Gmbh | Occupant thermal comfort inference using body shape information |
-
2020
- 2020-11-26 EP EP20894151.8A patent/EP4067769A4/en not_active Ceased
- 2020-11-26 CN CN202080081440.8A patent/CN114761733A/zh active Pending
- 2020-11-26 JP JP2020196257A patent/JP7554650B2/ja active Active
- 2020-11-26 WO PCT/JP2020/044112 patent/WO2021107053A1/ja not_active Ceased
-
2022
- 2022-05-25 US US17/824,503 patent/US20220299232A1/en not_active Abandoned
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09303842A (ja) * | 1996-05-15 | 1997-11-28 | Toshiba Corp | 空気調和機 |
| WO2007007632A1 (ja) | 2005-07-11 | 2007-01-18 | Matsushita Electric Industrial Co., Ltd. | 環境制御装置、環境制御方法、環境制御プログラム及び環境制御プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2009228918A (ja) * | 2008-03-19 | 2009-10-08 | Hitachi Ltd | ボイラの制御装置、及びボイラの制御方法 |
| JP2019082312A (ja) * | 2017-10-30 | 2019-05-30 | ダイキン工業株式会社 | 空調制御装置 |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP4067769A4 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023144931A1 (ja) * | 2022-01-26 | 2023-08-03 | ||
| WO2023144931A1 (ja) * | 2022-01-26 | 2023-08-03 | 日本電気株式会社 | 空調機制御装置、空調機制御システム、空調機制御方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4067769A1 (en) | 2022-10-05 |
| US20220299232A1 (en) | 2022-09-22 |
| JP2021089134A (ja) | 2021-06-10 |
| CN114761733A (zh) | 2022-07-15 |
| EP4067769A4 (en) | 2023-02-01 |
| JP7554650B2 (ja) | 2024-09-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7078873B2 (ja) | 機械学習装置、デマンド制御システム、及び、空調制御システム | |
| US20210034972A1 (en) | Batch normalization layer training method | |
| Yeung et al. | Sensitivity analysis for neural networks | |
| KR20200022739A (ko) | 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치 | |
| Lukina et al. | Into the unknown: Active monitoring of neural networks | |
| US20220299232A1 (en) | Machine learning device and environment adjusting apparatus | |
| Roh et al. | Design methodology for radial basis function neural networks classifier based on locally linear reconstruction and conditional fuzzy C-means clustering | |
| CN119558418B (zh) | 基于大数据的虚拟仿真教学管理方法及系统 | |
| Anand et al. | Evaluation of Machine Learning Approaches for Predicting Cardiovascular Attacks | |
| Kostiuk et al. | Models and technologies of cognitive agents for decision-making with integration of Artificial Intelligence | |
| Gómez-Flores et al. | Towards dendrite spherical neurons for pattern classification | |
| KR20230069010A (ko) | 정규화를 시행하는 딥 뉴럴 네트워크 학습 장치 및 그 방법 | |
| CN117150335A (zh) | 基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法、系统及应用 | |
| JP2021056893A (ja) | 機械学習装置、及び、空調制御システム | |
| CN114936598A (zh) | 跨域小样本学习方法、学习系统、电子设备及存储介质 | |
| Albuquerque et al. | Adaptive fuzzy learning vector quantization (AFLVQ) for time series classification | |
| Madhuravani et al. | Prediction exploration for coronary heart disease aid of machine learning | |
| Steele | Feed Forward Neural Network for Intent Classification: A Procedural Analysis | |
| Christodoulou et al. | Improving the performance of classification models with fuzzy cognitive maps | |
| Mahalle et al. | Model-Centric AI | |
| KR102879956B1 (ko) | Ai 기반 개인 맞춤형 인력양성 서비스 시스템 | |
| Hristeva et al. | Deep learning model for object detection | |
| Benítez et al. | Neural methods for obtaining fuzzy rules | |
| Hajek et al. | Municipal creditworthiness modelling by Kohonen’s self-organizing feature maps and fuzzy logic neural networks | |
| Prudêncio et al. | A machine learning approach to define weights for linear combination of forecasts |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20894151 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| ENP | Entry into the national phase |
Ref document number: 2020894151 Country of ref document: EP Effective date: 20220627 |


