WO2021107053A1

WO2021107053A1 - 機械学習装置、及び、環境調整装置

Info

Publication number: WO2021107053A1
Application number: PCT/JP2020/044112
Authority: WO
Inventors: 西村　忠史
Original assignee: Daikin Industries Ltd
Current assignee: Daikin Industries Ltd
Priority date: 2019-11-26
Filing date: 2020-11-26
Publication date: 2021-06-03
Anticipated expiration: 2022-05-26
Also published as: EP4067769A1; US20220299232A1; JP2021089134A; CN114761733A; EP4067769A4; JP7554650B2

Abstract

対象者の温冷感の予測値を高い精度で取得することができる機械学習装置を提供する。機械学習装置（１００）は、対象者（２０）の温冷感を学習する。機械学習装置（１００）は、状態変数取得部（１０１）と、制御量取得部（１０２）と、学習部（１０３）とを備える。状態変数取得部（１０１）は、対象者（２０）の生体情報に関するパラメータを含む状態変数を取得する。制御量取得部（１０２）は、対象者（２０）の温冷感を含む制御量を取得する。学習部（１０３）は、状態変数と制御量とを関連付けて学習する。

Description

機械学習装置、及び、環境調整装置

　機械学習装置、及び、それを備える環境調整装置に関する。

　特許文献１（国際公開第２００７／００７６３２号）には、対象者の生体情報の時系列データをカオス解析することで対象者の快適感を推定し、推定結果に基づいて環境調整装置を制御する構成が開示されている。

　対象者の快適感の推定値の精度が十分ではない課題がある。

　第１観点の機械学習装置は、対象者の温冷感を学習する。機械学習装置は、第１取得部と、第２取得部と、学習部とを備える。第１取得部は、対象者の生体情報に関するパラメータを含む第１変数を取得する。第２取得部は、対象者の温冷感を含む第２変数を取得する。学習部は、第１変数と第２変数とを関連付けて学習する。

　第１観点の機械学習装置は、対象者の温冷感の予測値を高い精度で取得することができる。

　第２観点の機械学習装置は、第１観点の機械学習装置であって、第１変数は、対象者の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも１つを含む。

　第３観点の機械学習装置は、第１観点又は第２観点の機械学習装置であって、学習部は、第１変数と第２変数とを教師データとして用いて学習する。

　第４観点の機械学習装置は、第１乃至第３観点のいずれか１つの機械学習装置であって、推論部をさらに備える。推論部は、学習部の学習の結果に基づき、第１変数から、対象者の温冷感の予測値を推論する。

　第５観点の機械学習装置は、第４観点の機械学習装置であって、更新部をさらに備える。更新部は、第２変数、及び、対象者の温冷感の予測値に基づいて報酬を算出する。学習部は、報酬を用いて学習する。

　第６観点の機械学習装置は、第５観点の機械学習装置であって、更新部は、第２変数に含まれる対象者の温冷感と、対象者の温冷感の予測値との差が小さいほど、高い報酬を算出する。

　第７観点の環境調整装置は、対象空間の環境を調整する。環境調整装置は、第１乃至第６観点のいずれか１つの機械学習装置を備える。

　第８観点の環境調整装置は、第７観点の環境調整装置であって、第２取得部は、温冷感に関する対象者の入力値、及び、環境調整装置の操作状況の少なくとも１つに基づいて、第２変数を取得する。

　第９観点の環境調整装置は、第７観点又は第８観点の環境調整装置であって、第４乃至第６観点のいずれか１つの機械学習装置と、出力部と、決定部とを備える。出力部は、対象空間の環境を調整するための第３変数の候補を出力する。決定部は、第３変数を決定する。推論部は、出力部が出力した第３変数の候補に基づいて、対象者の温冷感の予測値を推論する。決定部は、対象者の温冷感の予測値が所定の条件を満たすように、第３変数を決定する。

　第１０観点の環境調整装置は、第９観点の環境調整装置であって、決定部は、対象者の温冷感の目標値と、推論部が推論した対象者の温冷感の予測値との誤差が小さくなるように、第３変数を決定する。

　第１１観点の環境調整装置は、第９観点又は第１０観点の環境調整装置であって、第３変数は、対象空間の温度を含む。

　第１２観点の機械学習装置は、対象空間の環境を調整する環境調整装置の制御パラメータを学習する。機械学習装置は、第１取得部と、第２取得部と、学習部とを備える。第１取得部は、対象空間内の対象者の生体情報に関するパラメータを含む第１変数を取得する。第２取得部は、制御パラメータを取得する。学習部は、第１変数と制御パラメータとを関連付けて学習する。

　第１２観点の機械学習装置は、対象者の温冷感に適した、環境調整装置の制御パラメータを取得することができる。

　第１３観点の機械学習装置は、第１２観点の機械学習装置であって、第３取得部と、更新部とをさらに備える。第３取得部は、環境調整装置の制御結果を評価する評価データを取得する。更新部は、評価データを用いて学習部の学習状態を更新する。学習部は、更新部の出力に従って学習する。評価データは、対象者の温冷感を含む。

　第１４観点の機械学習装置は、第１３観点の機械学習装置であって、更新部は、評価データに基づいて報酬を算出する。学習部は、報酬を用いて学習する。

　第１５観点の機械学習装置は、第１４観点の機械学習装置であって、評価データは、対象者の温冷感の予測値と、温冷感の中立の値との差である。更新部は、この差が小さいほど、高い報酬を算出する。

　第１６観点の機械学習装置は、第１３観点の機械学習装置であって、変更部をさらに備える。変更部は、第１変数を入力変数とし制御パラメータを出力変数とする識別関数のパラメータを出力する。学習部は、変更部の出力に従って、識別関数のパラメータの変更を複数回行い、パラメータが変更された識別関数毎に第１変数から制御パラメータを出力する。更新部は、蓄積部と、判定部とを備える。判定部は、評価データを用いて判定結果を出力する。蓄積部は、判定結果に従って、第１変数と、学習部が第１変数から出力した制御パラメータとから教師データを蓄積する。学習部は、蓄積部に蓄積された教師データに基づいて学習する。

　第１７観点の機械学習装置は、第１３乃至第１６観点のいずれか１つの機械学習装置であって、第３取得部は、温冷感に関する対象者の入力値、及び、環境調整装置の操作状況の少なくとも１つに基づいて、評価データを取得する。

　第１８観点の機械学習装置は、第１２乃至第１７観点のいずれか１つの機械学習装置であって、第１変数は、対象者の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも１つを含む。

　第１９観点の環境調整装置は、第１２乃至第１８観点のいずれか１つの機械学習装置を備える。

第１実施形態に係る学習中の機械学習装置１００のブロック図である。第１実施形態に係る学習後の機械学習装置１００のブロック図である。第２実施形態に係る学習中の機械学習装置１００のブロック図である。第２実施形態に係る学習後の機械学習装置１００のブロック図である。第３実施形態に係る学習中の機械学習装置２００のブロック図である。第３実施形態に係る学習後の機械学習装置２００のブロック図である。変形例Ａに係る学習中の機械学習装置２００のブロック図である。変形例Ａに係る学習後の機械学習装置２００のブロック図である。ニューラルネットワークのニューロンのモデルの模式図である。図９に示されるニューロンを組み合わせて構成した三層のニューラルネットワークの模式図である。サポートベクターマシンを説明するための図である。２クラスの学習データが線形分離可能である特徴空間を表す。２クラスの学習データが線形分離不可能である特徴空間を表す。分割統治法によって構成された決定木の一例である。図１３の決定木によって分割される特徴空間を表す。

　―第１実施形態―
　第１実施形態に係る環境調整装置１０について、図面を参照しながら説明する。環境調整装置１０は、対象空間の環境を調整する装置である。第１実施形態では、環境調整装置１０は、空調制御装置である。

　環境調整装置１０は、対象者２０の生体情報を用いて、対象空間内の対象者２０の温冷感を予測する。環境調整装置１０は、対象者２０の温冷感の予測値に基づいて、当該対象者２０の快適性を把握して、快適性を訴求する空調制御を実現する。温冷感は、対象空間内における対象者２０の快適性を表す指標である。温冷感の指標としては、例えば、ＰＭＶ（Predicted Mean Vote，予測温冷感申告）が用いられる。

　環境調整装置１０は、機械学習の手法を用いて対象者２０の温冷感を学習する機械学習装置１００を備える。機械学習装置１００は、１つ又は複数のコンピュータから構成される。機械学習装置１００が複数のコンピュータから構成される場合、当該複数のコンピュータは、ネットワークを介して互いに接続されてもよい。

　図１は、第１実施形態の学習中の機械学習装置１００のブロック図である。図２は、第１実施形態の学習後の機械学習装置１００のブロック図である。機械学習装置１００は、主として、状態変数取得部１０１と、制御量取得部１０２と、学習部１０３と、関数更新部１０４と、推論部１０５とを備える。状態変数取得部１０１～推論部１０５は、機械学習装置１００の記憶装置に記憶されているプログラムを、機械学習装置１００のＣＰＵが実行することにより実現される。

　状態変数取得部１０１は、対象者２０の生体情報に関する少なくとも１つのパラメータを含む状態変数（第１変数）を取得する。

　制御量取得部１０２は、対象者２０の温冷感を含む制御量（第２変数）を取得する。

　学習部１０３は、図１に示されるように、状態変数取得部１０１が取得した状態変数と、制御量取得部１０２が取得した制御量とを関連付けて学習する。第１実施形態では、学習部１０３は、報酬を用いて学習する強化学習を行う。学習部１０３は、学習の結果である学習済みモデルを出力する。

　関数更新部１０４は、制御量取得部１０２が取得した制御量と、制御量の予測値とに基づいて報酬を算出する。具体的には、関数更新部１０４は、制御量に含まれる対象者２０の温冷感が、対象者２０の温冷感の予測値に近いほど、高い報酬を算出する。言い換えると、対象者２０の温冷感の実際値と、対象者２０の温冷感の予測値との差が小さいほど、関数更新部１０４によって算出される報酬が高くなる。

　推論部１０５は、図２に示されるように、学習部１０３による学習の結果得られた学習済みモデルに基づき、状態変数取得部１０１が取得した状態変数から、対象者２０の温冷感の予測値を推論する。推論部１０５は、対象者２０の温冷感の予測値を出力する。環境調整装置１０は、推論部１０５が出力した予測値に基づいて、空調制御を行う。

　状態変数取得部１０１が取得する状態変数は、対象者２０の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも１つを含む。脳波に相関するパラメータとは、脳波振幅、脳波波高最大値、及び、最大リアプノフ数の少なくとも１つである。皮膚温度に相関するパラメータとは、対象者２０の体の特定の部分の皮膚温度、及び、対象者２０の体の特定の二箇所の部分の皮膚温度の差の少なくとも１つである。心拍に相関するパラメータとは、例えば、Ｒ－Ｒ間隔である。

　制御量取得部１０２は、温冷感に関する対象者２０の入力値、及び、環境調整装置１０の操作状況の少なくとも１つに基づいて、対象者２０の温冷感を含む制御量を取得する。温冷感に関する対象者２０の入力値とは、対象者２０の主観的な申告に基づく温冷感である。例えば、温冷感に関する対象者２０の入力値は、対象者２０が自身の主観に基づいて入力した温冷感、及び、温冷感に関する質問に対する対象者２０の回答から算出された温冷感である。環境調整装置１０の操作状況とは、例えば、環境調整装置１０の操作時における対象者２０の脳波に相関するパラメータである。

　機械学習装置１００は、客観的な指標である対象者２０の生体情報を用いて対象者２０の温冷感の予測値を取得する。そのため、環境調整装置１０は、機械学習装置１００を備えることで、対象者２０の温冷感の予測値を高い精度で取得することができる。従って、環境調整装置１０は、対象者２０の温冷感の予測値に基づいて、対象者２０の快適性を訴求する空調制御を実現することができる。

　―第２実施形態―
　第２実施形態に係る環境調整装置１０について、図面を参照しながら説明する。第１実施形態及び第２実施形態に係る環境調整装置１０は、基本的な構成は共通している。以下、第１実施形態と第２実施形態との相違点を中心に説明する。

　図３は、第２実施形態の学習中の機械学習装置１００のブロック図である。図４は、第２実施形態の学習後の機械学習装置１００のブロック図である。第２実施形態の環境調整装置１０は、第１実施形態の機械学習装置１００と、操作量候補出力部１０６と、操作量決定部１０７とを備える。機械学習装置１００は、状態変数取得部１０１～推論部１０５を備える。

　操作量候補出力部１０６は、対象空間の環境を調整するための環境パラメータ（第３変数）の候補を出力する。環境パラメータは、対象空間の温度を含む。操作量候補出力部１０６は、例えば、環境パラメータの所定のリストから、環境パラメータの候補を出力する。機械学習装置１００の推論部１０５は、図４に示されるように、操作量候補出力部１０６が出力した環境パラメータの候補に少なくとも基づいて、対象者２０の温冷感の予測値を推論する。

　操作量決定部１０７は、対象者２０の温冷感の予測値が所定の条件を満たすように、環境パラメータを決定する。具体的には、操作量決定部１０７は、対象者２０の温冷感の目標値と、推論部１０５が推論した予測値との差が小さくなるように、環境パラメータを決定する。機械学習装置１００の学習部１０３は、図３に示されるように、操作量決定部１０７が決定した環境パラメータを用いて学習を行い、学習済みモデルを出力する。

　第２実施形態では、操作量決定部１０７は、環境パラメータの候補の中から、対象者２０の温冷感の予測値を高い精度で取得できる学習済みモデルの構築に適した環境パラメータを決定することができる。従って、環境調整装置１０は、対象者２０の温冷感の予測値を高い精度で取得して、対象者２０の温冷感の予測値に基づいて、対象者２０の快適性を訴求する空調制御を実現することができる。

　―第３実施形態―
　第３実施形態に係る環境調整装置１０について、図面を参照しながら説明する。環境調整装置１０は、対象空間の環境を調整する装置である。第３実施形態では、環境調整装置１０は、空調制御装置である。

　環境調整装置１０は、対象者２０の生体情報を用いて、対象空間内の対象者２０の温冷感を予測する。環境調整装置１０は、対象者２０の温冷感の予測値に基づいて、当該対象者２０の快適性を把握して、快適性を訴求する空調制御を実現する。

　環境調整装置１０は、環境調整装置１０の制御パラメータを学習する機械学習装置２００を備える。機械学習装置２００は、１つ又は複数のコンピュータから構成される。機械学習装置２００が複数のコンピュータから構成される場合、当該複数のコンピュータは、ネットワークを介して互いに接続されてもよい。

　図５は、第３実施形態の学習中の機械学習装置２００のブロック図である。図６は、第３実施形態の学習後の機械学習装置２００のブロック図である。機械学習装置２００は、主として、状態変数取得部２０１と、制御量取得部２０２と、学習部２０３と、関数更新部２０４と、評価データ取得部２０５と、制御量決定部２０６とを備える。状態変数取得部２０１～制御量決定部２０６は、機械学習装置２００の記憶装置に記憶されているプログラムを、機械学習装置２００のＣＰＵが実行することにより実現される。

　状態変数取得部２０１は、対象空間内の対象者２０の生体情報に関する少なくとも１つのパラメータを含む状態変数（第１変数）を取得する。

　制御量取得部２０２は、環境調整装置１０の制御パラメータを制御量として取得する。

　評価データ取得部２０５は、環境調整装置１０の制御結果を評価する評価データを取得する。

　関数更新部２０４は、評価データ取得部２０５が取得した評価データを用いて学習部２０３の学習状態を更新する。

　学習部２０３は、図５に示されるように、状態変数取得部２０１が取得した状態変数と、制御量取得部２０２が取得した制御パラメータとを関連付けて学習する。学習部２０３は、学習の結果である学習済みモデルを出力する。

　学習部２０３は、関数更新部２０４の出力に従って学習する。第３実施形態では、学習部２０３は、報酬を用いて学習する強化学習を行う。関数更新部２０４は、評価データ取得部２０５が取得した評価データに基づいて報酬を算出する。具体的には、関数更新部２０４は、対象者２０の温冷感が中立に近いほど、高い報酬を算出する。

　制御量決定部２０６は、図６に示されるように、学習部２０３による学習の結果得られた学習済みモデルに基づき、状態変数取得部２０１が取得した状態変数から、環境調整装置１０の制御パラメータを決定する。環境調整装置１０は、制御量決定部２０６が決定した制御パラメータに基づいて、環境調整装置１０による空調制御を行う。

　評価データ取得部２０５は、所定の判定データを所定の評価関数に入力して、評価関数の出力値を評価データとして取得する。言い換えると、評価関数は、評価データ取得部２０５から判定データを入力値として受け取り、評価データを出力する。判定データは、温冷感に関する対象者２０の入力値、及び、環境調整装置１０の操作状況の少なくとも１つである。温冷感に関する対象者２０の入力値とは、対象者２０の主観的な申告に基づく温冷感である。例えば、温冷感に関する対象者２０の入力値は、対象者２０が自身の主観に基づいて入力した温冷感、及び、温冷感に関する質問に対する対象者２０の回答から算出された温冷感である。環境調整装置１０の操作状況とは、例えば、環境調整装置１０の操作時における対象者２０の脳波に相関するパラメータである。

　評価データ取得部２０５が取得する評価データは、対象者２０の温冷感を少なくとも含む。評価データは、例えば、対象者２０の温冷感の予測値である。対象者２０の温冷感の予測値は、温冷感に関する対象者２０の入力値、及び、環境調整装置１０の操作状況の少なくとも１つから取得される。評価データは、対象者２０の温冷感の予測値と、温冷感の中立の値との差であってもよい。この場合、関数更新部２０４は、評価データ取得部２０５が取得した評価データである差がゼロに近いほど、高い報酬を算出する。

　状態変数取得部２０１が取得する状態変数は、対象者２０の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも１つを含む。脳波に相関するパラメータとは、脳波振幅、脳波波高最大値、及び、最大リアプノフ数の少なくとも１つである。皮膚温度に相関するパラメータとは、対象者２０の体の特定の部分の皮膚温度、及び、対象者２０の体の特定の二箇所の部分の皮膚温度の差の少なくとも１つである。

　機械学習装置２００は、客観的な指標である対象者２０の生体情報に基づいて対象者２０の温冷感を取得し、対象者２０の温冷感に基づいて環境調整装置１０の制御パラメータを決定する。そのため、環境調整装置１０は、機械学習装置２００を備えることで、対象者２０の生体情報を直接反映させた制御パラメータを取得することができる。従って、環境調整装置１０は、対象者２０の温冷感に基づいて、対象者２０の快適性を訴求する空調制御を実現することができる。

　―変形例―
　以下、実施形態の少なくとも一部の変形例について説明する。

　（１）変形例Ａ
　第３実施形態では、学習部２０３は、報酬を用いて学習する強化学習を行う。しかし、学習部２０３は、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。

　変形例Ａに係る環境調整装置１０について、図面を参照しながら説明する。第３実施形態及び変形例Ａに係る環境調整装置１０は、基本的な構成は共通している。以下、第３実施形態と変形例Ａとの相違点を中心に説明する。

　図７は、変形例Ａの学習中の機械学習装置２００のブロック図である。図８は、変形例Ａの学習後の機械学習装置２００のブロック図である。機械学習装置２００は、関数変更部２０７をさらに備える。

　関数更新部２０４は、教師データ蓄積部２０４ａと、判定部２０４ｂとを備える。判定部２０４ｂは、評価データ取得部２０５が取得した評価データを用いて、評価データの判定結果を出力する。教師データ蓄積部２０４ａは、判定部２０４ｂによる判定結果に従って、状態変数取得部２０１が取得した状態変数と、制御量取得部２０２が取得した制御パラメータとから教師データを蓄積する。

　学習部２０３は、関数変更部２０７の出力に従って、識別関数のパラメータを微小変化させて、識別関数のパラメータの変更を複数回行い、パラメータが変更された識別関数毎に状態変数から制御パラメータを出力する。識別関数とは、教師データに含まれる状態変数から制御パラメータへの写像である。具体的には、識別関数は、状態変数を入力変数とし、制御パラメータを出力変数とする関数である。関数変更部２０７は、識別関数のパラメータを出力する。関数更新部２０４は、学習部２０３が状態変数から出力した制御パラメータに基づく環境調整装置１０の制御の結果得られた評価データが適切であると判定された場合に、当該状態変数と、当該状態変数から学習部２０３が出力した制御パラメータとを教師データとして蓄積する。

　学習部２０３は、教師データ蓄積部２０４ａに蓄積された教師データに基づいて学習する。学習部２０３による学習の目的は、新規の状態変数から正しい又は適切な評価データを得ることができるように、教師データを学習データとして用いて識別関数のパラメータを調整することである。学習部２０３は、学習データとして、状態変数取得部２０１が予め取得した状態変数と、制御量取得部２０２が取得した制御パラメータとの対を用いる。学習部２０３によってパラメータが十分に調整された識別関数は、学習済みモデルに相当する。

　制御量決定部２０６は、学習部２０３による学習の結果得られた学習済みモデルに基づいて、新規の状態変数から制御パラメータを決定する。

　学習部２０３は、次に説明するように、オンライン学習又はバッチ学習による教師あり学習を行う。

　オンライン学習による教師あり学習では、学習部２０３は、環境調整装置１０の出荷又は設置前の試験運転時等に取得したデータ（状態変数）を用いて学習済みモデルを予め生成する。制御量決定部２０６は、環境調整装置１０の初回運転開始時には、学習部２０３が予め生成した学習済みモデルに基づいて、制御パラメータを決定する。その後、学習部２０３は、環境調整装置１０の運転時に新たに取得したデータ（状態変数）を用いて学習済みモデルを更新する。制御量決定部２０６は、学習部２０３が更新した学習済みモデルに基づいて、制御パラメータを決定する。このように、オンライン学習では、学習済みモデルが定期的に更新され、制御量決定部２０６は、最新の学習済みモデルに基づいて、制御パラメータを決定する。

　バッチ学習による教師あり学習では、学習部２０３は、環境調整装置１０の出荷又は設置前の試験運転時等に取得したデータ（状態変数）を用いて学習済みモデルを予め生成する。制御量決定部２０６は、環境調整装置１０の運転時において、学習部２０３が予め生成した学習済みモデルに基づいて、制御パラメータを決定する。この学習済みモデルは、学習部２０３によって予め生成された後は更新されない。言い換えると、制御量決定部２０６は、同じ学習済みモデルを用いて制御パラメータを決定する。

　なお、環境調整装置１０とインターネット等のコンピュータネットワークを介して接続されたサーバが、学習済みモデルを生成してもよく、また、クラウドコンピューティングのサービスを利用して、学習済みモデルを生成してもよい。

　（２）変形例Ｂ
　第１及び第２実施形態では、学習部１０３は、報酬を用いて学習する強化学習を行う。しかし、学習部１０３は、変形例Ａで説明したように、強化学習の代わりに、教師データに基づいて学習する教師あり学習を行ってもよい。この場合、学習部１０３は、状態変数取得部１０１が取得した状態変数と、制御量取得部１０２が取得した制御量（対象者２０の温冷感）とから得られた教師データを用いて学習してもよい。

　（３）変形例Ｃ
　変形例Ａ乃至Ｂにおいて、学習部１０３，２０３が教師データを用いる教師あり学習を行う場合、学習部１０３，２０３は、教師データの一部を学習データとして用いて識別関数のパラメータを調整し、残りをテストデータとして用いてもよい。テストデータとは、学習に使用されなかったデータであり、主に、学習済みモデルの性能評価に用いられるデータである。テストデータを用いることで、新規の状態変数から得られた評価データの性能を、テストデータに対する誤り確率という形式で予測することができる。予め取得したデータを学習データとテストデータとに分ける手法としては、ホールドアウト法、交差確認法、一つ抜き法（ジャックナイフ法）及びブートストラップ法等が用いられる。

　（４）変形例Ｄ
　変形例Ａ乃至Ｃにおいて、学習部１０３，２０３が用いる機械学習の手法である教師あり学習について説明する。教師あり学習は、教師データを用いて、未知の入力データに対応する出力を生成する手法である。教師あり学習では、学習データと識別関数とが用いられる。学習データとは、入力データと、それに対応する教師データとの対の集合である。入力データは、例えば、特徴空間における特徴ベクトルである。教師データは、例えば、入力データの識別、分類及び評価に関するパラメータである。識別関数は、入力データから、それに対応する出力への写像を表す。教師あり学習は、事前に与えられた学習データを用いて、識別関数の出力と教師データとの差が小さくなるように、識別関数のパラメータを調整する手法である。教師あり学習で用いられるモデル又はアルゴリズムとしては、回帰分析、時系列分析、決定木、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習等が挙げられる。

　回帰分析は、例えば、線形回帰分析、重回帰分析、ロジスティック回帰分析である。回帰分析は、最小二乗法等を用いて、入力データ（説明変数）と教師データ（目的変数）との間にモデルを当てはめる手法である。説明変数の次元は、線形回帰分析では１であり、重回帰分析では２以上である。ロジスティック回帰分析では、ロジスティック関数（シグモイド関数）がモデルとして用いられる。

　時系列分析は、例えば、ＡＲモデル（自己回帰モデル）、ＭＡモデル（移動平均モデル）、ＡＲＭＡモデル（自己回帰移動平均モデル）、ＡＲＩＭＡモデル（自己回帰和分移動平均モデル）、ＳＡＲＩＭＡモデル（季節自己回帰和分移動平均モデル）、ＶＡＲモデル（ベクトル自己回帰モデル）である。ＡＲ、ＭＡ、ＡＲＭＡ、ＶＡＲモデルは、定常過程を表し、ＡＲＩＭＡ、ＳＡＲＩＭＡモデルは、非定常過程を表す。ＡＲモデルは、時間の経過に対して規則的に値が変化するモデルである。ＭＡモデルは、ある期間における変動が一定であるモデルである。例えば、ＭＡモデルでは、ある時点の値は、その時点より前の移動平均によって決まる。ＡＲＭＡモデルは、ＡＲモデルとＭＡモデルとを組み合わせたモデルである。ＡＲＩＭＡモデルは、中長期的なトレンド（増加又は減少傾向）を考慮して、前後の値の差分についてＡＲＭＡモデルを適用するモデルである。ＳＡＲＩＭＡモデルは、中長期的な季節変動を考慮して、ＡＲＩＭＡモデルを適用するモデルである。ＶＡＲモデルは、ＡＲモデルを多変量に拡張したモデルである。

　決定木は、複数の識別器を組み合わせて複雑な識別境界を生成するためのモデルである。決定木の詳細については後述する。

　サポートベクターマシンは、２クラスの線形識別関数を生成するアルゴリズムである。サポートベクターマシンの詳細については後述する。

　ニューラルネットワークは、人間の脳神経系のニューロンをシナプスで結合して形成されたネットワークをモデル化したものである。ニューラルネットワークは、狭義には、誤差逆伝播法を用いた多層パーセプトロンを意味する。代表的なニューラルネットワークとしては、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）が挙げられる。ＣＮＮは、全結合していない（結合が疎である）順伝播型ニューラルネットワークの一種である。ＲＮＮは、有向閉路を持つニューラルネットワークの一種である。ＣＮＮ及びＲＮＮは、音声・画像・動画認識、及び、自然言語処理に用いられる。

　アンサンブル学習は、複数のモデルを組み合わせて識別性能を向上させる手法である。アンサンブル学習が用いる手法は、例えば、バギング、ブースティング、ランダムフォレストである。バギングは、学習データのブートストラップサンプルを用いて複数のモデルを学習させ、新規の入力データの評価を、複数のモデルによる多数決によって決する手法である。ブースティングは、バギングの学習結果に応じて学習データに重み付けをして、誤って識別された学習データを、正しく識別された学習データよりも集中的に学習させる手法である。ランダムフォレストは、モデルとして決定木を用いる場合において、相関が低い複数の決定木からなる決定木群（ランダムフォレスト）を生成する手法である。ランダムフォレストの詳細については後述する。

　学習部１０３，２０３が用いる教師あり学習の好ましいモデル又はアルゴリズムとして、次に説明する、ニューラルネットワーク、サポートベクターマシン、決定木、及び、ランダムフォレストが用いられる。

　（４－１）ニューラルネットワーク
　図９は、ニューラルネットワークのニューロンのモデルの模式図である。図１０は、図９に示されるニューロンを組み合わせて構成した三層のニューラルネットワークの模式図である。図９に示されるように、ニューロンは、複数の入力ｘ（図９では入力ｘ１，ｘ２，ｘ３）に対する出力ｙを出力する。各入力ｘ（図９では入力ｘ１，ｘ２，ｘ３）には、対応する重みｗ（図９では重みｗ１，ｗ２，ｗ３）が乗算される。ニューロンは、次の式（１）を用いて出力ｙを出力する。

　式（１）において、入力ｘ、出力ｙ及び重みｗは、すべてベクトルであり、θは、バイアスであり、φは、活性化関数である。活性化関数は、非線形関数であり、例えば、ステップ関数（形式ニューロン）、単純パーセプトロン、シグモイド関数又はＲｅＬＵ（ランプ関数）である。

　図１０に示される三層のニューラルネットワークでは、入力側（図１０の左側）から複数の入力ベクトルｘ（図１０では入力ベクトルｘ１，ｘ２，ｘ３）が入力され、出力側（図１０の右側）から複数の出力ベクトルｙ（図１０では出力ベクトルｙ１，ｙ２，ｙ３）が出力される。このニューラルネットワークは、３つの層Ｌ１，Ｌ２，Ｌ３から構成される。

　第１の層Ｌ１では、入力ベクトルｘ１，ｘ２，ｘ３は、３つのニューロンＮ１１，Ｎ１２，Ｎ１３のそれぞれに、対応する重みが掛けられて入力される。図１０では、これらの重みは、まとめてＷ１と表記されている。ニューロンＮ１１，Ｎ１２，Ｎ１３は、それぞれ、特徴ベクトルｚ１１，ｚ１２，ｚ１３を出力する。

　第２の層Ｌ２では、特徴ベクトルｚ１１，ｚ１２，ｚ１３は、２つのニューロンＮ２１，Ｎ２２のそれぞれに、対応する重みが掛けられて入力される。図１０では、これらの重みは、まとめてＷ２と表記されている。ニューロンＮ２１，Ｎ２２は、それぞれ、特徴ベクトルｚ２１，ｚ２２を出力する。

　第３の層Ｌ３では、特徴ベクトルｚ２１，ｚ２２は、３つのニューロンＮ３１，Ｎ３２，Ｎ３３のそれぞれに、対応する重みが掛けられて入力される。図１０では、これらの重みは、まとめてＷ３と表記されている。ニューロンＮ３１，Ｎ３２，Ｎ３３は、それぞれ、出力ベクトルｙ１，ｙ２，ｙ３を出力する。

　ニューラルネットワークの動作には、学習モードと予測モードとがある。学習モードでは、学習データセットを用いて重みＷ１，Ｗ２，Ｗ３を学習する。予測モードでは、学習した重みＷ１，Ｗ２，Ｗ３のパラメータを用いて識別等の予測を行う。

　重みＷ１，Ｗ２，Ｗ３は、例えば、誤差逆伝播法（バックプロパゲーション）により学習可能である。この場合、誤差に関する情報は、出力側から入力側に向かって、言い換えると、図１０において右側から左側に向かって伝達される。誤差逆伝播法は、各ニューロンにおいて、入力ｘが入力されたときの出力ｙと、真の出力ｙ（教師データ）との差を小さくするように、重みＷ１，Ｗ２，Ｗ３を調整して学習する手法である。

　ニューラルネットワークは、３層より多い層を有するように構成することができる。４層以上のニューラルネットワークによる機械学習の手法は、ディープラーニング（深層学習）として知られている。

　（４－２）サポートベクターマシン
　サポートベクターマシン（ＳＶＭ）とは、最大マージンを実現する２クラス線形識別関数を求めるアルゴリズムである。図１１は、ＳＶＭを説明するための図である。２クラス線形識別関数とは、図１１に示される特徴空間において、２つのクラスＣ１，Ｃ２の学習データを線形分離するための超平面である識別超平面Ｐ１，Ｐ２を表す。図１１において、クラスＣ１の学習データは円で示され、クラスＣ２の学習データは正方形で示されている。識別超平面のマージンとは、識別超平面に最も近い学習データと、識別超平面との間の距離である。図１１には、識別超平面Ｐ１のマージンｄ１、及び、識別超平面Ｐ２のマージンｄ２が示されている。ＳＶＭでは、マージンが最大となるような識別超平面である最適識別超平面Ｐ１が求められる。一方のクラスＣ１の学習データと最適識別超平面Ｐ１との間の距離の最小値ｄ１は、他方のクラスＣ２の学習データと最適識別超平面Ｐ２との間の距離の最小値ｄ１と等しい。

　図１１において、２クラス問題の教師あり学習に用いられる学習データセットＤ_Lを以下の式（２）で表す。

　学習データセットＤ_Lは、学習データ（特徴ベクトル）ｘ_iと、教師データｔ_i＝｛－１，＋１｝との対の集合である。学習データセットＤ_Lの要素数は、Ｎである。教師データｔ_iは、学習データｘ_iがクラスＣ１，Ｃ２のどちらに属するのかを表す。クラスＣ１はｔ_i＝－１のクラスであり、クラスＣ２はｔ_i＝＋１のクラスである。

　図１１において、全ての学習データｘ_iで成り立つ、正規化された線形識別関数は、以下の２つの式（３－１）及び（３－２）で表される。ｗは係数ベクトルであり、ｂはバイアスである。

　これらの２つの式は、以下の１つの式（４）で表される。

　識別超平面Ｐ１，Ｐ２を以下の式（５）で表す場合、そのマージンｄは、式（６）で表される。

　式（６）において、ρ（ｗ）は、クラスＣ１，Ｃ２のそれぞれの学習データｘ_iを識別超平面Ｐ１，Ｐ２の法線ベクトルｗ上に射影した長さの差の最小値を表す。式（６）の「ｍｉｎ」及び「ｍａｘ」の項は、それぞれ、図１１において符号「ｍｉｎ」及び符号「ｍａｘ」で示された点である。図１１において、最適識別超平面は、マージンｄが最大となる識別超平面Ｐ１である。

　図１１は、２クラスの学習データが線形分離可能である特徴空間を表す。図１２は、図１１と同様の特徴空間であって、２クラスの学習データが線形分離不可能である特徴空間を表す。２クラスの学習データが線形分離不可能である場合、式（４）にスラック変数ξ_iを導入して拡張した次の式（７）を用いることができる。

　スラック変数ξ_iは、学習時のみに使用され、０以上の値をとる。図１２には、識別超平面Ｐ３と、マージン境界Ｂ１，Ｂ２と、マージンｄ３とが示されている。識別超平面Ｐ３の式は式（５）と同じである。マージン境界Ｂ１，Ｂ２は、識別超平面Ｐ３からの距離がマージンｄ３である超平面である。

　スラック変数ξ_iが０の場合、式（７）は式（４）と等価である。このとき、図１２において白抜きの円又は正方形で示されるように、式（７）を満たす学習データｘ_iは、マージンｄ３内で正しく識別される。このとき、学習データｘ_iと識別超平面Ｐ３との間の距離は、マージンｄ３以上である。

　スラック変数ξ_iが０より大きく１以下の場合、図１２においてハッチングされた円又は正方形で示されるように、式（７）を満たす学習データｘ_iは、マージン境界Ｂ１，Ｂ２を超えているが、識別超平面Ｐ３を超えておらず、正しく識別される。このとき、学習データｘ_iと識別超平面Ｐ３との間の距離は、マージンｄ３未満である。

　スラック変数ξ_iが１より大きい場合、図１２において黒塗りの円又は正方形で示されるように、式（７）を満たす学習データｘ_iは、識別超平面Ｐ３を超えており、誤認識される。

　このように、スラック変数ξ_iを導入した式（７）を用いることで、２クラスの学習データが線形分離不可能である場合においても、学習データｘ_iを識別することができる。

　上述の説明から、全ての学習データｘ_iのスラック変数ξ_iの和は、誤認識される学習データｘ_iの数の上限を表す。ここで、評価関数Ｌ_pを次の式（８）で定義する。

　学習部１０３，２０３は、評価関数Ｌ_pの出力値を最小化する解（ｗ、ξ）を求める。式（８）において、第２項のパラメータＣは、誤認識に対するペナルティの強さを表す。パラメータＣが大きいほど、ｗのノルム（第１項）よりも誤認識数（第２項）を小さくする方を優先する解が求められる。

　（４－３）決定木
　決定木とは、複数の識別器を組み合わせて複雑な識別境界（非線形識別関数等）を得るためのモデルである。識別器とは、例えば、ある特徴軸の値と閾値との大小関係に関する規則である。学習データから決定木を構成する方法としては、例えば、特徴空間を２分割する規則（識別器）を求めることを繰り返す分割統治法がある。図１３は、分割統治法によって構成された決定木の一例である。図１４は、図１３の決定木によって分割される特徴空間を表す。図１４では、学習データは白丸又は黒丸で示され、図１３に示される決定木によって、各学習データは、白丸のクラス又は黒丸のクラスに分類される。図１３には、１から１１までの番号が付されたノードと、ノード間を結びＹｅｓ又はＮｏのラベルが付されたリンクとが示されている。図１３において、終端ノード（葉ノード）は、四角で示され、非終端ノード（根ノード及び内部ノード）は、丸で示されている。終端ノードは、６から１１までの番号が付されたノードであり、非終端ノードは、１から５までの番号が付されたノードである。各終端ノードには、学習データを表す白丸又は黒丸が示されている。各非終端ノードには、識別器が付されている。識別器は、特徴軸ｘ₁、ｘ₂の値と閾値ａ～ｅとの大小関係を判断する規則である。リンクに付されたラベルは、識別器の判断結果を示す。図１４において、識別器は点線で示され、識別器によって分割された領域には、対応するノードの番号が付されている。

　分割統治法によって適切な決定木を構成する過程では、以下の（ａ）～（ｃ）の３点について検討する必要がある。
　（ａ）識別器を構成するための特徴軸及び閾値の選択。
　（ｂ）終端ノードの決定。例えば、１つの終端ノードに含まれる学習データが属するクラスの数。又は、決定木の剪定（根ノードが同じ部分木を得ること）をどこまで行うかの選択。
　（ｃ）終端ノードに対する多数決によるクラスの割り当て。

　決定木の学習方法には、例えば、ＣＡＲＴ、ＩＤ３及びＣ４．５が用いられる。ＣＡＲＴは、図１３及び図１４に示されるように、終端ノード以外の各ノードにおいて特徴空間を特徴軸ごとに２分割することで、決定木として２分木を生成する手法である。

　決定木を用いる学習では、学習データの識別性能を向上させるために、非終端ノードにおいて特徴空間を最適な分割候補点で分割することが重要である。特徴空間の分割候補点を評価するパラメータとして、不純度とよばれる評価関数が用いられてもよい。ノードｔの不純度を表す関数Ｉ（ｔ）としては、例えば、以下の式（９－１）～（９－３）で表されるパラメータが用いられる。Ｋは、クラスの数である。

　上式において、確率Ｐ（Ｃ_i｜ｔ）は、ノードｔにおけるクラスＣ_iの事後確率であり、言い換えると、ノードｔにおいてクラスＣ_iのデータが選ばれる確率である。式（９－３）の第２式において、確率Ｐ（Ｃ_j｜ｔ）は、クラスＣ_iのデータがｊ（≠ｉ）番目のクラスに間違われる確率であるので、第２式は、ノードｔにおける誤り率を表す。式（９－３）の第３式は、全てのクラスに関する確率Ｐ（Ｃ_i｜ｔ）の分散の和を表す。

　不純度を評価関数としてノードを分割する場合、例えば、当該ノードにおける誤り率、及び、決定木の複雑さで決まる許容範囲まで、決定木を剪定する手法が用いられる。

　（４－４）ランダムフォレスト
　ランダムフォレストは、アンサンブル学習の一種であって、複数の決定木を組み合わせて識別性能を強化する手法である。ランダムフォレストを用いる学習では、相関が低い複数の決定木からなる群（ランダムフォレスト）が生成される。ランダムフォレストの生成及び識別には、以下のアルゴリズムが用いられる。
　（Ａ）ｍ＝１からＭまで以下を繰り返す。
　　　（ａ）Ｎ個のｄ次元学習データから、ｍ個のブートストラップサンプルＺ_mを生成する。
　　　（ｂ）Ｚ_mを学習データとして、以下の手順で各ノードｔを分割して、ｍ個の決定木を生成する。
　　　　　（ｉ）ｄ個の特徴からｄ´個の特徴をランダムに選択する。（ｄ´＜ｄ）
　　　　　（ｉｉ）選択されたｄ´個の特徴の中から、学習データの最適な分割を与える特徴と分割点（閾値）を求める。
　　　　　（ｉｉｉ）求めた分割点でノードｔを２分割する。
　（Ｂ）ｍ個の決定木からなるランダムフォレストを出力する。
　（Ｃ）入力データに対して、ランダムフォレストの各決定木の識別結果を得る。ランダムフォレストの識別結果は、各決定木の識別結果の多数決によって決定される。

　ランダムフォレストを用いる学習では、決定木の各非終端ノードにおいて識別に用いる特徴をあらかじめ決められた数だけランダムに選択することで、決定木間の相関を低くすることができる。

　（５）変形例Ｅ
　第１乃至第３実施形態において、学習部１０３，２０３が用いる機械学習の手法である強化学習について説明する。強化学習は、一連の行動の結果としての報酬が最大となるような方策を学習する手法である。強化学習で用いられるモデル又はアルゴリズムは、Ｑ学習（Ｑ－ｌｅａｒｎｉｎｇ）等がある。Ｑ学習は、状態ｓの下で行動ａを選択する価値を表すＱ値を学習する手法である。Ｑ学習では、Ｑ値が最も高い行動ａが最適な行動として選択される。高いＱ値を求めるため、行動ａの主体（エージェント）には、状態ｓの下で選択した行動ａに対して報酬が与えられる。Ｑ学習では、エージェントが行動するたびに、以下の式（１０）を用いて、Ｑ値が更新される。

　式（１０）において、Ｑ（ｓ_t，ａ_t）は、状態ｓ_tのエージェントが行動ａ_tを選択する価値を表すＱ値である。Ｑ（ｓ_t，ａ_t）は、状態ｓと行動ａとをパラメータとする関数（行動価値関数）である。ｓ_tは、時刻ｔにおけるエージェントの状態である。ａ_tは、時刻ｔにおけるエージェントの行動である。αは、学習係数である。αは、式（１０）によってＱ値が最適な値に収束するように設定される。ｒ_t+1は、エージェントが状態ｓ_t+1に遷移したときに得る報酬である。γは、割引率である。γは、０以上１以下の定数である。ｍａｘを含む項は、環境ｓ_t+1の下で、最もＱ値が高い行動ａを選択した場合のＱ値にγを掛けたものである。行動価値関数によって求められるＱ値は、エージェントが得る報酬の期待値である。

　（６）変形例Ｆ
　第３実施形態では、機械学習装置２００は、制御量取得部２０２を備える。しかし、機械学習装置２００は、制御量取得部２０２を備えていなくてもよい。この場合、機械学習装置２００の学習部２０３は、学習データとして、制御量決定部２０６が決定した制御パラメータを用いてもよい。

　（７）変形例Ｇ
　上述の実施形態及び変形例において、機械学習装置１００，２００は、教師あり学習又は強化学習の手法を用いる。しかし、機械学習装置１００，２００は、教師あり学習と強化学習とを組み合わせた手法を用いてもよい。

　（８）変形例Ｈ
　上述の実施形態及び変形例において、学習部１０３，２０３は、種種の機械学習の手法を用い得る。学習部１０３，２０３が用い得る機械学習の手法は、既に説明した教師あり学習及び強化学習の他に、教師なし学習、半教師あり学習、トランスダクティブ学習、マルチタスク学習及び転移学習等がある。学習部１０３，２０３は、これらの手法を組み合わせて用いてもよい。

　教師なし学習は、教師データを用いずに、所定の統計的性質に基づいて入力データをグループ分け（クラスタリング）する手法である。教師なし学習で用いられるモデル又はアルゴリズムとしては、ｋ平均法（ｋ－ｍｅａｎｓ法）、ウォード法（Ｗａｒｄ法）、主成分分析等がある。ｋ平均法は、各入力データにランダムにクラスタを割り当て、各クラスタの中心を計算し、各入力データを最も近い中心のクラスタに割り当て直す工程を繰り返す手法である。ウォード法は、クラスタの各入力データからクラスタの質量中心までの距離を最小化するように、各入力データをクラスタに割り当て直す工程を繰り返す手法である。主成分分析は、相関のある複数の変数から、相関の最も小さい主成分と呼ばれる変数を生成する多変量解析の手法である。

　半教師あり学習は、対応する教師データが付かない入力データ（ラベルなしデータ）と、対応する教師データ付きの入力データ（ラベルありデータ）との両方を用いて学習する手法である。

　トランスダクティブ学習は、半教師あり学習において、学習に用いられるラベルなしデータに対応する出力を生成し、未知の入力データに対応する出力を生成しない手法である。

　マルチタスク学習は、複数の関連するタスク同士の情報を共有して、これらのタスクを同時に学習させることで、タスクに共通の要因を獲得してタスクの予測精度を上げる手法である。

　転移学習は、あるドメインで予め学習させたモデルを、別のドメインに適応することで予測精度を上げる手法である。

　―むすび―
　以上、本開示の実施形態を説明したが、特許請求の範囲に記載された本開示の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。

　機械学習装置は、対象者の温冷感の予測値を高い精度で取得することができる。

　１０　　　環境調整装置
　２０　　　対象者
１００　　　機械学習装置
１０１　　　状態変数取得部（第１取得部）
１０２　　　制御量取得部（第２取得部）
１０３　　　学習部
１０４　　　関数更新部（更新部）
１０５　　　推論部
１０６　　　操作量候補出力部（出力部）
１０７　　　操作量決定部（決定部）
２００　　　機械学習装置
２０１　　　状態変数取得部（第１取得部）
２０２　　　制御量取得部（第２取得部）
２０３　　　学習部
２０４　　　関数更新部（更新部）
２０４ａ　　教師データ蓄積部（蓄積部）
２０４ｂ　　判定部
２０５　　　評価データ取得部（第３取得部）
２０７　　　関数変更部（変更部）

国際公開第２００７／００７６３２号

Claims

　対象者（２０）の温冷感を学習する機械学習装置であって、
　前記対象者の生体情報に関するパラメータを含む第１変数を取得する第１取得部（１０１）と、
　前記対象者の温冷感を含む第２変数を取得する第２取得部（１０２）と、
　前記第１変数と前記第２変数とを関連付けて学習する学習部（１０３）と、
を備える、機械学習装置（１００）。
　前記第１変数は、前記対象者の脳波、皮膚血流量、皮膚温度、発汗量、及び、心拍のそれぞれに相関するパラメータの少なくとも１つを含む、
請求項１に記載の機械学習装置。
　前記学習部は、前記第１変数と前記第２変数とを教師データとして用いて学習する、
請求項１又は２に記載の機械学習装置。
　前記学習部の学習の結果に基づき、前記第１変数から、前記対象者の温冷感の予測値を推論する推論部（１０５）をさらに備える、
請求項１～３のいずれか１項に記載の機械学習装置。
　前記第２変数及び前記予測値に基づいて報酬を算出する更新部（１０４）をさらに備え、
　前記学習部は、前記報酬を用いて学習する、
請求項４に記載の機械学習装置。
　前記更新部は、前記第２変数に含まれる前記対象者の温冷感と、前記予測値との差が小さいほど、高い前記報酬を算出する、
請求項５に記載の機械学習装置。
　対象空間の環境を調整する環境調整装置であって、請求項１～６のいずれか１項に記載の機械学習装置を備える、環境調整装置。
　前記第２取得部は、温冷感に関する前記対象者の入力値、及び、前記環境調整装置の操作状況の少なくとも１つに基づいて、前記第２変数を取得する、
請求項７に記載の環境調整装置。
　請求項４～６のいずれか１項に記載の前記機械学習装置と、
　前記対象空間の環境を調整するための第３変数の候補を出力する出力部（１０６）と、
　前記第３変数を決定する決定部（１０７）と、
を備え、
　前記推論部は、前記出力部が出力した前記候補に基づいて、前記予測値を推論し、
　前記決定部は、前記予測値が所定の条件を満たすように、前記第３変数を決定する、
請求項７又は８に記載の環境調整装置。
　前記決定部は、前記対象者の温冷感の目標値と、前記推論部が推論した前記予測値との差が小さくなるように、前記第３変数を決定し、
　前記学習部は、前記決定部が決定した前記第３変数を用いて学習する、
請求項９に記載の環境調整装置。
　前記第３変数は、前記対象空間の温度を含む、
請求項９又は１０に記載の環境調整装置。
　対象空間の環境を調整する環境調整装置（１０）の制御パラメータを学習する機械学習装置であって、
　前記対象空間内の対象者の生体情報に関するパラメータを含む第１変数を取得する第１取得部（２０１）と、
　前記制御パラメータを取得する第２取得部（２０２）と、
　前記第１変数と前記制御パラメータとを関連付けて学習する学習部（２０３）と、
を備える、機械学習装置。
　前記環境調整装置の制御結果を評価する評価データを取得する第３取得部（２０５）と、
　前記評価データを用いて前記学習部の学習状態を更新する更新部（２０４）と、
をさらに備え、
　前記学習部は、前記更新部の出力に従って学習し、
　前記評価データは、前記対象者の温冷感を含む、
請求項１２に記載の機械学習装置。
　前記更新部は、前記評価データに基づいて報酬を算出し、
　前記学習部は、前記報酬を用いて学習する、
請求項１３に記載の機械学習装置。
　前記評価データは、前記対象者の温冷感の予測値と、温冷感の中立の値との差であり、
　前記更新部は、前記差が小さいほど、高い前記報酬を算出する、
請求項１４に記載の機械学習装置。
　前記第１変数を入力変数とし前記制御パラメータを出力変数とする識別関数のパラメータを出力する変更部（２０７）をさらに備え、
　前記学習部は、前記変更部の出力に従って、前記識別関数のパラメータの変更を複数回行い、パラメータが変更された前記識別関数毎に前記第１変数から前記制御パラメータを出力し、
　前記更新部は、蓄積部（２０４ａ）と判定部（２０４ｂ）とを備え、
　前記判定部は、前記評価データを用いて判定結果を出力し、
　前記蓄積部は、前記判定結果に従って、前記第１変数と、前記学習部が前記第１変数から出力した前記制御パラメータとから教師データを蓄積し、
　前記学習部は、前記蓄積部に蓄積された前記教師データに基づいて学習する、
請求項１３に記載の機械学習装置。
　前記第３取得部は、温冷感に関する前記対象者の入力値、及び、前記環境調整装置の操作状況の少なくとも１つに基づいて、前記評価データを取得する、
請求項１３～１６のいずれか１項に記載の機械学習装置。
　前記第１変数は、前記対象者の脳波、皮膚血流量、皮膚温度、及び、発汗量のそれぞれに相関するパラメータの少なくとも１つを含む、
請求項１２～１７のいずれか１項に記載の機械学習装置。
　請求項１２～１８のいずれか１項に記載の機械学習装置を備える、環境調整装置。