JP6740263B2

JP6740263B2 - 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Info

Publication number: JP6740263B2
Application number: JP2018020919A
Authority: JP
Inventors: 佑貴白川; 聡史猪飼
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2020-08-12
Anticipated expiration: 2038-02-08
Also published as: JP2019140765A; US10684594B2; DE102019201473A1; CN110138296B; CN110138296A; US20190243318A1

Description

本発明は、サーボモータの電流制御を行うサーボモータ制御装置に対して、無効電流指令の学習を行う機械学習装置、この機械学習装置を含むサーボモータ制御装置とサーボモータ制御システム、及び機械学習方法に関する。

従来のサーボモータ制御装置として、例えば、特許文献１に記載されたサーボモータ制御装置は、３相電流をｄ相及びｑ相の２相に変換し、電圧飽和が生じない回転速度領域ではｄ相に無効電流を流さないようにして無効電流による発熱を抑制し、電圧飽和が生ずる高速回転領域ではｄ相に無効電流を流して逆起電力を減少させて安定した回転制御を行っている。

特開平９−８４４００号公報

特許文献１に記載のサーボモータ制御装置は、電圧飽和が始まる付近の速度をベース速度として設定し、無効電流の増加による発熱等による障害を許容できる境界の速度をクランプ速度として設定して、ベース速度及びクランプ速度を境界として無効電流を制御している。具体的には、特許文献１のサーボ制御装置は、無効電流を流すためのｄ相電流指令（無効電流指令となる）を、モータの回転速度が０からベース速度までの速度領域では零とし、回転速度がベース速度を超える高速領域では回転速度に比例して増加させ、回転速度がクランプ速度を超える高速領域では一定値に固定する。
しかしながら、特許文献１に記載のサーボモータ制御装置は、ベース速度及びクランプ速度をサーボモータ制御装置ごとに設定する必要があり、設定が煩雑となる。また、経時変化によりベース速度又はクランプ速度が変化した場合に、ベース速度又はクランプ速度の設定を変える必要がでてくる。

本発明は、ベース速度及びクランプ速度を予め設定することなく、機械学習によりモータの回転速度に適した無効電流指令を求めて、電圧指令の飽和を回避することができる、機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置（例えば、後述の機械学習装置２００）は、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記ｄ相の無効電流と、電圧指令、又は有効電流指令及び前記ｑ相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段（例えば、後述の状態情報取得部２０１）と、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段（例えば、後述の行動情報出力部２０３）と、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の報酬出力部２０２１）と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の価値関数更新部２０２２）と、
を備える機械学習装置である。

（２）上記（１）の機械学習装置において、前記報酬出力手段は、電圧飽和が生じているかどうかに基づいて前記報酬の値を決定してもよい。

（３）上記（２）の機械学習装置において、前記電圧飽和は、前記電圧指令がＤＣリンク電圧を超えているかどうか、又は前記有効電流指令に対する前記有効電流の偏差に基づいて検出してもよい。

（４）上記（１）から（３）のいずれかの機械学習装置において、前記報酬出力手段は、前記報酬を決定するとともに、前記電圧飽和が生じていない場合に前記無効電流の値に基づいて報酬を決定してもよい。

（５）上記（１）から（４）のいずれかの機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記無効電流指令を生成して出力する最適化行動情報出力手段（例えば、後述の最適化行動情報出力部２０５）をさらに備えてもよい。

（６）本発明に係るサーボモータ制御システムは、上記（１）から（５）のいずれかの機械学習装置（例えば、後述の機械学習装置２００）と、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）と、を備えたサーボモータ制御システムである。

（７）本発明に係るサーボモータ制御装置は、上記（１）から（５）のいずれかの機械学習装置を含み、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行うサーボモータ制御装置である。

（８）本発明に係る機械学習方法は、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）に対して、機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記ｄ相の無効電流と、電圧指令、又は有効電流指令及び前記ｑ相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。

本発明によれば、ベース速度及びクランプ速度を予め設定することなく、機械学習によりモータの回転速度に適した無効電流指令を求めて、電圧指令の飽和を回避することができる。

本発明の一実施形態のサーボモータ制御システムを示すブロック図である。本発明の一実施形態のサーボ制御システムのサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。本発明の一実施形態の機械学習装置２００を示すブロック図である。本実施形態におけるＱ学習時の機械学習装置２００の動作を示すフローチャートである。図４のステップＳ１３の報酬の算出方法を示すフローチャートである。機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。本発明の実施形態のサーボ制御システムの他の構成を示すサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。本発明の実施形態のサーボ制御システムの他の構成を示すサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。図４のステップＳ１３の報酬の算出方法を示すフローチャートである。本発明の一実施形態のサーボモータ制御装置及びモータを示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
図１は本発明の一実施形態のサーボモータ制御システムを示すブロック図である。サーボモータ制御システム１０は、図１に示すように、ｎ台のサーボモータ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、及びネットワーク３００を備えている。なお、ｎは任意の自然数である。

ここで、サーボモータ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボモータ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜２００−ｎについてもサーボモータ制御装置１００−１と機械学習装置２００−１と同様に接続される。図１では、サーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク３００を介して接続されているが、サーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボモータ制御装置と機械学習器とが接続インタフェースを介して直接接続されてもよい。これらサーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク３００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、接続インタフェースを介しての直接接続、或いは、これらの組み合わせである。ネットワーク３００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

図２は本発明の一実施形態のサーボ制御システムのサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。図２のサーボモータ制御装置１００と、機械学習装置２００は例えば、図１に示すサーボモータ制御装置１００−１と機械学習装置２００−１とに対応している。
サーボモータ制御装置１００はモータ４００の回転を制御する。モータ４００は例えば、３相電流により駆動されるＡＣサーボモータであり、サーボモータ制御装置１００は、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御が行われる。モータ４００は、例えば、工作機械、ロボット、又は産業機械等に含まれる。サーボモータ制御装置１００は工作機械、ロボット又は産業機械等の一部として設けられてもよい。機械学習装置２００はサーボモータ制御装置１００から速度指令、有効電流指令、ｑ相の有効電流、及びｄ相の無効電流を受け、無効電流指令をサーボモータ制御装置１００に出力する。後述するように、機械学習装置２００は、速度指令の変わりに速度フィードバックされた検出速度を用いてもよく、有効電流指令及びｑ相の有効電流の代わりに電圧指令を受けてもよい。

モータ４００が工作機械に含まれ、サーボモータ制御装置１００が、モータ４００によって被加工物（ワーク）を搭載するテーブルをＸ軸方向及びＹ軸方向に移動させる場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれサーボモータ制御装置１００が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボモータ制御装置１００が設けられる。サーボモータ制御装置１００が、モータ４００によって被加工物（ワーク）を加工する主軸を移動させる場合には、主軸に対してサーボモータ制御装置１００が設けられる。

まず、サーボモータ制御装置１００の構成について以下に説明する。
サーボモータ制御装置１００は、速度指令部１０１、減算器１０２、速度制御部１０３３、減算器１０４、減算器１０５、電流制御部１０６、駆動用アンプ１０７、及び３相−２相変換器１０８を備えている。

速度指令部１０１は、入力される位置指令に予め設定されたポジションゲインＫｐを乗じた値を、速度指令として減算器１０２及び機械学習装置２００に出力する。位置指令は上位制御装置や外部入力装置等から入力される所定のプログラムに従って、モータ４００の速度を変化させるためにパルス周波数を変えるように生成される。
減算器１０２は速度指令と速度フィードバックされた検出速度との差を求め、その差を速度偏差として、速度制御部１０３に出力する。

速度制御部１０３は、例えば、速度偏差に予め設定された積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に予め設定された比例ゲインＫ２ｖを乗じた値とを加算して、有効電流指令として減算器１０４及び機械学習装置２００に出力する。

減算器１０４は、有効電流指令と、３相−２相変換器１０８の出力との差を求め、その差を有効電流偏差として電流制御部１０６に出力する。

減算器１０５は、機械学習装置２００から出力される無効電流指令と、３相−２相変換器１０８から出力される無効電流との差を求め、その差を無効電流偏差として電流制御部１０６に出力する。

電流制御部１０６は、有効電流制御器（図示せず）と、無効電流制御器（図示せず）と、２相−３相変換器（図示せず）とを備える。ここで、有効電流制御器は、減算器１０４から出力される有効電流偏差に予め設定された積分ゲインＫ１ｖを乗じて積分した値と、有効電流偏差に予め設定された比例ゲインＫ２ｖを乗じた値とを加算して、有効指令電圧として２相−３相変換器に出力する。無効電流制御器は、減算器１０５から出力される無効電流偏差に予め設定された積分ゲインＫ３ｖを乗じて積分した値と、無効電流偏差に予め設定された比例ゲインＫ４ｖを乗じた値とを加算して、無効指令電圧として２相−３相変換器に出力する。２相−３相変換器は、２相の有効指令電圧と無効指令電圧から、３相の指令電圧を生成し、駆動用アンプ１０７に出力する。なお、これらの構成は当業者にとって公知であり（例えば特許文献１参照）、詳細な説明は省略する。

駆動用アンプ１０７は、３相の指令電圧をインバータ等でモータ４００の各相に対して電流を流してモータ４００を制御する。また、駆動用アンプ１０７は３相の電流を３相−２相変換器１０８に出力する。

３相−２相変換器１０８は、３相の電流から有効電流を求めて減算器１０４及び機械学習装置２００に出力する。また、３相−２相変換器１０８は、３相の電流から無効電流を求めて減算器１０５及び機械学習装置２００に出力する。

モータ４００の回転角度位置は、モータ４００に関連付けられた、位置検出部となるロータリーエンコーダ４０１によって検出され、検出された速度（検出速度）は速度フィードバックとして利用される。

＜機械学習装置２００＞
次に、機械学習装置２００の構成について以下に説明する。
機械学習装置２００は、プログラムに基づいてモータ４００を駆動させたときの、有効電流の応答追従性を向上させつつ、できるだけ少ない無効電流で、電圧指令の飽和を回避するための、無効電流指令を学習する。プログラムは実際に使用されるプログラムが用いられる。プログラムは、例えば、サーボモータ制御装置１００が工作機械に用いられる場合には、被加工物（ワーク）の加工に用いられる実際の加工プログラムである。プログラムによってサーボモータ制御装置１００を駆動させる通常の動作において、電圧飽和が発生する。サーボモータ制御装置１００における電圧飽和は、電圧指令がＤＣリンク電圧を超える、又は有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じることで検出される。以下の説明では、有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じているかに基づいて、電圧飽和を検出する場合について説明する。
なお、特許文献１に記載されるように、サーボモータ制御装置において、モータの高速回転領域では電圧飽和が生じる。サーボモータ制御装置１００が、電圧飽和が生ずるような高速回転領域で動作しているかどうかは、機械学習装置２００は、速度指令又はモータ４００からフィードバックされた検出速度に基づいて検出することができる。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数式１（以下に数１として示す）により表すことができる。

上記の数式１において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式１は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についての価値関数Ｑ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアの価値関数Ｑ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。具体的には、機械学習装置２００は、プログラムを実行することで取得される、サーボモータ制御装置１００における速度指令、有効電流指令、ｑ相の有効電流、及びｄ相の無効電流を含む、指令及びフィードバック等のサーボ状態を状態ｓとして、当該状態ｓに係る無効電流指令の調整を行動ａとして選択する価値関数Ｑを学習する。

機械学習装置２００は、無効電流指令に基づいて、プログラムを実行することで得られるサーボモータ制御装置１００の速度指令、有効電流指令、有効電流、及び無効電流を含む、指令及びフィードバック等のサーボ状態を含む状態情報ｓを観測して、行動ａ（無効電流指令）を決定する。機械学習装置２００は、行動ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、無効電流指令に基づいて、プログラムを実行することで取得されるサーボモータ制御装置１００の速度指令、有効電流指令、有効電流、及び無効電流を含む指令、フィードバック等のサーボ状態を含む状態ｓに対して、最適な行動ａ（すなわち、サーボモータ制御装置１００への最適な無効電流指令）を選択することが可能となる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態ｓに係る無効電流に対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、プログラムを実行することで取得される、有効電流指令とフォードバックされた有効電流との偏差が最小になるような行動ａ（すなわち、サーボモータ制御装置１００の無効電流指令）を選択することが可能となる。

図３は本発明の一実施形態の機械学習装置２００を示すブロック図である。
上述した強化学習を行うために、図３に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、サーボモータ制御装置１００に対する無効電流指令に基づいて、プログラムを実行することで取得されるサーボモータ制御装置１００の速度指令、有効電流指令、有効電流、及び無効電流を含む指令、フィードバック等のサーボ状態を含む状態ｓを、サーボモータ制御装置１００から取得する。この状態情報ｓは、Ｑ学習における、環境状態ｓに相当する。
状態情報取得部２０１は、取得した状態情報ｓを学習部２０２に対して出力する。
なお、最初にＱ学習を開始する時点での無効電流指令は予めユーザが生成するようにする。本実施形態では、例えばユーザが作成した無効電流指令の初期設定値を、強化学習により最適なものに調整する。

学習部２０２は、或る環境状態ｓの下で、ある行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部２０２は、報酬出力部２０２１、価値関数更新部２０２２及び行動情報生成部２０２３を備える。

報酬出力部２０２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。本実施形態では、報酬は、有効電流指令に対する有効電流の偏差に基づいて報酬を決定する。
行動ａにより状態ｓから状態ｓ´に遷移した場合に、報酬出力部２０２１は、状態ｓ及び状態ｓ´における無効電流指令に基づいて動作したサーボモータ制御装置１００の有効電流指令に対する有効電流の偏差を求める。なお、有効電流指令に対する有効電流の偏差は、サーボモータ制御装置１００の減算器１０４の出力から状態情報取得部２０１が取得してもよい。
そして、報酬出力部２０２１は、以下の処理（ａ）、（ｂ）、及び（ｃ）のように、有効電流指令に対する有効電流の偏差に基づいて報酬を算出する。
（ａ）状態ｓ´における有効電流指令に対して有効電流が一致する（偏差がない）か、又は所定の範囲である場合には、報酬を第１の正の値とする。有効電流指令に対して有効電流が一致する（偏差がない）場合には電圧飽和は生じない。有効電流指令に対する有効電流と完全に一致しない場合にも所定の範囲を設けて、その範囲であれば電圧飽和が生じていないとする。一方、以下の処理（ｂ）及び（ｃ）にように、有効電流指令に対する有効電流の偏差が所定の範囲を超えた場合は電圧飽和が生じているとする。
（ｂ）状態ｓ´における有効電流指令に対する有効電流の偏差Ｌ(ｓ´)が所定の範囲を超え、その偏差が状態ｓにおける有効電流指令に対する有効電流の偏差Ｌ(ｓ)と等しいか、又は偏差Ｌ(ｓ)よりも小さくなったと判断する場合は、報酬を０又は第１の負の値とする。
（ｃ）状態ｓ´における有効電流指令に対する有効電流の偏差Ｌ(ｓ´)が所定の範囲を超え、その偏差が状態ｓにおける有効電流指令に対する有効電流の偏差Ｌ(ｓ)よりも大きくなったと判断する場合は、報酬を第２の負の値とする。第２の負の値は第１の負の値よりも絶対値を大きくする。

また、行動ａを実行後の状態ｓ´の偏差Ｌ(ｓ´)が、前の状態ｓにおける偏差Ｌ(ｓ)より大きくなった場合の第２の負の値としては、比率に応じて第２の負の値の絶対値を大きくするようにしてもよい。つまり有効電流指令に対する有効電流の偏差が大きくなった度合いに応じて負の値の絶対値が大きくなるようにしてもよい。逆に、行動ａを実行後の状態ｓ´の偏差Ｌ(ｓ´)が、前の状態ｓにおける偏差Ｌ(ｓ)より小さくなった場合の第１の負の値としては、比率に応じて負の値の絶対値が小さくするようにしてもよい。つまり、有効電流指令に対する有効電流の偏差が小さくなった度合いに応じて負の値の絶対値が小さくなるようにしてもよい。
なお、上記の報酬は一例であって、これらに限定されるものではない。例えば、処理（ｂ）において、報酬は０又は第１の負の値とせずに、第１の正の値よりも小さい正の値としてもよい。処理（ｂ）における報酬が正の値とされたときには、処理（ｃ）における報酬は０又は第１の負の値としてもよい。

上述したように、報酬を与えることで、有効電流指令に対する有効電流の偏差が小さくなるように無効電流指令が学習されていく。無効電流指令により無効電流が増えると有効電流指令に対する有効電流の偏差が小さくなって電圧飽和が生じにくくなる。しかし、無効電流が増えるとそれに伴い無効電流による発熱が生じる。電圧飽和しないときに無効電流による発熱を抑えるために、報酬出力部２０２１は、無効電流の値に基づいて報酬を算出して、算出した報酬を、前述した有効電流指令に対する有効電流の偏差に基づく報酬に加算することができる。無効電流の値に基づく報酬を加算することで、無効電流を少なくするように学習し、無効電流による発熱を抑制することができる。
報酬出力部２０２１は、以下の処理（ｄ）、（ｅ）、及び（ｆ）のように、無効電流の値に基づいて報酬を決定して、その報酬を第１の正の値に加算する。
（ｄ）状態ｓ´における無効電流が、状態ｓにおける無効電流よりも小さい場合は、報酬を第２の正の値として、第１の正の値に加算する。
（ｅ）状態ｓ´における無効電流が、状態ｓにおける無効電流よりも大きい場合か同じ場合は、報酬を０又は第３の負の値として、第１の正の値に加算する。
なお、第１の正の値は第２の正の値よりも大きく、第１及び第２の負の値の絶対値は第３の負の値の絶対値よりも大きくすることが好ましい。電圧飽和が起きるとサーボモータ制御装置の制御がしにくくなり、無効電流による発熱よりも影響が大きいからである。
上記の報酬は一例であって、これらに限定されるものではない。例えば、処理（ｅ）において、報酬は０又は第３の負の値とせずに、第２の正の値よりも小さい正の値としてもよい。

価値関数更新部２０２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、基本的にオンライン学習で行われる。

オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。オンライン学習を用いることで、プログラムの実行によって、機械学習装置２００はリアルタイムで学習を行い、より好ましい無効電流指令を出力することができる。
ただし、実際の工作機械の加工処理の前に予備的に加工処理を行う等の場合には、価値関数Ｑの更新は、バッチ学習で行ったり、ミニバッチ学習で行ってもよい。バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部２０２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボモータ制御装置１００の無効電流指令を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、状態ｓに含まれる無効電流指令に対して行動ａに含まれる、無効電流指令の値をインクレメンタルに増加又は減少させる。

そして、行動情報生成部２０２３は、無効電流指令の値増加又は減少を適用して、状態ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動ａ´としては、無効電流指令に対して、前回のアクションと同様にインクレメンタルに増加させる等、電圧飽和がより起こりにくくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動ａ´としては、例えば、無効電流指令に対して、前回のアクションとは逆にインクレメンタルに増加させる等、電圧飽和の大きさが前回の値よりも小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報ａをサーボモータ制御装置１００に対して送信する部分である。サーボモータ制御装置１００は上述したように、この行動情報に基づいて、現在の状態ｓ、すなわち現在設定されている無効電流指令を微修正することで、次の状態ｓ´（すなわち修正された、無効電流指令）に遷移する。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値関数Ｑ（ｓ，ａ）が最大となる動作をサーボモータ制御装置１００に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボモータ制御装置１００に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、無効電流指令を修正する情報が含まれる。

サーボモータ制御装置１００では、この行動情報に基づいて無効電流指令が修正され、電圧飽和が起こりにくくなるように動作することができる。
以上のように、本実施形態に係る機械学習装置２００を利用することで、サーボモータ制御装置１００への無効電流指令の調整を簡易化することができる。

以上、サーボモータ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図４及び図５のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２００の動作について説明をする。図４は本実施形態におけるＱ学習時の機械学習装置２００の動作を示すフローチャート、図５は図４のステップＳ１３の報酬の算出方法を示すフローチャートである。

ステップＳ１１において、状態情報取得部２０１がサーボモータ制御装置１００から最初の状態情報ｓを取得する。取得した状態情報は、価値関数更新部２０２２及び行動情報生成部２０２３に対して出力される。上述したように、この状態情報ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、速度指令、有効電流指令、有効電流、及び無効電流が含まれる。ステップＳ１１時点での無効電流指令はユーザにより初期設定され、機械学習装置２００の行動情報生成部２０２３が記憶している。

行動情報生成部２０２３は行動情報ａとなる無効電流指令を生成し、生成した行動情報ａを、行動情報出力部２０３を介してサーボモータ制御装置１００に対して出力する。行動情報を受信したサーボモータ制御装置１００は、プログラムにより生成された位置指令に基づき、行動情報ａとなる無効電流指令を用いた状態ｓ´により、モータ４００を制御する。

ステップＳ１２において、状態情報取得部２０１は、サーボモータ制御装置１００から新たな状態ｓ´に相当する状態情報を取得する。ここで、新たな状態情報には、速度指令、有効電流指令、有効電流、及び無効電流を含んでいる。状態情報取得部２０１は学習部２０２に対して取得した状態情報を出力する。

ステップＳ１３において、学習部２０２の報酬出力部２０２１は、有効電流指令、有効電流、及び無効電流に基づいて報酬を算出する。ステップＳ１３は図５に示すように、ステップＳ１３１からステップＳ１３７を含んでいる。
報酬出力部２０２１は、ステップＳ１３１において、状態ｓ´における、有効電流指令に対する有効電流の偏差Ｌ(ｓ´)を求め、偏差がないか（Ｌ(ｓ´)＝０）、偏差Ｌ(ｓ´)がある場合には偏差Ｌ(ｓ´)が所定の範囲であるかを判断する。偏差がないか、又は偏差Ｌ(ｓ´)が所定の範囲である場合（ケース１）には、報酬出力部２０２１は、ステップＳ１３２において、報酬を第１の正の値とする。偏差Ｌ(ｓ´)が所定の範囲外であるが、その偏差Ｌ(ｓ´)が状態ｓにおける有効電流指令に対する有効電流の偏差Ｌ(ｓ)よりも小さくなった場合（ケース２）には、報酬出力部２０２１は、ステップＳ１３３において、報酬を０又は第１の負の値とする。偏差Ｌ(ｓ´)が所定の範囲外であるが、その偏差が状態ｓにおける有効電流指令に対する有効電流の偏差Ｌ(ｓ)よりも大きくなった場合（ケース３）には、報酬出力部２０２１は、ステップＳ１３４において、報酬を第２の負の値とする。第２の負の値は第１の負の値よりも絶対値が大きい。
報酬出力部２０２１は、ステップＳ１３２の後に、ステップＳ１３５において、状態ｓ´における無効電流が、状態ｓにおける無効電流よりも小さいかどうかを判断する。状態ｓ´における無効電流が、状態ｓにおける無効電流よりも小さい場合は、報酬出力部２０２１は、ステップＳ１３６において、報酬を第２の正の値として、第１の正の値に加算する。状態ｓ´における無効電流が、状態ｓにおける無効電流よりも大きい（小さくない）か同じの場合は、報酬出力部２０２１は、ステップＳ１３７において、報酬を０又は第３の負の値として、第１の正の値に加算する。
既に説明したように、電圧飽和しないときに無効電流による発熱を抑えるために、報酬出力部２０２１は、無効電流の値に基づいて報酬を算出して、算出した報酬を、前述した有効電流指令に対する有効電流の偏差に基づく報酬に加算することができる。
すなわち、報酬出力部２０２１は、ステップＳ１３６及びステップＳ１３７において、無効電流の値に基づく報酬と、ステップＳ１３２、Ｓ１３３、又はＳ１３４における、有効電流の偏差Ｌ(ｓ´)及びＬ(ｓ)に基づく報酬とを加算する。２つの報酬を算出する場合、単純な加算に限定されず、例えば、重み付け加算してもよい。また、無効電流の値に基づく報酬と、有効電流の偏差Ｌ(ｓ´)及びＬ(ｓ)に基づく報酬との平均値を算出してもよい。
ステップＳ１３５〜ステップＳ１３７は、ステップＳ１３２の後に実行するとして説明したが、ステップＳ１３２と同時又はステップＳ１３２の前に実行してもよい。

ステップＳ１３３、ステップＳ１３４、ステップＳ１３６及びステップＳ１３７の何れかが終了すると、ステップＳ１４において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部２０２２が、価値関数記憶部２０４に記憶している価値関数Ｑを更新する。

次に、ステップＳ１５において、機械学習装置２００、例えば行動情報生成部２０２３はプログラムを実行しているかどうかを判断する。プログラムの実行は例えば、行動情報生成部２０２３が速度指令に基づいて判断することができる。プログラムの実行中であれば、行動情報生成部２０２３は図４のステップＳ１６において、新たな行動情報となる無効電流指令を生成し、生成した行動情報を、行動情報出力部２０３を介してサーボモータ制御装置１００に対して出力し、ステップＳ１２に戻る。ステップＳ１２からステップＳ１６までの処理はプログラムが終了するまで繰り返し行われる。ステップＳ１２からステップＳ１６までの処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、ここではプログラムが終了したときに処理を終了させているが、ステップＳ１２からステップＳ１６の処理を所定回数又は所定時間繰り返したことを条件として処理を終了するようにしてもよい。

以上、図４及び図５を参照して説明した動作により、本実施形態では、機械学習装置２００を利用することで、無効電流指令の調整のための、適切な価値関数を得ることができ、無効電流指令の最適化を簡易化することができる、という効果を奏する。
次に、図６のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部２０５は、価値関数記憶部２０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部２０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボモータ制御装置１００に対して出力する。

また、図６を参照して説明した動作により、本実施形態では、機械学習装置２００により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、サーボモータ制御装置１００が、この最適化行動情報に基づいて、現在設定されている無効電流指令の調整を簡易化するとともに、できるだけ少ない無効電流で電圧指令の飽和を回避することができる。また、有効電流指令に対する有効電流の追従性を向上させることができる。

上記のサーボモータ制御装置のサーボモータ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボモータ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

例えば、以上説明した実施形態では、速度指令に基づいて電圧飽和が起きる条件で動作しているかどうかは検出したが、速度フィードバックされた検出速度に基づいて電圧飽和が起きる条件で動作しているかどうかは検出してもよい。すなわち、図７のサーボモータ制御装置に示すように、図２に示した速度指令の代わりに、モータ４００から速度フィードバックされた検出速度を機械学習装置２００に入力してもよい。図７に示すサーボモータ制御装置１００は速度指令の代わりに、検出速度が機械学習装置２００に入力されている点を除いて図２に示したサーボモータ制御装置１００と構成及び動作が同じなので説明を省略する。

また、以上説明したサーボモータ制御装置１００における電圧飽和は、有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じることで検出されたが、電圧指令がＤＣリンク電圧を超えることで検出してもよい。図８は電圧指令を機械学習装置２００に入力する例を示すサーボモータ制御装置のブロック図である。
図８に示すサーボモータ制御装置１００は、電圧指令を機械学習装置２００に入力する点を除いて図２に示したサーボモータ制御装置１００と構成及び動作が同じなので説明を省略する。ＤＣリンク電圧は予め機械学習装置２００の例えば報酬出力部に記憶されている。

報酬出力部２０２１は、以下のように、電圧指令がＤＣリンク電圧を超えているかどうかに基づいて報酬を算出する。図９は図４のステップＳ１３の報酬の他の算出方法を示すフローチャートである。図９のフローチャートのステップＳ１３１Ａ〜Ｓ１３４Ａが図５に示したフローチャートのステップＳ１３１〜Ｓ１３４と異なる。図９において、同じステップについては同一符号を付し、重複する説明は省略する。
ステップＳ１３１Ａにおいて、報酬出力部２０２１は、電圧指令がＤＣリンク電圧を超えているかどうかを判断する。
状態ｓ´における電圧指令がＤＣリンク電圧以下である場合（ケース１）には、報酬出力部２０２１はステップＳ１３２Ａにおいて、報酬を第１の正の値とする。
状態ｓ´における電圧指令がＤＣリンク電圧を超え、その超えた値が状態ｓにおける電圧指令がＤＣリンク電圧を超えた値よりも小さくなったと判断する場合（ケース２）は、報酬出力部２０２１はステップＳ１３３Ａにおいて、報酬を０又は第１の負の値とする。
状態ｓ´における電圧指令がＤＣリンク電圧を超え、その超えた値が状態ｓにおける電圧指令がＤＣリンク電圧を超えた値よりも大きくなったと判断する場合（ケース３）は、報酬出力部２０２１はステップＳ１３４Ａにおいて、報酬を第２の負の値とする。第２の負の値は第１の負の値よりも絶対値を大きくする。

＜サーボモータ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００を、サーボモータ制御装置１００とは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボモータ制御装置１００により実現するようにしてもよい。
図１０は本発明の一実施形態のサーボモータ制御装置を示すブロック図である。図１０に示すように、サーボモータ制御装置１００Ａは、機械学習装置２００Ａを含んでいる点を除いて図２に示すサーボモータ制御装置１００と同一の構成である。このようにサーボモータ制御装置に含まれる機械学習装置も、サーボモータ制御装置に対して、機械学習を行う機械学習装置の一つの形態である。本変形例では速度指令部１０１、速度制御部１０３３、及び電流制御部１０６が機械学習装置２００Ａに近接して設けられるために、速度指令、有効電流指令、有効電流及び無効電流の各信号の信号遅延を抑制することができる。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置２００とサーボモータ制御装置１００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００が複数のサーボモータ制御装置１００とネットワーク３００を介して通信可能に接続され、各サーボモータ制御装置１００の機械学習を実施するようにしてもよい。
その際、機械学習装置２００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボモータ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０サーボモータ制御システム
１００サーボモータ制御装置
１０１速度指令部
１０２減算器
１０３速度制御部
１０４減算器
１０５減算器
１０６電流制御部
１０７駆動用アンプ
１０８３相−２相変換器
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００ネットワーク
４００モータ

Claims

３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記ｄ相の無効電流と、有効電流指令及び前記ｑ相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段と、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記報酬出力手段は、電圧飽和が生じているかどうかに基づいて前記報酬の値を決定する、請求項１に記載の機械学習装置。
前記電圧飽和は、前記有効電流指令に対する前記有効電流の偏差に基づいて検出する請求項２に記載の機械学習装置。
前記報酬出力手段は、前記報酬を決定するとともに、前記電圧飽和が生じていない場合に前記無効電流の値に基づいて報酬を決定する請求項２又は請求項３に記載の機械学習装置。
前記価値関数更新手段により更新された価値関数に基づいて、前記無効電流指令を生成して出力する最適化行動情報出力手段をさらに備えた請求項１から請求項４のいずれか１項に記載の機械学習装置。
請求項１から請求項５のいずれか１項に記載の機械学習装置と、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置と、を備えたサーボモータ制御システム。
請求項１から請求項５のいずれか１項に記載の機械学習装置を含み、３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行うサーボモータ制御装置。
３相電流をｄ相及びｑ相の２相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記ｄ相の無効電流と、有効電流指令及び前記ｑ相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。