JP6740263B2 - 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 - Google Patents
機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 Download PDFInfo
- Publication number
- JP6740263B2 JP6740263B2 JP2018020919A JP2018020919A JP6740263B2 JP 6740263 B2 JP6740263 B2 JP 6740263B2 JP 2018020919 A JP2018020919 A JP 2018020919A JP 2018020919 A JP2018020919 A JP 2018020919A JP 6740263 B2 JP6740263 B2 JP 6740263B2
- Authority
- JP
- Japan
- Prior art keywords
- servo motor
- machine learning
- phase
- motor control
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/0285—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and fuzzy logic
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Program-control systems
- G05B19/02—Program-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form
- G05B19/19—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Program-control systems
- G05B19/02—Program-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form
- G05B19/414—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
- G05B19/4141—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by a controller or microprocessor per axis
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P21/00—Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
- H02P21/0003—Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P21/00—Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
- H02P21/0003—Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
- H02P21/0025—Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control implementing a off line learning phase to determine and store useful data for on-line control
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P21/00—Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
- H02P21/22—Current control, e.g. using a current control loop
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P23/00—Arrangements or methods for the control of AC motors characterised by a control method other than vector control
- H02P23/0004—Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
- H02P23/0031—Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control implementing a off line learning phase to determine and store useful data for on-line control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/42—Servomotor, servo controller kind till VSS
- G05B2219/42151—Learn dynamics of servomotor system by ann
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/42—Servomotor, servo controller kind till VSS
- G05B2219/42152—Learn, self, auto tuning, calibrating, environment adaptation, repetition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Manufacturing & Machinery (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Hardware Design (AREA)
- Control Of Electric Motors In General (AREA)
- Feedback Control In General (AREA)
- Control Of Ac Motors In General (AREA)
Description
しかしながら、特許文献1に記載のサーボモータ制御装置は、ベース速度及びクランプ速度をサーボモータ制御装置ごとに設定する必要があり、設定が煩雑となる。また、経時変化によりベース速度又はクランプ速度が変化した場合に、ベース速度又はクランプ速度の設定を変える必要がでてくる。
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、電圧指令、又は有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部201)と、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部2021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部2022)と、
を備える機械学習装置である。
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、電圧指令、又は有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。
図1は本発明の一実施形態のサーボモータ制御システムを示すブロック図である。サーボモータ制御システム10は、図1に示すように、n台のサーボモータ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク300を備えている。なお、nは任意の自然数である。
サーボモータ制御装置100はモータ400の回転を制御する。モータ400は例えば、3相電流により駆動されるACサーボモータであり、サーボモータ制御装置100は、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御が行われる。モータ400は、例えば、工作機械、ロボット、又は産業機械等に含まれる。サーボモータ制御装置100は工作機械、ロボット又は産業機械等の一部として設けられてもよい。機械学習装置200はサーボモータ制御装置100から速度指令、有効電流指令、q相の有効電流、及びd相の無効電流を受け、無効電流指令をサーボモータ制御装置100に出力する。後述するように、機械学習装置200は、速度指令の変わりに速度フィードバックされた検出速度を用いてもよく、有効電流指令及びq相の有効電流の代わりに電圧指令を受けてもよい。
サーボモータ制御装置100は、速度指令部101、減算器102、速度制御部1033、減算器104、減算器105、電流制御部106、駆動用アンプ107、及び3相−2相変換器108を備えている。
減算器102は速度指令と速度フィードバックされた検出速度との差を求め、その差を速度偏差として、速度制御部103に出力する。
次に、機械学習装置200の構成について以下に説明する。
機械学習装置200は、プログラムに基づいてモータ400を駆動させたときの、有効電流の応答追従性を向上させつつ、できるだけ少ない無効電流で、電圧指令の飽和を回避するための、無効電流指令を学習する。プログラムは実際に使用されるプログラムが用いられる。プログラムは、例えば、サーボモータ制御装置100が工作機械に用いられる場合には、被加工物(ワーク)の加工に用いられる実際の加工プログラムである。プログラムによってサーボモータ制御装置100を駆動させる通常の動作において、電圧飽和が発生する。サーボモータ制御装置100における電圧飽和は、電圧指令がDCリンク電圧を超える、又は有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じることで検出される。以下の説明では、有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じているかに基づいて、電圧飽和を検出する場合について説明する。
なお、特許文献1に記載されるように、サーボモータ制御装置において、モータの高速回転領域では電圧飽和が生じる。サーボモータ制御装置100が、電圧飽和が生ずるような高速回転領域で動作しているかどうかは、機械学習装置200は、速度指令又はモータ400からフィードバックされた検出速度に基づいて検出することができる。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値関数Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
この更新式は、状態stにおける行動atの価値関数Q(st,at)よりも、行動atによる次の状態st+1における最良の行動の価値maxa Q(st+1,a)の方が大きければ、Q(st,at)を大きくし、逆に小さければ、Q(st,at)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
上述した強化学習を行うために、図3に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での無効電流指令は予めユーザが生成するようにする。本実施形態では、例えばユーザが作成した無効電流指令の初期設定値を、強化学習により最適なものに調整する。
行動aにより状態sから状態s´に遷移した場合に、報酬出力部2021は、状態s及び状態s´における無効電流指令に基づいて動作したサーボモータ制御装置100の有効電流指令に対する有効電流の偏差を求める。なお、有効電流指令に対する有効電流の偏差は、サーボモータ制御装置100の減算器104の出力から状態情報取得部201が取得してもよい。
そして、報酬出力部2021は、以下の処理(a)、(b)、及び(c)のように、有効電流指令に対する有効電流の偏差に基づいて報酬を算出する。
(a) 状態s´における有効電流指令に対して有効電流が一致する(偏差がない)か、又は所定の範囲である場合には、報酬を第1の正の値とする。有効電流指令に対して有効電流が一致する(偏差がない)場合には電圧飽和は生じない。有効電流指令に対する有効電流と完全に一致しない場合にも所定の範囲を設けて、その範囲であれば電圧飽和が生じていないとする。一方、以下の処理(b)及び(c)にように、有効電流指令に対する有効電流の偏差が所定の範囲を超えた場合は電圧飽和が生じているとする。
(b) 状態s´における有効電流指令に対する有効電流の偏差L(s´)が所定の範囲を超え、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)と等しいか、又は偏差L(s)よりも小さくなったと判断する場合は、報酬を0又は第1の負の値とする。
(c) 状態s´における有効電流指令に対する有効電流の偏差L(s´)が所定の範囲を超え、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも大きくなったと判断する場合は、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値を大きくする。
なお、上記の報酬は一例であって、これらに限定されるものではない。例えば、処理(b)において、報酬は0又は第1の負の値とせずに、第1の正の値よりも小さい正の値としてもよい。処理(b)における報酬が正の値とされたときには、処理(c)における報酬は0又は第1の負の値としてもよい。
報酬出力部2021は、以下の処理(d)、(e)、及び(f)のように、無効電流の値に基づいて報酬を決定して、その報酬を第1の正の値に加算する。
(d) 状態s´における無効電流が、状態sにおける無効電流よりも小さい場合は、報酬を第2の正の値として、第1の正の値に加算する。
(e) 状態s´における無効電流が、状態sにおける無効電流よりも大きい場合か同じ場合は、報酬を0又は第3の負の値として、第1の正の値に加算する。
なお、第1の正の値は第2の正の値よりも大きく、第1及び第2の負の値の絶対値は第3の負の値の絶対値よりも大きくすることが好ましい。電圧飽和が起きるとサーボモータ制御装置の制御がしにくくなり、無効電流による発熱よりも影響が大きいからである。
上記の報酬は一例であって、これらに限定されるものではない。例えば、処理(e)において、報酬は0又は第3の負の値とせずに、第2の正の値よりも小さい正の値としてもよい。
価値関数Qの更新は、基本的にオンライン学習で行われる。
ただし、実際の工作機械の加工処理の前に予備的に加工処理を行う等の場合には、価値関数Qの更新は、バッチ学習で行ったり、ミニバッチ学習で行ってもよい。バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボモータ制御装置100に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、無効電流指令を修正する情報が含まれる。
以上のように、本実施形態に係る機械学習装置200を利用することで、サーボモータ制御装置100への無効電流指令の調整を簡易化することができる。
これらの機能ブロックを実現するために、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
報酬出力部2021は、ステップS131において、状態s´における、有効電流指令に対する有効電流の偏差L(s´)を求め、偏差がないか(L(s´)=0)、偏差L(s´)がある場合には偏差L(s´)が所定の範囲であるかを判断する。偏差がないか、又は偏差L(s´)が所定の範囲である場合(ケース1)には、報酬出力部2021は、ステップS132において、報酬を第1の正の値とする。偏差L(s´)が所定の範囲外であるが、その偏差L(s´)が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも小さくなった場合(ケース2)には、報酬出力部2021は、ステップS133において、報酬を0又は第1の負の値とする。偏差L(s´)が所定の範囲外であるが、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも大きくなった場合(ケース3)には、報酬出力部2021は、ステップS134において、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値が大きい。
報酬出力部2021は、ステップS132の後に、ステップS135において、状態s´における無効電流が、状態sにおける無効電流よりも小さいかどうかを判断する。状態s´における無効電流が、状態sにおける無効電流よりも小さい場合は、報酬出力部2021は、ステップS136において、報酬を第2の正の値として、第1の正の値に加算する。状態s´における無効電流が、状態sにおける無効電流よりも大きい(小さくない)か同じの場合は、報酬出力部2021は、ステップS137において、報酬を0又は第3の負の値として、第1の正の値に加算する。
既に説明したように、電圧飽和しないときに無効電流による発熱を抑えるために、報酬出力部2021は、無効電流の値に基づいて報酬を算出して、算出した報酬を、前述した有効電流指令に対する有効電流の偏差に基づく報酬に加算することができる。
すなわち、報酬出力部2021は、ステップS136及びステップS137において、無効電流の値に基づく報酬と、ステップS132、S133、又はS134における、有効電流の偏差L(s´)及びL(s)に基づく報酬とを加算する。2つの報酬を算出する場合、単純な加算に限定されず、例えば、重み付け加算してもよい。また、無効電流の値に基づく報酬と、有効電流の偏差L(s´)及びL(s)に基づく報酬との平均値を算出してもよい。
ステップS135〜ステップS137は、ステップS132の後に実行するとして説明したが、ステップS132と同時又はステップS132の前に実行してもよい。
次に、図6のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
図8に示すサーボモータ制御装置100は、電圧指令を機械学習装置200に入力する点を除いて図2に示したサーボモータ制御装置100と構成及び動作が同じなので説明を省略する。DCリンク電圧は予め機械学習装置200の例えば報酬出力部に記憶されている。
ステップS131Aにおいて、報酬出力部2021は、電圧指令がDCリンク電圧を超えているかどうかを判断する。
状態s´における電圧指令がDCリンク電圧以下である場合(ケース1)には、報酬出力部2021はステップS132Aにおいて、報酬を第1の正の値とする。
状態s´における電圧指令がDCリンク電圧を超え、その超えた値が状態sにおける電圧指令がDCリンク電圧を超えた値よりも小さくなったと判断する場合(ケース2)は、報酬出力部2021はステップS133Aにおいて、報酬を0又は第1の負の値とする。
状態s´における電圧指令がDCリンク電圧を超え、その超えた値が状態sにおける電圧指令がDCリンク電圧を超えた値よりも大きくなったと判断する場合(ケース3)は、報酬出力部2021はステップS134Aにおいて、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値を大きくする。
上述した実施形態では、機械学習装置200を、サーボモータ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボモータ制御装置100により実現するようにしてもよい。
図10は本発明の一実施形態のサーボモータ制御装置を示すブロック図である。図10に示すように、サーボモータ制御装置100Aは、機械学習装置200Aを含んでいる点を除いて図2に示すサーボモータ制御装置100と同一の構成である。このようにサーボモータ制御装置に含まれる機械学習装置も、サーボモータ制御装置に対して、機械学習を行う機械学習装置の一つの形態である。本変形例では速度指令部101、速度制御部1033、及び電流制御部106が機械学習装置200Aに近接して設けられるために、速度指令、有効電流指令、有効電流及び無効電流の各信号の信号遅延を抑制することができる。
上述した実施形態では、機械学習装置200とサーボモータ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボモータ制御装置100とネットワーク300を介して通信可能に接続され、各サーボモータ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボモータ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
100 サーボモータ制御装置
101 速度指令部
102 減算器
103 速度制御部
104 減算器
105 減算器
106 電流制御部
107 駆動用アンプ
108 3相−2相変換器
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 ネットワーク
400 モータ
Claims (8)
- 3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段と、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。 - 前記報酬出力手段は、電圧飽和が生じているかどうかに基づいて前記報酬の値を決定する、請求項1に記載の機械学習装置。
- 前記電圧飽和は、前記有効電流指令に対する前記有効電流の偏差に基づいて検出する請求項2に記載の機械学習装置。
- 前記報酬出力手段は、前記報酬を決定するとともに、前記電圧飽和が生じていない場合に前記無効電流の値に基づいて報酬を決定する請求項2又は請求項3に記載の機械学習装置。
- 前記価値関数更新手段により更新された価値関数に基づいて、前記無効電流指令を生成して出力する最適化行動情報出力手段をさらに備えた請求項1から請求項4のいずれか1項に記載の機械学習装置。
- 請求項1から請求項5のいずれか1項に記載の機械学習装置と、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置と、を備えたサーボモータ制御システム。
- 請求項1から請求項5のいずれか1項に記載の機械学習装置を含み、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行うサーボモータ制御装置。
- 3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018020919A JP6740263B2 (ja) | 2018-02-08 | 2018-02-08 | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 |
| CN201910105513.1A CN110138296B (zh) | 2018-02-08 | 2019-02-01 | 机器学习装置和方法、伺服电动机控制装置和系统 |
| DE102019201473.9A DE102019201473A1 (de) | 2018-02-08 | 2019-02-06 | Maschinenlernvorrichtung, Servomotor-Steuerung, Servomotorsteuerungssystem und Maschinenlernverfahren |
| US16/268,970 US10684594B2 (en) | 2018-02-08 | 2019-02-06 | Machine learning device, servo motor controller, servo motor control system, and machine learning method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018020919A JP6740263B2 (ja) | 2018-02-08 | 2018-02-08 | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019140765A JP2019140765A (ja) | 2019-08-22 |
| JP6740263B2 true JP6740263B2 (ja) | 2020-08-12 |
Family
ID=67308560
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018020919A Active JP6740263B2 (ja) | 2018-02-08 | 2018-02-08 | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US10684594B2 (ja) |
| JP (1) | JP6740263B2 (ja) |
| CN (1) | CN110138296B (ja) |
| DE (1) | DE102019201473A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12399483B2 (en) * | 2019-10-21 | 2025-08-26 | Semiconductor Components Industries, Llc | Systems and methods for system optimization and/or failure detection |
| CN112187074B (zh) * | 2020-09-15 | 2022-04-19 | 电子科技大学 | 一种基于深度强化学习的逆变器控制器 |
| CN114268259B (zh) * | 2021-12-28 | 2023-06-30 | 郑州大学 | 用于永磁同步电机的多目标控制方法、控制器及控制系统 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0984400A (ja) | 1995-09-14 | 1997-03-28 | Fanuc Ltd | サーボモータの電流制御方法 |
| JP2000324879A (ja) * | 1999-05-14 | 2000-11-24 | Matsushita Electric Ind Co Ltd | モータ制御装置 |
| JP6140225B2 (ja) * | 2015-07-31 | 2017-05-31 | ファナック株式会社 | 磁束制御器を有するモータ制御装置、ならびに機械学習装置およびその方法 |
| JP6088604B1 (ja) * | 2015-08-27 | 2017-03-01 | ファナック株式会社 | 磁束制御部を有する電動機制御装置、ならびに機械学習装置およびその方法 |
| JP5969676B1 (ja) * | 2015-09-30 | 2016-08-17 | ファナック株式会社 | 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械 |
| JP6658023B2 (ja) * | 2016-02-04 | 2020-03-04 | 株式会社明電舎 | 埋込磁石同期モータの電流指令テーブル自動生成システムおよび電流指令テーブル自動生成方法 |
| JP6506219B2 (ja) * | 2016-07-21 | 2019-04-24 | ファナック株式会社 | モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法 |
-
2018
- 2018-02-08 JP JP2018020919A patent/JP6740263B2/ja active Active
-
2019
- 2019-02-01 CN CN201910105513.1A patent/CN110138296B/zh active Active
- 2019-02-06 US US16/268,970 patent/US10684594B2/en active Active
- 2019-02-06 DE DE102019201473.9A patent/DE102019201473A1/de active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019140765A (ja) | 2019-08-22 |
| US10684594B2 (en) | 2020-06-16 |
| DE102019201473A1 (de) | 2019-08-08 |
| CN110138296B (zh) | 2021-08-06 |
| CN110138296A (zh) | 2019-08-16 |
| US20190243318A1 (en) | 2019-08-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108628355B (zh) | 伺服控制装置及系统、机器学习装置及方法 | |
| CN109274314B (zh) | 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法 | |
| JP6697491B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
| JP6474456B2 (ja) | 機械学習装置、サーボ制御システム及び機械学習方法 | |
| JP6490131B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
| CN108693834B (zh) | 调整装置以及调整方法 | |
| JP6499720B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
| JP6784722B2 (ja) | 出力装置、制御装置、及び評価関数値の出力方法 | |
| JP6748135B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
| JP6901450B2 (ja) | 機械学習装置、制御装置及び機械学習方法 | |
| JP6740277B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
| JP6740278B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
| US11914333B2 (en) | Machine learning device, servo control device, servo control system, and machine learning method | |
| JP6978452B2 (ja) | 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法 | |
| CN111857052A (zh) | 机器学习装置、数值控制系统以及机器学习方法 | |
| JP6841801B2 (ja) | 機械学習装置、制御システム及び機械学習方法 | |
| JP6740263B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
| JP7469476B2 (ja) | 制御支援装置、制御システム及び制御支援方法 | |
| JP6740290B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190612 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190717 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191023 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191126 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191203 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200303 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200318 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200623 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200722 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6740263 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |