JP6740263B2 - 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 - Google Patents

機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 Download PDF

Info

Publication number
JP6740263B2
JP6740263B2 JP2018020919A JP2018020919A JP6740263B2 JP 6740263 B2 JP6740263 B2 JP 6740263B2 JP 2018020919 A JP2018020919 A JP 2018020919A JP 2018020919 A JP2018020919 A JP 2018020919A JP 6740263 B2 JP6740263 B2 JP 6740263B2
Authority
JP
Japan
Prior art keywords
servo motor
machine learning
phase
motor control
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018020919A
Other languages
English (en)
Other versions
JP2019140765A (ja
Inventor
佑貴 白川
佑貴 白川
聡史 猪飼
聡史 猪飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2018020919A priority Critical patent/JP6740263B2/ja
Priority to CN201910105513.1A priority patent/CN110138296B/zh
Priority to DE102019201473.9A priority patent/DE102019201473A1/de
Priority to US16/268,970 priority patent/US10684594B2/en
Publication of JP2019140765A publication Critical patent/JP2019140765A/ja
Application granted granted Critical
Publication of JP6740263B2 publication Critical patent/JP6740263B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/0285Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and fuzzy logic
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Program-control systems
    • G05B19/02Program-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form
    • G05B19/19Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Program-control systems
    • G05B19/02Program-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of program data in numerical form
    • G05B19/414Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
    • G05B19/4141Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by a controller or microprocessor per axis
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/0003Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/0003Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
    • H02P21/0025Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control implementing a off line learning phase to determine and store useful data for on-line control
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/22Current control, e.g. using a current control loop
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P23/00Arrangements or methods for the control of AC motors characterised by a control method other than vector control
    • H02P23/0004Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
    • H02P23/0031Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control implementing a off line learning phase to determine and store useful data for on-line control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42151Learn dynamics of servomotor system by ann
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42152Learn, self, auto tuning, calibrating, environment adaptation, repetition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Control Of Electric Motors In General (AREA)
  • Feedback Control In General (AREA)
  • Control Of Ac Motors In General (AREA)

Description

本発明は、サーボモータの電流制御を行うサーボモータ制御装置に対して、無効電流指令の学習を行う機械学習装置、この機械学習装置を含むサーボモータ制御装置とサーボモータ制御システム、及び機械学習方法に関する。
従来のサーボモータ制御装置として、例えば、特許文献1に記載されたサーボモータ制御装置は、3相電流をd相及びq相の2相に変換し、電圧飽和が生じない回転速度領域ではd相に無効電流を流さないようにして無効電流による発熱を抑制し、電圧飽和が生ずる高速回転領域ではd相に無効電流を流して逆起電力を減少させて安定した回転制御を行っている。
特開平9−84400号公報
特許文献1に記載のサーボモータ制御装置は、電圧飽和が始まる付近の速度をベース速度として設定し、無効電流の増加による発熱等による障害を許容できる境界の速度をクランプ速度として設定して、ベース速度及びクランプ速度を境界として無効電流を制御している。具体的には、特許文献1のサーボ制御装置は、無効電流を流すためのd相電流指令(無効電流指令となる)を、モータの回転速度が0からベース速度までの速度領域では零とし、回転速度がベース速度を超える高速領域では回転速度に比例して増加させ、回転速度がクランプ速度を超える高速領域では一定値に固定する。
しかしながら、特許文献1に記載のサーボモータ制御装置は、ベース速度及びクランプ速度をサーボモータ制御装置ごとに設定する必要があり、設定が煩雑となる。また、経時変化によりベース速度又はクランプ速度が変化した場合に、ベース速度又はクランプ速度の設定を変える必要がでてくる。
本発明は、ベース速度及びクランプ速度を予め設定することなく、機械学習によりモータの回転速度に適した無効電流指令を求めて、電圧指令の飽和を回避することができる、機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置(例えば、後述の機械学習装置200)は、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置(例えば、後述のサーボモータ制御装置100)に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、電圧指令、又は有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部201)と、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部2021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部2022)と、
を備える機械学習装置である。
(2) 上記(1)の機械学習装置において、前記報酬出力手段は、電圧飽和が生じているかどうかに基づいて前記報酬の値を決定してもよい。
(3) 上記(2)の機械学習装置において、前記電圧飽和は、前記電圧指令がDCリンク電圧を超えているかどうか、又は前記有効電流指令に対する前記有効電流の偏差に基づいて検出してもよい。
(4) 上記(1)から(3)のいずれかの機械学習装置において、前記報酬出力手段は、前記報酬を決定するとともに、前記電圧飽和が生じていない場合に前記無効電流の値に基づいて報酬を決定してもよい。
(5) 上記(1)から(4)のいずれかの機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記無効電流指令を生成して出力する最適化行動情報出力手段(例えば、後述の最適化行動情報出力部205)をさらに備えてもよい。
(6) 本発明に係るサーボモータ制御システムは、上記(1)から(5)のいずれかの機械学習装置(例えば、後述の機械学習装置200)と、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置(例えば、後述のサーボモータ制御装置100)と、を備えたサーボモータ制御システムである。
(7) 本発明に係るサーボモータ制御装置は、上記(1)から(5)のいずれかの機械学習装置を含み、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行うサーボモータ制御装置である。
(8) 本発明に係る機械学習方法は、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置(例えば、後述のサーボモータ制御装置100)に対して、機械学習を行う機械学習装置(例えば、後述の機械学習装置200)の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、電圧指令、又は有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記電圧指令、又は前記有効電流指令と前記有効電流に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。
本発明によれば、ベース速度及びクランプ速度を予め設定することなく、機械学習によりモータの回転速度に適した無効電流指令を求めて、電圧指令の飽和を回避することができる。
本発明の一実施形態のサーボモータ制御システムを示すブロック図である。 本発明の一実施形態のサーボ制御システムのサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。 本発明の一実施形態の機械学習装置200を示すブロック図である。 本実施形態におけるQ学習時の機械学習装置200の動作を示すフローチャートである。 図4のステップS13の報酬の算出方法を示すフローチャートである。 機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。 本発明の実施形態のサーボ制御システムの他の構成を示すサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。 本発明の実施形態のサーボ制御システムの他の構成を示すサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。 図4のステップS13の報酬の算出方法を示すフローチャートである。 本発明の一実施形態のサーボモータ制御装置及びモータを示すブロック図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
図1は本発明の一実施形態のサーボモータ制御システムを示すブロック図である。サーボモータ制御システム10は、図1に示すように、n台のサーボモータ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク300を備えている。なお、nは任意の自然数である。
ここで、サーボモータ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボモータ制御装置100−2〜100−nと機械学習装置200−2〜200−nについてもサーボモータ制御装置100−1と機械学習装置200−1と同様に接続される。図1では、サーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク300を介して接続されているが、サーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボモータ制御装置と機械学習器とが接続インタフェースを介して直接接続されてもよい。これらサーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク300は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、接続インタフェースを介しての直接接続、或いは、これらの組み合わせである。ネットワーク300における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
図2は本発明の一実施形態のサーボ制御システムのサーボモータ制御装置と機械学習装置との組、及びモータを示すブロック図である。図2のサーボモータ制御装置100と、機械学習装置200は例えば、図1に示すサーボモータ制御装置100−1と機械学習装置200−1とに対応している。
サーボモータ制御装置100はモータ400の回転を制御する。モータ400は例えば、3相電流により駆動されるACサーボモータであり、サーボモータ制御装置100は、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御が行われる。モータ400は、例えば、工作機械、ロボット、又は産業機械等に含まれる。サーボモータ制御装置100は工作機械、ロボット又は産業機械等の一部として設けられてもよい。機械学習装置200はサーボモータ制御装置100から速度指令、有効電流指令、q相の有効電流、及びd相の無効電流を受け、無効電流指令をサーボモータ制御装置100に出力する。後述するように、機械学習装置200は、速度指令の変わりに速度フィードバックされた検出速度を用いてもよく、有効電流指令及びq相の有効電流の代わりに電圧指令を受けてもよい。
モータ400が工作機械に含まれ、サーボモータ制御装置100が、モータ400によって被加工物(ワーク)を搭載するテーブルをX軸方向及びY軸方向に移動させる場合には、X軸方向及びY軸方向に対してそれぞれサーボモータ制御装置100が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボモータ制御装置100が設けられる。サーボモータ制御装置100が、モータ400によって被加工物(ワーク)を加工する主軸を移動させる場合には、主軸に対してサーボモータ制御装置100が設けられる。
まず、サーボモータ制御装置100の構成について以下に説明する。
サーボモータ制御装置100は、速度指令部101、減算器102、速度制御部1033、減算器104、減算器105、電流制御部106、駆動用アンプ107、及び3相−2相変換器108を備えている。
速度指令部101は、入力される位置指令に予め設定されたポジションゲインKpを乗じた値を、速度指令として減算器102及び機械学習装置200に出力する。位置指令は上位制御装置や外部入力装置等から入力される所定のプログラムに従って、モータ400の速度を変化させるためにパルス周波数を変えるように生成される。
減算器102は速度指令と速度フィードバックされた検出速度との差を求め、その差を速度偏差として、速度制御部103に出力する。
速度制御部103は、例えば、速度偏差に予め設定された積分ゲインK1vを乗じて積分した値と、速度偏差に予め設定された比例ゲインK2vを乗じた値とを加算して、有効電流指令として減算器104及び機械学習装置200に出力する。
減算器104は、有効電流指令と、3相−2相変換器108の出力との差を求め、その差を有効電流偏差として電流制御部106に出力する。
減算器105は、機械学習装置200から出力される無効電流指令と、3相−2相変換器108から出力される無効電流との差を求め、その差を無効電流偏差として電流制御部106に出力する。
電流制御部106は、有効電流制御器(図示せず)と、無効電流制御器(図示せず)と、2相−3相変換器(図示せず)とを備える。ここで、有効電流制御器は、減算器104から出力される有効電流偏差に予め設定された積分ゲインK1vを乗じて積分した値と、有効電流偏差に予め設定された比例ゲインK2vを乗じた値とを加算して、有効指令電圧として2相−3相変換器に出力する。無効電流制御器は、減算器105から出力される無効電流偏差に予め設定された積分ゲインK3vを乗じて積分した値と、無効電流偏差に予め設定された比例ゲインK4vを乗じた値とを加算して、無効指令電圧として2相−3相変換器に出力する。2相−3相変換器は、2相の有効指令電圧と無効指令電圧から、3相の指令電圧を生成し、駆動用アンプ107に出力する。なお、これらの構成は当業者にとって公知であり(例えば特許文献1参照)、詳細な説明は省略する。
駆動用アンプ107は、3相の指令電圧をインバータ等でモータ400の各相に対して電流を流してモータ400を制御する。また、駆動用アンプ107は3相の電流を3相−2相変換器108に出力する。
3相−2相変換器108は、3相の電流から有効電流を求めて減算器104及び機械学習装置200に出力する。また、3相−2相変換器108は、3相の電流から無効電流を求めて減算器105及び機械学習装置200に出力する。
モータ400の回転角度位置は、モータ400に関連付けられた、位置検出部となるロータリーエンコーダ401によって検出され、検出された速度(検出速度)は速度フィードバックとして利用される。
<機械学習装置200>
次に、機械学習装置200の構成について以下に説明する。
機械学習装置200は、プログラムに基づいてモータ400を駆動させたときの、有効電流の応答追従性を向上させつつ、できるだけ少ない無効電流で、電圧指令の飽和を回避するための、無効電流指令を学習する。プログラムは実際に使用されるプログラムが用いられる。プログラムは、例えば、サーボモータ制御装置100が工作機械に用いられる場合には、被加工物(ワーク)の加工に用いられる実際の加工プログラムである。プログラムによってサーボモータ制御装置100を駆動させる通常の動作において、電圧飽和が発生する。サーボモータ制御装置100における電圧飽和は、電圧指令がDCリンク電圧を超える、又は有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じることで検出される。以下の説明では、有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じているかに基づいて、電圧飽和を検出する場合について説明する。
なお、特許文献1に記載されるように、サーボモータ制御装置において、モータの高速回転領域では電圧飽和が生じる。サーボモータ制御装置100が、電圧飽和が生ずるような高速回転領域で動作しているかどうかは、機械学習装置200は、速度指令又はモータ400からフィードバックされた検出速度に基づいて検出することができる。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値関数Q(s,a)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値関数Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値関数Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Q(s,a)の更新式は、例えば、次の数式1(以下に数1として示す)により表すことができる。
上記の数式1において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式1は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値関数Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値関数Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についての価値関数Q(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアの価値関数Q(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値関数Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、プログラムを実行することで取得される、サーボモータ制御装置100における速度指令、有効電流指令、q相の有効電流、及びd相の無効電流を含む、指令及びフィードバック等のサーボ状態を状態sとして、当該状態sに係る無効電流指令の調整を行動aとして選択する価値関数Qを学習する。
機械学習装置200は、無効電流指令に基づいて、プログラムを実行することで得られるサーボモータ制御装置100の速度指令、有効電流指令、有効電流、及び無効電流を含む、指令及びフィードバック等のサーボ状態を含む状態情報sを観測して、行動a(無効電流指令)を決定する。機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、無効電流指令に基づいて、プログラムを実行することで取得されるサーボモータ制御装置100の速度指令、有効電流指令、有効電流、及び無効電流を含む指令、フィードバック等のサーボ状態を含む状態sに対して、最適な行動a(すなわち、サーボモータ制御装置100への最適な無効電流指令)を選択することが可能となる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係る無効電流に対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、プログラムを実行することで取得される、有効電流指令とフォードバックされた有効電流との偏差が最小になるような行動a(すなわち、サーボモータ制御装置100の無効電流指令)を選択することが可能となる。
図3は本発明の一実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図3に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、サーボモータ制御装置100に対する無効電流指令に基づいて、プログラムを実行することで取得されるサーボモータ制御装置100の速度指令、有効電流指令、有効電流、及び無効電流を含む指令、フィードバック等のサーボ状態を含む状態sを、サーボモータ制御装置100から取得する。この状態情報sは、Q学習における、環境状態sに相当する。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での無効電流指令は予めユーザが生成するようにする。本実施形態では、例えばユーザが作成した無効電流指令の初期設定値を、強化学習により最適なものに調整する。
学習部202は、或る環境状態sの下で、ある行動aを選択する場合の価値関数Q(s,a)を学習する部分である。具体的には、学習部202は、報酬出力部2021、価値関数更新部2022及び行動情報生成部2023を備える。
報酬出力部2021は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。本実施形態では、報酬は、有効電流指令に対する有効電流の偏差に基づいて報酬を決定する。
行動aにより状態sから状態s´に遷移した場合に、報酬出力部2021は、状態s及び状態s´における無効電流指令に基づいて動作したサーボモータ制御装置100の有効電流指令に対する有効電流の偏差を求める。なお、有効電流指令に対する有効電流の偏差は、サーボモータ制御装置100の減算器104の出力から状態情報取得部201が取得してもよい。
そして、報酬出力部2021は、以下の処理(a)、(b)、及び(c)のように、有効電流指令に対する有効電流の偏差に基づいて報酬を算出する。
(a) 状態s´における有効電流指令に対して有効電流が一致する(偏差がない)か、又は所定の範囲である場合には、報酬を第1の正の値とする。有効電流指令に対して有効電流が一致する(偏差がない)場合には電圧飽和は生じない。有効電流指令に対する有効電流と完全に一致しない場合にも所定の範囲を設けて、その範囲であれば電圧飽和が生じていないとする。一方、以下の処理(b)及び(c)にように、有効電流指令に対する有効電流の偏差が所定の範囲を超えた場合は電圧飽和が生じているとする。
(b) 状態s´における有効電流指令に対する有効電流の偏差L(s´)が所定の範囲を超え、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)と等しいか、又は偏差L(s)よりも小さくなったと判断する場合は、報酬を0又は第1の負の値とする。
(c) 状態s´における有効電流指令に対する有効電流の偏差L(s´)が所定の範囲を超え、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも大きくなったと判断する場合は、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値を大きくする。
また、行動aを実行後の状態s´の偏差L(s´)が、前の状態sにおける偏差L(s)より大きくなった場合の第2の負の値としては、比率に応じて第2の負の値の絶対値を大きくするようにしてもよい。つまり有効電流指令に対する有効電流の偏差が大きくなった度合いに応じて負の値の絶対値が大きくなるようにしてもよい。逆に、行動aを実行後の状態s´の偏差L(s´)が、前の状態sにおける偏差L(s)より小さくなった場合の第1の負の値としては、比率に応じて負の値の絶対値が小さくするようにしてもよい。つまり、有効電流指令に対する有効電流の偏差が小さくなった度合いに応じて負の値の絶対値が小さくなるようにしてもよい。
なお、上記の報酬は一例であって、これらに限定されるものではない。例えば、処理(b)において、報酬は0又は第1の負の値とせずに、第1の正の値よりも小さい正の値としてもよい。処理(b)における報酬が正の値とされたときには、処理(c)における報酬は0又は第1の負の値としてもよい。
上述したように、報酬を与えることで、有効電流指令に対する有効電流の偏差が小さくなるように無効電流指令が学習されていく。無効電流指令により無効電流が増えると有効電流指令に対する有効電流の偏差が小さくなって電圧飽和が生じにくくなる。しかし、無効電流が増えるとそれに伴い無効電流による発熱が生じる。電圧飽和しないときに無効電流による発熱を抑えるために、報酬出力部2021は、無効電流の値に基づいて報酬を算出して、算出した報酬を、前述した有効電流指令に対する有効電流の偏差に基づく報酬に加算することができる。無効電流の値に基づく報酬を加算することで、無効電流を少なくするように学習し、無効電流による発熱を抑制することができる。
報酬出力部2021は、以下の処理(d)、(e)、及び(f)のように、無効電流の値に基づいて報酬を決定して、その報酬を第1の正の値に加算する。
(d) 状態s´における無効電流が、状態sにおける無効電流よりも小さい場合は、報酬を第2の正の値として、第1の正の値に加算する。
(e) 状態s´における無効電流が、状態sにおける無効電流よりも大きい場合か同じ場合は、報酬を0又は第3の負の値として、第1の正の値に加算する。
なお、第1の正の値は第2の正の値よりも大きく、第1及び第2の負の値の絶対値は第3の負の値の絶対値よりも大きくすることが好ましい。電圧飽和が起きるとサーボモータ制御装置の制御がしにくくなり、無効電流による発熱よりも影響が大きいからである。
上記の報酬は一例であって、これらに限定されるものではない。例えば、処理(e)において、報酬は0又は第3の負の値とせずに、第2の正の値よりも小さい正の値としてもよい。
価値関数更新部2022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、基本的にオンライン学習で行われる。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。オンライン学習を用いることで、プログラムの実行によって、機械学習装置200はリアルタイムで学習を行い、より好ましい無効電流指令を出力することができる。
ただし、実際の工作機械の加工処理の前に予備的に加工処理を行う等の場合には、価値関数Qの更新は、バッチ学習で行ったり、ミニバッチ学習で行ってもよい。バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部2023は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部2023は、Q学習の過程において、サーボモータ制御装置100の無効電流指令を修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態sに含まれる無効電流指令に対して行動aに含まれる、無効電流指令の値をインクレメンタルに増加又は減少させる。
そして、行動情報生成部2023は、無効電流指令の値増加又は減少を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、無効電流指令に対して、前回のアクションと同様にインクレメンタルに増加させる等、電圧飽和がより起こりにくくなるような行動a´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動a´としては、例えば、無効電流指令に対して、前回のアクションとは逆にインクレメンタルに増加させる等、電圧飽和の大きさが前回の値よりも小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動aの価値の中で、最も価値関数Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値関数Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報aをサーボモータ制御装置100に対して送信する部分である。サーボモータ制御装置100は上述したように、この行動情報に基づいて、現在の状態s、すなわち現在設定されている無効電流指令を微修正することで、次の状態s´(すなわち修正された、無効電流指令)に遷移する。
価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値関数Q(s,a)が最大となる動作をサーボモータ制御装置100に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボモータ制御装置100に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、無効電流指令を修正する情報が含まれる。
サーボモータ制御装置100では、この行動情報に基づいて無効電流指令が修正され、電圧飽和が起こりにくくなるように動作することができる。
以上のように、本実施形態に係る機械学習装置200を利用することで、サーボモータ制御装置100への無効電流指令の調整を簡易化することができる。
以上、サーボモータ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボモータ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図4及び図5のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置200の動作について説明をする。図4は本実施形態におけるQ学習時の機械学習装置200の動作を示すフローチャート、図5は図4のステップS13の報酬の算出方法を示すフローチャートである。
ステップS11において、状態情報取得部201がサーボモータ制御装置100から最初の状態情報sを取得する。取得した状態情報は、価値関数更新部2022及び行動情報生成部2023に対して出力される。上述したように、この状態情報sは、Q学習における状態に相当する情報であり、ステップS11時点での、速度指令、有効電流指令、有効電流、及び無効電流が含まれる。ステップS11時点での無効電流指令はユーザにより初期設定され、機械学習装置200の行動情報生成部2023が記憶している。
行動情報生成部2023は行動情報aとなる無効電流指令を生成し、生成した行動情報aを、行動情報出力部203を介してサーボモータ制御装置100に対して出力する。行動情報を受信したサーボモータ制御装置100は、プログラムにより生成された位置指令に基づき、行動情報aとなる無効電流指令を用いた状態s´により、モータ400を制御する。
ステップS12において、状態情報取得部201は、サーボモータ制御装置100から新たな状態s´に相当する状態情報を取得する。ここで、新たな状態情報には、速度指令、有効電流指令、有効電流、及び無効電流を含んでいる。状態情報取得部201は学習部202に対して取得した状態情報を出力する。
ステップS13において、学習部202の報酬出力部2021は、有効電流指令、有効電流、及び無効電流に基づいて報酬を算出する。ステップS13は図5に示すように、ステップS131からステップS137を含んでいる。
報酬出力部2021は、ステップS131において、状態s´における、有効電流指令に対する有効電流の偏差L(s´)を求め、偏差がないか(L(s´)=0)、偏差L(s´)がある場合には偏差L(s´)が所定の範囲であるかを判断する。偏差がないか、又は偏差L(s´)が所定の範囲である場合(ケース1)には、報酬出力部2021は、ステップS132において、報酬を第1の正の値とする。偏差L(s´)が所定の範囲外であるが、その偏差L(s´)が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも小さくなった場合(ケース2)には、報酬出力部2021は、ステップS133において、報酬を0又は第1の負の値とする。偏差L(s´)が所定の範囲外であるが、その偏差が状態sにおける有効電流指令に対する有効電流の偏差L(s)よりも大きくなった場合(ケース3)には、報酬出力部2021は、ステップS134において、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値が大きい。
報酬出力部2021は、ステップS132の後に、ステップS135において、状態s´における無効電流が、状態sにおける無効電流よりも小さいかどうかを判断する。状態s´における無効電流が、状態sにおける無効電流よりも小さい場合は、報酬出力部2021は、ステップS136において、報酬を第2の正の値として、第1の正の値に加算する。状態s´における無効電流が、状態sにおける無効電流よりも大きい(小さくない)か同じの場合は、報酬出力部2021は、ステップS137において、報酬を0又は第3の負の値として、第1の正の値に加算する。
既に説明したように、電圧飽和しないときに無効電流による発熱を抑えるために、報酬出力部2021は、無効電流の値に基づいて報酬を算出して、算出した報酬を、前述した有効電流指令に対する有効電流の偏差に基づく報酬に加算することができる。
すなわち、報酬出力部2021は、ステップS136及びステップS137において、無効電流の値に基づく報酬と、ステップS132、S133、又はS134における、有効電流の偏差L(s´)及びL(s)に基づく報酬とを加算する。2つの報酬を算出する場合、単純な加算に限定されず、例えば、重み付け加算してもよい。また、無効電流の値に基づく報酬と、有効電流の偏差L(s´)及びL(s)に基づく報酬との平均値を算出してもよい。
ステップS135〜ステップS137は、ステップS132の後に実行するとして説明したが、ステップS132と同時又はステップS132の前に実行してもよい。
ステップS133、ステップS134、ステップS136及びステップS137の何れかが終了すると、ステップS14において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204に記憶している価値関数Qを更新する。
次に、ステップS15において、機械学習装置200、例えば行動情報生成部2023はプログラムを実行しているかどうかを判断する。プログラムの実行は例えば、行動情報生成部2023が速度指令に基づいて判断することができる。プログラムの実行中であれば、行動情報生成部2023は図4のステップS16において、新たな行動情報となる無効電流指令を生成し、生成した行動情報を、行動情報出力部203を介してサーボモータ制御装置100に対して出力し、ステップS12に戻る。ステップS12からステップS16までの処理はプログラムが終了するまで繰り返し行われる。ステップS12からステップS16までの処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、ここではプログラムが終了したときに処理を終了させているが、ステップS12からステップS16の処理を所定回数又は所定時間繰り返したことを条件として処理を終了するようにしてもよい。
以上、図4及び図5を参照して説明した動作により、本実施形態では、機械学習装置200を利用することで、無効電流指令の調整のための、適切な価値関数を得ることができ、無効電流指令の最適化を簡易化することができる、という効果を奏する。
次に、図6のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部205は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボモータ制御装置100に対して出力する。
また、図6を参照して説明した動作により、本実施形態では、機械学習装置200により学習することにより求められる価値関数Qに基づいて、最適化行動情報を生成し、サーボモータ制御装置100が、この最適化行動情報に基づいて、現在設定されている無効電流指令の調整を簡易化するとともに、できるだけ少ない無効電流で電圧指令の飽和を回避することができる。また、有効電流指令に対する有効電流の追従性を向上させることができる。
上記のサーボモータ制御装置のサーボモータ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボモータ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
例えば、以上説明した実施形態では、速度指令に基づいて電圧飽和が起きる条件で動作しているかどうかは検出したが、速度フィードバックされた検出速度に基づいて電圧飽和が起きる条件で動作しているかどうかは検出してもよい。すなわち、図7のサーボモータ制御装置に示すように、図2に示した速度指令の代わりに、モータ400から速度フィードバックされた検出速度を機械学習装置200に入力してもよい。図7に示すサーボモータ制御装置100は速度指令の代わりに、検出速度が機械学習装置200に入力されている点を除いて図2に示したサーボモータ制御装置100と構成及び動作が同じなので説明を省略する。
また、以上説明したサーボモータ制御装置100における電圧飽和は、有効電流指令とフォードバックされた有効電流とが一致せず偏差が生じることで検出されたが、電圧指令がDCリンク電圧を超えることで検出してもよい。図8は電圧指令を機械学習装置200に入力する例を示すサーボモータ制御装置のブロック図である。
図8に示すサーボモータ制御装置100は、電圧指令を機械学習装置200に入力する点を除いて図2に示したサーボモータ制御装置100と構成及び動作が同じなので説明を省略する。DCリンク電圧は予め機械学習装置200の例えば報酬出力部に記憶されている。
報酬出力部2021は、以下のように、電圧指令がDCリンク電圧を超えているかどうかに基づいて報酬を算出する。図9は図4のステップS13の報酬の他の算出方法を示すフローチャートである。図9のフローチャートのステップS131A〜S134Aが図5に示したフローチャートのステップS131〜S134と異なる。図9において、同じステップについては同一符号を付し、重複する説明は省略する。
ステップS131Aにおいて、報酬出力部2021は、電圧指令がDCリンク電圧を超えているかどうかを判断する。
状態s´における電圧指令がDCリンク電圧以下である場合(ケース1)には、報酬出力部2021はステップS132Aにおいて、報酬を第1の正の値とする。
状態s´における電圧指令がDCリンク電圧を超え、その超えた値が状態sにおける電圧指令がDCリンク電圧を超えた値よりも小さくなったと判断する場合(ケース2)は、報酬出力部2021はステップS133Aにおいて、報酬を0又は第1の負の値とする。
状態s´における電圧指令がDCリンク電圧を超え、その超えた値が状態sにおける電圧指令がDCリンク電圧を超えた値よりも大きくなったと判断する場合(ケース3)は、報酬出力部2021はステップS134Aにおいて、報酬を第2の負の値とする。第2の負の値は第1の負の値よりも絶対値を大きくする。
<サーボモータ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200を、サーボモータ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボモータ制御装置100により実現するようにしてもよい。
図10は本発明の一実施形態のサーボモータ制御装置を示すブロック図である。図10に示すように、サーボモータ制御装置100Aは、機械学習装置200Aを含んでいる点を除いて図2に示すサーボモータ制御装置100と同一の構成である。このようにサーボモータ制御装置に含まれる機械学習装置も、サーボモータ制御装置に対して、機械学習を行う機械学習装置の一つの形態である。本変形例では速度指令部101、速度制御部1033、及び電流制御部106が機械学習装置200Aに近接して設けられるために、速度指令、有効電流指令、有効電流及び無効電流の各信号の信号遅延を抑制することができる。
<システム構成の自由度>
上述した実施形態では、機械学習装置200とサーボモータ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボモータ制御装置100とネットワーク300を介して通信可能に接続され、各サーボモータ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボモータ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10 サーボモータ制御システム
100 サーボモータ制御装置
101 速度指令部
102 減算器
103 速度制御部
104 減算器
105 減算器
106 電流制御部
107 駆動用アンプ
108 3相−2相変換器
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 ネットワーク
400 モータ

Claims (8)

  1. 3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置であって、
    所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段と、
    無効電流指令を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段と、
    前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記報酬出力手段は、電圧飽和が生じているかどうかに基づいて前記報酬の値を決定する、請求項1に記載の機械学習装置。
  3. 前記電圧飽和は、前記有効電流指令に対する前記有効電流の偏差に基づいて検出する請求項2に記載の機械学習装置。
  4. 前記報酬出力手段は、前記報酬を決定するとともに、前記電圧飽和が生じていない場合に前記無効電流の値に基づいて報酬を決定する請求項2又は請求項3に記載の機械学習装置。
  5. 前記価値関数更新手段により更新された価値関数に基づいて、前記無効電流指令を生成して出力する最適化行動情報出力手段をさらに備えた請求項1から請求項4のいずれか1項に記載の機械学習装置。
  6. 請求項1から請求項5のいずれか1項に記載の機械学習装置と、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置と、を備えたサーボモータ制御システム。
  7. 請求項1から請求項5のいずれか1項に記載の機械学習装置を含み、3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行うサーボモータ制御装置。
  8. 3相電流をd相及びq相の2相に変換して、サーボモータの電流制御を行う、サーボモータ制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
    所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも、速度又は速度指令と、前記d相の無効電流と、有効電流指令及び前記q相の有効電流と、を含む状態情報を、前記サーボモータ制御装置から取得し、
    無効電流指令を含む行動情報を前記サーボモータ制御装置に出力し、
    前記状態情報に含まれる前記有効電流指令と前記有効電流に基づいて報酬を算出すること、で算出される強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。
JP2018020919A 2018-02-08 2018-02-08 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 Active JP6740263B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018020919A JP6740263B2 (ja) 2018-02-08 2018-02-08 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
CN201910105513.1A CN110138296B (zh) 2018-02-08 2019-02-01 机器学习装置和方法、伺服电动机控制装置和系统
DE102019201473.9A DE102019201473A1 (de) 2018-02-08 2019-02-06 Maschinenlernvorrichtung, Servomotor-Steuerung, Servomotorsteuerungssystem und Maschinenlernverfahren
US16/268,970 US10684594B2 (en) 2018-02-08 2019-02-06 Machine learning device, servo motor controller, servo motor control system, and machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018020919A JP6740263B2 (ja) 2018-02-08 2018-02-08 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019140765A JP2019140765A (ja) 2019-08-22
JP6740263B2 true JP6740263B2 (ja) 2020-08-12

Family

ID=67308560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018020919A Active JP6740263B2 (ja) 2018-02-08 2018-02-08 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Country Status (4)

Country Link
US (1) US10684594B2 (ja)
JP (1) JP6740263B2 (ja)
CN (1) CN110138296B (ja)
DE (1) DE102019201473A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12399483B2 (en) * 2019-10-21 2025-08-26 Semiconductor Components Industries, Llc Systems and methods for system optimization and/or failure detection
CN112187074B (zh) * 2020-09-15 2022-04-19 电子科技大学 一种基于深度强化学习的逆变器控制器
CN114268259B (zh) * 2021-12-28 2023-06-30 郑州大学 用于永磁同步电机的多目标控制方法、控制器及控制系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0984400A (ja) 1995-09-14 1997-03-28 Fanuc Ltd サーボモータの電流制御方法
JP2000324879A (ja) * 1999-05-14 2000-11-24 Matsushita Electric Ind Co Ltd モータ制御装置
JP6140225B2 (ja) * 2015-07-31 2017-05-31 ファナック株式会社 磁束制御器を有するモータ制御装置、ならびに機械学習装置およびその方法
JP6088604B1 (ja) * 2015-08-27 2017-03-01 ファナック株式会社 磁束制御部を有する電動機制御装置、ならびに機械学習装置およびその方法
JP5969676B1 (ja) * 2015-09-30 2016-08-17 ファナック株式会社 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械
JP6658023B2 (ja) * 2016-02-04 2020-03-04 株式会社明電舎 埋込磁石同期モータの電流指令テーブル自動生成システムおよび電流指令テーブル自動生成方法
JP6506219B2 (ja) * 2016-07-21 2019-04-24 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法

Also Published As

Publication number Publication date
JP2019140765A (ja) 2019-08-22
US10684594B2 (en) 2020-06-16
DE102019201473A1 (de) 2019-08-08
CN110138296B (zh) 2021-08-06
CN110138296A (zh) 2019-08-16
US20190243318A1 (en) 2019-08-08

Similar Documents

Publication Publication Date Title
CN108628355B (zh) 伺服控制装置及系统、机器学习装置及方法
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法
JP6697491B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6490131B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
CN108693834B (zh) 调整装置以及调整方法
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6901450B2 (ja) 機械学習装置、制御装置及び機械学習方法
JP6740277B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
US11914333B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
CN111857052A (zh) 机器学习装置、数值控制系统以及机器学习方法
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP7469476B2 (ja) 制御支援装置、制御システム及び制御支援方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190612

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190717

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R150 Certificate of patent or registration of utility model

Ref document number: 6740263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150