JP7735814B2

JP7735814B2 - 機械学習モデルの学習に用いる教師データを作成する方法、システム、及び、コンピュータープログラム

Info

Publication number: JP7735814B2
Application number: JP2021187668A
Authority: JP
Inventors: 博光水上
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2025-09-09
Anticipated expiration: 2041-11-18
Also published as: US12567241B2; CN116137062A; US20230154162A1; JP2023074647A; CN116137062B

Description

本開示は、機械学習モデルの学習に用いる教師データを作成する方法、システム、及び、コンピュータープログラムに関する。

特許文献１には、物体を撮像した画像に対して、３次元モデルデータから求めた物体の特徴をマッチングさせて、物体の位置及び姿勢を認識する技術が開示されている。また、特許文献２には、機械学習モデルを用いて物体の位置及び姿勢を認識する技術が開示されている。一般に、機械学習モデルを物体の位置及び姿勢の認識に適用する場合には、位置及び姿勢をラベルとする教師データが必要であり、教師データの作成に準備が膨大な手間がかかる。そこで、特許文献２では、教師データをシミュレーションにより生成する手法が使われている。

特開２０１９－１８５２３９号公報特開２０２０－８７３１０号公報

シミュレーションにより教師データを作成する際には、或るシーンに対して物体の画像が生成され、シーン中の物体に対して位置及び姿勢のラベルが付与される。しかし、シミュレーションと実環境では得られる画像に差があり、シミュレーションによって作成された教師データで学習した機械学習モデルでは、実環境での位置及び姿勢の認識精度が低下する傾向があるという問題があった。

本開示の第１の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する方法が提供される。この方法は、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する工程と、（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する工程と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する工程と、（ｄ）前記第１位置姿勢に対して正誤判定を行う工程と、（ｅ）前記第１位置姿勢が正解と判定された場合に前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する工程と、（ｆ）前記物体の現実の位置姿勢を変更して前記工程（ｂ）～（ｅ）を繰り返す工程と、を含む。

本開示の第２の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成するシステムが提供される。このシステムは、前記物体を撮影するカメラと、前記教師データの作成を行う教師データ作成部と、を備える。前記教師データ作成部は、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、（ｂ）前記カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、を実行する。

本開示の第３の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、を前記プロセッサーに実行させる。

実施形態におけるロボットシステムの構成を示す説明図。実施形態における情報処理装置の機能ブロック図。機械学習モデルによる物体の位置姿勢の認識機能を示す説明図。第１実施形態における処理の全体手順を示すフローチャート。シミュレーションによる事前学習用の教師データの作成処理の説明図。第１実施形態のステップＳ１３０の詳細手順を示すフローチャート。第１実施形態における撮影方向の変更の様子を示す説明図。第２実施形態における処理の全体手順を示すフローチャート。第２実施形態のステップＳ１２５の詳細手順を示すフローチャート。統計データを用いて第２撮影方向を決定する方法を示す説明図。第２実施形態のステップＳ１３５の詳細手順を示すフローチャート。

Ａ．第１実施形態：
図１は、一実施形態におけるロボットシステムの一例を示す説明図である。このロボットシステムは、ロボット１００と、ロボット１００を制御する制御装置２００と、情報処理装置３００と、カメラ４００と、架台５００とを備える。情報処理装置３００は、例えばパーソナルコンピューターである。図１には、３次元空間の直交座標系を規定する３つの軸Ｘ，Ｙ，Ｚが描かれている。Ｘ軸とＹ軸は水平方向の軸であり、Ｚ軸は鉛直方向の軸である。これらのＸ，Ｙ，Ｚ軸は、ロボット１００の予め定められた位置を原点とするロボット座標系Σｒの座標軸である。

ロボット１００は、基台１１０と、ロボットアーム１２０と、を備えている。ロボットアーム１２０の先端部であるアームエンド１２２には、エンドエフェクターとしてのハンド１５０が装着されている。ハンド１５０は、物体ＯＢを把持することが可能なグリッパーや吸着パッドとして実現可能である。ハンド１５０の先端部には、ロボット１００の制御点としてのＴＣＰ(Tool Center Point)が設定されている。なお、制御点ＴＣＰは、任意の位置に設定可能である。

ロボットアーム１２０は、６つの関節Ｊ１～Ｊ６で順次接続されている。これらの関節Ｊ１～Ｊ６のうち、３つの関節Ｊ２，Ｊ３，Ｊ５は曲げ関節であり、他の３つの関節Ｊ１，Ｊ４，Ｊ６はねじり関節である。本実施形態では６軸ロボットを例示しているが、１個以上の関節を有する任意のロボットアーム機構を有するロボットを用いることが可能である。また、本実施形態のロボット１００は、垂直多関節ロボットであるが、水平多関節ロボットを使用してもよい。

架台５００には、第１トレイ５１０と第２トレイ５２０が設置されている。第１トレイ５１０には、複数の物体ＯＢがバラ積みされる。第２トレイ５２０は、第１トレイ５１０から取り出された物体ＯＢを載置する場所として使用される。ロボット１００は、第１トレイ５１０から物体ＯＢを取り出して、第２トレイ５２０に載置する作業を実行する。

ロボットアーム１２０の先端部分には、第１トレイ５１０内の物体ＯＢの画像を撮影するカメラ４００が設置されている。カメラ４００で撮影された画像は、物体ＯＢの３次元的な位置及び姿勢を求めるために使用される。３次元的な位置及び姿勢を、以下では「位置姿勢」と呼ぶ。カメラ４００としては、例えば、ＲＧＢＤカメラや、ステレオカメラを用いることができる。ＲＧＢＤカメラは、ＲＧＢ画像を撮影するＲＧＢカメラと、深度画像（Depth image）を撮影するＤカメラと、を有するカメラである。ＲＧＢカメラの代わりにグレー画像を撮影するモノクロカメラを用いてもよい。また、カメラ４００として、単眼カメラを用いることも可能である。なお、カメラ４００をロボットアーム１２０に設置する必要はなく、ロボット１００と別個に設置してもよい。但し、ロボットアーム１２０にカメラ４００を設置すれば、カメラ４００による物体ＯＢの撮影方向を変更しやすいという利点がある。

図２は、情報処理装置３００の機能を示すブロック図である。情報処理装置３００は、プロセッサー３１０と、メモリー３２０と、インターフェイス回路３３０と、インターフェイス回路３３０に接続された入力デバイス３４０及び表示デバイス３５０と、を有している。インターフェイス回路３３０には、更に、制御装置２００とカメラ４００が接続されている。ロボット１００の電流センサー１８０と関節エンコーダー１９０の計測結果は、制御装置２００を介して情報処理装置３００に供給される。電流センサー１８０は、ロボット１００の各関節に設けられたモーターの電流を測定するセンサーである。関節エンコーダー１９０は、各関節の動作位置を検出するセンサーである。

本実施形態において、カメラ４００は、ＲＧＢ画像やグレー画像などの２次元画像を撮影する第１カメラ４１０と、深度画像を撮影する第２カメラ４２０と、第２カメラ４２０用の照明光を照射する照明部４３０とを有する。照明部４３０は、深度画像を撮影するための赤外線パターンを照射するプロジェクターである。

プロセッサー３１０は、物体ＯＢの位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する教師データ作成部３１１としての機能を有する。教師データ作成部３１１は、シミュレーション実行部３１２と学習実行部３１４と物体認識部３１６と正誤判定部３１８の機能を含む。シミュレーション実行部３１２は、第１トレイ５１０に物体ＯＢが存在するシーンをシミュレーションすることによって、機械学習モデルの事前学習用の教師データを作成する処理を実行する。学習実行部３１４は、機械学習モデルの事前学習及び本学習を実行する。物体認識部３１６は、学習済みの機械学習モデルを用いて、カメラ４００で撮影された画像から物体ＯＢの位置姿勢を認識する処理を実行する。正誤判定部３１８は、機械学習モデルを用いて認識された物体ＯＢの位置姿勢が正解であるか誤りであるかの判定を実行する。教師データ作成部３１１の機能は、メモリー３２０に格納されたコンピュータープログラムをプロセッサー３１０が実行することによって実現される。但し、教師データ作成部３１１の機能の一部又は全部をハードウェア回路で実現してもよい。

メモリー３２０には、物体ＯＢの位置姿勢を認識する機械学習モデルＭＭと、シミュレーションデータＳＤと、事前学習用の教師データＰＴＤと、本学習用の教師データＲＴＤと、ロボット制御プログラムＲＰが格納される。シミュレーションデータＳＤは、第１トレイ５１０に物体ＯＢがバラ積みされたシーンをシミュレーションするために使用されるデータであり、物体ＯＢの３次元モデルデータであるＣＡＤデータと、ロボット１００の位置及び形状を示すロボットデータと、カメラ４００のカメラパラメーターと、を含んでいる。ロボット制御プログラムＲＰは、ロボット１００を動作させる複数の命令で構成される。

図３は、機械学習モデルＭＭによる物体ＯＢの位置姿勢の認識機能を示す説明図である。カメラ４００は予めキャリブレーションされており、カメラ座標系Σｃとロボット座標系Σｒとの相対関係は既知である。カメラ４００は、物体ＯＢを撮影することによって２次元画像Ｍ１と深度画像Ｍ２とを作成する。以下では、これらの画像Ｍ１，Ｍ２をまとめて「画像ＩＭ」とも呼ぶ。機械学習モデルＭＭは、画像ＩＭの入力に応じて、物体ＯＢの位置姿勢ＰＡを出力する回帰モデルである。位置姿勢ＰＡは、例えば、ロボット座標系Σｒにおける位置(x,y,z)と姿勢(w,p,r)で表現されている。姿勢は、３軸廻りの回転角度(w,p,r)で表される。

バラ積み状態にある複数の物体のうち、どの物体を対象として位置姿勢ＰＡを認識するかについては、以下の３通りが考えられる。
（Ａ１）一番上にある物体のみを対象とする。
（Ａ２）一番上にある物体のみでなく、他の物体に一部重なった物体も対象とする。具体的には、例えば、隠れている面積割合が２０％以下の物体を対象とする。
（Ａ３）全ての物体を対象とする。
実際のバラ積みピッキング作業を考えると、上記（Ａ２）の物体を対象として位置姿勢を認識できるように教師データを作成することが好ましい。この場合には、シミュレーションで生成したバラ積み状態に関して、上記（Ａ２）の条件を満たす複数の物体についての位置姿勢をラベルとして付した画像が教師データセットとして生成される。但し、以下では、説明の便宜上、上記（Ａ１）に従い、１つの物体ＯＢのみについて機械学習モデルＭＭがその位置姿勢ＰＡを認識するものとする。

図４は、第１実施形態における処理の全体手順を示すフローチャートである。ステップＳ１１０では、シミュレーション実行部３１２が、シミュレーションにより事前学習用の教師データを作成する。

図５は、シミュレーションによる事前学習用の教師データの作成処理の説明図である。シミュレーション実行部３１２は、認識対象となる物体ＯＢのＣＡＤデータと、各種パラメーターとを含むシミュレーションデータＳＤを、シーンシミュレーターＳＳに入力する。シーンシミュレーターＳＳは、物理シミュレーションによって、例えば、ＣＡＤデータで表現された物体ＯＢをある高さからランダムに複数落下させることによって、バラ積み状態のシーンを作成する。バラ積みされた物体ＯＢの位置姿勢は、シミュレーションなので既知となる。シミュレーション実行部３１２は、各種パラメーターで設定されたカメラ情報を元に、このシーンをレンダリングして、２次元画像Ｍ１と深度画像Ｍ２とを含む画像ＩＭを生成する。シミュレーション実行部３１２は、画像ＩＭに物体ＯＢの位置姿勢をラベルとして付与することによって、事前学習用の教師データＰＴＤを作成する。バラ積みされたシーンを複数生成することによって、多数の教師データＰＴＤを生成することができる。本実施形態では物体ＯＢのバラ積み状態のシミュレーションを行ったが、バラ積み状態以外の状態、例えば、１個の物体ＯＢが任意の位置姿勢でトレイ５１０に載置されている状態、をシミュレーションしてもよい。

ステップＳ１２０では、学習実行部３１４が、事前学習用の教師データＰＴＤを用いて、機械学習モデルＭＭの事前学習を実行する。

ステップＳ１３０では、教師データ作成部３１１が、物体ＯＢの鏡面反射光を考慮して本学習用の教師データＲＴＤを作成する。物体ＯＢの鏡面反射光を考慮するのは、以下のような理由による。すなわち、ステップＳ１１０で行ったシミュレーションでは、実環境において物体ＯＢの鏡面反射光がカメラ４００に入射する状態で撮影される画像ＩＭを正確に再現することが難しい。このため、事前学習用の教師データで学習した機械学習モデルＭＭでは、実環境において鏡面反射光がカメラ４００に入射する状態については、物体ＯＢの位置姿勢の認識精度が低下する傾向がある。特に、物体ＯＢが光沢物である場合には、光の反射具合を正確にシミュレーションに反映することが難しいため、認識精度が大きく低下する傾向がある。そこで、ステップ１３０では、物体ＯＢの鏡面反射光をカメラ４００が受光する状態について、本学習用の教師データを作成する。

図６は、ステップＳ１３０の詳細手順を示すフローチャートである。ステップＳ３１０では、教師データ作成部３１１が、カメラ４００を用いて、バラ積みされた物体ＯＢの第１画像を撮影する。「第１画像」は、図３に示した２次元画像Ｍ１と深度画像Ｍ２を含む。このときのカメラ４００による撮影方向を「第１撮影方向」と呼ぶ。

ステップＳ３２０では、物体認識部３１６が、事前学習済みの機械学習モデルＭＭを用いて、第１画像から物体ＯＢの第１位置姿勢を認識する。ステップＳ３３０では、正誤判定部３１８が、認識結果の正誤を判定する。この正誤判定は、例えば信頼度スコアを用いて実行することができる。信頼度スコアは、認識された物体ＯＢの第１位置姿勢を用い、シミュレーションによって第１位置姿勢における物体ＯＢのシミュレーション画像を作成し、このシミュレーション画像とカメラ４００で撮影された第１画像とが一致する程度を表す指標として算出できる。例えば、信頼度スコアＲＳは、次式で算出される。
ＲＳ＝α×Ｓ１＋（１－α）×Ｓ２（１）
ここで、αは０≦α≦１の係数、Ｓ１はシミュレーション画像に含まれる２次元画像と第１画像に含まれる２次元画像の間の類似度、Ｓ２はシミュレーション画像に含まれる深度画像と第１画像に含まれる深度画像の間の類似度である。類似度Ｓ１，Ｓ２は、画像類似度やコサイン類似度として算出することが可能である。上記（１）式によれば、信頼度スコアＲＳを、類似度Ｓ１，Ｓ２の重み付き加算によって算出できる。

正誤判定部３１８は、信頼度スコアＲＳと、予め設定された信頼度閾値とを比較することによって、認識結果の正誤を判定する。すなわち、信頼度スコアＲＳが信頼度閾値以上の場合には認識結果が正解と判定し、信頼度閾値未満の場合には認識結果を誤りと判定する。別の方法として、例えばシミュレーション画像と第１画像における物体ＯＢの輪郭を重ねて表示デバイス３５０に表示して、ユーザーに正誤を判定させるようにしてもよい。認識結果が正解である場合には、後述するステップＳ３４０に進む。一方、認識結果が誤りである場合には、ステップＳ３９０に進み、物体ＯＢの現実の位置姿勢を変更してステップＳ３１０に戻る。物体ＯＢの位置姿勢の変更は、例えば、ユーザーが物体ＯＢのバラ積みをやり直すことによって行われる。

ステップＳ３４０では、教師データ作成部３１１が、照明光の鏡面反射方向を第２撮影方向と決定し、ステップＳ３５０では、カメラ４００を用いて第２撮影方向から物体ＯＢを撮影することによって第２画像を生成する。

図７は、第１実施形態における撮影方向の変更の様子を示す説明図である。図７の上方は、ステップＳ３１０において第１撮影方向で物体ＯＢの撮影が行われている状態を示している。この状態では、照明部４３０から射出される第２カメラ４２０用の照明光のうち、拡散反射光が第２カメラ４２０に入射する。第２カメラ４２０で撮影される深度画像は、この拡散反射光から得られる画像である。ステップＳ３４０では、図７の下方に示すように、照明部４３０からの照明光の鏡面反射光が第２カメラ４２０に入射するように、カメラ４００の位置姿勢が変更される。照明部４３０による照明光の射出方向は既知なので、物体ＯＢの位置姿勢が分かれば、物体ＯＢからの鏡面反射光の方向を算出することができる。また、カメラ４００の位置姿勢の変更は、ロボットアーム１２０を動かすことによって実行可能である。上述したように、シミュレーションでは、実環境において物体ＯＢの鏡面反射光がカメラ４００に入射する状態で撮影される画像を正確に再現することが難しく、特に、物体ＯＢが光沢物である場合にその傾向が顕著である。そこで、ステップＳ３４０では、実環境において、物体ＯＢの鏡面反射光がカメラ４００に入射するように第２撮影方向を決定する。この第２撮影方向から撮影した画像を用いて教師データを作成すれば、シミュレーションで作成することが難しい教師データを得ることが可能である。

図７の例では、物体ＯＢからの鏡面反射光が深度画像用の第２カメラ４２０に入射する状態を第２撮影方向として決定していたが、この代わりに、物体ＯＢからの鏡面反射光が２次元画像用の第１カメラ４１０に入射する状態を第２撮影方向として決定してもよい。後者の場合は、２次元画像のための照明光源の位置が既知であれば実行可能である。また、第１カメラ４１０と第２カメラ４２０の両方について、物体ＯＢからの鏡面反射光が入射する状態をそれぞれ第２撮影方向として設定して、撮影を行うようにしてもよい。

ステップＳ３６０では、教師データ作成部３１１が、第２画像における物体ＯＢの第２位置姿勢を演算する。第２位置姿勢は、次式に従って算出可能である。
Ｐｂ＝^ＢＨ_Ａ×Ｐａ（２）
ここで、Ｐｂは第２位置姿勢を示す４×４行列、Ｐａは第１位置姿勢を示す４×４行列、^ＢＨ_Ａは第１位置姿勢Ｐａから第２位置姿勢Ｐｂへの変換を表す同次変換行列である。この行列^ＢＨ_Ａは、カメラ４００の第１撮影方向Ｄａから第２撮影方向Ｄｂへの変換を表す行列と同じものである。換言すれば、第２位置姿勢Ｐｂは、第１撮影方向Ｄａから第２撮影方向Ｄｂへの変化に応じた変換を、第１位置姿勢Ｐａに対して行うことによって算出される。

ステップＳ３７０では、教師データ作成部３１１が、位置姿勢付きの画像を、本学習用の教師データとして作成する。すなわち、ステップＳ３５０で撮影した第２画像に、第２位置姿勢をラベルとして付与することによって本学習用の教師データを作成する。このとき、ステップＳ３１０で撮影した第１画像に第１位置姿勢をラベルとして付与することによって、本学習用の教師データを追加するようにしてもよい。

ステップＳ３８０では、教師データ作成部３１１が、本学習用の教師データが、予定していた数だけ得られたか否かを判定する。十分な数の教師データが得られていない場合には、ステップＳ３９０に進み、物体ＯＢの現実の位置姿勢を変更してステップＳ３１０に戻り、上述したステップＳ３１０～Ｓ３８０を再度実行する。一方、十分な数の教師データが得られた場合には、図６の処理を終了する。

図６に示したステップＳ１３０の処理が終了すると、図４のステップＳ１４０において、学習実行部３１４が、ステップＳ１３０で作成した本学習用の教師データを用いて、機械学習モデルＭＭの本学習を実行する。本学習の際には、ステップＳ１３０で作成された教師データのみでなく、ステップＳ１１０で作成されていた事前学習用の教師データを用いても良い。ステップＳ１４０では、本学習済みの機械学習モデルＭＭによる物体ＯＢの認識を利用して、ロボット１００の作業を実行する。この作業は、予め作成されたロボット制御プログラムＲＰに従って実行される。

以上のように、第１実施形態では、事前学習済みの機械学習モデルＭＭを用いて第１画像から物体ＯＢの第１位置姿勢を認識し、第１位置姿勢が正解と判定された場合には、カメラを用いて第１撮影方向と異なる第２撮影方向から第２画像を撮影し、物体ＯＢの第２位置姿勢を第２画像に付与することによって本学習用の教師データを作成する。この結果、機械学習を行うための教師データを実環境で容易に作成でき、また、シミュレーションと実環境との差を埋めることができるので、機械学習モデルＭＭの性能を向上させることができる。また、第１実施形態では、鏡面反射方向に第２撮影方向を設定するので、光沢物に対して位置姿勢の認識を正しく行うための教師データを作成できる。

Ｂ．第２実施形態：
図８は、第２実施形態における処理の全体手順を示すフローチャートである。図４に示した第１実施形態との違いは、ステップＳ１２５を追加した点と、ステップＳ１３０をステップＳ１３５に置き換えた点だけであり、他のステップは第１実施形態と同じである。また、第２実施形態の装置構成は、第１実施形態と同じである。

ステップＳ１２５では、教師データ作成部３１１が、事前学習済みの機械学習モデルＭＭを用いて統計データを作成する。この統計データは、第２撮影方向を決定するために利用されるデータである。

図９は、ステップＳ１２５の詳細手順を示すフローチャートである。ステップＳ２１０では、教師データ作成部３１１が、カメラ４００を用いて、バラ積みされた物体ＯＢの画像を撮影する。この画像は、図３に示した２次元画像Ｍ１と深度画像Ｍ２を含む。ステップＳ２２０では、物体認識部３１６が、事前学習済みの機械学習モデルＭＭを用いて、ステップＳ２１０で得られた画像から、物体ＯＢの位置姿勢を認識する。ステップＳ２３０では、正誤判定部３１８が、認識結果の正誤を判定する。この正誤判定は、上述した図６のステップＳ３３０と同様に、信頼度スコアを用いて実行することができる。認識結果が正解である場合には、後述するステップＳ２４０に進む。一方、認識結果が誤りである場合には、ステップＳ２６０に進み、物体ＯＢの現実の位置姿勢を変更してステップＳ２１０に戻る。物体ＯＢの位置姿勢の変更は、例えば、ユーザーが物体ＯＢのバラ積みをやり直すことによって行われる。

ステップＳ２４０では、教師データ作成部３１１が、位置姿勢付きの画像を統計データとして作成する。すなわち、ステップＳ２１０で撮影した画像に、ステップＳ２２０で認識した位置姿勢を付与することによって統計データを作成する。ステップＳ２５０では、教師データ作成部３１１が、予定していた数の統計データが得られたか否かを判定する。十分な数の統計データが得られていない場合には、ステップＳ２６０に進み、物体ＯＢの現実の位置姿勢を変更してステップＳ２１０に戻り、上述したステップＳ２１０～Ｓ２５０を再度実行する。一方、十分な数の統計データが得られた場合には、ステップＳ２７０に進む。

ステップＳ２７０では、教師データ作成部３１１が、統計データを参照して不足位置姿勢を算出し、統計データに登録する。

図１０は、統計データにおける不足位置姿勢を示す説明図である。「不足位置姿勢」とはステップＳ２１０～Ｓ２６０の処理で作成された統計データに含まれていない姿勢である。図１０の上方には、統計データに含まれる位置姿勢(x,y,z,w,p,r)のうちの回転角度(w,p)のみを２次元的に示している。統計データには、位置姿勢がほぼ均一に含まれているのが理想であるが、図９のステップＳ２３０で不正解と判定された位置姿勢は統計データに含まれていない。図１０の上方の図において、黒丸の点は正解と判定されて統計データに含まれている位置姿勢を示している。不正解領域(Incorrect solution area)では、正解と判定された位置姿勢が欠落している。教師データ作成部３１１が、この不正解領域において、１つ以上の位置姿勢を「不足位置姿勢」として認識して、統計データに登録する。図１０の下方の図では、不足位置姿勢(Desired position and attitude)が白丸で追加された状態を示している。なお、「不足位置姿勢」は、例えば、物体ＯＢに対して全方位の球体をある一定のエリアに分割して、統計データに含まれている位置姿勢をマッピングしたときに、特定のエリアの認識結果が少ない、と認識する分析から求めることができる。不足位置姿勢は、シミュレーションによる事前学習を行った機械学習モデルＭＭでは正確に認識できない位置姿勢であり、シミュレーションと現実との画像差が大きい位置姿勢であると考えられる。そこで、統計データにおいて正解と判定された位置姿勢が欠落している不正解領域において、１つ以上の位置姿勢を「不足位置姿勢」として登録することによって、シミュレーションと現実の差を埋めるための適切な位置姿勢を効率的に集めることができる。

こうして、ステップＳ１２５の処理が終了すると、図８のステップＳ１３５に進み、教師データ作成部３１１が、統計データを利用して本学習用の教師データを作成する。

図１１は、ステップＳ１３５の詳細手順を示すフローチャートである。図１１の手順は、第１実施形態において図６に示したステップＳ１３０の詳細手順のうち、ステップＳ３４０をステップＳ３４５に置き換えたものであり、他のステップは図６と同じである。

ステップＳ３４５では、教師データ作成部３１１が、統計データを用いて第２撮影方向を決定する。この第２撮影方向は、図１０で説明した不足位置姿勢に対応する撮影方向である。不足位置姿勢が複数存在する場合には、そのうちの任意の位置姿勢が得られる撮影方向を、第２撮影方向として採用することができる。例えば、第１位置姿勢に最も近い不足位置姿勢が得られる撮影方向を第２撮影方向として採用できる。なお、１つの第１位置姿勢から、２つ以上の第２撮影方向を決定してもよい。ステップＳ３５０では、カメラ４００を用いて第２撮影方向から物体ＯＢを撮影することによって第２画像が生成される。ステップＳ３５０以降の処理は、第１実施形態と同じである。

第２実施形態のステップＳ３４５において決定される第２撮影方向は、事前学習済みの機械学習モデルＭＭで認識される位置姿勢が正解と判定されない方向である。このように、シミュレーションによる事前学習済みの機械学習モデルＭＭでは正解と判定されない方向に第２撮影方向を設定すれば、シミュレーションと実環境との差を埋める教師データを作成することができる。

以上のように、第２実施形態においても、第１実施形態と同様に、事前学習済みの機械学習モデルＭＭを用いて第１画像から物体ＯＢの第１位置姿勢を認識し、第１位置姿勢が正解と判定された場合には、カメラを用いて第１撮影方向と異なる第２撮影方向から第２画像を撮影し、物体ＯＢの第２位置姿勢を第２画像に付与することによって本学習用の教師データを作成する。この結果、機械学習を行うための教師データを実環境で容易に作成でき、また、シミュレーションと実環境との差を埋めることができるので、機械学習モデルＭＭの性能を向上させることができる。また、第２実施形態では、事前学習済みの機械学習モデルＭＭでは正解と判定されない方向に第２撮影方向を設定するので、シミュレーションと実環境との差を埋める教師データを作成することができる。

上述した第１実施形態と第２実施形態では、ロボット１００を用いた作業において物体を認識する場合を想定していたが、本開示は、ロボットを用いないシステムにおいて物体を認識する場合にも適用可能である。

・他の形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

（１）本開示の第１の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する方法が提供される。この方法は、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する工程と、（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する工程と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する工程と、（ｄ）前記第１位置姿勢に対して正誤判定を行う工程と、（ｅ）前記第１位置姿勢が正解と判定された場合に前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する工程と、（ｆ）前記物体の現実の位置姿勢を変更して前記工程（ｂ）～（ｅ）を繰り返す工程と、を含む。
この方法によれば、機械学習を行うための教師データを実環境で容易に作成でき、また、シミュレーションと実環境との差を埋めることができるので、機械学習モデルの性能を向上させることができる。

（２）上記方法において、前記工程（ｅ）は、（ｅ１）前記物体への照明光の照射方向と前記第１位置姿勢から、前記物体からの鏡面反射方向を求める工程と、（ｅ２）前記鏡面反射方向を前記第２撮影方向として設定する工程と、を含むものとしてもよい。
この方法によれば、鏡面反射方向に第２撮影方向を設定するので、光沢物に対して位置姿勢の認識を正しく行うための教師データを作成できる。

（３）上記方法において、前記第２撮影方向は、前記第２撮影方向から撮影される画像を用いて前記事前学習済みの前記機械学習モデルで認識される位置姿勢が正解と判定されない方向に設定されるものとしてもよい。
この方法によれば、シミュレーションによる事前学習済みの機械学習モデルで正解と判定されない方向に第２撮影方向を設定するので、シミュレーションと実環境との差を埋める教師データを作成できる。

（４）上記方法において、前記工程（ｂ）～（ｆ）の前に、前記事前学習済みの前記機械学習モデルを用いて前記物体の位置姿勢を認識して正誤判定を行い、正解と判定された前記位置姿勢の履歴を登録する処理を、複数回実行する工程を含み、前記第２撮影方向は、前記正解と判定された履歴が存在しない位置姿勢が得られる方向に設定されるものとしてもよい。
この方法によれば、シミュレーションデータによる事前学習済みの機械学習モデルで正解と判定された履歴の無い方向に第２撮影方向を設定するので、シミュレーションと実環境との差を埋める教師データを作成できる。

（５）上記方法において、前記工程（ｄ）は、（ｄ１）シミュレーションによって前記第１位置姿勢における前記物体のシミュレーション画像を作成する工程と、（ｄ２）前記第１画像と前記シミュレーション画像とを用いて前記第１位置姿勢の信頼度スコアを算出する工程と、（ｄ３）前記信頼度スコアを閾値と比較することによって前記第１位置姿勢の正誤を判定する工程と、を含むものとしてもよい。
この方法によれば、第１画像とシミュレーション画像とに応じて算出される信頼度スコアによって第１位置姿勢の正誤を判定できる。

（６）本開示の第２の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成するシステムが提供される。このシステムは、前記物体を撮影するカメラと、前記教師データの作成を行う教師データ作成部と、を備える。前記教師データ作成部は、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、（ｂ）前記カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、を実行する。

（７）本開示の第３の形態によれば、物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、を前記プロセッサーに実行させる。

本開示は、上記以外の種々の形態で実現することも可能である。例えば、ロボットとロボット制御装置とを備えたロボットシステム、ロボット制御装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

１００…ロボット、１１０…基台、１２０…ロボットアーム、１２２…アームエンド、１５０…ハンド、１８０…電流センサー、１９０…関節エンコーダー、２００…制御装置、３００…情報処理装置、３１０…プロセッサー、３１１…教師データ作成部、３１２…シミュレーション実行部、３１４…学習実行部、３１６…物体認識部、３１８…正誤判定部、３２０…メモリー、３３０…インターフェイス回路、３４０…入力デバイス、３５０…表示デバイス、４００…カメラ、４１０…第１カメラ、４２０…第２カメラ、４３０…照明部、５００…架台、５１０…第１トレイ、５２０…第２トレイ

Claims

物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する方法であって、
（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する工程と、
（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する工程と、
（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する工程と、
（ｄ）前記第１位置姿勢に対して正誤判定を行う工程と、
（ｅ）前記第１位置姿勢が正解と判定された場合に前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する工程と、
（ｆ）前記物体の現実の位置姿勢を変更して前記工程（ｂ）～（ｅ）を繰り返す工程と、
を含む、方法。
請求項１に記載の方法であって、
前記工程（ｅ）は、
（ｅ１）前記物体への照明光の照射方向と前記第１位置姿勢から、前記物体からの鏡面反射方向を求める工程と、
（ｅ２）前記鏡面反射方向を前記第２撮影方向として設定する工程と、
を含む、方法。
請求項１に記載の方法であって、
前記第２撮影方向は、前記第２撮影方向から撮影される画像を用いて前記事前学習済みの前記機械学習モデルで認識される位置姿勢が正解と判定されない方向に設定される、方法。
請求項３に記載の方法であって、
前記工程（ｂ）～（ｆ）の前に、前記事前学習済みの前記機械学習モデルを用いて前記物体の位置姿勢を認識して正誤判定を行い、正解と判定された前記位置姿勢の履歴を登録する処理を、複数回実行する工程を含み、
前記第２撮影方向は、前記正解と判定された履歴が存在しない位置姿勢が得られる方向に設定される、方法。
請求項１～４のいずれか一項に記載の方法であって、
前記工程（ｄ）は、
（ｄ１）シミュレーションによって前記第１位置姿勢における前記物体のシミュレーション画像を作成する工程と、
（ｄ２）前記第１画像と前記シミュレーション画像とを用いて前記第１位置姿勢の信頼度スコアを算出する工程と、
（ｄ３）前記信頼度スコアを閾値と比較することによって前記第１位置姿勢の正誤を判定する工程と、
を含む、方法。
物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成するシステムであって、
前記物体を撮影するカメラと、
前記教師データの作成を行う教師データ作成部と、
を備え、
前記教師データ作成部は、
（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、
（ｂ）前記カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、
（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、
（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、
（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、
（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、
を実行する、システム。
物体の位置姿勢を認識する機械学習モデルの学習に用いる教師データを作成する処理をプロセッサーに実行させるコンピュータープログラムであって、
（ａ）前記物体のシミュレーションデータを用いて前記機械学習モデルの事前学習を実行する処理と、
（ｂ）カメラを用いて第１撮影方向から前記物体の第１画像を撮影する処理と、
（ｃ）前記事前学習済みの前記機械学習モデルを用いて、前記第１画像から前記物体の第１位置姿勢を認識する処理と、
（ｄ）前記第１位置姿勢に対して正誤判定を行う処理と、
（ｅ）前記カメラを用いて前記第１撮影方向と異なる第２撮影方向から前記物体の第２画像を撮影し、前記第１位置姿勢に対して前記第１撮影方向から前記第２撮影方向への変化に応じた変換を行うことによって第２位置姿勢を算出し、前記第２位置姿勢を前記第２画像に付与することによって教師データを作成する処理と、
（ｆ）前記物体の現実の位置姿勢を変更して前記処理（ｂ）～（ｅ）を繰り返す処理と、
を前記プロセッサーに実行させる、コンピュータープログラム。