WO2020008711A1

WO2020008711A1 - 学習装置、学習システム、及び学習方法

Info

Publication number: WO2020008711A1
Application number: PCT/JP2019/017237
Authority: WO
Inventors: 誠新崎; 大介上田; 裕一松本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-07-02
Filing date: 2019-04-23
Publication date: 2020-01-09
Anticipated expiration: 2021-01-02
Also published as: JP7308421B2; JP2020008905A; EP3819865A1; US20210158101A1; US11436439B2; EP3819865A4; CN112368724A

Abstract

【課題】画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減する。【解決手段】学習装置が、学習データを生成する処理を実行するプロセッサと、表示装置と、を備え、プロセッサが、撮影画像を撮影装置から取得し、その撮影画像に含まれる対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示する構成とする。

Description

学習装置、学習システム、及び学習方法

　本開示は、画像認識に利用される学習データを生成する学習装置、学習システム、及び学習方法に関する。

　近年、カメラの撮影画像などから対象物を認識する画像認識の技術が、ディープラーニング（深層学習）などを用いた機械学習により急速に発展している。機械学習を利用した画像認識では、対象物（認識対象）を被写体とする撮影画像のデータを学習データとしてより多く収集し、これを学習器に学習させることで、未知の撮影画像における対象物を学習済モデルで認識する精度を向上させることが可能となる。

　そのような学習データの収集において、対象物の画像を含む撮影画像を網羅的に収集するためには、複数の撮影条件（カメラ設定、照明設定、対象物の配置などを含む）を適切に設定して撮影を行うなどの手間の掛かる作業が生じる。

　そこで、そのような学習データを簡易に生成するための技術が開発されており、例えば、学習データ生成装置が、被写体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出するようにした技術が知られている（特許文献１参照）。

特開２０１４－１７８９５７号公報

　ところで、いわゆる教師あり学習では、学習データに正解ラベルを付与する必要があるが、上記のように学習データとしてより多くの撮影画像が取得された場合には、ラベルの入力に長い時間がかかり、その作業者には大きな負荷がかかる。

　しかしながら、上記特許文献１に記載されたような従来技術では、対象物の向きの変化に対応した撮影画像が得られるものの、そのような撮影画像へのラベルの付与の作業負荷については考慮されていなかった。

　本開示は、このような従来技術の課題を鑑みて案出されたものであり、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することができる学習装置、学習システム、及び学習方法を提供することを主目的とする。

　本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサと、前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする。

　本開示の学習システムは、１以上の前記学習装置および１以上の前記撮影装置を備えたことを特徴とする。

　本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする。

　本開示の学習装置、学習システム、及び学習方法によれば、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することが可能となる。

本開示の第１実施形態に係る学習システムの概略構成図第１実施形態に係る撮影装置の構成例を示す説明図第１実施形態に係る学習装置のハードウェア構成を示す説明図第１実施形態に係る学習システムにおける処理の流れを示すフロー図図４中のステップＳＴ１０１におけるユーザの操作画面の例を示す説明図図４中のステップＳＴ２０４において算出されるスコアの一例を示す説明図図４中のステップＳＴ１０６におけるユーザの操作画面の例を示す説明図図４中のステップＳＴ１０７におけるユーザの操作画面の第１の例を示す説明図図４中のステップＳＴ１０７におけるユーザの操作画面の第２の例を示す説明図図４中のステップＳＴ１０７におけるユーザの操作画面の第３の例を示す説明図図４中のステップＳＴ１０７におけるユーザの操作画面の第４の例を示す説明図本開示の第２実施形態に係る学習システムの概略構成図

　上記課題を解決するためになされた第１の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサと、前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする。

　これによると、画像認識に利用される学習データの生成において、対象物に関して所定の識別モデルに基づき認識された１以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。

　また、第２の発明は、前記学習装置に関し、前記プロセッサは、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。

　これによると、表示装置に表示され、かつユーザによって選択されたラベルの候補を撮影画像のラベルとして付与するため、ユーザ（ラベルを付与する者）が撮影画像に対してラベルを付与する負荷をより効果的に軽減することができる。

　また、第３の発明は、前記学習装置に関し、前記プロセッサは、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。

　これによると、表示装置に表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。

　また、第４の発明は、前記学習装置に関し、前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。

　これによると、不適切なラベルの候補が表示装置に繰り返し表示されることを回避することが可能となる。

　また、第５の発明は、前記学習装置に関し、前記プロセッサは、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。

　これによると、複数の方向から撮影した対象物に関するスコアに基づきラベルの候補が決定されるため、より適した方向（すなわち、対象物をより認識し易い方向）から撮影された撮影画像に基づき適切なラベルの候補を決定することができる。

　また、第６の発明は、前記学習装置に関し、前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。

　これによると、ユーザは、表示装置における各ラベルの候補の配置に基づき、より適した（すなわち、認識の確からしさを表すスコアの高い）ラベル候補を容易に認識することが可能となる。

　また、第７の発明は、前記学習装置に関し、前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記１以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。

　これによると、学習装置は、対象物を撮影した向きごとにラベル候補を表示させることができる。そのため、対象物が、特定の向きでは誤認識されやすいものであったとしても、より正確なラベル候補を提案することができる。

　また、第８の発明は、上記第１から第７の発明のいずれかに係る１以上の前記学習装置および１以上の前記撮影装置を備えたことを特徴とする学習システムである。

　また、第９の発明は、前記学習システムに関し、前記スコアを算出するサーバ装置を更に備え、前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする。

　これによると、学習システム内に複数の学習装置を設けた場合でも、スコアを算出する処理をサーバ装置に集約することにより、システム全体の効率を向上させることが可能となる。

　また、第１０の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする。

　また、第１１の発明は、前記学習方法に関し、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。

　また、第１２の発明は、前記学習方法に関し、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。

　また、第１３の発明は、前記学習方法に関し、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。

　また、第１４の発明は、前記学習方法に関し、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。

　また、第１５の発明は、前記学習方法に関し、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。

　また、第１６の発明は、前記学習方法に関し、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記１以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。

　以下、本開示の実施形態について、図面を参照しながら説明する。

（第１実施形態）
　図１は、本開示の第１実施形態に係る学習システム１の概略構成図である。

　学習システム１は、ユーザが対象物の撮影に用いる複数の撮影装置２と、対応する撮影装置２によって生成された撮影画像から画像認識に利用される学習データを生成する処理（以下、「学習データ生成処理」という。）を実行する複数の学習装置３と、撮影装置２によって生成された撮影画像に含まれる対象物を、識別モデルに基づき認識する処理（以下、「対象物認識処理」という。）を実行するサーバ装置４と、を主として備える。

　なお、図１に示した複数の撮影装置２は、同様の構成を有しているため、以下では、特に必要のない限りそれらを区別することなく説明する。また、複数の学習装置３についても同様である。

　撮影装置２は、対象物を互いに異なる向きから同時に撮影可能な複数のカメラ５Ａ－５Ｃを有する。異なる向きカメラを設けている理由は、対象物外観の特徴を全体的に捉え、対象物の姿勢が変わっても識別を正しく実施できるようにするためである。カメラ５Ａ－５Ｃは、それぞれ公知の撮影機能を有するビデオカメラであり、対象物６（図２参照）を被写体とする撮影画像（動画または静止画）を生成する。また、撮影装置２は、公知の通信機能を有し、生成した撮影画像を学習装置３に対して順次送信する。撮影装置２は、公知の通信ケーブルや無線通信により学習装置３に直接接続可能であるが、これに限らず、公知の通信ネットワーク１０（ＬＡＮ、インターネット等）を介して学習装置３に接続されてもよい。

　なお、撮影装置２によって撮影される対象物は、本開示に示すものに限定されず、画像認識の対象となり得る任意の物体である。また、カメラ５Ａ－５Ｃによって生成される撮影画像としては、画像認識（対象物の識別）に利用可能な限りにおいて任意の形式を採用することができ、例えば、カメラ５Ａ－５ＣがＲＧＢ－Ｄセンサを備えることにより、撮影画像としてＲＧＢ画像および距離画像が生成されてもよい。また、本開示では、学習装置３の各々に対応して撮影装置２が配置されているが、これに限らず、１つの撮影装置２が複数の学習装置３のために撮影画像を生成してもよい。

　学習装置３において、画像取得部１１は、撮影装置２によって生成された撮影画像を順次取得する。また、物体識別情報取得部１２は、得られた撮影画像からサーバ装置４によって認識された１以上の物体の候補及びそれに対応するスコア（所定の識別モデルに基づく認識の確からしさを表す評価値）を取得する。本実施形態では、物体識別情報取得部１２は、撮影画像をサーバ装置４に送信することにより、サーバ装置４による対象物認識処理の結果として得られた１以上の物体の候補及びそれに対応するスコアを取得する。また、ラベル候補設定部１３は、得られたスコアに基づき、１以上の物体の候補に関する情報（例えば、物体の名称）を、対応する撮影画像のラベルの候補として表示部１４に表示する。

　また、学習装置３は、学習データ生成処理に用いられる各種情報やデータを記憶する記憶部２２と、ユーザ（例えば、撮影者）が学習装置３に対して入力操作を行うための入力部２３と、を更に備える。なお、表示部１４は、上述のラベルの候補以外にも、学習データ生成処理に関してユーザに必要な情報を適宜表示することができる。

　サーバ装置４は、学習装置３から送信された撮影画像を順次取得する画像取得部２４と、画像認識（未知の物体の識別）に用いられる識別モデル（学習済みモデル）２５を記憶する記憶部２６と、撮影画像における対象物を、識別モデル２５により未知の物体として識別する画像識別部２７と、を備える。画像識別部２７は、公知の手法により、識別モデル２５により物体の識別を行うことができる。

　なお、識別モデル２５としては、複数の学習装置３から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いることができる。また、学習システム１では、学習装置３の物体識別情報取得部１２が撮影画像に含まれる対象物（前景領域）の特徴量を抽出し、その抽出した特徴量の情報をサーバ装置４に送信する構成も可能である。その場合、サーバ装置４の画像識別部２７は、学習装置３からの特徴量の情報に基づき、識別モデル２５により物体の識別を行うことができる。

　図２は、図１に示した撮影装置２の構成例を示す説明図である。

　撮影装置２は、床面や机上面等に載置される略平板状のベース部３１と、ベース部３１の一端側から略鉛直方向に延出する略平板状の第１のアーム部３２と、第１のアーム部３２の上端からベース部３１の他端側に向けて斜め上方に延出する略平板状の第２のアーム部３３と、第２のアーム部３３の上端からベース部３１の他端側に向けて略水平に延出する第３のアーム部３４と、を有する。なお、図２では、図示を省略するが、撮影装置２は、内蔵バッテリ（または電源ケーブル）や、学習装置３との通信を行うための無線通信部（または通信ケーブル）等を備える。

　ベース部３１は、鉛直方向の軸周りに回転自在に設けられた回転台４１を有している。ユーザは、対象物（ここでは、飲料容器）６を回転台４１上に配置し、その状態で回転台４１を所望の回転角度で回転させることにより、カメラ５Ａ－５Ｃに対する対象物６の方向（すなわち、カメラ５Ａ－５Ｃに対する対象物６の配置）を変更することができる。

　第３のアーム部３４の下面側には、平面視カメラ５Ａが配置されている。平面視カメラ５Ａの撮影方向は、下方の回転台４１に向けられており、対象物６の平面図に概ね相当する撮影画像４６を撮影可能である。

　また、第２のアーム部３３の下面側（内面側）には、斜視カメラ５Ｂが配置されている。カメラ５Ｂの撮影方向は、斜め下方の回転台４１に向けられており、対象物６の上側からの斜視図に概ね相当する撮影画像４７を撮影可能である。

　また、第１のアーム部３２の内面側（ベース部３１の他端側）には、側面視カメラ５Ｃが配置されている。カメラ５Ｃの撮影方向は、略水平方向（回転台４１の上方）に向けられており、対象物６の側面図に概ね相当する撮影画像４８を撮影可能である。

　なお、撮影装置２の構成（例えば、カメラの数、撮影方向）は、図２に示したものに限らず種々の変更が可能である。撮影装置２は、少なくとも１つのカメラを有するものであればよい。

　図３は、図１に示した学習装置３のハードウェア構成を示す説明図である。

　学習装置３は、公知のハードウェア構成を有するコンピュータからなり、所定の制御プログラムに基づき、学習データの収集処理（必要に応じて物体認識処理を含む）を統括的に実行するプロセッサ５１、このプロセッサ５１のワークエリア等として機能する揮発性メモリであるＲＡＭ５２、プロセッサ５１が実行する制御プログラムやデータを格納する不揮発性メモリであるＲＯＭ５３、ＨＤＤやフラッシュメモリ等からなる記憶装置５４、液晶モニタ等からなる表示装置５５、キーボード、マウス、及びタッチパネル等の入力デバイスからなる入力装置５６、他の装置との通信を実行する通信モジュール５７等を有している。

　図１に示した学習装置３における表示部１４、記憶部２２、及び入力部２３の機能は、それぞれ図２に示した表示装置５５、記憶装置５４、及び入力装置５６によって実現可能である。また、学習装置３における画像取得部１１、物体識別情報取得部１２、及びラベル候補設定部１３の機能の少なくとも一部は、プロセッサ５１が制御プログラムを実行することによって実現可能である。なお、学習装置３は、必ずしも図３に示した構成に限定される必要はなく、図１に示した学習装置３の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。

　なお、サーバ装置４のハードウェア構成については、説明を省略するが、サーバ装置４は、上記学習装置３と同様の公知の構成を有するコンピュータから構成することができる。その場合、記憶部２６は、記憶装置５４と同様の装置によって実現可能であり、また、画像取得部２４及び画像識別部２７の機能の少なくとも一部は、プロセッサが制御プログラムを実行することによって実現可能である。

　図４は、学習システム１における処理（学習装置３の学習データ生成処理、サーバ装置４の対象物認識処理）の流れを示すフロー図であり、図５は、図４中のステップＳＴ１０１におけるユーザの操作画面の例を示す説明図であり、図６は、図４中のステップＳＴ２０４において算出されるスコアの一例を示す説明図であり、図７は、図４中のステップＳＴ１０６におけるユーザの操作画面の例を示す説明図であり、図８－図１１は、それぞれ図４中のステップＳＴ１０７におけるユーザの操作画面の第１－第４の例を示す説明図である。

　図４に示すように、学習装置３は、撮影装置２おいてユーザが対象物を撮影する操作が実行されると（ＳＴ１０１：Ｙｅｓ）、その撮影画像およびその関連情報（カメラ５Ａ－５Ｃの撮影条件等）を含む撮影データを撮影装置２から取得する（ＳＴ１０２）。なお、本開示では、各カメラ５Ａ－５Ｃにより複数（３つ）の撮影データ（撮影画像）が取得されるが、学習システム１では、少なくとも１つの撮影画像が得られればよい。

　上記ステップＳＴ１０１では、表示装置５５には、例えば図５に示すような撮影画面６１が表示される。ユーザは、撮影画面６１において、撮影ボタン６２をクリック（押下）することにより、カメラ５Ａ－５Ｃによる撮影を実行することができる。また、ユーザは、カメラ選択ボタン６３を操作（カメラ１－３のいずれかのボタン押下）することにより、画像表示エリア６４に表示中の撮影画像を、対応するカメラ５Ａ－５Ｃのいずれかの撮影画像に変更することができる。

　次に、学習装置３は、撮影装置２から取得した撮影画像をサーバ装置４に対して送信する（ＳＴ１０３）。なお、ステップＳＴ１０３では、上述のように、学習装置３で抽出した対象物の特徴量の情報をサーバ装置４に送信する構成も可能である。

　サーバ装置４は、学習装置３から撮影画像を受信すると（ＳＴ２０１：Ｙｅｓ）、撮影画像の前景領域を物体（対象物）として抽出し（ＳＴ２０２）、その前景領域から特徴量を抽出する（ＳＴ２０３）。このとき、サーバ装置４は、例えば、ＨＯＧ（Histograms of Oriented Gradients）やＳＵＲＦ（Speeded-Up Robust Features）などの手法や、ディープラーニングを用いた手法に基づき特徴量を抽出することができる。さらに、サーバ装置４は、識別モデル２５により物体の認識を行うことにより、識別モデル２５に基づき、認識した物体の候補およびその認識の確からしさを表すスコアを算出する（ＳＴ２０４）。

　上記ステップＳＴ２０４では、サーバ装置４は、物体の認識結果として、例えば図６に示すような認識した物体の候補（ここでは、識別モデル２５で用いられるラベル）およびそれに対応するスコアを算出する。ここでは、スコアは、例えば０～１００の範囲で設定される値であり、より高い値ほど認識の確からしさが高いことを示す。認識の確からしさの高さを示す値であれば、他の範囲の値であってもよい。

　その後、サーバ装置４は、ステップＳＴ２０４における物体の認識結果に関する情報（認識した物体の候補（ラベル）およびスコアを含む）を学習装置３に対して送信する（ＳＴ２０５）。

　学習装置３は、サーバ装置４から物体の認識結果に関する情報を受信すると（ＳＴ１０４：Ｙｅｓ）、その認識結果に含まれるスコアについて、予め設定された閾値以上の値のスコア（すなわち、認識の確からしさの高い物体の候補）が存在するか否かを判定する（ＳＴ１０５）。

　ステップＳＴ１０５において閾値以上の値のスコアが存在しない場合（Ｎｏ）、学習装置３は、ユーザに撮影画像に対するラベル（学習データのラベル）を入力させるための処理を実行する（ＳＴ１０６）。

　上記ステップＳＴ１０６では、学習装置３は、例えば図７に示すように、ユーザがラベル入力するための入力画面７１を撮影画面６１中に表示する。ユーザは、入力画面７１において、撮影画像（すなわち、対象物）に対応するラベル（ここでは、「物体ａ」）を入力することができる。このように、表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。

　一方、ステップＳＴ１０５において、１以上の物体の候補について閾値以上の値のスコアが存在する場合（Ｙｅｓ）、学習装置３は、閾値以上の値のスコアを有する物体の候補をラベルの候補として表示装置５５に表示する（ＳＴ１０７）。そこで、学習装置３は、表示装置５５に表示されたラベルの候補（いずれか１つ）に対してユーザの承認を得ると（ＳＴ１０８：Ｙｅｓ）、その物体の候補を撮影画像に対応するラベルとして自動入力（学習データのラベルとして記録）する（ＳＴ１０９）。ステップＳＴ１０８では、ユーザは、例えば入力装置５６の操作により、表示装置５５に表示された物体の候補の１つを選択（すなわち、承認）することができる。このように、ユーザによって選択されたラベルの候補が撮影画像のラベルとして付与されるため、ユーザ（ラベルを付与する者）が撮影画像に対してラベルを付与する負荷を効果的に軽減することができる。

　また、学習装置３は、ステップＳＴ１０８において、ユーザの承認を得られなかった場合（Ｎｏ）には、上述の場合と同様に、撮影画像に対応するラベルをユーザに入力させる処理を実行する（ＳＴ１０６）。このとき、表示装置５５に表示されたラベルの候補とは異なるラベルがユーザによって入力された場合には、学習装置３は、ユーザの承認を得られなかったラベルの候補について、次回以降にサーバ装置４が認識する物体の候補から除外（対応するデータを削除）させるための命令をサーバ装置４に送信することができる。

　上記ステップＳＴ１０７では、学習装置３は、例えば図８に示すような認識結果画面７５を撮影画面６１中に表示することができる。図８では、最も高いスコアを有する１つの物体の候補（物体ａ）がその画像と共に表示される例を示している。ユーザは、物体ａが対象物に相当すると判断した場合には、上記ステップＳＴ１０８に関する承認の操作として、登録ボタン７７を押下することができる。また、ユーザは、物体ａが対象物に相当しないと判断した場合には、上記ステップＳＴ１０６に関する操作として、認識結果画面７５に表示されたラベル入力欄７８に撮影画像（すなわち、対象物）に対応するラベル（ここでは、物体ａ以外の物体の名称）を入力することができる。

　また、別の例として、上記ステップＳＴ１０７では、学習装置３は、例えば図９に示すような認識結果画面７５を撮影画面６１中に表示することができる。図９では、閾値以上の値のスコアを有する複数の物体の候補（物体ａ、ｃ、ｇ）がそれらの画像と共にスコアの高い順に上から順に配置される例を示している。ユーザは、物体ａ、ｃ、ｇのいずれかが対象物に相当すると判断した場合には、上記ステップＳＴ１０８に関する承認の操作として、認識結果画面７５において、該当する１つの物体の画像を選択（クリック）した後に、登録ボタン７７を押下することができる。また、ユーザは、物体ａ、ｃ、ｇのいずれも対象物に相当しないと判断した場合には、上記ステップＳＴ１０６に関する操作として、認識結果画面７５に表示されたラベル入力欄７８に撮影画像（すなわち、対象物）に対応するラベル（ここでは、物体ａ、ｃ、ｇ以外の物体の名称）を入力することができる。

　また、別の例として、上記ステップＳＴ１０７では、学習装置３は、例えば図１０に示すような認識結果画面７５を表示することができる。図１０では、各カメラ５Ａ－５Ｃの撮影画像（対象物）に関し、閾値以上の値のスコアを有する複数の物体の候補（物体ｍ、ｃ、ｘ）がそれらの画像と共にスコアの高い順に左から順に配置される例を示している。ユーザは、物体ｍ、ｃ、ｘのいずれかが対象物に相当すると判断した場合には、上記ステップＳＴ１０８に関する承認の操作として、認識結果画面７５において、該当する１つの物体の画像を選択（クリック）した後に、登録ボタン７７を押下することができる。また、ユーザは、物体ｍ、ｃ、ｘのいずれも対象物に相当しないと判断した場合には、上記ステップＳＴ１０６に関する操作として、認識結果画面７５に表示されたラベル入力欄７８に撮影画像（すなわち、対象物）に対応するラベル（ここでは、物体ｍ、ｃ、ｘ以外の物体の名称）を入力することができる。

　なお、本実施の形態では、撮影装置２は、各カメラ５Ａ－５Ｃを固定的した向きで備えているが、１つのカメラを可動式にすることで同様の撮影画像を得ることもできる。すなわち、図１０に記載のカメラごとに候補を示す例は、撮影した向きごとに候補を表示する一例である。このようにすることで、特定の向きでは誤認識が発生しやすい対象物を学習させる場合であっても、別の向きから見た候補を表示できるため、より正確なラベルを提案できる可能性が高まる。

　また、別の例として、上記ステップＳＴ１０７では、学習装置３は、例えば図１１に示すような認識結果画面７５を表示することができる。図１１では、閾値以上の値のスコアを有する物体ａおよびその画像と共に、対応する撮影画像が比較対象として配置される例を示している。ユーザは、物体ａが撮影画像に含まれる対象物に相当すると判断した場合には、上記ステップＳＴ１０８に関する承認の操作として、登録ボタン７７を押下することができる。また、ユーザは、物体ａが対象物に相当しないと判断した場合には、上記ステップＳＴ１０６に関する操作として、認識結果画面７５に表示されたラベル入力欄７８に撮影画像（すなわち、対象物）に対応するラベル（ここでは、物体ａ以外の物体の名称）を入力することができる。

　このように、学習システム１では、画像認識に利用される学習データの生成において、対象物６に関して所定の識別モデルに基づき認識された１以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示装置５５に表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。

　なお、本実施形態では、サーバ装置４が認識した物体の候補およびスコアを学習装置３に送信し、学習装置３にてスコアが閾値以上の候補が存在するか否かを判定していたが、これに限られるものではない。サーバ装置４にてスコアが閾値以上の候補が存在するか否かを判定し、スコアが閾値以上の候補のみを学習装置３に送信するものとしてもよい。この場合、サーバ装置４にて候補が絞り込めるのであれば、スコアを学習装置３に送信しなくともよい。

（第２実施形態）
　図１２は、本開示の第２実施形態に係る学習システム１の概略構成図である。図１２では、図１に示したものと同様の構成要素について同一の符号が付されている。また、第２実施形態に係る学習システム１に関し、以下で特に言及しない事項については、上述の第１実施形態の場合と同様とする。

　上述の第１実施形態では、サーバ装置４が対象物認識処理を実行する例を示したが、第２実施形態では、学習装置３が、識別モデル（学習済みモデル）２５を記憶する記憶部２６と、画像識別部２７とを備えることにより、サーバ装置４の代わりに対象物認識処理を実行することができる。

　このような構成により、第２実施形態に係る学習システム１では、学習装置３のみで学習データ生成処理を完結させることができる。

　以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。また、上記実施形態に示した本開示に係る学習装置、学習システム、及び学習方法は、必ずしも全てが必須ではなく、当業者であれば、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。

　上記の実施の形態では、識別モデル２５として、複数の学習装置３から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いていたが、これに限られるものではない。複数の学習装置３の間で学習結果を共有できない場合などに備え、予め用意された標準的な学習済みモデルを用意し識別モデル２５として用いてもよい。

　本開示に係る学習装置、学習システム、及び学習方法は、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することを可能とし、画像認識に利用される学習データを生成する学習データ収集装置、学習データ収集システム、及び学習データ収集方法などとして有用である。

１　　　　：学習システム
１－３　　：カメラ
２　　　　：撮影装置
３　　　　：学習装置
４　　　　：サーバ装置
５Ａ－５Ｃ：カメラ
６　　　　：対象物
１０　　　：通信ネットワーク
１１　　　：画像取得部
１２　　　：物体識別情報取得部
１３　　　：ラベル候補設定部
２４　　　：画像取得部
２５　　　：識別モデル
２６　　　：記憶部
２７　　　：画像識別部
４１　　　：回転台
４６－４８：撮影画像
５１　　　：プロセッサ
５４　　　：記憶装置
５５　　　：表示装置
５６　　　：入力装置
５７　　　：通信モジュール
６１　　　：撮影画面
６２　　　：撮影ボタン
６３　　　：カメラ選択ボタン
６４　　　：画像表示エリア
７１　　　：入力画面
７５　　　：認識結果画面
７７　　　：登録ボタン
７８　　　：ラベル入力欄

Claims

　対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、
　前記学習データを生成する処理を実行するプロセッサと、
　前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、
　前記プロセッサは、
　前記撮影画像を前記撮影装置から取得し、
　前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、
　前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする学習装置。
　前記プロセッサは、
　ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする請求項１に記載の学習装置。
　前記プロセッサは、
　前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする請求項１に記載の学習装置。
　前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする請求項３に記載の学習装置。
　前記プロセッサは、
　前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
　前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、
　前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする請求項１から請求項４のいずれかに記載の学習装置。
　前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項５に記載の学習装置。
　前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
　前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記１以上の候補を取得し、
　前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする請求項１に記載の学習装置。
　請求項１から請求項７のいずれかに記載の１以上の前記学習装置および１以上の前記撮影装置を備えたことを特徴とする学習システム。
　前記識別モデルに基づき認識された１以上の物体について、認識の確からしさを表すスコアを算出するサーバ装置を更に備え、
　前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする請求項８に記載の学習システム。
　対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、
　前記撮影画像を前記撮影装置から取得し、
　前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補を取得し、
　前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする学習方法。
　ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする請求項１０に記載の学習方法。
　前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする請求項１０に記載の学習方法。
　前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする請求項１２に記載の学習方法。
　前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
　前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された１以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、
　前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする請求項１０から請求項１３のいずれかに記載の学習方法。
　前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項１４に記載の学習方法。
　前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
　前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記１以上の候補を取得し、
　前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする請求項１０に記載の学習方法。