JP7658024B1

JP7658024B1 - 学習データ生成装置、学習データ生成方法及び学習データ生成プログラム

Info

Publication number: JP7658024B1
Application number: JP2024211898A
Authority: JP
Inventors: 宏策檜垣; 大希安井
Original assignee: Mitsubishi Electric Information Systems Corp
Current assignee: Mitsubishi Electric Information Systems Corp
Priority date: 2024-12-05
Filing date: 2024-12-05
Publication date: 2025-04-07
Anticipated expiration: 2044-12-05
Also published as: JP7799879B1

Abstract

【課題】人手によらず、検知精度を高めるために有効な画像データを生成可能にする。【解決手段】画像変換部２１は、画像データを変換する画像変換モデル４１に対して、画像データから検知対象の属性の物体を検知する物体検知モデルに学習させる学習データ３１である画像データを入力して、画像変換モデル４１によって画像データが変換された変換後画像を取得する。学習データ追加部２２は、画像変換部２１によって取得された変換後画像を学習データ３１に加える。【選択図】図１

Description

本開示は、物体検知モデルに対する学習データの生成技術に関する。

画像データから検知対象の属性の物体を検知する物体検知モデルがある。物体検知モデルの検知精度を高めるためには、様々な画像データを学習データとして物体検知モデルに学習させる必要がある。学習データの作成は人手で行われることが多く、作業負担が大きい。また、危険な状況等を学習させる場合には、危険な状況の画像データが必要になるが、人が実際に危険な状況を再現することは難しく、容易に学習データを作成することができない。

特許文献１には、教師画像が不足しているときに、教師画像に対して拡大、縮小、移動、合成等の加工を加え、新たな教師画像を生成することが記載されている。

特開２０１８－１６９６７２号公報

特許文献１に記載された方法では、基本的に元の教師画像と類似した画像データしか新たな教師画像として生成することはできない。そのため、検知精度を高めるために有効な画像データを生成することが難しかった。
本開示は、人手によらず、検知精度を高めるために有効な画像データを生成可能にすることを目的とする。

本開示に係る学習データ生成装置は、
画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得する画像変換部と、
前記画像変換部によって取得された前記変換後画像を前記学習データに加える学習データ追加部と
を備える。

本開示では、画像変換モデルに対して学習データである画像データを入力して、画像変換モデルによって画像データが変換された変換後画像を学習データに加える。これにより、拡大、縮小、移動、合成等の単純な加工に限らず、背景の変更、周辺に存在する物体の変更、光の当たり方の変更といった様々な変更を加えた画像データを生成することが可能である。そのため、検知精度を高めるために有効な画像データを生成可能にすることが可能である。

実施の形態１に係る学習データ生成装置１０の構成図。実施の形態１に係る学習データ生成装置１０の処理のフローチャート。実施の形態１に係る画像変換モデル４１への入力の説明図。実施の形態２に係る学習データ生成装置１０の構成図。実施の形態２に係る学習データ生成装置１０の処理のフローチャート。実施の形態２に係る文章生成モデル４２への入力の説明図。実施の形態２に係る文章生成モデル４２からの出力の説明図。実施の形態２に係る文書変換モデル４３への入力の説明図。実施の形態３に係る学習データ生成装置１０の構成図。実施の形態３に係る学習データ追加処理のフローチャート。実施の形態３に係る属性判定モデル４６への入力の説明図。実施の形態４に係る学習データ生成装置１０の構成図。実施の形態４に係る学習データ生成装置１０の処理のフローチャート。

実施の形態１．
＊＊＊構成の説明＊＊＊
図１を参照して、実施の形態１に係る学習データ生成装置１０の構成を説明する。
学習データ生成装置１０は、コンピュータである。
学習データ生成装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信インタフェース１４とのハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

プロセッサ１１は、プロセッシングを行うＩＣである。ＩＣはＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。プロセッサ１１は、具体例としては、ＣＰＵ、ＤＳＰ、ＧＰＵである。ＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。ＤＳＰは、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒの略である。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。

メモリ１２は、データを一時的に記憶する記憶装置である。メモリ１２は、具体例としては、ＳＲＡＭ、ＤＲＡＭである。ＳＲＡＭは、ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。ＤＲＡＭは、ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

ストレージ１３は、データを保管する記憶装置である。ストレージ１３は、具体例としては、ＳＳＤである。ＳＳＤは、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅの略である。また、ストレージ１３は、ＳＤ（登録商標）メモリカード、ＣｏｍｐａｃｔＦｌａｓｈ（登録商標）、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤといった可搬記録媒体であってもよい。ＳＤは、ＳｅｃｕｒｅＤｉｇｉｔａｌの略である。ＤＶＤは、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋの略である。

通信インタフェース１４は、外部の装置と通信するためのインタフェースである。通信インタフェース１４は、具体例としては、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ、ＨＤＭＩ（登録商標）のポートである。ＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。ＨＤＭＩは、Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅの略である。

学習データ生成装置１０は、機能構成要素として、画像変換部２１と、学習データ追加部２２とを備える。学習データ生成装置１０の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ１３には、学習データ生成装置１０の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ１１によりメモリ１２に読み込まれ、プロセッサ１１によって実行される。これにより、学習データ生成装置１０の各機能構成要素の機能が実現される。
ストレージ１３には、学習データ３１が記憶されている。学習データ３１は、物体検知モデルに学習させるためのデータである。学習データ３１は、複数の画像データを含む。物体検知モデルは、画像データから検知対象の属性の物体を検知する学習モデルである。物体検知モデルは、例えば、ディープラーニングを用いて構成されたモデルである。

学習データ生成装置１０は、通信インタフェース１４を介して、画像変換モデル４１と接続されている。
画像変換モデル４１は、画像を変換する、いわゆる生成ＡＩである。ＡＩは、ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅの略である。画像変換モデル４１は、具体例としては、ＢＥＲＴ、ＧＰＴ等のアルゴリズムを用いて構成されてもよい。ＢＥＲＴは、ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓの略である。ＧＰＴは、ＧｅｎｅｒａｔｉｖｅＰｒｅｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒの略である。学習モデル１１２は、これらのアルゴリズムを含む複数のアルゴリズムを組み合わせて構成されてもよい。

ここでは、画像変換モデル４１は、通信インタフェース１４を介して接続されているとした。つまり、画像変換モデル４１は学習データ生成装置１０の外部にあるものとした。しかし、画像変換モデル４１は学習データ生成装置１０の内部にあってもよい。

図１では、プロセッサ１１は、１つだけ示されていた。しかし、プロセッサ１１は、複数であってもよく、複数のプロセッサ１１が、各機能を実現するプログラムを連携して実行してもよい。

＊＊＊動作の説明＊＊＊
図２及び図３を参照して、実施の形態１に係る学習データ生成装置１０の動作を説明する。
実施の形態１に係る学習データ生成装置１０の動作手順は、実施の形態１に係る学習データ生成方法に相当する。また、実施の形態１に係る学習データ生成装置１０の動作を実現するプログラムは、実施の形態１に係る学習データ生成プログラムに相当する。

図２を参照して、実施の形態１に係る学習データ生成装置１０の処理を説明する。
（ステップＳ１１：入力処理）
画像変換部２１は、学習データ３１から１つの画像データを抽出する。画像変換部２１は、画像変換モデル４１に対して、抽出された画像データと、物体検知モデルの検知対象の属性である指定属性を示す属性情報とを入力する。物体検知モデルの検知対象の属性が複数存在する場合には、画像変換部２１は、複数の属性のうち抽出した画像データに指定された属性情報を入力する。この際、画像変換部２１は、画像データの変換規則を指示するプロンプトを画像変換モデル４１に対して入力する。
ステップＳ１１において抽出される１つの画像データは、物体検知モデルの学習前モデル評価段階において、特定の属性が検知できなかった画像あるいは、別の属性が検知された画像が望ましい。

例えば、画像変換部２１は、図３に示すように、画像データ及び属性情報とともに、画像データの変換規則を指示するプロンプトを画像変換モデル４１に対して入力する。変換規則では、ランダムに変更するものと、絶対に変更しないものとが指定される。
ランダムに変更するものとしては、衣服の種類、性別、背景等が指定される。その他、光の当たり方、人数といった項目が状況に応じて指定されてもよい。
絶対に変更しないものとしては、属性情報に関する情報と、画角情報とが指定される。属性情報に関する情報とは、属性情報そのものだけでなく、属性情報に付随するものも含まれる。例えば、属性情報が白杖である場合には、属性情報に付随するものとは、白杖を右手で持っていること等である。図３のプロンプトでは、単に「＄｛属性情報｝に関する情報」と指定しているが、より具体的に「＄｛属性情報｝と、＄｛属性情報｝を持つ手」のように指定してもよい。ここで、＄｛属性情報｝は、入力情報で指定された属性情報（上記例では「白杖」）を表す。つまり、「＄｛属性情報｝と、＄｛属性情報｝を持つ手」は、「白杖と、白杖を持つ手」と読み替えられる。その他の＄｛＊＊＊｝も同様に、入力情報における＊＊＊として指定された情報に置き換えられる。

画像変換部２１は、作成したい画像データが定まっている場合には、プロンプトとして作成したい画像データを詳細に指示してもよい。

（ステップＳ１２：画像変換処理）
画像変換モデル４１は、ステップＳ２１で入力された画像データを変換した変換後画像を指定枚数だけ生成する。そして、画像変換モデル４１は、指定枚数の変換後画像を出力する。指定枚数は、例えば、学習データ３１の画像データの数の１割程度の数である。
この際、画像変換モデル４１は、プロンプトでの指示に従い、ランダムに変更するものとして指定されたものについては、変換後画像毎にランダムに変更する。また、画像変換モデル４１は、絶対に変更しないものとして指定されたものについては変更しない。つまり、指定属性については、変更されず維持された変換後画像が生成される。ランダムに変更するものと、絶対に変更しないものとのいずれにも指定されていないものについては、任意に変更可能である。
画像変換部２１は、画像変換モデル４１によって出力された指定枚数の変換後画像を取得する。

（ステップＳ１３：学習データ追加処理）
学習データ追加部２２は、ステップＳ１２で画像変換部２１によって取得された指定枚数の変換後画像を学習データ３１に追加する。
図２で示した学習データ追加処理は、学習データに追加が必要な属性情報ごとに処理が実行される。

＊＊＊実施の形態１の効果＊＊＊
以上のように、実施の形態１に係る学習データ生成装置１０は、画像変換モデル４１に対して学習データである画像データを入力して、画像変換モデル４１によって画像データが変換された変換後画像を学習データ３１に加える。これにより、背景の変更、周辺に存在する物体の変更、光の当たり方の変更といった様々な変更を加えた画像データを生成することが可能である。そのため、検知精度を高めるために有効な画像データを生成可能にすることが可能である。

実施の形態１に係る学習データ生成装置１０は、危険な状況のように収集が困難な学習データを作成することが可能である。また、実施の形態１に係る学習データ生成装置１０は、収集が困難な学習データのバリエーションを増やすことが可能である。

実施の形態２．
実施の形態２は、画像データの説明文を生成させ、説明文を変換させ、変換された説明文から画像データを生成することにより、変換後画像を生成する点が実施の形態１と異なる。実施の形態２では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊構成の説明＊＊＊
図４を参照して、実施の形態２に係る学習データ生成装置１０の構成を説明する。
画像変換モデル４１は、文章生成モデル４２と、文書変換モデル４３と、画像生成モデル４４とを含む。
文章生成モデル４２は、画像データの説明文を生成するモデルである。文書変換モデル４３は、説明文を変換するモデルである。画像生成モデル４４は、説明文から画像データを生成するモデルである。

＊＊＊動作の説明＊＊＊
図５を参照して、実施の形態２に係る学習データ生成装置１０の処理を説明する。
（ステップＳ２１：画像入力処理）
画像変換部２１は、学習データ３１から１つの画像データを抽出する。画像変換部２１は、文章生成モデル４２に対して、抽出された画像データと、物体検知モデルの検知対象の属性である指定属性を示す属性情報とを入力する。物体検知モデルの検知対象の属性が複数存在する場合には、画像変換部２１は、複数の属性のうち１つ以上の属性を示す属性情報を入力する。この際、画像変換部２１は、説明文の生成規則を指示するプロンプトを文章生成モデル４２に対して入力する。

例えば、画像変換部２１は、図６に示すように、画像データ及び属性情報とともに、説明文の生成規則を指示するプロンプトを文章生成モデル４２に対して入力する。説明文の生成規則では、画角の情報と属性情報とについては必ず説明するように指定される。

（ステップＳ２２：説明文生成処理）
文章生成モデル４２は、ステップＳ２１で入力された画像データを説明した説明文を生成して出力する。この際、図７に示すように、文章生成モデル４２は、プロンプトでの指示に従い、画角の情報と属性情報とについての説明を含む画像データ全体の説明文を生成する。そして、画像変換部２１は、文章生成モデル４２によって出力された説明文を取得する。

（ステップＳ２３：説明文入力処理）
画像変換部２１は、文書変換モデル４３に対して、ステップＳ２２で取得された説明文と、物体検知モデルの検知対象の属性である指定属性を示す属性情報とを入力する。この際、画像変換部２１は、説明文の変換規則を指示するプロンプトを画像変換モデル４１に対して入力する。
例えば、画像変換部２１は、図８に示すように、説明文及び属性情報とともに、説明文の変換規則を指示するプロンプトを文書変換モデル４３に対して入力する。変換規則では、図３と同様に、ランダムに変更するものと、絶対に変更しない物とが指定される。また、図８では、説明文を英語に変換させている。これは、英語の説明文の方が、説明文から画像を生成する精度が高くなる傾向があるためである。

（ステップＳ２４：説明文変換処理）
文書変換モデル４３は、ステップＳ２３で入力された説明文を変換した変換後文を生成して出力する。そして、画像変換部２１は、文書変換モデル４３によって出力された変換後文を取得する。
この際、文書変換モデル４３は、プロンプトでの指示に従い、ランダムに変更するものとして指定されたものについては、変換後文毎にランダムに変更する。また、文書変換モデル４３は、絶対に変更しないものとして指定されたものについては変更しない。ランダムに変更するものと、絶対に変更しないものとのいずれにも指定されていないものについては、任意に変更可能である。また、文書変換モデル４３は、説明文を英文に変換する。なお、ここでは、変換後文が画像生成用プロンプトとして生成される。

（ステップＳ２５：変換後文入力処理）
画像変換部２１は、画像生成モデル４４に対して、ステップＳ２４で取得された変換後文（画像生成用プロンプト）を入力する。この際、画像変換部２１は、変換後文を表す画像データを指定枚数だけ生成するように指示するプロンプトを画像生成モデル４４に対して入力する。

（ステップＳ２６：画像生成処理）
画像生成モデル４４は、ステップＳ２５で入力された変換後文を表す画像データを指定枚数だけ生成する。画像生成モデル４４は、変換後文を表しつつ、画像データ毎にランダムに変更を加えて画像データを生成する。そして、画像生成モデル４４は、指定枚数の変換後画像を出力する。
画像変換部２１は、画像生成モデル４４によって出力された指定枚数の変換後画像を取得する。

（ステップＳ２７：学習データ追加処理）
学習データ追加部２２は、ステップＳ２６で画像変換部２１によって取得された指定枚数の変換後画像を学習データ３１に追加する。

＊＊＊実施の形態２の効果＊＊＊
以上のように、実施の形態２に係る学習データ生成装置１０は、画像データの説明文を生成させ、説明文を変換させ、変換された説明文から画像データを生成することにより、変換後画像を生成する。説明文を変換した変換後文を生成することで、変換した内容を明確化することができる。

また、実施の形態１に係る学習データ生成装置１０は、文章生成モデル４２と文書変換モデル４３と画像生成モデル４４とを別の生成ＡＩとすることができる。これにより、文書変換モデル４３を言語処理に特化したモデルとし、文章生成モデル４２と画像生成モデル４４とを画像処理に特化したモデルとするといったことが可能になる。その結果、処理速度を早くまた処理精度を高くすることが可能である。

＊＊＊他の構成＊＊＊
＜変形例１＞
実施の形態２では、１個の変換後文が生成され、１個の変換後文から指定枚数の変換後画像が生成された。指定枚数の変換後文が生成され、１個の変換後文から１個の変換後画像が生成されてもよい。また、Ｍ個の変換後文が生成され、１つの変換後文からＮ個の変換後画像が生成されてもよい。このとき、Ｍ及びＮは１以上の整数であり、Ｍ×Ｎ＝指定枚数である。

実施の形態３．
実施の形態３は、変換後画像を学習データ３１に追加するか否かを判断する点が実施の形態１，２と異なる。実施の形態３では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊構成の説明＊＊＊
図９を参照して、実施の形態３に係る学習データ生成装置１０の構成を説明する。
学習データ生成装置１０は、通信インタフェース１４を介して、物体検知モデル４５と、属性判定モデル４６と接続されている。
物体検知モデル４５は、画像データから検知対象の属性の物体を検知するモデルであり、学習データ３１を学習するモデルである。
属性判定モデル４６は、画像データに指定された属性の物体が含まれるか否か判定するモデルである。属性判定モデル４６は、画像変換モデル４１と同様に、いわゆる生成ＡＩである。

＊＊＊動作の説明＊＊＊
図１０を参照して、実施の形態３に係る学習データ追加処理（図２のステップＳ１３、図５のステップＳ２７）を説明する。
学習データ追加処理では、各変換後画像を対象として、以下の処理が実行される。

（ステップＳ３１：第１入力処理）
学習データ追加部２２は、物体検知モデル４５に対して、対象の変換後画像と、変換後画像を生成する際に入力とした属性情報とを入力する。変換後画像を生成する際に入力とした属性情報とは、図２のステップＳ１１又は図５のステップＳ２１で入力した属性情報である。

（ステップＳ３２：物体検知処理）
物体検知モデル４５は、ステップＳ３１で入力された対象の変換後画像から、ステップＳ３１で入力された属性情報が示す属性の物体を検知する。物体検知モデル４５は、検知結果と、検知の確信度とを出力する。
学習データ追加部２２は、物体検知モデル４５によって出力された検知結果及び確信度を取得する。

（ステップＳ３３：確信度判定処理）
学習データ追加部２２は、ステップＳ３２で取得された確信度が閾値以上であるか否かを判定する。
学習データ追加部２２は、確信度が閾値以上である場合には、対象の変換後画像を学習データ３１に追加せず、対象の変換後画像についての処理を終了する。一方、学習データ追加部２２は、確信度が閾値未満である場合には、処理をステップＳ３４に進める。

（ステップＳ３４：第２入力処理）
学習データ追加部２２は、属性判定モデル４６に対して、対象の変換後画像と、変換後画像を生成する際に入力とした属性情報とを入力する。この際、図１１に示すように、学習データ追加部２２は、入力された変換後画像に、入力された属性情報が示す属性の物体が存在するか否かを判定するように指示するプロンプトを属性判定モデル４６に入力する。

（ステップＳ３５：属性判定処理）
属性判定モデル４６は、ステップＳ３４で入力された対象の変換後画像に、ステップＳ３１で入力された属性情報が示す属性の物体が存在するか否かを判定する。属性判定モデル４６は、判定結果を出力する。
学習データ追加部２２は、属性判定モデル４６によって出力された判定結果を取得する。

（ステップＳ３６：結果判定処理）
学習データ追加部２２は、ステップＳ３５で取得された判定結果が、対象の変換後画像に物体が存在することを示す場合には、処理をステップＳ３７に進める。一方、学習データ追加部２２は、ステップＳ３５で取得された判定結果が、対象の変換後画像に物体が存在しないことを示す場合には、対象の変換後画像を学習データ３１に追加せず、対象の変換後画像についての処理を終了する。

（ステップＳ３７：追加処理）
学習データ追加部２２は、対象の変換後画像を、学習データ３１に追加する。

＊＊＊実施の形態３の効果＊＊＊
実施の形態３に係る学習データ生成装置１０は、物体検知モデル４５及び属性判定モデル４６を用いて変換後画像を学習データ３１に追加するか否かを判定する。これにより、検知精度を劣化させてしまうような変換後画像、あるいは、学習が不要な変換後画像を学習データ３１に追加してしまうことを防止可能である。
具体的にはステップＳ３３の判定では、現在の物体検知モデルで検知できるものを学習データ３１に追加しないことで物体検知モデルの過学習を防いでいる。また、ステップＳ３６の判定では、変換後画像で学習したい属性情報を有していないものを学習データ３１に追加しないことで、関係ない画像を学習データ３１に入れないようにしている。

＊＊＊他の構成＊＊＊
＜変形例２＞
実施の形態３では、物体検知モデル４５及び属性判定モデル４６を用いて登録可能になった変換後画像だけが学習データ３１に追加された。そのため、指定枚数の変換後画像が生成されても、指定枚数の変換後画像が学習データ３１に追加されるとは限らなかった。
そこで、学習データ追加部２２は、少なくとも一部の変換後画像が学習データ３１に追加されなかった場合には、処理を画像変換部２１に戻して、不足数の変換後画像を再生成させてもよい。不足数とは、指定枚数から学習データ３１に追加された変換後画像の数を減算した値である。つまり、学習データ追加部２２は、不足数を新たな指定枚数として、処理を図２のステップＳ１１又は図５のステップＳ２１からやり直させるようにしてもよい。

実施の形態４．
実施の形態４は、物体検知モデル４５の学習まで行う点が実施の形態３と異なる。実施の形態４では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊構成の説明＊＊＊
図１２を参照して、実施の形態４に係る学習データ生成装置１０の構成を説明する。
学習データ生成装置１０は、機能構成要素として、学習部２３を備える点が、図９に示す学習データ生成装置１０と異なる。学習部２３は、画像変換部２１及び学習データ追加部２２と同様に、ソフトウェアによって実現される。

＊＊＊動作の説明＊＊＊
図１３を参照して、実施の形態４に係る学習データ生成装置１０の処理を説明する。
（ステップＳ４１：生成追加処理）
画像変換部２１及び学習データ追加部２２は、実施の形態３で説明した処理により、学習データ３１に変換後画像を追加する。

（ステップＳ４２：学習処理）
学習部２３は、ステップＳ４１で変換後画像が追加された学習データ３１を用いて、物体検知モデル４５に学習させる。

（ステップＳ４３：モデル評価処理）
学習部２３は、ステップＳ４２で学習された物体検知モデル４５の評価を行う。物体検知モデル４５の評価は既存の技術を用いて行うことが可能である。
学習部２３は、ステップＳ４３で得られた評価が以前の評価よりも下がっている場合には、処理をステップＳ４４に進める。学習部２３は、ステップＳ４３で得られた評価が以前の評価以上であるが、基準に達していない場合には、処理をステップＳ４１に戻す。学習部２３は、ステップＳ４３で得られた評価が以前の評価以上であるが、基準に達している場合には、処理を終了する。

（ステップＳ４４：データ削除処理）
学習部２３は、ステップＳ４１で追加された変換後画像を学習データ３１から削除する。また、学習部２３は、物体検知モデル４５を、ステップＳ４２での学習前の状態に戻す。そして、学習部２３は、処理をステップＳ４１に戻す。

＊＊＊実施の形態４の効果＊＊＊
以上のように、実施の形態４に係る学習データ生成装置１０は、学習データ３１の追加と物体検知モデル４５の学習とを繰り返す。これにより、人手によることなく物体検知モデル４５の検知精度を高めることが可能である。

＊＊＊他の構成＊＊＊
＜変形例３＞
以上の実施の形態では、各機能構成要素がソフトウェアで実現された。しかし、変形例３として、各機能構成要素はハードウェアで実現されてもよい。この変形例３について、以上の実施の形態と異なる点を説明する。

各機能構成要素がハードウェアで実現される場合には、学習データ生成装置１０は、プロセッサ１１とメモリ１２とストレージ１３とに代えて、電子回路を備える。電子回路は、各機能構成要素と、メモリ１２と、ストレージ１３との機能とを実現する専用の回路である。

電子回路としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ、ＡＳＩＣ、ＦＰＧＡが想定される。ＧＡは、ＧａｔｅＡｒｒａｙの略である。ＡＳＩＣは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。ＦＰＧＡは、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。
各機能構成要素を１つの電子回路で実現してもよいし、各機能構成要素を複数の電子回路に分散させて実現してもよい。

＜変形例４＞
変形例４として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。

プロセッサ１１とメモリ１２とストレージ１３と電子回路とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。

また、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。

以下、本開示の諸態様を付記としてまとめて記載する。
（付記１）
画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得する画像変換部と、
前記画像変換部によって取得された前記変換後画像を前記学習データに加える学習データ追加部と
を備える学習データ生成装置。
（付記２）
前記画像変換部は、前記画像データに指定属性が含まれる状態を維持するように前記画像変換モデルに対して指示して、前記画像データを変換させる
付記１に記載の学習データ生成装置。
（付記３）
前記画像変換部は、前記画像データにおける指定属性に関する部分については変更せず、他の部分を変更するように前記画像変換モデルに対して指示して、前記画像データを変換させる
付記１又は２に記載の学習データ生成装置。
（付記４）
前記画像変換モデルは、画像データの説明文を生成する文章生成モデルと、説明文を変換する文書変換モデルと、説明文から画像データを生成する画像生成モデルとを含み、
前記画像変換部は、前記文章生成モデルに対して前記画像データを入力して、前記文章生成モデルによって生成された前記画像データの説明文を取得し、前記文書変換モデルに対して取得された前記説明文を入力して、前記文書変換モデルによって変換された変換後文を取得し、前記画像生成モデルに対して変換された前記変換後文を入力して、前記画像生成モデルによって生成された画像データを前記変換後画像として取得する
付記１又は２に記載の学習データ生成装置。
（付記５）
前記画像変換部は、前記説明文における指定属性に関する部分については変更せず、他の部分を変更するように前記文書変換モデルに対して指示して、前記説明文を変換させる付記４に記載の学習データ生成装置。
（付記６）
前記学習データ生成装置は、さらに、
前記物体検知モデルに対して前記画像変換部によって取得された前記変換後画像を入力して、前記物体検知モデルで物体を検知した確信度が評価閾値以上であるか否かを判定するデータ判定部
を備え、
前記学習データ追加部は、前記データ判定部によって前記確信度が前記評価閾値未満であると判定された場合に、前記変換後画像を前記学習データに加える
付記１から５までのいずれか１項に記載の学習データ生成装置。
（付記７）
前記データ判定部は、前記確信度が前記評価閾値未満である場合に、画像データに特定の属性の物体が存在するか否かを判定する属性判定モデルに対して、前記変換後画像と指定属性とを入力して、前記変換後画像に前記指定属性の物体が存在するか否かの判定結果を取得し、
前記学習データ追加部は、前記データ判定部によって前記変換後画像に前記指定属性の物体が存在するという判定結果が取得された場合に、前記変換後画像を前記学習データに加える
付記６に記載の学習データ生成装置。
（付記８）
コンピュータが、画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得し、
コンピュータが、前記変換後画像を前記学習データに加える学習データ生成方法。
（付記９）
画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得する画像変換処理と、
前記画像変換処理によって取得された前記変換後画像を前記学習データに加える学習データ追加処理と
を行う学習データ生成装置としてコンピュータを機能させる学習データ生成プログラム。

以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか１つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。

１０学習データ生成装置、１１プロセッサ、１２メモリ、１３ストレージ、１４通信インタフェース、２１画像変換部、２２学習データ追加部、２３学習部、３１学習データ、４１画像変換モデル、４２文章生成モデル、４３文書変換モデル、４４画像生成モデル、４５物体検知モデル、４６属性判定モデル。

Claims

画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得する画像変換部と、
前記画像変換部によって取得された前記変換後画像を前記学習データに加える学習データ追加部と
を備え、
前記画像変換モデルは、前記画像データの説明文を生成する文章生成モデルと、説明文を変換する文書変換モデルと、説明文から画像データを生成する画像生成モデルとを含み、
前記画像変換部は、前記文章生成モデルに対して前記画像データと指定属性を示す属性情報とを入力するとともに、前記画像データに含まれる前記属性情報が示す前記指定属性に関する説明と、前記画像データの画角についての説明とを含む説明文の生成を指示して、前記文章生成モデルによって生成された前記指定属性に関する説明と前記画角についての説明とを含む前記画像データの説明文を取得し、前記文書変換モデルに対して取得された前記説明文を入力するとともに、前記指定属性及び前記画角については変更せず、他の部分を変更するように指示して、前記文書変換モデルによって変換された変換後文を取得し、前記画像生成モデルに対して変換された前記変換後文を入力して、前記画像生成モデルによって生成された画像データを前記変換後画像として取得する学習データ生成装置。
前記学習データ生成装置は、さらに、
前記物体検知モデルに対して前記画像変換部によって取得された前記変換後画像を入力
して、前記物体検知モデルで物体を検知した確信度が評価閾値以上であるか否かを判定す
るデータ判定部
を備え、
前記学習データ追加部は、前記データ判定部によって前記確信度が前記評価閾値未満で
あると判定された場合に、前記変換後画像を前記学習データに加える
請求項１に記載の学習データ生成装置。
前記データ判定部は、前記確信度が前記評価閾値未満である場合に、画像データに特定の属性の物体が存在するか否かを判定する属性判定モデルに対して、前記変換後画像と指定属性とを入力して、前記変換後画像に前記指定属性の物体が存在するか否かの判定結果を取得し、
前記学習データ追加部は、前記データ判定部によって前記変換後画像に前記指定属性の物体が存在するという判定結果が取得された場合に、前記変換後画像を前記学習データに加える
請求項２に記載の学習データ生成装置。
コンピュータが、画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得し、
コンピュータが、前記変換後画像を前記学習データに加え、
前記画像変換モデルは、前記画像データの説明文を生成する文章生成モデルと、説明文を変換する文書変換モデルと、説明文から画像データを生成する画像生成モデルとを含み、
コンピュータが、前記文章生成モデルに対して前記画像データと指定属性を示す属性情報とを入力するとともに、前記画像データに含まれる前記属性情報が示す前記指定属性に関する説明と、前記画像データの画角についての説明とを含む説明文の生成を指示して、前記文章生成モデルによって生成された前記指定属性に関する説明と前記画角についての説明とを含む前記画像データの説明文を取得し、前記文書変換モデルに対して取得された前記説明文を入力するとともに、前記指定属性及び前記画角については変更せず、他の部分を変更するように指示して、前記文書変換モデルによって変換された変換後文を取得し、前記画像生成モデルに対して変換された前記変換後文を入力して、前記画像生成モデルによって生成された画像データを前記変換後画像として取得する学習データ生成方法。
画像データを変換する画像変換モデルに対して、物体検知モデルに学習させる学習データである画像データを入力して、前記画像変換モデルによって前記画像データが変換された変換後画像を取得する画像変換処理と、
前記画像変換処理によって取得された前記変換後画像を前記学習データに加える学習データ追加処理と
を行う学習データ生成装置としてコンピュータを機能させ、
前記画像変換モデルは、前記画像データの説明文を生成する文章生成モデルと、説明文を変換する文書変換モデルと、説明文から画像データを生成する画像生成モデルとを含み、
前記画像変換処理では、前記文章生成モデルに対して前記画像データと指定属性を示す属性情報とを入力するとともに、前記画像データに含まれる前記属性情報が示す前記指定属性に関する説明と、前記画像データの画角についての説明とを含む説明文の生成を指示して、前記文章生成モデルによって生成された前記指定属性に関する説明と前記画角についての説明とを含む前記画像データの説明文を取得し、前記文書変換モデルに対して取得された前記説明文を入力するとともに、前記指定属性及び前記画角については変更せず、他の部分を変更するように指示して、前記文書変換モデルによって変換された変換後文を取得し、前記画像生成モデルに対して変換された前記変換後文を入力して、前記画像生成モデルによって生成された画像データを前記変換後画像として取得する学習データ生成プログラム。