JP7786376B2

JP7786376B2 - 学習モデルの生成方法、情報処理装置、情報処理システム

Info

Publication number: JP7786376B2
Application number: JP2022540181A
Authority: JP
Inventors: 祐輝山本
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-07-31
Filing date: 2021-07-16
Publication date: 2025-12-16
Anticipated expiration: 2041-07-16
Also published as: JPWO2022024803A1; US12511762B2; WO2022024803A1; US20230289980A1

Description

本技術は、学習モデルの生成方法、情報処理装置、情報処理システムに関し、例えば、認識処理に用いられる認識器の再学習に係わる処理を実行する学習モデルの生成方法、情報処理装置、情報処理システムに関する。

人や車などの所定の物体を認識する技術について、さまざまな提案がなされている。例えば、特許文献１では、フレーム毎に顔が上下左右に振れたり、顔のサイズが変化したりする状況下においても、同一人物を検出し続ける技術についての提案がなされている。

特許第４３８９９５６号公報

人や車などの所定の物体の認識を、予め学習された認識器を用いて行う場合、以前間違った認識を行ったケースと同様のケースが発生した場合、間違った認識を行ってしまう可能性があった。間違った認識が繰り返されないように、認識器の性能を向上させることが望まれている。

本技術は、このような状況に鑑みてなされたものであり、認識器の性能を向上させることができるようにするものである。

本技術の一側面の学習モデルの生成方法は、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習し、第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する。

本技術の一側面の情報処理装置は、認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部を備え、第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する。

本技術の一側面の情報処理システムは、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部とを備え、前記抽出部は、第１の時刻に撮像されたフレームに対する前記認識処理部による認識結果のうち、前記所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、前記追跡部は、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、前記ラベル付与部は、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する。

本技術の一側面の学習モデルの生成方法においては、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物が、時系列的に逆向きの方向にトラッキングされ、前記トラッキングの結果に基づいて生成されたデータが用いられて、前記学習モデルが再学習され、第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果が、前記トラッキングの対象とする前記対象物とされ、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物がトラッキングされ、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルが付与される。

本技術の一側面の情報処理装置においては、認識器を用いた認識処理により認識された対象物が、時系列的に逆向きの方向にトラッキングされ、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルが再学習される再学習部が備えられ、第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルが付与される。

本技術の一側面の情報処理システムにおいては、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部とが備えられ、前記抽出部は、第１の時刻に撮像されたフレームに対する前記認識処理部による認識結果のうち、前記所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、前記追跡部は、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、前記ラベル付与部は、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

車両制御システムの構成例を示すブロック図である。センシング領域の例を示す図である。本技術を適用した情報処理装置の一実施の形態の構成例を示す図である。学習の仕方について説明するための図である。認識結果の一例を示す図である。認識結果の一例を示す図である。認識結果の一例を示す図である。認識結果の一例を示す図である。認識結果の一例を示す図である。トラッキングによる検出について説明するための図である。情報処理装置の動作について説明するためのフローチャートである。更新基準について説明するための図である。トラッキングの対象となるフレームについて説明するための図である。情報処理システムの構成を示す図である。情報処理装置の動作について説明するためのフローチャートである。サーバの動作について説明するためのフローチャートである。情報処理システムの構成を示す図である。情報処理装置の動作について説明するためのフローチャートである。サーバの動作について説明するためのフローチャートである。パーソナルコンピュータの構成例を示す図である。

以下に、本技術を実施するための形態（以下、実施の形態という）について説明する。

＜車両制御システムの構成例＞
図１は、本技術が適用される移動装置制御システムの一例である車両制御システム１１の構成例を示すブロック図である。

車両制御システム１１は、車両１に設けられ、車両１の走行支援及び自動運転に関わる処理を行う。

車両制御システム１１は、プロセッサ２１、通信部２２、地図情報蓄積部２３、ＧＮＳＳ（Global Navigation Satellite System）受信部２４、外部認識センサ２５、車内センサ２６、車両センサ２７、記録部２８、走行支援・自動運転制御部２９、ＤＭＳ（Driver Monitoring System）３０、ＨＭＩ（Human Machine Interface）３１、及び、車両制御部３２を備える。

プロセッサ２１、通信部２２、地図情報蓄積部２３、ＧＮＳＳ受信部２４、外部認識センサ２５、車内センサ２６、車両センサ２７、記録部２８、走行支援・自動運転制御部２９、ドライバモニタリングシステム（ＤＭＳ）３０、ヒューマンマシーンインタフェース（ＨＭＩ）３１、及び、車両制御部３２は、通信ネットワーク４１を介して相互に接続されている。通信ネットワーク４１は、例えば、ＣＡＮ（Controller Area Network）、ＬＩＮ（Local Interconnect Network）、ＬＡＮ（Local Area Network）、ＦｌｅｘＲａｙ（登録商標）、イーサネット（登録商標）等の任意の規格に準拠した車載通信ネットワークやバス等により構成される。なお、車両制御システム１１の各部は、通信ネットワーク４１を介さずに、例えば、近距離無線通信（ＮＦＣ（Near Field Communication））やＢｌｕｅｔｏｏｔｈ（登録商標）等により直接接続される場合もある。

なお、以下、車両制御システム１１の各部が、通信ネットワーク４１を介して通信を行う場合、通信ネットワーク４１の記載を省略するものとする。例えば、プロセッサ２１と通信部２２が通信ネットワーク４１を介して通信を行う場合、単にプロセッサ２１と通信部２２とが通信を行うと記載する。

プロセッサ２１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＥＣＵ（Electronic Control Unit）等の各種のプロセッサにより構成される。プロセッサ２１は、車両制御システム１１全体の制御を行う。

通信部２２は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行う。車外との通信としては、例えば、通信部２２は、車両制御システム１１の動作を制御するソフトウエアを更新するためのプログラム、地図情報、交通情報、車両１の周囲の情報等を外部から受信する。例えば、通信部２２は、車両１に関する情報（例えば、車両１の状態を示すデータ、認識部７３による認識結果等）、車両１の周囲の情報等を外部に送信する。例えば、通信部２２は、ｅコール等の車両緊急通報システムに対応した通信を行う。

なお、通信部２２の通信方式は特に限定されない。また、複数の通信方式が用いられてもよい。

車内との通信としては、例えば、通信部２２は、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ、ＷＵＳＢ（Wireless USB）等の通信方式により、車内の機器と無線通信を行う。例えば、通信部２２は、図示しない接続端子（及び、必要であればケーブル）を介して、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface、登録商標）、又は、ＭＨＬ（Mobile High-definition Link）等の通信方式により、車内の機器と有線通信を行う。

ここで、車内の機器とは、例えば、車内において通信ネットワーク４１に接続されていない機器である。例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。

例えば、通信部２２は、４Ｇ（第４世代移動通信システム）、５Ｇ（第５世代移動通信システム）、ＬＴＥ（Long Term Evolution）、ＤＳＲＣ（Dedicated Short Range Communications）等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク（例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク）上に存在するサーバ等と通信を行う。

例えば、通信部２２は、Ｐ２Ｐ（Peer To Peer）技術を用いて、自車の近傍に存在する端末（例えば、歩行者若しくは店舗の端末、又は、ＭＴＣ（Machine Type Communication）端末）と通信を行う。例えば、通信部２２は、Ｖ２Ｘ通信を行う。Ｖ２Ｘ通信とは、例えば、他の車両との間の車車間（Vehicle to Vehicle）通信、路側器等との間の路車間（Vehicle to Infrastructure）通信、家との間（Vehicle to Home）の通信、及び、歩行者が所持する端末等との間の歩車間（Vehicle to Pedestrian）通信等である。

例えば、通信部２２は、電波ビーコン、光ビーコン、ＦＭ多重放送等の道路交通情報通信システム（ＶＩＣＳ（Vehicle Information and Communication System）、登録商標）により送信される電磁波を受信する。

地図情報蓄積部２３は、外部から取得した地図及び車両１で作成した地図を蓄積する。例えば、地図情報蓄積部２３は、３次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。

高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップ（ＡＤＡＳ（Advanced Driver Assistance System）マップともいう）等である。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の４層からなる地図であり、外部のサーバ等から提供される。ポイントクラウドマップは、ポイントクラウド（点群データ）により構成される地図である。ベクターマップは、車線や信号の位置等の情報をポイントクラウドマップに対応付けた地図である。ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、レーダ５２、ＬｉＤＡＲ５３等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両１で作成され、地図情報蓄積部２３に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両１がこれから走行する計画経路に関する、例えば数百メートル四方の地図データがサーバ等から取得される。

ＧＮＳＳ受信部２４は、ＧＮＳＳ衛星からＧＮＳＳ信号を受信し、走行支援・自動運転制御部２９に供給する。

外部認識センサ２５は、車両１の外部の状況の認識に用いられる各種のセンサを備え、各センサからのセンサデータを車両制御システム１１の各部に供給する。外部認識センサ２５が備えるセンサの種類や数は任意である。

例えば、外部認識センサ２５は、カメラ５１、レーダ５２、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）５３、及び、超音波センサ５４を備える。カメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４の数は任意であり、各センサのセンシング領域の例は後述する。

なお、カメラ５１には、例えば、ＴｏＦ（Time Of Flight）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ等の任意の撮影方式のカメラが、必要に応じて用いられる。

また、例えば、外部認識センサ２５は、天候、気象、明るさ等を検出するための環境センサを備える。環境センサは、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等を備える。

さらに、例えば、外部認識センサ２５は、車両１の周囲の音や音源の位置の検出等に用いられるマイクロフォンを備える。

車内センサ２６は、車内の情報を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム１１の各部に供給する。車内センサ２６が備えるセンサの種類や数は任意である。

例えば、車内センサ２６は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサ等を備える。カメラには、例えば、ＴｏＦカメラ、ステレオカメラ、単眼カメラ、赤外線カメラ等の任意の撮影方式のカメラを用いることができる。生体センサは、例えば、シートやステアリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。

車両センサ２７は、車両１の状態を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム１１の各部に供給する。車両センサ２７が備えるセンサの種類や数は任意である。

例えば、車両センサ２７は、速度センサ、加速度センサ、角速度センサ（ジャイロセンサ）、及び、慣性計測装置（ＩＭＵ（Inertial Measurement Unit））を備える。例えば、車両センサ２７は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを備える。例えば、車両センサ２７は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを備える。例えば、車両センサ２７は、バッテリの残量及び温度を検出するバッテリセンサ、及び、外部からの衝撃を検出する衝撃センサを備える。

記録部２８は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disc Drive）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。記録部２８は、車両制御システム１１の各部が用いる各種プログラムやデータ等を記録する。例えば、記録部２８は、自動運転に関わるアプリケーションプログラムが動作するＲＯＳ（Robot Operating System）で送受信されるメッセージを含むrosbagファイルを記録する。例えば、記録部２８は、ＥＤＲ（Event Data Recorder）やＤＳＳＡＤ（Data Storage System for Automated Driving）を備え、事故等のイベントの前後の車両１の情報を記録する。

走行支援・自動運転制御部２９は、車両１の走行支援及び自動運転の制御を行う。例えば、走行支援・自動運転制御部２９は、分析部６１、行動計画部６２、及び、動作制御部６３を備える。

分析部６１は、車両１及び周囲の状況の分析処理を行う。分析部６１は、自己位置推定部７１、センサフュージョン部７２、及び、認識部７３を備える。

自己位置推定部７１は、外部認識センサ２５からのセンサデータ、及び、地図情報蓄積部２３に蓄積されている高精度地図に基づいて、車両１の自己位置を推定する。例えば、自己位置推定部７１は、外部認識センサ２５からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両１の自己位置を推定する。車両１の位置は、例えば、後輪対車軸の中心が基準とされる。

ローカルマップは、例えば、ＳＬＡＭ（Simultaneous Localization and Mapping）等の技術を用いて作成される３次元の高精度地図、占有格子地図（Occupancy Grid Map）等である。３次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両１の周囲の３次元又は２次元の空間を所定の大きさのグリッド（格子）に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部７３による車両１の外部の状況の検出処理及び認識処理にも用いられる。

なお、自己位置推定部７１は、ＧＮＳＳ信号、及び、車両センサ２７からのセンサデータに基づいて、車両１の自己位置を推定してもよい。

センサフュージョン部７２は、複数の異なる種類のセンサデータ（例えば、カメラ５１から供給される画像データ、及び、レーダ５２から供給されるセンサデータ）を組み合わせて、新たな情報を得るセンサフュージョン処理を行う。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等がある。

認識部７３は、車両１の外部の状況の検出処理及び認識処理を行う。

例えば、認識部７３は、外部認識センサ２５からの情報、自己位置推定部７１からの情報、センサフュージョン部７２からの情報等に基づいて、車両１の外部の状況の検出処理及び認識処理を行う。

具体的には、例えば、認識部７３は、車両１の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複する場合がある。

例えば、認識部７３は、ＬｉＤＡＲ又はレーダ等のセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両１の周囲の物体を検出する。これにより、車両１の周囲の物体の有無、大きさ、形状、位置が検出される。

例えば、認識部７３は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両１の周囲の物体の動きを検出する。これにより、車両１の周囲の物体の速度及び進行方向（移動ベクトル）が検出される。

例えば、認識部７３は、カメラ５１から供給される画像データに対してセマンティックセグメンテーション等の物体認識処理を行うことにより、車両１の周囲の物体の種類を認識する。

なお、検出又は認識対象となる物体としては、例えば、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示等が想定される。

例えば、認識部７３は、地図情報蓄積部２３に蓄積されている地図、自己位置の推定結果、及び、車両１の周囲の物体の認識結果に基づいて、車両１の周囲の交通ルールの認識処理を行う。この処理により、例えば、信号の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線等が認識される。

例えば、認識部７３は、車両１の周囲の環境の認識処理を行う。認識対象となる周囲の環境としては、例えば、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。

行動計画部６２は、車両１の行動計画を作成する。例えば、行動計画部６２は、経路計画、経路追従の処理を行うことにより、行動計画を作成する。

なお、経路計画（Global path planning）とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、経路計画で計画された経路において、車両１の運動特性を考慮して、車両１の近傍で安全かつ滑らかに進行することが可能な軌道生成（Local path planning）の処理も含まれる。

経路追従とは、経路計画により計画した経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。例えば、車両１の目標速度と目標角速度が計算される。

動作制御部６３は、行動計画部６２により作成された行動計画を実現するために、車両１の動作を制御する。

例えば、動作制御部６３は、ステアリング制御部８１、ブレーキ制御部８２、及び、駆動制御部８３を制御して、軌道計画により計算された軌道を車両１が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部６３は、衝突回避あるいは衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のＡＤＡＳの機能実現を目的とした協調制御を行う。例えば、動作制御部６３は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。

ＤＭＳ３０は、車内センサ２６からのセンサデータ、及び、ＨＭＩ３１に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行う。認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。

なお、ＤＭＳ３０が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、ＤＭＳ３０が、車内センサ２６からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。

ＨＭＩ３１は、各種のデータや指示等の入力に用いられ、入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム１１の各部に供給する。例えば、ＨＭＩ３１は、タッチパネル、ボタン、マイクロフォン、スイッチ、及び、レバー等の操作デバイス、並びに、音声やジェスチャ等により手動操作以外の方法で入力可能な操作デバイス等を備える。なお、ＨＭＩ３１は、例えば、赤外線若しくはその他の電波を利用したリモートコントロール装置、又は、車両制御システム１１の操作に対応したモバイル機器若しくはウェアラブル機器等の外部接続機器であってもよい。

また、ＨＭＩ３１は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成及び出力、並びに、出力内容、出力タイミング、出力方法等を制御する出力制御を行う。視覚情報は、例えば、操作画面、車両１の状態表示、警告表示、車両１の周囲の状況を示すモニタ画像等の画像や光により示される情報である。聴覚情報は、例えば、ガイダンス、警告音、警告メッセージ等の音声により示される情報である。触覚情報は、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報である。

視覚情報を出力するデバイスとしては、例えば、表示装置、プロジェクタ、ナビゲーション装置、インストルメントパネル、ＣＭＳ（Camera Monitoring System）、電子ミラー、ランプ等が想定される。表示装置は、通常のディスプレイを有する装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、ＡＲ（Augmented Reality）機能を備えるウエアラブルデバイス等の搭乗者の視界内に視覚情報を表示する装置であってもよい。

聴覚情報を出力するデバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホン等が想定される。

触覚情報を出力するデバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子等が想定される。ハプティクス素子は、例えば、ステアリングホイール、シート等に設けられる。

車両制御部３２は、車両１の各部の制御を行う。車両制御部３２は、ステアリング制御部８１、ブレーキ制御部８２、駆動制御部８３、ボディ系制御部８４、ライト制御部８５、及び、ホーン制御部８６を備える。

ステアリング制御部８１は、車両１のステアリングシステムの状態の検出及び制御等を行う。ステアリングシステムは、例えば、ステアリングホイール等を備えるステアリング機構、電動パワーステアリング等を備える。ステアリング制御部８１は、例えば、ステアリングシステムの制御を行うＥＣＵ等の制御ユニット、ステアリングシステムの駆動を行うアクチュエータ等を備える。

ブレーキ制御部８２は、車両１のブレーキシステムの状態の検出及び制御等を行う。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ＡＢＳ（Antilock Brake System）等を備える。ブレーキ制御部８２は、例えば、ブレーキシステムの制御を行うＥＣＵ等の制御ユニット、ブレーキシステムの駆動を行うアクチュエータ等を備える。

駆動制御部８３は、車両１の駆動システムの状態の検出及び制御等を行う。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を備える。駆動制御部８３は、例えば、駆動システムの制御を行うＥＣＵ等の制御ユニット、駆動システムの駆動を行うアクチュエータ等を備える。

ボディ系制御部８４は、車両１のボディ系システムの状態の検出及び制御等を行う。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を備える。ボディ系制御部８４は、例えば、ボディ系システムの制御を行うＥＣＵ等の制御ユニット、ボディ系システムの駆動を行うアクチュエータ等を備える。

ライト制御部８５は、車両１の各種のライトの状態の検出及び制御等を行う。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部８５は、ライトの制御を行うＥＣＵ等の制御ユニット、ライトの駆動を行うアクチュエータ等を備える。

ホーン制御部８６は、車両１のカーホーンの状態の検出及び制御等を行う。ホーン制御部８６は、例えば、カーホーンの制御を行うＥＣＵ等の制御ユニット、カーホーンの駆動を行うアクチュエータ等を備える。

図２は、図１の外部認識センサ２５のカメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４によるセンシング領域の例を示す図である。

センシング領域１０１Ｆ及びセンシング領域１０１Ｂは、超音波センサ５４のセンシング領域の例を示している。センシング領域１０１Ｆは、車両１の前端周辺をカバーしている。センシング領域１０１Ｂは、車両１の後端周辺をカバーしている。

センシング領域１０１Ｆ及びセンシング領域１０１Ｂにおけるセンシング結果は、例えば、車両１の駐車支援等に用いられる。

センシング領域１０２Ｆ乃至センシング領域１０２Ｂは、短距離又は中距離用のレーダ５２のセンシング領域の例を示している。センシング領域１０２Ｆは、車両１の前方において、センシング領域１０１Ｆより遠い位置までカバーしている。センシング領域１０２Ｂは、車両１の後方において、センシング領域１０１Ｂより遠い位置までカバーしている。センシング領域１０２Ｌは、車両１の左側面の後方の周辺をカバーしている。センシング領域１０２Ｒは、車両１の右側面の後方の周辺をカバーしている。

センシング領域１０２Ｆにおけるセンシング結果は、例えば、車両１の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域１０２Ｂにおけるセンシング結果は、例えば、車両１の後方の衝突防止機能等に用いられる。センシング領域１０２Ｌ及びセンシング領域１０２Ｒにおけるセンシング結果は、例えば、車両１の側方の死角における物体の検出等に用いられる。

センシング領域１０３Ｆ乃至センシング領域１０３Ｂは、カメラ５１によるセンシング領域の例を示している。センシング領域１０３Ｆは、車両１の前方において、センシング領域１０２Ｆより遠い位置までカバーしている。センシング領域１０３Ｂは、車両１の後方において、センシング領域１０２Ｂより遠い位置までカバーしている。センシング領域１０３Ｌは、車両１の左側面の周辺をカバーしている。センシング領域１０３Ｒは、車両１の右側面の周辺をカバーしている。

センシング領域１０３Ｆにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム等に用いられる。センシング領域１０３Ｂにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステム等に用いられる。センシング領域１０３Ｌ及びセンシング領域１０３Ｒにおけるセンシング結果は、例えば、サラウンドビューシステム等に用いられる。

センシング領域１０４は、ＬｉＤＡＲ５３のセンシング領域の例を示している。センシング領域１０４は、車両１の前方において、センシング領域１０３Ｆより遠い位置までカバーしている。一方、センシング領域１０４は、センシング領域１０３Ｆより左右方向の範囲が狭くなっている。

センシング領域１０４におけるセンシング結果は、例えば、緊急ブレーキ、衝突回避、歩行者検出等に用いられる。

センシング領域１０５は、長距離用のレーダ５２のセンシング領域の例を示している。センシング領域１０５は、車両１の前方において、センシング領域１０４より遠い位置までカバーしている。一方、センシング領域１０５は、センシング領域１０４より左右方向の範囲が狭くなっている。

センシング領域１０５におけるセンシング結果は、例えば、ＡＣＣ（Adaptive Cruise Control）等に用いられる。

なお、各センサのセンシング領域は、図２以外に各種の構成をとってもよい。具体的には、超音波センサ５４が車両１の側方もセンシングするようにしてもよいし、ＬｉＤＡＲ５３が車両１の後方をセンシングするようにしてもよい。

＜情報処理装置の構成例＞
図３は、本技術を適用した情報処理装置の一実施の形態の構成を示す図である。情報処理装置１１０は、例えば車両１に車載され、撮像された画像を解析して、人や車といった所定の物体を認識する装置として用いることができる。本実施の形態における情報処理装置１１０は、認識処理を実行するときに、機械学習などの学習モデルが適用された認識器を用いて認識を行い、誤検出が少なくなるように、認識器を更新する機能を有する。

図３に示した情報処理装置１１０は、画像取得部１２１、認識処理部１２２、抽出部１２３、認識対象追跡部１２４、ラベル付与部１２５、再学習部１２６、および認識器更新部１２７を備えている。

画像取得部１２１は、画像を撮像する撮像部（不図示）により撮像された画像の画像データを取得する。画像取得部１２１は、例えば、カメラ５１（図１）により撮像された画像を取得する。認識処理部１２２は、画像取得部１２１で取得された画像を解析し、人や車といった所定の物体を、認識器（学習モデル）を用いて認識する。認識処理部１２２は、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を実行する。

情報処理装置１１０が、例えば車載に搭載されているような場合、情報処理装置１１０で認識された認識結果を、認識された物体を避けるためのハンドル操作やブレーキ操作を補助したりするための半自動運転に用いることができる。

情報処理装置１１０の認識処理部１２２からの認識結果は、抽出部１２３に供給される。抽出部１２３は、後述する認識器の更新を行う条件が満たされている認識結果を抽出する。抽出部１２３からの抽出結果は、認識対象追跡部１２４に供給される。認識対象追跡部１２４は、抽出された認識結果を、複数フレームにわたって追跡する。この複数フレームは、時系列的に逆向きの方向（過去の方向）で撮像されたフレームであり、認識対象追跡部１２４は、時系列に逆向きの方向に認識対象を追跡する処理を実行する。

認識対象追跡部１２４による追跡結果は、ラベル付与部１２５に供給される。ラベル付与部１２５は、追跡された認識対象にラベルを付与する。ラベルが付与された認識対象は、再学習部１２６に供給される。再学習部１２６は、ラベルが付与されている認識対象を用いて認識器の再学習を行う。再学習により生成された新たな認識器は、認識器更新部１２７に供給される。認識器更新部１２７は、認識処理部１２２の認識器を、再学習部１２６により再学習された認識器に更新する。

再学習部１２６は、認識処理部１２２の認識器が有するパラメータ（モデルパラメータと称されることがあるパラメータ）の学習を実行する機能を有する。学習には、例えば、ＲＮＮ（Recurrent Neural Network：再帰型ニューラルネットワーク）、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）等のニューラルネットワークを用いた各種の機械学習技術が用いることができる。

学習処理について、図４を参照して説明を加える。認識器には、画像に写されている複数の被写体を分類するラベルが予め作成されているラベル有り画像が入力される。例えば、認識器は、ラベル有り画像に対する画像認識を行って、そのラベル有り画像に写されている複数の被写体を認識し、それぞれの被写体を分類した認識結果を出力する。

認識器から出力される認識結果と、ラベル有り画像についての正解ラベルとの比較が行われ、認識結果を正解ラベルに近づけるように認識器に対するフィードバックが行われる。このように、正解ラベルを用いて、認識器（の学習モデル）がより正確な認識を行うように学習が行われる。学習済みの学習モデルを用いて、認識処理部１２２が認識処理を行うように構成することができる。

なおここで示した学習処理は、一例であり、他の学習処理により学習が行われたり、他の学習処理により得られた認識器が用いられたりする場合にも本技術を適用することはできる。学習処理として、ラベル有り画像や正解ラベルを用いない学習処理を、本技術に適用することも可能である。

再学習部１２６は、図４に示したような学習処理により認識器（学習モデル）を再学習する。例えば、認識処理部１２２からの認識結果を、ラベル有り画像として用い、ラベル付与部１２５によりラベルが付与された画像を、正解ラベルとして用いて、認識器の再学習を行う。

再学習は、所定の時刻に撮像されたフレームを基準として、その基準とされたフレームより前の時点で撮像されている数フレームが用いられて再学習が行われる。再学習は、誤検出が少なくなる認識器を生成するために行われるが、誤検出としては、認識対象、例えば人や車といった物体が、画像に写っているにもかかわらず検出されなかった場合や、検出はされたが誤った物体として検出された場合、例えば、人であるのに車であると検出された場合などがある。

このような誤検出と再学習について、以下に撮像された画像例を参照しながら説明を加える。ここでは、車載カメラにより撮像された画像を処理する場合を例に挙げて説明を行う。

図５乃至図９は、時刻ｔ１、時刻ｔ２、時刻ｔ３、時刻ｔ４、時刻ｔ５にそれぞれ撮像された画像（フレーム）の一例を示す図である。図５乃至図９には、フレームＦ１乃至Ｆ５がそれぞれ認識処理部１２２で処理されることにより認識（検出）された物体に対して表示される検出枠も図示してある。時刻ｔ１、時刻ｔ２、時刻ｔ３、時刻ｔ４、時刻ｔ５の順に時間が経過する、換言すれば、時刻ｔ１が最も古く（過去）、時刻ｔ５が最も新しい（現時点）として説明を続ける。

図５に示したフレームＦ１の左側には、車Ｃ１１と車Ｃ１２が撮像され、前方には車Ｃ１３が撮像されている。また、右側には、人Ｈ１１が撮像されている。フレームＦ１が認識処理部１２２（図３）で処理されることで、車Ｃ１１、車Ｃ１２、および車Ｃ１３が検出される。検出された物体は、四角形状の検出枠で囲まれる。

図５では、車Ｃ１１は、検出枠ＢＣ１１で囲まれ、車Ｃ１２は、検出枠ＢＣ１２で囲まれ、車Ｃ１３は、検出枠ＢＣ１３で囲まれている。図５に示した例では、人Ｈ１１は撮像されているが、検出されていないため、検出枠は表示されていない。

車や人といった所定の物体を検出する方法として、セマンティックセグメンテーション（Semantic Segmentation）、インスタンスセグメンテーション（Instance Segmentation）、パノプティックセグメンテーション（Panoptic Segmentation）などを適用することができる。

セマンティックセグメンテーションは、画像上の全てのピクセルをクラスに分類し、ピクセル毎にラベルを付ける方法である。インスタンスセグメンテーションは、物体毎の領域を分割し、物体の種類を認識する方法である。パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた方法であり、物体の種類を認識することができ、全てのピクセルに対してラベルが付けを行うことができる方法である。

ここでは、パノプティックセグメンテーションを適用しているとして説明を続けるが、本技術はパノプティックセグメンテーション以外の上記した方法や、ここでは例示していない認識方法であっても、本技術に適用できる。

なお、パノプティックセグメンテーションにより認識を行った場合、その結果を、図５に示したような画像として表示した場合、同一ラベルが付けられたピクセルを同一色で表示することができる。例えば、車Ｃ１１とのラベルが付けられたピクセルを赤色で表し、車Ｃ１２とのラベルが付けられたピクセルを青色で表しといったように、異なる物体は、異なる色で表示することができる。図５乃至図９においては、色は図示していないが、異なる物体は異なる物体として検出され、それぞれ異なる色で表示されている。

図５に示したフレームＦ１では、人Ｈ１１が撮像されているが、人Ｈ１１は検出されていないという誤検出が発生している。

図６は、時刻ｔ１よりも後の時刻（所定の時間が経過した時刻）の時刻ｔ２において撮像されたフレームＦ２の一例を示す図である。車が前進したため、フレームＦ１（図５）に撮像されていた車Ｃ１１と車Ｃ１２は、撮像範囲外になり、フレームＦ２には撮像されていない状態である。車Ｃ２３は、フレームＦ１における車Ｃ１３に該当し、フレーム２においても検出され、検出枠ＢＣ２３で囲まれている。

フレームＦ２では、人Ｈ１１（図５）に該当する人Ｈ２１も撮像されているが、検出されていない状態である。フレームＦ２では、新たに、人Ｈ２２と人Ｈ２３が検出され、それぞれ検出枠ＢＨ２２と検出枠ＢＨ２３で囲まれている。

検出枠は、ラベルにより異なる色や線種で表示することができる。図６では、車というラベルが付けられた認識結果には、実線の検出枠が表示され、人というラベルが付けられた認識結果には、点線の検出枠が表示される例を示している。

図７は、時刻ｔ２よりも後の時刻の時刻ｔ３において撮像されたフレームＦ３の一例を示す図である。フレームＦ３には、人Ｈ１１（図５）、人Ｈ２１（図６）に該当する人Ｈ３１と、人Ｈ２２（図６）に該当する人Ｈ３２が撮像されている。人Ｈ３１と人Ｈ３２は、それぞれ検出されている。人Ｈ３１は、誤って車として検出されたため、車のラベルが付けられ、車のときに表示される検出枠ＢＣ３１が人Ｈ３１を囲むように表示されている。人Ｈ３２は、正しく人として検出されたため、人のときに表示される検出枠ＢＨ３２が人Ｈ３２を囲むように表示されている。

図８は、時刻ｔ３よりも後の時刻の時刻ｔ４において撮像されたフレームＦ４の一例を示す図である。フレームＦ４には、人Ｈ１１（図５）、人Ｈ２１（図６）、人Ｈ３１（図７）に該当する人Ｈ４１と、人Ｈ４４が撮像されている。人Ｈ４１と人Ｈ４４は、それぞれ人として正しく検出されているため、人のときに表示される検出枠ＢＨ４１と検出枠ＢＨ４４がそれぞれ表示されている。

図９は、時刻ｔ４よりも後の時刻の時刻ｔ５において撮像されたフレームＦ５の一例を示す図である。フレームＦ５には、人Ｈ１１（図５）、人Ｈ２１（図６）、人Ｈ３１（図７）、人Ｈ４１（図８）に該当する人Ｈ５１と、人Ｈ４４（図９）に該当する人Ｈ５４が撮像されている。人Ｈ５１と人Ｈ５４は、それぞれ人として正しく検出されているため、人のときに表示される検出枠ＢＨ５１と検出枠ＢＨ５４がそれぞれ表示されている。

このようにフレームＦ１乃至Ｆ５が撮像され、認識処理結果が出された場合について考える。図１０は、フレームＦ１とフレームＦ５を並べて図示した図である。図１０では人Ｈ１１と人Ｈ５１に注目する。フレームＦ１では、人Ｈ１１は撮像されているが、検出はされていない状態である。フレームＦ５では、人Ｈ５１は撮像され、検出されている状態である。

フレームＦ１において撮像されている人Ｈ１１は、フレームＦ１の時点では検出されていない。換言すれば、フレームＦ１においては、検出されるべき人Ｈ１１が検出されていないという誤検出が発生している。

人Ｈ１１は、フレームＦ５においては、人Ｈ５１として検出されている。人Ｈ１１は、人Ｈ２１（フレームＦ２）、人Ｈ３１（フレームＦ３）、人Ｈ４１（フレームＦ４）、および人Ｈ５１（フレームＨ５）として撮像されている。すなわち人Ｈ１１は、フレームＦ１からＦ５まで連続的に撮像されている。このようなとき、フレームＦ５、フレームＦ４、フレームＦ３、フレームＦ２、フレームＦ１の順で人Ｈ５１をトラッキングした場合、人Ｈ５１、人Ｈ４１、人Ｈ３１、人Ｈ２１、人Ｈ１１の順で検出（トラッキング）することができる。

過去にさかのぼるトラッキングを行うことで、各フレームで人Ｈ５１に該当する人に対して、ラベルを付けることができる。例えば、フレームＦ１において、人Ｈ１１にラベルを付けることができる。このラベルを付けたフレームＦ１を用いた学習を行うことで、フレームＦ１のような画像から人Ｈ１１を検出して、ラベルを付けることができる認識器を生成することができる。

フレームＦ３（図７）において、人Ｈ３１は、車として検出されるという誤検出が発生しているが、フレームＦ３に対しても、フレームＦ５、フレームＦ４からのトラッキングが行われることで、人Ｈ５１、人Ｈ４１、人Ｈ３１とトラッキングが行われるため、人Ｈ３１は、人というラベルが付けられる。人Ｈ３１に対して人というラベルが付けられたフレームＦ３を用いた学習を行うことで、フレームＦ３のような画像から人Ｈ３１を検出し、人という正しいラベルを付けることができる認識器を生成することができる。

フレームＦ５では、人Ｈ５１と人Ｈ５４が撮像されている。人Ｈ５４に該当する人は、フレームＦ３乃至Ｆ１では検出されていない。仮に、フレームＦ３乃至Ｆ１においても、人Ｈ５４に該当する人が撮像されていた場合、人Ｈ５４に該当する人を過去方向にトラッキングすることで、人Ｈ５４に該当する人を、フレームＦ３乃至Ｆ１において検出し、ラベルを付けることができる。トラッキングの結果、フレームＦ３乃至Ｆ１においても、人Ｈ５４に該当する人にラベルが付けられれば、そのフレームＦ３乃至Ｆ１を用いた学習を行うことで、フレームＦ３乃至Ｆ１のような画像においても、人Ｈ５４に該当する人を検出できる認識器を生成することができる。

このように、時間方向で逆向きにたどることで、検出されていなかった物体を検出したり、誤った認識が行われた物体を正しい認識で検出したりすることができる。そのような時間方向で逆向きにたどることで新たにラベル付けがされた画像を用いた学習を行うことができる。その結果、誤検出が少ない認識器（学習モデル）を生成することができる。

＜情報処理装置の処理について＞
情報処理装置１１０は、このような学習（再学習）に係わる処理を実行する。図１１に示したフローチャートを参照し、情報処理装置１１０（図３）の処理について説明する。

ステップＳ１１１において、画像取得部１２１は、画像データ（フレーム）を取得する。ステップＳ１１２において、認識処理部１２２は、画像取得部１２１で取得された画像データに基づく画像を解析することで、認識処理を行う学習モデルが適用された認識器を用いた認識処理を実行する。認識処理部１２２が行う認識処理は、人や車といった所定の物体を認識する認識器を用いた処理であり、例えば、図５を参照して説明したように、フレームＦ１から、車Ｃ１１を検出し、車というラベルを付与する処理である。

ステップＳ１１３において、抽出部１２３は、更新基準を満たす認識結果を抽出する。更新基準とは、認識器の更新が必要なデータか否かを判定する基準である。更新基準とは、認識結果のうち、以下に説明する基準を満たす認識結果があった場合、再学習を行うと判定するための基準である。

ここでは、認識処理部１２２の認識処理で検出された物体を認識結果と記載し、抽出部１２３で抽出された認識結果を、認識対象と記載する。後述するように、認識対象は、トラッキングの対象となる認識結果である。更新基準について図１２を参照して説明する。

図１２のＡに示すように、第１の更新基準として、認識結果のサイズＢｘが、画像Ｆｘの面積のｘ％以上の認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。認識結果のサイズとは、例えば、フレームＦ１（図５）において、車Ｃ１１の検出枠ＢＣ１１で囲まれている領域の面積とすることができる。面積ではなく、高さや幅であっても良く、車Ｃ１１の検出枠ＢＣ１１の高さまたは幅とし、高さや幅が、所定の大きさ以上であれば、認識対象として抽出するようにしても良い。画像Ｆｘの面積とは、例えば、フレームＦ１の画像サイズである。

第１の更新基準は、ある程度の大きさで検出された物体があった場合、その物体をトラッキング対象、すなわちこの場合認識対象として設定する基準である。一般的に、所定の物体として検出されたサイズが小さい場合よりも、大きい場合の方が、検出結果に対する信頼性が高く、誤検出である可能性が低い。よって、そのような精度が高い状態で検出されている物体を、認識対象として再学習が行われるようにするために、第１の更新基準を設ける。

なお、第１の更新基準は、認識結果により、ｘ％の値が異なるようにしても良い。例えば、認識結果が人である場合と、車である場合とで、同じｘ％の値を用いた場合、車の方が人よりも大きいため、認識結果が車のときには、第１の更新基準を満たしやすいが、認識結果が人の場合には、第１の更新基準を満たしづらいと考えられる。そこで、ｘ％の値は、認識結果のラベルにより可変値とし、認識結果毎に、異なるｘを用いて第１の更新基準を満たすか否かが判定されるようにしても良い。

図１２のＢに示すように第２の更新基準として、画像Ｆｙの辺からの距離がｙ％以上のところまである認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。画像Ｆｙは、１フレームのことであり、フレームの一辺とは、例えば、図１２のＢに示したように、左辺や右辺のことである。辺からの距離がｙ％以上とは、例えば、フレームの横方向の長さ（右辺から左辺までの距離）を１００％としたときの割合である。

例えば、フレームＦ１（図５）を参照するに、車Ｃ１１は、見切れた状態で撮像されている。このような見切れた状態で撮像されている物体は、認識対象としないようにするための基準が、第２の更新基準である。

なお、図１２のＢでは、横方向の距離（左辺および右辺からの距離）を例に挙げて説明したが、縦方向の距離（上辺および下辺からの距離）であっても良い。横方向の距離と縦方向の距離の両方に基準を設けても良い。また第１の更新基準と同じく、ラベルにより、異なるｙ％が用いられるようにしても良い。

第１の更新基準、または／および、第２の更新基準を満たす認識結果を、抽出部１２３は抽出し、抽出された場合、その認識結果を、トラッキングの対象とする認識対象として設定する。認識対象が設定された場合、その認識対象が抽出されたフレームを基準として、過去の数フレームが、トラッキング対象のフレームとして設定される。

図１３を参照するに、例えば、時刻Ｔ_０において、第１の更新基準、または／および、第２の更新基準を満たす認識結果が抽出された場合、時刻Ｔ_０より前の時刻Ｔ_０－ｍまでの間に撮像されたｍフレームが処理対象のフレームとして設定される。

第３の更新基準は、ｍフレーム連続して検出された認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。ｍフレームに渡って、検出されているということは、その物体は精度が高い状態で検出されているといえる。そのような精度が高い状態で検出されている認識結果があった場合、その認識結果が認識対象として抽出される。

第３の更新基準を満たすか否かを判定するために、抽出部１２３は、複数フレーム記憶する記憶部（不図示）を有する。抽出部１２３により、第３の更新基準を満たす認識結果を抽出された場合、図１３に示したように、ｍフレームより過去に撮像されたｎフレームが処理対象のフレームとして設定される。図１３を参照するに、例えば、時刻Ｔ_０において第３の更新基準を満たす認識結果が抽出された場合、時刻Ｔ_０より前の時刻Ｔ_０－ｍまでの間に撮像されたｍフレームに連続して検出された認識結果があったことになる。このような場合、時刻Ｔ_０－ｍより前の時刻Ｔ_{０－ｍ－ｎ}までの間に撮像されたｎフレームが、処理対象のフレームとして設定される。

なお、第３の更新基準におけるｍフレーム（フレーム数）は、固定値であっても良いし、可変値であっても良い。フレーム数を可変値とした場合、例えば、車速、フレームレート、認識結果のサイズなどから、ｍが設定されるようにしても良い。これらの情報から、認識結果のサイズが高さｈ_ｍｉｎ、幅ｗ_ｍｉｎになるフレームを推定し、そのサイズになるまでのフレーム数がｍとして設定されるようにしても良い。

例えば、車速が早ければ、単位時間内に進む距離は長くなり、撮像されていた物体の入れ替わりも多くなるため、複数フレームに写り続ける物体は少なくなる。車速が早い場合、ｍフレームのｍを小さくしないと、認識対象となる物体が抽出されづらくなる可能性がある。一方で、車速が遅い場合、複数フレームに写り続ける物体が多くなり、ｍフレームのｍを大きくしないと、認識対象となる物体が多く抽出され、その結果、再学習が頻繁に実行される可能性がある。

このようなことを考慮し、上記したように車速やフレームレートなどに応じて、ｍフレームのｍが設定されるようにしても良い。

認識結果のサイズが高さｈ_ｍｉｎ、幅ｗ_ｍｉｎとは、所定の認識結果が、最初に撮像または検出されたときのサイズである。このようなサイズになるのは何フレーム前であるのか、換言すれば、何フレーム前に所定の認識結果が認識されたかが推定され、その推定されたフレーム数が、ｍとして設定されるようにしても良い。このｍは、車速、フレームレート、認識結果のサイズといった情報から推定することができる。

ｍフレームのｍは、認識対象のサイズに対してｍを与える対応表が参照されることで設定されたり、所定の関数により算出されたりするようにしても良い。

第４の更新基準は、上記した第１乃至第３の更新基準を組み合わせた基準である。

第１の更新基準と第２の更新基準を組み合わせ、認識結果のサイズが、フレームのサイズのｘ％以上であり、かつ、フレームの辺からの距離がｙ％以上の認識結果を、認識対象として抽出するという第４の更新基準を設けても良い。この場合、ある程度の大きさで検出され、見切れていない状態で撮像されている可能性が高い物体が抽出される。

第１の更新基準と第３の更新基準を組み合わせ、認識結果のサイズが、フレームのサイズのｘ％以上の認識結果が、ｍフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第４の更新基準を設けても良い。この場合、ある程度の大きさで検出され、数フレームに渡り安定して検出されている物体が抽出される。

第２の更新基準と第３の更新基準を組み合わせ、フレームの辺からの距離がｙ％以上の認識結果が、ｍフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第４の更新基準を設けても良い。この場合、見切れていない状態で撮像されている可能性が高く、数フレームに渡り安定して検出されている物体が抽出される。

第１乃至第３の更新基準を組み合わせ、フレームのサイズのｘ％以上であり、かつ、フレームの辺からの距離がｙ％以上の認識結果が、ｍフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第４の更新基準を設けても良い。この場合、ある程度の大きさで検出され、見切れていない状態で撮像され、数フレームに渡り安定して検出されている物体が抽出される。

このような更新基準を設け、抽出部１２３（図３）は、更新基準を満たす認識結果を抽出する。ステップＳ１１３（図１１）において、抽出部１２３により、更新基準を満たす認識結果を抽出する処理が実行されると、その処理結果を用いて、ステップＳ１１４の判定が行われる。ステップＳ１１４において、更新基準を満たす認識結果があったか否かが判定される。

ステップＳ１１４において、更新基準を満たす認識結果はなかったと判定された場合、ステップＳ１１１に処理が戻され、それ以降の処理が繰り返される。

一方、ステップＳ１１４において、更新基準を満たす認識結果があったと判定された場合、ステップＳ１１５に処理は進められる。抽出部１２３は、更新基準を満たす認識結果があった場合、その認識結果に係わる情報、すなわち認識対象に係わる情報を、認識対象追跡部１３４に出力する。認識対象に係わる情報とは、例えば、認識対象の座標、サイズ、ラベルなどの情報である。

ステップＳ１１５において、認識対象追跡部１２４は、一番古いフレームを選択する。一番古いフレームとは、第１乃至第４の更新基準のうち、どの更新基準を用いているかにより異なる。第１または第２の更新基準、または、第４の更新基準として第１と第２の更新基準を組み合わせた基準を用いている場合、抽出の処理対象とされていたフレーム、換言すれば、認識対象が抽出されたフレームが一番古いフレームとされる。例えば、時刻Ｔ_０において、更新基準を満たす認識結果があったと判定された場合、その認識結果を含むフレームが一番古いフレームとして設定される。

第３の更新基準を用いている場合、または第４の更新基準として、第１の更新基準と第３の更新基準を組み合わせた基準、第２の更新基準と第３の更新基準を組み合わせた基準、または第１乃至第３の更新基準を組み合わせた基準を用いている場合、図１３を参照して説明したように、時刻Ｔ_０－ｍから時刻Ｔ０の間のｍフレームで連続して検出された認識結果が認識対象とされるため、一番古いフレームは、時刻Ｔ_０－ｍのときに撮像されたフレームとなる。

ステップＳ１１６において、選択された認識対象の過去Ｎフレームを対象としたトラッキングが行われる。選択された認識対象とは、複数の認識対象が抽出された場合、そのうちの１つを選択して、トラッキングの対象としたときの認識対象のことである。過去Ｎフレームとは、ステップＳ１１５において選択された一番古いフレームを含み、その一番古いフレームよりも過去に撮像された（Ｎ－１）枚のフレームのことである。

例えば、図９に示したフレームＦ５が一番古いフレームとして設定されたとする。またフレームＦ５から認識対象として人Ｈ５１と人Ｈ５４が抽出され、人Ｈ５１が選択された認識対象とされたとする。この場合、過去ＮフレームのＮが５である場合、フレームＦ５を含め、フレームＦ４、フレームＦ３、フレームＦ２、およびフレームＦ１の５フレームが、過去Ｎフレームとされる。

フレームＦ５からフレームＦ１まで、人Ｈ５１が順にトラッキングされることで、フレームＦ５乃至Ｆ１のそれぞれのフレームで人Ｈ５１に該当する人が検出され、人というラベルが付けられる。すなわち、この例の場合、フレームＦ５の人Ｈ５１、フレームＦ４の人Ｈ４１、フレームＦ３の人Ｈ３１、フレームＦ２の人Ｈ２１、フレームＦ１の人Ｈ１１の順でトラッキングされ、それぞれ人というラベルが付与される。

ステップＳ１１６において、認識対象追跡部１２４により、時系列的に逆向きの方向のトラッキングが行われ、そのトラッキングの結果に対して、ステップＳ１１７において、ラベル付与部１２５によりラベルが付与される。このようなトラッキングとラベルの付与は、認識対象毎に行われる。

ステップＳ１１８において、再学習部１２６は認識器の学習モデルを再学習する。再学習部１２６は、画像（フレーム）とラベルの組を教師データとして認識器（学習モデル）を学習する。この学習の仕方は、図４を参照して説明したように、ラベル付与部１２５によるラベルが付与されたフレームを正解ラベルとして用いた学習が行われるようにすることができる。また、ラベル付与部１２５によるラベルが付与されたフレームを教師データとした他の学習の仕方により学習が行われるようにしても良い。

再学習部１２６は、Ｎフレームをデータセットとして用いた学習を行っても良いし、Ｎフレームの処理が複数回行われることで蓄積されたＮよりも多いフレーム数のデータセットを用いた学習を行っても良い。ここでの学習の仕方により本技術の適用範囲が限定されることはない。

上記した例の場合、フレームＦ３（図７）では、人Ｈ３１は車として検出されているが、トラッキングとラベル付けが行われることで、人Ｈ３１に人というラベルを付けることができる。このような正確なラベルが付けられたフレームを用いた学習を行うことで、フレームＦ３のような画像を処理したときに、誤って人Ｈ３１を車として認識してしまうようなことを低減することができる認識器を生成することができる。

また、フレームＦ２（図６）や、フレームＦ１（図５）では、人Ｈ２１や人Ｈ１１は、検出されていないが、トラッキングとラベル付けが行われることで、人Ｈ２１や人Ｈ１１に人というラベルを付けることができる。このようなラベルが付けられたフレームを用いた学習を行うことで、フレームＦ２やフレームＦ１のような画像を処理したときに、人Ｈ２１や人Ｈ１１を検出できないといったようなことを低減することができる認識器を生成することができる。

ステップＳ１１９において、認識器更新部１２７は、認識処理部１２２で用いられている認識器（の学習モデル）を、再学習部１２６で学習された認識器（学習モデル）で更新する。更新は、認識器（学習モデル）を置き換えることで行われても良いし、学習モデルの一部のパラメータを置き換えるようにしても良い。

生成された認識器（学習モデル）の精度を評価する仕組みを設けても良い。生成された認識器の精度を評価し、認識性能が向上していると判定されるときだけ、認識器が更新されるようにしても良い。

このように、精度が高い状態で検出が行われているフレームから、時間を過去の方向にさかのぼるトラッキングを行うことでラベル付けを行う。ラベル付けが行われたフレームを用いた学習を行うことで、認識器が更新される。このような学習が行われることで、誤検出されていた物体に正しいラベル付けを行ったフレームと、未検出であった物体を検出し、ラベル付けを行ったフレームとを用いた学習を行うことができるため、認識精度を高めた認識器を生成することができる。

＜情報処理システムの構成＞
上記した実施の形態において情報処理装置１１０が行っていた処理を、複数の装置で分担して行うようにすることもできる。

上記した実施における情報処理装置１１０は、情報処理装置１１０自体が、再学習を行う学習装置を含む構成とされていた場合であるが、学習装置は他の装置に含まれる構成としても良い。

ここでは、情報処理装置とサーバの２台で処理を分担して行う場合を例に挙げて説明を続ける。

図１５は、情報処理システムの一実施の形態の構成を示す図である。情報処理システム２００は、情報処理装置２１１とサーバ２１２から構成される。情報処理装置２１１は、例えば車載される装置である。サーバ２１２は、情報処理装置２１１と、所定のネットワークを介してデータの授受を行う装置である。

情報処理装置２１１は、画像取得部２２１、認識処理部２２２，抽出部２２３、データ送信部２２４、認識器受信部２２５、および認識器更新部２２６を備える。サーバ２１２は、データ受信部２３１、認識対象追跡部２３２、ラベル付与部２３３、再学習部２３４、および認識器送信部２３５を備える。

情報処理装置２１１の画像取得部２２１、認識処理部２２２、抽出部２２３、および認識器更新部２２６は、情報処理装置１１０（図３）の画像取得部１２１、認識処理部１２２、抽出部１２３、および認識器更新部１２７にそれぞれ該当する機能である。サーバ２１２の認識対象追跡部２３２、ラベル付与部２３３、および再学習部２３４は、情報処理装置１１０（図３）の認識対象追跡部１２４、ラベル付与部１２５、および再学習部１２６にそれぞれ該当する機能である。

＜情報処理システムの処理について＞
図１４に示した情報処理システム２００の処理について、図１５と図１６に示したフローチャートを参照して説明する。情報処理システム２００が行う処理は、基本的に、情報処理装置１１０が行う処理と同様の処理であり、情報処理装置１１０が行う処理については、図１１に示したフローチャートを参照して既に説明したため、同様の処理については、適宜説明を省略する。

図１５は、情報処理装置２１１の処理について説明するためのフローチャートである。ステップＳ２１１乃至Ｓ２１５の処理は、ステップＳ１１１乃至Ｓ１１５（図１１）の処理と同様のため、その説明は省略する。

ステップＳ２１６において、画像と認識対象が、サーバ２１２に対して送信される。情報処理装置２１１のデータ送信部２２４は、抽出部２２３で抽出された認識対象に関するデータ、一番古いフレーム、および一番古いフレームから過去のＮフレームのデータを、少なくとも送信する。車速やフレームレートなども必要に応じて送信されるようにしても良い。

サーバ２１２は、再学習を行い、再学習後の認識器を、情報処理装置２１１に送信する。情報処理装置２１１の認識器受信部２２５は、ステップＳ２１７において、サーバ２１２から送信されてきた認識器を受信し、認識器更新部２２６は、受信された認識器で認識処理部２２２の認識器を更新する。

図１６は、サーバ２１２の処理について説明するためのフローチャートである。

ステップＳ２３１において、サーバ２１２のデータ受信部２３１は、情報処理装置２１１のデータ送信部２２４が送信した画像（フレーム）と認識対象のデータを受信する。ステップＳ２３２乃至Ｓ２３４は、ステップＳ１１６乃至Ｓ１１８（図１１）の処理と同様のため、その詳細な説明は省略する。

サーバ２１２は、情報処理装置１１０が行っていた過去方向にフレームをさかのぼることによるトラッキングを行い、ラベル付けを行い、認識器の再学習を行うという処理を行う。このようにして再学習された認識器は、ステップＳ２３５において、サーバ２１２の認識器送信部２４５から、情報処理装置２１１に送信される。

このように、情報処理装置２１１とサーバ２１２で処理を分担して行う構成としても良い。

＜情報処理システムの他の構成＞
図１７は、情報処理システムの他の構成例を示す図である。図１７に示した情報処理システム３００は、情報処理装置３１１とサーバ３１２から構成されている。

情報処理装置３１１は、画像取得部３２１、認識処理部３２２、データ送信部３２３、認識器受信部３２４、および認識器更新部３２５を備える。サーバ３１２は、データ受信部３３１、抽出部３３２、認識対象追跡部３３３、ラベル付与部３３４、再学習部３３５、および認識器送信部３３６を備える。

情報処理装置３１１の画像取得部３２１、認識処理部３２２、および認識器更新部３２５は、情報処理装置１１０（図３）の画像取得部１２１、認識処理部１２２、および認識器更新部１２７にそれぞれ該当する機能である。サーバ３１２の抽出部３３２、認識対象追跡部３３３、ラベル付与部３３４、および再学習部３３５は、情報処理装置１１０（図３）の抽出部１２３、認識対象追跡部１２４、ラベル付与部１２５、および再学習部１２６にそれぞれ該当する機能である。

図１７に示した情報処理システム３００と、図１４に示した情報処理システム２００と比較した場合、情報処理システム２００の情報処理装置２１１の抽出部２２３を、サーバ２１２側に持たせた構成が、情報処理システム３００の構成となる。

＜情報処理システムの他の処理について＞
図１７に示した情報処理システム３００の処理について、図１８と図１９に示したフローチャートを参照して説明する。情報処理システム３００が行う処理は、基本的に、情報処理装置１１０が行う処理と同様の処理であり、情報処理装置１１０が行う処理については、図１１に示したフローチャートを参照して既に説明したため、同様の処理については、適宜説明を省略する。

図１７は、情報処理装置３１１の処理について説明するためのフローチャートである。ステップＳ３１１，Ｓ３１２の処理は、ステップＳ１１１，Ｓ１１２（図１１）の処理と同様のため、その説明は省略する。

ステップＳ３１３において、情報処理装置３１１のデータ送信部３２３は、サーバ３１２に対して画像と認識結果を送信する。情報処理装置３１１のデータ送信部３２３は、認識処理部３２２で認識された認識結果に関するデータとフレームを、少なくとも送信する。車速やフレームレートなども必要に応じ送信される仕組みとしても良い。

なお、画像や認識結果は、１フレーム処理される毎に送信されるようにしても良いし、数フレームまとめて送信されるようにしても良い。

サーバ３１２側は、再学習を行い、再学習後の認識器を、情報処理装置３１１に送信する。情報処理装置３１１の認識器受信部３２４は、ステップＳ３１４において、サーバ３１２から送信されてきた認識器を受信し、認識器更新部３２５は、受信された認識器で認識処理部３２２の認識器を更新する。

図１９は、サーバ３１２の処理について説明するためのフローチャートである。

ステップＳ３３１において、サーバ３１２のデータ受信部３３１は、情報処理装置３１１のデータ送信部３２３が送信した画像（フレーム）と認識結果のデータを受信する。ステップＳ３３２において、抽出部３３２は、更新基準を満たす認識対象を抽出する。ステップＳ３３２乃至Ｓ３３７の処理は、ステップＳ１１３乃至Ｓ１１８（図１１）の処理と同様のため、その詳細な説明は省略する。

サーバ３１２は、情報処理装置１１０が行っていた、認識対象を抽出し、過去方向にフレームをさかのぼることによるトラッキングを行い、ラベル付けを行い、認識器の再学習を行うという処理を行う。このようにして再学習された認識器は、ステップＳ３３８において、サーバ３１２の認識器送信部３３６から、情報処理装置３１１に送信される。

このように、情報処理装置３１１とサーバ３１２で処理を分担して行う構成としても良い。

情報処理システム２００や情報処理システム３００のように、学習処理をサーバ２１２（３１２）で行うように構成することで、情報処理装置２１１（３１１）の処理を軽減することができる。

サーバ２１２（３１２）は、複数の情報処理装置２１１（３１１）からのデータを収集し、複数の情報処理装置２１１（３１１）からのデータを用いて、認識器を生成する（認識器を再学習する）ように構成しても良い。多くのデータを扱い、認識器の学習を行うことで、より早い段階で、精度を向上させた認識器とすることができる。

上記した実施の形態においては、車両に車載されるカメラからの画像を処理する情報処理装置を例に挙げて説明したが、監視カメラからの画像を処理する情報処理装置などにも適用できる。

上述した実施の形態では、カメラで撮像された画像を処理する場合を例に挙げて説明したが、画像としては、ＴｏＦ(Time-of-Flight)方式で取得された測距画像であっても良い。熱センサを用いて、熱センサから得られるデータを画像として扱い、人や車といった所定の物体が認識されるようにしても良い。本技術は、センサから得られるデータを用いて、所定の物体を認識する場合に、広く適用することができる。

本技術は、NICE（Network of Intelligent Camera Ecosystem）Allianceで規定されている仕様を適用した場合にも適用できる。

＜記録媒体について＞
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図５０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記憶部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

なお、本技術は以下のような構成も取ることができる。
（１）
入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、
前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習する
学習モデルの生成方法。
（２）
前記データは、時系列的に逆向きの方向に、前記対象物をトラッキングし、トラッキングされた前記対象物にラベルを付与することで生成される
前記（１）に記載の学習モデルの生成方法。
（３）
第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
前記（１）または（２）に記載の学習モデルの生成方法。
（４）
前記フレームのサイズに対する前記認識結果のサイズが、所定の割合以上の大きさで検出された前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
前記（３）に記載の学習モデルの生成方法。
（５）
前記割合は、前記認識結果に付与されているラベルにより異なる
前記（４）に記載の学習モデルの生成方法。
（６）
前記フレームの辺から所定の距離以上離れた位置にある前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
前記（３）乃至（５）のいずれかに記載の学習モデルの生成方法。
（７）
前記第１の時刻に撮像されたフレームを含め、前記第１の時刻から、前記第１の時刻より前の第２の時刻の間に撮像されたフレームを、前記トラッキングの対象とする
前記（３）乃至（６）のいずれかに記載の学習モデルの生成方法。
（８）
複数フレームにわたって検出されている前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
前記（３）乃至（６）のいずれかに記載の学習モデルの生成方法。
（９）
前記第１の時刻から、前記第１の時刻より前の第２の時刻までに撮像されたフレームにおいて検出された前記認識結果を前記対象物とした場合、前記第２の時刻から、前記第２の時刻より前の第３の時刻までに撮像されたフレームを、前記トラッキングの対象とする
前記（３）乃至（６）、（８）のいずれかに記載の学習モデルの生成方法。
（１０）
前記複数フレームは、車速により異なる枚数に設定される
前記（８）に記載の学習モデルの生成方法。
（１１）
前記再学習された前記学習モデルを他の装置に送信する
前記（１）乃至（１０）のいずれかに記載の学習モデルの生成方法。
（１２）
前記学習モデルは、機械学習により学習されたものである
前記（１）乃至（１１）のいずれかに記載の学習モデルの生成方法。
（１３）
認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部
を備える情報処理装置。
（１４）
前記学習データは、トラッキングされた前記対象物にラベルを付与することで生成されたデータである
前記（１３）に記載の情報処理装置。
（１５）
所定の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物として抽出する
前記（１３）または（１４）に記載の情報処理装置。
（１６）
再学習された前記学習モデルで、前記認識器を更新する
前記（１３）乃至（１４）のいずれかに記載の情報処理装置。
（１７）
入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、
前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、
前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、
前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、
前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、
前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部と
を備える情報処理システム。
（１８）
第１の装置と第２の装置から構成され、
前記第１の装置は、前記認識処理部と前記更新部を備え、
前記第２の装置は、前記抽出部、前記追跡部、前記ラベル付与部、および前記再学習部を備える
前記（１７）に記載の情報処理システム。
（１９）
前記第２の装置は、複数の前記第１の装置からのデータを受信し、複数のデータを用いて、前記認識器の再学習を行う
前記（１８）に記載の情報処理システム。

１１０情報処理装置，１２１画像取得部，１２２認識処理部，１２３抽出部，１２４認識対象追跡部，１２５ラベル付与部，１２６再学習部，１２７認識器更新部，１３４認識対象追跡部，２００情報処理システム，２１１情報処理装置，２１２サーバ，２１３ラベル付与部，２２１画像取得部，２２２認識処理部，２２３抽出部，２２４データ送信部，２２５認識器受信部，２２６認識器更新部，２３１データ受信部，２３２認識対象追跡部，２３４再学習部，２４５認識器送信部，３００情報処理システム，３１１情報処理装置，３１２サーバ，３２１画像取得部，３２２認識処理部，３２３データ送信部，３２４認識器受信部，３２５認識器更新部，３３１データ受信部，３３２抽出部，３３３認識対象追跡部，３３４ラベル付与部，３３５再学習部，３３６認識器送信部

Claims

入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、
前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習し、
第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
学習モデルの生成方法。
前記フレームのサイズに対する前記認識結果のサイズが、所定の割合以上の大きさで検出された前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
請求項１に記載の学習モデルの生成方法。
前記割合は、前記認識結果に付与されているラベルにより異なる
請求項２に記載の学習モデルの生成方法。
前記フレームの辺から所定の距離以上離れた位置にある前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
請求項１に記載の学習モデルの生成方法。
前記第１の時刻に撮像されたフレームを含め、前記第１の時刻から、前記第１の時刻より前の第２の時刻の間に撮像されたフレームを、前記トラッキングの対象とする
請求項１に記載の学習モデルの生成方法。
複数フレームにわたって検出されている前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
請求項１に記載の学習モデルの生成方法。
前記第１の時刻から、前記第１の時刻より前の第２の時刻までに撮像されたフレームにおいて検出された前記認識結果を前記対象物とした場合、前記第２の時刻から、前記第２の時刻より前の第３の時刻までに撮像されたフレームを、前記トラッキングの対象とする
請求項１に記載の学習モデルの生成方法。
前記複数フレームは、車速により異なる枚数に設定される
請求項６に記載の学習モデルの生成方法。
前記再学習された前記学習モデルを他の装置に送信する
請求項１に記載の学習モデルの生成方法。
前記学習モデルは、機械学習により学習されたものである
請求項１に記載の学習モデルの生成方法。
認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部を備え、
第１の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
情報処理装置。
再学習された前記学習モデルで、前記認識器を更新する
請求項１１に記載の情報処理装置。
入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、
前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、
前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、
前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、
前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、
前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部と
を備え、
前記抽出部は、第１の時刻に撮像されたフレームに対する前記認識処理部による認識結果のうち、前記所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
前記追跡部は、前記第１の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
前記ラベル付与部は、前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
情報処理システム。
第１の装置と第２の装置から構成され、
前記第１の装置は、前記認識処理部と前記更新部を備え、
前記第２の装置は、前記抽出部、前記追跡部、前記ラベル付与部、および前記再学習部を備える
請求項１３に記載の情報処理システム。
前記第２の装置は、複数の前記第１の装置からのデータを受信し、複数のデータを用いて、前記認識器の再学習を行う
請求項１４に記載の情報処理システム。