JP7254823B2 - 物体の検出および特徴付けのためのニューラルネットワーク - Google Patents

物体の検出および特徴付けのためのニューラルネットワーク Download PDF

Info

Publication number
JP7254823B2
JP7254823B2 JP2020543857A JP2020543857A JP7254823B2 JP 7254823 B2 JP7254823 B2 JP 7254823B2 JP 2020543857 A JP2020543857 A JP 2020543857A JP 2020543857 A JP2020543857 A JP 2020543857A JP 7254823 B2 JP7254823 B2 JP 7254823B2
Authority
JP
Japan
Prior art keywords
neural network
input
locations
environment
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020543857A
Other languages
English (en)
Other versions
JP2021516806A (ja
Inventor
オーガル,アビジット
クリジェフスキー,アレクサンダー
Original Assignee
ウェイモ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウェイモ エルエルシー filed Critical ウェイモ エルエルシー
Publication of JP2021516806A publication Critical patent/JP2021516806A/ja
Application granted granted Critical
Publication of JP7254823B2 publication Critical patent/JP7254823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R1/00Optical viewing arrangements; Real-time viewing arrangements for drivers or passengers using optical image capturing systems, e.g. cameras or video systems specially adapted for use in or on vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/20Control system inputs
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/20Control system inputs
    • G05D1/22Command input arrangements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R2300/00Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle
    • B60R2300/80Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the intended use of the viewing arrangement
    • B60R2300/8093Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the intended use of the viewing arrangement for obstacle warning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

関連出願の相互参照
本願は、2018年3月12日に出願された米国特許出願公開第15/919,045号に対する優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
本明細書は、一般的に自律型車両に関連する。
自律型車両は、自動運転する車、船舶、および航空機を含む。自律型車両は、さまざまな車載センサおよびコンピュータシステムを使用して近傍の物体を検出し、その検出を使用して制御とナビゲーションの決定を行う。
一部の自律型車両は、画像内の物体分類のためのニューラルネットワークを実装するコンピュータシステムを有する。たとえば、ニューラルネットワークを使用して、車載カメラで撮像された画像が近傍の車の画像である可能性があると決定することができる。
ニューラルネットワーク、略して、ネットワークは、複数の操作の層を使用して、1つ以上の入力から1つ以上の出力を予測する機械学習モデルである。ニューラルネットワークは、通常、入力層と出力層との間に位置する1つ以上の隠れ層を含む。各層の出力は、ネットワーク内の別の層、たとえば次の隠れ層または出力層への入力として使用される。
ニューラルネットワークの各層は、層への入力に対して実行される1つ以上の変換操作を指定する。一部のニューラルネットワーク層には、ニューロンと呼ばれる操作がある。各ニューロンは1つ以上の入力を受け取り、別のニューラルネットワーク層で受け取られる出力を生成する。たいてい、各ニューロンは他のニューロンから入力を受け取り、各ニューロンは1つ以上の他のニューロンに出力を提供する。
ニューラルネットワークのアーキテクチャは、ネットワークに含まれる層およびその特性、ならびにネットワークの各層のニューロンの接続方法を指定する。換言すれば、アーキテクチャは、他の層への入力として出力を提供する層と、出力の提供方法とを指定する。
各層の変換操作は、変換操作を実装するソフトウェアモジュールがインストールされたコンピュータによって実行される。したがって、操作を実行するとして記述されている層は、層の変換操作を実装するコンピュータが操作を実行することを意味する。
各層は、層の一連のパラメータの現在の値を使用して1つ以上の出力を生成する。したがって、ネットワークのトレーニングには、入力に対する順方向パスの継続的な実行、勾配値の計算、および各層のパラメータセットの現在の値の更新が付随する。ニューラルネットワークがトレーニングされると、最後のパラメータセットを使用して、生成システムで予測を行うことができる。
自律型および半自律型車両システムは、ニューラルネットワークによって生成された予測を使用して運転の決定を行うことができる。
この仕様は、車両の環境において物体が中心とする可能性がある1つ以上の位置を選択し、それらの物体の特性を決定するための手法について説明している。
自律型または半自律型車両のシステムは、車両の外部の環境を特徴付ける入力を受け取る。入力は、環境内の位置の各々に対して、車両の1つ以上のセンサによって捕捉されたセンサデータを含む。システムは、入力から、位置の各々に対して、物体の中心がその位置にある可能性を表す第1の物体スコアを決定する。ついで、位置の1つ以上が、物体が中心とする可能性がある環境内の位置として選択される。選択は物体スコアに基づく。次に、車両のシステムは、選択された各位置における環境を特徴付ける特徴を取得する。最後に、システムは、選択された位置の各々に対して、選択された位置の特徴から、選択された位置を中心とする可能性がある物体の物体特性を決定する。この態様の他の実施形態は、各々が方法の動作を実行するように構成された、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイスに記録されたコンピュータプログラムを含む。
1つ以上のコンピュータのシステムが特定の操作または動作を実行するように構成されているとは、システムがそれにインストールされており、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせが動作中に、システムにその操作または動作を実行させることを意味する。1つ以上のコンピュータプログラムが特定の操作または動作を実行するように構成されているとは、1つ以上のプログラムが、データ処理装置によって実行されると、装置に操作または動作を実行させる命令を含むことを意味する。
本明細書に記載の主題の特定の実施形態は、以下の利点の1つ以上を実現するように実施することができる。自律型または半自律型車両のニューラルネットワークサブシステムは、物体が中心にある可能性がある位置を選択し、それらの物体の特性を決定することができる。所与のセンサデータに対して、ニューラルネットワークは一度に、つまりニューラルネットワークの単一の順方向パス中で、位置をすべて選択する。この選択方法は、位置を反復的に選択するよりも、つまりニューラルネットワークの所与の順方向パス中で1つの位置のみを選択するよりも高速であるため好ましい。すべての位置がニューラルネットワークの単一の順方向パス中で選択されるため、それらの位置を中心とする物体の物体特性をバッチで決定することができる。これにより、センサデータが捕捉されてから物体特性が決定されるまでの待ち時間が短縮される。したがって、物体特性を車両の制御システムにより迅速に提供することができるため、制御システムはより正確な運転判断を行うことができる。上記のように位置を選択し、かつ物体特性を決定することで、車両のコンピューティングリソースをより効率的に使用することができる。
最後に、システムは第1の段階で物体が中心に置かれる可能性がある位置を計算効率の高い方法で選択し、ついで第2の異なる段階でそれらの物体の特性を決定するため、第2の段階は計算コストが高く、より多くの情報に依拠し得る。これにより、物体特性の予測がより正確になる。
本明細書の主題の1つまたは複数の実施形態の詳細を、添付の図面および以下の説明に記載する。主題の他の特徴、態様、および利点は、明細書、図面、および特許請求の範囲から、明らかになるであろう。
例示的なシステムを示す図である。 物体の中心を予測し、かつ物体特性を決定するための例示的なプロセスのフローチャートである。 例示的なニューラルネットワークサブシステムを示す図である。 物体の中心を予測するためのニューラルネットワークの例示的なアーキテクチャを示す図である。 物体の中心を選択するための例示的なプロセスのフローチャートである。 選択された位置を中心とする可能性がある物体の特性を決定するためのニューラルネットワークの例示的なアーキテクチャを示す図である。 物体スコアの例示的な出力マップを示す図である。
各種図面内の同様の参照番号および名称は、同様の要素を示す。
本明細書では、自律型または半自律型車両がニューラルネットワークシステムを使用して、車両の外部の環境を特徴付けるセンサデータに基づいて物体を検出し、物体特性を決定する方法について説明する。特に、ニューラルネットワークシステムは、物体の中心が環境内の特定の位置にある可能性を決定することができる。位置が物体の中心に対応していることを一定の確かさをもって決定した後、ニューラルネットワークシステムは、その物体の物体特性を決定することができる。ニューラルネットワークシステムは、少数の例を挙げると、車両、歩行者、自転車、車線マーカーなど、あらゆるクラスの物体の特性を検出および決定するようにトレーニングすることができる。
図1は、例示的なシステム100を示す図である。システム100は、トレーニングシステム110と搭載システム130とを含む。
搭載システム130は、車両122に物理的に搭載されている。車両122に搭載されているということは、搭載システム130が、車両122と共に移動する構成要素、たとえば、電源、計算ハードウェア、およびセンサを含むことを意味する。図1の車両122は自動車として図示されているが、搭載システム130は、任意のタイプの車両に搭載することができる。車両122は、物体検出および特性を使用して完全に自律的な運転の決定を通知する、完全自律型車両であってもよい。車両122はまた、物体検出および特性を使用して人間の運転者を支援する、半自律型車両であってもよい。たとえば、人間の運転手が別の車両と衝突する可能性があることをニューラルネットワークシステムが示す場合、車両122は自律的にブレーキをかけることができる。
搭載システム130は、1つ以上のセンササブシステム132を含む。センササブシステム132は、環境内の表面からの電磁放射の反射を受ける構成要素の組み合わせを含む。たとえば、センササブシステムは、レーザー光の反射を検出するライダーシステム、電波の反射を検出するレーダーシステム、可視光の反射を検出するカメラシステム、またはこれら3つの組み合わせを含む。いくつかの実装形態では、1つ以上のセンササブシステム132は、音声センサを含む。音声センサは、たとえば緊急車両のサイレンを検出することができる。
センササブシステム132は、搭載ニューラルネットワークサブシステム134に入力センサデータ155を提供する。入力センサデータ155は、データの複数のチャネルを含んでいてもよく、各チャネルは、反射された電磁放射の異なる特性を表す。したがって、入力センサデータ155の複数のチャネルは、同じセンサからの測定値から生成され得る。センササブシステム132は、車両122が環境内を移動するときに、所定の時間間隔、たとえば10分の1秒ごとに、入力センサデータ155を継続的に収集する。
センササブシステム132、または搭載ニューラルネットワークサブシステム134、またはその2つの何らかの組み合わせは、生センサデータを入力センサデータ155の複数のチャネルに変換する。そのために、搭載システム120は、生センサデータのさまざまな特徴を共通の座標系に投影することができる。
搭載ニューラルネットワークサブシステム134は、1つ以上のニューラルネットワークを含み得る。たとえば、搭載ニューラルネットワークサブシステム134は、中心予測ニューラルネットワークと物体特性ニューラルネットワークとを含み得る。これらニューラルネットワークの各々については、後で詳しく説明する。搭載ニューラルネットワークサブシステム134は、そのニューラルネットワークの各層の操作を実施する。したがって、搭載ニューラルネットワークサブシステム134は、ニューラルネットワークのアーキテクチャに従ってニューラルネットワークの各層のそれぞれの操作を実施するソフトウェアまたはハードウェアモジュールを有する1つ以上のコンピューティングデバイスを含む。
搭載ニューラルネットワークサブシステム134は、トレーニングシステム110から受け取ったモデルパラメータ値の集まり172をロードすることにより、ニューラルネットワークの各層の操作を実施することができる。論理的に分離されているように図示されているが、モデルパラメータ値172および操作を実行するソフトウェアもしくはハードウェアモジュールは、実際には同じコンピューティングデバイス上に配置されているか、または実行しているのがソフトウェアモジュールの場合は、同じメモリデバイス内に格納されている。
搭載ニューラルネットワークサブシステム134は、ハードウェア加速または他の専用コンピューティングデバイスを使用して、ニューラルネットワークの1つ以上の層の操作を実施することができる。たとえば、いくつかの層のいくつかの操作は、高度に並列化されたハードウェアによって、たとえば、グラフィックス処理ユニットまたは別の種類の特殊なコンピューティングデバイスによって実行され得る。換言すれば、各層のすべての操作が搭載ニューラルネットワークサブシステム134の中央処理装置(CPU)によって実行される必要があるわけではない。
搭載ニューラルネットワークサブシステム134は、入力センサデータ155およびニューラルネットワークを使用して、車両の外部の環境にあると予測される物体の物体特性165を決定する。計画サブシステム136が物体特性165を受け取ると、計画サブシステム136は、物体特性165を使用して、完全自律または半自律運転の決定を行うことができる。たとえば、計画サブシステム136は、高速道路上の他の車両の中または周囲をナビゲートするための完全自律的計画を生成することができる。別の例として、計画サブシステム136は、人間の運転手がブレーキをかけるための半自律的勧告を生成することができる。
ユーザインターフェースサブシステム138は、物体特性165を受け取ることができ、近傍の物体、たとえば、近傍の車両の位置を示すユーザインターフェースプレゼンテーションを生成することができる。たとえば、ユーザインターフェースサブシステム138は、車両によって占有される可能性がある空間の領域の表現を含む画像またはビデオデータを有するユーザインターフェースプレゼンテーションを生成することができる。ついで、搭載ディスプレイデバイスは、車両122の乗員のためのユーザインターフェースプレゼンテーションを表示することができる。
搭載ニューラルネットワークサブシステム134は、入力センサデータ155を使用してトレーニングデータ123を生成することもできる。トレーニングデータ123は、入力センサデータの異なるチャネルの投影された表現を含み得る。搭載システム130は、たとえば、それが生成されるときはいつでも継続的に、オフラインバッチまたはオンライン方式で、トレーニングシステム110にトレーニングデータ123を提供することができる。
トレーニングシステム110は、通常、1つ以上の位置に数百または数千のコンピュータを有する分散型コンピューティングシステムであり得るデータセンター112内でホストされる。
トレーニングシステム110は、物体予測を行い、かつ入力センサデータから物体特性を決定するように設計されたニューラルネットワークの各層の操作を実施することができるトレーニングニューラルネットワークサブシステム114を含む。トレーニングニューラルネットワークサブシステム114は、ニューラルネットワークのアーキテクチャに従って1つ以上のニューラルネットワークの各層のそれぞれの操作を実施するソフトウェアまたはハードウェアモジュールを有する複数のコンピューティングデバイスを含む。
トレーニングニューラルネットワークは、通常、搭載ニューラルネットワークと同じアーキテクチャとパラメータとを有する。しかしながら、トレーニングシステム110は、各層の操作を演算するために同じハードウェアを使用する必要はない。換言すれば、トレーニングシステム110は、CPUのみ、高度に並列化されたハードウェア、またはこれらのいくつかの組み合わせを使用することができる。
トレーニングニューラルネットワークサブシステム114は、モデルパラメータ値の集まり170に格納された現在のパラメータ値115を使用して、ニューラルネットワークの各層の操作を演算することができる。論理的に分離されているように図示されているが、モデルパラメータ値170および操作を実行するソフトウェアもしくはハードウェアモジュールは、実際には同じコンピューティングデバイス上か、または同じメモリデバイス上に配置されている。
トレーニングニューラルネットワークサブシステム114は、入力としてトレーニング例123を受け取ることができる。トレーニング例123は、自動でラベル付けされたトレーニングデータ125、人間によってラベル付けされたトレーニングデータ127、またはその2つの何らかの組み合わせを含み得る。トレーニング例123の各々は、入力センサデータの異なるチャネルの表現、ならびに入力センサデータおよび物体の特性によって表される空間の領域内におけるそれらの物体の中心を示す1つ以上のラベルを含む。
トレーニングニューラルネットワークサブシステム114は、各トレーニング例123に対して、1つ以上の物体予測135を生成することができ、各物体予測は、物体検出と検出された各物体の特性とを含む。トレーニングエンジン116は、物体予測135を分析し、物体予測をトレーニング例123のラベルと比較する。2つが異なる場合は、エラーが表示される。ついで、トレーニングエンジン116は、適切な更新技術を用いることにより、更新されたモデルパラメータ値145を生成する。たとえば、モデルパラメータは、個々のモデルパラメータに関する誤差の勾配を計算することによって更新することができる。誤差の影響を減らすために、勾配から導出された値をパラメータの現在の値から減算またはパラメータの現在の値に追加することができる。これは、逆伝播をともなう確率的勾配降下法として知られている。当技術分野で知られている他の技法を使用して、モデルパラメータを更新することもできる。ついで、トレーニングエンジン116は、更新されたモデルパラメータ値145を使用して、モデルパラメータ値の集まり170を更新することができる。
トレーニングが完了した後、トレーニングシステム110は、完全自律または半自律運転の決定を行う際に使用するために、モデルパラメータ値の最終セット171を搭載システム120に提供することができる。トレーニングシステム110は、搭載システム120への有線または無線接続によってモデルパラメータ値の最終セット171を提供することができる。
図2は、物体中心を予測し、かつ物体特性を決定するための例示的なプロセスのフローチャートである。図2の例示的なプロセスは、図1の搭載ニューラルネットワークサブシステム134によって実行することができる。図2の例示的なプロセスはまた、ニューラルネットワークのトレーニング中にトレーニングニューラルネットワークサブシステム114によって実行することができる。以下、図2の例示的なプロセスを、搭載ニューラルネットワークサブシステムを参照して説明する。
まず、ニューラルネットワークサブシステムは、車両のセンサから車両の環境を特徴付ける入力センサデータを受け取る(210)。入力センサデータは、ライダーセンサによって検出されたレーザー光の反射、レーダーセンサによって検出された電波の反射、カメラによって検出された光の反射、またはこれら3つの任意の組み合わせを含み得る。
ニューラルネットワークサブシステムは、入力センサデータを処理して、それを中心予測ニューラルネットワークに提供する準備をする。たとえば、入力センサデータを投影面にマッピングすることができる。投影面の各位置は、車両の周囲の領域に対応している。すべての入力センサデータが同じ座標系に投影される限り、システムは任意の適切な投影を使用することができる。たとえば、システムはトップダウン投影または透視投影を使用することができる。トップダウン投影は、車両自体の上方の位置から車両を取り囲む領域への入力センサデータの投影である。したがって、トップダウン投影の投影面は、車両が着座する表面に実質的に平行である。透視投影は、入力センサデータを車両の前、後ろ、または横の平面に投影したものである。システムは、各予測を、中心予測ニューラルネットワークに提供されるテンソルとして表すことができる。
図2の例示的なプロセスが搭載ニューラルネットワークサブシステムによって実行される場合、搭載ニューラルネットワークサブシステムは、入力センサデータを受け取り、対応する投影を生成することができる。図2の例示的なプロセスがトレーニングニューラルネットワークシステムによって実行される場合、投影は、搭載システムまたは別のシステムによって入力センサデータからすでに生成されているであろう。
ニューラルネットワークサブシステムは、投影センサデータを入力として中心予測ニューラルネットワークに提供する(220)。中心予測ニューラルネットワークのアーキテクチャは、図4を参照して以下でより詳細に説明する。
ニューラルネットワークサブシステムは、中心予測ニューラルネットワークから物体スコアの出力マップを受け取る(230)。出力マップの投影面は、通常、中心予測ニューラルネットワークに提供される投影センサデータの投影面と同じである。たとえば、ニューラルネットワークサブシステムが、投影センサデータの透視投影を中心予測ニューラルネットワークに提供する場合、物体スコアの出力マップは、通常、透視マップ、たとえば、車両の前の平面のマップとなる。しかし、別の実装形態では、中心予測ニューラルネットワークは、1つの平面、たとえば、透視平面の複数の投影を別の平面の投影、たとえばトップダウン投影に変換するようにトレーニングされている。
出力マップ内の各位置は、投影センサデータの点に対応し、物体の中心が環境内の対応する位置にある可能性を表す数値スコアと関連付けられている。たとえば、中心予測ニューラルネットワークは、0~1の範囲のスコアをともなう出力マップを生成することができる。0は、物体が出力マップ内の特定の位置を中心とする可能性が低いことを示し、1は、物体が出力マップ内の特定の位置を中心とする可能性が高いことを示す。
中心予測ニューラルネットワークは、単一の順方向パス中で物体スコアの出力マップを生成することができる。換言すれば、所与の投影センサデータに対して、中心予測ニューラルネットワークは物体スコアを一度に1つ決定する必要はない。むしろ、中心予測ニューラルネットワークは、所与の投影センサデータの物体スコアを一度にすべて生成することができる。これは、物体検出への「フルコンテキスト」アプローチである。これは、どの時点においても入力データの小さなウィンドウのみが検査される物体検出への「スライディングウィンドウ」アプローチと区別できる。フルコンテキストアプローチは、入力センサデータの全体的なコンテキストを見ないで物体が何であるかを判別することが難しい遠距離で物体を検出する場合に特に有益である。
いくつかの実装形態では、中心予測ニューラルネットワークは、物体スコアの複数の出力マップを生成することができる。これらの実装形態では、各出力マップは、異なる物体分類、つまり異なる物体タイプに対応する。つまり、特定の出力マップにおける各物体スコアは、特定の分類の物体の中心が出力マップ内の関連する位置にある可能性を表す。たとえば、1つの出力マップは、歩行者の中心が関連する位置にある可能性を各々表す物体スコアを有し得る。物体スコアの範囲が0~1である例を続けると、物体スコアが1の場合は、歩行者の中心が出力マップ内の特定の位置にある可能性が高いことを示し、物体スコアが0の場合は、歩行者の中心が特定の位置にある可能性が低いことを示す。車両や道路標識など、他の分類の物体がこれらの特定の位置に存在しても、それだけで物体スコアが高くなることはない。
ついで、中心予測ニューラルネットワークは、車両、道路標識、および他の分類の物体の個別の出力マップを生成することができる。
いくつかの実装形態では、中心予測ニューラルネットワークは、複数の投影を深さ次元にスタックすることによって3次元出力マップを生成することができる。中心予測ニューラルネットワークは、より高次元の出力マップを生成することもできる。たとえば、中心予測ニューラルネットワークは、第4の次元は時間である、4次元の出力マップを生成することができる。4次元の出力マップは、物体の中心がある可能性がある3次元空間の位置を描写しているが、その位置は経時的に変動し得る。
次に、ニューラルネットワークサブシステムは、出力マップ内の数値物体スコアに基づいて、物体の中心がある可能性がある位置を予測する(240)。一実装形態では、ニューラルネットワークサブシステムは、しきい値物体スコアを規定する。たとえば、ニューラルネットワークサブシステムは、0.8以上の物体スコアと関連付けられた出力マップ内のすべての位置を選択することができる。このような場合、0.8はしきい値物体スコアである。0.8未満の物体スコアと関連付けられている位置は選択されない。
場合によっては、ニューラルネットワークサブシステムは、しきい値物体スコアを超えるいくつかの位置を抑制、つまり選択解除することがある。たとえば、出力マップ内の3つの隣接する位置が、それぞれ0.8、0.8、および0.9の物体スコアと関連付けられ得る。0.8以上の物体スコアと関連付けられた位置が選択される上記の例を続けると、それら3つの隣接する位置の各々は0.8以上の物体スコアと関連付けられているため、各々が選択される。ただし、位置が隣接しているので、それぞれのスコアは各々、同じ物体が存在していると考えられるためである可能性が高い。これは、位置のサイズが小さい場合、たとえば1ピクセル程度の場合に特に当てはまる。換言すれば、3つの位置すべてがしきい値物体スコアを満たしたとしても、3つの位置のうち1つだけが予測された物体の中心を表している可能性がある。そのような場合、領域内で最も高い物体スコアを選択できるが、一方で同じ領域内の他の物体スコアは、それらがしきい値物体スコアを超えていても抑制される。このプロセスは、同じ物体、つまり、それぞれが同じ物体に対応する複数の位置が複数選択されるのを防ぐのに役立つ。選択された物体の局所的な抑制については、図5を参照してより詳細に説明する。
一実装形態では、ニューラルネットワークサブシステムは、物体中心がある可能性がある位置を予測した後、それらの選択された位置がセンササブシステムに提供されるので、センササブシステムは選択された位置の1つ以上に焦点を合わせることができる。たとえば、カメラシステムの場合、カメラは1つ以上の特定の関心位置に焦点を合わせることができる。そうすることは、より広いカメラ視野では不可能である小さな領域で複数の物体を識別するのに役立つ場合がある。
位置を選択した後、ニューラルネットワークサブシステムは、選択された位置における環境を特徴付ける特徴を取得する(250)。一実装形態では、ニューラルネットワークサブシステムは、中心予測ニューラルネットワークから特徴を受け取る。別の実装形態では、別個のシステムから特徴を受け取る。
環境内の任意の位置について、ニューラルネットワークサブシステムは、その任意の位置で環境を特徴付けるさまざまな異なる特徴のいずれでも取得することができる。中心予測ニューラルネットワークおよび以下で説明する物体特性ニューラルネットワークは一緒にトレーニングされているため、中心予測ニューラルネットワークは、物体特性ニューラルネットワークにとって有用な特徴を出力するパラメータを学習する。特徴は、中心予測ニューラルネットワークの畳み込み層によって生成された入力センサデータを抽象化したものである。たとえば、中心予測ニューラルネットワークは、選択された位置に中心がある可能性がある物体の推定スケールを出力することを学習することができる。
ニューラルネットワークサブシステムは、物体特性ニューラルネットワークに、選択された位置の出力マップ、選択された位置における環境を特徴付ける機能、および入力センサデータを提供する(260)。一実装形態では、選択された位置、特徴、および入力センサデータは最初、物体特性ニューラルネットワークのための入力のバッチを繰り返し準備する中間ニューラルネットワークに提供される。各バッチの各入力は、物体の中心がある可能性がある位置に対応する。ついで、入力のバッチが物体特性ニューラルネットワークに提供される。物体特性ニューラルネットワークは、入力のバッチを処理して、各位置に中心がある可能性がある物体の物体特性を生成する。別の実装形態では、中間ニューラルネットワークおよび物体特性ニューラルネットワークは、入力のバッチを準備し、かつそれらの入力のバッチを処理する単一のニューラルネットワークに統合される。物体特性ニューラルネットワークは、単一の順方向パス中ですべての物体の特性を出力するように構成されている。
一実装形態では、物体特性ニューラルネットワークは、選択された各位置に中心がある可能性がある物体を分類する。たとえば、「車」、「歩行者」、「自転車」、「道路標示」、および「道路標識」の分類が考えられる。そのトレーニングと3つの入力に基づいて、物体特性ニューラルネットワークはこれらの分類の1つを選択することができる。物体特性ニューラルネットワークは、予測された各物体の境界ボックスも規定することができる。境界ボックスは、物体の境界または縁を識別するボックスである。境界ボックスは、2次元または3次元にすることができる。車両の表示インターフェースは、このような境界ボックスを半自律車両の運転者に対して表示することができる。ニューラルネットワークサブシステムは、車両のナビゲーションで使用するために、車両の計画システムに境界ボックスを提供することもできる。いくつかの実装形態では、物体特性ニューラルネットワークは、各物体の「マスク」を予測することができる。マスクは境界ボックスとは異なり、それぞれの物体にぴったり合わせられる。つまり、物体の縁をより厳密に識別する。マスクは、物体を規定する入力センサデータの部分にマークを付けることができる。
別の実装形態では、物体特性ニューラルネットワークは、予測された物体が車両からどれだけ離れているかを決定する。
物体特性ニューラルネットワークは、複数の物体の特性を並行して決定できる。
ニューラルネットワークサブシステムが物体特性ニューラルネットワークから物体特性を受け取ると(270)、それらの物体特性を車両の制御システムに提供して、車両の制御に使用することができる。たとえば、物体特性ニューラルネットワークが特定の物体を歩行者として分類し、その歩行者が車両のフロントバンパーから5フィートのところにいると決定した場合、制御システムはこれらの特性に応じて、車にブレーキをかけさせることができる。
図3は、例示的なニューラルネットワークサブシステムの図である。ニューラルネットワークサブシステム320は、車両に配置することができる。ニューラルネットワークサブシステム320はまた、オフライントレーニングシステムに配置されたトレーニングニューラルネットワークサブシステムであってもよい。
ニューラルネットワークサブシステム320が車両に配置されている場合、それは車両のセンササブシステムから入力センサデータ310を受け取る。具体的には、ニューラルネットワークサブシステム320の前処理モジュール322は、入力センサデータ310を受け取る。前処理モジュール322は、入力センサデータ310を処理して、それを中心予測ニューラルネットワーク324に提供する準備をする。特に、前処理モジュール322は、図2を参照して説明したように、入力センサデータを透視投影面またはトップダウン投影面にマッピングする。状況によっては、前処理が不要な場合がある。たとえば、入力センサデータがカメラ画像のみを含む場合、それはすでに、中心予測ニューラルネットワーク324によって処理することができる形式になっている。
中心予測ニューラルネットワーク324は、前処理モジュール322によって準備された投影センサデータを前処理モジュール322から受け取る。
中心予測ニューラルネットワーク324は、ニューラルネットワークの単一の順方向パス中で物体スコアの出力マップを生成するようにトレーニングされている。換言すれば、所与の投影センサデータについて、中心予測ニューラルネットワーク324は、1つの物体スコアを決定し、それをメモリに格納して繰り返す必要はない。むしろ、中心予測ニューラルネットワーク324は、所与の投影センサデータの物体スコアを一度にすべて生成することができる。メモリからのデータのフェッチには時間がかかるため、これは有利である。
出力マップの投影面は、通常、中心予測ニューラルネットワーク324に提供される投影センサデータの投影面と同じである。出力マップ内の各位置は、投影センサデータの点に対応し、物体の中心が環境内の対応する位置にある可能性を表す数値スコアと関連付けられている。
図3に図示されたニューラルネットワークサブシステム320の実装において、中心予測ニューラルネットワークはまた、選択された位置における環境を特徴付ける特徴を生成するようにトレーニングされている。ただし、他の実装では、個別のモジュールまたはニューラルネットワークが、選択した位置における環境を特徴付ける特徴を生成することができる。
中心予測ニューラルネットワーク324は、物体スコアの出力マップを中心選択モジュール326および物体特性ニューラルネットワーク328に提供する。
中心選択モジュール326は、出力マップ内の数値物体スコアに基づいて、物体の中心がある可能性がある位置を予測する。この選択プロセスを、図5を参照してより詳細に説明する。
中心選択モジュール326は、選択された位置を物体特性ニューラルネットワーク328に提供する。中心選択モジュール326はまた、選択された位置340をメモリ330に書き込むことができる。
物体特性ニューラルネットワーク328は、選択された位置、選択された位置を特徴付ける特徴、および入力センサデータを受け取る。図3に示すニューラルネットワークサブシステム320の実装では、物体特性ニューラルネットワーク328は、まず、選択された位置、特徴、および入力センサデータからの入力のバッチを準備する。各バッチにおける各入力は、選択された位置に対応する。ついで、選択された位置に中心がある可能性がある物体の物体特性が、それらの入力のバッチに基づいて決定される。別の実装形態では、選択された位置、特徴、および入力センサデータは、まず、物体特性ニューラルネットワークの入力のバッチを準備する中間ニューラルネットワークに提供される。ただし、図3に図示するように、これら2つのネットワークは、入力のバッチを準備して、かつ物体特性を決定する単一の物体特性ニューラルネットワークに統合される。
物体特性ニューラルネットワーク328は、入力のバッチをすべて一度に処理し、すべての物体の特性を並行して、すなわちネットワークを通る単一の順方向パス中で決定するようにトレーニングされている。物体特性は、前述のとおり、物体分類と物体境界ボックスを含む。物体特性ニューラルネットワーク328は、車両の計画およびユーザインターフェースサブシステムに物体特性を提供して、車両が運転決定を行う際にそれらの特性を使用できるようにする。
図4は、物体中心を予測するための中心予測ニューラルネットワーク400の例示的なアーキテクチャを示す。
中心予測ニューラルネットワーク400は、入力層410を有する。入力層410は、投影センサデータのテンソルを受け取る。図4は入力層を1つのみ示しているが、中心予測ニューラルネットワーク400は、入力センサデータの複数のチャネルを受け取るために複数の入力層を有することができる。各チャネルは、たとえば可視光、レーザー光、電波などの異なるタイプの反射電磁放射を表す。
中心予測ニューラルネットワーク400は、複数の畳み込み層、たとえば、畳み込み層420a、420b、440a、および440bを有する。畳み込み層は、投影センサデータにおける空間的に局所の相関を利用するニューロン接続を有する。これを行うために、畳み込み層は疎な接続を有し、1つの畳み込み層のニューロンは、前のニューラルネットワーク層のニューロンの小さなサブセットからのみ入力を受け取る。ニューロンが入力を受け取る他のニューロンは、そのニューロンの受容野を規定する。
畳み込み層は、各層に1つ以上のフィルタを規定する1つ以上のパラメータを有し、各フィルタは1つ以上のパラメータを有する。畳み込みニューラルネットワーク層は、各ニューロンのフィルタと層の入力との畳み込みを実行することによって出力を生成する。畳み込みは、それぞれのニューロンのフィルタのパラメータとそのニューロンへの入力とのドット積である。出力は、そのフィルタのアクティベーションマップである。換言すれば、中心予測ニューラルネットワーク400は、投影センサデータ内の位置で特定のタイプの特徴を検出したときにアクティブになるフィルタを学習、つまりそのフィルタを有するようにトレーニングされている。すべてのフィルタのアクティベーションマップをスタックすると、畳み込みニューラルネットワーク層の完全な出力が形成される。したがって、あらゆる出力は、投影センサデータの小さな領域を観察し、かつ同じ活性化マップ内のニューロンとパラメータを共有するニューロンの出力として解釈することができる。
畳み込み層は重み共有を採用しているため、同じ出力チャネル内のすべてのニューロンは同じ重みを有する。これにより、投影センサデータ内の特徴を検出するときに、並進不変性が提供される。
中心予測ニューラルネットワーク400はまた、畳み込み層の間に散在する、空間-深さ層430を含む、1つ以上の空間-深さ層を有し得る。空間-深さ層430は、二次元テンソル要素のグループを複数の三次元深さスライスにスタックすることにより、投影センサデータのテンソルの情報を変換する。一般に、空間-深さ層は、N×M×1入力テンソルの入力要素のGグループを識別し、入力要素を(N/C)×(M/D)×G出力テンソルに変換する。ここで、CおよびDは、グループがどのように関連しているかを表す定数であり、Gは、C×Dに等しい。空間-深さ層430への入力がすでに複数の深さスライスを含んでいるとき、システムは、空間-深さ層430を深さスライスの各々に適用することができる。
空間-深さ層430は、ネットワーク内の後続の層の有効な受容野を増加させ、投影センサデータの空間次元を圧縮する。したがって、各層はより小さなフィルタを学習する。これにより、ニューラルネットワークシステムは、精度を失うことなく後続の畳み込み層の演算をより効率的に実行することができる。
中心予測ニューラルネットワーク400はまた、入力として1つ以上のテンソルを受け取り、深さ次元でテンソルを連結する深さ連結層480を有する。この操作は、入力テンソルを「スタック」して新しいテンソルを生成するものとして説明することができる。たとえば、深さ連結層は、センサデータの複数のチャネルの入力を480スタックすることができる。
中心予測ニューラルネットワーク400はまた、物体中心予測を生成する中心予測層450を含む。中心予測層450によって生成された物体中心予測は、物体中心がある可能性がある特定の位置を識別する特徴マップの形を取る。特徴マップ内の各点は、物体の中心が特徴マップ内のその点に対応する環境内の位置にある可能性を表す数値スコアと関連付けられている。中心予測層450によって生成されたスコアは、0~1の範囲外であり得る実数である。いくつかの実装形態では、中心予測層450は、層への入力で物体中心が検出されたときにアクティブになるようにトレーニングされたフィルタを有する畳み込み層である。
中心予測ニューラルネットワーク400が1つ以上の空間-深さ層を有する場合、中心予測ニューラルネットワーク400はまた、深さ-空間層460aおよび460bを含む1つ以上の深さ-空間層を有し得る。深さ-空間層は、空間-深さ層によって実行される変換を反転させる。これらの層は、物体中心予測の空間分解能を高めるのに役立つ。
ロジスティック層470は、中心予測層450から特徴マップを受け取り、0と1との間の物体スコアの出力マップを生成する。前の図を参照して説明したように、出力マップ内の各位置は、投影センサデータ内の点に対応し、物体の中心が環境内の対応する位置にある可能性を表す数値スコアと関連付けられている。
中心予測ニューラルネットワーク400はまた、特徴出力層490を有する。特徴出力層490は、環境内の各位置に対してそれぞれの特徴ベクトルを生成する最終的な畳み込み層である。特徴は、中心予測ニューラルネットワーク400の畳み込み層における投影センサデータの複数の畳み込みの結果である。
図5は、物体中心を選択するための例示的なプロセスのフローチャートである。便宜上、例示的なプロセスは、1つ以上の位置に配置された1つ以上のコンピュータのシステムによって実行されるものとして説明される。たとえば、図3の中心選択モジュール326は、図5の例示的なプロセスを実行することができる。
まず、システムは、中心予測ニューラルネットワークから物体スコアの出力マップを受け取る(510)。出力マップ内の各位置は、投影センサデータの点に対応し、物体の中心が環境内の対応する位置にある可能性を表す数値スコアと関連付けられている。
次に、システムは所定のしきい値物体スコアを識別し、そのしきい値物体スコアを満たす物体スコアと関連付けられたすべての位置を事前選択する(520)。たとえば、中心選択モジュールは、0.8以上の物体スコアと関連付けられた出力マップ内のすべての位置を事前選択することができる。このような場合、0.8はしきい値物体スコアである。0.8未満の物体スコアと関連付けられている位置は事前選択されない。
事前選択に続いて、システムは、出力マップ内の位置のN×M領域ごとに、N×M領域内で最も高い物体スコアと関連付けられている単一の事前選択された位置があれば、それを選択する(530)。
たとえば、出力マップ内の3つの隣接する位置が、それぞれ0.8、0.8、および0.9の物体スコアと関連付けられ得る。上記の例を続けると、それら3つの隣接する位置の各々は0.8以上の物体スコアと関連付けられているため、各々が選択される。ただし、位置が隣接しているので、それぞれの物体スコアは各々、同じ物体が存在していると考えられるためである可能性が高い。これは、位置のサイズが小さい場合、たとえば1ピクセル程度の場合に特に当てはまる。換言すれば、3つの位置すべてがしきい値物体スコアを満たしたとしても、3つの位置のうち1つだけが予測された物体の中心を表している可能性がある。そのような場合、システムは、領域内で最も高い物体スコアと関連付けられている位置を選択する一方で、同じ領域内の他の位置がしきい値物体スコアを超える物体スコアと関連付けられていたとしても、同じ領域内の他の位置は選択しない(540)。このプロセスは、同じ物体が複数選択されるのを防ぐのに役立つ。
1つのN×M領域内の位置の選択は、別のN×M領域内の位置の選択に影響を与えないため、異なる領域内の位置を同時に選択することができる。NおよびMは、位置サイズおよび一般的な物体サイズに基づいて最適化することができる。たとえば、検出された物体が通常きわめて大きい場合、NおよびMを増やすことができる。一方、検出された物体が通常きわめて小さい場合、NおよびMを減らすことができる。
一実装形態では、NおよびMは各々3に等しい整数であり、出力マップ内の各位置は、投影センサデータ内の単一のピクセルに対応する。換言すれば、出力マップ内のN×M領域は、投影センサデータ内のピクセルの3×3領域に対応する。他の実装形態では、NおよびMは、たとえば、それぞれ3および4である。
図5の例示的なプロセスは、物体スコアの出力マップ内のすべてのN×M領域に対して並行して実行され得る。この領域の並列化は、一度に1つずつ位置を選択するよりも高速であり、物体の抑制効果が空間的に局所であるため好ましい。換言すれば、同じ位置で複数の物体を繰り返し検出すべきではないが、1つの位置での1つの物体の検出は、別の位置での別の物体の検出にはほとんど影響しない。
一実装形態では、図5の例示的なプロセスは、物体特性ニューラルネットワークが各物体の物体特性を出力した後にもう一度実行される。これにより、同じ位置で複数の物体が繰り返し検出されないようにさらに徹底することができる。
図6は、選択された位置に中心がある可能性がある物体の特性を決定するための物体特性ニューラルネットワーク600の例示的なアーキテクチャを示す。物体特性ニューラルネットワーク600は、予測された物体の境界ボックスおよび物体分類を決定する。境界ボックスは、物体の境界または縁を識別するボックスである。物体分類とは、物体の種類、たとえば、「車」、「歩行者」、「自転車」、「道路標示」、または「道路標識」である。
図6に図示された実装形態では、中間ニューラルネットワークが入力のバッチを準備し、それらのバッチを物体特性ニューラルネットワーク600に提供する。各バッチにおける各入力は、物体が中心にある可能性がある位置に対応する。入力のバッチは、入力センサデータ、選択された位置、および選択された位置における環境を特徴付ける特徴を組み合わせることによって準備される。
入力層610aは、中間ニューラルネットワークによって準備された入力のバッチを受け取る。入力層610aの入力のバッチは、入力センサデータを選択された位置と組み合わせることにより準備される。物体特性ニューラルネットワーク600はまた、入力層610bおよび610cを有する。入力層610bおよび610cは各々、選択された位置を、選択された位置における環境を特徴付ける特徴と組み合わせることにより、中間ニューラルネットワークによって準備された入力のバッチを受け取る。
いくつかの実装形態では、物体特性ニューラルネットワーク600は、他の入力を受け取る。たとえば、物体特性ニューラルネットワーク600は、中心予測ニューラルネットワークによって受け取られ、かつ使用される入力センサデータよりも高い解像度のセンサデータを受け取ることができる。物体特性ニューラルネットワーク600はまた、中心予測ニューラルネットワークの入力センサデータを収集するために使用されるセンサとは異なるセンサによって収集されるセンサデータを受け取ることができる。たとえば、物体特性ニューラルネットワーク600は、ライダーデータを受け取ることができる一方、中心予測ニューラルネットワークはカメラデータを受け取る。
物体特性ニューラルネットワーク600は、畳み込み層620、640、670a、および670bを含む複数の畳み込み層を有する。図6には4つの畳み込み層が図示されているが、物体特性ニューラルネットワーク600は、さらに多くの畳み込み層を有し得る。図4を参照して説明したように、畳み込み層は、各層に対して1つ以上のフィルタを規定する1つ以上のパラメータを有する。畳み込み層は、各ニューロンのフィルタと層の入力との畳み込みを実行することによって出力を生成する。畳み込みは、それぞれのニューロンのフィルタのパラメータとそのニューロンへの入力とのドット積である。出力は、そのフィルタのアクティベーションマップである。換言すれば、物体特性ニューラルネットワーク600は、ネットワークへの入力内の位置で特定のタイプの特徴を検出したときにアクティブになるフィルタを学習、つまりそのフィルタを有するようにトレーニングされている。すべてのフィルタのアクティベーションマップをスタックすると、畳み込み層の完全な出力が形成される。したがって、あらゆる出力は、入力の小さな領域を観察し、かつ同じ活性化マップ内のニューロンとパラメータを共有するニューロンの出力として解釈することができる。
畳み込み層の間には、最大ポーリング層630および650を含む最大プーリング層が散在している。最大プーリング層は、それらの入力を重複しない一連の領域に分割し、領域ごとに最大値を出力する。最大プーリング層は、物体特性ニューラルネットワーク600への入力のバッチの空間サイズを徐々に減らし、ネットワーク内のパラメータの数と計算量を減少させるのに役立つ。これが可能であるのは、特徴の正確な位置が、他の特徴に対する大まかな位置ほど重要ではないためである。
物体特性ニューラルネットワーク600はまた、入力として1つ以上のテンソルを取り、深さ次元でテンソルを連結する深さ連結層660を有する。この操作は、入力テンソルを「スタック」して新しいテンソルを生成するものとして説明できる。特に、深さ連結層660は、入力層610bおよび610cによって受け取られた入力のバッチと、入力層610aによって受け取られた処理済みの入力のバッチとを積み重ねる。
畳み込み層670aおよび670bの後に、それぞれ全結合層680aおよび680bが続く。全結合層は、入力層におけるすべてのニューロンを出力層におけるすべてのニューロンに結合する。全結合層は、先行する畳み込み層によって検出された特徴に基づいて物体の特性を決定するようにトレーニングされている。つまり、先行する畳み込み層が入力データ内の特定の位置で特定の特徴のサブセットを検出した場合、全結合層は、それらのトレーニングおよび入力に基づいて、その特定の位置にある物体が特定の特性を有すると決定することができる。特に、全結合層680aは、物体の境界ボックスを決定するようにトレーニングされ、全結合層680bは、物体の分類を決定するようにトレーニングされている。
物体特性ニューラルネットワーク600はまた、全結合層680bから物体分類を受け取るソフトマックス層690を有する。ソフトマックス層690は、全結合層680bから実数のベクトルを受け取り、ベクトル内の各実数は、物体が特定の分類のものである可能性を示す。実数は0~1の範囲外であり得る。ソフトマックス層690は、各物体に対して、0~1までの物体分類の確率分布を生成するようにトレーニングされている。たとえば、ソフトマックス層690は、ある特定の物体が90%の信頼度で歩行者であり、10%の信頼度で道路標識であると決定し得る。これらの信頼度は、自律運転の決定を行う際に車両が使用するための車両の計画サブシステムに提供することができる。
図7は、中心予測ニューラルネットワーク、たとえば図4の中心予測ニューラルネットワーク400によって生成された例示的な出力マップ700を図示している。出力マップ700内の各位置は、小さなボックスで表されている。各ボックスは、中心予測ニューラルネットワークに提供された投影センサデータ内の点に対応し、物体の中心が環境内の対応する位置にある可能性を表す数値物体スコアと関連付けられている。物体スコアの範囲は0~1である。0の物体スコアは、物体中心が環境内の対応する位置にある可能性が低いことを示す。1の物体スコアは、物体中心が環境内の対応する位置にある可能性が高いことを示す。出力マップ700内の位置の小さなサブセットのみが物体スコアと関連付けられているが、これは単に便宜上のことである。実際には、出力マップ700内のすべての位置が物体スコアと関連付けられていることになる。
予測された物体710は、出力マップ700内に配置されている。上述のように、特定の位置における高い物体スコアは、物体の中心がその位置にある可能性が高いことを示す。そのため、0.9の物体スコアと関連付けられた小さなボックスは、予測された物体710の中心に対応する可能性がある。
本明細書に記載の主題および機能的動作の実施形態は、デジタル電子回路内に、有形的に具現化されたコンピュータソフトウェアもしくはファームウェア内に、本明細書に開示された構造体およびそれらの構造上の等価物を含むコンピュータハードウェア内に、またはそれらのうちの1つ以上を組み合わせて、実装することができる。本明細書に記載の主題の実施形態は、1つ以上のコンピュータプログラムとして、すなわち、データ処理装置によって実行するために、またはデータ処理装置の操作を制御するために有形の非一時的記憶媒体に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、またはそれらの1つ以上の組み合わせであり得る。代替的に、またはさらに、プログラム命令は、人工的に生成された伝播信号、たとえば、データ処理装置によって実行するために適切な受信装置に送信される情報を符号化するために生成される機械生成の電気、光、または電磁信号に符号化され得る。
「データ処理装置」という用語は、データ処理ハードウェアを指し、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含し、それらには、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータが含まれる。装置はまた、たとえば、GPUまたは別の種類の専用処理サブシステムなどの、既製またはカスタムメイドの並列処理サブシステムであってもよく、またはそれらをさらに含んでいてもよい。装置はまた、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路であってもよく、またはそれをさらに含んでいてもよい。装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境を作り出すコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つ以上の組み合わせを構成するコードを含んでいてもよい。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードとも称された、または記載されたコンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語、または宣言型もしくは手続き型言語を含む、任意の形式のプログラミング言語で記述することができ、かつ独立型プログラム、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境で使用するために好適な他のユニットを含む任意の形式で導入することができる。プログラムは、ファイルシステム内のファイルに対応する場合もあるが、必ずしもそうである必要はない。プログラムは、他のプログラムまたはデータを保持するファイルの一部、たとえばマークアップ言語ドキュメントに格納された1つ以上のスクリプト、当該プログラム専用の単一ファイル、または複数の調整ファイル、たとえば、1つ以上のモジュール、サブプログラム、もしくはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、1つのコンピュータまたは1つの場所に配置された複数のコンピュータ上で実行されるように展開するか、複数の場所に分散してデータ通信ネットワークで相互接続することができる。
本明細書で使用される「エンジン」または「ソフトウェアエンジン」は、入力とは異なる出力を提供するソフトウェア実装の入出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット(「SDK」)、または物体などの機能の符号化されたブロックであってもよい。各エンジンは、1つ以上のプロセッサとコンピュータ可読媒体を備えた、サーバ、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤー、電子書籍リーダ、ラップトップもしくはデスクトップコンピュータ、PDA、スマートフォン、またはその他の据え置き型もしくはポータブルデバイスなど、適切なタイプのコンピューティングデバイス上に実装することができる。さらに、2つ以上のエンジンは、同じコンピューティングデバイス上で、または異なるコンピューティングデバイス上で実装することができる。
本明細書に記載のプロセスおよび論理フローは、1つ以上のプログラマブルコンピュータが1つ以上のコンピュータプログラムを実行して、入力データ上で動作し、かつ出力を生成することで機能を果たすことによって実行することができる。プロセスおよび論理フローはまた、FPGAもしくはASICなどの専用論理回路によって、または特定用途の論理回路と1つ以上のプログラムされたコンピュータとの組み合わせによって実行することができる。
コンピュータプログラムの実行に適したコンピュータは、汎用もしくは専用のマイクロプロセッサあるいはその両方、または他の種類の中央処理装置に基づくことができる。一般に、中央処理装置は、読み取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受け取ることになる。コンピュータの本質的な要素は、命令を遂行または実行するための中央処理装置ならびに命令およびデータを格納するための1つ以上のメモリデバイスである。中央処理装置およびメモリは、専用論理回路によって補完またはその回路に組み込むことができる。一般に、コンピュータはまた、たとえば、磁気、光磁気ディスク、もしくは、光ディスクなど、データを格納するための1つ以上の大容量記憶デバイスを含むか、または、それらからデータを転送するように動作可能に結合されることになる。しかしながら、コンピュータは必ずしもそのようなデバイスを有する必要はない。さらに、コンピュータは別のデバイス、たとえばほんの数例を挙げると、携帯電話、電子手帳(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス、たとえばユニバーサルシリアルバス(USB)フラッシュドライブなどに組み込むことができる。
コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体は、不揮発性メモリ、媒体、およびメモリデバイスのあらゆる形態を含み、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたは取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む。
ユーザとの対話を提供するために、本明細書に記載の主題の実施形態は、コンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示デバイス、たとえば、CRT(陰極線管)もしくはLCD(液晶ディスプレイ)モニタ、ならびにキーボードおよびマウス、トラックボールなどのポインティングデバイス、またはユーザがコンピュータに入力を提供できる存在感応ディスプレイもしくは他の表面を有する。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる。たとえば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなどの任意の形の感覚的フィードバックであり得る。そして、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受け取ることができる。さらに、コンピュータは、ユーザが使用するデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。また、コンピュータは、テキストメッセージまたは他の形式のメッセージをスマートフォンなどのパーソナルデバイスに送信し、メッセージアプリケーションを実行し、代わりにユーザから応答メッセージを受信することにより、ユーザと対話することができる。
本明細書は多くの特定の実装の詳細を含んでいるが、これらは、いずれかの発明の範囲、または請求され得る事項の範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有の特徴に関する説明として解釈されるべきである。別個の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態で組み合わせて実施することもできる。逆に、単一の実施形態の文脈で本明細書に記載されている種々の特徴は、複数の実施形態で、別個に、または任意の好適なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組み合わせで作用するものとして上記に説明され、当初はそのように特許請求されることがあるが、場合によっては、特許請求された組み合わせからの1つ以上の特徴が、その組み合わせから削除される可能性もあり、特許請求された組み合わせが、サブコンビネーションまたはサブコンビネーションの変形に向けられる可能性もある。
同様に、動作が特定の順序で図面に図示されているが、これは、所望の結果を達成するために、かかる動作がその示された特定の順序、もしくは一連の順序で実行されるべきであること、または例証したすべての動作が実行されるべきであることを要求するものとして理解されるべきではない。特定の状況では、マルチタスクおよび並列処理が有利な場合がある。さらに、上述した実施形態におけるさまざまなシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてかかる分離を必要とするものとして理解されるべきではなく、記載されたプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品内に共に一体化されてもよく、または複数のソフトウェア製品にパッケージ化されてもよい。
主題の特定の実施形態を説明してきた。他の実装形態は、以下の特許請求の範囲内に存在する。たとえば、特許請求の範囲に記載された動作は、異なる順序で実行されてもよく、依然として望ましい結果を達成することができる。一例として、添付の図に図示されたプロセスは、望ましい結果を達成するために、必ずしも示された特定の順序、または連続した順序を必要としない。特定の場合によっては、マルチタスクおよび並列処理が有利なことがある。

Claims (26)

  1. 方法であって、
    車両の外部の環境を特徴付ける入力を受け取ることであって、前記入力は、前記環境内の複数の位置の各々に対して、前記車両の1つ以上のセンサによって捕捉されたセンサデータを含む、受け取ることと、
    前記入力から、前記環境内の前記複数の位置の各々に対して、物体の中心が前記位置にある可能性を表すそれぞれの第1の物体スコアを決定することと、
    前記第1の物体スコアを使用して、前記複数の位置から、1つ以上の位置を、それぞれの物体が中心とする可能性がある前記環境内の位置として選択することと、
    前記選択された位置の各々に対して、前記選択された位置における前記環境を特徴付ける特徴を取得することと、
    前記選択された位置の各々に対して、前記選択された位置の前記特徴から、前記選択された位置を中心とする可能性がある前記それぞれの物体の物体特性を決定することと、を含む、方法。
  2. 前記車両の制御に使用するための前記車両の制御システムへの入力として、前記物体特性を識別するデータを提供することをさらに含む、請求項1に記載の方法。
  3. 前記環境内の前記複数の位置の各々に対して前記第1の物体スコアを決定することは、
    第1のニューラルネットワークを使用して前記入力を処理することを含み、前記第1のニューラルネットワークは、前記入力を受け取り、前記入力を処理して、前記環境内の前記複数の位置の前記それぞれの第1の物体スコアを含む出力マップを規定する第1のネットワーク出力を生成するように構成されている、請求項1または2のいずれかに記載の方法。
  4. 前記環境内の前記複数の位置の各々に対して前記第1の物体スコアを決定することは、
    第1のニューラルネットワークを使用して前記入力を処理することを含み、前記第1のニューラルネットワークは、前記入力を受け取り、前記入力を処理して、複数の出力マップを規定する第1のネットワーク出力を生成するように構成され、各出力マップは、特定の分類の物体の中心が前記環境内の前記複数の位置を中心とする可能性を表す第1の物体スコアを含む、請求項1または2のいずれか1項に記載の方法。
  5. 前記出力マップは、前記第1のニューラルネットワークを通る単一の順方向パス中で生成される、請求項3に記載の方法。
  6. 前記入力は、2次元、3次元、またはより高次元のグリッド内の各空間位置に対応するそれぞれのセンサデータを含み、各空間位置は、前記環境内の前記複数の位置のそれぞれ1つに対応し、前記ネットワーク出力は、前記グリッド内の各空間位置に対するそれぞれの第1の物体スコアを含む、請求項3または5のいずれか1項に記載の方法。
  7. 前記グリッドは2次元であり、前記第1の物体スコアを使用して前記1つ以上の位置を選択することは、
    前記2次元グリッドの特定のN×M領域内の空間位置から、最も高い第1の物体スコアを有する空間位置を選択することと、
    前記2次元グリッドの前記特定のN×M領域内の他の空間位置のいずれかを選択することを抑制することと、を含む、請求項6に記載の方法。
  8. 前記選択された位置の各々に対して、前記選択された位置の前記特徴から、前記選択された位置を中心とする可能性がある物体の物体特性を決定することは、
    第2のニューラルネットワークを使用して、前記選択された位置の前記特徴を含む第2のネットワーク入力を処理することを含み、前記第2のニューラルネットワークは、前記第2のネットワーク入力を処理して、前記位置を中心とする可能性がある前記物体の前記物体特性を規定する第2のネットワーク出力を生成するように構成されている、請求項1~7のいずれか1項に記載の方法。
  9. 前記第2のニューラルネットワークは、前記選択された位置のうちの2つ以上に対して前記処理を並行して実行するように構成されている、請求項8に記載の方法。
  10. 前記物体特性は、前記物体が属する物体クラスを含む、請求項1~9のいずれか1項に記載の方法。
  11. 前記物体特性は、前記物体の境界を識別する2次元または3次元の境界ボックスを含む、請求項1~10のいずれか1項に記載の方法。
  12. 前記物体特性は、前記車両からの前記物体の距離を含む、請求項1~11のいずれか1項に記載の方法。
  13. 前記物体特性は、前記物体のマスクを含み、前記マスクは、前記物体を規定する前記入力の部分をマークする、請求項1~12のいずれか1項に記載の方法。
  14. 1つ以上のコンピュータと、前記1つ以上のコンピュータによって実行されたとき、前記1つ以上のコンピュータに動作を実行させるように動作可能な命令を記憶する1つ以上の記憶デバイスと、を備えるシステムであって、前記動作は、
    車両の外部の環境を特徴付ける入力を受け取ることであって、前記入力は、前記環境内の複数の位置の各々に対して、1つ以上のセンサによって捕捉されたセンサデータを含む、受け取ることと、
    前記入力から、前記環境内の前記複数の位置の各々に対して、物体の中心が前記位置にある可能性を表すそれぞれの第1の物体スコアを決定することと、
    前記第1の物体スコアを使用して、前記複数の位置から、1つ以上の位置を、それぞれの物体が中心とする可能性がある前記環境内の位置として選択することと、
    前記選択された位置の各々に対して、前記選択された位置における前記環境を特徴付ける特徴を取得することと、
    前記選択された位置の各々に対して、前記選択された位置の前記特徴から、前記選択された位置を中心とする可能性がある前記それぞれの物体の物体特性を決定することと、を含む、システム。
  15. 前記環境内の前記複数の位置の各々に対して前記第1の物体スコアを決定することは、
    第1のニューラルネットワークを使用して前記入力を処理することを含み、前記第1のニューラルネットワークは、前記入力を受け取り、前記入力を処理して、前記環境内の前記複数の位置の前記それぞれの第1の物体スコアを含む出力マップを規定する第1のネットワーク出力を生成するように構成されている、請求項14に記載のシステム。
  16. 前記環境内の前記複数の位置の各々に対して前記第1の物体スコアを決定することは、
    第1のニューラルネットワークを使用して前記入力を処理することを含み、前記第1のニューラルネットワークは、前記入力を受け取り、前記入力を処理して、複数の出力マップを規定する第1のネットワーク出力を生成するように構成され、各出力マップは、特定の分類の物体の中心が前記環境内の前記複数の位置を中心とする可能性を表す第1の物体スコアを含む、請求項14に記載のシステム。
  17. 前記出力マップは、前記第1のニューラルネットワークを通る単一の順方向パス中で生成される、請求項15に記載のシステム。
  18. 前記入力は、2次元、3次元、または高次元のグリッド内の各空間位置に対応するそれぞれのセンサデータを含み、各空間位置は、前記環境内の前記複数の位置のそれぞれ1つに対応し、前記ネットワーク出力は、前記グリッド内の各空間位置に対するそれぞれの第1の物体スコアを含む、請求項15または17のいずれか1項に記載のシステム。
  19. 前記グリッドは2次元であり、前記第1の物体スコアを使用して前記1つ以上の位置を選択することは、
    前記2次元グリッドの特定のN×M領域内の空間位置から、最も高い第1の物体スコアを有する空間位置を選択することと、
    前記2次元グリッドの前記特定のN×M領域内の他の空間位置のいずれかを選択することを抑制することと、を含む、請求項18に記載のシステム。
  20. 前記選択された位置の各々に対して、前記選択された位置の前記特徴から、前記選択された位置を中心とする可能性がある物体の物体特性を決定することは、
    第2のニューラルネットワークを使用して、前記選択された位置の前記特徴を含む第2のネットワーク入力を処理することを含み、前記第2のニューラルネットワークは、前記第2のネットワーク入力を処理して、前記位置を中心とする可能性がある前記物体の前記物体特性を規定する第2のネットワーク出力を生成するように構成されている、請求項14~19のいずれか1項に記載のシステム。
  21. 1つ以上のコンピュータによって実行されたとき、前記1つ以上のコンピュータに請求項1~14、22~25のいずれか1項に記載の方法の動作を実行させる命令を記憶する1つ以上のコンピュータ可読記憶媒体。
  22. 前記選択された位置の各々に対して、前記選択された位置における前記環境を特徴付ける特徴を取得することは、前記第1のニューラルネットワークを使用して前記入力を処理することによって、前記特徴を生成することを含む、請求項1に記載の方法。
  23. 前記選択された位置における前記環境を特徴付ける前記特徴は、前記選択された位置を中心とする可能性がある物体の推定スケールを含む、請求項1に記載の方法。
  24. 特定の選択された位置に対する前記第2のネットワーク入力は、前記車両の1つ以上の他のセンサによって収集された前記特定の選択された位置を特徴付ける他のセンサデータをさらに含む、請求項8に記載の方法。
  25. 前記特定の選択された位置を特徴付ける前記他のセンサデータは、前記入力における前記センサデータよりも高い解像度を有する、請求項24に記載の方法。
  26. 前記第2のニューラルネットワークは、前記選択された位置のうちの2つ以上について並行して処理を実行するように構成される、請求項20に記載のシステム。
JP2020543857A 2018-03-12 2019-03-12 物体の検出および特徴付けのためのニューラルネットワーク Active JP7254823B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/919,045 2018-03-12
US15/919,045 US10628686B2 (en) 2018-03-12 2018-03-12 Neural networks for object detection and characterization
PCT/US2019/021828 WO2019178082A1 (en) 2018-03-12 2019-03-12 Neural networks for object detection and characterization

Publications (2)

Publication Number Publication Date
JP2021516806A JP2021516806A (ja) 2021-07-08
JP7254823B2 true JP7254823B2 (ja) 2023-04-10

Family

ID=65952084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543857A Active JP7254823B2 (ja) 2018-03-12 2019-03-12 物体の検出および特徴付けのためのニューラルネットワーク

Country Status (6)

Country Link
US (3) US10628686B2 (ja)
EP (1) EP3743854A1 (ja)
JP (1) JP7254823B2 (ja)
KR (1) KR20200125731A (ja)
CN (1) CN111886603B (ja)
WO (1) WO2019178082A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9381916B1 (en) 2012-02-06 2016-07-05 Google Inc. System and method for predicting behaviors of detected objects through environment representation
WO2018125928A1 (en) 2016-12-29 2018-07-05 DeepScale, Inc. Multi-channel sensor simulation for autonomous control systems
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US12307350B2 (en) 2018-01-04 2025-05-20 Tesla, Inc. Systems and methods for hardware-based pooling
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US10706499B2 (en) * 2018-06-21 2020-07-07 Canon Kabushiki Kaisha Image processing using an artificial neural network
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11455807B2 (en) * 2018-09-20 2022-09-27 Nvidia Corporation Training neural networks for vehicle re-identification
US11105924B2 (en) * 2018-10-04 2021-08-31 Waymo Llc Object localization using machine learning
KR102545105B1 (ko) * 2018-10-10 2023-06-19 현대자동차주식회사 차량용 허위 타겟 판별 장치 및 그의 허위 타겟 판별 방법과 그를 포함하는 차량
KR20250078625A (ko) 2018-10-11 2025-06-02 테슬라, 인크. 증강 데이터로 기계 모델을 훈련하기 위한 시스템 및 방법
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11927668B2 (en) * 2018-11-30 2024-03-12 Qualcomm Incorporated Radar deep learning
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
US10796571B2 (en) * 2019-01-31 2020-10-06 StradVision, Inc. Method and device for detecting emergency vehicles in real time and planning driving routes to cope with situations to be expected to be occurred by the emergency vehicles
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11295161B2 (en) 2019-05-22 2022-04-05 Zoox, Inc. Localization using semantically segmented images
US11003945B2 (en) * 2019-05-22 2021-05-11 Zoox, Inc. Localization using semantically segmented images
WO2020243042A1 (en) * 2019-05-24 2020-12-03 Manoj Puri Rf aware deep learning authentication solution
JP7232909B2 (ja) * 2019-06-21 2023-03-03 株式会社ソニー・インタラクティブエンタテインメント 要素データ管理装置、要素データ管理方法、プログラム及び要素データのデータ構造
DE102019215255A1 (de) * 2019-10-02 2021-04-08 Robert Bosch Gmbh Vorrichtung und Verfahren zum Verarbeiten von Daten eines neuronalen Netzes
US11120280B2 (en) 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11587330B2 (en) * 2019-12-31 2023-02-21 Robert Bosch Gmbh Visual analytics platform for updating object detection models in autonomous driving applications
DE102020203836A1 (de) * 2020-03-25 2021-09-30 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zur Bestimmung eines Wertes einer Reglergröße
US11390301B2 (en) * 2020-06-10 2022-07-19 Nvidia Corp. Tensor-based driving scenario characterization
US11550325B2 (en) 2020-06-10 2023-01-10 Nvidia Corp. Adversarial scenarios for safety testing of autonomous vehicles
WO2022040471A1 (en) * 2020-08-19 2022-02-24 BlinkAI Technologies, Inc. Systems and methods for performing image enhancement using neural networks implemented by channel-constrained hardware accelerators
US12246744B2 (en) * 2020-10-14 2025-03-11 Volkswagen Aktiengesellschaft Detecting objects and determining behaviors of objects
US20240119369A1 (en) * 2021-02-17 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Contextual learning at the edge
US12462575B2 (en) 2021-08-19 2025-11-04 Tesla, Inc. Vision-based machine learning model for autonomous driving with adjustable virtual camera
WO2023023265A1 (en) 2021-08-19 2023-02-23 Tesla, Inc. Vision-based system training with simulated content
US12585950B2 (en) * 2021-10-26 2026-03-24 Samsung Electronics Co., Ltd. Method and electronic device for performing deep neural network operation
US20250110230A1 (en) * 2023-10-02 2025-04-03 Waymo Llc Multi-axis Radar Velocity Image from Stereo Doppler Radar

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142991A (ja) 2012-01-10 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、方法、及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
JP5928748B2 (ja) * 2014-07-31 2016-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 同一種類の複数の認識対象物体が検索対象画像中に存在する場合に、それぞれの認識対象物体の位置および向きを精度良く求める手法
CN106462940A (zh) 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
US9665802B2 (en) 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
US9418319B2 (en) 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
DK3079106T3 (da) * 2015-04-06 2022-08-01 Deepmind Tech Ltd UDVÆLGELSE AF FORSTÆRKNINGSLÆRINGSHANDLINGER VED HJÆLP AF MÅL og OBSERVATIONER
KR102366402B1 (ko) * 2015-05-21 2022-02-22 엘지전자 주식회사 운전자 보조 장치 및 그 제어방법
US9881234B2 (en) 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
WO2017095948A1 (en) * 2015-11-30 2017-06-08 Pilot Ai Labs, Inc. Improved general object detection using neural networks
US9424494B1 (en) 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
US9830529B2 (en) 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
WO2018053175A1 (en) * 2016-09-14 2018-03-22 Nauto Global Limited Systems and methods for near-crash determination
CN106682697B (zh) * 2016-12-29 2020-04-14 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN107220603A (zh) * 2017-05-18 2017-09-29 惠龙易通国际物流股份有限公司 基于深度学习的车辆检测方法及装置
US10310087B2 (en) * 2017-05-31 2019-06-04 Uber Technologies, Inc. Range-view LIDAR-based object detection
US11062461B2 (en) * 2017-11-16 2021-07-13 Zoox, Inc. Pose determination from contact points
US10955851B2 (en) * 2018-02-14 2021-03-23 Zoox, Inc. Detecting blocking objects

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142991A (ja) 2012-01-10 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DU,Xinxin,et al.,Car Detection for Autonomous Vehicle:LIDAR and Vision Fusion Approach Through Deep Learning Framework,2017 IEEE/RSJ International Conference on Intelligent Robots,米国,IEEE,2017年09月28日,pp.749-754
PRABHAKAR,Gowdham,et al.,Obstacle Detection and Classification using Deep Learning for Tracking in High-Speed Autonomous Driving,2017 IEEE Region 10 Symposium (TENSYMP),米国,IEEE,2017年07月16日,pp.1-6
TAO,Jing,et al.,An Object Detection System Based on YOLO in Traffic Scene,2017 6th International Conference on Computer Science and Network Technology (ICCSNT),米国,IEEE,2017年10月22日,pp.315-319

Also Published As

Publication number Publication date
CN111886603A (zh) 2020-11-03
JP2021516806A (ja) 2021-07-08
CN111886603B (zh) 2024-03-15
US10628686B2 (en) 2020-04-21
US20220198807A1 (en) 2022-06-23
EP3743854A1 (en) 2020-12-02
US11928866B2 (en) 2024-03-12
KR20200125731A (ko) 2020-11-04
US11216674B2 (en) 2022-01-04
US20200242375A1 (en) 2020-07-30
WO2019178082A1 (en) 2019-09-19
US20190279005A1 (en) 2019-09-12

Similar Documents

Publication Publication Date Title
JP7254823B2 (ja) 物体の検出および特徴付けのためのニューラルネットワーク
US11783568B2 (en) Object classification using extra-regional context
US12097889B2 (en) Agent trajectory prediction using anchor trajectories
JP7214873B2 (ja) 自律型車両のセンサデータリポジトリの検索
CN113168510B (zh) 通过细化形状先验分割对象
JP7203224B2 (ja) 開放された車両ドアを検出するための分類器のトレーニング
US12051249B2 (en) Behavior prediction of surrounding agents
US12067471B2 (en) Searching an autonomous vehicle sensor data repository based on context embedding
US20210295555A1 (en) Interacted Object Detection Neural Network
US11950166B2 (en) Predicting occupancy probabilities of surrounding agents
US20210150349A1 (en) Multi object tracking using memory attention
CN114424254A (zh) 物体检测电路与物体检测方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230329

R150 Certificate of patent or registration of utility model

Ref document number: 7254823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250