JP7611248B2

JP7611248B2 - セマンティックおよび／または深度認識インスタンスセグメンテーションのためのマルチタスク学習

Info

Publication number: JP7611248B2
Application number: JP2022528234A
Authority: JP
Inventors: スリニヴァサンプラヴィーン; ゴエルクラタース; タリクサラ; ウィリアムベイジーフィルビンジェームズ
Original assignee: ズークスインコーポレイテッド
Priority date: 2019-11-15
Filing date: 2020-11-09
Publication date: 2025-01-09
Anticipated expiration: 2040-11-09
Also published as: CN115088013A; JP2023501716A; EP4058949A1; US11893750B2; US20210181757A1; US10984290B1; EP4058949A4; WO2021096817A1

Description

本発明は、セマンティックおよび／または深度認識インスタンスセグメンテーションのためのマルチタスク学習に関する。

［関連出願」
本出願は、２０１９年１１月１５日に出願された米国仮出願第６２／９３５，６３６号、および２０１９年１２月３１日に出願された米国非仮特許出願第１６／７３２，２４３号の利益を主張し、これらの全体が本明細書に組み込まれる。

コンピュータビジョンは、自律車両を動作させること、セキュリティ目的で個人を識別することなど、様々なアプリケーションにおいて使用される。コンピュータビジョン技術は、画像内に表される環境に関する情報を決定し、コンピュータがさらなる動作（例えば、検出されたオブジェクトを追跡する）を実行するために使用できる形態でその情報をコンピュータに提供するソフトウェアコンポーネントを構築することを含み得る。オブジェクト検出の精度を向上させるためにコンピュータビジョンの進歩が行われているが、多くのコンピュータビジョン技術は、リアルタイムアプリケーションに有用であるように画像を処理するのに時間がかかりすぎ、複数のニューラルネットワークの使用を必要とする場合があり、それらをレンダリングするメモリ空間を使い果たして、自動運転車両などの様々なアプリケーションに使用することを不可能にする。

詳細な説明は、添付の図面を参照して説明される。図面において、参照番号の左端の数字は、その参照番号が最初に現れる図を識別する。異なる図における同じ参照番号は、同様のまたは同等の項目を示す。

図１は、自律車両が、本明細書で説明される機械学習（ＭＬ）アーキテクチャを使用して１つまたは複数の出力を決定し、出力を使用して軌道を生成する例示的なシナリオを示す。図２は、本明細書で説明されるＭＬアーキテクチャおよびトレーニングコンポーネントを含む例示的なシステムのブロック図を示す。図３Ａは、本明細書で説明されるＭＬアーキテクチャのバックボーンコンポーネントのブロック図を示す。バックボーンコンポーネントは、画像およびバックボーンコンポーネントの層のトレーニングに少なくとも部分的に基づいて特徴を生成し得る。図３Ｂは、バックボーンコンポーネントの層に関連付けられたＭＬアーキテクチャの関心領域（ＲＯＩ）コンポーネントのブロック図を示す。ＲＯＩコンポーネントは、画像内で検出されたオブジェクトに関連付けられたＲＯＩ、ＲＯＩに関連付けられた分類、および／または信頼度を生成し得る。図３Ｃは、例示的な画像内で検出されたオブジェクトに関連付けられたＲＯＩおよび分類の例を示す。図４Ａは、ＭＬアーキテクチャの追加のまたは代替のコンポーネント、すなわち、集約コンポーネント、セマンティックセグメンテーションコンポーネント、センターボーティングコンポーネント、および／または深度コンポーネントのブロック図を示す。図４Ｂは、例示的な画像に少なくとも部分的に基づいて、ＭＬアーキテクチャによってそれぞれ決定されるセマンティックセグメンテーション、方向データ、および深度データの例を示す。図４Ｃは、例示的な画像に少なくとも部分的に基づいて、ＭＬアーキテクチャによってそれぞれ決定されるセマンティックセグメンテーション、方向データ、および深度データの例を示す。図４Ｄは、例示的な画像に少なくとも部分的に基づいて、ＭＬアーキテクチャによってそれぞれ決定されるセマンティックセグメンテーション、方向データ、および深度データの例を示す。図５Ａは、ＭＬアーキテクチャの追加のまたは代替のコンポーネント、すなわち、トリミングおよび／またはプーリングコンポーネントおよび／またはインスタンスセグメンテーションコンポーネントのブロック図を示す。図５Ｂは、例示的な画像に少なくとも部分的に基づいて、ＭＬアーキテクチャによって決定されるインスタンスセグメンテーションの例を示す。図５Ｃは、ＭＬアーキテクチャの追加のまたは代替のコンポーネント、すなわちトリミングおよび／またはプーリングコンポーネントおよび／または３次元ＲＯＩコンポーネントのブロック図を図示する。図５Ｄは、例示的な画像に少なくとも部分的に基づいて、ＭＬアーキテクチャによって決定される３次元ＲＯＩの例を示す。図６は、本明細書で説明されるＭＬアーキテクチャを使用してオブジェクト検出を生成する、および／またはオブジェクト検出に少なくとも部分的に基づいて自律車両を制御するための例示的なプロセスのフロー図を示す。図７は、本明細書で説明されるＭＬアーキテクチャをトレーニングするための例示的なプロセスのフロー図を示す。

本明細書で説明される技術は、オブジェクト検出の正確さおよび／または精度を増加させること、単一の機械学習（ＭＬ）モデルから利用可能なオブジェクト検出に関する情報の量を増加させること、様々なコンピュータビジョンアーチファクト（例えば、オブジェクト検出の境界でのトレイル）を減少させること、および／または技術がリアルタイムで実行され得るように処理時間を減少させることによって、コンピュータビジョンを改善し得る。いくつかの例では、本明細書で説明されるＭＬモデルは、消費者グレードのハードウェア（例えば、消費者グレードのグラフィックス処理ユニット（ＧＰＵ））上で毎秒３０以上の速度で、本明細書で説明される４つまたは複数の出力を含むオブジェクト検出を出力し得る。この動作速度は、自律車両制御、拡張現実などの多くのリアルタイムアプリケーションに十分である。

本明細書で説明されるＭＬアーキテクチャは、画像を受信し、トレーニングされて、４つまたは複数の出力を出力し得るが、ＭＬアーキテクチャは、より多くまたはより少ない出力を出力し得ることが企図される。いくつかの例では、ＭＬアーキテクチャは、オブジェクトに関連付けられた２次元領域（ＲＯＩ）、分類、セマンティックセグメンテーション、方向ロジット、深度データ（例えば、深度ビンおよび／または深度残差）、および／またはインスタンスセグメンテーションを含むオブジェクト検出を決定し得る。追加的または代替的に、ＭＬアーキテクチャは、オブジェクトに関連付けられた３次元関心領域を出力するためのコンポーネントを含み得る。いくつかの例では、ＭＬアーキテクチャは、単一の順方向伝搬のパスにおいてこのデータのいずれかを出力し得る。

本明細書で説明される技術は、ＭＬアーキテクチャのコンポーネントを共同トレーニングすることを備え得、これは、一組のニューラルネットワーク層と、ＲＯＩ（例えば、２次元および／または３次元）、セマンティックセグメンテーション、方向ロジット、深度データ、および／またはインスタンスセグメンテーションを決定するためのそれぞれのコンポーネントとを含むバックボーンＭＬモデルを含み得る。簡単にするために、本明細書で説明される出力の各々は、まとめて「タスク」と呼ばれる。例えば、ＭＬアーキテクチャは、オブジェクトに関連付けられたＲＯＩおよび／または分類を決定するタスクに関連付けられた検出コンポーネント、セマンティックセグメンテーションを決定するタスクに関連付けられた別のコンポーネントなどを含む。

いくつかの例では、ＭＬモデルのコンポーネントを共同トレーニングすることは、トレーニングデータセットをＭＬモデルに提供することと、ＭＬモデルから予測された出力を受信することとを含み得る。例えば、トレーニングデータは、少なくとも第１の画像を含み得、予測された出力は、第１の画像に関連付けられた本明細書に記載のタスクのそれぞれについて、それぞれの出力を含み得る。コンポーネントを共同トレーニングすることは、出力とトレーニングデータによって示されるそれぞれのグランドトゥルース情報との間のエラーに基づいてジョイント損失を決定することと、ジョイント損失に少なくとも部分的に基づいてコンポーネントを修正する（例えば、勾配降下を使用して）こととを含み得る。本明細書で説明される技術は、ジョイント損失を調整して、損失の一貫性を強制し得る。

例えば、一貫性を強制することは、タスクに関連付けられた不確実性を決定することであって、不確実性は、それによって生成された出力がグランドトゥルースデータに対して、正しい／適合するそれぞれのコンポーネントの信頼度を示す、ことと、出力およびグランドトゥルースデータに少なくとも部分的に基づいて決定された損失を調整することとを含み得る。調整は、不確実性に少なくとも部分的に基づいて損失をスケーリングすることを含み得る。一貫性を強制することは、追加的または代替的に、同様になるように信頼度を推進することを含み得る。例えば、ＲＯＩコンポーネントは、２次元ＲＯＩおよびそれに関連付けられた信頼度を出力し得、セマンティックセグメンテーションコンポーネントは、同じ分類に関連付けられた画像のピクセルの集合と、各ピクセルに関連付けられたそれぞれの信頼度とを示すセマンティックセグメンテーションを出力し得る。本技術は、セマンティックセグメンテーションに関連付けられた平均信頼度または代表信頼度（例えば、セマンティックセグメンテーションに関連付けられた信頼度にわたって合計エリアテーブルを使用して決定された近似平均）を決定することと、セマンティックセグメンテーションに関連付けられた平均および／または代表信頼度と、２次元ＲＯＩに関連付けられた信頼度との間の差に少なくとも部分的に基づいて一貫性損失を決定することとを含み得る。当然、任意の数の一貫性損失は、そのようなネットワークをトレーニングするために使用され得る。追加の例は、ネットワークによって出力されたＲＯＩと、インスタンスセグメンテーション、セマンティックセグメンテーション、および／または方向データの１つまたは複数に基づいて決定された境界領域とを比較する（例えば、それらの間の差を決定する）ことと、３次元ＲＯＩを画像フレーム内に投影し、得られた投影領域を２次元ＲＯＩと比較することと、ＭＬアーキテクチャによって出力されたｌｉｄａｒデータと深度データとの間の差を決定することと、ｌｉｄａｒデータ、深度データ、および／または３次元ＲＯＩに関連付けられた境界領域などの間の差を決定することと、を含むが、これらに限定されない。

いくつかの例では、トレーニングデータ内に含まれるグランドトゥルースは、教師ありグランドトゥルースデータ（例えば、人間および／または機械にラベル付けされた）、半教師あり（例えば、データのサブセットのみがラベル付けされた）、および／または教師なし（例えば、ラベルが提供されていない場合）であり得る。いくつかの例では、本明細書で説明されるＭＬアーキテクチャの深度コンポーネントによって生成される深度データに関連付けられた損失を決定するために、ｌｉｄａｒデータがグランドトゥルースデータとして使用されるときなど、グランドトゥルースデータはまばら（ｓｐａｒｓｅ）であり得る。そのようなデータは、半教師あり学習の例であり得る。これらの技術はこれを矯正（ｒｅｍｅｄｙ）し、それぞれのセンサ測定値をＭＬアーキテクチャによって生成された出力データのグループ（より濃密な）に関連付けることによって、センサ測定値をグランドトゥルースデータの有用なソースとする。

例えば、ＭＬアーキテクチャは、画像の各ピクセルまでに関連付けられた深度データを出力し得るが、一方で、画像に関連付けられたｌｉｄａｒポイントの数は、ピクセルの数よりもはるかに少ない場合がある。とはいえ、本技術は、ｌｉｄａｒポイントの数、ＲＯＩ、セマンティックセグメンテーション、インスタンスセグメンテーション、および／または方向データ（例えば、オブジェクトの中心を指す方向ロジット）に少なくとも部分的に基づいて、ｌｉｄａｒポイントをピクセルのグループ（または出力の他の離散部分）と関連付けることを含み得る。ピクセルのグループに関連付けられたｌｉｄａｒポイントは、そのピクセルのグループのグランドトゥルースデータとして機能する。

いくつかの例では、本明細書で説明されるＭＬアーキテクチャは、それぞれの特徴を生成する一組の層を含むバックボーンコンポーネントを含み得る。本明細書で説明される技術は、これらの特徴を特徴データ構造（例えば、高密度な特徴データマップ）に集約することを含み得る。例えば、特徴を特徴データ構造に集約することは、特徴を共通の解像度にアップサンプリングすることと、アップサンプリングされた特徴の要素ごとの合計および／または連結を決定することとを含み得る。いくつかの例では、特徴データ構造の集約／作成は、追加的または代替的に、合計された特徴を畳み込んでチャネルの数を減少させること（例えば、チャネルごとのプーリングを達成するような１×１フィルタを使用すること）、その上で１つまたは複数のａｔｒｏｕｓ畳み込みを実行すること（例えば、拡張率を増加させること）、および／またはもう一度畳み込んでチャネルの数を復元すること（例えば、特徴を追加のチャネルに投影するような１×１フィルタを使用すること）を含み得る。

いくつかの例では、２次元ＲＯＩは、バックボーン層によって決定された特徴から直接生成され得、一方で、セマンティックセグメンテーション、方向ロジット、および／または深度データは、特徴データ構造（合計、連結、および／または畳み込みデータ）に少なくとも部分的に基づいて決定され得る。技術は、２次元ＲＯＩに少なくとも部分的に基づいてセマンティックセグメンテーション、方向ロジット、および／または深度データをトリミングすることに少なくとも部分的に基づいてインスタンスセグメンテーションを決定することと、トリミングを一緒に連結することと、トリミングされたおよび連結されたデータからインスタンスセグメンテーションを決定することを含み得る。同じオブジェクトに関連付けられた３次元ＲＯＩを決定することは、オブジェクトのインスタンスセグメンテーションを生成するために使用されるのと同じトリミングされ連結されたデータを取得することと、オブジェクトに関連付けられた画像トリミングとそれに対するインスタンスセグメンテーションとを連結することとを含み得る。換言すれば、３次元ＲＯＩを決定することは、セマンティックセグメンテーション、方向ロジット、深度データ、元の画像、および／またはインスタンスセグメンテーションのトリミングに少なくとも部分的に基づいて生成され得る。

いくつかの既存のコンピュータビジョン技術とは逆に、本明細書で説明されるコンポーネントは、異なるタスク（例えば、ＲＯＩ生成、セマンティックセグメンテーションなど）に専念するサブネットワークを有する１つのネットワークの一部であり得る。コンポーネントは共同トレーニングされ得、これは、ネットワークを通じて画像を順方向伝搬し、本明細書で説明されるコンポーネントのそれぞれを通じて本明細書で説明される損失を順方向伝搬することを含み得る。ことが理解される。

［例示的なシナリオ］
図１は、車両１０２を含む例示的なシナリオ１００を示している。いくつかの例では、車両１０２は、米国運輸省道路交通安全局によって発行されたレベル５分類に従って動作するよう構成される自律車両であり得、これは、ドライバー（または乗員）の常時車両制御を期待することなく、全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかし、他の例では、車両１０２は、任意の他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。本明細書で説明される技術は、自律車両などのロボット制御以外に対して適用され得ることが企図される。例えば、本明細書で説明される技術は、マイニング、製造、拡張現実などおよび／またはコンピュータビジョンを組み込む任意の技術に適用され得る。さらに、車両１０２は陸上車両として描写されているが、車両１０２は、宇宙船、船舶、採掘車両などであり得る。いくつかの例では、車両１０２はシミュレーションされた車両としてシミュレーションにおいて表され得る。簡単にするために、本明細書における説明は、シミュレートされた車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレートされた車両および／または現実世界の車両を指し得る。本明細書で説明されるデータおよび／またはセンサは、現実世界および／またはシミュレートであり得る。

本明細書で説明される技術によれば、車両１０２は、車両１０２のセンサ１０４からセンサデータを受信し得る。例えば、センサ１０４は、画像センサ（例えば、可視光カメラ、赤外線カメラ）位置センサ（例えば、全地球測位システム（ＧＰＳ）センサ）慣性センサ（例えば、加速度計センサ、ジャイロスコープセンサなど）磁場センサ（例えば、コンパス）位置／速度／加速度センサ（例えば、速度計、駆動システムセンサ）深度位置センサ（例えば、ｌｉｄａｒセンサ、ｒａｄａｒセンサ、ｓｏｎａｒセンサ、飛行時間（ＴｏＦ）カメラ、深度カメラ、超音波および／もしくはｓｏｎａｒセンサ、ならびに／または他の深度感知センサ）オーディオセンサ（例えば、マイクロフォン）および／または環境センサ（例えば、気圧計、湿度計など）、を含み得る。

センサ１０４は、センサデータを生成し得、これは、車両１０２に関連付けられたコンピューティングデバイス１０６によって受信され得る。しかし、他の例では、センサ１０４および／またはコンピューティングデバイス１０６のいくつかまたは全ては、車両１０２から離れて別個であり、および／または遠隔に配置され得、データキャプチャ、処理、コマンド、および／または制御は、有線および／または無線ネットワークを介して１つまたは複数のリモートコンピューティングデバイスによって車両１０２との間で通信され得る。

コンピューティングデバイス１０６は、知覚コンポーネント１１０、計画コンポーネント１１２、機械学習（ＭＬ）アーキテクチャ１１４、および／またはシステムコントローラ１１６を格納するメモリ１０８を備え得る。いくつかの例では、知覚コンポーネント１１０は、衝突回避コンポーネントの一部であり得る二次知覚コンポーネントなどの他の知覚コンポーネントの一次知覚コンポーネントであり得る。知覚コンポーネント１１０は、パイプラインの１つまたは複数のＭＬコンポーネントの１つであり得るＭＬアーキテクチャ１１４を含み得る。ＭＬアーキテクチャ１１４は、様々なコンピュータビジョンタスクを達成するように、すなわち、画像データに少なくとも部分的に基づいて、車両を取り巻く環境内に何があるかを決定するように、構成され得る。いくつかの例では、知覚コンポーネント１１０、計画コンポーネント１１２、および／またはＭＬアーキテクチャ１１４は、１つまたは複数のＧＰＵ、ＭＬモデル、カルマンフィルタ、コンピュータ実行可能命令などを含み得るハードウェアおよび／またはソフトウェアのパイプラインを含み得る。

一般に、知覚コンポーネント１１０は、車両１０２を取り囲む環境に何があるかを決定し得、計画コンポーネント１１２は、知覚コンポーネント１１０から受信した情報に従って車両１０２をどのように動作させるかを決定し得る。

いくつかの例では、知覚コンポーネント１１０はセンサ１０４からセンサデータを受信し、車両１０２の近傍のオブジェクトに関連するデータ（例えば、検出されたオブジェクトに関連付けられた分類、インスタンスセグメンテーション、セマンティックセグメンテーション、２および／または３次元境界ボックス、軌道）、車両の目的地を特定する経路データ、道路の特性（例えば、自律車両をローカライゼーションするのに有用な異なるセンサモダリティにおいて検出可能な特徴）を識別するグローバルマップデータ、車両に近接して検出された特性（例えば、建物、木、フェンス、消火栓、一時停止標識、および様々なセンサモダリティにおいて検出可能な任意の他の特徴の位置および／または寸法）などを識別するローカルマップデータ、を決定し得る。知覚コンポーネント１１０によって決定されるオブジェクト分類は、例えば、乗用車、歩行者、自転車乗り、配送トラック、セミトラック、交通標識などの異なるオブジェクトタイプを区別し得る。軌道は、過去、現在、および／または予測されたオブジェクトの位置、速度、加速度、および／または方向を含み得る。知覚コンポーネント１１０によって生成されたデータは、知覚データと総称され得る。知覚コンポーネント１１０が知覚データを生成すると、知覚コンポーネント１１０は、知覚データを計画コンポーネント１１２に提供し得る。

計画コンポーネント１１２は、知覚コンポーネント１１０から受信された知覚データおよび／またはローカライゼーションコンポーネント２２６から受信されたローカライゼーションデータを使用して、１つまたは複数の軌道を決定し、経路またはルートを横断するように車両１０２の動きを制御し、および／またはそうでなければ、車両１０２の動作を制御し得るが、任意のそのような動作は、様々な他のコンポーネントで実行され得る（例えば、ローカライゼーションは、ローカライゼーションコンポーネントによって実行され得、これは知覚データに少なくとも部分的に基づき得る）。いくつかの例では、計画コンポーネント１１２は、知覚データおよび／または他の情報、例えば、１つまたは複数のマップ、ローカライゼーションコンポーネントによって生成されたローカライゼーションデータ（この図では図示せず）など、に少なくとも部分的に基づいて軌道１１８を決定し得る。

例えば、計画コンポーネント１１２は、第１の位置から第２の位置への車両１０２の経路を決定し、実質的に同時に、知覚データおよび／またはシミュレートされた知覚データ（そのようなデータにおいて検出されたオブジェクトに関する予測をさらに含み得る）に少なくとも部分的に基づいて、車両がルートを横断するように制御するために（例えば、検出されたオブジェクトのいずれかを回避するために）、receding horizon技術（例えば、１マイクロ秒、半秒）に従って車両１０２の運動を制御するための複数の潜在的軌道を生成し、潜在的軌道の１つを、車両１０２の駆動コンポーネントに送信され得る駆動制御信号を生成するために使用され得る車両１０２の軌道１１８として選択し得る。図１は、方向、速度、および／または加速度を示す矢印として表されるそのような軌道１１８の例を示すが、軌道自体は、コントローラ１１６のための命令を含み得、これは、次いで、車両１０２の駆動システムを作動させ得る。軌道１１８は、車両位置、車両速度、および／または車両加速度をもたらし得るステアリング角度および／またはステアリング速度を実現するように車両１０２の駆動コンポーネントを作動させるためのコントローラ１１６に対する命令を含み得る。例えば、軌道１１８は、コントローラ１１６がトラッキングするためのターゲット方向、ターゲットステアリング角度、ターゲットステアリングレート、ターゲット位置、ターゲット速度、および／またはターゲット加速度を含み得る。

いくつかの例では、コントローラ１１６は、軌道１１８をトラッキングするのに十分な車両１０２の駆動コンポーネントを作動させるためのソフトウェアおよび／またはハードウェアを含み得る。例えば、コントローラ１１６は１つまたは複数の比例積分微分（ＰＩＤ）コントローラを含み得る。

いくつかの例では、ＭＬアーキテクチャ１１４は、センサ１０４の１つまたは複数の画像センサから画像１２０などの１つまたは複数の画像を受信し得る。いくつかの例では、ＭＬアーキテクチャ１１４は、画像センサから画像のストリームを受信し得る。画像センサは、画像をＭＬアーキテクチャ１１４および／または他のコンポーネントに、ＭＬアーキテクチャ１１４の出力と同期し得るまたはし得ないレートで出力するように構成され得る。本明細書で説明される技術によれば、ＭＬアーキテクチャ１１４は、消費者グレードのハードウェア上で毎秒３０以上のレートで、本明細書にて説明される出力を生成し得るが、いくつかの例では、ＭＬアーキテクチャ１１４は必要に応じてより低速であり得る。

いくつかの例では、本明細書で説明されるＭＬアーキテクチャ１１４は、バックボーンコンポーネントおよび様々なサブネットワークを有する単一のネットワークであってよく、それらのすべてが本明細書の説明に従って共同でトレーニングされるが、追加または代替の例では、ネットワークの少なくともいくつかをフリーズ、または１つもしくは複数の他のコンポーネントとは別個にトレーニングし得る。本明細書で説明されるＭＬアーキテクチャ１１４は、画像を受信し、画像内のオブジェクトに関連付けられた２次元関心領域（ＲＯＩ）、画像に関連付けられたセマンティックセグメンテーション、画像に関連付けられた方向データ（例えば、対応するオブジェクトの中心を指すピクセルごとのベクトルを備え得る）、画像に関連付けられた深度データ（深度ビンおよびオフセットの形態であり得る）、オブジェクトに関連付けられたインスタンスセグメンテーション、および／または３次元ＲＯＩを出力するように構成され得る。これらのそれぞれは、本明細書では異なるタスクと称され、異なるそれぞれのコンポーネントと関連付けられ得る。少なくとも１つの非限定的な例では、ＭＬアーキテクチャ１１４は、単一の順方向伝搬における出力を生成し得る。

ＲＯＩは、境界ボックス、いくつかの他の境界形状、および／またはマスクを含み得る。セマンティックセグメンテーションは、それに関連付けられた分類のピクセルごとの表示（例えば、「歩行者」、「車両」、「自転車乗り」、「特大車両」、「連結式車両」、「動物」などのセマンティックラベル）を含み得るが、セマンティックラベルは、画像および／または特徴マップの任意の他の離散部分（例えば、領域、ピクセルのクラスタ）に関連付けられ得る。方向データは、オブジェクトの最も近い中心の方向のピクセルごと（または他の離散部分ごと）の表示を含み得る。画像の離散部分に関連付けられた方向データの部分は、方向ロジットと呼ばれ得、オブジェクトの中心が方向ロジットによって示される離散部分に対する方向にある尤度の表示を含み得る。深度データは、画像センサから画像の一部分に関連付けられた表面までの距離の表示を備え得、これは、いくつかの例では、深度「ビン」およびオフセットの表示を含み得る。

例えば、図１は、画像１２０を使用してシングルパスにおいてＭＬアーキテクチャ１１４によって生成された出力のいくつかを表す出力１２２を示す。出力１２２は、画像１２０内で検出されたオブジェクトと関連付けられた３次元ＲＯＩ１２４を含み、深度データのそれぞれの離散部分に重ねられた画像データを伴う深度データを表す。画像１２０において可視ではない環境の部分は、出力において可視ではなく、深度データは、車両１０２からの距離が増加するにつれてよりまばらになることに留意されたい。また、出力１２２の表現は、ＭＬアーキテクチャ１１４によって生成された４つまたは複数の出力の２つの表現のみを含むことに留意されたい。計画コンポーネント１１２によって使用される出力１２２は、画像データ、深度データ、および／または３次元ＲＯＩに加えて、またはその代わりに、２次元ＲＯＩ、方向データ、および／またはインスタンスセグメンテーションを含み得る。

［例示的なシステム］
図２は、本明細書で説明される技術を実装する例示的なシステム２００のブロック図を示す。いくつかの例では、例示的なシステム２００は、図１の車両１０２を表し得る車両２０２を含み得る。いくつかの例では、車両２０２は、米国運輸省道路交通安全局によって発行されたレベル５分類に従って動作するよう構成される自律車両であり得、これは、ドライバー（または乗員）の常時車両制御を期待することなく、全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかし、他の例では、車両２０２は、他のレベルまたは分類を有する完全にまたは部分的な自律車両であり得る。さらに、いくつかの例では、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。

車両２０２は、車両コンピューティングデバイス２０４、センサ２０６、エミッタ２０８、ネットワークインタフェース２１０、および／または駆動コンポーネント２１２を含み得る。車両コンピューティングデバイス２０４は、コンピューティングデバイス１０６を表し得、センサ２０６はセンサ１０４を表し得る。システム２００は、追加的または代替的にコンピューティングデバイス２１４を含み得る。

いくつか例では、センサ２０６は、センサ１０４を表し得、ｌｉｄａｒセンサ、ｒａｄａｒセンサ、超音波トランスデューサ、ｓｏｎａｒセンサ、位置センサ（例えば、全地球測位システム（ＧＰＳ）、コンパスなど）、慣性センサ（例えば、慣性測定ユニット（ＩＭＵ）、加速度計、磁力計、ジャイロスコープなど）、画像センサ（例えば、赤緑青（ＲＧＢ）、赤外線（ＩＲ）、強度、深度、飛行時間カメラなど）、マイクロフォン、ホイールエンコーダ、環境センサ（例えば、温度計、湿度計、光センサ、圧力センサなど）などを含み得る。センサ２０６はこれらまたは他のタイプのセンサのそれぞれの複数の例を含み得る。例えば、ｒａｄａｒセンサは、車両２０２の角部、前部、後部、側部、および／または上部に位置する個々のｒａｄａｒセンサを含み得る。別の例として、カメラは、車両２０２の外部および／または内部に関する様々な場所に配置された複数のカメラを含み得る。センサ２０６は、車両コンピューティングデバイス２０４および／またはコンピューティングデバイス２１４に入力を提供し得る。

車両２０２はまた、上記のように、光および／または音を放出するためのエミッタ２０８を含み得る。この例におけるエミッタ２０８は、車両２０２の乗客と通信するための内部オーディオおよびビジュアルエミッタを含み得る。限定ではなく例として、内部エミッタは、スピーカー、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ（例えば、振動および／またはフォースフィードバック）、機械式アクチュエータ（例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど）などを含み得る。この例におけるエミッタ２０８はまた外部エミッタを含み得る。限定ではなく例として、この例における外部エミッタは、進行方向を信号で伝えるためのライトまたは車両動作の他のインジケータ（例えば、インジケータライト、サイン、ライトアレイなど）、および歩行者または他の近くの車両と聴覚的に通信するための１つまたは複数のオーディオエミッタ（例えば、スピーカー、スピーカーアレイ、ホーンなど）を含み、それらの１つまたは複数は音響ビームステアリング技術を含む。

車両２０２はまた、車両２０２と１つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの間の通信を可能にするネットワークインタフェース２１０を含み得る。例えば、ネットワークインタフェース２１０は、車両２０２および／または駆動コンポーネント２１２上の他のローカルコンピューティングデバイスとの通信を容易にし得る。また、ネットワークインタフェース２１０は、追加的または代替的に、車両が他の近くのコンピューティングデバイス（例えば、他の車両、交通信号など）と通信することを可能にし得る。ネットワークインタフェース２１０は、追加的または代替的に、車両２０２がコンピューティングデバイス２１４と通信することを可能にし得る。いくつかの例では、コンピューティングデバイス２１４は、分散コンピューティングシステム（例えば、クラウドコンピューティングアーキテクチャ）の１つまたは複数のノードを含み得る。

ネットワークインタフェース２１０は、車両コンピューティングデバイス２０４を別のコンピューティングデバイスまたはネットワーク２１６などのネットワークに接続するための物理的および／または論理的インタフェースを含み得る。例えば、ネットワークインタフェース２１０は、ＩＥＥＥ２００．１１規格によって定義された周波数などを介するＷｉ－Ｆｉベースの通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの短距離無線周波数、セルラー通信（例えば、２Ｇ、３Ｇ、４Ｇ、４ＧＬＴＥ、５Ｇなど）、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインタフェースすることを可能にする任意の適切な有線もしくは無線通信プロトコルを可能にし得る。いくつかの例では、車両コンピューティングデバイス２０４および／またはセンサ２０６は、ネットワーク２１６を介して、所定の期間が経過した後、ほぼリアルタイムでなど、特定の頻度でコンピューティングデバイス２１４にセンサデータを送信し得る。

いくつかの例では、車両２０２は、１つまたは複数の駆動コンポーネント２１２を含み得る。いくつかの例では、車両２０２は、単一の駆動コンポーネント２１２を有し得る。いくつかの例では、駆動コンポーネント２１２は、駆動コンポーネント２１２のおよび／または車両２０２の周囲の状態を検出するための１つまたは複数のセンサを含み得る。限定ではなく例として、駆動コンポーネント２１２のセンサは、駆動コンポーネントのホイールの回転を感知するための１つまたは複数のホイールエンコーダ（例えば、ロータリエンコーダ）、駆動コンポーネントの向きおよび加速度を測定するための慣性センサ（例えば、ＩＭＵ、加速度計、ジャイロスコープ、磁力計など）、カメラまたは他の画像センサ、駆動コンポーネントの周囲のオブジェクトを音響的に検出するための超音波センサ、ｌｉｄａｒセンサ、ｒａｄａｒセンサなどを含み得る。ホイールエンコーダなどのいくつかのセンサは、駆動コンポーネント２１２に固有であり得る。いくつかのケースでは、駆動コンポーネント２１２上のセンサは、車両２０２の対応するシステム（例えば、センサ２０６）と重複または補足し得る。

駆動コンポーネント２１２は、高電圧バッテリ、車両を推進するためのモータ、バッテリからの直流電流を、他の車両システムによる使用のための交流電流に変換するインバータ、ステアリングモータおよびステアリングラック（電動であり得る）を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧および／または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し、制御を維持するためにブレーキ力を分配するための安定性制御システム、ＨＶＡＣシステム、照明（例えば、車両の外部周囲を照明するためのヘッド／テールライトなどの照明）、および１つまたは複数の他のシステム（例えば、冷却システム、安全システム、車載充電システム、ＤＣ／ＤＣコンバータなどの他の電気コンポーネント、高電圧接合部、高電圧ケーブル、充電システム、充電ポートなど）を含む、車両システムの多くを含み得る。さらに、駆動コンポーネント２１２は、センサからデータを受信して前処理を様々な車両システムの動作を制御し得る駆動コンポーネントコントローラを含み得る。いくつかの例では、駆動コンポーネントコントローラは、１つまたは複数のプロセッサおよび１つまたは複数のプロセッサと通信可能に結合されたメモリを含み得る。メモリは、駆動コンポーネント２１２の様々な機能を実行する１つまたは複数のコンポーネントを格納し得る。さらに、駆動コンポーネント２１２はまた、それぞれの駆動コンポーネントによる、１つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする１つまたは複数の通信接続部を含み得る。

車両コンピューティングデバイス２０４は、プロセッサ２１８と、１つまたは複数のプロセッサ２１８と通信可能に結合されたメモリ２２０とを含み得る。メモリ２２０は、メモリ１０８を表し得る。コンピューティングデバイス２１４はまた、プロセッサ２２２、および／またはメモリ２２４を含み得る。プロセッサ２１８および／または２２２は、データを処理し、本明細書に記載されるような動作を実行するための命令を実行することが可能な任意の適切なプロセッサであり得る。限定ではなく例として、プロセッサ２１８および／または２２２は、１つまたは複数の中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、集積回路（例えば、特定用途向け集積回路（ＡＳＩＣ））、ゲートアレイ（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ））、および／または電子データを処理してその電子データをレジスタおよび／またはメモリに格納され得る他の電子データに変換する任意の他のデバイスまたはデバイスの一部を含み得る。

メモリ２２０および／または２２４は、非一時的コンピュータ可読媒体の例であり得る。メモリ２２０および／または２２４は、オペレーティングシステム、および本明細書で説明される方法および様々なシステムに起因する機能を実装するための１つまたは複数のソフトウェアアプリケーション、命令、プログラム、および／またはデータを格納し得る。様々な実施形態において、メモリは、スタティックＲＡＭ（ＳＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュタイプメモリ、または情報を格納することが可能な任意の他のタイプのメモリのような任意の適切なメモリ技術を用いて実装され得る。本明細書で説明されるアーキテクチャ、システム、および個々の要素は、多くの他の論理的、プログラム的、および物理的なコンポーネントを含み得、それらの添付図面に図示されるものは、単に本明細書での説明に関連する例にすぎない。

いくつかの例では、メモリ２２０および／またはメモリ２２４は、ローカライゼーションコンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、ＭＬアーキテクチャ２３２、マップ２３４、および／またはシステムコントローラ２３６を格納し得る。知覚コンポーネント２２８は、知覚コンポーネント１１０を表し得、計画コンポーネント２３０は計画コンポーネント１１２を表し得、および／またはＭＬアーキテクチャ２３２はＭＬアーキテクチャ１１４を表し得る。

少なくとも１つの例において、ローカライゼーションコンポーネント２２６は、車両２０２の位置、速度および／または方向（例えば、ｘ位置、ｙ位置、ｚ位置、ロール、ピッチ、またはヨーの１つまたは複数）を決定するためにセンサ２０６からのデータを受信するハードウェアおよび／またはソフトウェアを含み得る。例えば、ローカライゼーションコンポーネント２２６は、環境のマップ２３４を含み、および／または要求／受信し得、マップ２３４内の自律車両の位置、速度、および／または方向を継続的に決定できる。いくつか例では、ローカライゼーションコンポーネント２２６は、ＳＬＡＭ（同時にローカライゼーションおよびマッピング）、ＣＬＡＭＳ（同時に較正、ローカライゼーション、およびマッピング）、相対ＳＬＡＭ、バンドル調整、非線形最小二乗最適化などを利用し、画像データ、ｌｉｄａｒデータ、ｒａｄａｒデータ、ＩＭＵデータ、ＧＰＳデータ、ホイールエンコーダデータなどを受信し、自律車両の位置、姿勢、および／または速度を正確に決定し得る。いくつかの例では、本明細書で説明されるように、ローカライゼーションコンポーネント２２６は、車両２０２の様々なコンポーネントにデータを提供して、軌道を生成するためのおよび／または地図データを生成するための自律車両の初期位置を決定し得る。いくつかの例では、ローカライゼーションコンポーネント２２６は、マッピングコンポーネント２３４に、環境に対する車両２０２の姿勢（例えば、位置および／または方向）、および／またはそれに関連付けられたセンサデータを提供し得る（例えば、マップ２３４に対する位置および／または方向を介して）。

いくつかの例では、知覚コンポーネント２２８は、ハードウェアおよび／またはソフトウェアに実装された予測システムを含み得る。知覚コンポーネント２２８は、車両２０２の周囲の環境内のオブジェクトを検出し（例えば、オブジェクトが存在することを識別し）、オブジェクトを分類し（例えば、検出されたオブジェクトに関連付けられたオブジェクトタイプを決定し）、センサデータおよび／または環境の他の表現をセグメント化し（例えば、センサデータおよび／または環境の表現の一部を、検出されたオブジェクトおよび／またはオブジェクトタイプに関連付けられていると識別し）、オブジェクトに関連付けられた特性（例えば、オブジェクトに関連付けられた現在の、予測された、および／または以前の位置、方向、速度、および／または加速度を識別する軌道）を決定するなどをし得る。知覚コンポーネント２２８によって決定されるデータは知覚データと呼ばれる。

計画コンポーネント２３０は、ローカライゼーションコンポーネント２２６から車両２０２の位置データならびに／または方向データを、および／または知覚コンポーネント２２８から知覚データを受信し得、このデータのいずれかに少なくとも部分的に基づいて車両２０２の動作を制御する命令を決定し得る。いくつかの例では、命令を決定することは、命令が関連付けられているシステムに関連付けられたフォーマットに少なくとも部分的に基づいて命令を決定することを含み得る（例えば、自律車両の動きを制御するための第１の命令は、システムコントローラ２３６および／または駆動コンポーネント２１２が解析／実行させ得るメッセージおよび／または信号（例えば、アナログ、デジタル、空気圧、運動学的）の第１のフォーマットでフォーマットされ得、エミッタ２０８のための第２の命令は、それに関連付けられた第２のフォーマットに従ってフォーマットされ得る）。

メモリ２２０および／または２２４は、追加的または代替的に、衝突回避システム、ライドマネジメントシステムなどを格納し得る。ローカライゼーションコンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、ＭＬアーキテクチャ２３２、マップ２３４、および／またはシステムコントローラ２３６は、メモリ２２０に格納されているように図示されるが、これらのコンポーネントのいずれかは、プロセッサ実行可能命令、ＭＬモデル（例えば、ニューラルネットワーク）、および／またはハードウェアを含み得、これらのコンポーネントのいずれかの全てまたは一部はメモリ２２４に格納、またはコンピューティングデバイス２１４の一部として構成され得る。いくつかの例では、車両２０２上で動作するマッピングコンポーネントは、コンピューティングデバイス２１４への送信のためのセンサデータ（例えば、生センサデータ、センサデータアライメント、知覚ラベル付きセンサデータ）、姿勢データ、および／または知覚データを収集しおよび／または符号化し得る。車両および／またはコンピューティングデバイス２１４上で動作するマッピングコンポーネントは、本明細書で説明される動作を実行して、リンク修正（a link modification）に少なくとも部分的に基づいてマップを生成し得る。

いくつかの例では、コンピューティングデバイス２１４（および／または２０４）は、トレーニングコンポーネント２３８を含み得る。いくつかの例では、トレーニングコンポーネントは、１つまたは複数の自律車両から教師あり、半教師あり、および／または教師なしトレーニングデータを生成および／または収集し、本明細書で説明されるＭＬアーキテクチャ１１４をトレーニングするためのコンポーネントを含み得る。

ＭＬアーキテクチャ２３２は、車両２０２および／またはコンピューティングデバイス２１４上で動作し得る。いくつかの例では、ＭＬアーキテクチャ２３２は、センサ２０６、ローカライゼーションコンポーネント２２６、パイプライン内の知覚コンポーネント２２８の他のコンポーネント、および／または計画コンポーネント２３０から下流（出力を受信する）であり得る。

ローカライゼーションコンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、ＭＬアーキテクチャ２３２、トレーニングコンポーネント２３８、および／またはシステム２００の他のコンポーネントは１つまたは複数のＭＬモデルを含み得る。例えば、ローカライゼーションコンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、ＭＬアーキテクチャ２３２、および／またはトレーニングコンポーネント２３８は、それぞれ異なるＭＬモデルパイプラインを含み得る。いくつかの例では、ＭＬモデルは、ニューラルネットワークを含み得る。例示的なニューラルネットワークは、入力データを一連の接続された層を通過させて出力を生成する生物学的に着想されたアルゴリズムである。ニューラルネットワークにおけるそれぞれの層が別のニューラルネットワークを含むこともでき、または任意の数の層（畳み込み層であるか否か）を含むこともできる。本開示のコンテキストで理解できるように、ニューラルネットワークは機械学習を利用でき、これは、学習されたパラメータに基づいて出力が生成されるそのようなアルゴリズムの広範なクラスを指すことができる。

ニューラルネットワークのコンテキストで説明されるが、任意のタイプの機械学習を本開示と一致して使用できる。例えば、機械学習アルゴリズムは、回帰アルゴリズム（例えば、通常最小二乗回帰（ＯＬＳＲ）、線形回帰、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン（ＭＡＲＳ）、局所的に推定される散布図の平滑化（ＬＯＥＳＳ）、インスタンスベースのアルゴリズム（例えば、リッジ回帰、最小絶対値縮小選択演算子（ＬＡＳＳＯ）、弾性ネット、最小角回帰（ＬＡＲＳ）、決定木アルゴリズム（例えば、分類回帰木（ＣＡＲＴ）、反復二分法３（ＩＤ３）、カイ二乗自動相互作用検出（ＣＨＡＩＤ）、決定切り株、条件付き決定木）、ベイジアンアルゴリズム（例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均１依存性推定器（ＡＯＤＥ）、ベイジアン信頼度ネットワーク（ＢＮＮ）、ベイジアンネットワーク）、クラスタリングアルゴリズム（例えば、ｋ平均法、ｋメジアン法、期待値最大化（ＥＭ）、階層的クラスタリング）、関連規則学習アルゴリズム（例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、動径基底関数ネットワーク（ＲＢＦＮ））、深層学習アルゴリズム（例えば、深層ボルツマンマシン（ＤＢＭ）、深層信頼ネットワーク（ＤＢＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、積層型オートエンコーダ）、次元削減アルゴリズム（例えば、主成分分析（ＰＣＡ）、主成分回帰（ＰＣＲ）、部分最小二乗回帰（ＰＬＳＲ）、サモンマッピング、多次元スケーリング（ＭＤＳ）、射影追跡法、線形判別分析（ＬＤＡ）、混合判別分析（ＭＤＡ）、二次判別分析（ＱＤＡ）、フレキシブル判別分析（ＦＤＡ））、アンサンブルアルゴリズム（例えば、ブースティング、ブートストラップ集約（バギング）、エイダブースト、階層型一般化（ブレンディング）、勾配ブースティングマシン（ＧＢＭ）、勾配ブースト回帰木（ＧＢＲＴ）、ランダムフォレスト）、ＳＶＭ（サポートベクトルマシン）、教師あり学習、教師なし学習、半教師あり学習などを含むことができるが、これらに限定されない。アーキテクチャの追加の例は、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔなどのニューラルネットワークを含む。

メモリ２２０は、追加的または代替的に、１つまたは複数のシステムコントローラ２３６を格納し得、これは、車両２０２のステアリング、推進、ブレーキ、安全、エミッタ、通信、および他のシステムを制御するように構成され得る。これらのシステムコントローラ２３６は、駆動コンポーネント２１２および／または車両２０２の他のコンポーネントの対応するシステムと通信し、および／または制御し得る。システムコントローラ２３６は、計画コンポーネント２３０から受信した命令に少なくとも部分的に基づいて、車両２０２の動作を制御し得る。

図２は分散システムとして示されているが、代替の例では、車両２０２のコンポーネントは、コンピューティングデバイス２１４に関連付けられ得、および／またはコンピューティングデバイス２１４のコンポーネントは、車両２０２に関連付けられ得ることに留意されたい。すなわち、車両２０２は、コンピューティングデバイス２１４に関連付けられた機能の１つまたは複数を実行し得、逆もまた同様である。

［ＭＬアーキテクチャおよび関連付けられたタスク出力の例］
図３Ａは、ＭＬアーキテクチャ２３２および／またはＭＬアーキテクチャ１１４を表し得る、例示的なＭＬアーキテクチャ３００の一部のブロック図を示す。ＭＬアーキテクチャ３００は、バックボーンコンポーネント３０２を含み得る。バックボーンコンポーネントは層３０４などの１つまたは複数の層を含み得、これは畳み込み層／フィルタ、ＲｅＬＵ関数、バッチ正規化、サブサンプリング関数（例えば、最大プール、平均プール、Ｌ２ノルム）、損失関数／フィードバック（少なくともトレーニング中）などを含み得る。いくつかの例では、例示的なＭＬモデル２００は、例えば、畳み込みネットワークなどのニューラルネットワークを含み得る。ニューラルネットワークのコンテキストで説明したが、任意のタイプの機械学習を本開示と一致させて使用し得る。例えば、機械学習アルゴリズムは、回帰アルゴリズム、インスタンスベースのアルゴリズム、ベイジアンアルゴリズム、相関ルール学習アルゴリズム、深層学習アルゴリズムなどを含み得るが、これらに限定されない。少なくとも１つの非限定的な例では、バックボーンコンポーネント３０２は、ＲｅｔｉｎａＮｅｔ、ＶＧＧ、ＲｅｓＮｅｔネットワーク（例えば、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１）などを含み得る。

いくつかの例では、バックボーンコンポーネント３０２の各層は、特徴３０６乃至３１０などの特徴を出力し得る。３つの特徴が示されているが、特徴の数は、バックボーンコンポーネント３０２の層の数に、少なくとも部分的に依存し得ることが理解される。バックボーンコンポーネント３０２は、この例では３つの層を有するが、バックボーンコンポーネント３０２は、より少ないまたはより多くを有し得ることが理解される。いくつかの例では、特徴の１つ、例えば、特徴３０６は層によって出力される特徴マップを含み得る。層の関数が、それへの入力のコンピュータおよび／またはニューラルネットワーク変換であり得る出力を含み得るので、特徴３０６は人的に意味のある用語で記載されない場合がある。したがって、関数は、バックボーンコンポーネント３０２のそれぞれのコンポーネントの層によって生成された値の高次元フィールド（例えば、ベクトルおよび／またはテンソルを生成した層の学習パラメータに基づいて決定されたデータの固有の特性を表す値のベクトルおよび／またはテンソル）を含み得る。

いくつかの例では、バックボーンコンポーネント３０２は、画像１２０を受信し、画像１２０を決定された特徴３０６乃至３１０にバックボーンコンポーネント３０２の層の１つまたは複数を通して順方向伝搬し得る。いくつかの例では、特徴３０６乃至３１０は、バックボーンコンポーネント３０２の層の関数に応じて、異なる解像度および／またはサイズを有し得る。例えば、特徴３０６は、最小サイズを有し得、特徴３１０は、特徴３０６乃至３１０と比較して、最大サイズを有し得る。例えば、第１の層は、以前の層と比較して画像をダウンサンプリングし得る。いくつかの例では、バックボーンの層は、フィルタ／カーネルの寸法に応じて、１つまたは複数の重みまたはそれに関連付けられたバイアス値を有する、および／またはそれに関連付けられた１つまたは複数のハイパーパラメータを有する、フィルタ／カーネルを含み得る。例えば、ハイパーパラメータは、フィルタの寸法（例えば、フィルタに関連付けられた重みの数を決定し得る、例えば、３×３フィルタは、例えば、最大９重みを含み得る）、ストライド、パディング、パディング値（例えば、ゼロパディング、１つのパディング）、拡張率などを含み得る。

図３Ｂは、ＭＬアーキテクチャ３００のＲＯＩコンポーネント３１２乃至３１６のブロック図を示す。いくつかの例では、ＲＯＩコンポーネント３１２乃至３１６はそれぞれ、バックボーンコンポーネント３０２の異なる層から特徴を受信し得る。例えば、ＲＯＩコンポーネント３１２は、バックボーンコンポーネントの層３０４から特徴３０６を受信し得る。

ＲＯＩコンポーネント３１２乃至３１６は、それぞれ、オブジェクトに関連付けられたＲＯＩおよび／または分類を決定するようにトレーニングされ得る。ＲＯＩコンポーネント３１２乃至３１６は、ＹＯＬＯ構造などの同じＭＬモデル構造、および／または同じハイパーパラメータを含み得るが、追加または代替の例では、それらは異なる構造および／またはハイパーパラメータを含み得る。構造は、コンポーネントのサブコンポーネント間の順序、タイプ、および／または接続性を定義し得る（例えば、第１の畳み込み層は、生のセンサデータを受信し、そこから出力を生成し、第２の畳み込み層に出力を提供する第１のマックスプール関数に出力を提供するなど）。コンポーネントに関連付けられたハイパーパラメータは、例えば、畳み込み層内のフィルタの数および／もしくは次元、ならびに／またはコンポーネントに関連付けられた空間範囲、ストライド、パディングの量、パディング値（例えば、０パディング、フラクショナルパディング）、入力サイズ（例えば、次元Ｗ_1xＨ_1xＤ₁または任意の他の次元数を有するテンソル）および／もしくはタイプ（例えば、生センサデータ、例示的なＭＬモデル２００の前のコンポーネントから受信されたテンソル）、出力サイズおよび／もしくはタイプ（例えば、次元Ｗ_1xＨ_1xＤ₁またはＷ_2xＨ_2xＤ₂を有する次元を有するテンソル）などのような構造のプロパティを定義し得る。パラメータは、ハイパーパラメータとは対照的に、例えば、フィルタなどの層またはそのコンポーネントに関連付けられた重みおよび／またはバイアスなど、トレーニング中に修正される任意のパラメータ含み得る。異なるＲＯＩコンポーネント３１２乃至３１６によって生成された異なるＲＯＩは、特徴３０６乃至３１０の解像度の差に少なくとも部分的に基づいて異なるサイズであり得る。いくつかの例では、ＲＯＩコンポーネント３１２乃至３１６によって生成されたＲＯＩは収集され得、冗長ＲＯＩは破棄され得、および結果として生じるＲＯＩはＭＬアーキテクチャ３００の次の部分に転送される。

例えば、ＲＯＩコンポーネント３１２を取ると、ＲＯＩコンポーネント３１２は、特徴３０６に少なくとも部分的に基づいて、ＲＯＩ３１８および／または分類３２０（図中では「クラス」と略記）を生成し得る。いくつかの例では、ＲＯＩ３１８を生成することは境界形状の中心および／または範囲（例えば、寸法）を決定することを含み得、これは分類３２０に関連付けられたアンカーに少なくとも部分的に基づき得る。分類３２０は、ＲＯＩ３１８に関連付けられた意味分類および／またはＲＯＩ３１８が基づくアンカーを含み得る。いくつかの例では、各分類は、１つまたは複数のアンカーに関連付けられ得、ＲＯＩコンポーネント３１２によって出力されるＲＯＩ３１８は、複数のＲＯＩおよび信頼度の中から最も高い信頼度に関連付けられたＲＯＩ３１８であり得る。例えば、ＲＯＩコンポーネント３１２は、（例えば、非最大抑制（ＮＭＳ）アルゴリズムを使用して）画像内に表されたオブジェクトとの関連付けのために、特徴３０６および／または特徴３０６自体に少なくとも部分的に基づいてＲＯＩコンポーネント３１２によって生成された第１の特徴マップ内の複数のＲＯＩの中から第１のＲＯＩを選択し、第１のＲＯＩ画像を関連付けるかどうかを決定し得る。いくつかの例では、ＲＯＩコンポーネント３１２は、ＲＯＩ３１８に関連付けられた信頼度を出力し得る。

いくつかの例では、ＲＯＩコンポーネントは、各アンカーについての分類を決定するためのもの、および各アンカーに関してＲＯＩサイズを回帰させるためのものの２つのサブネットワークを含み得る。本明細書で使用される場合、２次元ＲＯＩは、境界ボックス（または他の形状）、分類、および／または信頼度を含み得る。

図３Ｃは、画像１２０から検出された車両に関連付けられたＲＯＩおよび分類３２２の例を示す。ＲＯＩは、描写される例において境界矩形を含むが、ＲＯＩは、追加的または代替的に、アンカー形状に応じて、任意の他のタイプのマスクまたは境界形状であり得る。

図４Ａを参照すると、図４Ａは、ＭＬアーキテクチャ３００の追加または代替のコンポーネントのブロック図を示す。例えば、ＭＬアーキテクチャ３００は、集約コンポーネント４００、セマンティックセグメンテーションコンポーネント４０２、センターボーティングコンポーネント４０４、および／または深度コンポーネント４０６を含み得る。いくつかの例では、ＲＯＩコンポーネント３１２乃至３１６、セマンティックセグメンテーションコンポーネント４０２、センターボーティングコンポーネント４０４、および／または深度コンポーネント４０６は、本明細書に記載される共同学習技術に少なくとも部分的に基づいて共同学習され得る。バックボーンコンポーネント３０２によって生成された特徴（例えば、３０６乃至３１０）は、集約コンポーネント４００にて受信され得る。

集約コンポーネント４００は、特徴が共通の解像度（例えば、画像１２０の８分の１スケール、または任意の他の共通のスケール）を有するようにアップサンプリングし、アップサンプリングされた特徴の要素ごとの合計を決定し得る。いくつかの例では、アップサンプリングステージは、畳み込み（例えば、他のフィルタサイズが企図されているが、学習されたパラメータを含み得る３×３フィルタを使用して）、バッチ正規化、ＲｅＬＵ、および２×バイリニアアップサンプリングを含み得る。特徴のセットの解像度に応じて、特徴のセットは１つまたは複数のアップサンプリングステージを通過させられて、共通の解像度に達し得る。追加的または代替的な例では、特徴は学習されたパラメータを含み得る一連のａｔｒｏｕｓ畳み込みを通過させられ得る。ａｔｒｏｕｓ畳み込みを含まない上述のアップサンプリングは、十分に意味論的に意味のある高い解像度の特徴マップを達成し得、ａｔｒｏｕｓ畳み込みを使用することと比較して、計算およびメモリ使用量を低減し得る。いくつかの例では、特徴が共通のスケールにアップサンプリングされると、特徴は密度の高い特徴マップとして合計され得る。

本技術は、追加または代替として、アップサンプリングおよび合計された特徴のチャネルの数を低減することによって（例えば、チャネルワイズプールを実行するために１×１畳み込みを使用して）、受容野を増加させ、および／または高密度特徴マップ内のエッジをさらに分解し、１つまたは複数のａｔｒｏｕｓ畳み込み（例えば、増加する拡張率で、例えば、２、４、および８の拡張率で３つの畳み込みであるが、任意の他の数の畳み込みまたは拡張率が使用され得る）を実行し、１×１畳み込みを適用することによってチャネルの数を復元し得る高密度ピクセル単位エンコーダを含み得、その任意の畳み込みは、異なる学習されたパラメータを含み得る。これらの動作の結果は、高密度な特徴マップであり得る特徴データ構造４０８である。この技術は、リアルタイムで使用され得、ＭＬモデルの受容野を増加させながら特徴の解像度を維持する。

いくつかの例では、特徴データ構造４０８は、セマンティックセグメンテーションコンポーネント４０２、センターボーティングコンポーネント４０４、および／または深度コンポーネント４０６によって使用され得る。この共有データ使用は、計算および／またはメモリ使用を低減し得る。いくつかの例では、セマンティックセグメンテーションコンポーネント４０２、センターボーティングコンポーネント４０４、および／または深度コンポーネント４０６は、それぞれ、特徴データ構造４０８を本明細書で説明されるタスク固有の出力に投影するためのフィルタを含み得る。

セマンティックセグメンテーションコンポーネント４０２は、画像１２０のセマンティックセグメンテーション４１０および／またはそれに関連付けられた信頼度４１２を決定し得る。例えば、セマンティックセグメンテーションは、画像１２０の離散部分に関連付けられたセマンティックラベル（例えば、ピクセルごとの分類ラベル）および／または分類が正しい尤度を示す信頼度を含み得る。例えば、図４Ｂは、画像１２０の一部に関連付けられた例示的なセマンティックセグメンテーション４１４を示す。いくつかの例では、セマンティックセグメンテーションコンポーネント４０２は、セマンティックセグメンテーション４１０および／または信頼度４１２（例えば、特徴データ構造４０８をセマンティックセグメンテーションおよび／または信頼度空間に投影する）を生成するために、１×１畳み込み、４×バイリニアアップサンプリング、および／またはｓｏｆｔｍａｘ層を含み得る。例示的なセマンティックセグメンテーション４１４は、分類「車両」に関連付けられた複数の離散部分（例えば、ピクセル）と、分類「地上」に関連付けられた複数の他の離散部分とを示す。いくつかの例では、信頼度はロジットによって示され得る。

センターボーティングコンポーネント４０４は、特徴データ構造４０８に少なくとも部分的に基づいて方向データ４１６を決定し得、方向データは、画像１２０の離散部分に関連付けられた方向および／または信頼度を含む。いくつかの例では、信頼度はロジットによって示され得るが、確率などの他の例が企図される。方向は、離散部分から最も近いオブジェクトの中心への方向を示し得る。図４Ｃは、画像１２０の一部のそれぞれの離散部分に関連付けられた非常に限られた数の方向ロジットを含む例示的な方向データ４１８を示す。灰色の線は、方向データには現れず、視覚的参照のためにのみ現れることに留意されたい。

深度コンポーネント４０６は、画像１２０の離散部分に関連付けられた深度ビン４２０および／または深度残差４２２を決定し得る。いくつかの例では、深度ビンは、画像センサおよび／またはビンの中心（および／または任意の他の中間点）からの距離の範囲を含み得る。いくつかの例では、深度ビン４２０を決定することは分類タスクであり得、一方、深度残差を決定することは回帰タスクであり得る。いくつかの例では、深度残差は、深度ビンに少なくとも部分的に基づき得る。深度残差は、例えば、深度ビンの中心または深度ビンの端部など、深度ビンに関連付けられた基準点からのオフセットを含み得る。図４Ｄは、画像１２０に関連付けられて深度コンポーネント４０６によって決定される例示的な深度データ４２４を示す。いくつかの例では、深度コンポーネント４０６は、残差４２２を最終深度として出力深度ビン４２０の中心を合計し得る。

と定義され得る。

として計算され得る。

ログ空間を使用する例では、特定のピクセルおよび特定のビンｉについての深度値を決定することは、以下の式

を評価すること、を含み得る。

いくつかの例では、本明細書で説明される深度コンポーネント４０６の動作は、「トレイル」アーチファクトを減少させ得る。これは、最も高いロジットを有する深度ビンを選択することが、各ピクセルにおける潜在的にマルチモーダルな深度分布の単一モードの選択を可能にするためであり得る。これにより、ピクセルは、背景深度またはオブジェクト深度のいずれかに暗示的に割り当てられ得る。

図５Ａを参照すると、図５Ａは、ＭＬアーキテクチャ３００の追加または代替のコンポーネント、すなわち、トリミングおよび／もしくはプーリングコンポーネント５００ならびに／またはインスタンスセグメンテーションコンポーネント５０２、のブロック図を示す。いくつかの例では、トリミングおよび／またはプーリングコンポーネント５００は、ＲＯＩを受信し（Ｄにおいて）、ＲＯＩに関連付けられたセマンティックセグメンテーション４１０、方向データ４１６、ならびに／または深度データ４２０および／もしくは４２２の（例えば、トリミングおよび／またはプールする）部分を決定し得る。トリミングおよび／またはプーリングコンポーネント５００は、共通の解像度にない結果として生じる部分のいずれかをアップサンプリングし、部分を一緒に連結し得る（５０４にて）。いくつかの例では、トリミングおよび／またはプーリングコンポーネント５００は、合計されたエリアテーブルに少なくとも部分的に基づいて、セマンティックセグメンテーション４１０のトリミングに関連付けられた信頼度を決定し得る。いくつかの例では、セマンティックセグメンテーション４１０のトリミングに合計エリアテーブルを適用することは、セマンティックセグメンテーション４１０のトリミングに関連付けられた信頼度の平均信頼度の近似を示す代表信頼度を決定し得る。追加または代替の例では、トリミングおよび／またはプーリングコンポーネント５００は、セマンティックセグメンテーション４１０のトリミングに関連付けられた平均信頼度を決定し得る。いくつかの例では、代表または平均信頼度は、トレーニング中および／または推論中に使用され得る。

いくつかの例では、インスタンスセグメンテーションコンポーネント５０２は、セマンティックセグメンテーション４１０のトリミングされた部分、方向データ４１６、ならびに／または深度データ４２０および／もしくは４２２に少なくとも部分的に基づいて、インスタンスセグメンテーション５０６を生成し得る。いくつかの例では、インスタンスセグメンテーションコンポーネント５０２は、セマンティックセグメンテーション４１０、方向データ４１６、ならびに／または深度データ４２０および／もしくは４２２を（例えば、学習されたパラメータを備え得る１×１フィルタを使用して）畳み込んで、オブジェクトが検出されたか否かのバイナリ表示を決定し得る。例えば、図５Ｂは、例示的なインスタンスセグメンテーション５０８を示す。オブジェクトの分類またはオブジェクトの境界を定める形状を示すＲＯＩを区別するセマンティックセグメンテーションとは異なり、インスタンスセグメンテーション５０８は、オブジェクトが検出されるまたは検出されないというバイナリ表示を含み得る。

第１の非限定的な例では、インスタンスセグメンテーションコンポーネント５０２は、セマンティックセグメンテーションデータ４１０および方向データ４１６に少なくとも部分的に基づいて、インスタンスセグメンテーション５０６を決定し得る。例えば、インスタンスセグメンテーションコンポーネント５０２は、セマンティックセグメンテーションから分類に関連付けられたチャネル（例えば、歩行者チャネル）を選択し、歩行者チャネル内のＲＯＩ出力に少なくとも部分的に基づいて領域をトリミングし得る。インスタンスセグメンテーションコンポーネント５０２は、方向チャネルから領域の方向ロジットを集め（例えば、プーリングし）、プーリングされた方向ロジットにそってトリミングされたセマンティックセグメンテーションロジットを使用して、前景／背景セグメンテーションを行い得る。第２の非限定的な追加的または代替的な例では、インスタンスセグメンテーションコンポーネント５０２は、第１の非限定的な例で説明される動作におけるセマンティックセグメンテーション４１０のために深度データ４２０および／または４２２を置き換えることに少なくとも部分的に基づいて、インスタンスセグメンテーション５０６を決定し得る。第３の非限定的な例では、インスタンスセグメンテーションコンポーネント５０２は、セマンティックセグメンテーションデータ４１０、方向データ４１６、ならびに深度データ４２０および／または４２２に少なくとも部分的に基づいて、インスタンスセグメンテーション５０６を決定し得る。そのような例では、そのトリミングされた（および／またはプーリングされた）部分の各々は、（例えば、学習されたパラメータを含み得る１×１フィルタを使用して）連結され、畳み込まれ得る。

図５Ｃは、ＭＬアーキテクチャ３００の追加のまたは代替のコンポーネント、すなわちトリミングおよび／またはプーリングコンポーネント５１０および／または３次元ＲＯＩコンポーネント５１２のブロック図を図示する。トリミングおよび／またはプーリングコンポーネント５１０は、トリミングおよび／またはプーリングコンポーネント５００と同じまたは異なるコンポーネントであり得、それらのいずれかは、それぞれ、インスタンスセグメンテーション５０２および／または３次元ＲＯＩコンポーネント５１２の一部であり得る。いくつかの例では、インスタンスセグメンテーションのためのトリミングおよび／またはプーリングコンポーネント５００によってトリミングおよび／またはプールされたデータは、インスタンスセグメンテーション５０２および画像１２０と共にトリミングおよび／またはプーリングコンポーネント５１０に提供され得る。トリミングおよび／またはプーリングコンポーネント５００でデータをトリミングおよび／またはプーリングするために使用される同じＲＯＩは、画像１２０および／またはインスタンスセグメンテーション５０６をトリミングするために使用され得、それらの各々またはいずれかは、５０４においてアップサンプリングおよび連結された、セマンティックセグメンテーションデータ４１０、方向データ４１６、ならびに深度データ４２０および／または４２２の部分にアップサンプリングおよび／または連結され得る（５１４において）。

３次元ＲＯＩコンポーネント５１２は、学習されたパラメータを含むフィルタを含み得る１つまたは複数の畳み込み層を含み得る。３次元ＲＯＩコンポーネント５１２は、トリミングされた、プーリングされた、アップサンプリングされた、および／または連結された画像、インスタンスセグメンテーション、セマンティックセグメンテーションデータ４１０、方向データ４１６、ならびに／または深度データ４２０および／もしくは４２２に少なくとも部分的に基づいて、３次元ＲＯＩ５１６を生成し得る。

図５Ｄは、３次元ＲＯＩコンポーネント５１２によって決定される３次元ＲＯＩ５１８の例を示す。描写される例における３次元ＲＯＩ５１８は、３次元境界ボックスである。いくつかの例では、３次元境界ボックスは、それによって識別されるオブジェクトに関連付けられた位置、方向、姿勢（例えば、方向）、および／またはサイズ（例えば、長さ、幅、高さなど）を含み得る。

［例示的な処理］
図６は、本明細書で説明されるＭＬアーキテクチャを使用してオブジェクト検出を生成する、および／またはオブジェクト検出に少なくとも部分的に基づいて自律車両を制御するための例示的なプロセス６００のフロー図を示す。いくつかの例では、例示的なプロセス６００は、知覚コンポーネント２２８および／またはＭＬアーキテクチャ３００によって実行され得る。

動作６０２において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、画像データを受信することを含み得る。画像データは、本明細書で説明されるＭＬアーキテクチャに入力され得る。

動作６０４において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、ＭＬアーキテクチャによるオブジェクト検出を決定することを含み得る。いくつかの例では、オブジェクト検出は、ＲＯＩ、分類、セマンティックセグメンテーション、深度データ、インスタンスセグメンテーション、および／または３次元ＲＯＩを含み得る。オブジェクト検出を決定することは、ＭＬアーキテクチャの異なる部分によって達成される、本明細書で説明される１つまたは複数の動作（例えば、動作６０６乃至６２２の少なくとも１つ）を含み得、これは、コンポーネントのパイプラインを含み得る、

動作６０６において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、バックボーンコンポーネントによって、画像データに少なくとも部分的に基づいて、特徴のセットを決定することを含み得る。特徴のセットは、１つまたは複数の特徴マップ（例えば、異なる解像度で）であってよく、特徴マップの特徴は、画像データの一部に関連付けられた値を含み得る。例えば、バックボーンコンポーネントは、ＲｅｔｉｎａＮｅｔ、ＶＧＧ、ＲｅｓＮｅｔネットワーク（例えば、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１）などを含み得、特徴のセットは、１つまたは複数の特徴マップあり得、それらのそれぞれは、バックボーンコンポーネントの異なる層によって出力され得る。

動作６０８において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、特徴のセットを特徴データ構造に集約することを含み得る。例えば、特徴のセットは、異なる解像度の１つまたは複数の特徴マップを含み得る。特徴のセットを集約することは、１つまたは複数の特徴マップを共通の解像度にスケーリングすることと、スケーリングされた特徴マップを特徴データ構造に要素ごとに合計することと、を含み得る。要素ごとに合計することに加えてまたは代替として、本技術は、要素ごとに合計された特徴マップをダウンサンプリングすること（例えば、チャネルごとにプーリングするために１×１畳み込みを使用すること）、増大する拡張率を使用して１つまたは複数のａｔｒｏｕｓ畳み込みを決定すること、および／または結果として生じる特徴マップをアップサンプリングすることを含む、高密度なピクセルごとの符号化を含み得る。いくつかの例では、結果として生じる特徴データ構造マップは、ＭＬアーキテクチャの１つまたは複数のコンポーネントに提供され得る。例えば、特徴データ構造は、ＲＯＩコンポーネント、セマンティックセグメンテーションコンポーネント、センターボーティングコンポーネント、インスタンスセグメンテーションコンポーネント、および／または３次元ＲＯＩコンポーネントへの入力として提供され得る。

動作６１０において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、バックボーンコンポーネントによって決定される特徴のセットに少なくとも部分的に基づいてＲＯＩを決定することを含み得る。いくつかの例では、ＲＯＩコンポーネントは、検出されたオブジェクトによって占有されているとしてＲＯＩが示す画像の領域に関連付けられた２次元ＲＯＩ、分類、および／または信頼スコアを生成し得る。いくつかの例では、ＲＯＩコンポーネントは、バックボーンコンポーネントの各層に関連付けられ得、異なるサイズ／解像度に関連付けられたＲＯＩを生成し得る。例えば、第１のＲＯＩコンポーネントは小さなオブジェクトを検出し得、第２のＲＯＩコンポーネントはより大きなオブジェクトを検出し得る。しかし、他の技術が企図される。

動作６１２において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、特徴データ構造に少なくとも部分的に基づいてセマンティックセグメンテーションを決定することを含み得る。いくつかの例では、セマンティックセグメンテーションは、分類（例えば、自転車、歩行者、車両）に関連付けられているとして画像の領域を識別し得る。ＭＬアーキテクチャのセマンティックセグメンテーション部分は、追加的または代替的に、セマンティックセグメンテーションの離散部分（例えば、ピクセル）と関連付けられた信頼度を決定することを含み得る動作６１２を達成し得る。いくつかの例では、セマンティックセグメンテーション部分は、元の画像の解像度でピクセルごとの分類を生成するために、１×１畳み込み、４×バイリニアアップサンプリング、およびソフトマックス層を含む出力ヘッドを含み得るが、他の構成が企図される。１×１畳み込みは、本明細書で説明される技術に従ってトレーニングされる学習されたパラメータを含み得、１×１畳み込みは、代替的に、別のサイズのフィルタであり得ることに留意されたい。

動作６１４において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、特徴データ構造に少なくとも部分的に基づいて方向データを決定することを含み得る。ＭＬアーキテクチャのセンターボーティング部分は、特徴データ構造に少なくとも部分的に基づいて方向データを生成し得る。

動作６１６において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、特徴データ構造に少なくとも部分的に基づいて深度データを決定することを含み得る。いくつかの例では、ＭＬアーキテクチャの深度部分は、１×１畳み込みを特徴データ構造に適用して、そのピクセルにおける深度がそのロジットについての対応する深度ビンに入る尤度に対応するピクセルごとのＫ個のソフトマックスロジットを生成し得る。１×１畳み込みは、本明細書で説明される技術に従ってトレーニングされる学習されたパラメータを含み得、１×１畳み込みは、代替的に、別のサイズのフィルタであり得ることに留意されたい。深度部分は、追加または代替の１×１畳み込みを特徴データ構造に適用して、ピクセルごとの残差を予測し得る。１×１畳み込みは、本明細書で説明される技術に従ってトレーニングされる学習されたパラメータを含み得、１×１畳み込みは、代替的に、別のサイズのフィルタであり得ることに留意されたい。深度は、ログ空間推定のための上記の式（４）に従って予測され得る。いくつかの例では、最大尤度に関連付けられた深度ビンは、ピクセルとの関連付けのために選択され得、および／またはその深度ビンによって示される深度は、ピクセルを囲む領域内のピクセルによって示される深度に少なくとも部分的に基づいて平滑化され得る。

動作６１８において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、ＲＯＩ、セマンティックセグメンテーション、方向データ、および／または深度データに少なくとも部分的に基づいてインスタンスセグメンテーションを決定することを含み得る。いくつかの例では、ＲＯＩは、セマンティックセグメンテーション、方向データ、および／または深度データをトリミングするために使用され得る。実施形態に応じて、インスタンスセグメンテーションは、第１の例では（トリミングされた）セマンティックデータおよび方向データ、第２の例では（トリミングされた）深度データおよび方向データ、ならびに／または第３の例では（トリミングされた）深度データ、セマンティックデータ、および方向データに少なくとも部分的に基づいて決定され得るが、任意の他の組合せが企図される。第３の例によれば、ＲＯＩに関連付けられた予測クラスのセマンティックセグメンテーションロジット、方向ロジット、および深度ロジットは、インスタンスマスクを推定するために、１×１畳み込みを使用して連結され得る。１×１畳み込みは、本明細書で説明される技術に従ってトレーニングされる学習されたパラメータを含み得、１×１畳み込みは、代替的に、別のサイズのフィルタであり得ることに留意されたい。

動作６２０において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、３次元ＲＯＩを決定することを含み得る。例えば、３次元ＲＯＩを決定することは、ＲＯＩに関連付けられたセマンティックセグメンテーション、深度データ、方向データ、およびインスタンスセグメンテーションに少なくとも部分的に基づき得る。

動作６２２において、例示的なプロセス６００は、本明細書で説明される技術のいずれかに従って、オブジェクト検出に少なくとも部分的に基づいて自律車両を制御することを含み得る。例えば、自律車両は、ＲＯＩ、セマンティックセグメンテーション、深度データ、インスタンスセグメンテーション、および／または３次元ＲＯＩに少なくとも部分的に基づいて、自律車両の動きまたは他の動作を制御するための軌道または他のコマンドを決定し得る。

図７は、本明細書で説明されるＭＬアーキテクチャをトレーニングするための例示的なプロセス７００のフロー図を示す。いくつかの例では、例示的なプロセス７００は、知覚コンポーネント２２８、ＭＬアーキテクチャ３００、および／またはトレーニングコンポーネント２３８によって実行され得る。

動作７０２において、例示的なプロセス７００は、本明細書で説明される技術のいずれかに従って、トレーニングデータを受信することを含み得る。例えば、トレーニングデータは、画像７０４およびそれに関連付けられたグランドトゥルース７０６を含み得る。いくつかの例では、グランドトゥルースは、ＭＬアーキテクチャによって達成されるタスクの各タイプに利用可能でないことがある。例えば、トレーニングデータとして使用するために利用可能な画像は、グランドトゥルースインスタンスセグメンテーション、深度データ、方向データ、および／または３次元ＲＯＩではなく、グランドトゥルースＲＯＩおよびグランドトゥルース意味分類であらかじめラベル付けされ得る。

そのような例では、トレーニングデータはバッチを含み得、各バッチは異なるグランドトゥルースに関連付けられる。例えば、トレーニングデータの第１のバッチ７０８（１）は、ＲＯＩグランドトゥルースデータに関連付けられた画像を含み得、第２のバッチ７０８（２）は、深度グランドトゥルースデータ（例えば、ｌｉｄａｒデータ）に関連付けられた画像を含み得、および／または第ｎのバッチ７０８（ｎ）は、セマンティックセグメンテーショングランドトゥルースデータに関連付けられた画像を含み得る。

いくつかの例では、トレーニングデータ内に含まれるグランドトゥルースは、教師ありグランドトゥルースデータ（例えば、人間および／または機械にラベル付けされた）、半教師あり（例えば、データのサブセットのみがラベル付けされた）、および／または教師なし（例えば、ラベルが提供されていない場合）であり得る。いくつかの例では、本明細書で説明されるＭＬアーキテクチャの深度コンポーネントによって生成される深度データに関連付けられた損失を決定するために、ｌｉｄａｒデータがグランドトゥルースデータとして使用されるときなど、グランドトゥルースデータはまばらであり得る。そのようなデータは、半教師あり学習の例であり得る。これらの技術はこれを矯正し、それぞれのセンサ測定値をＭＬアーキテクチャによって生成された出力データのグループ（より濃密な）に関連付けることによって、センサ測定値をグランドトゥルースデータの有用なソースとする。その全体が本明細書に組み込まれる、２０１９年１１月１４日に出願された米国特許出願第１６／６８４，５５４号、およびその全体が本明細書に組み込まれる、２０１９年１１月１４日に出願された米国特許出願第１６／６８４，５６８号を参照されたい。

動作７１０において、例示的なプロセス７００は、本明細書で説明される技術のいずれかに従って、トレーニングデータに少なくとも部分的に基づいてＭＬアーキテクチャのコンポーネントを共同トレーニングすることを含み得る。

動作７１２において、例示的なプロセス７００は、本明細書で説明される技術のいずれかに従って、ＭＬアーキテクチャを１つまたは複数の自律車両に送信することを含み得る。

ＭＬアーキテクチャのコンポーネントを共同トレーニングすること（動作７１０）は、本明細書で説明されるサブ動作をさらに含み得る。コンポーネントを共同トレーニングすることは、異なるコンポーネントのパラメータがジョイント損失を最小化するように変更されるように、コンポーネントの各々の出力に基づいているジョイント損失を決定することと、ジョイント損失を、ＭＬアーキテクチャ全体を通してバックプロパゲートすることとを含み得る。追加的または代替的に、共同トレーニングは、ジョイント損失を構成する損失の間の一貫性を強制することを含み得る。

動作７０８において、ＭＬアーキテクチャを共同トレーニングすることは、トレーニングデータに少なくとも部分的に基づいてＭＬアーキテクチャから出力を受信することを含み得る。ＭＬアーキテクチャから出力を受信することは、ＭＬアーキテクチャへの入力として画像を提供することに少なくとも部分的に基づき得、受信された出力は、動作６０４に少なくとも部分的に基づき得る。いくつかの例では、ＭＬアーキテクチャから出力を受信することは、ＲＯＩ、分類、セマンティックセグメンテーション、方向データ、深度データ、インスタンスセグメンテーション、および／または３次元ＲＯＩを受信することを含み得、これらのそれぞれは、ＭＬアーキテクチャの異なる部分のそれぞれの出力と称され得る。そのような出力は、トレーニングデータの画像７０４のそれぞれについて受信され得る。例えば、ＭＬアーキテクチャに画像７０４を提供することに応答してＭＬアーキテクチャから受信した出力７１４は、バッチに関連付けられた次元および／または他の部分を含む高次元データ構造であり得（例えば、部分７１６は、バッチ７０８（ｎ）に関連付けられ得る）、特定のコンポーネントの出力は、そのデータ構造の別の部分に関連付けられ得る（例えば、部分７１８は、全てのバッチにわたるセマンティックセグメンテーションタスクに関連付けられた出力７１４の部分であり得る）。

動作７２０において、例示的な動作７１０は、特定のタスクのために利用可能なグランドトゥルースに対応する出力７１０のサブセットを決定することを含み得る。例えば、動作７２０は、セマンティックセグメンテーション損失を生成するのに適格な出力７１４のサブセット７２２を決定することを含み得る。例えば、これは、セマンティックセグメンテーショングランドトゥルースが利用可能であった画像に少なくとも部分的に基づいて生成された出力７１４のサブセット（すなわち、図示された例では、部分７１６に対応するバッチ７０８（ｎ））を決定することと、セマンティックセグメンテーション（すなわち、部分７１８）を示す出力の次元を決定することとを含み得る。いくつかの例では、動作７２０は、画像ごとにすべてのタスクタイプについてグランドトゥルースが利用可能でない場合に使用され得る。言い換えると、各画像は、出力を生成するＭＬアーキテクチャの各コンポーネントに関連付けられたグランドトゥルースデータに関連付けられていない。

とはいえ、動作７２４において、例示的な動作７１０は、異なるタスクに関連付けられた損失のセットを決定することを含み得る。いくつかの例では、損失を決定することは、タスク固有の損失を決定することと、損失の１つまたは複数にわたって一貫性を強制することとを含み得る。次いで、タスク固有の損失はジョイント損失に合計され得、これはＭＬアーキテクチャを通じて逆伝播する可能性がある。

いくつかの例では、一貫性は、ジョイント損失が１つのタスクのトレーニング

によって与えられ得、ここで、

である。

追加的または代替的に、一貫性損失が損失に追加され得る。一貫性を強制することは、第１の出力と第２の出力との間の差を決定することと、差に少なくとも部分的に基づいて損失を決定することとを含み得る。例えば、セマンティックセグメンテーションおよび深度データ、２次元ＲＯＩおよび３次元ＲＯＩ、セマンティックセグメンテーションおよび分類、深度データおよび３次元ＲＯＩ、および／または本明細書で説明される出力の他の組み合わせの間の差が決定され得る。追加または代替として、一貫性を強制することは、信頼度を類似させることを含み得る。例えば、ＲＯＩコンポーネントは、２次元ＲＯＩおよびそれに関連付けられた信頼度を出力し得、セマンティックセグメンテーションコンポーネントは、同じ分類に関連付けられた画像のピクセルの集合と、各ピクセルに関連付けられたそれぞれの信頼度とを示すセマンティックセグメンテーションを出力し得る。本技術は、セマンティックセグメンテーションに関連付けられた平均信頼度または代表信頼度（例えば、セマンティックセグメンテーションに関連付けられた信頼度にわたって合計エリアテーブルを使用して決定された近似平均）を決定することと、セマンティックセグメンテーションに関連付けられた平均および／または代表信頼度と、２次元ＲＯＩに関連付けられた信頼度との間の差に少なくとも部分的に基づいて一貫性損失を決定することとを含み得る。当然、任意の数の一貫性損失を使用し得る。

動作７２８において、例示的な動作７１０は、ＭＬアーキテクチャのコンポーネントを修正して、動作７２２および／または７２４で決定されたジョイント損失を最小化することを含み得る。ジョイント損失は、ＭＬアーキテクチャ３００を通して逆伝播され得、これは、本明細書で説明される各コンポーネントのゼロまたは複数のパラメータを調整し、ジョイント損失を低減することを含み得る。

［例示的な発明内容］
Ａ．画像データを受信することと、前記画像データの少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、前記画像に示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）を決定することと、前記ＭＬモデルによって、および前記ＲＯＩに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックは前記オブジェクトの分類を示す、セマンティックセグメンテーションと、前記オブジェクトの中心を示す方向データと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記方向データ、前記深度データ、または前記インスタンスセグメンテーションの２つまたは複数に少なくとも部分的に基づいて一貫性損失を決定することと、トレーニングされたＭＬモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記ＭＬモデルの１つまたは複数のパラメータを変更することと、トレーニングされたＭＬモデルを自律車両に送信すること、を含む方法。

Ｂ．前記ＲＯＩを決定することが、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することと、に少なくとも部分的に基づいており、前記追加出力を決定することはさらに、前記第１の特徴のセットおよび前記第２の特徴のセットに少なくとも部分的に基づいている、段落Ａに記載の方法。

Ｃ．前記ＭＬモデルによって、および、前記ＲＯＩ、前記セマンティックセグメンテーション、前記方向データ、前記深度データ、または前記インスタンスセグメンテーションの２つまたは複数に少なくとも部分的に基づいて、前記オブジェクトに関連付けられた３次元ＲＯＩを決定すること、をさらに含む、段落Ａまたは段落Ｂのいずれかに記載の方法。

Ｄ．前記一貫性損失を決定することは、前記セマンティックセグメンテーション、深度データ、インスタンスセグメンテーション、または前記３次元ＲＯＩの少なくとも１つに少なくとも部分的に基づいて、２次元境界領域を決定することと、前記ＲＯＩと前記２次元境界領域との間の差を決定することと、を含む、段落Ａ乃至Ｃのいずれか１つに記載の方法。

Ｅ：前記深度データは、離散的な深度を示す深度ビン出力と、前記深度ビンからのオフセットを示す深度残差とを含む、段落Ａ乃至Ｄのいずれか１つに記載の方法。

Ｆ．１つまたは複数のプロセッサと、コンピュータ実行可能命令を格納したメモリと、を含むシステムであって、前記コンピュータ実行可能命令は前記一つまたは複数のプロセッサによって実行されると、前記システムに、画像データを受信することと、前記画像データの少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、前記画像に示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）を決定することと、前記ＭＬモデルによって、および前記ＲＯＩに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記深度データ、または前記インスタンスセグメンテーションの２つまたは複数に少なくとも部分的に基づいて一貫性損失を決定することと、トレーニングされたＭＬモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記ＭＬモデルの１つまたは複数のパラメータを変更することと、を含む動作を実行させる、システム。

Ｇ．前記ＲＯＩを決定することが、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することと、に少なくとも部分的に基づいており、前記追加出力を決定することはさらに、前記第１の特徴のセットおよび前記第２の特徴のセットに少なくとも部分的に基づいている、段落Ｆに記載のシステム。

Ｈ．前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、段落ＦまたはＧのいずれかに記載のシステム。

Ｉ．前記動作が、前記オブジェクトの中心を示す方向データを決定することと、前記セマンティックセグメンテーション、前記深度データ、前記方向データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、３次元ＲＯＩを決定することと、をさらに含む、段落Ｆ乃至Ｈのいずれか１つに記載のシステム。

Ｊ．前記一貫性損失を前記決定することは、前記深度データと前記３次元ＲＯＩの境界との間の差を決定することを含む、段落Ｆ乃至Ｉのいずれか１つに記載のシステム。

Ｋ．前記一貫性損失を前記決定することは、前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの１つまたは複数に少なくとも部分的に基づいて、２次元境界領域を決定することと、前記ＲＯＩと前記２次元境界領域との間の差を決定することと、を含む、段落Ｆ乃至Ｊのいずれか１つに記載のシステム。

Ｌ．前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも１つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、前記不確実性に少なくとも部分的に基づいている、段落Ｆ乃至Ｋのいずれか１つに記載のシステム。

Ｍ．コンピュータ実行可能命令を格納した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、画像データを受信することと、前記画像データの少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、前記画像に示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）を決定することと、前記ＭＬモデルによって、および前記ＲＯＩに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記深度データ、または前記インスタンスセグメンテーションの２つまたは複数に少なくとも部分的に基づいて一貫性損失を決定することと、トレーニングされたＭＬモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記ＭＬモデルの１つまたは複数のパラメータを変更することと、を含む動作を実行させる、非一時的コンピュータ可読媒体。

Ｎ．前記ＲＯＩを決定することが、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することと、に少なくとも部分的に基づいており、前記追加出力を決定することはさらに、前記第１の特徴のセットおよび前記第２の特徴のセットに少なくとも部分的に基づいている、段落Ｍに記載の非一時的コンピュータ可読媒体。

Ｏ．前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、段落ＭまたはＮのいずれかに記載の非一時的コンピュータ可読媒体。

Ｐ．前記動作が、前記オブジェクトの中心を示す方向データを決定することと、前記セマンティックセグメンテーション、前記深度データ、前記方向データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、３次元ＲＯＩを決定することと、さらに含む、段落Ｍ乃至Ｏのいずれか１つに記載の非一時的コンピュータ可読媒体。

Ｑ．前記一貫性損失を前記決定することは、前記深度データと前記３次元ＲＯＩの境界との間の差を決定することを含む、段落Ｍ乃至Ｐのいずれか１つに記載の非一時的コンピュータ可読媒体。

Ｒ．一貫性損失を前記決定することは、前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの１つまたは複数に少なくとも部分的に基づいて、２次元境界領域を決定することと、前記ＲＯＩと前記２次元境界領域との間の差を決定することと、を含む、段落Ｍ乃至Ｑのいずれか１つに記載の非一時的コンピュータ可読媒体。

Ｓ．前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも１つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、前記不確実性に少なくとも部分的に基づいている、段落Ｍ乃至Ｒのいずれか１つに記載の非一時的コンピュータ可読媒体。

Ｔ．前記深度データは、離散的な深度を示す深度ビン出力と、前記深度ビンからのオフセットを示す深度残差とを含む、段落Ｍ乃至Ｓのいずれか１つに記載の非一時的なコンピュータ可読媒体。

Ｕ．１つまたは複数のプロセッサと、プロセッサ実行可能命令を格納するメモリと、を含むシステムであって、前記プロセッサ実行可能命令は前記一つまたは複数のプロセッサによって実行されると、前記システムに、自律車両に関連付けられた画像センサから画像を受信することと、前記画像の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、出力のセットを決定することであって、前記出力のセットは、前記画像に示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）と、前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記オブジェクトの分類を示す、前記セマンティックセグメンテーションと、前記オブジェクトの中心を示す方向データと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記インスタンスセグメンテーション、または前記深度データの少なくとも１つに少なくとも部分的に基づいて前記自律車両を制御することと、を含む動作を実行させる、システム。

Ｖ．前記出力のセットを決定することは、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することであって、前記第１の解像度は前記第２の解像度とは異なる、ことと、アップサンプリングされた特徴として、第１の解像度と同じ解像度を有する前記第２の特徴をアップサンプリングすることと、組み合わされた特徴として、前記アップサンプリングされた特徴を前記第１の特徴と組み合わせることであって、前記セマンティックセグメンテーション、深度データ、方向データ、またはインスタンスセグメンテーションの少なくとも１つが、前記組み合わされた特徴に少なくとも部分的に基づいている、ことと、を含む、段落Ｕに記載のシステム。

Ｗ．前記出力のセットが、３次元ＲＯＩをさらに含む、段落ＵまたはＶのいずれかに記載のシステム。

Ｘ．前記深度データを決定することは、深度ビンのセットの中から深度ビンを決定することであって、前記深度ビンは、前記環境の離散部分に関連付けられている、ことと、前記深度ビンに関連付けられた深度残差を決定することであって、前記深度残差は、前記深度ビンに関連付けられた位置からの前記離散部分に関連付けられた表面の偏差を示す、ことと、
を含む、段落Ｕ乃至Ｗのいずれか１つに記載のシステム。

Ｙ．前記深度ビンを決定することが、前記離散部分を囲む領域内の他の離散部分のロジットの平均または確率分布を決定することに少なくとも部分的に基づいて、平滑化されたロジットのセットを決定することと、前記深度ビンが、前記平滑化されたロジットのセットの中の最大平滑化されたロジット値に関連付けられていることを決定することに少なくとも部分的に基づいて、前記深度ビンのセットの中から前記深度ビンを選択することと、を含む、段落Ｕ乃至Ｘのいずれか１つに記載のシステム。

Ｚ．自律車両に関連付けられた画像センサから画像を受信することと、前記画像の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、出力のセットを決定することであって、前記出力のセットは、前記オブジェクトに関連付けられたセマンティックセグメンテーションと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記インスタンスセグメンテーション、または前記深度データの少なくとも１つに少なくとも部分的に基づいて、前記自律車両を制御することと、を含む方法。

ＡＡ．前記出力のセットを決定することは、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することであって、前記第１の解像度は前記第２の解像度とは異なる、ことと、アップサンプリングされた特徴として、第１の解像度と同じ解像度を有する前記第２の特徴をアップサンプリングすることと、組み合わされた特徴として、前記アップサンプリングされた特徴を前記第１の特徴と組み合わせることであって、前記セマンティックセグメンテーション、深度データ、またはインスタンスセグメンテーションの少なくとも１つが、前記組み合わされた特徴に少なくとも部分的に基づいている、ことと、を含む、段落Ｚに記載の方法。

ＡＢ．前記出力のセットが、３次元ＲＯＩをさらに含む、段落ＺまたはＡＡのいずれかに記載の方法。

ＡＣ．前記出力のセットは、前記オブジェクトの中心を示す方向データをさらに含み、前記３次元セグメンテーションを決定することは、前記セマンティックセグメンテーション、前記深度データ、前記方向データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいている、Ｚ乃至ＡＢのいずれか１つに記載の方法。

ＡＤ．前記深度データを決定することは、深度ビンのセットの中から深度ビンを決定することであって、前記深度ビンは、前記環境の離散部分に関連付けられている、ことと、前記深度ビンに関連付けられた深度残差を決定することであって、前記深度残差は、前記深度ビンに関連付けられた位置からの前記離散部分に関連付けられた表面の偏差を示す、ことと、を含む、段落Ｚ乃至ＡＣにいずれか１つに記載の方法。

ＡＥ．前記深度ビンを決定することは、前記離散部分を囲む領域内の他の離散部分のロジットの平均または確率分布を決定することに少なくとも部分的に基づいて、平滑化されたロジットのセットを決定することと、前記深度ビンが、前記平滑化されたロジットのセットの中の最大平滑化されたロジット値に関連付けられていることを決定することに少なくとも部分的に基づいて、前記深度ビンのセットの中から前記深度ビンを選択することと、を含む、段落Ｚ乃至ＡＤにいずれか１つに記載の方法。

ＡＦ．前記出力のセットは、前記オブジェクトの中心を示す方向データをさらに含み、前記インスタンスセグメンテーションを決定することは、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づく、Ｚ乃至ＡＥのいずれか１つに記載の方法。

ＡＧ．コンピュータ実行可能命令を格納した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、自律車両に関連付けられた画像センサから画像を受信することと、前記画像の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、前記ＭＬモデルによって、出力のセットを決定することであって、前記出力のセットは、前記オブジェクトに関連付けられたセマンティックセグメンテーションと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ＲＯＩ、前記セマンティックセグメンテーション、前記インスタンスセグメンテーション、または前記深度データの少なくとも１つに少なくとも部分的に基づいて、前記自律車両を制御することと、を含む動作を実行させる、非一時的コンピュータ可読媒体。

ＡＨ．前記出力のセットを決定することは、第１の解像度に関連付けられた第１の特徴のセットを決定することと、第２の解像度に関連付けられた第２の特徴のセットを決定することであって、前記第１の解像度は前記第２の解像度とは異なる、ことと、アップサンプリングされた特徴として、第１の解像度と同じ解像度を有する前記第２の特徴をアップサンプリングすることと、組み合わされた特徴として、前記アップサンプリングされた特徴を前記第１の特徴と組み合わせることであって、前記セマンティックセグメンテーション、深度データ、またはインスタンスセグメンテーションの少なくとも１つが、前記組み合わされた特徴に少なくとも部分的に基づいている、ことと、を含む、段落ＡＧに記載の非一時的コンピュータ可読媒体。

ＡＩ．前記出力のセットを決定することは、ダウンサンプリングされた特徴として、前記組み合わされた特徴をダウンサンプリングして、前記組み合わされた特徴に関連付けられたチャネルの数を減少させることと、畳み込まれた特徴として、異なる拡張速度に従ってダウンサンプリングされた特徴を２回以上畳み込むことと、特徴データ構造として、前記畳み込み特徴をアップサンプリングすることであって、前記セマンティックセグメンテーション、深度データ、またはインスタンスセグメンテーションの少なくとも１つが、前記特徴データ構造に少なくとも部分的に基づいている、ことと、をさらに含む、段落ＡＧまたはＡＨに記載の非一時的コンピュータ可読媒体。

ＡＪ．前記出力のセットは、３次元ＲＯＩをさらに含む、段落ＡＧ乃至ＡＩのいずれか１つに記載の非一時的コンピュータ可読媒体。

ＡＫ．前記出力のセットは、前記オブジェクトの中心を示す方向データをさらに含み、前記３次元を決定することは、前記セマンティックセグメンテーション、前記深度データ、前記方向データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいている、段落ＡＪに記載の非一時的コンピュータ可読媒体。

ＡＬ．前記深度データを決定することは、深度ビンのセットの中から深度ビンを決定することであって、前記深度ビンは、前記環境の離散部分に関連付けられている、ことと、前記深度ビンに関連付けられた深度残差を決定することであって、前記深度残差は、前記深度ビンに関連付けられた位置からの前記離散部分に関連付けられた表面の偏差を示す、ことと、段落ＡＧ乃至ＡＫのいずれか１つに記載の非一時的コンピュータ可読媒体。

ＡＭ．前記深度ビンを決定することは、前記離散部分を囲む領域内の他の離散部分のロジットの平均または確率分布を決定することに少なくとも部分的に基づいて、平滑化されたロジットのセットを決定することと、前記深度ビンが、前記平滑化されたロジットのセットの中の最大平滑化されたロジット値に関連付けられていることを決定することに少なくとも部分的に基づいて、前記深度ビンのセットの中から前記深度ビンを選択することと、段落ＡＧ乃至ＡＬのいずれか１つに記載の非一時的コンピュータ可読媒体。

ＡＮ．前記出力のセットは、前記オブジェクトの中心を示す方向データをさらに含み、前記インスタンスセグメンテーションを決定することは、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づく、段落ＡＧ乃至ＡＭのいずれか１つに記載の非一時的コンピュータ可読媒体。

ＡＯ．１つまたは複数のプロセッサと、プロセッサ実行可能命令を格納したメモリと、を含むシステムであって、前記プロセッサ実行可能命令は前記一つまたは複数のプロセッサによって実行されると、前記システムに、請求項Ａ乃至ＦまたはＺ乃至ＡＦのいずれか１つに記載の動作のいずれかを含む動作を実行させる、システム。

ＡＰ．１つまたは複数のプロセッサと、プロセッサ実行可能命令を格納するメモリと、を含む自律車両であって、前記プロセッサ実行可能命令は前記一つまたは複数のプロセッサによって実行されると、前記システムに、請求項Ａ乃至ＦまたはＺ乃至ＡＦのいずれか１つに記載の動作のいずれかを含む動作を実行させる、自律車両。

ＡＰ．１つまたは複数のセンサをさらに備える、段落ＡＰに記載の自律車両。

ＡＱ．一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに、請求項Ａ乃至ＦまたはＺ乃至ＡＦのいずれか１つに記載の動作のいずれかを含む動作を実行させるプロセッサ実行可能命令を格納する、非一時的コンピュータ可読媒体。

［結論］
主題は、構造的特徴および／または方法論的行為に特有の言語で説明されてきたが、添付の特許請求の範囲において定義される主題は、説明される特定の特徴または行為に必ずしも限定されないことを理解されたい。むしろ、特定の特徴および行為は、特許請求の範囲を実装する例示的な形態として開示される。

本明細書で説明されるコンポーネントは、任意のタイプのコンピュータ可読媒体に格納され得る、およびソフトウェアおよび／またはハードウェアで実装され得る命令を表す。上記で説明した方法およびプロセスのすべては、１つまたは複数のコンピュータもしくはプロセッサ、ハードウェア、またはそれらのいくつかの組合せによって実行されるソフトウェアコードコンポーネントおよび／またはコンピュータ実行可能命令において具現化され、それらを介して完全に自動化され得る。代替として、方法の一部または全部は、専用コンピュータハードウェアにおいて具現化され得る。

本明細書で説明されるプロセスの少なくともいくつかは論理フローグラフとして示され、その各動作は、ハードウェア、ソフトウェア、またはそれらの組合せで実装され得る動作のシーケンスを表す。ソフトウェアのコンテキストにおいて、動作は、１つまたは複数の非一時的コンピュータ可読記憶媒体に格納されたコンピュータ実行可能命令を表し、コンピュータ実行可能命令は、１つまたは複数のプロセッサによって実行されると、コンピュータまたは自律車両に、記載された動作を実行させる。一般に、コンピュータ実行可能命令は、特定の機能を実行するまたは特定の抽象データタイプ実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図されず、任意の数の説明される動作が、プロセスを実装するために、任意の順序でおよび／または並列に組み合わせることができる。

特に「し得る（ｍａｙ）」、「できる（ｃｏｕｌｄ）」、「し得る（ｍａｙ）」または「し得る（ｍｉｇｈｔ）」などの条件付き言語は、特に明記しない限り、コンテキスト内で、特定の例が特定の特徴、要素および／またはステップを含み、他の例が含まないことを示すと理解される。したがって、そのような条件付き言語は、一般に、特定の特徴、要素、および／またはステップが１つまたは複数の例に任意の手段で必要とされること、または１つまたは複数の例が、ユーザ入力またはプロンプトの有無にかかわらず、特定の特徴、要素、および／またはステップが任意の特定の例に含まれるまたは実行されるべきかどうかを決定するための論理を必ず含むことを暗示することを意図するものではない。

「Ｘ、Ｙ、またはＺの少なくとも１つ」という句などの接続的な言語は、別段に具体的に述べられない限り、項目、用語などが、Ｘ、Ｙ、もしくはＺのいずれか、または複数の各要素を含むそれらの任意の組合せであり得ることを提示すると理解されるべきである。単数形として明示的に記載されていない限り、「ａ」は単数形および複数形を意味する。

本明細書に記載され、および／または添付の図面に示されるフロー図における任意のルーチンの説明、要素、またはブロックは、ルーチンにおける特定の論理機能または要素を実装するための１つまたは複数のコンピュータ実行可能命令を含むコードのモジュール、セグメント、または部分を潜在的に表すものとして理解されるべきである。代替実施形態は、本明細書で説明される例の範囲内に含まれ、要素または機能は、当業者によって理解されるように、関与する機能に応じて、実質的に同期して、逆の順序で、追加の動作とともに、または動作を省略することを含めて、図示または説明する順序から削除または実行され得る。

上述の例に対して多くの変形および修正を行い得、その要素は、他の許容可能な例の中にあるものとして理解されるべきである。そのようなすべての修正および変形は、本開示の範囲内で本明細書に含まれ、以下の特許請求の範囲によって保護されることが意図されている。

Claims

１つまたは複数のプロセッサと、
コンピュータ実行可能命令を格納したメモリと、
を含むシステムであって、
前記コンピュータ実行可能命令は、前記１つまたは複数のプロセッサによって実行されると、前記システムに、
画像データを受信することと、
前記画像データの少なくとも一部を機械学習（ＭＬ）モデルに入力することと、
前記ＭＬモデルによって、前記画像データに示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）を決定することと、
前記ＭＬモデルによって、および前記ＲＯＩに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックセグメンテーションが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、
前記画像の少なくとも前記一部に関連付けられた深度データと、
前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、
前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、３次元ＲＯＩを決定することと、
前記深度データと前記３次元ＲＯＩの境界との間の差に少なくとも部分的に基づいて一貫性損失を決定することと、
トレーニングされたＭＬモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記ＭＬモデルの１つまたは複数のパラメータを変更することと、
を含む動作を実行させる、システム。
前記ＲＯＩを決定することが、
第１の解像度に関連付けられた第１の特徴のセットを決定することと、
第２の解像度に関連付けられた第２の特徴のセットを決定することと、
に少なくとも部分的に基づいており、
前記追加出力を決定することは、さらに、前記第１の特徴のセットおよび前記第２の特徴のセットに少なくとも部分的に基づいている、請求項１に記載のシステム。
前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、請求項１または２に記載のシステム。
前記動作が、
前記オブジェクトの中心を示す方向データを決定することを備え、
前記３次元ＲＯＩを決定することは、さらに、前記方向データに少なくとも部分的に基づく、請求項１乃至３のいずれか一項に記載のシステム。
前記一貫性損失を前記決定することは、
前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの１つまたは複数に少なくとも部分的に基づいて、２次元境界領域を決定することと、
前記ＲＯＩと前記２次元境界領域との間の差を決定することと、
を含む、請求項１乃至４のいずれか一項に記載のシステム。
前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも１つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、不確実性に少なくとも部分的に基づいている、請求項１乃至５のいずれか一項に記載のシステム。
コンピュータ実行可能命令を格納した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに
画像データを受信することと、
前記画像データの少なくとも一部を機械学習（ＭＬ）モデルに入力することと、
前記ＭＬモデルによって、前記画像データに示されるオブジェクトに関連付けられた関心領域（ＲＯＩ）を決定することと、
前記ＭＬモデルによって、および前記ＲＯＩに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックセグメンテーションが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、
前記画像の少なくとも前記一部に関連付けられた深度データと、
前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、
前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、３次元ＲＯＩを決定することと、
前記深度データと前記３次元ＲＯＩの境界との間の差に少なくとも部分的に基づいて一貫性損失を決定することと、
トレーニングされたＭＬモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記ＭＬモデルの１つまたは複数のパラメータを変更することと、
を含む動作を実行させる、非一時的コンピュータ可読媒体。
前記ＲＯＩを決定することが、
第１の解像度に関連付けられた第１の特徴のセットを決定することと、
第２の解像度に関連付けられた第２の特徴のセットを決定することと、
に少なくとも部分的に基づいており、
前記追加出力を決定することは、さらに、前記第１の特徴のセットおよび前記第２の特徴のセットに少なくとも部分的に基づいている、請求項７に記載の非一時的コンピュータ可読媒体。
前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、請求項７または８に記載の非一時的コンピュータ可読媒体。
前記動作が、
前記オブジェクトの中心を示す方向データを決定することを備え、
前記３次元ＲＯＩを決定することは、さらに、前記方向データに少なくとも部分的に基づく、請求項７乃至９のいずれか一項に記載の非一時的コンピュータ可読媒体。
前記一貫性損失を前記決定することは、
前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの１つまたは複数に少なくとも部分的に基づいて、２次元境界領域を決定することと、
前記ＲＯＩと前記２次元境界領域との間の差を決定することと、
を含む、請求項７乃至１０のいずれか一項に記載の非一時的コンピュータ可読媒体。
前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも１つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、不確実性に少なくとも部分的に基づいている、請求項７乃至１１のいずれか一項に記載の非一時的コンピュータ可読媒体。
前記深度データは、離散的な深度を示す深度ビンの出力と、前記深度ビンからのオフセットを示す深度残差とを含む、請求項７乃至１２のいずれか一項に記載の非一時的コンピュータ可読媒体。