JP7611248B2 - セマンティックおよび/または深度認識インスタンスセグメンテーションのためのマルチタスク学習 - Google Patents
セマンティックおよび/または深度認識インスタンスセグメンテーションのためのマルチタスク学習 Download PDFInfo
- Publication number
- JP7611248B2 JP7611248B2 JP2022528234A JP2022528234A JP7611248B2 JP 7611248 B2 JP7611248 B2 JP 7611248B2 JP 2022528234 A JP2022528234 A JP 2022528234A JP 2022528234 A JP2022528234 A JP 2022528234A JP 7611248 B2 JP7611248 B2 JP 7611248B2
- Authority
- JP
- Japan
- Prior art keywords
- determining
- data
- roi
- depth
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0011—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
- G05D1/0038—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement by providing the operator with simple or augmented images from one or more cameras located onboard the vehicle, e.g. tele-operation
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/20—Control system inputs
- G05D1/22—Command input arrangements
- G05D1/221—Remote-control arrangements
- G05D1/222—Remote-control arrangements operated by humans
- G05D1/223—Command input arrangements on the remote controller, e.g. joysticks or touch screens
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/617—Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
- G05D1/622—Obstacle avoidance
- G05D1/628—Obstacle avoidance following the obstacle profile, e.g. a wall or undulated terrain
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/579—Depth or shape recovery from multiple images from motion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional [3D] objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30236—Traffic on road, railway or crossing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Electromagnetism (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Description
本出願は、2019年11月15日に出願された米国仮出願第62/935,636号、および2019年12月31日に出願された米国非仮特許出願第16/732,243号の利益を主張し、これらの全体が本明細書に組み込まれる。
図1は、車両102を含む例示的なシナリオ100を示している。いくつかの例では、車両102は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成される自律車両であり得、これは、ドライバー(または乗員)の常時車両制御を期待することなく、全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかし、他の例では、車両102は、任意の他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。本明細書で説明される技術は、自律車両などのロボット制御以外に対して適用され得ることが企図される。例えば、本明細書で説明される技術は、マイニング、製造、拡張現実などおよび/またはコンピュータビジョンを組み込む任意の技術に適用され得る。さらに、車両102は陸上車両として描写されているが、車両102は、宇宙船、船舶、採掘車両などであり得る。いくつかの例では、車両102はシミュレーションされた車両としてシミュレーションにおいて表され得る。簡単にするために、本明細書における説明は、シミュレートされた車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレートされた車両および/または現実世界の車両を指し得る。本明細書で説明されるデータおよび/またはセンサは、現実世界および/またはシミュレートであり得る。
図2は、本明細書で説明される技術を実装する例示的なシステム200のブロック図を示す。いくつかの例では、例示的なシステム200は、図1の車両102を表し得る車両202を含み得る。いくつかの例では、車両202は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成される自律車両であり得、これは、ドライバー(または乗員)の常時車両制御を期待することなく、全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかし、他の例では、車両202は、他のレベルまたは分類を有する完全にまたは部分的な自律車両であり得る。さらに、いくつかの例では、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。
図3Aは、MLアーキテクチャ232および/またはMLアーキテクチャ114を表し得る、例示的なMLアーキテクチャ300の一部のブロック図を示す。MLアーキテクチャ300は、バックボーンコンポーネント302を含み得る。バックボーンコンポーネントは層304などの1つまたは複数の層を含み得、これは畳み込み層/フィルタ、ReLU関数、バッチ正規化、サブサンプリング関数(例えば、最大プール、平均プール、L2ノルム)、損失関数/フィードバック(少なくともトレーニング中)などを含み得る。いくつかの例では、例示的なMLモデル200は、例えば、畳み込みネットワークなどのニューラルネットワークを含み得る。ニューラルネットワークのコンテキストで説明したが、任意のタイプの機械学習を本開示と一致させて使用し得る。例えば、機械学習アルゴリズムは、回帰アルゴリズム、インスタンスベースのアルゴリズム、ベイジアンアルゴリズム、相関ルール学習アルゴリズム、深層学習アルゴリズムなどを含み得るが、これらに限定されない。少なくとも1つの非限定的な例では、バックボーンコンポーネント302は、RetinaNet、VGG、ResNetネットワーク(例えば、ResNet50、ResNet101)などを含み得る。
図6は、本明細書で説明されるMLアーキテクチャを使用してオブジェクト検出を生成する、および/またはオブジェクト検出に少なくとも部分的に基づいて自律車両を制御するための例示的なプロセス600のフロー図を示す。いくつかの例では、例示的なプロセス600は、知覚コンポーネント228および/またはMLアーキテクチャ300によって実行され得る。
A.画像データを受信することと、前記画像データの少なくとも一部を機械学習(ML)モデルに入力することと、前記MLモデルによって、前記画像に示されるオブジェクトに関連付けられた関心領域(ROI)を決定することと、前記MLモデルによって、および前記ROIに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックは前記オブジェクトの分類を示す、セマンティックセグメンテーションと、前記オブジェクトの中心を示す方向データと、前記画像の少なくとも前記一部に関連付けられた深度データと、前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、前記ROI、前記セマンティックセグメンテーション、前記方向データ、前記深度データ、または前記インスタンスセグメンテーションの2つまたは複数に少なくとも部分的に基づいて一貫性損失を決定することと、トレーニングされたMLモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記MLモデルの1つまたは複数のパラメータを変更することと、トレーニングされたMLモデルを自律車両に送信すること、を含む方法。
を含む、段落U乃至Wのいずれか1つに記載のシステム。
主題は、構造的特徴および/または方法論的行為に特有の言語で説明されてきたが、添付の特許請求の範囲において定義される主題は、説明される特定の特徴または行為に必ずしも限定されないことを理解されたい。むしろ、特定の特徴および行為は、特許請求の範囲を実装する例示的な形態として開示される。
Claims (13)
- 1つまたは複数のプロセッサと、
コンピュータ実行可能命令を格納したメモリと、
を含むシステムであって、
前記コンピュータ実行可能命令は、前記1つまたは複数のプロセッサによって実行されると、前記システムに、
画像データを受信することと、
前記画像データの少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルによって、前記画像データに示されるオブジェクトに関連付けられた関心領域(ROI)を決定することと、
前記MLモデルによって、および前記ROIに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックセグメンテーションが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、
前記画像の少なくとも前記一部に関連付けられた深度データと、
前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、
前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、3次元ROIを決定することと、
前記深度データと前記3次元ROIの境界との間の差に少なくとも部分的に基づいて一貫性損失を決定することと、
トレーニングされたMLモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記MLモデルの1つまたは複数のパラメータを変更することと、
を含む動作を実行させる、システム。 - 前記ROIを決定することが、
第1の解像度に関連付けられた第1の特徴のセットを決定することと、
第2の解像度に関連付けられた第2の特徴のセットを決定することと、
に少なくとも部分的に基づいており、
前記追加出力を決定することは、さらに、前記第1の特徴のセットおよび前記第2の特徴のセットに少なくとも部分的に基づいている、請求項1に記載のシステム。 - 前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、請求項1または2に記載のシステム。
- 前記動作が、
前記オブジェクトの中心を示す方向データを決定することを備え、
前記3次元ROIを決定することは、さらに、前記方向データに少なくとも部分的に基づく、請求項1乃至3のいずれか一項に記載のシステム。 - 前記一貫性損失を前記決定することは、
前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの1つまたは複数に少なくとも部分的に基づいて、2次元境界領域を決定することと、
前記ROIと前記2次元境界領域との間の差を決定することと、
を含む、請求項1乃至4のいずれか一項に記載のシステム。 - 前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも1つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、不確実性に少なくとも部分的に基づいている、請求項1乃至5のいずれか一項に記載のシステム。
- コンピュータ実行可能命令を格納した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに
画像データを受信することと、
前記画像データの少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルによって、前記画像データに示されるオブジェクトに関連付けられた関心領域(ROI)を決定することと、
前記MLモデルによって、および前記ROIに少なくとも部分的に基づいて、追加出力を決定することであって、前記追加出力は、
前記オブジェクトに関連付けられたセマンティックセグメンテーションであって、前記セマンティックセグメンテーションが前記オブジェクトの分類を示す、セマンティックセグメンテーションと、
前記画像の少なくとも前記一部に関連付けられた深度データと、
前記オブジェクトに関連付けられたインスタンスセグメンテーションと、を含む、ことと、
前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションに少なくとも部分的に基づいて、3次元ROIを決定することと、
前記深度データと前記3次元ROIの境界との間の差に少なくとも部分的に基づいて一貫性損失を決定することと、
トレーニングされたMLモデルとして、および前記一貫性損失に少なくとも部分的に基づいて、前記MLモデルの1つまたは複数のパラメータを変更することと、
を含む動作を実行させる、非一時的コンピュータ可読媒体。 - 前記ROIを決定することが、
第1の解像度に関連付けられた第1の特徴のセットを決定することと、
第2の解像度に関連付けられた第2の特徴のセットを決定することと、
に少なくとも部分的に基づいており、
前記追加出力を決定することは、さらに、前記第1の特徴のセットおよび前記第2の特徴のセットに少なくとも部分的に基づいている、請求項7に記載の非一時的コンピュータ可読媒体。 - 前記動作が、前記オブジェクトの中心を示す方向データを決定することをさらに含み、前記インスタンスセグメンテーションを決定することが、前記セマンティックセグメンテーション、前記深度データ、および前記方向データに少なくとも部分的に基づいている、請求項7または8に記載の非一時的コンピュータ可読媒体。
- 前記動作が、
前記オブジェクトの中心を示す方向データを決定することを備え、
前記3次元ROIを決定することは、さらに、前記方向データに少なくとも部分的に基づく、請求項7乃至9のいずれか一項に記載の非一時的コンピュータ可読媒体。 - 前記一貫性損失を前記決定することは、
前記セマンティックセグメンテーション、深度データまたはインスタンスセグメンテーションの1つまたは複数に少なくとも部分的に基づいて、2次元境界領域を決定することと、
前記ROIと前記2次元境界領域との間の差を決定することと、
を含む、請求項7乃至10のいずれか一項に記載の非一時的コンピュータ可読媒体。 - 前記動作が、前記セマンティックセグメンテーション、前記深度データ、および前記インスタンスセグメンテーションの少なくとも1つに関連付けられた確実性を決定することをさらに含み、前記一貫性損失がさらに、不確実性に少なくとも部分的に基づいている、請求項7乃至11のいずれか一項に記載の非一時的コンピュータ可読媒体。
- 前記深度データは、離散的な深度を示す深度ビンの出力と、前記深度ビンからのオフセットを示す深度残差とを含む、請求項7乃至12のいずれか一項に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201962935636P | 2019-11-15 | 2019-11-15 | |
| US62/935,636 | 2019-11-15 | ||
| US16/732,243 US10984290B1 (en) | 2019-11-15 | 2019-12-31 | Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding |
| US16/732,243 | 2019-12-31 | ||
| PCT/US2020/059734 WO2021096817A1 (en) | 2019-11-15 | 2020-11-09 | Multi-task learning for semantic and/or depth aware instance segmentation |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2023501716A JP2023501716A (ja) | 2023-01-18 |
| JP2023501716A5 JP2023501716A5 (ja) | 2023-09-29 |
| JP7611248B2 true JP7611248B2 (ja) | 2025-01-09 |
Family
ID=75495285
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022528234A Active JP7611248B2 (ja) | 2019-11-15 | 2020-11-09 | セマンティックおよび/または深度認識インスタンスセグメンテーションのためのマルチタスク学習 |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US10984290B1 (ja) |
| EP (1) | EP4058949A4 (ja) |
| JP (1) | JP7611248B2 (ja) |
| CN (1) | CN115088013A (ja) |
| WO (1) | WO2021096817A1 (ja) |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11024034B2 (en) * | 2019-07-02 | 2021-06-01 | Acist Medical Systems, Inc. | Image segmentation confidence determination |
| US11189007B2 (en) * | 2019-12-03 | 2021-11-30 | Imagry (Israel) Ltd | Real-time generation of functional road maps |
| CN111860304B (zh) * | 2020-07-17 | 2024-04-30 | 北京百度网讯科技有限公司 | 一种图像标注方法、电子装置、设备及存储介质 |
| US11987236B2 (en) * | 2020-08-31 | 2024-05-21 | Nec Corporation | Monocular 3D object localization from temporal aggregation |
| US12008469B1 (en) * | 2020-09-01 | 2024-06-11 | Amazon Technologies, Inc. | Acceleration of neural networks with stacks of convolutional layers |
| US12205013B1 (en) | 2020-09-01 | 2025-01-21 | Amazon Technologies, Inc. | Accelerated convolution of neural networks |
| CN113065511B (zh) * | 2021-04-21 | 2024-02-02 | 河南大学 | 基于深度学习的遥感图像飞机检测模型及方法 |
| CN113240723A (zh) * | 2021-05-18 | 2021-08-10 | 中德(珠海)人工智能研究院有限公司 | 一种单目深度估计方法、装置以及深度评估设备 |
| CN113223045B (zh) * | 2021-05-19 | 2024-06-11 | 北京数研科技发展有限公司 | 基于动态物体语义分割的视觉与imu传感器融合定位系统 |
| US11887324B2 (en) * | 2021-06-30 | 2024-01-30 | Motional Ad Llc | Cross-modality active learning for object detection |
| US12228419B2 (en) * | 2021-07-29 | 2025-02-18 | Zoox, Inc. | Systematic fault detection in vehicle control systems |
| CN113674423A (zh) * | 2021-08-27 | 2021-11-19 | 中德(珠海)人工智能研究院有限公司 | 一种火灾原因判定方法、装置、服务器及可读存储介质 |
| US12505682B2 (en) * | 2021-09-08 | 2025-12-23 | Motive Technologies, Inc. | Close following detection using machine learning models |
| US12116008B2 (en) * | 2021-09-10 | 2024-10-15 | Argo AI, LLC | Attentional sampling for long range detection in autonomous vehicles |
| US12271998B2 (en) * | 2021-09-23 | 2025-04-08 | Motional Ad Llc | Spatially and temporally consistent ground modelling with information fusion |
| US12345821B2 (en) | 2021-09-24 | 2025-07-01 | Zoox, Inc. | Method for predicting behavior of object e as an autonomous vehicles, determining afggregated data based on first and second lidars data and transfer function |
| CN113947603B (zh) * | 2021-09-28 | 2025-05-27 | 上海商汤善萃医疗科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
| US12430562B2 (en) * | 2021-10-04 | 2025-09-30 | Google Llc | Flexible framework for joint representation learning and unknown category discovery |
| WO2023102223A1 (en) * | 2021-12-03 | 2023-06-08 | Innopeak Technology, Inc. | Cross-coupled multi-task learning for depth mapping and semantic segmentation |
| US20230316715A1 (en) * | 2022-03-07 | 2023-10-05 | Ridecell, Inc. | Identifying Unseen Objects From Shared Attributes Of Labeled Data Using Weak Supervision |
| CN114494610B (zh) * | 2022-04-14 | 2022-08-02 | 清华大学 | 大场景光场实时重建智能理解系统与装置 |
| CN117271913B (zh) * | 2022-06-08 | 2026-04-28 | 腾讯科技(深圳)有限公司 | 兴趣点信息识别模型的训练、识别方法、装置及电子设备 |
| US12548248B2 (en) * | 2022-11-16 | 2026-02-10 | Waymo Llc | Late-to-early temporal fusion for point clouds |
| US20240242365A1 (en) * | 2023-01-18 | 2024-07-18 | Samsung Electronics Co., Ltd. | Method and apparatus with image processing |
| US20240371014A1 (en) * | 2023-05-02 | 2024-11-07 | Black Sesame Technologies Inc. | Monocular depth estimation system |
| FR3150619A1 (fr) * | 2023-06-28 | 2025-01-03 | Orange | Procédé de traitement d’un contenu visuel |
| EP4531003A1 (en) * | 2023-09-26 | 2025-04-02 | Aptiv Technologies AG | Methods and systems for determining information related to an environment of a vehicle |
| US20250181711A1 (en) * | 2023-12-04 | 2025-06-05 | Qualcomm Incorporated | Plausibility And Consistency Checkers For Vehicle Apparatus Cameras |
| KR20250106554A (ko) * | 2024-01-03 | 2025-07-10 | 현대자동차주식회사 | 멀티 태스크 학습 방법 및 그 장치 |
| EP4583067A1 (en) * | 2024-01-08 | 2025-07-09 | Identy Inc. | Method for differentiating a real object in an image from a spoof of the real object |
| CN119445449B (zh) * | 2024-11-07 | 2025-12-26 | 广东博华超高清创新中心有限公司 | 基于三维高斯溅射技术的开放词汇3d分割方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109191515A (zh) | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
| US20190057507A1 (en) | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
| US20190130275A1 (en) | 2017-10-26 | 2019-05-02 | Magic Leap, Inc. | Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks |
| US20190147245A1 (en) | 2017-11-14 | 2019-05-16 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10067509B1 (en) * | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
| US10474160B2 (en) * | 2017-07-03 | 2019-11-12 | Baidu Usa Llc | High resolution 3D point clouds generation from downsampled low resolution LIDAR 3D point clouds and camera images |
| US10599924B2 (en) | 2017-07-21 | 2020-03-24 | Adobe Inc. | Semantic page segmentation of vector graphics documents |
| CN110622177B (zh) | 2017-11-15 | 2023-03-24 | 谷歌有限责任公司 | 实例分割 |
| GB201720360D0 (en) * | 2017-12-06 | 2018-01-17 | Hgf Ltd | Method of determining the boundary of a driveable space |
| US11107229B2 (en) * | 2018-01-10 | 2021-08-31 | Samsung Electronics Co., Ltd. | Image processing method and apparatus |
| US11429807B2 (en) | 2018-01-12 | 2022-08-30 | Microsoft Technology Licensing, Llc | Automated collection of machine learning training data |
| DE112019000049T5 (de) * | 2018-02-18 | 2020-01-23 | Nvidia Corporation | Für autonomes fahren geeignete objekterfassung und erfassungssicherheit |
| US10726567B2 (en) * | 2018-05-03 | 2020-07-28 | Zoox, Inc. | Associating LIDAR data and image data |
| US10691978B2 (en) | 2018-06-18 | 2020-06-23 | Drvision Technologies Llc | Optimal and efficient machine learning method for deep semantic segmentation |
| KR102615196B1 (ko) * | 2018-08-21 | 2023-12-18 | 삼성전자주식회사 | 객체 검출 모델 트레이닝 장치 및 방법 |
| US11288525B2 (en) | 2018-10-31 | 2022-03-29 | Texas Instruments Incorporated | Object detection for distorted images |
-
2019
- 2019-12-31 US US16/732,243 patent/US10984290B1/en active Active
- 2019-12-31 US US16/732,274 patent/US11893750B2/en active Active
-
2020
- 2020-11-09 CN CN202080092199.9A patent/CN115088013A/zh active Pending
- 2020-11-09 JP JP2022528234A patent/JP7611248B2/ja active Active
- 2020-11-09 WO PCT/US2020/059734 patent/WO2021096817A1/en not_active Ceased
- 2020-11-09 EP EP20888291.0A patent/EP4058949A4/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190057507A1 (en) | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
| US20190130275A1 (en) | 2017-10-26 | 2019-05-02 | Magic Leap, Inc. | Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks |
| US20190147245A1 (en) | 2017-11-14 | 2019-05-16 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
| CN109191515A (zh) | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
Non-Patent Citations (6)
| Title |
|---|
| Alex Kendall et al.,"Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics",2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月18日,pp.7482-7491 |
| Danfei Xu et al.,"PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation",arXiv,米国,CORNELL UNIVERSITY,2018年08月25日,pp.1-11,https://arxiv.org/abs/1711.10871v2 |
| Jean Lahoud et al.,"3D Instance Segmentation via Multi-Task Metric Learning",arXiv,米国,CORNELL UNIVERSITY,2019年11月01日,pp.1-11,https://arxiv.org/abs/1906.08650 |
| Liqin Huang et al.,"Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation",Journal of Electronic Imaging,米国,SPIE and IS&T,2018年07月24日,Vol.27, No.4,pp.1-10 |
| Yingting Li et al.,"Certainty-Driven Consistency Loss for Semi-supervised Learning",arXiv,米国,CORNELL UNIVERSITY,2019年01月17日,pp.1-10,https://arxiv.org/abs/1901.05657v1 |
| 嶋田 彩人、外6名,"生体蛍光観察動画像の深度を考慮した深層学習による細胞追跡精度の改善",情報処理学会論文誌 数理モデル化と応用(TOM),日本,情報処理学会,2019年07月17日,Vol.12, No.2,pp.82-91 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN115088013A (zh) | 2022-09-20 |
| JP2023501716A (ja) | 2023-01-18 |
| EP4058949A1 (en) | 2022-09-21 |
| US11893750B2 (en) | 2024-02-06 |
| US20210181757A1 (en) | 2021-06-17 |
| US10984290B1 (en) | 2021-04-20 |
| EP4058949A4 (en) | 2023-12-20 |
| WO2021096817A1 (en) | 2021-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7611248B2 (ja) | セマンティックおよび/または深度認識インスタンスセグメンテーションのためのマルチタスク学習 | |
| JP7682190B2 (ja) | オブジェクト速度および/またはヨーレート検出およびトラッキング | |
| JP7662628B2 (ja) | オブジェクトの検出及び追跡 | |
| JP7763165B2 (ja) | 衝突回避知覚システム | |
| EP4107042B1 (en) | Combined track confidence and classification model | |
| US11628855B1 (en) | Object velocity detection from multi-modal sensor data | |
| US11609321B2 (en) | Radar-tracked object velocity and/or yaw | |
| US12189718B1 (en) | Learned state covariances | |
| US10936902B1 (en) | Training bounding box selection | |
| US11010907B1 (en) | Bounding box selection | |
| US12461524B2 (en) | Correction of sensor data alignment and environment mapping | |
| US12221115B1 (en) | Self-supervised global velocity determination for perception system | |
| US12416730B1 (en) | Object detection and tracking using machine learning transformer models with attention | |
| US12175764B1 (en) | Learned deconvolutional upsampling decoding layer | |
| US12600385B1 (en) | Machine-learned model architecture for occluded object spawning, track generation, and/or trajectory prediction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230921 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230921 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240611 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240618 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240917 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241112 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241223 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7611248 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |








