EP4134924B1

EP4134924B1 - Radarbasierte gestenklassifizierung unter verwendung eines algorithmus eines neuronalen netzes mit variationalem auto-encoder

Info

Publication number: EP4134924B1
Application number: EP21190926.2A
Authority: EP
Inventors: Avik SANTRA; Souvik Hazra; Thomas Reinhold STADELMAYER
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2025-10-01
Anticipated expiration: 2041-08-12
Also published as: US20230068523A1; US12307821B2; CN115705757A; EP4134924A1

Claims

Computerimplementiertes Verfahren, das Folgendes umfasst:
- Erhalten eines oder mehrerer Position-Zeit-Spektrogramme (101-104, 101*-104*) einer Radarmessung einer Szene (80), die ein Objekt (83) umfasst, und

- auf der Grundlage der einen oder mehreren Position-Zeit-Spektrogramme (101-104, 101*-104*) und auf der Grundlage einer Merkmalseinbettung (149) eines variationalen Autoencoder-Neuralnetzwerkalgorithmus, (111) Vorhersagen einer Gestenklasse (520) einer von dem Objekt (83) ausgeführten Geste (501-510).
Computerimplementiertes Verfahren nach Anspruch 1,
wobei die Gestenklasse (520) auf der Grundlage eines Vergleichs eines Mittelwerts (144) einer Verteilung der Merkmalseinbettung (149) des variationalen Auto-Encoder-Neuronalnetzwerk-Algorithmus (111) mit einem oder mehreren Bereichen (211-213) vorhergesagt wird, die in einem Merkmalsraum (200) der Merkmalseinbettung (149) vordefiniert sind.
Computerimplementiertes Verfahren nach Anspruch 2, das ferner umfasst:
- Überwachen einer Clusterbildung der Mittelwerte (144) der Verteilungen der Merkmalseinbettung (149) des variationalen Autoencoder-Neuralnetzwerkalgorithmus (111), die für mehrere Sätze der einen oder mehreren Position-Zeit-Spektrogramme erhalten wurden, wobei die Clusterbildung außerhalb der einen oder mehreren vordefinierten Bereichen (211-213) liegt, und

- auf der Grundlage der Überwachung der Clusterbildung, Bestimmen eines weiteren vordefinierten Bereichs im Merkmalsraum (200), um einen entsprechenden Cluster (214) zu umschließen.
Computerimplementiertes Verfahren nach einem der vorstehenden Ansprüche,
wobei das eine oder die mehreren Position-Zeit-Spektrogramme (101-104, 101*-104*) durch zeitliches Gating von Messdaten (64) der Radarmessung auf der Grundlage mindestens eines Triggerereignisses erhalten werden.
Verfahren nach Anspruch 4,
wobei das mindestens eine Triggerereignis einen Vergleich zwischen einer Änderungsrate einer durch die Messdaten (64) erfassten Positionsbeobachtungsgröße und mindestens einem vordefinierten Schwellenwert umfasst.
Computerimplementiertes Verfahren nach Anspruch 4 oder 5,
wobei das mindestens eine Triggerereignis eine Ausgabe eines Gestenerkennungsalgorithmus umfasst.
Computerimplementiertes Verfahren nach einem der vorstehenden Ansprüche,
wobei das eine oder die mehreren Position-Zeit-Spektrogramme (101-104, 101*-104*) aus der Gruppe ausgewählt werden, die aus einem Entfernung-Zeit-Spektrogramm, einem Geschwindigkeit-Zeit-Spektrogramm, einem Azimutwinkel-Zeit-Spektrogramm und einem Elevationswinkel-Zeit-Spektrogramm besteht.
Computerimplementiertes Verfahren nach einem der vorstehenden Ansprüche,
wobei das eine oder die mehreren Position-Zeit-Spektrogramme (101-104, 101*-104*) ein oder mehrere Roh-Position-Zeit-Spektrogramme (101-104) umfassen,

wobei der Variations-Autoencoder-Neuronalnetzwerk-Algorithmus (111) darauf trainiert wurde, ein oder mehrere gefilterte Position-Zeit-Spektrogramme (101*-104*) zu rekonstruieren.
Computerimplementiertes Verfahren zum Trainieren (3005) eines variationalen Auto-Encoder-Neuronalnetzwerk-Algorithmus (111) zum Vorhersagen einer Gestenklasse (520) einer Geste (501-510), die von einem Objekt (83) einer Szene (80) ausgeführt wird, wobei die Gestenklasse (520) aus einer Vielzahl von Gestenklassen (520) ausgewählt wird, wobei das computerimplementierte Verfahren umfasst:
- Erhalten mehrerer Trainingssätze (109) aus einem oder mehreren Training-Position-Zeit-Spektrogrammen (101-104, 101*-104*) einer Radarmessung der Szene (80) mit dem Objekt (83), wobei jeder der mehreren Trainingssätze (109) einem jeweiligen Ground-Truth-Label (107) zugeordnet ist, das die jeweilige Gestenklasse (520) indiziert, und

- Trainieren des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111) auf der Grundlage der mehreren Trainingssätze (109) und der zugehörigen Ground-Truth-Labels (107).
Computerimplementiertes Verfahren nach Anspruch 9,
wobei das Training des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111) mindestens einen Verlust (192) verwendet, der bestimmt ist auf der Grundlage mindestens eines statistischen Abstands zwischen einer Verteilung einer Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111), die für einen ersten Trainingssatz der mehreren Trainingssätze (109) erhalten wurde, der einer ersten Gestenklasse (520) der mehreren Gestenklassen (520) zugeordnet ist, und mindestens einem Mittelwert (144) der mindestens einen Verteilung der Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111), die für mindestens einen zweiten Trainingssatz der mehreren Trainingssätze (109) erhalten wurde, der mindestens einer der ersten Gestenklasse (520) oder einer zweiten Gestenklasse (520) der mehreren Gestenklassen (520) zugeordnet ist.
Computerimplementiertes Verfahren nach Anspruch 10,
wobei der mindestens eine Verlust (192) einen statistischen Abstand-Triplet-Verlust umfasst, der auf der Grundlage eines ersten statistischen Abstands und eines zweiten statistischen Abstands bestimmt wird,

wobei der erste statistische Abstand zwischen der Verteilung der Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111), die für einen Anker-Trainingssatz der mehreren Trainingssätze (109) erhalten wurde, und dem Mittelwert (144) der Verteilung der Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111), die für einen positiven Trainingssatz der mehreren Trainingssätze erhalten wurde,

wobei der zweite statistische Abstand zwischen der Verteilung der Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111), die für den Anker-Trainingssatz erhalten wurde, und dem Mittelwert (144) der Verteilung der Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111) liegt, die für einen negativen Trainingssatz (109) der mehreren Sätze erhalten wurde.
Computerimplementiertes Verfahren nach Anspruch 10 oder 11,
wobei der mindestens eine Verlust (192) einen statistischen Distanzzentrumverlust umfasst, der auf der Grundlage einer statistischen Distanz zwischen einer Klassenverteilung, die der ersten Gestenklasse (520) zugeordnet ist, und Mitteln der Verteilungen der Merkmalseinbettung (149) des variablen Auto-Encoder-Neuronalnetzwerk-Algorithmus (111) bestimmt wird, die für alle Trainingssätze der mehreren Trainingssätze (109) erhalten wurden, die der ersten Gestenklasse (520) zugeordnet sind.
Computerimplementiertes Verfahren nach einem der Ansprüche 10 bis 12, wobei der statistische Abstand ein Mahalanobis-Abstand ist.
Computerimplementiertes Verfahren nach einem der Ansprüche 9 bis 13,
wobei das eine oder die mehreren Training-Position-Zeit-Spektrogramme (101-104) ein oder mehrere rohe Training-Position-Zeit-Spektrogramme (101-104) umfassen,
wobei das Verfahren ferner umfasst:
- Anwenden (7005) eines Unscented-Kalman-Filters auf das eine oder die mehreren rohen Training-Position-Zeit-Spektrogramme, um ein oder mehrere gefilterte Training-Position-Zeit-Spektrogramme (101*-104*) zu erhalten,

wobei das Training des variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111) mindestens einen Rekonstruktionsverlust (191) verwendet, der auf einer Differenz zwischen einer Rekonstruktion (181-184) des einen oder der mehreren rohen Training-Position-Zeit-Spektrogramme, die von dem variationalen Autoencoder-Neuronalnetzwerk-Algorithmus (111) ausgegeben werden, und dem einen oder den mehreren gefilterten Training-Position-Zeit-Spektrogrammen (101*-104*) basiert.
Computerimplementiertes Verfahren nach einem der vorstehenden Ansprüche, das ferner umfasst:
- basierend auf Klassenverteilungen einer Merkmalseinbettung (149) des variationalen Autoencoder-Neuronalen-Netzwerk-Algorithmus (111), die für die Trainingssätze (109) erhalten wurden, die mit jeder der mehreren Gestenklassen (520) assoziiert sind, Bestimmen vordefinierter Bereiche (211-213) in einem Merkmalsraum (200) der Merkmalseinbettung (149) für die Gestenklassenvorhersage.