WO2015110331A1

WO2015110331A1 - Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens

Info

Publication number: WO2015110331A1
Application number: PCT/EP2015/050585
Authority: WO
Inventors: Friedrich SCHICK
Original assignee: Myestro Interactive GmbH
Current assignee: Tripleye GmbH
Priority date: 2014-01-24
Filing date: 2015-01-14
Publication date: 2015-07-30
Anticipated expiration: 2016-07-24
Also published as: EP3097511A1; DE102014201313A1

Abstract

Bei einem Verfahren zur Erkennung einer Bewegungsbahn (2₂₃; 2₂₁, 2₂₂) mindestens eines bewegten Objektes (23, 24) innerhalb eines Erfassungsbereiches wird dieser zunächst bildgebend erfasst. Hierbei wird ein erstes Erfassungsbild (11) erzeugt, dass den Erfassungsbereich zu einem ersten Erfassungszeitpunkt wiedergibt. Um einen Verzögerungszeitraum später wird ein zweites Erfassungsbild (12) erzeugt, dass den Erfassungsbereich zu einem entsprechend späteren Erfassungszeitpunkt zeigt. Anschließend werden Korrespondenzen von Bildbereichen (13 bis 22) der Erfassungsbilder (12) bestimmt und ausgewertet. Hierzu werden die Erfassungsbilder (12) verglichen, es wird eine Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild (12) korrespondierenden Bildbereichen (13 bis 23) ermittelt und die ermittelte Verteilungsdichte wird ausgewertet. Es werden dann Bildpunkte (23, 24) mit zugehörigem Bewegungsinkrement (2₂₃; 2₂₁, 2₂₂) zwischen den Erfassungsbildern (12) aufgrund der ausgewerteten Verteilungsdichte zugeordnet. Hieran schließt sich eine Bildpunktbewegungsauswertung an. Dieses Verfahren sowie ein dieses nutzende Gestikerkennungsverfahren können mit einfachen optischen Mitteln realisiert werden.

Description

Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches, Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens sowie Vorrichtung zur Durchführung eines derartigen Erken- nungsverfahrens

Der Inhalt der deutschen Patentanmeldung 10 2014 201 313.5 wird durch Bezugnahme hierin aufgenommen. Die Erfindung betrifft ein Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches. Ferner betrifft die Erfindung ein Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens und eine Vorrichtung zur Durchführung eines derartigen Erkennungsverfahrens bzw. Gestikerken- nungsverfahrens.

Verfahren und Vorrichtungen zur Objekterkennung sind bekannt aus der WO 2012/095 258 AI und der WO 2013/020 872 AI . Der Fachartikel„A Probabilistic Framework for Matching Temporal Trajectories:

CONDENSATION-Based ecognition of Gestures and Expressions" von Black et al. in H. Burckhardt, B. Neumann (Eds.): Computer Vision - ECCV '98, Vol I, LNCS 1406, pp. 909-924, 1998, © Springer- Verlag Berlin Heidelberg 1998, beschreibt eine Verwendung lokal gerasteter Vektoren, über die Trajektorien einer Mundbewegung erkannt werden sollen.

Es ist eine Aufgabe der vorliegenden Erfindung, ein Erkennungsverfahren mit einfachen optischen Mitteln zu ermöglichen. Diese Aufgabe ist erfmdungsgemäß gelöst durch ein Erkennungsverfahren mit den im Anspruch 1 angegebenen Merkmalen.

Die beschriebene Erfindung misst eine Verteilungsdichte von Bewegungs- Korrespondenzen zwischen Teilen aufeinanderfolgender Bilder.

Die wesentliche Information, die verarbeitet wird, ist ein Bewegungsmuster, wobei erst in einem nächsten Schritt auf die bewegte Struktur rückgeschlossen wird. Zur Durchführung des Verfahrens ist eine Mustererken- nung, beispielsweise eine Gesichtserkennung, die an ein und demselben Bild durchgeführt wird, nicht erforderlich. Die wesentlichen Bewegungsinformationen werden durch Vergleich aufeinanderfolgender Bilder gewonnen. Dazu werden zwischen Bildausschnitten von zwei aufeinanderfolgenden Bildern Bewegungs-Korrespondenzen ermittelt. Eine Korrespondenz ist gegeben, wenn sich zwei Bildausschnitte ähneln. Bei dieser Vorverarbeitung werden auch Korrespondenzen zugelassen, die nicht dem optischen Fluss entsprechen. Mit dem Verfahren entstehen jeweils für kleine Bildre- gionen Verteilungen von Korrespondenzvektoren unterschiedlicher Richtung und Länge, somit über das gesamte Bild Korrespondenzverteilungsverläufe. Diese Korrespondenzverteilungsverläufe werden in eine Korrespondenzverteilungsdichte umgerechnet. Der Bildfluss entspricht dann den größten Werten einer idealen Korrespondenzverteilungsdichte. Durch Messfehler, Bildwiederholungen und Messlücken wird die ideale Korrespondenzverteilungsdichte eines optischen Flusses, also ein„sauberer" optischer Fluss", in der Regel nicht erreicht. Das Vorverarbeitungsverfahren kann deshalb als fluss-orientierte Untersuchung (flow-oriented- examination, flox) charakterisiert werden, mit dem auch Korrespondenz- verteilungsdichten ausgewertet werden könne, die von der idealen Korrespondenzverteilungsdichte eines optischen Flusses abweichen („unsaubere" Flussverteilungen). Eine Teilmenge solcher Korrespondenzverteilungsdichten ist der optische Fluss. Durch Zuordnungsfehler wird die Verteilungsdichte eine Vielzahl weiterer Korrespondenzen finden. Die Verteilungsdichten werden auf potentielle Bewegungen kompakter Regionen überprüft und Bewegungsinkremente abgeleitet. Aus einer Folge von Bewegungsinkrementen werden Objektbewegungen verkettet und plausibilisiert. Korrespondenzen zwischen ähnlichen Bildpunkten bzw. Bildteilen, die nicht Abbildungen desselben Objektes sind, z.B. Korrespondenzen zwischen zwei benachbarten Aktenordnern, führen zu einer Scheinbewegung, die sich in der Regel örtlich nicht fortsetzt, sondern lokal bleibt, vergleichbar mit der Tachoanzeige bei durchdrehenden Reifen. Durch Vergleich von mehr als zwei Erfassungsbildern, die nacheinander aufgenommen werden, lassen sich derartige Scheinbewegungen ausschließen. Die Verkettung plausibilisierter Bewegungsinkremente führt dann zu einer Bewegung, die ihrerseits auf eine Geste hin überprüft wird.

Sollen Objekte im Nahbereich vermessen werden, wie z.B. Finger direkt vor der Kamera die in einer Brille eingebaut ist, werden mehrere Bildbereiche zu einer ähnlichen, also gemeinsamen Bewegung führen. In diesem Fall wird ein geeigneter Mittelwert der Koordinaten der gemeinsamen Be- wegung zur Repräsentation des eigentlichen Objektes verwendet. In der Regel ist nicht die Position des Objektes maßgebend für die Bewegungsgeste, sondern die Form der Bahn, die in diesem Fall für alle gemeinsamen Bewegungen identisch ist. Neben einem Mittelwert kann auch der Oberste aller eine gemeinsame Bahn durchlaufenden Bildpunkte ausgewählt und zugeordnet werden. Das ist z.B. die Fingerspitze eines nach oben zeigenden Fingers im Bild. Die Genauigkeit der Bahn muss dabei nur so gut sein, dass die den Gesten zugeordneten Bahnformen unterschieden werden können.

Beim bildgebenden Erfassen können Kamerabilder zyklisch in einen Auswerterechner geladen werden.

Der zeitliche Abstand der Bilder darf variieren, muss aber bekannt sein. Aus zwei aufeinanderfolgenden Bildern wird eine Korrespondenzverteilungsdichte ermittelt, aus der pro Bildpaar Bewegungsinkremente errechnet werden. Aus der Folge von Bewegungsinkrementen werden Bewegungsse- quenzen gefiltert, die ausgewählten Gestenbewegungen entsprechen können. Die Anzahl fehlerhafter Korrespondenzverteilungsdichten können durch grobes Entfernungswissen, durch geeignete Tiefensensoren oder durch Schärfe-Einstellungen der Kamera oder Blitzbeleuchtung reduziert werden, um die Sicherheit bei der Erkennung zu erhöhen.

Bei der Bildpunkt-Zuordnung erfolgt keine Objektform-Erkennung. Es wird überprüft, wo in korrespondierenden Bildpunktgruppen bzw. Bildbereichen Bewegungen, insbesondere schnelle Bewegungen, mit hoher Dichte, also Bewegungen von Bildpunktgruppen mit vergleichbaren Bewe- gungsinkrementen, detektiert. Aus einer detektierten Bildpunktgruppe erfolgt die Auswahl und Zuordnung eines repräsentativen Bildpunktes aufgrund von vorher festgelegten Kriterien für die ermittelte Verteilungsdichte und die zugehörigen Bewegungsinkremente. Es kann beispielsweise eine Mindestdichte von bewegten Bildpunkten vorgegeben werden und es kann unter den dann vorselektierten Bildpunkten, die innerhalb der Bildpunktgruppen mit der Mindestdichte liegen, eine Selektion nach dem größten Bewegungsinkrement vorgenommen werden. Alternativ kann nach bestimmten Bewegungsinkrementen vorselektiert werden und es kann inner- halb einer Bildpunktgruppe, die dieses Bewegungsinkrement aufweist, ein hinsichtlich seiner Lage ausgezeichneter Bildpunkt innerhalb dieser Bildpunktgruppe ausgewählt werden. Bei der Auswahl bzw. Zuordnung des Bildpunktes durch Auswertung der ermittelten Verteilungsdichte kann ein Vorhersage-Algorithmus eine Zuordnung eines spezifischen Bildpunktes vereinfachen. Hierzu wird anhand von beispielsweise drei aufeinanderfolgenden Erfassungsbildern überprüft, ob beim zuletzt aufgenommen Erfassungsbild ein Kandidaten-Bildpunkt in einem Bildbereich vorliegt, in dem er entsprechend seiner Bewegung in den ersten beiden nacheinander aufgenommenen Erfassungsbildern tatsächlich zu erwarten ist. Nur Bildpunkte, bei denen ein vorhergesagter Bildbereich erreicht wird, entsprechen dann der Vorhersage und erfüllen somit dieses Auswahlkriterium. Soweit nach Durchlaufen dieser verschiedenen Auswahlkriterien immer noch mehrere Bildpunkte verbleiben, kann eine einfache geometrische Auswahl erfolgen. Es kann beispielsweise ein oberster Bildpunkt ausgewählt und zugeordnet werden, der im Erfassungsbereich unter den Auswahlkandidaten vorliegt. Bei den Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln.

Beim vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren wer- den die Verfahrensschritte automatisch und rechnergestützt abgearbeitet. Das Verfahren kann ohne Bedienereingriff durchgeführt werden. Das Bewegungsbahn-Erkennungsverfahren kann auf einem Standardrechner in Echtzeit ablaufen. Das Bewegungsbahn-Erkennungsverfahren extrahiert Bewegungsinkremente auch aus„unsauberen" Flussverteilungen, insbesondere über eine 2D-Häufigkeitsmatrix, die nachfolgend noch beschrieben wird.

Die Definition eines Tiefenbereiches nach Anspruch 2 kann mit Hilfe eines Tiefensensors erfolgen. Hierzu kann auch die Schärfentiefe einer Vorsatzoptik des Kamerasensors genutzt werden. Auch Autofokus-Techniken können hierfür genutzt werden, was insbesondere zur Kontrastverstärkung und damit zur Verbesserung des Ergebnisses eines Vergleichs der Erfassungsbilder genutzt werden kann. Sobald eine Tiefe eines Objektes, dessen Bewegungsbahn erkannt wurde, bekannt ist, lassen sich zur Objektbewegung auch die Objektgeschwindigkeit messen und angeben.

Die Korrespondenzverteilungsdichte kann entsprechend nicht nur von Objekten in der Entfernung des erwarteten Objektes ermittelt werden, sondern auch von weniger oder weiter von dem Sensor entfernten Objekten. Mit auch grob auflösenden Tiefensensoren, auf Basis von strukturiertem Licht, Time-of-Flight oder auch Stereoskopie können Bildteile identifiziert werden, die nicht im Entfernungsbereich liegen und deren Verteilungsdichten ignoriert werden. Ein Tiefensensor auf Basis von strukturiertem Licht (Structured Light) ist beispielsweise bekannt aus der US 4,954,962. Ein Tiefensensor auf Basis„Time-of-Flight" ist bekannt aus der EP 2 378 310 AI .

Gröbere Auflösungen bieten zum Beispiel Ultraschallsensoren. Durch eine Kombination von einigen Ultraschallsensoren können die Richtungen von Objekten, die in der erwarteten Entfernung liegen, ermittelt werden und andere Bildbereiche diskriminiert werden.

Entfernungsinformationen geben auch sogenannte Lichtfeld-Sensoren. Kann in bestimmten Bildbereichen keine Schärfe für die gewünschte Entfernung errechnet werden, werden auch diese diskriminiert. Eine Tiefenbereichs-Defmition nach Anspruch 3 ist, das Vorhandensein einer entsprechend ansteuerbaren Lichtquelle vorausgesetzt, mit hoher Präzision möglich. Alternativ oder zusätzlich kann zur Definition des Tiefenbereichs auch eine zeitliche Variation eines Beleuchtungszeitraums zu einem Belichtungszeitpunkt bei der bildgebenden Erfassung erfolgen.

Neben den direkten Tiefensensoren können also auch weitere entfernungsabhängige Effekte genutzt werden. Wird ein IR-Filter vor die Kamera gesetzt und die Umgebung mit begrenzter IR-Lichtleistung bestrahlt, ist die Reichweite begrenzt und Korrespondenzen dahinterliegender Objekte wer- den nicht mehr erfasst. Sind Objekte sehr nah, werden sie von der IR- Strahlung so stark angestrahlt, dass auf ihnen keine Kontraste mehr erkennbar sind. Es entsteht somit ein Tiefenbereich für messbare Korrespondenzen. Werden in kurzer zeitlicher Abfolge die IR-Strahlungsleitung und die Belichtungszeit variiert, können messbare Tiefenbereiche so versetzt werden, dass nur Ketten von Bewegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig in den messbaren Bereichen geblieben sind.

Ein weiterer entfernungsabhängiger Effekt ist die Schärfentiefe. Für licht- starke Objektive ist die Schärfentiefe geringer als bei lichtschwachen Objektiven. Nur in diesem Bereich können Korrespondenzen gemessen werden. Über in kurzer zeitlicher Abfolge variierte Brennweite kann der messbare Tiefenbereich so versetzt werden, dass auch hier nur Ketten von Be- wegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig im messbaren Bereich geblieben sind.

Die Kombination der beiden entfernungsabhängigen Effekte auch zusam- men mit ihrer zeitlichen Variation führt zu dem gewünschten Effekt der Einschränkung des messbaren Bereiches. Es können also auch Kombinationen aus Schärfentiefe und/oder Beleuchtungsstärke und/oder Beleuchtungsdauer zur Tiefenbereichs-Defmition herangezogen werden. Die Vorteile eines Gestikerkennungsverfahrens nach Anspruch 4 entsprechen denen, die vorstehend unter Bezugnahme auf das Bewegungsbahn- Erkennungsverfahren bereits erläutert wurden.

Gesten entstehen durch die Bewegung von Körperteilen. Die unmittelbare Messung der Bewegung benötigt keine Modellierung wie Abbildungen von Händen oder Gelenkmodellen. Wird die Bewegung von kompakten, zum Beispiel faustgroßen, Objekten unmittelbar gemessen, kann auf die Modellierung zum Beispiel einer Handpose oder auf Gelenkmodelle verzichtet werden. Bei einem monokularen Kamerasystem sollte das faustgroße Ob- jekt tendenziell quer zur Blickrichtung des Sensors bewegt werden. Zusammen mit einem geeigneten Tiefensensor können auch unmittelbar Entfernungsgeschwindigkeiten zum Sensor gemessen werden. In beiden Fällen müssen aber weder Handposen trainiert oder Gelenkmodelle mit einer im Wesentlichen ungestörten Umgebung berücksichtigt werden. Außerdem wird das Verhältnis Objektgröße zu Erfassungsbereich wegen der geringeren Anforderungen an Texturinformationen an das Objekt deutlich kleiner, so dass viele unabhängige Objekte in einem großen Volumen vermessen werden können. Die abgeleiteten Gesten können über die Verwendung von bekannten Verfahren wie„Inverse Kinematics" oder„Template Matching" weiter plausi- bilisiert werden. Die Bewegung muss von einer bestimmten Objektähnlichen Grauwerte -Verteilung ausgelöst worden sein. Eine Hand, Finger wie auch künstliche Objekte (Handschuhe, Marker) können als Basis dienen. Mit„Inverse Kinematics" können Bewegungsvorhersagen getroffen werden und damit die Korrespondenzdichteverteilung gezielter ausgewertet werden. Durch vereinfachte, zum Beispiel planare, Bewegungsmodelle wie das Modell konstanter Geschwindigkeit kann die Korrespondenzdichtever- teilung ebenfalls besser ausgewertet werden.

Ein„Inverse Kinematics"- Verfahren ist bekannt aus der CA 2 21 1 858 C. Ein„Template Matching"- Verfahren ist bekannt aus der EP 1 203 344 B 1. Als eine Gestikerkennung bzw. eine Gestensteuerung aktivierende Geste kann, insbesondere über eine entsprechende Bilderfassung, ein Kreis- Symbol ausgewählt werden, das von einer offenen oder geschlossenen Hand des Benutzers innerhalb eines Erfassungsbereiches durch entsprechende Kreisbewegung erzeugt wird. Über die bildgebende Erfassung eines solchen Kreis-Symbols kann ein Kreismittelpunkt sowie ein Kreisradius dieses Kreis-Symbols erfasst und, beispielsweise in einem Speicher eines Steuerungsmoduls, abgelegt werden. Nachfolgende Symbole können dann als für die Steuerung relevant erfasst werden, sofern sie innerhalb des so definierten Kreisbereiches innerhalb des Erfassungsbereiches geschehen, ggf. zuzüglich eines zusätzlich Umgebungsbereiches, der über einen vergrößerten Toleranzradius um den Kreismittelpunkt vorgegeben werden kann. Innerhalb des Kreisbereichs können dann über die Steuerung verschiedene Unterbereiche, beispielsweise Kreissektoren definiert werden, die analog wie Tasten eines Tastaturfeldes vom Benutzer angesteuert werden und verschiedene Signale auslösen können. Ein Verharren in einem solchen Un- terbereich oder ein definierter Wechsel zwischen vorgegebenen Unterbereichs-Abfolgen kann dann als Signal zur Auslösung einer bestimmten Steuerfolge erkannt werden. Weitere Gesten, die nach der Aktivierungsgeste„Kreis- Symbol" erkannt werden können, sind beispielsweise eine im Uhrzeigersinn und eine entgegen dem Uhrzeigersinn rotierende Geste, die beispielsweise zur Verstärkung oder Verringerung einer Signalintensität, vergleichbar beispielsweise zu einem Lautstärkeregler, verarbeitet werden können.

Das hier beschriebene Gestikerkennungsverfahren kann durch Einsatz ei- nes entsprechenden Steuermoduls auch losgelöst vom vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren genutzt werden und ist eigenständiger Bestandteil der Anmeldung. Zur Bewegungsbahn-Erkennung kann dann alternativ auch ein aus dem Stand der Technik bekanntes Verfahren zum Einsatz kommen, welches sich mit einem optischen Fluss be- schäftigt, zum Beispiel der sogenannte KLT-Tracker, beschrieben in„Bruce D. Lucas and Takeo Kanade."„An Iterative Image Registration Tech- nique with an Application to Stereo Vision." IJCAI, pages 674-679, 1981. Auch Verfahren, die im Zusammenhang mit Codec-Implementierungen bekannt sind, können zum Einsatz kommen. Das Gestikerkennungsverfah- ren kann so ausgeführt sein, dass es auf einem Standardrechner in Echtzeit abläuft.

Modell-Bildpunktbewegungen nach Anspruch 5 ergeben einen Gestensatz, der für vielfältige Steuerungsaufgaben genutzt werden kann. Die Vorgabe eines Eingabebereiches mit einer Bereichsvorgabe-Geste nach Anspruch 6 ermöglicht die Definition eines beispielsweise hochauflösend erfassbaren Unterbereiches innerhalb des Erfassungsbereiches, was zu de- taillierten Eingabezwecken genutzt werden kann. Bei der Bereichsvorgabe- Geste kann es sich um eine Kreisform-Bewegung handeln. In dem definierten Eingabebereich können dann weitere Eingaben erfolgen.

Durch eine Gesichtserkennung nach Anspruch 7 kann eine Freigabe der Gestikerkennung erfolgen. Eine Gesichtserkennung kann in der Umgebung der Bewegung eine Person identifizieren. Es kann dann sichergestellt werden, dass nur bestimmte Personen Zugriff haben.

Durch eine Auswahl bereitgestellter Modell-Bildpunktbewegungen nach Anspruch 8 ist die Vorgabe eines Nutzerpro fils möglich.

Die Vorteile einer Vorrichtung nach Anspruch 9 entsprechen denen, die vorstehend im Zusammenhang mit dem Bewegungsbahn- Erkennungsverfahren und dem Gestikerkennungsverfahren bereits erläutert wurden.

Zur Vorrichtung kann eine Lichtquelle gehören, die mit dem Kamerasensor und/oder dem Auswerterechner in Signalverbindung steht, sodass die Lichtquelle, beispielsweise eine Belichtungsstärke oder ein Belichtungs- Zeitraum, vom Kamerasensor und/oder vom Auswerterechner durch entsprechende Ansteuerung vorgegeben werden kann.

Mit Hilfe einer Projektoreinrichtung nach Anspruch 10 kann beispielsweise in einem vorgegebenen Eingabebereich ein Eingabefeld oder eine Mehr- zahl von Eingabefeldern, beispielsweise in Form einer Tastatur, durch Projektion erzeugt werden. Durch Betätigung des mindestens einen, projizierten Eingabefeldes kann der Benutzer dann eine definierte Steuerungsaktion auslösen oder auch eine Eingabe, beispielsweise eine Ja/Nein-Auswahl oder eine Texteingabe vornehmen.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. In dieser zeigen: Fig. 1 stark schematisch eine Vorrichtung zur Durchführung eines

Verfahrens zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches als Teil eines Gestikerkennungsverfahrens; Fig. 2 und 3 Momentaufnahmen von den Erfassungsbereich wiedergebenden Erfassungsbildern zu zwei aufeinanderfolgenden Erfassungszeitpunkten.

Fig. 1 zeigt schematisch eine Vorrichtung 1 zur Durchführung eines Er- kennungsverfahrens. Mit der Vorrichtung kann eine Bewegungsbahn 2 mindestens eines bewegten Objektes 3 innerhalb eines Erfassungsbereiches 4, der in der Fig. 1 gestrichelt dargestellt ist, erkannt werden. Als Beispiel für die Bewegungsbahn 2 ist in der Fig. 1 die Bahn einer bewegten Hand des Objektes 3 am Beispiel eines gestikulierenden Benutzers dargestellt.

Die Vorrichtung 1 hat einen monokularen Kamerasensor 5, bei dem es sich um eine hochauflösende CCD-Kamera oder CMOS-Kamera mit einer Vorsatzoptik 6 handelt, die in der Lage ist, eine vorgegebene Tiefe bzw. einen Tiefenbereich T des Erfassungsbereiches 4 mit vorgegebener Abbildungsschärfe zu erfassen.

Über eine Signalleitung 7 steht der Kamerasensor 5 mit einem Auswerte- rechner 8 in Signalverbindung. Letzterer steht über eine weitere Signalleitung 9 mit einem zu steuernden Gerät 10 in Signalverbindung. Alternativ kann es sich beim Auswerterechner 8 und dem zu steuernden Gerät 10 um ein und dieselbe Einheit handeln. Bei dem zu steuernden Gerät 10 kann es sich um eine Art Tablet-PC, ausgerüstet mit den Komponenten 5 und 8 zur Gestikerkennung handeln. Alternativ kann es sich bei dem zu steuernden Gerät 10 auch um ein in Bezug auf den Auswerterechner 8 externes Gerät handeln, beispielsweise um ein TV-Gerät oder um ein sonstiges Gerät der Unterhaltungselektronik. Auch ein haustechnisches Gerät, beispielsweise eine Lichtanlage oder eine Rolladensteuerung oder eine Heizanlage ist ein Beispiel für das anzusteuernde Gerät 10.

Zum Erkennen der Bewegungsbahn 2 wird der Erfassungsbereich 4 mit dem Kamerasensor 5 bildgebend erfasst. Hierbei wird ein den Erfassungsbereich 4 wiedergebendes Erfassungsbild im Kamerasensor 5 erzeugt.

Fig. 2 und 3 zeigen beispielhaft zwei derartige Erfassungsbilder 1 1 und 12 zu den Zeitpunkten t = 0 und t = 1 , wobei beispielhaft willkürliche Zeiteinheiten verwendet werden. Das Erfassungsbild 12 ist um einen Verzögerungszeitraum später vom Kamerasensor 5 erzeugt als das Erfassungsbild 1 1. Die beiden Erfassungsbilder 1 1 und 12 werden in Echtzeit oder quasi in Echtzeit digitalisiert und im Auswerterechner 8 hinterlegt. Im Auswerterechner 8 findet dann ein Bestimmen und Auswerten von Korrespondenzen von Bildbereichen der Erfassungsbilder 1 1, 12 statt. Hierzu werden die Erfassungsbilder 1 1 und 12 im Auswerterechner 8 miteinander verglichen. Es wird sodann eine Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereichen ermittelt.

Der Verzögerungszeitraum, also ein zeitlicher Abstand zwischen den Er- fassungszeitpunkten der Erfassungsbilder 1 1 und 12 kann variierbar sein. Der Verzögerungszeitraum kann im Bereich zwischen 10 ms und 1 s liegen.

In den Fig. 2 und 3 sind derartige Bildbereiche durch kleine Quadrate 13 bis 22 beispielhaft dargestellt. Bei diesen Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln.

Die Erfassungsbilder 1 1 und 12 zeigen als Bildpunktgruppen, die erfasste Objekte repräsentieren, beispielhaft einen Regentropfen 23, der beispiels- weise auf einer Kameralinse des Kamerasensors 5 vorliegen kann, sowie eine Hand 24 des Benutzers 3. Sowohl der Regentropfen 23 als auch die Hand 24 haben sich zwischen den beiden Erfassungszeitpunkten t = 0 und t = 1 der Erfassungsbilder 1 1 und 12 bewegt. Beim Bestimmen und Auswerten von Korrespondenzen insbesondere der Bildbereiche 13 bis 22 der Erfassungsbilder 1 1 und 12 wird unter Nutzung insbesondere des Auswerterechners 8 folgendermaßen vorgegangen: Zunächst wird das erste aufgenommene Erfassungsbild 1 1 in überlappende Bildteile aufgeteilt. Bei dem Erfassungsbild 1 1 handelt es sich um ein Digi- talbild, das insgesamt als A x B-Pixelarray ausgebildet ist. Die ganzzahligen Werte A und B, die die Anzahlen der Pixel in den jeweiligen Zeilen und Spalten des Arrays wiedergeben, liegen dabei beispielsweise im Bereich zwischen 500 und 10000. Bei den überlappenden Bildteilen handelt es sich dann um C x D-Teilpixelarrays. Der ganzzahlige Wert C ist dabei deutlich kleiner als der Wert A und der ganzzahlige Wert D ist deutlich kleiner ist als der Wert B. C und D können beispielsweise im Bereich zwischen 8 und 30 liegen. Benachbarte Bildteile, also benachbarte Teilpixelar- rays haben mindestens eine Pixelreihe bzw. mindestens eine Pixelspalte gemeinsam.

Nach dem Aufteilen in überlappende Bildteile wird jeden dieser Bildteile eine Bildsignatur zugeordnet. Bei dieser Signatur handelt es sich beispielsweise um eine Bitfolge, die eine Helligkeitsverteilung und/oder eine Farbverteilung innerhalb des Bildteiles repräsentiert. Zur Bildsignatur- Ermittlung und zur Bildsignatur- Zuordnung wird jedes Bildteil in überlappende Unter-Bildteile aufgeteilt. Bei den Unter-Bildteilen kann es sich um E x F-Unter-Teilpixelarrays handeln. Die ganzzahligen Werte E und F sind kleiner als die Werte C und D der Teilpixelarrays. E und F können bei- spielsweise im Bereich zwischen 3 und 7 liegen. Zum jeweiligen Bildteil und zu jedem Unter-Bildteil dieses Bildteils wird durch entsprechende Auswertung der Helligkeit- und/oder Farbwerte der zugehörigen Pixel mit- hilfe des Auswerterechners 8, beispielsweise ein mittlerer Grauwert bestimmt. Zudem wird eine Toleranzabweichung ε vorgegeben. Es wird nun eine Differenz jeweils des bestimmten mittleren Unter-Bildteil-Grauwerts zum mittleren Bildteil-Grauwert bestimmt. Soweit die sich ergebende Differenz kleiner ist als -ε, wird als erster Unter-Bildteilsignaturwert der Wert 0 vergeben. Soweit die Differenz zwischen den Werten -ε und ε liegt, wird als zweiter Unter-Bildteilsignaturwert der Wert 1 vergeben. Soweit die Dif- ferenz größer ist als +ε, wird als dritter Unter-Bildteilsignaturwert der Wert 2 vergeben. Die dem jeweiligen Bildteil zuzuordnende Bildteilsignatur ist dann die Folge der vergebenen Unter-Bildteilsignaturwerte. Mit dem vorstehend erläuterten Zuordnungsverfahren werden für die beiden Erfassungsbilder 1 1 und 12 die jeweiligen Bildteilsignaturen bestimmt. Anschließend werden die Bildteile des zweiten Erfassungsbildes 12 den Bildteilen des ersten Erfassungsbildes 1 1 mit der gleichen Signatur zuge- ordnet. Es ergeben sich durch diese Zuordnung 2D-Vektoren, die als Roh- Bewegungsinkremente verstanden werden können. Diese 2D-Vektoren verbinden Bildteile, also beispielsweise die Bildbereiche 13 bis 22, der beiden Erfassungsbilder 1 1, 12 mit gleicher Bildteilsignatur. Bildteile ohne zugeordnete 2D-Vektoren werden anschließend verworfen, so dass die weitere Auswertung ausschließlich auf die zugeordneten Bildteile beschränkt ist. Es werden nun die 2D- Vektoren in der Umgebung, insbesondere in einer vordefinierten Pixelumgebung, jeweils eines verbleibenden Bildteils verglichen und die Häufigkeit ähnlicher Vektoren in die- ser Umgebung bestimmt. Das Ergebnis dieser Häufigkeitsbestimmung ist die Verteilungsdichte der hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereiche.

Diejenigen 2D-Vektoren, deren Verteilungsdichte unterhalb eines vorgege- benen Grenzwerts liegt, werden anschließend verworfen.

Es wird nun eine 2D-Häufigkeitsverteilung aller verbleibender 2D- Vektoren, also eine 2D-Häufigkeitsmatrix, berechnet. Bewegungslose Bildteile haben eine Vektorlänge 0 in beiden Dimensionen und bilden ein zentrales Element der Verteilungsdichte. Bewegte Bildteile erhöhen die Häufigkeit diskreter 2D-Vektoren mit bestimmter Länge und Richtung.

Das zentrale Element der Häufigkeitsverteilung einschließlich 2D- Vektoren mit einer Länge unterhalb einer vorgegebenen Grenzlänge wer- den anschließend verworfen. Bei stehender Kamera ergibt dies also eine Hintergrundunterdrückung. Bei bewegter Kamera kann alternativ eine Unterdrückung von 2D-Vektoren erfolgen, die dieser Bewegung innerhalb eines vorgegebenen Toleranzbereichs entsprechen.

Es wird nun eine größte Häufigkeit eines 2D-Vektorschwarms mit Berechnung von Mittelpunkt und Ausdehnung im zweiten Erfassungsbild 12 ausgewählt. Hierbei kann es sich um die Hand 24 handeln. Die Auswahl kann dann für den nächsthäufigen 2D-Vektorschwarm, also für mindestens einen Nebenschwarm, fortgesetzt werden. Ein Ergebnis dieser Nebenschwarm- Auswahl kann beispielsweise der Regentropfen 23 sein.

Für weitere Erfassungsbilder kann dann eine lineare Vorhersage des jeweiligen Schwarmmittelpunktes im nächsten Bild zur Verfolgung dieses 2D- Vektorschwarms geschehen. Dies kann zur Unterdrückung einer Störung durch in einzelnen Erfassungsbildern einander überlappende Schwärme die Erfassungsgenauigkeit verbessern.

Beim Ermitteln der Verteilungsdichte durch Vergleich der Erfassungsbilder 1 1 und 12 ergibt sich zum Beispiel, dass im Bereich des Regentropfens 23 praktisch sämtliche Bildpunkte längs einer vergleichbaren Bewegungsbahn 2₂₃ verlaufen, was in der Fig. 3 anhand der Bewegung des obersten Bildbereiches 13 veranschaulicht ist. Hierbei ist die Position des Bildbereiches 13 zum Erfassungszeitpunkt t = 0 in der Fig. 3 gestrichelt dargestellt.

Die Fig. 3 zeigt ein typisches (Zwischen-)Ergebnis beim Auswerten der ermittelten Verteilungsdichte durch einen entsprechenden Auswertealgorithmus. Beispielsweise bei der Korrespondenzbestimmung zu den der Hand 24 zugeordneten Bildbereichen 19 bis 22 haben sich tatsächlich rieh- tige Korrespondenzen (Bewegung der Bildbereiche 21 und 22) sowie tatsächlich falsche Korrespondenzen (Bewegung der Bildbereiche 19 und 20) ergeben. Zusammen mit anderen, der Hand 24 zuordenbaren Bildbereichen, die in den Fig. 2 und 3 nicht dargestellt sind, ergibt sich eine erhöhte Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild 12 mit den Bildbereichen 21 und 22 korrespondierenden Bildbereichen.

Dargestellt sind weiterhin nicht körperlich als Objekte wiedergegebene weitere erfasste Bildpunktgruppen in den Erfassungsbildern 1 1 und 12 durch zugehörige Bildbereiche 14 bis 18 sowie die sich bei der Auswertung der Verteilungsdichte ergebenden korrespondierenden Bildbereiche 14 bis 18 nach dem Verzögerungszeitraum, also zum Zeitpunkt t = 1 (vgl. Fig. 3). Aus den sich ergebenden Bewegungsbahnen bzw. Bewegungsinkrementen 2j (i = 13 bis 22) der Bildbereiche 13 bis 22 kann bei der Auswertung der jeweils zugehörigen ermittelten Verteilungsdichte der Bildbereiche darauf geschlossen werden, ob die sich ergebenden Bewegungsbahnen 2j real sein können oder nicht. Ergebnis des Auswertens ist ein Zuordnen einzelner Bildpunkte aus hinsichtlich ihrer Verteilungsdichte ausgewerteten Bildpunktgruppen mit zugehörigem Bewegungsinkrement zwischen den Erfassungsbildern 1 1, 12 aufgrund der ausgewerteten Verteilungsdichte. Das Ergebnis der Auswertung der Erfassungsbilder 1 1 und 12 ergibt jeweils zugeordnete Bildpunkte für die Objekte„Regentropfen" und„Hand" mit den tatsächlichen Bewegungsbahnen 2₂₃ für den Regentropfen 23 sowie 2₂₁ und 2₂₂ für die Hand 24. Die den zugeordneten Bildpunkten 13, 21 , 22 und den zugeordneten Bewegungsinkrementen 2₂₃ sowie 2₂₁, 2₂₂ zugewiesenen Bildpunktbewegungen können dann ausgewertet werden. Beim Ermitteln der Verteilungsdichte erfolgt - wie vorstehend erläutert - ein Erfassen ausgewählter Abschnitte der Erfassungsbilder 1 1, 12, die sich in den Erfassungsbildern 1 1, 12 unterscheiden. Im Bereich des Regentropfens 23 und im Bereich der Hand 24 erfolgt also ein höher aufgelöstes Bestimmen und Auswerten von Korrespondenzen der Bildbereiche. Beim Auswerten der Verteilungsdichte kommen Verfahren der Mittelwertbildung sowie statistische Verfahren zum Einsatz.

Die Bestimmung und Auswertung von Korrespondenzen kann natürlich anhand einer Abfolge von Einzelbildern größerer Anzahl, zum Beispiel anhand einer Abfolge von drei, vier, fünf, sechs, acht, zehn, fünfundzwanzig, fünfzig, hundert oder noch mehr Einzelbildern erfolgen.

Zum reinen Erkennen der Bewegungsbahn 2 ist kein Gestenmodell erforderlich.

Wie anhand des Beispiels„Regentropfen 23" und„Hand 24" schon demonstriert, ermöglicht das Erkennungsverfahren ein Erfassen der Bewegungsbahnen mehrerer unabhängiger Objekte. Hierbei kann es sich auch um mehr als zwei unabhängige Objekte handeln (beispielsweise um drei, vier, fünf, zehn oder noch mehr unabhängige Objekte).

Beim bildgebenden Erfassen des Erfassungsbereichs 4 kann ein vorgegebener Tiefenbereich T, also ein Bereich vorgegebener Entfernungen, innerhalb dem Objekte, also beispielsweise der Benutzer 3, erfasst werden sol- len, definiert werden. Als Tiefenbereich kann beispielsweise ein Entfernungsbereich vom Kamerasensor 5 zwischen 0,5 m und 3 m oder auch zwischen 1 m und 2,5 m vorgegeben werden. Auch eine tolerantere oder spezifischere Vorgabe eines Tiefenbereiches ist möglich. Die Definition des vorgegebenen Tiefenbereichs kann mittels eines Tiefensensors erfolgen. Hierbei können Techniken zum Einsatz kommen, die unter den Stichworten„Structured Light",„TOF" bekannt sind. Auch ein stereobildgebendes Verfahren mit zwei Kamerasensoren kann zur Definition des Tiefenbereiches zum Einsatz kommen. Hierzu kann auch ein Lichtfeld ge- nutzt werden oder es kann Ultraschall bzw. Radarstrahlung genutzt werden. Auch die Schärfentiefe der Vorsatzoptik 6 kann zur Definition des Tiefenbereichs T herangezogen werden. Hierbei können beispielsweise Autofo- kus-Techniken zum Einsatz kommen. Sobald mit Hilfe eines derartigen Verfahrens die Tiefe des erfassten Objekts 3, also dessen Abstand zum Kamerasensor 5 bekannt ist, lässt sich nach Erfassen der Bewegungsbahn 2 auch eine Geschwindigkeit des in seiner Bewegung erfassten Objektes messen und angeben.

Die Definition des Tiefenbereiches kann auch durch Einstellung einer Be- leuchtungs stärke einer Beleuchtung des Erfassungsbereiches mittels einer Lichtquelle 25 zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgen. Die Lichtquelle 25 steht über eine nicht näher dargestellte Signalverbindung mit dem Kamerasensor 5 und/oder dem Auswerterechner 8 in Signalverbindung. Alternativ oder zusätzlich zu einer Beleuchtungsstär- keneinstellung kann zur Definition des Tiefenbereiches auch eine zeitliche Variation eines Beleuchtungszeitraums bei der Beleuchtung mit der Lichtquelle 25 in Relation zur Belichtungszeit des Kamerasensors 5 bei der bildgebenden Erfassung genutzt werden. Das vorstehend erläuterte Bewegungsbahn-Erkennungsverfahren kann innerhalb eines Verfahrens zur Gestikerkennung genutzt werden.

Hierbei werden mehrere Modell-Bildpunktbewegungen bzw. Modell- Objektbewegungen als Steuerungssymbole bereitgestellt und diese Modell- Bildpunktbewegungen werden mit den Bildpunktbewegungen verglichen, die mit dem Bewegungsbahn-Erkennungsverfahren ausgewertet wurden. Anschließend wird diejenige Modell-Bildpunktbewegung als ausgewähltes Steuerungssymbol identifiziert, welche die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat. Schließlich wird eine dem ausgewählten Steuerungssymbol zugeordnete Steuerungsaktion durchgeführt. Bei diesem Gestikerkennungsverfahren können Techniken zum Einsatz kommen, die im Stand der Technik als„Template Matching" und„Inverse Kinematics" bekannt sind.

Die Modell-Bildpunktbewegungen können mindestens eines der folgenden Bewegungsmuster umfassen:

Bewegung über den Erfassungsbereich von links nach rechts;

- Bewegung über den Erfassungsbereich von rechts nach links;

Bewegung über den Erfassungsbereich von oben nach unten;

Bewegung über den Erfassungsbereich von unten nach oben;

Bewegung über den Erfassungsbereich in Herzform;

Bewegung über den Erfassungsbereich in Z-Form;

- Bewegung über den Erfassungsbereich in Kreisform;

Schließen einer offenen Hand zu einer Faust;

keine Bewegung. Die Steuerungsaktion kann die Vorgabe eines Eingabebereiches 26 innerhalb des gesamten Erfassungsbereiches 4 durch eine Bereichsvorgabe- Geste beinhalten. Diese Bereichsvorgabe-Geste kann beispielsweise durch eine Kreisform-Bewegung einer geöffneten oder geschlossenen Hand voll- führt werden. Die Person 3 kann hierdurch innerhalb des gesamten Erfassungsbereichs 4 den Eingabebereich 26 definieren, der anschließend vom Kamerasensor 5 hochauflösend erfasst wird. Hierzu kann die Vorsatzoptik 6 beispielsweise als Zoom-Optik ausgeführt sein. In dem dann definierten Eingabebereich 26 können dann weitere, detailliertere Eingaben erfolgen. Innerhalb des Erfassungsbereiches 26 kann beispielsweise durch eine entsprechende Projektionstechnik mit Hilfe eines Projektionsmoduls bzw. einer Projektoreinrichtung 27 ein Eingaberaster projiziert werden, beispielsweise eine Tastaturbelegung. Der Nutzer kann dann eine in den Erfassungsbereich 4 mit der Projektoreinrichtung 27 projizierte Tastatur bedie- nen, was wiederum vom Kamerasensor 5 erfasst, erkannt und ausgewertet wird.

Die Gestikerkennung und nachfolgende Gestensteuerung kann insbesondere ohne Unterscheidung von verschiedenen Trajektorien-Modellen für Symbol-Gesten funktionieren. Dies wird nachfolgend anhand eines weiteren Beispiels erläutert:

Aus der Folge von - wie vorstehend im Zusammenhang mit den Fig. 2 und 3 erläutert - bestimmten Bewegungsinkrementen wird eine kreisförmige Trajektorie erkannt. Diese kreisförmige Trajektorie dient als Kreis-Symbol zur Aktivierung der Gestensteuerung. Zur Aktivierung des Systems ist also ausschließlich eine Unterscheidung der Ergebniszustände„Kreis" oder „Nicht-Kreis" bei der Bewegungsinkrement- Verfolgung eines 2D-Vektor- Hauptschwarms erforderlich. Hierbei erfolgt eine Auswertung der Bewe- gungsinkremente mit anschließender Zuordnung zu einem der Ergebniszustände„Kreis" oder„Nicht-Kreis". Die zugehörige Kreis-Symbol-Geste stellt dann eine Entsperr-Geste („Point to Unlock") dar. Alle 2D-Vektoren in einer Umgebung der zweithöchsten Häufigkeit der Vektor- Verteilungsdichte beschreiben einen Vektorschwarm. Berechenbar sind hierbei die mittleren 2D-Vektorlängen sowie ein Mittelwert und eine Standardabweichung von Positionen der jeweiligen Schwarmvektoren im Folgebild. Die mittleren 2D-Vektorlängen beschreiben das Bewegungsin- krement. Der Mittelwert der Vektorpositionen beschreibt ein Zentrum des Schwarms. Die Positions-Standardabweichungen sind ein Maß für die Größe des Schwarms.

Der Mittelpunkt der erkannten Kreis-Trajektorie wird dann von der Gestik- Steuerung als polares Koordinatensystem im Erfassungsbild, aufweisend einen Mittelpunkt und einen Referenzradius, erfasst. Diesem polaren Koordinatensystem werden von der Gestensteuerung acht Sektoren zugeordnet, die - wie in der Kartografie - den Himmelsrichtungen N, NO, O, SO, S, SW, W und NW zugeordnet werden können.

Um den erfassten Referenzradius wird ein äußerer Begrenzungsring mit 1,5-fachem Referenzradius definiert.

Verlässt ein erfasster Schwarm-Mittelpunkt diesen Ring oder wird längere Zeit keine Schwarmbewegung erfasst, wird dies von der Gestensteuerung als Deaktivierung der Geste interpretiert. Wird eine Rotation des Schwarms innerhalb des Rings erfasst, kann dies bei Rotation beispielsweise im Uhrzeigersinn als Vergrößerung eines von der Bedienperson gewünschten Intensitätssignals und umgekehrt bei Erfassung einer Rotation des Schwarms entgegen dem Uhrzeigersinn als Verkleinerung des gewünschten Intensitäts-Signals interpretiert werden. Durch entsprechende Rotations-Gesten kann also beispielsweise eine Lautstärke eines über die die Gestensteuerung zu bedienenden Endgeräts gesteuert werden.

Abhängig davon, ob der Schwärm in einem bestimmten der acht Sektoren detektiert wird, kann ein bestimmtes Signal ausgelöst werden. Eine Verlagerung des Schwarms in bestimmte Sektoren kann dabei jeweils zugeordnete Signale auslösen. Durch Verlagern des Schwarms in ein bestimmtes Signal und Beibehalten dieser Position kann zum Beispiel ein Schaltsignal ausgelöst werden. Auf diese Weise kann eine Steuerungsbetätigung erfolgen, die derjenigen einer Touchpad-Bedienung nachempfunden ist.

Über die ursprüngliche, initialisierende Kreis-Symbol-Geste kann also eine Art Tastatur im Raum definiert werden, über die der Benutzer gewünschte Steuerungssignale auslösen kann. Jeder der vorstehend erläuterten Sektoren kann dann eine Taste dieser Tastatur darstellen.

Das Auslösen gewünschter Steuerungssignale nach erfolgter Kreis- Symbol-Initialisierung wird auch„Point to Control" genannt.

Bei der Gestikerkennung kann vor dem Vergleichsschritt eine Gesichtserkennung erfolgen, die eine Voraussetzung für die Durchführung der weiteren Schritte der Gestikerkennung ist. Abhängig vom Ergebnis der Ge- Sichtserkennung kann eine Auswahl der bereitgestellten Modell- Bildpunktbewegungen erfolgen. Hierdurch kann dem jeweils über die Gesichtserkennung erkannten Nutzer ein Profil an Modell- Bildpunktbewegungen zugeordnet werden. Es lassen sich also Nutzerprofile vorgeben.

Claims

Patentansprüche

1. Verfahren zur Erkennung einer Bewegungsbahn (2; 2j) mindestens eines bewegten Objektes (3; 23, 24) innerhalb eines Erfassungsbereiches (4) mit folgenden Schritten:

bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden ersten Erfassungsbildes (1 1) zu einem ersten Erfassungszeitpunkt,

bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden zweiten Erfassungsbildes (12) zu einem zweiten, um einen Verzögerungszeitraum späteren Erfassungszeitpunkt,

Bestimmen und Auswerten von Korrespondenzen von Bildbereichen (13 bis 22) der Erfassungsbilder (1 1 , 12) mit folgenden Schritten:

— Vergleichen der Erfassungsbilder (1 1 , 12),

— Ermitteln einer Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild (1 1 , 12) korrespondierenden Bildbereichen (13 bis 22),

— Auswerten der ermittelten Verteilungsdichte,

Zuordnen von mindestens einem Bildpunkt einer Bildpunktgruppe (23, 24) und/oder eines Bildbereiches (13 bis 22) mit zugehörigem Bewegungsinkrement (2₂₃; 2₂₁, 2₂₂) zwischen den Erfassungsbildern (1 1 , 12) aufgrund der ausgewerteten Verteilungsdichte, - Auswerten von dem zugeordneten Bildpunkt und seinem Bewegungsinkrement (2₂₃; 2₂₁, 2₂₂) zugewiesenen Bildpunktbewegungen. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass beim bildgebenden Erfassen des Erfassungsbereiches (4) ein vorgegebener Tiefenbereich (T), also ein Bereich vorgegebener Entfernungen, innerhalb dem Bildpunkte erfasst werden sollen, definiert wird.

Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass eine Definition des Tiefenbereiches (T) durch Einstellung einer Beleuchtungsstärke einer Beleuchtung des Erfassungsbereiches zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgt.

Verfahren zur Gestikerkennung unter Einsatz eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 3 mit folgenden weiteren Schritten:

Bereitstellen mehrerer Modell-Bildpunktbewegungen als Steuerungssymbole,

Vergleichen der mit dem Erkennungsverfahren ausgewerteten Bildpunktbewegungen mit den Modell-Bildpunktbewegungen, Identifizieren derjenigen Modell-Bildpunktbewegung, die die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat, als ausgewähltes Steuerungssymbol,

Durchführen einer dem ausgewählten Steuerungssymbol zugeordneten Steuerungsaktion.

Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Modell-Bildpunktbewegungen mindestens eine der folgenden Bewegungsmuster umfassen:

Bewegung über den Erfassungsbereich von links nach rechts;

Bewegung über den Erfassungsbereich von rechts nach links;

Bewegung über den Erfassungsbereich von oben nach unten; Bewegung über den Erfassungsbereich von unten nach oben;

Bewegung über den Erfassungsbereich in Herzform;

Bewegung über den Erfassungsbereich in Z-Form;

Bewegung über den Erfassungsbereich in Kreisform;

- Schließen einer offenen Hand zu einer Faust;

keine Bewegung.

6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die

Steuerungsaktion die Vorgabe eines Eingabebereichs (26) innerhalb des Erfassungsbereichs (4) durch eine Bereichsvorgabe-Geste beinhaltet.

7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass vor dem Vergleichen eine Gesichtserkennung erfolgt.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass abhängig vom Ergebnis der Gesichtserkennung eine Auswahl der bereitgestellten Modell-Bildpunktbewegungen erfolgt. 9. Vorrichtung (1) zur Durchführung eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 8

mit einem monokularen Kamerasensor (5),

mit einem Auswerterechner (8), der mit dem Kamerasensor (5) in

Signalverbindung (7) steht.

10. Vorrichtung nach Anspruch 9, gekennzeichnet durch eine Projektoreinrichtung (27).