WO2015110331A1 - Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens - Google Patents
Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens Download PDFInfo
- Publication number
- WO2015110331A1 WO2015110331A1 PCT/EP2015/050585 EP2015050585W WO2015110331A1 WO 2015110331 A1 WO2015110331 A1 WO 2015110331A1 EP 2015050585 W EP2015050585 W EP 2015050585W WO 2015110331 A1 WO2015110331 A1 WO 2015110331A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- detection
- movement
- detection area
- image
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Definitions
- the content of German Patent Application 10 2014 201 313.5 is incorporated herein by reference.
- the invention relates to a method for detecting a movement path of at least one moving object within a detection area. Furthermore, the invention relates to a method for gesture recognition using such a recognition method and an apparatus for carrying out such a recognition method or Gestikerken- recognition method.
- the invention described measures a distribution density of motion correspondences between parts of successive images.
- the essential information that is processed is a movement pattern, whereby the moving structure is only deduced in a next step.
- a pattern recognition for example a face recognition, which is performed on one and the same image is not required.
- the essential motion information is obtained by comparing successive images. For this purpose, motion correspondences are determined between image sections of two successive images. Correspondence is given when two parts of the picture are similar. In this preprocessing, correspondences are also permitted which do not correspond to the optical flow.
- distributions of correspondence vectors of different direction and length are produced for small image regions in each case, thus correspondence distribution profiles over the entire image. These correspondence distribution profiles are converted into a correspondence distribution density. The image flow then corresponds to the largest values of an ideal correspondence distribution density.
- the ideal correspondence distribution density of an optical flow ie a "clean" optical flow
- the preprocessing process can therefore be characterized as flow-oriented examination (flox), with which correspondence A subset of such correspondence distribution densities is the optical flux
- flox flow-oriented examination
- the distribution density will find a variety of other correspondences
- the distribution densities are checked for potential movements of compact regions
- Correspondences between similar pixels or image parts that are not images of the same object, eg correspondences between two adjacent file folders lead to a pseudo-movement that usually does not continue locally but remains local, comparable to the speedometer indicator on spinning tires, by comparing more than two capturing images taken in succession exclude such apparent movements.
- the concatenation of plausibilized motion increments then leads to a movement, which in turn is checked for a gesture.
- a suitable average of the coordinates of the common movement is used to represent the actual object.
- it is not the position of the object that determines the motion gesture, but the shape of the path, which in this case is identical for all common movements.
- the supreme of all pixels traversing a common path can also be selected and assigned. This is, for example, the fingertip of an upward pointing finger in the picture.
- the accuracy of the web has to be so good that it is possible to differentiate the web shapes assigned to the gestures.
- camera images can be cyclically loaded into an evaluation computer.
- the temporal distance of the pictures may vary, but must be known. From two successive images, a correspondence distribution density is determined from which movement increments are calculated per image pair. From the sequence of motion increments, motion sequences are filtered which can correspond to selected gesture movements. The number of incorrect correspondence distribution densities can be reduced by coarse distance knowledge, by suitable depth sensors or by sharpness adjustments of the camera or flash lighting, in order to increase the security with the recognition.
- no object shape detection When pixel mapping is done no object shape detection. It is checked where, in corresponding pixel groups or image areas, movements, in particular fast movements, with high density, ie movements of pixel groups with comparable movement increments, are detected. From a detected pixel group, the selection and assignment of a representative pixel takes place on the basis of previously defined criteria for the determined distribution density and the associated movement increments. For example, a minimum density of moving pixels can be specified and it can under the then preselected pixels which lie within the pixel groups with the minimum density, a selection is made after the largest movement increment. Alternatively, it is possible to preselect according to certain movement increments and, within a pixel group which has this movement increment, a pixel which is excellent in terms of its position can be selected within this pixel group.
- a prediction algorithm can simplify an assignment of a specific pixel. For this purpose, it is checked on the basis of, for example, three successive acquisition images, if the last captured acquisition image is a candidate pixel in an image area in which it can actually be expected according to its movement in the first two consecutively acquired acquisition images. Only pixels in which a predicted image area is reached then correspond to the prediction and thus fulfill this selection criterion. As far as several pixels remain after passing through these different selection criteria, a simple geometric selection can be made. For example, it is possible to select and assign an uppermost pixel which is present in the detection area among the selection candidates.
- the image areas may be individual pixels or pixel groups.
- the method steps are executed automatically and computer-aided.
- the procedure can be performed without operator intervention.
- the trajectory detection method can be run on a standard computer in real time.
- the trajectory recognition method also extracts movement increments from "dirty" flow distributions, in particular via a 2D frequency matrix, which will be described below.
- a depth range according to claim 2 can be carried out with the aid of a depth sensor.
- the depth of field of a front optics of the camera sensor can be used.
- Autofocus techniques can also be used for this purpose, which can be used in particular for contrast enhancement and thus for improving the result of a comparison of the acquisition images.
- the object speed can also be measured and specified for the object movement.
- the correspondence distribution density can be determined not only from objects in the distance of the expected object but also from objects less or further away from the sensor.
- coarse-resolution depth sensors based on structured light, time-of-flight or even stereoscopy, image parts can be identified that are not in the distance range and whose distribution densities are ignored.
- a depth sensor based on structured light is known, for example, from US Pat. No. 4,954,962.
- a depth sensor based on time-of-flight is known from EP 2 378 310 A1.
- Coarser resolutions offer, for example, ultrasonic sensors. Through a combination of some ultrasonic sensors, the directions of objects that are within the expected distance can be determined and other image areas can be discriminated.
- a depth-range defmition according to claim 3 provided the presence of an appropriately controllable light source, with high precision possible.
- a temporal variation of an illumination period at an exposure time in the imaging acquisition can also take place.
- IR filter placed in front of the camera and the surroundings are irradiated with limited IR light power, the range is limited and correspondence of underlying objects is no longer detected. If objects are very close, they are so strongly illuminated by the IR radiation that no contrasts are recognizable on them. This creates a depth range for measurable correspondences. If the IR radiation line and the exposure time are varied in a short time sequence, measurable depth ranges can be offset in such a way that only chains of movement increments can be made plausible by the objects that have remained throughout the measurable areas.
- Another distance-dependent effect is the depth of field.
- the depth of field is less than with low-foc lenses. Only in this area can correspondences be measured.
- the focal length in a short time sequence, the measurable depth range can be shifted so that only chains of Movement increments of the objects can be made plausible, which have remained throughout the measurable range.
- Gestures are created by the movement of body parts. Immediate measurement of motion does not require modeling, such as images of hands or joint models. If the movement of compact, for example, fist-sized, objects measured directly, can be dispensed with the modeling, for example, a hand pose or joint models. In a monocular camera system, the fist-sized object should tend to be moved transversely to the viewing direction of the sensor. Together with a suitable depth sensor, it is also possible to directly measure removal speeds to the sensor. In both cases, however, neither hand poses have to be trained or joint models with an essentially undisturbed environment must be taken into account.
- the derived gestures can be further plausibilized via the use of known methods such as inverse kinematics or template matching.
- the movement must have been triggered by a specific object-like grayscale distribution.
- fingers as well as artificial objects (gloves, markers) can serve as a basis.
- “Inverse Kinematics” movement predictions can be made and thus the correspondence density distribution can be evaluated in a more targeted manner.
- the correspondence density distribution can also be better evaluated through simplified, for example planar, motion models such as the model of constant speed.
- An inverse kinematics method is known from CA 2 21 1 858 C.
- a template matching method is known from EP 1 203 344 B 1 corresponding image acquisition, a circle symbol can be selected, which is generated by an open or closed hand of the user within a detection area by corresponding circular motion. About the imaging detection of such a circle symbol, a circle center and a circle radius of this circle symbol can be detected and stored, for example, in a memory of a control module. Subsequent symbols can then be detected as being relevant for the control, insofar as they occur within the circle area thus defined within the detection area, plus, if necessary, an additional surrounding area which can be preset via an enlarged tolerance radius around the center of the circle.
- Within the circular area can then be defined via the control various sub-areas, such as circular sectors, which are analogous to how keys of a keypad controlled by the user and can trigger various signals.
- a persistence in such a subrange or a defined change between predetermined subrange sequences can then be recognized as a signal for triggering a specific control sequence.
- Other gestures which can be recognized after the activation gesture "circle symbol" are, for example, a clockwise and counterclockwise rotating gesture, which can be processed, for example, to amplify or reduce a signal intensity comparable to, for example, a volume control.
- the gesture recognition method described here can also be used separately from the motion path recognition method explained above by using a corresponding control module and is an independent component of the application.
- a method known from the prior art may alternatively be used which deals with an optical flow, for example the so-called KLT tracker described in "Bruce D. Lucas and Takeo Kanade.” “Iterative Image Registration Technique with an Application to Stereo Vision.” IJCAI, pages 674-679, 1981.
- KLT tracker described in "Bruce D. Lucas and Takeo Kanade.” "Iterative Image Registration Technique with an Application to Stereo Vision.” IJCAI, pages 674-679, 1981.
- methods known in the context of codec implementations may be used.
- the Gestikerkennungsverfah- ren can be designed so that it runs on a standard computer in real time.
- Model pixel movements according to claim 5 result in a gesture set that can be used for a variety of control tasks.
- the specification of an input area with an area specification gesture according to claim 6 makes it possible to define a sub-area which can be detected, for example, with high resolution, within the detection area, which can be used for detailed input purposes.
- the Range Preset gesture may be a circular motion. You can then make further entries in the defined input area.
- Face recognition can identify a person in the environment of the movement. It can then be ensured that only certain people have access.
- the device may include a light source which is in signal communication with the camera sensor and / or the evaluation computer so that the light source, for example an exposure intensity or an exposure period, can be preset by the camera sensor and / or the evaluation computer by appropriate control.
- a light source which is in signal communication with the camera sensor and / or the evaluation computer so that the light source, for example an exposure intensity or an exposure period, can be preset by the camera sensor and / or the evaluation computer by appropriate control.
- an input field or a multiple input field can be used, for example, in a given input area.
- number of input fields for example in the form of a keyboard, can be generated by projection.
- the user can then trigger a defined control action or also make an input, for example a yes / no selection or a text input.
- FIG. 1 shows very schematically a device for carrying out a
- Figs. 2 and 3 are snapshots of the detection area reproducing detection images at two consecutive detection times.
- FIG. 1 shows schematically a device 1 for carrying out a detection method.
- a movement path 2 of at least one moving object 3 within a detection area 4, which is shown in dashed lines in FIG. 1 can be detected.
- the path of a moving hand of the object 3 is shown in FIG. 1 using the example of a gesticulating user.
- the device 1 has a monocular camera sensor 5, which is a high-resolution CCD camera or CMOS camera with an optical attachment 6, which is capable of a predetermined depth or a Depth range T of the detection area 4 with predetermined image sharpness to capture.
- a monocular camera sensor 5 which is a high-resolution CCD camera or CMOS camera with an optical attachment 6, which is capable of a predetermined depth or a Depth range T of the detection area 4 with predetermined image sharpness to capture.
- the camera sensor 5 is in signal connection with an evaluation computer 8.
- the latter is connected via a further signal line 9 with a device 10 to be controlled in signal connection.
- the evaluation computer 8 and the device 10 to be controlled can be one and the same unit.
- the device 10 to be controlled may be a type of tablet PC equipped with components 5 and 8 for gesture recognition.
- the device 10 to be controlled may also be an external device with respect to the evaluation computer 8, for example a TV set or another consumer electronics device.
- a home automation device, such as a lighting system or a shutter control or a heating system is an example of the device to be controlled 10th
- the detection area 4 is imaged by the camera sensor 5. In this case, an acquisition image reproducing the detection area 4 is generated in the camera sensor 5.
- the acquisition image 12 is generated by the camera sensor 5 by a delay period later than the acquisition image 1 1.
- the two acquisition images 1 1 and 12 are digitized in real time or quasi in real time and stored in the evaluation computer 8.
- the evaluation computer 8 a determination and evaluation of correspondences of image areas of the acquisition images 1 1, 12 then takes place.
- the acquisition images 1 1 and 12 in the evaluation computer 8 are compared with each other. It Then, a distribution density of image areas corresponding to their change in position in the acquisition image is determined.
- the delay period ie a time interval between the detection times of the acquisition images 11 and 12, can be variable.
- the delay period can be in the range between 10 ms and 1 s.
- image areas are exemplified by small squares 13 to 22. These image areas may be individual pixels or groups of pixels.
- the procedure is as follows, in particular using the evaluation computer 8: First, the first captured acquisition image 1 1 is split into overlapping image parts.
- the capture image 1 1 is a digital image that is formed overall as an A x B pixel array.
- the integer values A and B which represent the numbers of pixels in the respective rows and columns of the array, are in the range between 500 and 10,000, for example.
- the overlapping image parts are then C x D subpixel arrays.
- the integer value C is included is significantly smaller than the value A and the integer value D is significantly smaller than the value B.
- C and D may for example be in the range between 8 and 30.
- Adjacent image parts, ie adjacent subpixelarrays, have at least one pixel row or at least one pixel column in common.
- each of these image parts is assigned an image signature.
- this signature is a bit sequence which represents a brightness distribution and / or a color distribution within the image part.
- each image part is split into overlapping sub-image parts.
- the subpictures may be E x F sub-subpixel arrays.
- the integer values E and F are smaller than the values C and D of the subpixel arrays.
- E and F may be in the range of 3 to 7.
- a mean gray value is determined by appropriate evaluation of the brightness and / or color values of the associated pixels with the aid of the evaluation computer 8.
- a tolerance deviation ⁇ is specified.
- a difference is determined in each case between the determined average sub-image gray value and the average image part gray value. If the resulting difference is smaller than - ⁇ , the value 0 is assigned as the first sub-image signature value. If the difference lies between the values - ⁇ and ⁇ , the value 1 is assigned as the second sub-image signature value. If the difference is greater than + ⁇ , the value 2 is assigned as the third sub-image signature value.
- the partial image signature to be assigned to the respective image part is then the result of the assigned sub-image signature values. With the allocation method explained above, the respective image part signatures are determined for the two acquisition images 1 1 and 12. Subsequently, the image parts of the second capture image 12 are assigned to the image parts of the first capture image 1 1 with the same signature.
- 2D vectors which can be understood as raw motion increments.
- These 2D vectors connect image parts, that is to say, for example, the image regions 13 to 22 of the two capture images 11, 12 with the same image signature. Image parts without associated 2D vectors are then discarded, so that the further evaluation is limited exclusively to the assigned image parts.
- the 2D vectors in the environment in particular in a predefined pixel environment, are compared in each case of a remaining image part and the frequency of similar vectors in this environment is determined. The result of this frequency determination is the distribution density of the image areas corresponding to their positional change in the acquisition image.
- Motionless image parts have a vector length 0 in both dimensions and form a central element of the distribution density. Moving parts of the picture increase the frequency of discrete 2D vectors with a certain length and direction.
- the central element of the frequency distribution including 2D vectors with a length below a given limit length subsequently rejected.
- the camera is moving, it is alternatively possible to suppress 2D vectors which correspond to this movement within a predetermined tolerance range.
- a maximum frequency of a 2D vector swarm with calculation of center point and extent in the second acquisition image 12 is now selected. This may be the hand 24.
- the selection can then be continued for the next most frequent 2D vector swarm, ie for at least one subpopulation.
- One result of this subswath selection can be, for example, the raindrop 23.
- a linear prediction of the respective center of swarm in the next image for tracking this 2D vector swarm can then take place. This can improve the detection accuracy to suppress interference by swarms overlapping each other in individual detection images.
- FIG. 3 shows a typical (intermediate) result when evaluating the determined distribution density by a corresponding evaluation algorithm.
- the correspondence determination to the image areas 19 to 22 assigned to the hand 24 there have actually been True correspondences (movement of the image areas 21 and 22) and actually false correspondences (movement of the image areas 19 and 20) result.
- FIGS. 2 and 3 together with other image areas that can be assigned to the hand 24, which are not shown in FIGS. 2 and 3, there is an increased distribution density of image areas that correspond with the image areas 21 and 22 with respect to their positional change in the acquisition image 12.
- the result of the evaluation is an assignment of individual pixels from pixel groups evaluated with respect to their distribution density with associated motion increment between the acquisition images 1 1, 12 on the basis of the evaluated distribution density.
- the result of the evaluation of the acquisition images 1 1 and 12 results respectively assigned pixels for the objects "raindrops” and "hand” with the actual trajectories 2 23 for the raindrop 23 and 2 21 and 2 22 for the hand 24th
- the pixel movements assigned to the assigned pixels 13, 21, 22 and the associated movement increments 2 23 and 21 1, 2 22 can then be evaluated.
- determining the distribution density takes place - as explained above - detecting selected portions of the detection images 1 1, 12, which differ in the detection images 1 1, 12. In the region of the raindrop 23 and in the region of the hand 24, therefore, a higher-resolution determination and evaluation of correspondences of the image regions takes place.
- methods of averaging and statistical methods are used.
- the determination and evaluation of correspondences can, of course, be carried out on the basis of a sequence of individual images of a larger number, for example using a sequence of three, four, five, six, eight, ten, twenty-five, fifty, one hundred or even more individual images.
- the recognition method makes it possible to detect the trajectories of several independent objects. These can also be more than two independent objects (for example, three, four, five, ten, or even more independent objects).
- a predefined depth area T that is to say a range of predetermined distances, within which objects, that is to say, for example, the user 3, can be detected. len, be defined.
- a depth range for example, a distance range from the camera sensor 5 between 0.5 m and 3 m or between 1 m and 2.5 m can be specified. Also, a more tolerant or more specific specification of a depth range is possible.
- the definition of the predetermined depth range can be done by means of a depth sensor. This technique can be used, which are known under the keywords "Structured Light", "TOF".
- a stereo horrtaged Light "TOF”.
- a light field can also be used or ultrasound or radar radiation can be used.
- the depth of field of the optical attachment 6 can also be used to define the depth range T.
- autofocus techniques can be used. As soon as the depth of the detected object 3, ie its distance from the camera sensor 5, is known with the aid of such a method, it is also possible to measure and indicate a speed of the object detected in its movement after detection of the movement path 2.
- the definition of the depth range can also be achieved by setting a lighting intensity of an illumination of the detection area by means of a light source 25 at an exposure time during the imaging acquisition.
- the light source 25 is connected via a signal connection, not shown, with the camera sensor 5 and / or the evaluation computer 8 in signal connection.
- a temporal variation of an illumination period during illumination with the light source 25 in relation to the exposure time of the camera sensor 5 during the imaging acquisition can also be used to define the depth range.
- the above-described trajectory recognition method can be used within a method of gesture recognition.
- model pixel movements or model object movements are provided as control symbols, and these model pixel movements are compared with the pixel movements which were evaluated by the movement path recognition method. Subsequently, the model pixel movement is identified as a selected control symbol, which has the greatest agreement with the evaluated pixel movement. Finally, a control action associated with the selected control icon is performed.
- gesture recognition technique techniques known in the art as “template matching” and “inverse kinematics” may be used.
- the model pixel movements may include at least one of the following motion patterns:
- the control action may include predetermining an input area 26 within the entire detection area 4 by an area specification gesture.
- This range setting gesture may be performed, for example, by a circular motion of an open or closed hand.
- the person 3 can thereby define within the entire detection area 4 the input area 26, which is subsequently detected by the camera sensor 5 in high-resolution.
- the attachment optics 6 can be designed, for example, as a zoom lens.
- an input raster for example a keyboard layout
- the user can then operate a keyboard projected into the detection area 4 with the projector device 27, which in turn is detected, recognized and evaluated by the camera sensor 5.
- the gesture recognition and subsequent gesture control can in particular work without distinction from different trajectory models for symbol gestures. This will be explained below with reference to another example:
- the associated circle-symbol gesture then represents a "point to unlock" gesture
- All 2D vectors in a neighborhood of the second highest frequency of the vector distribution density describe a vector swarm, which can be calculated using the mean 2D vector lengths as well as a Mean value and a standard deviation of positions of the respective swarm vectors in the subsequent image
- the mean 2D vector lengths describe the movement increment
- the mean of the vector positions describes a center of the swarm
- the position standard deviations are a measure of the size of the swarm.
- the center of the detected circle trajectory is then detected by the gesture controller as a polar coordinate system in the acquisition image, having a center and a reference radius.
- This polar coordinate system is assigned by the gesture control eight sectors, which - as in the cartography - the cardinal directions N, NO, O, SO, S, SW, W and NW can be assigned.
- An outer boundary ring with a 1.5-fold reference radius is defined around the detected reference radius.
- the gesture control interprets this as deactivation of the gesture.
- this can be, for example, clockwise in rotation as an enlargement of an intensity signal desired by the operator and vice versa upon detection of a rotation of the swarm counterclockwise interpreted as a reduction of the desired intensity signal.
- a volume of a terminal to be operated via the gesture control can be controlled by corresponding rotational gestures.
- a specific signal can be triggered.
- a shift of the swarm into certain sectors can trigger associated signals. For example, by shifting the swarm to a particular signal and maintaining that position, a switching signal may be triggered. In this way, a control operation similar to that of a touchpad operation can be performed.
- the original, initializing circle-symbol gesture can therefore be used to define a type of keyboard in the room over which the user can trigger desired control signals.
- Each of the sectors discussed above may then represent a key of that keyboard.
- facial recognition may be performed prior to the comparison step, which is a prerequisite for performing the further steps of gesture recognition.
- a selection of the provided model pixel movements can take place.
- a profile of model pixel movements can be assigned to the user respectively recognized via the face recognition. So you can specify user profiles.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Bei einem Verfahren zur Erkennung einer Bewegungsbahn (223; 221, 222) mindestens eines bewegten Objektes (23, 24) innerhalb eines Erfassungsbereiches wird dieser zunächst bildgebend erfasst. Hierbei wird ein erstes Erfassungsbild (11) erzeugt, dass den Erfassungsbereich zu einem ersten Erfassungszeitpunkt wiedergibt. Um einen Verzögerungszeitraum später wird ein zweites Erfassungsbild (12) erzeugt, dass den Erfassungsbereich zu einem entsprechend späteren Erfassungszeitpunkt zeigt. Anschließend werden Korrespondenzen von Bildbereichen (13 bis 22) der Erfassungsbilder (12) bestimmt und ausgewertet. Hierzu werden die Erfassungsbilder (12) verglichen, es wird eine Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild (12) korrespondierenden Bildbereichen (13 bis 23) ermittelt und die ermittelte Verteilungsdichte wird ausgewertet. Es werden dann Bildpunkte (23, 24) mit zugehörigem Bewegungsinkrement (223; 221, 222) zwischen den Erfassungsbildern (12) aufgrund der ausgewerteten Verteilungsdichte zugeordnet. Hieran schließt sich eine Bildpunktbewegungsauswertung an. Dieses Verfahren sowie ein dieses nutzende Gestikerkennungsverfahren können mit einfachen optischen Mitteln realisiert werden.
Description
Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches, Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens sowie Vorrichtung zur Durchführung eines derartigen Erken- nungsverfahrens
Der Inhalt der deutschen Patentanmeldung 10 2014 201 313.5 wird durch Bezugnahme hierin aufgenommen. Die Erfindung betrifft ein Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches. Ferner betrifft die Erfindung ein Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens und eine Vorrichtung zur Durchführung eines derartigen Erkennungsverfahrens bzw. Gestikerken- nungsverfahrens.
Verfahren und Vorrichtungen zur Objekterkennung sind bekannt aus der WO 2012/095 258 AI und der WO 2013/020 872 AI . Der Fachartikel„A Probabilistic Framework for Matching Temporal Trajectories:
CONDENSATION-Based ecognition of Gestures and Expressions" von Black et al. in H. Burckhardt, B. Neumann (Eds.): Computer Vision - ECCV '98, Vol I, LNCS 1406, pp. 909-924, 1998, © Springer- Verlag Berlin Heidelberg 1998, beschreibt eine Verwendung lokal gerasteter Vektoren, über die Trajektorien einer Mundbewegung erkannt werden sollen.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Erkennungsverfahren mit einfachen optischen Mitteln zu ermöglichen.
Diese Aufgabe ist erfmdungsgemäß gelöst durch ein Erkennungsverfahren mit den im Anspruch 1 angegebenen Merkmalen.
Die beschriebene Erfindung misst eine Verteilungsdichte von Bewegungs- Korrespondenzen zwischen Teilen aufeinanderfolgender Bilder.
Die wesentliche Information, die verarbeitet wird, ist ein Bewegungsmuster, wobei erst in einem nächsten Schritt auf die bewegte Struktur rückgeschlossen wird. Zur Durchführung des Verfahrens ist eine Mustererken- nung, beispielsweise eine Gesichtserkennung, die an ein und demselben Bild durchgeführt wird, nicht erforderlich. Die wesentlichen Bewegungsinformationen werden durch Vergleich aufeinanderfolgender Bilder gewonnen. Dazu werden zwischen Bildausschnitten von zwei aufeinanderfolgenden Bildern Bewegungs-Korrespondenzen ermittelt. Eine Korrespondenz ist gegeben, wenn sich zwei Bildausschnitte ähneln. Bei dieser Vorverarbeitung werden auch Korrespondenzen zugelassen, die nicht dem optischen Fluss entsprechen. Mit dem Verfahren entstehen jeweils für kleine Bildre- gionen Verteilungen von Korrespondenzvektoren unterschiedlicher Richtung und Länge, somit über das gesamte Bild Korrespondenzverteilungsverläufe. Diese Korrespondenzverteilungsverläufe werden in eine Korrespondenzverteilungsdichte umgerechnet. Der Bildfluss entspricht dann den größten Werten einer idealen Korrespondenzverteilungsdichte. Durch Messfehler, Bildwiederholungen und Messlücken wird die ideale Korrespondenzverteilungsdichte eines optischen Flusses, also ein„sauberer" optischer Fluss", in der Regel nicht erreicht. Das Vorverarbeitungsverfahren kann deshalb als fluss-orientierte Untersuchung (flow-oriented- examination, flox) charakterisiert werden, mit dem auch Korrespondenz-
verteilungsdichten ausgewertet werden könne, die von der idealen Korrespondenzverteilungsdichte eines optischen Flusses abweichen („unsaubere" Flussverteilungen). Eine Teilmenge solcher Korrespondenzverteilungsdichten ist der optische Fluss. Durch Zuordnungsfehler wird die Verteilungsdichte eine Vielzahl weiterer Korrespondenzen finden. Die Verteilungsdichten werden auf potentielle Bewegungen kompakter Regionen überprüft und Bewegungsinkremente abgeleitet. Aus einer Folge von Bewegungsinkrementen werden Objektbewegungen verkettet und plausibilisiert. Korrespondenzen zwischen ähnlichen Bildpunkten bzw. Bildteilen, die nicht Abbildungen desselben Objektes sind, z.B. Korrespondenzen zwischen zwei benachbarten Aktenordnern, führen zu einer Scheinbewegung, die sich in der Regel örtlich nicht fortsetzt, sondern lokal bleibt, vergleichbar mit der Tachoanzeige bei durchdrehenden Reifen. Durch Vergleich von mehr als zwei Erfassungsbildern, die nacheinander aufgenommen werden, lassen sich derartige Scheinbewegungen ausschließen. Die Verkettung plausibilisierter Bewegungsinkremente führt dann zu einer Bewegung, die ihrerseits auf eine Geste hin überprüft wird.
Sollen Objekte im Nahbereich vermessen werden, wie z.B. Finger direkt vor der Kamera die in einer Brille eingebaut ist, werden mehrere Bildbereiche zu einer ähnlichen, also gemeinsamen Bewegung führen. In diesem Fall wird ein geeigneter Mittelwert der Koordinaten der gemeinsamen Be- wegung zur Repräsentation des eigentlichen Objektes verwendet. In der Regel ist nicht die Position des Objektes maßgebend für die Bewegungsgeste, sondern die Form der Bahn, die in diesem Fall für alle gemeinsamen Bewegungen identisch ist.
Neben einem Mittelwert kann auch der Oberste aller eine gemeinsame Bahn durchlaufenden Bildpunkte ausgewählt und zugeordnet werden. Das ist z.B. die Fingerspitze eines nach oben zeigenden Fingers im Bild. Die Genauigkeit der Bahn muss dabei nur so gut sein, dass die den Gesten zugeordneten Bahnformen unterschieden werden können.
Beim bildgebenden Erfassen können Kamerabilder zyklisch in einen Auswerterechner geladen werden.
Der zeitliche Abstand der Bilder darf variieren, muss aber bekannt sein. Aus zwei aufeinanderfolgenden Bildern wird eine Korrespondenzverteilungsdichte ermittelt, aus der pro Bildpaar Bewegungsinkremente errechnet werden. Aus der Folge von Bewegungsinkrementen werden Bewegungsse- quenzen gefiltert, die ausgewählten Gestenbewegungen entsprechen können. Die Anzahl fehlerhafter Korrespondenzverteilungsdichten können durch grobes Entfernungswissen, durch geeignete Tiefensensoren oder durch Schärfe-Einstellungen der Kamera oder Blitzbeleuchtung reduziert werden, um die Sicherheit bei der Erkennung zu erhöhen.
Bei der Bildpunkt-Zuordnung erfolgt keine Objektform-Erkennung. Es wird überprüft, wo in korrespondierenden Bildpunktgruppen bzw. Bildbereichen Bewegungen, insbesondere schnelle Bewegungen, mit hoher Dichte, also Bewegungen von Bildpunktgruppen mit vergleichbaren Bewe- gungsinkrementen, detektiert. Aus einer detektierten Bildpunktgruppe erfolgt die Auswahl und Zuordnung eines repräsentativen Bildpunktes aufgrund von vorher festgelegten Kriterien für die ermittelte Verteilungsdichte und die zugehörigen Bewegungsinkremente. Es kann beispielsweise eine Mindestdichte von bewegten Bildpunkten vorgegeben werden und es kann
unter den dann vorselektierten Bildpunkten, die innerhalb der Bildpunktgruppen mit der Mindestdichte liegen, eine Selektion nach dem größten Bewegungsinkrement vorgenommen werden. Alternativ kann nach bestimmten Bewegungsinkrementen vorselektiert werden und es kann inner- halb einer Bildpunktgruppe, die dieses Bewegungsinkrement aufweist, ein hinsichtlich seiner Lage ausgezeichneter Bildpunkt innerhalb dieser Bildpunktgruppe ausgewählt werden. Bei der Auswahl bzw. Zuordnung des Bildpunktes durch Auswertung der ermittelten Verteilungsdichte kann ein Vorhersage-Algorithmus eine Zuordnung eines spezifischen Bildpunktes vereinfachen. Hierzu wird anhand von beispielsweise drei aufeinanderfolgenden Erfassungsbildern überprüft, ob beim zuletzt aufgenommen Erfassungsbild ein Kandidaten-Bildpunkt in einem Bildbereich vorliegt, in dem er entsprechend seiner Bewegung in den ersten beiden nacheinander aufgenommenen Erfassungsbildern tatsächlich zu erwarten ist. Nur Bildpunkte, bei denen ein vorhergesagter Bildbereich erreicht wird, entsprechen dann der Vorhersage und erfüllen somit dieses Auswahlkriterium. Soweit nach Durchlaufen dieser verschiedenen Auswahlkriterien immer noch mehrere Bildpunkte verbleiben, kann eine einfache geometrische Auswahl erfolgen. Es kann beispielsweise ein oberster Bildpunkt ausgewählt und zugeordnet werden, der im Erfassungsbereich unter den Auswahlkandidaten vorliegt. Bei den Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln.
Beim vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren wer- den die Verfahrensschritte automatisch und rechnergestützt abgearbeitet. Das Verfahren kann ohne Bedienereingriff durchgeführt werden. Das Bewegungsbahn-Erkennungsverfahren kann auf einem Standardrechner in Echtzeit ablaufen.
Das Bewegungsbahn-Erkennungsverfahren extrahiert Bewegungsinkremente auch aus„unsauberen" Flussverteilungen, insbesondere über eine 2D-Häufigkeitsmatrix, die nachfolgend noch beschrieben wird.
Die Definition eines Tiefenbereiches nach Anspruch 2 kann mit Hilfe eines Tiefensensors erfolgen. Hierzu kann auch die Schärfentiefe einer Vorsatzoptik des Kamerasensors genutzt werden. Auch Autofokus-Techniken können hierfür genutzt werden, was insbesondere zur Kontrastverstärkung und damit zur Verbesserung des Ergebnisses eines Vergleichs der Erfassungsbilder genutzt werden kann. Sobald eine Tiefe eines Objektes, dessen Bewegungsbahn erkannt wurde, bekannt ist, lassen sich zur Objektbewegung auch die Objektgeschwindigkeit messen und angeben.
Die Korrespondenzverteilungsdichte kann entsprechend nicht nur von Objekten in der Entfernung des erwarteten Objektes ermittelt werden, sondern auch von weniger oder weiter von dem Sensor entfernten Objekten. Mit auch grob auflösenden Tiefensensoren, auf Basis von strukturiertem Licht, Time-of-Flight oder auch Stereoskopie können Bildteile identifiziert werden, die nicht im Entfernungsbereich liegen und deren Verteilungsdichten ignoriert werden. Ein Tiefensensor auf Basis von strukturiertem Licht (Structured Light) ist beispielsweise bekannt aus der US 4,954,962. Ein Tiefensensor auf Basis„Time-of-Flight" ist bekannt aus der EP 2 378 310 AI .
Gröbere Auflösungen bieten zum Beispiel Ultraschallsensoren. Durch eine Kombination von einigen Ultraschallsensoren können die Richtungen von Objekten, die in der erwarteten Entfernung liegen, ermittelt werden und andere Bildbereiche diskriminiert werden.
Entfernungsinformationen geben auch sogenannte Lichtfeld-Sensoren.
Kann in bestimmten Bildbereichen keine Schärfe für die gewünschte Entfernung errechnet werden, werden auch diese diskriminiert. Eine Tiefenbereichs-Defmition nach Anspruch 3 ist, das Vorhandensein einer entsprechend ansteuerbaren Lichtquelle vorausgesetzt, mit hoher Präzision möglich. Alternativ oder zusätzlich kann zur Definition des Tiefenbereichs auch eine zeitliche Variation eines Beleuchtungszeitraums zu einem Belichtungszeitpunkt bei der bildgebenden Erfassung erfolgen.
Neben den direkten Tiefensensoren können also auch weitere entfernungsabhängige Effekte genutzt werden. Wird ein IR-Filter vor die Kamera gesetzt und die Umgebung mit begrenzter IR-Lichtleistung bestrahlt, ist die Reichweite begrenzt und Korrespondenzen dahinterliegender Objekte wer- den nicht mehr erfasst. Sind Objekte sehr nah, werden sie von der IR- Strahlung so stark angestrahlt, dass auf ihnen keine Kontraste mehr erkennbar sind. Es entsteht somit ein Tiefenbereich für messbare Korrespondenzen. Werden in kurzer zeitlicher Abfolge die IR-Strahlungsleitung und die Belichtungszeit variiert, können messbare Tiefenbereiche so versetzt werden, dass nur Ketten von Bewegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig in den messbaren Bereichen geblieben sind.
Ein weiterer entfernungsabhängiger Effekt ist die Schärfentiefe. Für licht- starke Objektive ist die Schärfentiefe geringer als bei lichtschwachen Objektiven. Nur in diesem Bereich können Korrespondenzen gemessen werden. Über in kurzer zeitlicher Abfolge variierte Brennweite kann der messbare Tiefenbereich so versetzt werden, dass auch hier nur Ketten von Be-
wegungsinkrementen von den Objekten plausibilisiert werden können, die durchgängig im messbaren Bereich geblieben sind.
Die Kombination der beiden entfernungsabhängigen Effekte auch zusam- men mit ihrer zeitlichen Variation führt zu dem gewünschten Effekt der Einschränkung des messbaren Bereiches. Es können also auch Kombinationen aus Schärfentiefe und/oder Beleuchtungsstärke und/oder Beleuchtungsdauer zur Tiefenbereichs-Defmition herangezogen werden. Die Vorteile eines Gestikerkennungsverfahrens nach Anspruch 4 entsprechen denen, die vorstehend unter Bezugnahme auf das Bewegungsbahn- Erkennungsverfahren bereits erläutert wurden.
Gesten entstehen durch die Bewegung von Körperteilen. Die unmittelbare Messung der Bewegung benötigt keine Modellierung wie Abbildungen von Händen oder Gelenkmodellen. Wird die Bewegung von kompakten, zum Beispiel faustgroßen, Objekten unmittelbar gemessen, kann auf die Modellierung zum Beispiel einer Handpose oder auf Gelenkmodelle verzichtet werden. Bei einem monokularen Kamerasystem sollte das faustgroße Ob- jekt tendenziell quer zur Blickrichtung des Sensors bewegt werden. Zusammen mit einem geeigneten Tiefensensor können auch unmittelbar Entfernungsgeschwindigkeiten zum Sensor gemessen werden. In beiden Fällen müssen aber weder Handposen trainiert oder Gelenkmodelle mit einer im Wesentlichen ungestörten Umgebung berücksichtigt werden. Außerdem wird das Verhältnis Objektgröße zu Erfassungsbereich wegen der geringeren Anforderungen an Texturinformationen an das Objekt deutlich kleiner, so dass viele unabhängige Objekte in einem großen Volumen vermessen werden können.
Die abgeleiteten Gesten können über die Verwendung von bekannten Verfahren wie„Inverse Kinematics" oder„Template Matching" weiter plausi- bilisiert werden. Die Bewegung muss von einer bestimmten Objektähnlichen Grauwerte -Verteilung ausgelöst worden sein. Eine Hand, Finger wie auch künstliche Objekte (Handschuhe, Marker) können als Basis dienen. Mit„Inverse Kinematics" können Bewegungsvorhersagen getroffen werden und damit die Korrespondenzdichteverteilung gezielter ausgewertet werden. Durch vereinfachte, zum Beispiel planare, Bewegungsmodelle wie das Modell konstanter Geschwindigkeit kann die Korrespondenzdichtever- teilung ebenfalls besser ausgewertet werden.
Ein„Inverse Kinematics"- Verfahren ist bekannt aus der CA 2 21 1 858 C. Ein„Template Matching"- Verfahren ist bekannt aus der EP 1 203 344 B 1. Als eine Gestikerkennung bzw. eine Gestensteuerung aktivierende Geste kann, insbesondere über eine entsprechende Bilderfassung, ein Kreis- Symbol ausgewählt werden, das von einer offenen oder geschlossenen Hand des Benutzers innerhalb eines Erfassungsbereiches durch entsprechende Kreisbewegung erzeugt wird. Über die bildgebende Erfassung eines solchen Kreis-Symbols kann ein Kreismittelpunkt sowie ein Kreisradius dieses Kreis-Symbols erfasst und, beispielsweise in einem Speicher eines Steuerungsmoduls, abgelegt werden. Nachfolgende Symbole können dann als für die Steuerung relevant erfasst werden, sofern sie innerhalb des so definierten Kreisbereiches innerhalb des Erfassungsbereiches geschehen, ggf. zuzüglich eines zusätzlich Umgebungsbereiches, der über einen vergrößerten Toleranzradius um den Kreismittelpunkt vorgegeben werden kann.
Innerhalb des Kreisbereichs können dann über die Steuerung verschiedene Unterbereiche, beispielsweise Kreissektoren definiert werden, die analog wie Tasten eines Tastaturfeldes vom Benutzer angesteuert werden und verschiedene Signale auslösen können. Ein Verharren in einem solchen Un- terbereich oder ein definierter Wechsel zwischen vorgegebenen Unterbereichs-Abfolgen kann dann als Signal zur Auslösung einer bestimmten Steuerfolge erkannt werden. Weitere Gesten, die nach der Aktivierungsgeste„Kreis- Symbol" erkannt werden können, sind beispielsweise eine im Uhrzeigersinn und eine entgegen dem Uhrzeigersinn rotierende Geste, die beispielsweise zur Verstärkung oder Verringerung einer Signalintensität, vergleichbar beispielsweise zu einem Lautstärkeregler, verarbeitet werden können.
Das hier beschriebene Gestikerkennungsverfahren kann durch Einsatz ei- nes entsprechenden Steuermoduls auch losgelöst vom vorstehend erläuterten Bewegungsbahn-Erkennungsverfahren genutzt werden und ist eigenständiger Bestandteil der Anmeldung. Zur Bewegungsbahn-Erkennung kann dann alternativ auch ein aus dem Stand der Technik bekanntes Verfahren zum Einsatz kommen, welches sich mit einem optischen Fluss be- schäftigt, zum Beispiel der sogenannte KLT-Tracker, beschrieben in„Bruce D. Lucas and Takeo Kanade."„An Iterative Image Registration Tech- nique with an Application to Stereo Vision." IJCAI, pages 674-679, 1981. Auch Verfahren, die im Zusammenhang mit Codec-Implementierungen bekannt sind, können zum Einsatz kommen. Das Gestikerkennungsverfah- ren kann so ausgeführt sein, dass es auf einem Standardrechner in Echtzeit abläuft.
Modell-Bildpunktbewegungen nach Anspruch 5 ergeben einen Gestensatz, der für vielfältige Steuerungsaufgaben genutzt werden kann.
Die Vorgabe eines Eingabebereiches mit einer Bereichsvorgabe-Geste nach Anspruch 6 ermöglicht die Definition eines beispielsweise hochauflösend erfassbaren Unterbereiches innerhalb des Erfassungsbereiches, was zu de- taillierten Eingabezwecken genutzt werden kann. Bei der Bereichsvorgabe- Geste kann es sich um eine Kreisform-Bewegung handeln. In dem definierten Eingabebereich können dann weitere Eingaben erfolgen.
Durch eine Gesichtserkennung nach Anspruch 7 kann eine Freigabe der Gestikerkennung erfolgen. Eine Gesichtserkennung kann in der Umgebung der Bewegung eine Person identifizieren. Es kann dann sichergestellt werden, dass nur bestimmte Personen Zugriff haben.
Durch eine Auswahl bereitgestellter Modell-Bildpunktbewegungen nach Anspruch 8 ist die Vorgabe eines Nutzerpro fils möglich.
Die Vorteile einer Vorrichtung nach Anspruch 9 entsprechen denen, die vorstehend im Zusammenhang mit dem Bewegungsbahn- Erkennungsverfahren und dem Gestikerkennungsverfahren bereits erläutert wurden.
Zur Vorrichtung kann eine Lichtquelle gehören, die mit dem Kamerasensor und/oder dem Auswerterechner in Signalverbindung steht, sodass die Lichtquelle, beispielsweise eine Belichtungsstärke oder ein Belichtungs- Zeitraum, vom Kamerasensor und/oder vom Auswerterechner durch entsprechende Ansteuerung vorgegeben werden kann.
Mit Hilfe einer Projektoreinrichtung nach Anspruch 10 kann beispielsweise in einem vorgegebenen Eingabebereich ein Eingabefeld oder eine Mehr-
zahl von Eingabefeldern, beispielsweise in Form einer Tastatur, durch Projektion erzeugt werden. Durch Betätigung des mindestens einen, projizierten Eingabefeldes kann der Benutzer dann eine definierte Steuerungsaktion auslösen oder auch eine Eingabe, beispielsweise eine Ja/Nein-Auswahl oder eine Texteingabe vornehmen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. In dieser zeigen: Fig. 1 stark schematisch eine Vorrichtung zur Durchführung eines
Verfahrens zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches als Teil eines Gestikerkennungsverfahrens; Fig. 2 und 3 Momentaufnahmen von den Erfassungsbereich wiedergebenden Erfassungsbildern zu zwei aufeinanderfolgenden Erfassungszeitpunkten.
Fig. 1 zeigt schematisch eine Vorrichtung 1 zur Durchführung eines Er- kennungsverfahrens. Mit der Vorrichtung kann eine Bewegungsbahn 2 mindestens eines bewegten Objektes 3 innerhalb eines Erfassungsbereiches 4, der in der Fig. 1 gestrichelt dargestellt ist, erkannt werden. Als Beispiel für die Bewegungsbahn 2 ist in der Fig. 1 die Bahn einer bewegten Hand des Objektes 3 am Beispiel eines gestikulierenden Benutzers dargestellt.
Die Vorrichtung 1 hat einen monokularen Kamerasensor 5, bei dem es sich um eine hochauflösende CCD-Kamera oder CMOS-Kamera mit einer Vorsatzoptik 6 handelt, die in der Lage ist, eine vorgegebene Tiefe bzw. einen
Tiefenbereich T des Erfassungsbereiches 4 mit vorgegebener Abbildungsschärfe zu erfassen.
Über eine Signalleitung 7 steht der Kamerasensor 5 mit einem Auswerte- rechner 8 in Signalverbindung. Letzterer steht über eine weitere Signalleitung 9 mit einem zu steuernden Gerät 10 in Signalverbindung. Alternativ kann es sich beim Auswerterechner 8 und dem zu steuernden Gerät 10 um ein und dieselbe Einheit handeln. Bei dem zu steuernden Gerät 10 kann es sich um eine Art Tablet-PC, ausgerüstet mit den Komponenten 5 und 8 zur Gestikerkennung handeln. Alternativ kann es sich bei dem zu steuernden Gerät 10 auch um ein in Bezug auf den Auswerterechner 8 externes Gerät handeln, beispielsweise um ein TV-Gerät oder um ein sonstiges Gerät der Unterhaltungselektronik. Auch ein haustechnisches Gerät, beispielsweise eine Lichtanlage oder eine Rolladensteuerung oder eine Heizanlage ist ein Beispiel für das anzusteuernde Gerät 10.
Zum Erkennen der Bewegungsbahn 2 wird der Erfassungsbereich 4 mit dem Kamerasensor 5 bildgebend erfasst. Hierbei wird ein den Erfassungsbereich 4 wiedergebendes Erfassungsbild im Kamerasensor 5 erzeugt.
Fig. 2 und 3 zeigen beispielhaft zwei derartige Erfassungsbilder 1 1 und 12 zu den Zeitpunkten t = 0 und t = 1 , wobei beispielhaft willkürliche Zeiteinheiten verwendet werden. Das Erfassungsbild 12 ist um einen Verzögerungszeitraum später vom Kamerasensor 5 erzeugt als das Erfassungsbild 1 1. Die beiden Erfassungsbilder 1 1 und 12 werden in Echtzeit oder quasi in Echtzeit digitalisiert und im Auswerterechner 8 hinterlegt. Im Auswerterechner 8 findet dann ein Bestimmen und Auswerten von Korrespondenzen von Bildbereichen der Erfassungsbilder 1 1, 12 statt. Hierzu werden die Erfassungsbilder 1 1 und 12 im Auswerterechner 8 miteinander verglichen. Es
wird sodann eine Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereichen ermittelt.
Der Verzögerungszeitraum, also ein zeitlicher Abstand zwischen den Er- fassungszeitpunkten der Erfassungsbilder 1 1 und 12 kann variierbar sein. Der Verzögerungszeitraum kann im Bereich zwischen 10 ms und 1 s liegen.
In den Fig. 2 und 3 sind derartige Bildbereiche durch kleine Quadrate 13 bis 22 beispielhaft dargestellt. Bei diesen Bildbereichen kann es sich um einzelne Bildpunkte oder um Bildpunktgruppen handeln.
Die Erfassungsbilder 1 1 und 12 zeigen als Bildpunktgruppen, die erfasste Objekte repräsentieren, beispielhaft einen Regentropfen 23, der beispiels- weise auf einer Kameralinse des Kamerasensors 5 vorliegen kann, sowie eine Hand 24 des Benutzers 3. Sowohl der Regentropfen 23 als auch die Hand 24 haben sich zwischen den beiden Erfassungszeitpunkten t = 0 und t = 1 der Erfassungsbilder 1 1 und 12 bewegt. Beim Bestimmen und Auswerten von Korrespondenzen insbesondere der Bildbereiche 13 bis 22 der Erfassungsbilder 1 1 und 12 wird unter Nutzung insbesondere des Auswerterechners 8 folgendermaßen vorgegangen: Zunächst wird das erste aufgenommene Erfassungsbild 1 1 in überlappende Bildteile aufgeteilt. Bei dem Erfassungsbild 1 1 handelt es sich um ein Digi- talbild, das insgesamt als A x B-Pixelarray ausgebildet ist. Die ganzzahligen Werte A und B, die die Anzahlen der Pixel in den jeweiligen Zeilen und Spalten des Arrays wiedergeben, liegen dabei beispielsweise im Bereich zwischen 500 und 10000. Bei den überlappenden Bildteilen handelt es sich dann um C x D-Teilpixelarrays. Der ganzzahlige Wert C ist dabei
deutlich kleiner als der Wert A und der ganzzahlige Wert D ist deutlich kleiner ist als der Wert B. C und D können beispielsweise im Bereich zwischen 8 und 30 liegen. Benachbarte Bildteile, also benachbarte Teilpixelar- rays haben mindestens eine Pixelreihe bzw. mindestens eine Pixelspalte gemeinsam.
Nach dem Aufteilen in überlappende Bildteile wird jeden dieser Bildteile eine Bildsignatur zugeordnet. Bei dieser Signatur handelt es sich beispielsweise um eine Bitfolge, die eine Helligkeitsverteilung und/oder eine Farbverteilung innerhalb des Bildteiles repräsentiert. Zur Bildsignatur- Ermittlung und zur Bildsignatur- Zuordnung wird jedes Bildteil in überlappende Unter-Bildteile aufgeteilt. Bei den Unter-Bildteilen kann es sich um E x F-Unter-Teilpixelarrays handeln. Die ganzzahligen Werte E und F sind kleiner als die Werte C und D der Teilpixelarrays. E und F können bei- spielsweise im Bereich zwischen 3 und 7 liegen. Zum jeweiligen Bildteil und zu jedem Unter-Bildteil dieses Bildteils wird durch entsprechende Auswertung der Helligkeit- und/oder Farbwerte der zugehörigen Pixel mit- hilfe des Auswerterechners 8, beispielsweise ein mittlerer Grauwert bestimmt. Zudem wird eine Toleranzabweichung ε vorgegeben. Es wird nun eine Differenz jeweils des bestimmten mittleren Unter-Bildteil-Grauwerts zum mittleren Bildteil-Grauwert bestimmt. Soweit die sich ergebende Differenz kleiner ist als -ε, wird als erster Unter-Bildteilsignaturwert der Wert 0 vergeben. Soweit die Differenz zwischen den Werten -ε und ε liegt, wird als zweiter Unter-Bildteilsignaturwert der Wert 1 vergeben. Soweit die Dif- ferenz größer ist als +ε, wird als dritter Unter-Bildteilsignaturwert der Wert 2 vergeben. Die dem jeweiligen Bildteil zuzuordnende Bildteilsignatur ist dann die Folge der vergebenen Unter-Bildteilsignaturwerte.
Mit dem vorstehend erläuterten Zuordnungsverfahren werden für die beiden Erfassungsbilder 1 1 und 12 die jeweiligen Bildteilsignaturen bestimmt. Anschließend werden die Bildteile des zweiten Erfassungsbildes 12 den Bildteilen des ersten Erfassungsbildes 1 1 mit der gleichen Signatur zuge- ordnet. Es ergeben sich durch diese Zuordnung 2D-Vektoren, die als Roh- Bewegungsinkremente verstanden werden können. Diese 2D-Vektoren verbinden Bildteile, also beispielsweise die Bildbereiche 13 bis 22, der beiden Erfassungsbilder 1 1, 12 mit gleicher Bildteilsignatur. Bildteile ohne zugeordnete 2D-Vektoren werden anschließend verworfen, so dass die weitere Auswertung ausschließlich auf die zugeordneten Bildteile beschränkt ist. Es werden nun die 2D- Vektoren in der Umgebung, insbesondere in einer vordefinierten Pixelumgebung, jeweils eines verbleibenden Bildteils verglichen und die Häufigkeit ähnlicher Vektoren in die- ser Umgebung bestimmt. Das Ergebnis dieser Häufigkeitsbestimmung ist die Verteilungsdichte der hinsichtlich ihrer Lageveränderung im Erfassungsbild korrespondierenden Bildbereiche.
Diejenigen 2D-Vektoren, deren Verteilungsdichte unterhalb eines vorgege- benen Grenzwerts liegt, werden anschließend verworfen.
Es wird nun eine 2D-Häufigkeitsverteilung aller verbleibender 2D- Vektoren, also eine 2D-Häufigkeitsmatrix, berechnet. Bewegungslose Bildteile haben eine Vektorlänge 0 in beiden Dimensionen und bilden ein zentrales Element der Verteilungsdichte. Bewegte Bildteile erhöhen die Häufigkeit diskreter 2D-Vektoren mit bestimmter Länge und Richtung.
Das zentrale Element der Häufigkeitsverteilung einschließlich 2D- Vektoren mit einer Länge unterhalb einer vorgegebenen Grenzlänge wer-
den anschließend verworfen. Bei stehender Kamera ergibt dies also eine Hintergrundunterdrückung. Bei bewegter Kamera kann alternativ eine Unterdrückung von 2D-Vektoren erfolgen, die dieser Bewegung innerhalb eines vorgegebenen Toleranzbereichs entsprechen.
Es wird nun eine größte Häufigkeit eines 2D-Vektorschwarms mit Berechnung von Mittelpunkt und Ausdehnung im zweiten Erfassungsbild 12 ausgewählt. Hierbei kann es sich um die Hand 24 handeln. Die Auswahl kann dann für den nächsthäufigen 2D-Vektorschwarm, also für mindestens einen Nebenschwarm, fortgesetzt werden. Ein Ergebnis dieser Nebenschwarm- Auswahl kann beispielsweise der Regentropfen 23 sein.
Für weitere Erfassungsbilder kann dann eine lineare Vorhersage des jeweiligen Schwarmmittelpunktes im nächsten Bild zur Verfolgung dieses 2D- Vektorschwarms geschehen. Dies kann zur Unterdrückung einer Störung durch in einzelnen Erfassungsbildern einander überlappende Schwärme die Erfassungsgenauigkeit verbessern.
Beim Ermitteln der Verteilungsdichte durch Vergleich der Erfassungsbilder 1 1 und 12 ergibt sich zum Beispiel, dass im Bereich des Regentropfens 23 praktisch sämtliche Bildpunkte längs einer vergleichbaren Bewegungsbahn 223 verlaufen, was in der Fig. 3 anhand der Bewegung des obersten Bildbereiches 13 veranschaulicht ist. Hierbei ist die Position des Bildbereiches 13 zum Erfassungszeitpunkt t = 0 in der Fig. 3 gestrichelt dargestellt.
Die Fig. 3 zeigt ein typisches (Zwischen-)Ergebnis beim Auswerten der ermittelten Verteilungsdichte durch einen entsprechenden Auswertealgorithmus. Beispielsweise bei der Korrespondenzbestimmung zu den der Hand 24 zugeordneten Bildbereichen 19 bis 22 haben sich tatsächlich rieh-
tige Korrespondenzen (Bewegung der Bildbereiche 21 und 22) sowie tatsächlich falsche Korrespondenzen (Bewegung der Bildbereiche 19 und 20) ergeben. Zusammen mit anderen, der Hand 24 zuordenbaren Bildbereichen, die in den Fig. 2 und 3 nicht dargestellt sind, ergibt sich eine erhöhte Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild 12 mit den Bildbereichen 21 und 22 korrespondierenden Bildbereichen.
Dargestellt sind weiterhin nicht körperlich als Objekte wiedergegebene weitere erfasste Bildpunktgruppen in den Erfassungsbildern 1 1 und 12 durch zugehörige Bildbereiche 14 bis 18 sowie die sich bei der Auswertung der Verteilungsdichte ergebenden korrespondierenden Bildbereiche 14 bis 18 nach dem Verzögerungszeitraum, also zum Zeitpunkt t = 1 (vgl. Fig. 3). Aus den sich ergebenden Bewegungsbahnen bzw. Bewegungsinkrementen 2j (i = 13 bis 22) der Bildbereiche 13 bis 22 kann bei der Auswertung der jeweils zugehörigen ermittelten Verteilungsdichte der Bildbereiche darauf geschlossen werden, ob die sich ergebenden Bewegungsbahnen 2j real sein können oder nicht. Ergebnis des Auswertens ist ein Zuordnen einzelner Bildpunkte aus hinsichtlich ihrer Verteilungsdichte ausgewerteten Bildpunktgruppen mit zugehörigem Bewegungsinkrement zwischen den Erfassungsbildern 1 1, 12 aufgrund der ausgewerteten Verteilungsdichte. Das Ergebnis der Auswertung der Erfassungsbilder 1 1 und 12 ergibt jeweils zugeordnete Bildpunkte für die Objekte„Regentropfen" und„Hand" mit den tatsächlichen Bewegungsbahnen 223 für den Regentropfen 23 sowie 221 und 222 für die Hand 24.
Die den zugeordneten Bildpunkten 13, 21 , 22 und den zugeordneten Bewegungsinkrementen 223 sowie 221, 222 zugewiesenen Bildpunktbewegungen können dann ausgewertet werden. Beim Ermitteln der Verteilungsdichte erfolgt - wie vorstehend erläutert - ein Erfassen ausgewählter Abschnitte der Erfassungsbilder 1 1, 12, die sich in den Erfassungsbildern 1 1, 12 unterscheiden. Im Bereich des Regentropfens 23 und im Bereich der Hand 24 erfolgt also ein höher aufgelöstes Bestimmen und Auswerten von Korrespondenzen der Bildbereiche. Beim Auswerten der Verteilungsdichte kommen Verfahren der Mittelwertbildung sowie statistische Verfahren zum Einsatz.
Die Bestimmung und Auswertung von Korrespondenzen kann natürlich anhand einer Abfolge von Einzelbildern größerer Anzahl, zum Beispiel anhand einer Abfolge von drei, vier, fünf, sechs, acht, zehn, fünfundzwanzig, fünfzig, hundert oder noch mehr Einzelbildern erfolgen.
Zum reinen Erkennen der Bewegungsbahn 2 ist kein Gestenmodell erforderlich.
Wie anhand des Beispiels„Regentropfen 23" und„Hand 24" schon demonstriert, ermöglicht das Erkennungsverfahren ein Erfassen der Bewegungsbahnen mehrerer unabhängiger Objekte. Hierbei kann es sich auch um mehr als zwei unabhängige Objekte handeln (beispielsweise um drei, vier, fünf, zehn oder noch mehr unabhängige Objekte).
Beim bildgebenden Erfassen des Erfassungsbereichs 4 kann ein vorgegebener Tiefenbereich T, also ein Bereich vorgegebener Entfernungen, innerhalb dem Objekte, also beispielsweise der Benutzer 3, erfasst werden sol-
len, definiert werden. Als Tiefenbereich kann beispielsweise ein Entfernungsbereich vom Kamerasensor 5 zwischen 0,5 m und 3 m oder auch zwischen 1 m und 2,5 m vorgegeben werden. Auch eine tolerantere oder spezifischere Vorgabe eines Tiefenbereiches ist möglich. Die Definition des vorgegebenen Tiefenbereichs kann mittels eines Tiefensensors erfolgen. Hierbei können Techniken zum Einsatz kommen, die unter den Stichworten„Structured Light",„TOF" bekannt sind. Auch ein stereobildgebendes Verfahren mit zwei Kamerasensoren kann zur Definition des Tiefenbereiches zum Einsatz kommen. Hierzu kann auch ein Lichtfeld ge- nutzt werden oder es kann Ultraschall bzw. Radarstrahlung genutzt werden. Auch die Schärfentiefe der Vorsatzoptik 6 kann zur Definition des Tiefenbereichs T herangezogen werden. Hierbei können beispielsweise Autofo- kus-Techniken zum Einsatz kommen. Sobald mit Hilfe eines derartigen Verfahrens die Tiefe des erfassten Objekts 3, also dessen Abstand zum Kamerasensor 5 bekannt ist, lässt sich nach Erfassen der Bewegungsbahn 2 auch eine Geschwindigkeit des in seiner Bewegung erfassten Objektes messen und angeben.
Die Definition des Tiefenbereiches kann auch durch Einstellung einer Be- leuchtungs stärke einer Beleuchtung des Erfassungsbereiches mittels einer Lichtquelle 25 zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgen. Die Lichtquelle 25 steht über eine nicht näher dargestellte Signalverbindung mit dem Kamerasensor 5 und/oder dem Auswerterechner 8 in Signalverbindung. Alternativ oder zusätzlich zu einer Beleuchtungsstär- keneinstellung kann zur Definition des Tiefenbereiches auch eine zeitliche Variation eines Beleuchtungszeitraums bei der Beleuchtung mit der Lichtquelle 25 in Relation zur Belichtungszeit des Kamerasensors 5 bei der bildgebenden Erfassung genutzt werden.
Das vorstehend erläuterte Bewegungsbahn-Erkennungsverfahren kann innerhalb eines Verfahrens zur Gestikerkennung genutzt werden.
Hierbei werden mehrere Modell-Bildpunktbewegungen bzw. Modell- Objektbewegungen als Steuerungssymbole bereitgestellt und diese Modell- Bildpunktbewegungen werden mit den Bildpunktbewegungen verglichen, die mit dem Bewegungsbahn-Erkennungsverfahren ausgewertet wurden. Anschließend wird diejenige Modell-Bildpunktbewegung als ausgewähltes Steuerungssymbol identifiziert, welche die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat. Schließlich wird eine dem ausgewählten Steuerungssymbol zugeordnete Steuerungsaktion durchgeführt. Bei diesem Gestikerkennungsverfahren können Techniken zum Einsatz kommen, die im Stand der Technik als„Template Matching" und„Inverse Kinematics" bekannt sind.
Die Modell-Bildpunktbewegungen können mindestens eines der folgenden Bewegungsmuster umfassen:
Bewegung über den Erfassungsbereich von links nach rechts;
- Bewegung über den Erfassungsbereich von rechts nach links;
Bewegung über den Erfassungsbereich von oben nach unten;
Bewegung über den Erfassungsbereich von unten nach oben;
Bewegung über den Erfassungsbereich in Herzform;
Bewegung über den Erfassungsbereich in Z-Form;
- Bewegung über den Erfassungsbereich in Kreisform;
Schließen einer offenen Hand zu einer Faust;
keine Bewegung.
Die Steuerungsaktion kann die Vorgabe eines Eingabebereiches 26 innerhalb des gesamten Erfassungsbereiches 4 durch eine Bereichsvorgabe- Geste beinhalten. Diese Bereichsvorgabe-Geste kann beispielsweise durch eine Kreisform-Bewegung einer geöffneten oder geschlossenen Hand voll- führt werden. Die Person 3 kann hierdurch innerhalb des gesamten Erfassungsbereichs 4 den Eingabebereich 26 definieren, der anschließend vom Kamerasensor 5 hochauflösend erfasst wird. Hierzu kann die Vorsatzoptik 6 beispielsweise als Zoom-Optik ausgeführt sein. In dem dann definierten Eingabebereich 26 können dann weitere, detailliertere Eingaben erfolgen. Innerhalb des Erfassungsbereiches 26 kann beispielsweise durch eine entsprechende Projektionstechnik mit Hilfe eines Projektionsmoduls bzw. einer Projektoreinrichtung 27 ein Eingaberaster projiziert werden, beispielsweise eine Tastaturbelegung. Der Nutzer kann dann eine in den Erfassungsbereich 4 mit der Projektoreinrichtung 27 projizierte Tastatur bedie- nen, was wiederum vom Kamerasensor 5 erfasst, erkannt und ausgewertet wird.
Die Gestikerkennung und nachfolgende Gestensteuerung kann insbesondere ohne Unterscheidung von verschiedenen Trajektorien-Modellen für Symbol-Gesten funktionieren. Dies wird nachfolgend anhand eines weiteren Beispiels erläutert:
Aus der Folge von - wie vorstehend im Zusammenhang mit den Fig. 2 und 3 erläutert - bestimmten Bewegungsinkrementen wird eine kreisförmige Trajektorie erkannt. Diese kreisförmige Trajektorie dient als Kreis-Symbol zur Aktivierung der Gestensteuerung. Zur Aktivierung des Systems ist also ausschließlich eine Unterscheidung der Ergebniszustände„Kreis" oder „Nicht-Kreis" bei der Bewegungsinkrement- Verfolgung eines 2D-Vektor- Hauptschwarms erforderlich. Hierbei erfolgt eine Auswertung der Bewe-
gungsinkremente mit anschließender Zuordnung zu einem der Ergebniszustände„Kreis" oder„Nicht-Kreis". Die zugehörige Kreis-Symbol-Geste stellt dann eine Entsperr-Geste („Point to Unlock") dar. Alle 2D-Vektoren in einer Umgebung der zweithöchsten Häufigkeit der Vektor- Verteilungsdichte beschreiben einen Vektorschwarm. Berechenbar sind hierbei die mittleren 2D-Vektorlängen sowie ein Mittelwert und eine Standardabweichung von Positionen der jeweiligen Schwarmvektoren im Folgebild. Die mittleren 2D-Vektorlängen beschreiben das Bewegungsin- krement. Der Mittelwert der Vektorpositionen beschreibt ein Zentrum des Schwarms. Die Positions-Standardabweichungen sind ein Maß für die Größe des Schwarms.
Der Mittelpunkt der erkannten Kreis-Trajektorie wird dann von der Gestik- Steuerung als polares Koordinatensystem im Erfassungsbild, aufweisend einen Mittelpunkt und einen Referenzradius, erfasst. Diesem polaren Koordinatensystem werden von der Gestensteuerung acht Sektoren zugeordnet, die - wie in der Kartografie - den Himmelsrichtungen N, NO, O, SO, S, SW, W und NW zugeordnet werden können.
Um den erfassten Referenzradius wird ein äußerer Begrenzungsring mit 1,5-fachem Referenzradius definiert.
Verlässt ein erfasster Schwarm-Mittelpunkt diesen Ring oder wird längere Zeit keine Schwarmbewegung erfasst, wird dies von der Gestensteuerung als Deaktivierung der Geste interpretiert. Wird eine Rotation des Schwarms innerhalb des Rings erfasst, kann dies bei Rotation beispielsweise im Uhrzeigersinn als Vergrößerung eines von der Bedienperson gewünschten Intensitätssignals und umgekehrt bei Erfassung einer Rotation des Schwarms
entgegen dem Uhrzeigersinn als Verkleinerung des gewünschten Intensitäts-Signals interpretiert werden. Durch entsprechende Rotations-Gesten kann also beispielsweise eine Lautstärke eines über die die Gestensteuerung zu bedienenden Endgeräts gesteuert werden.
Abhängig davon, ob der Schwärm in einem bestimmten der acht Sektoren detektiert wird, kann ein bestimmtes Signal ausgelöst werden. Eine Verlagerung des Schwarms in bestimmte Sektoren kann dabei jeweils zugeordnete Signale auslösen. Durch Verlagern des Schwarms in ein bestimmtes Signal und Beibehalten dieser Position kann zum Beispiel ein Schaltsignal ausgelöst werden. Auf diese Weise kann eine Steuerungsbetätigung erfolgen, die derjenigen einer Touchpad-Bedienung nachempfunden ist.
Über die ursprüngliche, initialisierende Kreis-Symbol-Geste kann also eine Art Tastatur im Raum definiert werden, über die der Benutzer gewünschte Steuerungssignale auslösen kann. Jeder der vorstehend erläuterten Sektoren kann dann eine Taste dieser Tastatur darstellen.
Das Auslösen gewünschter Steuerungssignale nach erfolgter Kreis- Symbol-Initialisierung wird auch„Point to Control" genannt.
Bei der Gestikerkennung kann vor dem Vergleichsschritt eine Gesichtserkennung erfolgen, die eine Voraussetzung für die Durchführung der weiteren Schritte der Gestikerkennung ist. Abhängig vom Ergebnis der Ge- Sichtserkennung kann eine Auswahl der bereitgestellten Modell- Bildpunktbewegungen erfolgen. Hierdurch kann dem jeweils über die Gesichtserkennung erkannten Nutzer ein Profil an Modell- Bildpunktbewegungen zugeordnet werden. Es lassen sich also Nutzerprofile vorgeben.
Claims
Patentansprüche
1. Verfahren zur Erkennung einer Bewegungsbahn (2; 2j) mindestens eines bewegten Objektes (3; 23, 24) innerhalb eines Erfassungsbereiches (4) mit folgenden Schritten:
bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden ersten Erfassungsbildes (1 1) zu einem ersten Erfassungszeitpunkt,
bildgebendes Erfassen des Erfassungsbereiches (4) und Erzeugen eines den Erfassungsbereich (4) wiedergebenden zweiten Erfassungsbildes (12) zu einem zweiten, um einen Verzögerungszeitraum späteren Erfassungszeitpunkt,
Bestimmen und Auswerten von Korrespondenzen von Bildbereichen (13 bis 22) der Erfassungsbilder (1 1 , 12) mit folgenden Schritten:
— Vergleichen der Erfassungsbilder (1 1 , 12),
— Ermitteln einer Verteilungsdichte von hinsichtlich ihrer Lageveränderung im Erfassungsbild (1 1 , 12) korrespondierenden Bildbereichen (13 bis 22),
— Auswerten der ermittelten Verteilungsdichte,
Zuordnen von mindestens einem Bildpunkt einer Bildpunktgruppe (23, 24) und/oder eines Bildbereiches (13 bis 22) mit zugehörigem Bewegungsinkrement (223; 221, 222) zwischen den Erfassungsbildern (1 1 , 12) aufgrund der ausgewerteten Verteilungsdichte, - Auswerten von dem zugeordneten Bildpunkt und seinem Bewegungsinkrement (223; 221, 222) zugewiesenen Bildpunktbewegungen.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass beim bildgebenden Erfassen des Erfassungsbereiches (4) ein vorgegebener Tiefenbereich (T), also ein Bereich vorgegebener Entfernungen, innerhalb dem Bildpunkte erfasst werden sollen, definiert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass eine Definition des Tiefenbereiches (T) durch Einstellung einer Beleuchtungsstärke einer Beleuchtung des Erfassungsbereiches zu einer Belichtungszeit bei der bildgebenden Erfassung erfolgt.
Verfahren zur Gestikerkennung unter Einsatz eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 3 mit folgenden weiteren Schritten:
Bereitstellen mehrerer Modell-Bildpunktbewegungen als Steuerungssymbole,
Vergleichen der mit dem Erkennungsverfahren ausgewerteten Bildpunktbewegungen mit den Modell-Bildpunktbewegungen, Identifizieren derjenigen Modell-Bildpunktbewegung, die die größte Übereinstimmung mit der ausgewerteten Bildpunktbewegung hat, als ausgewähltes Steuerungssymbol,
Durchführen einer dem ausgewählten Steuerungssymbol zugeordneten Steuerungsaktion.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Modell-Bildpunktbewegungen mindestens eine der folgenden Bewegungsmuster umfassen:
Bewegung über den Erfassungsbereich von links nach rechts;
Bewegung über den Erfassungsbereich von rechts nach links;
Bewegung über den Erfassungsbereich von oben nach unten;
Bewegung über den Erfassungsbereich von unten nach oben;
Bewegung über den Erfassungsbereich in Herzform;
Bewegung über den Erfassungsbereich in Z-Form;
Bewegung über den Erfassungsbereich in Kreisform;
- Schließen einer offenen Hand zu einer Faust;
keine Bewegung.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die
Steuerungsaktion die Vorgabe eines Eingabebereichs (26) innerhalb des Erfassungsbereichs (4) durch eine Bereichsvorgabe-Geste beinhaltet.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass vor dem Vergleichen eine Gesichtserkennung erfolgt.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass abhängig vom Ergebnis der Gesichtserkennung eine Auswahl der bereitgestellten Modell-Bildpunktbewegungen erfolgt. 9. Vorrichtung (1) zur Durchführung eines Erkennungsverfahrens nach einem der Ansprüche 1 bis 8
mit einem monokularen Kamerasensor (5),
mit einem Auswerterechner (8), der mit dem Kamerasensor (5) in
Signalverbindung (7) steht.
10. Vorrichtung nach Anspruch 9, gekennzeichnet durch eine Projektoreinrichtung (27).
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP15700309.6A EP3097511A1 (de) | 2014-01-24 | 2015-01-14 | Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102014201313.5A DE102014201313A1 (de) | 2014-01-24 | 2014-01-24 | Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches, Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens sowie Vorrichtung zur Durchführung eines derartigen Erkennungsverfahrens |
| DE102014201313.5 | 2014-01-24 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2015110331A1 true WO2015110331A1 (de) | 2015-07-30 |
Family
ID=52347334
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2015/050585 Ceased WO2015110331A1 (de) | 2014-01-24 | 2015-01-14 | Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP3097511A1 (de) |
| DE (1) | DE102014201313A1 (de) |
| WO (1) | WO2015110331A1 (de) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3682371A1 (de) * | 2017-09-12 | 2020-07-22 | Robert Bosch GmbH | Verfahren und vorrichtung zum bewerten von bildern, betriebsassistenzverfahren und betriebsvorrichtung |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102016201704B4 (de) | 2016-02-04 | 2026-01-22 | Bayerische Motoren Werke Aktiengesellschaft | Gestenerkennungsvorrichtung und Verfahren zum Erkennen einer Geste eines Insassen eines Fahrzeuges |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030035583A1 (en) * | 2001-05-17 | 2003-02-20 | Anna Pelagotti | Segmentation unit for and method of determining a second segment and image processing apparatus |
| US20100231522A1 (en) * | 2005-02-23 | 2010-09-16 | Zienon, Llc | Method and apparatus for data entry input |
| US20100271494A1 (en) * | 2009-04-23 | 2010-10-28 | Canon Kabushiki Kaisha | Motion vector detection apparatus, motion vector detection method, and image capturing apparatus |
| US20110299737A1 (en) * | 2010-06-04 | 2011-12-08 | Acer Incorporated | Vision-based hand movement recognition system and method thereof |
| US20120308144A1 (en) * | 2011-06-01 | 2012-12-06 | Sony Corporation | Image processing device, image processing method, recording medium, and program |
| EP2615525A2 (de) * | 2012-01-11 | 2013-07-17 | Biosense Webster (Israel), Ltd. | Berührungsloser Betrieb von Vorrichtungen durch Verwendung von Tiefensensoren |
| WO2013109609A2 (en) * | 2012-01-17 | 2013-07-25 | Leap Motion, Inc. | Enhanced contrast for object detection and characterization by optical imaging |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4954962A (en) | 1988-09-06 | 1990-09-04 | Transitions Research Corporation | Visual navigation and obstacle avoidance structured light system |
| US5889532A (en) | 1996-08-02 | 1999-03-30 | Avid Technology, Inc. | Control solutions for the resolution plane of inverse kinematic chains |
| US6681034B1 (en) | 1999-07-15 | 2004-01-20 | Precise Biometrics | Method and system for fingerprint template matching |
| EP2378310B1 (de) | 2010-04-15 | 2016-08-10 | Rockwell Automation Safety AG | Flugzeit-Kamerasystem und optisches Überwachungssystem |
| DE102011002577A1 (de) | 2011-01-12 | 2012-07-12 | 3Vi Gmbh | Fernsteuerungseinrichtung zur Steuerung einer Vorrichtung anhand eines beweglichen Objektes sowie Schnittstellen-Modul zur Kommunikation zwischen Modulen einer derartigen Fernsteuerungseinrichtung oder zwischen einem der Module und einer externen Vorrichtung |
| DE102011080702B3 (de) | 2011-08-09 | 2012-12-13 | 3Vi Gmbh | Objekterfassungsvorrichtung für ein Fahrzeug, Fahrzeug mit einer derartigen Objekterfassungsvorrichtung |
-
2014
- 2014-01-24 DE DE102014201313.5A patent/DE102014201313A1/de not_active Withdrawn
-
2015
- 2015-01-14 WO PCT/EP2015/050585 patent/WO2015110331A1/de not_active Ceased
- 2015-01-14 EP EP15700309.6A patent/EP3097511A1/de not_active Withdrawn
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030035583A1 (en) * | 2001-05-17 | 2003-02-20 | Anna Pelagotti | Segmentation unit for and method of determining a second segment and image processing apparatus |
| US20100231522A1 (en) * | 2005-02-23 | 2010-09-16 | Zienon, Llc | Method and apparatus for data entry input |
| US20100271494A1 (en) * | 2009-04-23 | 2010-10-28 | Canon Kabushiki Kaisha | Motion vector detection apparatus, motion vector detection method, and image capturing apparatus |
| US20110299737A1 (en) * | 2010-06-04 | 2011-12-08 | Acer Incorporated | Vision-based hand movement recognition system and method thereof |
| US20120308144A1 (en) * | 2011-06-01 | 2012-12-06 | Sony Corporation | Image processing device, image processing method, recording medium, and program |
| EP2615525A2 (de) * | 2012-01-11 | 2013-07-17 | Biosense Webster (Israel), Ltd. | Berührungsloser Betrieb von Vorrichtungen durch Verwendung von Tiefensensoren |
| WO2013109609A2 (en) * | 2012-01-17 | 2013-07-25 | Leap Motion, Inc. | Enhanced contrast for object detection and characterization by optical imaging |
| DE112013000590T5 (de) * | 2012-01-17 | 2014-11-06 | Leap Motion, Inc. | Verbesserter Konstrast zur Objekterfassung und Charaktersierung durch optisches Abbilden |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3682371A1 (de) * | 2017-09-12 | 2020-07-22 | Robert Bosch GmbH | Verfahren und vorrichtung zum bewerten von bildern, betriebsassistenzverfahren und betriebsvorrichtung |
| US11443521B2 (en) | 2017-09-12 | 2022-09-13 | Robert Bosch Gmbh | Method and device for evaluating images, operational assistance method and operating device |
| EP3682371B1 (de) * | 2017-09-12 | 2026-01-07 | Robert Bosch GmbH | Verfahren und vorrichtung zum bewerten von bildern, betriebsassistenzverfahren und betriebsvorrichtung |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3097511A1 (de) | 2016-11-30 |
| DE102014201313A1 (de) | 2015-07-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69626208T2 (de) | Verfahren und System zur Erkennung von Handgesten | |
| DE102010007455B4 (de) | System und Verfahren zum berührungslosen Erfassen und Erkennen von Gesten in einem dreidimensionalen Raum | |
| EP2344980B1 (de) | Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts | |
| WO2007107315A1 (de) | Multisensorieller hypothesen-basierter objektdetektor und objektverfolger | |
| DE102018133188A1 (de) | Abstandbestimmung einer probenebene in einem mikroskopsystem | |
| WO2018234250A1 (de) | Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste | |
| DE102008016215A1 (de) | Informationsvorrichtungsbediengerät | |
| DE10241392A1 (de) | Vorrichtung und Verfahren zum Erfassen einer dreidimensionalen Relativbewegung | |
| DE102007013664A1 (de) | Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger | |
| EP3857304A2 (de) | Verfahren zum fokussieren einer kamera | |
| WO2023194009A1 (de) | Verfahren zur prädiktion von trajektorien von objekten | |
| DE102014106661B4 (de) | Schalterbetätigungseinrichtung, mobiles Gerät und Verfahren zum Betätigen eines Schalters durch eine nicht-taktile Translationsgeste | |
| WO2015110331A1 (de) | Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens | |
| EP3642697B1 (de) | Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste | |
| DE102013217347A1 (de) | Benutzeroberfläche zur parametereinstellung für kantenmessungs- videowerkzeuge | |
| WO2020043440A1 (de) | Richtungsschätzung einer freiraumgeste | |
| DE102021111706A1 (de) | Verfahren, Messgerät und Computerprogrammprodukt | |
| EP4526842B1 (de) | Verfahren zum steuern einer robotervorrichtung | |
| EP3663800B1 (de) | Verfahren zur objekterfassung mit einer 3d-kamera | |
| DE10210926A1 (de) | Vorrichtung zur Verfolgung wenigstens eines Objekts in einer Szene | |
| DE102009031804A1 (de) | Verfahren zur Objekterkennung und Objektverfolgung | |
| DE102014224632A1 (de) | Verfahren zum Betreiben einer Eingabevorrichtung, Eingabevorrichtung | |
| EP3224955B1 (de) | Schalterbetätigungseinrichtung, mobiles gerät und verfahren zum betätigen eines schalters durch eine nicht-taktile geste | |
| EP3798969A1 (de) | Verfahren zur verarbeitung von tiefenbildern, bildverarbeitungsvorrichtung und tiefenkamera | |
| WO2019121729A1 (de) | Verfahren zum bestimmen von entfernungsinformation aus einer abbildung eines raumbereichs |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15700309 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| REEP | Request for entry into the european phase |
Ref document number: 2015700309 Country of ref document: EP |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2015700309 Country of ref document: EP |