WO2019042728A2 - Erfassen von verkehrsteilnehmern auf einem verkehrsweg - Google Patents
Erfassen von verkehrsteilnehmern auf einem verkehrsweg Download PDFInfo
- Publication number
- WO2019042728A2 WO2019042728A2 PCT/EP2018/071494 EP2018071494W WO2019042728A2 WO 2019042728 A2 WO2019042728 A2 WO 2019042728A2 EP 2018071494 W EP2018071494 W EP 2018071494W WO 2019042728 A2 WO2019042728 A2 WO 2019042728A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- road users
- traffic route
- traffic
- image
- object detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0108—Measuring and analyzing of parameters relative to traffic conditions based on the source of data
- G08G1/0116—Measuring and analyzing of parameters relative to traffic conditions based on the source of data from roadside infrastructure, e.g. beacons
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/017—Detecting movement of traffic to be counted or controlled identifying vehicles
- G08G1/0175—Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/04—Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Definitions
- the invention relates to a method for detecting road users on a traffic route in a map provided by a camera taking the image, the method generating a plurality of area proposals for possible objects, which in of the map by applying a scoped generator to the map, providing object detection for all scoped proposals by applying an object scouting device to all scoped proposals to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and outputting of detection data received from the object detection for the detected traffic route and / or the detected road users.
- the invention also relates to a device for detecting road users on a traffic route in an image, wherein the device comprises at least one camera that records the image of the traffic route, and a device that is configured to provide a plurality of range proposals for possible objects, the in the figure, by applying a range suggestion generator to the mapping, to provide object detection for all range suggestions to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and to output detection data obtained from the object detection received for the detected traffic route and / or the detected road users.
- the invention also relates to a method of providing traffic guidance comprising detecting traffic participants on a traffic route in a sequence of successive images provided by a camera comprising the sequence of images of the traffic route, determining a used capacity of the traffic route provided by the road users, identifying individual actual speed and / or position of each of the road users to determine respective individual actual tracks, determining at least one respective nominal track for each of the road users, and communicating the specific nominal lanes to the respective road users.
- the invention also relates to a traffic guidance system for providing traffic guidance comprising at least one device for detecting traffic participants on a traffic route in a sequence of successive images, and a device configured to detect traffic participants on the traffic route in the sequence of successive images to determine a used capacity of the traffic route provided by the road users, to identify individual actual speed and / or position of each of the road users, to determine respective individual actual tracks, to determine at least one respective nominal track for each of the road users, and certain nominal lanes to the respective road users to communicate.
- the invention also relates to a computer program product having a program for a processing device.
- the invention thus relates to the use of data from at least one camera, in particular video data in an outdoor environment for traffic monitoring.
- a more efficient approach is based on providing adaptive time windows for each lane of the road based on real-time traffic density data through advanced communication systems of a corresponding set of sensor technology for observing the traffic scenario.
- the concept of autonomous vehicles allows the application of overall road control devices that interact directly with the individual vehicles and identify the most efficient and safest navigation path in both urban traffic scenarios and Allow heavy traffic hubs.
- the service road and intersection control device may provide at least navigation information about optimal lane and stripe selection along with the most useful speed recommendations.
- the conventional traffic control system is based on stop panels, traffic lights or the insertion of recessed loop detectors for vehicle detection and automatic
- traditional systems employ intersection control mechanisms that usually assign equal or preprogrammed time slots for each intersection lane, with the temporal switchover pattern being limited to establishing uniform vehicle flows for man-driven non-automated automobiles.
- the invention proposes methods, devices and computer program products according to the independent claims.
- the invention teaches providing the range suggestions prior to the step of providing object detection, wherein filtering is performed based on respective filter data based on a relevance of the range suggestions the road user and / or the traffic route.
- the invention in connection with a respective generic device for detecting traffic participants on a traffic route in a sequence of consecutive maps, the invention teaches that the device is further configured to provide area range suggestions before providing object detection, wherein the filtering is based on corresponding filter data is estimated, which are estimated based on a relevance of the range proposals in connection with the road users and / or the traffic route.
- the invention particularly teaches the detection of road users on the traffic route by applying a method according to the invention for detecting
- the invention also teaches in particular for a traffic control system of the generic type that the device for detecting road users is configured according to the invention.
- the invention is based on the finding that proper detection of road users on a traffic route can be a good concept to reduce the overall vehicle latency through camera-based traffic monitoring associated with each autonomous and automated automobile or vehicle. This allows optimizing the traffic flow and the roadway efficiency or
- the invention allows road users or vehicles to be connected to a central intersection control system that employs video infrastructure to check the recommended lanes for the individual vehicles.
- the video infrastructure can be provided by one or more cameras. This makes it possible to replace conventional traffic lights by the intersection control device.
- the crossing control device occasionally too
- Called intersection management control device has both the ability to detect and for communication and control, and may additionally be associated with preferably each of the approaching road users or vehicles to coordinate their individual trajectories, allowing a more adaptive and smarter traffic flow control.
- a time window-based intersection control mechanism having adequate temporal resolution additionally allows coordinating a preferably uniform vehicle flow, wherein the idling stop or the complete stopping of the vehicle at traffic lights can be smoothed or avoided, or remaining anticipatory movements, such as Adjusting a speed of a particular vehicle to the trajectory of a predetermined vehicle to provide substantially stationary traffic.
- the invention results in that substantially all vehicles move at the same time and faster, so that the crossing efficiency can be significantly increased. With autonomous and automated road users or vehicles, traffic lights for managing traffic intersections are therefore unnecessary.
- the innovative concept can also be applied to feeder for motorways, for the merging of lanes in general, and the like.
- the detection of road users on a traffic route in particular the automatic vehicle detection framework of the traffic
- junction control system based on Deep Convolutional Neural Networks. This allows to readily consider that vehicles usually appear in pictures taken by the camera because of their variable distance from the camera at different scales.
- the device In order to detect the road users or vehicles of varying sizes, the device must in each case search for objects in several scales in the images or images. However, the search for multiple scales entails a high latency and could result in lower detection precision.
- the invention allows to carry out self-commissioning. It automatically estimates and uses scene layout information such as floor space or the like.
- the invention also allows a scale of the floor area to be estimated from a long-term observation of the appearing vehicles having different scales. This may be based on self-consistent analysis or regression, and the like. For this purpose, the acquisition of scaling information and / or
- Land surface information from a long-term traffic observation can be provided, which can also help to speed up the detection.
- the scaling information may be automatically included in the RPN.
- the invention begins with detecting objects in all scales. After a sufficient number of objects, namely, road users, preferably vehicles, has been detected at several different areas in the image or image, the invention is capable of estimating a layout of the floor area of the scene. This makes the invention more robust and faster, since the number of scales for searching for an item at different positions in the image or image can be reduced.
- Self-startup can therefore also be helpful if the camera position is reset, for example, during regular maintenance, service work that is usually provided from time to time, and thus there is no need to provide additional effort, such as technical assistance or startup ,
- the term "road user” can be applied to any user who participates in the traffic, and thus a road user can be a vehicle, a bicycle, a pedestrian, etc.
- the term "traffic route” corresponds to any one on land based area that is provided so that road users can move on it.
- a traffic route can thus be a highway, a road, an avenue, a highway, but also a sidewalk and the like.
- the invention is not limited to outdoor applications. It may also be applied to indoor applications such as warehousing in a warehouse where autonomous vehicles can transport goods to and from predefined storage locations and the like.
- a "traffic route” may be formed by a predefined area for the autonomous vehicles on which the autonomous vehicles can be moved
- the predefined area may be a specific section of a floor intended for transportation, in particular within the warehouse
- the camera is used to capture images related to a certain predetermined view.
- the camera is configured to take more than one image or only one image, in particular to capture a sequence of successive images of the same view.
- the camera may preferably consist of a video camera.
- the camera provides image data that is provided to an image processing device that is preferably capable of real-time pre-processing a large amount of image data to reduce the volume of data to be transmitted to the intersection controller.
- the image processing unit may be formed of on-board processing, edge computing, and the like.
- the image processing unit is preferably part of the camera. However, it may be provided by a separate unit communicatively connected to the camera.
- Real-time pre-processing means real-time detection and monitoring of road users, such as vehicles, bicycles, pedestrians, and the like, including lane calculation and simulation.
- the camera and the image processing unit may be part of an infrastructure unit that may include a street lamp mast, a building, and the like.
- the infrastructure unit may include the camera. It may additionally comprise a FLIR, an LPR, a RADAR and the like.
- the infrastructure unit can form a device according to the invention.
- a detection frame may be provided which enables the inventive method to be carried out and to constitute the inventive device.
- the coverage framework may be able to Scene and street layout data, for example, related to the floor area or the like may be used as additional knowledge to improve the efficiency and robustness of a detection algorithm by automatically cropping the object scales.
- the detection frame therefore makes it possible to create a virtual three-dimensional scene of the objects recorded in the images.
- it may be the size of the visible 2D object that is useful for object recognition.
- the detection frame is capable of performing self-commissioning.
- the detection frame may gradually acquire data about the scene layout, data from a long-term observation by analyzing appearing quantities and scales of the detected road users and / or the detected traffic route.
- the detection frame may be able to estimate the layout of the floor area of the scene.
- the layout of the floor space can thus be gradually tuned and improved over time.
- the new setting of the camera, in particular the camera position can therefore be considered and automatically adjusted.
- the capture frame may also allow an operator to directly input certain data associated with the scene, particularly the bottom surface of the scene. This can be accomplished by providing certain parameters of visible floor space which can be provided in advance as commissioning. In this context, manual commissioning can be provided.
- a first image of the sequence of successive images is optionally selected and defined as the image to be processed.
- the first image does not need to be the first mapping of the sequence of images.
- this map may be any of the sequence of maps.
- a particular selection unit may be provided which selects the first image from a database in which the sequence of images is stored, at least in part, for example, temporarily stored.
- an image provided by the camera is directly defined as the image to be processed and subjected to the inventive process.
- a range proposal generator generates a plurality of range suggestions to process possible objects recorded in the image.
- a range suggestion generator may be a computing unit, such as a computer having a microprocessor, a Digital Signal Processing (DSP) or the like, controlled by a particular computer program to generate the range suggestions.
- DSP Digital Signal Processing
- Object detection is preferably provided for all area proposals by applying an object detection apparatus to all area proposals to detect the traffic route and / or road users while considering a predetermined level of confidence.
- the object detection leads to the generation of acquisition data for the detected traffic route and / or the detected road users who are issued for further processing or reporting.
- the method may be continued by selecting another mapping of the sequence of consecutive mappings than the image to be processed.
- filtering of the range proposals is provided before performing the step of providing object detection, wherein the filtering is performed based on respective filter data estimated based on a relevance of the range suggestions associated with the road users and / or the traffic route become.
- the filtering is performed based on respective filter data estimated based on a relevance of the range suggestions associated with the road users and / or the traffic route become.
- Filtering the range suggestions therefore results in a reduction in the number of range suggestions produced by the range suggestion generator.
- the filtering is performed based on respective filter data that is estimated based on a relevance of the range suggestions in connection with the road users and / or the traffic route, in particular the floor area of the scene.
- scale information prior to the step of performing object detection, wherein scale information is acquired from long-term observation of the detected vehicles on the ground surface.
- scale information is acquired from long-term observation of the detected vehicles on the ground surface.
- a floor surface scaling off the self-commissioning phase are derived. This makes it possible to improve the invention and to reduce the effort, in particular in connection with the execution of the object detection.
- the filter data is estimated based on a scene captured by the image to be processed, in particular the traffic route included in the scene. This makes it possible to provide the scaling so that the object detection can be improved. In particular, if it is assumed that predetermined classes of objects are detected, the scaling can be additionally taken into account in order to reduce the effort for object detection. Over time, the scaling data can become more precise.
- the filter data provide an observation area for an object that is classified by the object detection as a road user.
- the observation area may be derived by identifying one or more areas within the image to be processed where predefined object classes may or may not appear.
- the road user is a vehicle, a bicycle, a pedestrian
- the classification provided by the object detection can be improved.
- the invention may also allow filter data to be updated in dependence on the data of the object detection. It is therefore possible to improve existing filter data by further carrying out the invention. Over time, the filter data can become more precise.
- the observation area may be, for example, a horizon derived from the image to be processed.
- a horizon derived from the image to be processed.
- objects such as vehicles, bicycles, pedestrians, and the like may not appear above the horizon. Range proposals above the horizon can thus be eliminated from further processing.
- the size of the range suggestions may be more precise by using the filtering. As far as the vehicles are concerned, the size can be selected by considering the scene and the position at which a particular range suggestion should appear.
- deep learning methods and / or artificial intelligence can be used.
- the infrastructure unit may employ deep learning techniques and / or artificial intelligence along with the inventive concept to perform road user detection, such as vehicle detection, vehicle identification, vehicle tracking, and the like.
- the infrastructure unit may also employ deep learning techniques and / or artificial intelligence to learn from long-term observations a relationship between visible object scaling associated with the location of the object on the floor surface of the intersection, particularly in a particular image to be processed. It may also learn long-term observations relating to the area and area of a field containing valid observations that may be provided by the horizon line or the like.
- the infrastructure unit may also employ the deep learning method and artificial intelligence, and may apply the knowledge gained about scales related to the detected objects, taking into account a location in the map to be processed, to optimize the performance parameters of the object recognition procedure, such as Example latency, reliability and distance range, where objects beyond the horizon line need not be taken into account.
- At least one of the road users requests a desired train, which causes the determination of a specific nominal track for the road user and the communication of the determined nominal track to the road user. This allows to consider certain wishes of the road user.
- the infrastructure unit may check the request and determine the nominal lane by taking into account lanes of all road users.
- the nominal track can then be announced to the road user, so that the road user can drive on the nominal track. This can also result in a better flow of traffic as the infrastructure unit can accommodate most, especially all lanes of current road users.
- testing of a specific nominal track by simulation be included for the road user.
- an S / W based check of the webs may be provided prior to shipment.
- retrieving an actual speed and / or position of at least one of the road users is included to determine its actual trajectory.
- the speed of the road users is automatically adjusted as a function of the used capacity of the traffic route.
- automatically adjusting the speed of at least one of the road users is included as the road user approaches a predetermined transit pattern for the traffic route.
- These Improvement may relate in particular to autonomous driving, preferably indoors as well as outdoors.
- Each of the infrastructure units may be capable of bidirectionally communicating the road users, in particular detected vehicles, to receive inquiries from the road users and respective intersection control devices and dispatch instructions to the road users.
- the infrastructure unit may also be able to receive requests and command data from the road users and the intersection control devices, as well as resend dispatch of processed object information.
- all of the infrastructure units are preferably interconnected and may form a mesh network topology for bidirectional communication, vehicle requests, and commands from the intersection controller to avoid single fault locations and increase the area of the intersection area by applying refreshes and iterations.
- the infrastructure unit may communicate with preferably all of the approaching road users, particularly vehicles that reach the communication area, and may query the coordinates of requested destinations and forward the requests to the intersection controller.
- At least one of the infrastructure units located at the intersection or access may also host a central intersection control system which may preferably collect traffic data from all of the infrastructure units, including requests from the road users, particularly from the vehicles.
- the intersection control device may coordinate a plurality of self-propelled autonomous or automated road users or vehicles requesting access to a respective exclusive trajectory on the traffic route, in particular one or more lanes to the intersection. In this way, a specific passage for a particular road user can be reserved. Further, the intersection control device may be the
- the intersection controller may handle requests from the road user, particularly vehicles, and provide uninterrupted scheduling and control.
- the intersection control device may assign each of the road users, in particular vehicles, a specific time slot or lane in the prevailing transit pattern.
- the communication between the intersection control device and the road users or vehicles can be carried out by the infrastructure units.
- intersection control device may interrogate any precise location and speed of preference of each of the individual road users, particularly the vehicles, and may calculate their individual lanes for precisely controlling the position of each of the road users at a particular time.
- intersection control device can both a conventional coordination mechanism in the form of a Deterministic state machine and artificial intelligence based on a coordination mechanism in the form of monitored and rule-based machine learning techniques.
- intersection controller may decide to grant or deny the request in response to the prevailing traffic flow and to the basic intersection control policy.
- the intersection controller may apply on-board simulation analysis to test the functionality of proposed vehicle lanes. Uninterrupted and ongoing intersection simulation can help to avoid collisions.
- the road user must be slowed down in order to wait for a later reservation permit. In the worst case, the road user can be stopped completely before he gets permission to enter the intersection.
- the speed of the individual vehicle may be automatically adjusted as it approaches a four-scene pass pattern so that the vehicle enters the projected trajectory at the correct time and time slot Overall pattern can flow continuously undisturbed uninterrupted.
- any one of the intersection controllers organizes, preferably all
- Junction control devices preferably the approaching vehicles into virtual batches, rather than coordinating the overall traffic flow based on the individual vehicles.
- the Heavy Traffic Cooperative Truth Control may cause the vehicle to follow another to share joint acceleration maneuvers on a feed forward control path through vehicle-to-vehicle communication.
- the intersection control device is preferably connected to at least one camera-based surveillance sensor (CCTV camera) to control video data of the prevailing traffic scenario.
- CCTV camera camera-based surveillance sensor
- the intersection control device may host an on-board image processing system capable of identifying the individual road users, especially vehicles, on the basis of the appearance to temporarily draw an individual identity index allowing fully automated tracking and re-identification in the case where the vehicle reappears in the field of view of adjacent camera sensors downstream of the traffic route.
- the intersection control apparatus may host on-board image processing capable of identifying the individual road users, particularly vehicles, based on automatic number plate recognition by means of Optical Character Recognition (OCR) or the like.
- OCR Optical Character Recognition
- intersection control device may host an on-board vision system capable of identifying and tracking pedestrians, especially pedestrians, outside of crosswalks.
- the onboard vision system may also be configured to identify and track pedestrians.
- Intersection control device configured to be pedestrian outside the crosswalk and to follow it on the traffic route, in particular, if the traffic route is a road, or at the intersection, to trigger the execution of a special collision avoidance procedure, offering new road users to the road users, especially nearby vehicles. and assign route data.
- all the infrastructure units with the crossing control unit which can be replaced by a
- Junction control device is provided to communicate.
- FIG Have a variety of range proposals for the detection of objects and three exemplary classified objects;
- Figure 2 shows in a schematic three-dimensional sketch a scaling function according to the invention for filtering proposals using estimated scaled filters
- Figure 3 is a schematic two-dimensional sketch which is a projection of Figure 2 in a plane used to estimate the scaling functions;
- FIG. 4 shows the figure to be processed according to FIG. 1, wherein the range proposals are filtered according to the invention, and additionally shows that FIG Range proposals get smaller as they approach the horizon; shows a schematic flowchart showing a method for detecting road users on a traffic route according to the invention; shows a schematic sketch scale compared to recognition for VGG-M networks, where bins are determined by uniformly distributed patterns; Figure 10 shows a schematic occlusion sketch as compared to recognition for VGG-M-Net, where bins are determined by uniformly distributed patterns, and with a maximum occlusion ratio set to 0.5.
- the detailed embodiments described below are concerned with how the invention is particularly subjected to autonomous driving.
- the invention is not limited to outdoor applications but can also be applied in indoor applications, such as warehouse applications, particularly with regard to warehousing and the like.
- Autonomous driving still remains a major challenge in that the environment as picked up by one or more cameras set up to observe images of vehicles as traffic participant changes that can occur quickly and unexpectedly.
- Vehicles for example, can be parked on the roadside, various initiatives and events in the city center can affect the traffic, and the like. In particular, the presence of more people may result in a higher chance of someone crossing the street.
- infrastructure-based mapping has the potential to complement the single vehicle point of view and accelerate the deployment of fully autonomous vehicles. More particularly, the invention relates to the detection and detection of road users, such as vehicles, from the foresight of surveillance cameras, which substantially impart to the vehicles a perception of the vehicle ahead of them and behind a corner.
- the cameras may be a component of one or more devices according to the invention. There is great potential in using the static view of a surveillance camera, which can provide better and faster capture.
- the invention relates to range proposals that form an important feature of modern detection algorithms.
- the invention proposes a simple extension of the R-CNN (Regional-based Convolutional Neural Network) and shows that ranking proposals in relation to a scene geometry can result in less false positive results by reducing suggestions in overloaded areas where respective algorithms are usually prone to error.
- R-CNN Registered-based Convolutional Neural Network
- the invention gives less false negative results since it increases recognition by containing more suggestions where they are most needed, for example for small vehicles at the distance.
- experimentation is made with the UA DETRAC data set, which can improve on the Vanilla Faster R-CNN (VGG-16) by more than 19%. This improvement can be largely maintained when switching to a Faster VGG-M network.
- VGG-16 Vanilla Faster R-CNN
- it is proposed to generate 3D object proposals by using scene geometry using calibrated monocular or stereo camera arrangement. An automatic estimate of the approximate scene geometry in terms of a true-to-scale layout is proposed.
- This information is incorporated into a detector to produce range suggestions.
- the inventive approach takes into account that the scene is largely static but usually does not require camera calibration information.
- the invention extends Faster R-CNN in conjunction with object detection to incorporate proposed geometric suggestions.
- Geometric proposals encode the scene layout of a static camera in a simple and effective way.
- the Faster R-CNN detection can work in at least two stages. In a first stage, a full Region Proposal Network (RPN) is provided which can take the complete image or image that is to be processed at the input and generate class-agnostic object suggestions.
- RPN Region Proposal Network
- the second stage is based on a classification network that classifies the incoming proposals into given object classes.
- the convolutional layers are shared for both tasks, that is, generating proposals and classifying them.
- Geometric extension to RPN Typically, an image or image that is to be processed may potentially contain a few large objects and a few or more small objects. However, this is usually not considered in the Faster R-CNN algorithm, particularly due to the RPN which suggests an equal amount of objects across scales.
- a relationship between the range suggestions and the scene geometry is retrieved using an object scale estimate. First, the safest objects are captured. Then, a pixel-by-pixel scale estimate is estimated as a proxy for the actual scene geometry. Finally, the RPN proposals were curtailed.
- the scale layout for the image to be processed or the image to be processed is estimated, that is, an image scale function describing the scale of the object in view of its position in the image. In this case, this corresponds to the expected size of a road user or vehicle in a certain image position.
- the second order polynomial suffices to represent a flat scene layout from a homographic projection. This assumption is plausible in most street scenes, as traffic routes visible from the surveillance camera are mostly flat.
- the approximation of the scale layout compensates for the size variations of the objects or vehicles, for example automobiles of different sizes and the like, in view of the sufficient number of acquisitions. This is illustrated by a test estimation according to FIG.
- the turcstablayout automatically provides a horizon estimate, which is also indicated in Figures 2 to 4 by the reference numeral 50.
- s (x) is the scale estimate of the object at position x as described in equation (1)
- b is the object's actual bounding rectangle size
- o represents the acceptable deviation of the default size from the scale function Value set to 0.3 for all different embodiments based on the observed variants in the training data.
- the original scale function estimate is the pixel position
- b ' is the size of the bus sense.
- Faster R-CNN can separate the object bounding rectangles into anchor scales and expected ratios.
- the scale set of anchor rectangles can be ⁇ 8, 16, 32 ⁇ . This may be appropriate for most acquisition benchmarks, such as PASCAL VOC.
- applying the Faster R-CNN to the standard anchorage standards on the UA-DETRAC standard can be seriously lower than expected because most vehicles are much smaller than the smallest standard scale.
- the range suggestions corresponding to the smallest anchor rectangles must therefore serve for any object smaller than its adjusted size in contrast to the actual concept of anchor scales. This problem can be remedied by extending the set with smaller scales in the sequence, that is ⁇ 1, 2, 4 ⁇ , for which results may be shown in FIG.
- FIG. 6 shows in a schematic sketch the scale compared to recognition for a VGG-M network, where bins have been determined to be uniformly distributing patterns.
- FIG. 6 shows a sketch 52 in which an ordinate 54 is associated with recognition in%, and an abscissa 56 is assigned to the average vehicle size (pixel 2 ).
- the tuples of bins concern bin 58 corresponding to FRCNN, bin 60 corresponding to FRCNN + GP, bin 62 corresponding to FRCNN + BW, and bin 64 corresponding to FRCNN + BW + PG.
- quantized scales may also be used in connection with the training data be experimented. However, it has been found that both techniques result in similar performances, so below only the simple extension to the scale set of the anchors in RPN is considered.
- a second limitation of the Faster R-CNN to smaller objects can be given by the quasar resolution of its CNN function block. This issue has been identified several times in semantic segmentation, which allows quasar granularity to limit pixel-by-pixel resolution.
- the functional distance is reduced from 16 to 18 by removing the last max-pooling layer from the base function networks on all the models experimented.
- this may result in a smaller respective field on the input image or on the input image being processed. Although this may not affect all of the small objects that the model needs to view a larger area in the object, this can reduce recognition for the larger vehicles in the experiments for which the context becomes too scarce. This effect may be more apparent in smaller functional models, such as FGG-M, while larger models seem more robust and potentially maintain sufficiently large respective fields.
- the parameters are preferably initialized with the pre-trained ImageNet model, and the learning of the first f 4 convolutional layers can be skipped.
- the low-level functions in the basic Faster R-CNN model can still be those that are actually trained only for the image net classification tasks. Of course, that does not need to be an optimal setting.
- a multi-level training approach may be used, and these initial convolutional layers skipped in the standard training stage of the Faster R-CNN may also be learned.
- the default strategy can be maintained and the parameters of the intimal convolution layers of the networks are not learned.
- the training policy may continue on the full network after the original convolution layers are also unlocked. Alternatively, one could also study a strategy similar to warm-up training, with very small learning raids.
- VGG_CNN_M_1024 with 5 convolutional and 3 fully connected layers.
- VGG-M Below this network is called VGG-M.
- VGG-16 with 13 convolutional and 3 fully connected layers.
- NMS threshold is quite critical for typical object detectors. Since only vehicles with less than or equal to 50% occlusion are included in the validation rate, it may theoretically make sense to use an NMS threshold of 0.5.
- a stricter value for the Faster R-CNN parameter FG_THRESH that is, 0.7 instead of 0.5, may be used for detection to be considered as a positive class during training of the classification network. This value is for everyone optimal results since the online UA DETRAC rating uses IoU of 0.7 to count a detection as correct.
- BW barbs and whistles
- Figure 7 shows a schematic sketch 66 having an ordinate as Figure 6 and an abscissa 68 assigned to a major occlusion ratio.
- the tuple of the bins 58 to 64 corresponding to the bins according to FIG. 6 are shown.
- Recognition improves only slightly when the geometric proposals are applied to the Vanilla Faster R-CNN, demonstrating the limited capability of the model. It can be seen, however, that the Faster R-CNN with Beils and Whistles function significantly worse as the occlusion ratio increases, and in fact does not improve for any occlusion ratio level. This result explains the importance of a larger receptive field that provides greater context for the object on the image or image being processed, thus allowing better occlusion manipulation.
- the complete UA DETRAC train set (60 video sequences or pictures) is used. PASCAL VOC 2007 and 2012 Trainval image sets are also included, as is done in the validation phase. It can be seen that some of the traffic scenarios in the UA-DETRAC test satellite are relatively denser and more crowded than, comparatively, the video sequences in the training set. However, most of the results obtained for the online challenge are consistent with these scores during the validation phase. Overall, it can be improved by an impressive 19.5% in terms of AP compared to the Vanilla Faster R-CNN means from 57, 08% to 67, 57%. It can be noted that the effect of adding geometric suggestions is not as strong as observed during validation. It is believed that this is due to the fact that a large number of small scale objects are ignored during online evaluation. This may be due to the marked ignored detections in the image or image being processed. These results are shown in Table 3.
- Figure 1 shows in a schematic view an image 16 to be processed, with all range suggestions 18 generated by a range suggestion generator.
- the figure 16 to be processed further shows a traffic route 14 having a plurality of lanes on which vehicles 12 drive as road users.
- FIG. 1 three rectangles 20, 22, 24 are provided.
- the rectangle 20 is located in an upper portion of the image 16 to be processed so that this rectangle is too large because the road users to be captured in this portion of the image 16 to be processed are much smaller.
- the rectangle 24 in the lower section of the On the other hand, Figure 16 to be processed is too small to contain a road user or a vehicle.
- a rectangle 22 in the lower portion of the image 16 to be processed is adapted to contain a road user or a vehicle.
- the size of the rectangle coincides with the vehicle 12.
- the image 16 to be processed is a single image of a video stream of a camera, not shown.
- Figure 2 shows a three-dimensional sketch showing filter suggestions using the estimated scale filters and the image scale function, respectively.
- a vertical axis 28 corresponds to the size of the object in units of pixels 2 .
- the axes 30, 32 refer to positions.
- a plane 26 defines an area where surface points 28 may be located. Points 28 refer to positions of reliable detections in the image or image 16 that is to be processed, which can be used to estimate the scale functions.
- a line defines the horizon 50.
- Figure 3 shows a projection of the plane 26 in the direction of the axis 28 from above.
- the horizon 50 is parallel to the axis 32 which intersects the axis 30 at the value 100.
- the points 28 are located only below the horizon 50, that is, at values greater than 100 of the axis 30. In the area of the horizon 50, there is a small scale, wherein in the area of the axis 32 is a large scale.
- FIG. 5 shows in an exemplary embodiment a schematic flow diagram of a method 10 for detecting road users 12, here vehicles, on a traffic route 14 in a sequence of successive images provided by a camera recording the sequence of images of the traffic route 14. The sequence of images is currently provided by a video stream.
- a first map of the sequence of consecutive images is selected and the first image is defined as an image 16 to be processed. Then, at step 42, a
- Range Suggestion Generator is applied to Figure 16, which is to be processed, which may be provided by selective RP (Faster R-CNN) search, sliding windows, and the like.
- the range proposal generator generates a plurality of range suggestions 18 for possible objects recorded in the image 16 to be processed. Then, at step 44, it is checked if filters are available. If not, the method continues with step 46 by presenting all range suggestions 18 of the range suggestion generator also shown in FIG. Then, the method continues with step 72, wherein object detection is provided for all area proposals 18 to detect road users 12, taking into account a pre-defined level of confidence. In method step 74, reliable detections (with a high result) are collected. At step 76, it is checked whether enough detections have been made to allow a filter estimate. If not (n), the method continues with step 40 and selects another mapping of the sequence of consecutive mappings to improve the number of acquisitions achieved.
- RP Raster R-CNN
- step 78 filters are estimated, such as scale filters, aspect ratio filters, a horizon, and the like.
- the estimated filters are provided to control suggestion filtering, as discussed below. If the filters are estimated in step 78, the method continues to step 40, as described above.
- step 44 If it is determined at step 44 that filters are available (y), the method continues to step 48 using suggestion filters as discussed above. The method then proceeds to step 70 by applying filtered suggestions to the image 16 to be processed, which is also shown in FIG. Then, as discussed above, the method continues to step 73.
- camera calibration information may be received and provided to step 78 to enhance the filter estimation.
- the proposed GP-FRCNN approach has the potential to overcome the classification failures of the basic RPN and, as a result, can achieve more or less similar performance regardless of the scale of the object.
- the inventors' findings also suggest that one can not simply accommodate the geometric layout to reclassify proposals and then expect desired improvements, but instead a number of scale changes are preferably provided.
- the various functions and embodiments discussed herein may be performed in a different, different order and / or concurrently with each other in various ways. Further, one or more of the functions and / or embodiments described above may be optional, or preferably combined in an arbitrary manner, as desired.
- step 76
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
Die Erfindung betrifft ein Verfahren (10) zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Abbildung, umfassend: - Erzeugen (42) einer Vielzahl von Bereichsvorschlägen (18) für mögliche Objekte, die in der Abbildung (16) aufgezeichnet sind, durch Anwenden eines Bereichsvorschlaggenerators; - Bereitstellen von Objekterfassung (72) für alle Bereichsvorschläge (18), um den Verkehrsweg (14) und/oder die Verkehrsteilnehmer (12) durch Klassifizieren unter Berücksichtigung eines vordefinierten Vertrauensniveaus zu erfassen; - Ausgeben von Erfassungsdaten, die durch die Objekterfassung empfangen werden; und - Bereitstellen eines Filterns (48) für die Bereichsvorschläge (18) vor dem Schritt des Bereitstellens von Objekterfassung, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird,die basierend auf einer Relevanz der Bereichsvorschläge (18) in Zusammenhang mit den Verkehrsteilnehmern (12) und/oder dem Verkehrsweg (14) geschätzt werden.
Description
BESCHREIBUNG
ERFASSEN VON VERKEHRS EILNEHMERN AUF EINEM VERKEHRSWEG Die Erfindung betrifft ein Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Abbildung, die von einer Kamera, die die Abbildung aufnimmt, bereitgestellt wird, wobei das Verfahren Erzeugen einer Vielzahl von Bereichsvorschlägen für mögliche Objekte, die in der Abbildung aufgezeichnet sind, indem ein Bereichsvorschlaggenerator auf die Abbildung angewandt wird, Bereitstellen von Objekterfassung für alle Bereichsvorschläge, indem ein Objekterfassungsgerät auf alle Bereichsvorschläge angewandt wird, um den Verkehrsweg und/oder die Verkehrsteilnehmer durch Klassifizieren unter Berücksichtigen eines vorbestimmten Vertrauensniveaus zu erfassen, und Ausgeben von Erfassungsdaten, die von der Objekterfassung für den erfassten Verkehrsweg und/oder die erfassten Verkehrsteilnehmer empfangen werden, umfasst. Die Erfindung betrifft auch eine Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Abbildung, wobei die Vorrichtung mindestens eine Kamera, die die Abbildung des Verkehrswegs aufnimmt, und ein Gerät umfasst, das konfiguriert ist, um eine Vielzahl von Bereichsvorschlägen für mögliche Objekte, die in der Abbildung aufgezeichnet sind, zu erzeugen, indem ein Bereichsvorschlaggenerator auf die Abbildung angewandt wird, Objekterfassung für alle Bereichsvorschläge bereitzustellen, um den Verkehrsweg und/oder die Verkehrsteilnehmer durch Klassifizieren unter Berücksichtigung eines vorbestimmten Vertrauensniveaus zu erfassen, und Erfassungsdaten auszugeben, die von der Objekterfassung für den erfassten Verkehrsweg und/oder die erfassten Verkehrsteilnehmer empfangen werden. Außerdem betrifft die Erfindung auch ein Verfahren zum Bereitstellen von Verkehrsführung, die das Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen umfasst, die von einer Kamera bereitgestellt werden, die die Sequenz von Abbildungen
des Verkehrswegs aufnimmt, Bestimmen einer verwendeten Kapazität des Verkehrswegs, der durch die Verkehrsteilnehmer bereitgestellt wird, Identifizieren individueller tatsächlicher Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer, um jeweilige individuelle tatsächliche Bahnen zu bestimmen, Bestimmen mindestens einer jeweiligen Nennbahn für jeden der Verkehrsteilnehmer, und Kommunizieren der bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern. Ferner betrifft die Erfindung auch ein VerkehrsleitSystem, um Verkehrsführung bereitzustellen, das mindestens eine Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen, und ein Gerät umfasst, das konfiguriert ist, um Verkehrsteilnehmer auf dem Verkehrsweg in der Sequenz aufeinanderfolgender Abbildungen zu erfassen, eine verwendete Kapazität des Verkehrswegs zu bestimmen, der durch die Verkehrsteilnehmer bereitgestellt wird, individuelle tatsächliche Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer zu identifizieren, um jeweilige individuelle tatsächliche Bahnen zu bestimmen, mindestens eine jeweilige Nennbahn für jeden der Verkehrsteilnehmer zu bestimmen, und die bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern zu kommunizieren. Schließlich betrifft die Erfindung auch ein Computerprogrammprodukt, das ein Programm für eine Verarbeitungsvorrichtung aufweist .
Aktuelle Verfahren und Vorrichtungen werden gewöhnlich an auf Kamera basierende Überwachung und Steuerung von Verkehrsknotenpunkten angewandt. Das kann eine automatische Bestimmung und Zuweisung jeweils eines adaptiven Zeitfensters und/oder einer Spur eines Verkehrswegs oder eines vollständigen Wegs jeweils zu jedem der Fahrzeuge auf dem Verkehrsweg, als Verkehrsteilnehmer aufweisen.
Bisher wurden Überwachung und Steuerung von Verkehrsknotenpunkten gewöhnlich von herkömmlichen
Steuersystemen mit statischem Licht, vom Fahrzeug betätigten
Ampelsteuersystemen, jeweiligem Kreisverkehr, Extraspuren, die während Stoßzeiten bereitgestellt werden, und dergleichen bereitgestellt. Die Erfindung betrifft folglich das Verwenden von Daten mindestens einer Kamera, insbesondere von Videodaten in einer Umgebung im Freien zur Verkehrsüberwachung.
Das Wachstum und das Ausmaß von Fahrzeugen machen das Verkehrsmanagement laufend schwieriger. Existierende und herkömmliche Verkehrsmanagementsteuersysteme basieren auf Timingmechanismen, wie zum Beispiel Ampeln, die üblicherweise gleiche Zeitfenster für jede Kreuzungsspur bereitstellen, was zu inhärenter Ineffizienz durch nicht gleichförmigen Verkehrsfluss führt. Außerdem können während Stoßzeiten Kreisverkehre und Extraspuren bereitgestellt werden, die typischerweise eine größere Landfläche erfordern oder das Abreißen benachbarter Strukturen für ihren Bau bedingen.
Ein effizienterer Ansatz basiert auf dem Bereitstellen adaptiver Zeitfenster für jede Spur der Straße basierend auf Echtzeit- Verkehrsdichtedaten durch fortschrittliche Kommunikationssysteme eines entsprechenden Satzes von Sensortechnologie zum Beobachten des Verkehrsszenarios.
Autonome Fahrzeuge oder selbstfahrende Automobile werden zunehmend machbarer, und die Interkommunikation zwischen mehreren Fahrzeugen bzw. Automobilen und lokalen Kreuzungssteuerungvorrichtungen erlauben automatische Wechselwirkung .
Obwohl aktuelle Verfahren zur Fahrzeugkoordination für das Fahren auf offener Straße zum Arbeiten mit menschlichen Fahrern konzipiert sind, erlaubt das Konzept autonomer Fahrzeuge das Anwenden von Gesamtstraßensteuervorrichtungen, die direkt mit den einzelnen Fahrzeugen interagieren und das Identifizieren des effizientesten und sichersten Navigationswegs sowohl bei Stadtverkehrsszenarien als auch bei Schwerverkehrsknotenpunkten erlauben .
In dem Fall von von Menschen gefahrenen Automobilen, können die Betriebsstraße und Kreuzungssteuervorrichtung mindestens Navigationsinformationen über optimale Spur- und Streifenauswahl gemeinsam mit dienlichsten Geschwindigkeitsempfehlungen bereitstellen .
Das herkömmliche Verkehrssteuersystem basiert auf Stopptafeln, Ampeln oder dem Einsetzen eingelassener Schleifendetektoren zur Fahrzeugerfassung und automatischer
Geschwindigkeitskontrolldisplays, um die Fahrer zu informieren. Für die Verkehrsflusssteuerung wenden traditionelle Systeme Kreuzungssteuermechanismen an, die gewöhnlich gleiche oder vorprogrammierte Zeitfenster für jede Kreuzungsspur zuweisen, wobei das zeitliche Umschaltmuster zum Einrichten gleichförmiger Fahrzeugströme für von Menschen gefahrene nicht automatisierte Automobile beschränkt ist.
Angesichts des Stands der Technik verbleibt eine Notwendigkeit, die Verkehrssteuerung zu verbessern, um den Verkehrsfluss zu verbessern und Staus auf dem Verkehrsweg zu verringern.
Um den oben erwähnten Gegenstand zu meistern, schlägt die Erfindung Verfahren, Vorrichtungen und Computerprogrammprodukte gemäß den unabhängigen Ansprüchen vor.
Weitere Verbesserungen können durch Merkmale der abhängigen Ansprüche erzielt werden. Im Hinblick auf ein generisches Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg, lehrt die Erfindung insbesondere das Bereitstellen der Bereichsvorschläge vor dem Schritt des Bereitstellens von Objekterfassung, wobei Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge hinsichtlich
der Verkehrsteilnehmer und/oder des Verkehrswegs geschätzt werden .
In Zusammenhang mit einer jeweiligen generischen Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen, lehrt die Erfindung insbesondere, dass das Gerät ferner konfiguriert ist, um ein Filtern für die Bereichsvorschläge bereitzustellen, bevor Objekterfassung bereitgestellt wird, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg geschätzt werden.
Im Hinblick auf ein generisches Verfahren zum Bereitstellen von Verkehrsführung, lehrt die Erfindung insbesondere das Erfassen von Verkehrsteilnehmern auf dem Verkehrsweg durch Anwenden eines erfindungsgemäßen Verfahrens zum Erfassen von
Verkehrsteilnehmern auf einem Verkehrsweg. Die Erfindung lehrt auch insbesondere für ein Verkehrsleitsystem der generischen Art, dass die Vorrichtung zum Erfassen von Verkehrsteilnehmern erfindungsgemäß konfiguriert ist.
Die Erfindung basiert auf der Feststellung, dass richtige Erfassung von Verkehrsteilnehmern auf einem Verkehrsweg ein gutes Konzept sein kann, um die allgemeine Fahrzeugwartezeit durch auf Kamera basierende Verkehrsüberwachung verbunden mit jeweils autonomen und automatisierten Automobilen oder Fahrzeugen zu verringern. Das erlaubt das Optimieren des Verkehrsflusses und der Fahrbahneffizienz bzw.
Verkehrswegeffizienz, insbesondere in Anbetracht des Konzepts autonomer Verkehrsteilnehmer, wie zum Beispiel Fahrzeuge, Automobile, LKWs und dergleichen. Autonome Fahrzeuge sind mit gegenseitiger Kommunikationsinfrastruktur ausgestattet, die Mittel zur Fahrzeugkoordination und Verkehrsflusssteuerung ohne
die Einschränkungen für das signifikante Beschleunigen oder Verlangsamen oder unnützes Anhalten bereitstellt.
Die Erfindung erlaubt es Verkehrsteilnehmern bzw. Fahrzeugen insbesondere, mit einem zentralen Kreuzungssteuersystem verbunden zu sein, das Videoinfrastruktur zum Prüfen der angeratenen Bahnen für die einzelnen Fahrzeuge einsetzt. Die Videoinfrastruktur kann durch eine oder mehrere Kameras bereitgestellt werden. Das erlaubt es, herkömmliche Ampeln durch die Kreuzungssteuervorrichtung zu ersetzen.
Die Kreuzungssteuervorrichtung, gelegentlich auch
Kreuzungsmanagement-Steuervorrichtung genannt, hat sowohl die Fähigkeit zur Erfassung als auch zur Kommunikation und Steuerung, und sie kann zusätzlich mit bevorzugt jedem der sich nähernden Verkehrsteilnehmer bzw. Fahrzeuge verknüpft sein, um ihre einzelnen Bahnverläufe zu koordinieren, was eine adaptivere und intelligentere Verkehrsflusssteuerung ermöglicht. Außerdem erlaubt ein auf Zeitfenster basierender Kreuzungssteuermechanismus, der angemessene zeitliche Auflösung aufweist, zusätzlich das Koordinieren eines bevorzugt gleichmäßigen Fahrzeugflusses, wobei das Anhalten im Leerlauf oder das vollständige Stoppen des Fahrzeugs an Ampeln geglättet oder vermieden werden kann, bzw. restliche vorwegnehmende Bewegungen, wie zum Beispiel Anpassen einer Geschwindigkeit eines bestimmten Fahrzeugs an den Bahnverlauf eines vorbestimmten Fahrzeugs, um einen im Wesentlichen stationären Verkehr zu schaffen.
Die Erfindung resultiert darin, dass sich im Wesentlichen alle Fahrzeuge gleichzeitig und schneller bewegen, so dass die Kreuzungseffizienz signifikant erhöht werden kann. Mit autonomen und automatisierten Verkehrsteilnehmern bzw. Fahrzeugen, werden Ampeln zum Verwalten von Verkehrskreuzungen folglich entbehrlich. Das erfinderische Konzept kann auch an Zubringer
zum Erreichen von Autobahnen, für das Zusammenführen von Fahrspuren im Allgemeinen, und dergleichen angewandt werden.
Bei einer bestimmten Ausführungsform kann das Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg, insbesondere der automatische Fahrzeugerfassungsrahmen des Verkehr-
Kreuzungssteuersystems, auf Deep Convolutional Neural Networks basieren. Das erlaubt es, ohne Weiteres in Betracht zu ziehen, dass Fahrzeuge gewöhnlich in Bildern bzw. Abbildungen, die durch die Kamera aufgenommen werden, aufgrund ihrer variablen Entfernung von der Kamera in unterschiedlichen Maßstäben erscheinen. Um die Verkehrsteilnehmer bzw. Fahrzeuge variierender Größen zu erfassen, muss die Vorrichtung jeweils nach Objekten in mehreren Maßstäben in den Bildern oder Abbildungen suchen. Die Suche nach mehreren Maßstäben zieht jedoch eine hohe Latenzzeit nach sich und könnte in niedrigerer Erfassungspräzision resultieren. In diesem Hinblick erlaubt es die Erfindung, Selbstinbetriebnahme auszuführen. Sie schätzt und verwendet automatisch Szenen-Layoutinformationen wie zum Beispiel hinsichtlich einer Bodenfläche oder dergleichen.
Außerdem erlaubt es die Erfindung auch, einen Maßstab der Bodenfläche ausgehend von einer Langzeitbeobachtung der erscheinenden Fahrzeuge mit unterschiedlichen Maßstäben zu schätzen. Das kann auf selbstkonsistenter Analyse oder auf einer Regression und dergleichen basieren. Zu diesem Zweck kann die Erfassung von Skalierungsinformationen und/oder
Bodenflächeninformationen aus einer Langzeitverkehrsbeobachtung bereitgestellt werden, was ebenfalls helfen kann, die Erfassung zu beschleunigen. Die Skalierungsinformationen können zum Beispiel automatisch in dem RPN enthalten sein.
Das Beginnen des erfinderischen Verfahrens oder der erfinderischen Vorrichtung erfordert keine Kenntnis über die vorliegende Szene. Die Erfindung beginnt mit Erfassen von Objekten in allen Maßstäben. Nachdem eine ausreichende Anzahl
von Objekten, nämlich von Verkehrsteilnehmern, bevorzugt Fahrzeugen, an mehreren unterschiedlichen Bereichen in dem Bild bzw. der Abbildung erfasst wurde, ist die Erfindung fähig, ein Layout der Bodenfläche der Szene zu schätzen. Das macht die Erfindung robuster und schneller, da die Anzahl von Maßstäben zum Suchen nach einem Gegenstand an unterschiedlichen Lagen in dem Bild bzw. der Abbildung, verringert werden kann.
Selbstinbetriebnahme kann folglich auch hilfreich sein, falls die Kameraposition neu eingestellt wird, zum Beispiel während regelmäßiger Wartung, Servicearbeit, die gewöhnlich von Zeit zu Zeit bereitgestellt wird, so dass es folglich nicht erforderlich ist, zusätzlichen Aufwand bereitzustellen, wie zum Beispiel technische Unterstützung oder Inbetriebnahme.
Im Allgemeinen kann der Begriff „Verkehrsteilnehmer" auf einen beliebigen Benutzer, der am Verkehr teilnimmt, angewandt werden. Ein Verkehrsteilnehmer kann folglich ein Fahrzeug, ein Fahrrad, ein Fußgänger und dergleichen sein. In dieser Hinsicht entspricht der Begriff „Verkehrsweg" einer beliebigen auf Land basierenden Fläche, die bereitgestellt wird, damit sich Verkehrsteilnehmer auf ihr bewegen können. Ein Verkehrsweg kann folglich eine Landstraße, eine Straße, eine Allee, eine Autobahn aber auch ein Bürgersteig und dergleichen sein. Zu bemerken ist jedoch, dass die Erfindung nicht auf Anwendungen im Freien beschränkt ist. Sie kann auch an Anwendungen in Innenräumen angewandt werden, zum Beispiel an Lagerhaltung in einem Lager, wo autonome Fahrzeuge Waren von und zu vordefinierten Lagerpositionen und dergleichen transportieren können.
In diesem Zusammenhang kann ein „Verkehrsweg" durch eine vordefinierte Fläche für die autonomen Fahrzeuge, auf der die autonomen Fahrzeuge bewegt werden können, gebildet sein. Die vordefinierte Fläche kann ein bestimmter Abschnitt eines Bodens sein, der für Transport bestimmt ist, insbesondere innerhalb des Lagers .
Die Kamera wird verwendet, um Bilder bzw. Abbildungen in Zusammenhang mit einer gewissen vorbestimmten Sicht aufzunehmen. Die Kamera ist konfiguriert, um mehr als nur ein Bild bzw. nur eine Abbildung aufzunehmen, um insbesondere eine Sequenz aufeinanderfolgender Abbildungen derselben Ansicht aufzunehmen. In dieser Hinsicht kann die Kamera bevorzugt aus einer Videokamera bestehen. Die Kamera stellt Bilddaten bzw. Abbildungsdaten bereit, die zu einer Bildverarbeitungsvorrichtung geliefert werden, die bevorzugt zur Echtzeit-Vorverarbeitung einer großen Menge von Bilddaten bzw. Abbildungsdaten fähig ist, um das Datenvolumen, das zu der Kreuzungssteuervorrichtung zu übertragen ist, zu verringern. Die Bildverarbeitungseinheit kann aus einer Onboard- Verarbeitung, Edge Computing und dergleichen gebildet sein.
In diesem Zusammenhang ist die Bildverarbeitungseinheit bevorzugt Teil der Kamera. Sie kann jedoch durch eine separate Einheit, die kommunikativ mit der Kamera verbunden ist, bereitgestellt werden. Echtzeit-Vorverarbeitung bedeutet Echtzeiterfassung und Überwachung von Verkehrsteilnehmern, wie zum Beispiel von Fahrzeugen, Fahrrädern, Fußgängern und dergleichen, darunter Bahnberechnung und -Simulation. Die Kamera sowie die Bildverarbeitungseinheit können Teil einer Infrastruktureinheit sein, die einen Straßenlaternenmast, ein Gebäude und dergleichen umfassen kann. Die Infrastruktureinheit kann die Kamera umfassen. Sie kann zusätzlich einen FLIR, einen LPR, einen RADAR und dergleichen aufweisen. Die Infrastruktureinheit kann eine erfindungsgemäße Vorrichtung bilden .
Um die Erfindung auszuführen, kann ein Erfassungsrahmen bereitgestellt werden, der das Ausführen des erfinderischen Verfahrens ermöglicht und die erfinderische Vorrichtung bilden kann. In dieser Hinsicht kann der Erfassungsrahmen fähig sein,
Szenen- und Straßenlayoutdaten zum Beispiel in Zusammenhang mit der Bodenfläche oder dergleichen als eine zusätzliche Kenntnis zu verwenden, um die Effizienz und Robustheit eines Erfassungsalgorithmus durch automatisches Beschneiden der Objektmaßstäbe zu verbessern. Das bedeutet, dass es die Kenntnis des Layouts der Bodenfläche erlaubt, dass die Kamera die internen Maßstäbe mit absoluten realen Maßstäben in Beziehung bringen kann . Der Erfassungsrahmen erlaubt es daher, eine virtuelle dreidimensionale Szene der Objekte zu schaffen, die in den Bildern bzw. Abbildungen aufgezeichnet wurden. Insbesondere kann es die Größe des sichtbaren 2D-Objekts sein, die zur Objekterkennung hilfreich ist. Bevorzugt ist der Erfassungsrahmen fähig, Selbstinbetriebnahme auszuführen. Das bedeutet, dass der Erfassungsrahmen in einer anfänglichen Phase allmählich Daten über das Szenenlayout, Daten aus einer Langzeitbeobachtung durch Analysieren erscheinender Größen und Maßstäbe der erfassten Verkehrsteilnehmer und/oder des erfassten Verkehrswegs erfassen kann. Nachdem der Erfassungsrahmen eine ausreichende Anzahl von Verkehrsteilnehmern bevorzugt an mehreren unterschiedlichen Bereichen in dem Bild bzw. in der Abbildung erfasst hat, kann er fähig sein, das Layout der Bodenfläche der Szene zu schätzen. Das Layout der Bodenfläche kann folglich allmählich abgestimmt und im Laufe der Zeit verbessert werden. Das Neueinstellen der Kamera, insbesondere der Kameraposition, kann daher berücksichtigt und automatisch abgeglichen werden. Der Erfassungsrahmen kann es einem Bediener auch erlauben, direkt bestimmte Daten in Zusammenhang mit der Szene einzugeben, insbesondere die Bodenfläche der Szene. Das kann verwirklicht werden, indem bestimmte Parameter sichtbarer Bodenfläche bereitgestellt werden, die vorab als Inbetriebnahme bereitgestellt werden können. In diesem Zusammenhang kann manuelle Inbetriebnahme bereitgestellt werden. Falls die
Kenntnis über das Szenenlayout verfügbar ist, kann ein Suchraum für den Maßstab während der Mitverfolgung von Verkehrsteilnehmern verringert werden. Erfindungsgemäß wird optional eine erste Abbildung der Sequenz aufeinanderfolgender Abbildungen ausgewählt und als die zu verarbeitende Abbildung definiert. Die erste Abbildung braucht nicht die erste Abbildung der Sequenz von Abbildungen zu sein. Im Allgemeinen ist es möglich, dass diese Abbildung eine beliebige der Sequenz von Abbildungen sein kann. Bevorzugt ist es jedoch die Abbildung, die einen frühesten Zeitstempel hat. Zum Zweck der Auswahl kann eine bestimmte Auswahleinheit bereitgestellt werden, die die erste Abbildung aus einer Datenbank auswählt, in der die Sequenz von Abbildungen gespeichert ist, mindestens teilweise, zum Beispiel vorübergehend gespeichert ist. Es kann jedoch vorgesehen sein, dass eine Abbildung, die von der Kamera geliefert wird, unmittelbar als die zu verarbeitende Abbildung definiert und dem erfinderischen Verfahren unterzogen wird.
Dann erzeugt ein Bereichsvorschlaggenerator eine Vielzahl von Bereichsvorschlägen, um mögliche Objekte, die in der Abbildung aufgezeichnet sind, zu verarbeiten. Der
Bereichsvorschlaggenerator kann eine Recheneinheit sein, wie zum Beispiel ein Computer, der einen Mikroprozessor hat, eine digitale Signalverarbeitungseinheit (Digital Signal Processing DSP) oder dergleichen, die von einem bestimmten Computerprogramm gesteuert wird, um die Bereichsvorschläge zu erzeugen .
Eine Objekterfassung wird bevorzugt für alle Bereichsvorschläge bereitgestellt, indem ein Objekterfassungsgerät auf alle Bereichsvorschläge angewandt wird, um den Verkehrsweg und/oder die Verkehrsteilnehmer zu erfassen, während ein vorbestimmtes Vertrauensniveau berücksichtigt wird. Die Objekterfassung führt zum Erzeugen von Erfassungsdaten für den erfassten Verkehrsweg
und/oder die erfassten Verkehrsteilnehmer, die für weitere Verarbeitung oder Meldung ausgegeben werden.
Dann kann das Verfahren durch Auswählen einer anderen Abbildung der Sequenz aufeinanderfolgender Abbildungen als die Abbildung, die zu verarbeiten ist, fortgesetzt werden.
Gemäß einem Aspekt der Erfindung wird ein Filtern der Bereichsvorschläge bereitgestellt, bevor der Schritt des Bereitstellens von Objekterfassung ausgeführt wird, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg geschätzt werden. Das erlaubt es, die Bodenfläche der Szene zu finden, basierend auf dieser Feststellung kann der Aufwand für die Objekterfassung verringert werden, weil die Anzahl von Bereichsvorschlägen verringert werden kann. Insbesondere falls die Bodenfläche bzw. der Verkehrsweg verfügbar ist, können die erzeugten Bereichsvorschläge derart ausgewählt werden, dass nur die Bereichsvorschläge, die in relevanten erfassten Objekten resultieren können, während der Objekterfassung berücksichtigt werden.
Das Filtern der Bereichsvorschläge resultiert daher in einer Verringerung der Anzahl aller Bereichsvorschläge, die von dem Bereichsvorschlaggenerator erzeugt werden. Das Filtern wird basierend auf jeweiligen Filterdaten ausgeführt, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg, insbesondere der Bodenfläche der Szene, geschätzt werden.
Gemäß einer beispielhaften Verbesserung werden
Maßstabinformationen vor dem Schritt des Ausführens von Objekterfassung bereitgestellt, wobei Maßstabinformationen aus Langzeitbeobachtung der erfassten Fahrzeuge auf der Bodenfläche erfasst werden. Insbesondere kann ein Bodenflächenskalieren aus
der Selbstinbetriebnahmephase abgeleitet werden. Das erlaubt es, die Erfindung zu verbessern und den Aufwand insbesondere in Zusammenhang mit der Ausführung der Objekterfassung zu verringern .
Bevorzugt werden die Filterdaten basierend auf einer Szene geschätzt, die durch die zu verarbeitende Abbildung aufgenommen wurde, insbesondere der Verkehrsweg, der in der Szene enthalten ist. Das erlaubt es, das Skalieren derart bereitzustellen, dass die Objekterfassung verbessert werden kann. Insbesondere, falls angenommen wird, dass vorbestimmte Klassen von Objekten erfasst werden, kann das Skalieren zusätzlich berücksichtigt werden, um den Aufwand für Objekterfassung zu verringern. Im Laufe der Zeit können die Skalierungsdaten präziser werden.
Außerdem wird vorgeschlagen, dass die Filterdaten einen Beobachtungsbereich für ein Objekt, das von der Objekterfassung als Verkehrsteilnehmer eingestuft wird, bereitstellen. Der Beobachtungsbereich kann durch Identifizieren einer oder mehrerer Flächen innerhalb der Abbildung, die zu verarbeiten ist, abgeleitet werden, wo vordefinierte Objektklassen erscheinen bzw. nicht erscheinen können. Insbesondere falls der Verkehrsteilnehmer ein Fahrzeug, ein Fahrrad, ein Fußgänger ist, kann die Klassifikation, die durch die Objekterfassung bereitgestellt wird, verbessert werden. Die Erfindung kann es auch erlauben, dass Filterdaten in Abhängigkeit von den Daten der Objekterfassung aktualisiert werden. Es ist daher möglich, vorhandene Filterdaten durch weiteres Ausführen der Erfindung zu verbessern. Im Laufe der Zeit können die Filterdaten präziser werden.
Der Beobachtungsbereich kann zum Beispiel ein Horizont sein, der aus der zu verarbeitenden Abbildung abgeleitet wird. Gewöhnlich können Objekte, wie zum Beispiel Fahrzeuge, Fahrräder, Fußgänger und dergleichen, nicht oberhalb des Horizonts erscheinen.
Bereichsvorschläge oberhalb des Horizonts können folglich aus weiterer Verarbeitung ausgeschieden werden.
Außerdem kann die Größe der Bereichsvorschläge durch Einsatz des Filterns präziser sein. Was die Fahrzeuge betrifft, kann die Größe durch Berücksichtigung der Szene und der Position, an der ein bestimmter Bereichsvorschlag erscheinen soll, ausgewählt werden . Bevorzugt können Deep-Learning-Verfahren und/oder künstliche Intelligenz eingesetzt werden. Die Infrastruktureinheit kann zum Beispiel Deep-Learning-Verfahren und/oder künstliche Intelligenz gemeinsam mit dem erfinderischen Konzept einsetzen, um Verkehrsteilnehmererfassung auszuführen, wie zum Beispiel Fahrzeugerfassung, Fahrzeugidentifikation, Fahrzeugmitverfolgung und dergleichen.
Die Infrastruktureinheit kann ferner die Deep-Learning-Verfahren und/oder künstliche Intelligenz einsetzen, um aus Langzeitbeobachtungen eine Beziehung zwischen sichtbarer Objektskalierung in Zusammenhang mit der Lage des Objekts auf der Bodenfläche der Kreuzung insbesondere in einer bestimmten zu verarbeitenden Abbildung zu lernen. Sie kann auch Langzeitbeobachtungen in Zusammenhang mit dem Bereich und der Fläche eines Felds lernen, das gültige Beobachtungen enthält, die durch die Horizontlinie oder dergleichen bereitgestellt werden können. Die
Infrastruktureinheit kann auch das Deep-Learning-Verfahren und künstliche Intelligenz einsetzen und kann die gewonnenen Kenntnisse über Maßstäbe in Zusammenhang mit den erfassten Objekten unter Berücksichtigung einer Lage in der Abbildung, die zu verarbeiten ist, zum Optimieren der Leistungsparameter der Obj ekterkennungsvorgehensweise anwenden, wie zum Beispiel Latenz, Zuverlässigkeit und Entfernungsbereich, wobei Objekte
über die Horizontlinie hinaus nicht mehr berücksichtigt werden müssen .
Ferner wird beispielhaft vorgeschlagen, dass mindestens einer der Verkehrsteilnehmer eine gewünschte Bahn anfragt, was das Bestimmen einer bestimmten Nennbahn für den Verkehrsteilnehmer und das Kommunizieren der bestimmten Nennbahn zu dem Verkehrsteilnehmer veranlasst. Das erlaubt es, bestimmte Wünsche des Verkehrsteilnehmers zu berücksichtigen. Die
Infrastruktureinheit kann zum Beispiel die Anfrage prüfen und die Nennbahn durch Berücksichtigen von Bahnen aller Verkehrsteilnehmer bestimmen. Die Nennbahn kann dann dem Verkehrsteilnehmer bekannt gegeben werden, so dass der Verkehrsteilnehmer auf der Nennbahn fahren kann. Das kann auch in einem besseren Verkehrsfluss resultieren, da die Infrastruktureinheit die meisten, insbesondere alle Bahnen der gegenwärtigen Verkehrsteilnehmer berücksichtigen kann.
Beispielhaft wird auch vorgeschlagen, dass das Prüfen einer bestimmten Nennbahn durch Simulation für den Verkehrsteilnehmer enthalten ist. Insbesondere kann eine S/W-basierte Prüfung der Bahnen vor ihrem Versand bereitgestellt werden.
Bei einer anderen beispielhaften Verbesserung ist das Abfragen einer tatsächlichen Geschwindigkeit und/oder Position mindestens eines der Verkehrsteilnehmer enthalten, um seine tatsächliche Bahn zu bestimmen.
Bei einer weiteren beispielhaften Verbesserung wird in Abhängigkeit von der eingesetzten Kapazität des Verkehrswegs die Geschwindigkeit der Verkehrsteilnehmer automatisch angepasst.
Gemäß einer anderen Verbesserung ist das automatische Anpassen der Geschwindigkeit mindestens eines der Verkehrsteilnehmer enthalten, während sich der Verkehrsteilnehmer einem vorbestimmten Durchfahrtmuster für den Verkehrsweg nähert. Diese
Verbesserung kann insbesondere autonomes Fahren, bevorzugt in Innenräumen sowie auch im Freien, betreffen.
Jede der Infrastruktureinheiten, insbesondere erfinderische Vorrichtungen, kann zur bidirektionalen Kommunikation der Verkehrsteilnehmer fähig sein, insbesondere erfasste Fahrzeuge, um Anfragen von den Verkehrsteilnehmern und jeweiligen Kreuzungssteuervorrichtungen und Versandbefehle zu den Verkehrsteilnehmern zu empfangen.
Die Infrastruktureinheit kann auch fähig sein, Anfragen und Befehlsdaten von den Verkehrsteilnehmern und den Kreuzungssteuervorrichtungen zu empfangen sowie Versand verarbeiteter Objektinformationen erneut zu senden.
Bevorzugt sind alle Infrastruktureinheiten bzw. erfinderischen Vorrichtungen bevorzugt miteinander verbunden und können eine Maschennetzwerktopologie für bidirektionale Kommunikation, Fahrzeuganfragen und Befehle von der Kreuzungssteuervorrichtung bilden, um Einzelfehlerstellen zu vermeiden und den Bereich der Kreuzungsfläche durch Anwenden von Auffrischungen und Wiederholungen zu erhöhen.
Bevorzugter kann die Infrastruktureinheit mit bevorzugt allen der sich nähernden Verkehrsteilnehmer, insbesondere mit Fahrzeugen, die den Kommunikationsbereich erreichen, kommunizieren und kann die Koordinaten angefragter Zielorte abfragen und die Anfragen zu der Kreuzungssteuervorrichtung weiterleiten .
Mindestens eine der Infrastruktureinheiten, die an der Kreuzung oder Zufahrt positioniert sind, kann auch ein zentrales Kreuzungssteuersystem bzw. eine Kreuzungssteuervorrichtung hosten, das/die Verkehrsdaten bevorzugt aus allen Infrastruktureinheiten sammeln kann, darunter Anfrage von den Verkehrsteilnehmern, insbesondere von den Fahrzeugen.
Die Kreuzungssteuervorrichtung kann mehrere selbst fahrende autonome oder automatisierte Verkehrsteilnehmer bzw. Fahrzeuge, die um Zugriff auf einen jeweiligen exklusiven Bahnverlauf auf dem Verkehrsweg anfragen, insbesondere eine oder mehrere Spuren zu der Kreuzung, koordinieren. Auf diese Art kann eine bestimmte Passage für einen bestimmten Verkehrsteilnehmer reserviert werden . Ferner kann die Kreuzungssteuervorrichtung die
Reservierungsanfrage von dem Verkehrsteilnehmer, insbesondere dem Fahrzeug, empfangen und kann einen Bahnverlauf berechnen, der unmittelbar in Bezug auf die tatsächlichen Verkehrsdaten, die insbesondere von externen Sensoren empfangen werden, gemeinsam mit den Wegdaten anderer Fahrzeuge vorab simuliert werden kann. Die Kreuzungssteuervorrichtung kann Anfragen von dem Verkehrsteilnehmer, insbesondere von Fahrzeugen, handhaben und ununterbrochene Verlaufsplanung und Steuerung bereitstellen. Außerdem kann die Kreuzungssteuervorrichtung jedem der Verkehrsteilnehmer, insbesondere Fahrzeugen, ein spezifisches Zeitfenster oder eine Spur in dem vorherrschenden Durchfahrtmuster zuweisen. Die Kommunikation zwischen der Kreuzungssteuervorrichtung und den Verkehrsteilnehmern bzw. Fahrzeugen kann durch die Infrastruktureinheiten erfolgen.
Außerdem kann die Kreuzungssteuervorrichtung eine beliebige präzise Lage und Geschwindigkeit bevorzugt jedes der einzelnen Verkehrsteilnehmer, insbesondere der Fahrzeuge, abfragen, und kann ihre individuellen Bahnen zum präzisen Steuern der Position jedes der Verkehrsteilnehmer zu einer bestimmten Zeit berechnen. Außerdem kann die Kreuzungssteuervorrichtung sowohl einen herkömmlichen Koordinationsmechanismus in der Form einer
deterministischen Zustandsmaschine sowie künstliche Intelligenz basierend auf einem Koordinationsmechanismus in der Form überwachter und auf Regeln basierender Maschinenlerntechniken anwenden .
Die Kreuzungssteuervorrichtung kann über das Gewähren oder Zurückweisen der Anfrage in Abhängigkeit von dem vorherrschenden Verkehrsfluss und an die grundlegende Kreuzungssteuerpolitik ausgerichtet entscheiden.
Bevorzugt kann die Kreuzungssteuervorrichtung Onboard- Simulationsanalyse anwenden, um die Funktionalität vorgeschlagener Fahrzeugbahnen zu prüfen. Ununterbrochene und andauernde Kreuzungssimulation kann helfen, Zusammenstöße zu vermeiden.
Falls die Anfrage eines individuellen Verkehrsteilnehmers nicht gewährt werden kann, muss der Verkehrsteilnehmer verlangsamt werden, um auf eine spätere Reservierungsgenehmigung zu warten. Schlimmstenfalls kann der Verkehrsteilnehmer vollständig angehalten werden, bevor er Erlaubnis zum Einfahren in die Kreuzung erhält.
Bevorzugt, falls das Fahrzeug automatisch gefahren oder automatisch gesteuert wird, kann die Geschwindigkeit des einzelnen Fahrzeugs automatisch angepasst werden, während es sich einem Vierszenen-Durchfahrmuster nähert, so dass das Fahrzeug in den projizierten Bahnverlauf zur richtigen Zeit und im richtigen Zeitfenster einfährt, während das Gesamtmuster beständig ununterbrochen ungestört fließen kann.
Bei Bedingungen mit schwerem Verkehr organisiert eine beliebige der Kreuzungssteuervorrichtungen, bevorzugt alle
Kreuzungssteuervorrichtungen, bevorzugt die sich nähernden Fahrzeuge in virtuelle Chargen, statt den Gesamtverkehrsfluss auf der Basis der einzelnen Fahrzeuge zu koordinieren. Die
Schwerverkehr-Kooperativ-Wahrheitskontrolle (Heavy Traffic Cooperative Truth Control) kann das Fahrzeug veranlassen, einem anderen zu folgen, um gemeinsame Beschleunigungsmanöver auf einem Feed-Forward-Steuerweg durch Fahrzeug-zu-Fahrzeug- Kommunikation zu teilen.
Bevorzugt ist die Kreuzungssteuervorrichtung bevorzugt mit mindestens einem auf Kamera basierenden Überwachungssensor (CCTV-Kamera) verbunden, um Videodaten des vorherrschenden Verkehrsszenarios zu steuern.
Bevorzugt kann die Kreuzungssteuervorrichtung ein Onboard- Bildverarbeitungssystem hosten, das fähig ist, die individuellen Verkehrsteilnehmer, insbesondere Fahrzeuge, auf der Basis des Erscheinens zu identifizieren, um vorübergehend einen individuellen Identitätsindex zu zeichnen, der voll automatisiertes Mitverfolgen und Neuidentifikation in dem Fall erlaubt, in dem das Fahrzeug in dem Blickfeld benachbarter Kamerasensoren stromabwärts des Verkehrswegs wieder erscheint.
Für diesen Zweck kann die Kreuzungssteuervorrichtung eine Onboard-Bildverarbeitung hosten, die fähig ist, die einzelnen Verkehrsteilnehmer, insbesondere Fahrzeuge, auf der Basis automatischer Nummernschilderkennung mittels optischer Zeichenerkennung (Optical Character Recognition - OCR) oder dergleichen zu identifizieren.
Außerdem kann die Kreuzungssteuervorrichtung ein Onboard- Bildverarbeitungssystem hosten, das fähig ist, Fußgänger, insbesondere Fußgänger außerhalb von Zebrastreifen zu identifizieren und mitzuverfolgen .
Das Onboard-Bildverarbeitungssystem kann auch konfiguriert sein, um Fußgänger zu identifizieren und mitzuverfolgen . Bevorzugt kann das Onboard-Bildverarbeitungssystem der
Kreuzungssteuervorrichtung konfiguriert sein, um Fußgänger
außerhalb des Zebrastreifens zu identifizieren und auf dem Verkehrsweg mitzuverfolgen, insbesondere, falls der Verkehrsweg eine Straße ist, oder auf der Kreuzung, um die Ausführung einer speziellen Zusammenstoßschutzvorgehensweise auszulösen, die den Verkehrsteilnehmern, insbesondere Fahrzeugen, die sich in unmittelbarer Nähe befinden, neue Verlaufs- und Wegdaten zuzuweisen .
Bevorzugt können alle Infrastruktureinheiten mit der Kreuzungssteuereinheit, die durch eine
Kreuzungssteuervorrichtung bereitgestellt wird, kommunizieren.
Die Lehren der vorliegenden Erfindung können ohne Weiteres verstanden werden, und mindestens einige zusätzliche spezifische Einzelheiten ergeben sich bei der Betrachtung der folgenden ausführlichen Beschreibung mindestens einer beispielhaften Ausführungsform verbunden mit den begleitenden Zeichnungen, in welchen Fig. 1 schematisch eine zu verarbeitende Abbildung zeigt, die eine Vielzahl von Bereichsvorschlägen für das Erfassen von Objekten sowie drei beispielhafte klassifizierte Objekte aufweist;
Fig. 2 in einer schematischen dreidimensionalen Skizze eine erfindungsgemäße Skalierfunktion für das Filtern von Vorschlägen unter Verwenden geschätzter skalierter Filter zeigt;
Fig. 3 eine schematische zweidimensionale Skizze zeigt, die eine Projektion der Figur 2 in einer Ebene ist, die verwendet wird, um die Skalierfunktionen zu schätzen;
Fig. 4 die Abbildung, die gemäß Figur 1 zu verarbeiten ist, zeigt, wobei die Bereichsvorschläge erfindungsgemäß gefiltert werden, und zusätzlich zeigt, dass
Bereichsvorschläge kleiner werden, während sie sich dem Horizont nähern; ein schematisches Flussdiagramm zeigt, das ein Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg gemäß der Erfindung zeigt; eine schematische Skizzenskala verglichen mit Wiedererkennung für VGG-M-Netzwerke zeigt, wobei Bins durch gleichmäßig verteilte Muster bestimmt werden; eine schematische Okklusionsskizze im Vergleich zu Wiedererkennung für VGG-M-Net zwerke zeigt, wobei Bins durch gleichmäßig verteilte Muster bestimmt werden, und wobei ein maximales Okklusionsverhältnis auf 0,5 gestellt ist.
Die ausführlichen Ausführungsformen, die unten beschrieben sind, befassen sich damit, wie die Erfindung insbesondere autonomem Fahren unterzogen wird. Die Erfindung ist jedoch nicht auf Anwendungen im Freien beschränkt, sondern kann auch in Innenraumanwendungen angewandt werden, wie zum Beispiel bei Lagerhallenanwendungen, insbesondere im Hinblick auf das Lagern von Waren und dergleichen.
Autonomes Fahren bleibt immer noch eine große Herausforderung, bei der die Umgebung, wie sie von einer oder mehreren Kameras aufgenommen wird, die eingerichtet sind, um Bilder bzw. Abbildungen von Fahrzeugen als Verkehrsteilnehmeränderungen, die schnell und unerwartet auftreten können, beobachtet wird. Fahrzeuge können zum Beispiel am Straßenrand geparkt werden, diverse Initiativen und Ereignisse in der Stadtmitte können sich auf den Verkehr auswirken, und dergleichen. Insbesondere kann die Gegenwart von mehr Leuten in einer höheren Wahrscheinlichkeit, dass jemand die Straße überquert, resultieren .
In diesem Zusammenhang hat auf Infrastruktur basierendes Erfassen das Potenzial, den Einzelfahrzeug-Standpunkt zu ergänzen und die Einführung voll autonomer Fahrzeuge zu beschleunigen. Die Erfindung betrifft insbesondere das Erfassen und Erkennen von Verkehrsteilnehmern, wie zum Beispiel von Fahrzeugen, aus der Voraussicht von Überwachungskameras, die im Wesentlichen den Fahrzeugen eine Wahrnehmung über das Fahrzeug vor ihnen hinaus und hinter einer Ecke verleihen.
Die Kameras können ein Bauteil einer oder mehrerer erfindungsgemäßer Vorrichtungen sein. Es besteht ein großes Potenzial in der Nutzung der statischen Sicht einer Überwachungskamera, die eine bessere und schnellere Erfassung ergeben kann.
Die Erfindung betrifft insbesondere Bereichsvorschläge, die ein wichtiges Merkmal moderner Erfassungsalgorithmen bilden. In diesem Zusammenhang schlägt die Erfindung eine einfache Erweiterung des Faster R-CNN (Regional-based Convolutional Neural Network) vor und zeigt, dass das Einstufen von Vorschlägen in Zusammenhang mit einer Szenengeometrie in weniger falschen positiven Resultaten resultieren kann, indem Vorschläge in überladenen Bereichen verringert werden, wo jeweilige Algorithmen gewöhnlich für Fehler anfällig sind.
Außerdem ergibt die Erfindung weniger falsche negative Resultate, da sie Wiedererkennung durch Enthalten von mehr Vorschlägen, wo sie am nötigsten sind, zum Beispiel für kleine Fahrzeuge an der Entfernung erhöht. In Zusammenhang mit einer solchen Ausführungsform wird mit dem UA-DETRAC-Datensatz experimentiert, der auf dem Vanilla Faster R-CNN (VGG-16) um etwa mehr als 19 % verbessern kann. Diese Verbesserung kann weitgehend beim Umschalten auf ein Faster VGG-M-Netzwerk aufrechterhalten werden.
Erfindungsgemäß wird vorgeschlagen, 3D-Obj ektvorschläge zu erzeugen, indem Szenengeometrie unter Verwenden kalibrierter monokularer oder Stereokameraanordnung genutzt wird. Eine automatische Schätzung der ungefähren Szenengeometrie im Sinne eines maßstabgerechten Layouts wird vorgeschlagen.
Diese Informationen werden in einen Detektor eingebaut, um Bereichsvorschläge zu erzeugen. Der erfinderische Ansatz berücksichtigt, dass die Szene weitgehend statisch ist, aber gewöhnlich keine Kamerakalibrierungsinformationen bzw. -daten benötigt .
Die Bedeutung von Hochauflösungsfunktionen wird in der Literatur semantischer Segmentierung ebenfalls angesprochen, wo das Ziel darin besteht, präzise Objektgrenzen und hochwertige Semantiken zu bestimmen. Für dichte Vorhersageaufgaben werden typischerweise Ent-Faltungen eingesetzt. Es wurde jedoch auch eine einfachere Alternative vorgeschlagen, nämlich das Entfernen von Max-Pooling-Schichten für dichte Funktionskarten, und das Einsetzen erweiterter Faltungen, um die Kontaktgröße so groß wie möglich zu halten, ohne die Anzahl von Parametern zu erhöhen. Das Entfernen von Pooling-Schichten kann auch das Erfassen von kleinformatigen Fußgängern betreffen. Sie berücksichtigen jedoch keine erweiterten Faltungen.
Die Erfindung erweitert Faster R-CNN in Zusammenhang mit Objekterfassung, um vorgeschlagene geometrische Vorschläge einzugliedern. Geometrische Vorschläge codieren das Szenenlayout einer statischen Kamera auf eine einfache und effektive Art. Im Allgemeinen kann das Faster R-CNN-Detektion in mindestens zwei Etappen arbeiten. Bei einer ersten Etappe wird ein volles Faltungs-Bereichsvorschlagsnetzwerk (Region Proposal Network - RPN) bereitgestellt, das das vollständige Bild bzw. die vollständige Abbildung, das/die zu verarbeiten ist, an dem Eingang nimmt und klassenagnostische Objektvorschläge erzeugen kann .
Die zweite Stufe basiert auf einem Klassifizierungsnetzwerk, das die eingehenden Vorschläge in gegebene Objektklassen einstuft. Die Faltungsschichten werden für beide Aufgaben, das heißt Erzeugen von Vorschlägen und deren Klassifizieren, gemeinsam verwendet .
Geometrische Erweiterung auf RPN Gewöhnlich kann ein Bild bzw. eine Abbildung, das/die zu verarbeiten ist, potenziell einige wenige große Objekte und einige oder mehrere kleine Objekte enthalten. Das wird jedoch üblicherweise nicht in dem Faster R-CNN-Algorithmus insbesondere aufgrund des RPN, das eine gleiche Menge von Objekten über Maßstäbe hinweg vorschlägt, berücksichtigt. Eine Beziehung zwischen den Bereichsvorschlägen und der Szenengeometrie wird mittels einer Objekt-Maßstab-Schätzung wieder ermittelt. Zuerst werden die sichersten Objekte erfasst. Dann wird eine pixelweise Maßstabschätzung als ein Proxy für die tatsächliche Szenengeometrie geschätzt. Abschließend wurden die RPN- Vorschläge beschnitten.
Anfängliche Erfassungen Die sichersten (mit hohen Resultaten)
Verkehrsteilnehmererfassungen bzw. Fahrzeugerfassungen werden verwendet, um automatisch dieses Layout, das in Figur 1 gezeigt ist, zu schätzen. Über eine Ansicht anfänglicher Sekunden einer Videosequenz, zum Beispiel Daten 10 s zuverlässiger Erfassungen, reichen für eine wirklich zuverlässige Maßstabschätzung. Zu bemerken ist, dass die sichersten Erfassungen im Allgemeinen nicht okkludiert und nicht trunkiert sind.
Pixelweise Maßstabschätzung
Dann wird das Maßstablayout für das zu verarbeitende Bild bzw. die zu verarbeitende Abbildung geschätzt, das heißt eine Bildmaßstabfunktion, die den Maßstab des Objekts angesichts seiner Position in dem Bild beschreibt. In diesem Fall entspricht das der erwarteten Größe eines Verkehrsteilnehmers bzw. Fahrzeugs in einer bestimmten Bildposition.
Nehmen wir einen anfänglichen Satz von Erfassungen an Positionen {x}iN an, wobei die x die Mitte von Erfassungs- Begrenzungsrechtecken sind und N die Anzahl anfänglicher Erfassungen ist. Es wird auf die Schätzung einer Maßstabfunktion (x) abgezielt, die die Größe des Objekt-Begrenzungsrechtecks in Pixel2 an jeder Pixelkoordinate präsentiert. Es wird ein Polynom zweiten Ranges angenommen, um die Funktion zu approximieren und anhand der Methode der kleinsten Fehlerquadrate anzupassen:
(1) wobei p2, Pi und po Parameter, die zu schätzen sind, sind. Notizen zur Polynom-Anpassung
Das Polynom zweiten Ranges reicht, um ein flaches Szenenlayout aus einer homographischen Projektion darzustellen. Diese Annahme ist bei den meisten Straßenszenen plausibel, da Verkehrswege, die von der Überwachungskamera sichtbar sind, meistens flach bzw. eben sind. Die Approximation des Maßstablayouts kompensiert für die Größenschwankungen der Objekte bzw. Fahrzeuge, zum Beispiel Automobile unterschiedlicher Größe und dergleichen, angesichts der ausreichenden Anzahl von Erfassungen. Das wird durch eine Testschätzung gemäß Figur 2 veranschaulicht. Das Maßstablayout stellt automatisch eine Horizontschätzung bereit, die auch in den Figuren 2 bis 4 durch das Bezugszeichen 50 angegeben ist.
Vorschlagbeschneiden
Innerhalb des RPN-Moduls des vorgeschlagenen GP-FRCNN, werden Objektvorschläge gemäß Folgendem beschnitten:
II s( ) - b II
< σ
s( )
(2)
Hier ist s (x) die Maßstabschätzung des Objekts an der Position x, wie in der Gleichung (1) beschrieben, und b ist die tatsächliche Begrenzungs-Rechteckgröße des Objekts, o stellt die akzeptable Abweichung der Vorschlagsgröße von der Maßstabfunktion dar. Gegenwärtig wird ihr Wert für alle unterschiedlichen Ausführungsformen basierend auf den beobachteten Varianten in den Trainingsdaten auf 0,3 festgelegt.
Über eine Objektklasse hinaus
Für den DETARC-Challenge werden nur Fahrzeuge als Zielerfassung für die Schätzung des Maßstablayouts berücksichtigt. Zu bemerken ist jedoch, dass die Gleichungen (1), (2) auch für das Schätzen anderer Objektgrößen gelten können.
Mit einer gegebenen einzelnen korrekten Maßstabbeobachtung eines anderen Objekts, zum Beispiel eines Busses, als ein gewisses Fahrzeug, kann man die Maßstabschätzungsfunktion s (x) daran durch einfaches Skalieren mit dem Faktor -^— anpassen, wobei s (x) s(x)
die ursprüngliche Maßstabfunktionsschätzung der Pixelposition ist, und b' die Größe der Buserfassung ist.
Feinabstimmung für Faster R-CNN
Der Einsatz geometrischer Vorschläge ist eine einfache Erweiterung zu dem Vanilla Faster R-CNN, aber die einfache Integration kann die Leistung verschlechtern. Unten wird
Anpassung vorgeschlagen, um das Modell bzw. das Verfahren zu verbessern. Die Anpassungen können für unterschiedliche Modelleinstellungen gelten, zum Beispiel die Auswahl des Netzwerks .
Spezifische Anker-Maßstäbe
Während des Trainings können Faster R-CNN die Objekt- Begrenzungsrechtecke in Anker-Maßstäbe und erwartete Verhältnisse trennen. Standardmäßig kann der Maßstabsatz von Anker-Rechtecken {8, 16, 32} sein. Das kann für die meisten Erfassungs-Benchmarks, wie zum Beispiel PASCAL VOC, geeignet sein. Das Anwenden des Faster R-CNN mit den Standard- Ankermaßstäben auf den UA-DETRAC-Standard kann jedoch schwerwiegend hinter den Erwartungen zurückbleiben, weil die meisten Fahrzeuge viel kleiner sind als der kleinste Standardmaßstab. Die Bereichsvorschläge, die den kleinsten Anker-Rechtecken entsprechen, müssen folglich für jedes Objekt dienen, das kleiner ist als seine eingestellte Größe im Kontrast zu dem eigentlichen Konzept von Anker-Maßstäben. Dieses Problem kann behoben werden, indem der Satz mit kleineren Maßstäben in der Sequenz erweitert wird, das heißt {1, 2, 4}, wofür Resultate in Figur 6 gezeigt sein können. Figur 6 zeigt in einer schematischen Skizze den Maßstab im Vergleich zu Wiedererkennung für ein VGG-M-Netzwerk, wobei Bins als Muster gleichmäßig verteilend bestimmt wurden. Figur 6 zeigt eine Skizze 52, in der eine Ordinate 54 der Wiedererkennung in % zugeordnet ist, und eine Abszisse 56 der mittleren Fahrzeuggröße (Pixel2) zugeordnet ist. Die Tupel von Bins betreffen einen Bin 58, der dem FRCNN entspricht, einen Bin 60, der dem FRCNN+GP entspricht, einen Bin 62, der dem FRCNN+BW entspricht, sowie einen Bin 64, der dem FRCNN+BW+PG entspricht. Bei einer alternativen Ausführungsform kann auch mit quantisierten Maßstäben in Zusammenhang mit den Trainingsdaten
experimentiert werden. Es hat sich jedoch herausgestellt, dass beide Techniken in ähnlichen Leistungen resultieren, weshalb unten nur die einfache Erweiterung auf den Maßstabssatz der Anker in RPN berücksichtigt wird.
Funktionskarten mit höherer Auflösung
Eine zweite Einschränkung des Faster R-CNN auf kleinere Objekte kann durch die Quasar-Auflösung seines CNN-Funktionsblocks gegeben werden. Dieses Problem wurde mehrere Male bei semantischer Segmentierung festgestellt, wodurch eine Quasar- Granularität die pixelweise Auflösung einschränken kann.
Daher wird vor dem Vorschlag des Faster R-CNN und der Klassifikationsanlage eine Finderfunktionskarte vorgeschlagen. Ausführlicher wird der Funktionsabstand von 16 zu 18 durch Entfernen der letzten Max-Pooling-Schicht von den Basisfunktionsnetzwerken an allen experimentierten Modellen verringert .
Das kann effektiv zur Erhöhung der Anzahl von Stellen auf dem Bild bzw. der Abbildung führen, an welchen nach dem Objekt zu suchen ist, was in einem signifikanten Gewinn an Wiedererkennung für die kleinen Fahrzeuge resultiert, wie aus Figur 6 ersichtlich ist .
Ferner ist zu bemerken, dass das in einem kleineren jeweiligen Feld auf dem eingegebenen Bild bzw. auf der eingegebenen Abbildung, das/die zu verarbeiten ist, resultieren kann. Obwohl das eventuell nicht alle kleinen Objekte, für die das Modell eine größere Fläche in dem Objekt betrachten muss, betrifft, kann das die Wiedererkennung für die größeren Fahrzeuge in den Experimenten, für die der Kontext zu knapp wird, verringern. Diese Wirkung kann bei kleineren Funktionsmodellen, wie zum Beispiel FGG-M, offensichtlicher sein, während größere Modelle
robuster scheinen und potentiell ausreichend große jeweilige Felder aufrechterhalten.
Mehrstufentraining
Das Lernen der Parameter für alle Faltungsschichten der Erfassungsaufgabe ist nicht einfach, weshalb bei der Standardstrategie zum Trainieren des Faster R-CNN-Modells die Parameter bevorzugt mit dem vortrainierten ImageNet-Modell initialisiert werden, und das Lernen der ersten f 4 Faltungsschichten übersprungen werden kann. Das bedeutet, dass die Funktionen niedrigen Niveaus in dem grundlegenden Faster R- CNN-Modell immer noch diejenigen sein können, die tatsächlich nur für die Bild-Nettoklassifizierungsaufgäbe trainiert werden. Das braucht natürlich keine optimale Einstellung zu sein. Es kann jedoch ein mehrstufiger Trainingsansatz herangezogen werden, und diese anfänglichen Faltungsschichten, die in dem Standard-Trainingsstadium der Faster R-CNN übersprungen werden, können ebenfalls gelernt werden. In dem ersten Stadium kann die Standardstrategie beibehalten werden, und die Parameter der intimalen Faltungsschichten der Netzwerke werden nicht gelernt. Bei dem zweiten Stadium kann die Trainingsvorgehensweise auf dem vollständigen Netzwerk fortgesetzt werden, nachdem die ursprünglichen Faltungsschichten ebenfalls entriegelt sind. Alternativ könnte man auch eine Strategie einem Aufwärmtraining ähnlich, mit sehr kleinen Lern-Raids untersuchen.
Experimente und Resultate Die Einzelheiten der Experimente und die Resultate der erfindungsgemäßen Ansätze auf dem UA-DETRAC werden bereitgestellt, was ein sehr umfassender Datensatz für Überwachungsszenarien ist. Der Datensatz besteht aus 100 Videosequenzen (60 für das Training, 40 für das Testen), die reale Verkehrsszenen bei unterschiedlichen Wetterbedingungen präsentieren .
Netzwerkaufbauten
Zwei unterschiedliche Varianten der VGG-Netzwerkaufbauten werden verwendet. Die erste ist VGG_CNN_M_1024 mit 5 Faltungs- und 3 vollständig verbundenen Schichten. Unten wird dieses Netzwerk VGG-M genannt. Die zweite ist VGG-16 mit 13 Faltungs- und 3 vollständig verbundenen Schichten. Trainingsstrategie
Die folgende Strategie ist in dem ursprünglichen Bericht des UA- DETRAC-Datensatzes zum Auswählen von Round-Truth-
Fahrzeuganmerkungen zum Trainieren der Modelle beschrieben. Das bedeutet, dass nur Fahrzeuge mit weniger oder gleich 50 % Okklusion und 50 % Trunkierung enthalten sind. Um die Modelle robust zu machen und übermäßige Anpassung an DETRAC-Szenarien zu vermeiden, wurden PASCAL VOC 2007- und 2012-Trainval-Bildsätze gemeinsam mit den DETRAC-Bildern verwendet, um die Modelle zu trainieren. Das Training wird für alle 20 Standardklassen des PASCAL VOC-Datensatzes erstellt. Die Bewertungen zeigen, dass das Training für alle 20 Klassen im Allgemeinen leicht besser sein kann als das Training nur für Fahrzeuge. Für alle Experimente wird der Ende-an-Ende-Ansatz des Faster R-CNN zum Modelltraining verwendet, der sowohl RPN als auch das Klassifizierungsnetzwerk gleichzeitig trainiert.
Die Auswahl des NMS-Schwellenwerts ist für typische Objektdetektoren recht kritisch. Da nur Fahrzeuge mit weniger oder gleich 50 % Okklusion in dem Validierungssatz berücksichtigt werden, kann es theoretisch sinnvoll sein, einen NMS-Schwellenwert von 0,5 zu verwenden. Außerdem kann ein strikterer Wert für den Faster R-CNN-Parameter FG_THRESH, das heißt 0,7 an Stelle von 0,5, für eine Erfassung, die während des Trainings des Klassifizierungsnetzwerks als eine positive Klasse zu betrachten ist, verwendet werden. Dieser Wert ist für alle
gegenwärtigen Resultate optimal, da die Online-UA-DETRAC- Bewertung IoU von 0,7 verwendet, um eine Erfassung als richtig zu zählen. Validierung
Es wird davon ausgegangen, dass die Verteilungen der Fahrzeugdaten in den Trainings- und Testsätzen ähnlich sind, weshalb es sinnvoll ist, einen Validierungssatz für umfassende Bewertungen herauszunehmen. Bei der vorliegenden Ausführungsform werden 36 Videos ausgewählt, die unterschiedliche Gesichtspunkte und Wetterbedingungen in einem Validierungssatz aufweisen. Die restlichen 24 Videos werden verwendet, um die Modelle in dieser Validierungsphase zu trainieren.
Um das Modell zu trainieren, werden alle Rahmen aus den ausgewählten 24 Videos des Trainingssatzes verwendet. Zum Testen wird jeder zehnte Rahmen aus den 36 Sequenzen des Validierungssatzes berücksichtigt. Das erlaubt es, schnell mehrere Ansätze zu bewerten, darunter Verbesserungen und Verfeinerungen für das Faster R-CN-Rahmenwerk . In Tabelle 1 bemerkt man, dass eine signifikante Verbesserung hinsichtlich der mittleren Präzision (Average Precision - AP) nach dem Aufnehmen von PASCAL VOC-Datensätzen erzielt werden kann. Das vorgeschlagene Verfahren kann ausführlich unter Verwendung eines kleineren VGG-M-Netzwerkes in Zusammenhang mit unterschiedlichen Aspekten bewertet werden, darunter die Fähigkeit, Maßstabänderungen zu bewältigen, und unterschiedliche Niveaus von Okklusion.
Verfahren AP (%) Geschwindigkeit
(fps)
Faster RCNN 58, 9 12
Faster RCNN 64, 1 11
+ Extraanker 68, 8 11
+ hochauflösende 72, 3 8
Funktionskarten
+ GP GP-FRCNN 78,7 8
+ Mehrstufen80, 9 8
training
Tabelle 1
Maßstabinvarianz Hier wird berichtet, dass das abschließende Modell fähig ist, die Maßstabinvarianzeigenschaft des ursprünglichen Detektors zu verstärken. Es wird gezeigt, dass die Fusion geometrischer Vorschläge und einer modifizierten Version des Faster R-CNN fähig ist, die Detektor-Wiedererkennung ungeachtet des Maßstabs des Objekts signifikant zu verbessern.
Die Resultate werden gemäß Figur 6 gemeldet. Man bemerkt, dass der grundlegende Ansatz die Leistung für das Erfassen von Fahrzeugen mit kleineren Maßstäben signifikant verfehlt. Das Hinzufügen der geometrischen Vorschläge (Geometrie Proposais - GP) durch Verwenden des erfinderischen vorgeschlagenen Maßstablayouts (Figuren 1 bis 4) hilft eventuell überhaupt nicht. Das gibt an, dass grundlegende Modelle nicht genug Fähigkeit zum Handhaben von Objekten mit kleineren Maßstäben, wie oben besprochen, haben.
In Zusammenhang mit kleinen Objekten kann jedoch eine Verbesserung erzielt werden, indem Beils und Whistles (BW) in das Netzwerk eingeführt werden, zum Beispiel Extraanker, die auf kleinere Objekte abzielen, und der Funktionsabstand verringert wird, um Funktionskarten mit höherer Auflösung zu erlauben. Obwohl höhere Wiedererkennung für die kleineren Fahrzeuge erzielt werden kann, kann diese Änderungen eine negative Auswirkung auf das Erfassen größerer Fahrzeuge haben.
In Figur 6 ist sichtbar, dass Wiedererkennung konsistent nach BW sinkt. Das zeigt, dass das Erhöhen der Auflösung der Funktionskarten eventuell nicht immer helfen kann. Da dadurch das effektive rezeptive Feld auf dem zu verarbeitenden Bild bzw. der zu verarbeitenden Abbildung verringert werden kann, kann das Erfassen größerer Objekte für das Netzwerk schwierig zu handhaben werden. Die vorgeschlagenen geometrischen Vorschläge (GP) , die eventuell zuvor ineffektiv waren, können jedoch einen substanziellen Gewinn hinsichtlich der Wiedererkennung für kleinere und mittlere Fahrzeuge bringen, und auch im Gleichlauf mit dem Linienmodell für die größeren Objekte arbeiten. Es ist eine beeindruckende Feststellung, dass geometrisch konsistente Vorschläge die Kapazität des Detektors für kleinere Objekte wesentlich verstärken können, ohne die Leistung für die größeren Objekte zu verschlechtern.
Bessere Okklusionshandhabung
Hier kann bewertet werden, wie gut die Modelle hinsichtlich der Handhabung unterschiedlicher Okklusionsniveaus sind.
Interessanterweise bemerkt man eine ähnliche Tendenz, dass das Einführen der Beils and Whistles (BW) gemeinsam mit den geometrischen Vorschlägen (GP) fähig sein kann, die Einstufungsversagensfälle des RPN zu meistern und die besten Resultate bereitstellen kann.
Gemäß Figur 7 wird die Wiedererkennung aller Modelle in Zusammenhang mit unterschiedlichen Okklusionsniveaus vorgeführt. Figur 7 zeigt eine schematische Skizze 66, die eine Ordinate als Figur 6 und eine Abszisse 68 hat, die einem Hauptokklusionsverhältnis zugewiesen ist. In der Skizze 66 ist das Tupel der Bins 58 bis 64 entsprechend den Bins gemäß Figur 6 gezeigt. Die Wiedererkennung verbessert sich nur leicht, wenn die geometrischen Vorschläge an das Vanilla Faster R-CNN angewandt werden, was die beschränkte Fähigkeit des Modells aufzeigt. Man sieht jedoch, dass das Faster R-CNN mit Beils and
Whistles mit zunehmendem Okklusionsverhältnis signifikant schlechter funktioniert, und sich in der Tat für kein Okklusionsverhältnisniveau verbessert. Dieses Resultat erklärt die Bedeutung eines größeren rezeptiven Felds, das größeren Kontext für das Objekt auf dem zu verarbeitenden Bild bzw. der zu verarbeitenden Abbildung bereitstellt und daher bessere Okklusionshandhabung erlaubt.
Die oben stehenden Feststellungen können auch hinsichtlich der mittleren Präzision erfolgen. Diese Resultate sind in Tabelle 1 bereitgestellt. In dem Fall des UA-DTERAC, ist das Verhältnis der Objektgröße zur Bildgröße im Vergleich dazu ziemlich klein, was in einem typischen Bild eines PASCAL VOC-Datensatzes beobachtet wird. Die Aufgabe wird leichter, wenn mehr geeignete Ankermaßstäbe erlaubt werden, um die Regressionsparameter zu lernen. Man kann bemerken, dass das Hinzufügen zusätzlicher Maßstäbe für die Anker-Rechtecke zum Erfassen kleinerer Fahrzeuge den AP signifikant auf 68,8 % verbessert. Wie oben beschrieben, kann das Erhöhen der Auflösung der Funktionskarten mehr Vorschläge erlauben und kann weiter beim Erfassen kleinerer Objekte helfen. Natürlich kann das die Rechenzeit erhöhen. Des Weiteren kann man bemerken, dass die vorgeschlagene Erweiterung auf das RPN durch Eingliedern von Maßstablayout, das geometrische Vorschläge bietet, den AP um mehr als 6 % anhebt. Dieses Resultat fasst den Gewinn zusammen, den man in den Figuren 6 und 7 für unterschiedliche Objektmaßstäbe und Okklusionsniveaus bemerken kann. Schließlich kann Mehrstufentraining, wie oben beschrieben, den AP weiter auf beachtliche 89,9 % verbessern.
Letztendlich kann auch der vorgeschlagene Ansatz unter Verwenden des größeren VGG-16-Netzwerks bewertet werden. Diese Resultate sind in Tabelle 2 gezeigt. Insgesamt können leicht bessere Resultate erzielt werden, verlieren aber die Hälfte der Rahmenrate. Kooperativ kann beobachtet werden, dass kleinere
Netzwerke (VGG-M) signifikant mehr von den geometrischen Vorschlägen profitieren. Man kann bemerken, dass die Maßstabänderungen das größere Modell (VGG-16) signifikant besser funktionieren lassen als das kleinere (VGG-M) . Die vorgeschlagenen geometrischen Vorschläge verringern jedoch die Leistungsspalte wieder.
Tabelle 2 Der UA-DETRAC-Challenge
Unten werden die Resultate für den UA-DETRAC-Erfassungs- Challenge berichtet, und im Zeitpunkt der Verfassung sind alle derzeit auf der Website hinsichtlich der mittleren Präzision verfügbaren Resultate besser.
Um die Modelle zu trainieren, wird der vollständige UA-DETRAC- Train-Set (60 Videosequenzen oder Bilder) verwendet. PASCAL VOC 2007 und 2012 Trainval-Bildsätze sind ebenfalls enthalten, wie es in der Validierungsphase erfolgt. Man kann beobachten, dass ein Teil der Verkehrsszenarien in dem UA-DETRAC-Test-Sat z relativ dichter und überladener sind als vergleichsweise die Videosequenzen in dem Trainingssatz. Die meisten Resultate, die für den Online-Challenge erhalten werden, stimmen jedoch mit diesen Bewertungen während der Validierungsphase überein. Insgesamt kann es um beeindruckende 19,5 % hinsichtlich des AP im Vergleich zu dem Vanilla Faster R-CNN verbessert werden, das
heißt von 57, 08 % auf 67, 57 %. Man kann bemerken, dass die Auswirkung des Hinzufügens geometrischer Vorschläge nicht so stark ist wie während der Validierung beobachtet. Man vermutet, dass dies auf die Tatsache zurückzuführen ist, dass eine große Anzahl von Objekten kleinen Maßstabs während Online-Bewertung ignoriert werden. Das kann an den markierten ignorierten Erkennungen in dem Bild bzw. der Abbildung, das/die zu verarbeiten ist, liegen. Diese Resultate sind in Tabelle 3 gezeigt.
Tabelle 3
Figur 1 zeigt in einer schematischen Ansicht eine Abbildung 16, die zu verarbeiten ist, mit allen Bereichsvorschlägen 18, die durch einen Bereichsvorschlaggenerator erzeugt werden. Die zu verarbeitende Abbildung 16 zeigt ferner einen Verkehrsweg 14, der eine Vielzahl von Fahrbahnen hat, auf welchen Fahrzeuge 12 als Verkehrsteilnehmer fahren.
Wie aus Figur 1 ersichtlich ist, werden drei Rechtecke 20, 22, 24 bereitgestellt. Das Rechteck 20 befindet sich in einem oberen Abschnitt der zu verarbeitenden Abbildung 16, so dass dieses Rechteck zu groß ist, weil die Verkehrsteilnehmer, die in diesem Abschnitt der zu verarbeitenden Abbildung 16 zu erfassen sind, viel kleiner sind. Das Rechteck 24 in dem unteren Abschnitt der
zu verarbeitenden Abbildung 16 ist hingegen zu klein, um einen Verkehrsteilnehmer bzw. ein Fahrzeug zu enthalten. Im Gegensatz dazu ist ein Rechteck 22 in dem unteren Abschnitt der zu verarbeitenden Abbildung 16 angepasst, um einen Verkehrsteilnehmer bzw. ein Fahrzeug zu enthalten. Die Größe des Rechtecks stimmt mit dem Fahrzeug 12 überein. Die zu verarbeitende Abbildung 16 ist eine einzelne Abbildung eines Videostreams einer Kamera, die nicht gezeigt ist. Figur 2 zeigt eine dreidimensionale Skizze, die Filtervorschläge zeigt, die die geschätzten Maßstabfilter bzw. die Bildmaßstabfunktion verwenden. Eine vertikale Achse 28 entspricht der Größe des Objekts in Einheiten von Pixeln2. Die Achsen 30, 32 verweisen auf Positionen. Eine Ebene 26 definiert eine Fläche, wo Flächenpunkte 28 angeordnet sein können. Die Punkte 28 verweisen auf Positionen zuverlässiger Erfassungen in der Abbildung oder dem Bild 16, die/das zu verarbeiten ist, die verwendet werden können, um die Maßstabfunktionen zu schätzen. Wie man sieht, definiert eine Linie den Horizont 50. Figur 3 zeigt eine Projektion der Ebene 26 in die Richtung der Achse 28 von oben. Wie man sieht, liegt der Horizont 50 parallel zu der Achse 32, die die Achse 30 an dem Wert 100 kreuzt. Die Punkte 28 befinden sich nur unter dem Horizont 50, das heißt an Werten größer als 100 der Achse 30. In dem Bereich des Horizonts 50, befindet sich ein kleiner Maßstab, wobei sich in dem Bereich der Achse 32 ein großer Maßstab befindet.
Figur 4 zeigt eine Wirkung der Erfindung, nämlich dass Bereichsvorschläge viel präziser sind. Zuerst werden sie nur unter dem Horizont 50 bereitgestellt. Außerdem ist die Größe der Bereichsvorschläge 34 besser an den Maßstab angepasst. Das resultiert in präziserem und schnellerem Erfassen von Fahrzeugen 12 durch die Rechtecke 36. Der Grund dafür ist, dass die Rechtecke 36 derart bemessen sind, dass sie in Abhängigkeit von einem Maßstab und einer Position in der zu verarbeitenden
Abbildung 16 besser an Größen von Fahrzeugen 12 angepasst sind. Objektvorschläge werden, während sie sich dem Horizont 50 nähern, kleiner . Figur 5 zeigt in einer beispielhaften Ausführungsform ein schematisches Flussdiagramm eines Verfahrens 10 zum Erfassen von Verkehrsteilnehmern 12, hier von Fahrzeugen, auf einem Verkehrsweg 14 in einer Sequenz aufeinanderfolgender Abbildungen, die durch eine Kamera bereitgestellt werden, die die Sequenz von Abbildungen des Verkehrswegs 14 aufzeichnet. Die Sequenz von Abbildungen wird gegenwärtig durch einen Videostream bereitgestellt .
Bei Schritt 40 wird eine erste Abbildung der Sequenz aufeinanderfolgender Abbildungen ausgewählt, und die erste Abbildung wird als eine Abbildung 16, die zu verarbeiten ist, definiert. Dann wird bei Schritt 42 ein
Bereichsvorschlaggenerator auf die Abbildung 16, die zu verarbeiten ist, angewandt, der durch selektive RP (Faster R- CNN) -Suche, Gleitfenster und dergleichen bereitgestellt werden kann. Der Bereichsvorschlaggenerator erzeugt eine Vielzahl von Bereichsvorschlägen 18 für mögliche Objekte, die in der zu verarbeitenden Abbildung 16 aufgezeichnet sind. Dann, bei Schritt 44, wird geprüft, ob Filter verfügbar sind. Falls nicht, setzt das Verfahren mit Schritt 46 fort, indem alle Bereichsvorschläge 18 des Bereichsvorschlaggenerators, der in Figur 1 ebenfalls gezeigt ist, präsentiert werden. Dann setzt das Verfahren mit Schritt 72 fort, wobei Objekterfassung für alle Bereichsvorschläge 18 bereitgestellt wird, um die Verkehrsteilnehmer 12 zu erfassen, wobei ein vorab definiertes Vertrauensniveau berücksichtigt wird. In dem Verfahrensschritt 74 werden zuverlässige Erfassungen (mit hohem Resultat) gesammelt .
Bei Schritt 76 wird geprüft, ob ausreichend Erfassungen erzielt wurden, um eine Filterschätzung zu erlauben. Falls nicht (n) , setzt das Verfahren mit Schritt 40 fort und wählt eine andere Abbildung der Sequenz aufeinanderfolgender Abbildungen aus, um die Anzahl erzielter Erfassungen zu verbessern.
Falls in Schritt 76 ausreichend Erfassungen erzielt wurden (y) , setzt das Verfahren mit Schritt 78 fort. Bei Schritt 78 werden Filter geschätzt, wie zum Beispiel Maßstabfilter, Seitenverhältnisfilter, ein Horizont und dergleichen. Die geschätzten Filter werden geliefert, um eine Vorschlagfilterung, wie unten besprochen, zu steuern. Wenn die Filter in Schritt 78 geschätzt werden, geht das Verfahren weiter zu Schritt 40, wie oben beschrieben.
Wenn bei Schritt 44 ermittelt wird, dass Filter verfügbar sind (y) , geht das Verfahren weiter zu Schritt 48, indem es Vorschlagfiltern wie oben besprochen anwendet. Das Verfahren setzt dann mit Schritt 70 fort, indem gefilterte Vorschläge auf die zu verarbeitende Abbildung 16 angewandt werden, was ebenfalls in Figur 4 gezeigt ist. Dann geht das Verfahren, wie oben besprochen, weiter zu Schritt 73.
Optional können bei Schritt 80 Kamerakalibrierungsinformationen bzw. -daten empfangen und zu Schritt 78 geliefert werden, um die Filterschätzung zu verstärken.
Wie durch diese Offenbarung gezeigt, hat der vorgeschlagene GP- FRCNN-Ansatz das Potenzial, die Einstufungsversagen des grundlegenden RPN zu überkommen, und kann als ein Resultat mehr oder weniger ähnliche Leistung unabhängig von dem Maßstab des Objekts erzielen. Die Feststellungen der Erfinder deuten auch an, dass man nicht einfach das geometrische Layout aufnehmen kann, um Vorschläge neu einzustufen, und dann gewünschte Verbesserungen erwarten kann, stattdessen wird eine Anzahl von Maßstabänderungen bevorzugt bereitgestellt.
Falls gewünscht, können die unterschiedlichen Funktionen und Ausführungsformen, die hier besprochen sind, in einer unterschiedlichen abweichenden Reihenfolge und/oder gleichzeitig miteinander auf diverse Arten ausgeführt werden. Ferner kann nach Wunsch eine oder mehrere der oben beschriebenen Funktionen und/oder Ausführungsformen optional sein oder bevorzugt auf eine willkürliche Art kombiniert werden.
Obwohl diverse Aspekte der Erfindung in den unabhängigen Ansprüchen dargelegt sind, umfassen andere Aspekte der Erfindung andere Kombinationen von Merkmalen aus den beschriebenen Ausführungsformen und/oder den abhängigen Ansprüchen, mit den Merkmalen der unabhängigen Ansprüche, und nur die Kombination, die in den Ansprüchen dargelegt ist.
Es wird auch vermerkt, dass, obwohl oben Stehendes beispielhafte Ausführungsformen der Erfindung beschreibt, diese Beschreibung nicht als den Schutzbereich einschränkend betrachtet werden sollte. Vielmehr gibt es mehrere Variationen und Änderungen, die ohne Abweichen von dem Schutzbereich der vorliegenden Erfindung, wie er in den abhängigen Ansprüchen geschützt wird, vorgenommen werden können.
BEZUGSZEICHEN Verfahren
Fahrzeug
Straße
Abbildung
Bereichsvorschlag
Rechteck
Rechteck
Rechteck
Ebene
Achse
Achse
Achse
Bereichsvorschlag
Rechteck
Punkte
Schritt
Schritt
Schritt
Schritt
Schritt
Horizont
Skizze
Ordinate
Abszisse
Bin
Bin
Bin
Bin
Skizze
Abszisse
Schritt
Schritt
Schritt
Schritt
76 Schritt
78 Schritt
80 Schritt
Y a n nein
Claims
1. Verfahren (10) zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Abbildung, die durch eine Kamera bereitgestellt wird, die die Abbildung aufnimmt, wobei das Verfahren Folgendes umfasst:
Erzeugen (42) einer Vielzahl von Bereichsvorschlägen (18) für mögliche Objekte, die in der Abbildung (16) aufgezeichnet sind, durch Anwenden eines Bereichsvorschlaggenerators auf die Abbildung (16) ;
Bereitstellen von Objekterfassung (72) für alle Bereichsvorschläge (18) durch Anwenden eines
Objekterfassungsgeräts auf alle Bereichsvorschläge (18), um den Verkehrsweg (14) und/oder die Verkehrsteilnehmer (12) durch Einstufen zu erfassen, wobei ein vorbestimmtes Vertrauensniveau berücksichtigt wird; und
Ausgeben von Erfassungsdaten, die von der Objekterfassung empfangen werden, für den erfassten Verkehrsweg (14) und/oder die erfassten Verkehrsteilnehmer (12),
gekennzeichnet durch:
Bereitstellen eines Filters (48) für die Bereichsvorschläge (18) vor dem Schritt des Bereitstellens von Objekterfassung, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge (18) in Zusammenhang mit den
Verkehrsteilnehmern (12) und/oder dem Verkehrsweg (14) geschätzt werden .
2. Verfahren nach Anspruch 1, wobei Maßstabinformationen vor dem Schritt des Ausführens der Objekterfassung bereitgestellt werden, wobei Maßstabinformationen aus Langzeitbeobachtung der auf der Bodenfläche erfassten Fahrzeuge erfasst werden.
3. Verfahren nach Anspruch 1 oder 2, wobei die Filterdaten basierend auf einer Szene geschätzt werden, die durch die
Abbildung (16), die zu verarbeiten ist, aufgezeichnet wird,
insbesondere der Verkehrsweg (14), der in der Szene enthalten ist .
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Filterdaten einen Beobachtungsbereich für mögliche Objekte, die durch die Objekterfassung als Verkehrsteilnehmer (12) eingestuft werden, bereitstellen.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Filterdaten in Abhängigkeit von Daten der Objekterfassung aktualisiert werden.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei Deep- Learning-Verfahren und/oder künstliche Intelligenz verwendet wird.
7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die Ausgangsdaten von mindestens zwei Abbildungen der Sequenz von Abbildungen verarbeitet werden, um mindestens eine Bewegungsbahn für einen bestimmten der erfassten Verkehrsteilnehmer (12) zu bestimmen .
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die Filterdaten geschätzt werden, indem Kamerakalibrierungsdaten berücksichtigt werden.
9. Vorrichtung zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Sequenz aufeinanderfolgender Abbildungen, wobei die Vorrichtung Folgendes umfasst:
- mindestens eine Kamera, die die Sequenz von Abbildungen des Verkehrswegs (14) aufnimmt, und
ein Gerät, das konfiguriert ist, um
eine erste Abbildung der Sequenz aufeinanderfolgender Abbildungen auszuwählen (40) und die erste Abbildung als eine Abbildung (16), die zu verarbeiten ist, zu definieren;
eine Vielzahl von Bereichsvorschlägen (18) für mögliche Objekte, die in der zu verarbeitenden Abbildung (16) aufgezeichnet sind, durch Anwenden eines Bereichsvorschlaggenerators auf die zu verarbeitende Abbildung (16) zu erzeugen (42);
Objekterfassung (72) für alle Bereichsvorschläge (18) bereitzustellen, um den Verkehrsweg (14) und/oder die Verkehrsteilnehmer (12) durch Klassifizieren unter Berücksichtigung eines vordefinierten Vertrauensniveaus zu erfassen;
Erfassungsdaten, die von der Objekterfassung für den erfassten Verkehrsweg (14) und/oder die erfassten Verkehrsteilnehmer (12) empfangen wurden, auszugeben; und durch Auswählen einer anderen Abbildung der Sequenz aufeinanderfolgender Abbildungen als die Abbildung (16), die zu verarbeiten ist, fortzusetzen;
dadurch gekennzeichnet, dass
das Gerät ferner konfiguriert ist, um
ein Filtern (48) für die Bereichsvorschläge (18) vor dem Schritt des Bereitstellens von Objekterfassung (72) bereitzustellen, wobei das Filtern (48) basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge (18) in Zusammenhang mit den Verkehrsteilnehmern (12) und/oder dem Verkehrsweg (14) geschätzt werden.
10. Verfahren zum Bereitstellen von Verkehrsführung, umfassend:
Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Sequenz aufeinanderfolgender Abbildungen, die durch eine Kamera bereitgestellt wird, die die Sequenz von Abbildungen des Verkehrswegs (14) aufnimmt;
Bestimmen einer verwendeten Kapazität des Verkehrswegs (14), die durch Erfassen der Verkehrsteilnehmer (12) bereitgestellt wird;
Identifizieren individueller tatsächlicher Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer (12), um
jeweilige individuelle tatsächliche Bahnen der
Verkehrsteilnehmer (12) zu bestimmen;
Bestimmen mindestens einer jeweiligen Nennbahn für jeden der Verkehrsteilnehmer (12); und
- Kommunizieren der bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern (12);
dadurch gekennzeichnet, dass
das Erfassen von Verkehrsteilnehmern (12) auf dem Verkehrsweg (14) durch ein Verfahren nach einem der Ansprüche 1 bis 8 bereitgestellt wird.
11. Verfahren nach Anspruch 10, wobei mindestens einer der Verkehrsteilnehmer (12) mindestens teilweise automatisch angetrieben ist.
12. Verfahren nach Anspruch 10 oder 11, wobei mindestens einer der Verkehrsteilnehmer (12) eine gewünschte Bahn anfordert, was Folgendes veranlasst:
Bestimmen einer bestimmten Nennbahn für den Verkehrsteilnehmer (12); und
Kommunizieren der bestimmten Nennbahn zu dem Verkehrsteilnehmer (12).
13. Verfahren nach einem der Ansprüche 10 bis 12, das das Prüfen einer bestimmten Nennbahn durch Simulation für den
Verkehrsteilnehmer (12) umfasst.
14. Verfahren nach einem der Ansprüche 10 bis 13, das das Abfragen einer tatsächlichen Geschwindigkeit und/oder Position mindestens eines der Verkehrsteilnehmer (12) umfasst, um seine tatsächliche Bahn zu bestimmen.
15. Verfahren nach einem der Ansprüche 10 bis 14, wobei in Abhängigkeit von der verwendeten Kapazität des Verkehrswegs (14) die Geschwindigkeit der Verkehrsteilnehmer (12) automatisch angepasst wird.
- l -
16. Verfahren nach einem der Ansprüche 10 bis 15, das das automatische Anpassen der Geschwindigkeit mindestens eines der Verkehrsteilnehmer (12) umfasst, während sich der Verkehrsteilnehmer (12) einem vorbestimmten Durchfahrtmuster für den Verkehrsweg (14) nähert.
17. Verkehrsleitsystem zum Bereitstellen von Verkehrsführung, umfassend :
mindestens eine Vorrichtung zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Sequenz aufeinanderfolgender Abbildungen, und
ein Gerät, das konfiguriert ist, um
Verkehrsteilnehmer (12) auf dem Verkehrsweg (14) in der Sequenz aufeinanderfolgender Abbildungen zu erfassen;
- eine verwendete Kapazität des Verkehrswegs (14), die durch die Verkehrsteilnehmer (12) bereitgestellt wird, zu bestimmen; individuelle tatsächliche Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer (12) zu identifizieren, um jeweilige individuelle tatsächliche Bahnen zu bestimmen;
- mindestens eine jeweilige Nennbahn für jeden der Verkehrsteilnehmer (12) zu bestimmen; und
die bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern (12) zu kommunizieren;
dadurch gekennzeichnet, dass
die Vorrichtung zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) gemäß Anspruch 9 konfiguriert ist.
18. Computerprogrammprodukt, das ein Programm für eine Verarbeitungsvorrichtung aufweist, das Softwarecodeabschnitte eines Programms zum Ausführen der Schritte eines Verfahrens nach einem der Ansprüche 1 bis 8 und/oder zum Ausführen der Schritte eines Verfahrens nach einem der Ansprüche 10 bis 16 umfasst, wenn das Programm auf der Verarbeitungsvorrichtung ausgeführt wird .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102017215079.3 | 2017-08-29 | ||
| DE102017215079.3A DE102017215079A1 (de) | 2017-08-29 | 2017-08-29 | Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2019042728A2 true WO2019042728A2 (de) | 2019-03-07 |
| WO2019042728A3 WO2019042728A3 (de) | 2019-04-25 |
Family
ID=63259495
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2018/071494 Ceased WO2019042728A2 (de) | 2017-08-29 | 2018-08-08 | Erfassen von verkehrsteilnehmern auf einem verkehrsweg |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102017215079A1 (de) |
| WO (1) | WO2019042728A2 (de) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113139427A (zh) * | 2021-03-12 | 2021-07-20 | 浙江智慧视频安防创新中心有限公司 | 基于深度学习的蒸汽管网智能监控方法、系统及设备 |
| CN113807270A (zh) * | 2021-09-22 | 2021-12-17 | 北京百度网讯科技有限公司 | 道路拥堵检测方法、装置及电子设备 |
| US11743998B2 (en) | 2019-10-10 | 2023-08-29 | CGF Counsel Group Frankfurt AG | Device within a pole and method |
| CN117710795A (zh) * | 2024-02-06 | 2024-03-15 | 成都同步新创科技股份有限公司 | 一种基于深度学习的机房线路安全性检测方法及系统 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102019007057B4 (de) | 2019-10-10 | 2022-06-30 | CGF Counsel Group Frankfurt AG | AUßENBEREICHSVORRICHTUNG MIT ELEKTRONISCHER KOMPONENTE |
| DE102021117613A1 (de) | 2021-07-08 | 2023-01-12 | Valeo Schalter Und Sensoren Gmbh | Verfahren zum betreiben eines parkassistenzsystems, computerprogrammprodukt und parkassistenzsystem |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102473307B (zh) * | 2010-03-15 | 2015-05-27 | 松下电器产业株式会社 | 用于轨迹估计的方法和装置以及用于分割的方法 |
| US9947077B2 (en) * | 2013-12-31 | 2018-04-17 | Thomson Licensing | Video object tracking in traffic monitoring |
| CN104658279B (zh) * | 2015-02-17 | 2017-04-12 | 公安部交通管理科学研究所 | 基于视频通行状态监测的实时优化信号控制方法及系统 |
| JP6604019B2 (ja) * | 2015-04-14 | 2019-11-13 | ソニー株式会社 | 画像処理装置、画像処理方法、および画像処理システム |
-
2017
- 2017-08-29 DE DE102017215079.3A patent/DE102017215079A1/de not_active Withdrawn
-
2018
- 2018-08-08 WO PCT/EP2018/071494 patent/WO2019042728A2/de not_active Ceased
Non-Patent Citations (1)
| Title |
|---|
| None |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11743998B2 (en) | 2019-10-10 | 2023-08-29 | CGF Counsel Group Frankfurt AG | Device within a pole and method |
| CN113139427A (zh) * | 2021-03-12 | 2021-07-20 | 浙江智慧视频安防创新中心有限公司 | 基于深度学习的蒸汽管网智能监控方法、系统及设备 |
| CN113807270A (zh) * | 2021-09-22 | 2021-12-17 | 北京百度网讯科技有限公司 | 道路拥堵检测方法、装置及电子设备 |
| US11887473B2 (en) | 2021-09-22 | 2024-01-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Road congestion detection method and device, and electronic device |
| CN117710795A (zh) * | 2024-02-06 | 2024-03-15 | 成都同步新创科技股份有限公司 | 一种基于深度学习的机房线路安全性检测方法及系统 |
| CN117710795B (zh) * | 2024-02-06 | 2024-06-07 | 成都同步新创科技股份有限公司 | 一种基于深度学习的机房线路安全性检测方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019042728A3 (de) | 2019-04-25 |
| DE102017215079A1 (de) | 2019-02-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019042728A2 (de) | Erfassen von verkehrsteilnehmern auf einem verkehrsweg | |
| DE102017204404B3 (de) | Verfahren und Vorhersagevorrichtung zum Vorhersagen eines Verhaltens eines Objekts in einer Umgebung eines Kraftfahrzeugs und Kraftfahrzeug | |
| DE102021112349A1 (de) | Fahrzeugbetrieb unter verwendung eines dynamischen belegungsrasters | |
| DE112018006665T5 (de) | Verfahren zum zugreifen auf ergänzende wahrnehmungsdaten von anderen fahrzeugen | |
| DE102015203016B4 (de) | Verfahren und Vorrichtung zur optischen Selbstlokalisation eines Kraftfahrzeugs in einem Umfeld | |
| DE102016212700A1 (de) | Verfahren und System zur Steuerung eines Fahrzeugs | |
| DE102019115455A1 (de) | Fokus-basiertes markieren von sensordaten | |
| DE112017007050T5 (de) | Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren und Informationsverarbeitungsprogramm | |
| DE102017116213A1 (de) | Fahrspurerkennung mit rückfahrkamera | |
| DE102021127118A1 (de) | Identifizieren von Objekten mit LiDAR | |
| DE102019122266A1 (de) | Systeme und Verfahren zur Parkverwaltung | |
| DE102018104270A1 (de) | Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers | |
| DE102019131701A1 (de) | Verfahren und einrichtung für verbesserte ortsentscheidungen auf grundlage der umgebung | |
| DE102013210836A1 (de) | Erkennen eines bewegungslosen Gegenstands auf Kreuzungen von Verkehrswegen | |
| WO2014154614A1 (de) | Backend für fahrerassistenzsysteme | |
| WO2013029722A2 (de) | Verfahren zur umgebungsrepräsentation | |
| DE112022001546T5 (de) | Systeme und Verfahren zur Erzeugung von Objekterkennungs-Labels unter Verwendung fovealer Bildvergrößerung für autonomes Fahren | |
| DE112020000590T5 (de) | Karte und verfahren zum erstellen einer karte | |
| EP2387017B1 (de) | Verfahren und Vorrichtung zur Erfassung von Verkehrsdaten aus digitalen Luftbildsequenzen | |
| EP2521070A2 (de) | Verfahren und System zum Erfassen einer statischen oder dynamischen Szene, zum Bestimmen von Rohereignissen und zum Erkennen von freien Flächen in einem Beobachtungsgebiet | |
| WO2023030858A1 (de) | Verfahren und assistenzeinrichtung zum unterstützen von fahrzeugfunktionen in einem parkraum und kraftfahrzeug | |
| DE102019106048A1 (de) | Fahrzeuganzeige mit erweiterter realität | |
| WO2019057252A1 (de) | Verfahren und vorrichtung zum erkennen von fahrspuren, fahrerassistenzsystem und fahrzeug | |
| DE102020133506A1 (de) | Parkplatzsteuerungssystem, Parkplatzsteuerungsverfahren und Programm | |
| DE102023111700A1 (de) | Algorithmus zum erzeugen von planungsbasierten aufmerksamkeitssignalen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18756389 Country of ref document: EP Kind code of ref document: A2 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 18756389 Country of ref document: EP Kind code of ref document: A2 |

