AT511968B1

AT511968B1 - Verfahren zur bestimmung der position von kameras

Info

Publication number: AT511968B1
Application number: ATA1568/2011A
Authority: AT
Original assignee: Ait Austrian Inst Technology
Priority date: 2011-10-25
Filing date: 2011-10-25
Publication date: 2013-04-15
Also published as: EP2771870A1; AT511968A4; WO2013059850A1

Abstract

Die Erfindung betrifft ein Verfahren zur Bestimmung der relativen Position und Ausrichtung von Kameras (A, B) auf Basis der folgenden zur Verfügung stehenden Bilddaten:- mit den feststehenden Kameras (A, B) aufgenommene Bilder (4) sowie,- eine Bildsequenz mit einer Anzahl von Videobildern (5) die zumindest Teile des jeweiligen Sichtfeldes einer oder mehrerer der feststehenden Kameras zeigen,wobei für jedes aufgenommene Bild (4) zumindest ein weiteres Videobild (5) vorliegt, bei dessen Aufnahme das Sichtfeld der mobilen Kamera (2) mit dem Sichtfeld der jeweiligen feststehenden Kamera (A, B) überlappt,wobei in den mit der mobilen Videokamera (2) hintereinander aufgenommenen Videobildern markante Bildpunkte (X) gesucht werden undwobei für jede der feststehenden Kameras (A, B) das aufgenommene Bild (4) einer feststehenden Kamera (A, B) mit den Videobildern (5) verglichen wird, im Bild (4) der feststehenden Kamera (A, B) und in dem jeweiligen, zugeordneten Videobild (5) markante Bildpunkte (X, W) ermittelt werden, eine Zuordnung zwischen den markanten Bildpunkten (W) und den durch das Rekonstruktionsverfahren erzeugten Raumpunkten (Z) vorgenommen wird und basierend auf der Zuordnung zwischen den markanten Punkten (X) in den Bildern (4) der jeweiligen feststehenden Kamera (A, B) und den Raumpunkten (Z) das Verfahren des räumlichen Rückwärtsschnitts durchgeführt wird.

Description

österreichisches Patentamt AT511 968 B1 2013-04-15

Beschreibung [0001] Die Erfindung betrifft ein Verfahren zur Bestimmung (Kalibrierung) der relativen Position und Ausrichtung sowie gegebenenfalls Brennweite und Linsenverzerrung, im Folgenden Abbildungsgeometrie genannt, einer Anzahl von fest angeordneten und ausgerichteten, feststehenden Kameras gemäß dem Patentanspruch 1. Diese Abbildungsgeometrie ist relativ einfach gehalten, da im Allgemeinen die Pixelscherung bei heutigen Kameras als vernachlässigbar gilt und der Bildhauptpunkt in vielen Anwendungen üblicherweise in der Bildmitte angenommen wird. Ferner betrifft die Erfindung einen Datenträger gemäß dem Patentanspruch 10.

[0002] Hintergrund der Erfindung ist die Nutzung der Videodaten in einem Netzwerk von Videoüberwachungskameras. Die von den Kameras aufgenommenen Daten enthalten eine Vielzahl von unterschiedlichen Bildinformationen, die zunächst lediglich einer bestimmten Kamera, beispielsweise versehen mit einer bestimmten Identifikationsnummer, zugeordnet sind. Videodaten, die durch einzelne Kameras aufgenommen worden sind, können bei Kenntnis der Abbildungsgeometrie aller Kameras in einem gemeinsamen Abbildungsraum mit einem gemeinsamen Koordinatensystem dargestellt werden. Durch ein solches Vorgehen können sämtliche Bildinformationen zusammengeführt und neue Informationen auf Kameranetzwerkebene ermittelt werden. Kennt man die Abbildungsgeometrie mehrerer Kameras zueinander, so lassen sich mittels Triangulation die Position, Größe und Form von Gegenständen, die mit den einzelnen Kameras aufgenommen worden sind, dreidimensional beschreiben.

[0003] Wichtige Anwendungen in der Videoüberwachung setzen die Kenntnis der Position, Ausrichtung bzw. der Abbildungsgeometrie der jeweiligen Kamera voraus. Um beispielsweise das Messen metrischer Größen im Bild an aufgenommenen Gegenständen durchführen zu können, werden die Position, Ausrichtung, Brennweite und Linsenverzerrung der jeweiligen Kamera herangezogen. Ganz generell ermöglicht die Kenntnis der Abbildungsgeometrie der einzelnen Kameras eine Vielzahl unterschiedlicher Anwendungen.

[0004] In den letzten Jahren haben Forschungen gezeigt, dass die Kenntnis der Abbildungsgeometrie grundlegende Methoden der automatischen Bildanalyse und Ereigniserkennung, wie zum Beispiel die Personendetektion und die Personenverfolgung, signifikant verbessert und damit zu einer verbesserten, praktischen Nutzung von automatischer Videoüberwachung essentiell beiträgt. Alle diese Verfahren beruhen auf der Kenntnis der Position, Ausrichtung, Brennweite und Linsenverzerrung der Kameras zueinander, beispielsweise in einem gemeinsamen, euklidischen Koordinatensystem. Für sämtliche beschriebenen Anwendungsfälle "und für eine praktische Nutzung des Verfahrens sind im Allgemeinen zumindest Position und Ausrichtung der einzelnen Kameras zueinander unbekannt.

[0005] Als weitere Anforderung und als weiteres Erschwernis kommt hinzu, dass die einzelnen Kameras in einer Art und Weise im Überwachungsbereich angeordnet sind, sodass zum Teil mehrere von den Kameras überwachte Teilbereiche bestehen, die einander nicht überlappen. Als überlappend werden im Folgenden die Sichtfelder zweier Kameras dann angesehen, wenn ein und derselbe Oberflächenbereich eines im Aufnahmebereich der beiden Kameras befindlichen Gegenstandes gleichzeitig in den Bildern der Kameras dargestellt ist. Eine Kalibrierung anhand überlappender Aufnahmebereiche ist somit nicht ohne weiteres möglich.

[0006] Neben der exakten Kameraposition und -ausrichtung kann zusätzlich die Brennweite und die Linsenverzerrung der Kamera ermittelt werden. Die Bestimmung der Brennweite sowie Linsenverzerrung einer Kamera wird als Kalibrierung im engeren Sinn bezeichnet. Im Zusammenhang mit der Erfindung wird allerdings als Kalibrierung die Ermittlung der Position und Ausrichtung sowie gegebenenfalls der Brennweite und Linsenverzerrung bezeichnet.

[0007] Eine sinnvolle Ermittlung der relativen Position und Ausrichtung erfordert ein Kameranetzwerk bestehend aus zumindest zwei Kameras. Jede Kamera ist in ihrer Position und Ausrichtung fix montiert und besitzt gegebenenfalls eine Schwenk- und Neigemöglichkeit. Jede Kamera besitzt ein Objektiv fixer oder gegebenenfalls begrenzt, variabler Brennweite. Die durch 1 /22 österreichisches Patentamt AT511 968B1 2013-04-15 die Kamera betrachtete Welt, auch Szene genannt, kann weitgehend als statisch angenommen werden, etwa Wände, Decken und Gegenstände innerhalb eines Gebäudes. Davon ausgenommen sind jedoch Gegenstände und Personen, die sich in der Szene bewegen. STAND DER TECHNIK: [0008] Gängige Verfahren zur Kalibrierung, wie zum Beispiel in „Roger Y. Tsai, A versatile Camera Calibration Technique for High-Accuracy 3D Machine Vision Metrology Using Off-the-Shelf TV Cameras and Lenses, IEEE Journal of Robotics and Automation, Vol. RA-3, No. 4, Seiten 323-344, August 1987", oder in „Tornas Svoboda, Daniel Martinec und Tornas Pajdla, A convenient multi-camera self-calibration for Virtual environments, PRESENCE: Teleoperators and Virtual Environments, Vol. 14, No. 4, Seiten 407-422, MIT Press, 2005" beschrieben, nutzen bekannte oder unbekannte Punkte im Raum sowie deren bekannte Abbilder in den Kamerabildern, um die Abbildungsgeometrie zu ermitteln. Die für eine Kalibrierung notwendigen Raumpunkte werden manuell durch Hilfsmittel von Experten im Raum eingebracht. Als Hilfsmittel werden in der erstgenannten Arbeit gitter-bzw. schachbrettartige Kalibriergegenstände verwendet, die in verschiedenen Positionen und Orientierungen aufgenommen werden, wobei die Abbilder der Kreuzungspunkte des Gitters in den Kamerabildern semi-automatisch markiert werden. Die zweitgenannte Arbeit verwendet im Gegensatz dazu Leuchtioden oder ähnliche Lichtpunktquellen als Hilfsmittel, deren Abbilder automatisiert lokalisiert werden können. Im bekannten Stand der Technik erfolgt die Einbringung dieser Hilfsmittel im sichtbaren Bereich einer jeden Kamera manuell und ist für Kameranetzwerke mit einer großen Anzahl von Kameras äußerst zeitaufwendig.

[0009] Die manuelle Kalibrierung mit Hilfsmitteln ist nicht nur ein aufwendiges sondern auch ein fehleranfälliges Verfahren. Erfahrungsgemäß ändert sich die Abbildungsgeometrie mit der Lebensdauer einer Kamera, zum Beispiel durch Wartungsarbeiten oder durch räumliche Veränderungen der Szene. Solche Änderungen können die Funktionalität eines auf der Abbildungsgeometrie basierenden, automatischen Videoüberwachungssystems stark beeinträchtigen. Daher muss die manuelle Kalibrierung einer Kamera im Anlassfall durch den Experten wiederholt werden. Bei Videoüberwachungssystemen mit hunderten Kameras entstehen dadurch beträchtliche Kosten und damit ein impraktikabler Aufwand.

[0010] Das schwerwiegendste Argument für die Notwendigkeit einer neuartigen Kalibrierung ist aber der fehlende Überlapp der Sichtfelder benachbarten Kameras in größeren Kameranetzwerken oder trotz Überlapp der Sichtfelder und abhängig von der individuellen Abbildungsgeometrie der unzureichende Überlapp der sichtbaren Bereiche in den Bildern der Kameras. Gängige Verfahren versagen hier, da Kameras mit nicht überlappenden Sichtfeldern bzw. unzureichendem Überlapp in den Kamerabildern nicht kalibriert werden können. Die notwendige Überlappung kommt in der Praxis nur vereinzelt vor, da zusammenhängende, überlappende Sichtfelder aller Kameras eine unverhältnismäßig hohe Anzahl an Kameras notwendig machen und die Installation einer derartigen Vielzahl von Kameras samt Verkabelung unverhältnismäßige Kosten verursachen würde.

[0011] Aus dem Stand der Technik sind Rekonstruktionsverfahren bekannt, die anhand von mit tragbaren Kameras aufgenommenen Bildsequenzen die dreidimensionale Struktur der in der Bildsequenz aufgezeichneten und in der Szene befindlichen Gegenstände rekonstruieren. Unter Rekonstruktion wird in diesem Zusammenhang sowie im Kontext der Erfindung eine bloß datenmäßige Rekonstruktion derart verstanden, dass nach erfolgter Rekonstruktion die jeweiligen Gegenstände in Form von abgespeicherten und endlich vielen Raumpunkten, d.h. dreidimensionalen, diskreten Punktdaten, beschrieben sind. Die gesamte Szene wird somit durch eine Punktwolke bestehend aus allen Raumpunkten geometrisch dargestellt, eine Zuordnung zwischen Gegenstand und Raumpunkt besteht aber nicht.

[0012] Solche Rekonstruktionsverfahren sind an sich bekannt, eine umfassende Zusammenfassung der wissenschaftlichen Grundlagen bietet das Buch „Richard Hartley, und Andrew Zisserman, Multiple View Geometry in Computer Vision, 2. Edition, Cambridge University Press, 2/22 österreichisches Patentamt AT511 968B1 2013-04-15

Seite 452 ff., 2004". Rekonstruktionsverfahren am Stand der Technik können, beispielsweise wie in „Aki Torii, Michal Havlena, und Thomas Pajdla, From Google Street View to 3D City Models, IEEE OMNIVIS Workshop at the International Conference on Computer Vision, Seiten 2188 - 2195, Kyoto, Japan, Oktober 2009" beschrieben, mittels einer auf einem Fahrzeug befestigten Kamera dreidimensionale, geometrische Modelle von Straßen und sogar ganzen Städten erzeugen.

[0013] Ferner sind aus dem Stand der Technik Bildsuchverfahren bekannt, die bei Vorliegen eines Einzelbildes im Rahmen einer Bildsuche, übereinstimmende Bilder derselben Szene in einer Bilddatenbank aufspüren und zuordnen. Diese Zuordnung erfolgt über den Bildinhalt und nicht über eine gegebenenfalls vorhandene textuelle Beschreibung sowie Indizierung. Die Entscheidung des Verfahrens darüber, ob eine Übereinstimmung vorliegt, wird auf Basis gemeinsamer, übereinstimmender globaler wie auch lokaler Bildmerkmale getroffen. Globale Merkmale bieten die Möglichkeit die abgebildete Szene sehr allgemein zu benennen, zum Beispiel die Szene ist im Innenbereich eines Gebäudes oder die Szene ist im Freien. Lokale Bildmerkmale beschreiben zumeist Gegenstände, die in der Szene individuell Vorkommen und ermöglichen damit eine spezifischere Unterscheidung.

[0014] Allgemeine Bildsuchverfahren sind erst seit kurzem bekannt, beispielsweise aus der Veröffentlichung „Joseph Sivic, und Andrew Zisserman, Video Google: A Text Retrieval Ap-proach to Object Matching in Videos, IEEE International Conference on Computer Vision, Seiten 1470 - 1477, Nice, France, Oktober 2003". Bildsuchverfahren erhöhen essenziell die Genauigkeit und Robustheit des Rekonstruktionsverfahrens, und zählen somit auch zum Stand der Technik im Bereich der Rekonstruktionsverfahren, diesbezüglich bietet die Veröffentlichung „Jan Knopp, Josef Sivic, und Tornas Pajdla, Avoiding confusion features in place recognition, European Conference on Computer Vision, Chersonissos, Greece, Springer Verlag, September 2010" entsprechen Einblicke.

[0015] Abschließend sind aus dem Stand der Technik Verfahren für den räumlichen Rückwärtsschnitt bekannt, mittels derer anhand eines Bildes eines aufgenommenen Gegenstands mit bekannter, dreidimensionaler Struktur ermittelt werden kann, aus welcher Position und Ausrichtung relativ zu dem Gegenstand das Bild aufgenommen worden ist. Gegebenenfalls kann auch simultan die Brennwerte sowie die Linsenverzerrung der jeweiligen Kamera im Verfahren ermittelt werden. Die Raumpunktdaten sowie die entsprechend zugeordneten Abbilder dieser Raumpunkte sind als bekannt vorausgesetzt. Die Abbilder, im Folgenden Bildpunkte genannt, liegen in der Regel an markanten Stellen im Bild, d.h. an ausgezeichneten Stellen wie zum Beispiel an Kantenschnittpunkten oder in homogenen Bildregionen hervorgerufen durch die spezifischen Oberflächen der Gegenstände.

[0016] Der klassische, räumliche Rückwärtsschnitt betreffend Position und Ausrichtung der Kamera ist hinlänglich in seinen wissenschaftlichen Grundlagen bekannt, siehe dazu die Veröffentlichung „Chris McGIone, Edward Mikhail, und Jim Bethel, Manual of Photogrammetry, 5. Edition, American Society for Photogrammetry and Remote Sensing, 2004". Verfahren die zusätzlich die Bestimmung der Brennweite sowie der Linsenverzerrung vornehmen, sind erst seit kurzem dem Stand der Technik zu entnehmen und beispielsweise in der Veröffentlichung "Klas Josephson und Martin Byröd, Pose Estimation with Radial Distortion and Unknown Focal Length, IEEE International Conference on Computer Vision and Pattern Recognition, Miami, USA, Juni 2009" beschrieben. AUFGABE DER ERFINDUNG: [0017] Gemäß dem Stand der Technik kann bei einer bekannten Anzahl von Kameras so vorgegangen werden, dass diese Kameras mit einem Überlapp in ihren Sichtfeldern so angeordnet werden, sodass Überlappungsbereiche in den aufgenommenen Bildern entstehen, die jeweils denselben Gegenstand in der Szene zeigen. Dadurch ist eine Kalibrierung mit den einzelnen Kamerabildern grundsätzlich erst möglich.

[0018] Eine solche Kameraanordnung ist jedoch in der Praxis äußerst nachteilig, da es gerade 3/22 österreichisches Patentamt AT511 968 B1 2013-04-15 eine kostenbedingte Anforderung an eine Kameraanordnung ist, möglichst wenig Überlappung bei möglichst vollständiger Abdeckung des zu überwachenden Bereichs zu gewährleisten. Daher versagen Verfahren zur Kalibrierung, die mit Hilfsmitteln in den überlappenden Sichtfeldern arbeiten regelmäßig, insbesondere bei Kameraanordnungen, bei denen die Kameras keine überlappenden Sichtfelder aufweisen.

[0019] Ziel der Erfindung ist es, die genannten Nachteile zu überwinden und ein Kalibrierungsverfahren zur Verfügung zu stellen, das zumindest die relative Position und Ausrichtung, gegebenenfalls auch die Brennweite sowie Linsenverzerrung der Kameras anhand der aufgenommenen Kamerabilder ermittelt, ohne dass eine Überlappung der Sichtfelder von Kameras erforderlich ist. Das Verfahren soll eine große Anzahl von Uberwachungskameras, insbesondere mit mehr als hundert Kameras, kalibrieren können. Solche großen Kameranetzwerke sind vorzugsweise in Verkehrsinfrastruktur wie in Flughäfen, Bahnhöfen und auf Autobahnen anzutreffen. DARSTELLUNG DER ERFINDUNG: [0020] Dieses Ziel wird bei einem Verfahren der eingangs genannten Art mit den im kennzeichnenden Teil des Anspruches 1 angegebenen Merkmalen erreicht.

[0021] Die Erfindung betrifft ein Verfahren zur Bestimmung der relativen Position und Ausrichtung, gegebenenfalls auch der Brennweite und der Linsenverzerrung, einer Anzahl von fest angeordneten und fest ausgerichteten, feststehenden Kameras auf Basis der folgenden zur Verfügung stehenden Bilddaten: [0022] - mit den feststehenden Kameras aufgenommene Bilder sowie, [0023] - eine Bildsequenz mit einer Anzahl von Bildern die zumindest Teile des jeweiligen

Sichtfeldes einer oder mehrerer der feststehenden Kameras zeigen und die mittels einer mobilen Videokamera mit einer konstanten Aufnahmerate aufgenommen worden sind.

[0024] Für jedes mit einer feststehenden Kamera aufgenommene Bild liegt zumindest ein weiteres mit der mobilen Videokamera aufgenommenes Videobild vor, bei dessen Aufnahme das Sichtfeld der mobilen Videokamera mit dem Sichtfeld der jeweiligen feststehenden Kamera überlappt und in beiden Bildern Gegenstände mit hinreichend strukturierten Oberflächen in den überlappenden Bildbereichen sichtbar sind.

[0025] Vorteilhafterweise ist für ein Bild jeder feststehenden Kamera zumindest ein Videobild der mobilen Kamera vorhanden, das dieselbe Szene zeigt, wobei während der Aufnahme, zumindest eines Videobilds, der durch die optischen Achsen der mobilen Kamera und der feststehenden Kamera eingeschlossene Winkel 60 Grad nicht übersteigen darf. Dieses Annahmekriterium garantiert einen möglichst flachen Blick beider Kameras auf die Oberfläche desselben Gegenstandes und ermöglicht somit eine visuelle Zuordnung, insbesondere von Bildpunkten, der einzelnen Bilder und Videobilder zueinander. Andernfalls würden auftretende Verdeckungen der Gegenstände in den Bildern, hervorgerufen durch die perspektivische Abbildung, eine solche Zuordnung unmöglich machen. Die Aufnahmerate der mobilen Videokamera ist derart eingestellt, dass sich insbesondere mehr als 75% der in der Szene befindlichen Gegenstände, nach Aufnahme zweier in der Bildsequenz unmittelbar aufeinander folgender Videobilder, in beiden Bildern sichtbar sind.

[0026] Erfindungsgemäß ist vorgesehen, dass in den mit der mobilen Videokamera hintereinander jeweils aufgenommenen Videobildern markante Bildpunkte ausgemacht werden. Diese Bildpunkte sind insbesondere Abbilder bestimmter Raumpunkte auf der Oberfläche ein und desselben Gegenstands.

[0027] Ein besonderer Aspekt der Erfindung sieht vor, dass die, insbesondere paar- bzw. tripleweise, Zuordnung der aufgefundenen, markanten, insbesondere zwei bzw. drei Bildpunkte durch die vorhandene, visuelle Information in der Umgebung diese Bildpunkte getroffen wird. Ein Bildpunkt wird als markant angesehen, wenn visuelle Information hinreichend vorhanden ist. Ein Beispiel hierfür sind Kantenschnittpunkte, die auf hinreichend strukturierten Oberflächen 4/22 österreichisches Patentamt AT511 968 B1 2013-04-15 von Gegenständen auftreten. Eine Anzahl von markanten Bildpunkten, zugeordnet zu jeweils ein- und demselben Raumpunkt in unterschiedlichen Bildern, bildet dabei eine Menge von einander zugeordneten markanten Bildpunkten.

[0028] Mittels eines Rekonstruktionsverfahrens werden anhand der Mengen von einander zugeordneten, markanten Bildpunkten Raumpunkte in einem vorgegeben Koordinatensystem ermittelt, die die Position der jeweiligen markanten Bildpunkte angeben. Das Koordinatensystem kann vorteilhafterweise so definiert werden, dass der Ursprung im optischen Zentrum der mobilen Kamera für das erst aufgenommene Videobild der Bildsequenz liegt.

[0029] Die weiteren Schritte des Verfahrens erfolgen unabhängig für jede feststehende Kamera. Es wird das aufgenommene Bild einer feststehenden Kamera mit den Videobildern verglichen, wobei mittels eines Bildsuchverfahrens das aufgenommene Bild einer feststehenden Kamera zu dem am besten übereinstimmenden Videobild der Bildsequenz zugeordnet wird.

[0030] Dann werden im Bild der feststehenden Kamera weitere markante Bildpunkte ermittelt und paarweise Zuordnungen zwischen diesen markanten Bildpunkten im Bild der feststehenden Kamera und den bereits vorhandenen markanten Bildpunkten im Videobild getroffen. Weiters werden diejenigen Raumpunkte, die durch das Rekonstruktionsverfahren erzeugt wurden, den markanten Bildpunktpaaren zugeordnet, d.h. es werden Punkttriple so gebildet, dass jeweils einer der Bildpunkte des Bildpunktpaares/-triples aus den Videobildern und der markante Bildpunkt im Bild der feststehenden Kamera Abbilder dieses einen Raumpunktes sind. Eine Entscheidung über eine Zuordnung erfolgt auch hier aufgrund von Wahrscheinlichkeitserwägungen der visuellen Information in der Umgebung der betreffenden Bildpunkte.

[0031] Schlussendlich wird zur Bestimmung der Abbildungsgeometrie der feststehenden Kamera das Verfahren des räumlichen Rückwärtsschnitts verwendet, dem das Bild der feststehenden Kamera sowie die nun bekannten Bildkoordinaten der markanten Punkte der feststehenden Kamera und die bekannten Koordinaten der zugeordneten Raumpunkte als Eingangsgrößen zugrunde gelegt werden. Es werden die Position und die Ausrichtung, gegebenenfalls auch die Brennweite und Linsenverzerrung, der einzelnen feststehenden Kameras ermittelt.

[0032] Die grundlegende Idee des erfindungsgemäßen Verfahrens ist, mit einer zusätzlichen, mobilen Videokamera den gesamten Überwachungsbereich samt darin installierten, feststehenden Kameras aufzunehmen. Das Verfahren setzt dabei nicht voraus, dass die feststehenden Kameras in den Videobildern dieser zusätzlich aufgenommenen Bildsequenz sichtbar sein müssen. Das Verfahren stützt sich viel mehr auf Gegenstände, die in zumindest einem der Videobilder der mobilen Videokamera sowie in den Bildern der feststehenden Kameras sichtbar sind. Daraus resultiert zum Einen ein einfaches und kostengünstig wiederholbares Verfahren, da das „Filmen" des Überwachungsbereichs der Videoüberwachungsanlage auch Laien zumutbar erscheint. Zum Anderen ermöglicht ein lückenloses Video mit der mobilen Videokamera ein Kalibrieren von Videoüberwachungskameras mit sich nicht überlappenden Sichtbereichen.

[0033] Das erfindungsgemäße Verfahren verbindet bekannte Verfahren aus der Bilderkennung und 3-D Bildverarbeitung und wendet diese für das ungelöste Problem der Kamerakalibrierung großer Kameranetzwerke im Anwendungsfeld der Videoüberwachung an. Die durch die mobile Videokamera aufgenommene Szene wird zuerst automatisch und unabhängig von den Überwachungskameras rekonstruiert. Danach sucht das Verfahren für jede Überwachungskamera unabhängig mittels gängiger, visueller Bildmerkmale Übereinstimmungen zwischen den aufgenommenen Bildern, insbesondere einem Einzelbild, und den vorhandenen Videobildern der mobilen Videokamera. Bei Erfolg kann die betreffende Überwachungskamera automatisch durch den räumlichen Rückwärtsschnitt kalibriert werden.

[0034] Das Verfahren fordert keine schwerwiegenden Annahmen bezgl. der Szene, der Überwachungskameras oder der mobilen Videokamera. Die Bildsequenz und die Bilder der Überwachungskameras sollten lediglich eine hinreichende Anzahl an markanten Bildpunkten mit gemeinsamen Bildmerkmalen beinhalten, d.h. die Szene muss eine hinreichende Anzahl von Gegenständen mit klar erkennbaren und unterscheidbaren Oberflächenstrukturen beinhalten, 5/22 österreichisches Patentamt AT511 968B1 2013-04-15 um das erfindungsgemäße Verfahren zielführend einsetzen zu können.

[0035] Zur Ermittlung der für das erfindungsgemäße Verfahren erforderlichen Bilddaten kann vorgesehen sein, dass vorab mit den feststehenden Kameras jeweils ein Bild aufgenommen wird, und mit einer mobilen Videokamera eine Bildsequenz aufgenommen wird, wobei die mobile Videokamera zwischen der Aufnahme der einzelnen Videobilder derart bewegt und verschwend wird, sodass für jedes Bild einer feststehenden Kamera zumindest ein Videobild mit der mobilen Kamera erstellt wird, bei dessen Aufnahme das Sichtfeld der mobilen Videokamera mit dem Sichtfeld der jeweiligen feststehenden Kamera überlappt.

[0036] Falls zu wenige markante und erfolgreich zugeordnete Bildpunktpaare erkannt werden, kann dieses Vorgehen zumindest solange durch neuerliche Aufnahmen von Bildsequenzen mit der mobilen Videokamera aus neuen Sichtwinkeln zur Szene, gegebenenfalls unterstützt durch eine zusätzliche Einbringung neuer Gegenstände, wiederholt werden, bis eine Mindestzahl an markanten, zugeordneten Bildpunktpaaren zwischen feststehender Kamera und mobiler Videokamera existiert, damit die Kamerakalibrierung erfolgreich abgeschlossen werden kann.

[0037] Zur Verbesserung der Robustheit, Genauigkeit und Stabilität des Rekonstruktionsverfahrens kann vorgesehen sein, dass als Objektiv der tragbaren Videokamera ein Fischauge mit einem Öffnungsbereich von 180 Grad verwendet wird.

[0038] Alternativ kann als mobile Videokamera eine panoramische Kamera mit einem 360 Grad Aufnahmebereich verwendet werden. Es werden für derartige Kameras weitere Annahmekriterien über die Abbildungsgeometrie der mobilen Kamera festgelegt, da eine solche Kamera oft nicht zentralperspektivisch ist, z.B. bestehend sphärische Kameras aus mehreren zentralperspektivischen Kameras, deren optische Zentren nicht ident sind.

[0039] Es kann vorgesehen werden, dass für eine oder mehrere, insbesondere jede, der feststehenden Kameras bei der Bestimmung der Position und Ausrichtung durch das Verfahren des Rückwärtsschnitts ferner die Brennweite und die Linsenverzerrung ermittelt wird.

[0040] Die Erfindung wird anhand von Ausführungsbeispielen, dargestellt durch die Zeichnungsfiguren, ohne Einschränken des allgemeinen erfinderischen Gedankens, näher erläutert. KURZBESCHREIBUNG DER FIGUREN: [0041] Fig. 1 zeigt einen Grundriss des Bereichs, in dem sich zwei einzelne feststehende Kameras befinden. Im vorliegenden Ausführungsbeispiel werden zu Illustrationszwecken und ohne Einschränkung der Allgemeinheit zwei Kameras verwendet. Typischenweise weisen Anordnungen weitaus mehr Kameras, etwa 500 bis 1000 Kameras, auf. Fig. 2 und 3 zeigen zwei mit jeweils einer der feststehenden Kameras aufgenommene Bilder. Fig. 4a-c zeigen drei mit der mobilen Kamera aufgenommene Videobilder. In Fig. 5 ist schematisch das Ausführungsbeispiel mit einer Anzahl von Bildern der feststehenden Kameras und einer Anzahl von Videobildern der mobilen Kamera dargestellt. Fig. 5a zeigt detektierte Strukturen mehrerer Kameras übereinander dargestellt. Fig. 6 zeigt schematisch die Zuordnung eines Bildes der feststehenden Kamera zu einem Videobild.

DETAILLIERTE BESCHREIBUNG EINER AUSFÜHRUNGSFORM DER ERFINDUNG: AUFNAHME DER BILDER

[0042] In Fig. 1 ist ein zu überwachender Bereich eines Gebäudes im Grundriss dargestellt. Im zu überwachenden Bereich des Gebäudes sind feststehende Kameras A, B zu Überwachungszwecken angeordnet. Diese feststehenden Kameras A, B weisen eine räumliche Anordnung derart auf, sodass die Sichtbereiche der einzelnen Kameras A, B einander nicht überlappen.

[0043] Die mit den Kameras A, B aufgenommenen Bilder 4 (Fig. 2, 3) werden einer zentralen, nicht dargestellten Datenverarbeitungseinheit zugeführt, wobei jede der feststehenden Kameras A, B jeweils mindestens ein Einzelbild 4 liefert. Somit stehen in der zentralen Datenverarbeitungseinheit für dieses Ausführungsbeispiel der Erfindung insgesamt zwei mit den feststehen- 6/22 österreichisches Patentamt AT 511 968 B1 2013-04-15 den Kameras A, B aufgenommene Bilder 4 zur Verfügung.

[0044] Eine mobile Kamera 2 wird entlang eines im Innenbereich des Gebäudes verlaufenden Pfades 21 bewegt. Die mobile Kamera 2 fertigt dabei - wie eine Videokamera - während ihrer Bewegung entlang des Pfades 21 eine Anzahl von Videobildern 5 an. Die mobile Kamera 2 wird im Zuge ihrer Bewegung entlang des dargestellten Pfads 21 auch verschwenkt.

[0045] Die Auswahl des Bewegungspfads 21 und die Verschwenkung der mobilen Kamera 2 erfolgen derart, dass für jede der feststehenden Kameras A, B jeweils zumindest ein Videobild 5 aufgenommen wird, das annähernd dieselbe Szene aus demselben Blickwinkel darstellt wie das Bild 4 der jeweiligen feststehenden Kamera A, B. Um dies zu gewährleisten ist im vorliegenden Ausführungsbeispiel vorgesehen, dass bei der Aufnahme zumindest eines Videobilds 5 der durch die optischen Achsen der mobilen Kamera 2 und jeweils einer der feststehenden Kameras A, B eingeschlossene Winkel 60 Grad nicht übersteigt und die Blickrichtungen der jeweiligen feststehenden Kamera A, B mit der mobilen Kamera 2 im wesentlichen ident sind. In diesem Fall überlappt das Sichtfeld 25 der mobilen Kamera 2 bei einzelnen Aufnahmen mit den Sichtfeldern 15a, 15b der jeweils feststehenden Kameras A, B. Gegenstände, die sich in den Sichtfeldern 15a, 15b jeder der feststehenden Kameras A, B befinden, sind zumindest in einem der mit der mobilen Kamera 2 erzeugten Videobilder 5 zumindest teilweise dargestellt. Es liegt somit bei zumindest einem Aufnahmezeitpunkt eine teilweise Überlappung des einen Sichtfelds 25 der mobilen Kamera 2 mit einem der Sichtfelder 15a, 15b der feststehenden Kameras A, B vor. Insbesondere sind zumindest 75 % der im Bild 4 der feststehenden Kamera A, B dargestellten Szene auch in dem mit der mobilen Kamera 2 aufgenommenen Videobild 5 dargestellt.

[0046] In dem in Fig. 2 dargestellten Bild 4 der feststehenden Kamera A und der in Fig. 4 dargestellten Videobilder 5 der mobilen Kamera 2 sind die Oberflächen ein und desselben Gegenstands, nämlich die Innenseite des Fensters 93, eindeutig sichtbar.

[0047] Für die weiteren Verfahrensschritte des im folgenden dargestellten Kalibrierungsverfahrens stehen eine Anzahl von Videobildern 5, die allesamt mit der mobilen Kamera 2 aufgenommen worden sind, sowie eine Anzahl von Bildern 4, die jeweils mit einer der Kameras A, B aufgenommen worden sind, zur Verfügung. Neben diesen Daten sind in dieser Ausführungsform der Erfindung grundsätzlich keine weiteren Daten zu ermitteln.

[0048] Eine vereinfachte, alternative Ausführungsform der Erfindung sieht vor, das neben den Bildern 4 und den Videobildern 5 die Brennweiten und die Linsenverzerrung der einzelnen feststehenden Kameras A, B sowie der mobilen Kamera 2 vorab gegeben sind. Beispielsweise können die internen Parameter der feststehenden Kameras sowie der mobilen Kamera durch das Verfahren wie in „Roger Y. Tsai, A versatile Camera Calibration Technique for High-Accuracy 3D Machine Vision Metrology Using Off-the-Shelf TV Cameras and Lenses, IEEE Journal of Robotics and Automation, Vol. RA-3, No. 4, Seiten 323-344, August 1987" beschrieben, kalibriert werden.

[0049] In der vorliegenden Ausführungsform sind die internen Kameraparameter wie Brennweite und Linsenverzerrung für die feststehenden Kameras unbekannt und für die mobile Kamera 2 bekannt. Die internen Kameraparameter der feststehenden Kameras werden im Zuge des im Anschluss an das Rekonstruktionsverfahren durchgeführten Rückwärtsschnittverfahren ermittelt.

[0050] In einer weiteren, alternativen Ausführungsform können die internen Kameraparameter der mobilen Kamera auch während des Rekonstruktionsverfahrens ermittelt werden.

DIE MOBILE KAMERA

[0051] In dieser Ausführungsform ist die Kamera 2 als Videokamera ausgebildet und nimmt mindestens drei Videobilder 5 pro Sekunde auf. Diese untere Schranke der Bildaufnahmerate ergibt sich aus der Geschwindigkeit einer normal gehenden Person, die die mobile Kamera trägt, und aus der Tatsache, dass mindestens 75% der Gegenstände in der Szene in zwei hintereinander folgenden Videobildern sichtbar sein müssen. Diese Videobilder 5 werden abge- 7/22 österreichisches Patentamt AT511 968 B1 2013-04-15 speichert und nach der Aufnahme an die Datenverarbeitungseinheit übermittelt. Alternativ können die Videobilder 5 auch unmittelbar nach ihrer Aufnahme an die Datenverarbeitungseinheit übermittelt werden.

[0052] Als mobile Kamera 2 können prinzipiell beliebige Videokameras verwendet werden. Als vorteilhaft hat es sich jedoch erwiesen, die mobile Kamera 2 mit einem Weitwinkelobjektiv zu verwenden. Gerade bei der Rekonstruktion von Innenräumen mit wenig Raumstruktur, d.h. große Anteile an einfarbigen, glatten und musterlosen Wänden, Decken und Böden, erhöht sich bei einer mobilen Kamera 2 mit einem großen Aufnahmebereich die Chance einen möglichst großen Überlappungsbereich und somit auch eine Mindestzahl von übereinstimmenden, markanten Bildpunkten zu detektieren, was insbesondere für das im Anschluss dargestellte Rekonstruktionsverfahrens von großem Vorteil ist.

[0053] Als mobile Kamera 2 wird in dieser bevorzugten Ausführungsform der Erfindung eine tragbare Spiegelreflexkamera, z.B. Canon EOS 5D Mark 2, mit einem Fischaugenobjektiv, z.B. Sigma EX DG Circular Fisheye, verwendet, das einen Öffnungswinkel von 180 Grad aufweist. Alternativ kann auch eine panoramische Kamera mit einem 360 Grad Aufnahmebereich verwendet werden, z.B. Point Greys Ladybug 3.

[0054] Fig. 4a-c zeigen beispielhaft die von der mobilen Kamera 2 im Laufe der Aufnahme aufgenommene Videobilder 5. Zum Zwecke einer einfacheren Betrachtung wurde auf eine Darstellung, die einem Fischaugenobjektiv entspricht, verzichtet.

AUFFINDEN UND ZUORDNUNG MARKANTER BILDPUNKTE IN DEN VIDEOBILDERN

[0055] In Fig. 5 ist schematisch der Ablauf des gesamten Verfahrens mit jeweils einem Bild 4 der Kameras A, B und einer Anzahl von Videobildern 5 der mobilen Kamera 2 dargestellt. Die zwischen den Videobildern 5 dargestellten Pfeile geben die Aufnahmereihenfolge der einzelnen Videobilder 5 an. Jedem Videobild 5 ist ein einziges nachfolgendes Videobild 5 zugeordnet, das ihm in der Videoaufnahme unmittelbar nachfolgt.

[0056] In einem ersten Verfahrensschritt wird im ersten der aufgenommenen Videobilder 5 eine Anzahl von markanten Bildpunkten X gesucht. Zu diesem Zweck wird für jeden einzelnen Pixel des Bildes 5 das Resultat eines lokalen Operators ermittelt, wobei als Operator in dieser Verfahrensausführung ein SURF (engl. Speeded Up Robust Features) Operator herangezogen wird. SURF erkennt zusammenhängende Bereiche im Bild und fällt damit unter die Klasse der bereichsbasierten (engl, blob-based) Detektoren, die skalierungsinvariant sind. SURF liefert im Vergleich zu anderen, bekannten Operatoren, verlässlich Bildpunkte X in hintereinander folgenden Bildern 5, die Abbilder desselben Raumpunktes Z sind, selbst mit einem Fischaugenobjektiv und bei geringer Bildaufnahmerate, wie dies in unserem Ausführungsbeispiel der Fall ist. Eine detaillierte Beschreibung und Implementierung des SURF Operators kann der Arbeit „Herbert Bay, Andreas Ess, Tinne Tuytelaars, und Luc Van Gool, Speeded-up robust features (SURF), Computer Vision and Image Understanding, Vol. 110, No. 3, Seiten 346 - 359, Juni 2008" entnommen werden.

[0057] Darüber hinaus sind eine Vielzahl weiterer Operatoren zur Bestimmung von markanten Bildpunkten bekannt, z.B. der ähnlich zu SURF bereichsbasierte DoG (engl. Difference of Gaussians) Operator, regionenbasierte Detektoren wie MSER (engl. Maximally Stable Extremal Regions), oder kantenschnittpunktbasierte Detektoren wie z.B. Harris - letzterer ist aber nur bei wesentlich höheren Bildaufnahmeraten einsetzbar. Diese Operatoren können alternativ zu SURF oder ergänzend in diesem Verfahrensschritt eingesetzt werden.

[0058] Eine Beschreibung der Funktionsweise und Anwendung all dieser vorstehend genannten Operatoren sowie das Auffinden der markanten Bildpunkte X ist an sich bekannt und beispielsweise in „Tinne Tuytelaars und Krystian Mikolajczyk, Local Invariant Feature Detectors -Survey, Foundations and Trends in Computer Graphics and Vision, Vol. 3, No. 3, Jänner 2008" beschrieben.

[0059] Aufgrund der Bewegung der mobilen Kamera 2 und der statischen Gegenstände in der 8/22 österreichisches Patentamt AT511 968 B1 2013-04-15

Szene haben Bildpunkte X, die Abbilder eines Raumpunktes Z auf der Oberfläche der sichtbaren Gegenstände sind, in hintereinander folgenden Bildern 5 unterschiedliche Positionen in den Bildern 5. Der nächste Verfahrensschritt ordnet einzelne aufgefundene markante Bildpunkte X in den Videobildern 5 einander zu, wobei bei dieser Zuordnung f angenommen wird, dass diese Bildpunkte X in aufeinanderfolgenden Videobildern 5, Abbilder ein und desselben Raumpunkts Z sind.

[0060] Zum Auffinden einer solchen Zuordnung f zwischen markanten Bildpunkten X der Videobilder 5 und den jeweils entsprechenden Punkten X im jeweils darauffolgenden Videobild 5 ist eine Vielzahl unterschiedlicher Verfahren aus dem Stand der Technik bekannt, z.B. können bei Verwendung eines Harris Detektors klassische Methoden aus dem Bereich der Bewegungsanalyse (engl. Tracking) verwendet werden, z.B. Kanade-Lucas-Tomasi Tracking. Alle diese Verfahren arbeiten in zwei Schritten: Zuerst werden die markanten Bildpunkte X durch Deskriptoren beschrieben, d.h. die Umgebung des markanten Bildpunkts X im jeweiligen Videobild 5 wird durch einen Deskriptor (Merkmalsvektor) beschrieben und die darin enthaltene visuelle Information zur Unterscheidbarkeit dieses Bildpunkts X kompakt zusammengefasst. Danach kann eine Zuordnung von unterschiedlichen Bildpunkten X im Merkmalsraum, wobei jeder Deskriptor einen Punkt in diesem Raum darstellt, mit einer entsprechenden Metrik erfolgen.

[0061] Im konkreten Ausführungsbeispiel wird der SURF Deskriptor zur Zusammenfassung der visuellen Information der bereits bekannten, markanten Punkte X in den Videobildern 5 angewendet. Der SURF Detektor sowie Deskriptor ist eingehend in der Veröffentlichung „Ryuji Funayama, Hiromichi Yanagihara, Luc Van Gool, Tinne Tuytelaars, Herbert Bay, ROBUST INTEREST POINT DETECTOR AND DESCRIPTOR, US Patent 2009238460 (A1), 24. September 2009" beschrieben. Diesem Verfahren folgend, wird eine Zuordnung f der markanten Punkte X mittels einer Suchmethode basierend auf der Euklidischen Distanz im Merkmalsraum durchgeführt (engl, best-bin-first search). Dieses Vorgehen ist eingehend in „David G. Lowe, Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision, Seiten 91-110, Vol. 60, No. 2, November 2004" und in „David G. Lowe, Method and Apparatus for Identifying Scale Invariant Features in an image and use of same for locating an object in an image, US Patent 6711293 (B1), 23. März 2004" beschrieben. Diese konkrete Auswahl von Detektor, -Deskriptor-, sowie Zuordnungsverfahren für dieses Ausführungsbeispiel ist in keiner Weise als einschränkend bezgl. der generellen Auffindung sowie Zuordnung markanter Bildpunkte in den Videobildern zu verstehen. Es existieren dem Stand der Technik entsprechend auch viele andere Verfahren, die alternativ angewendet werden können.

[0062] Durch dieses Vorgehen kann eine Zuordnung f zwischen den markanten Punkten X des jeweiligen Videobildes 5 und dem unmittelbar vorangehenden Videobild 5 erreicht werden. Sämtliche markante Punkte X aus den Videobildern 5, die durch die oben beschriebene Zuordnung f einander zugeordnet sind, bilden eine Menge Y (Fig. 5, 5a). In Fig. 5a sind die Bilder mehrerer Kameras übereinander gelegt. Die Menge Y aller einander zugehörigen Punkte sind in Fig. 5a dargestellt. Die Elemente dieser Menge Y sind diejenigen markanten Bildpunkte X, die jeweils Abbilder desselben Raumpunktes Z sind. Jede der Mengen Y umfasst eine Anzahl von markanten Punkten X, von denen jeweils einer in einem der Videobilder 5 detektiert worden ist.

[0063] In der Praxis kann es aufgrund visuell schwer unterscheidbarer Gegenstände zu Mehrdeutigkeiten und daher zu falschen Zuordnungen f kommen. Daher wird der nachfolgende Rekonstruktionsschritt robust, eingebettet in einem RANSAC (engl. Random Sample Consensus) Verfahren durchgeführt, damit inkorrekte Mengen Y identifiziert und ausgeschieden werden. Dieses fehlererkennende Verfahren ist in „Martin A. Fischler und Robert C. Bolles, Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography, Communications of the ACM, Seiten 381 - 395, Vol. 24, No. 6, Juni 1981" beschrieben.

[0064] Basierend auf den einzelnen, teilweise fehlerhaften Mengen Y von zugeordneten, markanten Bildpunkten X kann nunmehr eine robuste Rekonstruktion der Raumpunkte der auf den 9/22 österreichisches Patentamt AT511 968 B1 2013-04-15 aufgenommenen Videobildern 5 abgebildeten, ursächlichen Gegenstände gestartet werden. Das diesem Ausführungsbeispiel zugrunde gelegte Verfahren ist in der bereits erwähnten Veröffentlichung „Aki Torii, Michal Havlena, und Thomas Pajdla, From Google Street View to 3D City Models, IEEE OMNIVIS Workshop at the International Conference on Computer Vision, Abschnitt 2, Seiten 2189 - 2192, Kyoto, Japan, Oktober 2009" im Detail beschrieben. Es werden dreidimensionale Raumpunktdaten 3 erstellt, wobei jeder Menge Y von markanten Bildpunkten X jeweils ein Raumpunkt Z eines Gegenstandes zugeordnet ist. Sämtliche Raumpunkte Z, d.h. die vollständige Punktwolke, sind durch Koordinaten in einem globalen Referenzsystem angegeben. Dadurch wird eine Zuordnung g erstellt, die jedem markanten Punkt X genau einen Raumpunkt Z zuweist.

[0065] Parallel zu der Rekonstruktion der Raumpunkte, werden durch das Verfahren die relative Position und Ausrichtung der mobilen Kamera 2 zwischen zwei hintereinander folgenden Videobildern 5 ermittelt. Dazu bedarf es im vorliegenden Ausführungsbeispiel mindestens fünf zugeordneter Bildpunktpaare dieser Videobilder 5 aus jeweils fünf unterschiedlichen Mengen Y, falls die Abbildungsgeometrie der mobilen Kamera 2 bekannt ist, oder mindestens sieben zugeordneter Bildpunktpaare dieser Videobilder 5 aus jeweils sieben unterschiedlichen Mengen Y für den Fall, dass die internen Kameraparameter unbekannt sind. Da meist mehr Mengen Y als diese Mindestzahl zur Verfügung stehen, können durch die Einbettung des Rekonstruktionsverfahrens in das RANSAC Verfahren Mengen mit fehlerhaften Zuordnungen identifiziert und ausgeschieden werden.

BILDSUCHE

[0066] Im folgenden Verfahrensschritt werden die einzelnen von den feststehenden Kameras A, B sowie von der mobilen Kamera 2 aufgenommenen Videobilder 5 miteinander verglichen. Es wird für das Bild 4 der Kamera A und unabhängig von Bild 4 der Kamera B beziehungsweise unabhängig von anderen feststehenden Kameras ein Videobild 5 gesucht, das eine größtmögliche Übereinstimmung hinsichtlich der sichtbaren Szene und der in der Szene befindlichen Gegenstände mit dem jeweiligen Bild 4 aufweist. Aufgrund der überlappenden Sichtfelder und der gemeinsamen Blickrichtung der mobilen Kamera 2 und einer der feststehenden Kameras A, B bei zumindest einer der Aufnahmen ist gewährleistet, dass jeder der mittels einer feststehenden Kamera A, B aufgenommenen und abgebildeten Oberflächen der Gegenstände auch* in zumindest einem der mit der mobilen Kamera 2 aufgenommenen Videobilder 5 abgebildet ist und somit zumindest ein Videobild 5 zur Verfügung steht.

[0067] Die jeweiligen Bilder 4 werden nun in der Bildsequenz der Videobilder 5 auf Vorliegen von Übereinstimmungen hin geprüft. Dazu wird jedem Bild 4 und gleichermaßen jedem Videobild 5 der Bildsequenz eine Menge visueller Wörter oder Labels (engl. Visual words) basierend auf den SURF Deskriptoren der markanten Punkte W, X und einem allgemeinem Vokabular bestehend aus einer Vielzahl an Wörtern, die aus repräsentativen, zusätzlichen Bildsequenzen ähnlicher Szenen stammen, zugewiesen. Diese Wörter werden nach der Häufigkeit ihres Auftretens im Vokabular durch tf-idf Vektoren (engl, term frequency - inverse document frequency vectors) gewichtet, d.h. Wörter die in den repräsentativen Bildsequenzen selten Vorkommen, werden höher bewertet. Nun wird für jedes Bild 4 ein Vergleich mit jedem Videobild 5 durchgeführt, wobei eine Wahrscheinlichkeit p(h) für die Ähnlichkeit der Bilder 4 und 5 basierend auf den tf-idf Vektoren berechnet wird. Dieser Verfahrensschritt ist „Aki Torii, Michal Havlena, und Thomas Pajdla, From Google Street View to 3D City Models, IEEE OMNIVIS Workshop at the International Conference on Computer Vision, Seite 2191, Abschnitt 2.4, Absatz: Building Image Similarity Matrix, Kyoto, Japan, Oktober 2009" beschrieben. Eine genaue Beschreibung der Definition des, die Ermittlung visueller Wörter sowie eine Beschreibung der tf-idf Vektoren findet sich in „Joseph Sivic und Andrew Zisserman, Video google: Efficient Visual search of Videos, Toward Category-Level Object Recognition, Workshop Toward Category-Level Object Recogni-tion, LNCS Vol. 4170, Seiten 127 - 144, Springer Verlag, Juli 2006".

[0068] Nach der Durchführung dieses Verfahrensschritts besteht eine Zuordnung h mit Wahrscheinlichkeit p(h) zwischen jedem der mit den feststehenden Kameras A, B aufgenommenen 10/22 österreichisches Patentamt AT511 968B1 2013-04-15

Bilder 4 und jedem mit der mobilen Kamera 2 aufgenommenen Videobilder 5. Die Auswahl der endgültigen Zuordnung h unter den möglichen wird erst während des räumlichen Rückwärtsschnittverfahrens festgelegt.

AUFFINDEN ÜBEREINSTIMMENDER PUNKTE

[0069] Nachdem die Zuordnungswahrscheinlichkeit p(h) zwischen jeweils einem der mit einer feststehenden Kamera A, B aufgenommenen Bilder 4 und jeweils einem der Videobilder 5 bekannt ist, wird mit den zugeordneten Bildern 4, 5 mit der größten Zuordnungswahrscheinlichkeit p(h) beginnend nun markante Bildpunkte X, W gesucht, die denselben Raumpunkt Z abbilden. In den Bildern 4, 5*sowie in den Videobildern 5 stehen aufgrund der vorangehenden Verfahrensschritte bereits markante Bildpunkte W bzw. X zur Verfügung.

[0070] Im vorliegenden Ausführungsbeispiel erfolgt diese Zuordnung ident zur Ermittlung der Zuordnung f mittels der „best-bin-first" Suchmethode basierend auf der Euklidischen Distanz im Merkmalsraum. Es wird eine Zuordnung k erstellt, die einen markanten Punkt X aus einem Videobild 5 und einen markanten Punkt W aus einem Bild 4 einander zuordnet, die denselben Raumpunkt Z abbilden.

[0071] In Fig. 6 sind ein Bild 4 und ein Videobild 5 dargestellt, die gemeinsame Gegenstände darstellen. In den beiden Bildern 4, 5 kann eine Vielzahl von miteinander übereinstimmenden markanten Punkten X, W aufgefunden werden, lediglich die Ecken des Fensters, die auf die markanten Bildpunkte W19 - W25 des in Fig. 6 dargestellten Bildes 4 abgebildet sind, haben keine Entsprechung in dem in Fig. 6 dargestellten Videobild 5. Die markanten Punkte X1 - X18 des Videobildes 5 lassen sich jedoch eindeutig den markanten Punkten W1 - W18 des Bildes 4 zuordnen.

[0072] Im Folgenden wird eine Zuordnung I zwischen markanten Bildpunkten W der Bilder 4 und einem Raumpunkt Z erstellt, wobei der markante Bildpunkt W jeweils das Abbild des ihm zugeordneten Raumpunktes Z ist. Diese Zuordnung I markanter Bildpunkte W zu Raumpunkten Z erfolgt transitiv auf Grundlage der bislang bestimmten Zuordnungen g, k und unter der noch nicht endgültig festgelegten, hypothetisierten Zuordnung h. Da eine eindeutige Zuordnung g zwischen den Raumpunkten Z und markanten Bildpunkten X eines Videobilds 5 besteht und weiters durch die Zuordnung k den markanten Bildpunkten W jedes Bilds 4 einer feststehenden Kamera A, B jeweils ein markanter Bildpunkt X eines Videobilds 5 zugeordnet ist, kann eine Zuordnung I gefunden werden, die jedem der markanten Bildpunkte W jeweils ein Raumpunkt Z zuordnet.

[0073] Nach der Ermittlung der Zuordnung I im jeweiligen Bild 4 der feststehenden Kamera 2 steht im vorliegenden Ausführungsbeispiel für mehr als die Mindestanzahl von drei (interne Parameter der Kameras A, B kalibriert) oder vier (unkalibrierter Fall) markanten Bildpunkten W jeweils der Raumpunkt Z zur Verfügung, der auf den jeweiligen markanten Bildpunkt W abgebildet ist.

[0074] Das im Folgenden räumliche Rückwärtsschnittverfahren identifiziert schlussendlich die korrekte Zuordnung h durch geometrische Verifikation. Dabei wird das Verfahren mit der Mindestzahl von drei oder vier zugeordneten Punkten W, Z ausugeführt und das Ergebnis mit den restlichen zugeordneten Punkten W, Z verifiziert. Bei mindestens 70% Übereinstimmung der Punkte W, Z mit der errechneten Position und Ausrichtung gegebenenfalls Brennweite und Linsenverzerrung wird die Zuordnung h akzeptiert.

RÄUMLICHES RÜCKWÄRTSSCHNITTVERFAHREN

[0075] Anhand des mit der feststehenden Kamera A, B aufgenommenen Bildes 4 sowie der Zuordnung I zwischen den markanten Bildpunkte W des Bildes 4 und den bekannten Raumpunkten Z kann die Position und Ausrichtung der feststehenden Kameras A, B sowie gegebenenfalls die Brennweite sowie Linsenverzerrung ermittelt werden. Die Linsenverzerrung wird dabei durch einem Divisionsmodell mit einem Parameter ausreichend beschrieben. Dies erfolgt im vorliegenden Ausführungsbeispiel mittels des in „Klas Josephson und Martin Byröd, Pose 11 /22 österreichisches Patentamt AT511 968 B1 2013-04-15 estimation with radial distortion and unknown focal length, IEEE International Conference on Computer Vision and Pattern Recognition, Seiten 2419 - 2426, Miami, USA, Juni 2009" beschriebenen Verfahrens.

[0076] Bei bekannter Brennweite sowie Linsenverzerrung kann Position und Ausrichtung der feststehenden Kameras auch durch das Verfahren, wie in „Robert M. Haralick, Chung-Nan Lee, Karsten Ottenberg, und Michael Nölle, Analysis and Solutions for the three point perspective pose estimation problem, IEEE International Conference on Computer Vision and Pattern Recognition, Seiten 592 - 598, Juni 1991" beschrieben, ermittelt werden.

[0077] Aus den zur Verfügung stehenden markanten Punkten W und zugeordneten Raumpunkten Z werden so viele Punktpaare ausgewählt, wie zur Bestimmung der jeweiligen Größen erforderlich sind. Im vorliegenden Fall werden vier markante Bildpunkte W ausgewählt und zur Ermittlung der Position, Ausrichtung, der Brennweite sowie der Linsenverzerrung mittels des räumlichen Rückwärtsschnittverfahrens herangezogen. Durch das Rückwärtsschnittverfahren wird eine eindeutige Projektionsfunktion ermittelt, die für jedes Pixel jeder der feststehenden Kameras A, B eine eindeutige Gerade im dreidimensionalen Raum ermittelt, auf der sich vor der Bildebene im sichtbaren Bereich der Kamera der auf das jeweilige Pixel abzubildende Raumpunkt befindet.

[0078] Sofern die Brennweite oder die Linsenverzerrung der feststehenden Kamera A, B bereits vorab bekannt sind, kann diese der Abbildungsfunktion vorgegeben werden, zur eindeutigen Festlegung der Abbildungsfunktion sind dann entsprechend weniger - nämlich drei - markante Bildpunkte W sowie deren jeweils zugeordnete Raumpunkte Z zugrunde zu legen.

[0079] In Kombination mit dem RANSAC Verfahren wird für die übrigen, nicht zur Festlegung der Projektionsfunktion ausgewählten markanten Bildpunkte W untersucht, wie weit der jeweilige Raumpunkt Z von der durch die Projektionsfunktion ermittelten Gerade des jeweiligen Raumpunkts Z entfernt ist. Die jeweiligen Entfernungen, d.h. die Normaldistanz zwischen Gerade und Raumpunkt, werden summiert, es ergibt sich ein Abbildungsfehler.

[0080] Dieser Abbildungsfehler kann für unterschiedliche Mengen von markanten Bildpunkten W bzw. hierauf basierenden Projektionsfunktionen ermittelt werden. Die Auswahl der markanten Bildpunkte W erfolgt dabei zufällig. Diejenige Menge von markanten Bildpunkten W, für die der Abbildungsfehler minimal ist und unter einem vorgegebenen Schwellwert liegt, kann als optimale Projektionsfunktion herangezogen werden. Alle Punktpaare W, X die innerhalb des festgelegten Fehlerintervalls liegen unterstützen die gefundene Abbildungsgeometrie. Bei mehr als 70% Unterstützung wird die Zuordnungshypothese h schlussendlich akzeptiert. Ansonsten wird die Bildsuche mit der Zuordnungshypothese, die die nächst kleinere Wahrscheinlichkeit p(h) in der Ähnlichkeit der Bilder A, B zu einem Videobild 5 besitzt, fortgesetzt.

[0081] Falls keine der Projektionsfunktionen aller möglichen Mengen von markanten Bildpunkten W akzeptiert wird, so ist die Position und Lage der feststehenden Kamera nicht ermittelbar. Es müssen somit entsprechend mehr Videobilder mit der mobilen Kamera aus anderen Blickwinkeln oder zusätzliche Gegenstände in die Szene eingebracht werden. 12/22

Claims

österreichisches Patentamt AT511 968 B1 2013-04-15 Patentansprüche 1. Verfahren zur Bestimmung der relativen Position, und Ausrichtung, gegebenenfalls auch der Brennweite sowie der Linsenverzerrung, einer Anzahl von fest angeordneten und fest ausgerichteten, feststehenden Kameras (A, B) auf Basis der folgenden zur Verfügung stehenden Bilddaten: - mit den feststehenden Kameras (A, B) aufgenommene Bilder (4) sowie, - eine Bildsequenz mit einer Anzahl von Videobildern (5) die zumindest Teile des jeweiligen Sichtfeldes einer oder mehrerer der feststehenden Kameras zeigen und die mittels einer mobilen Videokamera mit einer konstanten Aufnahmerate aufgenommen worden sind, wobei für jedes mit einer feststehenden Kamera (2) aufgenommene Bild (4) zumindest ein weiteres mit der mobilen Videokamera aufgenommenes Videobild (5) vorliegt, bei dessen Aufnahme das Sichtfeld der mobilen Kamera (2) mit dem Sichtfeld der jeweiligen feststehenden Kamera (A, B) überlappt und sowohl im Bild (4) als auch im jeweiligen Videobild (5) Gegenstände mit strukturierten Oberflächen in den überlappenden Bildbereichen sichtbar sind, wobei in den mit der mobilen Videokamera (2) hintereinander aufgenommenen Videobildern markante Bildpunkte (X) gesucht und/oder ermittelt werden, die denselben Gegenstand abbilden, und dadurch Mengen (Y) von markanten Bildpunkten (X) ermittelt werden, die denselben Gegenstand abbilden, wobei mittels eines Rekonstruktionsverfahrens anhand der Mengen (Y) von markanten Bildpunkten (X) die Raumpunkte (Z) in Bezug auf ein vorgegebenes Koordinatensystem ermittelt werden, und wobei für jede der feststehenden Kameras (A, B) - das aufgenommene Bild (4) einer feststehenden Kamera (A, B) mit den Videobildern (5) verglichen wird, wobei mittels eines Bildsuchverfahrens dasjenige Videobild (5) ermittelt wird, das mit dem Bild (4) der jeweiligen feststehenden Kamera (A, B) am besten übereinstimmt und eine gegenseitige Zuordnung zwischen dem Bild (4) der jeweiligen feststehenden Kamera (A, B) und dem am besten übereinstimmenden Videobild (5) der Bildsequenz vorgenommen wird, - im Bild (4) der feststehenden Kamera (A, B) und in dem jeweiligen, zugeordneten Videobild (5) markante Bildpunkte (X, W) ermittelt werden und paarweise Zuordnungen zwischen markanten Bildpunkten (X) im Videobild (5) und markanten Punkten (W) im jeweiligen Bild (4) der feststehenden Kamera (A, B) ermittelt werden, - eine Zuordnung zwischen den markanten Bildpunkten (W) und den durch das Rekonstruktionsverfahren erzeugten Raumpunkten (Z) vorgenommen wird, wobei jedem markanten Punkt (W) eines Bildes (4) der feststehenden Kamera (A, B) derjenige Raumpunkt (Z) zugeordnet wird, der dem markanten Punkt (W) folglich zugeordneten markanten Punkt (X) im jeweiligen Videobild (5) zugeordnet ist, und - basierend auf der Zuordnung zwischen den markanten Punkten (X) in den Bildern (4) der jeweiligen feststehenden Kamera (A, B) und den Raumpunkten (Z) das Verfahren des räumlichen Rückwärtsschnitts durchgeführt wird, wobei die Position und die Ausrichtung, gegebenenfalls auch die Brennweite und Linsenverzerrung, der einzelnen feststehenden Kameras ermittelt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für ein Bild jeder feststehenden Kamera (A, B) zumindest ein Videobild (5) der mobilen Kamera (2) vorhanden ist, das dieselbe Szene zeigt, wobei bei der Aufnahme des Videobilds (5) der durch die optischen Achsen der mobilen Kamera (2) und der feststehenden Kamera (A, B) eingeschlossene Winkel 60 Grad nicht übersteigt. 13/22