DE69717176T2 - Korrektur der Kamerabewegung zwischen zwei Bildern - Google Patents
Korrektur der Kamerabewegung zwischen zwei BildernInfo
- Publication number
- DE69717176T2 DE69717176T2 DE69717176T DE69717176T DE69717176T2 DE 69717176 T2 DE69717176 T2 DE 69717176T2 DE 69717176 T DE69717176 T DE 69717176T DE 69717176 T DE69717176 T DE 69717176T DE 69717176 T2 DE69717176 T2 DE 69717176T2
- Authority
- DE
- Germany
- Prior art keywords
- image
- images
- motion
- translation
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/147—Details of sensors, e.g. sensor lenses
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Vascular Medicine (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Studio Devices (AREA)
- Closed-Circuit Television Systems (AREA)
Description
- Korrektur der Kamerabewegung zwischen zwei Bildern Die Erfindung betrifft die Computervision und insbesondere die Schätzung der Eigenbewegung und Struktur einer Szene anhand zweier Bilder der Szene.
- Die Eigenbewegungs- und Strukturschätzung anhand zweier Bilder einer Szene ist in vielen Bereichen von Nutzen, insbesondere bei der Navigation und dreidimensionalen szenischen Rekonstruktion.
- Viel Arbeit wurde in den Versuch investiert, Kamerabewegungsparameter aus Bildpaaren wiederherzustellen. In nahezu allen Fällen kommt die optische Fluß- oder Merkmalspunktekorrespondenz als Anfangsmessungen zum Einsatz. Im ersten Fall verweisen einige optischen Flußberechnungen inhärente Probleme (Apertur, große Bewegungen usw.) darauf, daß Fehler nie auf ein zu vernachlässigendes Niveau reduziert werden können. Selbst Verfahren, die die Intensitätsableitungen direkt oder Normalfluß verwenden, leiden unter hoher Rauschanfälligkeit. Für merkmalsbasierte Verfahren ist die zuverlässige Auswahl und Verfolgung sinnvoller Merkmalspunkte allgemein sehr schwierig.
- Eigenbewegungsverfahren des Stands der Technik bestimmen implizit oder explizit die in der Szene vorhandene Struktur. Während z. B. merkmalsbasierte Verfahren einen Bewegungsschätzwert direkt berechnen, ist die Struktur angesichts der Merkmalskorrespondenzen implizit verfügbar. Direktverfahren schätzen explizit sowohl die Eigenbewegung als auch die Struktur, normalerweise auf iterative Weise, wobei zunächst die Bewegungs- und dann die Strukturschätzwerte usw. verfeinert werden. Somit scheint eine gute Bewegungsschätzung eine gute Strukturschätzung (oder zumindest Punktkorrespondenzschätzung) zu erfordern.
- Die US-A-5644651, die der JP-A-08-320933, veröffentlicht am 3. Dezember 1996, entspricht, beschreibt ein Verfahren zur Bestimmung der Eigenbewegung und Strukturform einer Szene anhand zweier Bilder der Szene, das auf einer Suche durch den dreidimensionalen Raum auf der Grundlage von Rotation und einer angenommenen bekannten Translation oder den zweidimensionalen Raum auf der Grundlage von Translation und einer angenommenen bekannten Rotation im Zusammenhang mit der Szene beruht. Dieses Verfahren verwendet die Eigenschaften von Intensitätshistogrammen, die entlang von epipolaren Linien berechnet werden, die man als entsprechend betrachten kann. Diese Eigenschaften hängen von der Annahme konstanter Bildhelligkeit ab, so daß man annehmen kann, daß die Histogramme entsprechender epipolarer Linien invariant und daß die Histogramme nahezu entsprechender Linien ähnlich sind, wobei die Ähnlichkeit eine Funktion der in den Bildern vorhandenen räumlichen Korrelation ist. Wegen der Eigenschaft, daß die Differenz zwischen zwei Histogrammen zweier epipolarer Linien minimal ist, wenn die beiden epipolaren Linien genau korrespondieren, und mit dem Fehlausrichtungsgrad zwischen zwei epipolaren Linien monoton steigt, kann die Rotationsbewegung zwischen den beiden Bildern bei einer dreidimensionalen epipolaren Suche einfach abgeschätzt werden, wenn die Translationsbewegung als bekannt angenommen ist. Der abgeleitete Schätzwert des Rotationsbetrags zwischen den beiden Bildern kann dann bei der Weiterverarbeitung der Bilder verwendet werden, um eine dreidimensionale Darstellung der Bildszene zu erzeugen.
- Dieses Verfahren hat sich bei der Bildung von Schätzwerten der zwischen zwei Bildern beteiligten Rotationsbewegung als recht genau erwiesen, zeigte sich aber als relativ rauschbehaftet bei der Bereitstellung von Schätzwerten für die Translationsbewegung, und bei der vorliegenden Erfindung handelt es sich um ein Verfahren, das sowohl für Translations- als auch Rotationsschätzwerte sehr genau ist.
- In Burger, W., et al. "A geometric constraint method for estimating 3-D camera motion", Proceedings of the International Conference on Robotics and Automation, San Diego, 8.- 13. Mai 1994, Band 2, Nr. CONF. 11, 8. Mai 1994, Institute of Electrical and Electronics Engineers, Seiten 1155-1160, XP000478462 ist ein Verfahren zur Schätzung der 3D-Kamerabewegung offenbart. Das Verfahren verwendet eine Sequenz von 2D-Bildern, schätzt die Translations- und Rotationsparameter und schätzt die Verschiebungsvektoren. Die Schätzung der Bewegung erfolgt durch Lokalisieren des Expansionsfokus (FOE), in dem man eine in Frage kommende bzw. Kandidaten-FOE-Region iterativ über alle Verschiebungsvektoren eingrenzt.
- Die Erfindung basiert auf einem Paradigma, das als Bewegung-ohne-Struktur bezeichnet werden könnte, welches die Wiederherstellung von Eigenbewegung unabhängig von jeder Struktur- oder Korrespondenzschätzung ermöglicht. Dabei besteht der Nutzen darin, daß es genau fünf unbekannte Bewegungsparameter gibt, die zu schätzen sind. Daher wird erwartet, daß ein solcher Weg sowohl robust als auch genau sein sollte. Dies wird durch erste experimentelle Ergebnisse erhärtet.
- Das Verfahren beruht auf der statistischen Modellierung des Bildverhaltens in der Nachbarschaft eines Punkts. Anschließend dient dieses Modell zur Schätzung der Mutmaßlichkeit einer angenommenen Kamerabewegung.
- Die wahre Bewegungssuche zu bestimmen, ist einfach, da die zu minimierende Funktion nur ein Minimum hat (das die Lösung ist), sofern das Bild sich wohlverhält, d. h. wenn die Varianz der Intensitätsdifferenz benachbarter Intensitätspunkte mit der Entfernung zwischen den Punkten monoton steigt.
- Das Ziel besteht in der Bestimmung der Bewegung zwischen zwei Bildern durch eine Suche über den Raum möglicher Rotationen und Translationen. Die Anzahl zu schätzender Parameter beträgt 3 für die Rotation und 2 für die Translation. Nur zwei Translationskomponenten sind nötig, da die Größe der Translation nicht geschätzt werden kann, nur ihre Richtung (wegen der Maßstabsmehrdeutigkeit). Daher wird die Translation mit Einheitsgröße angenommen, und die Translationsschätzung reduziert sich auf die Bestimmung der Translationsrichtung auf der Oberfläche einer Einheitskugel.
- Um eine solche Suche zu ermöglichen, ist eine Kostenfunktion notwendig, die die Mutmaßlichkeit einer angenommenen Bewegung bewertet. Wesentliche Merkmale einer solchen Kostenfunktion sind: (1) Invarianz gegenüber Struktur in der Szene, (2) ein wohldefiniertes globales Minimum am korrekten Bewegungsschätzwert und (3) keine lokalen Minima oder zumindest eine lokal stetige, vorzugsweise monotone Variation als Funktion des Fehlers bei Bewegungsschätzungen.
- Im folgenden wird eine solche strukturinvariante Bewertungsfunktion beschrieben, die eine Güteziffer auf der Grundlage einer Summenform quadrierter Differenzen ableitet. Insbesondere beruht die Güteziffer auf einer globalen Summe aus einer Summe quadrierter Fehler zwischen Pixeln eines Bilds und Stichprobenpunkten entlang den angenommenen entsprechenden epipolaren Liniensegmenten im anderen Bild. Zur Ableitung dieser Kostenfunktion wird ein einfaches statistisches Modell der lokalen Intensitätsvariation in den Bildern eingeführt. Es kann gezeigt werden, daß bei Validität eines solchen Modells die Bewertungsfunktion sowohl monoton abnimmt als auch ein einziges wohldefiniertes globales Minimum hat. Unterstützt wird dies durch experimentelle Ergebnisse zu mehreren Naturszenen.
- Insbesondere wird beim Verfahren der Erfindung eine Schätzung gemäß der vorstehenden Diskussion vorgenommen, an der drei Rotationsparameter und zwei Translationsparameter beteiligt sind. Eine Kostenfunktion dient zur Bewertung jedes Schätzwerts, der die Summe quadrierter Differenzen zwischen Pixeln in einem Bild und entsprechenden Pixeln in hypothetisierten entsprechenden epipolaren Liniensegmenten beinhaltet. Eine Gradientenabstiegssuche dient zum Auswählen unterschiedlicher Schätzwerte, bis eine Minimalsumme erreicht ist, die allgemein das gewünschte globale Minimum ist.
- In Fällen, in denen die Annahme konstanter Bildintensität nicht anwendbar ist, kann es erwünscht sein, dem o. g. Verfahren eine Normalisierung vorauszuschicken. Vorteilhaft kann die Normalisierung durch die dynamische Histogrammverbiegungstechnik erfolgen.
- Die Lehren der Erfindung gehen aus der nachfolgenden näheren Beschreibung im Zusammenhang mit den beigefügten Zeichnungen leicht verständlich hervor. Es zeigen:
- Fig. 1 zwei Bilder einer Szene, die eine Bewegung erfahren haben, wobei Bild B die Ortskurve der möglichen Positionen eines in Bild A gezeigten Punkt zeigt;
- Fig. 2A und 2B die Fehlerfunktion für zwei Segmente u und v für den Fall unbekannter Translation bzw. unbekannter Rotation; und
- Fig. 3 einen Ablaufplan des Verfahrens der Erfindung.
- Ein einfaches statistisches Modell wird zur Darstellung des Bildverhaltens um einen Punkt verwendet. Man betrachte die Intensitätsverteilung in der Nachbarschaft eines bestimmten Punkts in einem Einzelbild A. Angenommen sei, daß die Wahrscheinlichkeit eines Punkts IA( + ) mit einer Intensität a abhängig von einem vorgegebenen Punkt mit einer Intensität b eine Normalverteilung unter der Annahme hat, daß die Entfernung zwischen den beiden Punkten hinreichend klein ist. Somit ergibt sich
- wobei
- eine Gaußsche Verteilung mit dem Mittelwert b und der Varianz σ²( ) ist. Die Varianz σ²( ) ist eine Funktion der Entfernung . Diese Eigenschaft hängt intuitiv mit der in einer Szene vorhandenen Korrelation zusammen und wird als nächstes experimentell verifiziert.
- Für ein bestimmtes Bild lassen sich die Parameter der Verteilungen bewerten, d. h. σ²( ) für alle möglichen Abstände innerhalb einer ausgewählten Nachbarschaft. Für einen vorgegebenen soll die Verteilung der Stichproben
- bewertet werden, die über alle -Punkte im Bild durchgeführt sind. Zu beachten ist, daß das Mittel dieser Stichprobe stets 0 beträgt. Die Varianz σ²( ) erhält man aus den Stichproben als
- wobei n die Anzahl durchgeführter Stichproben ist.
- Sobald die Varianz für alle so geschätzt ist, daß ≤ rmax ist, wobei rmax die Maximalgröße der Nachbarschaft ist, liegt eine brauchbare globale statistische Maßzahl vor, die das lokale Verhalten von Bildintensitäten beschreibt. Diese statistische Maßzahl bestimmt sich experimentell durch direktes Messen der Verteilung von Intensitätswerten in der Nachbarschaft aller Pixel in einem Bild. Festgestellt wurde, daß für das typische Naturbild die Varianz annähernd monoton mit der Entfernung zunimmt, wobei ein einzelnes Minimum bei = (0, 0) zentriert ist. Diese Eigenschaft wird zur Ableitung eines Mutmaßlichkeitsmaßes genutzt. Während die Beziehung zwischen Varianz und Entfernung monoton steigt, ist sie nicht isotrop, was darauf verweist, daß Intensitäten in bestimmten Richtungen stärker korrelieren.
- Nunmehr kann mit der Entwicklung einer tiefeninvarianten Kostenfunktion fortgefahren werden. Ist die Rotation bekannt, muß die Mutmaßlichkeit einer angenommenen Translation T bewertet werden, was umgekehrt für die Rotation R gilt. Gemäß Fig. 1 kann man für einen vorgegebenen Punkt IA( ) im Bild A und eine Kamerabewegung den entsprechenden Punkt IB( ) (den Nulldisparitätspunkt) im Bild B, der unendliche Tiefe hat, sowie den Expansionsfokus (FOE) berechnen. Eine bekannte Translation, aber unbekannte Rotation bedeutet, daß der FOE bekannt ist, aber der Punkt IB( ) eine unbekannte Lage hat. Umgekehrt bedeutet eine bekannte Rotation, aber unbekannte Translation, daß der entsprechende Punkt IB( ) im Bild B bekannt ist, die Lage des FOE aber nicht. Da die wirkliche Tiefe des Punkts IA( ) unbekannt ist, kann nur angenommen werden, daß der tatsächliche entsprechende Punkt IB( ) irgendwo in der Nachbarschaft des Punkts IB( ) je nach der unbekannten Tiefe z liegt. Tatsächlich liegt er stets auf der Linie, die den wahren Punkt IB( ) und den wahren Expansionsfokus verbindet. Da die Punkte IA( ) und (der unbekannte) IB( ) korrespondieren, sollte die Varianzfunktion um IB( ) mit der von IA( ) identisch sein.
- Für den Fall der unbekannten Translation wird ein Liniensegment u mit der Länge rmax beginnend am Nulldisparitätspunkt IB( ) ausgewählt und zum Kandidaten-FOE orientiert. Der Wert von rmax ist so ausgewählt, daß er die erwartete Maximaldisparität widerspiegelt. Ein Kandidaten-FOE liefert eine Kandidatentranslation und umgekehrt. Wählt man eine Anzahl von Stichprobenintensitätswerten ui entlang dem Segment u aus und definiert das Fehlermaß eu als
- eu = (ui - IA( ))² (3),
- so wird eu minimal, wenn das Segment u IB( ) und enthält und somit zum FOE weist. Dieses Minimum existiert und ist eindeutig, wenn sich die Varianzfunktion der Bilder wohlverhält. Im folgenden wird dies näher diskutiert.
- Jetzt kann diese Eigenschaft verwendet werden, um abzuschätzen, ob ein Kandidaten-FOE günstig ist. Wählt man eine Anzahl von Punkten IA( ) aus und berechnet die Summe der einzelnen Liniensegment-Fehlermaße eqi, wobei qi das bei IA( ) beginnende und zum Kandidaten-FOE weisende Segment ist, erwartet man, daß all diese Fehlermaße gleichzeitig minimal sind, wenn dieser Kandidaten-FOE wirklich der wahre FOE ist. Somit dient die Summe der einzelnen Liniensegment-Fehlermaße S = Σeqi als globaler Schätzwert der Mutmaßlichkeit des FOE. Im Fall sich wohlverhaltender Bilder erwartet man nur ein Minimum und kann eine einfache Suche nach dem genauen FOE auf der Grundlage von Gradientenabstieg durchführen.
- Dieses Modell läßt sich leicht ändern, um die Rotation zu schätzen, indem der FOE fixiert wird (bekannte Translation) und Kandidatenpunkte IB( ) in Zuordnung zu Kandidatenrotationen gewählt werden.
- Um erfolgreich über den Bewegungsraum zu suchen, muß die Kostenfunktion ein wohldefiniertes globales Minimum und wenige, falls überhaupt, lokale Minima haben. Es läßt sich zeigen, daß für eine bekannte Rotation der Translationssuchraum nur ein einzelnes globales Minimum hat, setzt man gleichmäßige und monotone Bildintensitätskorrelation voraus. Umgekehrt gilt dies ebenfalls. In beiden diesen Fällen gibt es keinerlei Problem mit Rotations-/Translationsmehrdeutigkeit, was bei der vollen 5D-Suche der Fall ist.
- Eine zweite Bedingung für die erfolgreiche Suche lautet, daß die Konvergenzregion groß sein sollte, um eine leichte Auswahl eines Anfangssuchpunkts zu ermöglichen. Diese Region (und die allgemeine Stetigkeit der Funktion) sollte aus den statistischen Maßzahlen für die lokale Bildintensität ableitbar sein. Qualitativ ist klar, daß hochfrequente Intensitätsvariationen keine breite Konvergenzregion zulassen (wegen Mehrdeutigkeiten), während niederfrequente Variationen viel größere Bewegungen ermöglichen.
- Nunmehr wird gezeigt, daß für sich wohlverhaltende Bilder ein einziges Minimum des Fehlermaßes eu von Gleichung 3 beobachtet wird, wenn ein Segment u IB( ) enthält und den wahren Nulldisparitätspunkt und den wahren FOE verbindet. Ein sich wohlverhaltendes Bild ist hierbei als Bild definiert, das eine monoton steigende Varianzfunktion hat. Da diese Funktion definitionsgemäß stets ein globales Minimum bei (0, 0) hat, genügt diese Bedingung, um zu gewährleisten, daß die Mutmaßlichkeitsfunktion ein eindeutiges Minimum besitzt. Dies wird als nächstes demonstriert.
- Man betrachte ein Segment u in der Nachbarschaft von , das bei beginnt und n Stichprobenintensitäten gemäß Fig. 2A enthält. Anhand der Verteilungseigenschaft läßt sich dann sagen, daß sich jede Stichprobe wie eine Zufallsvariable ui mit der Verteilung
- verhält, wobei die Entfernung (x, y) von der Stichprobe ui zur Position ist, der unbekannten Lage des entsprechenden Punkts zu IA( ). Nach Gleichung 3 ist das Fehlermaß eu eine als
- eu = (ui - IA( ))²
- definierte Zufallsvariable mit einem Erwartungswert, der definiert ist als
- Angenommen sei, daß jetzt ein zweites Segment v genommen wird, das auch bei , aber näher am Punkt beginnt. Ein Satz von Stichproben vi wird mit der gleichen Stichprobenahme wie beim Segment u ausgewählt. Das Fehlermaß eu ist als Zufallsvariable
- eu = (vi - IA( ))² ,
- definiert, die einen Erwartungswert
- E(eu) = σ²( vi)
- hat, wobei die Entfernung (x, y) von der Stichprobe v zur Position ist. Jetzt soll gezeigt werden, daß die Erwartung von eu stets kleiner als E(eu) ist. Zunächst ist es einfach zu erkennen, daß
- vi < vi , i.
- Daraus folgt, daß
- ist, was zeigt, daß mit stärkerer Annäherung an das IB( ) enthaltende Segment der erwartete Fehlerwert kleiner wird, bis er ein Minimum erreicht, wenn der Kandidaten-FOE dem wahren FOE entspricht. Solange die Varianzfunktion monoton ist, existiert garantiert dieses Minimum und ist eindeutig.
- Der gleiche Verfahrensablauf läßt sich für die Rotationsschätzung anwenden, indem einfach der FOE und der Nulldisparitätspunkt ausgetauscht werden.
- In Fig. 3 ist ein Ablaufplan des Verfahrens gezeigt. Gemäß Block 31 kann in jenen Fällen, in denen eine große Differenz der Intensitätsniveaus zwischen den beiden zu vergleichenden Bildern aufgrund von Kameraeinstellungen oder variierenden Beleuchtungsbedingungen vorliegt, die Ermittlung des gewünschten globalen Minimums in der verwendeten Kostenfunktion beschleunigt werden, wenn die Intensitätsniveaus der beiden Rahmen normalisiert werden. Die dynamische Histogrammverbiegung ist eine bekannte Technik zur Normalisierung. Bei dieser Technik werden Histogramme der Intensitätsniveaus eines oder beider Bilder so erstellt, daß die Peaks in den beiden Histogrammen etwa auf den gleichen Intensitätsniveaus auftreten. Alternativ kann jede andere geeignete Normalisierungstechnik, z. B. Histogrammspezifizierung, verwendet werden.
- Sobald eine solche Normalisierung erfolgt ist, werden im nächsten Schritt 32 die fünf Parameter geschätzt, die einer angenommenen Kamerabewegung entsprechen. Im nächsten Schritt 33 wird die Güteziffer der angenommenen Bewegung auf die Weise berechnet, bei der die Summe quadratischer Differenzen epipolarer Segmente zum Einsatz kommt.
- Das Verfahren fährt unter Replizierung der Schritte 32 und 33 bis zur Ermittlung eines Minimums fort, was als Schritt 34 dargestellt ist. Anschließende Schätzwerte werden unter Verwendung der bekannten Gradientenabstiegstechnik gemäß Schritt 35 ausgewählt.
- Die Suche wird auf einem gradientenbasierten Weg realisiert. Berechnet wird eine Näherung an den Gradienten durch Vergleichen von Werten der Funktion um einen vorgegebenen Punkt in allen Dimensionen. Die verwendeten Schritte betragen ±5º auf der Einheitskugel für die Translation und ±1º für die Rotation. Danach wird dieser Näherungsgradient auf 0,02º bis 0,1º normalisiert, was dann zum Aktualisieren des derzeitigen Minimums dient. Gewöhnlich benötigt das Verfahren rund 60 bis 100 Iterationen, um zur Lösung zu konvergieren. Erwartet wird, daß erhebliche Verbesserungen an diesem Suchverfahren vorgenommen werden könnten, da sich bisher noch nicht auf Geschwindigkeit konzentriert wurde.
- Da eine Gradientenabstiegstechnik zur Lösungsermittlung genutzt wird, ist der Anfangsschätzwert sehr wichtig. In allen durchgeführten Experimenten wurde darauf geachtet, realistische Anfangsschätzwerte auszuwählen, d. h. möglichst anhand der Lösung, während das aus der Bildtextur abgeleitete Konvergenzkriterium berücksichtigt wurde. Wichtig ist zu beachten, daß in den meisten praktischen Situationen bei Bewegungsverfolgung die Bewegungsparameter aus dem vorhergehenden Bild als Anfangsschätzwert für das nächste Bild verwendet werden sollten, was vorteilhaft die Tatsache nutzt, daß sich Bewegung in der Tendenz ähnelt, was schnellere Konvergenz ermöglicht. Außer wenn er völlig außerhalb der Konvergenzregion liegt, wirkt sich der Anfangsschätzwert lediglich auf die Konvergenzgeschwindigkeit zur Lösung aus.
- Normalerweise werden bis zu 25 Stichproben entlang jedem hypothetisierten entsprechenden Segment genommen und in Gleichung 2 zur Mutmaßlichkeitsberechnung verwendet. Für die meisten Bilder sind nur wenige Hundert Punkte nötig, um brauchbare Ergebnisse zu erzeugen, die sich zur Ermittlung eines guten Schätzwerts schnell nutzen lassen. Durch Erhöhen der Anzahl verwendeter Punkte steigt auch die Schätzgenauigkeit.
- Die Bewertungsfunktion für jede hypothetisierte Bewegung beruht nicht auf Bildgradienten und besteht aus der Akkumulation einer großen Menge von Intensitätsdifferenzinformationen. Daher wird erwartet, daß dieses Maß sehr robust gegenüber Rauschen ist, d. h. auch unter verrauschten Bedingungen wird eine gute Genauigkeit erwartet.
- Aus den experimentellen Ergebnissen geht hervor, daß die Beziehung zwischen dem Bildrauschwert und dem Rotationswinkelfehler annähernd linear ist, was bedeutet, daß eine Verdoppelung des Bildrauschens zu einer Verdoppelung des Fehlers beim geschätzten Rotationswinkel führt.
- Diese Ergebnisse zeigen klar, daß die Technik gegenüber unkorreliertem Rauschen sehr widerstandsfähig ist. Vermutlich funktioniert sie nicht so gut bei korreliertem Rauschen, z. B. bei einer einzelnen Kamera mit verschmutzter Linse.
- Vorgestellt wird ein neues Paradigma zur Ermittlung der im vollen Gang befindlichen Bewegung zwischen zwei Bildern. Das Herangehen wird als "Bewegung ohne Struktur" bezeichnet, da es keiner Berechnung strukturbezogener Informationen der Szene bedarf. Das Problem der Bewegungsanalyse stellt sich als eine Suche im Raum möglicher Bewegungen und ein entwickeltes Mutmaßlichkeitsmaß, das eine hypothetisierte Bewegung auf der Grundlage der Summe quadrierter Differenzen zwischen Punkten in einem Bild und ihren entsprechenden epipolaren Segmenten im anderen bewertet.
- Gezeigt wurde, daß diese Mutmaßlichkeitsfunktion genau ein globales Minimum für die Fälle bekannter Rotation oder bekannter Translation aufweist, sofern sich die Bilder wohlverhalten, d. h. daß die Varianz der Intensitätsdifferenz zwischen zwei Punkten eine monoton steigende Funktion ihrer Entfernung voneinander ist. Im Fall der im vollen Gang befindlichen Bewegung existiert auch ein eindeutiges globales Minimum, kann aber der bekannten Mehrdeutigkeit zwischen Rotations- und Translationsbewegung unterliegen.
- Aus experimentellen Resultaten geht hervor, daß das Verfahren auf einen breiten Bereich von Bildern anwendbar ist, während es sehr gute Genauigkeit erreicht und hohe Robustheit gegenüber Rauschen zeigt. Große Bewegungen zwischen Bildern lassen sich handhaben und sind nur durch die im Bild vorhandenen Merkmale der lokalen Intensitätsvariation beschränkt.
Claims (5)
1. Verfahren zur Bestimmung von Eigenbewegung zwischen
zwei Bildern einer Szene, das die folgenden Schritte
aufweist:
Schätzen der bei der Kameraeigenbewegung beteiligten
zwei Translationsparameter und drei Rotationsparameter
zwischen entsprechenden Pixeln in epipolaren
Liniensegmenten in den beiden Bildern;
Berechnen der Kostenfunktion der geschätzten Bewegung;
und
Revidieren des Schätzwerts und Berechnen der
Kostenfunktion auf iterative Weise, um den Schätzwert zu
ermitteln; der zur Kostenfunktion mit der kleinsten
Güteziffer zur Verwendung als die gewünschte Eigenbewegung
führt,
wobei die Kostenfunktion von der Summe quadrierter
Differenzen zwischen Pixeln eines Bilds und
Stichprobenpunkten entlang den angenommenen entsprechenden
epipolaren Liniensegmenten im anderen Bild abhängt.
2. Verfahren zum Ableiten eines Maßes für die
Kameratranslation, die zwischen zwei Bildern einer vorgegebenen
Szene beteiligt ist, die eine angenommene bekannte
Rotation und eine unbekannte Translation haben, mit den
folgenden Schritten:
Auswählen eines Punkts A im ersten Bild;
Berechnen des entsprechenden Nulldisparitätspunkts im
zweiten Bild;
Auswählen mehrerer unterschiedlicher Liniensegmente,
die den Nulldisparitätspunkt durchlaufen und als
möglichen Kandidaten für den Expansionsfokus orientiert
sind;
Auswählen einer Anzahl von Punkten auf jedem der
Liniensegmente;
Berechnen der Fehlermaße jeder der ausgewählten Linien
zum Ermitteln der einen mit dem minimalen Fehler; und
Verwenden der einen mit dem minimalen Fehler zum
Identifizieren des wahren Expansionsfokus.
3. Verfahren zum Ableiten eines Maßes für die
Kamerarotation, die zwischen zwei Bildern einer vorgegebenen
Szene beteiligt ist, die eine angenommene bekannte
Translation und eine unbekannte Rotation haben, mit den
folgenden Schritten:
Auswählen eines Punkts A im ersten Bild;
Berechnen des entsprechenden Nulldisparitätspunkts im
zweiten Bild;
Auswählen mehrerer unterschiedlicher Liniensegmente,
die die möglichen Kandidaten für Nulldisparitätspunkte
durchlaufen und gemäß dem Expansionsfokus orientiert
sind;
Auswählen einer Anzahl von Punkten auf jedem der
Liniensegmente;
Berechnen der Fehlermaße jeder der ausgewählten Linien
zum Ermitteln der einen mit dem minimalen Fehler; und
Verwenden der einen mit dem minimalen Fehler zum
Identifizieren des wahren Expansionsfokus.
4. Verfahren nach einem der Ansprüche 1 bis 3 mit einem
vorausgehenden Schritt der Normalisierung der
Pixelintensitätsniveaus der beiden Bilder.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die
Normalisierung durch dynamische Histogrammverbiegung
erfolgt.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/592,249 US5751838A (en) | 1996-01-26 | 1996-01-26 | Correction of camera motion between two image frames |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69717176D1 DE69717176D1 (de) | 2003-01-02 |
| DE69717176T2 true DE69717176T2 (de) | 2003-04-30 |
Family
ID=24369920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69717176T Expired - Lifetime DE69717176T2 (de) | 1996-01-26 | 1997-01-27 | Korrektur der Kamerabewegung zwischen zwei Bildern |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5751838A (de) |
| EP (1) | EP0786739B1 (de) |
| JP (1) | JPH09219814A (de) |
| DE (1) | DE69717176T2 (de) |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5864366A (en) * | 1997-02-05 | 1999-01-26 | International Business Machines Corporation | System and method for selecting video information with intensity difference |
| US6009210A (en) * | 1997-03-05 | 1999-12-28 | Digital Equipment Corporation | Hands-free interface to a virtual reality environment using head tracking |
| JP3660492B2 (ja) * | 1998-01-27 | 2005-06-15 | 株式会社東芝 | 物体検知装置 |
| DE19860038C1 (de) * | 1998-12-23 | 2000-06-29 | Siemens Ag | Verfahren zur Bewegungskorrektur bei Serien von Bildern eines starren Körpers |
| CA2359637A1 (en) * | 1999-01-26 | 2000-07-27 | Stephen F. Fulghum, Jr. | Autofluorescence imaging system for endoscopy |
| US6507661B1 (en) * | 1999-04-20 | 2003-01-14 | Nec Research Institute, Inc. | Method for estimating optical flow |
| US6307959B1 (en) | 1999-07-14 | 2001-10-23 | Sarnoff Corporation | Method and apparatus for estimating scene structure and ego-motion from multiple images of a scene using correlation |
| AU1793301A (en) * | 1999-11-26 | 2001-06-04 | Mobileye, Inc. | System and method for estimating ego-motion of a moving vehicle using successiveimages recorded along the vehicle's path of motion |
| US7058903B1 (en) | 2000-02-11 | 2006-06-06 | Sony Corporation | Image database jog/shuttle search |
| US7262778B1 (en) | 2000-02-11 | 2007-08-28 | Sony Corporation | Automatic color adjustment of a template design |
| US7136528B2 (en) | 2000-02-11 | 2006-11-14 | Sony Corporation | System and method for editing digital images |
| US6567469B1 (en) | 2000-03-23 | 2003-05-20 | Koninklijke Philips Electronics N.V. | Motion estimation algorithm suitable for H.261 videoconferencing applications |
| US20020073143A1 (en) * | 2000-08-31 | 2002-06-13 | Edwards Eric D. | File archive and media transfer system with user notification |
| JP4159794B2 (ja) * | 2001-05-02 | 2008-10-01 | 本田技研工業株式会社 | 画像処理装置及び方法 |
| JP4602983B2 (ja) * | 2003-05-09 | 2010-12-22 | アビッド テクノロジー インコーポレイテッド | 構造化透かしの埋め込み及び検出のための方法及び装置 |
| US7567731B2 (en) | 2004-07-15 | 2009-07-28 | Harris Corporation | Method and system for simultaneously registering multi-dimensional topographical points |
| US20060215036A1 (en) * | 2005-03-25 | 2006-09-28 | Multivision Intelligent Surveillance (Hk) Ltd. | Method and apparatus for video stabilization |
| EP1811457A1 (de) * | 2006-01-20 | 2007-07-25 | BRITISH TELECOMMUNICATIONS public limited company | Videosignalanalyse |
| US8300887B2 (en) * | 2007-05-10 | 2012-10-30 | Honda Motor Co., Ltd. | Object detection apparatus, object detection method and object detection program |
| US8477246B2 (en) * | 2008-07-11 | 2013-07-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems, methods and devices for augmenting video content |
| US8320606B1 (en) | 2008-08-29 | 2012-11-27 | Adobe Systems Incorporated | Video watermarking with fast detection |
| US9805473B2 (en) * | 2008-09-19 | 2017-10-31 | Siemens Healthcare Gmbh | Method and system for segmentation of brain structures in 3D magnetic resonance images |
| US8385590B1 (en) | 2008-11-05 | 2013-02-26 | Adobe Systems Incorporated | Video watermarking with temporal patterns |
| US8213673B2 (en) * | 2009-06-09 | 2012-07-03 | Avio Technology, Inc. | Watermarking of motion pictures |
| US9025841B2 (en) * | 2009-11-18 | 2015-05-05 | Siemens Aktiengesellschaft | Method and system for segmentation of the prostate in 3D magnetic resonance images |
| EP2352127A1 (de) * | 2009-12-04 | 2011-08-03 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Kamerabewegungsschätzung |
| US20110268365A1 (en) * | 2010-04-30 | 2011-11-03 | Acer Incorporated | 3d hand posture recognition system and vision based hand posture recognition method thereof |
| CN105284122B (zh) * | 2014-01-24 | 2018-12-04 | Sk 普兰尼特有限公司 | 用于通过使用帧聚类来插入广告的装置和方法 |
| IL233684B (en) | 2014-07-17 | 2018-01-31 | Shamir Hanan | Stabilizing and displaying remote images |
| US20240370971A1 (en) * | 2023-05-05 | 2024-11-07 | Nvidia Corporation | Image stitching with ego-motion compensated camera calibration for surround view visualization |
| US12524960B2 (en) | 2023-07-14 | 2026-01-13 | Nvidia Corporation | Spatial masking for stitched images and surround view visualizations |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5259040A (en) * | 1991-10-04 | 1993-11-02 | David Sarnoff Research Center, Inc. | Method for determining sensor motion and scene structure and image processing system therefor |
| US5611000A (en) * | 1994-02-22 | 1997-03-11 | Digital Equipment Corporation | Spline-based image registration |
| US5436672A (en) * | 1994-05-27 | 1995-07-25 | Symah Vision | Video processing system for modifying a zone in successive images |
-
1996
- 1996-01-26 US US08/592,249 patent/US5751838A/en not_active Expired - Lifetime
-
1997
- 1997-01-27 JP JP9012205A patent/JPH09219814A/ja active Pending
- 1997-01-27 EP EP97101221A patent/EP0786739B1/de not_active Expired - Lifetime
- 1997-01-27 DE DE69717176T patent/DE69717176T2/de not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0786739B1 (de) | 2002-11-20 |
| EP0786739A2 (de) | 1997-07-30 |
| EP0786739A3 (de) | 1998-04-01 |
| JPH09219814A (ja) | 1997-08-19 |
| US5751838A (en) | 1998-05-12 |
| DE69717176D1 (de) | 2003-01-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69717176T2 (de) | Korrektur der Kamerabewegung zwischen zwei Bildern | |
| DE69624614T2 (de) | Verfahren zur Stereoübereinstimmungs- und Ungleichheitsmessung | |
| DE69231812T2 (de) | Verfahren zur bestimmung von fuehlerbewegung und szenenstruktur und bildverarbeitungssystem dafuer | |
| DE69625423T2 (de) | Vorrichtung zur Erkennung eines Objektes, in welchem die Position eines ebenen Objektes mit Hilfe einer Houghtransformation geschätzt wird | |
| DE69511620T2 (de) | Videoverarbeitungssystem | |
| DE69512709T2 (de) | Verfahren zur Stereoübereinstimmung und Umgleichheitsmessung | |
| DE60209262T2 (de) | Verfahren und Vorrichtung zur Bildangleichung | |
| DE69922183T2 (de) | Gesichtserkennung aus videobildern | |
| EP3980968B1 (de) | Detektion, 3d-rekonstruktion und nachverfolgung von mehreren relativ zueinander bewegten starren objekten | |
| DE102016209625A1 (de) | Verfahren zur Auswertung von Bilddaten einer Fahrzeugkamera | |
| DE69427801T2 (de) | Verfahren und Gerät zur Bestimmung von Bewegungsvektorfelden durch die Unterdrückung lokaler Abweichungen | |
| DE102017223559B4 (de) | Vorrichtung zum fokussieren einer kamera und steuerverfahren für diese | |
| DE102021102233B4 (de) | Vorrichtung und Verfahren zur Korrespondenzanalyse in Bildern | |
| EP2584493B1 (de) | Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess | |
| DE112016005905B4 (de) | Verfahren und System zum Verschmelzen erfasster Messungen | |
| DE112016000356T5 (de) | Selbstrektifizierung von Stereokameras | |
| JP3080141B2 (ja) | 三次元画像の評価方法 | |
| EP1065628A1 (de) | Optische 3-D Messung mit mehreren Näherungspunkten | |
| DE102018123402A1 (de) | Bildunschärfekorrekturvorrichtung und steuerverfahren | |
| DE102015115786A1 (de) | Doppler-basierte Segmentierung und optischer Fluss in Radarbildern | |
| EP0414113B1 (de) | Verfahren zur Bewegungskompensation in einem Bewegtbildcoder oder -decoder | |
| DE69331542T2 (de) | Ein maschinelles verfahren zur kompensation von nichtlinearen bildwandlungen, z.b. zoom und pan, in einem videobildbewegungskompensierten system | |
| DE69008637T2 (de) | Iteratives Bewegungsabschätzungsverfahren zwischen einem Referenzbild und einem aktuellen Bild, und Verfahren zu ihrer Herstellung. | |
| EP1098268A2 (de) | Verfahren zur dreidimensionalen optischen Vermessung von Objektoberflächen | |
| DE3049397A1 (de) | Verfahren und vorrichtung zum scharf-einstellen von fotographischen apparaten |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition |