DE69717176T2

DE69717176T2 - Korrektur der Kamerabewegung zwischen zwei Bildern

Info

Publication number: DE69717176T2
Application number: DE69717176T
Authority: DE
Inventors: Ingemar J. Cox; Sebastian Roy
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-01-26
Filing date: 1997-01-27
Publication date: 2003-04-30
Anticipated expiration: 2017-01-28
Also published as: EP0786739B1; EP0786739A2; EP0786739A3; JPH09219814A; US5751838A; DE69717176D1

Description

Korrektur der Kamerabewegung zwischen zwei Bildern Die Erfindung betrifft die Computervision und insbesondere die Schätzung der Eigenbewegung und Struktur einer Szene anhand zweier Bilder der Szene.
Die Eigenbewegungs- und Strukturschätzung anhand zweier Bilder einer Szene ist in vielen Bereichen von Nutzen, insbesondere bei der Navigation und dreidimensionalen szenischen Rekonstruktion.
Viel Arbeit wurde in den Versuch investiert, Kamerabewegungsparameter aus Bildpaaren wiederherzustellen. In nahezu allen Fällen kommt die optische Fluß- oder Merkmalspunktekorrespondenz als Anfangsmessungen zum Einsatz. Im ersten Fall verweisen einige optischen Flußberechnungen inhärente Probleme (Apertur, große Bewegungen usw.) darauf, daß Fehler nie auf ein zu vernachlässigendes Niveau reduziert werden können. Selbst Verfahren, die die Intensitätsableitungen direkt oder Normalfluß verwenden, leiden unter hoher Rauschanfälligkeit. Für merkmalsbasierte Verfahren ist die zuverlässige Auswahl und Verfolgung sinnvoller Merkmalspunkte allgemein sehr schwierig.
Eigenbewegungsverfahren des Stands der Technik bestimmen implizit oder explizit die in der Szene vorhandene Struktur. Während z. B. merkmalsbasierte Verfahren einen Bewegungsschätzwert direkt berechnen, ist die Struktur angesichts der Merkmalskorrespondenzen implizit verfügbar. Direktverfahren schätzen explizit sowohl die Eigenbewegung als auch die Struktur, normalerweise auf iterative Weise, wobei zunächst die Bewegungs- und dann die Strukturschätzwerte usw. verfeinert werden. Somit scheint eine gute Bewegungsschätzung eine gute Strukturschätzung (oder zumindest Punktkorrespondenzschätzung) zu erfordern.
Die US-A-5644651, die der JP-A-08-320933, veröffentlicht am 3. Dezember 1996, entspricht, beschreibt ein Verfahren zur Bestimmung der Eigenbewegung und Strukturform einer Szene anhand zweier Bilder der Szene, das auf einer Suche durch den dreidimensionalen Raum auf der Grundlage von Rotation und einer angenommenen bekannten Translation oder den zweidimensionalen Raum auf der Grundlage von Translation und einer angenommenen bekannten Rotation im Zusammenhang mit der Szene beruht. Dieses Verfahren verwendet die Eigenschaften von Intensitätshistogrammen, die entlang von epipolaren Linien berechnet werden, die man als entsprechend betrachten kann. Diese Eigenschaften hängen von der Annahme konstanter Bildhelligkeit ab, so daß man annehmen kann, daß die Histogramme entsprechender epipolarer Linien invariant und daß die Histogramme nahezu entsprechender Linien ähnlich sind, wobei die Ähnlichkeit eine Funktion der in den Bildern vorhandenen räumlichen Korrelation ist. Wegen der Eigenschaft, daß die Differenz zwischen zwei Histogrammen zweier epipolarer Linien minimal ist, wenn die beiden epipolaren Linien genau korrespondieren, und mit dem Fehlausrichtungsgrad zwischen zwei epipolaren Linien monoton steigt, kann die Rotationsbewegung zwischen den beiden Bildern bei einer dreidimensionalen epipolaren Suche einfach abgeschätzt werden, wenn die Translationsbewegung als bekannt angenommen ist. Der abgeleitete Schätzwert des Rotationsbetrags zwischen den beiden Bildern kann dann bei der Weiterverarbeitung der Bilder verwendet werden, um eine dreidimensionale Darstellung der Bildszene zu erzeugen.
Dieses Verfahren hat sich bei der Bildung von Schätzwerten der zwischen zwei Bildern beteiligten Rotationsbewegung als recht genau erwiesen, zeigte sich aber als relativ rauschbehaftet bei der Bereitstellung von Schätzwerten für die Translationsbewegung, und bei der vorliegenden Erfindung handelt es sich um ein Verfahren, das sowohl für Translations- als auch Rotationsschätzwerte sehr genau ist.
In Burger, W., et al. "A geometric constraint method for estimating 3-D camera motion", Proceedings of the International Conference on Robotics and Automation, San Diego, 8.- 13. Mai 1994, Band 2, Nr. CONF. 11, 8. Mai 1994, Institute of Electrical and Electronics Engineers, Seiten 1155-1160, XP000478462 ist ein Verfahren zur Schätzung der 3D-Kamerabewegung offenbart. Das Verfahren verwendet eine Sequenz von 2D-Bildern, schätzt die Translations- und Rotationsparameter und schätzt die Verschiebungsvektoren. Die Schätzung der Bewegung erfolgt durch Lokalisieren des Expansionsfokus (FOE), in dem man eine in Frage kommende bzw. Kandidaten-FOE-Region iterativ über alle Verschiebungsvektoren eingrenzt.
Die Erfindung basiert auf einem Paradigma, das als Bewegung-ohne-Struktur bezeichnet werden könnte, welches die Wiederherstellung von Eigenbewegung unabhängig von jeder Struktur- oder Korrespondenzschätzung ermöglicht. Dabei besteht der Nutzen darin, daß es genau fünf unbekannte Bewegungsparameter gibt, die zu schätzen sind. Daher wird erwartet, daß ein solcher Weg sowohl robust als auch genau sein sollte. Dies wird durch erste experimentelle Ergebnisse erhärtet.
Das Verfahren beruht auf der statistischen Modellierung des Bildverhaltens in der Nachbarschaft eines Punkts. Anschließend dient dieses Modell zur Schätzung der Mutmaßlichkeit einer angenommenen Kamerabewegung.
Die wahre Bewegungssuche zu bestimmen, ist einfach, da die zu minimierende Funktion nur ein Minimum hat (das die Lösung ist), sofern das Bild sich wohlverhält, d. h. wenn die Varianz der Intensitätsdifferenz benachbarter Intensitätspunkte mit der Entfernung zwischen den Punkten monoton steigt.
Das Ziel besteht in der Bestimmung der Bewegung zwischen zwei Bildern durch eine Suche über den Raum möglicher Rotationen und Translationen. Die Anzahl zu schätzender Parameter beträgt 3 für die Rotation und 2 für die Translation. Nur zwei Translationskomponenten sind nötig, da die Größe der Translation nicht geschätzt werden kann, nur ihre Richtung (wegen der Maßstabsmehrdeutigkeit). Daher wird die Translation mit Einheitsgröße angenommen, und die Translationsschätzung reduziert sich auf die Bestimmung der Translationsrichtung auf der Oberfläche einer Einheitskugel.
Um eine solche Suche zu ermöglichen, ist eine Kostenfunktion notwendig, die die Mutmaßlichkeit einer angenommenen Bewegung bewertet. Wesentliche Merkmale einer solchen Kostenfunktion sind: (1) Invarianz gegenüber Struktur in der Szene, (2) ein wohldefiniertes globales Minimum am korrekten Bewegungsschätzwert und (3) keine lokalen Minima oder zumindest eine lokal stetige, vorzugsweise monotone Variation als Funktion des Fehlers bei Bewegungsschätzungen.
Im folgenden wird eine solche strukturinvariante Bewertungsfunktion beschrieben, die eine Güteziffer auf der Grundlage einer Summenform quadrierter Differenzen ableitet. Insbesondere beruht die Güteziffer auf einer globalen Summe aus einer Summe quadrierter Fehler zwischen Pixeln eines Bilds und Stichprobenpunkten entlang den angenommenen entsprechenden epipolaren Liniensegmenten im anderen Bild. Zur Ableitung dieser Kostenfunktion wird ein einfaches statistisches Modell der lokalen Intensitätsvariation in den Bildern eingeführt. Es kann gezeigt werden, daß bei Validität eines solchen Modells die Bewertungsfunktion sowohl monoton abnimmt als auch ein einziges wohldefiniertes globales Minimum hat. Unterstützt wird dies durch experimentelle Ergebnisse zu mehreren Naturszenen.
Insbesondere wird beim Verfahren der Erfindung eine Schätzung gemäß der vorstehenden Diskussion vorgenommen, an der drei Rotationsparameter und zwei Translationsparameter beteiligt sind. Eine Kostenfunktion dient zur Bewertung jedes Schätzwerts, der die Summe quadrierter Differenzen zwischen Pixeln in einem Bild und entsprechenden Pixeln in hypothetisierten entsprechenden epipolaren Liniensegmenten beinhaltet. Eine Gradientenabstiegssuche dient zum Auswählen unterschiedlicher Schätzwerte, bis eine Minimalsumme erreicht ist, die allgemein das gewünschte globale Minimum ist.
In Fällen, in denen die Annahme konstanter Bildintensität nicht anwendbar ist, kann es erwünscht sein, dem o. g. Verfahren eine Normalisierung vorauszuschicken. Vorteilhaft kann die Normalisierung durch die dynamische Histogrammverbiegungstechnik erfolgen.
Die Lehren der Erfindung gehen aus der nachfolgenden näheren Beschreibung im Zusammenhang mit den beigefügten Zeichnungen leicht verständlich hervor. Es zeigen:
Fig. 1 zwei Bilder einer Szene, die eine Bewegung erfahren haben, wobei Bild B die Ortskurve der möglichen Positionen eines in Bild A gezeigten Punkt zeigt;
Fig. 2A und 2B die Fehlerfunktion für zwei Segmente u und v für den Fall unbekannter Translation bzw. unbekannter Rotation; und
Fig. 3 einen Ablaufplan des Verfahrens der Erfindung.
Ein einfaches statistisches Modell wird zur Darstellung des Bildverhaltens um einen Punkt verwendet. Man betrachte die Intensitätsverteilung in der Nachbarschaft eines bestimmten Punkts in einem Einzelbild A. Angenommen sei, daß die Wahrscheinlichkeit eines Punkts IA( + ) mit einer Intensität a abhängig von einem vorgegebenen Punkt mit einer Intensität b eine Normalverteilung unter der Annahme hat, daß die Entfernung zwischen den beiden Punkten hinreichend klein ist. Somit ergibt sich
wobei
eine Gaußsche Verteilung mit dem Mittelwert b und der Varianz σ²( ) ist. Die Varianz σ²( ) ist eine Funktion der Entfernung . Diese Eigenschaft hängt intuitiv mit der in einer Szene vorhandenen Korrelation zusammen und wird als nächstes experimentell verifiziert.
Für ein bestimmtes Bild lassen sich die Parameter der Verteilungen bewerten, d. h. σ²( ) für alle möglichen Abstände innerhalb einer ausgewählten Nachbarschaft. Für einen vorgegebenen soll die Verteilung der Stichproben
bewertet werden, die über alle -Punkte im Bild durchgeführt sind. Zu beachten ist, daß das Mittel dieser Stichprobe stets 0 beträgt. Die Varianz σ²( ) erhält man aus den Stichproben als
wobei n die Anzahl durchgeführter Stichproben ist.
Sobald die Varianz für alle so geschätzt ist, daß ≤ rmax ist, wobei rmax die Maximalgröße der Nachbarschaft ist, liegt eine brauchbare globale statistische Maßzahl vor, die das lokale Verhalten von Bildintensitäten beschreibt. Diese statistische Maßzahl bestimmt sich experimentell durch direktes Messen der Verteilung von Intensitätswerten in der Nachbarschaft aller Pixel in einem Bild. Festgestellt wurde, daß für das typische Naturbild die Varianz annähernd monoton mit der Entfernung zunimmt, wobei ein einzelnes Minimum bei = (0, 0) zentriert ist. Diese Eigenschaft wird zur Ableitung eines Mutmaßlichkeitsmaßes genutzt. Während die Beziehung zwischen Varianz und Entfernung monoton steigt, ist sie nicht isotrop, was darauf verweist, daß Intensitäten in bestimmten Richtungen stärker korrelieren.
Nunmehr kann mit der Entwicklung einer tiefeninvarianten Kostenfunktion fortgefahren werden. Ist die Rotation bekannt, muß die Mutmaßlichkeit einer angenommenen Translation T bewertet werden, was umgekehrt für die Rotation R gilt. Gemäß Fig. 1 kann man für einen vorgegebenen Punkt IA( ) im Bild A und eine Kamerabewegung den entsprechenden Punkt IB( ) (den Nulldisparitätspunkt) im Bild B, der unendliche Tiefe hat, sowie den Expansionsfokus (FOE) berechnen. Eine bekannte Translation, aber unbekannte Rotation bedeutet, daß der FOE bekannt ist, aber der Punkt IB( ) eine unbekannte Lage hat. Umgekehrt bedeutet eine bekannte Rotation, aber unbekannte Translation, daß der entsprechende Punkt IB( ) im Bild B bekannt ist, die Lage des FOE aber nicht. Da die wirkliche Tiefe des Punkts IA( ) unbekannt ist, kann nur angenommen werden, daß der tatsächliche entsprechende Punkt IB( ) irgendwo in der Nachbarschaft des Punkts IB( ) je nach der unbekannten Tiefe z liegt. Tatsächlich liegt er stets auf der Linie, die den wahren Punkt IB( ) und den wahren Expansionsfokus verbindet. Da die Punkte IA( ) und (der unbekannte) IB( ) korrespondieren, sollte die Varianzfunktion um IB( ) mit der von IA( ) identisch sein.
Für den Fall der unbekannten Translation wird ein Liniensegment u mit der Länge rmax beginnend am Nulldisparitätspunkt IB( ) ausgewählt und zum Kandidaten-FOE orientiert. Der Wert von rmax ist so ausgewählt, daß er die erwartete Maximaldisparität widerspiegelt. Ein Kandidaten-FOE liefert eine Kandidatentranslation und umgekehrt. Wählt man eine Anzahl von Stichprobenintensitätswerten ui entlang dem Segment u aus und definiert das Fehlermaß eu als
eu = (ui - IA( ))² (3),
so wird eu minimal, wenn das Segment u IB( ) und enthält und somit zum FOE weist. Dieses Minimum existiert und ist eindeutig, wenn sich die Varianzfunktion der Bilder wohlverhält. Im folgenden wird dies näher diskutiert.
Jetzt kann diese Eigenschaft verwendet werden, um abzuschätzen, ob ein Kandidaten-FOE günstig ist. Wählt man eine Anzahl von Punkten IA( ) aus und berechnet die Summe der einzelnen Liniensegment-Fehlermaße eqi, wobei qi das bei IA( ) beginnende und zum Kandidaten-FOE weisende Segment ist, erwartet man, daß all diese Fehlermaße gleichzeitig minimal sind, wenn dieser Kandidaten-FOE wirklich der wahre FOE ist. Somit dient die Summe der einzelnen Liniensegment-Fehlermaße S = Σeqi als globaler Schätzwert der Mutmaßlichkeit des FOE. Im Fall sich wohlverhaltender Bilder erwartet man nur ein Minimum und kann eine einfache Suche nach dem genauen FOE auf der Grundlage von Gradientenabstieg durchführen.
Dieses Modell läßt sich leicht ändern, um die Rotation zu schätzen, indem der FOE fixiert wird (bekannte Translation) und Kandidatenpunkte IB( ) in Zuordnung zu Kandidatenrotationen gewählt werden.
Um erfolgreich über den Bewegungsraum zu suchen, muß die Kostenfunktion ein wohldefiniertes globales Minimum und wenige, falls überhaupt, lokale Minima haben. Es läßt sich zeigen, daß für eine bekannte Rotation der Translationssuchraum nur ein einzelnes globales Minimum hat, setzt man gleichmäßige und monotone Bildintensitätskorrelation voraus. Umgekehrt gilt dies ebenfalls. In beiden diesen Fällen gibt es keinerlei Problem mit Rotations-/Translationsmehrdeutigkeit, was bei der vollen 5D-Suche der Fall ist.
Eine zweite Bedingung für die erfolgreiche Suche lautet, daß die Konvergenzregion groß sein sollte, um eine leichte Auswahl eines Anfangssuchpunkts zu ermöglichen. Diese Region (und die allgemeine Stetigkeit der Funktion) sollte aus den statistischen Maßzahlen für die lokale Bildintensität ableitbar sein. Qualitativ ist klar, daß hochfrequente Intensitätsvariationen keine breite Konvergenzregion zulassen (wegen Mehrdeutigkeiten), während niederfrequente Variationen viel größere Bewegungen ermöglichen.
Nunmehr wird gezeigt, daß für sich wohlverhaltende Bilder ein einziges Minimum des Fehlermaßes eu von Gleichung 3 beobachtet wird, wenn ein Segment u IB( ) enthält und den wahren Nulldisparitätspunkt und den wahren FOE verbindet. Ein sich wohlverhaltendes Bild ist hierbei als Bild definiert, das eine monoton steigende Varianzfunktion hat. Da diese Funktion definitionsgemäß stets ein globales Minimum bei (0, 0) hat, genügt diese Bedingung, um zu gewährleisten, daß die Mutmaßlichkeitsfunktion ein eindeutiges Minimum besitzt. Dies wird als nächstes demonstriert.
Man betrachte ein Segment u in der Nachbarschaft von , das bei beginnt und n Stichprobenintensitäten gemäß Fig. 2A enthält. Anhand der Verteilungseigenschaft läßt sich dann sagen, daß sich jede Stichprobe wie eine Zufallsvariable ui mit der Verteilung
verhält, wobei die Entfernung (x, y) von der Stichprobe ui zur Position ist, der unbekannten Lage des entsprechenden Punkts zu IA( ). Nach Gleichung 3 ist das Fehlermaß eu eine als
eu = (ui - IA( ))²
definierte Zufallsvariable mit einem Erwartungswert, der definiert ist als
Angenommen sei, daß jetzt ein zweites Segment v genommen wird, das auch bei , aber näher am Punkt beginnt. Ein Satz von Stichproben vi wird mit der gleichen Stichprobenahme wie beim Segment u ausgewählt. Das Fehlermaß eu ist als Zufallsvariable
eu = (vi - IA( ))² ,
definiert, die einen Erwartungswert
E(eu) = σ²( vi)
hat, wobei die Entfernung (x, y) von der Stichprobe v zur Position ist. Jetzt soll gezeigt werden, daß die Erwartung von eu stets kleiner als E(eu) ist. Zunächst ist es einfach zu erkennen, daß
vi < vi , i.
Daraus folgt, daß
ist, was zeigt, daß mit stärkerer Annäherung an das IB( ) enthaltende Segment der erwartete Fehlerwert kleiner wird, bis er ein Minimum erreicht, wenn der Kandidaten-FOE dem wahren FOE entspricht. Solange die Varianzfunktion monoton ist, existiert garantiert dieses Minimum und ist eindeutig.
Der gleiche Verfahrensablauf läßt sich für die Rotationsschätzung anwenden, indem einfach der FOE und der Nulldisparitätspunkt ausgetauscht werden.
In Fig. 3 ist ein Ablaufplan des Verfahrens gezeigt. Gemäß Block 31 kann in jenen Fällen, in denen eine große Differenz der Intensitätsniveaus zwischen den beiden zu vergleichenden Bildern aufgrund von Kameraeinstellungen oder variierenden Beleuchtungsbedingungen vorliegt, die Ermittlung des gewünschten globalen Minimums in der verwendeten Kostenfunktion beschleunigt werden, wenn die Intensitätsniveaus der beiden Rahmen normalisiert werden. Die dynamische Histogrammverbiegung ist eine bekannte Technik zur Normalisierung. Bei dieser Technik werden Histogramme der Intensitätsniveaus eines oder beider Bilder so erstellt, daß die Peaks in den beiden Histogrammen etwa auf den gleichen Intensitätsniveaus auftreten. Alternativ kann jede andere geeignete Normalisierungstechnik, z. B. Histogrammspezifizierung, verwendet werden.
Sobald eine solche Normalisierung erfolgt ist, werden im nächsten Schritt 32 die fünf Parameter geschätzt, die einer angenommenen Kamerabewegung entsprechen. Im nächsten Schritt 33 wird die Güteziffer der angenommenen Bewegung auf die Weise berechnet, bei der die Summe quadratischer Differenzen epipolarer Segmente zum Einsatz kommt.
Das Verfahren fährt unter Replizierung der Schritte 32 und 33 bis zur Ermittlung eines Minimums fort, was als Schritt 34 dargestellt ist. Anschließende Schätzwerte werden unter Verwendung der bekannten Gradientenabstiegstechnik gemäß Schritt 35 ausgewählt.
Die Suche wird auf einem gradientenbasierten Weg realisiert. Berechnet wird eine Näherung an den Gradienten durch Vergleichen von Werten der Funktion um einen vorgegebenen Punkt in allen Dimensionen. Die verwendeten Schritte betragen ±5º auf der Einheitskugel für die Translation und ±1º für die Rotation. Danach wird dieser Näherungsgradient auf 0,02º bis 0,1º normalisiert, was dann zum Aktualisieren des derzeitigen Minimums dient. Gewöhnlich benötigt das Verfahren rund 60 bis 100 Iterationen, um zur Lösung zu konvergieren. Erwartet wird, daß erhebliche Verbesserungen an diesem Suchverfahren vorgenommen werden könnten, da sich bisher noch nicht auf Geschwindigkeit konzentriert wurde.
Da eine Gradientenabstiegstechnik zur Lösungsermittlung genutzt wird, ist der Anfangsschätzwert sehr wichtig. In allen durchgeführten Experimenten wurde darauf geachtet, realistische Anfangsschätzwerte auszuwählen, d. h. möglichst anhand der Lösung, während das aus der Bildtextur abgeleitete Konvergenzkriterium berücksichtigt wurde. Wichtig ist zu beachten, daß in den meisten praktischen Situationen bei Bewegungsverfolgung die Bewegungsparameter aus dem vorhergehenden Bild als Anfangsschätzwert für das nächste Bild verwendet werden sollten, was vorteilhaft die Tatsache nutzt, daß sich Bewegung in der Tendenz ähnelt, was schnellere Konvergenz ermöglicht. Außer wenn er völlig außerhalb der Konvergenzregion liegt, wirkt sich der Anfangsschätzwert lediglich auf die Konvergenzgeschwindigkeit zur Lösung aus.
Normalerweise werden bis zu 25 Stichproben entlang jedem hypothetisierten entsprechenden Segment genommen und in Gleichung 2 zur Mutmaßlichkeitsberechnung verwendet. Für die meisten Bilder sind nur wenige Hundert Punkte nötig, um brauchbare Ergebnisse zu erzeugen, die sich zur Ermittlung eines guten Schätzwerts schnell nutzen lassen. Durch Erhöhen der Anzahl verwendeter Punkte steigt auch die Schätzgenauigkeit.
Die Bewertungsfunktion für jede hypothetisierte Bewegung beruht nicht auf Bildgradienten und besteht aus der Akkumulation einer großen Menge von Intensitätsdifferenzinformationen. Daher wird erwartet, daß dieses Maß sehr robust gegenüber Rauschen ist, d. h. auch unter verrauschten Bedingungen wird eine gute Genauigkeit erwartet.
Aus den experimentellen Ergebnissen geht hervor, daß die Beziehung zwischen dem Bildrauschwert und dem Rotationswinkelfehler annähernd linear ist, was bedeutet, daß eine Verdoppelung des Bildrauschens zu einer Verdoppelung des Fehlers beim geschätzten Rotationswinkel führt.
Diese Ergebnisse zeigen klar, daß die Technik gegenüber unkorreliertem Rauschen sehr widerstandsfähig ist. Vermutlich funktioniert sie nicht so gut bei korreliertem Rauschen, z. B. bei einer einzelnen Kamera mit verschmutzter Linse.
Vorgestellt wird ein neues Paradigma zur Ermittlung der im vollen Gang befindlichen Bewegung zwischen zwei Bildern. Das Herangehen wird als "Bewegung ohne Struktur" bezeichnet, da es keiner Berechnung strukturbezogener Informationen der Szene bedarf. Das Problem der Bewegungsanalyse stellt sich als eine Suche im Raum möglicher Bewegungen und ein entwickeltes Mutmaßlichkeitsmaß, das eine hypothetisierte Bewegung auf der Grundlage der Summe quadrierter Differenzen zwischen Punkten in einem Bild und ihren entsprechenden epipolaren Segmenten im anderen bewertet.
Gezeigt wurde, daß diese Mutmaßlichkeitsfunktion genau ein globales Minimum für die Fälle bekannter Rotation oder bekannter Translation aufweist, sofern sich die Bilder wohlverhalten, d. h. daß die Varianz der Intensitätsdifferenz zwischen zwei Punkten eine monoton steigende Funktion ihrer Entfernung voneinander ist. Im Fall der im vollen Gang befindlichen Bewegung existiert auch ein eindeutiges globales Minimum, kann aber der bekannten Mehrdeutigkeit zwischen Rotations- und Translationsbewegung unterliegen.
Aus experimentellen Resultaten geht hervor, daß das Verfahren auf einen breiten Bereich von Bildern anwendbar ist, während es sehr gute Genauigkeit erreicht und hohe Robustheit gegenüber Rauschen zeigt. Große Bewegungen zwischen Bildern lassen sich handhaben und sind nur durch die im Bild vorhandenen Merkmale der lokalen Intensitätsvariation beschränkt.

Claims

1. Verfahren zur Bestimmung von Eigenbewegung zwischen zwei Bildern einer Szene, das die folgenden Schritte aufweist:

Schätzen der bei der Kameraeigenbewegung beteiligten zwei Translationsparameter und drei Rotationsparameter zwischen entsprechenden Pixeln in epipolaren Liniensegmenten in den beiden Bildern;

Berechnen der Kostenfunktion der geschätzten Bewegung; und

Revidieren des Schätzwerts und Berechnen der Kostenfunktion auf iterative Weise, um den Schätzwert zu ermitteln; der zur Kostenfunktion mit der kleinsten Güteziffer zur Verwendung als die gewünschte Eigenbewegung führt,

wobei die Kostenfunktion von der Summe quadrierter Differenzen zwischen Pixeln eines Bilds und Stichprobenpunkten entlang den angenommenen entsprechenden epipolaren Liniensegmenten im anderen Bild abhängt.

2. Verfahren zum Ableiten eines Maßes für die Kameratranslation, die zwischen zwei Bildern einer vorgegebenen Szene beteiligt ist, die eine angenommene bekannte Rotation und eine unbekannte Translation haben, mit den folgenden Schritten:

Auswählen eines Punkts A im ersten Bild;

Berechnen des entsprechenden Nulldisparitätspunkts im zweiten Bild;

Auswählen mehrerer unterschiedlicher Liniensegmente, die den Nulldisparitätspunkt durchlaufen und als möglichen Kandidaten für den Expansionsfokus orientiert sind;

Auswählen einer Anzahl von Punkten auf jedem der Liniensegmente;

Berechnen der Fehlermaße jeder der ausgewählten Linien zum Ermitteln der einen mit dem minimalen Fehler; und

Verwenden der einen mit dem minimalen Fehler zum Identifizieren des wahren Expansionsfokus.

3. Verfahren zum Ableiten eines Maßes für die Kamerarotation, die zwischen zwei Bildern einer vorgegebenen Szene beteiligt ist, die eine angenommene bekannte Translation und eine unbekannte Rotation haben, mit den folgenden Schritten:

Auswählen eines Punkts A im ersten Bild;

Berechnen des entsprechenden Nulldisparitätspunkts im zweiten Bild;

Auswählen mehrerer unterschiedlicher Liniensegmente, die die möglichen Kandidaten für Nulldisparitätspunkte durchlaufen und gemäß dem Expansionsfokus orientiert sind;

Auswählen einer Anzahl von Punkten auf jedem der Liniensegmente;

4. Verfahren nach einem der Ansprüche 1 bis 3 mit einem vorausgehenden Schritt der Normalisierung der Pixelintensitätsniveaus der beiden Bilder.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Normalisierung durch dynamische Histogrammverbiegung erfolgt.