DE69717176T2 - Korrektur der Kamerabewegung zwischen zwei Bildern - Google Patents

Korrektur der Kamerabewegung zwischen zwei Bildern

Info

Publication number
DE69717176T2
DE69717176T2 DE69717176T DE69717176T DE69717176T2 DE 69717176 T2 DE69717176 T2 DE 69717176T2 DE 69717176 T DE69717176 T DE 69717176T DE 69717176 T DE69717176 T DE 69717176T DE 69717176 T2 DE69717176 T2 DE 69717176T2
Authority
DE
Germany
Prior art keywords
image
images
motion
translation
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69717176T
Other languages
English (en)
Other versions
DE69717176D1 (de
Inventor
Ingemar J. Cox
Sebastian Roy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69717176D1 publication Critical patent/DE69717176D1/de
Application granted granted Critical
Publication of DE69717176T2 publication Critical patent/DE69717176T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Vascular Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

  • Korrektur der Kamerabewegung zwischen zwei Bildern Die Erfindung betrifft die Computervision und insbesondere die Schätzung der Eigenbewegung und Struktur einer Szene anhand zweier Bilder der Szene.
  • Die Eigenbewegungs- und Strukturschätzung anhand zweier Bilder einer Szene ist in vielen Bereichen von Nutzen, insbesondere bei der Navigation und dreidimensionalen szenischen Rekonstruktion.
  • Viel Arbeit wurde in den Versuch investiert, Kamerabewegungsparameter aus Bildpaaren wiederherzustellen. In nahezu allen Fällen kommt die optische Fluß- oder Merkmalspunktekorrespondenz als Anfangsmessungen zum Einsatz. Im ersten Fall verweisen einige optischen Flußberechnungen inhärente Probleme (Apertur, große Bewegungen usw.) darauf, daß Fehler nie auf ein zu vernachlässigendes Niveau reduziert werden können. Selbst Verfahren, die die Intensitätsableitungen direkt oder Normalfluß verwenden, leiden unter hoher Rauschanfälligkeit. Für merkmalsbasierte Verfahren ist die zuverlässige Auswahl und Verfolgung sinnvoller Merkmalspunkte allgemein sehr schwierig.
  • Eigenbewegungsverfahren des Stands der Technik bestimmen implizit oder explizit die in der Szene vorhandene Struktur. Während z. B. merkmalsbasierte Verfahren einen Bewegungsschätzwert direkt berechnen, ist die Struktur angesichts der Merkmalskorrespondenzen implizit verfügbar. Direktverfahren schätzen explizit sowohl die Eigenbewegung als auch die Struktur, normalerweise auf iterative Weise, wobei zunächst die Bewegungs- und dann die Strukturschätzwerte usw. verfeinert werden. Somit scheint eine gute Bewegungsschätzung eine gute Strukturschätzung (oder zumindest Punktkorrespondenzschätzung) zu erfordern.
  • Die US-A-5644651, die der JP-A-08-320933, veröffentlicht am 3. Dezember 1996, entspricht, beschreibt ein Verfahren zur Bestimmung der Eigenbewegung und Strukturform einer Szene anhand zweier Bilder der Szene, das auf einer Suche durch den dreidimensionalen Raum auf der Grundlage von Rotation und einer angenommenen bekannten Translation oder den zweidimensionalen Raum auf der Grundlage von Translation und einer angenommenen bekannten Rotation im Zusammenhang mit der Szene beruht. Dieses Verfahren verwendet die Eigenschaften von Intensitätshistogrammen, die entlang von epipolaren Linien berechnet werden, die man als entsprechend betrachten kann. Diese Eigenschaften hängen von der Annahme konstanter Bildhelligkeit ab, so daß man annehmen kann, daß die Histogramme entsprechender epipolarer Linien invariant und daß die Histogramme nahezu entsprechender Linien ähnlich sind, wobei die Ähnlichkeit eine Funktion der in den Bildern vorhandenen räumlichen Korrelation ist. Wegen der Eigenschaft, daß die Differenz zwischen zwei Histogrammen zweier epipolarer Linien minimal ist, wenn die beiden epipolaren Linien genau korrespondieren, und mit dem Fehlausrichtungsgrad zwischen zwei epipolaren Linien monoton steigt, kann die Rotationsbewegung zwischen den beiden Bildern bei einer dreidimensionalen epipolaren Suche einfach abgeschätzt werden, wenn die Translationsbewegung als bekannt angenommen ist. Der abgeleitete Schätzwert des Rotationsbetrags zwischen den beiden Bildern kann dann bei der Weiterverarbeitung der Bilder verwendet werden, um eine dreidimensionale Darstellung der Bildszene zu erzeugen.
  • Dieses Verfahren hat sich bei der Bildung von Schätzwerten der zwischen zwei Bildern beteiligten Rotationsbewegung als recht genau erwiesen, zeigte sich aber als relativ rauschbehaftet bei der Bereitstellung von Schätzwerten für die Translationsbewegung, und bei der vorliegenden Erfindung handelt es sich um ein Verfahren, das sowohl für Translations- als auch Rotationsschätzwerte sehr genau ist.
  • In Burger, W., et al. "A geometric constraint method for estimating 3-D camera motion", Proceedings of the International Conference on Robotics and Automation, San Diego, 8.- 13. Mai 1994, Band 2, Nr. CONF. 11, 8. Mai 1994, Institute of Electrical and Electronics Engineers, Seiten 1155-1160, XP000478462 ist ein Verfahren zur Schätzung der 3D-Kamerabewegung offenbart. Das Verfahren verwendet eine Sequenz von 2D-Bildern, schätzt die Translations- und Rotationsparameter und schätzt die Verschiebungsvektoren. Die Schätzung der Bewegung erfolgt durch Lokalisieren des Expansionsfokus (FOE), in dem man eine in Frage kommende bzw. Kandidaten-FOE-Region iterativ über alle Verschiebungsvektoren eingrenzt.
  • Die Erfindung basiert auf einem Paradigma, das als Bewegung-ohne-Struktur bezeichnet werden könnte, welches die Wiederherstellung von Eigenbewegung unabhängig von jeder Struktur- oder Korrespondenzschätzung ermöglicht. Dabei besteht der Nutzen darin, daß es genau fünf unbekannte Bewegungsparameter gibt, die zu schätzen sind. Daher wird erwartet, daß ein solcher Weg sowohl robust als auch genau sein sollte. Dies wird durch erste experimentelle Ergebnisse erhärtet.
  • Das Verfahren beruht auf der statistischen Modellierung des Bildverhaltens in der Nachbarschaft eines Punkts. Anschließend dient dieses Modell zur Schätzung der Mutmaßlichkeit einer angenommenen Kamerabewegung.
  • Die wahre Bewegungssuche zu bestimmen, ist einfach, da die zu minimierende Funktion nur ein Minimum hat (das die Lösung ist), sofern das Bild sich wohlverhält, d. h. wenn die Varianz der Intensitätsdifferenz benachbarter Intensitätspunkte mit der Entfernung zwischen den Punkten monoton steigt.
  • Das Ziel besteht in der Bestimmung der Bewegung zwischen zwei Bildern durch eine Suche über den Raum möglicher Rotationen und Translationen. Die Anzahl zu schätzender Parameter beträgt 3 für die Rotation und 2 für die Translation. Nur zwei Translationskomponenten sind nötig, da die Größe der Translation nicht geschätzt werden kann, nur ihre Richtung (wegen der Maßstabsmehrdeutigkeit). Daher wird die Translation mit Einheitsgröße angenommen, und die Translationsschätzung reduziert sich auf die Bestimmung der Translationsrichtung auf der Oberfläche einer Einheitskugel.
  • Um eine solche Suche zu ermöglichen, ist eine Kostenfunktion notwendig, die die Mutmaßlichkeit einer angenommenen Bewegung bewertet. Wesentliche Merkmale einer solchen Kostenfunktion sind: (1) Invarianz gegenüber Struktur in der Szene, (2) ein wohldefiniertes globales Minimum am korrekten Bewegungsschätzwert und (3) keine lokalen Minima oder zumindest eine lokal stetige, vorzugsweise monotone Variation als Funktion des Fehlers bei Bewegungsschätzungen.
  • Im folgenden wird eine solche strukturinvariante Bewertungsfunktion beschrieben, die eine Güteziffer auf der Grundlage einer Summenform quadrierter Differenzen ableitet. Insbesondere beruht die Güteziffer auf einer globalen Summe aus einer Summe quadrierter Fehler zwischen Pixeln eines Bilds und Stichprobenpunkten entlang den angenommenen entsprechenden epipolaren Liniensegmenten im anderen Bild. Zur Ableitung dieser Kostenfunktion wird ein einfaches statistisches Modell der lokalen Intensitätsvariation in den Bildern eingeführt. Es kann gezeigt werden, daß bei Validität eines solchen Modells die Bewertungsfunktion sowohl monoton abnimmt als auch ein einziges wohldefiniertes globales Minimum hat. Unterstützt wird dies durch experimentelle Ergebnisse zu mehreren Naturszenen.
  • Insbesondere wird beim Verfahren der Erfindung eine Schätzung gemäß der vorstehenden Diskussion vorgenommen, an der drei Rotationsparameter und zwei Translationsparameter beteiligt sind. Eine Kostenfunktion dient zur Bewertung jedes Schätzwerts, der die Summe quadrierter Differenzen zwischen Pixeln in einem Bild und entsprechenden Pixeln in hypothetisierten entsprechenden epipolaren Liniensegmenten beinhaltet. Eine Gradientenabstiegssuche dient zum Auswählen unterschiedlicher Schätzwerte, bis eine Minimalsumme erreicht ist, die allgemein das gewünschte globale Minimum ist.
  • In Fällen, in denen die Annahme konstanter Bildintensität nicht anwendbar ist, kann es erwünscht sein, dem o. g. Verfahren eine Normalisierung vorauszuschicken. Vorteilhaft kann die Normalisierung durch die dynamische Histogrammverbiegungstechnik erfolgen.
  • Die Lehren der Erfindung gehen aus der nachfolgenden näheren Beschreibung im Zusammenhang mit den beigefügten Zeichnungen leicht verständlich hervor. Es zeigen:
  • Fig. 1 zwei Bilder einer Szene, die eine Bewegung erfahren haben, wobei Bild B die Ortskurve der möglichen Positionen eines in Bild A gezeigten Punkt zeigt;
  • Fig. 2A und 2B die Fehlerfunktion für zwei Segmente u und v für den Fall unbekannter Translation bzw. unbekannter Rotation; und
  • Fig. 3 einen Ablaufplan des Verfahrens der Erfindung.
  • Ein einfaches statistisches Modell wird zur Darstellung des Bildverhaltens um einen Punkt verwendet. Man betrachte die Intensitätsverteilung in der Nachbarschaft eines bestimmten Punkts in einem Einzelbild A. Angenommen sei, daß die Wahrscheinlichkeit eines Punkts IA( + ) mit einer Intensität a abhängig von einem vorgegebenen Punkt mit einer Intensität b eine Normalverteilung unter der Annahme hat, daß die Entfernung zwischen den beiden Punkten hinreichend klein ist. Somit ergibt sich
  • wobei
  • eine Gaußsche Verteilung mit dem Mittelwert b und der Varianz σ²( ) ist. Die Varianz σ²( ) ist eine Funktion der Entfernung . Diese Eigenschaft hängt intuitiv mit der in einer Szene vorhandenen Korrelation zusammen und wird als nächstes experimentell verifiziert.
  • Für ein bestimmtes Bild lassen sich die Parameter der Verteilungen bewerten, d. h. σ²( ) für alle möglichen Abstände innerhalb einer ausgewählten Nachbarschaft. Für einen vorgegebenen soll die Verteilung der Stichproben
  • bewertet werden, die über alle -Punkte im Bild durchgeführt sind. Zu beachten ist, daß das Mittel dieser Stichprobe stets 0 beträgt. Die Varianz σ²( ) erhält man aus den Stichproben als
  • wobei n die Anzahl durchgeführter Stichproben ist.
  • Sobald die Varianz für alle so geschätzt ist, daß ≤ rmax ist, wobei rmax die Maximalgröße der Nachbarschaft ist, liegt eine brauchbare globale statistische Maßzahl vor, die das lokale Verhalten von Bildintensitäten beschreibt. Diese statistische Maßzahl bestimmt sich experimentell durch direktes Messen der Verteilung von Intensitätswerten in der Nachbarschaft aller Pixel in einem Bild. Festgestellt wurde, daß für das typische Naturbild die Varianz annähernd monoton mit der Entfernung zunimmt, wobei ein einzelnes Minimum bei = (0, 0) zentriert ist. Diese Eigenschaft wird zur Ableitung eines Mutmaßlichkeitsmaßes genutzt. Während die Beziehung zwischen Varianz und Entfernung monoton steigt, ist sie nicht isotrop, was darauf verweist, daß Intensitäten in bestimmten Richtungen stärker korrelieren.
  • Nunmehr kann mit der Entwicklung einer tiefeninvarianten Kostenfunktion fortgefahren werden. Ist die Rotation bekannt, muß die Mutmaßlichkeit einer angenommenen Translation T bewertet werden, was umgekehrt für die Rotation R gilt. Gemäß Fig. 1 kann man für einen vorgegebenen Punkt IA( ) im Bild A und eine Kamerabewegung den entsprechenden Punkt IB( ) (den Nulldisparitätspunkt) im Bild B, der unendliche Tiefe hat, sowie den Expansionsfokus (FOE) berechnen. Eine bekannte Translation, aber unbekannte Rotation bedeutet, daß der FOE bekannt ist, aber der Punkt IB( ) eine unbekannte Lage hat. Umgekehrt bedeutet eine bekannte Rotation, aber unbekannte Translation, daß der entsprechende Punkt IB( ) im Bild B bekannt ist, die Lage des FOE aber nicht. Da die wirkliche Tiefe des Punkts IA( ) unbekannt ist, kann nur angenommen werden, daß der tatsächliche entsprechende Punkt IB( ) irgendwo in der Nachbarschaft des Punkts IB( ) je nach der unbekannten Tiefe z liegt. Tatsächlich liegt er stets auf der Linie, die den wahren Punkt IB( ) und den wahren Expansionsfokus verbindet. Da die Punkte IA( ) und (der unbekannte) IB( ) korrespondieren, sollte die Varianzfunktion um IB( ) mit der von IA( ) identisch sein.
  • Für den Fall der unbekannten Translation wird ein Liniensegment u mit der Länge rmax beginnend am Nulldisparitätspunkt IB( ) ausgewählt und zum Kandidaten-FOE orientiert. Der Wert von rmax ist so ausgewählt, daß er die erwartete Maximaldisparität widerspiegelt. Ein Kandidaten-FOE liefert eine Kandidatentranslation und umgekehrt. Wählt man eine Anzahl von Stichprobenintensitätswerten ui entlang dem Segment u aus und definiert das Fehlermaß eu als
  • eu = (ui - IA( ))² (3),
  • so wird eu minimal, wenn das Segment u IB( ) und enthält und somit zum FOE weist. Dieses Minimum existiert und ist eindeutig, wenn sich die Varianzfunktion der Bilder wohlverhält. Im folgenden wird dies näher diskutiert.
  • Jetzt kann diese Eigenschaft verwendet werden, um abzuschätzen, ob ein Kandidaten-FOE günstig ist. Wählt man eine Anzahl von Punkten IA( ) aus und berechnet die Summe der einzelnen Liniensegment-Fehlermaße eqi, wobei qi das bei IA( ) beginnende und zum Kandidaten-FOE weisende Segment ist, erwartet man, daß all diese Fehlermaße gleichzeitig minimal sind, wenn dieser Kandidaten-FOE wirklich der wahre FOE ist. Somit dient die Summe der einzelnen Liniensegment-Fehlermaße S = Σeqi als globaler Schätzwert der Mutmaßlichkeit des FOE. Im Fall sich wohlverhaltender Bilder erwartet man nur ein Minimum und kann eine einfache Suche nach dem genauen FOE auf der Grundlage von Gradientenabstieg durchführen.
  • Dieses Modell läßt sich leicht ändern, um die Rotation zu schätzen, indem der FOE fixiert wird (bekannte Translation) und Kandidatenpunkte IB( ) in Zuordnung zu Kandidatenrotationen gewählt werden.
  • Um erfolgreich über den Bewegungsraum zu suchen, muß die Kostenfunktion ein wohldefiniertes globales Minimum und wenige, falls überhaupt, lokale Minima haben. Es läßt sich zeigen, daß für eine bekannte Rotation der Translationssuchraum nur ein einzelnes globales Minimum hat, setzt man gleichmäßige und monotone Bildintensitätskorrelation voraus. Umgekehrt gilt dies ebenfalls. In beiden diesen Fällen gibt es keinerlei Problem mit Rotations-/Translationsmehrdeutigkeit, was bei der vollen 5D-Suche der Fall ist.
  • Eine zweite Bedingung für die erfolgreiche Suche lautet, daß die Konvergenzregion groß sein sollte, um eine leichte Auswahl eines Anfangssuchpunkts zu ermöglichen. Diese Region (und die allgemeine Stetigkeit der Funktion) sollte aus den statistischen Maßzahlen für die lokale Bildintensität ableitbar sein. Qualitativ ist klar, daß hochfrequente Intensitätsvariationen keine breite Konvergenzregion zulassen (wegen Mehrdeutigkeiten), während niederfrequente Variationen viel größere Bewegungen ermöglichen.
  • Nunmehr wird gezeigt, daß für sich wohlverhaltende Bilder ein einziges Minimum des Fehlermaßes eu von Gleichung 3 beobachtet wird, wenn ein Segment u IB( ) enthält und den wahren Nulldisparitätspunkt und den wahren FOE verbindet. Ein sich wohlverhaltendes Bild ist hierbei als Bild definiert, das eine monoton steigende Varianzfunktion hat. Da diese Funktion definitionsgemäß stets ein globales Minimum bei (0, 0) hat, genügt diese Bedingung, um zu gewährleisten, daß die Mutmaßlichkeitsfunktion ein eindeutiges Minimum besitzt. Dies wird als nächstes demonstriert.
  • Man betrachte ein Segment u in der Nachbarschaft von , das bei beginnt und n Stichprobenintensitäten gemäß Fig. 2A enthält. Anhand der Verteilungseigenschaft läßt sich dann sagen, daß sich jede Stichprobe wie eine Zufallsvariable ui mit der Verteilung
  • verhält, wobei die Entfernung (x, y) von der Stichprobe ui zur Position ist, der unbekannten Lage des entsprechenden Punkts zu IA( ). Nach Gleichung 3 ist das Fehlermaß eu eine als
  • eu = (ui - IA( ))²
  • definierte Zufallsvariable mit einem Erwartungswert, der definiert ist als
  • Angenommen sei, daß jetzt ein zweites Segment v genommen wird, das auch bei , aber näher am Punkt beginnt. Ein Satz von Stichproben vi wird mit der gleichen Stichprobenahme wie beim Segment u ausgewählt. Das Fehlermaß eu ist als Zufallsvariable
  • eu = (vi - IA( ))² ,
  • definiert, die einen Erwartungswert
  • E(eu) = σ²( vi)
  • hat, wobei die Entfernung (x, y) von der Stichprobe v zur Position ist. Jetzt soll gezeigt werden, daß die Erwartung von eu stets kleiner als E(eu) ist. Zunächst ist es einfach zu erkennen, daß
  • vi < vi , i.
  • Daraus folgt, daß
  • ist, was zeigt, daß mit stärkerer Annäherung an das IB( ) enthaltende Segment der erwartete Fehlerwert kleiner wird, bis er ein Minimum erreicht, wenn der Kandidaten-FOE dem wahren FOE entspricht. Solange die Varianzfunktion monoton ist, existiert garantiert dieses Minimum und ist eindeutig.
  • Der gleiche Verfahrensablauf läßt sich für die Rotationsschätzung anwenden, indem einfach der FOE und der Nulldisparitätspunkt ausgetauscht werden.
  • In Fig. 3 ist ein Ablaufplan des Verfahrens gezeigt. Gemäß Block 31 kann in jenen Fällen, in denen eine große Differenz der Intensitätsniveaus zwischen den beiden zu vergleichenden Bildern aufgrund von Kameraeinstellungen oder variierenden Beleuchtungsbedingungen vorliegt, die Ermittlung des gewünschten globalen Minimums in der verwendeten Kostenfunktion beschleunigt werden, wenn die Intensitätsniveaus der beiden Rahmen normalisiert werden. Die dynamische Histogrammverbiegung ist eine bekannte Technik zur Normalisierung. Bei dieser Technik werden Histogramme der Intensitätsniveaus eines oder beider Bilder so erstellt, daß die Peaks in den beiden Histogrammen etwa auf den gleichen Intensitätsniveaus auftreten. Alternativ kann jede andere geeignete Normalisierungstechnik, z. B. Histogrammspezifizierung, verwendet werden.
  • Sobald eine solche Normalisierung erfolgt ist, werden im nächsten Schritt 32 die fünf Parameter geschätzt, die einer angenommenen Kamerabewegung entsprechen. Im nächsten Schritt 33 wird die Güteziffer der angenommenen Bewegung auf die Weise berechnet, bei der die Summe quadratischer Differenzen epipolarer Segmente zum Einsatz kommt.
  • Das Verfahren fährt unter Replizierung der Schritte 32 und 33 bis zur Ermittlung eines Minimums fort, was als Schritt 34 dargestellt ist. Anschließende Schätzwerte werden unter Verwendung der bekannten Gradientenabstiegstechnik gemäß Schritt 35 ausgewählt.
  • Die Suche wird auf einem gradientenbasierten Weg realisiert. Berechnet wird eine Näherung an den Gradienten durch Vergleichen von Werten der Funktion um einen vorgegebenen Punkt in allen Dimensionen. Die verwendeten Schritte betragen ±5º auf der Einheitskugel für die Translation und ±1º für die Rotation. Danach wird dieser Näherungsgradient auf 0,02º bis 0,1º normalisiert, was dann zum Aktualisieren des derzeitigen Minimums dient. Gewöhnlich benötigt das Verfahren rund 60 bis 100 Iterationen, um zur Lösung zu konvergieren. Erwartet wird, daß erhebliche Verbesserungen an diesem Suchverfahren vorgenommen werden könnten, da sich bisher noch nicht auf Geschwindigkeit konzentriert wurde.
  • Da eine Gradientenabstiegstechnik zur Lösungsermittlung genutzt wird, ist der Anfangsschätzwert sehr wichtig. In allen durchgeführten Experimenten wurde darauf geachtet, realistische Anfangsschätzwerte auszuwählen, d. h. möglichst anhand der Lösung, während das aus der Bildtextur abgeleitete Konvergenzkriterium berücksichtigt wurde. Wichtig ist zu beachten, daß in den meisten praktischen Situationen bei Bewegungsverfolgung die Bewegungsparameter aus dem vorhergehenden Bild als Anfangsschätzwert für das nächste Bild verwendet werden sollten, was vorteilhaft die Tatsache nutzt, daß sich Bewegung in der Tendenz ähnelt, was schnellere Konvergenz ermöglicht. Außer wenn er völlig außerhalb der Konvergenzregion liegt, wirkt sich der Anfangsschätzwert lediglich auf die Konvergenzgeschwindigkeit zur Lösung aus.
  • Normalerweise werden bis zu 25 Stichproben entlang jedem hypothetisierten entsprechenden Segment genommen und in Gleichung 2 zur Mutmaßlichkeitsberechnung verwendet. Für die meisten Bilder sind nur wenige Hundert Punkte nötig, um brauchbare Ergebnisse zu erzeugen, die sich zur Ermittlung eines guten Schätzwerts schnell nutzen lassen. Durch Erhöhen der Anzahl verwendeter Punkte steigt auch die Schätzgenauigkeit.
  • Die Bewertungsfunktion für jede hypothetisierte Bewegung beruht nicht auf Bildgradienten und besteht aus der Akkumulation einer großen Menge von Intensitätsdifferenzinformationen. Daher wird erwartet, daß dieses Maß sehr robust gegenüber Rauschen ist, d. h. auch unter verrauschten Bedingungen wird eine gute Genauigkeit erwartet.
  • Aus den experimentellen Ergebnissen geht hervor, daß die Beziehung zwischen dem Bildrauschwert und dem Rotationswinkelfehler annähernd linear ist, was bedeutet, daß eine Verdoppelung des Bildrauschens zu einer Verdoppelung des Fehlers beim geschätzten Rotationswinkel führt.
  • Diese Ergebnisse zeigen klar, daß die Technik gegenüber unkorreliertem Rauschen sehr widerstandsfähig ist. Vermutlich funktioniert sie nicht so gut bei korreliertem Rauschen, z. B. bei einer einzelnen Kamera mit verschmutzter Linse.
  • Vorgestellt wird ein neues Paradigma zur Ermittlung der im vollen Gang befindlichen Bewegung zwischen zwei Bildern. Das Herangehen wird als "Bewegung ohne Struktur" bezeichnet, da es keiner Berechnung strukturbezogener Informationen der Szene bedarf. Das Problem der Bewegungsanalyse stellt sich als eine Suche im Raum möglicher Bewegungen und ein entwickeltes Mutmaßlichkeitsmaß, das eine hypothetisierte Bewegung auf der Grundlage der Summe quadrierter Differenzen zwischen Punkten in einem Bild und ihren entsprechenden epipolaren Segmenten im anderen bewertet.
  • Gezeigt wurde, daß diese Mutmaßlichkeitsfunktion genau ein globales Minimum für die Fälle bekannter Rotation oder bekannter Translation aufweist, sofern sich die Bilder wohlverhalten, d. h. daß die Varianz der Intensitätsdifferenz zwischen zwei Punkten eine monoton steigende Funktion ihrer Entfernung voneinander ist. Im Fall der im vollen Gang befindlichen Bewegung existiert auch ein eindeutiges globales Minimum, kann aber der bekannten Mehrdeutigkeit zwischen Rotations- und Translationsbewegung unterliegen.
  • Aus experimentellen Resultaten geht hervor, daß das Verfahren auf einen breiten Bereich von Bildern anwendbar ist, während es sehr gute Genauigkeit erreicht und hohe Robustheit gegenüber Rauschen zeigt. Große Bewegungen zwischen Bildern lassen sich handhaben und sind nur durch die im Bild vorhandenen Merkmale der lokalen Intensitätsvariation beschränkt.

Claims (5)

1. Verfahren zur Bestimmung von Eigenbewegung zwischen zwei Bildern einer Szene, das die folgenden Schritte aufweist:
Schätzen der bei der Kameraeigenbewegung beteiligten zwei Translationsparameter und drei Rotationsparameter zwischen entsprechenden Pixeln in epipolaren Liniensegmenten in den beiden Bildern;
Berechnen der Kostenfunktion der geschätzten Bewegung; und
Revidieren des Schätzwerts und Berechnen der Kostenfunktion auf iterative Weise, um den Schätzwert zu ermitteln; der zur Kostenfunktion mit der kleinsten Güteziffer zur Verwendung als die gewünschte Eigenbewegung führt,
wobei die Kostenfunktion von der Summe quadrierter Differenzen zwischen Pixeln eines Bilds und Stichprobenpunkten entlang den angenommenen entsprechenden epipolaren Liniensegmenten im anderen Bild abhängt.
2. Verfahren zum Ableiten eines Maßes für die Kameratranslation, die zwischen zwei Bildern einer vorgegebenen Szene beteiligt ist, die eine angenommene bekannte Rotation und eine unbekannte Translation haben, mit den folgenden Schritten:
Auswählen eines Punkts A im ersten Bild;
Berechnen des entsprechenden Nulldisparitätspunkts im zweiten Bild;
Auswählen mehrerer unterschiedlicher Liniensegmente, die den Nulldisparitätspunkt durchlaufen und als möglichen Kandidaten für den Expansionsfokus orientiert sind;
Auswählen einer Anzahl von Punkten auf jedem der Liniensegmente;
Berechnen der Fehlermaße jeder der ausgewählten Linien zum Ermitteln der einen mit dem minimalen Fehler; und
Verwenden der einen mit dem minimalen Fehler zum Identifizieren des wahren Expansionsfokus.
3. Verfahren zum Ableiten eines Maßes für die Kamerarotation, die zwischen zwei Bildern einer vorgegebenen Szene beteiligt ist, die eine angenommene bekannte Translation und eine unbekannte Rotation haben, mit den folgenden Schritten:
Auswählen eines Punkts A im ersten Bild;
Berechnen des entsprechenden Nulldisparitätspunkts im zweiten Bild;
Auswählen mehrerer unterschiedlicher Liniensegmente, die die möglichen Kandidaten für Nulldisparitätspunkte durchlaufen und gemäß dem Expansionsfokus orientiert sind;
Auswählen einer Anzahl von Punkten auf jedem der Liniensegmente;
Berechnen der Fehlermaße jeder der ausgewählten Linien zum Ermitteln der einen mit dem minimalen Fehler; und
Verwenden der einen mit dem minimalen Fehler zum Identifizieren des wahren Expansionsfokus.
4. Verfahren nach einem der Ansprüche 1 bis 3 mit einem vorausgehenden Schritt der Normalisierung der Pixelintensitätsniveaus der beiden Bilder.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Normalisierung durch dynamische Histogrammverbiegung erfolgt.
DE69717176T 1996-01-26 1997-01-27 Korrektur der Kamerabewegung zwischen zwei Bildern Expired - Lifetime DE69717176T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/592,249 US5751838A (en) 1996-01-26 1996-01-26 Correction of camera motion between two image frames

Publications (2)

Publication Number Publication Date
DE69717176D1 DE69717176D1 (de) 2003-01-02
DE69717176T2 true DE69717176T2 (de) 2003-04-30

Family

ID=24369920

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69717176T Expired - Lifetime DE69717176T2 (de) 1996-01-26 1997-01-27 Korrektur der Kamerabewegung zwischen zwei Bildern

Country Status (4)

Country Link
US (1) US5751838A (de)
EP (1) EP0786739B1 (de)
JP (1) JPH09219814A (de)
DE (1) DE69717176T2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864366A (en) * 1997-02-05 1999-01-26 International Business Machines Corporation System and method for selecting video information with intensity difference
US6009210A (en) * 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
JP3660492B2 (ja) * 1998-01-27 2005-06-15 株式会社東芝 物体検知装置
DE19860038C1 (de) * 1998-12-23 2000-06-29 Siemens Ag Verfahren zur Bewegungskorrektur bei Serien von Bildern eines starren Körpers
CA2359637A1 (en) * 1999-01-26 2000-07-27 Stephen F. Fulghum, Jr. Autofluorescence imaging system for endoscopy
US6507661B1 (en) * 1999-04-20 2003-01-14 Nec Research Institute, Inc. Method for estimating optical flow
US6307959B1 (en) 1999-07-14 2001-10-23 Sarnoff Corporation Method and apparatus for estimating scene structure and ego-motion from multiple images of a scene using correlation
AU1793301A (en) * 1999-11-26 2001-06-04 Mobileye, Inc. System and method for estimating ego-motion of a moving vehicle using successiveimages recorded along the vehicle's path of motion
US7058903B1 (en) 2000-02-11 2006-06-06 Sony Corporation Image database jog/shuttle search
US7262778B1 (en) 2000-02-11 2007-08-28 Sony Corporation Automatic color adjustment of a template design
US7136528B2 (en) 2000-02-11 2006-11-14 Sony Corporation System and method for editing digital images
US6567469B1 (en) 2000-03-23 2003-05-20 Koninklijke Philips Electronics N.V. Motion estimation algorithm suitable for H.261 videoconferencing applications
US20020073143A1 (en) * 2000-08-31 2002-06-13 Edwards Eric D. File archive and media transfer system with user notification
JP4159794B2 (ja) * 2001-05-02 2008-10-01 本田技研工業株式会社 画像処理装置及び方法
JP4602983B2 (ja) * 2003-05-09 2010-12-22 アビッド テクノロジー インコーポレイテッド 構造化透かしの埋め込み及び検出のための方法及び装置
US7567731B2 (en) 2004-07-15 2009-07-28 Harris Corporation Method and system for simultaneously registering multi-dimensional topographical points
US20060215036A1 (en) * 2005-03-25 2006-09-28 Multivision Intelligent Surveillance (Hk) Ltd. Method and apparatus for video stabilization
EP1811457A1 (de) * 2006-01-20 2007-07-25 BRITISH TELECOMMUNICATIONS public limited company Videosignalanalyse
US8300887B2 (en) * 2007-05-10 2012-10-30 Honda Motor Co., Ltd. Object detection apparatus, object detection method and object detection program
US8477246B2 (en) * 2008-07-11 2013-07-02 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and devices for augmenting video content
US8320606B1 (en) 2008-08-29 2012-11-27 Adobe Systems Incorporated Video watermarking with fast detection
US9805473B2 (en) * 2008-09-19 2017-10-31 Siemens Healthcare Gmbh Method and system for segmentation of brain structures in 3D magnetic resonance images
US8385590B1 (en) 2008-11-05 2013-02-26 Adobe Systems Incorporated Video watermarking with temporal patterns
US8213673B2 (en) * 2009-06-09 2012-07-03 Avio Technology, Inc. Watermarking of motion pictures
US9025841B2 (en) * 2009-11-18 2015-05-05 Siemens Aktiengesellschaft Method and system for segmentation of the prostate in 3D magnetic resonance images
EP2352127A1 (de) * 2009-12-04 2011-08-03 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Kamerabewegungsschätzung
US20110268365A1 (en) * 2010-04-30 2011-11-03 Acer Incorporated 3d hand posture recognition system and vision based hand posture recognition method thereof
CN105284122B (zh) * 2014-01-24 2018-12-04 Sk 普兰尼特有限公司 用于通过使用帧聚类来插入广告的装置和方法
IL233684B (en) 2014-07-17 2018-01-31 Shamir Hanan Stabilizing and displaying remote images
US20240370971A1 (en) * 2023-05-05 2024-11-07 Nvidia Corporation Image stitching with ego-motion compensated camera calibration for surround view visualization
US12524960B2 (en) 2023-07-14 2026-01-13 Nvidia Corporation Spatial masking for stitched images and surround view visualizations

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5259040A (en) * 1991-10-04 1993-11-02 David Sarnoff Research Center, Inc. Method for determining sensor motion and scene structure and image processing system therefor
US5611000A (en) * 1994-02-22 1997-03-11 Digital Equipment Corporation Spline-based image registration
US5436672A (en) * 1994-05-27 1995-07-25 Symah Vision Video processing system for modifying a zone in successive images

Also Published As

Publication number Publication date
EP0786739B1 (de) 2002-11-20
EP0786739A2 (de) 1997-07-30
EP0786739A3 (de) 1998-04-01
JPH09219814A (ja) 1997-08-19
US5751838A (en) 1998-05-12
DE69717176D1 (de) 2003-01-02

Similar Documents

Publication Publication Date Title
DE69717176T2 (de) Korrektur der Kamerabewegung zwischen zwei Bildern
DE69624614T2 (de) Verfahren zur Stereoübereinstimmungs- und Ungleichheitsmessung
DE69231812T2 (de) Verfahren zur bestimmung von fuehlerbewegung und szenenstruktur und bildverarbeitungssystem dafuer
DE69625423T2 (de) Vorrichtung zur Erkennung eines Objektes, in welchem die Position eines ebenen Objektes mit Hilfe einer Houghtransformation geschätzt wird
DE69511620T2 (de) Videoverarbeitungssystem
DE69512709T2 (de) Verfahren zur Stereoübereinstimmung und Umgleichheitsmessung
DE60209262T2 (de) Verfahren und Vorrichtung zur Bildangleichung
DE69922183T2 (de) Gesichtserkennung aus videobildern
EP3980968B1 (de) Detektion, 3d-rekonstruktion und nachverfolgung von mehreren relativ zueinander bewegten starren objekten
DE102016209625A1 (de) Verfahren zur Auswertung von Bilddaten einer Fahrzeugkamera
DE69427801T2 (de) Verfahren und Gerät zur Bestimmung von Bewegungsvektorfelden durch die Unterdrückung lokaler Abweichungen
DE102017223559B4 (de) Vorrichtung zum fokussieren einer kamera und steuerverfahren für diese
DE102021102233B4 (de) Vorrichtung und Verfahren zur Korrespondenzanalyse in Bildern
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
DE112016005905B4 (de) Verfahren und System zum Verschmelzen erfasster Messungen
DE112016000356T5 (de) Selbstrektifizierung von Stereokameras
JP3080141B2 (ja) 三次元画像の評価方法
EP1065628A1 (de) Optische 3-D Messung mit mehreren Näherungspunkten
DE102018123402A1 (de) Bildunschärfekorrekturvorrichtung und steuerverfahren
DE102015115786A1 (de) Doppler-basierte Segmentierung und optischer Fluss in Radarbildern
EP0414113B1 (de) Verfahren zur Bewegungskompensation in einem Bewegtbildcoder oder -decoder
DE69331542T2 (de) Ein maschinelles verfahren zur kompensation von nichtlinearen bildwandlungen, z.b. zoom und pan, in einem videobildbewegungskompensierten system
DE69008637T2 (de) Iteratives Bewegungsabschätzungsverfahren zwischen einem Referenzbild und einem aktuellen Bild, und Verfahren zu ihrer Herstellung.
EP1098268A2 (de) Verfahren zur dreidimensionalen optischen Vermessung von Objektoberflächen
DE3049397A1 (de) Verfahren und vorrichtung zum scharf-einstellen von fotographischen apparaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition