-
Die Erfindung betrifft ein Verfahren
zur Erkennung der relativen Tiefe zwischen Objekten in einem Bild
ausgehend von zwei Bildern.
-
Der allgemeine Kontext der Erfindung
ist das Bewerten der relativen Tiefen von Objekten in Bildern, die
aus verschiedenen Aufnahmen hervorgehen, unabhängig davon, ob es sich um Bilder
handelt, die zeitlich nacheinander aufgenommen sind oder um Bilder,
die unter verschiedenen Winkeln aufgenommen wurden.
-
Das Verfahren gehört in das Feld von zahlreichen
Anwendungen, die eine semantische Analyse von Bildsequenzen erfordern.
Insbesondere im Multimediabereich erzeugt die steigende Menge audiovisueller
Daten das Bedürfnis
nach neuen Funktionalitäten
wie Interaktivität
und Integration von Objekten unterschiedlichster Art. Der neue Standard
MPEG-4 ermöglicht
es, eine Szene wie eine Zusammensetzung von Objekten darzustellen,
aber er spezifiziert nicht, auf welche Art eine Analyse der Szene
bewerkstelligt wird.
-
Herkömmliche Techniken, die in den
Rahmen dieser Erfindung passen, befassen sich mit Bereichen von Überdeckungen,
die in einer Bildsequenz erscheinen. Diese Techniken werden in einem Beispiel
der Überdeckung
im folgenden Absatz beschrieben.
-
1 zeigt
ein Beispiel einer Situation, in der eine Überdeckung auftritt. Ein Sensor,
hier durch ein Auge dargestellt, sieht zwei Objekte A und B: ein
Objekt B, welches sich nach links bewegt, überdeckt ein zweites Objekt
A, welches sich nach rechts bewegt.
-
Beim Beobachten der Bewegung, d.
h., der Verschiebung der Objekte zueinander, wird man sich bewusst,
dass sich in einer bestimmten Anzahl von Situationen ein Objekt
an einem anderen vorbei bewegt.
-
Die relative Tiefe eines Objekts
zu einem anderen ist die Tiefe im Hinblick auf die Sicht, welche ein
Beobachter beim Folgen einer Linie, die vom Auge des Beobachters
ausgeht und die Objekte der Szene durchdringt, haben kann.
-
Entlang dieser Achse gibt es Objekte,
die sich in unterschiedlichen Ebenen befinden.
-
Tatsächlich soll hier nicht die
Tiefe selber beurteilt werden, sondern es soll festgestellt werden, welches
Objekt in Bezug zu einem anderen Objekt der Szene vorne ist. Diese
Information ist für
eine bestimmte Anzahl von Anwendungen notwendig, insbesondere für das Kodieren,
wenn daraus eine Vorhersage der Bilder gemacht werden soll. Sie
ermöglicht z.
B. die Rekonstruktion des Hintergrundes eines Bildes.
-
Tatsächlich kann man, wenn die relative
Tiefe bekannt ist, die hintere Ebene eines Bildes definieren und
möglicherweise
a) diese hintere Ebene neutralisieren, oder b) sie unscharf machen, oder
c) sie durch eine andere ersetzen, oder d) die Information mit sehr
wenig Bits komprimieren und das wesentliche der Information auf
der Teil konzentrieren, der vorne ist.
-
Das Erkennen der relativen Tiefe
zwischen Objekten hat demzufolge zur Aufgabe, ein besseres Verständnis der
beobachteten Szene zu schaffen.
-
Durch Beobachten der Art, wie sich
die Objekte bewegen, und durch Feststellen, dass sie sich hinter
anderen Objekten befinden, die sich nicht bewegen oder die eine
Bewegung haben, die ihnen eigen ist, kann dann der Aufbau der Szene
definiert werden, ohne semantische Kenntnisse einzubringen, d. h.,
ohne in der Lage zu sein, die Art des Objektes zu erkennen, welches
sich in der Szene befindet.
-
Es ist nur bekannt, dass es sich
von eine Gruppe von Bestandteilen, die in Farbe und Textur homogen
sind, handelt, d. h., um homogene Bereiche, die aneinander angliedert
werden, da sie die gleiche Bewegung aufweisen. Die homogenen Bereiche
sind in Gruppen zusammengefasst, die über ihnen eigene Bewegungen
verfügen.
-
Durch Beobachten der Bewegungsgrenzen zwischen
den verschiedenen Gruppen kann ableitet werden, dass sich Gruppe
E1 lokal vor der Gruppe E2 befindet, die sich wiederum vor der Gruppe
E3 befindet.
-
Durch Integrieren dieser Informationen über die
Zeit anhand der aufeinanderfolgenden Bilder kann eine Struktur der
relativen Tiefe freilegt werden.
-
Um die relative Tiefe der Regionen
zu untersuchen, müssen
dementsprechend ihre Bewegungsgrenzen erkennt werden. Im Stand der
Technik werden diese Grenzen aufgrund einer Segmentierung der Bewegung
ermittelt.
-
Es wird daran erinnert, dass die
Segmentierung von Bildern eine bekannte Technik ist, die daraus
besteht, eine Gruppe von Pixeln in ein Mosaikbild umzuwandeln, in
der jedes zusammenhängende Teilchen
des Mosaiks über
eine Homogenität
der Farbe oder Textur (d. h. Leuchtdichte) oder der Bewegung oder
einer Kombination aus verschiedenen Kriterien verfügt. Im Fall
der Segmentierung der Bewegung verfügt jedes Mosaik über eine
Homogenität der
Bewegung.
-
Um eine Verschiebung einer Grenze
der Bewegung zu untersuchen, ist es notwendig, drei Bilder der Szene
als Eingangsinformation zu berücksichtigen.
-
Tatsächlich versuchen bestehende
Techniken, die Bewegungsgrenzen zu erkennen, vergleichen dann die
Bewegung dieser Grenzen mit der Bewegung der angrenzenden Bereiche,
um zu einem Schluss zu kommen. Um die Bewegung zu bewerten, müssen zwei
aufeinanderfolgende Bilder analysiert werden, und um die Bewegung
der Grenze zu bewerten, werden zwei aufeinanderfolgende Positionen
der Grenze benötigt,
d. h. drei zu analysierende Bilder.
-
Diese Technik wird nachstehend unter
Bezugnahme auf 2A, 2B, 2C genauer beschrieben.
-
Durch Analysieren zweier aufeinanderfolgender
Bilder I1, I2 einer Sequenz kann die Bewegung der Szene bewertet
werden. Diese Bewegung kann dazu dienen, die Szene in Objekte A,
B zu segmentieren, deren Bewegungen unabhängig sind. 2A zeigt die Bewegung der zwei Objekte
A, B sowie die Segmentierung.
-
Diese Segmentierung der Bewegung
enthält nicht
genug Informationen, um die relative Tiefe der zwei Objekte abzuleiten.
Das Analysieren der Bewegung eines zweiten Paars von Bildern I2 und I3 liefert die
fehlende Information: die beiden Segmentierungen ermöglichen
die Bewertung der Bewegung der Kontur (oder Grenze) zwischen den
zwei Objekten.
-
Der Vergleich der Bewegung der Kontur (Grenze)
mit der Bewegung der Textur (Leuchtdichte) der zwei Seiten ermöglicht das
Ableiten der relativen Tiefe: der Bereich, der die gleiche Bewegung
hat wie die Kontur, entspricht dem überdeckenden Objekt. In diesem
Beispiel zeigen die zwei aufeinanderfolgenden Segmentierungen der
Bewegung, 2A und 2B, an, dass die Kontur
sich nach links bewegt, 2C.
Da die Bewegung identisch ist mit der Bewegung des rechten Bereichs,
wird daraus geschlossen, dass das rechte Objekt das linke Objekt überdeckt.
-
In der Literatur findet man verschiedene
Ansätze,
die diese Tatsache untersuchen. Thomson, Mutch und Berzins (nachfolgend
Ziffer D14) verwenden die Paarbildung von charakteristischen Punkten, um
ein einzelnes Geschwindigkeitsfeld zu erhalten, welches die Bewegung
zwischen zwei Bildern erklärt. Danach
machen sie die Sprünge
in diesem Geschwindigkeitsfeld ausfindig. Die Analyse der zwei Geschwindigkeitsfelder
(berechnet aufgrund zweier Paare von Bildern) ermöglicht es
ihnen, die relative Tiefe abzuleiten.
-
Ein zweiter Ansatz wird beschrieben
von Darrell und Fleet (nachfolgend Ziffer D12). Dieser Ansatz segmentiert
die Szene in Ebenen mit zusammenhängender Bewegung unter ausschließlicher Verwendung
der Information der Bewegung. Die Entwicklung dieser Ebenen ermöglicht das
Bestimmen der Bewegung der Konturen, was wiederum die Bewertung
der relativen Tiefe ermöglicht.
-
Es wird weiter Bezug genommen auf
den Stand der Technik, der von den unten aufgeführten Schriften D1-D18 gebildet
wird hinsichtlich der Techniken, die beschrieben und gegenwärtig für die Aufbereitung
von Bildern gebräuchlich
sind:
- D1: S. Beucher. Segmentation d'Images et Morphologie
Mathematique, Phd thesis, E. N. S. des Mines de Paris, 1990.
- D2: J. Barron, D. Fleet and S. Beauchemin. Performance of optical
flow techniques. International Journal of Computer Vision, 12(1)
m: 43–77, 1994.
- D3: K. M. Mutch and W. B. Thompson. Analysis of accretion and
deletion at boundaries in dynamic scenes. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 7: 133–138, 1985.
- D4: E. Decenciere, C. de Fouquet and F. Meyer. Applications
of kriging to image sequence coding. Accepted for publication in
signal Processing : Image Communication, 1997.
- D5: F. Hampel, E. Ronchetti, P. Rousseeuw, and W. Stahel. Robust
Statistics – The
approach Based on Influence Function. Wiley, 1986.
- D6: P. Huber. Robust Statistics. John Wiley, New York, 1981.
- D7: Peter Meer, Doron Mintz, Dong Yoon Kim, and Azriel Rosenfeld.
Robust regression methods for computer vision. A review. International
Journal of Computer Vision, 6(1): 59–70, April 1991.
- D8: Nikhil R. Pal and Sankar K. Pal. A review on image segmentation
techniques. Pattern Recognition, 26(9): 1277–1294, 1993.
- D9: J. Y. A. Wang and E. H. Adelson. Representing moving images
with layers. The IEEE Transactions on Image Processing Special Issue
: Image Sequence compression, 3(5): 625–638, September 1994.
- D10: G. Wolberg. Digital Image Warping. IEEE Computer Press,
1990.
- D11: J. Cichosz and F. Meyer. Morphological multiscale image
segmentation. In Workshop on Image Analysis for Multimedia Interactive
Services (WIAMIS'97),
pages 161– 166,
Louvain-la-Neuve (Belgium), June 1997.
- D12: Trevor Darrel and David Fleet. Second-order method for
occlusion relationships in motion layers. Technical Report 314,
MIT Media Lab Vismod, 1995.
- D13: B. K. P. Horn and B. G. Schunck. Determining optical flow.
Artificial Intelligence, 17: 185–203, 1981.
- D14: W. B. Thompson, K. M. Mutch, and V. A. Berzins. Dynamic
occlusion analysis in optical flow fields. IEEE Transactions on
Pattern analysis and Machine Intelligence, 7: 374–383, 1985.
- D 15: Zhegyou Zhang. Parameter estimation techniques : A tutorial
with appplication to conic fitting. Technical Report 2676, Institut
National de Recherche en Informatique et en Automatique, Sophia-Antipolis
Cedex, France, October 1995.
- D16: P. Chauvet. Aide Mémoire
de géostatique
linéaire.
Ecole de Mines de Paris, 1993.
- D17: Michael J. Black and Allan D. Jepson. Estimating optical
flow in segmented images using variable-order parametric models
with local deformations. IEEE Trans. Pattern Analysis and Machine
Intelligence, 18(10): 972–986,
October 1996.
- D18: L. Bergen and F. Meyer. Segmentation du mouvement des objets
dans une scène.
In Coresa 97, 1997.
-
Die im vorausgegangenen Absatz beschriebenen
Nachteile der Technik (Schriften D12, D14) sind die folgenden:
- – Diese
Techniken gründen
vollständig
auf der Bewegung, was eine eher ungenaue Lokalisierung der Bewegungsgrenzen
mit sich bringt.
- – Diese
Techniken verwenden drei Bilder (zwei Segmentierungen der Bewegung)
zum Bestimmen der Bewegung der Konturen; die Probleme der fehlenden
Genauigkeit in der Lokalisierung der Grenzen verbreiten sich in
die Bewertung der Konturen und daraus folgend in die Erkennung der
Tiefe. Des weiteren bringt dies eine zusätzliche Verspätung für die Analyse
mit sich.
- – Des
weiteren ist der Bereich der Anwendung dieser Techniken beschränkt auf
Fälle,
in denen die Bewegung relativ groß ist.
-
Ziel der Erfindung ist das Erkennen
der relativen Tiefe zwischen Objekten ausgehend von zwei Bildern,
welches nicht die aus dem Stand der Technik bekannten Nachteile
aufweist.
-
Aus diesem Grund ist Gegenstand der
Erfindung ein Verfahren, welches, ausgehend von zwei Bildern, die
aus verschiedenen Aufnahmen einer gleichen Szene hervorgehen, in
der Lage ist, die Bewegungsgrenzen sehr genau zu erkennen und für jede Grenze
die relative Tiefe jeder angrenzenden Region zu bestimmen.
-
Nachfolgend wird unter der Bewegung
eines Punktes die Verschiebung dieses Punktes verstanden, wenn er
von einem Bild in ein anderes übergeht, wobei
diese Bilder zwei verschiedene Aufnahmen einer Szene sind, egal
ob die Aufnahmen zeitlich versetzt oder gleichzeitig, aber beispielsweise
mit einem anderen Blickwinkel sind.
-
Die Erfindung hat demgemäss genauer
als Gegenstand ein Verfahren zur Erkennung der relativen Tiefe von
zwei angrenzenden gegenseitig zueinander in relativer Bewegung befindlichen
Regionen in zwei Bildern, die aus verschiedenen Aufnahmen einer
Szene hervorgehen, insbesondere dadurch gekennzeichnet, dass es
die nachstehenden Etappen aufweist:
- – eine räumliche
Segmentierung von einem der Bilder, das als das Bezugsbild bezeichnet
wird,
- – eine
lokale Bewertung der Bewegung zwischen den beiden Bildern, wovon
das sich ergebende Vektorfeld als die lokale Bewegung bezeichnet wird,
- – eine
Bestimmung von den Fehlern der Bewertung der Bewegung entlang den
Bewegungsgrenzen, und
- – eine
Analyse der Lokalisierung von den Fehlern der Bewertung der Bewegung
entlang den Bewegungsgrenzen um festzustellen, dass sich eine Region
A vor einer Region B befindet, wenn der Fehler der Bewertung der
Bewegung entlang den Bewegungsgrenzen hauptsächlich an der Seite B von dieser
Grenze lokalisiert ist.
-
Gemäss einem anderen charakteristischen Merkmal
fährt man
nach den zwei ersten Etappen mit einer Etappe der Fusion der Regionen
fort, um Regionen mit homogener Bewegung zu erhalten.
-
Vorzugsweise wird die räumliche
Segmentierung anhand einer morphologischen Methode ausgeführt und
insbesondere anhand der Methode basierend auf der Wasserscheide.
-
Andere charakteristische Merkmale
der vorliegenden Erfindung geben Aufschluss über verschiedene Ausführungsformen
zur Bestimmung von Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen.
-
Weitere Vorteile und Besonderheiten
der Erfindung werden beim Lesen der Beschreibung offenbar, die zu
Beispielzwecken dient und nicht begrenzend ist und in der Bezug
genommen wird auf die Zeichnungsfiguren, bei welchen:
-
1 schematisch
das Phänomen
der Überdeckung
aufzeigt,
-
2A bis 2C schematisch die Etappen
der Aufbereitung von Bildern gemäß dem Stand
der Technik zeigen,
-
3A bis 3C schematisch die Etappen
der Aufbereitung von Bildern entsprechend dem erfindungsgemäßen Verfahren
aufzeigen,
-
4 schematische
Bilder darstellt, die aus den verschiedenen Etappen der Aufbereitung
der Bilder gemäß dem Verfahren
resultieren,
-
5A und 5B verschiedene Varianten
der Ausführung
zum Auswerten des Fehlers der Bewertung der Bewegung entlang den
Bewegungsgrenzen darstellt.
-
Das Verfahren gemäß der Erfindung kann ausgeführt werden
mittels eines Programms auf einem Mikro-Computer, welcher dazu in
der Lage ist, die verschiedenen Etappen auszuführen, die nachfolgend beschrieben
werden, oder durch eine zu diesem Zweck entwickelte elektronische
Vorrichtung.
-
Der Mikro-Computer (nicht dargestellt)
kann mit ein oder zwei Kameras verbunden werden, was ermöglicht,
die zwei verschiedenen Aufnahmen der Szene U, W zu erhalten, die
als Eingangsinformation in der Aufbereitungskette, die folgt, verwendet
werden, und die in der Form von Pixelmatrizen nach Nummerisation
sind.
-
Es kann selbstverständlich statt
dessen audiovisuelles Material vorgesehen werden, welches eine Aufbereitungseinheit
und vorab aufgenommene Bilder bereitstellt.
-
Zum besseren Verständnis des
folgenden wird auf 3A–3C und 4 und 5A, 5B Bezug genommen.
-
3A zeigt
die Aufbereitungskette.
-
Diese Kette umfasst zwei parallele
Aufbereitungseinheiten, von denen die eine I die räumliche Segmentierung
des einen der Bilder realisiert, z. B. des Bildes U, welches hiernach
als Bezugsbild bezeichnet wird, und die andere II ermöglicht,
eine Bewertung der Bewegung in jedem Pixel zu erhalten. Es handelt
sich um eine lokale Bewertung der Bewegung zwischen den zwei Bildern
U, W, von denen das sich ergebene Vektorfeld als die lokale Bewegung bezeichnet
wird (4).
-
Man erhält als Ergebnis dieser Aufbereitung eine
Partition P des Bildes ausgehend von der räumlichen Segmentierung und
ein Vektorfeld V der Bewegung, welches die Bewegung jedes Bildpunkts
(Pixels) ausgehend von der Bewertung der Bewegung erklärt.
-
In jeder Region der räumlichen
Segmentierung wird ein Modell der Bewegung justiert, welches bestmöglich die
allgemeine Bewegung der Region erklärt, was nachfolgend genauer
beschrieben wird.
-
Danach wird eine Etappe der Fusion
von durch die räumliche
Segmentierung erhaltenen Regionen durchgeführt, welche über ähnliche
Bewegungen verfügen
(Etappe IIbis). Dadurch wird ermöglicht,
die Bewegungsgrenzen sichtbar werden zu lassen.
-
Da die lokale Bewertung der Bewegung
eine fehlerhafte Bewertung entlang der Bewegungsgrenze ergibt, wird
danach versucht, den Fehler der Bewertung zu bestimmen, um diesen
zu lokalisieren und danach die Seite der überdeckten Regionen zu kennen,
da dieser Fehler nur auf der Seite der überdeckten Region erscheint
(Etappe III).
-
Die Kenntnis über den überdeckten Bereich führt zur
Erkennung der relativen Tiefe der zwei sich gegenseitig zueinander
in Bewegung befindlichen Regionen (Etappe IV).
-
Es wird ein Kriterium benötigt, um
den Fehler zu bestimmen (oder zu berechnen). Ein erstes ausgewähltes Kriterium
wird "Genauigkeit
der Kompensierung" genannt,
ein zweites ausgewähltes
Kriterium "Unterschiedlichkeit
der Bewegung".
-
Für
das Kriterium "Genauigkeit
der Kompensierung" fährt man
mit einer Kompensierung der Bewegung des zweiten Bildes (der Textur)
fort, entlang dem Vektorfeld V, um eine Bewertung des Bezugsbildes
zu erstellen, und man untersucht direkt die Aufteilung des Fehlen
der Kompensierung. Man kann dann wie bei den folgenden Ausführungsformen
(a, b, c) fortfahren, um herauszufinden, in welchem Streifen BFg
oder BFd der Fehler am größten ist.
-
Für
das Kriterium "Unterschiedlichkeit
der Bewegung" justiert
man ein Modell der Bewegung innerhalb jeder Region der Partition
P ausgehend vom Vektorfeld V der Bewegung.
-
Entlang jeder Bewegungsgrenze wird
ein Beobachtungsstreifen BF (oder gemäß einer anderen Variante zwei
Streifen BFg und BFd auf beiden Seiten der Grenze) errichtet.
- a) – Das
regionale Modell wird mit der lokalen Bewegung verglichen, oder,
- b) – ein
Modell der Bewegung wird bewertet ausgehend von Feld V in dem Streifen
BF, und diese Bewegung wird mit jener der angrenzenden Regionen
verglichen. Die angrenzende Region, die über die Bewegung verfügt, die
am ähnlichsten ist,
ist die, die sich vor der anderen befindet, oder,
- c) – ein
Modell der Bewegung wird bewertet ausgehend vom Feld V in den zwei
Streifen BFg und BFd. Die Region X, für welche die Bewertung in dem
Streifen BFx und die allgemeine Bewertung in Region X am meisten übereinstimmen,
ist jene, die sich vor der anderen befindet.
-
Nachfolgend wird jede Etappe des
Verfahrens in Bezug auf die 3A–3C genauer beschrieben:
- I. Die räumliche
Segmentierung ermöglicht
es, die Zusammensetzung des Bildes zu definieren durch in Farbe,
in Textur in Graustufen homogene Regionen, unabhängig von jeder Berücksichtigung
der Bewegung. Dazu ist es nicht notwendig, zwei Eingangsbilder wie
im Fall der Segmentierung der Bewegung zu haben.
Um sich von
Problemen mit Rauschen freizumachen und um ausreichend Informationen
zu haben, berücksichtigt
man die Bewegung innerhalb eines Fensters. So stellt der in der
Mitte des Fensters betroffene Vektor der Bewegung nicht die Bewegung
in diesem Punkt, sondern die dominierende Bewegung innerhalb des
Fensters dar, was eine starke Ungenauigkeit verursacht, insbesondere
entlang der Bewegungsgrenzen.
Die Grenzen, die man erhält, indem
man die Bewegung mit Methoden gemäß dem Stand der Technik segmentiert,
sind weniger genau als die Grenzen, die durch Segmentierung der
Leuchtdichte oder der Farbe enthalten werden. Das hat seinen Grund
darin, dass das Geschwindigkeitsfeld in allen Punkten bewertet werden
muss, während
die Graustufen oder die Farbe direkt in jedem Punkt gesehen werden
können
ohne vorherige Bewertung.
Die Technik der räumlichen Segmentierung ermöglicht es
beispielsweise, in der Textur homogene Regionen zu erhalten, mit
sehr genauen Grenzen, ausgehend von einem Bild U.
Die verwendete
Methode ist vorzugsweise eine Methode der morphologischen Segmentierung und
insbesondere eine Methode, welche auf dem Gradient des Bildes und
der Wasserscheide (watershed transform) beruht.
- II. Die Bewertung der Bewegung wird realisiert mittels einem
zweiten Bild W und dem ersten Bild U.
Diese Methode ermöglicht es,
ein Vektorfeld der Bewegung V zu erhalten, welches die Bewegung in
jedem Punkt des Bildes erklärt.
Vorzugsweise wird eine klassische Differentialmethode verwendet,
um diese Bewertung der Bewegung zu realisieren. Die zwei Bilder
werden vorgefiltert, um die Differentiation vorzubereiten und das
Bezugssignal für
Rauschen zu verbessern.
Da die in jedem Pixel wahrnehmbare
Information der Bewegung unvollständig ist, da nur die Komponente
der normalen Geschwindigkeit der Konturen der Iso-Leuchtdichte verfügbar ist,
integriert man diese unvollständige
Information jedes Pixels durch die Justierung eines Modells der
Bewegung in jeder Region. Man kann eine polynomische Darstellung
wählen.
Man kann gleichermaßen eine
Darstellung mit Knotenpunkten wählen.
Die Wahl der Anzahl der Knotenpunkte hängt von der Komplexität der Szene
ab.
Eine Anzahl festgelegter Knotenpunkte wird ausgewählt abhängig von
der Komplexität
der Bewegung. Die Modellierung wird bewerkstelligt, indem jedem
dieser Knotenpunkte die Bewegung zugewiesen wird, die, durch Interpolation,
die beobachtete Bewegung in jedem Pixel am besten wiedergibt. Die
Technik der Interpolation, die verwendet wird, ist eine herkömmliche
Technik, die Kriging-Verfahren genannt wird (D4, D16). Die Geschwindigkeit
in jedem Punkt einer Region ist eine lineare Funktion der Geschwindigkeiten
in den festgelegten Knotenpunkten. Es ist bekannt, dass ein Knotenpunkt
eine einfache Übertragung
liefert, drei Knotenpunkte ein verfeinertes Modell liefern und mehr
Knotenpunkte Modelle liefern, die immer komplexer werden.
-
Die Fusion der Regionen (Etappe IIbis)
wird auf wiederholte Art bewerkstelligt: bei jeder Wiederholung
sind alle Paare von angrenzenden Regionen Kandidaten für die Fusion.
Anstatt zu versuchen, die Bewegung im Raum der Parameter zu vergleichen, wird
ein neuer Satz von Parametern für
jedes der Paare berechnet und es wird die Qualität der Modellierung beurteilt.
Die Modellierung wird durch Auflösung
eines überbestimmten
linearen Systems bewerkstelligt, welches durch die von der anfänglichen robusten
Bewertung abgeleiteten Wertigkeit bewertet wird.
-
Die unterschiedlichen Etappen der
Fusion der Regionen sind die folgenden:
- 1.
Es wird ein Kriterium der Ähnlichkeit
der Bewegung festgelegt basierend auf der Qualität der Modellierung für alle Paare
von Regionen (zum Beispiel einen maximalen Wert, der nicht überschritten
werden kann),
- 2. Fusion des Paares, welches die ähnlichste Bewegung aufweist,
- 3. Kriterien der Ähnlichkeit
für alle
durch die Fusion betroffenen Regionen (das sind alle Paare von Regionen,
die eine der fusionierten Regionen beinhalteten) auf den neuesten
Stand bringen,
- 4. Wiederholung ab 2.
-
Die Fusion wird beendet, wenn das
Kriterium der Ähnlichkeit
unter einen vordefinierten Wert fällt.
-
Die folgende Etappe III des Verfahrens
besteht dann, wie bereits beschrieben, im Bestimmen (oder Beurteilen)
des Fehlers der Bewertung der Bewegung.
-
Nachfolgend werden mehrere Ausführungsformen
vorgeschlagen, um diese Bestimmung des Fehlers der Bewertung der
Bewegung durchzuführen.
Die verschiedenen Ausführungsformen
sind in 3B und 3C dargestellt.
-
Eine erste Ausführungsform beruht auf Verwendung
einer Methode zur Kompensierung der Bewegung, und zwei weitere beruhen
auf der Unterschiedlichkeit der Bewegung.
-
Die erste Ausführungsform III.1 setzt
das Kriterium "Genauigkeit
der Kompensierung" ein.
Dazu wird der Fehler der Bewertung der Bewegung durch den Vergleich
des Bezugsbilds P, d. h., des durch die räumliche Segmentierung erhaltenen
Bildes, mit dem Bild erhalten, das durch den Ausgleich der Bewegung
erhalten wird, um eine Bewertung des Bezugsbilds anhand des zweiten
Bildes zu rekonstruieren.
-
Die Techniken zur Kompensierung der
Bewegungen sind bekannte Techniken, es wird beispielsweise Bezug
genommen auf das Buch mit der Referenznummer D10.
-
Gemäß einer ersten Variante der
Ausführung ist
die Bewegung die lokale Bewegung (III-1.1(a)) in 3B.
-
Gemäß einer anderen Variante der
Ausführung
geht die Bewegung aus einem Modell hervor, das als lokales Modell
bezeichnet wird und das in einem Streifen innerhalb der lokalen
Region entlang der Grenze zwischen A und B justiert ist (III.1.2b und c).
In b werden zwei Streifen BFg und BFd berücksichtigt, in c wird nur ein
Streifen BF berücksichtigt.
-
Es könnte ein einziges lokales Modell,
bewertet innerhalb eines Streifens, der sich auf beiden Seiten der
Grenze erstreckt, verwendet werden (III-1.2c).
-
Das verwendete Modell kann zum Beispiel ein
polynomisches Modell sein. Es kann sich gleichermaßen um ein
Modell mit Knotenpunkten handeln wie die in der Schrift D4 beschriebenen
Modelle.
-
Gemäß einer zweiten Ausführungsform III.2, welches
das Kriterium der Unterschiedlichkeit der Bewegung verwendet, wird
der Fehler der Bewertung der Bewegung dadurch berechnet, dass die
Bewegung, die aus einem Modell hervorgeht, das als regionales Modell
bezeichnet wird und die Bewegung der Region darstellt, mit der lokalen
Bewegung verglichen wird (s. 3B).
-
Die Berechnung des Fehlers wird vorzugsweise
mittels einer robusten Bewertungstechnik durchgeführt.
-
Die Verwendung einer robusten Bewertungstechnik
(M-Schätzfunktion)
ist bekannt und eine solche Technik wird in den Schriften beschrieben,
zum Beispiel in D5, D6 und D7.
-
Es wird jedoch daran erinnert, dass
die robusten Bewertungstechniken, die auf die Bewertung der Parameter
eines Modells der Bewegung angewendet werden, ermöglichen,
die abweichenden Vektoren der Bewegung aufzudecken und ihren Einfluss
auf die Bewertung zu eliminieren oder zu reduzieren: es werden Parameter
erhalten, die einer Mehrheit der beobachteten Vektoren der Geschwindigkeit
entsprechen. Die robusten Techniken liefern gleichermaßen den
Fehler der Modellierung in jedem Punkt des Trägers des Modells.
-
Eine dritte Ausführungsform III.3,
welche das Kriterium "Unterschiedlichkeit
der Bewegung" verwendet,
besteht aus dem Bestimmen des Fehlers der Bewertung der Bewegung,
indem die Bewertungen der Bewegung verglichen werden, die von zwei
verschiedenen Modellen gegeben werden:
- – ein Modell,
das die Bewegung der Region darstellt und das als regionales Modell
bezeichnet wird,
- – ein
Modell, das die Bewegung eines Streifens innerhalb der lokalisierten
Region entlang der Grenze zwischen A und B darstellt und das als
lokales Modell bezeichnet wird.
-
Das regionale Modell könnte beispielsweise ein
polynomisches Modell oder ein Modell mit Knotenpunkten sein. Beispiele
solcher Modelle werden beispielsweise jeweils in der Schrift D17
und der Schrift D4 gegeben.
-
Das lokale Modell könnte zum
Beispiel polynomisch oder mit Knotenpunkten sein. Gleichermaßen könnten diese
Modelle beispielsweise wie jene sein, die jeweils in der Schrift
D17 und der Schrift D4 offengelegt sind.
-
Gemäß einer Variante der Ausführung wird ein
einziges lokales Modell innerhalb eines Streifens bewertet, der
sich auf beiden Seiten der Grenze erstreckt.
-
Gemäß den beiden letzten Ausführungsformen,
die beschrieben wurden, kann die Bewegung der Region durch Justierung
eines Modells berechnet werden, indem die Abmessungen in Abhängigkeit von
ihrem Abstand zur Grenze zwischen A und B bewertet werden (III.2.1.1 oder III.3.1.1).
-
Eine Möglichkeit besteht im Ausschließen der
Messungen, die aus einem Streifen entlang der Grenze kommen (was
einem Zuweisen von einer Wertigkeit null zu diesen Messungen während der Modellierung
entspricht).
-
Gemäß einer anderen Variante der
Ausführung
hinsichtlich dieser beiden Ausführungsformen kann
die Bewegung der Region berechnet werden durch Justierung eines
Modells, indem eine robuste Bewertungstechnik eingesetzt wird (III.2.2.1 oder III.3.1.2).
-
Die Verwendung einer robusten Bewertung liegt
im Tätigkeitsbereich
des Durchschnittsfachmanns, die Techniken sind bekannt. Es kann
zum Beispiel Bezug genommen werden auf die Schriften D5, D6 und
D7, die solche Techniken beschreiben.
-
Im Rahmen der Ausführungsform,
welche zwei Modelle verwendet, wird der Fehler der Bewertung der
Bewegung berechnet, indem die Bewegung aus dem regionalen Modell
und aus dem lokalen Modell in jedem Punkt des gemeinsamen Trägers verglichen
wird gemäß einer
ersten Variante der Ausführung
(III.2.2.1 oder II.3.2.1A).
-
Dieser Fehler der Bewertung der Bewegung kann
auch berechnet werden, indem Parameter des regionalen Modells mit
Parametern des lokalen Modells verglichen werden (III.3.2.1.B).
Der Vergleich der zwei Modelle im Raum der Parameter ist bekannt und
für einen
Durchschnittsfachmann im Rahmen dieser Ausführungsvariante leicht implementierbar. Es
kann weiter hingewiesen werden auf Schrift D9, die einen solchen
Vergleich beschreibt.
-
Gemäß einer anderen Variante der
Ausführung
wird der Fehler der Bewertung der Bewegung berechnet, indem das
regionale Modell und das lokale Modell anhand einer gemeinsamen
Modellierung verglichen werden (III.2.1.C). Eine solche
Modellierung ist bekannt. Es wird auf den bereits genannten Artikel
D18 hingewiesen.
-
Der Fehler auf Seite der überdeckten
Region ermöglicht
das Bestimmen der relativen Tiefe Etappe IV.
-
Die abweichenden Messungen, die auf
der Überdeckung
beruhen, sind um die Bewegungsgrenze angeordnet.
-
Die Summe aus allen Fehlern in den
Streifen auf beiden Seiten der Bewegungsgrenzen wird gebildet. Es
werden zwei Schwellenwerte ttief und thoch festgelegt, um einen genauen Grad der
Tiefe zu erhalten. Ein genauer Grad besteht, wenn die Summe der
Fehler einer Seite (A) unterhalb von ttief bleibt
und wenn die Summe der Fehler der anderen Seite (B) oberhalb von
thoch ist. In allen anderen Fällen kann über die
Tiefe nichts gesagt werden. Der tiefe Schwellenwert lässt einen
bestimmten Fehler auf der überdeckenden
Seite zu und der hohe Schwellenwert zeigt den kleinsten Fehler an,
der zur Bestimmung einer überdeckten
Region notwendig ist.
-
Bei dieser Form ist die Erkennung
nur für
die einfachsten Fälle
wirksam. Wenn zum Beispiel entlang der Kontur einer Region nur ein
kleiner Teil vorhanden ist, wo die Komponente der normalen Bewegung
an der Kontur nicht null ist, zeigen die Schwellenwerte an, dass
es keinen genau definierten Grad gibt. Das beruht auf der Tatsache,
dass der hohe Schwellenwert nicht überschritten wird.
-
Es wird demgemäss vorgesehen, den Streifen
in kleinere Abschnitte oder Unterstreifen aufzuteilen. Es wird dann
ein Auswahlverfahren angewendet: nur die Paare, die genau einen
Grad der Tiefe anzeigen, tragen zur Erkennung der Tiefe bei.
-
Indem dann mit den Vergleichen der
Summe der erhaltenen Werte für
jeden der Unterstreifen mit den festgelegten Schwellenwerten fortgefahren
wird, wird eine robustere Bestimmung des Grades der Tiefe verwirklicht,
da nur die Unterstreifen, die den Kriterien der Schwellenwerte entsprechen,
an der Bestimmung der Tiefe teilhaben.
-
Wie bereits beschrieben, berücksichtigt
die Bewertung der lokalen Bewegung die Bewegung innerhalb eines
Fensters. Wenn weiter das Fenster eine Bewegungsgrenze enthält, die
durch einen starken räumlichen
Gradienten markiert ist, wird die sichtbar werdende Bewegung dominiert
durch die Bewegung der Grenze. Wenn jetzt ein Punkt jeder Seite
der Grenze genommen wird: derjenige, der zu überdeckenden Region gehört, hat
die gleiche Bewegung wie die Grenze, er wird dann richtig bewertet, während der
Punkt in der überdeckten
Region schlecht bewertet wird. Dadurch wird eine Asymmetrie in der
Verteilung der Fehler der Bewertung der Bewegung zwischen den zwei
Seiten der Bewegungsgrenzen, welche einen starken räumlichen
Gradienten haben, hervorgerufen.
-
Das Verfahren gemäß der Erfindung zieht Nutzen
aus dieser Asymmetrie, um die relative Tiefe der beiden zueinander
in Bewegung befindlichen Regionen zu erkennen.
-
Dieser Effekt ist umso mehr sichtbar,
als der Kontrast der Leuchtdichte oder Chrominanz zwischen angrenzenden
Regionen stärker
ist.
-
Außerdem ist der Effekt strikt
entlang der Grenze lokalisiert. Es ist demzufolge wichtig, diesen genau
zu erkennen, was die räumliche
Segmentierung ermöglicht.
-
Schließlich benötigt das Verfahren nur zwei Eingangsbilder
im Gegensatz zu den oben beschriebenen herkömmlichen Methoden. Die Bewegungsgrenzen,
die berücksichtigt
werden, sind eine Untergruppe der Gruppe der räumlichen Grenzen.